CN103218372A - 一种聚合信息的方法和装置 - Google Patents

一种聚合信息的方法和装置 Download PDF

Info

Publication number
CN103218372A
CN103218372A CN2012100189404A CN201210018940A CN103218372A CN 103218372 A CN103218372 A CN 103218372A CN 2012100189404 A CN2012100189404 A CN 2012100189404A CN 201210018940 A CN201210018940 A CN 201210018940A CN 103218372 A CN103218372 A CN 103218372A
Authority
CN
China
Prior art keywords
information
distance
text
location tags
equal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100189404A
Other languages
English (en)
Other versions
CN103218372B (zh
Inventor
黄波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Original Assignee
Huawei Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Co Ltd filed Critical Huawei Device Co Ltd
Priority to CN201210018940.4A priority Critical patent/CN103218372B/zh
Priority to PCT/CN2013/070146 priority patent/WO2013107308A1/zh
Publication of CN103218372A publication Critical patent/CN103218372A/zh
Application granted granted Critical
Publication of CN103218372B publication Critical patent/CN103218372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种聚合信息的方法和装置,属于信息识别领域。所述方法包括:获取待聚合的文本;获取所述文本中信息量的位置标签;根据所述位置标签,计算每两个信息量之间的距离;当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,其中,所述第一距离为所述信息量中第一信息量与第二信息量之间的距离,所述第二距离为所述信息量中所述第一信息量与第三信息量之间的距离;将所述信息量根据所述修正后的第一距离、第二距离进行聚合,获得结构体。该装置包括:文本获取模块、位置标签获取模块、计算模块、修正模块和聚合模块。

Description

一种聚合信息的方法和装置
技术领域
本发明涉及信息识别领域,特别涉及一种聚合信息的方法和装置。
背景技术
信息聚合是将具有内在联系的不同信息组合成一个结构体,例如人名、电话号码、邮件地址,如果这些信息都是属于某个人的资料,那么就可以将该人名、电话号码、邮件地址组成一个大的信息块,而形成一个结构体:(人名,电话号码,邮件地址)。利用信息聚合技术,可以为用户提供多来源信息的一站式的个性化服务。
信息的聚合是信息提取模块的重要组成部分,而利用一种可量化的标准聚合信息是信息聚合的核心工作。选用不同的衡量准则会影响到信息聚合的效果,从而影响到信息提取的最终结果。信息聚合的常用方法是位置标签方法,位置标签方法对文本中的词汇进行定位,使得每个信息量在文本中都有惟一的位置标签,然后利用这个位置标签获取一个距离,这个距离就作为两个信息量之间远近关系的衡量准则,则可根据该经过量化的远近关系对信息量进行聚合,得到结构体。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
现有技术中的位置标签方法提供了信息量间的一个量化的标准,其仅关注了信息量的位置以及信息量之间的距离,并根据经过量化的远近关系也即是距离进行聚合,但是当信息量的前后各有一个与之距离相等的信息量时,位置标签方法中未提出严谨的解决方案,如果随机的进行聚合,信息量与前一个信息量、信息量与后一个信息量可能获得完全不同的聚合结果,而由于忽视了信息量的语法结构,获得的聚合结果可能不准确,错过了有用信息量,而将错误的信息量提供给后续的信息提取过程,聚合准确性不高。
发明内容
本发明实施例提供了一种聚合信息的方法和装置。所述技术方案如下:
一种聚合信息的方法,所述方法包括:
获取待聚合的文本;
获取所述文本中信息量的位置标签;
根据所述位置标签,计算每两个信息量之间的距离;
当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,其中,所述第一距离为所述信息量中第一信息量与第二信息量之间的距离,所述第二距离为所述信息量中所述第一信息量与第三信息量之间的距离;
将所述信息量根据所述修正后的第一距离、第二距离进行聚合,获得结构体。
一种聚合信息的装置,所述装置包括:
文本获取模块,用于获取待聚合的文本;
位置标签获取模块,用于获取所述文本中信息量的位置标签;
计算模块,用于根据所述位置标签,计算每两个信息量之间的距离;
修正模块,用于当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,其中,所述第一距离为所述信息量中第一信息量与第二信息量之间的距离,所述第二距离为所述信息量中所述第一信息量与第三信息量之间的距离;
聚合模块,用于将所述信息量根据所述修正后的第一距离、第二距离进行聚合,获得结构体。
本发明实施例提供了一种聚合信息的方法和装置,通过获取所述文本中信息量的位置标签;根据所述位置标签,计算每两个信息量之间的距离;当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,其中,所述第一距离为所述信息量中第一信息量与第二信息量之间的距离,所述第二距离为所述信息量中所述第一信息量与第三信息量之间的距离;将所述信息量根据所述修正后的第一距离、第二距离进行聚合,获得结构体。该技术方案通过当信息量之间的距离出现相等的情况时,根据语法结构对距离进行修正,并根据修正后的距离对信息量进行聚合,在根据位置标签进行聚合的基础上兼顾了语法结构,提升了信息聚合的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种聚合信息的方法的流程图;
图2是本发明实施例提供的一种聚合信息的方法的流程图;
图3是本发明实施例提供的一种聚合信息的装置的结构示意图;
图4是本发明实施例提供的一种聚合信息的装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种聚合信息的方法的流程图。该实施例可以在包括手机,个人计算机和平板电脑等终端上实现,也可以应用于终端设备或服务器,例如,终端设备监测用户的邮件或者短信息,来自动实现对其中用户关注的信息的聚合。参见图1,该实施例具体包括:
101、获取待聚合的文本。
本实施例中,文本可以是包括字符串、标点符号和换行符等的数据。
需要说明的是,该文本可以是终端当前接收到的文本,也可以是由终端用户指定的已经保存在终端的文本。本实施例仅以该文本为终端当前接收到的文本为例进行说明。该文本可以是用户的邮件或者短信息,当然也可以是其它文件,对此本发明实施例不做限定。
102、获取文本中各个信息量的位置标签。
信息量是指文件中的一些的具有特定属性及含义的字符串,例如,可以是人名、电话号码、邮箱地址等等。这些字符串对信息提取来说都是有用的资料,或者是用户关注的信息,除了人名、电话号码、邮箱地址,也可以是会议主题、会议地点、会议内容等等。在实际应用中,可以利用句子切分技术,首先将文件中每个句子中的连续字符串切分为不同的词,然后再确定其中的每个词是否为需要关注的信息量。比如可以预先定义一些需要关注的信息量的类别,对切分后的分词进行类别标注,然后根据各词的类别确定其是否为需要关注的信息量。除此之外,还可以利用其它方式来识别文件中的信息量,比如,可以设置一些需要关注的词汇表,然后,根据这些词汇表过滤文件中的内容,找出其中需要关注的信息量。
当然,还可以有更多其它方式来识别文件中的信息量,对此本发明实施例不做限定。
本发明实施例的方法应用于信息量为三个或三个以上的情况。
每个信息量在文本中都有一个唯一的位置,在本实施例中,该位置用位置标签来标识,优选地,位置标签的具体内容包括:信息量在文本中的自然段落位置、起始位置和结束位置,位置标签的形式可以为(段落位置,起始位置,结束位置)。其中,段落位置是信息量在文本中的自然段落位置;例如信息量处于文本的首段,它的数值就是1,如果处于第二段落,数值就是2,如此类推。段落最大字符数是一个常数,记为max_size,该段落最大字符数可以保证信息标签的惟一性,这个数值通常会取文本中所用段落中包含字符数的最大值。起始位置为信息量在文本中的起始位置,结束位置为信息量在文本中的结束位置。
例如:“小明今天到北京出差,他的电话是12345678。”假设上述文字处于文本中的第n个段落,每个汉字占用两个位置空间,数字占用一个位置空间,开始的位置是1,结束的位置是23。
则信息量及其位置标签如下:
小明(n,1,4),他(n,21,22),电话(n,25,28),12345678(n,31,38)。
103、根据所述位置标签,计算每两个信息量之间的距离。
具体地,可以先根据所述位置标签计算所述信息量的位置标签数值,然后根据所述位置标签数值计算每两个信息量之间的距离。位置标签数值的计算公式具体为:位置标签数值=段落位置×段落最大字符数+(起始位置+结束位置)/2。
而每两个信息量之间的距离使用的公式为:距离=|L(x)-L(y)|,其中,L(x)和L(y)分别为信息量x的位置标签数值和信息量y的位置标签数值。
104、当第一距离和第二距离相等时,根据语法结构修正该第一距离和第二距离,其中,该第一距离为信息量中第一信息量与第二信息量之间的距离,该第二距离为该信息量中该第一信息量与第三信息量之间的距离。
其中,第一信息量、第二信息量和第三信息量仅用于指代获取到的信息量中存在本实施例所述的位置关系的任意三个信息量。语法结构是指第一信息量、第二信息量和第三信息量的词汇属性或句子成分等。
可以理解,当第一距离大于第二距离时,表示第三信息量距离第一信息量更近,而第二信息量距离第一信息量更远,则在聚合时,将第一信息量和第三信息量进行聚合,获得结构体;当第一距离小于第二距离时,表示第三信息量距离第一信息量更远,而第二信息量距离第一信息量更近,则在聚合时,将第一信息量和第二信息量进行聚合,获得结构体。
若对于第一信息量来说,当第一距离和第二距离相等时,根据该第一信息量、第二信息量和第三信息量已经确定的词汇属性或句子成分,对第一距离和第二距离进行修正,避免了由于第一距离和第二距离相等而造成的信息聚合不准确。
105、将该信息量根据该修正后的该第一距离、第二距离进行聚合,获得聚合后的结构体。
该聚合的具体过程与现有技术同理,该聚合是指对信息量的归类和整理,以便在后续提取信息的过程中,向用户反馈的是经过归类和整理的信息,而不是杂乱无章的信息。
其中,结构体是指对信息量进行聚合后的聚合结果的统称,对于大量的信息量来说,需要对其进行归类和整理,并返回根据预设规则排列或组合的结构体。
在实际应用中,终端设备得到上述结构体后,可以将该结构体保存到相应的文件中,和/或直接展示给终端或服务器用户,以供用户选择等操作。
本实施例提供的方法,通过当信息量之间的距离出现相等的情况时,根据语法结构对距离进行修正,并根据修正后的距离对信息量进行聚合,在根据位置标签进行聚合的基础上兼顾了语法结构,提升了信息聚合的准确性和后续提取信息的性能。
图2是本发明实施例提供的一种聚合信息的方法的流程图。参见图2,该实施例具体包括:
201、获取待聚合的文本;
该步骤201中的文本与步骤101的同理,在此不再赘述。
具体地,接收文本后,根据保存的字典对文本中的文字进行识别,该识别是为了使终端能够学习文本中的文字,将文字组成词汇或语句,并根据识别到的词汇或语句进行后续的过程。
202、根据预设关键词获取三个或三个以上的信息量;
在本实施例中,终端根据预设关键字在该文本中获取三个或三个以上的信息量,该三个或三个以上的信息量可以是词汇,也可以是数字、字母等。
可以理解的是,本实施例是以获取的信息量为三个或三个以上的为例进行说明,而在其他实施例中,当获取的信息量为一个时,无需聚合,可以将该信息量作为结构体,而当获取的信息量为两个时,可根据现有的聚合的原则进行聚合,获得结构体。
需要说明的是,触发对信息量的获取可以包括但不限于以下情况:
(1)终端预设对接收到的文本进行信息提取,当接收到文本时,则对该文本中的信息量进行获取,并根据获取的信息量进行聚合,可以将聚合后的结构体保存到相应的文件中,和/或直接展示给终端或服务器用户,以供用户选择等操作。
(2)终端预设每隔一段时长对本地保存的文本进行信息提取,则每隔一段时长对该文本中的信息量进行获取,并根据获取的信息量进行聚合,可以将聚合后的结构体保存到相应的文件中,和/或直接展示给终端或服务器用户,以供用户选择等操作。
203、获取该文本中该三个或三个以上的信息量的词汇属性,并根据获取的属性获取该三个或三个以上的信息量的句子成分;
其中,词汇属性是指名词、形容词、动词、副词等,而句子成分是指主语、谓语、宾语等,以中文语法为例进行说明,一般来说,词汇属性为名词的信息量可以作为主语或宾语,而词汇属性为动词的信息量可以作为谓语,在本实施例中,根据中文语法库中已定义的词汇属性对文本中的信息量进行分析,获取每个信息量的词汇属性,再根据词汇属性以及中文语法库中对该词汇属性的归类或定义,获取信息量的句子成分。
204、获取文本中各个信息量的位置标签;
该步骤204与步骤102同理,在此不再赘述。
205、根据获取的位置标签,计算每两个信息量之间的距离;
位置标签是信息量在文本中位置的坐标,根据该位置标签,可以获知信息量的位置标签数值,在步骤102的示例的基础上,上述信息量的位置标签数值为:
L(小明)=n×max_size+5/2
L(他)=n×max_size+43/2
L(电话)=n×max_size+53/2
L(12345678)=n×max_size+59/2
由此,上述信息量之间的距离为:
d(小明,他)=19
d(电话,12345678)=3
d(他,电话)=5
206、当第一距离和第二距离相等时,根据语法结构修正该第一距离和第二距离,其中,该第一距离为该至少两个信息量中第一信息量与第二信息量之间的距离,该第二距离为该至少两个信息量中该第一信息量与第三信息量之间的距离;
对于文本来说,第一距离和第二距离相等,可以理解为第二信息量和第三信息量分别位于第一信息量的前后位置。
其中,语法结构是指第一信息量、第二信息量和第三信息量的词汇属性或句子成分等。
当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的句子成分或词汇属性获取所述第一信息量和第二信息量之间的紧密度、第一信息量和第三信息量之间的紧密度,根据获取的紧密度修正所述第一距离和第二距离。
在本实施例中的步骤203-206中,是以获取了词汇属性后,再根据词汇属性获取句子成分为例进行说明的,可选地,在另一实施例中,步骤203可以替换为:获取所述文本中信息量的词汇属性,而相应地,步骤206替换为:当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的词汇属性,修正所述第一距离和第二距离。具体地,当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的词汇属性获取所述第一信息量和第二信息量之间的紧密度、第一信息量和第三信息量之间的紧密度,根据获取的紧密度修正所述第一距离和第二距离。
其中,终端可以预先保存句子成分、词汇属性与紧密度的对应关系,根据信息量的句子成分或词汇属性,从对应关系中获取该信息量所对应的紧密度,该紧密度可以参照语言的语法进行设置,不同的句子成分之间对应不同的紧密度,不同的词汇属性对应不同的紧密度,该具体数值可以由技术人员进行设置,本实施例不做具体限定。
根据每个信息量已经确定的句子成分或词汇属性,获取该句子成分或词汇属性对应的紧密度,再根据该紧密度对信息量之间的距离进行修正,其具体的修正过程可以包括:当第一信息量和第二信息量之间的紧密度大于第一信息量和第三信息量之间的紧密度,则在第一距离上减去一个扰动值和/或在第二距离上加上一个扰动值,使得修正后的第一距离和第二距离不再相等,并根据修正后的第一距离和第二距离进行信息聚合。当第一信息量和第二信息量之间的紧密度小于第一信息量和第三信息量之间的紧密度,则在第一距离上加上一个扰动值和/或在第二距离上减去一个扰动值,使得修正后的第一距离和第二距离不再相等,并根据修正后的第一距离和第二距离进行信息聚合。其中,扰动量的数值可以根据不同的语法成分调整,选择适当的扰动量,可以保证信息量间的距离保持唯一性。需要说明的是,也可以用其他方式体现紧密度的差异,例如乘以或除以扰动系数,只要能够使得修正后的第一距离和第二距离不再相等,且能够体现紧密度的差异即可。根据语法结构对信息量之间的距离进行修正,使得考虑到了信息量之间“前后”、“远近”的量化度量标准,通过增或减一个扰动量,重新定义信息量之间的距离。
207、将该三个或三个以上信息量根据修正后的第一距离、第二距离进行聚合,获得聚合后的结构体。
该步骤207与步骤105同理,在此不再赘述。
可选的,步骤207之后还包括:
当接收到对信息量的提取请求时,终端返回聚合后的信息。
通过信息的聚合,并在接收到对信息量或以预设关键字的提取请求时,返回聚合后的信息,提升了提取信息的准确性和效率。
本实施例提供的方法,通过当信息量之间的距离出现相等的情况时,根据语法结构对距离进行修正,并根据修正后的距离对信息量进行聚合,在根据位置标签进行聚合的基础上兼顾了语法结构,提升了信息聚合的准确性和后续提取信息的性能。
基于本发明提供的实施例,举例如下:待聚合的文本为:“上海自来水来自海上”。
从上述文本中获取的信息量如下:上海,自来,水,来自,海上。
仅以对信息量“水”的聚合方法进行说明。
信息量“水”的前后信息量分别是“自来”和“来自”。“水”与“自来”的距离与“水”跟“来自”的距离一样,因此,不能够判断信息量“水”要与那个信息量进行聚合。
对于“水”来说,“自来”是修饰词,“来自”是动词;通过根据词汇属性确定紧密度,可以获知,修饰词与名词的紧密度高于动词对名词的紧密度,因此,“自来”对“水”的紧密度要比“来自”对“水”的紧密度高。故修正后的距离为:“水”与“自来”的修正后距离是原距离基础上减去一个正的扰动量,而“水”与“来自”的修正后距离则是原距离基础上增加一个正的扰动量。更进一步,选择一个合适的扰动量数值,如0.25,使得这个信息量的与前后信息量之间的修正距离不等。这个修正的距离可以描述信息量之间的紧密程度,如上述例子,取扰动量数值为0.25,“自来”与“水”的修正距离为:d(自来,水)=3-0.25=2.75;d(水,来自)=3+0.25=3.25。这样,通过修正后的距离就可以判断出聚合的次序。“水”应该与“自来”聚合。信息聚合后的结果为:上海,自来水,来自,海上。
图3是本发明实施例提供的一种聚合信息的装置的结构示意图。参见图3,该装置包括:
文本获取模块301,用于获取待聚合的文本;
位置标签获取模块302,用于获取所述文本中信息量的位置标签;
计算模块303,用于根据所述位置标签,计算每两个信息量之间的距离;
修正模块304,用于当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,其中,所述第一距离为所述信息量中第一信息量与第二信息量之间的距离,所述第二距离为所述信息量中所述第一信息量与第三信息量之间的距离;
聚合模块305,用于将所述信息量根据所述修正后的第一距离、第二距离进行聚合,获得结构体。
可选地,参见图4,所述装置还包括:
词汇识别模块306,用于获取所述文本中信息量的词汇属性;
相应地,
所述修正模块304,用于还用于当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的词汇属性,修正所述第一距离和第二距离;
或者,
所述词汇识别模块306,用于获取所述文本中信息量的词汇属性,并根据获取的属性确定所述信息量的句子成分;
相应地,所述修正模块304,还用于当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的句子成分,修正所述第一距离和第二距离。
所述修正模块304具体用于当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的词汇属性获取所述第一信息量和第二信息量之间的紧密度、第一信息量和第三信息量之间的紧密度,并根据获取的紧密度修正所述第一距离和第二距离;
所述修正模块304,还用于当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的句子成分获取所述第一信息量和第二信息量之间的紧密度、第一信息量和第三信息量之间的紧密度,并根据获取的紧密度修正所述第一距离和第二距离。
优选地,上述位置标签的具体内容包括:信息量在文本中的自然段落位置、起始位置和结束位置。
所述计算模块303使用的计算每两个信息量的距离的公式为:距离=|L(x)-L(y)|,其中,L(x)和L(y)分别为信息量x的位置标签数值和信息量y的位置标签数值;
所述位置标签数值的计算公式为:位置标签数值=段落位置×段落最大字符数+(起始位置+结束位置)/2,其中,所述段落位置是信息量在文本中的自然段落位置。
本实施例提供的装置,通过当信息量之间的距离出现相等的情况时,根据语法结构对距离进行修正,并根据修正后的距离对信息量进行聚合,在根据位置标签进行聚合的基础上兼顾了语法结构,提升了信息聚合的准确性和后续提取信息的性能。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种聚合信息的方法,其特征在于,所述方法包括:
获取待聚合的文本;
获取所述文本中信息量的位置标签;
根据所述位置标签,计算每两个信息量之间的距离;
当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,其中,所述第一距离为所述信息量中第一信息量与第二信息量之间的距离,所述第二距离为所述信息量中所述第一信息量与第三信息量之间的距离;
将所述信息量根据所述修正后的第一距离、第二距离进行聚合,获得结构体。
2.根据权利要求1所述的方法,其特征在于,当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,之前包括:
获取所述文本中信息量的词汇属性;
相应地,当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,包括:当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的词汇属性,修正所述第一距离和第二距离;
或者,
当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,之前包括:获取所述文本中信息量的词汇属性,并根据获取的词汇属性确定所述信息量的句子成分;
相应地,当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,包括:当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的句子成分,修正所述第一距离和第二距离。
3.根据权利要求2所述的方法,其特征在于,当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,其中,所述第一距离为所述信息量中第一信息量与第二信息量之间的距离,所述第二距离为所述信息量中所述第一信息量与第三信息量之间的距离,具体包括:
当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的词汇属性获取所述第一信息量和第二信息量之间的紧密度、第一信息量和第三信息量之间的紧密度,并根据获取的紧密度修正所述第一距离和第二距离;
或,
当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的句子成分获取所述第一信息量和第二信息量之间的紧密度、第一信息量和第三信息量之间的紧密度,并根据获取的紧密度修正所述第一距离和第二距离。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述位置标签的具体内容包括:信息量在文本中的自然段落位置、起始位置和结束位置。
5.根据权利要求1至4任一项所述的方法,其特征在于,计算每两个信息量之间的距离的计算公式为:距离=|L(x)-L(y)|,其中,L(x)和L(y)分别为信息量x的位置标签数值和信息量y的位置标签数值;
所述位置标签数值的计算公式为:位置标签数值=段落位置×段落最大字符数+(起始位置+结束位置)/2,其中,所述段落位置是信息量在文本中的自然段落位置。
6.一种聚合信息的装置,其特征在于,所述装置包括:
文本获取模块,用于获取待聚合的文本;
位置标签获取模块,用于获取所述文本中信息量的位置标签;
计算模块,用于根据所述位置标签,计算每两个信息量之间的距离;
修正模块,用于当第一距离和第二距离相等时,根据语法结构修正所述第一距离和第二距离,其中,所述第一距离为所述信息量中第一信息量与第二信息量之间的距离,所述第二距离为所述信息量中所述第一信息量与第三信息量之间的距离;
聚合模块,用于将所述信息量根据所述修正后的第一距离、第二距离进行聚合,获得结构体。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
词汇识别模块,用于获取所述文本中信息量的词汇属性;
相应地,所述修正模块,还用于当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的词汇属性,修正所述第一距离和第二距离;
或者,
所述词汇识别模块,用于获取所述文本中信息量的词汇属性,并根据获取的属性确定所述信息量的句子成分;
相应地,所述修正模块,还用于当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的句子成分,修正所述第一距离和第二距离。
8.根据权利要求7所述的装置,其特征在于,所述修正模块具体用于当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的词汇属性获取所述第一信息量和第二信息量之间的紧密度、第一信息量和第三信息量之间的紧密度,并根据获取的紧密度修正所述第一距离和第二距离;
所述修正模块,还用于当第一距离和第二距离相等时,根据语法结构和所述第一信息量、第二信息量和第三信息量的句子成分获取所述第一信息量和第二信息量之间的紧密度、第一信息量和第三信息量之间的紧密度,并根据获取的紧密度修正所述第一距离和第二距离。
9.根据权利要求6至8任一项所述的装置,其特征在于,所述位置标签的具体内容包括:信息量在文本中的自然段落位置、起始位置和结束位置。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述计算模块使用的计算每两个信息量的距离的公式为:距离=|L(x)-L(y)|,其中,L(x)和L(y)分别为信息量x的位置标签数值和信息量y的位置标签数值;
所述位置标签数值的计算公式为:位置标签数值=段落位置×段落最大字符数+(起始位置+结束位置)/2,其中,所述段落位置是信息量在文本中的自然段落位置。
CN201210018940.4A 2012-01-20 2012-01-20 一种聚合信息的方法和装置 Active CN103218372B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210018940.4A CN103218372B (zh) 2012-01-20 2012-01-20 一种聚合信息的方法和装置
PCT/CN2013/070146 WO2013107308A1 (zh) 2012-01-20 2013-01-07 一种聚合信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210018940.4A CN103218372B (zh) 2012-01-20 2012-01-20 一种聚合信息的方法和装置

Publications (2)

Publication Number Publication Date
CN103218372A true CN103218372A (zh) 2013-07-24
CN103218372B CN103218372B (zh) 2017-04-26

Family

ID=48798617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210018940.4A Active CN103218372B (zh) 2012-01-20 2012-01-20 一种聚合信息的方法和装置

Country Status (2)

Country Link
CN (1) CN103218372B (zh)
WO (1) WO2013107308A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195646A1 (en) * 2007-02-12 2008-08-14 Microsoft Corporation Self-describing web data storage model
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN101963974A (zh) * 2010-09-03 2011-02-02 深圳创维数字技术股份有限公司 一种epg栏目生成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100562872C (zh) * 2006-11-07 2009-11-25 北京酷讯科技有限公司 针对结构化网页的自动模板信息定位方法
CN100535907C (zh) * 2007-08-21 2009-09-02 北京大学 一种文本上下文中实体地址信息的提取方法
CN102081660B (zh) * 2011-01-13 2012-11-21 西北工业大学 基于语义相关的xml文档关键字检索排序方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195646A1 (en) * 2007-02-12 2008-08-14 Microsoft Corporation Self-describing web data storage model
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN101963974A (zh) * 2010-09-03 2011-02-02 深圳创维数字技术股份有限公司 一种epg栏目生成方法

Also Published As

Publication number Publication date
WO2013107308A1 (zh) 2013-07-25
CN103218372B (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
US10515147B2 (en) Using statistical language models for contextual lookup
US20170206002A1 (en) User-centric soft keyboard predictive technologies
US9678958B2 (en) Populating user contact entries
CN103942189B (zh) 一种确定作品关键词的方法和设备
US20130061139A1 (en) Server-based spell checking on a user device
CN107204184A (zh) 语音识别方法及系统
CN107209757B (zh) 自然语言理解缓存器
KR20160030943A (ko) 음성 입력에 기초한 표 데이터에 관한 연산의 수행 기법
CN110187780B (zh) 长文本预测方法、装置、设备和存储介质
CN103971684A (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
CN103268313A (zh) 一种自然语言的语义解析方法及装置
CN105808197B (zh) 一种信息处理方法和电子设备
US20130060560A1 (en) Server-based spell checking
US11176520B2 (en) Email content modification system
CN105760359B (zh) 问句处理系统及其方法
CN111858905B (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN112507706A (zh) 知识预训练模型的训练方法、装置和电子设备
WO2014205232A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
CN106462564A (zh) 在文档内提供实际建议
US9495352B1 (en) Natural language determiner to identify functions of a device equal to a user manual
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN111666417B (zh) 生成同义词的方法、装置、电子设备以及可读存储介质
CN109062888A (zh) 一种出现错误文本输入时的自纠正方法
CN109783612B (zh) 报表数据定位方法及装置、存储介质、终端
CN105511642A (zh) 一种输入方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Zhou Junyang

Inventor after: Huang Bo

Inventor before: Huang Bo

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: HUANG BO TO: ZHOU JUNYANG HUANG BO

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20171109

Address after: Metro Songshan Lake high tech Industrial Development Zone, Guangdong Province, Dongguan City Road 523808 No. 2 South Factory (1) project B2 -5 production workshop

Patentee after: HUAWEI terminal (Dongguan) Co., Ltd.

Address before: 518129 Longgang District, Guangdong, Bantian HUAWEI base B District, building 2, building No.

Patentee before: Huawei Device Co., Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee after: Huawei Device Co., Ltd.

Address before: 523808 Southern Factory Building (Phase I) Project B2 Production Plant-5, New Town Avenue, Songshan Lake High-tech Industrial Development Zone, Dongguan City, Guangdong Province

Patentee before: HUAWEI terminal (Dongguan) Co., Ltd.