CN103678371A - 词库更新装置、数据整合装置和方法以及电子设备 - Google Patents
词库更新装置、数据整合装置和方法以及电子设备 Download PDFInfo
- Publication number
- CN103678371A CN103678371A CN201210343121.7A CN201210343121A CN103678371A CN 103678371 A CN103678371 A CN 103678371A CN 201210343121 A CN201210343121 A CN 201210343121A CN 103678371 A CN103678371 A CN 103678371A
- Authority
- CN
- China
- Prior art keywords
- word
- predetermined
- candidate word
- dictionary
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
本公开提供一种词库更新装置和方法、数据整合装置和方法以及电子设备。该词库更新装置包括:语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;候选词集合形成单元,用于基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合;候选词判定单元,用于针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;词库更新单元,用于在候选词被判定为与该预定词库中的词是同一类型时,使用该候选词更新词库。本公开能够提高对预定词库更新的准确度率,从而提高数据处理的效率。
Description
技术领域
本公开涉及数据处理领域,尤其涉及词库更新装置、数据整合装置和方法以及电子设备。
背景技术
如今,人们在进行语言表达(尤其是某些复杂含义的表达)时,越来越多地使用新兴词汇,例如随着互联网的普及而涌现出的很多网络词汇。针对这些新兴词汇,如何更新现有的词库(尤其是具有预定属性的词库、例如形容词词库)是本领域目前面临的问题。当前的词库更新方法通常是人为地直接将这些词汇加入具有预定属性的词库中。这种方式显然是费时费力的。现有技术中存在一种基于分词技术和句法依存技术来更新词库的方法,但是由于通过句法依存技术仅能够获取语句中各个词汇间的关系(如动宾关系、主谓关系、定中关系),其并不能准确地确定词汇的属性,因此不能够实现对预定词库的准确的更新。此外,由于不能准确地对预定词库进行更新,在对来自不同数据源的数据进行处理时会导致包含有在预定词库中没有的词汇的数据可能会被丢弃,从而导致数据处理的效率不高。
因此,当前亟需一种能够针对该新兴词汇,对词库、尤其是与该词汇具有相同特性的预定词库进行更新的装置和方法。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不意图确定本公开的关键或重要部分,也不意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于现有技术的上述缺陷,本公开的目的之一是提供一种词库更新装置和方法、包含该词库更新装置的数据整合装置和方法以及电子设备,以至少克服现有技术中不能针对新兴词汇、对预定词库进行自动更新的问题。
根据本公开的一个方面,提供了一种用于自动更新预定词库的词库更新装置,包括:语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;候选词集合形成单元,用于基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合;候选词判定单元,用于针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;以及词库更新单元,用于在候选词被判定为与该预定词库中的词是同一类型时,使用该候选词更新该预定词库。
根据本公开的又一个方面,还提供一种用于自动更新预定词库的词库更新方法,包括:收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;基于多元组中的分量并且根据该预定词库,形成用于更新该预定词库的候选词集合;针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该预定词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;在候选词被判定为与预定词库中的词是同一类型时,使用该候选词更新该预定词库。
根据本公开的另一个方面,提供一种针对特定对象对来自不同数据源的语句进行整合的数据整合装置,包括:语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组表达每个语句;预定候选词判定单元,用于将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中;词库更新单元,用于当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与该预定词库中的词为同一类型的预定候选词更新该预定词库;以及数据整合单元,用于当预定候选词在该预定词库中或者在经所述词库更新单元更新后的预定词库中的情况下,针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除所述预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
根据本公开的又一个方面,还提供一种针对特定对象对来自不同数据源的语句进行整合的数据整合方法,包括:收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用包括对象词的多元组表达每个语句;将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中;当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与该预定词库中的词为同一类型的预定候选词更新该预定词库;以及当预定候选词在该预定词库中或者在述词库更新单元更新后的预定词库中的情况下,针对与特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除预定候选词和对象词之外的一个或多个其他分量,对多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的词库更新装置或者如上所述的数据整合装置,所述电子设备尤其是手机、计算机、平板电脑、或者个人数字助理。
依据本公开的其它方面,还提供了一种使得计算机用作如上所述的词库更新装置或者数据整合装置的程序。
依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行上述词库更新方法或数据整合方法。
上述根据本公开实施例的词库更新装置和方法、数据整合装置和方法以及电子设备,至少能够获得以下益处之一:能够提高对预定词库更新的准确度率,并且能够充分地利用来自各种数据源的语句信息获取针对特定对象的信息,从而能够提高数据处理的效率。
通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示意性地示出根据本公开实施例的词库更新装置的一种示例结构的框图。
图2是示意性地示出如图1所示的候选词集合形成单元的一种可能的示例结构的框图。
图3是示意性地示出根据本公开实施例的词库更新方法的一种示例性处理的流程图。
图4是示意性地示出根据本公开实施例的数据整合装置的一种示例结构的框图。
图5是示意性地示出根据本公开另一实施例的数据整合装置的一种示例的框图。
图6是示出根据本公开实施例的数据整合方法的一种示例性处理的流程图。
图7示出了可用来实现根据本公开实施例的词库更新装置和数据整合装置的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本公开实施例的理解。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的装置结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
如图1所示,根据本公开实施例的词库更新装置1包括:语句表达单元11;用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;候选词集合形成单元12,用于基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合;候选词判定单元13,用于针对候选词集合形成单元12所形成的候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;以及词库更新单元14,用于在候选词判定单元13将候选词判定为与预定词库中的词是同一类型的情况下,使用该候选词更新预定词库。
如图1所示,语句表达单元11可以从各种数据源收集例如语句。数据源可以是各种专用数据库、通用数据库、网站等等,也可以是它们的组合。例如,针对特定对象(例如,建筑物“M总部大楼”),当前许多网站都提供与其相关的语句信息(在本公开的上下文中,有时也称为意见语句)。本领域技术人员可以通过各种技术手段从各个数据源获取这些语句信息,例如可以通过数据源所提供的API、RSS/ATOM协议或者网络爬虫等等,这些技术手段是本领域技术人员公知的,在此不再赘述。在从各种数据源收集到语句之后,可以将这些语句存储在语料库中。
在从不同数据源收集到各种意见语句之后,语句表达单元11可以对收集到的每个语句进行处理,以通过多元组来表达每个语句。例如语句表达单元11可以利用分词技术对收集到的每个语句进行切分,然后利用句法依存技术对经分词技术切分得到的各个词加上相应的标记信息,从而得到每个语句的词汇之间的关系,进一步地以多元组方式来表达每个语句。其中。分词技术和句法依存技术是本领域公知的,在此省略对其的详细描述。
例如针对语句表达单元11从不同数据源分别收集到的语句1“M总部大楼的高度很高、工程量巨大,结构比较不抗震”,以及语句2“M总部大楼的高度较高、工程量倒是很庞大,结构不抗震”,通过分词技术处理和句法依存技术处理后,得到的结果如下所示:
意见数据1.“M总部大楼高度很高、工程量巨大,结构比较不抗震”。
意见数据2.“M总部大楼高度较高、工程量很庞大,结构不抗震”。
然后针对经分词技术处理后的上述语句1和2,通过句法依存技术处理,得到语句中各个词汇间的关系(如动宾关系、主谓关系、定中关系)。例如针对“M总部大楼高度很高”,通过句法依存处理可以判断是一个主谓关系,其中“高度”是该主谓关系的从属词,“高”是核心词。因此以一组所定义的多元组对上述语句1和2进行表达,从而针对语句1和语句2分别得到多个多元组,如表1和表2所示。
表1(针对语句1)
主谓关系的从属词 | 程度副词 | 主谓关系的核心词 | 否定词(否定标记) |
高度 | 很 | 高 | 0 |
工程量 | 巨 | 大 | 0 |
结构 | 比较 | 抗震 | 不(1) |
表2(针对语句2)
主谓关系的从属词 | 程度副词 | 主谓关系的核心词 | 否定词(否定标记) |
高度 | 较 | 高 | 0 |
工程量 | 很 | 庞大 | 0 |
结构 | / | 抗震 | 不(1) |
其中,由于程度副词和否定词的数量相对有限,因此可以通过查找程度副词词库和否定词词库得到语句中的程度副词和否定词的信息。
此外,在上表中,否定标记表示意见语句中所有否定词出现的次数,在上述示例中,如果否定词出现奇数次,则将否定标记表示为1;如果没有出现否定词或者否定词出现了偶数次,则将否定标记表示为0。但是,本公开不限于此,本领域技术人员可以理解也可以以其它方式表示否定标记。
此外,虽然在此以包括主谓关系的从属词、程度副词、主谓关系的核心词以及否定词标记的四元组方式为例对语句的表达进行描述,但是本公开不限于此,本领域技术人员可以理解还可以采用诸如包括定中关系的核心词、定中关系的从属词和否定标记的三元组的其他多元组方式对从各个数据源收集到的意见语句进行表达。
此外,上述示例中语句1和2最终分别是以3个四元组的形式表达的,但是本公开不限于此,本领域技术人员可以理解,每个意见语句最终由几个多元组表达是根据意见语句本身的句子构成决定的,因此,一个意见语句最终也可以由一个、两个或者四个等其他数量个多元组进行表达。
在通过语句表达单元11的上述处理之后,可以针对从不同数据源收集到的每个语句,得到一个或多于一个的多元组。
在语句表达单元11将每个语句以多元组的形式表达出来之后,候选词集合形成单元12可以基于多元组中的分量并且根据预定词库中的词,形成用于更新该预定词库的候选词集合。
图2示出如图1所示的候选词集合形成单元12的一种具体实现方式。
根据本公开的优选实施例,如图2所示,候选词集合形成单元12包括:预定候选词确定子单元121,用于将每个多元组中的与预定词库中的词相似的分量确定为与预定词库中的词为同一类型的预定候选词;预定候选词判定子单元122,用于判定每个预定候选词是否在该预定词库中;以及候选词集合形成子单元123,用于将不在预定词库中的候选预定词作为与预定词库中的词为同一类型的最终候选词,从而形成候选词集合。
在此,仍以利用主谓关系的从属词、程度副词、主谓关系的核心词以及否定词标记的四元组方式表达各个语句,并针对诸如特征词词库的预定词库进行更新为例对预定候选词确定子单元121、预定候选词判定子单元122、候选词集合形成子单元123进行详细说明,但本公开不限于此。
如图2所示,预定候选词确定子单元121将每个多元组中、与特征词词库中的词相似的分量作为与特征词词库中的词为同一类型的预定候选词。例如,可以将句法上符合特征词词库中的词汇、即与特征词词库中的词具有相同句法特性的词汇(例如,在上述示例中,将所有四元组中在进行句法依存处理时得到的主谓关系的核心词)作为与特征词词库中的词相似的词。例如,针对上述意见语句1,预定侯选词为“高”、“大”和“抗震”;针对上述意见语句2,预定候选词为“高”、“庞大”和“抗震”。
在预定候选词确定子单元121确定了预定候选词之后,预定候选词判定子单元122针对每个预定候选词,判断其是否已经存在于特征词词库(预定词库)中,并且候选词集合形成子单元123将不在特征词词库中的预定候选词作为与特征词词库中的词为同一类型的最终候选词,从而形成包括所有最终候选词的候选词集合。在上述示例中,如果经预定候选词判定子单元122判断,特征词词库中已经包括了特征词“高”、“大”和“庞大”,但是不包括“抗震”,则候选词集合形成子单元123可以将“抗震”作为与特征词词库中的词为同一类型的最终候选词,从而形成包括所有最终候选词的、用于更新特征词词库的候选词集合。
回到图1,在通过候选词集合形成单元12形成了用于更新特征词词库的候选词集合之后,候选词判定单元13针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库(诸如特征词词库)中的词是同一类型。
仍以利用主谓关系的从属词、程度副词、主谓关系的核心词以及否定词标记的四元组方式表达各个语句,并针对诸如特征词词库的预定词库进行更新为例对候选词判定单元13的运作进行详细说明,但本公开不限于此。
例如,针对用于更新特征词词库的候选词集合中的每个候选词,可以根据包括该候选词的至少一个四元组中的程度副词、否定词其中之一或者两者的组合,判定该候选词是否与该特征词词库中的词为同一类型。由于在句法上,特征词通常位于程度副词和否定词之后,因此可以根据特征词和程度副词以及否定词之间在句法上的位置关系来判断候选的特征词是否是与特征词词库中的词为同一类型的词。
例如,在上述意见语句1的示例中,针对用于更新特征词库的候选词“抗震”,可以根据包括候选词“抗震”的四元组中的程度副词“比较”或者根据四元组中的否定词“不”在句法上在候选词“抗震”之前,判定候选词“抗震”与特征词词库中的词为同一类型。又例如,在包括候选词“抗震”的另一个四元组(如,上述意见语句2)中,可以仅根据四元组中的否定词“不”在句法上在候选词“抗震”之前,来判定候选词“抗震”与特征词库中的词为同一类型,其可以用于更新特征词词库。
此外,由于在以多元组表达某个意见语句时,该多元组中有可能仅包括主谓关系的从属词和核心词或者仅包括定中关系的核心词和从属词,而不包括诸如程度副词和否定词,因此在此情况下,可以基于包括该候选词的其它一个或多个多元组,根据该其他多元组中所包括的程度副词和/或否定词,对该候选词是否与特征词词库中的词为同一类型进行判断。
候选词判定单元13在经过如上所述针对候选词集合中的每个候选词判定其是否与预定词库中的词为同一类型的处理之后,可以获得与预定词库中的词为同一类型的词,用于由词库更新单元14进一步处理。
接下来,词库更新单元14针对候选词集合中的候选词被候选词判定单元13判定为与预定词库中的词为同一类型的情况下,使用该候选词更新预定词库。在上述示例中,使用判定为与特征词词库中的词为同一类型的候选词“抗震”来更新特征词词库。例如,将“抗震”加入特征词词库以完成对特征词词库的更新。上述将与预定词库中的词为同一类型的词直接加入预定词的更新方式仅为示例,本公开不限于此,本领域技术人员可以理解,还可以其它更新方式对预定词库进行更新。
虽然,上文中以特征词词库作为预定词库对根据本公开实施例的词库更新装置1及其各个部件进行了描述,但本公开不限于此,在本公开中,预定词库还可以是诸如程度副词词库的其他词库。例如在上述示例中,在已知句法依存关系得到的主谓关系的核心词是特征词的情况下,可以根据特征词与程度副词的位置关系,使用语句中包含的程度副词对程度副词词库进行更新。例如针对上述语句1和2,在能够确定“高”、“大”、“庞大”和“抗震”都是特征词的情况下来更新程度副词词库。例如,针对上述意见数据1,预定侯选词为“很”、“巨”和“比较”,针对上述意见语句2,预定候选词为“较”、“很”。如果作为预定词库的程度副词词库中已经包括了“很”、“比较”、和“较”,但是不包括“巨””,则可以根据程度副词与特征词之间的句法关系,将“巨”确定与程度副词词库的词为同一类型的最终候选词,从而形成包括“巨”的用于更新程度副词词库的候选词集合。
此外,本公开的实施例还提供了一种词库更新方法,下面结合图3来描述该词库更新方法的一种示例性处理。
图3是示意性地示出根据本公开的词库更新方法的一种示例性处理的流程图。
如图3所示,根据本公开的实施例的词库更新方法的处理流程300开始于S310,然后执行S320。
在S320中,从不同的数据源收集语句并且对收集到的语句进行处理,以利用多元组表达每个语句,从而针对每个语句得到一个或多个多元组;然后执行S330。
可以通过执行例如上述结合图1描述的语句表达单元11的处理来获得一个或多个多元组,在此省略其描述。
在S330中,基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合。然后执行S340。S330的处理可以通过执行例如上述结合图1-2描述的候选词集合形成单元12的处理来获得候选词集合,在此省略其描述。
在S340中,针对候选词集合中的每个候选词,根据包含该候选词的至少一个语句中除该预定词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型。然后执行S350。用于更新预定词库的词可以通过执行例如参照图1描述的候选词判定单元13的处理来获得,在此省略其描述。
在S350中,针对被判定为与预定词库中的词是同一类型的候选词,使用该候选词更新词库。然后执行S360。
处理流程300结束于S360。
通过以上描述可知,根据本公开实施例的用于自动更新预定词库的词库更新装置和词库更新方法通过以多元组方式表达每个语句并且针对该多元组中的一个分量,利用多元组中的一个或多个其他分量来判断该一个分量是否与预定词库中的词为同一类型,提高了词库更新的准确率。此外,在对来自不同数据源的数据进行处理时,由于能够准确地使用数据中的分量对预定词库进行更新,因此能够实现对各种数据的充分利用,从而提高了数据处理的效率。
根据本公开的另一实施例,还提供一种针对特定对象对来自不同数据源的语句的进行整合的数据整合装置。
如图4所示,根据本公开实施例的数据整合装置2包括:语句表达单元21、预定候选词判定单元22、词库更新单元23、和数据整合单元24。
语句表达单元21收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组表达每个语句。其中,语句表达单元21的具体操作方式与结合图1描述的词库更新装置1的语句表达单元11的操作方式类似,在此不再赘述。
在通过语句表达单元21的处理将每个语句以多元组表达之后,预定候选词判断单元22将每个多元组中的与预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判断每个候选预定词是否在该预定词库中。其中预定词判断单元的具体操作方式与结合图2描述的词库更新装置1的候选词集合形成单元12的预定候选词确定子单元121以及预定候选词判定子单元122的操作方式相似,在此不再赘述。
在经过预定候选词判断单元22的处理之后,对于不在预定词库中的预定候选词,词库更新单元23根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与所述预定词库中的词为同一类型的预定候选词更新该预定词库。
词库更新单元23的具体操作方式与结合图1和图2描述的词库更新装置1的候选词判定单元13和词库更新单元14的操作方式相似,在此不再赘述。
通过词库更新单元23的上述处理,可以利用语句中包括而预定词库中不存在的与预定词库中的词为同一类型的词对预定词库进行更新,以由数据整合单元24进一步处理。
接下来,数据整合单元24在预定候选词在所述预定词库中的情况下或者在经所述词库更新单元更新后的预定词库中的情况下,针对所述特定对象的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除所述预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
例如,针对特定对象“M1大楼”,语句表达单元21从不同数据源收集到如下语句:
意见语句1:“M1大楼的高度很高、工程量巨大,结构比较不抗震”;
意见语句2:“M1大楼的高度较高、工程量很庞大,结构不抗震”;以及
意见语句3:“M1大楼的高度较高、工程量十分巨大、结构太不坚固”。
在经语句表达单元21、候选预定词判断单元22和词库更新单元23的处理之后,例如在将原本不在特征词词库的特征词“抗震”更新到预定词库之后,所述数据整合单元24针对用于描述特定对象“M1大楼”的四元组中包括同一对象词(在上述示例中是“高度”、“工程量”和“结构”,即下表中的评价对象)的所有四元组的数据进行整合。例如针对包括同一对象词“结构”的所有四元组,如表3所示:
表3
评价对象 | 程度副词 | 特征词 | 否定词(否定标 |
记) | ||||
意见语句1 | 结构 | 比较 | 抗震 | 不(1) |
意见语句2 | 结构 | / | 抗震 | 不(1) |
意见语句3 | 结构 | 太 | 坚固 | 不(1) |
则,根据该四元组中包括的程度副词和/或否定词,对与该特定对象“M1大楼”有关的对象词“结构”的特征词进行整合。
数据整合的具体方法例如可以包括:根据程度副词所表达的含义将每个程度副词赋予一个权重值(例如下表4所示),并且利用所有包括该对象词和特征词的四元组,结合该权重值以及是否存在否定词来确定针对该特定对象的某一对象词的具体特性。
表4
程度副词 | 权重值(W) |
十分 | 2 |
很 | 1.6 |
太 | 1.4 |
比较 | 1.2 |
无副词 | 1 |
具体地,例如可以使用如下公式来计算表示该对象词的具体特性的程度值:S=(-1)N×W。其中,N为否定词标记值,W为对应的程度副词的权重值。
上述针对特定对象“M1大楼”的对象词“结构”的意见语句1对应的四元组的程度值为S1=-1.2;意见语句2:S2=-1;意见语句3:程度值为S3=-1.4。
从而可以将针对特定对象“M1大楼”的对象词“结构”的数据整合为,抗震:(S1+S2)/2=-1.1;坚固:S3/1=-1.4。
上述数据整合单元24可以针对每个对象词进行上述处理之后,将数据整合结果提供给用户,从而用户可以获取关于特定对象的各个对象词的经整合后的信息。即,通过根据本公开实施例的数据整合装置的各个部件的处理之后,用户可以得到与特定对象的特定属性有关的有用信息。
此外,由于以多元组表达语句时,对于具有相同多元组的语句仅表示为一个多元组,以简化后续处理,但是这可能会忽略相同多元组出现的频率对数据整合的影响。因此,根据本公开的优选实施例,提出另一种数据整合装置,如图5所示,该数据整合装置2包括:语句表达单元21、预定候选词判定单元22、词库更新单元23、数据整合单元24和频率计算单元25。其中语句表达单元21、预定候选词判定单元22、词库更新单元23、数据整合单元24的配置与图4所示的相同,在此不再赘述。
频率记录单元25针对特定对象记录具有相同多元组的语句出现的频率,并将其提供给数据整合单元24。在数据整合装置2包括频率记录单元25的情况下,数据整合单元24针对特定对象的每个对象词,根据预定候选词和对象词之外的其他分量以及根据所述频率记录单元25记录的出现相同多元组的语句的频率,对包括该预定候选词和对象词的语句进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
例如,对于上述示例中,对于“M1”大楼的评价,在意见语句2和意见语句3中均包括四元组“高度较高”,因此在对M1大楼的数据进行整合时,除了考虑上述程度副词和否定词的因素,还考虑相同的四元组出现的频率,从而得到针对将针对特定对象“M1大楼”的对象词“高度”的数据整合为:高={S1(“很”对应于权重值1.6)+S2(“较”对应于权重值1.2)×2}/3=1.33。
根据本公开的另一实施例,还提供一种针对特定对象对来自不同数据源的语句的进行整合的数据整合方法。
如图6所示,根据本公开的实施例的词库更新方法的处理流程600开始于S610,然后执行S620的处理。
在S620中,从不同的数据源收集语句并且对收集到的语句进行处理,以利用多元组表达每个语句,从而针对每个语句得到一个或多个多元组;例如通过分词技术和句法依存技术对收集到的语句进行处理,以利用多元组表达每个语句。然后执行S630。
在S630中,将每个多元组中的与预定词库中的词相似的分量作为与所述预定词库中的词为同一类型的预定候选词并且判断每个候选预定词是否在所述预定词库中。如果该预定候选词不在预定词库中,则执行S640,否则,执行S650。
在S640中,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与所述预定词库中的词为同一类型的预定候选词更新该预定词库。然后执行S650。更新预定词库的步骤可以通过执行例如参照图4-5描述的词库更新单元23的处理来实现,在此省略其描述。
在S650中,针对所述特定对象的每个对象词,根据包含该对象词和同一预定候选词的多个多元组中除所述预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。然后执行S660。数据整合的步骤可以通过执行例如参照图4-5描述的数据整合单元24的处理来获得,在此省略其描述。
处理流程600结束于S660。
与现有技术中当所包含的例如特征词的具有预定属性的词不在预定词库中时,即将该语句丢弃不做处理的情况相比,本公开的数据整合装置和方法由于能够针对具有预定属性的词对预定词库进行自动更新,从而能够更充分地利用来自不同数据源的各种数据,因此更充分地获得与特定对象相关的信息,并且能够实现对各种数据的充分利用,从而提高了数据处理的效率。
虽然上文中,以数据整合装置作为根据本公开的词库更新装置的一个应用场景对词库更新装置的应用进行了详细描述,但是本领域技术人员可以理解,还可以将词库更新装置用于其他的需要自动更新的词库的场景中。
此外,本公开的实施例还提供了一种电子设备,该电子设备被配置包括如上所述的词库更新装置1或数据整合装置2。该电子设备例如可以是以下设备中的任意一种:手机;计算机;平板电脑;以及个人数字助理等。相应地,该电子设备能够拥有如上所述的词库更新装置1或数据整合装置2的有益效果和优点。
上述根据本公开的实施例的词库更新装置或者数据整合装置中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图7所示的通用机器1000)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图7是示出了可用来实现根据本公开的实施例的是数据处理装置和数据处理方法的一种可能的信息处理设备的硬件配置的结构简图。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,还根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件也连接到输入/输出接口705:输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡例如LAN卡、调制解调器等)。通信部分709经由网络例如因特网执行通信处理。根据需要,驱动器710也可连接到输入/输出接口705。可拆卸介质711例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上,使得从中读出的计算机程序可根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本公开的实施例的词库更新方法或数据整合方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。
在上面对本公开具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。
此外,显然,根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户信息处理终端通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序,也可以实现本公开的各实施例。
综上,在根据本公开的实施例中,本公开提供了如下方案:
附记1、一种用于自动更新预定词库的词库更新装置,包括:
语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;
候选词集合形成单元,用于基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合;
候选词判定单元,用于针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;以及
词库更新单元,用于在候选词被判定为与该预定词库中的词是同一类型时,使用该候选词更新该预定词库。
附记2、根据附近1所述的词库更新装置,其中,候选词集合形成单元包括:
预定候选词确定子单元,用于将每个多元组中的与该预定词库中的词相似的分量确定为与预定词库中的词为同一类型的预定候选词;以及
预定候选词判定子单元,用于判定每个所述预定候选词是否在该预定词库中;以及
候选词集合形成子单元,用于将不在该预定词库中的预定候选词作为与预定词库中的词为同一类型的最终候选词,从而形成包括所有最终候选词的候选词集合。
附记3、根据附记1或2所述的词库更新装置,其中多元组为四元组,四元组的分量包括否定词和程度副词。
附记4、根据附记3所述的词库更新装置,其中候选词判定单元根据包含该候选词的至少一个四元组中的程度副词和/或否定词,判定该候选词是否与预定词库中的词是同一类型。
附记5、一种用于自动更新预定词库的词库更新方法,包括:
收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;
基于多元组中的分量并且根据该预定词库,形成用于更新该预定词库的候选词集合;
针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该预定词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;
在候选词被判定为与预定词库中的词是同一类型时,使用该候选词更新该预定词库。
附记6、根据附记5所述的词库更新方法,其中,形成用于更新该预定词库的候选词集合的步骤包括:
将每个多元组中的与该预定词库中的词相似的分量确定为与预定词库中的词为同一类型的预定候选词;以及
判定每个所述预定候选词是否在该预定词库中;以及
将不在该预定词库中的预定候选词作为与预定词库中的词为同一类型的最终候选词,从而形成包括所有最终候选词的候选词集合。
附记7、根据附记5或6所述的词库更新方法,其中多元组为四元组,四元组的分量包括否定词和程度副词。
附记8、根据附记7所述的词库更新方法,其中判定该候选词是否与预定词库中的词是同一类型的步骤包括:根据包含该候选词的至少一个四元组中的程度副词和/或否定词,判定该候选词是否与预定词库中的词是同一类型。
附记9、一种针对特定对象对来自不同数据源的语句进行整合的数据整合装置,包括:
语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组表达每个语句;
预定候选词判定单元,用于将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中;
词库更新单元,用于当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与所述预定词库中的词为同一类型的预定候选词更新该预定词库;以及
数据整合单元,用于当预定候选词在该预定词库中或者在经词库更新单元更新后的预定词库中的情况下,针对与特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
附记10、根据附记9所述的数据整合装置,还包括频率记录单元,用于针对所述特定对象记录具有相同多元组的语句出现的频率;并且所述数据整合单元针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除所述预定候选词和对象词之外的其他分量以及根据所述频率记录单元记录的频率,对多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
附记11、一种针对特定对象对来自不同数据源的语句进行整合的数据整合方法,包括:
收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用包括对象词的多元组表达每个语句;
将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中;
当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与该预定词库中的词为同一类型的预定候选词更新该预定词库;以及
当预定候选词在该预定词库中或者在经所述词库更新单元更新后的预定词库中的情况下,针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除该预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
附记12、根据附记11所述的数据整合方法,还包括针对所述特定对象记录具有相同多元组的语句出现的频率;并且所述数据整合步骤包括针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除预定候选词和对象词之外的其他分量以及根据在所述频率记录步骤记录的频率,对多元组进行数据整合,从而得到针对所述特定对象的每个对象词的综合信息。
附记13、一种电子设备,包括如附记1-4中任一项所述的词库更新装置或者如附记9或10所述的数据整合装置,所述电子设备尤其是手机、计算机、平板电脑、或个人数字助理。
附记14、一种使得计算机用作如附记1-4中任一项所述的词库更新装置的程序。
附件15、一种使得计算机用作如附记9或10所述的数据整合装置的程序。
附件16、一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行根据附记5-8中任意一项所述的词库更新方法。
附件17、一种计算机可读存储介质,其上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行根据附记11或12所述的数据整合方法。
最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种用于自动更新预定词库的词库更新装置,包括:
语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;
候选词集合形成单元,用于基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合;
候选词判定单元,用于针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;以及
词库更新单元,用于在候选词被判定为与该预定词库中的词是同一类型时,使用该候选词更新该预定词库。
2.根据权利要求1所述的词库更新装置,其中,所述候选词集合形成单元包括:
预定候选词确定子单元,用于将每个所述多元组中的与该预定词库中的词相似的分量确定为与所述预定词库中的词为同一类型的预定候选词;以及
预定候选词判定子单元,用于判定每个所述预定候选词是否在该预定词库中;以及
候选词集合形成子单元,用于将不在该预定词库中的预定候选词作为与预定词库中的词为同一类型的最终候选词,从而形成包括所有最终候选词的候选词集合。
3.根据权利要求1或2所述的词库更新装置,其中所述多元组为四元组,所述四元组的分量包括否定词和程度副词。
4.根据权利要求3所述的词库更新装置,其中所述候选词判定单元根据包含该候选词的至少一个四元组中的程度副词和/或否定词,判定该候选词是否与预定词库中的词是同一类型。
5.一种用于自动更新预定词库的词库更新方法,包括:
收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;
基于多元组中的分量并且根据该预定词库,形成用于更新该预定词库的候选词集合;
针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;以及
在候选词被判定为与预定词库中的词是同一类型时,使用该候选词更新该预定词库。
6.一种针对特定对象对来自不同数据源的语句进行整合的数据整合装置,包括:
语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组表达每个语句;
预定候选词判定单元,用于将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中;
词库更新单元,用于当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与该预定词库中的词为同一类型的预定候选词更新该预定词库;以及
数据整合单元,用于当预定候选词在该预定词库中或者在经所述词库更新单元更新后的预定词库中的情况下,针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除所述预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
7.根据权利要求6所述的数据整合装置,还包括频率记录单元,用于针对所述特定对象记录具有相同多元组的语句出现的频率;并且所述数据整合单元针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除所述预定候选词和对象词之外的一个或多个其他分量以及根据所述频率记录单元记录的所述频率,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
8.一种针对特定对象对来自不同数据源的语句进行整合的数据整合方法,包括:
收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用包括对象词的多元组表达每个语句;
将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中;
当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与该预定词库中的词为同一类型的预定候选词更新该预定词库;以及
当预定候选词在该预定词库中或者在经所述词库更新单元更新后的预定词库中的情况下,针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除该预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
9.一种电子设备,包括如权利要求1-4中任一项所述的词库更新装置或者如权利要求6或7所述的数据整合装置。
10.如权利要求9所述的电子设备,其中所述电子设备是手机、计算机、平板电脑、或个人数字助理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210343121.7A CN103678371B (zh) | 2012-09-14 | 2012-09-14 | 词库更新装置、数据整合装置和方法以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210343121.7A CN103678371B (zh) | 2012-09-14 | 2012-09-14 | 词库更新装置、数据整合装置和方法以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103678371A true CN103678371A (zh) | 2014-03-26 |
CN103678371B CN103678371B (zh) | 2017-10-10 |
Family
ID=50315959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210343121.7A Expired - Fee Related CN103678371B (zh) | 2012-09-14 | 2012-09-14 | 词库更新装置、数据整合装置和方法以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678371B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562220A (zh) * | 2017-08-15 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 输入信息的推荐方法、装置、计算机设备及可读介质 |
CN108875040A (zh) * | 2015-10-27 | 2018-11-23 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及计算机可读存储介质 |
CN108897842A (zh) * | 2015-10-27 | 2018-11-27 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及计算机系统 |
CN109524121A (zh) * | 2018-11-09 | 2019-03-26 | 贵州医渡云技术有限公司 | 医疗文件处理方法与装置 |
CN110020422A (zh) * | 2018-11-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
CN111291195A (zh) * | 2020-01-21 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、终端及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226480A (zh) * | 2008-02-20 | 2008-07-23 | 深圳华为通信技术有限公司 | 电子设备的升级方法及系统 |
CN101334774A (zh) * | 2007-06-29 | 2008-12-31 | 北京搜狗科技发展有限公司 | 一种字符输入的方法和输入法系统 |
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
CN102456006A (zh) * | 2010-10-14 | 2012-05-16 | 英业达股份有限公司 | 依据字词类别筛选相近字词的查找系统及其查找方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100452054C (zh) * | 2007-05-09 | 2009-01-14 | 崔志明 | 用于深层网页数据源集成的数据源发现方法 |
CN101645087A (zh) * | 2009-09-01 | 2010-02-10 | 腾讯科技(深圳)有限公司 | 一种分类词库系统及其更新和维护方法、以及客户端 |
CN101650605B (zh) * | 2009-09-25 | 2012-07-04 | 中国电信股份有限公司 | 一种智能汉字输入方法和系统 |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建系统及方法 |
CN101901245A (zh) * | 2010-01-15 | 2010-12-01 | 莱克斯科技(北京)有限公司 | 一种基于云语义库的网页审计方法 |
CN102236650B (zh) * | 2010-04-20 | 2014-06-04 | 日电(中国)有限公司 | 用于修正和/或扩展情感词典的方法和装置 |
CN102169495B (zh) * | 2011-04-11 | 2014-04-02 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
-
2012
- 2012-09-14 CN CN201210343121.7A patent/CN103678371B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334774A (zh) * | 2007-06-29 | 2008-12-31 | 北京搜狗科技发展有限公司 | 一种字符输入的方法和输入法系统 |
CN101226480A (zh) * | 2008-02-20 | 2008-07-23 | 深圳华为通信技术有限公司 | 电子设备的升级方法及系统 |
CN102456006A (zh) * | 2010-10-14 | 2012-05-16 | 英业达股份有限公司 | 依据字词类别筛选相近字词的查找系统及其查找方法 |
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
Non-Patent Citations (7)
Title |
---|
周蕾: ""中文未登录词识别的研究及在汉字输入法中的应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张海军: ""基于大规模预料的中文新词识别技术研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
张磊 等: ""基于用户偏好的垂直搜索算法"", 《电子科技大学学报》 * |
曹艳 等: ""基于词表和N_gram算法的新词识别实验"", 《情报科学》 * |
李彦鹏: ""特征耦合泛化及其在文本挖掘中的应用"", 《中国博士学位论文全文数据库 信息科技辑》 * |
盛启东: ""基于Web的新词语发现研究"", 《万方》 * |
胡宏银 等: "《输入法用户词库自动更新工具的设计与实现》", 《武汉工程大学学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875040A (zh) * | 2015-10-27 | 2018-11-23 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及计算机可读存储介质 |
CN108897842A (zh) * | 2015-10-27 | 2018-11-27 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及计算机系统 |
CN108875040B (zh) * | 2015-10-27 | 2020-08-18 | 上海智臻智能网络科技股份有限公司 | 词典更新方法及计算机可读存储介质 |
CN108897842B (zh) * | 2015-10-27 | 2021-04-09 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及计算机系统 |
CN107562220A (zh) * | 2017-08-15 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 输入信息的推荐方法、装置、计算机设备及可读介质 |
CN109524121A (zh) * | 2018-11-09 | 2019-03-26 | 贵州医渡云技术有限公司 | 医疗文件处理方法与装置 |
CN109524121B (zh) * | 2018-11-09 | 2020-11-10 | 贵州医渡云技术有限公司 | 医疗文件处理方法与装置 |
CN110020422A (zh) * | 2018-11-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
US11544459B2 (en) | 2018-11-26 | 2023-01-03 | Advanced New Technologies Co., Ltd. | Method and apparatus for determining feature words and server |
CN111291195A (zh) * | 2020-01-21 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、终端及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103678371B (zh) | 2017-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10983789B2 (en) | Systems and methods for automating and monitoring software development operations | |
US10366371B2 (en) | Method and apparatus for processing service requests | |
CN103678371A (zh) | 词库更新装置、数据整合装置和方法以及电子设备 | |
CN109542247B (zh) | 句式推荐方法及装置、电子设备、存储介质 | |
CN102346761A (zh) | 信息处理装置、关连语句提供方法和程序 | |
CN105389349A (zh) | 词典更新方法及装置 | |
CN104361063A (zh) | 用户兴趣发现方法和装置 | |
US10255047B2 (en) | Source code analysis and adjustment system | |
EP4220381A1 (en) | Code processing method, apparatus, device, and medium | |
US20100185669A1 (en) | Efficient incremental parsing of context sensitive programming languages | |
CN103886092A (zh) | 一种提供终端故障问题解决方案的方法及装置 | |
CN103914533A (zh) | 推广搜索结果的展现方法和装置 | |
KR20230115964A (ko) | 지식 그래프 생성 방법 및 장치 | |
US10180938B2 (en) | Assisted free form decision definition using rules vocabulary | |
CN115827487A (zh) | 知识图谱构建及查询方法、装置、设备、存储介质及产品 | |
CN113742450B (zh) | 用户数据等级落标的方法、装置、电子设备和存储介质 | |
CN114141236B (zh) | 语言模型更新方法、装置、电子设备及存储介质 | |
CN102214173A (zh) | 用于选择用于网络发布的关键词的方法和设备 | |
CN109635281B (zh) | 业务导图中更新节点的方法和装置 | |
CN110929501A (zh) | 文本分析方法和装置 | |
CN103778104A (zh) | 信息处理装置、信息处理方法以及电子设备 | |
CN116739641B (zh) | 一种跨境电商知识图谱分析方法及系统 | |
US20230039971A1 (en) | Automated return evaluation with anomoly detection | |
CN117389541B (zh) | 基于对话检索生成模板的配置系统及设备 | |
US11669681B2 (en) | Automated calculation predictions with explanations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171010 Termination date: 20180914 |