CN107644051A - 用于同类实体分组的系统和方法 - Google Patents

用于同类实体分组的系统和方法 Download PDF

Info

Publication number
CN107644051A
CN107644051A CN201710184082.3A CN201710184082A CN107644051A CN 107644051 A CN107644051 A CN 107644051A CN 201710184082 A CN201710184082 A CN 201710184082A CN 107644051 A CN107644051 A CN 107644051A
Authority
CN
China
Prior art keywords
entity
entities
group
prediction
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710184082.3A
Other languages
English (en)
Other versions
CN107644051B (zh
Inventor
谭树龙
费洪亮
甄毅
曹昱
刘博聪
刘朝春
王俊晴
周达文
范伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN107644051A publication Critical patent/CN107644051A/zh
Application granted granted Critical
Publication of CN107644051B publication Critical patent/CN107644051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种用于同类实体分组的系统和方法,在实施例中实体可以被分组成实体组用于知识库构造。在实施例中,实体对的相似度或非相似度实体关系被预测为二元关系。在实施例中,预测可以基于实体之间的相似度得分以及实体特征,实体特征使用实体特征或表示模型构造。在实施例中,预测可以是迭代过程,涉及最少人为检验和现存知识更新。在实施例中,一个或多个实体组可以使用图搜索从预测的实体对形成。在实施例中,组质心实体可以基于一个或多个因素被选择以代表每个组,例如,因素可以为它的通用性或普及性。

Description

用于同类实体分组的系统和方法
技术领域
本公开总体上涉及识别相似实体,尤其涉及用于同类实体分组的系统和方法。
背景技术
知识库用在多种应用中,例如自动医学诊断方面的推理搜索引擎、问答等。知识库定义多个实体和实体间的关系。实体分组是用于构造知识库的重要步骤。
如观察到的,对于每个常见实体来说,用户有多种不同说法,这些不同说法是彼此的别名或同义词。特别地,在基于字符的语言中,例如汉语和韩语,一种医学症状(实体)有多于50种不同说法的情况并不少见。症状的这些多种说法应被归为一类并且表示成医学知识库中的唯一实体。
已经为实体分组做出了种种努力。实体标签(例如标识)已经用于实体分组。可以用相应的变体扩展实体以形成用于实体分组的注释实体。实体还可以采用分级的方式归为一类。仍将利用动态更新知识在自然环境下对实体分组方法进行探索。
因此,需要对实体进行分组的系统和方法,其用于诸如知识库构造的过程并且具有改进的分组性能。
发明内容
本公开在第一方面提供一种基于实体的语义对同类实体集合中的同类实体进行分组的计算机实施的方法,所述方法包含:确定实体字典中的每两个实体之间的相似度得分;使用先验知识从实体字典识别多个相似实体对,所述实体字典包含待被确定它们是否具有相似含义的术语集合;使用大规模文本数据来构造实体特征,所述实体特征被所述相似实体对约束;针对每个相似实体对,使用构造的实体特征和确定的相似度得分预测所述实体之间的实体关系,所述预测是正相关或非正相关的二元预测,所述正相关被定义成所述实体之间的有关的关系;响应于一个或多个准则中的一个准则不被满足,取样一些预测的实体关系用于验证,使用验证结果来更新所述先验知识并且重新识别相似实体对,并且至少基于重新识别的相似实体对,重新预测实体关系;响应于一个或多个准则被满足,输出具有正相关预测的实体对;以及将输出的实体对分组成一个或多个实体组,每个实体组包含用于所述组中的全部实体的具有正实体关系的全部实体对。
本公开在第二方面提供一种用于识别相似实体的计算机实施的方法,所述方法包含:[a]针对多个实体中的每个实体,基于先验知识和大规模文本数据,使用实体特征构造器构造实体特征;[b]使用实体关系预测器预测实体关系,以至少部分基于构造的特征确定多个实体对中的每个实体对中的两个实体是否共享相似含义;[c]在第一次迭代中,随机取样一些实体对用于实体关系验证,并且验证每个随机取样的实体对的实体关系是否正确;[d]使用经验证的实体关系更新所述先验知识;[e]使用更新的先验知识重新构造实体特征;[f]使用重新构造的实体特征重新预测实体关系;[g]重复步骤[d]、[e]和[f],直到当前迭代的实体对第一集合及它们对应的实体关系与来自在前迭代的实体对第二集合及它们对应的实体关系之间的实体关系误差度量差异小于阈值为止;以及[h]从多个实体对中输出具有指示实体对中的实体具有相似含义的实体关系的每个实体对。
本公开在第三方面提供一种包含一个或多个序列指令的非暂时性计算机可读介质,其中所述指令被一个或多个处理器执行时,引起包含以下的步骤被执行:使用现存知识从实体字典识别多个相似实体对;确定所述实体字典中的任何两个实体之间的相似度得分;在所述实体字典中针对每个实体构造向量特征,识别的多个相似实体对被用于构造约束;至少基于构造的特征和所述相似度得分预测两个实体之间的实体关系,预测是预测两个实体是否为相关的实体对或不相关的实体对;在预测之后输出相关的实体对;将相关的实体对分组成一个或多个实体组,每个实体组包含针对所述组中的全部实体的全部相关的实体对;以及针对每个实体组选择组质心。
附图说明
将参照本发明的实施例,其中实施例的示例可以在所附的图中示出。这些图旨在是说明性的而非限制性的。尽管本发明总体上在这些实施例的背景下描述,但是应理解,这并非旨在将本发明的范围限制于这些特定实施例。图中的项目并不按比例。
图1示出根据本公开的实施例的同类实体分组系统的系统架构。
图2示出根据本公开的实施例的用于同类实体分组的示例性流程图。
图3示出了根据本公开的实施例的用于选择实体质心的示例性流程图。
图4描绘了根据本公开的实施例的计算设备/信息处理系统的简化框图。
具体实施方式
在下面的描述中,出于解释的目的,阐述了具体细节以便提供对本发明的理解。然而,显而易见地,本领域技术人员能够在没有这些细节的情况下实施。而且,本领域技术人员将认识到下面描述的本发明的实施例可以采用多种方式实施,例如有形计算机可读介质上的过程、装置、系统、设备或方法。
附图中示出的组件或模块用于说明本发明的示例性实施例并且意在避免模糊本发明。还将理解,贯穿本讨论,组件可以被描述成单独的功能单元,单独的功能单元可以包含子单元,但是本领域技术人员将认识到多个组件或其部分可以被分成单独的组件或可以集成到一起,包括集成在单个系统或组件内。应注意,文中讨论的功能或操作可以作为组件实现。组件可以在软件、硬件或其组合中实现。
而且,图中的组件或系统之间的连接并不旨在限制于直接连接。相反地,这些组件之间的数据可以被中间组件更改、重新格式化或以其它方式改变。同样,额外或更少的连接可以被使用。还应注意,术语“耦接”、“连接”、或“通信耦接”应被理解成包括直接连接、通过一个或多个中间设备的间接连接、和无线连接。
说明书中对“一个实施例”、“优选的实施例”、“实施例”或“多个实施例”的引用意味着结合该实施例描述的特定特征、结构、特性或功能被包括在本发明的至少一个实施例中并且可存在于多于一个实施例中。同样,说明书中的各个地方出现的上述短语不必全都指相同的实施例或多个实施例。
说明书中各个地方使用某些术语用于说明并且不应被解释成限制。服务、功能或源不限于单个服务、功能或源;这些术语的使用可以涉及分布式或聚合式的相关服务、功能或源的分组。
术语“包括(include)”、“包括(including)”“包含(comprise)”和“comprising”,应被理解成开放术语并且后面列出的任何项目是示例并且不意味着被限制于所列出的项目。文中使用的任何标题仅仅是出于组织的目的并不应被用来限制本说明书或权利要求书的范围。本专利文件中提及的每个参考文件通过引用的方式全文并入于此。
而且,本领域技术人员应认识到:(1)某些步骤可以选择地执行;(2)步骤可以不限于文中阐述的具体顺序;(3)某些步骤可以按不同顺序执行:以及(4)某些步骤可以同时进行。
图1示出了根据本公开的实施例的同类实体分组系统的系统架构100。在实施例中,同类实体分组系统100包含实体特征构造器125、实体关系预测器130、准则检验器140、同类实体分组器150、和实体组质心选择器160。实体字典110包含待被确定它们是否具有相似含义的术语集合。大规模文本数据115可以从在线医学论坛数据提取,在线医学论坛数据为例如来自论坛用户的帖子、声明、消息。例如,在百度“知道”问答平台中,每天张贴有很多医学问题。这些问题可含有许多文本信息。
实体特征构造器125耦接至先验知识数据集合105、大型文本数据115、和实体字典110,以基于先验知识、大型文本数据和实体字典构造实体特征。在一些实施例中,同类实体分组系统100还包含相似度得分计算器120,相似度得分计算器120从实体字典110接收至少一个相似实体对并且输出每个相似实体对中的实体之间的相似度得分。实体关系预测器130接收实体特征和每个相似实体对中的实体之间的相似度得分以预测每个实体对中的实体是否真是同义实体。在一些实施例中,实体特征构造器125包含实体表示模型,以将每个实体转换或映射成为向量。实体关系预测器130然后基于映射的向量和实体之间的相似度得分进行实体关系预测。
在一些实施例中,同类实体分组系统100还包含准则检验器140,其用来验证是否满足一个或多个准则。在一些实施例中,预测是迭代且半监督预测过程。一个或多个准则可以基于迭代次数和/或迭代预测变化。如果一个或多个准则不被满足,那么全部输出实体关系预测中的一些实体关系预测被取样以便由实体关系验证器145验证实体关系。实体关系验证可以通过人为验证实施。验证结果可以作为更新知识反馈到先验知识105用于先验知识更新。验证结果可以是取样的实体关系预测的预测实体关系的修正。例如,修正可以是正相关预测实体关系到负相关的变化。修正还可以是负相关预测实体关系到正相关的变化。
在下面的迭代中,实体特征构造器125基于更新的先验知识、大规模文本数据和实体字典重新构造实体的实体特征。类似地,实体关系预测器130至少基于重新构造的实体特征重新预测实体关系。
如果满足一个或多个准则,例如在多轮迭代过程之后最近更新的相似实体对的预测和之前更新的相似实体对的预测之间的差异小于阈值,那么最近迭代的预测实体关系被输出到实体分组器150,用于生成一个或多个实体组152。在一个或多个组形成之后,实体组质心选择器160针对每个实体组选择组质心。多种算法和图3中公开的一些选择方法可以被实施用于选择质心。最终实体组质心选择器160输出一个或多个同类实体组,每个组具有实体组质心。
图2示出了根据本公开的实施例的用于同类实体分组的示例性流程图。在步骤210中,确定实体字典110中的任何两个实体之间的相似度得分。相似度得分被用来定量描述实体对的实体之间的关系。在实施例中,相似度得分是从实体字符串匹配获得的字符串级相似度s(e1,e2),其中e1和e2是示例性识别的一个相似实体对中的相似实体。在一些实施例中,相似度得分基于字符串序列的编辑距离或Jaro-Winkler距离相似度。例如,当对于一个相似实体对<e1,e2>,第一实体e1具有一字符串ABC,并且第二实体e2具有一字符串ABD,则字符串级相似度得分s(e1,e2)将为1。
在步骤220中,先验知识(或现存知识库)105和实体字典110被用来识别实体字典110中的全部可能实体对中的相似实体对。根据先验知识105的同义或相关实体的知识被用来指导实体字典110中的相似实体对的识别。在实施例中,一个实体可以被包括在一个或多个实体对中,因为它可以潜在地与多于一个其他实体相关。
在步骤225中,大规模文本数据115中的长句被截短以提供多个单词/短语片段。除了识别的相似实体对之外,单词/短语片段被用作表示模型的输入,用于构造向量形式的实体特征。识别的相似实体对还可以用作约束以指导特征构造。
在步骤230中,基于步骤225中产生的单词/短语片段,全部实体通过单词嵌入技术被映射成为实体表示模型中的向量。在一些实施例中,识别的相似实体对被用作单词嵌入时的约束以提高嵌入精度。在一些实施例中,在迭代实体关系预测过程的每次迭代期间,实体表示模型被多次训练。
在步骤235中,预测实体是否应该作为实体组被归为一类是基于实体向量232和每个实体对的实体之间的相似度得分做出的。多种方法可以用在实体关系预测中。在实施例中,使用分类方法将实体关系预测为二元关系,即“实体应该被归为一类或彼此有关”(对应于正相关预测)或“实体不应该被归为一类或不彼此有关”(对应于非正相关预测)。在一些实施例中,数学公式f被用于预测,f是向量对和相似度得分的函数f(v1,v2,s(e1,e2))。如果f(v1,v2,s(e1,e2))返回1,则相似实体对被预测为“应该被归为一类”。如果f(v1,v2,s(e1,e2))返回0,则相似实体对被预测为“不应该被归为一类”。在一些实施例中,聚类方法被施行用于实体关系预测。在聚类方法下,实体基于特征通过聚类方法(无监督)直接分组。在一个实施例中,可以使用基于向量特征的k均值。在另一实施例中,向量特征和相似度得分这两者可都被利用以建立实体之间的相似度图并使用图聚类。
在实施例中,多种机器学习方法可以被用于实体关系预测。用于分类方法的机器学习可以是监督学习,例如支持向量机(SVM)和随机决策森林,使用现存的医学知识作为标签数据。用于聚类方法的机器学习可以是无监督学习,例如k均值和基于谱密度的图聚类。
在步骤240中,分类方法或聚类方法下的预测实体关系被检验以确定是否满足一个或多个准则。一个或多个准则可以包含迭代次数要求和/或迭代预测变化要求。在一些实施例中,迭代次数要求要求预测迭代次数应该大于1。在这类要求下,在启动预测之后,同类实体分组过程进入步骤250以进行附加的迭代,这在下面描述。在一些实施例中,迭代预测变化要求要求当前迭代的实体预测和之前迭代的实体预测之间的差异小于阈值。例如,差异应小于全部预测实体的某个百分比。
在步骤250中,来自预测相似实体对的一些预测结果被取样以供验证。取样可以是随机过程,每次迭代的取样相互独立。在一些实施例中,正被取样的实体可以在之后的迭代中被排除在再次取样之外。验证过程可以使用人为检验或其它检验方法实施。验证结果可以是基于真实数据的取样实体关系预测的预测实体关系的修正。在实施例中,修正可以是正相关预测实体关系到负相关的变化。修正还可以是负相关预测实体关系到正相关的变化。
验证结果可以用作知识更新252,以更新先验知识105。在更新先验知识105之后,相似实体对至少部分基于更新的先验知识如步骤220中的被重新识别。重新识别的相似实体对然后被用于重新预测实体关系,重新预测的实体关系被与之前在步骤240中预测的实体关系进行比较。如果从比较得出的变化仍是显著的(例如,最近预测关系和之前预测关系之间的差异超过阈值),那么流过程再次进入步骤250并且回到220以进行附加迭代,如上所述。步骤250中一些预测实体对被再次取样用于验证。进一步验证的结果被用作知识更新252以更新先验知识并且用于更多迭代实体关系预测,如上所述。进一步验证过程可以使用人为检验或其它检验方法完成。在实施例中,随机选择的实体对占预测实体对的小部分。
如果变化不显著(例如,最近预测关系和之前预测关系之间的差异小于阈值),在当前迭代中的正相关实体对作为输出实体对被输出,输出实体对然后被用在步骤260中用于实体分组。
在一些实施例中,当聚类方法(无监督)被实施用于实体关系预测时,实体被直接分组。在步骤250中,一些实体对基于聚类结果被取样。例如,正候选实体对能够从一个预测组中提取,并且负实体对能够跨越两个预测组提取。
在步骤260中,输出实体对被分组成一个或多个实体组。多种方法被实施用于分组。在用于分类方法的实施例中,在全部输出实体对中使用图搜索来形成实体组。在图搜索期间,全部输出实体对被分组成一群或多群连接的实体,每群连接的实体是实体组。在一些实施例中,每个组可以包含多于一个实体对,最终,每个形成的实体组包含用于组中的全部实体的具有正实体关系的全部实体对。对于聚类方法,预测结果是已有组的形式。
在步骤270,在每个同类实体组的实体中选择组质心,其细节在图3中描述。
图3示出了根据本公开的实施例的用于选择实体组质心的示例性流程图。在步骤310中,接收一个或多个实体组。在步骤315中,组的数据集合中具有最受欢迎度的实体被选择作为组质心。最受欢迎度可以被称为生成实体组的数据集合中的最高出现频率。在实施例中,数据集合可以是大规模文本数据115。替代地,在步骤320中,在通用搜索引擎(例如,谷歌、必应、百度)中搜索实体组中的每个实体,并且在步骤325中,选择具有最大数量的相关返回结果的实体被作为组质心。
在实施例中,本专利文件的方面可以涉及信息处理系统/计算系统或在信息处理系统/计算系统上实施。为了本公开的目的,计算系统可以包括可操作以计算、推算、确定、分类、处理、传送、接收、检索、发生、路由、切换、存储、显示、通信、显现、检测、记录、再生、操作或利用任何形式的信息、情报、或用于商业、科学、控制或其它目的的数据的任何工具或工具的汇总。例如,计算系统可以是个人计算机(例如笔记本电脑)、平板计算机、平板手机、个人数字辅助装置(PDA)、智能手机、智能手表、智能包、服务器(例如刀片服务器或机架服务器)、网络存储设备、或任何其它合适设备并且其尺寸、形状、性能、功能性和价格可以改变。计算系统可以包括随机存取存储器(RAM)、一个或多个处理源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM、和/或其它类型的存储器。计算系统的附加组件可以包括一个或多个磁盘驱动器、一个或多个用于与外部设备进行通信的网络端口,以及多种输入和输出(I/O)设备,例如键盘、鼠标、触摸屏和/或视频显示器。计算系统还可以包括一个或多个总线,其可操作地在多种硬件组件之间传送通信。
图4描绘了根据本发明的实施例的计算系统400的框图。将理解的是,为系统400示出的功能性可以操作地支持计算系统的多个实施例—尽管应理解计算系统可以是不同的配置并且包括不同的组件。如图4所示,系统400包括一个或多个中央处理单元(CPU)401,其提供计算源并控制计算机。CPU401可以用处理器等实现,并且还可以包括一个或多个图形处理单元(GPU)和/或用于数学计算的浮点协处理器。系统400还可以包括系统存储器402,其可以是随机存取存储器(RAM)、只读存储器(ROM)的形式,或两者兼而有之。
可以设置许多控制器和外围设备,如图4所示。输入控制器403表示到多个输入设备404的接口,例如键盘、鼠标或触笔。还可以有扫描器控制器405,其与扫描器406通信。系统400还可以包括存储控制器407,用于与一个或多个存储设备408接口,每个存储设备408均包括存储介质,例如磁带或磁盘,或某类光学介质,这类光学介质可以用来记录用于操作系统、公共事业和应用的指令程序(可以包括实施本发明的多个方面的程序的实施例)。根据本发明,(多个)存储设备408可以用来存储根据本发明的经处理的数据或待被处理的数据。系统400还可以包括显示控制器409,用于提供到显示设备411的接口,显示设备411可以是电子射线管(CRT)、薄膜晶体管(TFT)显示器、或其它类型的显示器。计算系统400还可以包括打印机控制器412,用于与打印机413通信。通信控制器414可以与一个或多个通信设备415接口,这使得系统400能够通过多种网络中的任一种或通过任何合适的电磁载波信号(包括红外信号)连接远程设备,多种网络包括因特网、以太网云、以太网光纤信道(FCoE)/数据中心桥接(DCB)云、局域网(LAN)、广域网(WAN)、存储域网(SAN)。
在示出的系统中,全部主要系统组件可以连接至总线416,总线416可以表示多于一个物理总线。然而,多种系统组件可以或可以不物理邻近彼此。例如,输入数据和/或输出数据可以从一个物理位置远程地传送到另一物理位置。另外,实现本发明的多个方面的程序可以通过网络从远程位置(例如,服务器)访问。这类数据和/或程序可以通过多种机器可读介质中的任一种传递,这些机器可读介质包括但不限于:磁性媒介,例如硬盘、软盘和磁带;光学媒介,例如CD-ROM和全息设备;磁光媒介;以及专门配置成存储或储存和执行程序代码的硬件设备,例如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、和ROM和RAM设备。
应理解的是,多种系统组件可以或可以不物理邻近彼此。例如,输入和输出可以从一个物理位置远程地传送到另一物理位置。另外,实现本发明的多个方面的程序可以通过网络从远程位置(例如,服务器)访问。这类数据和/或程序可以通过多种机器可读介质中的任一种传递,这些机器可读介质包括但不限于:磁性媒介,例如硬盘、软盘和磁带;光学媒介,例如CD-ROM和全息设备;磁光媒介;以及专门配置成存储或储存和执行程序代码的硬件设备,例如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、和ROM和RAM设备。
本发明的实施例可以编码在一个或多个非暂时性计算机可读媒介上,该一个或多个非暂时性计算机可读媒介带有用于一个或多个处理器或处理单元以引起步骤被执行的指令。应注意,一个或多个非暂时性计算机可读媒介应包括易失性或非易失性存储器。应注意,可以有替代的实施,包括硬件实施或软件/硬件实施。硬件实施的功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此,任何权利要求中的术语“装置”旨在覆盖软件和硬件实施这两者。类似地,文中使用的术语“计算机可读介质或媒介”包括其上嵌入有指令程序的软件和/或硬件,或其组合。认识到这些实施替代方式,将理解图和所附说明书提供本领域技术人员为了执行要求的处理而写程序代码(即,软件)和/或制造电路(即,硬件)所需的功能信息。
应注意,本发明的实施例还可以涉及具有非暂时性、有形计算机可读介质的计算机产品,其中非暂时性、有形计算机可读媒介上有用于执行多个计算机实施的操作的计算机代码。媒介和计算机代码可以是为本发明的目的专门设计和构造的那些媒介和计算机代码,或它们可以是具有相关领域技能的人员已知的或可获得的类型的媒介和计算机代码。有形计算机可读媒介的示例包括但不限于:磁性媒介,例如硬盘、软盘和磁带;光学媒介,例如CD-ROM和全息设备;磁光媒介;以及专门配置成存储或储存和执行程序代码的硬件设备,例如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备、和ROM和RAM设备。计算机代码的示例包括机器代码(例如编译器产生的代码)和含有被计算机使用翻译器执行的更高级代码的文件。本发明的实施例可以作为机器可执行指令整体或部分实施,机器可执行指令可以在被处理设备执行的程序模块中。程序模块的示例可包括程序库、程序、例行程序、对象、组件和数据结构。在分布式计算环境中,程序模块可以物理位于本地、远程环境中,或两者兼而有之。
本领域技术人员将认识到对本发明的实施来说计算系统或程序语言并不重要。本领域技术人员还将认识到上面描述的许多元件可以物理和/或功能性地分成若干子模块或组合到一起。
本领域技术人员将理解,前述示例和实施例是示例性的并且不限于本发明的范围。意图使前述示例和实施例的全部排列、增强、等效、组合和改进对于本领域技术人员来说在阅读本说明书和学习附图之后是显而易见的,并且包括在本发明的真正精神和范围内。
应注意的是,下面的权利要求的元件可以不同地布置,包括具有多个从属关系、配置和组合。例如,在实施例中,多个权利要求的主题可以其它权利要求组合。

Claims (20)

1.一种基于实体的语义对同类实体集合中的同类实体进行分组的计算机实施的方法,所述方法包含:
确定实体字典中的每两个实体之间的相似度得分;
使用先验知识从实体字典识别多个相似实体对,所述实体字典包含待被确定它们是否具有相似含义的术语集合;
使用大规模文本数据来构造实体特征,所述实体特征被所述相似实体对约束;
针对每个相似实体对,使用构造的实体特征和确定的相似度得分预测所述实体之间的实体关系,所述预测是正相关或非正相关的二元预测,所述正相关被定义成所述实体之间的有关的关系;
响应于一个或多个准则中的一个准则不被满足,取样一些预测的实体关系用于验证,使用验证结果来更新所述先验知识并且重新识别相似实体对,并且至少基于重新识别的相似实体对,重新预测实体关系;
响应于一个或多个准则被满足,输出具有正相关预测的实体对;以及
将输出的实体对分组成一个或多个实体组,每个实体组包含用于所述组中的全部实体的具有正实体关系的全部实体对。
2.根据权利要求1所述的方法,其中所述一个或多个准则包含迭代次数要求和迭代预测变化要求。
3.根据权利要求2所述的方法,其中所述迭代次数要求要求多于一次迭代,所述迭代预测变化要求要求当前迭代下与之前迭代下的实体关系预测之间的差异小于阈值。
4.根据权利要求1所述的方法,其中所述实体关系取样是随机取样过程。
5.根据权利要求1所述的方法,其中对取样的预测实体关系的验证通过人为检验完成。
6.根据权利要求1所述的方法,其中对同类实体对进行分组还包含针对每个同类实体组选择组质心。
7.根据权利要求6所述的方法,其中所述组质心被选择为多个实体的数据集合中的最受欢迎实体。
8.根据权利要求6所述的方法,其中使用图搜索分组所述一个或多个实体组。
9.一种用于识别相似实体的计算机实施的方法,所述方法包含:
[a]针对多个实体中的每个实体,基于先验知识和大规模文本数据,使用实体特征构造器构造实体特征;
[b]使用实体关系预测器预测实体关系,以至少部分基于构造的特征确定多个实体对中的每个实体对中的两个实体是否共享相似含义;
[c]在第一次迭代中,随机取样一些实体对用于实体关系验证,并且验证每个随机取样的实体对的实体关系是否正确;
[d]使用经验证的实体关系更新所述先验知识;
[e]使用更新的先验知识重新构造实体特征;
[f]使用重新构造的实体特征重新预测实体关系;
[g]重复步骤[d]、[e]和[f],直到当前迭代的实体对第一集合及它们对应的实体关系与来自在前迭代的实体对第二集合及它们对应的实体关系之间的实体关系误差度量差异小于阈值为止;以及
[h]从多个实体对中输出具有指示实体对中的实体具有相似含义的实体关系的每个实体对。
10.根据权利要求9中的方法,还包含:
[i]从输出的实体对中形成一个或多个实体组,每个实体组包含针对所述组中的全部实体的来自输出的、具有指示实体对中的实体具有相似含义的实体关系的实体对的全部实体对;以及
[j]使用组质心选择器针对每个实体组选择代表实体作为组质心。
11.根据权利要求10所述的方法,其中用于确定两个实体是否共享相同含义的实体关系预测基于两个实体的映射向量和所述两个实体之间的相似度得分。
12.根据权利要求11所述的方法,其中所述两个实体之间的相似度得分由所述两个实体之间的字符串级相似度确定。
13.根据权利要求9所述的方法,其中验证步骤通过人为验证执行。
14.根据权利要求9所述的方法,其中所述实体对使用图搜索分组,以将实体分成至少一群连接的实体,每群连接的实体作为一实体组。
15.根据权利要求9所述的方法,其中所述组质心被选择为组的多个实体中的数据集合中的最受欢迎实体。
16.根据权利要求9所述的方法,其中所述一个或多个实体组使用图搜索分组。
17.一种包含一个或多个序列指令的非暂时性计算机可读介质,其中所述指令被一个或多个处理器执行时,引起包含以下的步骤被执行:
使用现存知识从实体字典识别多个相似实体对;
确定所述实体字典中的任何两个实体之间的相似度得分;
在所述实体字典中针对每个实体构造向量特征,识别的多个相似实体对被用于构造约束;
至少基于构造的特征和所述相似度得分预测两个实体之间的实体关系,预测是预测两个实体是否为相关的实体对或不相关的实体对;
在预测之后输出相关的实体对;
将相关的实体对分组成一个或多个实体组,每个实体组包含针对所述组中的全部实体的全部相关的实体对;以及
针对每个实体组选择组质心。
18.根据权利要求17所述的非暂时性计算机可读介质,其中预测实体关系使用监督分类方法或无监督聚类方法实施。
19.根据权利要求18所述的非暂时性计算机可读介质,其中在所述监督分类方法或无监督聚类方法下预测实体关系是迭代过程。
20.根据权利要求19所述的非暂时性计算机可读介质,其中所述迭代过程中,在每次迭代中随机取样一些预测实体关系用于验证,验证的结果被用于重新预测实体关系直到满足一个或多个准则为止。
CN201710184082.3A 2016-07-20 2017-03-24 用于同类实体分组的系统和方法 Active CN107644051B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/215,492 2016-07-20
US15/215,492 US10372743B2 (en) 2016-07-20 2016-07-20 Systems and methods for homogeneous entity grouping

Publications (2)

Publication Number Publication Date
CN107644051A true CN107644051A (zh) 2018-01-30
CN107644051B CN107644051B (zh) 2022-01-28

Family

ID=60988758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710184082.3A Active CN107644051B (zh) 2016-07-20 2017-03-24 用于同类实体分组的系统和方法

Country Status (2)

Country Link
US (1) US10372743B2 (zh)
CN (1) CN107644051B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388556B (zh) * 2018-02-02 2021-08-17 云知声智能科技股份有限公司 同类实体的挖掘方法及系统
US11500910B2 (en) * 2018-03-21 2022-11-15 International Business Machines Corporation Similarity based negative sampling analysis
US11144337B2 (en) * 2018-11-06 2021-10-12 International Business Machines Corporation Implementing interface for rapid ground truth binning
CN109783631B (zh) * 2019-02-02 2022-05-17 北京百度网讯科技有限公司 社区问答数据的校验方法、装置、计算机设备和存储介质
CN110209839B (zh) * 2019-06-18 2021-07-27 卓尔智联(武汉)研究院有限公司 农业知识图谱构建装置、方法及计算机可读存储介质
CN110502608B (zh) * 2019-07-05 2023-10-10 平安科技(深圳)有限公司 基于知识图谱的人机对话方法及人机对话装置

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040078654A1 (en) * 2002-03-29 2004-04-22 Holland Mark C. Hybrid quorum/primary-backup fault-tolerance model
US20040181526A1 (en) * 2003-03-11 2004-09-16 Lockheed Martin Corporation Robust system for interactively learning a record similarity measurement
CN101068217A (zh) * 2006-06-16 2007-11-07 腾讯科技(深圳)有限公司 一种简化电子邮件操作的方法及装置
CN101075228A (zh) * 2006-05-15 2007-11-21 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
US20080005073A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Data management in social networks
US20080104063A1 (en) * 2001-08-31 2008-05-01 Dan Gallivan System And Method For Clustering Unstructured Documents
CN101216819A (zh) * 2007-12-28 2008-07-09 北京邮电大学 基于领域本体的名片信息中译英自动翻译方法
CN101446944A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义关系树的构造和比较方法
CN101539906A (zh) * 2008-03-17 2009-09-23 亿维讯软件(北京)有限公司 一种专利文本自动分析的系统及方法
CN101546290A (zh) * 2009-04-30 2009-09-30 上海交通大学 提高面向对象型软件中类阶层质量预测准确度的方法
US20100293195A1 (en) * 2009-05-12 2010-11-18 Comcast Interactive Media, Llc Disambiguation and Tagging of Entities
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN102646095A (zh) * 2011-02-18 2012-08-22 株式会社理光 一种基于网页分类信息的对象分类方法和系统
US20140172754A1 (en) * 2012-12-14 2014-06-19 International Business Machines Corporation Semi-supervised data integration model for named entity classification
CN104699034A (zh) * 2013-12-03 2015-06-10 西门子公司 对制造执行系统中的设计更新进行管理
US20150356969A1 (en) * 2013-01-02 2015-12-10 Postech Academy-Industry Foundation Method for recognizing statistical voice language
CN105704188A (zh) * 2014-11-27 2016-06-22 华为软件技术有限公司 应用与服务的部署方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135238B2 (en) * 2006-03-31 2015-09-15 Google Inc. Disambiguation of named entities
JP5014727B2 (ja) * 2006-10-03 2012-08-29 株式会社エヌ・ティ・ティ・ドコモ 送信電力制御方法及びユーザ端末
US8214363B2 (en) * 2009-07-06 2012-07-03 Abhilasha Chaudhary Recognizing domain specific entities in search queries
US9535902B1 (en) * 2013-06-28 2017-01-03 Digital Reasoning Systems, Inc. Systems and methods for entity resolution using attributes from structured and unstructured data
US9792532B2 (en) * 2013-06-28 2017-10-17 President And Fellows Of Harvard College Systems and methods for machine learning enhanced by human measurements
US9569525B2 (en) * 2013-09-17 2017-02-14 International Business Machines Corporation Techniques for entity-level technology recommendation
US10013483B2 (en) * 2014-01-30 2018-07-03 Microsoft Technology Licensing, Llc System and method for identifying trending topics in a social network
US10055482B2 (en) * 2014-03-18 2018-08-21 Ntt Docomo Inc. Knowledge engine for managing massive complex structured data
US10289637B2 (en) * 2014-06-13 2019-05-14 Excalibur Ip, Llc Entity generation using queries
US9256664B2 (en) * 2014-07-03 2016-02-09 Palantir Technologies Inc. System and method for news events detection and visualization

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080104063A1 (en) * 2001-08-31 2008-05-01 Dan Gallivan System And Method For Clustering Unstructured Documents
US20040078654A1 (en) * 2002-03-29 2004-04-22 Holland Mark C. Hybrid quorum/primary-backup fault-tolerance model
US20040181526A1 (en) * 2003-03-11 2004-09-16 Lockheed Martin Corporation Robust system for interactively learning a record similarity measurement
CN101075228A (zh) * 2006-05-15 2007-11-21 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
CN101068217A (zh) * 2006-06-16 2007-11-07 腾讯科技(深圳)有限公司 一种简化电子邮件操作的方法及装置
US20080005073A1 (en) * 2006-06-28 2008-01-03 Microsoft Corporation Data management in social networks
CN101216819A (zh) * 2007-12-28 2008-07-09 北京邮电大学 基于领域本体的名片信息中译英自动翻译方法
CN101539906A (zh) * 2008-03-17 2009-09-23 亿维讯软件(北京)有限公司 一种专利文本自动分析的系统及方法
CN101446944A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义关系树的构造和比较方法
CN101546290A (zh) * 2009-04-30 2009-09-30 上海交通大学 提高面向对象型软件中类阶层质量预测准确度的方法
US20100293195A1 (en) * 2009-05-12 2010-11-18 Comcast Interactive Media, Llc Disambiguation and Tagging of Entities
CN102646095A (zh) * 2011-02-18 2012-08-22 株式会社理光 一种基于网页分类信息的对象分类方法和系统
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
US20140172754A1 (en) * 2012-12-14 2014-06-19 International Business Machines Corporation Semi-supervised data integration model for named entity classification
US20150356969A1 (en) * 2013-01-02 2015-12-10 Postech Academy-Industry Foundation Method for recognizing statistical voice language
CN104699034A (zh) * 2013-12-03 2015-06-10 西门子公司 对制造执行系统中的设计更新进行管理
CN105704188A (zh) * 2014-11-27 2016-06-22 华为软件技术有限公司 应用与服务的部署方法和装置

Also Published As

Publication number Publication date
CN107644051B (zh) 2022-01-28
US20180025008A1 (en) 2018-01-25
US10372743B2 (en) 2019-08-06

Similar Documents

Publication Publication Date Title
Raschka et al. Machine Learning with PyTorch and Scikit-Learn: Develop machine learning and deep learning models with Python
Raschka et al. Python machine learning: Machine learning and deep learning with Python, scikit-learn, and TensorFlow 2
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
Li et al. Transformation networks for target-oriented sentiment classification
Liu Python machine learning by example
CN105843781B (zh) 用于提高缓存效率的矩阵排序的方法和系统
CN107644051A (zh) 用于同类实体分组的系统和方法
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
KR101868830B1 (ko) 머신 러닝에서의 가중치 생성
CN111523119B (zh) 漏洞检测的方法和装置、电子设备及计算机可读存储介质
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
US11030402B2 (en) Dictionary expansion using neural language models
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
Ding et al. An attentive neural sequence labeling model for adverse drug reactions mentions extraction
CN112836502B (zh) 一种金融领域事件隐式因果关系抽取方法
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
Concolato et al. Data science: A new paradigm in the age of big-data science and analytics
CN113297351A (zh) 文本数据标注方法及装置、电子设备及存储介质
Chemmengath et al. Let the CAT out of the bag: Contrastive attributed explanations for text
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
US20230134798A1 (en) Reasonable language model learning for text generation from a knowledge graph
US20220405474A1 (en) Method, computing device and computer-readable medium for classification of encrypted data using neural network
US11361031B2 (en) Dynamic linguistic assessment and measurement
Yi et al. A method for entity resolution in high dimensional data using ensemble classifiers
Aslam et al. Improving the review classification of Google apps using combined feature embedding and deep convolutional neural network model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant