CN106202382B

CN106202382B - 链接实体方法和系统

Info

Publication number: CN106202382B
Application number: CN201610536822.0A
Authority: CN
Inventors: 吴刚
Original assignee: Nanjing Ke Data Technology Co Ltd
Current assignee: Nanjing Ke Data Technology Co Ltd
Priority date: 2016-07-08
Filing date: 2016-07-08
Publication date: 2019-06-14
Anticipated expiration: 2036-07-08
Also published as: CN106202382A

Abstract

本发明公开了一种链接实体方法和系统。该方法包括：从给定文本中获取待链接实体；预设知识库中获取实体名称，简称词库并基于预设知识库建立实体名称的同义词库，所述同义词库包含从预设知识库中获取的所述实体名称以及与所述实体名称相关的信息数据；将分词得到的实体关键词作为搜索词在同义词库中进行搜索；如果搜索匹配到同义词库中的某一词条，将进行搜索的实体关键词与该词条对应的预设知识库中的实体名称进行链接；如果未匹配到，则进行生成候选实体，并通过上下文相似度评价的方式进行消歧链接。根据本发明实施例提供的链接实体方法，提高了链接实体的准确度。

Description

链接实体方法和系统

技术领域

本发明涉及非结构化文本处理领域，尤其涉及一种链接实体方法和系统。

背景技术

随着计算机的广泛使用和互联网的快速发展，网络已经成为人们获取信息非常重要的渠道。维基百科、互动百科和百度百科是互联网不断发展并由无数网民协同编辑构建的知识库，它们包含了大量的结构化知识并且百科中网页之间通过特殊的结构联系起来以表示网页之间的相互关系。这类由网民共同维护的知识库，无论在数量、质量还是更新频率上都超越了传统的由部分专家编辑的百科全书，已经成为人们获取知识的主要来源之一。

在互联网急剧增加的数据信息中，有超过80％的数据都是非结构化的形式，如新闻、微博和微信等数据。通过实体链接，将这些自然语言文本中的实体链接到知识库中的相关实体，使阅读者更加快捷方便地了解领域术语的释义，改进阅读体验，并且实现了对知识的抽取。

然而，在链接实体的过程中，文本中同一个实体可能会有多个别名，以及一个实体名称在不同的上下文中会有不同的含义，这种情况增加了实体链接的难度，并降低了准确率。

发明内容

本发明实施例提出了一种链接实体方法，包括：从给定文本中获取待链接实体；从预设知识库中获取至少包含待链接实体的实体名称，并获得实体名称的简称词库；基于预设知识库建立实体名称的同义词库，所述同义词库包含从预设知识库中获取的实体名称以及与实体名称相关的信息数据；利用分词词典，对给定文本进行分词处理得到给定文本中的实体关键词，其中，分词词典至少包括如下词条：同义词库以及实体名称的简称词库，所述实体关键词包括待链接实体、与所述待链接实体名称相关的信息数据、及所述待链接实体名称的简称中的至少一种；将分词得到的每一实体关键词作为搜索词在同义词库中进行搜索；如果搜索匹配到同义词库中的某一词条，将进行搜索的实体关键词与该词条对应的预设知识库中的所述实体名称进行链接；如果搜索未匹配到同义词库中的词条，则进行生成候选实体，并通过上下文相似度评价的方式进行消歧链接。

另一方面，本发明实施例还提供了一种链接实体方法，包括：从给定文本中获取待链接实体；从预设知识库中获取至少包含待链接实体的实体名称，并获得实体名称的简称词库；基于预设知识库建立实体名称的同义词库，所述同义词库包含从预设知识库中获取的所述实体名称以及与所述实体名称相关的信息数据；对给定文本进行分词处理得到给定文本中的实体关键词，其中，所述实体关键词包括待链接实体、与所述待链接实体名称相关的信息数据、及所述待链接实体名称的简称中的至少一种；将分词得到的每一实体关键词作为搜索词在同义词库中进行搜索；将能够与同义词库中某一词条匹配的实体关键词与该词条对应的预设知识库中的实体名称进行链接。

再一方面，本发明实施例还提供一种链接实体的系统，包括：待链接实体获取模块，用于从给定文本中获取待链接实体；实体名称和简称词库获取模块，用于从预设知识库中获取至少包含待链接实体的实体名称，并获得实体名称的简称词库；同义词库构建模块，用于基于预设知识库建立所述实体名称的同义词库，所述同义词库包含从预设知识库中获取的实体名称以及与实体名称相关的信息数据；实体关键词获取模块，用于利用分词词典，对给定文本进行分词处理得到给定文本中的实体关键词，其中，分词词典至少包括如下词条：同义词库以及实体名称的简称词库，实体关键词包括待链接实体、与所述待链接实体相关的信息数据、所述待链接实体的简称中的至少一种；检索模块，用于将分词得到的每一实体关键词作为搜索词在同义词库中进行搜索；同义词库匹配判断模块，判断所述搜索是否能够匹配到同义词库中的某一词条；同义词库匹配链接模块，用于当搜索匹配能够匹配同义词库中的某一词条时，将进行搜索的实体关键词与该词条对应的预设知识库中的实体名称进行链接；上下文相似度比较链接模块，用于当所述搜索匹配不能够匹配同义词库中的某一词条时，进行生成候选实体，并通过上下文相似度评价的方式进行消歧链接。

根据本发明实施例提供的链接实体方法和系统，进行实体链接时，首先查找给定文本中是否存在某一同义词，将能够与同义词库中某一词条匹配的实体关键词与该词条对应的预设知识库中的实体名称进行链接。这种方法能够更加快速和准确地将待链接实体与知识库中实体进行链接。

附图说明

通过参考附图会更加清楚地理解本公开实施例的特征和优点，并且附图仅是示意性的，不应理解为对本公开进行任何限制，在附图中：

图1示出了本发明一实施例提供的链接实体方法的流程图。

图2是图1中对给定文本进行分词以得到给定文本中的实体关键词的详细的流程图。

图3示出了本发明另一实施例提供的链接实体方法的流程图。

图4是图3中获取待链接实体的各候选实体的详细的流程图。

图5是图3中通过相似度进行评价为待链接实体筛选目标实体进行链接的详细的流程图。

图6示出了图5所述第一阶段的实体链接步骤之后详细的流程图。

图7示出了图5和图6中描述的第二阶段的实体链接的详细的流程图。

图8示出了图5和图6中描述的第二阶段的实体链接之后详细的流程图。

图9示出了本发明又一实施例提供的链接实体方法的流程图。

图10示出了本发明再一实施例提供的链接实体系统的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。

下面结合附图，详细描述根据本发明实施例的链接实体方法。

图1是示出了本发明一实施例的链接实体方法的流程图。如图1所示，本实施例链接实体方法S100包括以下步骤：步骤S110，从给定文本中获取待链接实体；步骤S120，获从预设知识库中获取至少包含所述待链接实体的实体名称，并获得所述实体名称的简称；步骤S130，基于预设知识库建立所述实体名称的同义词库，所述同义词库包含从预设知识库中获取所述实体名称以及与所述实体名称相关的信息数据；步骤S140，利用分词词典，对所述给定文本进行分词处理得到所述给定文本中实体关键词，其中，所述分词词典至少包括如下词条：所述同义词库以及所述实体名称的简称词库，所述实体关键词包括待链接实体、与所述待链接实体名称相关的信息数据、及所述待链接实体名称的简称中的至少一种；步骤S150，将分词得到的每一实体关键词作为搜索词在所述同义词库中进行搜索；如果搜索匹配到同义词库中的某一词条，则执行步骤S160，将进行所述搜索的实体关键词与该词条对应的所述预设知识库中的所述实体名称进行链接；如果所述搜索未匹配到所述同义词库中的词条，则执行步骤S170，进行生成候选实体，并通过上下文相似度评价的方式进行消歧链接。

在所述步骤S110中，所述给定文本可为新闻文本，杂志文本等。所述待链接实体可为读者感兴趣的想了解的目标对象等。

在所述步骤S120中，将待链接实体输入至预设知识库中获取至少包含所述待链接实体的实体名称，并通过简称生成算法获得该实体名称的简称词库。

具体地，对于简称词库中实体的每一个简称可以看做为一个字符串，该字符串包含该实体中的核心词，进一步地，实体的简称还可以包括修饰词和/或后缀。

下面以机构名称为例，详细介绍如何通过简称生成算法获取实体的简称。

人们通常以一定的习惯用简称来称呼机构名称，机构名称的简称通常都包含机构名称中的核心词，而地名，修饰词和后缀都是可选的部分，可以有，也可以没有。例如，对于含有多个修饰词的机构名称，简称中可以包含任意一个修饰词，也可以含有多个修饰词。这样就得到了机构名称的构成规则，即：

中文机构名称＝地名₁+……+地名_m+核心词+修饰词₁+…+修饰词_p+后缀₁+…+后缀_q；

而要得到一个机构名称简称，该简称生成算法就是上述机构名称构成规则的一个逆过程，即，除了“核心词”，其他类别的词条是可选的，这样就得到了中文机构名称的简称词库Abbr，具体表示为下面的形式：

其中，Option(地名_i)表示地名是可选的，Option(修饰词_j)表示修饰词是可选的，Option(后缀_k)表示后缀是可选的。

作为具体例子，如作为实体名称的“甘肃皇台酒业股份有限公司”，通过简称生成算法生成简称集A＝﹛皇台、皇台酒业、皇台股份、皇台酒业股份、皇台有限公司、皇台公司、皇台酒业有限公司﹜等，该简称集A即可作为本实施例的简称词库。

可以理解的是，本实施例中实体的类型并不局限于中文机构名称，对于可以表示为上式的实体名称，都可以通过相同或等同的方法获得该实体名称对应的各种简称。

在所述步骤S130中，从所述的预设知识库中查找搜索出与所述实体名称相关的所有信息数据，这里所描述的与实体名称相关的所有信息数据，对应于该实体名称的所有同义词，例如所述实体名称的别名，二维码，身份信息，曾用名，代码等等，所述实体名称的每一个同义词都能够唯一标识该实体名称，是该实体名称区别于其他实体名称的标识信息。

下面以所述实体名称为机构名称为例，该机构名称全称、英文名称、公司代码、曾用名、A股代码、A股简称、B股代码和B股简称都可以作为该机构名称的标识，即只要能够使机构名称具有唯一性并区别于其他机构名称的词条，都可以作为该机构名称的同义词加入到同义词库，该机构名称同义词库可以表示为：

SynonymSet＝{机构名称全称，机构名称英文名称，公司代码，曾用名，A股代码，A股简称，B股代码，B股简称}

本实施例中同义词库中的词条并不局限于上式SynonymSet中包含的词条，在一些实施例中，预设知识库中某一实体的同义词可以只包含其中部分词条，在另一些实施例中，预设知识库中某一实体的同义词还可以包含其它该实体能够区别于其他实体的词条等等。

为了更容易了解本实施例的思想，下面举一个具体的例子来进一步说明如何构建与一个实体名称对应的同义词库，所述预设知识库中搜索到的实体名称为“甘肃皇台酒业股份有限公司”，与该“甘肃皇台酒业股份有限公司”对应的同义词库如下：

SynonymSet＝{*ST皇台，G皇台，皇台酒业，ST皇台，000995，甘肃皇台酒业股份有限公司}。

作为另一种例子，所述实体名称为人名时，与其对应的信息数据可为身份证号，户籍地址等使其区别于其他人名而具有唯一性的信息都可以作为该人名的同义词加入到同义词库。

在所述步骤S140中，所述分词词典至少包括在所述步骤S120中生成的简称词库及在所述步骤S130中生成的同义词库。再将所述分词词典输入至选定的分词工具的自定义词典中进行分词，对分词工具可以按照需求选定没有特意的限定。

请参阅图2，作为一个可选实施例，所述步骤S140包括：步骤S141，对给定文本进行分词，得到词条序列；步骤S142，对所述词条序列进行过滤，得到所述实体关键词，所述过滤至少包括使用预先构建的修饰词词典和预先构建的后缀词典，过滤掉所述分词序列中的修饰词和后缀。

所述步骤S141中，使用Ansj分词工具进行分词，在分词前，Ansj分词工具的自定义词库中添加了分词词典中包含的词库。使用Ansj分词工具对给定文本进行分词，从而得到给定文本的词条序列M＝{m₁,m₂,…,m_i,…,m_j,…,m_n}，其中，1≤i，j≤n，对于任意i、j，i≠j。

在所述步骤S142中，对得到的词条序列进行过滤，得到所述实体关键词。上述过滤至少包括使用预先构建的修饰词词典和预先构建的后缀词典，过滤掉所述分词序列中的修饰词和后缀。

在上述示例中，对于给定的文本S经过分词步骤得到了词条序列M。可以使用预先构建的修饰词词典和预先构建的后缀词典过滤掉M中例如“股份有限公司”或“有限公司”这样的常用词语。

进一步地，步骤S142中，对得到的词条序列进行过滤还可以包括：对词条序列中的每一个词条，如果该词条作为一个字符串被包含在另一个词条中，则从词条序列中过滤掉该词条。用公式表示则词条序列M中，如果，m_i∈m_j，即m_i包含于m_j，则从M中过滤掉m_i。

下面通过一具体例子作进一步的解释，假设所述预设知识库中存在“甘肃皇台酒业股份有限公司”，将该实体名称的简称词库和该实体名称的同义词库作为分词词典的内容添加进Ansj分词工具的自定义词库中。对于给定文本S＝{一季度亏损的皇台酒业(000995.SZ)，于前夜收到了资产被查封的通知。}，使用Ansj分词工具进行分词，得到词条序列M＝{皇台，皇台酒业，000995}，因为“皇台”∈“皇台酒业”，则从M中过滤掉“皇台”，经上述过滤后得到给定文本S中的待链接实体为“皇台酒业”和“000995”。

在步骤S150中，通过步骤S140得到的每一个实体关键词作为搜索词在所述同义词库中进行搜索。

在上面描述的示例中，预设知识库中的实体“甘肃皇台酒业股份有限公司”，其同义词库SynonymSet＝{GANSU HUANGTAI WINE，01000995，皇台实业，皇台酒业，*ST皇台，G皇台，*STHT，皇台，ST皇台，000995，甘肃皇台酒业股份有限公司}。对于给定文本S中的待链接实体：“皇台酒业”和“000995”，将“皇台酒业”作为搜索词在同义词库中进行搜索，判断得出“皇台酒业”∈SynonymSet中的“甘肃皇台酒业股份有限公司”，且唯一对应，因此，进行所述步骤S160，将待链接实体“皇台酒业”与“甘肃皇台酒业股份有限公司”进行链接，否则进行所述步骤S170。同样的方法，“000995”∈SynonymSet中并且完全匹配，因此，进行所述步骤S160，将待链接实体“000995”与“甘肃皇台酒业股份有限公司”进行链接，否则进行所述步骤S170。

作为另一示例，给定文本为“据中国证券网7日消息，万达集团的文化产业版图将再添世界级新军-传奇影业，具体收购情况或于周二正式发布”；选定的待链接实体为“万达集团”；从预设知识库中获取至少包含所述待链接实体的实体名称为“大连万达集团股份有限公司”和“中国万达集团”，简称集A＝﹛万达、万达集团、大连万达、中国万达、万达集团股份有限公司﹜，SynonymSet＝{大连万达集团股份有限公司，中国万达集团，…}；对给定文本分词得到词条序列，再进行过滤得到的待链接实体仅为“万达集团”，将“万达集团”作为搜索词在同义词库中进行搜索，判断得出“万达集团”∈SynonymSet中的“大连万达集团股份有限公司”和“中国万达集团”，不唯一对应，因此认定未匹配到所述同义词库中的词条，进而进行所述步骤S170。

本发明实施例的链接实体方法S100，通过建立知识库中实体的同义词库，进行实体链接时，首先查找给定文本中是否存在某一同义词，因为同义词的唯一标识性，能够快速和准确的将给定文本中的该同义词链接到知识库中对应的实体名称。这种方法也可以作为处理上下文缺失和上下文中存在同义词这种特征属性时的简化链接。

通过上面描述的示例，利用待链接实体与预先构建的同义词库的匹配，可以解决一个实体有多个别名的链接问题，通过对同义词库的建立和维护，能够使给定文本中的实体关键词被尽可能多和准确的识别出来，提高了实体链接的召回率。

在上面描述的示例中，预设知识库可以基于在线百科，从在线百科中提取实体，和/或利用网页爬取技术爬取网页而获得。作为一个示例，在线百科可以是维基百科，互动百科，百度百科等。

在一些示例中，预设知识库、基于预设知识库中的实体建立同义词库和基于预设知识库中的实体获取简称词库的步骤并不局限于上面描述的顺序。作为日常对知识库的构建和维护，知识库的使用者可以在空闲时就对已有知识库中的实体名称、实体名称的同义词库，实体名称的简称词库进行扩充。作为一个示例，通过浏览新闻、微博、网页等方式发现了一个新的实体名称，可以在知识库中添加该实体名称，并利用上面描述的示例中简称词库和同义词库的构建方法，构建该实体名称的简称词库和同义词库；作为另一个示例，通过浏览新闻、微博、网页等方式发现了知识库中一个已存在的实体名称的新的同义词，可以在同义词库中添加该实体的新的简称。这样在进行实体链接时，可以直接在知识库中查找和获取与待链接实体相关的信息数据，节省了建立简称词库和同义词库的时间，提高了效率。

在另一些示例中，给定文本可以是中文新闻文本，待链接实体可以是中文机构名称。

请参阅图3，示出了本发明又一实施例提供的链接实体方法的流程图。本实施例链接实体方法S200包括以下步骤：步骤S210，从给定文本中获取待链接实体；步骤S220，获从预设知识库中获取至少包含所述待链接实体的实体名称，并获得所述实体名称的简称；步骤S230，基于预设知识库建立所述实体名称的同义词库，所述同义词库包含从预设知识库中获取所述实体名称以及与所述实体名称相关的信息数据；步骤S240，利用分词词典，对所述给定文本进行分词处理得到所述给定文本中的实体关键词，其中，所述分词词典至少包括如下词条：所述同义词库以及所述实体名称的简称词库，所述实体关键词包括待链接实体、与所述待链接实体名称相关的信息数据、及所述待链接实体名称的简称中的至少一种；步骤S250，将分词得到的每一实体关键词作为搜索词在所述同义词库中进行搜索；如果搜索匹配到同义词库中的某一词条，则执行步骤S260，将进行所述搜索的实体关键词与该词条对应的所述预设知识库中的所述实体名称进行链接；如果所述搜索未匹配到所述同义词库中的词条，则执行步骤S270，进行生成候选实体，并通过上下文相似度评价的方式进行消歧链接。本实施例的链接实体方法S200基本相同于所述链接实体方法S100，不同之处在于:所述步骤S270进一步包括：步骤S271，至少从所述预设知识库中获取该待链接实体的各候选实体；以及步骤S272，通过对该待链接实体分别与各所述候选实体的相似度进行评价，并根据相似度评价结果为所述待链接实体筛选出对应的目标实体进行链接。

如图4所示，作为可选实施例，所述步骤S271包括：

步骤S2711，将所述待链接实体作为搜索词，通过全文检索引擎工具至少在所述预设知识库中进行查询，获得各种候选实体词；

在一些实施例中，可以通过普通的搜索对预设知识库中进行查询来查找候选实体，也可以通过全文检索引擎工具例如Apache lucene，将每一个待链接实体作为检索词，在预设知识库中进行查找。Apache lucene能够加快在知识库中查找候选实体的速度。另外为了尽可能多的获取候选实体，可以使用每个待链接实体，通过搜索引擎在互联网中进行检索，以获得和待链接实体相关的候选实体，作为补充。

步骤S2712，所述全文检索引擎工具进一步对所述各种候选实体词打分；

步骤S2713，将分数大于预设阈值的候选实体词作为所述各候选实体。

作为一个示例，全文检索引擎工具对各候选实体词进行打分，分数越高，表示匹配程度越高，并且，全文检索引擎工具可以将匹配程度比较高的结果排在前面，当检索结果非常多的时候，可以只对排在前面的N条检索结果进行筛选，选择其中分数大于预设阈值的检索结果做为各候选实体。其中，N可以是1到100之间的正整数，分数的预设阈值可以在0-2之间。

作为更具体的一个示例，Apache lucene查找前10条的结果中得分大于1.5搜索结果的作为当前待链接实体的候选实体。

如图5所示，作为可选实施例，所述步骤S272包括：步骤S2721，使用基于语义的相似度评价方法，对所述待链接实体的上下文文本分别与每个候选实体的上下文文本的文本相似程度进行评价，以获得待链接实体与每个候选实体的相似度；步骤S2722，获取与所述待链接实体相似程度最高的所述候选实体，将该待链接实体和所述候选实体分别作为字符串，判断所述候选实体字符串中是否包含该待链接实体字符串；

如果判断结果为包含，则进行步骤S2723，对所述待链接实体进行第一阶段的实体链接：将该候选实体作为该待链接实体的目标实体进行链接；

如果判断结果为不包含，则进行步骤S2724，使用综合相似度评价的方法，对所述待链接实体进行第二阶段的实体链接。

在步骤S2721～S2723中，通过分词工具提取实体在所属文本中所处句子或段落中的词条作为该实体的上下文文本。因为实体在所属文本中所处句子或段落中的词条更能代表该实体的语义，并且能够降低算法计算的复杂度。

作为一个示例，获取待链接实体的上下文文本和每个候选实体的上下文文本的步骤包括：通过开源分词工具例如Ansj分别对给定文本中待链接实体所处的段落和知识库中每个候选实体的所处简介文本中的段落进行分词，并去除停用词。

作为更具体的举例，对于给定文本“据中国证券网7日消息，万达集团的文化产业版图将再添世界级新军-传奇影业，具体收购情况或于周二正式发布。”中的待链接实体“万达集团”，可以通过Ansj提取“万达集团”所在语句中的“文化产业”、“新军”、“世界”、“收购”、“发布”作为待链接实体“万达集团”的上下文文本。

为了后续进行上下文文本相似度的计算，进一步地，对去除停用词后得到的词条，通过word2vec进行文档的向量化表示，即计算所有词的词向量。

在一些可选实施例中，使用基于语义的相似度评价方法对文本相似程度进行评价，以获得待链接实体与每个候选实体的相似度；

作为一个示例，采用语义杰卡德Semantic jaccard相似系数来评价文本相似度，因为语义杰卡德Semantic jaccard相似系数考虑文本的语义空间的匹配而不是单独的只做字面匹配，能够体现出文本深层次的语义相似度。具体地，语义杰卡德Semantic jaccard相似系数计算公式如下：

其中，X，Y分别表示给定文本和一个候选实体的上下文文本。

公式中的分子为其中，表示X中的第i个词，y_i表示Y中的第i个词。表示语义相似性部分，由公式可以看出，分子计算的结果越大，SemJac(X,Y)值越大，X和Y越相似。

公式中的分母代表X和Y的语义并集。分母分为两部分，第一部分和分子相同，即语义相似性部分；第二部分m*(1-Cosine(x_dif,y_dif))中，x_dif表示X中没有参与分子计算的所有语言片段，y_dif表示Y中没有参与分子计算的所有语言片段，m表示X，Y中没有参与分子计算的片段个数。通常，将X和Y没有参与分子计算的总片段个数或两者中取最大值作为m的取值。Cosine(x_dif,y_dif)代表X和Y中没有参与分子计算的语言片段的语义相似性，1-Cosine(x_dif,y_dif)代表没有参与分子计算的语言片段的语义差异大小。所以，分母的第二部分m^*(1-Cosine(x_dif,y_dif))从含义上代表X和Y语义差异的部分，两者的语义差异越小，SemJac(X,Y)值越大，X和Y越相似。

分别计算待链接实体与每一个候选实体的语义杰卡德相似系数，获取与待链接实体相似程度最高的候选实体，并且将待链接实体和候选实体分别作为字符串，判断候选实体字符串中是否包含该待链接实体字符串，如果判断结果为包含，将该候选实体作为该待链接实体的目标实体进行链接。

如图6所示，作为一种例子，进行步骤S2723之后，还需要进行：

判断所述第一阶段的链接筛选出的目标实体是否为预期的所述目标实体；

如果判断结果为是，确定第一阶段的链接为正确的链接；

如果判断结果为否，确定第一阶段的链接为错误的链接，取消该链接，并对该待链接实体进行第二阶段的实体链接。

如图7所示，作为一种例子，所述步骤S2724包括：

使用余弦相似度评价方法、字符串相似度评价方法和语义杰卡德相似度评价方法，及所述每种评价方法的权重，综合评价待链接实体与每个候选实体的相似度；

选择综合评价结果中得分最高的所述候选实体作为该待链接实体的目标实体进行链接；

所述每种评价方法的权重是在进行所述评价之前，通过机器学习而获得。

作为一个示例，通过怀卡托智能分析环境(Waikato Environment for KnowledgeAnalysis，简称Weka)在第一阶段的链接中，如果存在链接不正确的待链接实体，对这些待链接实体对应的文本训练并使用线性回归模型，通过这种机器学习的方法不断的调整以获得参与相似度评价的每种评价方法对应的权重。

如图8所示，作为一种例子，进行步骤S2724之后，还需要进行：

判断第二阶段的链接筛选出的目标实体是否为所述预期的目标实体；

如果判断为是，确定第二阶段的链接为正确的链接；

如果判断为否，确定第二阶段的链接为错误的链接，取消该链接，并对该待链接实体进行信息标注。

作为一个示例，可以对该待链接的实体做一个“该实体无法链接”的标签，后期再进行处理。并用相同或相应的步骤完成给定文本中其他待链接实体与知识库中的实体的链接。

本发明实施例的链接实体方法S200中，当进行搜索的实体关键词不能与同义词库进行匹配时，通过对该待链接实体分别与各所述候选实体的相似度进行评价，并根据相似度评价结果为所述待链接实体筛选出对应的目标实体进行链接。

通过上面描述的示例，当给定文本中不存在能够匹配的同义词库这一特征属性时，本方法提供了分层次的上下文相似度比较进行实体的链接，即：如果仅仅基于语义杰卡德相似度评价的方法，还是不能为待链接实体及其相关信息链接到预期的目标实体，则引入了机器学习来不断的调整相似度评价方法的权重，以使以后的实体链接能够越来越准确。

通过本发明中上下文相似度比较的方法进行实体的链接，可以解决一个实体名称在不同的上下文中有不同的含义的问题，提高实体链接的准确率。

本发明提供的链接实体的方法并不限于上面实施例中的描述，在一些实施例中，同义词库中与待链接实体相关的信息数据比较多样和完整，在这种情况下，用户希望通过待链接实体关键词与同义词库的匹配，对待链接实体进行更快速的链接。基于上述情况，如图9所示，本发明还提供了另外一种链接实体的方法S300，包括以下步骤：步骤S310，从给定文本中获取待链接实体；步骤S320，从预设知识库中获取至少包含待链接实体的实体名称，并获得实体名称的简称词库；步骤S330，基于预设知识库建立实体名称的同义词库，所述同义词库包含从预设知识库中获取的所述实体名称以及与所述实体名称相关的信息数据；步骤S340，对给定文本进行分词处理得到给定文本中的实体关键词，其中，所述实体关键词包括待链接实体、与所述待链接实体名称相关的信息数据、及所述待链接实体名称的简称中的至少一种；步骤S350，将分词得到的每一实体关键词作为搜索词在同义词库中进行搜索；步骤S360，将能够与同义词库中某一词条匹配的实体关键词与该词条对应的预设知识库中的实体名称进行链接。

通过本实施例提供的链接实体方法，使识别出的实体与知识库中对应的实体所建立的链接更加快速。

本发明还提供了一种链接实体的系统，如图10所示，描述了根据本发明又一实施例提供的链接实体系统的结构示意图400，包括：待链接实体获取模块410，用于从给定文本中获取待链接实体；实体名称和简称词库获取模块420，用于从预设知识库中获取至少包含待链接实体的实体名称，并获得实体名称的简称词库；同义词库构建模块430，用于基于预设知识库建立所述实体名称的同义词库，所述同义词库包含从预设知识库中获取的实体名称以及与实体名称相关的信息数据；实体关键词获取模块440，用于利用分词词典，对给定文本进行分词处理得到给定文本中的实体关键词，其中，分词词典至少包括如下词条：同义词库以及实体名称的简称词库，实体关键词包括待链接实体、与所述待链接实体相关的信息数据、所述待链接实体的简称中的至少一种；检索模块450，用于将分词得到的每一实体关键词作为搜索词在同义词库中进行搜索；同义词库匹配判断模块460，判断所述搜索是否能够匹配到同义词库中的某一词条；同义词库匹配链接模块470，用于当搜索匹配能够匹配同义词库中的某一词条时，将进行搜索的实体关键词与该词条对应的预设知识库中的实体名称进行链接；上下文相似度比较链接模块480，用于当所述搜索匹配不能够匹配同义词库中的某一词条时，进行生成候选实体，并通过上下文相似度评价的方式进行消歧链接。

根据上述实施例中本发明提供的链接实体的方法和系统，能够识别文本中的实体并使识别出的实体与知识库中对应的实体所建立的链接更便捷和准确。

本发明提供的链接实体的系统并不局限于以上描述的，以及在图10中示出的特定的模块，在一些实施例中，链接实体的系统可以只包含其中的部分模块，即链接实体的系统可以有更灵活的模块配置，下面结合具体的实施例进行说明。

在本发明的又一个实施例中，用户希望只通过待链接实体关键词与同义词库的匹配，对待链接实体进行更快速的链接。基于上述情况，链接实体的系统，包括以下模块：待链接实体获取模块，用于从给定文本中获取待链接实体；实体名称和简称词库获取模块，用于从预设知识库中获取至少包含待链接实体的实体名称，并获得实体名称的简称词库；同义词库构建模块，用于基于预设知识库建立所述实体名称的同义词库，所述同义词库包含从预设知识库中获取的实体名称以及与实体名称相关的信息数据；实体关键词获取模块，用于对给定文本进行分词处理得到给定文本中的实体关键词，其中，实体关键词包括待链接实体、与所述待链接实体相关的信息数据、所述待链接实体的简称中的至少一种；检索模块，用于将分词得到的每一实体关键词作为搜索词在同义词库中进行搜索；同义词库匹配判断模块，判断所述搜索是否能够匹配到同义词库中的某一词条；同义词库匹配链接模块，将能够与同义词库中某一词条匹配的实体关键词与该词条对应的预设知识库中的实体名称进行链接。

根据本实施例中提供的链接实体的系统，能够使识别出的实体与知识库中对应的实体所建立的链接更加快速。

需要说明的是，本说明书中的一些实施例采用递进的方式进行描述，这些实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于与方法实施例基本相似，所以描述的比较简单，相关之处参加方法实施例的部分说明即可。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种链接实体方法，包括：

从给定文本中获取待链接实体；

从预设知识库中获取至少包含所述待链接实体的实体名称，并获得所述实体名称的简称词库；

基于预设知识库建立所述实体名称的同义词库，所述同义词库包含从预设知识库中获取的所述实体名称以及与所述实体名称相关的信息数据；

利用分词词典，对所述给定文本进行分词处理得到所述给定文本中的实体关键词，其中，所述分词词典至少包括如下词条：所述同义词库以及所述实体名称的简称词库，所述实体关键词包括待链接实体、与所述待链接实体名称相关的信息数据、及所述待链接实体名称的简称中的至少一种；

将分词得到的每一实体关键词作为搜索词在所述同义词库中进行搜索；

如果所述搜索匹配到所述同义词库中的某一词条，将进行所述搜索的实体关键词与该词条对应的所述预设知识库中的所述实体名称进行链接；

如果所述搜索未匹配到所述同义词库中的词条，则进行生成候选实体，并通过上下文相似度评价的方式进行消歧链接。

2.根据权利要求1所述的链接实体方法，其中，所述利用分词词典，对所述给定文本进行分词处理得到所述给定文本中的实体关键词的方法包括：

将所述给定文本进行分词，得到词条序列；

对所述词条序列进行过滤，得到所述实体关键词，所述过滤至少包括使用预先构建的修饰词词典和预先构建的后缀词典，过滤掉所述分词序列中的修饰词和后缀。

3.根据权利要求1所述的链接实体方法，其中，

所述实体名称包括核心词、修饰词和/或后缀，所述简称词库中的构成每个简称的字符串至少包括所述核心词。

4.根据权利要求2所述的链接实体方法，其中，所述对词条序列进行过滤还进一步包括：

遍历所述词条序列中的每一个词条，如果该词条作为一个字符串被包含在另一个词条中，则将该词条从所述词条序列中过滤掉。

5.根据权利要求1所述的链接实体方法，其中，

所述同义词库中，对应于每个实体名称的信息数据，使得该实体名称区别于其他实体名称而具有唯一性。

6.根据权利要求1所述的链接实体方法，其中，所述生成候选实体的方法包括：

将所述待链接实体作为搜索词，通过全文检索引擎工具至少在所述预设知识库中进行查询，获得各种候选实体词；

所述全文检索引擎工具进一步对所述各种候选实体词打分；

将分数大于预设阈值的候选实体词作为所述各候选实体。

7.根据权利要求6所述的链接实体方法，其中，所述通过上下文相似度评价的方式进行消歧链接的方法包括：

使用基于语义的相似度评价方法，对所述待链接实体的上下文文本分别与每个候选实体的上下文文本的文本相似程度进行评价，以获得待链接实体与每个候选实体的相似度；

获取与所述待链接实体相似程度最高的所述候选实体，将该待链接实体和所述候选实体分别作为字符串，判断所述候选实体字符串中是否包含该待链接实体字符串；

如果判断结果为包含，对所述待链接实体进行第一阶段的实体链接：将该候选实体作为该待链接实体的目标实体进行链接；

如果判断结果为不包含，则使用综合相似度评价的方法，对所述待链接实体进行第二阶段的实体链接。

8.根据权利要求7所述的链接实体方法，其中，

在所述第一阶段的实体链接过程中将该候选实体作为该待链接实体的目标进行链接之后，

如果判断结果为是，确定所述第一阶段的链接为正确的链接；

如果判断结果为否，确定所述第一阶段的链接为错误的链接，取消该链接，并对该待链接实体进行第二阶段的实体链接。

9.根据权利要求7或8所述的链接实体方法，其中，所述第二阶段的实体链接包括：

10.根据权利要求9所述的链接实体方法，其中，

在所述第二阶段的实体链接过程中将该候选实体作为该待链接实体的目标进行链接之后，

判断所述第二阶段的链接筛选出的目标实体是否为预期的所述目标实体；

如果判断为是，确定所述第二阶段的链接为正确的链接；

如果判断为否，确定所述第二阶段的链接为错误的链接，取消该链接，并对该待链接实体进行信息标注。

11.根据权利要求1所述的链接实体方法，其中，

所述给定文本为中文新闻文本，

所述待链接实体为中文机构名称。

12.根据权利要求1所述的链接实体方法，其中，

所述预设知识库是基于在线百科提取所述在线百科中的实体而获得，和/或利用网页爬取技术爬取网页而获得。

13.一种链接实体方法，包括：

从给定文本中获取待链接实体；

对所述给定文本进行分词处理得到所述给定文本中的实体关键词，其中，所述实体关键词包括待链接实体、与所述待链接实体名称相关的信息数据、及所述待链接实体名称的简称中的至少一种；

将分词得到的每一实体关键词作为搜索词在所述同义词库中进行搜索，将能够与同义词库中某一词条匹配的实体关键词与该词条对应的预设知识库中的实体名称进行链接。

14.一种链接实体系统，包括：

待链接实体获取模块，用于从给定文本中获取待链接实体；

实体名称和简称词库获取模块，用于从预设知识库中获取至少包含所述待链接实体的实体名称，并获得所述实体名称的简称词库；

同义词库构建模块，用于基于预设知识库建立所述实体名称的同义词库，所述同义词库包含从预设知识库中获取的所述实体名称以及与所述实体名称相关的信息数据；

实体关键词获取模块，用于利用分词词典，对所述给定文本进行分词处理得到所述给定文本中的实体关键词，其中，所述分词词典至少包括如下词条：所述同义词库以及所述实体名称的简称词库，所述实体关键词包括待链接实体、与所述待链接实体名称相关的信息数据、及所述待链接实体名称的简称中的至少一种；

检索模块，用于将分词得到的每一实体关键词作为搜索词在所述同义词库中进行搜索；

同义词库匹配判断模块，判断所述搜索是否能够匹配到所述同义词库中的某一词条；

同义词库匹配链接模块，用于当所述搜索匹配能够匹配所述同义词库中的某一词条时，将进行所述搜索的实体关键词与该词条对应的所述预设知识库中的所述实体名称进行链接；

上下文相似度比较链接模块，用于当所述搜索匹配不能够匹配所述同义词库中的某一词条时，进行生成候选实体，并通过上下文相似度评价的方式进行消歧链接。