CN114840632A

CN114840632A - 一种知识抽取方法、系统、设备及存储介质

Info

Publication number: CN114840632A
Application number: CN202210609563.5A
Authority: CN
Inventors: 刘宇; 王丽; 郭振华; 赵雅倩; 李仁刚; 闫瑞栋; 刘璐; 徐聪; 金良; 贾麒
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-02
Also published as: WO2023231331A1

Abstract

本申请公开了一种知识抽取方法、系统、设备及存储介质，应用于数据处理技术领域，包括：确定文本语料库并进行标注，构建索引得到标注语料库；设置用于表征关系信息的种子数据并检索出相应句子确定出句子的检索词距离，检索词的语法解析树距离，以及动词词组的语法解析树距离；并基于确定出的句子各项距离，按照权重规则确定出句子的各动词词组各自的加权值；通过汇总得出加权值之和最高的K个目标动词词组；从标注语料库中检索出包括目标动词词组的各句子，并按预设规则进行校验；将通过校验之后的各个句子，汇总为对应于种子数据的知识抽取内容。应用本申请的方案，可以有效进行知识抽取，且通用性高、召回率高，可得到高质量的知识抽取内容。

Description

一种知识抽取方法、系统、设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种知识抽取方法、系统、设备及存储介质。

背景技术

随着大数据、机器学习和人工智能在不同应用领域的发展，信息抽取技术急速发展，基于半结构化数据的知识抽取及知识图谱构建技术已经广泛应用于搜索、推荐、数据分析、自然语言处理、图像识别等领域，并取得了十分显著的成功。然而，面向半结构化数据的传统知识抽取技术，无法处理大数据环境下海量的非结构化文本数据，造成大量资源浪费并制约知识图谱的进一步发展，并对下游任务效果产生负面影响。因此，知识抽取任务，即大规模抽取包含语义信息的结构化知识，已经成为业界众多机构的重要研究方向之一。

德国马普所提出一种基于图(Graph)的模式识别技术，利用标签传播算法可以解决小规模文本数据语义偏移问题，还提出一种基于树(Tree)的模式识别技术并成功应用于大规模文本数据，实现医疗领域多元关系知识抽取。微软使用such as，including等简单字符串模式，构建复杂知识实例评估框架，从海量文本中抽取关系知识实例并应用于搜索引擎。此外，一些机构提出多种基于远程监督的抽取方法，构建基于统计信息的模式质量自评估方法，可以解决人工参与过多问题。

总的来说，模式识别技术，或者称为模式抽取技术是一类成功解决知识抽取任务的关键技术。但是，目前基于模式识别技术面向大规模文本数据的知识抽取技术，仍然存在通用性差、召回率低，得到的知识实例质量不高等问题。

综上所述，如何有效地进行知识抽取，避免出现通用性差、召回率低，得到的知识实例质量不高的情况，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种知识抽取方法、系统、设备及存储介质，以有效地进行知识抽取，避免出现通用性差、召回率低，得到的知识实例质量不高的情况。

为解决上述技术问题，本发明提供如下技术方案：

一种知识抽取方法，包括：

确定文本语料库；

对所述文本语料库进行标注，并构建索引，得到标注语料库；

设置用于表征关系信息的种子数据，并从所述标注语料库中检索出包括所述种子数据中的检索词的各个句子；

针对任意1个句子，确定出所述句子的检索词距离，并通过所述句子的语法解析树确定出所述句子的检索词的语法解析树距离，并为所述句子中的每个实体找到与所述实体距离最近的动词词组，且确定出各个动词词组的语法解析树距离；

针对任意1个句子，基于确定出的所述句子各项距离，按照预设的权重规则确定出所述句子的各个动词词组各自的加权值；

根据每1个所述句子的各个动词词组各自的加权值，通过汇总得出加权值之和最高的K个动词词组，作为选定的K个目标动词词组；K为正整数；

针对任意1个所述目标动词词组，从所述标注语料库中检索出包括所述目标动词词组的各个句子，并按照预设规则进行校验；

将通过校验之后的各个句子，汇总为对应于所述种子数据的知识抽取内容。

优选的，所述对所述文本语料库进行标注，包括：

对文本语料库进行实体标注，以将文本链接至实体；

对所述文本语料库进行共指消解，以将文本中的代词链接至所述代词的原始名词。

优选的，所述对所述文本语料库进行实体标注，包括：

通过实体识别工具对文本语料库进行实体标注。

优选的，所述对所述文本语料库进行共指消解，包括：

通过自然语义处理工具对所述文本语料库进行共指消解。

优选的，还包括：

基于实体标注后的结果以及所述共指消解后的结果，当任意1个代词指向无歧义的名词对象时，将所述代词链接至实体。

优选的，在对文本语料库进行标注之前，还包括：

对所述文本语料库进行数据清理，以消除无关信息。

优选的，所述为所述句子中的每个实体找到与所述实体距离最近的动词词组，包括：

通过最近邻居法，为所述句子中的每个实体找到与所述实体距离最近的动词词组。

优选的，针对任意1个句子，基于确定出的所述句子各项距离，按照预设的权重规则确定出所述句子的各个动词词组各自的加权值，包括：

针对任意1个句子中确定出的任意1个动词词组，将句子的检索词距离对应的加权值，句子的检索词的语法解析树距离对应的加权值，以及所述动词词组的语法解析树距离对应的加权值进行求和，得出所述动词词组的加权值；

其中，句子的检索词距离与句子的检索词距离对应的加权值呈负相关，句子的检索词的语法解析树距离与句子的检索词的语法解析树距离对应的加权值呈负相关，动词词组的语法解析树距离与动词词组的语法解析树距离对应的加权值呈负相关。

优选的，在通过汇总得出每个动词词组的加权值之和之后，还包括：

针对任意1个动词词组，确定出从所述标注语料库中检索出包括所述种子数据中的检索词的各个句子中，所述动词词组的出现频率，并基于所述出现频率确定出所述动词词组的频率得分值，且将所述频率得分值与所述动词词组的加权值之和进行叠加，作为所述动词词组的最终得分值；

相应的，所述通过汇总得出加权值之和最高的K个动词词组，作为选定的K个目标动词词组，包括：

将最终得分值最高的K个动词词组，作为选定的K个目标动词词组。

优选的，针对任意1个句子中确定出的任意1个动词词组，通过函数f₁确定出句子的检索词距离对应的加权值，通过函数f₂确定出句子的检索词的语法解析树距离对应的加权值，通过函数f₃确定出动词词组的语法解析树距离对应的加权值；

并且，函数f₁为函数值基于句子的检索词距离进行线性变化的函数，函数f₂和函数f₃均为函数值基于相应距离进行指数性变化的函数。

优选的，函数f₁设置为f₁＝1-ax₁，其中，a为设定的系数，x₁为句子的检索词距离；

函数f₂设置为f₂＝1/(W₁*e^x2)，其中，W₁为设定的系数，x2为句子的检索词的语法解析树距离；

函数f₃设置为f₃＝1/(W₂*e^x3)，其中，W₂为设定的系数，x3为动词词组的语法解析树距离。

优选的，所述按照预设规则进行校验，包括：

针对任意1个待校验的句子，通过所述句子的语法解析树，在所述句子中找到与所述目标动词词组距离最近的名词，作为第一名词；

在所述句子中找到与所述第一名词距离最近的动词，并判断找到的动词是否与所述目标动词一致；

如果是，则所述待校验的句子通过校验，否则未通过校验。

一种知识抽取系统，包括：

文本语料库确定模块，用于确定文本语料库；

标注语料库确定模块，用于对所述文本语料库进行标注，并构建索引，得到标注语料库；

检索模块，用于设置用于表征关系信息的种子数据，并从所述标注语料库中检索出包括所述种子数据中的检索词的各个句子；

距离计算模块，用于针对任意1个句子，确定出所述句子的检索词距离，并通过所述句子的语法解析树确定出所述句子的检索词的语法解析树距离，并为所述句子中的每个实体找到与所述实体距离最近的动词词组，且确定出各个动词词组的语法解析树距离；

加权值计算模块，用于针对任意1个句子，基于确定出的所述句子各项距离，按照预设的权重规则确定出所述句子的各个动词词组各自的加权值；

目标动词词组确定模块，用于根据每1个所述句子的各个动词词组各自的加权值，通过汇总得出加权值之和最高的K个动词词组，作为选定的K个目标动词词组；K为正整数；

校验模块，用于针对任意1个所述目标动词词组，从所述标注语料库中检索出包括所述目标动词词组的各个句子，并按照预设规则进行校验；

知识抽取内容确定模块，用于将通过校验之后的各个句子，汇总为对应于所述种子数据的知识抽取内容。

一种知识抽取设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上述所述的知识抽取方法的步骤。

种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的知识抽取方法的步骤。

应用本发明实施例所提供的技术方案，基于模式识别技术，可以面向大规模文本数据，进行高质量的的知识抽取。具体的，对文本语料库进行标注，并构建索引，得到标注语料库之后，可以设置用于表征关系信息的种子数据，并从标注语料库中检索出包括种子数据中的检索词的各个句子。之后对于任意句子，本申请会确定出该句子各项距离，可以理解的是，句子的检索词距离，以及句子的检索词的语法解析树距离，可以有效地反映出该句子的质量情况，而动词词组的语法解析树距离，可以反映出该动词词组与种子数据中的检索词的联系程度，因此，进行加权值的汇总之后，选定的K个目标动词词组，便可以有效地进行种子数据检索词的特征反映，也就是说，按照K个目标动词词组，从标注语料库中检索出包括目标动词词组的各个句子，是高质量的知识抽取内容。并且由于会按照预设规则进行句子的校验，因此有利于进一步地保障抽取出的知识内容的质量。并且，本申请的方案中是以K个目标动词词组作为检索对象，因此可以从标注语料库中检索出大量的包括目标动词词组的句子，使得本申请方案的召回率较高。此外，本申请的方案中，不限定文本语料库的内容，也不限定种子数据中的检索词，因此本申请的方案可以用于进行各个领域的知识抽取，通用性很强。

综上所述，本申请的方案可以有效地进行知识抽取，且通用性高、召回率高，可以得到高质量的知识抽取内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中一种知识抽取方法的实施流程图；

图2为本发明一种具体实施方式中得到标注语料库的流程示意图；

图3为本发明一种具体实施方式中的语法树的结构示意图；

图4为本发明中一种知识抽取系统的结构示意图；

图5为本发明中一种知识抽取设备的结构示意图；

图6为本发明中一种知识抽取方法的应用环境示意图。

具体实施方式

本发明的核心是提供一种知识抽取方法，可以有效地进行知识抽取，且通用性高、召回率高，可以得到高质量的知识抽取内容。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明中一种知识抽取方法的实施流程图，该知识抽取方法可以包括以下步骤：

步骤S101：确定文本语料库；

本申请的方案具有很强的通用性，文本语料库的具体内容可以根据实际情况进行确定，例如可以是医疗，地理，科学，金融，文化等方面的文本语料库，也可以是同时包含了多方面的知识的文本语料库。

为了保证抽取出的知识的准确性，文本语料库的内容应当是较为准确的文本内容，例如在本发明的一种具体实施方式中，考虑到新闻内容较为准确，网络中存在大量信息，其中百科网站中的信息相对准确，因此，文本语料库可以为通过新闻文件和/或互联网百科数据确定出的文本语料库。

步骤S102：对文本语料库进行标注，并构建索引，得到标注语料库。

对文本语料库进行标注，有利于消除歧义，帮助计算机理解文本内容。

通过构建索引，可以使得后续步骤中进行检索时，可以高效地得出检索结果。具体方式有多种，例如可以使用HashMap实现倒排索引。并且在实际应用中，考虑到后续步骤中的检索方式，在构建索引时，通常可以构建动词索引、名词索引、以及实体索引。当然，其他场合中，可以有更加细致的索引构建方式，并不影响本发明的实施。

在本发明的一种具体实施方式中，得到标注语料库的具体流程可参阅图2。

步骤S21：对文本语料库进行数据清理，以消除无关信息。

步骤S22：对文本语料库进行实体标注，以将文本链接至实体；

步骤S23：对文本语料库进行共指消解，以将文本中的代词链接至代词的原始名词。

步骤S24：基于实体标注后的结果以及共指消解后的结果，当任意1个代词指向无歧义的名词对象时，将代词链接至实体。

步骤S25：构建索引，得到标注语料库。

具体的，该种实施方式中，在对文本语料库进行标注之前，会对文本语料库进行数据清理，以消除无关信息，也就有利于进一步地提高后续抽取出的知识的准确性。

在设置数据清理的具体方式时，开发人员通常可以根据文本语料库中的数据类型、数据特征、数据来源等特征，进行相应程序的开发，有效地完成无关信息的消除。例如一种场合中，考虑到文本语料库中的一些数据来源于网页时，开发人员可以选择使用JAVA等工具完成文本数据的清理，例如可以去除网页连接、表格、广告等无关信息。

图2的实施方式中，对文本语料库进行实体标注，以将文本链接至实体，可以有效地进行文本歧义的消除。将文本链接至实体，即Entity Linking，是将文本数据中的表示实体的词语识别出来，并链接至知识图谱等内容中的实体。例如，文本词语是苹果，通过将文本链接至实体苹果公司Apple Inc，而非苹果手机、苹果(水果)。

进一步的，在本发明的一种具体实施方式中，考虑到通过实体识别工具进行实体标注，可以有效提高效率，降低人工参与程度，因此，步骤S22可以具体为：通过实体识别工具对文本语料库进行实体标注。当然，具体的实体识别工具的选择可以有多种，例如一种场合中，可以通过开源工具包Dexter作为本申请的实体识别工具。

图2的实施方式中，除了对文本语料库进行实体标注，还对文本语料库进行共指消解，以将文本中的代词链接至代词的原始名词，也有利于进行歧义消除，帮助计算机理解文本内容。共指消解即Co-reference，指的是将文本中的代词(如他)识别出来，并指向其原始名词(如张三)。

进一步的，在本发明的一种具体实施方式中，考虑到通过自然语义处理工具进行共指消解，可以有效提高效率，降低人工参与程度，因此，步骤S23可以具体为：通过自然语义处理工具对文本语料库进行共指消解。当然，具体的自然语义处理工具的选择可以有多种，例如一种场合中，可以通过斯坦福的CoreNLP 2.0工具包作为本申请的自然语义处理工具。

图2的实施方式中，不仅进行了实体标注和共指消解来进行歧义消除，还考虑到，实际应用中，大量的文本数据会同时出现待实体标注和名词指代问题。例如，句子PittmetFriends actress Jennifer Anniston and he married her in 2005，该句子中，同时出现待标注的实体Pitt和代词he、her。图2的实施方式中，设置了一种启发式规则，即，会基于实体标注后的结果以及共指消解后的结果，当任意1个代词指向无歧义的名词对象时，将代词链接至实体。

以该句子为例，代词he指向名词Pitt(例如通过自然语义处理工具CoreNLP2.0工具包)，Pitt链接至实体“布拉德皮特Brad Pitt”(通过实体识别工具Dexter)，则基于实体标注后的结果以及共指消解后的结果，可以进一步将代词he链接至实体“布拉德皮特BradPitt”。通过这样的联合标注的方式，可以有效地提高标注数据的范围，并且，后续进行相关句子的检索时，可以有效地提高检索数目，也就使得本申请方案进行知识抽取时的准确率与覆盖率进一步地得到了提高。

步骤S103：设置用于表征关系信息的种子数据，并从标注语料库中检索出包括种子数据中的检索词的各个句子。

种子数据(Seed)可以由用户/开发人员预先给定，用于表征关系信息，即用于表征特定的关系，例如，种子数据为(Bill Gates，Melinda，Spouse)，或者为(Brad Pitt，Angelina Julie，Spouse)，表达的都是(A，B，夫妻)的关系。本申请的方案中，仅需少量种子，即可完成高质量的知识抽取。

设置了种子数据之后，便可以从标注语料库中检索出包括种子数据中的检索词的各个句子。需要说明的是，实际应用中，进行知识抽取时，可以利用1个或多个种子数据，则对于每一个种子数据，可以分别执行本申请的方案，最后进行各个种子数据对应的知识内容的汇总即可。

种子数据中可能含有1个或多个检索词，检索出的句子需要携带有种子数据中的各个检索词。此外，实际应用中，种子数据中通常包括2个名词作为检索词，如果需要使用3个或更多的检索词，则通常可以拆分为多个种子来分别进行知识抽取。

例如，图3的实施方式中，种子数据设置为(Brad Pitt，Jennifer Anision，Spouse)，从标注语料库中检索出的包括种子数据中的检索词的1个句子为Pitt metFriends actress Jennifer Anniston in 1998 and married her in a privatewedding ceremony in Malibu on July 29，2000。

步骤S104：针对任意1个句子，确定出句子的检索词距离，并通过句子的语法解析树确定出句子的检索词的语法解析树距离，并为句子中的每个实体找到与实体距离最近的动词词组，且确定出各个动词词组的语法解析树距离。

句子的检索词距离，指的是检索词在该句子中的距离，即token-distance。以图3的句子为例，检索词Pitt(链接至实体“布拉德皮特Brad Pitt”)与检索词JenniferAnniston之间存在met Friends actress这3个词，则该例子中，句子的检索词距离为3。

此外，正如上文的描述，种子数据中通常包括2个名词作为检索词，当工作人员设定种子数据中存在1个检索词或者2个以上检索词时，可以根据实际情况对步骤S104的各项距离进行适应性处理。例如当仅存在1个检索词时，舍弃句子的检索词距离以及检索词的语法解析树距离，即，句子的检索词距离以及检索词的语法解析树距离均视为0即可。当存在2个以上检索词时，可以基于最近的2个检索词，确定出句子的检索词距离以及检索词的语法解析树距离。当然，正如上文的描述，实际应用中当需要使用3个或更多的检索词，通常选择的方案是拆分为多个种子来分别进行知识抽取，即拆分为多个种子数据，每个种子数据仅包括2个检索词。

语法解析树是一种表示词语之间相互依赖关系的树状结构，其中的叶子节点是句子中的元素，非叶子节点是词、词组的词性。例如可以使用CoreNLP生成句子的语法解析树。

图3的例子中，ROOT表示根目录，S表示源头，即该句子中各个词汇的源头。NP(NounPhrase，名词词组)，VP(Verb Phrase，动词短语)，NNP(Proper Noun singular，专有名词单数)，NNPS(Proper Noun plural，专有名词复数)，VBD(Verb past tense，动词过去式)，NN(Noun，名词)，CC(Coordinating Conjunction，对等连词)，PP(Prepostion Phrase，介词短语)，PRP(Personal pronoun，人称代词)，IN(Preposition or subordinatingconjunction，介词或者从属连词)，DT(Determiner，限定词，如the、some、my等)，JJ(Adjective，形容词)，CD(Cardinal number，基数)。

检索词的语法解析树距离，即noun phrase tree-based distance。图3的例子中，种子数据为(Brad Pitt，Jennifer Anision，Spouse)，在确定检索词的语法解析树距离时，Pitt与Jennifer Anision在语法解析树上的共同祖先是S，即Pitt-NNP-NP-S，JenniferAnision-NNP-NP-NP-VP-VP-S，即检索词的语法解析树距离是3+6＝9。

本申请中，还需要为句子中的每个实体找到与实体距离最近的动词词组，且确定出各个动词词组的语法解析树距离，即verb phrase tree-based distance。这样有利于有效分析动词与名词之间的依赖关系，挖掘出有指向意义的动词短语，例如，married(结婚)与婚姻关系，transfer into club(转会)与踢足球关系。

在实际应用中，可以通过最近邻居法，方便、快速地为句子中的每个实体找到与实体距离最近的动词词组。

仍以图3为例，Jennifer Anision是1个实体，旁边有2个动词，met和married，Jennifer Anision与met之间的语法解析树距离为6，Jennifer Anision与married之间的语法解析树距离为8，因此，与Jennifer Anision这1个实体距离最近的动词词组为met，该动词词组met的语法解析树距离便是6。

此外，实际应用中，当1个实体与多个动词词组的距离最近且距离均相同时，可以将这些动词词组均作为与该实体距离最近的动词词组，且确定出各个动词词组的语法解析树距离，也可以直接舍弃这些动词词组，根据实际需要进行设定即可，并不影响本发明的实施。

还需要说明的是，本申请的方案中，动词词组可以由单个动词构成，例如上文中的met，married也可以由多个词汇构成动词词组，，例如上文中的transfer into club，由工作人员预先设定动词词组库即可。

步骤S105：针对任意1个句子，基于确定出的句子各项距离，按照预设的权重规则确定出句子的各个动词词组各自的加权值。

针对任意1个句子，需要基于确定出的该句子的检索词距离，该句子的检索词的语法解析树距离，以及确定出的该句子的各个动词词组的语法解析树距离，按照预设的权重规则确定出句子的各个动词词组各自的加权值。

预设的权重规则的具体内容可以根据需要进行设定，例如一种简单的方案是确定出各个距离对应的加权值，进而进行线性叠加，作为动词词组在该句子中的加权值。以上述例子中确定出的1个动词词组met为例，则动词词组met在该句子中的加权值＝f₁(3)+f₂(9)+f₃(6)。其中的3为句子的检索词距离，9为检索词的语法解析树距离，6为动词词组met的语法解析树距离。函数f₁表示的是句子的检索词距离与该距离对应的加权值之间的函数关系，相应的，函数f₂表示的是检索词的语法解析树距离与该距离对应的加权值之间的函数关系，函数f₃表示的是动词词组的语法解析树距离与该距离对应的加权值之间的函数关系。

可以理解的是，函数f₁，函数f₂，函数f₃的具体形式均可以根据实际需要进行设定和调整，但需要说明的是，考虑到句子越短，句子的可靠性越高。检索词的语法解析树距离越短，句子的可靠性越高。动词词组的语法解析树距离越短，该动词词组与种子数据的关联性越大，因此，在本发明的一种具体实施方式中，步骤S105可以具体包括：

针对任意1个句子中确定出的任意1个动词词组，将句子的检索词距离对应的加权值，句子的检索词的语法解析树距离对应的加权值，以及动词词组的语法解析树距离对应的加权值进行求和，得出动词词组的加权值；

即该种实施方式中，考虑到的句子越短，句子的可靠性越高，因此令句子的检索词距离对应的加权值越大。同样的，检索词的语法解析树距离越短，句子的可靠性越高，因此令句子的检索词的语法解析树距离对应的加权值越大。动词词组与种子数据的关联性越大，动词词组的语法解析树距离越短，对应的加权值也就越高。可以使得后续选定的目标动词词组的准确性更高，也就有利于提高抽取出的知识的准确性。

当然，具体的负相关的函数关系，可以根据实际需要进行设定，例如一种场合中为了进一步凸显距离的影响，当距离降低时，通过函数确定出的对应于该距离的加权值可以指数性地增大。

进一步的，本申请考虑到，不同的句子的检索词距离之间差异较大，即句子的检索词距离的取值范围较大，而句子的检索词的语法解析树距离，以及动词词组的语法解析树距离由于均是基于语法解析树确定出的距离，因此取值范围较小，对此，为了避免句子的检索词距离对于句子的各个动词词组各自的加权值的影响程度过大，一种场合中。针对任意1个句子中确定出的任意1个动词词组，通过函数f₁确定出句子的检索词距离对应的加权值，通过函数f₂确定出句子的检索词的语法解析树距离对应的加权值，通过函数f₃确定出动词词组的语法解析树距离对应的加权值；

该种场合中，函数f₁可以设置为线性变化的函数，例如具体的，函数f₁可以设置为f₁＝1-ax₁，此处的a为设定的系数，x₁为句子的检索词距离。

而对于函数f₂和函数f₃，由于不同句子中的这两项距离的变化程度不大，因此基于相应距离的加权值可以指数性地变化，以凸显距离的变化产生的影响。例如函数f₂设置为f₂＝1/(W₁*e^x2)，此处的W₁为设定的系数，e为自然对数，x2表示句子的检索词的语法解析树距离。又如，函数f₂设置为f₂＝1-e^x2等等。同样的，例如函数f₃可以设置为f₃＝1/(W₂*e^x3)，此处的W₂为设定的系数，e为自然对数，x3表示动词词组的语法解析树距离。又如，函数f₃设置为f₃＝1-e^x3等等。

步骤S106：根据每1个句子的各个动词词组各自的加权值，通过汇总得出加权值之和最高的K个动词词组，作为选定的K个目标动词词组；K为正整数。

可以理解的是，在步骤S102中设置用于表征关系信息的种子数据之后，通常可以从标注语料库中检索出包括种子数据中的检索词的多个句子，例如一种场合中检索出了1000个句子。针对其中的每1个句子，可以确定出1个或多个动词词组，并得出该句子中的各个动词词组的加权值。例如1000个句子中，有150个句子中均确定了met为动词词组，则对于met而言，有150个加权值，将这150个加权值相加，便是汇总出的met这一动词词组的加权值之和。

本申请考虑到文本本质上的歧义性与不确定性，任何系统不可能保证抽取的模式100％准确，因此，通过汇总得出加权值之和最高的K个动词词组，作为选定的K个目标动词词组，可以在保证较高的知识实例覆盖率的基础上，有效地提升抽取出的知识实例的准确率。当然，K的具体取值可以根据需要进行设定和调整。

本申请的方案中，文本语料库可以是中文，英文，俄文等形式的文本语料库，可以理解的是，文本语料库选取是什么样的语种，种子数据便是什么样的语种。此外，部分语种中，存在动词的时态变化，本申请的方案中，在汇总得出加权值之和时，可以将动词词组的不同时态，视为是同一动词词组进行汇总。即相当于是将动词词组转换为其原始时态、词性之后，再进行各个句子中的该动词词组的加权值的汇总。

步骤S107：针对任意1个目标动词词组，从标注语料库中检索出包括目标动词词组的各个句子，并按照预设规则进行校验。

步骤S108：将通过校验之后的各个句子，汇总为对应于种子数据的知识抽取内容。

对于K个动词词组中的每一个目标动词词组，都可以从标注语料库中检索出包括目标动词词组的各个句子，并且，为了进一步地提高知识抽取的准确率，该种实施方式中会按照预设规则进行校验，只有通过校验之后的句子，才会被汇总为对应于种子数据的知识抽取内容，也就是说，通过目标动词词组检索出的句子，当与目标动词词组关联性较低时，便无法通过校验，该句子会被舍弃。

当然，具体的校验规则可以根据实际需要进行设定，能够有效地反映出句子与目标动词词组的关联性即可。

例如在本发明的一种具体实施方式中，步骤S108中描述的按照预设规则进行校验，可以具体包括：

针对任意1个待校验的句子，通过句子的语法解析树，在句子中找到与目标动词词组距离最近的名词，作为第一名词；

在句子中找到与第一名词距离最近的动词，并判断找到的动词是否与目标动词一致；

如果是，则待校验的句子通过校验，否则未通过校验。

例如一种场合中，种子数据为(Brad Pitt，Jennifer Anision，Spouse)，确定出的其中1个目标动词词组为marry，则先是进行前向搜索，即通过句子的语法解析树，在句子中找到与目标动词词组marry距离最近的名词，将该名词作为第一名词。然后进行反向检验，即可以使用基于语法解析树的最近邻居法，在该句子中找到与该第一名词距离最近的动词，该动词可能就是marry，也可能不是。如果就是marry，则说明该句子与目标动词词组marry关联性较高，即说明该句子是高质量知识的概率较高，因此通过校验，反之则未通过校验。

通过校验之后的各个句子，可以称为各个知识实例，这些句子便是对应于种子数据的知识抽取内容。并且如上文的描述，在进行知识抽取时，可能会使用多个句子，则这些句子各自对应的知识抽取内容，便是总共抽取出的知识内容。

在本发明的一种具体实施方式中，考虑到目前经常需要进行医疗知识抽取，金融知识抽取，地理知识抽取，人文知识抽取，因此，在本发明的一种具体实施方式中，汇总出的对应于种子数据的知识抽取内容，可以为医疗知识抽取内容，或者为金融知识抽取内容，或者为地理知识抽取内容，或者为人文知识抽取内容。

当然，由于本申请的通用性较高，因此在其他场合中，也可以进行其他类型的知识抽取。以前文中种子数据(Brad Pitt，Jennifer Anision，Spouse)为例，例如选取出的1个目标动词词组为marry，从标注语料库中检索出的包括目标动词词组marry的各个句子，都是marry相关的信息，即这些句子构成便是一些关于marry的知识实例，例如其中可能有Bill Gates的结婚相关的知识实例，有Angelina Julie的结婚相关的知识实例，可能有David Beckham的结婚相关的知识实例等等。

在本发明的一种具体实施方式中，在通过汇总得出每个动词词组的加权值之和之后，还包括：

针对任意1个动词词组，确定出从标注语料库中检索出包括种子数据中的检索词的各个句子中，动词词组的出现频率，并基于出现频率确定出动词词组的频率得分值，且将频率得分值与动词词组的加权值之和进行叠加，作为动词词组的最终得分值；

相应的，通过汇总得出加权值之和最高的K个动词词组，作为选定的K个目标动词词组，包括：

该种实施方式中，考虑到，在前述实施方式中，1个动词词组在某个句子中出现时，需要该动词词组是该句子中的1个实体所对应的距离最近的动词词组，该动词词组才能在该句子中得到加权值。而在部分场合中，某些动词词组出现的频率较高，则可以说明该动词词组与种子数据的关系性较高，因此，该种实施方式直接按照动词词组的频率，为动词词组的加权值进行“加分”，即在标注语料库中检索出的包括种子数据中的检索词的各个句子中，确定出动词词组的出现频率，将出现频率转换为动词词组的频率得分值，叠加在动词词组的加权值之上，有利于进一步地提高选定的K个目标动词词组的准确性。将出现频率转换为动词词组的频率得分值时，具体方式也有多种，例如一种方式中设置为简单的正比例的函数关系。

可参阅图6，为本发明中一种知识抽取方法的应用环境示意图。应用环境包括终端610、分析设备620和网络设备630。

终端610可以是显示器、计算机、智能手机、平板电脑和膝上型便携计算机等等能够与用户交互的设备，可以展示汇总出的对应于种子数据的知识抽取内容。分析设备620可以是一台服务器，或者由若干台服务器组成的服务器集群等等能够进行数据分析的设备。可选地，该分析设备620可以是云服务器(也称云计算服务器)。终端610可以通过通信网络与分析设备620建立有线或无线的通信连接。而网络设备630可以向分析设备620提供待分析的数据，使得分析设备620进行知识抽取，终端610则可以将知识抽取结果呈现给用户或者相关工作人员。本申请实施例中所涉及的通信网络可以是第二代(2-Generation，2G)通信网络、第三代(3rd Generation，3G)通信网络、长期演进(Long Term Evolution，LTE)通信网络或第五代(5rd Generation，5G)通信网络等。可选地，前述应用环境还可以包括存储设备，用于进行终端610、分析设备620和/或网络设备630所需数据的存储，该存储设备可以为分布式存储设备。

相应于上面的方法实施例，本发明实施例还提供了一种知识抽取系统，可与上文相互对应参照。

可参阅图4，为本发明中一种知识抽取系统的结构示意图，包括：

文本语料库确定模块401，用于确定文本语料库；

标注语料库确定模块402，用于对文本语料库进行标注，并构建索引，得到标注语料库；

检索模块403，用于设置用于表征关系信息的种子数据，并从标注语料库中检索出包括种子数据中的检索词的各个句子；

距离计算模块404，用于针对任意1个句子，确定出句子的检索词距离，并通过句子的语法解析树确定出句子的检索词的语法解析树距离，并为句子中的每个实体找到与实体距离最近的动词词组，且确定出各个动词词组的语法解析树距离；

加权值计算模块405，用于针对任意1个句子，基于确定出的句子各项距离，按照预设的权重规则确定出句子的各个动词词组各自的加权值；

目标动词词组确定模块406，用于根据每1个句子的各个动词词组各自的加权值，通过汇总得出加权值之和最高的K个动词词组，作为选定的K个目标动词词组；K为正整数；

校验模块407，用于针对任意1个目标动词词组，从标注语料库中检索出包括目标动词词组的各个句子，并按照预设规则进行校验；

知识抽取内容确定模块408，用于将通过校验之后的各个句子，汇总为对应于种子数据的知识抽取内容。

在本发明的一种具体实施方式中，标注语料库确定模块402包括：

第一标注单元，用于对文本语料库进行实体标注，以将文本链接至实体；

第二标注单元，用于对文本语料库进行共指消解，以将文本中的代词链接至代词的原始名词；

索引构建单元，用于构建索引，得到标注语料库。

在本发明的一种具体实施方式中，第一标注单元，具体用于：

通过实体识别工具对文本语料库进行实体标注。

在本发明的一种具体实施方式中，第二标注单元，具体用于：

通过自然语义处理工具对文本语料库进行共指消解。

在本发明的一种具体实施方式中，还包括：

第三标注单元，用于基于实体标注后的结果以及共指消解后的结果，当任意1个代词指向无歧义的名词对象时，将代词链接至实体。

在本发明的一种具体实施方式中，在第一标注单元对文本语料库进行标注之前，还包括：

数据清理单元，用于对文本语料库进行数据清理，以消除无关信息。

在本发明的一种具体实施方式中，距离计算模块404为句子中的每个实体找到与实体距离最近的动词词组，具体用于：

通过最近邻居法，为句子中的每个实体找到与实体距离最近的动词词组。

在本发明的一种具体实施方式中，加权值计算模块405，具体用于：

在本发明的一种具体实施方式中，在目标动词词组确定模块406通过汇总得出每个动词词组的加权值之和之后，目标动词词组确定模块406还用于：

在本发明的一种具体实施方式中，针对任意1个句子中确定出的任意1个动词词组，通过函数f₁确定出句子的检索词距离对应的加权值，通过函数f₂确定出句子的检索词的语法解析树距离对应的加权值，通过函数f₃确定出动词词组的语法解析树距离对应的加权值；

在本发明的一种具体实施方式中，函数f₁设置为f₁＝1-ax₁，其中，a为设定的系数，x₁为句子的检索词距离；

在本发明的一种具体实施方式中，校验模块407按照预设规则进行校验，具体用于：

如果是，则待校验的句子通过校验，否则未通过校验。

相应于上面的方法和系统实施例，本发明实施例还提供了一种知识抽取设备以及一种计算机可读存储介质，可与上文相互对应参照。

该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例中的知识抽取方法的步骤。这里所说的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

可参阅图5，该知识抽取设备可以包括：

存储器501，用于存储计算机程序；

处理器502，用于执行计算机程序以实现如上述任一实施例中的知识抽取方法的步骤。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明的保护范围内。

Claims

1.一种知识抽取方法，其特征在于，包括：

确定文本语料库；

2.根据权利要求1所述的知识抽取方法，其特征在于，所述对所述文本语料库进行标注，包括：

对所述文本语料库进行实体标注，以将文本链接至实体；

3.根据权利要求2所述的知识抽取方法，其特征在于，所述对所述文本语料库进行实体标注，包括：

通过实体识别工具对所述文本语料库进行实体标注。

4.根据权利要求2所述的知识抽取方法，其特征在于，所述对所述文本语料库进行共指消解，包括：

通过自然语义处理工具对所述文本语料库进行共指消解。

5.根据权利要求2所述的知识抽取方法，其特征在于，还包括：

6.根据权利要求1所述的知识抽取方法，其特征在于，在对文本语料库进行标注之前，还包括：

对所述文本语料库进行数据清理，以消除无关信息。

7.根据权利要求1所述的知识抽取方法，其特征在于，所述为所述句子中的每个实体找到与所述实体距离最近的动词词组，包括：

8.根据权利要求1所述的知识抽取方法，其特征在于，针对任意1个句子，基于确定出的所述句子各项距离，按照预设的权重规则确定出所述句子的各个动词词组各自的加权值，包括：

9.根据权利要求8所述的知识抽取方法，其特征在于，针对任意1个句子中确定出的任意1个动词词组，通过函数f₁确定出句子的检索词距离对应的加权值，通过函数f₂确定出句子的检索词的语法解析树距离对应的加权值，通过函数f₃确定出动词词组的语法解析树距离对应的加权值；

10.根据权利要求9所述的知识抽取方法，其特征在于，函数f₁设置为f₁＝1-ax₁，其中，a为设定的系数，x₁为句子的检索词距离；

11.根据权利要求1所述的知识抽取方法，其特征在于，在通过汇总得出每个动词词组的加权值之和之后，还包括：

12.根据权利要求1至11任一项所述的知识抽取方法，其特征在于，所述按照预设规则进行校验，包括：

如果是，则所述待校验的句子通过校验，否则未通过校验。

13.一种知识抽取系统，其特征在于，包括：

文本语料库确定模块，用于确定文本语料库；

14.一种知识抽取设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至12任一项所述的知识抽取方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的知识抽取方法的步骤。