发明内容
本说明书一个或多个实施例描述了一种实体链接语料标注方法和装置,能快速构建特定领域的实体链接数据,减少人工标注成本。
第一方面,提供了一种实体链接语料标注方法,方法包括:
针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;
对于所述命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体;
基于所述目标命名实体、所述第一原始语料中的所述目标命名实体的上下文、所述N个目标候选实体中的第一候选实体,确定所述目标命名实体与所述第一候选实体之间的匹配度分数;
按照匹配度分数由高到低的顺序,确定所述N个目标候选实体的排序;
将标注辅助信息提供给标注人员作为标注的参考,所述标注辅助信息包括,所述命名实体集合以及其中每个命名实体对应的N个目标候选实体及其排序。
在一种可能的实施方式中,所述针对第一原始语料进行命名实体识别,包括:
将所述第一原始语料输入预先训练的命名实体识别模型,通过所述命名实体识别模型识别出多种类型的字符串;
从所述多种类型的字符串中筛选出预设类型的字符串,以得到所述命名实体集合。
在一种可能的实施方式中,所述针对第一原始语料进行命名实体识别,包括:
将所述第一原始语料输入预先训练的命名实体识别模型,通过所述命名实体识别模型识别出预设类型的字符串,以得到所述命名实体集合。
在一种可能的实施方式中,所述预设类型为公司类型,所述标准库包括多个公司各自对应的标准实体。
在一种可能的实施方式中,所述确定所述目标命名实体与所述第一候选实体之间的匹配度分数,包括:
基于所述目标命名实体、所述上下文、所述第一候选实体,针对多个特征项进行特征提取,得到对应的多个特征值;
根据所述多个特征值,确定所述目标命名实体与所述第一候选实体之间的匹配度分数。
进一步地,所述多个特征项包括如下至少一种:
所述目标命名实体与所述第一候选实体之间的文本相似度、所述目标命名实体与所述第一候选实体的多个别名之间的最大文本相似度、所述上下文中是否出现所述第一候选实体的关联信息、所述上下文中包括的其他命名实体与所述第一候选实体的匹配度。
进一步地,所述多个特征项包括第一特征项,所述第一特征项为所述目标命名实体与所述第一候选实体之间的文本相似度;
所述针对多个特征项进行特征提取,包括:
将所述目标命名实体对应于知识图谱中的第一节点,将所述第一候选实体对应于所述知识图谱中的第二节点;所述知识图谱中的节点包括标准实体、标准实体的别名,具有关联关系的两个节点之间具有连接边;
基于图嵌入模型确定所述第一节点的第一嵌入向量,以及确定第二节点的第二嵌入向量;
根据所述第一嵌入向量和所述第二嵌入向量,确定所述第一特征项的特征值。
进一步地,所述根据所述多个特征值,确定所述目标命名实体与所述第一候选实体之间的匹配度分数,包括:
基于所述多个特征值,根据预设规则,确定所述匹配度分数。
进一步地,所述根据所述多个特征值,确定所述目标命名实体与所述第一候选实体之间的匹配度分数,包括:
将所述多个特征值输入预先训练的打分模型,根据所述打分模型的输出,确定所述匹配度分数。
在一种可能的实施方式中,所述将标注辅助信息提供给标注人员作为标注的参考之后,所述方法还包括:
接收所述标注人员对所述第一原始语料进行实体识别标注的第一标注指令;
根据所述第一标注指令,删除所述命名实体集合中的第一命名实体。
在一种可能的实施方式中,所述将标注辅助信息提供给标注人员作为标注的参考之后,所述方法还包括:
接收所述标注人员对所述第一原始语料进行实体识别标注的第二标注指令;
根据所述第二标注指令,在所述命名实体集合中添加第二命名实体;
根据所述第二命名实体,从所述标准库中召回N个第二候选实体;
基于所述第二命名实体、所述第一原始语料中的所述第二命名实体的上下文、所述N个第二候选实体中的任意候选实体,确定所述第二命名实体与所述任意候选实体之间的匹配度分数;
按照匹配度分数由高到低的顺序,确定所述N个第二候选实体的排序。
在一种可能的实施方式中,所述方法还包括:
接收所述标注人员对所述第一原始语料进行实体链接标注的第三标注指令;
根据所述第三标注指令,在所述N个目标候选实体中确定目标命名实体对应的标准实体。
在一种可能的实施方式中,所述命名实体集合包括多个命名实体,所述方法还包括:
向标注人员提供图谱服务,以使所述标注人员根据所述图谱服务展示的多个命名实体之间的关联关系,对所述第一原始语料进行实体链接标注。
第二方面,提供了一种实体链接语料标注方法,方法包括:
针对已给定标准实体集合的第二原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;
基于所述命名实体集合中任意的目标命名实体、所述标准实体集合中的第一标准实体、所述第一标准实体的别名,确定所述目标命名实体与所述第一标准实体之间的匹配度分数;
从所述命名实体集合中,筛选出匹配度分数大于预设阈值的命名实体;
将标注信息提供给标注人员作为标注的参考,所述标注信息包括,所述筛选出的命名实体和所述第一标准实体的对应关系。
在一种可能的实施方式中,所述确定所述目标命名实体与所述第一标准实体之间的匹配度分数,包括:
获取所述目标命名实体与所述第一标准实体之间的第一文本相似度;
获取所述目标命名实体与所述第一标准实体的多个别名之间的最大文本相似度;
通过对所述第一文本相似度和所述最大文本相似度进行加权求和,确定所述匹配度分数。
第三方面,提供了一种实体链接语料标注装置,装置包括:
识别单元,用于针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;
召回单元,用于对于所述识别单元得到的命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体;
匹配单元,用于基于所述目标命名实体、所述第一原始语料中的所述目标命名实体的上下文、所述召回单元召回的N个目标候选实体中的第一候选实体,确定所述目标命名实体与所述第一候选实体之间的匹配度分数;
排序单元,用于按照所述匹配单元得到的匹配度分数由高到低的顺序,确定所述N个目标候选实体的排序;
提供单元,用于将标注辅助信息提供给标注人员作为标注的参考,所述标注辅助信息包括,所述识别单元得到的命名实体集合以及所述召回单元得到的其中每个命名实体对应的N个目标候选实体及所述排序单元得到的其排序。
第四方面,提供了一种实体链接语料标注装置,装置包括:
识别单元,用于针对已给定标准实体集合的第二原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;
匹配单元,用于基于所述识别单元得到的命名实体集合中任意的目标命名实体、所述标准实体集合中的第一标准实体、所述第一标准实体的别名,确定所述目标命名实体与所述第一标准实体之间的匹配度分数;
筛选单元,用于从所述识别单元得到的命名实体集合中,筛选出匹配度分数大于预设阈值的命名实体;
提供单元,用于将标注信息提供给标注人员作为标注的参考,所述标注信息包括,所述筛选单元筛选出的命名实体和所述第一标准实体的对应关系。
第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
通过本说明书实施例提供的一种方法和装置,首先针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;然后对于所述命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体;接着基于所述目标命名实体、所述第一原始语料中的所述目标命名实体的上下文、所述N个目标候选实体中的第一候选实体,确定所述目标命名实体与所述第一候选实体之间的匹配度分数;再按照匹配度分数由高到低的顺序,确定所述N个目标候选实体的排序;最后将标注辅助信息提供给标注人员作为标注的参考,所述标注辅助信息包括,所述命名实体集合以及其中每个命名实体对应的N个目标候选实体及其排序。由上可见,本说明书实施例,由机器对原始语料进行预标注,将预标注结果作为标注辅助信息提供给标注人员作为标注的参考,其中,在预标注过程中,不仅识别出了预设类型的命名实体,然后对于目标命名实体,从标准库中召回N个目标候选实体,而且利用了原始语料中的目标命名实体的上下文,确定所述N个目标候选实体的排序,从而可以为标注人员提供丰富准确的信息,能快速构建特定领域的实体链接数据,减少人工标注成本。
通过本说明书实施例提供的另一种方法和装置,首先针对已给定标准实体集合的第二原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;然后基于所述命名实体集合中任意的目标命名实体、所述标准实体集合中的第一标准实体、所述第一标准实体的别名,确定所述目标命名实体与所述第一标准实体之间的匹配度分数;接着从所述命名实体集合中,筛选出匹配度分数大于预设阈值的命名实体;最后将标注信息提供给标注人员作为标注的参考,所述标注信息包括,所述筛选出的命名实体和所述第一标准实体的对应关系。由上可见,本说明书实施例,针对已给定标准实体集合的第二原始语料,由机器对原始语料进行预标注,将预标注结果作为标注信息提供给标注人员作为标注的参考,其中,在预标注过程中,不仅识别出了预设类型的命名实体,而且根据命名实体与第一标准实体之间的匹配度分数,对识别出的命名实体进行了筛选,从而可以为标注人员提供丰富准确的信息,能快速构建特定领域的实体链接数据,减少人工标注成本。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及实体链接语料标注。参照图1,实体链接(entity linking,NEL)就是将一段文本中的实体指称链接到标准知识库中对应的标准实体(entity)上。特定场景下,通常关注特定类型的实体,例如,企业场景下关注公司类型的实体。企业实体链接:即企业场景的实体链接,识别文本中指代公司的实体指称,然后将其链接到全量企业库中的某个对应企业。比如文本“前期迟迟不肯官宣发布会日期的小米终于在2月13日下午通过网络直播的形式与大家见面,正式发布小米10和小米10Pro。”,首先通过实体识别标注,得到文本中包含的公司类型的实体指称“小米”,再通过实体链接标注,将实体指称“小米”链接到标准知识库中的标准实体“小米科技有限责任公司”,可以理解的是,“小米科技有限责任公司”为工商注册名称,而“小米”为简称,二者都指代同一家公司。
实体指称:文本中出现的指代特定实体的单词,一般为简称或别名,比如“小米”,“百度”、“腾讯”等都为实体指称,又称命名实体(named entity)或实体提及(mention)。
实体链接语料标注:将文本中的实体指称和对应的标准实体标注为<实体指称,标准实体>对,方便后续构造样本用于模型训练和效果评估。
如果采用完全人工标注的方式,每一篇文档,完全由人工完成实体识别标注和实体链接标注两个步骤,无机器或算法辅助,在这种情况下,对标注人员的要求很高,且标注效率非常低下,平均标注一篇闻到文档需要至少10分钟。
本说明书实施例,由机器对原始语料进行预标注,将预标注结果作为标注辅助信息提供给标注人员作为标注的参考,能快速构建特定领域的实体链接数据,减少人工标注成本。
需要说明的是,前述企业实体链接仅为举例说明,本说明书实施例提供的方案不仅限于对公司类型的实体进行实体链接语料标注,还可以适用于对人名、地名、机构名或专有名词等类型的实体进行实体链接语料标注。
图2示出根据一个实施例的实体链接语料标注方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中实体链接语料标注方法包括以下步骤:步骤21,针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;步骤22,对于所述命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体;步骤23,基于所述目标命名实体、所述第一原始语料中的所述目标命名实体的上下文、所述N个目标候选实体中的第一候选实体,确定所述目标命名实体与所述第一候选实体之间的匹配度分数;步骤24,按照匹配度分数由高到低的顺序,确定所述N个目标候选实体的排序;步骤25,将标注辅助信息提供给标注人员作为标注的参考,所述标注辅助信息包括,所述命名实体集合以及其中每个命名实体对应的N个目标候选实体及其排序。下面描述以上各个步骤的具体执行方式。
首先在步骤21,针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合。可以理解的是,在企业场景下,上述预设类型为公司类型,上述命名实体集合可以包括一个或多个命名实体。
其中,第一原始语料可以为一篇文档,文档也可以称为文本,命名实体识别(namedentity recognition,NER),又称作专名识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
在一个示例中,所述针对第一原始语料进行命名实体识别,包括:
将所述第一原始语料输入预先训练的命名实体识别模型,通过所述命名实体识别模型识别出多种类型的字符串;
从所述多种类型的字符串中筛选出预设类型的字符串,以得到所述命名实体集合。
该示例中,采用了通用的命名实体识别模型,会识别出多种类型的实体,只需要过滤筛选出特定领域关注的实体类型即可,比如在企业实体链接场景,只关注公司类型的实体指称。举例来说,第一原始语料为“顺为资本持股为20.5%,小米旗下基金Red BetterLimited持股为19.5%,即雷军系一共持有云米40%股权,为第二大股东。”,其中,命名实体识别模型识别出包括人名、职位、公司等多个类型的字符串,识别结果中包括字符串对应的类型,比如“顺为资本”为公司类型,“雷军”为人名类型,“股东”为职位类型,根据识别结果中包括的类型,就可以选择出需要关注的预设类型的字符串。
在另一个示例中,所述针对第一原始语料进行命名实体识别,包括:
将所述第一原始语料输入预先训练的命名实体识别模型,通过所述命名实体识别模型识别出预设类型的字符串,以得到所述命名实体集合。
该示例中,可以训练一个只识别预设类型的实体指称的命名实体识别模型,会识别出单一类型的实体,无需进一步过滤筛选即可得到特定领域关注的实体类型。
本说明书实施例,具体可以采用基于Bert的命名实体识别模型,F值在0.95+,其为用来对模型的正确率和召回率进行整体评价的评价指标。
然后在步骤22,对于所述命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体。可以理解的是,该步骤是为实体链接的预标注做准备,目标命名实体对应的标准实体存在于标准库中,需要与目标命名实体匹配上。
其中,N的取值可以预先设定,例如,该取值为3、5或10等。
在一个示例中,所述预设类型为公司类型,所述标准库包括多个公司各自对应的标准实体。
该示例中,以企业场景为例,标准库可以是针对公司类型的实体单独整理的知识库,也就是说,不包括其他类型的标准实体;或者,标准库还可以是一个综合的知识库,也就是说,包括公司类型在内的多种类型的标准实体。
可选地,标准库中不仅包括多个标准实体,每个标准实体还备注有对应的实体别名列表。实体别名列表:实体所有别名(或简称)构成的列表,比如小米科技有限责任公司一个可能的别名列表为["小米":1.0,"红米":0.8,"小米科技":0.8],每个别名紧随的数字代表该别名与标准实体之间的相关度。
本说明书实施例,具体可以采用基于ElasticSearch的召回,能够保证较高的召回率以提高标注效率。比如目标命名实体为“小米”,召回的前10位目标候选实体为["小米科技有限责任公司","北京小米电子产品有限公司","北京小米移动软件有限公司","小米之家科技有限公司","小米通讯技术有限公司","广州小米信息服务有限公司","郑州小米地产顾问有限公司","江苏小米餐饮管理有限公司","福州小米教育管理有限公司","淮北小米牧场农牧有限公司"]。
接着在步骤23,基于所述目标命名实体、所述第一原始语料中的所述目标命名实体的上下文、所述N个目标候选实体中的第一候选实体,确定所述目标命名实体与所述第一候选实体之间的匹配度分数。可以理解的是,本说明书实施例,在确定所述目标命名实体与所述第一候选实体之间的匹配度分数时,考虑了所述第一原始语料中的所述目标命名实体的上下文,从而使得上述匹配度分数的确定更为准确。
在一个示例中,所述确定所述目标命名实体与所述第一候选实体之间的匹配度分数,包括:
基于所述目标命名实体、所述上下文、所述第一候选实体,针对多个特征项进行特征提取,得到对应的多个特征值;
根据所述多个特征值,确定所述目标命名实体与所述第一候选实体之间的匹配度分数。
图3示出根据一个实施例的匹配度分数确定方法示意图。参照图3,匹配度分数的确定主要包括特征提取和打分两个阶段,其中,特征提取的输入来源有三部分内容,分别为所述目标命名实体、所述上下文、所述第一候选实体,特征提取的输出作为打分的输入,打分可以基于人工规则,也可以基于神经网络模型,最后输出的匹配度分数是一个0到1之间的分数。
进一步地,所述多个特征项包括如下至少一种:
所述目标命名实体与所述第一候选实体之间的文本相似度、所述目标命名实体与所述第一候选实体的多个别名之间的最大文本相似度、所述上下文中是否出现所述第一候选实体的关联信息、所述上下文中包括的其他命名实体与所述第一候选实体的匹配度。
举例来说,在企业场景下,上述关联信息具体可以为第一候选实体对应的企业的注册地址信息,上述匹配度具体可以为所述上下文中包括的其他命名实体与所述第一候选实体的行业匹配度。
进一步地,所述多个特征项包括第一特征项,所述第一特征项为所述目标命名实体与所述第一候选实体之间的文本相似度;
所述针对多个特征项进行特征提取,包括:
将所述目标命名实体对应于知识图谱中的第一节点,将所述第一候选实体对应于所述知识图谱中的第二节点;所述知识图谱中的节点包括标准实体、标准实体的别名,具有关联关系的两个节点之间具有连接边;
基于图嵌入模型确定所述第一节点的第一嵌入向量,以及确定第二节点的第二嵌入向量;
根据所述第一嵌入向量和所述第二嵌入向量,确定所述第一特征项的特征值。
可选地,在企业场景下,上述知识图谱中还包括自然人对应的节点,上述关联关系还包括自然人与标准实体之间的关系。
进一步地,所述根据所述多个特征值,确定所述目标命名实体与所述第一候选实体之间的匹配度分数,包括:
基于所述多个特征值,根据预设规则,确定所述匹配度分数。
进一步地,所述根据所述多个特征值,确定所述目标命名实体与所述第一候选实体之间的匹配度分数,包括:
将所述多个特征值输入预先训练的打分模型,根据所述打分模型的输出,确定所述匹配度分数。
再在步骤24,按照匹配度分数由高到低的顺序,确定所述N个目标候选实体的排序。可以理解的是,对N个目标候选实体降序排列即可得到一个初步的实体链接结果,减轻人工标注成本。
例如,N的取值为3,N个目标候选实体的排序依次为标准实体A、标准实体B、标准实体C,其中,标准实体A排序最靠前,那么其最有可能为目标命名实体对应的标准实体,上述排序的准确性有助于减轻标注人员后续标注的难度。
最后在步骤25,将标注辅助信息提供给标注人员作为标注的参考,所述标注辅助信息包括,所述命名实体集合以及其中每个命名实体对应的N个目标候选实体及其排序。可以理解的是,上述标注辅助信息为机器标注得到的预标注数据,该预标注数据的准确性越高,标注人员的标注工作就越容易。
本说明书实施例,标注人员的标注工作包括两部分,分别为实体识别标注和实体链接标注。在实体识别标注中,只需要在所述标注辅助信息包括的所述命名实体集合的基础上进行纠错,比如删除误识别的命名实体,添加漏掉的命名实体,由于公司类实体指称有标注规范,这一步是相对简单的,得益于命名实体识别模型的高性能,人工标注成本较低。
在一个示例中,所述将标注辅助信息提供给标注人员作为标注的参考之后,所述方法还包括:
接收所述标注人员对所述第一原始语料进行实体识别标注的第一标注指令;
根据所述第一标注指令,删除所述命名实体集合中的第一命名实体。
在一个示例中,所述将标注辅助信息提供给标注人员作为标注的参考之后,所述方法还包括:
接收所述标注人员对所述第一原始语料进行实体识别标注的第二标注指令;
根据所述第二标注指令,在所述命名实体集合中添加第二命名实体;
根据所述第二命名实体,从所述标准库中召回N个第二候选实体;
基于所述第二命名实体、所述第一原始语料中的所述第二命名实体的上下文、所述N个第二候选实体中的任意候选实体,确定所述第二命名实体与所述任意候选实体之间的匹配度分数;
按照匹配度分数由高到低的顺序,确定所述N个第二候选实体的排序。
该示例中,对于标注人员新加的第二命名实体,可以实时调用候选召回和模型打分服务,给出对应于第二命名实体的N个第二候选实体的排序结果。
本说明书实施例,在实体链接标注中,对于给定的命名实体和该命名实体对应的N个目标候选实体及其排序,标注人员通常可以基于命名实体的上下文、实体特征快速识别出正确的候选实体,但是有些情况下,对于有的命名实体不容易选出正确的候选实体时,可以向标注人员提供图谱服务,图谱服务展示了多个命名实体之间的关联关系,可以向标注人员提供更多的信息,以便标注人员可以快速识别出正确的候选实体。
在一个示例中,所述方法还包括:
接收所述标注人员对所述第一原始语料进行实体链接标注的第三标注指令;
根据所述第三标注指令,在所述N个目标候选实体中确定目标命名实体对应的标准实体。
在一个示例中,所述命名实体集合包括多个命名实体,所述方法还包括:
向标注人员提供图谱服务,以使所述标注人员根据所述图谱服务展示的多个命名实体之间的关联关系,对所述第一原始语料进行实体链接标注。
图4示出根据一个实施例的图谱服务的应用示意图。参照图4,第一原始语料为“顺为资本持股为20.5%,小米旗下基金Red Better Limited持股为19.5%,即雷军系一共持有云米40%股权,为第二大股东。红杉资本旗下基金SCC Venture V Holdco I,Ltd.持股为5.2%,投票权为0.9%。云米总部位于广东佛山。它的投资者包括红杉资本和GIC Pte等等。当前,陈小平为云米创始人、董事会主席及CEO。”,针对上述第一原始语料进行实体识别标注后的命名实体包括“顺为资本”、“小米”、“云米”和“红杉资本”,在之后的实体链接标注中,标注人员很快确定了“小米”与“小米科技有限责任公司”的链接,“云米”与“佛山市云米电器科技有限公司”的链接,而对于“顺为资本”和“红杉资本”还不太确定相应的实体链接,可以基于上下文信息以及图谱服务,比如查询佛山市云米电器科技有限公司的关联图谱(例如股东、历史股东)、查询“红杉资本”的N个目标候选实体及其排序,“顺为资本”的N个目标候选实体及其排序,与“佛山市云米电器科技有限公司”,“小米科技有限责任公司”一起进行群组分析,能快速将“红杉资本”和“顺为资本”链接到正确的实体。图谱服务可以以插件或页面嵌入的形式集成到标注平台,供标注人员使用。
图5示出根据一个实施例的实体链接语料标注的系统架构示意图。参照图5,该系统主要包括离线存储51、在线存储52、模型服务53和标注平台54共四个组成部分。其中,离线存储51,用于存储原始语料、预标注语料、标注平台回流的标注结果、加工后的训练样本,可以采用分布式文件存储系统。在线存储52,主要供在线服务使用,用来提高查询效率,比如基于图数据库构建的知识图谱可以作为图谱服务的后端存储,基于ElasticSearch构建的全量企业库(即标准库),可提供候选召回、企业搜索等服务。模型服务53,主要用于提供命名实体识别、候选召回、实体链接、图谱服务等,其中,实体链接对应于前述对目标候选实体进行排序的过程,可以得到预标注语料;图谱服务,基于知识图谱,如企业图谱、别名图谱,为人工标注或机器标注提供辅助信息。标注平台54,包括实体识别标注和实体链接标注,在通过机器标注生产了预标注的实体指称以及每一个实体指称的链接结果(目标候选实体的排序结果)后,可以将预标注数据上传到标注平台,供标注人员进行标注。
通过本说明书实施例提供的方法,首先针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;然后对于所述命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体;接着基于所述目标命名实体、所述第一原始语料中的所述目标命名实体的上下文、所述N个目标候选实体中的第一候选实体,确定所述目标命名实体与所述第一候选实体之间的匹配度分数;再按照匹配度分数由高到低的顺序,确定所述N个目标候选实体的排序;最后将标注辅助信息提供给标注人员作为标注的参考,所述标注辅助信息包括,所述命名实体集合以及其中每个命名实体对应的N个目标候选实体及其排序。由上可见,本说明书实施例,由机器对原始语料进行预标注,将预标注结果作为标注辅助信息提供给标注人员作为标注的参考,其中,在预标注过程中,不仅识别出了预设类型的命名实体,然后对于目标命名实体,从标准库中召回N个目标候选实体,而且利用了原始语料中的目标命名实体的上下文,确定所述N个目标候选实体的排序,从而可以为标注人员提供丰富准确的信息,能快速构建特定领域的实体链接数据,减少人工标注成本。
图6为本说明书披露的另一个实施例的实施场景示意图。该实施场景涉及实体链接语料标注,针对已给定标准实体集合的第二原始语料进行标注。比如很多新闻在发布时,会通过编辑器(比如指定股票代码,公司简称)与指定的标准实体关联上。参照图6,第二原始语料为“文灿股份:为蔚来汽车供应多款车身结构件全景网6月1日讯文灿股份(603348)周五在上证e互动回答投资者提问时表示,公司已为蔚来汽车供应多款车身结构件,蔚来汽车是公司2017年度的整车厂商前五大集团客户,公司2017年度对其销售收入为653.88万元,占主营业务收入比例为0.42%。针对投资者关于公司来自蔚来汽车收入的询问,公司作出上述回应。文灿股份主营汽车铝合金精密压铸件的研发、生产和销售。”,给定的标准实体集合包括“上海蔚来汽车有限公司”和“广东文灿压铸股份有限公司”这两个标准实体,可以理解的是第二原始语料属于一种半标注语料,标注工作相对简单。本说明书实施例,针对第二原始语料,给出了专门的实体链接标注方案,当给定了文档关联的标准实体集合时,只需要利用命名实体识别模型识别出文本中的特定类型的实体指称,例如公司类指称,然后再将给定的标准实体与识别的实体指称关联上即可,整个过程中不涉及从标准库中召回候选实体。
图7示出根据另一个实施例的实体链接语料标注方法流程图,该方法可以基于图6所示的实施场景。如图7所示,该实施例中实体链接语料标注方法包括以下步骤:步骤71,针对已给定标准实体集合的第二原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;步骤72,基于所述命名实体集合中任意的目标命名实体、所述标准实体集合中的第一标准实体、所述第一标准实体的别名,确定所述目标命名实体与所述第一标准实体之间的匹配度分数;步骤73,从所述命名实体集合中,筛选出匹配度分数大于预设阈值的命名实体;步骤74,将标注信息提供给标注人员作为标注的参考,所述标注信息包括,所述筛选出的命名实体和所述第一标准实体的对应关系。下面描述以上各个步骤的具体执行方式。
首先在步骤71,针对已给定标准实体集合的第二原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合。可以理解的是,该步骤中可以采用与第一原始语料同样的方式对第二原始语料进行命名实体识别。
例如,将所述第二原始语料输入预先训练的命名实体识别模型,通过所述命名实体识别模型识别出多种类型的字符串;从所述多种类型的字符串中筛选出预设类型的字符串,以得到所述命名实体集合。或者,将所述第二原始语料输入预先训练的命名实体识别模型,通过所述命名实体识别模型识别出预设类型的字符串,以得到所述命名实体集合。
然后在步骤72,基于所述命名实体集合中任意的目标命名实体、所述标准实体集合中的第一标准实体、所述第一标准实体的别名,确定所述目标命名实体与所述第一标准实体之间的匹配度分数。可以理解的是,在步骤72之前,可以先基于规则对步骤71得到的命名实体集合进行初步修正,比如过滤媒体信息。
举例来说,对照图6的场景,若步骤71得到的命名实体集合包括“文灿股份”、“蔚来汽车”和“上证e互动”,其中,“上证e互动”为媒体信息,经过初步修改后的命名实体集合仅包括“文灿股份”、“蔚来汽车”。
在一个示例中,所述确定所述目标命名实体与所述第一标准实体之间的匹配度分数,包括:
获取所述目标命名实体与所述第一标准实体之间的第一文本相似度;
获取所述目标命名实体与所述第一标准实体的多个别名之间的最大文本相似度;
通过对所述第一文本相似度和所述最大文本相似度进行加权求和,确定所述匹配度分数。
接着在步骤73,从所述命名实体集合中,筛选出匹配度分数大于预设阈值的命名实体。例如,匹配度分数的取值介于0到1之间,可以将预设阈值定为0.35,匹配度分数低于该预设阈值的命名实体就认为与第一标准实体不匹配。
最后在步骤74,将标注信息提供给标注人员作为标注的参考,所述标注信息包括,所述筛选出的命名实体和所述第一标准实体的对应关系。可以理解的是,一个标准实体可以与一个或多个命名实体相关联,只要二者的匹配度分数达到预设阈值。
本说明书实施例,上述标注信息的准确率较高,通常无需人工再次标注,仅需标注人员进行确认即可。
通过本说明书实施例提供的方法,首先针对已给定标准实体集合的第二原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;然后基于所述命名实体集合中任意的目标命名实体、所述标准实体集合中的第一标准实体、所述第一标准实体的别名,确定所述目标命名实体与所述第一标准实体之间的匹配度分数;接着从所述命名实体集合中,筛选出匹配度分数大于预设阈值的命名实体;最后将标注信息提供给标注人员作为标注的参考,所述标注信息包括,所述筛选出的命名实体和所述第一标准实体的对应关系。由上可见,本说明书实施例,针对已给定标准实体集合的第二原始语料,由机器对原始语料进行预标注,将预标注结果作为标注信息提供给标注人员作为标注的参考,其中,在预标注过程中,不仅识别出了预设类型的命名实体,而且根据命名实体与第一标准实体之间的匹配度分数,对识别出的命名实体进行了筛选,从而可以为标注人员提供丰富准确的信息,能快速构建特定领域的实体链接数据,减少人工标注成本。
根据另一方面的实施例,还提供一种实体链接语料标注装置,该装置用于执行本说明书图2所示实施例提供的方法。图8示出根据一个实施例的实体链接语料标注装置的示意性框图。如图8所示,该装置800包括:
识别单元81,用于针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;
召回单元82,用于对于所述识别单元81得到的命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体;
匹配单元83,用于基于所述目标命名实体、所述第一原始语料中的所述目标命名实体的上下文、所述召回单元82召回的N个目标候选实体中的第一候选实体,确定所述目标命名实体与所述第一候选实体之间的匹配度分数;
排序单元84,用于按照所述匹配单元83得到的匹配度分数由高到低的顺序,确定所述N个目标候选实体的排序;
提供单元85,用于将标注辅助信息提供给标注人员作为标注的参考,所述标注辅助信息包括,所述识别单元81得到的命名实体集合以及所述召回单元82得到的其中每个命名实体对应的N个目标候选实体及所述排序单元84得到的其排序。
可选地,作为一个实施例,所述匹配单元83包括:
特征提取子单元,用于基于所述目标命名实体、所述上下文、所述第一候选实体,针对多个特征项进行特征提取,得到对应的多个特征值;
确定子单元,用于根据所述特征提取子单元得到的多个特征值,确定所述目标命名实体与所述第一候选实体之间的匹配度分数。
进一步地,所述多个特征项包括如下至少一种:
所述目标命名实体与所述第一候选实体之间的文本相似度、所述目标命名实体与所述第一候选实体的多个别名之间的最大文本相似度、所述上下文中是否出现所述第一候选实体的关联信息、所述上下文中包括的其他命名实体与所述第一候选实体的匹配度。
进一步地,所述多个特征项包括第一特征项,所述第一特征项为所述目标命名实体与所述第一候选实体之间的文本相似度;
所述特征提取子单元包括:
图谱对应模块,用于将所述目标命名实体对应于知识图谱中的第一节点,将所述第一候选实体对应于所述知识图谱中的第二节点;所述知识图谱中的节点包括标准实体、标准实体的别名,具有关联关系的两个节点之间具有连接边;
嵌入模块,用于基于图嵌入模型确定所述图谱对应模块得到的第一节点的第一嵌入向量,以及确定所述图谱对应模块得到的第二节点的第二嵌入向量;
确定模块,用于根据所述嵌入模块得到的所述第一嵌入向量和所述第二嵌入向量,确定所述第一特征项的特征值。
进一步地,所述确定子单元,具体用于基于所述多个特征值,根据预设规则,确定所述匹配度分数。
进一步地,所述确定子单元,具体用于将所述多个特征值输入预先训练的打分模型,根据所述打分模型的输出,确定所述匹配度分数。
通过本说明书实施例提供的装置,首先识别单元81针对第一原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;然后召回单元82对于所述命名实体集合中任意的目标命名实体,从标准库中召回N个目标候选实体;接着匹配单元83基于所述目标命名实体、所述第一原始语料中的所述目标命名实体的上下文、所述N个目标候选实体中的第一候选实体,确定所述目标命名实体与所述第一候选实体之间的匹配度分数;再由排序单元84按照匹配度分数由高到低的顺序,确定所述N个目标候选实体的排序;最后提供单元85将标注辅助信息提供给标注人员作为标注的参考,所述标注辅助信息包括,所述命名实体集合以及其中每个命名实体对应的N个目标候选实体及其排序。由上可见,本说明书实施例,由机器对原始语料进行预标注,将预标注结果作为标注辅助信息提供给标注人员作为标注的参考,其中,在预标注过程中,不仅识别出了预设类型的命名实体,然后对于目标命名实体,从标准库中召回N个目标候选实体,而且利用了原始语料中的目标命名实体的上下文,确定所述N个目标候选实体的排序,从而可以为标注人员提供丰富准确的信息,能快速构建特定领域的实体链接数据,减少人工标注成本。
根据另一方面的实施例,还提供一种实体链接语料标注装置,该装置用于执行本说明书图7所示实施例提供的方法。图9示出根据另一个实施例的实体链接语料标注装置的示意性框图。如图9所示,该装置900包括:
识别单元91,用于针对已给定标准实体集合的第二原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;
匹配单元92,用于基于所述识别单元91得到的命名实体集合中任意的目标命名实体、所述标准实体集合中的第一标准实体、所述第一标准实体的别名,确定所述目标命名实体与所述第一标准实体之间的匹配度分数;
筛选单元93,用于从所述识别单元91得到的命名实体集合中,筛选出匹配度分数大于预设阈值的命名实体;
提供单元94,用于将标注信息提供给标注人员作为标注的参考,所述标注信息包括,所述筛选单元93筛选出的命名实体和所述第一标准实体的对应关系。
通过本说明书实施例提供的装置,首先识别单元91针对已给定标准实体集合的第二原始语料进行命名实体识别,得到预设类型的命名实体构成的命名实体集合;然后匹配单元92基于所述命名实体集合中任意的目标命名实体、所述标准实体集合中的第一标准实体、所述第一标准实体的别名,确定所述目标命名实体与所述第一标准实体之间的匹配度分数;接着筛选单元93从所述命名实体集合中,筛选出匹配度分数大于预设阈值的命名实体;最后提供单元94将标注信息提供给标注人员作为标注的参考,所述标注信息包括,所述筛选出的命名实体和所述第一标准实体的对应关系。由上可见,本说明书实施例,针对已给定标准实体集合的第二原始语料,由机器对原始语料进行预标注,将预标注结果作为标注信息提供给标注人员作为标注的参考,其中,在预标注过程中,不仅识别出了预设类型的命名实体,而且根据命名实体与第一标准实体之间的匹配度分数,对识别出的命名实体进行了筛选,从而可以为标注人员提供丰富准确的信息,能快速构建特定领域的实体链接数据,减少人工标注成本。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图7所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图7所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。