CN112507718A

CN112507718A - 一种跨语种实体标注方法、装置、设备及存储介质

Info

Publication number: CN112507718A
Application number: CN202011487631.2A
Authority: CN
Inventors: 苏志铭; 刘权; 严涵; 陈志刚
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-16
Anticipated expiration: 2040-12-16
Also published as: CN112507718B

Abstract

本申请提供了一种跨语种实体标注方法、装置、设备及存储介质，方法包括：获取标注出实体词的源语种文本和对应的目标语种文本，根据源语种文本和目标语种文本获取正样例集、负样例集和候选数据集，正样例集中的每个正样例表征源语种文本中的一个实体词，负样例集中的每个负样例表征源语种文本中的一个非实体词，候选数据集中的每个候选数据表征目标语种文本中的一个候选实体词，通过将候选数据集中的候选数据与正样例集和负样例集中的样例匹配，从候选数据集中的候选数据所表征的候选实体词中确定出实体词，并对确定出的实体词进行标注。本申请可从目标语种文本中标注出实体词，且标注过程不需要人工参与，具有较高的标注效率和标注质量。

Description

一种跨语种实体标注方法、装置、设备及存储介质

技术领域

本申请涉及数据抽取技术领域，尤其涉及一种跨语种实体标注方法、装置、设备及存储介质。

背景技术

跨语种实体标注指的是，根据源语种文本中的实体信息，标注出目标语种文本中的实体词。比如，源语种文本为中文句子“小明(PER)今天很高兴”，其对应的目标语种文本为英文句子“Xiao Ming is very happy today”，跨语种实体标注指的是，根据中文句子中人物(PER)类型的实体词“小明”，从英文句子中确定出实体词“Xiao Ming”，并将其标注为PER类型的实体词。

目前的跨语种实体标注方法多为基于人工的实体标注方法，即，由语言学家将源语种文本翻译为目标语种，然后根据源语种文本中的实体对翻译文本进行实体标注，进而根据翻译文本的实体标注结果对源语种文本对应的目标语种文本进行标注。

基于人工的实体标注方法虽然可实现实体标注，但是，需要投入大量人力和时间，人工成本和时间成本较高，并且，人工标注易受主观因素影响，标注易出错。

发明内容

有鉴于此，本申请提供了一种跨语种实体标注方法、装置、设备及存储介质，用以解决现有技术中基于人工的实体标注方法人工成本和时间成本较高，且标注结果的准确性无法保证的问题，其技术方案如下：

一种跨语种实体标注方法，包括：

获取标注出实体词的源语种文本和对应的目标语种文本；

根据所述源语种文本和所述目标语种文本，获取正样例集、负样例集和候选数据集，其中，所述正样例集中的每个正样例表征所述源语种文本中的一个实体词，所述负样例集中的每个负样例表征所述源语种文本中的一个非实体词，所述候选数据集中的每个候选数据表征所述目标语种文本中的一个候选实体词；

通过将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配，从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词，并对确定出的实体词进行标注。

可选的，所述根据所述待处理文本获取正样例集、负样例集和候选数据集，包括：

将所述源语种文本与所述目标语种文本拼接，拼接后的文本作为待处理文本，并基于预先建立的实体标注模型和所述待处理文本，获取正样例集、负样例集和候选数据集；

所述通过将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配，从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词，包括：

利用所述实体标注模型，将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配，并根据匹配结果从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词；

其中，所述实体标注模型采用训练数据集中的训练数据训练得到，每条训练数据由一标注出实体词的源语种训练文本与对应的目标语种训练文本拼接而成。

可选的，所述基于预先建立的实体标注模型和所述待处理文本，获取正样例集、负样例集和候选数据集，包括：

利用所述实体标注模型对所述待处理文本进行编码，得到所述待处理文本的句向量；

利用所述实体标注模型从所述待处理文本的句向量中获取所述源语种文本的句向量和所述目标语种文本的句向量；

基于所述实体标注模型和所述源语种文本的句向量，获取正样例集和负样例集；

基于所述实体标注模型和所述目标语种文本的句向量，获取候选数据集。

可选的，所述基于所述实体标注模型和所述源语种文本的句向量，获取正样例集和负样例集，包括：

利用所述实体标注模型从所述源语种文本的句向量中获取所述源语种文本中每个实体词的表征向量和上下文向量，根据获取的每个实体词的表征向量和上下文向量获得正样例集；

利用所述实体标注模型从所述源语种文本的句向量中获取所述源语种文本中至少部分非实体词的表征向量，根据获取的每个非实体词的表征向量获得负样例集。

可选的，所述根据获取的每个实体词的表征向量和上下文向量获得正样例集，包括：

将获取的每个实体词的表征向量与对应的上下文向量拼接，获得每个实体词对应的拼接向量，将每个实体词对应的拼接向量处理成字符级向量，作为正样例，由获得的所有正样例组成正样例集；

所述根据获取的每个非实体词的表征向量获得负样例集，包括：

将获取的每个非实体词的表征向量处理成字符级向量，作为负样例，由获得的所有负样例组成负样例集。

可选的，所述基于所述实体标注模型和所述目标语种文本的句向量，获取候选数据集，包括：

利用所述实体标注模型从所述目标语种文本的句向量中获取所述目标语种文本中候选实体词的表征向量，组成候选数据集；

其中，所述候选数据集中的一个候选数据为所述目标语种文本中一个候选词的表征向量，所述目标语种文本中的候选实体词基于预设的多种词长从所述目标语种文本中采样得到。

可选的，所述利用所述实体标注模型，将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配，并根据匹配结果从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词，包括：

对于所述候选数据集中每个待匹配的目标候选数据，利用所述实体标注模型确定所述目标候选数据与所述正样例集中的每个正样例以及所述负样例集中的每个负样例的相似度，得到的相似度作为所述目标候选数据对应的匹配结果；

根据所述候选数据集中每个候选数据对应的匹配结果，从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词。

可选的，所述实体标注模型的训练过程包括：

从所述训练数据集中获取训练数据；

基于实体标注模型和所述训练数据，获取所述训练数据对应的正样例集、负样例集和候选数据集；

利用所述实体标注模型将所述训练数据对应的候选数据集中的每个候选数据与对应的正样例集中的每个正样例和对应的负样例集中的每个负样例匹配，得到所述训练数据对应的候选数据集中每个候选数据对应的匹配结果；

根据所述训练数据对应的候选数据集中每个候选数据对应的匹配结果确定实体标注模型的匹配损失，并根据所述匹配损失更新实体标注模型的参数。

可选的，所述根据所述训练数据对应的候选数据集中每个候选数据对应的匹配结果确定实体标注模型的匹配损失，包括：

根据所述训练数据对应的候选数据集中每个候选数据与对应的正样例集中每个正样例的匹配结果，确定第一匹配损失；

根据所述训练数据对应的候选数据集中每个候选数据与对应的负样例集中每个负样例的匹配结果，确定第二匹配损失；

根据所述第一匹配损失和所述第二匹配损失，确定实体标注模型的匹配损失。

一种跨语种实体标注装置，包括：文本获取模块、数据集获取模块和实体词标注模块；

所述文本获取模块，用于获取标注出实体词的源语种文本和对应的目标语种文本；

所述数据集获取模块，用于根据所述源语种文本和所述目标语种文本，获取正样例集、负样例集和候选数据集，其中，所述正样例集中的每个正样例表征所述源语种文本中的一个实体词，所述负样例集中的每个负样例表征所述源语种文本中的一个非实体词，所述候选数据集中的每个候选数据表征所述目标语种文本中的一个候选实体词；

所述实体词标注模块，用于通过将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例进行匹配，从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词，并对确定出的实体词进行标注。

一种跨语种实体标注设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的跨语种实体标注方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的跨语种实体标注方法的各个步骤。

经由上述方案可知，本申请提供的跨语种实体标注方法、装置、设备及存储介质，在获得标注出实体词的源语种文本和对应的目标语种文本后，可根据源语种文本和目标语种文本获取正样例集、负样例集和候选数据集，由于正样例集中的每个正样例能够表征源语种文本中的一个非实体词，负样例集中的每个负样例能够表征源语种文本中的一个非实体词，候选数据集中的每个候选数据表征目标语种文本中的一个候选实体词，因此，通过将候选数据集中的每个候选数据与正样例集和负样例集中的每个样例进行匹配，能够从候选数据所表征的候选实体词中确定出实体词，进而完成对实体词的标注。本申请提供的跨语种实体标注方法可自动标注出目标语种文本中的实体词，标注过程不需要人工参与，相较于现有的人工标注方式，大大降低了标注的人工成本和时间成本，并且，由于不需要人工参与，因此，避免了主观性因素对标注结果的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的跨语种实体标注方法的流程示意图；

图2为本申请实施例提供的基于预先建立的实体标注模型和待处理文本，获取正样例集、负样例集和候选数据集的流程示意图；

图3为本申请实施例提供的实体标注模型的训练过程的流程示意图；

图4为本申请实施例提供的跨语种实体标注装置的结构示意图；

图5为本申请实施例提供的跨语种实体标注设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决基于人工的实体标注方法所带来的问题，本案发明人试图提出一种基于机器自动实现实体标注的方法，为此，本案发明人进行了研究：

起初的思路是，构建目标语种实体词典库，基于目标语种实体词典库对待标注文本进行实体标注。然而，构建目标语种实体词典库需要准备大量的目标语种实体词典，同时标注结果受到分词精度影响，难以确保标注质量。

接着，发明人又想到可先用机器翻译模型将源语种文本翻译为目标语种，然后对翻译文本进行实体回填处理，最后，基于翻译文本的实体回填处理结果对源语种文本对应的目标语种文本进行实体标注。然而，这种方案依赖于机器翻译模型的翻译效果，若机器翻译模型的翻译效果差，则标注结果准确度不高，此外，对源语种文本进行翻译得到的翻译文本句式较单一，很容易生成不符合人类说话方式的文本，这在一定程度上也会影响标注效果。

鉴于上述两种思路的标注质量不高，本案发明人继续进行研究，通过研究，想到可以将实体标注转换为有监督的序列标注任务，然而该方案需要获得大量的目标语种文本标注数据，而如何获得大量的目标语种文本标注数据是一个较难解决的问题。

鉴于上述有监督的序列标注方案存在的问题，本案发明人进一步进行研究，最终提出了一种不需要获取大量目标语种文本标注数据即可实现实体词标注，且能获得较好的标注效果的跨语种实体标注方法，该方法可应用于任何需要进行跨语种实体标注的场景中，该方法可应用于具有数据处理能力的终端，比如PC、笔记本、智能手机等，还可应用于单个服务器或多个服务器组成的服务器集群。接下来，通过下述实施例对本申请提供的跨语种实体标注方法进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的跨语种实体标注方法的流程示意图，该方法可以包括：

步骤S101：获取标注出实体词的源语种文本和对应的目标语种文本。

其中，源语种文本可以为任何语种的文本，源语种文本对应的目标语种文本为与源语种文本语种不同的文本。

需要说明的是，目标语种文本的句式可以不唯一，只要确保其与源语种文本的语义相同或相似，且具有与源语种文本相同词意的实体词即可。

步骤S102：根据源语种文本和目标语种文本，获取正样例集、负样例集和候选数据集。

其中，正样例集中的每个正样例表征源语种文本中的一个实体词，负样例集中的每个负样例表征源语种文本中的一个非实体词，候选数据集中的每个候选数据表征目标语种文本中的一个候选实体词。

在本实施例中，根据源语种文本和目标语种文本，获取正样例集、负样例集和候选数据集的过程可以包括：

步骤S1021、将源语种文本与对应的目标语种文本拼接，拼接后的文本作为待处理文本。

具体的，可将源语种文本与对应的目标语种文本通过<span>标识符拼接起来。

示例性的，源语种文本为“我叫小明”，其对应的目标语种文本为“My name isXiao Ming”，将源语种文本与对应的目标语种文本拼接得到“我叫小明<span>My name isXiao Ming”。

步骤S1022、基于预先建立的实体标注模型和待处理文本，获取正样例集、负样例集和候选数据集。

具体的，将待处理文本输入实体标注模型，由实体标注模型根据待处理文本获取正样例集、负样例集和候选数据集。

本实施例中的实体标注模型采用训练数据集中的训练数据训练得到，每条训练数据由一标注出实体词的源语种训练文本与对应的目标语种训练文本拼接而成。

步骤S103：通过将候选数据集中的候选数据与正样例集中的正样例和负样例集中的负样例进行匹配，从候选数据集中的候选数据所表征的候选实体词中确定出实体词，并对确定出的实体词进行标注。

具体的，可基于实体标注模型将候选数据集中的候选数据与正样例集中的正样例和负样例集中的负样例匹配，以得到候选数据集中候选数据对应的匹配结果，然后根据候选数据集中候选数据对应的匹配结果，从候选数据集中的候选数据所表征的候选实体词中确定出实体词，进而对确定出的实体词进行标注。

经由上述方案可知，本申请实施例提供的跨语种实体标注方法，在获得标注出实体词的源语种文本和对应的目标语种文本后，可根据源语种文本和目标语种文本，获取正样例集、负样例集和候选数据集，由于正样例集中的每个正样例能够表征源语种文本中的一个非实体词，负样例集中的每个负样例能够表征源语种文本中的一个非实体词，候选数据集中的每个候选数据表征目标语种文本中的一个候选实体词，因此，通过将候选数据集中的每个候选数据与正样例集和负样例集中的每个样例进行匹配，能够从候选数据所表征的候选实体词中确定出实体词，进而完成对实体词的标注。本申请实施例提供的跨语种实体标注方法可自动标注出目标语种文本中的实体词，标注过程不需要人工参与，相较于现有的人工标注方式，大大降低了标注的人工成本和时间成本，并且，由于不需要人工参与，因此，避免了主观性因素对标注结果的影响，即，本申请实施例提供的跨语种实体标注方法具有较高的标注效率和较高的标注准确度。

第二实施例

本实施例对上述实施例中的“步骤S1022、基于预先建立的实体标注模型和待处理文本，获取正样例集、负样例集和候选数据集”的过程进行介绍。

请参阅图2，示出了基于预先建立的实体标注模型和待处理文本，获取正样例集、负样例集和候选数据集的流程示意图，可以包括：

步骤S201：利用实体标注模型对待处理文本进行编码，得到待处理文本的句向量。

具体的，可首先将待处理文本输入实体标注模型的词嵌入表示模块，得到词嵌入表示模块输出的待处理文本中每个词的词嵌入表示，然后将待处理文本中每个词的词嵌入表示输入实体标注模型的编码模块，获得编码模块输出的待处理文本的句向量。需要说明的是，待处理文本的句向量为能够表征处理文本的向量。

可选的，实体标注模型的词嵌入表示模块可以为利用跨语种的大规模训练语料训练得到的语言模型，该语言模型可以但不限于为XLM、Mbart、Multi-Bert等语言模型。

步骤S202：利用实体标注模型从待处理文本的句向量中获取源语种文本的句向量和目标语种文本的句向量。

上述实施例提到，待处理文本为源语种文本与对应的目标语种文本的拼接文本，且源语种文本与对应的目标语种文本通过<span>标识符拼接起来，有鉴于此，可根据<span>标识符从待处理文本的句向量中分割出源语种文本的句向量以及对应的目标语种文本的句向量。

步骤S203a：基于实体标注模型和源语种文本的句向量，获取正样例集和负样例集。

具体的，基于实体标注模型和源语种文本的句向量，获取正样例集和负样例集的过程包括：

步骤S203a-a、利用实体标注模型从源语种文本的句向量中获取源语种文本中每个实体词的表征向量和上下文向量，并根据获取的每个实体词的表征向量和上下文向量获取正样例集。

在本实施例中，可利用词窗从源语种文本的句向量中获取源语种文本中每个实体词的上下文向量，其中，获取每个实体词的上下文向量所采用的词窗的尺寸为实体词的长度加上一预设值，比如，一实体词的长度为2，预设值为2，则可采用尺寸为4的词窗获取该实体词的上下文向量，需要说明的是，一个实体词的上下文向量为通过词窗提取出的包含该实体词的文本片段的表征向量。

示例性的，源语种文本为“我叫小明”，从待处理文本的句向量中获取的源语种文本的句向量为“H0 H1 H2 H3 H(span)”，其中，“H2 H3”为“小明”的表征向量，在针对“小明”这一实体词获取上下文向量时，可用尺寸为4的词窗获取“H1 H2 H3 H(span)”作为实体词“小明”的上下文向量。

根据获取的每个实体词的表征向量和上下文向量获得正样例集的实现方式有多种：

在一种可能的实现方式中，对于源语种文本中的每个实体词，利用实体标注模型将该实体词的表征向量与该实体词的上下文向量进行拼接，拼接后得到的向量作为一个正样例，由获得的所有正样例组成正样例集。

考虑到源语种文本在分词时可能存在偏差，为了避免分词所存在的偏差对后续匹配的影响，本实施例提供另一种较为优选的实现方式：

针对源语种文本中的每个实体词，利用实体标注模型将该实体词的表征向量与该实体词的上下文向量进行拼接，将拼接后得到的向量处理成字符级向量，将该字符级向量作为正样例，以得到针对源语种文本中每个实体词获得的正样例，由获得的所有正样例组成正样例集。

步骤S203a-b、利用实体标注模型从源语种文本的句向量中获取源语种文本中至少部分非实体词的表征向量，根据获取的每个非实体词的表征向量获取负样例集。

在一种可能的实现方式中，可利用实体标注模型从源语种文本的句向量中获取源语种文本中所有非实体词的表征向量，在另一种可能的实现方式中，可利用实体标注模型从源语种文本的句向量中获取n(n可根据具体情况设定)个非实体词的表征向量。

与“根据获取的每个实体词的表征向量和上下文向量获取正样例集”的实现方式类似，根据获取的每个非实体词的表征向量获取负样例集的实现方式也有如下两种：

第一种可能的实现方式为，直接将非实体词的表征向量作为负样例，即一个非实体词的表征向量作为一个负样例，由获得的所有负样例组成负样例。

第二种可能的实现方式(优选的实现方式)为，将每个非实体词的表征向量处理成字符级向量，得到的字符级向量作为负样例，由获得的所有负样例组成负样例集。

需要说明的是，若正样例集中的正样例为实体词的表征向量与上下文向量的拼接向量，则负样例集中的正样例为非实体词的表征向量，若正样例集中的正样例为对实体词的表征向量与上下文向量的拼接向量进行处理得到的字符级向量，则负样例集中的负样例为对非实体词的表征向量进行处理得到的字符级向量，即，正样例集中的正样例与负样例集中的负样例要保持一致。

针对上述将字符级向量作为样例的实现方式，可在实体标注模型中设置字符级CNN，利用字符级CNN将实体词的表征向量与上下文向量的拼接向量处理成字符级向量，同样的，利用字符级CNN将非实体词的表征向量处理成字符级向量。

步骤S203b：基于实体标注模型和目标语种文本的句向量，获取候选数据集。

具体的，可利用实体标注模型从目标语种文本的句向量中获取目标语种文本中候选实体词的表征向量，一个候选实体词的表征向量作为一个候选数据，由获得的所有候选数据组成候选数据集。

需要说明的是，目标语种文本中的候选实体词基于预设的多种词长从目标语种文本中采样得到，比如，可从目标语种文本采样词长为1的词、词长为2的词、词长为3的词…词长为L的词，作为候选实体词。

示例性的，目标语种文本为“My name is Xiao Ming”则可从目标语种文本采样词长为1的词比如“My”、“name”、“Xiao”、“Ming”，从目标语种文本采样词长为2的词比如“Myname、“name is”、“Xiao Ming”等，从目标语种文本采样词长为3的词比如“My name is”、“is Xiao Ming”等，采样得到的这些词作为候选实体词，步骤S203b从目标语种文本的句向量获取采样得到的这些候选词的表征向量。

第三实施例

经由上述第二实施例提供的实现方式可获得正样例集、负样例集合和候选数据集，在获得这些数据后，便可基于实体标注模型将候选数据集中的候选数据与正样例集中的正样例和负样例集中的负样例匹配，从而根据匹配结果从候选数据集中的候选数据所表征的候选实体词中确定出实体词，接下来对上述的匹配过程和根据匹配结果确定实体词的过程进行详细介绍。

利用实体标注模型，将候选数据集中的候选数据与正样例集中的正样例和负样例集中的负样例匹配的过程可以包括：

针对候选数据集中每一待匹配的目标候选数据，利用实体标注模型确定目标候选数据与正样例集中每个正样例的相似度，并利用实体标注模型确定目标候选数据与负样例集中每个负样例的相似度，将得到的相似度作为目标候选数据对应的匹配结果。

假设正样例集中包括m个正样例，负样例集中包括n个负样例，则目标候选数据对应的匹配结果包括目标候选数据分别与m个正样例的相似度，以及目标候选数据分别与n个负样例的相似度，即m+n个相似度。

需要说明的是，候选数据与正样例的相似度越高，则说明候选数据表征的候选实体词为实体词的可能性越大，候选数据与负样例的相似度越高，则说明候选数据表征的候选实体词为非实体词的可能性越大。另外，上述的相似度可以但不限定为：点积相似度、余弦相似度、曼哈顿距离、欧式距离、闵氏距离等。

经由上述过程可获得候选数据集中每个候选数据对应的匹配结果，接下来对根据候选数据集中每个候选数据对应的匹配结果从候选数据集中的各候选数据分别表征的候选实体词中确定实体词的过程进行介绍。

根据候选数据集中每个候选数据对应的匹配结果从候选数据集中的各候选数据分别表征的候选实体词中确定实体词的过程可以包括：

针对候选数据集中的每个候选数据，从该候选数据对应的匹配结果中确定最大相似度，根据最大相似度对应的样例，确定该候选数据表征的候选实体词是否为实体词，以得到由确定出的实体词组成的实体词集，在一种可能的实现方式中，在获得实体词集合后，可直接将实体词集合中的各实体词作为最终的实体词，即需要标注的实体词，考虑到直接根据匹配结果确定出的某个或某些实体词可能并非是真的实体词，在另一种较为优选的实现方式中，在获得实体词集合后，可从实体词集合中选取匹配度最高的K个实体词作为最终的实体词，即需要标注的实体词。

示例性的，候选数据集中包括7个候选数据，分别为s₁、s₂、...s₇，正样例集中包括3个正样例，分别为x+₁、x+₂和x+₃，负样例集中包括5个负样例，分别为x-₁、x-₂、x-₃、x-₄和x-₅：

对于候选数据s₁，经计算，s₁分别与x+₁、x+₂、x+₃、x-₁、x-₂、x-₃、x-₄和x-₅的相似度为f+₁₁、f+₁₂、f+₁₃、f-₁₁、f-₁₂、f-₁₃、f-₁₄、f-₁₅，假设这8个相似度中的最大相似度为f-₁₁，则说明候选数据s₁与负样例x-₁匹配度最高，进而可确定候选数据s₁表征的候选实体词为非实体词，按上述相同的方式对s₂～s₇进行处理，假设通过上述过程确定出候选数据s₃、s₄、s₆、s₇分别表征的候选实体词为实体词，一种可能的实现方式是，直接对这些词进行标注，另一种较为优选的实现方式是，从这些词中确定出匹配度最高的K个实体词进行标注，假设K＝2，s₃对应的最大相似度为f_3max(s₃与各个样例的相似度中的最大相似度)，s₄对应的最大相似度为f_4max(s₄与各个样例的相似度中的最大相似度)，s₆对应的最大相似度为f_6max(s₆与各个样例的相似度中的最大相似度)，s₇对应的最大相似度为f_7max(s₇与各个样例的相似度中的最大相似度)，若f_6max和f_7max最大，则将s6、s₇分别表征的候选实体词确定为最终需要标注的实体词。

第四实施例

经由上述实施例可知，源语种文本对应的目标语种文本中实体词的标注可基于预先建立的实体词标注模型实现，而实体标注模型采用训练数据集中的训练数据训练得到，接下来对实体标注模型的训练过程进行介绍。

请参阅图3，示出了实体标注模型的训练过程的流程示意图，可以包括：

步骤S301：从训练数据集中获取训练数据。

其中，训练数据集中的每条训练数据由源语种训练文本和对应的目标语种训练文本拼接而成。源语种训练文本可以为任何语种的文本，源语种训练文本对应的目标语种文本为与源语种训练文本语种不同的文本，源语种训练文本与对应的目标语种训练文本具有相同或相似的语义，具有相同词意的实体词。

步骤S302：基于实体标注模型和训练数据，获取训练数据对应的正样例集、负样例集和候选数据集。

其中，训练数据对应的正样例集中的每个正样例表征训练数据中的源语种训练文本中的一个实体词，训练数据对应的负样例集中的每个负样例表征训练数据中的目标语种训练文本中的一个非实体词，训练数据对应的候选数据集中的每个候选数据表征训练数据中的目标语种训练文本中的一个候选实体词。

基于实体标注模型和训练数据，获取训练数据对应的正样例集、负样例集和候选数据集的过程可以包括：利用实体标注模型对训练数据进行编码，得到训练数据的句向量；利用实体标注模型从训练数据的句向量中获取源语种训练文本的句向量和目标语种训练文本的句向量；基于实体标注模型和源语种文本的句向量，获取训练数据对应的正样例集和负样例集；基于实体标注模型和目标语种训练文本的句向量，获取训练数据对应的候选数据集。

上述“基于实体标注模型和训练数据，获取训练数据对应的正样例集、负样例集和候选数据集”的具体实现过程与上述实施例中“基于预先建立的实体标注模型和待处理文本，获取正样例集、负样例集和候选数据集”的实现过程类似，具体可相互参见，本实施例在此不做赘述。

步骤S303：利用实体标注模型将训练数据对应的候选数据集中的每个候选数据与对应的正样例集中的每个正样例和对应的负样例集中的每个负样例匹配，得到训练数据对应的候选数据集中每个候选数据对应的匹配结果。

具体的，对于训练数据对应的候选数据集中每个待匹配的候选数据，利用实体标注模型确定该候选数据与训练数据对应的正样例集中每个正样例的相似度，并利用实体标注模型确定该候选数据与训练数据对应的负样例集中每个负样例的相似度，得到的相似度作为该候选数据对应的匹配结果。

步骤S304：根据训练数据对应的候选数据集中每个候选数据对应的匹配结果，确定实体标注模型的匹配损失。

具体的，根据训练数据对应的匹配结果确定实体标注模型的匹配损失的过程包括：

步骤S3041a、根据训练数据对应的候选数据集中每个候选数据与训练数据对应的正样例集中每个正样例的相似度，确定第一匹配损失loss₁。

具体的，可根据下式确定第一匹配损失loss₁：

其中，k表示训练数据对应的候选数据集中候选数据的数量，m表示训练数据对应的正样例集中正样例的数量，F(x+_j，s_i)表示第i个候选数据s_i与第j个正样例x+_j的相似度，

表示第i个候选数据所表征的候选实体词为实体词的可能性大小。

步骤S3041b、根据训练数据对应的候选数据集中每个候选数据与训练数据对应的负样例集中每个负样例的相似度，确定第二匹配损失loss₂。

其中，n表示训练数据对应的负样例集中负样例的数量，F(x-_j，s_i)表示第i个候选数据s_i与第j个负样例x-_j的相似度，

表示第i个候选数据所表征的候选实体词为非实体词的可能性大小。

步骤S3042、根据第一匹配损失loss₁和第二匹配损失loss₂，确定实体标注模型的匹配损失loss。

具体的，可将第一匹配损失loss₁和第二匹配损失loss₂加权求和，加权求和得到的损失作为实体标注模型的匹配损失loss，即；

loss＝α*loss₁+β*loss₂ (3)

其中，α为loss₁对应的权重，β为loss₂对应的权重，在训练过程中，考虑到正样例影响因素较大，一般设定α>β。

步骤S305：根据实体标注模型的匹配损失，更新实体标注模型的参数。

按上述过程对实体标注模型进行多次迭代训练，直至满足训练结束条件(比如，达到预设的训练迭代次数或者模型性能满足要求)，训练结束后得到的模型即为建立出的实体标注模型，基于该实体标注模型可对跨语种文本对中的待标注文本进行实体标注。

经由上述训练过程可知，本实施例中的实体标注模型采用无监督方式训练得到，由于不需要对训练数据中的目标语音训练文本进行实体词标注，因此，避免了获取大量目标语种文本标注数据所面临的问题，从而使得本申请提供的方案实现起来比较容易。

第五实施例

本申请实施例还提供了一种跨语种实体标注装置，下面对本申请实施例提供的跨语种实体标注装置进行描述，下文描述的跨语种实体标注装置与上文描述的跨语种实体标注方法可相互对应参照。

请参阅图4，示出了本申请实施例提供的跨语种实体标注装置的结构示意图，可以包括：文本获取模块401、数据集获取模块402和实体词标注模块403。

文本获取模块401，用于获取标注出实体词的源语种文本和对应的目标语种文本；

数据集获取模块402，用于根据所述源语种文本和所述目标语种文本，获取正样例集、负样例集和候选数据集。

其中，所述正样例集中的每个正样例表征所述源语种文本中的一个实体词，所述负样例集中的每个负样例表征所述源语种文本中的一个非实体词，所述候选数据集中的每个候选数据表征所述目标语种文本中的一个候选实体词；

实体词标注模块403，用于通过将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例进行匹配，从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词，并对确定出的实体词进行标注。

可选的，数据集获取模块402，具体用于将所述源语种文本与所述目标语种文本拼接，拼接后的文本作为待处理文本，基于预先建立的实体标注模型和所述待处理文本，获取正样例集、负样例集和候选数据集。

实体词标注模块403，具体用于利用所述实体标注模型，将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配，并根据匹配结果从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词。

可选的，数据集获取模块402在基于预先建立的实体标注模型和所述待处理文本，获取正样例集、负样例集和候选数据集时，具体用于利用所述实体标注模型从所述待处理文本的句向量中获取所述源语种文本的句向量和所述目标语种文本的句向量，基于所述实体标注模型和所述源语种文本的句向量，获取正样例集和负样例集，基于所述实体标注模型和所述目标语种文本的句向量，获取候选数据集。

可选的，数据集获取模块402在基于所述实体标注模型和所述源语种文本的句向量，获取正样例集和负样例集时，具体用于利用所述实体标注模型从所述源语种文本的句向量中获取所述源语种文本中每个实体词的表征向量和上下文向量，根据获取的每个实体词的表征向量和上下文向量获得正样例集，利用所述实体标注模型从所述源语种文本的句向量中获取所述源语种文本中至少部分非实体词的表征向量，根据获取的每个非实体词的表征向量获得负样例集。

可选的，数据集获取模块402在根据获取的每个实体词的表征向量和上下文向量获得正样例集时，具体用于将获取的每个实体词的表征向量与对应的上下文向量拼接，获得每个实体词对应的拼接向量，将每个实体词对应的拼接向量处理成字符级向量，作为正样例，由获得的所有正样例组成正样例集。

数据集获取模块402在根据获取的每个非实体词的表征向量获得负样例集时，具体用于将获取的每个非实体词的表征向量处理成字符级向量，作为负样例，由获得的所有负样例组成负样例集。

可选的，数据集获取模块402在基于所述实体标注模型和所述目标语种文本的句向量，获取候选数据集时，具体用于利用所述实体标注模型从所述目标语种文本的句向量中获取所述目标语种文本中候选实体词的表征向量，组成候选数据集。

可选的，实体词标注模块403在利用所述实体标注模型，将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配，并根据匹配结果从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词时，具体用于对于所述候选数据集中每个待匹配的目标候选数据，利用所述实体标注模型确定所述目标候选数据与所述正样例集中的每个正样例以及所述负样例集中的每个负样例的相似度，得到的相似度作为所述目标候选数据对应的匹配结果，根据所述候选数据集中每个候选数据对应的匹配结果，从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词。

本实施例提供的跨语种实体标注装置还包括模型训练模块。

模型训练模块，具体用于从所述训练数据集中获取训练数据；基于实体标注模型和所述训练数据，获取所述训练数据对应的正样例集、负样例集和候选数据集；利用所述实体标注模型将所述训练数据对应的候选数据集中的每个候选数据与对应的正样例集中的每个正样例和对应的负样例集中的每个负样例匹配，得到所述训练数据对应的候选数据集中每个候选数据对应的匹配结果；根据所述训练数据对应的候选数据集中每个候选数据对应的匹配结果确定实体标注模型的匹配损失，并根据所述匹配损失更新实体标注模型的参数。

可选的，模型训练模块在根据所述训练数据对应的候选数据集中每个候选数据对应的匹配结果确定实体标注模型的匹配损失时，具体用于根据所述训练数据对应的候选数据集中每个候选数据与对应的正样例集中每个正样例的匹配结果，确定第一匹配损失；根据所述训练数据对应的候选数据集中每个候选数据与对应的负样例集中每个负样例的匹配结果，确定第二匹配损失，根据所述第一匹配损失和所述第二匹配损失，确定实体标注模型的匹配损失。

本申请实施例提供的跨语种实体标注装置可自动标注出目标语种文本中的实体词，标注过程不需要人工参与，相较于现有的人工标注方式，大大降低了标注的人工成本和时间成本，并且，由于不需要人工参与，因此，避免了主观性因素对标注结果的影响，即，本申请实施例提供的跨语种实体标注装置具有较高的标注效率和较高的标注准确度。

第六实施例

本申请实施例还提供了一种跨语种实体标注设备，请参阅图5，示出了该跨语种实体标注设备的结构示意图，该跨语种实体标注设备可以包括：至少一个处理器501，至少一个通信接口502，至少一个存储器503和至少一个通信总线504；

在本申请实施例中，处理器501、通信接口502、存储器503、通信总线504的数量为至少一个，且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信；

处理器501可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器503可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取标注出实体词的源语种文本和对应的目标语种文本；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第七实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取标注出实体词的源语种文本和对应的目标语种文本；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种跨语种实体标注方法，其特征在于，包括：

获取标注出实体词的源语种文本和对应的目标语种文本；

2.根据权利要求1所述的跨语种实体标注方法，其特征在于，所述根据所述待处理文本获取正样例集、负样例集和候选数据集，包括：

3.根据权利要求2所述的跨语种实体标注方法，其特征在于，所述基于预先建立的实体标注模型和所述待处理文本，获取正样例集、负样例集和候选数据集，包括：

4.根据权利要求3所述的跨语种实体标注方法，其特征在于，所述基于所述实体标注模型和所述源语种文本的句向量，获取正样例集和负样例集，包括：

5.根据权利要求4所述的跨语种实体标注方法，其特征在于，所述根据获取的每个实体词的表征向量和上下文向量获得正样例集，包括：

6.根据权利要求3所述的跨语种实体标注方法，其特征在于，所述基于所述实体标注模型和所述目标语种文本的句向量，获取候选数据集，包括：

7.根据权利要求2所述的跨语种实体标注方法，其特征在于，所述利用所述实体标注模型，将所述候选数据集中的候选数据与所述正样例集中的正样例和所述负样例集中的负样例匹配，并根据匹配结果从所述候选数据集中的候选数据所表征的候选实体词中确定出实体词，包括：

8.根据权利要求2所述的跨语种实体标注方法，其特征在于，所述实体标注模型的训练过程包括：

从所述训练数据集中获取训练数据；

9.根据权利要求8所述的跨语种实体标注方法，其特征在于，所述根据所述训练数据对应的候选数据集中每个候选数据对应的匹配结果确定实体标注模型的匹配损失，包括：

10.一种跨语种实体标注装置，其特征在于，包括：文本获取模块、数据集获取模块和实体词标注模块；

11.一种跨语种实体标注设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的跨语种实体标注方法的各个步骤。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的跨语种实体标注方法的各个步骤。