CN110348012A

CN110348012A - 确定目标字符的方法、装置、存储介质及电子装置

Info

Publication number: CN110348012A
Application number: CN201910586096.7A
Authority: CN
Inventors: 齐云飞; 陈栋
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-18
Anticipated expiration: 2039-07-01
Also published as: CN110348012B

Abstract

本发明提供了一种确定目标字符的方法、装置、存储介质及电子装置，包括：获取待处理文本语句，其中，所述待处理文本语句包括至少两个字符；识别所述待处理文本语句中的目标名词；确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，其中，所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符；根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。通过本发明，解决了指代消解法识别精度低的问题，进而达到了提高指代消解识别精度的效果。

Description

确定目标字符的方法、装置、存储介质及电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种确定目标字符的方法、装置、存储介质及电子装置。

背景技术

指代消解是对一段文本内容中提及的相同实体做聚类，消除代词的指向并明确与之相关的所有实体。

目前常用的指代消解法大多是基于串行叠加Pile line方法，这样就会有错误传递，并且需要大量人工特征设计。

因此，针对相关技术中的指代消解法识别精度低的技术问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种确定目标字符的方法、装置、存储介质及电子装置，以至少解决相关技术中的指代消解法识别精度低的技术问题。

根据本发明的一个实施例，提供了一种确定目标字符的方法，包括：获取待处理文本语句，其中，所述待处理文本语句包括至少两个字符；识别所述待处理文本语句中的目标名词；确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，其中，所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符；根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。

可选地，识别所述待处理文本语句中的目标名词，包括：将所述待处理文本语句进行分词处理，以得到至少两个所述字符；以及，将每个所述字符转化为字符向量；通过第一模型使用第一标识对所述字符向量进行标注，得到标注结果，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量和第一标识；根据所述标注结果识别出所述待处理文本语句中的所述目标名词。

可选地，根据所述标注结果识别出所述待处理文本语句中的所述目标名词，包括：将所述标注结果中的目标标识串对应的字符所组成的词语作为所述名词短语，其中，所述目标标识串包括：以第一字符开始，以第二字符结束，且当所述目标名词的字符数大于2时，所述第一字符与所述第二字符之间是连续的所述第二字符；其中，所述第一标识中包括所述第一字符和所述第二字符。

可选地，确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，包括：通过第二模型计算所述目标名词所对应的字符向量与所述其他字符所对应的字符向量之间的相关概率，以得到所述目标名词与所述其他字符之间的相关度，其中，所述第二模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量。

可选地，根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符，包括：将与所述目标名词的相关度大于预设阈值的字符确定为所述目标字符。

可选地，在确定与所述名词的相关度大于预设阈值的字符为所述目标字符之后，所述方法还包括：使用第二标识对所述目标名词和所述目标字符进行标注，以指示所述目标字符与所属目标名字之间具有指代关系。

根据本发明的另一个实施例，提供了一种确定目标字符的装置，包括：获取模块，用于获取待处理文本语句，其中，所述待处理文本语句包括至少两个字符；识别模块，用于识别所述待处理文本语句中的目标名词；第一确定模块，用于确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，其中，所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符；第二确定模块，用于根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。

可选地，所述识别模块还包括：处理单元，用于将所述待处理文本语句进行分词处理，以得到至少两个所述字符；转化单元，用于将每个所述字符转化为字符向量；标注单元，用于通过第一模型使用第一标识对所述字符向量进行标注，得到标注结果，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量和第一标识；识别单元，用于根据所述标注结果识别出所述待处理文本语句中的所述目标名词。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于通过在待处理文本语句中识别出目标名词，根据目标名词与待处理文本语句中其他字符之间的相关度，确定待处理文本语句中用于指代目标名词的目标字符。因此，可以解决指代消解法识别精度低问题，达到提高指代消解识别精度的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种确定目标字符的方法的移动终端的硬件结构框图；

图2是根据本发明实施例的确定目标字符的流程图；

图3是根据本发明实施例的确定目标字符的装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种确定目标字符的方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的确定目标字符的方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的确定目标字符的方法，图2是根据本发明实施例的确定目标字符的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取待处理文本语句，其中，所述待处理文本语句包括至少两个字符；

步骤S204，识别所述待处理文本语句中的目标名词；

步骤S206，确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，其中，所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符；

步骤S208，根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。

通过上述步骤，由于通过在待处理文本语句中识别出目标名词，根据目标名词与待处理文本语句中其他字符之间的相关度，确定待处理文本语句中用于指代目标名词的目标字符。因此，可以解决指代消解法识别精度低问题，达到提高指代消解识别精度的效果。

可选地，上述步骤的执行主体可以为终端等，但不限于此。

在一个可选实施例，识别所述待处理文本语句中的目标名词，包括：将所述待处理文本语句进行分词处理，以得到至少两个所述字符；以及，将每个所述字符转化为字符向量；通过第一模型使用第一标识对所述字符向量进行标注，得到标注结果，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量和第一标识；根据所述标注结果识别出所述待处理文本语句中的所述目标名词。在本实施例中，正如神经语言规划(Natural Language Processing，简称NLP)模型，模型需要将字转化成词嵌入表示，同时位置信息对于NLP任务来说很重要，所以模型的嵌入Embedding有两块内容：字嵌入Embedding(Emb1)和绝对位置嵌入Embedding(Emb2)，之后将字嵌入Emb1和绝对位置嵌入Emb2相加组成最终Embedding(Emb)。字和位置Embedding的维度数为256，所以最终每个字的Embedding维度数为256。所以输入矩阵可以表示为E＝B*N*256，B为处理批次大小，N表示每个小批次中最大序列长度。通过此方式将文本中的字符转化成字符向量，以使计算机能够对待处理的文本语句进行处理。为了加快模型训练速度和表示能力，本申请采用Transformer模型的特征抽取形式，Transformer的层数为4层，隐藏层维度大小hidden size维度为256维度。Transformer输出记做：Trans。则Trans的输出维度为4*B*N*256，本申请采用Transformer最后一层作为结果，故Trans最终结果维度为B*N*256。举例说明，若待处理文本语句为“苹果真好吃，它真甜”。进行分词处理后的结果为“苹”“果”“真”“好”“吃”“，”“它”“真”“甜”“。”的字符向量，将字符向量使用第一模型进行标注，以确定哪些字符的序列组合可以组成实体名词，需要对每个字符分类预测，具体算法公式为：

z＝softmax(Wz+b)

其中W和b都是训练参数，W维度为245*4，b为偏置向量。所以z的维度为B*N*4，对z的最后一维取max，即可得到每个词的标注表示L。将每个词的标注类型转换为向量，得到Label Embedding(L)，L的维度为B*N*256。例如，在上述待处理文本语句为“苹果真好吃，它真甜”的例子中，通过上述公式对原始句子做基于字符的BIOU序列标注，B标志一个实体词的开始，I表示实体词的中间字符，U表示单个字的实体词，O表示其他。例如：“苹果真好吃，它真甜。”的标注结果为“B I O O O O O O O O”，其中，“B”“I”“O”相当于第一标识，第一标识的形式有多种，可以是任意的数字、符号等，在此不作限定，仅起到标识作用的任何字符均可以作为第一标识。

在一个可选实施例，根据所述标注结果识别出所述待处理文本语句中的所述目标名词，包括：将所述标注结果中的目标标识串对应的字符所组成的词语作为所述名词短语，其中，所述目标标识串包括：以第一字符开始，以第二字符结束，且当所述目标名词的字符数大于2时，所述第一字符与所述第二字符之间是连续的所述第二字符；其中，所述第一标识中包括所述第一字符和所述第二字符。在本实施例中，在上述待处理文本语句为“苹果真好吃，它真甜”的例子中，基于字符的BIOU序列标注结果为“B I O O O O O O O O”，其中，“B”代表实体名词的起始字符对应于第一字符，“I”代表实体名词中的其它字符对应于第二字符，在待处理文本语句中以“B”为起始，在相邻“B”之后出现的所有连续的“I”均为该实体名词中的字符，例如，对于名词“计算机”的标注结果为“B I I”，对于“通信工程”的标注结果为“B I I I”。

在一个可选实施例，确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，包括：通过第二模型计算所述目标名词所对应的字符向量与所述其他字符所对应的字符向量之间的相关概率，以得到所述目标名词与所述其他字符之间的相关度，其中，所述第二模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量。在本实施例中，所有引用词的实体词都在引用词前方，所以模型对当前词的所有先行词计算相关性。在特征抽取和实体识别结束后得到了Trans和L，所以将两个向量拼接形成中间特征向量C，C的维度为B*N*512，之后经过线性变换Linear将向量维度恢复成B*N*256(Corf)：

U＝tanh(W(Trans+C)+B)

其中W和B为待训练参数，之后利用注意力Attention机制，计算当前词和先行词的相关性，和传统Attentin机制不同的是，不再计算Value值，而是直接使用softmax结果当作相关概率。

Score的维度为B*N*N。最后一位N表示当前词和其他词的相关性。通过上述相关概率得到目标名词与其他字符之间的相关度。

在一个可选实施例，根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符，包括：将与所述目标名词的相关度大于预设阈值的字符确定为所述目标字符。在本实施例中，预定阈值可以根据实际情况进行调整。确定与目标名词相关度大于预定阈值的字符是用于指代该目标名词的代词。

在一个可选实施例，在确定与所述名词的相关度大于预设阈值的字符为所述目标字符之后，所述方法还包括：使用第二标识对所述目标名词和所述目标字符进行标注，以指示所述目标字符与所属目标名字之间具有指代关系。在本实施例中，基于字符的指代关系对，如果当前字有指代项，则指向关系词的开始位置，如果没有关系项，则指向自己，位置从0开始。例如“苹果真好吃，它真甜。”，指代关系对为：“0 1 2 3 4 5 0 7 89”。其中“它”指向苹果，所以“它”的指向索引为0。其中“0”“1”“2”“3”“4”“5”“6”“7”“8”“9”对应第二标识。该模型算是有两部分分别为L1和L2，L1表示字分类损失，使用多维度交叉熵Multi-CrossEntropy；L2表示引用指针损失，其损失也是使用Multi-CrossEntropy，整体损失L为

L＝L₁+L₂

本申请基于神经网络解决指代消解问题，神经网络可以省去人工设计特征的复杂性，并且基于端到端的方法可以避免基于Pile Line模型中错误传递问题。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种确定目标字符的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的确定目标字符的装置的结构框图，如图3所示，该装置包括：获取模块32，用于获取待处理文本语句，其中，所述待处理文本语句包括至少两个字符；识别模块34，用于识别所述待处理文本语句中的目标名词；第一确定模块36，用于确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，其中，所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符；第二确定模块38，用于根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。

在一个可选实施例，所述识别模块34还包括：处理单元，用于将所述待处理文本语句进行分词处理，以得到至少两个所述字符；转化单元，用于将每个所述字符转化为字符向量；标注单元，用于通过第一模型使用第一标识对所述字符向量进行标注，得到标注结果，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量和第一标识；识别单元，用于根据所述标注结果识别出所述待处理文本语句中的所述目标名词。

在一个可选实施例，上述识别单元通过如下方式实现根据所述标注结果识别出所述待处理文本语句中的所述目标名词：将所述标注结果中的目标标识串对应的字符所组成的词语作为所述名词短语，其中，所述目标标识串包括：以第一字符开始，以第二字符结束，且当所述目标名词的字符数大于2时，所述第一字符与所述第二字符之间是连续的所述第二字符；其中，所述第一标识中包括所述第一字符和所述第二字符。

在一个可选实施例，第一确定模块36用于通过如下方式确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，通过第二模型计算所述目标名词所对应的字符向量与所述其他字符所对应的字符向量之间的相关概率，以得到所述目标名词与所述其他字符之间的相关度，其中，所述第二模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量。

在一个可选实施例，上述第二确定模块38还用于：将与所述目标名词的相关度大于预设阈值的字符确定为所述目标字符。

在一个可选实施例，上述装置还用于：在确定与所述名词的相关度大于预设阈值的字符为所述目标字符之后，使用第二标识对所述目标名词和所述目标字符进行标注，以指示所述目标字符与所属目标名字之间具有指代关系。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待处理文本语句，其中，所述待处理文本语句包括至少两个字符；

S2，识别所述待处理文本语句中的目标名词；

S3，确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，其中，所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符；

S4，根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S2，识别所述待处理文本语句中的目标名词；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定目标字符的方法，其特征在于，包括：

获取待处理文本语句，其中，所述待处理文本语句包括至少两个字符；

识别所述待处理文本语句中的目标名词；

确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，其中，所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符；

根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。

2.根据权利要求1所述的方法，其特征在于，识别所述待处理文本语句中的目标名词，包括：

将所述待处理文本语句进行分词处理，以得到至少两个所述字符；以及，将每个所述字符转化为字符向量；

通过第一模型使用第一标识对所述字符向量进行标注，得到标注结果，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量和第一标识；

根据所述标注结果识别出所述待处理文本语句中的所述目标名词。

3.根据权利要求2所述的方法，其特征在于，根据所述标注结果识别出所述待处理文本语句中的所述目标名词，包括：

将所述标注结果中的目标标识串对应的字符所组成的词语作为所述名词短语，其中，所述目标标识串包括：以第一字符开始，以第二字符结束，且当所述目标名词的字符数大于2时，所述第一字符与所述第二字符之间是连续的所述第二字符；

其中，所述第一标识中包括所述第一字符和所述第二字符。

4.根据权利要求2所述的方法，其特征在于，确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，包括：

通过第二模型计算所述目标名词所对应的字符向量与所述其他字符所对应的字符向量之间的相关概率，以得到所述目标名词与所述其他字符之间的相关度，其中，所述第二模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量。

5.根据权利要求4所述的方法，其特征在于，根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符，包括：

将与所述目标名词的相关度大于预设阈值的字符确定为所述目标字符。

6.根据权利要求5所述的方法，其特征在于，在确定与所述名词的相关度大于预设阈值的字符为所述目标字符之后，所述方法还包括：

使用第二标识对所述目标名词和所述目标字符进行标注，以指示所述目标字符与所属目标名字之间具有指代关系。

7.一种确定目标字符的装置，其特征在于，包括：

获取模块，用于获取待处理文本语句，其中，所述待处理文本语句包括至少两个字符；

识别模块，用于识别所述待处理文本语句中的目标名词；

第一确定模块，用于确定所述目标名词与所述待处理文本语句中其他字符之间的相关度，其中，所述其他字符为所述待处理文本语句中包括的除所述目标名词短语之外的字符；

第二确定模块，用于根据所述相关度确定所述待处理文本语句中用于指代所述目标名词的目标字符。

8.根据权利要求7所述的装置，其特征在于，所述识别模块还包括：

处理单元，用于将所述待处理文本语句进行分词处理，以得到至少两个所述字符；

转化单元，用于将每个所述字符转化为字符向量；

标注单元，用于通过第一模型使用第一标识对所述字符向量进行标注，得到标注结果，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：字符向量和第一标识；

识别单元，用于根据所述标注结果识别出所述待处理文本语句中的所述目标名词。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。