CN111062217B

CN111062217B - 语言信息的处理方法、装置、存储介质及电子设备

Info

Publication number: CN111062217B
Application number: CN201911315545.0A
Authority: CN
Inventors: 陶超; 沙韬伟; 李旭泽
Original assignee: Jiangsu Manyun Software Technology Co Ltd
Current assignee: Jiangsu Manyun Software Technology Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2024-02-06
Anticipated expiration: 2039-12-19
Also published as: CN111062217A

Abstract

本申请实施例公开了一种语言信息的处理方法、装置、存储介质及电子设备。该方法包括：获取待处理的语言信息文本内容，并对文本内容进行预处理，得到带有词性标注的汉字内容；将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量；将所述编码向量通过全连接层映射到词性集合中，得到汉字内容的各汉字的目标词性以及目标词性概率，作为所述汉字内容的状态特征；通过CRF层来计算标签之间的转移特征概率，根据所述状态特征以及所述转移特征概率，确定汉字内容的各汉字所属的词性标签。通过运行本申请所提供的技术方案，可以通过BERT模型来替换现有技术中所采用的BiLSTM模型，从而实现使得到的向量特征更加丰富，可以提高训练效率的目的。

Description

语言信息的处理方法、装置、存储介质及电子设备

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种语言信息的处理方法、装置、存储介质及电子设备。

背景技术

随着网络技术的迅速发展，人工智能已经成为了现今社会的时代热词。NLP(Natural Language Processing，自然语言处理)作为自然语言识别的重要方法，在对用户的意图识别中起到重要作用。因此在人工智能的发展过程中，一直占据着重要地位。

命名实体识别(Named Entity Recognition，NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)，七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

NER又称作专名识别，是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。因此实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称为实体。NER是NLP中一项基础性关键任务。从自然语言处理的流程来看，NER可以看作词法分析中未登录词识别的一种，是未登录词中数量最多、识别难度最大、对分词效果影响最大问题。同时NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。

现有技术中，在基于机器学习的方法中，NER被当做序列标注问题。利用大规模语料来学习出标注模型，从而对句子的各个位置进行标注。NER任务中的常用模型包括生成式模型HMM、判别式模型条件随机域模型(Conditional Random Field，CRF)等，是NER目前的主流模型。它的目标函数不仅考虑输入的状态特征函数，而且还包含了标签转移特征函数。在训练时可以使用SGD(stochastic gradient descent，随机梯度下降)学习模型参数。在已知模型时，给输入序列求预测输出序列即求使目标函数最大化的最优序列，是一个动态规划问题，可以使用Viterbi算法解码来得到最优标签序列。CRF的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。

目前使用DL-CRF模型做序列标注开始流行起来，在神经网络的输出层接入CRF层(重点是利用标签转移概率)来做句子级别的标签预测，使得标注过程不再是对各个token独立分类。

BiLSTM-CRF是当前主流的基于深度学习的序列标注模型。BiLSTM-CRF中，BiLSTM部分主要用于，根据一个词的上下文，给出当前词所属标签的概率分布，可以把BiLSTM看成一个编码层。比如，对标签{B-Person,I-Person,B-Organization}和单词“满帮”来说，BiLSTM可能会输出(0.1,0.08,1.5)的非归一化概率分布。这些分布是CRF层的状态特征函数，还需要CRF层来计算标签之间的转移特征概率。通过状态特征和转移特征联合求解单词所属的标签。

BiLSTM是双向的递归神经网络架构，其训练数据来自于少量的有标签样本，对每个单词提取的特征有限，尤其是在OOV问题上表现效果很差。另外BiLSTM对GPU资源利用率低，不能实现并行化。

发明内容

本申请实施例提供一种语言信息的处理方法、装置、存储介质及电子设备，以使得到的向量特征更加丰富，并且可以提高训练效率的目的。

第一方面，本申请实施例提供了一种语言信息的处理方法，该方法包括：

获取待处理的语言信息文本内容，并对所述文本内容进行预处理，得到带有词性标注的汉字内容；

将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量；

将所述编码向量通过全连接层映射到词性集合中，得到汉字内容的各汉字的目标词性以及目标词性概率，作为所述汉字内容的状态特征；

通过CRF层来计算标签之间的转移特征概率，根据所述状态特征以及所述转移特征概率，确定汉字内容的各汉字所属的词性标签。

可选的，将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量，包括：

从语言信息中区分所述语言信息文本内容中的赘语，并做删除处理；

保留删除赘语后的汉字内容的位置信息；

确定汉字内容的编码向量。

可选的，对所述文本内容进行预处理，得到带有词性标注的汉字内容，包括：

去除所述文本内容中的特殊符号、生僻字以及繁体字；

根据目标领域的自定义词典进行切词，并对切词之后的汉字内容进行拼音纠错，以完成预处理；

对预处理结果进行词性标注。

可选的，对预处理结果进行词性标注，包括：

获取切词结果中每个汉字的词性信息；

将每个汉字的词性信息添加至该汉字的词性标志位，得到词性标注结果。

可选的，获取待处理的语言信息文本内容，包括：

获取服务器中存储的离线对话内容，并将所述离线对话内容通过转译工具转译得到文本内容。

可选的，所述目标领域包括货运领域。

第二方面，本申请实施例提供了一种语言信息的处理装置，该装置包括：

预处理模块，用于获取待处理的语言信息文本内容，并对所述文本内容进行预处理，得到带有词性标注的汉字内容；

编码向量确定模块，用于将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量；

状态特征确定模块，用于将所述编码向量通过全连接层映射到词性集合中，得到汉字内容的各汉字的目标词性以及目标词性概率，作为所述汉字内容的状态特征；

词性标签确定模块，用于通过CRF层来计算标签之间的转移特征概率，根据所述状态特征以及所述转移特征概率，确定汉字内容的各汉字所属的词性标签。

可选的，所述编码向量确定模块，具体用于：

保留删除赘语后的汉字内容的位置信息；

确定汉字内容的编码向量。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器运行时实现如本申请实施例所述的语言信息的处理方法。

第四方面，本申请实施例提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器运行所述计算机程序时实现如本申请实施例所述的语言信息的处理方法。

本申请实施例所提供的技术方案，获取待处理的语言信息文本内容，并对所述文本内容进行预处理，得到带有词性标注的汉字内容；将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量；将所述编码向量通过全连接层映射到词性集合中，得到汉字内容的各汉字的目标词性以及目标词性概率，作为所述汉字内容的状态特征；通过CRF层来计算标签之间的转移特征概率，根据所述状态特征以及所述转移特征概率，确定汉字内容的各汉字所属的词性标签。通过采用本申请所提供的技术方案，可以通过BERT模型来替换现有技术中所采用的BiLSTM模型，从而实现使得到的向量特征更加丰富，并且可以提高训练效率的目的。

附图说明

图1是本申请实施例一提供的语言信息的处理方法的流程图；

图2是本申请实施例一提供的BERT模型内部结构示意图；

图3是本申请实施例二提供的语言信息的处理装置的结构示意图；

图4是本申请实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本申请实施例一提供的语言信息的处理方法的流程图，本实施例可适于对语音信息进行词性标注处理的情况，该方法可以由本申请实施例所提供的语言信息的处理装置运行，该装置可以由软件和/或硬件的方式来实现，并可集成于智能终端等电子设备中。

如图1所示，所述语言信息的处理方法包括：

S110、获取待处理的语言信息文本内容，并对所述文本内容进行预处理，得到带有词性标注的汉字内容。

其中，待处理的语言信息文本内容，可以是对语言信息通过语音文本转译工具处理得到的语言信息的文本内容。例如可以使用科大讯飞提供的语音转文字的工具，来获取语言信息的文本内容。对文本内容进行预处理，可以是包括切词处理，词性判断处理等。由于切词和词性判断对于语义识别是至关重要的，因为切词的准确性和词性判断的准确性越高，则得到的语义识别结果就越准确。

在本实施例中，通过预处理，可以得到带有词性标注的汉字内容。其中汉字内容可以是文本内容中的每一个汉字及其词性标注，也可以是文本内容中的每一个词语及其词性标注。

在本方案中，可选的，对所述文本内容进行预处理，得到带有词性标注的汉字内容，包括：去除所述文本内容中的特殊符号、生僻字以及繁体字；根据目标领域的自定义词典进行切词，并对切词之后的汉字内容进行拼音纠错，以完成预处理；对预处理结果进行词性标注。其中，预处理可以包括对特殊符号、生僻字以及繁体字的去除处理。还可以对文本内容进行切词，并将得到的切词结果进行拼音纠错。这样设置的好处是可以通过预处理得到更加符合模型输入要求的信息，从而为后续的处理提供基础数据。

在上述技术方案的基础上，可选的，所述目标领域包括货运领域。其中，货运领域中的目标领域的自定义词典可以存在于日常生活用语不同的信息，例如可以和货运属性、货运距离以及货车承载能力相关的词语。通过这样的设置，可以使得切词的结果更加符合当前使用的领域的语言习惯，提高切词的准确性。

在上述技术方案的基础上，可选的，对预处理结果进行词性标注，包括：获取切词结果中每个汉字的词性信息；将每个汉字的词性信息添加至该汉字的词性标志位，得到词性标注结果。其中，对于每个汉字，可以设置相应的词性标志位，进而对每个汉字进行词性标注。通过这样的设置，可以得到符合BERT模型的输入格式的信息，并且将每个汉字的词性带入，可以得到符合要求的输入内容格式。

S120、将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量。

其中，将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量。其中，编码向量可以是当前这个汉字输入的各种词性的概率分别是多少。

在本实施例中，可选的，将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量，包括：从语言信息中区分所述语言信息文本内容中的赘语，并做删除处理；保留删除赘语后的汉字内容的位置信息；确定汉字内容的编码向量。

BERT通过“Fill in the blank task”以及“Next sentence prediction”两个任务进行预训练。在预训练模型的基础上稍加修改就可以处理多个下游任务。图2是本申请实施例一提供的BERT模型内部结构示意图。如图2所示，中文文本的序列标注问题，每个序列的第一个token始终是特殊分类嵌入([CLS])，剩下的每一个token代表一个汉字。BERT的input embeddings是token embeddings,segmentation embeddings和positionembeddings的总和。其中token embeddings是词(字)向量，segment embeddings用来区分两种句子，只有一个句子的任务(如序列标注)，可以用来区分真正的句子以及句子padding的内容，而position embedding保留了每个token的位置信息。BERT的output是每个token的encoding vector。只需要在BERT的基础上增加一层全连接层并确定全连接层的输出维度，便可把embedding vector映射到标集合。词性标注问题的标签集合即中文中所有词性的集合。

S130、将所述编码向量通过全连接层映射到词性集合中，得到汉字内容的各汉字的目标词性以及目标词性概率，作为所述汉字内容的状态特征。

其中，将所述编码向量通过全连接层映射到词性集合中，词性集合包括了所有的词性种类，可以通过全连接层得到汉字内容中的各汉字的目标词性以及目标词性概率，作为所述汉字内容的状态特征。

S140、通过CRF层来计算标签之间的转移特征概率，根据所述状态特征以及所述转移特征概率，确定汉字内容的各汉字所属的词性标签。

其中，通过CRF层可以构造损失函数进行训练，通过计算标签之间的转移特征概率，根据所述状态特征以及所述转移特征概率，确定汉字内容的各汉字所属的词性标签。

在上述各技术方案的基础上，可选的，获取待处理的语言信息文本内容，包括：获取服务器中存储的离线对话内容，并将所述离线对话内容通过转译工具转译得到文本内容。其中，由于两者之间的对话内容可以直接反映出对于货运任务的处理结果的信息，因此可以通过对对话内容的转译，并进一步的进行命名实体识别，可以辅助平台对信息的管控。

为了能够让本领域技术人员更加清楚的了解本方案，本申请还提供了了一种具体的实施方式。

BERT通过“Fill in the blank task”以及“Next sentence prediction”两个任务进行预训练。在预训练模型的基础上稍加修改就可以处理多个下游任务。如图2所示，中文文本的序列标注问题，每个序列的第一个token始终是特殊分类嵌入([CLS])，剩下的每一个token代表一个汉字。BERT的input embeddings是token embeddings,segmentationembeddings和position embeddings的总和。其中token embeddings是词(字)向量，segment embeddings用来区分两种句子，只有一个句子的任务(如序列标注)，可以用来区分真正的句子以及句子padding的内容，而position embedding保留了每个token的位置信息。BERT的output是每个token的encoding vector。只需要在BERT的基础上增加一层全连接层并确定全连接层的输出维度，便可把embedding vector映射到标集合。词性标注问题的标签集合即中文中所有词性的集合。

本发明中，BERT的encoding vector通过FC layer(全连接层)映射到标签集合后，单个token的output vector再经过Softmax处理，每一维度的数值就表示该token的词性为某一词性的概率。在此基础上加入CRF层(条件随机场，Conditional Random Field)得到转义特征概率。

具体步骤如下：

(1)首先从服务器中获取离线存储的司机与货主的在线对话内容；

(2)对获取的文本内容进行预处理，比如去除特殊符号、生僻字、繁体字等，之后加载货运领域的自定义词典进行切词，提高分词准确率。最后对切词之后的token进行拼音纠错，例如，“玉米”可能通过科大讯飞转译成“立米”，而经过词性分析发现该位置应该是一个名称类的词语，则可以将后续的语音信息中“立米”的读音都进行纠错处理。

(3)对中文文本，BERT模型的最小输入单位为单个汉字，但是词性信息是根据词语进行标注的，为了满足BERT的要求，需要对数据进行预处理，将原文本拆分成一系列的汉字，并对每个汉字进行词性标注；

(4)训练开始时，加载Google已经预选训练好的BERT模型，进行fine-turning，在BERT的最后一层接上FC(全连接神经网络)输出每个字对应的概率，最后加上CRF层，构造损失函数进行训练；

(5)同模型训练一样，待预测的句子需要被拆分为一系列单字后输入到训练好的模型当中，模型的输出为每一个单字对应的预测词性。因为这种形式不方便人来查看，所以增加一个后处理的步骤将预测后的字拼接起来，得到每个词对应的词性。

本发明所提供的技术方案，为了能在有效的时间内，得到同比BiLSTM-CRF更好的效果，我们将BiLSTM层替换为BERT。一方面利用预训练的结果得到文本更丰富的特征，另外一方面省去了序列化神经网络的训练时间，只需要在BERT的下游接一层FC后再与CRF层拼接起来进行训练即可。

实施例二

图3是本申请实施例二提供的语言信息的处理装置的结构示意图。如图3所示，所述语言信息的处理装置，包括：

预处理模块310，用于获取待处理的语言信息文本内容，并对所述文本内容进行预处理，得到带有词性标注的汉字内容；

编码向量确定模块320，用于将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量；

状态特征确定模块330，用于将所述编码向量通过全连接层映射到词性集合中，得到汉字内容的各汉字的目标词性以及目标词性概率，作为所述汉字内容的状态特征；

词性标签确定模块340，用于通过CRF层来计算标签之间的转移特征概率，根据所述状态特征以及所述转移特征概率，确定汉字内容的各汉字所属的词性标签。

在上述各技术方案的基础上，可选的，所述编码向量确定模块，具体用于：

保留删除赘语后的汉字内容的位置信息；

确定汉字内容的编码向量。

上述产品可运行本申请任意实施例所提供的方法，具备运行方法相应的功能模块和有益效果。

实施例三

本申请实施例还提供一种包含计算机可运行指令的存储介质，所述计算机可运行指令在由计算机处理器运行时用于运行一种语言信息的处理方法，该方法包括：

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被运行的计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于运行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器运行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可运行指令的存储介质，其计算机可运行指令不限于如上所述的语言信息的处理操作，还可以运行本申请任意实施例所提供的语言信息的处理方法中的相关操作。

实施例四

本申请实施例提供了一种电子设备，该电子设备中可集成本申请实施例提供的语言信息的处理装置。图4是本申请实施例四提供的一种电子设备的结构示意图。如图4所示，本实施例提供了一种电子设备400，其包括：一个或多个处理器420；存储装置410，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器420运行，使得所述一个或多个处理器420实现本申请实施例所提供的语言信息的处理方法，该方法包括：

图4显示的电子设备400仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440；电子设备中处理器420的数量可以是一个或多个，图4中以一个处理器420为例；电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线450连接为例。

存储装置410作为一种计算机可读存储介质，可用于存储软件程序、计算机可运行程序以及模块单元，如本申请实施例中的语言信息的处理方法对应的程序指令。

存储装置410可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置410可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置410可进一步包括相对于处理器420远程设置的存储器，这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字、字符信息或语音信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等设备。

本申请实施例提供的电子设备，可以通过BERT模型来替换现有技术中所采用的BiLSTM模型，从而实现使得到的向量特征更加丰富，并且可以提高训练效率的目的。

上述实施例中提供的语言信息的处理装置、存储介质及电子设备可运行本申请任意实施例所提供的语言信息的处理方法，具备运行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的语言信息的处理方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种语言信息的处理方法，其特征在于，包括：

通过CRF层来计算标签之间的转移特征概率，根据所述状态特征以及所述转移特征概率，确定汉字内容的各汉字所属的词性标签；

所述对所述文本内容进行预处理，得到带有词性标注的汉字内容，包括：

去除所述文本内容中的特殊符号、生僻字以及繁体字；

对预处理结果进行词性标注。

2.根据权利要求1所述的方法，其特征在于，将所述带有词性标注的汉字内容输入至BERT模型，得到汉字内容的编码向量，包括：

保留删除赘语后的汉字内容的位置信息；

确定汉字内容的编码向量。

3.根据权利要求1所述的方法，其特征在于，对预处理结果进行词性标注，包括：

获取切词结果中每个汉字的词性信息；

4.根据权利要求1所述的方法，其特征在于，获取待处理的语言信息文本内容，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标领域包括货运领域。

6.一种语言信息的处理装置，其特征在于，包括：

词性标签确定模块，用于通过CRF层来计算标签之间的转移特征概率，根据所述状态特征以及所述转移特征概率，确定汉字内容的各汉字所属的词性标签；

所述预处理模块具体用于：去除所述文本内容中的特殊符号、生僻字以及繁体字；根据目标领域的自定义词典进行切词，并对切词之后的汉字内容进行拼音纠错，以完成预处理；对预处理结果进行词性标注。

7.根据权利要求6所述的装置，其特征在于，所述编码向量确定模块，具体用于：

保留删除赘语后的汉字内容的位置信息；

确定汉字内容的编码向量。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的语言信息的处理方法。

9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的语言信息的处理方法。