CN113553827B

CN113553827B - 一种信息处理方法、装置、设备和计算机存储介质

Info

Publication number: CN113553827B
Application number: CN202110772944.0A
Authority: CN
Inventors: 夏林旭; 李媛媛
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2023-11-10
Anticipated expiration: 2041-07-08
Also published as: CN113553827A

Abstract

本发明公开了一种信息处理方法、装置、设备和计算机存储介质，方法包括：获取第一输入信息，其中第一输入信息包含非规范性语言；基于第一输入信息，生成第二输入信息，其中第二输入信息修正了非规范性语言；将所生成的第二输入信息作为深度学习模型的输入进行训练，生成第一输出信息，其中第一输出信息包含第一输入信息中特定领域词汇的标签信息；基于第一输出信息，生成第二输出信息，其中第二输入信息修正了非规范性语言；按照特定领域词汇的层级关系，对第二输出信息进行聚合处理。本发明经过对信息进行修正处理，并且经过层级关系进行聚合处理，可提高非规范化语言解析的准确率，利用深度学习模型，提高了系统的泛化能力。

Description

一种信息处理方法、装置、设备和计算机存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种信息处理方法、装置、设备和计算机存储介质。

背景技术

(NLU)主要包括意图识别和实体抽取两大核心任务。

现实中，由于用户说话时口语化，或者非规范性的表达，例如很多中文地址信息口语化在地理位置服务中难以应用，而现有的方法主要根据词表匹配的方法进行解析，使得系统泛化能力差，无法支持非规范化地址信息解析等。

发明内容

本发明实施例提供了一种信息处理方法、装置、设备和计算机存储介质，具有可提高非规范化语言解析的准确率以及系统的泛化能力。

本发明一方面提供一种信息处理方法，所述方法包括：获取第一输入信息，其中所述第一输入信息中包含非规范性语言；基于所述第一输入信息，生成第二输入信息，其中所述第二输入信息中修正了所述非规范性语言；将所生成的第二输入信息作为深度学习模型的输入进行训练，生成第一输出信息，其中所述第一输出信息包含所述第一输入信息中特定领域词汇的标签信息；基于所述第一输出信息，生成第二输出信息，其中所述第二输出信息中修正了所述非规范性语言；按照所述特定领域词汇的层级关系，对所述第二输出信息进行聚合处理。

在一可实施方式中，所述基于所述第一输入信息，生成第二输入信息，包括：利用所述特定领域的词汇表确定所述第一输入信息中的非规范性语言；确定所述词汇表中对应于所述非规范性语言的规范性语言；将所述词汇表中对应的规范性语言替换所述第一输入信息中的非规范性语言。

在一可实施方式中，所述确定所述词汇表中对应于所述非规范性语言的规范性语言，包括：将所述非规范性语言与所述词汇表中的各个已存词汇进行相似度比对；将相似度最高的词汇作为所述非规范性语言的规范性语言。

在一可实施方式中，所述深度学习模型包括语言表示模型、循环神经网络和条件随机场；所述语言表示模型用于接收所述第二输入信息，对应输出词向量；所述循环神经网络用于接收所述词向量，对应输出中间向量，其中所述中间词向量用于表征给所述第二输入信息内词汇赋予标签信息的概率；所述条件随机场用于接收所述中间向量，生成所述第一输出信息。

在一可实施方式中，所述语言表示模型为BERT预训练模型，所述循环神经网络为BILSTM网络模型。

在一可实施方式中，所述按照所述特定领域词汇的层级关系，对所述第二输出信息进行聚合处理，包括：基于所述特定领域词汇的层级关系，确定所述第二输出信息中的相邻词汇的上下级关系；将确定为上下级关系的词汇进行聚合处理。

在一可实施方式中，所述方法应用于车载对话系统；相应的，所述特定领域为地理位置领域。

本发明另一方面提供一种信息处理装置，所述装置包括：信息获取模块，用于获取第一输入信息，其中所述第一输入信息中包含非规范性语言；第一信息修正模块，用于基于所述第一输入信息，生成第二输入信息，其中所述第二输入信息中修正了所述非规范性语言；信息输出模块，用于将所生成的第二输入信息作为深度学习模型的输入进行训练，生成第一输出信息，其中所述第一输出信息包含所述第一输入信息中特定领域词汇的标签信息；第二信息修正模块，用于基于所述第一输出信息，生成第二输出信息，其中所述第二输出信息中修正了所述非规范性语言；信息聚合模块，用于按照所述特定领域词汇的层级关系，对所述第二输出信息进行聚合处理。

本发明另一方面提供一种信息处理设备，所述设备包括存储器和处理器；所述存储器用于存储指令，所述指令用于控制所述处理器进行操作以执行时任一项所述的信息处理方法。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的信息处理方法。

在本发明实施例中，在获取到第一输入信息之后，对第一输入信息中的非规范化语言进行修正之后再通过深度学习模型设置标签信息，之后再对第一输出信息进行再次修正，最后通过层级关系对第二输出信息进行聚合处理。该申请极大的提高了非规范化语言解析的准确率，同时利用深度学习模型，也提高了对系统的泛化能力。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种信息处理方法的实现流程示意图；

图2为本发明实施例一种信息处理方法中深度学习模型的模型结构示意图；

图3为本发明实施例一种信息处理装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一方面提供一种信息处理方法，方法包括：

步骤101，获取第一输入信息，其中第一输入信息中包含非规范性语言；

步骤102，基于第一输入信息，生成第二输入信息，其中第二输入信息中修正了非规范性语言；

步骤103，将所生成的第二输入信息作为深度学习模型的输入进行训练，生成第一输出信息，其中第一输出信息包含第一输入信息中特定领域词汇的标签信息；

步骤104，基于第一输出信息，生成第二输出信息，其中第二输出信息中修正了非规范性语言；

步骤105，按照特定领域词汇的层级关系，对第二输出信息进行聚合处理。

本实施例中，在步骤101中，第一输入信息可以为语音信息，也可以是文本信息，若第一输入信息为语音信息，则非规范性语言可设置为非普通话，即地方方言，或者说噪音，若为第一输入信息为文本信息，则非规范性语言为名称别名，或者说错别字等。

在步骤102中，在获取到第一输入信息之后，执行对第一输入信息中的非规范性语言进行修正，使输入信息中不包含非规范性语言。

修正方法可以是通过特定领域的词汇表比对第一输出信息中的各个词汇，若词汇表中存在第一输出信息的词汇，则可确定该词汇为规范性语言，反之，若词汇表中不存在第一输出信息的词汇，则可确定该词汇为非规范性语言。其次基于非规范性语言，从词汇表中查询对应的规范性词汇并替换。其中特定领域的词汇表可以是地理名称词汇表、水果词汇表、建筑名称词汇表等等，一般包含所有该领域下的所有规范性词汇，例如地址词表，数据基本源于对话系统中积累的地名词表。

在步骤103中，将修正后的第二输入信息输入到深度学习模型中进行训练，以对第二输入信息中特定领域的词汇设置标签，生成第一输出信息，例如在车载导航的应用场景中，若车主的第二输入信息“查询去北京市中关村大街的路线”，则第一输出信息中对于“北京市”和“中关村大街”设置为地名标签，对其余非地名不做设置。

其中，深度学习模型具体可以为卷积神经网络、深度信念网络和递归神经网络，且深度学习模型均需要预先进行训练，训练过程如下：

训练数据收集，训练数据来源于系统中用户对话日志，利用通用NER模型自动标注后，再通过人工审核矫正。

将训练数据作为深度学习模型的输入进行大量训练，直到深度学习模型的输出结果达到满意效果即可。

在步骤104中，在获取到第一输出信息之后，执行对第一输出信息中的非规范性语言进行修正，使输出信息中不包含非规范性语言。此处的修正方法跟上述对第一输入信息的修正方法一致，不再重复赘述。

在步骤105中，特定领域词汇的层级关系随着不同领域有所不同，例如特定领域词汇为地址词汇时，层级关系可包括省、市、县、镇、村等5个级别，其中省级别最高，村级别最低。聚合处理具体可以是第二输出信息中的各个相邻词汇之间存在上下级关系，则将该相邻词汇进行聚合，例如相邻词汇为“北京市”和“海淀区”，众所周知，海淀区和北京市为上下级关系，则进行聚合，即“北京市海淀区”。反之，若相邻词汇之间不是上下级关系，则不进行聚合处理。

由此，在获取到第一输入信息之后，对第一输入信息中的非规范化语言进行修正之后再通过深度学习模型设置标签信息，之后再对第一输出信息进行再次修正，最后通过层级关系对第二输出信息进行聚合处理。该申请极大的提高了非规范化语言解析的准确率，同时利用深度学习模型，也提高了对系统的泛化能力。

在一可实施方式中，基于第一输入信息，生成第二输入信息，包括：

利用特定领域的词汇表确定第一输入信息中的非规范性语言；

确定词汇表中对应于非规范性语言的规范性语言；

将词汇表中对应的规范性语言替换第一输入信息中的非规范性语言。

本实施例中，步骤102的具体过程为：

通过特定领域的词汇表比对第一输出信息中的各个词汇，若词汇表中存在第一输出信息的词汇，则可确定该词汇为规范性语言，反之，若词汇表中不存在第一输出信息的词汇，则可确定该词汇为非规范性语言。

基于非规范性语言，从词汇表中查询对应的规范性词汇并替换。其中查询对应的规范性词汇的具体过程为：

将非规范性语言与词汇表中的各个已存词汇进行文本相似度比对，可以将词汇表中相似度最高的词汇作为非规范性语言的规范性语言，或者选取词汇表中相似度值超过指定阈值的词汇作为非规范性语言的规范性语言。

将所选定的规范性词汇替换原先的非规范性语言，以后续替换作为深度学习模型的输入。

在一可实施方式中，深度学习模型包括语言表示模型、循环神经网络和条件随机场；

语言表示模型用于接收第二输入信息，对应输出词向量；

循环神经网络用于接收词向量，对应输出中间向量，其中中间词向量用于表征给第一输入信息内词汇赋予标签信息的概率；

条件随机场用于接收中间向量，生成第一输出信息。

本实施例中，结合图2所示，语言表示模型优选为基于谷歌开源的BERT预训练模型，用于接收第二输入信息以转为对应的词向量并输出。

循环神经网络优选为BILSTM网络模型，用于接收词向量以队第二输入信息内词汇赋予标签信息的概率，并输出中间向量。

条件随机场优选为CRF层接收该中间向量，并输出对应于第一输入信息的第一输出信息。该模型的标注优选采用BIO方法，由此，第一输出信息包括B-LOC、I-LOC，其中B-LOC表示对应第一输入信息中各个特定领域词汇的起始位置，例如图2中，假设第一输入信息为“北京丰台区中关村大街”，相应的第一输出信息中第一个B-LOC为“北京”词汇的起始位置，第二个B-LOC为“丰台区”的起始位置，I-LOC的数量表示对应第一输入信息中各个特定领域词汇的长度。

在一可实施方式中，按照特定领域词汇的层级关系，对第二输出信息进行聚合处理，包括：

基于特定领域词汇的层级关系，确定第二输出信息中的相邻词汇的上下级关系；

将确定为上下级关系的词汇进行聚合处理。

本实施例中，特定领域词汇的层级关系具体为该领域中各个词汇之间的上下级关系，例如在地理位置领域中，例如“北京”和“中关村大街”为上下级关系，层级关系可来源于国家统计局公布的数据，例如包含省、市、县、镇、村等5个级别。

由此，聚合处理的具体过程为：

将第二输出信息中的各个已经设置标签并且相邻的词汇判断是否为上下级关系，如果判定为是，则将该相邻的词汇进行聚合处理，例如“北京”和“丰台区”，众所周知，北京包括丰台区，是上下级关系，因此将聚合成“北京丰台区”，反之，若判定为否，则该相邻的词汇不进行聚合处理，例如“丰台区”和“中关村大街”，众所周知，中关村大街不属于丰台区，不是上下级关系，因此不进行聚合处理。

在一可实施方式中，方法应用于车载对话系统；

相应的，特定领域为地理位置领域。

本实施例中，方法在应用于车载对话系统时，驾驶员在查询驾驶目的地时，本申请可对驾驶员的非规范性语音进行修正以及词汇上下级聚合处理，最终生成规范性的词汇，车载对话系统可针对该规范性词汇进行准确地地理位置查询以及导航。

本发明另一方面提供一种信息处理装置，装置包括：

信息获取模块201，用于获取第一输入信息，其中第一输入信息中包含非规范性语言；

第一信息修正模块202，用于基于第一输入信息，生成第二输入信息，其中第二输入信息中修正了非规范性语言；

信息输出模块203，用于将所生成的第二输入信息作为深度学习模型的输入进行训练，生成第一输出信息，其中第一输出信息包含第一输入信息中特定领域词汇的标签信息；

第二信息修正模块204，用于基于第一输出信息，生成第二输出信息，其中第二输出信息中修正了非规范性语言；

信息聚合模块205，用于按照特定领域词汇的层级关系，对第二输出信息进行聚合处理。

本实施例中，在信息获取模块201中，第一输入信息可以为语音信息，也可以是文本信息，若第一输入信息为语音信息，则非规范性语言可设置为非普通话，即地方方言，或者说噪音，若为第一输入信息为文本信息，则非规范性语言为名称别名，或者说错别字等。

在第一信息修正模块202中，在获取到第一输入信息之后，执行对第一输入信息中的非规范性语言进行修正，使输入信息中不包含非规范性语言。

在信息输出模块203中，将修正后的第二输入信息输入到深度学习模型中进行训练，以对第二输入信息中特定领域的词汇设置标签，生成第一输出信息，例如在车载导航的应用场景中，若车主的第二输入信息“查询去北京市中关村大街的路线”，则第一输出信息中对于“北京市”和“中关村大街”设置为地名标签，对其余非地名不做设置。

在第二信息修正模块204中，在获取到第一输出信息之后，执行对第一输出信息中的非规范性语言进行修正，使输出信息中不包含非规范性语言。此处的修正方法跟上述对第一输入信息的修正方法一致，不再重复赘述。

在信息聚合模块205中，特定领域词汇的层级关系随着不同领域有所不同，例如特定领域词汇为地址词汇时，层级关系可包括省、市、县、镇、村等5个级别，其中省级别最高，村级别最低。聚合处理具体可以是第二输出信息中的各个相邻词汇之间存在上下级关系，则将该相邻词汇进行聚合，例如相邻词汇为“北京市”和“海淀区”，众所周知，海淀区和北京市为上下级关系，则进行聚合，即“北京市海淀区”。反之，若相邻词汇之间不是上下级关系，则不进行聚合处理。

本发明另一方面提供一种信息处理设备，设备包括存储器和处理器；

存储器用于存储指令，指令用于控制所述处理器进行操作以当指令被执行时用于执行上述任一项的一种信息处理方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于获取第一输入信息，其中第一输入信息中包含非规范性语言；基于第一输入信息，生成第二输入信息，其中第二输入信息中修正了非规范性语言；将所生成的第二输入信息作为深度学习模型的输入进行训练，生成第一输出信息，其中第一输出信息包含第一输入信息中特定领域词汇的标签信息；基于第一输出信息，生成第二输出信息，其中第二输出信息中修正了非规范性语言；按照特定领域词汇的层级关系，对第二输出信息进行聚合处理。

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的信息处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取第一输入信息，其中所述第一输入信息中包含非规范性语言；

基于所述第一输入信息，生成第二输入信息，其中所述第二输入信息中修正了所述非规范性语言；其中，所述基于所述第一输入信息，生成第二输入信息，包括：

利用特定领域的词汇表确定所述第一输入信息中的非规范性语言；

确定所述词汇表中对应于所述非规范性语言的规范性语言；

将所述词汇表中对应的规范性语言替换所述第一输入信息中的非规范性语言；

其中，所述特定领域的词汇表中的数据源于对话系统中积累的词表；

将所生成的第二输入信息作为深度学习模型的输入进行训练，生成第一输出信息，其中所述第一输出信息包含所述第一输入信息中特定领域词汇的标签信息；

基于所述第一输出信息，生成第二输出信息，其中所述第二输出信息中修正了所述非规范性语言；

按照所述特定领域词汇的层级关系，对所述第二输出信息进行聚合处理。

2.根据权利要求1所述的方法，其特征在于，所述确定所述词汇表中对应于所述非规范性语言的规范性语言，包括：

将所述非规范性语言与所述词汇表中的各个已存词汇进行相似度比对；

将相似度最高的词汇作为所述非规范性语言的规范性语言。

3.根据权利要求1所述的方法，其特征在于，所述深度学习模型包括语言表示模型、循环神经网络和条件随机场；

所述语言表示模型用于接收所述第二输入信息，对应输出词向量；

所述循环神经网络用于接收所述词向量，对应输出中间向量，其中所述中间词向量用于表征给所述第二输入信息内词汇赋予标签信息的概率；

所述条件随机场用于接收所述中间向量，生成所述第一输出信息。

4.根据权利要求3所述的方法，其特征在于，所述语言表示模型为BERT预训练模型，所述循环神经网络为BILSTM网络模型。

5.根据权利要求1所述的方法，其特征在于，所述按照所述特定领域词汇的层级关系，对所述第二输出信息进行聚合处理，包括：

基于所述特定领域词汇的层级关系，确定所述第二输出信息中的相邻词汇的上下级关系；

将确定为上下级关系的词汇进行聚合处理。

6.根据权利要求1所述的方法，其特征在于，所述方法应用于车载对话系统；

相应的，所述特定领域为地理位置领域。

7.一种信息处理装置，其特征在于，所述装置包括：

信息获取模块，用于获取第一输入信息，其中所述第一输入信息中包含非规范性语言；

第一信息修正模块，用于基于所述第一输入信息，生成第二输入信息，其中所述第二输入信息中修正了所述非规范性语言；其中，所述基于所述第一输入信息，生成第二输入信息，包括：

确定所述词汇表中对应于所述非规范性语言的规范性语言；

其中，所述特定领域的词汇表中的数据基本源于对话系统中积累的词表；

信息输出模块，用于将所生成的第二输入信息作为深度学习模型的输入进行训练，生成第一输出信息，其中所述第一输出信息包含所述第一输入信息中特定领域词汇的标签信息；

第二信息修正模块，用于基于所述第一输出信息，生成第二输出信息，其中所述第二输出信息中修正了所述非规范性语言；

信息聚合模块，用于按照所述特定领域词汇的层级关系，对所述第二输出信息进行聚合处理。

8.一种信息处理设备，其特征在于，所述设备包括存储器和处理器；

所述存储器用于存储指令，所述指令用于控制所述处理器进行操作以执行时实现权利要求1-6任一项所述的信息处理方法。

9.一种可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-6任一项所述的信息处理方法。