CN113342935A

CN113342935A - 语义识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN113342935A
Application number: CN202110627485.7A
Authority: CN
Inventors: 胡洪兵; 武卫东; 陈明; 李健
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-03

Abstract

本发明实施例提供了一种语义识别方法、装置、电子设备及可读存储介质，所述方法包括：获取语音通话内容生成的语音文本数据；将所述语音文本数据输入抽取模型，其中，所述抽取模型由所述语音文本数据训练获得，所述抽取模型对所述语音文本数据中每个字符进行二分类处理，得到第一标签和第二标签；所述抽取模型对所述第一标签进行处理，生成与所述第一标签对应的事件信息；根据所述事件信息进行合并，生成语义识别的结果。本发明实施例通过序列标注神经网络模型来标注语音通话内容，在意图解码时，解码结果更加准确，减少冗余信息，获取用户的真实意图，提高程序运行性能且生成的结果可控，解决了智能客服系统中对语义识别的准确率较低的问题。

Description

语义识别方法、装置、电子设备及可读存储介质

技术领域

本发明涉及语音识别领域，特别是涉及一种语义识别方法、装置、电子设备及可读存储介质。

背景技术

随着人工智能的发展，在语音识别领域中，用户进行语音通话时产生的语音文本包含的信息点极其宽泛，机器无法通过对整体的语音文本进行分类的方法去获取用户的意图。

为了避免人工智能客服在与用户沟通中由于无法准确获取用户真正意图而导致无法解决用户提出的问题，现有技术采取针对语音文本进行文本摘要，通过文本摘要进行用户语义识别。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要，文本摘要按照输出类型可分为抽取式摘要和生成式摘要，抽取式摘要从源文档中抽取关键句和关键词组成摘要，摘要全部来源于原文；按照有无监督数据可以分为有监督摘要和无监督摘要。

在语义识别中，目前技术方案主要是基于无监督的抽取方案包括lead3、TextRank等算法等；TextRank算法基于谷歌的pageRank算法，通过构建句子之间的相似度关系进行迭代打分，从而获得得分最高的topN个句子作为摘要。然而，在实际应用中，这种方法缺点是无监督，会引入过多的冗余信息，抽取的结果是文本中的重要句子，造成无法抽取用户真实意图的问题。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语义识别方法、装置、电子设备及可读存储介质。

根据本发明的第一方面，提供了一种语义识别方法，所述方法包括：

获取语音通话内容生成的语音文本数据；

将所述语音文本数据输入抽取模型，其中，所述抽取模型由所述语音文本数据训练获得，所述抽取模型对所述语音文本数据中每个字符进行二分类处理，得到第一标签和第二标签；

所述抽取模型对所述第一标签进行处理，生成与所述第一标签对应的事件信息；

根据所述事件信息进行合并，生成语义识别的结果。

可选地，所述语音文本数据为字符的集合，其中所述字符包括：汉字字符、字母、数字、符号。

可选地，所述第一标签和第二标签包括：

所述第一标签代表所述语音文本数据中的意图数据；

所述第二标签代表所述语音文本数据中的非意图数据。

可选地，获得所述抽取模型包括：

对所述语音文本数据进行数据标注，其中，所述数据标注是对所述语音文本数据中的所述字符进行所述二分类处理；

对标注后的所述语音文本数据进行训练，得到抽取模型。

可选地，所述抽取模型，还包括：

数据标注和标签解码，其中，所述数据标注对所述语音文本数据中的所述字符进行二分类处理，得到的第一标签，所述标签解码对所述第一标签进行标签解码，生成事件信息。

可选地，所述标签解码包括：

对所述第一标签进行标签解码，得到与所述第一标签对应的概率最大的事件信息。

根据本发明的第二方面，提供了一种语义识别装置，所述装置包括：

数据获取模块，用于获取语音通话内容生成的语音文本数据；

识别模块，用于将所述语音文本数据输入所述抽取模型，其中，所述抽取模型由所述语音文本数据训练获得，所述抽取模型对所述语音文本数据中每个字符进行二分类处理，得到第一标签和第二标签；所述抽取模型对所述第一标签进行处理，生成与所述第一标签对应的事件信息；

合并模块，根据所述事件信息进行合并，生成语义识别的结果。

根据本发明的第三方面，提供一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序。

根据本发明的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序。

本发明实施例提供的一种语义识别方法、装置、电子设备及可读存储介质，通过对获取的目标语音通话文本利用改进的序列标注神经网络模型来拟合标注，从而抽取出来电意图的非连续事件序列，单标签的序列标注方式改变了传统的标准序列抽取任务首尾位置的标注方案，有监督的抽取式摘要使得在意图解码时，解码结果更加准确，提高程序运行性能且生成的结果可控，减少冗余信息，获取用户的真实意图。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种语义识别方法的流程图；

图2是本发明实施例提供的一种语义识别装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语义识别的方法、装置、可读存储介质和处理器进行详细地说明。

本发明的第一实施方式涉及一种语义识别的方法，应用在智能客服系统中获得用户的来电意图，其流程如图1所述，包括：

步骤101，获取语音通话内容生成的语音文本数据。

需要说明的是，在本实施方式中，获取的语音通话内容是主呼叫端和被呼叫端之间的音频数据，这些音频数据可以通过语音采集平台采集语音通话内容，本实施方式不对语音设备和通道进行限定，在实际的使用过程中，可以进行桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。

语音通话中经常包含语气词、标点符号、虚词等无关因素，在进行语义识别时受到许多因素影响包括不同的人、说话方式、环境噪音、传输信道。

因此为了提高语义识别的准确性，获取用户的真正意图，首先要对获取的语音通话内容转化为语音文本数据，本申请实施例不对语音通话内容转化为语音文本数据进行限定，可以通过语音识别技术获得，语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别方法主要是模式匹配法，在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库，在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

步骤102，将所述语音文本数据输入抽取模型，其中，所述抽取模型由所述语音文本数据训练获得，所述抽取模型对所述语音文本数据中每个字符进行二分类处理，得到第一标签和第二标签。

需要说明的是，在本实施方式中，抽取模型是一个序列标注神经网络抽取模型，将语音文本数据输入抽取模型前，需要对抽取模型进行预先训练，训练的过程包括：需要对获取的大量语音文本数据进行监督式机器学习，对转换好的语音文本数据进行数据标注，在对语音文本数据进行标注的过程，改进了传统的标准序列抽取任务首尾位置的标注方案，例如，传统的序列抽取方案抽取实体如“北B-LOC京I-LOC”时，实体的起止位置标签不同，在本具体实施方式中，使用了BIESO标签体系中的“S”单标签，将意图token全部当做一个单标签进行抽取，其中，token在词法分析中表示的是计算机科学中将字符序列转换为标记(token)序列的过程，抽取后得到第一标签和第二标签，这里的第一标签标记的是用户意图的字符数据，第二标签标记的是非用户意图的字符数据。以上示例只是举例说明，本申请对此不做限定。

本实施方式不对具体的神经网络进行限定，在实际的使用过程中，例如，RNN、CNN、DNN都可以进行神经网络模型搭建。

步骤103，所述抽取模型对所述第一标签进行处理，生成与所述第一标签对应的事件信息；

需要说明的是，在本实施方式中，对第一标签处理就是对第一标签进行位置标签解码，在这个过程中，不再使用现有技术中使用的CRF进行序列解码，而是通过softmax进行位置标签解码。

softmax在多分类的场景中使用广泛，它把一些输入映射为0-1之间的实数，并且归一化保证和为1，因此多分类的概率之和也刚好为1，例如，当进行max a>b运算，输出时一定取a，为了保证b在小概率的情况下仍然会被取到，此时使用softmax。在本实施方式中，softmax在神经网络中用于输出层上，通过结果得到的0-1区间的值代表概率来判断每个字符对应的输出标签，在本实施方式中，是通过softmax对语音文本数据中的每个字符找到概率最大的标签，输出第一标签解码后的事件信息，事件信息就是意图事件。

步骤104，根据所述事件信息进行合并，生成语义识别的结果。

需要说明的是，在本实施方式中，根据所述事件信息进行合并，生成语义识别的结果，例如，对一段通话文本被模型打上标签{}：“工号，11144为您服务。您好，请问您是要新生为您服务。哎，你好，我想请{{trigger:问}}一下那个{{event:员工休病假}}的话，那个{{event:工资怎么算}}不能低于最低工资标准的80％，那太前一天呢，那那一天的工资不能低于最低工资标准的80％。”合并意图输出：问员工休病假工资怎么算。以上示例只是举例说明，本申请对此不做限定。

输入语音文本利用神经网络抽取模型给文本中的每个字符打标签，将意图标签的字符序列合并即可得到意图序列。对于步骤104而言，由于其是对步骤103输出的信息进行合并，所以描述的比较简单。

本具体实施例包括以下优点：

本具体实施例提供了一种语义识别方法，所述方法包括：获取语音通话内容生成的语音文本数据；将所述语音文本数据输入抽取模型，其中，所述抽取模型由所述语音文本数据训练获得，所述抽取模型对所述语音文本数据中每个字符进行二分类处理，得到第一标签和第二标签；所述抽取模型对所述第一标签进行处理，生成与所述第一标签对应的事件信息；根据所述事件信息进行合并，生成语义识别的结果。本具体实施例提供的一种语义识别方法，通过对获取的语音通话文本利用改进的序列标注神经网络模型来拟合标注，从而抽取出来电意图的非连续事件序列，单标签的序列标注方式改变了传统的标准序列抽取任务首尾位置的标注方案，有监督的抽取式摘要使得在意图解码时，解码结果更加准确，提高程序运行性能且生成的结果可控，减少冗余信息，解决了无法获取用户的真实意图的问题。

本发明的第二实施方式涉及一种语义识别的装置，参照图2所述，该装置具体可以包括：

数据获取模块201，用于获取语音通话内容生成的语音文本数据。

识别模块202，用于将语音文本数据输入抽取模型，抽取模型对所述语音文本数据中每个字符进行二分类处理，得到第一标签和第二标签；所述抽取模型对所述第一标签进行处理，生成与所述第一标签对应的事件信息。

合并模块203，根据事件信息进行合并，生成语义识别的结果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本具体实施例包括以下优点：

本具体实施例提供的一种语义识别装置，通过对获取的目标语音通话文本利用改进的序列标注神经网络模型来拟合标注，从而抽取出来电意图的非连续事件序列，在意图解码时，解码结果更加准确，提高程序运行性能且生成的结果可控，减少冗余信息，解决了无法获取用户的真实意图的问题。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、可存储介质和处理器。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语义识别方法、装置、可存储介质和处理器进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语义识别方法，其中特征在于，所述方法包括：

获取语音通话内容生成的语音文本数据；

根据所述事件信息进行合并，生成语义识别的结果。

2.根据权利要求1所述的方法，其特征在于，所述语音文本数据为字符的集合，其中所述字符包括：汉字字符、字母、数字、符号。

3.根据权利要求1所述的方法，其特征在于，所述第一标签和第二标签包括：

所述第一标签代表所述语音文本数据中的意图数据；

所述第二标签代表所述语音文本数据中的非意图数据。

4.根据权利要求1所述的方法，其特征在于，获得所述抽取模型包括：

对标注后的所述语音文本数据进行训练，得到抽取模型。

5.根据权利要求1所述的方法，其特征在于，所述抽取模型，还包括：

6.根据权利要求5所述的方法，其特征在于，所述标签解码包括：

7.一种语义识别装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至6任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的语义识别的步骤。