CN110827816A

CN110827816A - 语音指令识别方法、装置、电子设备及存储介质

Info

Publication number: CN110827816A
Application number: CN201911089302.XA
Authority: CN
Inventors: 郑永升; 石磊; 曹越
Original assignee: According To Hangzhou Medical Technology Co Ltd
Current assignee: According To Hangzhou Medical Technology Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-21

Abstract

本发明涉及语音指令识别方法、装置、电子设备及存储介质，其中，语音指令识别方法包括如下步骤：获取用户的语音数据；通过语音识别将所述语音数据识别为文本序列；基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列；对所述表征向量序列进行处理，得到意图信息和词槽；确定与所述意图信息对应的指令；通过所述词槽判断所述指令是否完整，若完整，则对所述指令进行解码并输出指令内容。本发明实施例的语音指令识别方法，减少了语音指令识别在基于文本序列输出与文本序列对应的指令内容的训练过程及实际使用过程中的耗时，且减少了计算资源的浪费。

Description

语音指令识别方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种语音指令识别方法、装置、用于语音指令识别的电子设备、计算机存储介质及语音交互处理方法。

背景技术

智能服务机器人是一种以人工智能技术为基础的产品，通过对话的形式和使用者进行交互，该智能服务机器在和使用者的交互过程中可以向用户提供服务。

现有的用于智能服务机器人的语音指令识别方法，通过多层RNN(递归神经网络)将语音文本序列中每个字包含语义信息的表征向量序列提取出，然后对于表征向量序列进行处理得到意图信息和词槽。然而，由于RNN在对一个文本序列进行计算时，文本序列中每一个元素的计算需要依赖其前一个元素的计算结果，也就是说，只有完成了文本序列中前一个元素的计算，才能进行下一个元素的计算，这就要求计算过程必须是顺序的，无法进行并行计算，使得针对文本序列计算得到表征向量序列的速度较慢，从而导致了现有的语音指令识别过程耗时多且占用较多的计算资源，此外，在通过训练神经网络模型以识别语音指令时，训练过程也会耗时较多且占用较多的计算资源。

发明内容

为解决上述技术问题，本发明的一个目的在于提供一种语音指令识别方法，该方法减少了语音指令识别过程的耗时，同时也减少了语音指令识别过程中对计算资源的占用。

本发明的另一个目的在于提供一种包括上述语音指令识别方法的智能语音交互处理方法。

本发明的再一个目的在于提供一种实现上述语音指令识别方法的语音指令识别装置。

为达到上述目的，本发明采用如下技术方案：

根据本发明第一方面实施例的语音指令识别方法，包括如下步骤：

获取用户的语音数据；

通过语音识别将所述语音数据识别为文本序列；

基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列；

对所述表征向量序列进行处理，得到意图信息和词槽；

确定与所述意图信息对应的指令；

通过所述词槽判断所述指令是否完整，若完整，则对所述指令进行解码并输出指令内容。

优选地，所述基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列包括：

对所述文本序列进行词嵌入处理以获得字向量序列；

基于所述文本序列中每个字的位置信息以获得位置向量序列；

将所述字向量序列与所述位置向量序列通过多路自注意力机制提取每个字包含语义信息的表征向量序列。

优选地，将所述字向量序列与所述位置向量序列通过多层多路自注意力机制提取每个字包含语义信息的表征向量序列。

优选地，将所述字向量序列与所述位置向量序列通过多路自注意力机制提取每个字包含语义信息的表征向量序列包括：

将所述字向量序列与所述位置向量序列经过3种不同的线性变换，得到多路K(Key)，V(Value)，Q(Query)的矢量组合；

针对每一组K，V，Q，分别计算注意力；

将多路得到的注意力结果进行合并，并依次经过归一化、前向网络、以及进一步归一化，得到所述每个字包含语义信息的表征向量序列。

优选地，通过如下公式来编码所述文本序列中不同字的位置，得到所述位置向量：

其中，sin和cos函数波长不同，pos代表一个字在所述文本序列中的位置，i代表位置编码向量的维度，PE代表位置向量，d_model代表位置编码向量的总维度。

根据本发明第二方面实施例的语音交互处理方法，包括如下步骤：

根据上述任一实施例所述的语音指令识别方法对于用户的语音数据进行识别，得到指令内容；

根据所述指令内容向所述用户反馈与所述指令内容相对应的服务响应。

根据本发明第三方面实施例的语音指令识别装置，包括：

获取模块，用于获取用户的语音数据；

语音识别模块，用于通过语音识别将所述语音数据识别为文本序列；

自注意力模块，用于基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列；

分类器，用于对所述表征向量序列进行处理，得到意图信息和词槽；

确定模块，用于确定与所述意图信息对应的指令；

输出模块，用于通过所述词槽判断所述指令是否完整，若完整，则对所述指令进行解码，并输出指令内容。

根据本发明第四方面实施例的用于语音指令识别的电子设备，包括：

一个或多个处理器；

一个或多个存储器，其中存储了计算机可读代码，所述计算机可读代码当由所述一个或多个处理器执行时进行上述任一实施例所述的语音指令识别方法。

根据本发明第五方面实施例的计算机存储介质，其中存储了计算机可读代码，所述计算机可读代码当由一个或多个处理器执行时进行上述任一实施例所述的语音指令识别方法。

本发明的有益效果在于：

通过基于多路自注意力机制提取文本序列中每个字包含语义信息的表征向量序列，由于自注意力机制在对文本序列进行计算时没有状态的依赖能够很好的并行计算，因此该语音指令识别方法提升了语音指令识别的速度，进而减少了语音指令识别过程的耗时，同时也减少了语音指令识别过程中对计算资源的占用。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明实施例的语音指令识别的一种应用场景示意图；

图2为本发明实施例的语音指令识别方法的流程图；

图3为本发明实施例的语音指令识别装置的结构示意图；

图4为本发明实施例的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例仅用于说明本发明，但不用来限制本发明的范围。

可以理解的是，如本文所使用的，术语“模块””可以指代或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件，或者可以作为这些硬件组件的一部分。

可以理解的是，在本发明各实施例中，处理器可以是微处理器、数字信号处理器、微控制器等，和/或其任何组合。根据另一个方面，所述处理器可以是单核处理器，多核处理器等，和/或其任何组合。

如图1所示，根据本发明实施例的本申请技术方案的一种应用场景示意图，终端设备12可以获取用户11输入的语音数据，该语音数据用于请求相应的功能服务，通过本语音指令识别方法，可以使得该终端设备12得到指令内容以进一步根据指令内容向后台服务器13发送服务请求，进而使后台服务器13通过该终端设备12向用户11反馈相对应的服务响应，该终端设备12可以是智能服务机器人，比如，在医院的导诊台，导诊台的智能服务机器人可以获取病人的语音数据，通过本语音指令识别方法，可以使得该智能服务机器人得到指令内容以进一步根据指令内容向后台服务器13发送服务请求，进而使后台服务器13通过该智能服务机器人向病人反馈相对应的服务响应。

如图2所示，根据本发明实施例的语音指令识别方法，包括如下步骤：

步骤S1，获取用户的语音数据。

该语音数据可以是任意语句，例如该语音数据可以是“嗓子疼、发烧，帮我挂今天的号”

步骤S2，通过语音识别将所述语音数据识别为文本序列。

具体地，语音识别的方法可以为基于参数模型的隐马尔科夫模型的方法或基于非参数模型的矢量量化的方法，也可以为其它语音识别的方法。

步骤S3，基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列。

本实施例中，基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列包括：

步骤S31，对所述文本序列进行词嵌入处理以获得字向量序列。

词嵌入处理(Word Embedding)是将文本空间中的某个word，通过一定的方法，映射或者说嵌入(embedding)到另一个数值向量空间。Word Embedding的输入是原始文本中的一组不重叠的词汇，输出则是每个字的向量表示。词嵌入处理的类型通常包括：基于频率的Word Embedding(Frequency based embedding)和基于预测的Word Embedding(Prediction based embedding)。本实施例中，可以采用前述的任一种方式对所述文本序列进行词嵌入处理以获得字向量序列。

步骤S32，基于所述文本序列中每个字的位置信息以获得位置向量序列。

本实施例中，在通过自注意力层计算之前，可以先从从文本序列中获取每个字的位置信息，并将位置向量序列添加到字向量序列。

优选地，所述位置向量通过如下方法获取：

使用不同波长的sin和cos函数，通过如下公式来编码所述文本序列中不同字的位置，得到每个字的位置向量：

其中，pos代表一个字在所述文本序列中的位置，i代表位置编码向量的维度，PE代表位置向量，d_model代表位置编码向量的总维度。

步骤S33，将所述字向量序列与所述位置向量序列通过多路自注意力机制提取每个字包含语义信息的表征向量序列。

优选地，将字向量序列与位置向量序列通过多层多路自注意力机制提取每个字包含语义信息的表征向量序列。具体的，可以将字向量序列与位置向量序列通过若干层多路自注意力机制提取每个字包含语义信息的表征向量序列，举例来说，可以通过3层或6层的多路自注意力机制提取每个字包含语义信息的表征向量序列。

优选地，将字向量序列与位置向量序列通过多路自注意力机制提取每个字包含语义信息的表征向量序列包括：

步骤S331，将所述字向量序列与所述位置向量序列经过3种不同的线性变换，得到多路K(Key)，V(Value)，Q(Query)的矢量组合。

步骤S332，针对每一组K，V，Q，分别计算注意力。

其中，每一组K，V，Q按照如下公式计算注意力。

其中，d_k为k的维度。

步骤S333，将多路得到的注意力结果进行合并，并依次经过归一化、前向网络、以及进一步归一化，得到所述每个字包含语义信息的表征向量序列。

步骤S4，对所述表征向量序列进行处理，得到意图信息和词槽。

具体的，对每个字包含语义信息的表征向量序列进行处理，可以得到与文本序列相对应的意图信息及词槽，以上述语音数据为例做进一步举例说明，得到该语音数据的意图信息为挂号，词槽为症状(嗓子疼、发烧)、时间(今天)。

步骤S5，确定与所述意图信息对应的指令。

具体的，根据意图信息可以确定与该意图信息对应的指令，该指令可以包括意图字段和词槽字段，仍以上述语音数据为例做进一步举例说明，该语音数据的意图信息对应的指令的意图字段为挂号，词槽字段为症状(嗓子疼、发烧)、时间(今天)。

步骤S6，通过所述词槽判断所述指令是否完整，若完整，则对所述指令进行解码并输出指令内容。

具体的，确定指令是否完整是指确定该指令是否包括后台服务器13响应该指令所需的所有参数。举例而言，意图信息为挂号的指令，该指令需要包括两个词槽信息，分别为症状和时间。以上述语音数据为例做进一步举例说明，该语音数据包括了症状和时间两个词槽信息，因此该语音数据对应的指令是完整的，可以对指令进行解码并输出指令内容，以进一步向后台服务器13发送该指令对应的服务请求，后台服务器13根据服务请求向用户11反馈今天与嗓子疼、发烧的症状相对应的科室的医生的出诊信息。当指令不完整时，则可以向用户11反馈提示信息，使用户11提供缺少的词槽信息，例如，如果语音数据为“帮我挂今天的号”，则该语音数据缺少症状的词槽信息，则该语音数据对应的指令不完整，可以向用户11反馈“具有哪些症状”。

通过基于多路自注意力机制提取文本序列中每个字包含语义信息的表征向量序列，由于自注意力机制在对文本序列进行计算时没有状态的依赖能够很好的并行计算，因此该语音指令识别方法提升了语音指令识别的速度，进而减少了语音指令识别过程的耗时，同时减少了语音指令识别过程中对计算资源的占用。另外，对于在语音指令识别过程中，采用神经网络模型来对输入的文本序列进行识别以输出与该文本序列对应的指令内容而言，本实施例的采用多路自注意力机制提取文本序列中每个字包含语义信息的表征向量序列，也减少了神经网络模型训练过程的耗时和训练过程中对计算资源的占用。

本实施例还提供一种包括上述语音指令识别方法的语音交互处理方法，包括如下步骤：

具体的，根据指令内容向后台服务器13发送该指令对应的服务请求，后台服务器13根据服务请求向用户11反馈与指令内容相对应的服务响应。以上述语音数据为例做进一步举例说明，后台服务器13根据服务请求向用户反馈今天与嗓子疼、发烧的症状相对应的科室的医生的出诊信息。

该语音交互处理方法提升了智能语音交互处理的速度，减少了实际应用中语音交互处理的耗时，同时也减少了对计算资源的浪费。另外，对于在语音交互处理过程中，采用神经网络模型来对输入的文本序列进行识别以输出与该文本序列对应的指令内容而言，本实施例的采用多路自注意力机制提取文本序列中每个字包含语义信息的表征向量序列，也减少了神经网络模型训练过程的耗时和训练过程中对计算资源的浪费。

如图3所示，实现上述根据发明实施例的语音指令识别方法的根据本发明实施例的语音指令识别装置，包括获取模块30、语音识别模块40、自注意力模块50、分类器60、确定模块70和输出模块80。

其中，获取模块30，用于获取用户的语音数据。

语音识别模块40，用于通过语音识别将语音数据识别为文本序列。

自注意力模块50，用于基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列。

分类器60，用于对表征向量序列进行处理，得到意图信息和词槽；其中，分类器包括意图分类器和词槽标签分类器，表征向量序列输入意图分类器得到与文本序列相对应的意图信息，表征向量序列输入词槽标签分类器得到与文本序列相对应的词槽。

确定模块70，用于确定与意图信息对应的指令。

输出模块80，用于通过词槽判断所述指令是否完整，若完整，则对指令进行解码，并输出指令内容。

通过基于多路自注意力机制提取文本序列中每个字包含语义信息的表征向量序列，由于自注意力机制在对文本序列进行计算时没有状态的依赖能够很好的并行计算，因此该语音指令识别装置提升了语音指令识别的速度，进而减少了语音指令识别过程的耗时，同时也减少了语音指令识别过程中对计算资源的占用，或者说减少了语音指令识别过程中对计算资源的浪费。另外，在通过包括：自注意力模块50、分类器60和确定模块70的神经网络模型而言，采用自注意力模块50来提取文本序列中每个字包含语义信息的表征向量序列，也减少了神经网络模型训练过程的耗时和训练过程中对计算资源的浪费。

如图4所示，基于与上述语音指令识别方法相同的发明构思，本申请还提供一种电子设备1400，该电子设备1400包括一个或多个处理器1401和一个或多个存储器1402，存储器1402中存储了计算机可读代码，

其中，计算机可读代码当由一个或多个处理器1401执行时进行以下步骤：

获取用户的语音数据；

通过语音识别将所述语音数据识别为文本序列；

对所述表征向量序列进行处理，得到意图信息和词槽；

确定与所述意图信息对应的指令；

对所述文本序列进行词嵌入处理以获得字向量序列；

针对每一组K，V，Q，分别计算注意力；

优选地，所述位置向量通过如下方法获取：

使用不同波长的sin和cos函数，通过如下公式来编码所述文本序列中不同字的位置，得到所述位置向量：

进一步地，电子设备1400还包括网络接口1403、输入设备1404、硬盘1405、和显示设备1406。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器1401代表的一个或者多个中央处理器(CPU)，以及由存储器1402代表的一个或者多个存储器1402的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

网络接口1403，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘1405中。

输入设备1404，可以接收操作人员输入的各种指令，并发送给处理器1401以供执行。输入设备1404可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

显示设备1406，可以将处理器1401执行指令获得的结果进行显示。

存储器1402，用于存储操作系统14021运行所必须的程序和数据，以及处理器1401计算过程中的中间结果等数据。

可以理解，本申请实施例中的存储器1402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器1402旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器1402存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统14021和应用程序14014。

其中，操作系统14021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序14014，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序14014中。

本申请上述实施例揭示的方法可以应用于处理器1401中，或者由处理器1401实现。处理器1401可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1401可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1402，处理器1401读取存储器1402中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本申请实施例中，该电子设备1400通过基于多路自注意力机制提取文本序列中每个字包含语义信息的表征向量序列，由于自注意力机制在对文本序列进行计算时没有状态的依赖能够很好的并行计算，因此该用于语音指令识别的电子设备1400，提升了语音指令识别的速度，进而减少了语音指令识别过程的耗时，同时也减少了语音指令识别过程中对计算资源的占用，或者说减少了语音指令识别过程中对计算资源的浪费。

另外，本申请实施例还提供了一种计算机存储介质，所述非暂时性计算机存储介质存储了计算机可读代码，计算机可读代码当由一个或多个处理器执行时进行以下步骤：

获取用户的语音数据；

通过语音识别将所述语音数据识别为文本序列；

对所述表征向量序列进行处理，得到意图信息和词槽；

确定与所述意图信息对应的指令；

该计算机可读代码被处理器执行时实现上述语音指令识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再对详细的过程进行赘述。其中，所述的计算机存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(RandomAccess Memory，简称RAM)、磁碟或者光盘等。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音指令识别方法，其特征在于，包括如下步骤：

获取用户的语音数据；

通过语音识别将所述语音数据识别为文本序列；

对所述表征向量序列进行处理，得到意图信息和词槽；

确定与所述意图信息对应的指令；

2.根据权利要求1所述的语音指令识别方法，其特征在于，所述基于所述文本序列和多路自注意力机制提取所述文本序列中每个字包含语义信息的表征向量序列包括：

对所述文本序列进行词嵌入处理以获得字向量序列；

3.根据权利要求2所述的语音指令识别方法，其特征在于，将所述字向量序列与所述位置向量序列通过多层多路自注意力机制提取每个字包含语义信息的表征向量序列。

4.根据权利要求2所述的语音指令识别方法，其特征在于，将所述字向量序列与所述位置向量序列通过多路自注意力机制提取每个字包含语义信息的表征向量序列包括：

将所述字向量序列与所述位置向量序列经过3种不同的线性变换，得到多路K，V，Q的矢量组合；

针对每一组K，V，Q，分别计算注意力；

5.根据权利要求2～4任一项所述的语音指令识别方法，其特征在于，通过如下公式来编码所述文本序列中不同字的位置，得到所述位置向量：

6.一种语音交互处理方法，其特征在于，包括如下步骤：

根据权利要求1至5任一项所述的语音指令识别方法对于用户的语音数据进行识别，得到指令内容；

7.一种语音指令识别装置，其特征在于，包括：

获取模块，用于获取用户的语音数据；

确定模块，用于确定与所述意图信息对应的指令；

8.一种用于语音指令识别的电子设备，包括：

一个或多个处理器；

一个或多个存储器，其中存储了计算机可读代码，所述计算机可读代码当由所述一个或多个处理器执行时进行如权利要求1-5中任一项所述的语音指令识别方法。

9.一种计算机存储介质，其特征在于，其中存储了计算机可读代码，所述计算机可读代码当由一个或多个处理器执行时进行如权利要求1-5中任一项所述的语音指令识别方法。