CN113836945B

CN113836945B - 意图识别方法、装置、电子设备和存储介质

Info

Publication number: CN113836945B
Application number: CN202111119458.5A
Authority: CN
Inventors: 孙金辉; 李俊杰; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2024-04-16
Anticipated expiration: 2041-09-23
Also published as: WO2023045186A1; CN113836945A

Abstract

本申请涉及人工智能技术领域，具体公开了一种意图识别方法、装置、电子设备和存储介质，其中，意图识别方法包括：根据待识别语音，获取文字文本和拼音文本；将所述文字文本输入第一神经网络模型，得到语义特征；获取拼音向量表，其中，所述拼音向量表中包括标准拼音中的所有音素，且所述所有音素中的每个音素均对应一个拼音向量；根据所述拼音文本，在所述拼音向量表中进行匹配，得到语音特征；融合所述语义特征和所述语音特征，得到融合特征；将所述融合特征输入意图识别模型，得到所述待识别语音的意图识别结果。

Description

意图识别方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种意图识别方法、装置、电子设备和存储介质。

背景技术

智能语音客服系统已经广泛应用于各个行业中，如保险、银行、电信、电商等。通常而言，智能语音客服通过语音与用户进行交流，它采用包括自动语音识别(AutomaticSpeech Recognition，ASR)、自然语言理解(Natural Language Understanding，NLU)、从文本到语音(Text To Speech，TTS)等多项智能人机交互技术，能够识别用户以语音形式提出的问题，通过语义分析理解用户意图，并以拟人化的方式与用户沟通，向用户提供信息咨询等相关服务。具体而言，智能语音客服会话的核心是进行用户意图识别，明确用户意图后给出针对性的回答。

目前，智能语音客服系统对用户意图识别的主要方式为先通过ASR模块将用户语音转换为文本，再将转译文本输入NLU模块识别用户意图。其中，NLU模块普遍的做法是用业务标注数据在预训练语言模型上进行微调。但是，通常业务标注数据和预训练语言模型的数据都是文本数据，而线上数据则为ASR的转译文本，两者在数据分布上存在一定差异，由此，对意图识别准确率造成一定影响，使的意图识别的准确率较低。

发明内容

为了解决现有技术中存在的上述问题，本申请实施方式提供了一种意图识别方法、装置、电子设备和存储介质，可以在保证识别效率的同时，提升意图识别的准确率。

第一方面，本申请的实施方式提供了一种意图识别方法，包括：

根据待识别语音，获取文字文本和拼音文本；

将文字文本输入第一神经网络模型，得到语义特征；

获取拼音向量表，其中，拼音向量表中包括标准拼音中的所有音素，且所有音素中的每个音素均对应一个拼音向量；

根据拼音文本，在拼音向量表中进行匹配，得到语音特征；

融合语义特征和语音特征，得到融合特征；

将融合特征输入意图识别模型，得到待识别语音的意图识别结果。

第二方面，本申请的实施方式提供了一种意图识别装置，包括：

转化模块，用于根据待识别语音，获取文字文本和拼音文本；

特征提取模块，用于将文字文本输入第一神经网络模型，得到语义特征，获取拼音向量表，其中，拼音向量表中包括标准拼音中的所有音素，且所有音素中的每个音素均对应一个拼音向量，以及根据拼音文本，在拼音向量表中进行匹配，得到语音特征；

融合模块，用于融合语义特征和语音特征，得到融合特征；

识别模块，用于将融合特征输入意图识别模型，得到待识别语音的意图识别结果。

第三方面，本申请实施方式提供一种电子设备，包括：处理器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行如第一方面的方法。

第四方面，本申请实施方式提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行如第一方面的方法。

第五方面，本申请实施方式提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机可操作来使计算机执行如第一方面的方法。

实施本申请实施方式，具有如下有益效果：

在本申请实施方式中，根据待识别语音获取该语音对应的文字文本和拼音文本，继而根据文字文本提取该语音的语义特征，并通过查询拼音向量表的方式获取该语音的语音特征。然后，通过将语义特征和语音特征相融合，作为意图识别的输入。由此，相对于现有的意图识别方法，本申请在使用语义特征的基础上增加了表征发音特性的语音特征，从而使意图识别不再仅仅依赖于文字文本，提升了意图识别的准确率。同时，在本申请中可以通过预训练的方法得到每个拼音对应的语音特征向量，形成特定的语音向量表。从而，在实际使用中，语音特征可以通过查询该语音向量表得到，不会造成额外的计算量，也不会对模型时效性造成影响，保证了意图识别的效率。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式提供的一种意图识别装置的硬件结构示意图；

图2为本申请实施方式提供的一种意图识别方法的流程示意图；

图3为本申请实施方式提供的一种针对不同方言的语音识别方法的流程示意图；

图4为本申请实施方式提供的一种根据标准语音，获取文字文本和拼音文本的方法的流程示意图；

图5为本申请实施方式提供的一种对标准语音进行特征提取，获取音频特征的方法的流程示意图；

图6为本申请实施方式提供的一种根据拼音文本，在拼音向量表中进行匹配，得到语音特征的方法的流程示意图；

图7为本申请实施方式提供的一种意图识别装置的功能模块组成框图；

图8为本申请实施方式提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施方式”意味着，结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式，也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是，本文所描述的实施方式可以与其它实施方式相结合。

首先，参阅图1，图1为本申请实施方式提供的一种意图识别装置的硬件结构示意图。该意图识别装置100包括至少一个处理器101，通信线路102，存储器103以及至少一个通信接口104。

在本实施方式中，处理器101，可以是一个通用中央处理器(central processingunit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路102，可以包括一通路，在上述组件之间传送信息。

通信接口104，可以是任何收发器一类的装置(如天线等)，用于与其他设备或通信网络通信，例如以太网，RAN，无线局域网(wireless local area networks，WLAN)等。

存储器103，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

在本实施方式中，存储器103可以独立存在，通过通信线路102与处理器101相连接。存储器103也可以和处理器101集成在一起。本申请实施方式提供的存储器103通常可以具有非易失性。其中，存储器103用于存储执行本申请方案的计算机执行指令，并由处理器101来控制执行。处理器101用于执行存储器103中存储的计算机执行指令，从而实现本申请下述实施方式中提供的方法。

在可选的实施方式中，计算机执行指令也可以称之为应用程序代码，本申请对此不作具体限定。

在可选的实施方式中，处理器101可以包括一个或多个CPU，例如图1中的CPU0和CPU1。

在可选的实施方式中，该意图识别装置100可以包括多个处理器，例如图1中的处理器101和处理器107。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在可选的实施方式中，若意图识别装置100为服务器，例如，可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。则意图识别装置100还可以包括输出设备105和输入设备106。输出设备105和处理器101通信，可以以多种方式来显示信息。例如，输出设备105可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emittingdiode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备106和处理器101通信，可以以多种方式接收用户的输入。例如，输入设备106可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的意图识别装置100可以是一个通用设备或者是一个专用设备。本申请实施方式不限定意图识别装置100的类型。

其次，需要说明的是，本申请所公开的实施方式可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

以下，将对本申请所公开的意图识别方法进行说明：

参阅图2，图2为本申请实施方式提供的一种意图识别方法的流程示意图。该意图识别方法包括以下步骤：

201：根据待识别语音，获取文字文本和拼音文本。

在本实施方式中，待识别语音可以是用户输入的语音信息，具体可以表现为用户说出的一句话。同时，由于我国的地域广博，人口的迁移，山川地理的阻隔等造成了多样的社会、历史、地理环境上的差异，形成了多种多样的方言。方言虽然只是在一定的地域中通行，但本身却也有一种完整的系统。方言都具有语音结构系统、词汇结构系统和语法结构系统，能够满足本地区社会交际的需要。同一个民族的各种地方方言是这个民族的共同语，一般总是表现出“同中有异、异中有同”的语言特点。一般情况下，民族共同语总是在一个方言的基础上发展起来的。

根据性质，方言可分地域方言和社会方言，地域方言是语言因地域方面的差别而形成的变体，是全民语言的不同地域上的分支，是语言发展不平衡性在地域上的反映。社会方言是同一地域的社会成员因为在职业、阶层、年龄、性别、文化教养等方面的社会差异而形成不同的社会变体。同时，方言作为我国宝贵的文化，其也存在着使用范围广，种类多等特点。

基于此，本申请提出了一种针对不同方言的语音识别方法，可以将各类方言精准的转化为文字文本和拼音文本，提高了意图识别的适用范围。具体而言，如图3所示，该方法包括：

301：获取待识别语音的声学特征。

在本实施方式中，可以预先训练一个声学模型，例如：多层长短期记忆网络、多层卷积神经网络等。由此，通过将待识别语音输入该声学模型，提取该待识别语音的声学特征。示例性的，声学特征可以包括该待识别语音的特征序列、该待识别语音中音素的后验概率分布、以及该待识别语音的声学向量。

具体而言，可以将声学模型中低层网络的输出作为该待识别语音的特征序列，高层网络的输出作为该待识别语音的声学向量。该待识别语音中音素的后验概率分布指代该待识别语音中各个音素被识别为不同音素的概率。

302：根据声学特征，确定待识别语音的方言类别。

在本实施方式中，获取待识别语音的声学特征后，可以将该声学特征和方言特征库中保存的各类声学特征1比对，例如计算相似度。从而确定该待识别语音的方言类别。

303：获取方言类别对应的音频转置公式，通过音频转置公式将待识别语音转化为标准语音。

在本实施方式中，音频转置公式用于标识对应的方言发音与普通话发音之间的转化特征。具体而言，通过该方言转置公式，可以将方言语音转化为对应的普通话语音，即本申请中提到的标准语音。

在本实施方式中，可以通过采集海量的不同方言但同内容的文本，通过训练的方式确定不同方言相对于普通话之间的差异和规律，例如：发音上的差异和规律、语气上的差异和规律、专有词汇的对应关系等，继而形成不同方言转化为普通话的音频转置公式。

304：根据标准语音，获取文字文本和拼音文本。

在本实施方式中，提出了一种根据标准语音，获取文字文本和拼音文本的方法，如图4所示，该方法包括：

401：对标准语音进行特征提取，获取音频特征。

在本实施方式中，音频特征提取可以包括频谱转化、非线性频谱转换、以及特征系数转换。同时，音频特征可以是与该标准语音对应的听觉临界频带尺下的度映射，例如：该标准语音在Bark域下的映射，以及该标准语音在等效矩形带宽(Equivalent RectangularBandwidth，ERB)域下的映射，通过音频特征可以将标准语音的音频特征进行量化表示。

具体而言，本申请提出了一种对标准语音进行特征提取，获取音频特征的方法，如图5所示，该方法包括：

501：根据拼音音节对标准语音进行拆分处理，得到至少一个子音频。

在本实施方式中，拼音音节指由音素(包含辅音和元音)组合发音的语音单位，拼音语言的音节是由辅音和元音组合发音，同时，能单独发音的元音也可以是一个音节。通常而言，拼音音节共有402个，记录于音节表中。在本实施方式中，可以通过查表的方式，确定标准语音中所包含的音节，并根据音节对标准语音进行拆分处理，得到至少一个子音频。

502：分别根据频谱转换规则对至少一个子音频中的每个子音频进行频谱转化，得到至少一个音频频谱。

在本实施方式中，该至少一个音频频谱与至少一个子音频一一对应。示例性的，首先可以根据频谱转换规则对得到的每个子音频进行快速傅里叶变换(Fast Fouriertransform，FFT)，然后将变换后的每个子音频旋转90度，得到与每个子音频对应的音频频谱，在音频频谱中的频谱表示频率与能量的关系。

503：分别将至少一个音频频谱中的每个音频频谱进行非线性频谱变换，得到至少一个非线性频谱。

在本实施方式中，该至少一个非线性频谱与至少一个音频频谱一一对应。示例性的，可以根据频率转换公式，将以线性方式表示的音频频谱转换为非线性频谱，从而为进一步凸显标准语音中的声音特征。

具体而言，频率转换公式可以通过公式①进行表示：

其中，F_hz为每个音频频谱的频率值。

在可选的实施方式中，频率转换公式可以通过公式②进行表示：

在可选的实施方式中，频率转换公式可以通过公式③进行表示：

504：分别对至少一个非线性频谱中的每个非线性频谱进行离散余弦变化，得到至少一个特征系数。

在本实施方式中，该至少一个特征系数与至少一个非线性频谱一一对应。示例性的，可以对所得到的每个非线性频谱进行离散余弦变化，将进行离散余弦变后的每个非线性频谱的第2个至第16个系数进行组合，以得到与每个非线性频谱对应的特征系数。具体而言，每个非线性频谱可对应获取一个15维度的特征系数。

505：根据至少一个特征系数与至少一个子音频之间的对应关系，将至少一个特征系数，按照至少一个子音频在标准语音中的位置关系进行排列，得到音频特征。

示例性的，在标准语音被分割后，可以得到子音频流：子音频1、子音频2、子音频3和子音频4，即，各个子音频在标准语音中的排列顺序为：子音频1、子音频2、子音频3、子音频4。经过特征提取后，子音频1对应的特征系数为特征系数A，子音频2对应的特征系数为特征系数B，子音频3对应的特征系数为特征系数C，子音频4对应的特征系数为特征系数D。基于此，根据对应关系，将各个特征系数按照其对应的子音频在标准语音中的排序，即：子音频1、子音频2、子音频3、子音频4的顺序进行排列，即可得到音频特征：特征系数A、特征系数B、特征系数C、特征系数D。

402：根据音频特征在预设的第二神经网络中进行匹配，得到与音频特征相匹配的拼音文本。

在本实施方式中，拼音文本由至少一个第一拼音元文本组成，第一拼音元文本指任意一个声母或韵母。同时，第二神经网络为由至少一个第二拼音元文本组成的神经网络，至少一个第二拼音元文本中的每个第二拼音元文本均对应至少一个字符和一个标准音频特征。由此，通过确定音频特征是否包含第二神经网络中的各个第二拼音元文本对应的标准音频特征，即可确定该音频特征对应的标准音频特征的组合，继而根据标准音频特征与第二拼音元文本之间的对应关系，得到音频特征对应的拼音文本。

403：分别根据拼音文本中至少一个第一拼音元文本中的每个第一拼音元文本，在第二神经网络中进行匹配，得到至少一个第一字符。

在本实施方式中，至少一个第一字符与至少一个第一拼音元文本一一对应。同时，如上所述，第二神经网络为由至少一个第二拼音元文本组成的神经网络，至少一个第二拼音元文本中的每个第二拼音元文本均对应至少一个字符和一个标准音频特征。

基于此，在本实施方式中，可以根据每个第一拼音元文本，在第二神经网络中，确定第三拼音元文本。其中，第三拼音元文本为至少一个第二拼音元文本中的任意一个，且第三拼音元文本和每个第一拼音元文本相同。然后，获取第三拼音元文本对应的至少一个字符，并确定标准语音的语音场景，并获取语音场景对应的常用字典。最后，根据常用字典，在至少一个字符中，确定第一字符。

示例性的，在第二神经网络中，第二拼音元文本“dai”可以对应字符“待”、“带”、“代”、“呆”和“贷”共五个字符。此时，若确定标准语音的语音场景为银行-业务办理场景，则获取该场景的常用字典。经过查询，在该场景下第二拼音元文本“dai”对应的常用字为“贷”和“待”，基于此，在第二拼音元文本“dai”对应的5个字符中，字符“贷”和“待”与银行-业务办理场景的契合度最高，可将字符“贷”和“待”作为候选字符。

由此，分别确定标准语音中每个第一拼音元文本对应的候选字符，继而将两两相邻的两个第一拼音元文本对应的候选字符分别进行组合，并对组合后的字符串进行语义分析，以确定组合出的字符串是否具有一定的语义，以及具有语义的字符串与当前场景是否契合。示例性的，若某一第一拼音元文本为“dai”，其对应的候选字符为“贷”和“待”。与该第一拼音元文本右相邻第一拼音元文本为“kuan”，其对应的候选字符为“款”和“宽”。基于此，将两者对应的候选字符分别进行组合，得到字符串“贷款”、“贷宽”、“待款”和“待宽”。经过语义分析后，字符串“贷款”在具有一定的语义的同时，该语义也契合当前的银行-业务办理场景。基于此，可以确定字符“贷”和“款”分别为各自对应的第一拼音元文本的第一字符。

404：根据至少一个第一字符和至少一个第一拼音元文本之间的对应关系，将至少一个第一字符，按照至少一个第一拼音元文本在拼音文本中的排列顺序进行排列，得到文字文本。

202：将文字文本输入第一神经网络模型，得到语义特征。

在本实施方式中，该第一神经网络可以是Bert神经网络。具体而言，可以通过Bert神经网络分别对文字文本中的每个字符进行语义识别，得到每个字符对应的语义向量R^z，再将每个字符对应的语义向量R^z按照每个字符在文字文本中的位置进行组合，即可得到文字文本的语义特征。

203：获取拼音向量表。

在本实施方式中，拼音向量表中包括标准拼音中的所有音素，且所有音素中的每个音素均对应一个拼音向量。具体而言，首先，可以将通用数据集转化为拼音数据集，其中，拼音数据集中包括标准拼音中的所有音素。然后，将拼音数据集输入声频预测网络Tacotron2，使用Tacotron2的编码层得到每个音素对应的拼音向量并保存为预训练拼音向量表P。

204：根据拼音文本，在拼音向量表中进行匹配，得到语音特征。

在本实施方式中，提供了一种根据拼音文本，在拼音向量表中进行匹配，得到语音特征的方法，如图6所示，该方法包括：

601：将拼音文本划分为至少一个第一音素。

602：分别根据至少一个第一音素中的每个第一音素，在拼音向量表中进行匹配，得到至少一个第一拼音向量。

在本实施方式中，至少一个第一拼音向量与至少一个第一音素一一对应。简单而言，即，将每个第一音素从保存的预训练拼音向量表P中查表，得到每个第一音素对应的语音特征向量R^p。

603：将至少一个第一拼音向量，按照至少一个第一音素中的每个第一音素在拼音文中的位置进行拼接，得到语音特征。

由此，在实际使用中，语音特征可以通过查询该语音向量表得到，不会造成额外的计算量，也不会对模型时效性造成影响，保证了意图识别的效率。

205：融合语义特征和语音特征，得到融合特征。

在本实施方式中，将语义特征和语音特征进行特征融合后，可以得到既包含语义信息又包含语音信息的融合特征向量R。具体的融合公式通过公式④表示：

R＝W₁R^z+W₂R^p.........④

其中，W₁和W₂为可训练的参数矩阵。

206：将融合特征输入意图识别模型，得到待识别语音的意图识别结果。

在本实施方式中，可以将融合特征向量R经过全连接层和softmax得到最终输出的意图识别结果。

综上所述，本发明所提供的意图识别方法中，根据待识别语音获取该语音对应的文字文本和拼音文本，继而根据文字文本提取该语音的语义特征，并通过查询拼音向量表的方式获取该语音的语音特征。然后，通过将语义特征和语音特征相融合，作为意图识别的输入。由此，相对于现有的意图识别方法，本申请在使用语义特征的基础上增加了表征发音特性的语音特征，从而使意图识别不再仅仅依赖于文字文本，提升了意图识别的准确率。同时，在本申请中可以通过预训练的方法得到每个拼音对应的语音特征向量，形成特定的语音向量表。从而，在实际使用中，语音特征可以通过查询该语音向量表得到，不会造成额外的计算量，也不会对模型时效性造成影响，保证了意图识别的效率。

参阅图7，图7为本申请实施方式提供的一种意图识别装置的功能模块组成框图。如图7所示，该意图识别装置700包括：

转化模块701，用于根据待识别语音，获取文字文本和拼音文本；

特征提取模块702，用于将文字文本输入第一神经网络模型，得到语义特征，获取拼音向量表，其中，拼音向量表中包括标准拼音中的所有音素，且所有音素中的每个音素均对应一个拼音向量，以及根据拼音文本，在拼音向量表中进行匹配，得到语音特征；

融合模块703，用于融合语义特征和语音特征，得到融合特征；

识别模块704，用于将融合特征输入意图识别模型，得到待识别语音的意图识别结果。

在本发明的实施方式中，在根据待识别语音，获取文字文本和拼音文本方面，转化模块701，具体用于：

获取待识别语音的声学特征；

根据声学特征，确定待识别语音的方言类别；

获取方言类别对应的音频转置公式，通过音频转置公式将待识别语音转化为标准语音，其中，音频转置公式用于标识对应的方言发音与普通话发音之间的转化特征；

根据标准语音，获取文字文本和拼音文本。

在本发明的实施方式中，在根据标准语音，获取文字文本和拼音文本方面，转化模块701，具体用于：

对标准语音进行特征提取，获取音频特征；

根据音频特征在预设的第二神经网络中进行匹配，得到与音频特征相匹配的拼音文本，其中，拼音文本由至少一个第一拼音元文本组成，第一拼音元文本指任意一个声母或韵母；

分别根据拼音文本中至少一个第一拼音元文本中的每个第一拼音元文本，在第二神经网络中进行匹配，得到至少一个第一字符，其中，至少一个第一字符与至少一个第一拼音元文本一一对应；

根据至少一个第一字符和至少一个第一拼音元文本之间的对应关系，将至少一个第一字符，按照至少一个第一拼音元文本在拼音文本中的排列顺序进行排列，得到文字文本。

在本发明的实施方式中，在对标准语音进行特征提取，获取音频特征方面，转化模块701，具体用于：

根据拼音音节对标准语音进行拆分处理，得到至少一个子音频；

分别根据频谱转换规则对至少一个子音频中的每个子音频进行频谱转化，得到至少一个音频频谱，其中，至少一个音频频谱与至少一个子音频一一对应；

分别将至少一个音频频谱中的每个音频频谱进行非线性频谱变换，得到至少一个非线性频谱，其中，至少一个非线性频谱与至少一个音频频谱一一对应；

分别对至少一个非线性频谱中的每个非线性频谱进行离散余弦变化，得到至少一个特征系数，其中，至少一个特征系数与至少一个非线性频谱一一对应；

根据至少一个特征系数与至少一个子音频之间的对应关系，将至少一个特征系数，按照至少一个子音频在标准语音中的位置关系进行排列，得到音频特征。

在本发明的实施方式中，第二神经网络为由至少一个第二拼音元文本组成的神经网络，至少一个第二拼音元文本中的每个第二拼音元文本均对应至少一个字符和一个标准音频特征。

基于此，在分别根据每个第一拼音元文本在第二神经网络中进行匹配，得到至少一个第一字符方面，转化模块701，具体用于：

根据每个第一拼音元文本，在第二神经网络中，确定第三拼音元文本，其中，第三拼音元文本为至少一个第二拼音元文本中的任意一个，且第三拼音元文本和每个第一拼音元文本相同；

获取第三拼音元文本对应的至少一个字符；

确定标准语音的语音场景，并获取语音场景对应的常用字典；

根据常用字典，在至少一个字符中，确定第一字符。

在本发明的实施方式中，在获取拼音向量表方面，特征提取模块702，具体用于：

将通用数据集转化为拼音数据集，其中，拼音数据集中包括标准拼音中的所有音素；

将拼音数据集输入声频预测网络，得到所有音素中每个音素对应的拼音向量；

将所有音素中每个音素对应的拼音向量保存为拼音向量表。

在本发明的实施方式中，在根据拼音文本，在拼音向量表中进行匹配，得到语音特征方面，特征提取模块702，具体用于：

将拼音文本划分为至少一个第一音素；

分别根据至少一个第一音素中的每个第一音素，在拼音向量表中进行匹配，得到至少一个第一拼音向量，其中，至少一个第一拼音向量与至少一个第一音素一一对应；

将至少一个第一拼音向量，按照至少一个第一音素中的每个第一音素在拼音文中的位置进行拼接，得到语音特征。

参阅图8，图8为本申请实施方式提供的一种电子设备的结构示意图，该电子设备800设置于用户终端中。如图8所示，电子设备800包括收发器801、处理器802和存储器803。它们之间通过总线804连接。存储器803用于存储计算机程序和数据，并可以将存储器803存储的数据传输给处理器802。

处理器802用于读取存储器803中的计算机程序执行以下操作：

根据待识别语音，获取文字文本和拼音文本；

将文字文本输入第一神经网络模型，得到语义特征；

根据拼音文本，在拼音向量表中进行匹配，得到语音特征；

融合语义特征和语音特征，得到融合特征；

在本发明的实施方式中，在根据待识别语音，获取文字文本和拼音文本方面，处理器802，具体用于执行以下操作：

获取待识别语音的声学特征；

根据声学特征，确定待识别语音的方言类别；

根据标准语音，获取文字文本和拼音文本。

在本发明的实施方式中，在根据标准语音，获取文字文本和拼音文本方面，处理器802，具体用于执行以下操作：

对标准语音进行特征提取，获取音频特征；

在本发明的实施方式中，在对标准语音进行特征提取，获取音频特征方面，处理器802，具体用于执行以下操作：

基于此，在分别根据每个第一拼音元文本在第二神经网络中进行匹配，得到至少一个第一字符方面，处理器802，具体用于执行以下操作：

获取第三拼音元文本对应的至少一个字符；

根据常用字典，在至少一个字符中，确定第一字符。

在本发明的实施方式中，在获取拼音向量表方面，处理器802，具体用于执行以下操作：

将所有音素中每个音素对应的拼音向量保存为拼音向量表。

在本发明的实施方式中，在根据拼音文本，在拼音向量表中进行匹配，得到语音特征方面，处理器802，具体用于执行以下操作：

将拼音文本划分为至少一个第一音素；

应理解，本申请中的意图识别装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)、机器人或穿戴式设备等。上述意图识别装置仅是举例，而非穷举，包含但不限于上述意图识别装置。在实际应用中，上述意图识别装置还可以包括：智能车载终端、计算机设备等等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。

因此，本申请实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种意图识别方法的部分或全部步骤。例如，所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。

本申请实施方式还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种意图识别方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施方式均属于可选的实施方式，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施方式中，对各个实施方式的描述都各有侧重，某个实施方式中没有详述的部分，可以参见其他实施方式的相关描述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施方式进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施方式的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种意图识别方法，其特征在于，所述方法包括：

根据待识别语音，获取文字文本和拼音文本；

将所述文字文本输入第一神经网络模型，得到语义特征；

将通用数据集转化为拼音数据集，其中，所述拼音数据集中包括标准拼音中的所有音素；将所述拼音数据集输入声频预测网络，得到所述所有音素中每个音素对应的拼音向量；将所述所有音素中每个音素对应的拼音向量保存为拼音向量表，其中，所述拼音向量表中包括标准拼音中的所有音素，且所述所有音素中的每个音素均对应一个拼音向量；

将所述拼音文本划分为至少一个第一音素；

分别根据所述至少一个第一音素中的每个第一音素，在所述拼音向量表中进行匹配，得到至少一个第一拼音向量，其中，所述至少一个第一拼音向量与所述至少一个第一音素一一对应；

将所述至少一个第一拼音向量，按照所述至少一个第一音素中的每个第一音素在所述拼音文中的位置进行拼接，得到语音特征；

融合所述语义特征和所述语音特征，得到融合特征；

将所述融合特征输入意图识别模型，得到所述待识别语音的意图识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据待识别语音，获取文字文本和拼音文本，包括：

获取所述待识别语音的声学特征；

根据所述声学特征，确定所述待识别语音的方言类别；

获取所述方言类别对应的音频转置公式，通过所述音频转置公式将所述待识别语音转化为标准语音，其中，所述音频转置公式用于标识对应的方言发音与普通话发音之间的转化特征；

根据所述标准语音，获取所述文字文本和拼音文本。

3.根据权利要求2所述的方法，其特征在于，所述根据所述标准语音，获取所述文字文本和拼音文本，包括：

对所述标准语音进行特征提取，获取音频特征；

根据所述音频特征在预设的第二神经网络中进行匹配，得到与所述音频特征相匹配的所述拼音文本，其中，所述拼音文本由至少一个第一拼音元文本组成，所述第一拼音元文本指任意一个声母或韵母；

分别根据所述拼音文本中至少一个第一拼音元文本中的每个第一拼音元文本，在所述第二神经网络中进行匹配，得到至少一个第一字符，其中，所述至少一个第一字符与所述至少一个第一拼音元文本一一对应；

根据所述至少一个第一字符和所述至少一个第一拼音元文本之间的对应关系，将所述至少一个第一字符，按照所述至少一个第一拼音元文本在所述拼音文本中的排列顺序进行排列，得到所述文字文本。

4.根据权利要求3所述的方法，其特征在于，所述对所述标准语音进行特征提取，获取音频特征，包括：

根据拼音音节对所述标准语音进行拆分处理，得到至少一个子音频；

分别根据频谱转换规则对所述至少一个子音频中的每个子音频进行频谱转化，得到至少一个音频频谱，其中，所述至少一个音频频谱与所述至少一个子音频一一对应；

分别将所述至少一个音频频谱中的每个音频频谱进行非线性频谱变换，得到至少一个非线性频谱，其中，所述至少一个非线性频谱与所述至少一个音频频谱一一对应；

分别对所述至少一个非线性频谱中的每个非线性频谱进行离散余弦变化，得到至少一个特征系数，其中，所述至少一个特征系数与所述至少一个非线性频谱一一对应；

根据所述至少一个特征系数与所述至少一个子音频之间的对应关系，将所述至少一个特征系数，按照所述至少一个子音频在所述标准语音中的位置关系进行排列，得到所述音频特征。

5.根据权利要求3或4所述的方法，其特征在于，

所述第二神经网络为由至少一个第二拼音元文本组成的神经网络，所述至少一个第二拼音元文本中的每个第二拼音元文本均对应至少一个字符和一个标准音频特征；

所述分别根据所述拼音文本中至少一个第一拼音元文本中的每个第一拼音元文本，在所述第二神经网络中进行匹配，得到至少一个第一字符，包括：

根据所述每个第一拼音元文本，在所述第二神经网络中，确定第三拼音元文本，其中，所述第三拼音元文本为所述至少一个第二拼音元文本中的任意一个，且所述第三拼音元文本和所述每个第一拼音元文本相同；

获取所述第三拼音元文本对应的至少一个字符；

确定所述标准语音的语音场景，并获取所述语音场景对应的常用字典；

根据所述常用字典，在所述至少一个字符中，确定所述第一字符。

6.一种意图识别装置，其特征在于，所述装置包括：

特征提取模块，用于将所述文字文本输入第一神经网络模型，得到语义特征，将通用数据集转化为拼音数据集，其中，所述拼音数据集中包括标准拼音中的所有音素；将所述拼音数据集输入声频预测网络，得到所述所有音素中每个音素对应的拼音向量；将所述所有音素中每个音素对应的拼音向量保存为拼音向量表，其中，所述拼音向量表中包括标准拼音中的所有音素，且所述所有音素中的每个音素均对应一个拼音向量，以及将所述拼音文本划分为至少一个第一音素；分别根据所述至少一个第一音素中的每个第一音素，在所述拼音向量表中进行匹配，得到至少一个第一拼音向量，其中，所述至少一个第一拼音向量与所述至少一个第一音素一一对应；将所述至少一个第一拼音向量，按照所述至少一个第一音素中的每个第一音素在所述拼音文中的位置进行拼接，得到语音特征；

融合模块，用于融合所述语义特征和所述语音特征，得到融合特征；

识别模块，用于将所述融合特征输入意图识别模型，得到所述待识别语音的意图识别结果。

7.一种电子设备，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述一个或多个程序包括用于执行权利要求1-5任一项方法中的步骤的指令。

8.一种可读计算机存储介质，其特征在于，所述可读计算机存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-5任一项所述的方法。