CN114330371A

CN114330371A - 基于提示学习的会话意图识别方法、装置和电子设备

Info

Publication number: CN114330371A
Application number: CN202111600147.0A
Authority: CN
Inventors: 马达标; 张常睿; 张依桐; 李蒙; 叶峰
Original assignee: Beihai Qicheng Information Technology Co ltd
Current assignee: Beihai Qiang Information Technology Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12

Abstract

本发明公开了一种基于提示学习的会话意图识别方法、装置、电子设备和计算机可读介质。所述方法对会话语音进行语音识别和音频隐特征提取，得到与会话语音对应的会话文本和音频隐特征；并根据所述会话文本与音频隐特征之间的关联性建立提示；以及利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型，并使用所述机器学习模型对新会话语音的会话文本、音频隐特征和提示进行处理以识别该新会话语音的会话意图。由于本发明采用了基于预训练模型的提示学习和自监督训练，将会话语音的音频隐特征引入意图识别中，因此本发明能够提高意图识别的准确率。

Description

基于提示学习的会话意图识别方法、装置和电子设备

技术领域

本发明涉及自然语言理解领域，具体而言，涉及一种基于提示学习的会话意图识别方法、装置、电子设备及计算机可读介质。

背景技术

随着word2vec、GPT、BERT等模型的出现，NLP(自然语言处理)技术的研究和应用越来越以预训练语言模型为中心。现有技术中已提出通过建立预训练模型实现型会话的意图识别。采用预训练模型进行意图识别时，通常是将会话文本输入预训练模型中生成文本隐特征，再将文本隐特征输入意图识别模型中获得会话意图。

图1是一种现有的意图识别方法的流程图。如图1所示，音频经过自动语音识别(ASR)技术识别成文本，文本经过预训练模型，抽取出隐特征，此时隐特征包含此文本的复杂抽象特征，在此称为文本隐特征，文本隐特征进入到意图识别模型，输出意图预测结果。可见，现有的方法只用到了文本信息。

但是，由于预训练模型是由大量文本数据训练得到的，从来没有使用过其他类型的特征，当文本错误或不准确时，这使得预训练模型输出的文本隐特征不能准确反映会话人的真实意图，使得会话意图的识别准确率降低。如何得到一个音频解码器，使得其输出的音频隐特征可以被预训练模型理解和接受，是目前亟待解决的问题。

发明内容

本发明旨在解决现有的会话识别方法单纯基于会话文本的预训练模型造成的意图识别准确率不高的问题。

为了解决上述技术问题，本发明第一方面提出一种基于提示学习的会话意图识别方法，包括：对会话语音进行语音识别和音频隐特征提取，得到与会话语音对应的会话文本和音频隐特征；根据所述会话文本与音频隐特征之间的关联性建立提示；利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型，并使用所述机器学习模型对新会话语音的会话文本、音频隐特征和提示进行处理以识别该新会话语音的会话意图。

根据本发明的一种优选实施方式，对会话语音进行音频隐特征提取是使用基于神经网络算法的音频编码器提取该会话语音的音频隐特征。

根据本发明的一种优选实施方式，所述进行意图识别的机器学习模型包括所述音频编码器，还包括预训练模型和意图识别模型；所述预训练模型用于根据会话文本、音频隐特征、提示生成用于意图识别的文本隐特征；所述意图识别模型用于根据所述文本隐特征生成会话意图。

根据本发明的一种优选实施方式，所述利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型包括：建立包括会话文本、音频隐特征、提示和意图的训练数据集；使所述预训练模型保持固定，使用所述训练数据集中的会话文本、音频隐特征和提示，进行自监督的提示学习训练所述音频编码器。

根据本发明的一种优选实施方式，所述利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型包括：使所述音频编码器和预训练模型保持固定，使用训练数据集训练所述意图识别模型。

根据本发明的一种优选实施方式，所述建立训练数据集的步骤包括：对历史会话语音进行语音识别和音频隐特征提取，得到与历史会话语音对应的会话文本和音频隐特征；根据历史会话的文本与音频隐特征之间的关联性建立提示。

根据本发明的一种优选实施方式，所述提示包括“等价于”、“意思是”、“表达的意思是”、“相当于”中的任一个或其近义词。

为了解决上述技术问题，本发明第二方面提出一种会话意图识别装置，所述装置包括：提取模块，用于对会话语音进行语音识别和音频隐特征提取，得到与会话语音对应的会话文本和音频隐特征；提示生成模块，用于根据所述会话文本与音频隐特征之间的关联性建立提示；意图识别模块，用于利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型，并使用所述机器学习模型对新会话语音的会话文本、音频隐特征和提示进行处理以识别该新会话语音的会话意图。

根据本发明的一种优选实施方式，数据集建立子模块，用于建立包括会话文本、音频隐特征、提示和意图的训练数据集；音频编码器训练子模块；使所述预训练模型保持固定，使用所述训练数据集中的会话文本、音频隐特征和提示，进行自监督的提示学习训练所述音频编码器。

根据本发明的一种优选实施方式，意图识别模块模型训练子模块，用于使所述音频编码器和预训练模型保持固定，使用训练数据集训练所述意图识别模型。

为了解决上述技术问题，本发明第三方面提出一种电子设备，其包括处理器以及存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行上述的方法。

为了解决上述技术问题，本发明第四方面提出一种计算机可读存储介质，该所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现上述的方法。

由于本发明采用了基于预训练模型的提示学习和自监督训练，将会话语音的音频隐特征引入意图识别中，因此本发明能够提高意图识别的准确率。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明的示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是一种现有的意图识别方法的流程图；

图2是本发明的基于提示学习意图识别方法的流程示意图；

图3是本发明的音频编码器的训练流程图；

图4是本发明的基于提示学习意图识别方法的一个具体实施例的流程图；

图5是本发明的一个实施例的训练机器学习模型的方法的流程图；

图6是本发明的一个实施例的基于提示学习的会话意图识别装置的模块示意图；

图7是本发明的一个具体实施例的意图识别模块的子模块构成图；

图8是根据本发明的一种电子设备的示例性实施例的结构框图；

图9是本发明的一个计算机可读介质实施例的示意图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例，虽然各示例性实施例能够以多种具体的方式实施，但不应理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例是为了使本发明的内容更加完整，更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

如前所述，传统人机交互中使用的会话识别方法是基于纯文本的，会话语音与所识别的文本出现偏差，将很大程度上影响对于意图的识别准确度。为了解决该问题，本发明提出了进一步来利用会话语音的音频信息来弥补纯文本信息的不足，增强意图识别的准确性。

为了引入会话语音的音频信息，本发明使用音频编码器来对会话语音进行处理，以获得会话语音的隐特征。所谓的“隐特征”是指不能够直接获取的隐性特征，与能够直接获取的显性特征是相对概念。例如，停顿是韵律词边界的显性特征，能够直接得到韵律词边界处有停顿，但是韵律词边界与声学特征之间关系不能直接获取，是韵律词边界的隐特征。其它的音频隐特征例如对数梅尔谱图、局部二值模式、梯度直方图等特征。

本发明不限于生成音频隐特征的具体音频编码器，但优选为采用基于神经网络的音频编码器。例如可采用基于卷积神经网络的音频编码器。具本实现时，可首先对声音信号进行预处理和离散傅里叶变换，计算声音信号的幅度谱，形成二维谱图信号，通过训练好的卷积神经网络计算，得到输出即为所要生成的音频隐特征。

在意图识别时，当获得了会话语音之后，需要将该会话语音先转化为文本，这种转化过程常称为ASR技术，即自动语音识别(Automatic Speech Recognition)。现有技术中已存在各种成熟的ASR技术，本发明可以直接采用，故在此对ASR技术不再详细说明。

如前所述，通过ASR得到了会话语音的文本之后，该文本并不总是很准确的，其可能会出现一定的错误，由此导至基于纯文本的意图识别产生偏差。为此，本发明提出将音频隐特征与文本进行结合，采用预训练模型并结合自监督的提示学习的方法。

本发明中所谓的预训练模型是指预训练语言模型(PLMs，Pre-trained LanguageModels)，是一种通过收集大量文本数据进行自监督学习，来获得复杂且丰富文本信息的模型。本发明不限于具体采用的预训练模型，例如BERT(Bidirectional EncoderRepresentations from Transformers)、GPT-2(Gererate Pre-Training Model)等。而所谓的自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。也就是说，自监督学习的监督信息不是人工标注的，而是算法在大规模无监督数据中自动构造监督信息，来进行监督学习或训练。

本发明中采用的预训练模型是训练好的NLP模型，其训练数据来自各个领域的文本数据，具有很强的信息抽取能力。但是，由于预训练模型是由文本数据训练得到的，从来没有音频数据参与到其中，如何得到一个音频解码器，使得其输出的音频隐特征可以被预训练模型理解和接受，是本发明解决技术问题的一个关键点。为了解决该问题，本发明采用了一种称为“提示学习”的方法。

本发明中所称的“提示学习(Prompt Learning)”是一种使用预训练模型的具体方式，可用于小样本学习或者多模态学习。“提示(Prompt)”是指一段用于提示模型想让它干什么的描述。例如在一个NLP(自然语言处理)的预训练模型中，输入一段语句，再加上“翻译”或者“问答”这样的“提示”，那么模型会生成相应的结果。提示学习的基本思想是，希望找到合适的“提示”，使得预训练模型可以正确的意识到提示两端之间的关系。

图2是本发明的基于提示学习意图识别方法的流程示意图。相比于图1所示的现有技术的方法，本发明的方法多了一个音频编码器，该音频编码器将会话语音音频的隐特征抽取出来输送给预训练模型，这样预训练模型将会接收到会话文本和音频隐特征的双重信息，预训练模型通过自监督的提示学习之后，能够很好地理解和接受音频隐特征信息，由此输出文本隐特征信息作为意图识别模型的输入，并最终得到识别的意图。

图3是本发明的音频编码器的训练流程图。如图3所示，首先，训练数据集中的训练数据包括会话语音的会话文本和音频，即是一个(音频，文本)对。该步骤的训练数据使用ASR常用的训练数据即可。

其中，“音频编码器”是一个基于神经网络模型，会话语音的音频经过该音频编码器之后得到音频隐特征。

传统的“提示”(Prompt)是一种类似于完形填空题的对预训练模型的询问式短语或语句，例如对于输入“今天天气真好！”这一样句话，为了让预训练模型得到正向或负向情感的理解，可以给预训练模型这样的提示：“表示___的心情”，预训练模型由此能得到“正向”的输出。而本发明的发明人的研究表明，这种“提示”可以进一步泛化，其不仅可以建立文本与文本之间的关联，同样也可以建立文本与非文本之间的关联。特定的，本发明使用“提示”来建立会话文本与其音频隐特定之间的关联，这是对现有的提示学习的一种创新用法。图3中，本发明的“提示”是一小段这样的描述文字，例如“等价于”，“表达的意思是”，或者上述短语的同义词和近义词。由此，音频隐特征、提示和文本三者拼接之后输入给预训练模型，并进行自监督学习。整个过程中，预训练模型保持固定，音频解码器是可训练的。也就是说，在自监督学习的训练过程中，被更新的参数是音频编码器本身。由此，训练完成之后，音频解码器将有能力抽取预训练模型可以理解的音频特征。

下面更加详细地说明本发明将提示学习应用于意图识别的方法。图4是本发明的基于提示学习意图识别方法的一个具体实施例的的流程图。如图4所示，本发明的方法包括如下步骤：

S1、对会话语音进行语音识别和音频隐特征提取，得到与会话语音对应的会话文本和音频隐特征。

在该实施例中，会话语音可以来自于用户电话咨询、电话投诉中的实时语音或语音记录。为了完成实时的应答或提示用户进行下一步操作，需要对会话中的用户所表达的意图进行识别。本发明中，首先需要进行语音识别，即自动语音识别(Automatic SpeechRecognition)。语音识别技术常用的方法有如下四种：1.基于语言学的方和声学法，2.随机模型法，3.利用人工神经网络的方法，4.概率语法分析。其中最主流的方法是随机模型法。随机模型法目前应用较为成熟，该方法主要采用提取特征、训练模板、对模板进行分类及对模板进行判断的步骤来对语音进行识别。该方法涉及到的技术一般有3种：动态时间规整(DTW)，隐马尔科夫模型(HMM)理论和矢量量化(VQ)技术。其中，HMM算法相较于其他两者的优点是简便优质，在语音识别性能方面更为优异。也正因为如此，如今大部分语音识别系统都在使用HMM算法。然而需要说明的，本发明不限于具体的ASR方法。

同时，该实施例为了引用会话话音对最后意图识别的准确度促进作用，需要对所述的会话语音进行音频隐特征的提取。如前所述，音频隐特征例如对数梅尔谱图、局部二值模式、梯度直方图等特征。该实施例中对会话语音进行音频隐特征提取是使用基于神经网络算法的音频编码器提取该会话语音的音频隐特征。

需要说明的是，尽管本发明优选为采用基于神经网络的音频编码器，例如采用基于卷积神经网络的音频编码器能取得较好的效果，但事实上本发明不限于生成音频隐特征的具体音频编码器的种类。在具体实现时，可首先对声音信号进行预处理和离散傅里叶变换，计算声音信号的幅度谱，形成二维谱图信号，通过训练好的卷积神经网络计算，得到输出即为所要生成的音频隐特征。

S2、根据所述会话文本与音频隐特征之间的关联性建立提示。

在获得了会话文本和音频隐特征之后，本发明该实施例中根据所述会话文本与音频隐特征之间的关联性建立提示。可以通过提示生成模板来产生提示，提示模板可以通过自动化搜索的方式获得，即搜索一些可能的设计以找到最好的提示。提示模板也可以通过训练得到，即将提示当成可训练参数来加以训练，以得到优化的提示。在本发明中，考虑到会话文本与音频隐特征之间关联性的特殊性，本发明优选为采用人工设计的提示模板来生成提示。例如，本发明的提示生成模板包括如下的提示：“等价于”，“表达的意思是”，或者上述短语的同义词和近义词。由此，本发明可以根据会话文本和提示生成模板来产生相应的提示。

但需要说明的是，本发明不限于具体的“提示”生成方式及生成的“提示”内容，只要是能够在会话文本与音频隐特征之间建立一定的关联性的短语、语句等均应视为在本发明的理念下的不同实施方式，均为视为在本发明的保护范围内的技术方案。

S3、利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型，并使用所述机器学习模型对新会话语音的会话文本、音频隐特征和提示进行处理以识别该新会话语音的会话意图。

此步骤是生成会话意图的步骤。在获得了新的会话语音之后，如前述步骤S1和S2所述的生成会话文本和音频隐特征，并生成相应的提示，由此可以输入到训练好的机器学习模型中得到会话意图。这里所称的机器学习模型是一种统称，并不是指单个具体的模型或若干个具体的模型，而是指采用支持提示学习(Prompt Learning)的机器学习算法或算法组合。理论上，任何能将本发明中的音频隐特征和会话文本通过“提示”来进行关联的机器学习训练方法都可以实现本发明，并且取得相比于仅通过会话文本进行意图识别更好的的效果。

在该具体实施例中，如图3所示的，所述进行意图识别的机器学习模型包括所述音频编码器，还包括预训练模型和意图识别模型。所述的音频编码器即为步骤S1中提及的音频编码器，优选为使用基于神经网络算法的音频编码器。

所述预训练模型用于根据会话文本、音频隐特征、提示生成用于意图识别的文本隐特征。所述预训练模型是训练好的NLP模型，其训练数据来自各个领域的文本数据，具有很强的信息抽取能力。实施例中不限于具体采用的预训练模型，例如BERT(BidirectionalEncoder Representations from Transformers)、GPT-2(Gererate Pre-Training Model)等。

所述意图识别模型是用于根据文本特征或文本隐特征来识别意图的机器学习模模型，意图识别主要是为了推测用户想要干什么，因此其一般可以采用分类模型实现，因为意图的识别实际上是一个分类问题，如基于规则的算法，传统机器学习算法(SVM)，基于深度学习算法(CNN,LSTM,RCNN,C-LSTM,FastText)等均可以实现。

本发明的关键在于如何训练上述机器学习模型，以使得预训练模型能够很好地理解音频隐特征，从而发挥出会话语音的音频本身对于意图识别的贡献。

图5是本发明的一个实施例的训练机器学习模型的方法的流程图。该实施例作为优选的实施方式，利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型。具体步骤包括：建立包括会话文本、音频隐特征、提示和意图的训练数据集；使所述预训练模型保持固定，使用所述训练数据集中的会话文本、音频隐特征和提示，进行自监督的提示学习训练所述音频编码器；以及使所述音频编码器和预训练模型保持固定，使用训练数据集训练所述意图识别模型。

步骤S31、建立包括会话文本、音频隐特征、提示和意图的训练数据集。

具体的，所述建立训练数据集的步骤包括：对历史会话语音进行语音识别和音频隐特征提取，得到与历史会话语音对应的会话文本和音频隐特征；并且根据历史会话的文本与音频隐特征之间的关联性建立提示。此步骤与步骤S1和S2中的过程相似，只不过该步骤是针对历史会话语音进行的，在此不再赘述。需要说明的，所选择的历史会话语音是具有相对应的会话意图信息的会话语音。

步骤S32、使所述预训练模型保持固定，使用所述训练数据集中的会话文本、音频隐特征和提示，进行自监督的提示学习训练所述音频编码器。

该步骤是训练步骤中的关键步骤。与现有技术中一般性训练步骤不同，该步骤将音频隐特征、提示和文本三者拼接之后，输入给预训练模型，进行自监督学习。整个过程，只有音频编码器是可训练的。也就是说，在自监督学习的训练过程中，被更新的参数是音频编码器本身。由此，训练完成之后，音频解码器将有能力抽取预训练模型可以理解的音频特征。这里的自监督是包含于训练过程的。比如，会话文本是“现在是星期五的下午”，那么我们在训练时，将输入的会话文本进行部分遮蔽，例如变成“现#是星期五的#午”，模型的输出是“现在是星期五的下午”。“#”号代表被遮蔽(mask)掉了，这个就是一个自监督学习的一个例子。本发明的基于提示学习的自监督学习不限于遮蔽具体的部分，可以是文本，也可以隐特征。

步骤S33、使所述音频编码器和预训练模型保持固定，使用训练数据集训练所述意图识别模型。

该步骤是通过常规的模型训练方法来训练意图识别模型。当固定了音频编码器和预训练模型之后，训练数据包括会话语音(或音频隐特征)、会话文本和会话意图。如图3所示的，对会话语音、会话文本和会话意图依次输入到音频编码器、预训练模型后再将获得的文本隐数据、会话意图输入到意图识别模型中进行训练，通过大量数据的训练得到最终的意图识别模型。

以上描述上本发明的意图识别方法的具体实施例。本领域技术人员可以理解，实现上述实施例的全部或部分步骤被实现为由数据处理设备(包括计算机)执行的程序，即计算机程序。在该计算机程序被执行时，可以实现本发明提供的上述方法。而且，所述的计算机程序可以存储于计算机可读存储介质中，该存储介质可以是磁盘、光盘、ROM、RAM等可读存储介质，也可以是多个存储介质组成的存储阵列，例如磁盘或磁带存储阵列。所述的存储介质不限于集中式存储，其也可以是分布式存储，例如基于云计算的云存储。

下面描述本发明的装置实施例，该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节，应视为对于上述方法实施例的补充；对于在本发明装置实施例中未披露的细节，可以参照上述方法实施例来实现。

图6是本发明的一个实施例的基于提示学习的会话意图识别装置的模块示意图。如图6所示，该会话意图识别装置包括提取模块、提示生成模块和意图识别模块。

提取模块，用于对会话语音进行语音识别和音频隐特征提取，得到与会话语音对应的会话文本和音频隐特征。提取模块需要进行语音识别和音频隐特征的提取，这是两个不同的过程，可以分别由两个子模块来执行，即一个语音识别子模块用于自动语音识别(Automatic Speech Recognition)。如前所述，本发明的提取模块不限于具体的ASR方法。

同时，另一个音频隐特征提取子模块需要对所述的会话语音进行音频隐特征的提取。如前所述，音频隐特征例如对数梅尔谱图、局部二值模式、梯度直方图等特征。该实施例中对会话语音进行音频隐特征提取是使用基于神经网络算法的音频编码器提取该会话语音的音频隐特征。同样的，音频隐特征提取子模块不限于生成音频隐特征的具体音频编码器的种类。在具体实现时，可首先对声音信号进行预处理和离散傅里叶变换，计算声音信号的幅度谱，形成二维谱图信号，通过训练好的卷积神经网络计算，得到输出即为所要生成的音频隐特征。

提示生成模块，用于根据所述会话文本与音频隐特征之间的关联性建立提示。提示生成模块可以通过提示生成模板来产生提示，提示模板可以通过自动化搜索的方式或得，即搜索一些可能的设计以找到最好的提示。提示模板也可以通过训练得到，即将提示当成可训练参数来加以训练，以得到优化的提示。在本发明中，考虑到会话文本与音频隐特征之间关联性的特殊性，本发明优选为采用人工设计的提示模板来生成提示。例如，本发明的提示生成模板包括如下的提示：“等价于”，“表达的意思是”，或者上述短语的同义词和近义词。由此，本发明可以根据会话文本和提示生成模板来产生相应的提示。但需要说明的是，提示生成模块不限于具体的“提示”生成方式及生成的“提示”内容，只要是能够在会话文本与音频隐特征之间建立一定的关联性的短语、语句等均应视为在本发明的理念下的不同实施方式，均为视为在本发明的保护范围内的技术方案。

意图识别模块用于利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型，并使用所述机器学习模型对新会话语音的会话文本、音频隐特征和提示进行处理以识别该新会话语音的会话意图。

意图识别模块是生成会话意图主要模块。在获得了新的会话语音之后，意图识别模块如提取模块和提示生成模块那样生成会话文本和音频隐特征，并生成相应的提示，由此可以输入到训练好的机器学习模型中得到会话意图。所述进行意图识别的机器学习模型包括所述音频编码器，还包括预训练模型和意图识别模型。所述的音频编码器即为提取模块中提及的音频编码器，优选为使用基于神经网络算法的音频编码器。

所述进行意图识别的机器学习模型包括所述音频编码器，还包括预训练模型和意图识别模型，所述预训练模型用于根据会话文本、音频隐特征、提示生成用于意图识别的文本隐特征。所述意图识别模型用于根据所述文本隐特征生成会话意图。

图7是本发明的一个具体实施例的意图识别模块的子模块构成图。如图7所示，意图识别模块包括数据集建立子模块、音频编码器训练子模块、意图识别模块模型训练子模块。其中，数据集建立子模块，用于建立包括会话文本、音频隐特征、提示和意图的训练数据集；音频编码器训练子模块；使所述预训练模型保持固定，使用所述训练数据集中的会话文本、音频隐特征和提示，进行自监督的提示学习训练所述音频编码器。意图识别模块模型训练子模块，用于使所述音频编码器和预训练模型保持固定，使用训练数据集训练所述意图识别模型。上述各子模块的具体步骤与本发明的意图识别方法的步骤S31～步骤S32对应，故在此不再赘述。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

下面描述本发明的电子设备实施例，该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明电子设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图8是根据本发明的一种电子设备的示例性实施例的结构框图。图8显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，该示例性实施例的电子设备810以通用数据处理设备的形式表现。电子设备810的组件可以包括但不限于：至少一个处理单元811、至少一个存储单元812、连接不同系统组件(包括存储单元812和处理单元311)的总线816、显示单元813等。

其中，所述存储单元812存储有计算机可读程序，其可以是源程序或都只读程序的代码。所述程序可以被处理单元811执行，使得所述处理单元210执行本发明各种实施方式的步骤。例如，所述处理单元811可以执行如图8所示的步骤。

所述存储单元812可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8121和/或高速缓存存储单元8122，还可以进一步包括只读存储单元(ROM)8123。所述存储单元812还可以包括具有一组(至少一个)程序模块8125的程序/实用工具8124，这样的程序模块8125包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线816可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备810也可以与一个或多个外部设备820(例如键盘、显示器、网络设备、蓝牙设备等)通信，使得用户能经由这些外部设备820与该电子设备820交互，和/或使得该电子设备810能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口814进行，还可以通过网络适配器815与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)进行。网络适配器815可以通过总线816与电子设备820的其它模块通信。应当明白，尽管图中未示出，电子设备810中可使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

图9是本发明的一个计算机可读介质实施例的示意图。如图9所示，所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：对会话语音进行语音识别和音频隐特征提取，得到与会话语音对应的会话文本和音频隐特征；根据所述会话文本与音频隐特征之间的关联性建立提示；利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型，并使用所述机器学习模型对新会话语音的会话文本、音频隐特征和提示进行处理以识别该新会话语音的会话意图。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述，本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于提示学习的会话意图识别方法，其特征在于，包括：

对会话语音进行语音识别和音频隐特征提取，得到与会话语音对应的会话文本和音频隐特征；

根据所述会话文本与所述音频隐特征之间的关联性建立提示；

利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型，并使用所述机器学习模型对新会话语音的会话文本、音频隐特征和提示进行处理以识别该新会话语音的会话意图。

2.根据权利要求1所述的方法，其特征在于：使用基于神经网络算法的音频编码器提取会话语音的音频隐特征。

3.根据权利要求2所述的方法，其特征在于：

所述机器学习模型包括所述音频编码器、预训练模型和意图识别模型；

所述预训练模型用于根据会话文本、音频隐特征、提示生成用于意图识别的文本隐特征；

所述意图识别模型用于根据所述文本隐特征生成会话意图。

4.根据权利要求3所述的方法，其特征在于：

所述利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型包括：

建立至少包括会话文本、音频隐特征、提示和意图的训练数据集；

使所述预训练模型保持固定，使用所述训练数据集中的会话文本、音频隐特征和提示，进行自监督的提示学习训练所述音频编码器。

5.根据权利要求4所述的方法，其特征在于：所述利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型包括：

使所述音频编码器和所述预训练模型保持固定，使用训练数据集训练所述意图识别模型。

6.根据权利要求4所述的方法，其特征在于：

建立至少包括会话文本、音频隐特征、提示和意图的训练数据集的步骤包括：

对历史会话语音进行语音识别和音频隐特征提取，得到与历史会话语音对应的会话文本和音频隐特征；

根据历史会话的文本与音频隐特征之间的关联性建立提示。

7.一种基于提示学习的会话意图识别装置，其特征在于，包括：

提取模块，用于对会话语音进行语音识别和音频隐特征提取，得到与会话语音对应的会话文本和音频隐特征；

提示生成模块，用于根据所述会话文本与所述音频隐特征之间的关联性建立提示；

意图识别模块，用于利用历史会话语音的会话文本、音频隐特征、提示和相应的意图训练机器学习模型，并使用所述机器学习模型对新会话语音的会话文本、音频隐特征和提示进行处理以识别该新会话语音的会话意图。

8.根据权利要求7所述的装置，其特征在于：

所述进行意图识别的机器学习模型包括所述音频编码器，还包括预训练模型和意图识别模型；

所述意图识别模型用于根据所述文本隐特征生成会话意图。

9.根据权利要求8所述的装置，其特征在于：所述意图识别模块包括：

数据集建立子模块，用于建立包括会话文本、音频隐特征、提示和意图的训练数据集；

音频编码器训练子模块；使所述预训练模型保持固定，使用所述训练数据集中的会话文本、音频隐特征和提示，进行自监督的提示学习训练所述音频编码器。

10.根据权利要求9所述的装置，其特征在于：所述意图识别模块还包括：

意图识别模块模型训练子模块，用于使所述音频编码器和预训练模型保持固定，使用训练数据集训练所述意图识别模型。

11.一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

12.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现权利要求1-6中任一项所述的方法。