CN113488026B

CN113488026B - 基于语用信息的语音理解模型生成方法和智能语音交互方法

Info

Publication number: CN113488026B
Application number: CN202111023635.XA
Authority: CN
Inventors: 武晓梅
Original assignee: Shuimu Think Tank Beijing Technology Co ltd
Current assignee: Shuimu Think Tank Beijing Technology Co ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-21
Anticipated expiration: 2041-09-02
Also published as: CN113488026A

Abstract

基于语用信息的语音理解模型生成方法和智能语音交互方法，所述语音理解模型生成方法包括：对语音进行处理，获得编码序列形式的语音数据；预设语用信息分类节点；将编码序列形式的语音数据与语用信息分类节点相关联；利用编码序列形式的语音数据与语用信息分类节点的配对数据生成语音理解模型。所述方法直接从语音理解语用信息，避免语音转写为文字带来的信息损失；不受文字的限制，一套语音交互架构和对应的模型能够支持不同方言、小语种、混合语言等多种语言环境；根据语音交互的语用信息分类节点的层次来收集训练语料和训练语音理解模型，大幅降低训练所需的数据量；通过简单的关联操作，将语音交互中获得的语音用于语音理解模型的快速迭代。

Description

基于语用信息的语音理解模型生成方法和智能语音交互方法

技术领域

本发明涉及语音智能处理技术，具体而言，涉及一种基于语用信息的语音理解模型生成方法和智能语音交互方法。

背景技术

目前的自然语言理解（natural language understanding，NLU）是在自动语音识别（automatic speech recognition，ASR）技术的基础上实现的。语音识别是将语音转写为文字。也就是说，先通过语音识别从说话人的语音获得与语音对应的文字序列，然后再通过分析该文字序列来获得语音所表达的说话人的意思（语义）。

一方面，语音识别技术本身有自己的技术难点。对于相同的字、词、短语和句子，由于受到说话人发音特点、说话习惯、说话场景、上下文、实时情绪等因素的影响，不同人的语音在音量、音调、语气、音长等方面有所差异，并且说话人发声器官与声音接收器（麦克风）之间的距离、背景噪音、多人同时说话（鸡尾酒会问题）、语音传输信道带宽（如电话语音）等外部因素也会增加语音识别的复杂度和难度。也就是说，语音识别的识别准确率受到很多因素的影响，特别地，当说话人对于某些字或词的发音与其它字或词的标准发音相近或相同时，容易发生识别偏差或识别错误。对于中文来说，大量多音字的存在更增加了获得识别率的难度。尽管目前的语音识别技术可以针对具体方言、具体口音甚至具体人来训练具体的语音识别模型，但是却无法实现这些模型之间的自动切换，因此并不能从根本上解决发音个异性导致的识别不准的问题。

另一方面，目前自然语言处理（NLP）在语音识别得到的文字序列的基础上进行语义分析，无论是通过关键词匹配技术，还是结合上下文或知识图谱，亦或借助深度学习技术，都无法弥补语音识别结果偏差导致的语义理解的不准确。

发明内容

根据本发明的一个方面，提供了一种基于语用信息的语音理解模型生成方法，其中，包括：对语音进行处理，获得编码序列形式的语音数据；预设语用信息分类节点；将编码序列形式的语音数据与语用信息分类节点相关联；利用编码序列形式的语音数据与语用信息分类节点的配对数据生成语音理解模型。

根据本发明实施例的语音理解模型生成方法，可选地，编码序列的编码码元是音素或音节或者音素和音节的组合。

根据本发明实施例的语音理解模型生成方法，可选地，编码序列的编码码元包括不同语言的音素或音节或者音素和音节的组合，或者包括独立于特定语言的定制的音素级码元或音节级码元或其组合。

根据本发明实施例的语音理解模型生成方法，可选地，通过将语音与语用信息分类节点相关联来将编码序列形式的语音数据与语用信息分类节点相关联。

根据本发明实施例的语音理解模型生成方法，可选地，选择当前语音交互的某一层的语用信息分类节点来训练语音理解模型，或者选择当前语音交互的多层的语用信息分类节点来训练语音理解模型，或者选择当前语音交互的所有语用信息分类节点来训练语音理解模型。

根据本发明实施例的语音理解模型生成方法，可选地，选择在当前语音交互的某一层收集的与语用信息分类节点对应的语音或编码序列形式的语音数据对语音理解模型进行训练，或者选择在当前语音交互的多层或者全部各层收集的与语用信息分类节点对应的语音或编码序列形式的语音数据对语音理解模型进行训练，或者选择当前语音交互之外的其它语音交互的相同语用信息分类节点的训练数据来对当前语音交互的语音理解模型进行训练。

根据本发明实施例的语音理解模型生成方法，可选地，生成语音理解模型的算法是基于统计的算法，或者是深度学习/深度神经网络算法，或者是两种算法的结合，其中，基于深度学习/深度神经网络算法是Word2vec、RNN、Transformer、BERT中的一种或组合。

根据本发明的一个方面，提供了一种基于语用信息的智能语音交互方法，其中，包括：接收语音；对语音进行处理，获得编码序列形式的语音数据；使用语音理解模型对编码序列形式的语音数据进行处理，得到与该编码序列形式的语音数据对应的语用信息分类节点；做出与语用信息分类节点相对应的响应。

根据本发明实施例的智能语音交互方法，可选地，通过语音理解模型计算语音关于语音交互层的各个语用信息分类节点的置信度，根据这些置信度来确定该语音对应的语用信息分类节点。

根据本发明实施例的语音理解模型生成方法，可选地，置信度是语音与语音交互层的各个语用信息分类节点相对应的概率。

根据本发明实施例的语音理解模型生成方法，可选地，进一步通过设置置信度的阈值来确定语音对应的语用信息分类节点。

根据本发明实施例的语音理解模型生成方法，可选地，置信度阈值的设置包括以下方式或其组合：在一个语音交互设置一个或多个共用阈值；在一个语音交互的单层设置阈值；对单个语用信息分类节点设置阈值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图1示出了根据本发明实施例的语音理解模型生成方法的例子；

图2示出了根据本发明实施例的智能语音交互方法的例子；

图3示出了预设语用信息分类节点的一个例子；

图4示出了预设语用信息分类节点的另一个例子。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。

根据本发明实施例的基于语用信息的语音理解模型生成方法和智能语音交互方法，采用了与现有的自然语言理解技术不同的技术路径，从信息论的角度来解决现有基于语音识别技术的语义理解难题。

根据信息科学或广义信息论，任何一个信息都可划分为语法信息、语义信息和语用信息三个层次。语法、语义和语用是从符号学中借用来的术语。语法是指符号与符号之间的关系，是书面语言、口头语言、计算机编码语言或行为语言的规则；语义是指符号与实体之间的关系，是符号所表达的内容和含义；语用是指符号与使用者之间的关系，指符号所表达的内容和含义对使用者的效用。语法信息也被称作技术信息，它是研究符号与符号的形式关系，研究它们的编码、传递、重复和再现等，并不考虑这些符号的实际意义和效用。语法信息具有客观的本性，它是信息最基本的层次。语义信息与语法信息相反，它表明信息的内容含义以及在逻辑上的真实性、准确性和可靠性。人们对接触到的事实材料（语法信息）加以理解，把它与它所代表的实体联系起来，进行分析比较形成某种概念，这就是语义信息。它是对事物运动状态的陈述或表征，其目的是保证接收者得到信息的实际内容。语用信息是指信息对接收者的效用，即信息的实用性和价值。

简言之，语法信息是信源输出符号的构造或其客观特性的表现，与信宿的主观要求无关；语义信息则考虑符号（集）的意义；语用信息是对信宿有用的信息。语法信息、语义信息、语用信息是相互关联的。同样的含义，可用不同语言或文字来表达，而各种表达所包含的语法信息可以是不同的；一条表达所蕴含的含义往往只有部分对于信宿或信息的接受者有用。因此，一般而言，语义信息的信息率可小于语法信息的信息率，语用信息的信息率又小于语义信息的信息率。

狭义信息论应用数理统计方法来研究信息处理和信息传递，它研究存在于通讯和控制系统中普遍存在着的信息传递的共同规律，以及如何提高各信息传输系统的有效性和可靠性。前述的语音识别技术是以狭义信息论为基础的，首先力图从接收到的语音中还原出信源输出的符号（文字），这是建立在语法信息层次上的，然后进行语义分析，获得语义信息。如前所述，因为信源（说话人）的差异、信道（声音传输路径、介质）的条件限制等会造成语音识别结果的不确定性，从而影响语义理解的准确度。

根据香农信息论，信息是确定性的增加。也就是说，信息量不取决于信息的长度，而在于减少了多少不确定性。由此可知，上述的语音识别过程增加了不确定性从而减少了信息量甚至损失了信源原本传输的信息。

为了解决上述问题，需要结合上述的狭义信息论和广义信息论重新设定技术路径，这样就是本发明的核心。

首先，考查语音、文字与信息的关系。语音是先于文字产生的，是更早的信息载体。由于在古代的技术条件下，无法实现语音的远距离传输和存储，因此发明了文字。同样是信息载体，相比于语音，文字能够实现远距离传输和存储。进一步，通过编码（书写、撰文）能够使得基于文字传输信息所需的信道带宽更小，也就是说可以通过编码提高单位文字所能承载的信息量，并且通过编码可以对信息进行加密。于是，文字成为了记录文明的最重要的信息载体。基于对文字承载信息的路径依赖，当前的自然语音处理技术采用了先从语音识别文字，再分析文字所承载的信息的技术路径。

然而，在现代的技术条件下，已能够实现语音的远距离传输和存储，并且随着通信技术和网络技术的发展，带宽和成本也不再是语音传输的瓶颈，人们可以用更清晰的语音进行交互。在这种条件下，当信源发出的信息是以语音为载体时，可以不必从语音识别文字，而是直接在信宿（接收端）通过分析所接收到的语音来获得信息。

进一步，从信息量的角度分析。如前所述，信息量不取决于信息的长度，而在于减少了多少不确定性。对于信宿来说，信息量取决于语用信息而非语义信息。举个简单的例子，信源发出的语音或文字为“是的”，语义为“肯定”，但是如果信宿想知道的是“今天星期几”，那么该语义信息并不能减少关于“今天星期几”的不确定性，因而信息量为零。如果信宿知道由信源发出的语音或文字“是的”是关于“今天是星期二吗”的回答，那么该信息所包含的语用信息是“对今天是星期二予以肯定”，减少了关于“今天星期几”的不确定性（考虑到信源所发出的信息也可能并不是真实的，因而不能完全消除关于“今天星期几”的不确定性）。再举一个例子，信源发出的语音或文字为“我弟弟下个月要结婚”，信宿由此获得的语用信息是信源没有意愿马上偿还债务。对于信宿所关心的“是否愿意马上偿还债务”，信源发出的这段表达是有信息量的。由此可见，语用信息可能并不包括在语义信息中或者需要接收者根据自身的主观判断从语义信息中得出；并且，同一信息对于不同的接收者、或同一信息对于在不同的语境下的同一接收者，接收者所获得的语用信息和信息量可能不同。从信息交互的目的的角度，接收者获得越多的语用信息和信息量则信息交互越有效。

基于上述对于信息、信息载体（语音、文字）和信息量的分析，为了提供一种更有效的信息交互方法，进而获得一种更有效的智能化的信息交互方法，本发明提出了一种基于语用信息的智能语音交互方法。

本发明构思的核心在于用人工智能从来自信源的语音获得语用信息，从而实现信宿所需的自然语言理解。其中，对来自信源的语音进行处理，获得编码序列形式的语音数据；预设语用信息分类节点；将编码序列形式的语音数据与语用信息分类节点相关联；利用机器学习技术生成语音理解模型；用语音理解模型来获得与语音对应的语用信息分类节点。

图1示出了根据本发明实施例的语音理解模型生成方法的例子。如图1所示，在步骤S101，对语音进行处理，获得编码序列形式的语音数据。这些语音可以是来自信源的已存语音或实时语音，也可以是来自训练语料数据库的训练用语音。

可选地，用音频采样的方式对来自信源的语音进行处理。例如，对于电话语音，采用8000Hz、16bit并且单声道的音频采样格式，获得音频采样数据。电话语音8kHz的采样率是因为受到电话信道带宽4kHz的限制，而电话信道带宽4kHz的限制是为了节省带宽资源，只保留话音频谱中300～3400Hz这段较窄范围内的声音来辨别话音信号。在4G乃至5G移动通信网络的条件下，4kHz的窄带传输限制已经逐渐退出历史舞台，考虑到人耳能听到的声音的频率范围在（16～20000Hz）。因此可以考虑用更高的采样率，例如16kHz，48kHz，从而增加音频（语音）采样的保真度，减少因采样造成的语音信息的损失。音频采样参数可以包括采样率，比特率，单/双声道（通常采用单声道），以及采样时长等。可以根据具体交互场景和网络资源条件来设置采样时长，例如，8秒，10秒，15秒，20秒等。可选地，在音频采样后用语音活动检测（Voice Activity Detection，VAD）技术对音频采样信号进行处理，检测噪音环境中的静音部分，从而识别和剪切语音部分，获得有效的音频采样数据。

然后对该音频采样数据进行编码处理，例如，用音素（phone）作为编码单位，这样可以用声学模型从音频采样数据获得音素序列。例如，英语国际音标共有48个音素，其中元音音素20个、辅音音素28个；而现代汉语拼音（汉字注音拉丁化方案，ISO7098）有32个音素。也可以结合语言模型，以音素以及音素的组合作为编码单元。例如，用音节序列来作为编码处理的结果；也可以用适用于某种语言特点的方式，如汉语的声母、韵母，来进行编码。进一步，根据不同语言特点采用混合编码的方式，例如，编码规则既包括英语音节也包括汉语的声母和韵母，这样可以实现对于多语言混合语音的编码。例如，对于语言表述“为了省钱我住在郊区的motel里”——如果仅用汉语的声母和韵母来编码，则可以编码为“w-ei-l-e-sh-eng-q-i-an-w-o-zh-u-z-ai-j-i-ao-q-u-d-e-m-ou-t-ai-l-l-i”，其中，英语“motel”按照发音近似为汉语拼音的“m-ou-t-ai-l”，这里可以看到汉语发音音节与英语发音音节的差异；如果用汉语声母和韵母与英语音节混合编码，则可以编码为“w-ei-l-e-sh-eng-q-i-an-w-o-zh-u-z-ai-j-i-ao-q-u-d-e-məʊ-tel-l-i”，这样可以更接近真实语音，语音信息量损失也更小。汉语也是有音节的，而且汉语都是单音节字，但如果用汉语音节来编码汉语并用英语音节来编码英语，因为两种语言音节的差异（汉语有约410个音节；而英语有两三千个音节）以及语言模型的差异，会造成编码结果的较大偏差，例如，上述例子中，如果用汉语音节来编码汉语并用英语音节来编码英语，如果在音节的识别上发生偏差，则可能会编码为“wei-le-sheng-qian-wo-zhu-zai-jiao-qu-de-mou-tai-li”，相比上面的混合编码方式“w-ei-l-e-sh-eng-q-i-an-w-o-zh-u-z-ai-j-i-ao-q-u-d-e-məʊ-tel-l-i”，与实际语音的差距更大。这种差异化的混合编码可以降低音节识别的错误率。进一步，可以根据不同语言的特点，加入其它的编码维度。例如，汉语可以增加声调，用音节加声调的组合进行编码。汉语普通话只有约410个音节，其中四个声调都有意义的音节实际只有160多个，其他音节往往只能和部分声调结合，因而，除一些文言专用音节和方言土语专用音节外，对于普通话而言，声调与音节的组合约有1250个。英语没有声调，但是可以增加重音作为编码维度。

上述对语音进行的处理，获得了编码序列形式的语音数据。这里的编码码元可以是音素、音节或者音素和音节的组合。也就是说，编码序列可以包括有多个编码码元，这些码元可以是音素，也可以是音节，还可以是音素和音节的组合。并且这些音素或音节也可以包括不同语言的音素或音节，还可以是独立于特定语言的定制的音素级或音节级码元。

在步骤S102，预设语用信息分类节点。图3示出了预设语用信息分类节点的例子。在图3所示的示意性例子中，采用了单层结构。在该单层结构，包括了A01、A02、A03、A04、A05五个预设语用信息分类节点，分别对应五类语用信息。所述语用信息分类的设定是接收者基于交互需求来设定的。例如，图2中，A层交互是身份确认，可以包括A01—是本人、A02—重复询问、A03—非本人、A04—投诉倾向、A05—不方便，这五个语用信息分类。也就是说，接收者需要获知来自信源的语音所携带的信息属于这五个语用信息分类中的哪一类。根据不同信息交互需求，预设语用信息分类节点可以包括多层分类，在每一层设定语用信息分类节点。其中，在不同层可以设置相同的信息分类节点，如图4所示。

步骤S101和步骤S102的顺序没有特别要求，可以步骤S101在前也可以步骤S102在前。

在步骤S103，将编码序列形式的语音数据与语用信息分类节点相关联。关联编码序列形式的语音数据和语用信息分类节点的目的是形成用于训练语音理解模型的训练语料对，即编码序列形式的语音数据与语用信息分类节点的数据对。在对语音理解模型进行训练时，这些编码序列形式的语音数据与语用信息分类节点的数据对作为模型训练的输入数据。因为编码序列形式的语音数据对人而言可能不具有可读性，因此如果是人工将编码序列形式的语音数据与语用信息分类节点相关联，那么一种可行的方法是由人来听编码化之前的语音，理解语音所包含的语用信息，将该语音与所对应的语用信息分类节点相关联，即人工标注，从而获得编码序列形式的语音数据与语用信息分类节点的配对数据。

在步骤S104，利用编码序列形式的语音数据与语用信息分类节点的配对数据训练生成语音理解模型。用于语音理解模型训练的配对数据的数量可以是少量的一条或几条，也可以是大量的数据。训练用配对数据的信息量取决于编码序列形式的语音数据的差异度，如果两条语音数据在编码化之后获得的编码序列相同且所对应的语用信息分类节点也相同，则第一条语音用于模型训练之后，第二条语音对于模型训练的信息量为零，也就是说，具有与第一条语音的编码序列相同的编码序列的第二条语音对于模型训练没有带来新的信息。当然，因为这种情况在实际训练语料配对数据收集和模型训练也可能会发生，所以对模型训练的运算本身没有影响。

需要注意的是，因为在进行语音理解模型时，计算机或计算单元会默认用于训练的配对数据是正确的，因此如果两条语音数据在编码化之后获得的编码序列相同或相近但所对应的语用信息分类节点不同，会影响模型训练的效果。这种情况发生的可能原因是语音数据与语用信息分类节点的关联有误，从人工标注的角度，就是“告诉”机器人对该语音错误的理解结果或意图；也可能是因为两条语音数据本身非常接近，但是却对应不同的理解，这在不同方言之间是可能出现的。对模型训练效果的影响，具体而言，当识别近似语音时，会降低该语音对于相关语用信息分类节点的识别准确度，降低置信度值。例如，对于两条相似语音，分别标注为了A01—是本人和A03—非本人，其中标注为A03—非本人是错误的，并对语音理解模型进行了训练，那么当机器人接收到相似或近似语音进行理解时，可能会不确定理解结果，具体表现为对理解结果的置信度不高，例如达不到80%以上。可以在训练语音理解模型时加入语音近似且标注正确的大量配对数据进行训练，降低个别标注错误的训练数据对于模型的影响。一般而言，语音之间的近似度会随着语音长度的增加而降低，因此上述标注错误对于短语音理解相对于长语音理解的影响更大一些。

语音理解的目标是针对一条语音，自动判断与其对应的语用信息分类节点。例如，在基于呼叫中心的智能语音交互场景，当机器人询问用户是否为所呼手机号的机主本人（对应图2中的A层身份询问），被呼用户可能有多种回答方式，其语音被理解为A01~A05中的一个语用信息分类节点所对应的意图。在利用语音理解模型进行理解时，语音理解模型计算出被理解的语音关于各个语用信息分类节点的置信度，然后根据这些置信度值来确定理解结果。按照这种语音理解模型的使用方式，可以在训练语音理解模型时选取语用信息分类节点和对应的训练数据。其中，可以选择当前语音交互的某层的语用信息分类节点来训练语音理解模型，也可以选择当前语音交互的多层的语用信息分类节点来训练语音理解模型，还可以选择当前语音交互的所有语用信息分类节点来训练语音理解模型；可以选择在当前语音交互的某层收集的与语用信息分类节点对应的语音或编码序列形式的语音数据对语音理解模型进行训练，也可以选择当前语音交互的多层或者全部各层收集的与语用信息分类节点对应的语音或编码序列形式的语音数据对语音理解模型进行训练，还可以选择当前语音交互之外的其它语音交互的相同语用信息分类节点的训练数据来对当前语音交互的语音理解模型进行训练。

生成语音理解模型的算法可以是基于统计的算法，也可以是深度学习/深度神经网络算法，也可以是两种算法的结合。其中，基于深度学习/深度神经网络算法可以是Word2vec、RNN、Transformer、BERT中的一种或者组合。

图2示出了根据本发明实施例的智能语音交互方法的例子。如图2所示，在步骤S201，接收语音。该语音可以是提问语音也可以是应答语音。例如，对于用户的提问，智能语音交互系统（智能语音交互机器人）接收来自用户的语音，然后根据对用户语音的理解结果自动进行响应；也可以是智能语音交互机器人提问，用户应答，机器人然后根据对用户语音的理解结果自动进行响应。这种问题-回答可以多轮进行。用户语音通常是自然人直接或者间接发出的声音，甚至也可能是语音助手/语音机器人产生的语音。

在步骤S202，对用户语音进行处理，获得编码序列形式的语音数据。可以采用步骤S101的方法对用户语音进行音频采样和编码。

在步骤S203，使用语音理解模型对编码序列形式的语音数据进行处理，得到与该编码序列形式的语音数据对应的语音的语用信息。实现步骤S203的基础包括前述步骤S102的预设语用分析分类节点，以及步骤S104利用编码序列形式的语音数据与语用信息分类节点的配对数据生成、训练语音理解模型。也就是说，基于语用信息的语音理解需要先预设语用分析分类节点并且生成与之相应的语音理解模型。

根据本发明实施例的语音理解，具体地，是针对一条语音，自动判断与其对应的语用信息分类节点。例如，在基于呼叫中心的智能语音交互场景，当机器人询问用户是否为所呼手机号的机主本人（对应图2中的A层身份询问），被呼用户可能有多种回答方式，其语音被理解为A01~A05中的一个语用信息分类节点所对应的意图。在利用语音理解模型进行理解时，语音理解模型计算出被理解的语音关于各个语用信息分类节点的置信度，然后根据这些置信度值来确定理解结果。这里的置信度可以理解为语音与某语用信息分类节点相对应的概率。因为在某层交互中，预设了一个或者多于一个语用信息分类节点，所以语音理解模型计算在该层交互中获得的用户语音与该层交互的各个语用信息分类节点相对应的概率，且对于一条用户语音，其与该层各个语用信息分类节点分别对应的概率之和为100（可归一化为100%或1.0）。例如，经过语音理解模型计算，A01的置信度为80，A02的置信度为0，A03的置信度为20，A04和A05的置信度为0。于是，能够根据这些置信度值来确定语音理解结果。

可以将置信度值最高的语用信息分类节点作为语音理解结果；也可以将置信度值超过预设阈值的语用信息分类节点作为语音理解结果。如上例，A01的置信度为80，A02的置信度为0，A03的置信度为20，A04和A05的置信度为0。如果将置信度值最高的语用信息分类节点作为语音理解结果，那么可以将A01确定为语音理解结果。如果设定置信度阈值为90，则不能确定哪个语用信息分类节点为语音理解结果，这种情况下，可以有进一步的处理：例如，请求用户再次做出语音表达，然后对新的一条用户语音进行理解，如果用户再次表达超过设定次数（例如两次）仍不能达到置信度阈值，则进行结束交互的处理或者将用户最后一次的表达所对应的置信度值最高的语用信息分类节点作为语音理解结果，还可以转人工处理；也可以请求用户确认所述表达所对应的置信度值最高的语用信息分类节点作为语音理解结果；或者直接转人工处理。还可以设置多个阈值，例如第一阈值80，第二阈值60。如果被理解的语音关于当前交互层的某个语用信息分类节点的置信度高于80，则以该语用信息分类节点作为理解结果；如果被理解的语音关于当前交互层的某个语用信息分类节点的置信度介于60和80之间，则请求用户确认此次表达是否对应的置信度值最高的语用信息分类节点，如果用户确认，则将该语用信息分类节点作为语音理解结果；如果被理解的语音关于当前交互层的某个语用信息分类节点的置信度低于60，则请求用户再次做出语音表达，然后对新的一条用户语音进行理解，如果用户再次表达超过设定次数（例如两次）仍不能达到80，则进行结束交互的处理或者将用户最后一次的表达所对应的置信度值最高的语用信息分类节点作为语音理解结果或者转人工处理。

可以根据语音理解模型的训练数据量、测试/生产数据的置信度分布、语音交互层级结构和语音交互场景需求等多方面因素来设置置信度阈值。例如，如果训练数据量较少，测试/生产数据的置信度均值较低，交互层级流转要求较高，则可以设置较低的置信度阈值。另外，可以在一个语音交互的多层统一设置一个或多个置信度阈值，也可以为单层设置置信度阈值，还可以对单个语用信息分类节点设置置信度阈值。

置信度阈值的设置可能会改变具体语音交互的过程，也因此能够使得语音交互更加顺畅，获得更好的用户体验。

在语音交互中产生的用户语音，经过与语言信息分类节点的关联后，可以作为语音理解模型的训练数据。

确定了与用户语音对应的语用信息分类节点，即语音理解结果，在步骤S204，做出与语用信息分类节点相对应的响应。

与语用信息分类节点相对应的响应可以在当前交互层做出或完成；对于多层的语音交互结构，可以流转到下一层。

当交互流转到某一语音交互层，则在该交互层对用户语音进行理解，确定该用户语音对应的语用信息分类节点，并作出与该语用信息分类节点相对应的响应。这些响应可以是机器人语音播报（播报录音或者合成语音），以引起用户再次做出语音；也可以是机器人语音播报后结束当前语音交互。例如，在图4所示的例子中，如果在A层获得的语音理解结果是A02，则在A层内部进行跳转，重复播报A层机器人语音或者播报与A02对应的话术，然后根据再次输入的用户语音仍旧在A层进行语音理解；如果在A层获得的语音理解结果是A03，则进行“挂机”处理，比如播报结束语音交互的语音后挂断电话、发短信等处理；诸如此类。

多层语音交互结构用于多轮语音交互，如图4所示。其中，箭头表示层之间的流转。例如，在图4所示的交互结构中，如果在A层获得的语音理解结果是A01，则进行与A层A01对应的机器人语音播报（播报录音或者合成语音），语音交互流转到B层，在B层再次进行语音理解，确认用户回答机器人语音播报的用户语音与B层的哪个语用信息分类节点相对应；如果在B层获得的语音理解结果是B02、B03、B04、B05或A02，则播报与B层的这些语用信息分类节点相对应机器人语音，语音交互流转到C层，在C层再次进行语音理解，确认用户回答语音与C层的哪个语用信息分类节点相对应。

可以注意到，对于不同层的相同语用信息分类节点可以有不同的响应。例如，A层的AP02的响应是在A层内部进行跳转，而B层的A02的响应则是播报与B层的A02对应的机器人语音，并在接收到用户对该机器人语音做出新的用户语音后流转到C层。这样，一方面可以多层共用语用信息分类节点，另一方面也可以根据语音交互的具体需要灵活配置响应。

在多层语音交互结构，各层可以采用相同的语用信息分类节点；多个不同的语音交互结构也可以采用相同的语用信息分类节点。这样，在不同语音交互结构对应的不同语音交互业务下收集的用户语音数据可以与相同的语用信息分类节点相关联，从而作为语音理解模型的训练数据。

根据本发明实施例的基于语用信息的语音理解模型生成方法和智能语音交互方法，直接从语音理解语用信息，避免语音转写为文字带来的信息损失；因为不受文字的限制，一套语音交互结构和对应的模型能够支持不同方言、小语种、混合语言等多种语言环境；根据语音交互的语用信息分类节点的层次结构来收集训练语料和训练语音理解模型，大幅降低训练语音理解模型所需的数据量；通过简单的关联操作，将语音交互中获得的语音数据用于语音理解模型的快速迭代，大幅降低优化语音理解模型的成本。

以上所述仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

Claims

1.一种基于语用信息的语音理解模型生成方法，其中，

包括：

对语音进行处理，获得编码序列形式的语音数据；

预设语音交互的结构，所述语音交互包括一层或多层，每层包括多个语用信息分类节点；

将编码序列形式的语音数据与语用信息分类节点相关联；

利用编码序列形式的语音数据与语用信息分类节点的配对数据生成语音理解模型，

其中，选择所述语音交互的某一层的语用信息分类节点来训练语音理解模型，或者选择所述语音交互的多层的语用信息分类节点来训练语音理解模型，或者选择所述语音交互的所有语用信息分类节点来训练语音理解模型，

选择在当前语音交互的某一层收集的与语用信息分类节点对应的语音或编码序列形式的语音数据对语音理解模型进行训练，或者选择在当前语音交互的多层或者全部各层收集的与语用信息分类节点对应的语音或编码序列形式的语音数据对语音理解模型进行训练，或者选择当前语音交互之外的其它语音交互的相同语用信息分类节点的训练数据来对当前语音交互的语音理解模型进行训练。

2.根据权利要求1所述的语音理解模型生成方法，其中，所述编码序列的编码码元是音素或音节或者音素和音节的组合。

3.根据权利要求1所述的语音理解模型生成方法，其中，所述编码序列的编码码元包括不同语言的音素或音节或者音素和音节的组合，或者包括独立于特定语言的定制的音素级码元或音节级码元或其组合。

4.根据权利要求1所述的语音理解模型生成方法，其中，通过将所述语音与语用信息分类节点相关联来将所述编码序列形式的语音数据与语用信息分类节点相关联。

5.根据权利要求1所述的语音理解模型生成方法，其中，生成语音理解模型的算法是基于统计的算法，或者是深度学习/深度神经网络算法，或者是两种算法的结合，其中，基于深度学习/深度神经网络算法是Word2vec、RNN、Transformer、BERT中的一种或组合。

6.一种基于语用信息的智能语音交互方法，其中，

包括：

接收语音；

对语音进行处理，获得编码序列形式的语音数据；

使用根据权利要求1-5中任一项所述的语音理解模型生成方法来生成的语音理解模型对编码序列形式的语音数据进行处理，得到与该编码序列形式的语音数据对应的语用信息分类节点；

做出与语用信息分类节点相对应的响应。

7.根据权利要求6所述的智能语音交互方法，其中，通过语音理解模型计算语音关于所述语音交互的某一层的各个语用信息分类节点的置信度，根据这些置信度来确定该语音对应的语用信息分类节点。

8.根据权利要求7所述的智能语音交互方法，其中，所述置信度是语音与所述语音交互的所述层的各个语用信息分类节点相对应的概率。

9.根据权利要求7所述的智能语音交互方法，其中，进一步通过设置所述置信度的阈值来确定语音对应的语用信息分类节点。

10.根据权利要求9所述的智能语音交互方法，其中，所述置信度阈值的设置包括以下方式或其组合：在一个语音交互设置一个或多个共用阈值；在一个语音交互的单层设置阈值；对单个语用信息分类节点设置阈值。