CN113658586B

CN113658586B - 语音识别模型的训练方法、语音交互方法及装置

Info

Publication number: CN113658586B
Application number: CN202110932773.3A
Authority: CN
Inventors: 魏晨闯; 付晓寅; 臧启光; 王佳伟; 刘兵; 吴震; 彭星源
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2024-04-09
Anticipated expiration: 2041-08-13
Also published as: CN113658586A

Abstract

本公开提供了一种语音识别模型的训练方法、语音交互方法及装置，涉及人工智能技术中的语音技术和深度学习技术，可以应用于人机交互等语音识别的场景。包括：获取语音交互先验信息，基于语音交互先验信息生成初始语音数据，获取实际语音数据，将实际语音数据添加至初始语音数据中，得到样本语音数据，根据样本语音数据训练得到语音识别置信度模型，语音识别置信度模型用于语音交互场景中的语音交互，避免了相关技术中人工标注造成的人工成本偏高的弊端，节约了人力资源，且增加了样本语音数据表征的内容，增强了样本语音数据的丰富程度，提高了训练的可靠性和有效性的技术效果。

Description

语音识别模型的训练方法、语音交互方法及装置

技术领域

本公开涉及人工智能技术中的语音技术和深度学习技术，可以应用于人机交互等语音识别的场景，尤其涉及一种语音识别模型的训练方法、语音交互方法及装置。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的发展，语音交互技术有了新的突破，且被广泛地应用于各种场景，语音识别是语音交互中的重要环节，为了提高语音交互的有效性，可以训练语音识别置信度模型，以对语音识别的识别结果的可靠性进行评价。

在现有技术中，通常采用的语音识别模型的训练方法包括：通过人工的方式对线上数据进行标注，以得到样本语音数据，并基于样本语音数据训练得到语音识别置信度模型。

然而，采用人工的方式对线上数据进行标注，需要耗费较大的人力，且样本语音数据的质量容易受人为主观因素的影响，导致训练的可靠性偏低的技术问题。

发明内容

本公开提供了一种用于降低成本的语音识别模型的训练方法、语音交互方法及装置。

根据本公开的第一方面，提供了一种语音识别模型的训练方法，包括：

获取语音交互先验信息，并基于所述语音交互先验信息生成初始语音数据；

获取实际语音数据，并将所述实际语音数据添加至所述初始语音数据中，得到样本语音数据；

根据所述样本语音数据训练得到语音识别置信度模型，所述语音识别置信度模型用于语音交互场景中的语音交互。

根据本公开的第二方面，提供了一种语音交互方法，包括：

获取用户发起的交互语音数据，对所述交互语音数据进行识别，得到待分析识别结果；

基于语音识别置信度模型对所述待分析识别结果进行分析，得到所述待分析识别结果的语音置信度，其中，所述语音识别置信度模型是基于第一方面所述的方法得到的；

根据所述语音置信度确定用于反馈所述交互语音数据的反馈语音数据。

根据本公开的第三方面，提供了一种语音识别模型的训练装置，包括：

第一获取单元，用于获取语音交互先验信息；

生成单元，用于基于所述语音交互先验信息生成初始语音数据；

第二获取单元，用于获取实际语音数据；

添加单元，用于将所述实际语音数据添加至所述初始语音数据中，得到样本语音数据；

训练单元，用于根据所述样本语音数据训练得到语音识别置信度模型，所述语音识别置信度模型用于语音交互场景中的语音交互。

根据本公开的第四方面，提供了一种语音交互装置，包括：

第三获取单元，用于获取用户发起的交互语音数据；

识别单元，用于所述交互语音数据进行识别，得到待分析识别结果；

分析单元，用于基于语音识别置信度模型对所述待分析识别结果进行分析，得到所述待分析识别结果的语音置信度，其中，所述语音识别置信度模型是基于如第二方面所述的装置得到的；

反馈单元，用于根据所述语音置信度确定用于反馈所述交互语音数据的反馈语音数据。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法；或者，以使所述至少一个处理器能够执行第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法；或者，所述计算机指令用于使所述计算机执行第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法；或者，所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的方法。

根据本公开的第八方面，提供了一种交互设备，包括：

语音采集装置，用于采集用户发起的交互语音数据；

如第四方面所述的语音交互装置。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是可以实现本公开实施例的语音交互方法的场景图；

图2是根据本公开第一实施例的示意图；

图3是根据本公开第二实施例的示意图；

图4是根据本公开第三实施例的示意图；

图5是根据本公开第四实施例的示意图；

图6是根据本公开第五实施例的示意图；

图7是根据本公开第六实施例的示意图；

图8是根据本公开第七实施例的示意图；

图9是根据本公开第八实施例的示意图；

图10是用来实现本公开实施例的语音识别模型的训练方法、语音交互方法的电子设备的框图；

图11是本公开实施例的语音交互方法的原理示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

语音交互是指，基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。

例如，结合图1可知，用户101可以与车辆102之间进行语音交互，且通过语音交互可以实现对车辆102的控制，如控制车辆102播放音乐，或者，请求车辆102输出导航路径等。

又如，用户101可以与机器人103进行语音交互，若机器人103被放置于商场时，则用户101可以基于语音交互实现查找商场的店铺位置等。

再如，用户101可以与智能音箱104之间进行语音交互，且通过语音交互可以实现控制智能音箱104播放音乐，或者讲述故事等。

应该理解的是，上述实施例只是用于示范性地说明，语音交互可能适用的应用场景，而不能理解为对语音交互的应用场景的限定。

为了提高语音交互的准确性和可靠性，通常需要采用语音识别置信度模型对语音识别的识别结果的可靠性进行评价，在相关技术中，通常采用人工标注的方式对线上的语音数据进行标注，以获取样本语音数据，并基于样本语音数据训练得到语音识别置信度模型。

然而，通过人工标注得到的样本语音数据，容易受到人为主观因素的影响，由于标注质量的差异而导致样本语音数据的质量也参差不齐，从而造成人工成本偏高，且训练效果不佳的技术问题。

为了避免上述技术问题中的至少一种，本公开的发明人经过创造性地劳动，得到了本公开的发明构思：结合语音交互先验信息确定部分样本语音数据，并结合实际语音数据得到完整的样本语音数据，以基于完整的样本语音数据训练生成语音识别置信度模型。

基于上述发明构思，本公开提供一种语音识别模型的训练方法、语音交互方法及装置，涉及人工智能技术中的语音技术和深度学习技术，可以应用于人机交互等语音识别的场景，以提高训练的准确性和可靠性。

图2是根据本公开第一实施例的示意图，如图1所示，本公开实施例的语音识别模型的训练方法，包括：

S201：获取语音交互先验信息，并基于语音交互先验信息生成初始语音数据。

示例性地，本实施例的执行主体可以语音识别模型的训练装置(下文简称为训练装置)，训练装置可以为服务器(如本地服务器，或者，云端服务器)，也可以为计算机，也可以为终端设备，也可以为处理器，也可以为芯片等，本实施例不做限定。

语音交互先验信息是指，与语音数据相关的先验知识，如基于历史的语音交互而总结得到的与语音数据相关的信息。

其中，语音交互先验信息具体可以为在语音交互场景下，与语音数据相关的先验知识。针对不同的语音交互场景，语音交互先验信息的内容可能相同，也可能不同。

例如，结合图1所示的应用场景和上述针对图1的描述，图1中所示的用户与车辆的语音交互场景，语音交互先验信息可以包括如与音乐相关的语音数据，而图1中所示的用户与智能音箱的语音交互场景，语音交互先验信息也可以包括如与音乐相关的语音数据。

又如，结合图1所示的应用场景和上述针对图1的描述，图1中所示的用户与车辆的语音交互场景，语音交互先验信息可以包括如与导航相关的语音数据，而图1中所示的用户与机器人的语音交互场景，语音交互先验信息可以包括如与商铺评价相关的语音数据。

在本实施例中，通过结合语音交互先验信息生成初始语音数据，可以使得初始语音数据与先验知识相贴合，从而提高初始语音数据的量，增加初始语音数据的内容，以及增强初始语音数据的丰富程度，避免了人工标注造成的人工成本偏低的弊端，节约了人力资源。

S202：获取实际语音数据，并将实际语音数据添加至初始语音数据中，得到样本语音数据。

其中，实际语音数据是指，真实语音数据，具体可以为在在语音交互场景中的真实语音数据，包括用于语音交互的交互语音数据，也包括噪音数据。

例如，结合图1所示的应用场景和上述针对图1的描述，在图1中所示的用户与车辆的语音交互场景中，用户在向车辆发起交互语音数据时，还可能有其他的噪音数据，如车辆的行驶噪音数据，又如车辆的其他用户的噪音数据，再如车辆内空调噪音数据等。

在本实施例中，将实际语音数据作为样本语音数据中的部分语音数据，相当于样本语音数据为加噪处理后的语音数据，既可以提高训练语音识别置信度模型时，保持语音交互的真实性，还可以提高训练的可靠性和有效性的技术效果。

S203：根据样本语音数据训练得到语音识别置信度模型，语音识别置信度模型用于语音交互场景中的语音交互。

基于上述分析可知，本公开实施例提供了一种语音识别模型的训练方法，包括：获取语音交互先验信息，并基于语音交互先验信息生成初始语音数据，获取实际语音数据，并将实际语音数据添加至初始语音数据中，得到样本语音数据，根据样本语音数据训练得到语音识别置信度模型，语音识别置信度模型用于语音交互场景中的语音交互，在本实施例中，引入了：基于语音交互先验信息生成初始语音数据，并基于初始语音数据和实际语音数据确定样本语音数据，以基于样本语音数据训练得到语音识别置信度模型的技术特征，避免了相关技术中人工标注造成的人工成本偏高、且可靠性偏低的弊端，节约了人力资源，且增加了样本语音数据表征的内容，增强了样本语音数据的丰富程度，提高了训练的可靠性和有效性的技术效果。

图3是根据本公开第二实施例的示意图，如图3所示，本公开实施例的语音识别模型的训练方法，包括：

S301：获取语音交互先验信息。

其中，关于S301的实现原理，可以参见第一实施例，此处不再赘述。

在一些实施例中，语音交互先验信息包括：专家语音信息、语音识别相关的语音信息、语音句式相关的语音信息中的至少一种。

其中，专家语音信息是指，由专家基于语音交互场景确定的与语音数据相关的先验知识。

具体地，专家语音信息可以为，语音交互场景的专家语音信息。例如，在语音交互场景中，与专业术语相关的语音数据，与语法逻辑相关的语音数据等。

语音识别相关的语音信息是指，与语音识别结果等相关的语音信息。

具体地，语音识别相关的语音信息可以为，语音交互场景中，与语音识别结果等相关的语音信息。例如，在导航的语音交互场景，与导航的语音识别结果相关的语音数据等。

语音句式相关的语音信息是指，与语音的句式结构相关的语音信息。

具体地，语音句式相关的语音信息可以为，语音交互场景中语音的句式结构相关的语音信息。例如，在导航的语音交互场景中，“XX(人)去XX(地)”等语音的句式结构相关的语音信息。

在本实施例中，由于语音交互先验信息可以包括上述三个维度中的语音信息中的一种或多种，可以使得语音交互先验信息具有多样性和全面性，从而当基于语音交互先验信息确定初始语音数据时，使得初始语音数据具有较为全面的覆盖性，即具有较高的全面性和完整性。

S302：根据语音交互先验信息确定初始语音数据的语音句式信息，并生成与语音句式信息对应的语音文本。

在一些实施例中，可以基于文法、语言、正则表达式等生成与语音句式信息对应的语音文本。

S303：对每一语音文本进行语音合成处理，得到初始语音数据。

在一些实施例中，可以基于从文本到语音(TextToSpeech，TTS)方式对每一语音文本进行语音合成处理，得到初始语音数据，以提高文本转语音的准确率和效率，且可以使得初始语音数据的量相对较大，从而使得语音识别置信度模型的训练较为充分。

值得说明地是，在本实施例中，通过确定语音文本，以结合语音合成处理的方式得到初始语音数据，可以避免因人工标准产生的弊端，提高了确定初始语音数据的效率和可靠性的技术效果。

S304：获取实际语音数据，并将实际语音数据添加至初始语音数据中，得到样本语音数据。

其中，关于S304的实现原理，可以参见第一实施例，此处不再赘述。

在一些实施例中，实际语音数据可以为模拟真实的噪声环境而仿制线上数据得到的，无需依赖于人工标注，节省了大量人力成本。

在一些实施例中，可以对样本语音数据进行降噪处理，以对样本语音数据进行过滤处理，以提高训练效率。

S305：对样本语音数据进行解码处理，得到语音特征和文本特征。

在一些实施例中，可以预先构建包括声学模型和语言模型的解码系统(解码系统支持解码算法N-best)，以便由解码系统对样本语音数据进行解码处理，得到语音特征和文本特征。

例如，可以将样本语音数据输入至解码系统，由声学模型对样本语音数据进行特征提取等处理，直至由声学模型的输出层输出样本语音数据的语音特征(可以称为输出向量)。

其中，语音特征是指，样本语音数据在音频上的特征，如样本语音数据在音色上的特征、样本语音数据在音质上的特征、以及样本语音数据在发音上的特征(如样本语音数据中的每一个片段对应的发音特征)等。

由声学模型和语言模型对样本语音数据共同进行处理，以由声学模型和语音模型共同输出样本语音数据的文本特征。

其中，文本特征是指，样本语音数据在文本上的特征，如样本语音数据的文本内容(如文字和字段等)。

值得说明地是，在本实施例中，通过确定语音特征和文本特征，以结合语音特征和文本特征训练得到语音识别置信度模型，由于用于训练得到语音识别置信度模型的特征中既包括语音特征，又包括文本特征，因此，可以使得用于训练得到语音识别置信度模型的特征具有全面性和完整性，进而可以提高语音识别置信度模型的准确性和有效性的技术效果。

S306：根据语音特征获取样本语音数据中的预设易错词，并根据预设易错词对语音特征进行调整，得到调整后的语音特征。

示例性地，预设易错词可以基于需求、历史记录、以及试验等方式进行确定，本实施例不做限定。

该步骤可以理解为，训练装置中预先设置有预设易错词，在确定出语音特征之后，可以样本语音数据中是否包括预设易错词，若是，则根据预设易错词对语音特征进行特征。

在本实施例中，通过结合预设易错词进行训练，可以增加用于训练得到语音识别置信度模型的负例数据，以在训练过程中，不断增强语音识别置信度模型的判别能力和识别能力，从而提高语音识别置信度模型的抗干扰能力，进而提高语音识别置信度模型应用时的准确性和可靠性的技术效果。

在一些实施例中，S306可以包括如下步骤：

第一步骤：从预先设置的负例组对中获取与预设易错词对应的替换词，其中，负例组对用于表征易错词与替换词之间的对应关系。

第二步骤：将替换词对预设易错词进行替换处理，得到调整后的语音特征。

例如，在负例组对中，预设易错词中包括“听”，与预设易错词“听”对应的替换词“清”，则若训练装置确定样本语音数据中包括预设易错词“听”，则将样本语音数据的预设易错词“听”替换为替换词“清”。

值得说明地是，在本实施例中，通过结合负例组对确定调整后的语音特征，以便以易错词与替换词之间的对应关系进行替换处理，从而提高替换处理的可靠性和效率的技术效果。

S307：根据文本特征和调整后的语音特征，训练得到语音识别置信度模型。

在一些实施例中，S307可以包括如下步骤：

第一步骤：对语音特征和调整后的语音特征进行识别处理，得到与样本语音数据对应的识别结果。

第二步骤：基于识别结果对预设基础网络模型的参数进行调整，得到语音识别置信度模型。

本实施例对基础网络模型的类型(如卷积神经网络模型，或者，卷积神经网络模型等)、以及基础网络模型的结构(如卷积核的数量等)等不做限定。

在一些实施例中，第二步骤可以包括如下子步骤：

第一子步骤：计算识别结果与预设标准结果之间的编辑距离，并根据编辑距离确定识别结果的识别标签类型，识别标签类型为正例标签或者负例标签。

其中，编辑距离是指，识别结果与预设标准结果之间的差异程度的量化信息。

在一些实施例中，具体可以对识别结果的字符串、与预设标准结果的字符串之间差异进行计算，从而得到编辑距离。

正例标签是指，识别结果与预设标准结果之间相差不大，即识别结果符合预设标准结果的需求。反之，负例标签是指，识别结果与预设标准结果之间相差较大，即识别结果不符合预设标准结果的需求。

第二子步骤：根据识别标签类型和预设标准标签类型对基础网络模型的参数进行调整，得到语音识别置信度模型。

值得说明地是，在本实施例中，通过结合编辑距离、正例标签、以及负例标签，训练得到语音识别置信度模型，相当于从正负标签两个维度进行训练，可以提高训练维度的多样性和灵活性，从而提高语音识别置信度模型的抗干扰能力和区分能力，进而提高语音识别置信度模型应用时的有效性和准确性的技术效果。

图4是根据本公开第三实施例的示意图，如图4所示，本公开实施例的语音交互方法，包括：

S401：获取用户发起的交互语音数据，对交互语音数据进行识别，得到待分析识别结果。

示例性地，本实施例的执行主体可以为语音交互装置，语音交互装置可以为与训练装置相同的装置，也可以为不同的装置，本实施例不做限定。

例如，若语音交互装置为与训练装置不同的装置，则可以由训练装置执行如上任意实施例的语音识别模型的训练方法，得到语音识别置信度模型后，将语音识别置信度模型传输给语音交互装置，由语音交互装置对语音识别置信度模型进行部署，并基于语音识别置信度模型实现语音交互。

结合如图1所示的应用场景，语音交互装置可以为车辆(具体可以为如车辆中的车载终端等)，也可以为机器人，也可以为智能音箱。

具体地，当本实施例的语音交互方法应用于如图1中所述的用户与车辆的语音交互场景时，车辆上可以设置有声音采集装置(如麦克风等)，并通过声音采集装置获取用户发起的交互语音数据。

S402：基于语音识别置信度模型对待分析识别结果进行分析，得到待分析识别结果的语音置信度。

其中，语音识别置信度模型是基于上述任一实施例所述的语音识别模型的训练方法得到的。

基于上述分析，由于语音置信度模型具有较高的准确性和可靠性，因此，当基于语音置信度模型对待分析识别结果进行分析时，可以使得分析具有较高的可靠性，进而提高语音置信度的准确性和可靠性的技术效果。

S403：根据语音置信度确定用于反馈交互语音数据的反馈语音数据。

基于上述分析，由于语音置信度具有较高的准确性和可靠性，因此，当基于语音置信度确定反馈语音数据时，可以使得反馈语音数据与交互语音数据之间具有高度关联性，从而满足用户的交互需求，提高用户的交互体验。

图5是根据本公开第四实施例的示意图，如图5所示，本公开实施例的语音交互方法，包括：

S501：获取用户发起的交互语音数据。

示例性地，关于S501的实现原理，可以参见上述实施例，此处不再赘述。

S502：对交互语音数据进行降噪处理，得到降噪处理后的语音数据。

在本实施例中，通过对交互语音数据进行降噪处理，可以避免语音交互被噪声语音干扰，以提高交互的可靠性的技术效果。

S503：对降噪后的交互语音数据进行解码处理，得到待识别语音特征和待识别文本特征。

结合上述实施例，待分析识别结果包括待识别语音特征和待识别文本特征。

其中，关于对降噪后的交互语音数据进行解码处理的实现原理，可以参见实施例中对样本语音数据的解码处理的实现原理，此处不再赘述。

S504：基于语音识别置信度模型对待识别语音特征和待识别文本特征进行分析，得到语音置信度。

图6是根据本公开第五实施例的示意图，如图6所示，本公开实施例的语音识别模型的训练装置600，包括：

第一获取单元601，用于获取语音交互先验信息。

生成单元602，用于基于语音交互先验信息生成初始语音数据。

第二获取单元603，用于获取实际语音数据。

添加单元604，用于将实际语音数据添加至所述初始语音数据中，得到样本语音数据。

训练单元605，用于根据样本语音数据训练得到语音识别置信度模型，语音识别置信度模型用于语音交互场景中的语音交互。

图7是根据本公开第六实施例的示意图，如图7所示，本公开实施例的语音识别模型的训练装置700，包括：

第一获取单元701，用于获取语音交互先验信息。

生成单元702，用于基于语音交互先验信息生成初始语音数据。

结合图7可知，在一些实施例中，生成单元702，包括：

确定子单元7021，用于根据语音交互先验信息确定初始语音数据的语音句式信息。

生成子单元7022，用于生成与语音句式信息对应的语音文本。

合成子单元7023，用于对每一语音文本进行语音合成处理，得到初始语音数据。

第二获取单元703，用于获取实际语音数据。

添加单元704，用于将实际语音数据添加至所述初始语音数据中，得到样本语音数据。

降噪单元705，用于对样本语音数据进行降噪处理。

训练单元706，用于根据样本语音数据训练得到语音识别置信度模型，语音识别置信度模型用于语音交互场景中的语音交互。

结合图7可知，在一些实施例中，训练单元706，包括：

解码子单元7061，用于对样本语音数据进行解码处理，得到语音特征和文本特征。

训练子单元7062，用于根据语音特征和文本特征训练得到语音识别置信度模型。

在一些实施例中，训练子单元7062，包括：

获取模块，用于根据语音特征获取样本语音数据中的预设易错词。

第一调整模块，用于根据预设易错词对语音特征进行调整，得到调整后的语音特征。

在一些实施例中，第一调整模块，包括：

获取子模块，用于从预先设置的负例组对中获取与预设易错词对应的替换词，其中，负例组对用于表征易错词与替换词之间的对应关系。

替换子模块，用于将替换词对预设易错词进行替换处理，得到调整后的语音特征。

训练模块，用于根据文本特征和调整后的语音特征，训练得到语音识别置信度模型。

在一些实施例中，训练子单元7062，包括：

识别模块，用于对所述语音特征和文本特征进行识别处理，得到与样本语音数据对应的识别结果。

第二调整模块，用于基于识别结果对预设基础网络模型的参数进行调整，得到语音识别置信度模型。

在一些实施例中，第二调整模块，包括：

计算子模块，用于计算识别结果与预设标准结果之间的编辑距离。

确定子模块，用于根据编辑距离确定识别结果的识别标签类型，识别标签类型为正例标签或者负例标签。

调整子模块，用于根据识别标签类型和预设标准标签类型对基础网络模型的参数进行调整，得到语音识别置信度模型。

图8是根据本公开第七实施例的示意图，如图8所示，本公开实施例的语音交互装置800，包括：

第三获取单元801，用于获取用户发起的交互语音数据。

识别单元802，用于交互语音数据进行识别，得到待分析识别结果。

分析单元803，用于基于语音识别置信度模型对待分析识别结果进行分析，得到待分析识别结果的语音置信度，其中，语音识别置信度模型是基于如上任一项所述的语音识别模型的训练装置得到的。

反馈单元804，用于根据语音置信度确定用于反馈交互语音数据的反馈语音数据。

图9是根据本公开第八实施例的示意图，如图9所示，本公开实施例的语音交互装置900，包括：

第三获取单元901，用于获取用户发起的交互语音数据。

识别单元902，用于交互语音数据进行识别，得到待分析识别结果。

结合图9可知，在一些实施例中，识别单元902，包括：

降噪子单元9021，用于对交互语音数据进行降噪处理，得到降噪处理后的语音数据。

识别子单元9022，用于对降噪处理后的语音数据进行识别，得到待分析识别结果。

在一些实施例中，待分析识别结果包括待识别语音特征和待识别文本特征；识别单元902用于，对交互语音数据进行解码处理，得到待识别语音特征和待识别文本特征。

分析单元903，用于基于语音识别置信度模型对待分析识别结果进行分析，得到待分析识别结果的语音置信度，其中，语音识别置信度模型是基于如上任一项所述的语音识别模型的训练装置得到的。

反馈单元904，用于根据语音置信度确定用于反馈交互语音数据的反馈语音数据。

需要说明的是，本实施例中的语音识别置信度模型并不是针对某一特定用户的模型，并不能反映出某一特定用户的个人信息。需要说明的是，本实施例中的语音数据来自于公开数据集。

本公开的技术方案中，所涉及的用户相关信息(如用户的交互语音数据等)的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如语音识别模型的训练方法、语音交互方法。例如，在一些实施例中，语音识别模型的训练方法、语音交互方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的语音识别模型的训练方法、语音交互方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音识别模型的训练方法、语音交互方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开实施例的另一个方面，本公开实施例提供了一种交互设备，包括：

语音采集装置，用于采集用户发起的交互语音数据。

如上任一实施例所述的语音交互装置。

示例性地，结合图1所示的应用场景，交互设备可以为如图1中所示的车辆(具体可以为设置于车辆的车载终端)，也可以为如图1中所示的智能音箱，也可以为如图1中所示的机器人，当然，也可以为其他场景中可以用于与用户进行语音交互的设备，此处不再一一列举。

当交互设备为车辆时，如图11所示，车辆1100包括：语音采集装置(具体可以为麦克风等拾音装置)1101、降噪装置1102、语音交互装置1103。

其中，语音交互装置1103中部署有：基于上述任一实施例所述的语音识别模型的训练方法训练得到的语音识别置信度模型11031。

用户发起语音交互数据，其中，用户可以为车辆1100中的驾驶员，也可以为其他乘客，且在用户发起语音交互数据之前，可以先基于预先设置的唤醒词对车辆1100的语音交互功能进行唤醒。

相应地，语音采集装置1101可以获取语音交互数据，并将语音交互数据传输给降噪装置1102。

相应地，降噪装置1102接收语音交互数据，并对语音交互数据进行降噪处理，以对语音交互数据中的噪音语音进行过滤，且将过滤后的语音交互数据传输给语音交互装置1103。

例如，若车辆1100正在播放音乐，则语音交互数据可能夹杂着音乐语音数据，而降噪装置1102可以对该部分音乐语音数据进行过滤处理，以提高交互的可靠性。

相应地，语音交互装置1103获取过滤后的语音交互数据，并基于其内部署的语音识别置信度模型11031对滤后的语音交互数据进行分析，生成并输出反馈语音数据，以对用户发起的语音交互数据进行响应。

其中，语音识别置信度模型11031经分析得到的分析结果的不同，会使得反馈语音数据的不同。

例如，若语音交互数据为导航类的语音交互数据，如语音交互数据为“我要去XX广场”，若语音识别置信度模型11031对其分析得到的分析结果表征，语音交互装置1103对“我要去XX广场”的识别的置信度偏高，则反馈语音数据可以为针对“我要去XX广场”的肯定答复，如“好的，主人。”

反之，若语音识别置信度模型11031对其分析得到的分析结果表征，语音交互装置1103对“我要去XX广场”的识别的置信度偏低，则反馈语音数据可以为针对“我要去XX广场”的反问式答复，如“主人，您要去哪儿？请重新指示”。

应该理解地是，上述实施例只是用于示范性地说明，本实施例中交互设备的组成元素，而不能理解为对交互设备的组成元素的限定。例如，在一些实施例中，交互设备中可以增加其他组成元素，如语音输出装置(具体可以为麦克风等)；也可以减少部分组成元素，如降噪装置等。

且在上述实施例中，各组成元素可以独立的组件，也可以为一体集成的组件，如语音采集装置可以与降噪装置一体集成等。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音识别模型的训练方法，包括：

获取语音交互先验信息，并基于所述语音交互先验信息生成初始语音数据；其中，所述语音交互先验信息包括：专家语音信息、语音识别相关的语音信息、以及语音句式相关的语音信息，所述专家语音信息是由专家基于语音交互场景确定的与语音数据相关的先验知识；

2.根据权利要求1所述的方法，其中，基于所述语音交互先验信息生成初始语音数据，包括：

根据所述语音交互先验信息确定所述初始语音数据的语音句式信息，并生成与所述语音句式信息对应的语音文本；

对每一语音文本进行语音合成处理，得到所述初始语音数据。

3.根据权利要求1或2所述的方法，其中，根据所述样本语音数据训练得到语音识别置信度模型，包括：

对所述样本语音数据进行解码处理，得到语音特征和文本特征，并根据所述语音特征和所述文本特征训练得到所述语音识别置信度模型。

4.根据权利要求3所述的方法，其中，根据所述语音特征和所述文本特征训练得到所述语音识别置信度模型，包括：

根据所述语音特征获取所述样本语音数据中的预设易错词，并根据所述预设易错词对所述语音特征进行调整，得到调整后的语音特征；

根据所述文本特征和所述调整后的语音特征，训练得到所述语音识别置信度模型。

5.根据权利要求4所述的方法，其中，根据所述预设易错词对所述语音特征进行调整，得到调整后的语音特征，包括：

从预先设置的负例组对中获取与所述预设易错词对应的替换词，其中，所述负例组对用于表征易错词与替换词之间的对应关系；

将所述替换词对所述预设易错词进行替换处理，得到所述调整后的语音特征。

6.根据权利要求3所述的方法，其中，根据所述语音特征和所述文本特征训练得到所述语音识别置信度模型，包括：

对所述语音特征和所述文本特征进行识别处理，得到与所述样本语音数据对应的识别结果；

基于所述识别结果对预设基础网络模型的参数进行调整，得到所述语音识别置信度模型。

7.根据权利要求6所述的方法，其中，基于所述识别结果对预设基础网络模型的参数进行调整，得到所述语音识别置信度模型，包括：

计算所述识别结果与预设标准结果之间的编辑距离，并根据所述编辑距离确定所述识别结果的识别标签类型，所述识别标签类型为正例标签或者负例标签；

根据所述识别标签类型和预设标准标签类型对所述基础网络模型的参数进行调整，得到所述语音识别置信度模型。

8.根据权利要求1、2、4、6、或7中任一项所述的方法，在将所述实际语音数据添加至所述初始语音数据中，得到样本语音数据之后，还包括：

对所述样本语音数据进行降噪处理。

9.一种语音交互方法，包括：

基于语音识别置信度模型对所述待分析识别结果进行分析，得到所述待分析识别结果的语音置信度，其中，所述语音识别置信度模型是基于如权利要求1至8中任一项所述的方法得到的；

10.根据权利要求9所述的方法，其中，对所述交互语音数据进行识别，得到待分析识别结果，包括：

对所述交互语音数据进行降噪处理，得到降噪处理后的语音数据，并对所述降噪处理后的语音数据进行识别，得到所述待分析识别结果。

11.根据权利要求9或10所述的方法，其中，所述待分析识别结果包括待识别语音特征和待识别文本特征；对所述交互语音数据进行识别，得到待分析识别结果，包括：

对所述交互语音数据进行解码处理，得到待识别语音特征和待识别文本特征。

12.一种语音识别模型的训练装置，包括：

第一获取单元，用于获取语音交互先验信息；其中，所述语音交互先验信息包括：专家语音信息、语音识别相关的语音信息、以及语音句式相关的语音信息，所述专家语音信息是由专家基于语音交互场景确定的与语音数据相关的先验知识；

第二获取单元，用于获取实际语音数据；

13.根据权利要求12所述的装置，其中，所述生成单元，包括：

确定子单元，用于根据所述语音交互先验信息确定所述初始语音数据的语音句式信息；

生成子单元，用于生成与所述语音句式信息对应的语音文本；

合成子单元，用于对每一语音文本进行语音合成处理，得到所述初始语音数据。

14.根据权利要求12或13所述的装置，其中，所述训练单元，包括：

解码子单元，用于对所述样本语音数据进行解码处理，得到语音特征和文本特征；

训练子单元，用于根据所述语音特征和所述文本特征训练得到所述语音识别置信度模型。

15.根据权利要求14所述的装置，其中，所述训练子单元，包括：

获取模块，用于根据所述语音特征获取所述样本语音数据中的预设易错词；

第一调整模块，用于根据所述预设易错词对所述语音特征进行调整，得到调整后的语音特征；

训练模块，用于根据所述文本特征和所述调整后的语音特征，训练得到所述语音识别置信度模型。

16.根据权利要求15所述的装置，其中，所述第一调整模块，包括：

获取子模块，用于从预先设置的负例组对中获取与所述预设易错词对应的替换词，其中，所述负例组对用于表征易错词与替换词之间的对应关系；

替换子模块，用于将所述替换词对所述预设易错词进行替换处理，得到所述调整后的语音特征。

17.根据权利要求14所述的装置，其中，所述训练子单元，包括：

识别模块，用于对所述语音特征和所述文本特征进行识别处理，得到与所述样本语音数据对应的识别结果；

第二调整模块，用于基于所述识别结果对预设基础网络模型的参数进行调整，得到所述语音识别置信度模型。

18.根据权利要求17所述的装置，其中，所述第二调整模块，包括：

计算子模块，用于计算所述识别结果与预设标准结果之间的编辑距离；

确定子模块，用于根据所述编辑距离确定所述识别结果的识别标签类型，所述识别标签类型为正例标签或者负例标签；

调整子模块，用于根据所述识别标签类型和预设标准标签类型对所述基础网络模型的参数进行调整，得到所述语音识别置信度模型。

19.根据权利要求12、13、15、16或18中任一项所述的装置，还包括：

降噪单元，用于对所述样本语音数据进行降噪处理。

20.一种语音交互装置，包括：

第三获取单元，用于获取用户发起的交互语音数据；

分析单元，用于基于语音识别置信度模型对所述待分析识别结果进行分析，得到所述待分析识别结果的语音置信度，其中，所述语音识别置信度模型是基于如权利要求12至19中任一项所述的装置得到的；

21.根据权利要求20所述的装置，其中，所述识别单元，包括：

降噪子单元，用于对所述交互语音数据进行降噪处理，得到降噪处理后的语音数据；

识别子单元，用于对所述降噪处理后的语音数据进行识别，得到所述待分析识别结果。

22.根据权利要求20或21所述的装置，其中，所述待分析识别结果包括待识别语音特征和待识别文本特征；所述识别单元用于，对所述交互语音数据进行解码处理，得到待识别语音特征和待识别文本特征。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法；或者，以使所述至少一个处理器能够执行权利要求9至11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1至8中任一项所述的方法；或者，所述计算机指令用于使所述计算机执行权利要求9至11中任一项所述的方法。

25.一种交互设备，包括：

语音采集装置，用于采集用户发起的交互语音数据；

如权利要求20至22中任一项所述的语音交互装置。