CN112712793A

CN112712793A - 语音交互下基于预训练模型的asr纠错方法及相关设备

Info

Publication number: CN112712793A
Application number: CN202011531937.3A
Authority: CN
Inventors: 莫琪
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-27

Abstract

本申请实施例属于人工智能领域，应用于智慧城市领域中，涉及一种语音交互下基于预训练模型的ASR纠错方法，包括当检测到播报用户的播报指令，则将所述播报指令发送到电话平台；发送给目标客户播报话术，并将目标客户的响应话术发送给ASR平台；当检测到所述ASR平台接收到所述响应话术，并进行文本转换，将转换得到的响应文本发送到NLP纠错平台进行文本纠错，在所述文本纠错结果为转换有误时，根据预设判别策略对所述响应文本进行判别处理，再将判别后得到的响应文本发送到所述NLP纠错平台，重复文本纠错的操作，直到所述文本纠错结果为转换无误，将与播报话术发送给所述目标客户，直到AI播报平台播报结束。采用本方法可大大提高播报话术的准确率。

Description

语音交互下基于预训练模型的ASR纠错方法及相关设备

技术领域

本申请涉及人工智能领域，特别是涉及一种语音交互下基于预训练模型的ASR纠错方法、装置、计算机设备和存储介质。

背景技术

语音系统中语音内容识别(ASR)的精确性，是影响电话销售产品发展的关键制约因素，用户query的文本，通常是由ASR系统将用户的语音命令转换而成，但是由于技术限制，生成的文本可能包含错误，继而导致后续的用户意图理解出现偏差。如何利用NLP技术对ASP的query文本进行预处理纠错成了一个亟待解决的问题。

特别是在语音交互下的电销系统中，一般这种语音交互系统包括多个平台，比如：电话平台、AI播报平台，在利用NLP技术对ASP的query文本进行预处理中，会涉及非常多的语音相关的工作，比如目标客户所在的环境比较嘈杂，就还需要对客户的回应语音进行去噪等操作，并记录噪音或者识别错误等情况，例如误操作唤醒录入了噪音；或者语音记录过程中，把某种声音误以为是人的声音而记录了下来，在识别时转译成了错误文本。因为电销过程中，还需要根据用户回应做出相应的回答，但是基于错误的回应文本极大概率也会得到错误的播报话术。

所以如何对此场景下的语音数据进行纠错，成了亟待解决的问题。

发明内容

基于此，针对上述技术问题，本申请提供一种语音交互下基于预训练模型的ASR纠错方法、装置、计算机设备及存储介质，以解决现有技术中语音交互下对用户的响应话术分析不准确，导致的基于错误的响应文本返回错误的播报话术的技术问题。

一种语音交互下基于预训练模型的ASR纠错方法，应用于语音交互系统中，其中，所述语音交互系统包括电话平台、AI播报平台、ASR平台以及NLP纠错平台，所述方法包括：

当检测到播报用户的播报指令，则将所述播报指令发送到电话平台，其中，所述播报指令用于指示所述电话平台实现与目标客户之间的通话连接；

若检测到所述电话平台与所述目标客户之间通话连接成功，则指示所述AI播报平台根据所述播报指令生成播报话术发送给目标客户，并将目标客户的响应话术发送给ASR平台；

当检测到所述ASR平台接收到所述响应话术，则指示所述ASR平台基于预设转换策略对所述响应话术进行文本转换，并将转换得到的响应文本发送到NLP纠错平台进行文本纠错，得到文本纠错结果；

在所述文本纠错结果为转换有误时，根据预设判别策略对所述响应文本进行判别处理，再将判别后得到的响应文本发送到所述NLP纠错平台，重复文本纠错的操作，直到所述文本纠错结果为转换无误；

在所述文本纠错结果为转换无误时，指示所述AI播报平台将与所述响应话术对应的播报话术发送给所述目标客户，并重复获取目标客户的响应文本、文本转换、文本纠错的操作，直到AI播报平台播报结束。

一种语音交互下基于预训练模型的ASR纠错装置，应用于语音交互系统中，其中，所述语音交互系统包括电话平台、AI播报平台、ASR平台以及NLP纠错平台，所述装置包括：

连接模块，用于当检测到播报用户的播报指令，则将所述播报指令发送到电话平台，其中，所述播报指令用于指示所述电话平台实现与目标客户之间的通话连接；

响应模块，用于若检测到所述电话平台与所述目标客户之间通话连接成功，则指示所述AI播报平台根据所述播报指令生成播报话术发送给目标客户，并将目标客户的响应话术发送给ASR平台；

纠错模块，用于当检测到所述ASR平台接收到所述响应话术，则指示所述ASR平台基于预设转换策略对所述响应话术进行文本转换，并将转换得到的响应文本发送到NLP纠错平台进行文本纠错，得到文本纠错结果；

判别模块，用于在所述文本纠错结果为转换有误时，根据预设判别策略对所述响应文本进行判别处理，再将判别后得到的响应文本发送到所述NLP纠错平台，重复文本纠错的操作，直到所述文本纠错结果为转换无误；

播报模块，用于在所述文本纠错结果为转换无误时，指示所述AI播报平台将与所述响应话术对应的播报话术发送给所述目标客户，并重复获取目标客户的响应文本、文本转换、文本纠错的操作，直到AI播报平台播报结束。

一种计算机设备，包括存储器和处理器，以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述语音交互下基于预训练模型的ASR纠错方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述语音交互下基于预训练模型的ASR纠错方法的步骤。

上述语音交互下基于预训练模型的ASR纠错方法、装置、计算机设备和存储介质，通过在对用户的响应话术进行文本转换后，对转换得到的响应文本输入到NLP纠错平台进行文本纠错处理，得到文本纠错结果，并根据文本纠错结果决定是对响应文本进行判断别处理后再进行播报还是直接为用户进行播报话术的播报，可以在源头解决文本转换有误，导致的返回的播报话术错误的技术问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为语音交互下基于预训练模型的ASR纠错方法的应用环境示意图；

图2为语音交互下基于预训练模型的ASR纠错方法的流程示意图；

图3为语音交互下基于预训练模型的ASR纠错装置的示意图；

图4为一个实施例中计算机设备的示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音交互下基于预训练模型的ASR纠错方法，可以应用于如图1所示的应用环境中。其中，该应用环境可以包括终端102、网络以及服务端104，网络用于在终端102和服务端104之间提供通信链路介质，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端102通过网络与服务端104交互，以接收或发送消息等。终端102上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端102可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务端104可以是提供各种服务的服务器，例如对终端102上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的语音交互下基于预训练模型的ASR纠错方法一般由服务端/终端执行，相应地，语音交互下基于预训练模型的ASR纠错装置一般设置于服务端/终端设备中。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请可应用于智慧城市领域中，特别是可以应用于智慧银行领域，从而推动智慧城市的建设。

应该理解，图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

其中，终端102通过网络与服务端104进行通信。服务端104检测播报用户的播报指令，并指示电话平台与终端102所对应的目标客户进行连接，然后根据AI播报平台获取目标客户根据播报的话术返回的响应话术，并对基于响应话术转换得到的响应文本进行纠错处理，然后依据纠错后的文本纠错结果判断是否对响应文本进行判别处理后再对终端102对应的目标客户进行语音播报。其中，终端102和服务端104之间通过网络进行连接，该网络可以是有线网络或者无线网络，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音交互下基于预训练模型的ASR纠错方法，应用于语音交互系统中，其中，所述语音交互系统包括电话平台、AI播报平台、ASR平台以及NLP纠错平台，以该方法应用于图1中的服务端为例进行说明，包括以下步骤：

步骤202，当检测到播报用户的播报指令，则将播报指令发送到电话平台，其中，播报指令用于指示电话平台实现与目标客户之间的通话连接。

本申请主要应用于涉及实时语音交互的电话销售场景中，特别是涉及实时语音-文本之间转换的电话销售场景中。在一些实施例中，本申请可以应用于电话销售场景中，其中，该电话销售场景包括电话平台、AI播报平台、ASR平台以及NLP纠错平台。电话销售系统服务器实时或者定时检测播报用户，即播报话术发起端通过手机终端或者电脑终端发送的播报指令，并将播报指令发送到电话平台，以指示电话平台从播报指令中获取目标用户的目标信息，并基于目标信息实现电话平台与目标用户之间的通话连接。其中，播报指令中包括目标用户的目标信息，例如：微信、QQ、网络电话或者手机号码等各种可以联系上目标用户，并与目标用户进行语音沟通的通话信息中的一种。此外，播报指令中还包括意图信息，即，本次发起通话连接的意图信息。

在一些实施例中，目标信息为用户的手机号码信息，意图信息为获取目标是否有意愿获取某项虚拟对象或者实体对象的指令数据，其中，虚拟对象可以是参与某优惠活动的邀请券，实体对象为某实体产品，比如，汽车。

步骤204，若检测到电话平台与目标客户之间通话连接成功，则指示AI播报平台根据播报指令生成播报话术发送给目标客户，并将目标客户的响应话术发送给ASR平台。

当检测到通话连接成功，则指示AI播报平台根据播报指令中的意图信息生成播报话术发送给目标客户。具体地，指示AI播报平台从播报指令中获取意图信息，生成意图信息的词向量，并根据词向量匹配得到对应的播报话术发送给目标客户。

在一些实施例中，播报指令可以是一个基于http协议的操作请求，那么意图信息可以被保存在请求头中，从播报指令中获取意图信息。在一些实施例中，意图信息为询问目标用户是否有意图获取某项虚拟对象。对意图信息“询问目标用户是否有意图获取某项虚拟对象”进行关键词提取，然后将提取到的关键词转换为意图词向量，并计算与该意图词向量对应的播报词向量；其中，同一意图信息对应至少一个播报词向量，每个播报词向量对应一个播报话术，该播报话术为通过不同的语气、某些不同措辞表示的同一件事；多条播报词向量用于向不同的目标客户发送不同的播报话术，以提高播报的真实性。

本实施例可以通过根据不同的播报词向量对应的播报话术的播报成功率，选择最佳的播报话术发送给目标客户，其中，播报成功率为接收到目标用户的响应话术的响应成功率。例如，根据意图信息生成的播报话术为“请问XXX是否愿意接受我方提供的某优惠活动的邀请券吗？”，并将这句播报话术发送给目标用户，当接收到目标根据该播报话术返回的响应话术“麻烦解释一下这个邀请券的用处吧”之后，则将播报话术发送到ASR平台。

在本实施例中，因为意图信息的文本长度比较短，一般是由短句或者多个词语组成，为了提高数据的处理效率，可以通过独热编码(one-hot encoder)的方式将意图信息转换为意图词向量，然后与播报数据库中的播报词向量进行匹配。其中，在匹配时，可以通过余弦相似度计算意图词向量与播报词向量之间的相似度，来确定对应的播报话术。

步骤206，当检测到ASR平台接收到响应话术，则指示ASR平台基于预设转换策略对响应话术进行文本转换，并将转换得到的响应文本发送到NLP纠错平台进行文本纠错，得到文本纠错结果。

ASR平台为实现自动语音识别的平台，目标是让计算机能够“听写”出不同人所说出的连续语音，也就是俗称的“语音听写机”，是实现“声音”到“文字”转换的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer SpeechRecognition)。因为在进行电话销售时，目标用户的响应话术的背景存在噪音，比如会有两个以上的人在讲话，或者有在放背景音乐，或者有在播放影视剧，或者会有在比较嘈杂的环境等，这都会导致会将背景噪音也进行文本转换，导致得到的响应文本不准确，无法对目标用户的响应话术进行准确的识别，在一些实施例中，可以基于去噪的方式对文本进行转换。

具体地，ASR平台对响应话术进行以下处理：

指示ASR平台对响应话术进行声纹识别，以确定至少一种声音特征的语音数据，并获取各声音特征的语音数据在响应话术中的语音时长以及声音频谱，根据语音时长以及声音频谱从语音数据中确定目标客户的目标语音数据，以对目标语音数据进行文本转换，得到响应文本。

每种声音特征是指一个说话人的声音特征，比如声纹特征、音色特征等可以区分一个人的语音特征，然后确定各声音特征对应的语音数据在响应话术中的语音时长以及声音频谱，语音时长越长，表示该语音数据对应的人声是目标客户人声的可能性越大。因为只有目标客户会对播报话术进行对应的回答，但是背景人声持续的时长一般比较短；特殊情况下，也有背景人声持续的时长大于目标客户的人声的情况，比如背景音乐会从头到尾一直持续，在这种情况下，再根据语音时长来判断该声音特征是不是目标客户的声音特征就有一些局限性，所以还可以获取各声音特征所对应的语音数据的声音频谱。

声音频谱是表示一段声音高低的波形图，一般波形大的地方声音大，波形小的地方声音小，因此，一段波形比较大，而且持续了一段时间，通常来说就是目标客户的人声。本事实例中，结合声音频谱和语音时长得到目标语音数据后，再对目标语音数据进行文本转换，通过这种方式得到的目标语音数据是目标客户的可能性比较高，而且还能够在一定程度上去除背景噪声，提高文本转换的准确率。

进一步地，将转换得到的响应文本发送NLP纠错平台进行文本纠错，得到文本纠错结果，包括：

对于响应文本中的每个单字符，指示NLP纠错平台计算字符与上下文相邻的单字符组成的给定长度的话术句子的联合概率，并在联合概率超过给定阈值时得到响应文本转换无误的文本纠错结果，否则，得到响应文本转换有误的文本纠错结果。

NLP纠错平台会构建语言模型，在一些实施例中，语言模型通常会构建话术句子s的概率分布，对于一个由T个词按顺序构成的句子s＝(w₁w₂...w_T)，p(s)实际上求解的是该响应文本的联合概率，利用贝叶斯公式(1)，链式分解如下：

p(s)＝p(w₁w₂...w_T)＝p(w₁)p(w₂|w₁)p(w₃|w₁w₂)...p(w_T|w₁w₂...w_T-1) (1)

其中，p(w_i)表示词语w_i出现的概率，p(w_j|w_i)表示w_i出现后w_j出现的概率。语言模型p(s)反映了一句话是正常的话(通顺)的概率。

在本实施例中，给定长度为5-8，给定阈值为0.96；其中，给定长度越长，得到的p(s)的值就越低，但是给定长度过短，也会导致出现一定的概率计算错误，所以将给定长度设为5-8中之一，比较合适；优选的，给定长度为6。此外，给定阈值为0.96是在现有经验上得来的。因为一般目标客户针对一次播报话术的响应话术时长并不是很长，所以通过这种方式可以很快达到校验得到转换得到的响应文本是否通顺，是否有转换出错的目的。

步骤208，在文本纠错结果为转换有误时，根据预设判别策略对响应文本进行判别处理，再将判别后得到的响应文本发送到NLP纠错平台，重复文本纠错的操作，直到文本纠错结果为转换无误。

获取响应文本中的各单字符的拼音文本；分别将单字符与拼音文本输入到NLP纠错平台中进行特征提取，得到字符特征向量和拼音特征向量，并指示NLP纠错平台根据字符特征向量和拼音特征向量对响应文本进行判别处理。

具体地，如果文本纠错结果为转换有误，则将响应文本以及响应文本对应的拼音文本(一个一个单字符的拼音文本)分别输入各自提前训练好的ELECTRA模型中的生成器中，得到响应文本及对应的拼音文本的响应词向量和拼音词向量，再进行拼接后输入判别器中，得到一个纠错矩阵，每一列取概率值最大的位置对应词表的字作为纠错的正确结果，并重复上一步。

其中，ELECTRA模型由Stanford大学团队提出，其模型结构由一个生成器和一个判别器组成，看起来与生成对抗网络(GAN)结构类似，但是不属于GAN模型。生成器负责生成错误的句子文本，判别器负责侦测生成器的输出结果中哪些token(符号或字符)被替换。生成器的作用是输入一个原始正确的句子，负责生成一个错误的版本，如"the chef cookedthe meal"经过生成器内部随机抽样15％的token进行MASK后，再对这些MASK的位置进行预测，输出结果为"the chef ate the meal"。生成器中语言模型保证了生成的错误句子仍然是比较合理的，只是区别于原始句子，即，正确版本和错误版本都是合理的，只不过正确版本是原始句子，错误版本是正确版本某个token被替换的合理句子。判别器是用来判别生成器输出的句子(错误句子)中哪些位置的token被改动了，因此对每个token的位置进行原始(original)/改动(replaced)的标注，如果"cooked"变成了"ate"，标注为"repalced"，其余位置相同token标注为"original"，类似于序列标注任务，判别器的输出为0或1。

ELECTRA模型的判别器虽然可以检测错误，但模型设计不是为了纠错，而是为了在有限计算资源的条件下能提取更好特征表示，进而得到更好的效果,ELECTRA的一个变体ELECTRA-MLM模型，不再输出0和1，而是预测每个MASK位置正确token的概率。如果词表大小是10000个，那么每个位置的输出就是对应的一个10000维的向量分布，概率最大的是正确token的结果，这样就从原生ELECTRA检测错误变成具有纠错功能的模型。

为什么使用拼音的数据呢？这是因为正确的字发音一般比较相似，那么可以通过拼音来缩小搜索正确词的范围，所以拼音是一个重要的特征。并且通过尝试后，拼音和汉字单独训练再拼接提取的特征优于其他组合方式，这种方式类似于Ensemble模型。先用汉字语料训练一个端到端的纠错模型BERT，再训练一个拼音到汉字的解码模型，两个模型拼接后通过输出层softmax训练每个位置的交叉熵损失，这点不同于原生的BERT模型只计算MASK位置的损失，而是类似于ELECTRA模型的损失函数。

具体地，将响应文本切分为一个个的单字符，并获取每个单字符的拼音文本，然后将单字符以及其对应的拼音文本输入到NLP纠错平台中进行特征提取，分别得到单字符对应的字符特征向量，与拼音文本对应的拼音特征向量；将得到的字符特征向量和拼音特征向量进行拼接后，输入到NLP纠错平台中的ELECTRA模型计算交叉熵损失。其中，得到的交叉熵损失为一个矩阵，矩阵中包括多个汉字对应的维度表示以及与各汉字的维度表示对应的概率值。

因为在进行纠错时，是一个汉字一个汉字地计算交叉熵损失，所以会得到响应文本的每个token上是某汉字的概率。当所有token上的汉字都已经确定了，就可以得到一整个响应文本对应的句子。

在当前纠错后的响应文本与当前纠错前的响应文本完全相同时，说明响应文本纠错成功，则得到文本纠错结果为转换无误。

进一步地,对拼音文本进行特征提取可以是:

将拼音特征拆分为声母特征、韵母特征以及声调特征，将声母特征、韵母特征以及声调特征转换并拼接为三维特征向量，并根据三维特征向量计算相似发音的汉字对应的embedding的表示向量，得到相似发音的汉字。

关于拼音特征的处理过程，比较合理的做法是将拼音拆分成声母、韵母、声调，根据发音特征来得到相似发音的embedding表示向量，并且有相似发音的embedding向量要尽可能接近。汉字的拼音表示只有有限个，所有声母韵母组成的网格也只有几百个，并且拼音的写法变化也不多，所以拆分成声母、韵母、声调之后做embedding是合理的。如果直接对拼音做embedding的训练，得到的拼音表示向量无法表示出相似的发音。

步骤210，在文本纠错结果为转换无误时，指示AI播报平台将与响应话术对应的播报话术发送给目标客户，并重复获取目标客户的响应文本、文本转换、文本纠错的操作，直到AI播报平台播报结束。

若为转换无误，则只是AI播报平台将与响应话术对应的播报话术发送给目标客户，并重复接收目标客户的响应文本、文本转换以及文本纠错的操作，直到AI播报平台播报结束，或者目标客户切断通信连接。

需要强调的是，为进一步保证上述目标客户信息的私密和安全性，上述响应话术信息还可以存储于一区块链的节点中。

上述语音交互下基于预训练模型的ASR纠错方法中，通过在对用户的响应话术进行文本转换后，对转换得到的响应文本输入到NLP纠错平台进行文本纠错处理，得到文本纠错结果，并根据文本纠错结果决定是对响应文本进行判断别处理后再进行播报还是直接为用户进行播报话术的播报，可以在源头解决文本转换有误，导致的返回的播报话术错误的技术问题。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种语音交互下基于预训练模型的ASR纠错装置，该语音交互下基于预训练模型的ASR纠错装置与上述实施例中语音交互下基于预训练模型的ASR纠错方法一一对应。该语音交互下基于预训练模型的ASR纠错装置，应用于语音交互系统中，其中，所述语音交互系统包括电话平台、AI播报平台、ASR平台以及NLP纠错平台，包括：

连接模块302，用于当检测到播报用户的播报指令，则将所述播报指令发送到电话平台，其中，所述播报指令用于指示所述电话平台实现与目标客户之间的通话连接；

响应模块304，用于若检测到所述电话平台与所述目标客户之间通话连接成功，则指示所述AI播报平台根据所述播报指令生成播报话术发送给目标客户，并将目标客户的响应话术发送给ASR平台；

纠错模块306，用于当检测到所述ASR平台接收到所述响应话术，则指示所述ASR平台基于预设转换策略对所述响应话术进行文本转换，并将转换得到的响应文本发送到NLP纠错平台进行文本纠错，得到文本纠错结果；

判别模块308，用于在所述文本纠错结果为转换有误时，根据预设判别策略对所述响应文本进行判别处理，再将判别后得到的响应文本发送到所述NLP纠错平台，重复文本纠错的操作，直到所述文本纠错结果为转换无误；

播报模块310，用于在所述文本纠错结果为转换无误时，指示所述AI播报平台将与所述响应话术对应的播报话术发送给所述目标客户，并重复获取目标客户的响应文本、文本转换、文本纠错的操作，直到AI播报平台播报结束。

进一步地，响应模块304，包括：

播报子模块，用于指示所述AI播报平台从所述播报指令中获取意图信息，生成所述意图信息的词向量，并根据所述词向量匹配得到对应的播报话术发送给目标客户。

进一步地，纠错模块306，包括：

转换子模块，用于指示所述ASR平台对所述响应话术进行声纹识别，以确定至少一种声音特征的语音数据，并获取各所述声音特征的语音数据在所述响应话术中的语音时长以及声音频谱，根据所述语音时长以及所述声音频谱从所述语音数据中确定所述目标客户的目标语音数据，以对所述目标语音数据进行文本转换，得到所述响应文本。

进一步地，纠错模块306，还包括：

纠错子模块，用于对于响应文本中的每个单字符，指示所述NLP纠错平台计算所述字符与上下文相邻的单字符组成的给定长度的话术句子的联合概率，并在联合概率超过给定阈值时得到响应文本转换无误的文本纠错结果，否则，得到响应文本转换有误的文本纠错结果。

进一步地，判别模块308，包括：

拼音子模块，用于获取所述响应文本中的各单字符的拼音文本；

判别子模块，用于分别将所述单字符与所述拼音文本输入到NLP纠错平台中进行特征提取，得到字符特征向量和拼音特征向量，并指示所述NLP纠错平台根据所述字符特征向量和所述拼音特征向量对所述响应文本进行判别处理。

进一步地，判别子模块，包括：

判别单元，用于指示所述NLP纠错平台对所述字符特征向量和所述拼音特征向量进行拼接操作，并计算拼接得到的拼接特征向量的交叉熵损失，以根据预设损失条件从所述交叉熵损失中得到纠错后的响应文本，并重复对所述响应文本进行特征提取、计算交叉熵损失的操作，直到当前纠错后的响应文本与上一响应文本相同，或纠错次数超过预设次数，得到响应文本转换无误的文本纠错结果。

上述语音交互下基于预训练模型的ASR纠错装置，通过在对用户的响应话术进行文本转换后，对转换得到的响应文本输入到NLP纠错平台进行文本纠错处理，得到文本纠错结果，并根据文本纠错结果决定是对响应文本进行判断别处理后再进行播报还是直接为用户进行播报话术的播报，可以在源头解决文本转换有误，导致的返回的播报话术错误的技术问题。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储响应话术。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音交互下基于预训练模型的ASR纠错方法。

本实施例通过在对用户的响应话术进行文本转换后，对转换得到的响应文本输入到NLP纠错平台进行文本纠错处理，得到文本纠错结果，并根据文本纠错结果决定是对响应文本进行判断别处理后再进行播报还是直接为用户进行播报话术的播报，可以在源头解决文本转换有误，导致的返回的播报话术错误的技术问题。

其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例中语音交互下基于预训练模型的ASR纠错方法的步骤，例如图2所示的步骤202至步骤210，或者，处理器执行计算机可读指令时实现上述实施例中语音交互下基于预训练模型的ASR纠错装置的各模块/单元的功能，例如图3所示模块302至模块310的功能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形、改进或者对部分技术特征进行等同替换，而这些修改或者替换，并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴，都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音交互下基于预训练模型的ASR纠错方法，应用于语音交互系统中，其中，所述语音交互系统包括电话平台、AI播报平台、ASR平台以及NLP纠错平台，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述若检测到所述电话平台与所述目标客户之间通话连接成功，则指示所述AI播报平台根据所述播报指令生成播报话术发送给目标客户，包括：

指示所述AI播报平台从所述播报指令中获取意图信息，生成所述意图信息的词向量，并根据所述词向量匹配得到对应的播报话术发送给目标客户。

3.根据权利要求1所述的方法，其特征在于，所述指示所述ASR平台基于预设转换策略对所述响应话术进行文本转换，包括：

指示所述ASR平台对所述响应话术进行声纹识别，以确定至少一种声音特征的语音数据，并获取各所述声音特征的语音数据在所述响应话术中的语音时长以及声音频谱，根据所述语音时长以及所述声音频谱从所述语音数据中确定所述目标客户的目标语音数据，以对所述目标语音数据进行文本转换，得到所述响应文本。

4.根据权利要求3所述的方法，其特征在于，所述将转换得到的响应文本发送到NLP纠错平台进行文本纠错，得到文本纠错结果，包括：

对于响应文本中的每个单字符，指示所述NLP纠错平台计算所述字符与上下文相邻的单字符组成的给定长度的话术句子的联合概率，并在联合概率超过给定阈值时得到响应文本转换无误的文本纠错结果，否则，得到响应文本转换有误的文本纠错结果。

5.根据权利要求4所述的方法，其特征在于，所述根据预设判别策略对所述响应文本进行判别处理，包括：

获取所述响应文本中的各单字符的拼音文本；

分别将所述单字符与所述拼音文本输入到NLP纠错平台中进行特征提取，得到字符特征向量和拼音特征向量，并指示所述NLP纠错平台根据所述字符特征向量和所述拼音特征向量对所述响应文本进行判别处理。

6.根据权利要求5所述的方法，其特征在于，所述指示所述NLP纠错平台根据所述字符特征向量和所述拼音特征向量对所述响应文本进行判别处理，包括：

指示所述NLP纠错平台对所述字符特征向量和所述拼音特征向量进行拼接操作，并计算拼接得到的拼接特征向量的交叉熵损失，以根据预设损失条件从所述交叉熵损失中得到纠错后的响应文本，并重复对所述响应文本进行特征提取、计算交叉熵损失的操作，直到当前纠错后的响应文本与上一响应文本相同，或纠错次数超过预设次数，得到响应文本转换无误的文本纠错结果。

7.根据权利要求1所述的方法，其特征在于，所述响应话术数据存储于区块链中。

8.一种语音交互下基于预训练模型的ASR纠错装置，应用于语音交互系统中，其中，所述语音交互系统包括电话平台、AI播报平台、ASR平台以及NLP纠错平台，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。