CN111986675A

CN111986675A - 语音对话方法、设备及计算机可读存储介质

Info

Publication number: CN111986675A
Application number: CN202010845975.XA
Authority: CN
Inventors: 温馨; 党伟珍
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-24

Abstract

本发明公开了一种语音对话方法、设备及计算机可读存储介质，所述语音对话方法包括：接收用户语音信息，通过预设语音识别模型处理所述用户语音信息，获得所述用户语音信息对应的用户标识和初始文本；获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本；获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出。本发明提高了用户语音分析的准确度，使得会话更加真实、灵活和生动。

Description

语音对话方法、设备及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音对话方法、设备及计算机可读存储介质。

背景技术

随着人工智能的快速发展，越来越多的终端设备上配备了语音对话功能。

语音对话功能是指终端设备通过对用户语音信息识别，确定用户操作意图，根据用户操作意图进行响应和对话；然而，尽管语音对话功能得到了广泛的应用，但是在实际的应用结果却不尽如人意，即，当前语音对话过程中通常会存在鸡同鸭讲的现象，其原因在于终端设备语音识别不准确、语音答复机械化等，上述原因导致了当前人机语音对话不够准确、灵活和生动。

发明内容

本发明的主要目的在于提供一种语音对话方法、设备及计算机可读存储介质，旨在解决当前终端设备语音识别不准确、语音答复机械化等原因，造成的当前人机语音对话不够准确、灵活和生动的技术问题。

为实现上述目的，本发明实施例提供一种语音对话方法，所述语音对话方法包括：

接收用户语音信息，通过预设语音识别模型处理所述用户语音信息，获得所述用户语音信息对应的用户标识和初始文本；

获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本；

获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出。

可选地，所述接收用户语音信息，通过预设语音识别模型处理所述用户语音信息，获得所述用户语音信息对应的用户标识和初始文本的步骤之前，所述方法包括：

获取语音样本信息，其中，所述语音样本信息包括普通话语音信息和不同地区的方言语音信息；

对所述语音样本信息进行预处理，并提取经预处理的语音样本信息的语音特征；

通过所述语音特征迭代训练语音识别模型，并获取训练获得的语音识别模型的识别准确度；

在所述识别准确度大于预设准确度时，终止训练并将训练获得的语音识别模型作为预设语音识别模型保存。

可选地，所述接收用户语音信息，通过预设语音识别模型处理所述用户语音信息，获得所述用户语音信息对应的用户标识和初始文本的步骤之后，所述方法包括：

将所述用户标识与预设声纹库中的注册标识进行比对，判断所述用户标识是否为已注册标识；

若所述用户标识是已注册标识，则执行所述获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本的步骤。

可选地，所述将所述用户标识与预设声纹库中的已注册标识进行比对，判断所述用户标识是否为已注册标识的步骤之后，所述方法包括：

若所述用户标识不是已注册标识，则输出标识注册提示；

若预设时间段未接收到标识注册请求，则获取所述预设声纹库中与所述用户标识相似度最高的相似注册标识；

根据所述相似注册标识关联的文本映射集调整所述初始文本，获得标准文本。

可选地，所述获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本的步骤之前，所述方法包括：

接收标识注册请求，输出标准字符念读提示；

采集用户念读所述标准字符的念读语音信息，识别所述念读语音信息获得所述念读语音信息对应的用户标识和初始字符；

建立所述标准字符与所述初始字符之间的关联关系，生成文本映射集，关联所述用户标识与所述文本映射集完成标识注册。

可选地，所述获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本的步骤，包括：

获取所述用户标识关联的文本映射集，对所述初始文本进行分词处理，获得所述初始文本对应的关键词集；

将所述文本映射集中的初始字符与所述关键词集中的关键词进行比对，获取与所述关键词相同的目标初始字符，及所述目标初始字符关联的目标标准字符；

根据所述初始文本中的关键字序列排列所述目标标准字符，生成标准文本。

可选地，所述将所述文本映射集中的初始字符与所述关键词集中的关键词进行比对的步骤之后，所述方法包括：

判断所述文本映射集中是否存在与所述关键词相同的目标初始字符；

若所述文本映射集中不存在与所述关键词相同的目标初始字符，则将所述关键字作为目标标准字符，并更新所述文本映射集；

若所述文本映射集中存在与所述关键词对应的目标初始字符，则获取与所述关键词相同的目标初始字符，及所述目标初始字符关联的目标标准字符。

可选地，所述获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出的步骤，包括：

判断所述标准文本中是否包含操作指令；

若所述标准文本中包含操作指令，则执行所述操作指令和/或输出所述操作指令执行结果的对答语音信息；

若所述标准文本中不包含操作指令，则获取所述标准文本对应的对答关键信息，将所述对话关键信息中添加关联信息生成对答文本，将所述对答文本转化为对答语音信息并输出。

将所述标准文本输入至预设问答模型，通过所述预设问答模型中的编码器将所述标准文本进行编码形成词向量；

将所述词向量输入至所述预设问答模型中的解码器，通过所述解码器处理所述词向量，获得所述标准文本关联的对答关键信息；

分析所述对答关键信息的句式结构，根据所述对答关键信息的句式结构添加关联信息生成对答文本，将所述对答文本转化为对答语音信息并输出。

此外，为实现上述目的，本发明还提供一种设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音对话程序，其中：

所述语音对话程序被所述处理器执行时实现如上所述的语音对话方法的步骤。

此外，为实现上述目的，本发明还提供计算机可读存储介质；

所述计算机可读存储介质上存储有语音对话程序，所述语音对话程序被处理器执行时实现如上述的语音对话方法的步骤。

本发明提供一种语音对话方法、设备及计算机可读存储介质，语音对话设备接收用户语音信息，通过预设语音识别模型处理所述用户语音信息，获得所述用户语音信息对应的用户标识和初始文本；获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本；获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出。本发明通过预设语音识别模型处理用户语音信息，获得初始文本，语音对话设备根据文本映射集调整初始文本获得标准文本，以提高了用户语音信息分析的准确度，进一步地，获取标准文本对应的对答关键信息，根据对答关键信息生成对答语音信息并输出，避免了机械的问答模式，使得会话更加真实、灵活和生动。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明语音对话方法第一实施例的流程示意图；

图3为本发明语音对话方法第一实施例中的具体场景示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术中的语音对话系统并不能完全识别用户的语音信息，由于不同用户的表达方式各不相同，例如语音信息中出现个别字发音不标准、夹杂方言表达、用户个性化关键信息等，导致语音对话系统无法识别语音信息中用户的个性化表达方式，从而无法识别获取到正确的用户语音文本，造成语音文本识别精度低下，大大降低语音对话系统的语音文本识别效率。

本发明接收用户语音信息，通过预设语音识别模型处理所述用户语音信息，获得所述用户语音信息对应的用户标识和初始文本；获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本；获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出。通过以上方案实现了对不同用户身份的识别和个性化语音的准确识别，解决了不同用户因语音表达方式不同导致语音对话系统无法精准识别语音信息的技术问题，从而提高了语音对话系统的语音识别精度，获取标准文本对应的对答关键信息，根据对答关键信息生成对答语音信息并输出，避免了机械的问答模式，使得会话更加真实、灵活和生动。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例语音对话设备可以是PC机或服务器设备。

如图1所示，该语音对话设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的语音对话设备结构并不构成对语音对话设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音对话程序。

在图1所示的语音对话设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音对话程序，并执行下述语音对话方法各个实施例中的操作。

基于上述硬件结构，提出本发明语音对话方法实施例。

参照图2，本发明提供语音对话方法的第一实施例，在语音对话方法第一实施例中，所述语音对话方法包括：

步骤S10，接收用户语音信息，通过预设语音识别模型处理所述用户语音信息，获得所述用户语音信息对应的用户标识和初始文本。

本实施例中的语音对话方法应用于具有语音对话模块的语音对话设备，例如，电视、手机、机器人、电视机等。语音对话设备中设置有语音采集装置，例如麦克风，语音对话设备通过麦克风采集用户语音信息，其中，用户语音信息指的是用户发出的语音数据。

语音对话设备中预设语音识别模型，预设语音识别模型是指预先训练的用于语音识别的深度神经网络模型，语音对话设备通过预设语音识别模型提取用户语音信息的声纹特征和语音特征，语音对话设备用声纹特征表征用户标识，语音对话设备分析语音特征获得音素信息，语音对话设备将音素信息进行组合，获得用户语音信息对应的初始文本。

本实施例中通过预设语音识别模型进行用户语音信息的识别，获得用户语音信息对应的用户标识和初始文本，用户标识是指唯一标识用户身份的信息，本实施例中的用户标识是指用户的声纹特征，声纹特征可以由音色、音调等表示语音特征的信息组合形成；初始文本是指通过预设语音识别模型处理用户语音信息，获得的文本信息，由于预设语音识别模型存在可能识别误差，因此初始文本信息中文本信息与用户想要表达的信息不同，例如，初始文本是:太热了，我们去房间休息一下吧，用户实际想要表达的语义是：太热了，我们去船旁边休息一下吧；用户标识对应的声纹特征是对应用户语音信息的音色、音调等声音特征信息进行分析获得，而初始文本信息则是对用户语音信息进行分帧后确定音素，然后组合形成文字获得，可以理解的是，本实施例中将用户语音信息中的声纹特征提取与语音识别文字转化同步进行，提高了语音识别的效率与准确性。

步骤S20，获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本。

语音对话设备中预先根据历史的用户语音信息构建文本映射集，即，语音对话设备中预先采集用户习惯发音对应的初始字符与标准发音对应的标准字符，语音对话设备将用户习惯发音对应的初始字符与标准发音对应的标准字符建立映射关系，语音对话设备将不同字符的映射关系进行汇总形成文本映射集，例如，文本映射集中包括：床-船、流量-牛娘等等。

具体地，由于个人发声特征、语言环境、地域特征、噪音干扰等原因，用户语音信息中可能会存在发音不标准，或者夹杂方言等现象，语音对话设备将历史的用户语音信息进行识别，获得声纹特征和文本信息，语音对话设备用声纹特征表示用户标识，语音对话设备输出文本信息中的初始字符，以提示用户对初始字符进行调整，语音对话设备采集用户调整输入的标准字符，语音对话设备将初始字符与标准字符之间映射生成文本映射集，并将文本映射集与用户特征进行关联并保存至本地存储。例如，下表1所示为文本映射集：

初始字符	标准字符
		小提	小T
打开小奇之恋	打开小T智联
		我起床了	打开起床模式
小猪的动画片	播放小猪佩奇
		…	…

表1

本实施例中语音对话设备查询本地存储，获取本地存储中用户标识关联的文本映射集，语音对话设备根据文本映射集调整初始文本，获得标准文本，即，语音对话设备将初始文本进行分词处理获得关键词集，语音对话设备将关键词集中的关键词与文本映射集中的初始字符进行比对，获取文本映射集中与关键词匹配的目标初始字符，及目标初始字符对应的目标标准字符，语音对话设备将初始文本中该关键词替换为目标标准字符获得标准文本。

本实施例中通过预设语音识别模型进行用户语音信息识别获得初始文本之后，语音对话设备根据文本映射集调整初始文本，获得标准文本，以准确地调整识别文本，这样预设语音识别模型相对简单，提高了预设语音识别模型语音识别的效率，同时有效地保证准确度。

步骤S30，获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出。

语音对话设备获取标准文本对应的对答关键信息，即，标准文本中包含询问信息，语音对话设备根据询问信息确定与询问信息对应的答复信息，其中，对答关键信息是指答复信息中的关键信息，例如，标准文本为今天是八月几日，对答关键信息为：八月十日，语音对话设备获取到对答关键信息之后，然后语音对话设备根据对答关键信息进行语音转化，生成对答语音信息并输出；其中，语音对话设备确定标准文本对应的对答关键信息的实现方式不作相对限定，例如，

实现方式一：语音对话设备中设置检索模型，基于检索模型有一个预先定义的"回答集"，包含了许多回答，还有一些根据输入的问句和上下文，以及用于挑选出合适的回答的启发式规则。这些启发式规则可能是简单的基于规则的表达式匹配，或是相对复杂的机器学习分类器的集成。语音对话设备根据标准文本从预先定义的"回答集"中挑选出一个较为合适的对答关键信息；

实现方式二：语音对话设备中设置对话模型，例如，语音对话设备采集两个朋友对某个话题交流意见的多轮对话进行分析生成预设对话模型，语音对话设备将标准文本输入预设对话模型，获得标准文本对应的对答关键信息。

本实施例中通过检索模型和/或对话模型分析标准文本，获得标准文本对应的对答关键信息，这样有效地避免了机械问答的情况，使得会话更加真实、灵活和生动。

本发明通过预设语音识别模型处理用户语音信息，获得初始文本，语音对话设备根据文本映射集调整初始文本，以提高了用户语音信息分析的准确度，确定标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出，避免了机械的问答模式，使得会话更加真实、灵活和生动。

参照图3，本实施例中给出了一个具体应用场景，包括：

1、构建文本映射集；

2、用户通过语音对话系统进行对话时，其输入的语音信息(Voice)首先通过声纹识别模块的预设语音识别模型计算出用户的声纹信息(Person_ID)，并通过ASR模块得到转化的文本信息(Pre_text)；

3、将Person_ID和Pre_text输入到干预模块，干预模块通过计算、映射输出个性化的文本话术Post_text。

4、将Post_text作为NLP模块中的(检索模型和/或对话模型)新的输入，NLP模块在此基础上进行文本对话理解，技能模块再根据对话理解结果执行用户的意图指令并返回相应的回复话术。

本实施例中的效果1、在现有语音对话系统的基础上，增加声纹识别模块，以确定说话者的身份；2、在1的基础上，允许用户自定义文本映射集；3、基于2中得到的用户自定义的文本映射集，在现有语音对话系统中增加干预模块，对NLP模块中预设语音识别模型的输出进行干预，以提高对话理解的准确性。传统的语音对话系统中可对语音信息Voice传输至ASR模块，ASR模块可将语音信息转换为文本信息，文本信息通过NLP模块的自然语言处理，形成语音功能Skill-ID，并通过技能模块执行或回应相应功能，使得会话更加真实、灵活和生动。

在本发明语音对话方法第一实施例的基础上提出了本发明语音对话方法的第二实施例。

本实施例是第一实施例中步骤S10之前的步骤，本实施例在中具体说明了预设语音识别模型的构建步骤，包括：

具体地，语音对话设备采集不同方言和普通话的语音样本信息，其中，方言包括官话方言、吴方言、湘方言、客家方言、闽方言、粤方言和赣方言。

然后，语音对话设备对语音样本信息进行预处理，其中预处理主要包括预加重、加窗分帧处理、端点检测和降噪处理四个过程；预加重处理是利用信号特性和噪声特性的差别来有效地对信号进行处理，对语音的高频部分进行加重，去除口鼻辐射的影响，增加语音的高频分辨率；加窗分帧处理包括加窗和分帧，是采用可移动的有限长度的窗口进行加权的方法来实现的；端点检测是从一段给定的语音信号中找出语音的起始点和结束点，排除无声段的噪声干扰、提高语音识别的正确率；语音降噪处理主要是通过自适应滤波器/谱减法/维纳滤波法等降噪算法来实现的，以提高性噪比。

接着，语音对话设备提取经预处理后的语音样本信息的语音特征，然后通过语音特征迭代训练语音识别模型(语音识别模型是基于HMM(Hidden Markov Model，隐马尔可夫模型)模型构建的)并获取训练获得的语音识别模型的识别准确度；语音对话设备将识别的准确度与预设准确度(预设准确度是指语音识别模型达到识别要求的临界值，例如预设准确度为95％)进行比对，在识别准确度小于或等于预设准确度则语音对话设备进行继续迭代训练，在识别准确度大于预设准确度时，终止训练并将训练获得的语音识别模型作为预设语音识别模型保存。

本实施例中预设语音识别模型是根据不同方言和普通话信息构建的，在模型构建的时候考虑到不同地区的语音特征，通过构建的语音识别模型进行语音识别，可以有效地提高语言识别的准确度。

在本发明语音对话方法上述实施例的基础上提出了本发明语音对话方法的第三实施例。

本实施例是第一实施例中步骤S10之前的步骤，本实施例中预先构建用户标识关联的文本映射集，具体地，包括：

接收标识注册请求，输出标准字符念读提示；

即，语音对话设备接收标识注册请求，输出标准字符念读提示；即，语音对话设备中预先保存的标准字符，标准字符是指包含各个音素的字符，例如，首都、北京、统一、女兵、火车、雪山、海军、打击、体操、广播、崭新、祖国、海洋、语言、改良、保留、检查、狡猾、水平、隐瞒、整齐、女儿、解答、解放、土地、巩固、鼓励、保密、党性、岗位、巩固、改正、古怪、审判、请问和展示等，语音对话设备输出标准字符之后，输出念读提示(念读提示是指提示用户念读标准字符的提示信息)，用户根据标准字符进行念读；语音对话设备采集用户念读标准字符的念读语音信息，念读语音信息是指语音对话设备采集到的用户念读标准字符形成的语音信息，语音对话设备识别念读语音信息(其中，识别念读语音信息包括识别声纹特征和文字识别，语音对话设备通过声纹特征表征用户标识)，获得念读语音信息对应的用户标识和初始字符；语音对话设备建立标准字符与初始字符之间的关联关系，生成文本映射集，关联用户标识与所述文本映射集完成标识注册。

语音对话设备中预设声纹库，预设声纹库可以设在本地存储还可以设置在云端，预设声纹库用于保存标识注册时，识别获得的用户标识和文本映射集；本实施例中预先提示用户进行标识注册，生成文本映射集，以方便后期根据文本映射集对用户语音信息识别形成的初始文本进行调整，避免了由于用户口语、方言等因素导致的语音识别不准确的现象，提高了语音识别的准确性。

在本发明语音对话方法上述实施例的基础上，提出了本发明语音对话方法的第四实施例。

本实施例是第一实施例中步骤S10之后的步骤，本实施例与上述实施例的区别在于：

若所述用户标识是已注册标识，则执行所述获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本的步骤；

若所述用户标识不是已注册标识，则输出标识注册提示；

本实施例中语音对话设备中预设声纹库(预设声纹库参照本发明第三实施例，本实施例不作赘述)，语音对话设备将用户标识(用户标识是指唯一标识用户身份的信息，本实施例中的用户标识是指用户的声纹特征，声纹特征可以由音色、音调等表示语音特征的信息组合形成，本实施例中的用户标识与第一实施例相同)与预设声纹库中的注册标识进行比对，判断用户标识是否为已注册标识；即，语音对话设备将用户标识对应的声纹特征与预设声纹库中各个注册标识对应的预存声纹特征进行比对，判断预设声纹库中是否存在与用户标识对应的声纹特征相似高于设定相似度阈值(相似度阈值可以根据具体场景了灵活设置，例如，相似度阈值设置为90％)的预存声纹特征，若预设声纹库中存在与用户标识对应的声纹特征相似高于设定相似度阈值的预存声纹特征，语音对话设备则判定用户标识是已注册标识；若预设声纹库中不存在与用户标识对应的声纹特征相似高于设定相似度阈值的预存声纹特征，语音对话设备则判定用户标识不是已注册标识。

若用户标识是已注册标识，语音对话设备则执行第一实施例中步骤S20所述获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本的步骤，具体参见第一实施例。

若用户标识不是已注册标识，语音对话设备则输出标识注册提示；以提示用户按照第三实施例中的步骤进行标识注册；若预设时间段(预设时间段可以根据具体场景设置，例如设置为60s)未接收到标识注册请求，语音对话设备则获取预设声纹库中与用户标识相似度最高的相似注册标识；语音对话设备根据相似注册标识关联的文本映射集调整初始文本，获得标准文本，即，语音对话设备将初始文本进行分词处理获得关键词集，语音对话设备将关键词集中的关键词与相似注册标识对应文本映射集中的初始字符进行比对，获取文本映射集中与关键词匹配的目标初始字符，及目标初始字符对应的目标标准字符，并将初始文本中该关键词替换为目标标准字符获得标准文本。

本实施例中语音对话设备判断用户标识是否为已注册标识，在用户标识不是已注册标识，且用户没有注册操作时，语音对话设备获取与用户标识相似度最高的相似注册标识，及相似注册标识关联的文本映射集调整初始文本，获得标准文本，本实施例中语音对话设备对没有进行注册的用户语音进行调整，在减少用户注册操作的同时可以有效地保证语音识别的准确率。

在本发明语音对话方法上述实施例的基础上提出了本发明语音对话方法的第五实施。

本实施例是第一实施例中步骤S20的步骤细化，本实施例与上述实施例的区别在于：

语音对话设备获取用户标识关联的文本映射集，语音对话设备对初始文本进行分词处理，获得初始文本对应的关键词集；语音对话设备将文本映射集中的初始字符与所述关键词集中的关键词进行比对，判断文本映射集中是否存在与关键词相同的目标初始字符；若文本映射集中不存在与关键词相同的目标初始字符，语音对话设备则将关键字作为目标标准字符，并更新文本映射集；本实施例中文本调整的过程中自动更新文本映射集，通过对文本映射集进行实时更新，可以提高后期识别准确度。

若文本映射集中存在与关键词对应的目标初始字符，语音对话设备则获取与关键词相同的目标初始字符，及目标初始字符关联的目标标准字符获取与关键词相同的目标初始字符，及目标初始字符关联的目标标准字符(目标标准字符是指文本映射集中与目标初始字符建立映射关系的标准字符，例如，文本映射集保存有目标初始字符林浩，对应目标标准字符您好)；语音对话设备根据初始文本中的关键字序列排列目标标准字符，生成标准文本；本实施例中根据文本映射集进行文本调整，避免了由于用户发音问题造成的用户语音信息识别错误的问题。

在本发明语音对话方法上述实施例的基础上，提出了本发明语音对话方法的第六实施例。

本实施例是第一实施例中步骤S30的步骤细化，本实施例与上述实施例的区别在于：

判断所述标准文本中是否包含操作指令；

语音对话设备中预先设置指令集合，指令集合中包含不同的操作指令，语音对话设备将标准文本与指令集合中的操作指令进行比对，语音对话设备判断标准文本中是否包含操作指令；若标准文本中包含操作指令，语音对话设备则执行操作指令和/或输出操作指令执行结果的对答语音信息；若标准文本中不包含操作指令，语音对话设备则获取标准文本对应的对答关键信息，将所述对话关键信息中添加关联信息生成对答文本，将所述对答文本转化为对答语音信息并输出。本实施例中准确是识别用户语音信息，从而准确及时地进行操作响应。

在本发明语音对话方法上述实施例的基础上，提出了本发明语音对话方法的第七实施例。

语音对话设备中预设问答模型，预设问答模型是指预先通过深度神经网络训练的问答模式，通过将标准文本输入至预设问答模型，通过预设问答模型中的编码器将所述标准文本进行编码形成词向量；语音对话设备将词向量输入至所述预设问答模型中的解码器，通过解码器处理词向量，获得标准文本关联的对答关键信息；语音对话设备分析对答关键信息的句式结构，语音对话设备根据对答关键信息的句式结构，确定对答关键信息中缺少的主语、谓语和/或宾语，语音对话设备将主语、谓语和/或宾语作为关联信息添加到对答关键信息中生成对答文本，语音对话设备将对答文本转化为对答语音信息并输出。本实施例中通过预设问答模型使得生成的对答语音信息更加真实、生动和准确。

此外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有语音对话程序，所述语音对话程序被处理器执行以用于实现以下步骤：

在一实施例中，所述语音对话程序被处理器执行以用于实现以下步骤：

若所述用户标识不是已注册标识，则输出标识注册提示；

接收标识注册请求，输出标准字符念读提示；

在一实施例中，所述语音对话程序被处理器执行所述获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本的步骤，包括：

在一实施例中，所述语音对话程序被处理器执行，所述获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出的步骤，包括：

判断所述标准文本中是否包含操作指令；

在一实施例中，所述语音对话程序被处理器执行所述获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出的步骤，包括：

本发明计算机可读存储介质的具体实施方式的拓展内容与上述语音对话方法各实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种语音对话方法，其特征在于，所述语音对话方法包括：

2.如权利要求1所述的语音对话方法，其特征在于，所述接收用户语音信息，通过预设语音识别模型处理所述用户语音信息，获得所述用户语音信息对应的用户标识和初始文本的步骤之前，所述方法包括：

3.如权利要求1所述的语音对话方法，其特征在于，所述接收用户语音信息，通过预设语音识别模型处理所述用户语音信息，获得所述用户语音信息对应的用户标识和初始文本的步骤之后，所述方法包括：

4.如权利要求3所述的语音对话方法，其特征在于，所述将所述用户标识与预设声纹库中的已注册标识进行比对，判断所述用户标识是否为已注册标识的步骤之后，所述方法包括：

若所述用户标识不是已注册标识，则输出标识注册提示；

5.如权利要求1所述的语音对话方法，其特征在于，所述获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本的步骤之前，所述方法包括：

接收标识注册请求，输出标准字符念读提示；

6.如权利要求1所述的语音对话方法，其特征在于，所述获取所述用户标识关联的文本映射集，根据所述文本映射集调整所述初始文本，获得标准文本的步骤，包括：

7.如权利要求6所述的语音对话方法，其特征在于，所述将所述文本映射集中的初始字符与所述关键词集中的关键词进行比对的步骤之后，所述方法包括：

8.如权利要求7所述的语音对话方法，其特征在于，所述获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出的步骤，包括：

判断所述标准文本中是否包含操作指令；

9.如权利要求1-8任意一项所述的语音对话方法，其特征在于，所述获取所述标准文本对应的对答关键信息，根据所述对答关键信息生成对答语音信息并输出的步骤，包括：

10.一种语音对话设备，其特征在于，所述语音对话设备包括：存储器、处理器及存储在所述存储器上并可在处理器上运行的语音对话程序，所述语音对话程序被所述处理器执行时实现如权利要求1至9中任一项所述的语音对话方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音对话程序，所述语音对话程序被处理器执行时实现如权利要求1至9中任一项所述的语音对话方法的步骤。