CN109920415A

CN109920415A - 基于语音识别的人机问答方法、装置、设备和存储介质

Info

Publication number: CN109920415A
Application number: CN201910047233.XA
Authority: CN
Inventors: 王昊; 胡家义; 吴建林; 曾文韬; 曹阳; 钱锟; 庄怡; 王婉君; 韦柏松; 李山亭; 田磊
Original assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Current assignee: Ping An Urban Construction Technology Shenzhen Co Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-06-21

Abstract

本发明公开了一种基于语音识别的人机问答方法，包括以下步骤：在接收到用户输入的语音聊天信息时，将所述语音聊天信息输入至预设语音识别模型，得到所述语音聊天信息对应的文本信息；获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息；计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离；在存在小于预设距离阈值的编辑距离时，将与所述标准信息编辑距离最小的聊天模板作为目标聊天模板，并输出所述目标聊天模板对应的回复信息。本发明还公开了一种基于语音识别的人机问答装置、设备和存储介质。本发明中通过对用户语音聊天信息进行处理，准确地识别用户的聊天意图。

Description

基于语音识别的人机问答方法、装置、设备和存储介质

技术领域

本发明涉及智能聊天机器人技术领域，尤其涉及基于语音识别的人机问答方法、装置、设备和存储介质。

背景技术

随着科技的飞速发展，聊天机器人也变得越来越常见，聊天机器人系统就是一种借助于通讯手段能够时时刻刻在线、并通过自然语言与人沟通交流的人工智能系统。

聊天机器人系统实质上是自动问答系统。自动问答系统以自然语言理解技术为核心，聊天机器人利用自然语言处理技术、知识库和实时更新的信息资源，一方面完成对用户问题的分析处理，另一方面完成正确答案的生成。现有技术中的聊天机器人系统中语音系统采用的关键字识别方式由于在语法理解方面的薄弱容易引起语义的误读。聊天机器人并不能很好地获取用户的真实意图，如何更加准确地识别用户的聊天意图成为了当前亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种基于语音识别的人机问答方法、装置、设备和存储介质，旨在解决当前人机问答中用户意图识别不准确的问题。

为实现上述目的，本发明提供基于语音识别的人机问答方法，所述基于语音识别的人机问答方法包括以下步骤：

在接收到用户输入的语音聊天信息时，将所述语音聊天信息输入至预设语音识别模型，得到所述语音聊天信息对应的文本信息；

获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息；

计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离；

在存在小于预设距离阈值的编辑距离时，将与所述标准信息编辑距离最小的聊天模板作为目标聊天模板，并输出所述目标聊天模板对应的回复信息。

可选地，所述计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离的步骤，包括：

获取所述标准信息对应的标准字符串str1和所述标准字符串str1的长度m；

查询预设聊天数据库，获取所述预设聊天数据库中各聊天模板，获取所述聊天模板对应的问题字符串str2和所述问题字符串str2的长度n；

创建一个维度为(m+1)*(n+1)的矩阵d，并扫描所述标准字符串str1和所述问题字符串str2，在str1[i]＝str2[j]时，则temp计为0，反之，temp计为1；

将d[i-1，j]+1、d[i，j-1]+1和d[i-1，j-1]+temp中的最小值赋值给矩阵d[i，j]，在扫描完成后，返回所述矩阵d的最后一个值d[n][m]作为所述标准信息与所述聊天模板的编辑距离。

可选地，所述计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离的步骤之后，包括：

在不存在小于预设距离阈值的编辑距离时，将所述文本信息输入至预设神经网络模型，通过所述预设神经网络模型处理所述文本信息，得到所述文本信息对应的聊天意图；

查询预设答复词语集合，生成与所述聊天意图匹配的回复信息，并输出所述回复信息。

可选地，所述在接收到用户输入的语音聊天信息时，将所述语音聊天信息输入至预设语音识别模型，得到所述语音聊天信息对应的文本信息的步骤之前，包括：

分别采集预设方言语系和普通话语系朗读语音信息，并提取各所述语音信息对应的语音特征参数，将各所述语音特征参数组成语音特征集合；

抽取所述语音特征集合中预设比例的各所述语音特征参数，并通过各所述语音特征参数构建初始语音识别模型；

通过迭代算法训练所述初始语音识别模型，得到最优模型参数，并将训练得到所述最优模型参数对应的语音识别模型作为预设语音识别模型。

可选地，所述获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息的步骤，包括：

将所述文本信息输入预设词语识别模型，通过所述预设词语识别模型对所述文本信息进行分词处理，得到所述文本信息对应的分词集合；

将所述分词集合中的关键词与预设词语集合中的预设目标词进行比对，获取与所述预设目标词匹配的目标关键词；

将所述目标关键词作为所述文本信息中的目标词语，将所述目标词语替换为所述预设目标词对应的模板词，得到所述文本信息对应的标准信息。

可选地，所述获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息的步骤之后，包括：

将所述标准信息与预设标准数据库中的正例模板和负例模板进行匹配，得到正例得分和负例得分，其中，正例得分是指标准信息与正例模板的相似度，负例得分是指标准信息与负例模板的相似度；

在所述正例得分大于所述负例得分时，执行步骤：计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离。

在所述标准信息不合格时，将所述文本信息与预设寒暄数据库中的预设寒暄语句进行比对；

若存在与所述文本信息匹配的目标寒暄语句，则将所述目标寒暄语句作为所述语音聊天信息对应的回复信息并输出；

若不存在与所述文本信息匹配的目标寒暄语句，则将预设答复语句作为所述语音聊天信息对应的回复信息并输出。

此外，为实现上述目的，本发明还提供一种基于语音识别的人机问答装置，所述基于语音识别的人机问答装置包括：

信息接收模块，用于在接收到用户输入的语音聊天信息时，将所述语音聊天信息输入至预设语音识别模型，得到所述语音聊天信息对应的文本信息；

信息处理模块，用于获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息；

距离计算模块，用于计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离；

信息输出模块，用于在存在小于预设距离阈值的编辑距离时，将与所述标准信息编辑距离最小的聊天模板作为目标聊天模板，并输出所述目标聊天模板对应的回复信息。

此外，为实现上述目的，本发明还提供一种基于语音识别的人机问答设备；

所述基于语音识别的人机问答设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中：

所述计算机程序被所述处理器执行时实现如上所述的基于语音识别的人机问答方法的步骤。

此外，为实现上述目的，本发明还提供计算机存储介质；

所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的基于语音识别的人机问答方法的步骤。

本发明实施例提出的一种基于语音识别的人机问答方法、装置、设备和存储介质，本发明中终端对用户输入的语音聊天信息语音识别，得到文本信息，终端对文本信息归一化处理，得到文本信息对应的标准信息，可以极大的减少数据库模板，提高搜索效率，然后，终端计算标准信息与预设聊天数据库中各聊天模板的编辑距离，获取与标准信息匹配目标聊天模板，并将目标聊天模板对应的回复信息进行输出，本发明中通过编辑距离的计算，不仅提高了用户识别的聊天意图准确性，还提高了鲁棒性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明基于语音识别的人机问答方法第一实施例的流程示意图；

图3为本发明基于语音识别的人机问答装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端(又叫基于语音识别的人机问答设备，其中，基于语音识别的人机问答设备可以是由单独的基于语音识别的人机问答装置构成，也可以是由其他装置与基于语音识别的人机问答装置组合形成)结构示意图。

本发明实施例终端可以固定终端，也可以是移动终端，如，带联网功能的智能空调、智能电灯、智能电源、智能音箱、自动驾驶汽车、PC(personal computer)个人计算机、智能手机、平板电脑、电子书阅读器、便携计算机等。

如图1所示，该终端可以包括：处理器1001，例如，中央处理器Central ProcessingUnit，CPU)，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless-FIdelity，WIFI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如，磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块；输入单元，比显示屏，触摸屏；网络接口可选除无线接口中除WiFi外，蓝牙、探针等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，该计算机软件产品存储在一个存储介质(存储介质：又叫计算机存储介质、计算机介质、可读介质、可读存储介质、计算机可读存储介质或者直接叫介质等，存储介质可以是非易失性可读存储介质，如RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的计算机程序，并执行本发明以下实施例提供的基于语音识别的人机问答方法中的步骤。

本实施例提出基于语音识别的人机问答方法，应用于如图1所示的终端。

参照图2，本发明基于语音识别的人机问答方法的第一实施例中，所述基于语音识别的人机问答方法包括：

步骤S10，在接收到用户输入的语音聊天信息时，将所述语音聊天信息输入至预设语音识别模型，得到所述语音聊天信息对应的文本信息。

终端(又叫聊天机器人)接收到用户输入的语音聊天信息时，终端识别用户输入的语音聊天信息，得到语音聊天信息对应的文本信息。其中，本实施例中终端识别语音聊天信息是通过预设的语音识别模型实现的，即，终端将语音聊天信息输入至预先设置的语音识别模型中，预设的语音识别模型先将语音聊天信息进行预处理，提取语音聊天信息中的特征语音参数，然后，语音识别模型对特征语音参数进行识别，得到特征语音参数对应的音节，并根据各个音节进行生成语音聊天信息对应的文本信息。

需要补充说明的是，若接收到的聊天信息是文字格式时，则直接执行步骤S20，即，

步骤S20，获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息。

终端处理文本信息以提取文本信息中的目标词语，即，终端首先对文本信息进行分词处理，得到文本信息对应的分词集合。终端将去除分词集合中的噪声词，终端将分词集合中的实体词作为目标词语，并获取分词集合中的目标词语，终端得到文本信息中的目标词语之后，终端将目标词语进行归一化处理，其中，归一化处理是指将目标词语进行替换，得到所述文本信息对应的标准信息。

例如，文本信息为：张三的邻居是谁？终端对文本信息进行分析提取文本信息中的目标词语：“张三”终端将目标词语“张三”替换为“人名”，得到语音聊天信息对应的标准信息：“$人名$的邻居”。

本实施例中通过对文本信息进行分析，获取文本信息中的目标词语，终端将目标词语进行归一化处理，得到文本信息对应的标准信息，使得终端准确的识别用户语音聊天信息的意图，以进行准确地答复，与此同时，在本实施例中通过将文本信息转换为标准信息，是为了按照标准信息进行回复信息搜索时，减少不必要的信息比对，使得信息处理效率更高。

在得到文本信息对应的标准信息之后，终端理应按照标准信息进行回复信息的搜索，但是为了防止终端信息识别错误的情况，终端需要排除异常情况，具体地，在步骤S20之后，包括：

步骤a1，将所述标准信息与预设标准数据库中的正例模板和负例模板进行匹配，得到正例得分和负例得分，其中，正例得分是指标准信息与正例模板的相似度，负例得分是指标准信息与负例模板的相似度；

步骤b1，在所述正例得分大于所述负例得分，则判定标准信息合格。

即，在终端得到标准信息之后，若直接按照标准信息进行答案搜索，可能会出现由于在语法理解方面的薄弱容易引起语义的误读。终端并不能很好地获取用户的真实意图，因此，终端对得到的标准信息与预设标准数据库中的正例模板和负例模板进行匹配(预设标准数据库是指预设设置的可能出现歧义的模板信息，例如：预设标准数据库中包含的正例模板为$楼盘$的价格是多少；包含的负例模板为$楼盘$的价格真贵)，获取标准信息与正例样本对应的正例得分，和标准信息与负例样本对应的负例得分，在正例得分高于负例得分时，判定标准信息合格。

其中，本实施例中标准信息与正例样本对应的正例得分，和标准信息与负例样本对应的负例得分，可以是用相似度表示的，即，标准信息与正例样本越相似，则标准信息的正例得分越高，反之。

例如，文本信息为：张三的邻居真讨厌？标准信息为：$张三$的邻居真讨厌，若直接进行问题答案的搜索，可能会将张三邻居的信息输出，但此时用户的聊天意图并不是查询张三邻居的信息。再比如：标准信息为：$楼盘$的价格真贵，若直接进行问题答案的搜索，可能会将楼盘的价格进行输出，但此时用户的聊天意图并不是查询楼盘价格，为了排除上述情况，终端将标准信息与预设标准数据库中的正负例模板进行匹配，以准确了解用户意图，可以避免语音聊天信息识别错误，有效提高聊天的准确性。

步骤S30，计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离。

终端计算标准信息与预设聊天数据库中各聊天模板的编辑距离，其中，编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。通常来说，编辑距离越小，两个串的相似度越大。具体包括：

步骤a2获取所述标准信息对应的标准字符串str1和所述标准字符串str1的长度m。

步骤b2，查询预设聊天数据库，获取所述预设聊天数据库中各聊天模板，获取所述聊天模板对应的问题字符串str2和所述问题字符串str2的长度n。

步骤c2，创建一个维度为(m+1)*(n+1)的矩阵d，并扫描所述标准字符串str1和所述问题字符串str2，在str1[i]＝str2[j]时，则temp计为0，反之，temp计为1。

步骤d2，将d[i-1，j]+1、d[i，j-1]+1和d[i-1，j-1]+temp中的最小值赋值给矩阵d[i，j]，在扫描完成后，返回所述矩阵d的最后一个值d[n][m]作为所述标准信息与所述聊天模板的编辑距离。

即，终端获取标准语音聊天信息对应str1、聊天模板对应str2；然后，初始化一个(m+1)*(n+1)的矩阵d，终端让第一行和第一列的值从0开始增长。扫描两字符串(m*n级的)，如果：str1[i]＝＝str2[j]，用temp记录它，为0。否则temp记为1。然后将矩阵d[i,j]赋予d[i-1,j]+1、d[i,j-1]+1、d[i-1,j-1]+temp三者的最小值。最后，扫描完后，返回矩阵的最后一个值d[n][m]即是标准语音聊天信息与聊天模板的编辑距离。本实施例中通过计算标准信息与预设聊天数据库中各聊天模板的编辑距离，以准确地查询到标准信息对应的聊天模板，使得信息处理更加准确。

步骤S40，在存在小于预设距离阈值的编辑距离时，将与所述标准信息编辑距离最小的聊天模板作为目标聊天模板，并输出目标聊天模板对应的回复信息。

终端用编辑距离表征标准信息与聊天模板的相似度，在存在小于预设距离阈值(预设距离阈值是指预先设置的编辑距离临界值，编辑距离大于或等于预设距离阈值也就是说标准信息与聊天模板不相似，反之)的编辑距离时，即，预设聊天数据库中存在与标准信息相似度高的聊天模板，终端将与所述标准信息编辑距离最小的聊天模板作为目标聊天模板，并输出所述目标聊天模板对应的回复信息。

在本实施例中终端对用户输入的语音聊天信息语音识别，得到文本信息，终端对文本信息归一化处理，得到文本信息对应的标准信息，可以极大的减少数据库模板，提高搜索效率，然后，终端计算标准信息与预设聊天数据库中各聊天模板的编辑距离，获取与标准信息匹配目标聊天模板，并将目标聊天模板对应的回复信息进行输出，本发明中通过编辑距离的计算，不仅提高了用户识别的聊天意图准确性，还提高了鲁棒性。

进一步地，在第一实施例中基础上提出了本发明的第二实施例。

本实施例是在第一实施例步骤S10之前的步骤，即在将语音聊天信息输入至预设语音识别模型之前，终端需要先建立语音识别模型，本实施例中给出了预设语音识别模型的训练方法，具体地：

步骤S01，分别采集预设方言语系和普通话语系朗读语音信息，并提取各所述语音信息对应的语音特征参数，将各所述语音特征参数组成语音特征集合。

在建立语音识别模型之前需要首先采集普通话、北京话、东北方言、吴方言、赣方言、湘方言、客家方言、闽方言、粤方言和蜀方言的语音信息，终端将采集到的语音信息按预处理规则进行处理得到特征数据，其中，预处理主要包括预加重、加窗分帧处理、端点检测和降噪处理四个过程。预加重处理是利用信号特性和噪声特性的差别来有效地对信号进行处理，对语音的高频部分进行加重，去除口鼻辐射的影响，增加语音的高频分辨率。加窗分帧处理包括加窗和分帧，其中，一般的分帧方法为交叠分段的方法，前一帧和后一帧的交叠部分称为帧移，而分帧是采用可移动的有限长度的窗口进行加权的方法来实现的，即用一定的窗函数，从而形成加窗语音信号，其中窗函数一般采用汉明窗和矩形窗。端点检测是从一段给定的语音信号中找出语音的起始点和结束点，正确、有效的进行端点检测不仅可以减少计算量和缩短处理时间，而且还能排除无声段的噪声干扰、提高语音识别的正确率。

步骤S02，抽取所述语音特征集合中预设比例的各所述语音特征参数，并通过各所述语音特征参数构建初始语音识别模型。

接着，终端提取经预处理后的特征数据之后，利用特征数据对构建初始语音识别模型，即，构建初始语音识别模型是基于HMM(Hidden Markov Model，隐马尔可夫模型)实现的，隐马尔可夫模型实质就是对特征数据中表征语音信息的特征进行建模，通过对特征数据中的语音特征进行了大量的统计而得到模型参数，而迭代算法可以采用Baum–Welch(鲍姆韦尔奇)算法，也可以采用经K均值算法改进后的Baum–Welch算法，可提高模型的准确性。

步骤S03，通过迭代算法训练所述初始语音识别模型，得到最优模型参数，并将训练得到所述最优模型参数对应的语音识别模型作为预设语音识别模型。

终端通过迭代算法训练初始语音识别模型，其中，语音识别模型的训练过程如下：1、基于HMM模型构建语音识别模型，并设置语音识别模型的参数初始值，参数初始值可以通过等划分状态或者根据经验估计设置；2、设置最大的迭代次数和收敛阈值；3、采用Viterbi算法(Viterbi Algorithm，维特比算法)对输入的特征数据进行状态的分段操作；4、通过迭代算法(Baum-welch算法)对该语音识别模型的参数进行更新，并对特征数据进行迭代训练，不断地循环迭代，直到达到先前设置的迭代次数或已经收敛，此时，可得到该语音识别模型的最优模型参数，进而根据该最优模型参数获得训练好的预设语音识别模型。在本实施例中通过训练语音识别模型实现客户语音信息的准确识别。

进一步地，在本发明上述实施例的基础上，提出了本发明基于语音识别的人机问答方法的第三实施例。

本实施例是第一实施例步骤S20的细化，本实施例中在终端预设词语识别模型，以通过预设词语识别模型提取文本信息中的目标词语，在本实施例中所述基于语音识别的人机问答方法包括：

步骤S21，将所述文本信息输入预设词语识别模型，通过所述预设词语识别模型对所述文本信息进行分词处理，得到所述文本信息对应的分词集合。

终端将文本信息输入预设词语识别模型，预设词语识别模型对文本信息进行分词处理，得到文本信息对应的分词集合，终端去除分词集合中的噪声词“的”、“吗”等，保留所述文本信息中包含的关键词。

其中，预设词语识别模型是指预先设置用于识别文本信息中目标词语的算法，即，预设词语识别模型中包含分词算法和目标词语识别算法(目标词语可以是兴趣实体词和附加功能词等等，即，目标词语识别算法可是现有的实体词识别算法)。

步骤S22，将所述分词集合中的关键词与预设词语集合中的预设目标词进行比对，获取与所述预设目标词匹配的目标关键词。

在得到文本信息中包含的关键词之后，终端将关键词与预设词语集合(预设词语集合是指预先设置的目标词集合，预先设置的目标词可以是人名、地名等)中的预设目标词进行比对，终端获取与所述预设目标词匹配的目标关键词，例如，终端通过预设词语识别模型中的实体词识别算法，将文本信息进行实体边界识别，在实体边界识别完成之后，终端确定实体类别(人名、地名、机构名或其他)，终端将识别得到的实体词作为语音聊天信息中的目标词语。

步骤S23，将所述目标关键词作为所述文本信息中的目标词语，将所述目标词语替换为所述预设目标词对应的模板词，得到所述文本信息对应的标准信息。

终端将所述目标关键词作为所述文本信息中的目标词语，终端将目标词语替换为所述预设目标词对应的模板词，得到所述文本信息对应的标准信息；例如，终端确定目标词语为“张三”，终端将目标词语“张三”替换为模板词“人名”，得到文本信息对应的标准信息：“$人名$的邻居。本实施例中给出了文本信息处理的方式，通过将文本信息进行处理转化为，可以使得信息处理效率更高。

进一步地，在上述实施例的基础上，提出了本发明基于语音识别的人机问答方法的第四实施例。

本实施例是第一实施例步骤S20之后，本实施例与第一实施例的区别在与，本实施例中具体说明了所述标准信息不合格时，基于语音识别的人机问答方法，包括：

步骤S50，在所述标准信息不合格时，将所述文本信息与预设寒暄数据库中的预设寒暄语句进行比对。

终端在确定标准信息不合格时，终端将文本信息与预设寒暄数据库中的预设寒暄语句进行比对，其中，预设寒暄数据库是指预先设置的寒暄语句数据库，例如，预设寒暄数据库中包含：今天是个好天气。

步骤S60，若存在与所述文本信息匹配的目标寒暄语句，则将所述目标寒暄语句作为所述语音聊天信息对应的回复信息并输出。

若预设寒暄数据库中存在与所述文本信息匹配的目标寒暄语句，则终端将目标寒暄语句作为所述语音聊天信息对应的回复信息并输出。

步骤S70，若不存在与所述文本信息匹配的目标寒暄语句，则将预设答复语句作为所述语音聊天信息对应的回复信息并输出。

若预设寒暄数据库中不存在与所述文本信息匹配的目标寒暄语句，则终端将预设答复语句作为所述语音聊天信息对应的回复信息并输出，其中，预设答复语句是指预先设置的答复语句，例如：预设答复语句为：我没有听清楚，麻烦你再说一遍。在本实施例中在终端不可以准确识别的语音聊天信息时，给出了对应的答复方式，使得人机交互更加智能。

进一步地，在上述实施例的基础上，提出了本发明基于语音识别的人机问答方法的第五实施例。

本实施例是第一实施例中步骤S30之后的步骤，本实施例中在存在小于预设距离阈值的编辑距离时，通过预设神经网络模型生成对应的回复信息，具体地，包括：

步骤S80，在不存在小于预设距离阈值的编辑距离时，将所述文本信息输入至预设神经网络模型，通过所述预设神经网络模型处理所述文本信息，得到所述文本信息对应的聊天意图。

终端计算得到的编辑距离与预设距离阈值进行比较，在不存在小于预设距离阈值的编辑距离时，即，终端通过信息比对不能获取到语音聊天信息对应的回复信息，终端将所述文本信息输入至预设神经网络模型(其中，预设神经网络模型是指预先设置的回复信息生成模型)，通过所述预设神经网络模型处理所述文本信息，得到所述文本信息对应的聊天意图。

步骤S90，查询预设答复词语集合，生成与所述聊天意图匹配的回复信息，并输出所述回复信息。

终端查询预设答复词语集合，其中，预设答复词语集合中包含有预设设置的回复词，终端获取聊天意图的标签，终端将标签对应的回复词进行组合，生成聊天意图匹配的回复信息，并输出所述回复信息。在本实施例中通过预设神经网络模型进行回复信息的生成，使得人机聊天更加智能

此外，参照图3，本发明实施例还提出基于语音识别的人机问答装置，所述基于语音识别的人机问答装置包括：

信息接收模块10，用于在接收到用户输入的语音聊天信息时，将所述语音聊天信息输入至预设语音识别模型，得到所述语音聊天信息对应的文本信息；

信息处理模块20，用于获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息；

距离计算模块30，用于计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离；

信息输出模块40，用于在存在小于预设距离阈值的编辑距离时，将与所述标准信息编辑距离最小的聊天模板作为目标聊天模板，并输出所述目标聊天模板对应的回复信息。

可选地，所述距离计算模块30，包括：

第一获取单元，用于获取所述标准信息对应的标准字符串str1和所述标准字符串str1的长度m；

第二获取单元，用于查询预设聊天数据库，获取所述预设聊天数据库中各聊天模板，获取所述聊天模板对应的问题字符串str2和所述问题字符串str2的长度n；

创建扫描单元，用于创建一个维度为(m+1)*(n+1)的矩阵d，并扫描所述标准字符串str1和所述问题字符串str2，在str1[i]＝str2[j]时，则temp计为0，反之，temp计为1；

距离技术单元，用于将d[i-1，j]+1、d[i，j-1]+1和d[i-1，j-1]+temp中的最小值赋值给矩阵d[i，j]，在扫描完成后，返回所述矩阵d的最后一个值d[n][m]作为所述标准信息与所述聊天模板的编辑距离。

可选地，所述基于语音识别的人机问答装置，包括：

输入处理模块，用于在不存在小于预设距离阈值的编辑距离时，将所述文本信息输入至预设神经网络模型，通过所述预设神经网络模型处理所述文本信息，得到所述文本信息对应的聊天意图；

答复输出模块，用于查询预设答复词语集合，生成与所述聊天意图匹配的回复信息，并输出所述回复信息。

可选地，所述基于语音识别的人机问答装置，包括：

语音采集模块，用于分别采集预设方言语系和普通话语系朗读语音信息，并提取各所述语音信息对应的语音特征参数，将各所述语音特征参数组成语音特征集合；

模型构建模块，用于抽取所述语音特征集合中预设比例的各所述语音特征参数，并通过各所述语音特征参数构建初始语音识别模型；

模型训练模块，用于通过迭代算法训练所述初始语音识别模型，得到最优模型参数，并将训练得到所述最优模型参数对应的语音识别模型作为预设语音识别模型。

可选地，所述信息处理模块20，包括：

分词处理单元，用于将所述文本信息输入预设词语识别模型，通过所述预设词语识别模型对所述文本信息进行分词处理，得到所述文本信息对应的分词集合；

词语比对单元，用于将所述分词集合中的关键词与预设词语集合中的预设目标词进行比对，获取与所述预设目标词匹配的目标关键词；

归一化处理单元，用于将所述目标关键词作为所述文本信息中的目标词语，将所述目标词语替换为所述预设目标词对应的模板词，得到所述文本信息对应的标准信息。

可选地，所述基于语音识别的人机问答装置，包括：

比对模块，用于将所述标准信息与预设标准数据库中的正例模板和负例模板进行匹配，得到正例得分和负例得分，其中，正例得分是指标准信息与正例模板的相似度，负例得分是指标准信息与负例模板的相似度；在所述正例得分大于所述负例得分时，执行步骤：计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离。

可选地，所述基于语音识别的人机问答装置，还包括：

标准信息比对模块，用于在所述标准信息不合格时，将所述文本信息与预设寒暄数据库中的预设寒暄语句进行比对；

第一输出模块，用于若存在与所述文本信息匹配的目标寒暄语句，则将所述目标寒暄语句作为所述语音聊天信息对应的回复信息并输出；

第二输出模块，用于若不存在与所述文本信息匹配的目标寒暄语句，则将预设答复语句作为所述语音聊天信息对应的回复信息并输出。

其中，基于语音识别的人机问答装置的各个功能模块实现的步骤可参照本发明基于语音识别的人机问答方法的各个实施例，此处不再赘述。

此外，本发明实施例还提出一种计算机存储介质。

所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例提供的基于语音识别的人机问答方法中的操作。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来，而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序；术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于语音识别的人机问答方法，其特征在于，所述基于语音识别的人机问答方法包括以下步骤：

2.如权利要求1所述的基于语音识别的人机问答方法，其特征在于，所述计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离的步骤，包括：

3.如权利要求1所述的基于语音识别的人机问答方法，其特征在于，所述计算所述标准信息与预设聊天数据库中各聊天模板的编辑距离的步骤之后，包括：

4.如权利要求1所述的基于语音识别的人机问答方法，其特征在于，所述在接收到用户输入的语音聊天信息时，将所述语音聊天信息输入至预设语音识别模型，得到所述语音聊天信息对应的文本信息的步骤之前，包括：

5.如权利要求1所述的基于语音识别的人机问答方法，其特征在于，所述获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息的步骤，包括：

6.如权利要求1所述的基于语音识别的人机问答方法，其特征在于，所述获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息的步骤之后，包括：

7.如权利要求1所述的基于语音识别的人机问答方法，其特征在于，所述获取所述文本信息中的目标词语，并将所述目标词语进行归一化处理，得到所述文本信息对应的标准信息的步骤之后，包括：

8.一种基于语音识别的人机问答装置，其特征在于，所述基于语音识别的人机问答装置包括：

9.一种基于语音识别的人机问答设备，其特征在于，所述基于语音识别的人机问答设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中：

所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于语音识别的人机问答方法的步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于语音识别的人机问答方法的步骤。