CN115292461B

CN115292461B - 基于语音识别的人机交互学习方法及系统

Info

Publication number: CN115292461B
Application number: CN202210916567.8A
Authority: CN
Inventors: 姜晓丹; 张晶; 王双; 张成凯; 樊辉; 安军刚; 韩兴源; 傅天隆; 吕子祺
Original assignee: Beijing Jiarui Intelligent Technology Group Co ltd
Current assignee: Beijing Jiarui Intelligent Technology Group Co ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2024-03-12
Anticipated expiration: 2042-08-01
Also published as: CN115292461A

Abstract

本申请公开了一种基于语音识别的人机交互学习方法及系统，将问题进行原子化拆分，用关键词联系为带权有向图结构，通过训练和优化，使得图中的子图树形结构中的信息最多且关键词子树更精简有效从而满足教学场景使用的问答技术，然后根据模型得到规则序列；将得到的规则序列进行训练，从而匹配问答规则，实现问答流程并且进行过程打分输出最佳结果。解决了现有的智能问答系统无法对应答内容进行评判和评分，无法告诉对话者在对话过程中所说内容是否符合标准流程规范、是否出现问题，无法有效应用于客服人机虚拟对联场景，无法满足学习者的教学场景使用的问题。

Description

基于语音识别的人机交互学习方法及系统

技术领域

本申请涉及人工智能技术领域，具体涉及一种基于语音识别的人机交互学习方法及系统。

背景技术

现有的智能问答系统主要用于问答式机器人，当用户进行提问时，系统才将采集语音信息，并将语音信息转化为文本信息，最后将文本数据进行问题类别分析。在进行类别分析时，主要是关键词分析、句法分析、语义分析，识别出用户问题意图并准确搜索用户所需的知识内容，然后将答案根据需要的格式输出给客户。

但是，现有的智能问答系统主要应用于答案智能搜索，由人来问、系统来答，无法对应答内容进行评判和评分。无法告诉对话者在对话过程中所说内容是否符合标准流程规范、是否出现问题，无法有效应用于客服人机虚拟对联场景，而且，现有技术多数的应用场景是客服和自由对话，无法满足学习者的教学场景使用。

发明内容

为此，本申请提供一种基于语音识别的人机交互学习方法及系统，以解决现有技术存在的无法对应答内容进行评判和评分、无法判断对话是否符合标准流程规范、是否出现问题，无法有效应用于客服人机虚拟对联场景以及无法满足学习者的教学场景使用的问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种基于语音识别的人机交互学习方法，包括：

接收用户输入的问答指令；

判断所述问答指令是语音指令还是文本指令；

若所述问答指令为语音指令，则将语音内容转化为文本内容，并编码为字符串数据；

若所述问答指令为文本指令，则直接将文本内容编码为字符串数据；

将字符串数据中的语料内容通过编码后分词切割处理成文本向量，通过文本向量计算进行比对并抽取实体关系；

根据确定的实体关系判断知识库是否有答案；

若知识库能查询到答案，则将知识库中的答案返回至问答界面；

若知识库未能查询到答案，则通过实体意图词频和语义关系将文本间带权有向图结构转化为规则序列，分析话术预警意图无歧义后，将候选意图中所配置的标准文本转换为向量，学习生成两个文本的余弦相似度高内容为得到匹配答案，并返回至问答界面；

根据设定的评分规则对用户的答复进行打分并返回至问答界面。

进一步的，所述将字符串数据中的语料内容通过编码后分词切割处理成文本向量，通过文本向量计算进行比对并抽取实体关系，具体为：

获取字符串数据中的语料内容，并进行语料类型编码；

根据第一公式和第二公式计算关系抽取算法的双向特征输入序列；

所述第一公式为：

其中，x_i为字符串数据中含有的人工设置的语料内容，p_i表示输入的字符串数据序列中第i个位序内容的类型概率，α表示当前输入的语料类型文本编码中第一个语料类型概率值；

所述第二公式为：

其中，表示从输入的上一个带标签的语料类型到下一个带标签类型转移矩阵中的特征值，(x_i,p_i)表示输入的内容的编码值和该输入类型中i位置的类型概率值的行列式，/>表示输入内容编码值的行特征内容值和列特征类型值，β表示从x_i输入中根据α与β的转移矩阵特征变化关系预测出的下一句中文本编码中的语料内容关系类型概率值，p_i-1表示输入当前编码类型值和下一句的编码类型值后按照随机条件场计算出下一个语料类型的预测概率值；

根据第三公式计算句子对应的关系标签类型概率；

所述第三公式为：

其中，δ为输入序列中前后两种语料类型的关系标签值，χ为前后两种语料类型关系类型预测概率值；

根据第四公式计算输出序列的关系标签概率值得分；

所述第四公式为：

其中，C为输入x_i中总语料类型数，为当前被分析句中不同组合χ；

将得分最高的语料内容顺序依次排列为输出实体。

更进一步的，所述语料内容包括欢迎语类型W、介绍语类型M或感谢语类型N。

进一步的，所述匹配答案，具体为：

为输出的问题匹配答案，i表示图卷积上的节点与第一个提问有关的所有语料内容，r表示邻接节点的关系边是语料内不同的类型关系数，j属于N^r _i表示节点i与邻接点的边关系为r的集合，c_i,r为上述语料类型关系值的绝对值，/>表示同类型边邻接节点同类型语料的文本编码权重，/>表示图上第一个起始点同类型边邻接节点间同类型语料的文本编码权重，/>为当前问题输入的语料内容，R为一句话的所有类型/>组合数，σ表示句子长短的距离设置参数，h^(l) _j为图中关联邻接当前问答语料内容的下一句语料内容。

进一步的，所述评分规则包括：标准流程、话术、词语和匹配度。

进一步的，还包括：

根据对话过程回答的错误的次数、种类和内容来评估业务能力，得出综合评价以及建议的培训方案。

进一步的，所述匹配答案和所述打分通过文本的形式返回至问答界面。

第二方面，一种基于语音识别的人机交互学习系统，包括：

问答界面模块，用于接收用户输入的问答指令并展示问答结果；

语音处理模块，用于判断所述问答指令是语音指令还是文本指令；

知识规则模块，用于将字符串数据中的语料内容通过编码后分词切割处理成文本向量，通过文本向量计算进行比对并抽取实体关系；

判断模块，用于判断知识库是否有答案；

问答处理模块，用于通过实体意图词频和语义关系将文本间带权有向图结构转化为规则序列，分析话术预警意图无歧义后，将候选意图中所配置的标准文本转换为向量，学习生成两个文本的余弦相似度高内容为得到匹配答案，并返回至问答界面；

问答评分模块，用于根据设定的评分规则对用户的答复进行打分并返回至问答界面。

相比现有技术，本申请至少具有以下有益效果：

本申请提供了一种基于语音识别的人机交互学习方法及系统，用人工智能技术解决问答场景，将问题进行原子化拆分，用关键词联系为带权有向图结构，通过训练和优化，使得图中的子图树形结构中的信息最多且关键词子树更精简有效从而满足教学场景使用的问答技术。然后根据模型得到规则序列；将得到的规则序列进行训练，从而匹配问答规则，实现问答流程并且进行过程打分输出最佳结果。解决了现有的智能问答系统无法对应答内容进行评判和评分，无法告诉对话者在对话过程中所说内容是否符合标准流程规范、是否出现问题，无法有效应用于客服人机虚拟对联场景，无法满足学习者的教学场景使用的问题。

附图说明

为了更直观地说明现有技术以及本申请，下面给出几个示例性的附图。应当理解，附图中所示的具体形状、构造，通常不应视为实现本申请时的限定条件；例如，本领域技术人员基于本申请揭示的技术构思和示例性的附图，有能力对某些单元(部件)的增/减/归属划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。

图1为本申请实施例一提供的一种基于语音识别的人机交互学习方法第一种流程图。

图2为本申请实施例一提供的一种基于语音识别的人机交互学习方法第二种流程图；

图3为本申请实施例一提供的一种基于语音识别的人机交互学习方法第三种流程图；

图4为本申请实施例一提供的一种基于实体识别的关系抽取算法流程图；

图5为本申请实施例二提供的一种基于语音识别的人机交互学习系统结构示意图。

具体实施方式

以下结合附图，通过具体实施例对本申请作进一步详述。

在本申请的描述中：除非另有说明，“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象，而不具有技术内涵方面的特别意义(例如，不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式，同时还意味着“不限于”(某些单元、部件、材料、步骤等)。

本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，通常是为了便于对照附图直观理解，而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下，这些相对位置关系的改变，当亦视为本申请表述的范畴。

实施例一

请参阅图1至图3，本实施例提供一种基于语音识别的人机交互学习方法，包括：

S1：接收用户输入的问答指令；

具体的，用户可以通过语音或文本形式输入问答指令，语音文件的文件类型后缀为xx.amr，文本文件的文件类型后缀为xxx.txt。

S2：判断问答指令是语音指令还是文本指令；

具体的，当用户回答问题输入后，根据文件类型后缀是xx.amr或xxx.txt直接识别。

S3：若问答指令为语音指令，则将语音内容转化为文本内容，并编码为字符串数据；

具体的，若问答指令为语音指令，则系统能够自动进行场景语音识别(简称：ASR)，自动场景语音识别技术是音频流信号通过信号处理的方法转换为对于的文本文字或者文本字典符号，然后根据声纹特征和语义理解进行转换为计算可以处理的文本信息数据。

S4：若问答指令为文本指令，则直接将文本内容编码为字符串数据；

具体的，若问答指令为文本指令，则系统能够场景实体识别(简称NER)，场景实体识别是根据文本信息数据结合文本特征编码与文本表示及文本家码的方法实现文本中的实体指示内容识别(如：人名，地名，人物，事件，地点，事件)从而实现人机互动的人工智能语音技术之一。

S5：将字符串数据中的语料内容通过编码后分词切割处理成文本向量，通过文本向量计算进行比对并抽取实体关系；

请参阅图4，具体的：

假设：欢迎语类型为W，则语料内容W＝{w₁,w₂,w₃,...，w_n}分别为‘您好’...；

介绍语类型为M，语料内容M＝{m₁,m₂,m₃，...,m_i}分别为‘请问有什么可以帮助您’...；

感谢语类型N，语料内容N＝{n₁,n₂,n₃,...,n_j}分别为'感谢您对本次服务评价'...；

......

以上不同的语料内容可以人工设置添加和删减，x_i通常是一句含有以上语料内容的输入，例如：x_i＝{w₁,m₁,n₁,...}，在关系抽取算法中同时可以通过算法分析把双向特征捕获作为算法的输入序列，其中不同的环境依赖关系进行分类识别的表示。

更具体的，双向特征包括α和β；

其中，x_i为实体识别关系抽取算法的系统输入，该字符串为文本编码，表示输入语料序列中为第i个位序上字符的语料类型及内容，该编码包含有以上三种类型的任意内容及类型，并且可以随着系统升级优化自行定义；pi表示输入序列中第i个位序内容的类型概率，α表示当前输入文本编码中第一个语料类型概率值。

其中，表示从x_i输入的上一个带标签的语料类型到下一个带标签类型转移矩阵中的特征值；

(x_i,p_i)表示输入的内容的编码值和该输入类型中i位置的类型概率值的行列式，表示输入内容编码值的行特征内容值和列特征类型值，先经过矩阵乘法得到转移矩阵T_feature再通过对角线求出矩阵的迹得到T_feature特征值；

P_i-1表示i位序下一个语料类型的预测概率值，β表示从x_i输入中根据α与β的转移矩阵特征变化关系预测出的下一句中文本编码中的语料内容关系类型概率值；

则，

上式中p_i-1表示输入当前编码类型值和下一句的编码类型值后可以根据这种关系按照随机条件场计算出下一个语料类型的预测概率值。

假设一个句子对应多个类型标签，例如：m₁,n₁可以看到是2类，句子样本输入中对应一个关系标签值，经过式(1)获取句子对应的关系标签类型概率，

其中，δ为输入序列中前后两种语料类型的关系标签值，χ为前后两种语料类型关系类型预测概率值，通过这一步就可以算出输入序列中前后语料的关系类型保证句子问答过程中语义顺序是否正确。

同时可以通过打分函数的方法让算法能力在组合输入中关系分析准确率提高且更加满足不同的场景个性化语料内容升级，式(2)将输出序列的关系标签概率值进行打分后通过阈值优化实体关系识别准确率，为输出序列中标注组合的得分：

其中，C为输入中总语料类型数，为当前被分析句中不同组合χ，通过该计算结果，然后将得分最高的语料内容顺序依次排列为输出实体。

通过式(2)表示人机对话系统中客服人员与提问者的对话过程中系统分析客服人员语义行为，第一可以及时帮助客服人员提供高问答服务质量，第二可以通过对话过程生成学习系统资料用于员工学习培训使用。

本申请中将上述整个算法命名为一种基于实体识别的关系抽取算法，简称JRNER。本申请通过以上算法，采用独特编码将每次练习的录音和文本信息进行压缩存储，以便管理人员和客服人员进行复核提高效率。

S6：根据确定的实体关系判断知识库是否有答案；

S7：若知识库能查询到答案，则将知识库中的答案返回至问答界面；

S8：若知识库未能查询到答案，则通过实体意图词频和语义关系将文本间带权有向图结构转化为规则序列，分析话术预警意图无歧义后，将候选意图中所配置的标准文本转换为向量，学习生成两个文本的余弦相似度高内容为得到匹配答案，并返回至问答界面；

具体的，本申请将步骤S7的整个的算法过程命名为一种对话关系图卷积神经网络算法，简称JRRGCN。

JRRGCN算法原理为：

为输出的问题匹配答案，i表示图卷积上的节点与第一个提问有关的所有语料内容，r表示邻接节点的关系边是语料内不同的类型关系数，j属于N^r _i表示节点i与邻接点的边关系为r的集合，c_i,r为上述语料类型关系值的绝对值，/>表示同类型边邻接节点同类型语料的文本编码权重，/>表示图上第一个起始点同类型边邻接节点间同类型语料的文本编码权重，/>为当前问题输入的语料内容，一般为上述计算过程的x_i语句集合，R为一句话的所有类型/>组合数，σ表示句子长短的距离设置参数，h^(l) _j为图中关联邻接当前问答语料内容的下一句语料内容。

通过该算法可以直接从输入中学习后返回问题答案及回答过程的知识点生成情况，同时可以供客服人员学习使用及工作参考。

S8：根据设定的评分规则对用户的答复进行打分并返回至问答界面。

具体的，根据设定的评分规则(包括标准流程、话术、词语、匹配度等，比如流程必须为：欢迎语、介绍，最后为谢谢等；介绍话术必须为：“您好，我是话务员xxxxx，很高兴为您服务“；介绍业务套餐等，必须为固定标准词等，以及通用的敏感词惩罚、问答匹配度等)对客服人员的答复进行打分。

同时根据其对话过程回答的错误的次数、种类和内容来评估业务能力，得出综合评价以及建议的培训方案，以提高客服人员的服务能力与质量。

最后问答处理系统将回答结果、评分输出至问答界面，问答界面系统将问答结果和评分展示至显示界面。

实施例二

请参阅图5，本实施例提供一种基于语音识别的人机交互学习系统，包括：

判断模块，用于判断知识库是否有答案；

关于基于语音识别的人机交互学习系统的具体限定可以参见上文中对于基于语音识别的人机交互学习方法的限定，在此不再赘述。

实施例三

本实施例提供一种配置基于语音识别的人机交互学习系统的方法，包括：

第一步：登录问答界面系统，由客服或业务人员将客户服务对话内容特征分词编码，形成一个个问答内容，以便于语音处理模块、知识规则模块、问答处理模块搜索答案调用；

第二步：语音处理模块将对话内容重组并归一化处理，形成具有逻辑结构并可以查看的文档，具体操作如下：对问答内容语音进行转码或文本归档梳理生成知识库及语料内容逻辑编码，将对话流程(如：第一步说开场白，第二步进行自我介绍并询问要办理的业务类型；

第三步：问答处理模块询问是否是本机机主及答案内容进行提示，对问答内容进行关键词提取(如：“您好，我是话务员XXX，请问有什么可以帮您”)；

第四步：分别对每个分词找语音相同的近义词(如：“您好”的近义词可以为“你好”“早晨好”，“有什么可以帮您”的近义词/句可以为“请问您需要什么帮助”等)；

第五步：将梳理好的语料、关键词通过系统中的意图定制功能进行录入，系统将意图和语料进行存储；

第六步：使用对话定制功能将拆分好的问答流程、跳转逻辑、需要播放的文本内容、提示内容录入，以用于系统的训练；

第七步：将存储好的语料与流程作为模型训练的数据集，系统通过深度学习方法，用输入的内容进行训练学习，获得词组组合概率的语言统计模型，精准的匹配问答答案；

第八步：系统经过训练，生成符合问答的数据根据场景生成问题规则集，发送至知识规则系统，然后知识库自动更新获取更高更广知识点提高后续问答质量；

第九步：对问答系统自动评分引擎内置6个等级，手工可以设置回答正确率和评分匹配的评级；业务人员可在评分规则配置功能中配置相应正确率所匹配的评分等级，用于自动评分系统评级优化。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾)，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述；这些未明确写出的实施例，也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本申请作了较为具体和详细的描述。应当理解，基于本申请的技术构思，还可以对这些具体实施例作出若干常规的调整或进一步的创新；但只要未脱离本申请的技术构思，这些常规的调整或进一步的创新得到的技术方案也同样落入本申请的权利要求保护范围。

Claims

1.一种基于语音识别的人机交互学习方法，其特征在于，包括：

接收用户输入的问答指令；

判断所述问答指令是语音指令还是文本指令；

根据确定的实体关系判断知识库是否有答案；

根据设定的评分规则对用户的答复进行打分并返回至问答界面；

所述将字符串数据中的语料内容通过编码后分词切割处理成文本向量，通过文本向量计算进行比对并抽取实体关系，具体为：

获取字符串数据中的语料内容，并进行语料类型编码；

所述第一公式为：

所述第二公式为：

其中，

表示从输入的上一个带标签的语料类型到下一个带标签类型转移矩阵中的特征值，(x_i,p_i)表示输入的内容的编码值和该输入类型中i位置的类型概率值的行列式，/>表示输入内容编码值的行特征内容值和列特征类型值，β表示从x_i输入中根据α与β的转移矩阵特征变化关系预测出的下一句中文本编码中的语料内容关系类型概率值，p_i-1表示输入当前编码类型值和下一句的编码类型值后按照随机条件场计算出下一个语料类型的预测概率值；

根据第三公式计算句子对应的关系标签类型概率；

所述第三公式为：

根据第四公式计算输出序列的关系标签概率值得分；

所述第四公式为：

将得分最高的语料内容顺序依次排列为输出实体。

2.根据权利要求1所述的基于语音识别的人机交互学习方法，其特征在于，所述语料内容包括欢迎语类型W、介绍语类型M或感谢语类型N。

3.根据权利要求1所述的基于语音识别的人机交互学习方法，其特征在于，所述匹配答案，具体为：

4.根据权利要求1所述的基于语音识别的人机交互学习方法，其特征在于，所述评分规则包括：标准流程、话术、词语和匹配度。

5.根据权利要求1所述的基于语音识别的人机交互学习方法，其特征在于，还包括：

6.根据权利要求1所述的基于语音识别的人机交互学习方法，其特征在于，所述匹配答案和所述打分通过文本的形式返回至问答界面。

7.一种基于语音识别的人机交互学习系统，其特征在于，包括：

判断模块，用于判断知识库是否有答案；