CN110405791B

CN110405791B - 一种机器人模仿及学习讲话的方法与系统

Info

Publication number: CN110405791B
Application number: CN201910758408.8A
Authority: CN
Inventors: 郭志扬; 乔健; 吴鹏程; 陈起航; 朱西锋; 丁航; 陈宇轩; 陆佳莉; 程显达
Original assignee: Jiangsu Aoxin Technology Co Ltd
Current assignee: Jiangsu Aoxin Technology Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2020-03-31
Anticipated expiration: 2039-08-16
Also published as: CN110405791A; CN111409081A

Abstract

本发明公开一种机器人模仿及学习讲话的方法与系统，属于智能机器人的技术领域。包括以下步骤：机器人终端将所述提问语音转换成提问文字回传给云端服务器；所述云端服务器将所述提问文字与题库中的问题相匹配；所述云端服务器通过机器人终端将匹配不成功的提问文字发送给指定的真人客服服务端，客服人员接收到提问文字后以回答文字的形式作答；云端服务器接收到回答文字后，将回答文字转换成基于虚拟机器人的回答语音，并将基于虚拟机器人的回答语音和合成视频在虚拟机器人上播放；将提问文字、回答语音和和合成视频存入到题库中去。本发明既让机器人及时回答客户的提问，又让机器人学到了以前无法回答客户的新问题及答案。

Description

一种机器人模仿及学习讲话的方法与系统

技术领域

本发明属于智能机器人的技术领域，特别是涉及一种机器人模仿及学习讲话的方法与系统。

背景技术

为了加强与客户及准客户的沟通和交流，为客户提供更好的产品和技术服务，很多商家或机构都专门设置了自己的客服及售后技术服务部门，这些部门的工作人员每天在线下或线上跟客户沟通服务的工作量很大，需要进行重复、繁琐的问题回答与指导，而且不能每天24小时都在线或在岗服务用户，商户需要为此付出巨大的人力成本。因此，传统单一人工客服形式已经无法适应用户的需求和企业控制成本的需要。

随着移动互联网、通信及人工智能技术的不断发展，人们开始将目光转向人机智能交互的客服及沟通形式。客服机器人是一种很好的服务客户的形式，但是，客服机器人若要能灵活自如应对广大客户的各种问题，需要在其后台题库中事先准备好海量的题库及答案，这几乎是不可能完成的工作。

发明内容

本发明的目的在于针对现有机器人因题库内容不够丰富而无法回答客户提问、需要人工添加题库的缺陷或问题，提供一种真人在线帮助机器人，并让机器人从此便能回答同样问题的方法及系统。

本发明通过以下技术方案来解决：一种问答机器人的自学习方法，具体包括以下步骤：步骤1、机器人终端接收到客户的提问语音，将所述提问语音转换成提问文字回传给云端服务器；步骤2、所述云端服务器将所述提问文字与题库中的问题相匹配，若匹配成功则执行步骤3；若匹配不成功则执行步骤4；步骤3、播放答案语音和/或答案视频，并退出系统；步骤4、所述云端服务器通过机器人终端将匹配不成功的提问文字发送给指定的真人客服服务端，客服人员接收到提问文字后以回答文字的形式作答，机器人终端将回答文字发送给所述云端服务器；若所述云端服务器设置在实体机器人上，则执行步骤5；若所述云端服务器设置在虚拟机器人上，则执行步骤6；步骤5、云端服务器将回答文字发往语音转换模块转换成基于实体机器人的回答语音，并将基于实体机器人的回答语音发往给机器人终端，然后执行步骤7；步骤6、云端服务器接收到回答文字后，将回答文字转换成基于虚拟机器人的回答语音，同时对所述回答文字进行文字断句、匹配唇形和合成视频，并将基于虚拟机器人的回答语音和合成视频在虚拟机器人上播放；步骤7、将步骤1产生的提问文字、步骤5产生的基于实体机器人的回答语音和步骤6产生的基于虚拟机器人的回答语音和合成视频存入到题库中去；步骤8、给步骤7产生的新增问题按照主谓宾语设置三级关键词，退出系统；

所述云端服务器针对客户的提问设有题库，所述题库中存有适合虚拟机器人使用的各种唇形组合的原型视频文件，对应每句文字不同唇形的排列组合，并赋予每个原型视频文件不同的唇形排列组合码。

在进一步的实施例中，在步骤1中具体包括以下步骤：步骤101、所述机器人终端将客户的提问语音传送到云端服务器；步骤102、所述云端服务器将客户的提问语音传送到语音转换模块，所述语音转换模块将所述客户的提问语音转换成提问文字传回所述云端服务器。

在进一步的实施例中，在步骤6中具体包括以下步骤：步骤601、所述云端服务器接收到回答文字后，按照标点符号将回答文字拆分成若干个句子；步骤602、所述云服务端对拆分后的句子与题库中的原型视频库中的唇形进行匹配；步骤603、将匹配成功的每一句原型视频进行拼接，形成合成视频；步骤604、计算出步骤603形成的合成视频所需的播放时间；步骤605、云端服务器将所述回答文字，按步骤604的时间设定语速，确保发音时长等于文字演播时长，并将所述回答文字发往语音转换模块，语音转换模块将文所述字转换成基于虚拟机器人的回答语音传回所述云端服务器；步骤606、将步骤603产生的合成视频与步骤605产生的基于虚拟机器人的回答语音进行合成，形成最终合成视频；步骤607、将步骤606产生的合成视频通过指定的机器人终端进行播放。

在进一步的实施例中，在步骤602中具体包括以下步骤：步骤6021、将句子中的每一个汉字转化成拼音，根据拼音的元音发音不闭唇时，辅音发音时唇形微张则唇形码设为1，唇形大张则唇形码设为2，根据元音发音闭唇时，辅音发音时唇形微张则唇形码设为3，唇形大张则唇形码设为4，根据元音发音咬唇时，辅音发音时唇形微张则唇形码设为5，唇形大张则唇形码设为6，由此得出该句子的一串唇形排列码；步骤6022、在原型视频库中寻找并获取唇形排列码等同或相近的原型视频，句子最后一个字的唇形码必须相等；步骤6023、若找到相配的原型视频则执行步骤603；步骤6024、若原型视频库中没有唇形相近的唇形排列码，则将该句唇形排列码进行有限拆分，直至拆分后每段都找到唇形等同或相近的原型视频，句子最后一个字的唇形码必须相等，并将这些原型视频拼接成句子视频，转步骤603；步骤6025、若进行有限拆分后仍然找不到唇形等同或相近的原型视频，则报告系统添加补充该唇形排列码的原型视频，匹配失败，报告并退出系统。

一种基于上述的一种问答机器人的自学习方法的自学习系统，包括：机器人终端，用于接收客户的提问语音，并发送回答语音或/和合成视频；云端服务器，用于通过互联网接收所述机器人终端发送的提问语音，并根据所述提问语音通过互联网向所述机器人终端反馈相对应的回答语音或/和合成视频，所述机器人终端播放回答语音或/和合成视频；真人客服服务端，用于接收匹配不成功的提问文字，并安排客服人员以回答文字的形式作答。

在进一步的实施例中，所述云端服务器包括：处理器、录音单元、触控显示单元和通信单元，所述处理器分别与所述录音单元、所述触控显示单元和通信单元连接；所述录音单元用于获取客户的提问语音；所述触控显示单元用于客户操作以及播放视频；所述通信单元用于与所述云端服务器进行数据传输。

在进一步的实施例中，所述云端服务器包括：接收推送模块，用于接收所述机器人终端发送的数据、及向所述机器人终端发送数据；语音转换模块，用于将通过互联网接收到所述云端服务器上的提问语音转换成提问文字并反馈给所述云端服务器；同时将通过互联网接收到所述云端服务器上的回答文字会转换成回答语音，并通过互联网反馈给所述云端服务；匹配模块，用于将所述提问文字从云端服务器中的题库中匹配对应的答案语音或答案视频；存储模块，用于存储客户的提问语音、回答语音、回答文字、合成视频和关键词。

本发明的有益效果：

真人客服人员在机器人无法回答客户提问时帮助机器人在线回答客户的提问，机器人再按照真人客服人员的答案复述给客户听，同时系统将客户的提问和真人客服人员的回答存入题库中，并为其设置好关键词，这样既让机器人及时回答客户的提问，又让机器人学到了以前无法回答客户的新问题及答案，在客户面前展现一个越来越博学聪明的机器人；并在对此实践与操作的过程中，能够丰富机器人的储备，进而实现每天24小时都在线或在岗服务用户，提高服务质量。

附图说明

图1为本发明的问答机器人的自学习方法的流程图。

图2为问答机器人的自学习方法中的步骤1的流程框图。

图3为问答机器人的自学习方法中的步骤6的流程框图。

图4为图3中的步骤602的流程框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

申请人针对现有的服务行业存在的问题：客服部的工作人员每天在线下或线上跟客户沟通服务的工作量很大，需要进行重复、繁琐的问题回答与指导；不能每天24小时都在线或在岗服务用户，尤其是像医院、机场这种公共场合；而现有的机器人题库内容不够丰富，需要人工不定期添加题目操作麻烦。

因此为解决上述技术问题，申请人设计一种真人在线帮助机器人，并让机器人从此便能回答同样问题的方法及系统。

如图1所示，本发明实施例提供的一种问答机器人的自学习方法，具体包括以下步骤：

S1、机器人终端接收到客户的提问语音，将所述提问语音转换成提问文字回传给云端服务器；

具体地，服务商根据会话场景，针对用户据可能提出的问题预先准备相对应的预设问题，且将该预设问题上传至云端服务器，所述云端服务器内的语音转换模块将该预设问题转换为问题文字，并通过存储模块存储在题库内，并针对虚拟机器人录制回复视频，与问题文字对应存储在题库内。并且，在会话过程中，不仅仅是客户的提问，有时也会出现中终端对客户的范文，因此在录制视频时，回复视频包括回答视频和反问视频。

好比，在医院内设置该系统，则预设问题可以包括：挂号区、缴费区、内科、外科、骨科等科室以及住院部所在的地理位置。

在S1中，所述机器人终端将客户的提问语音传送到云端服务器；所述语音转换模块将所述客户的提问语音转换成提问文字传回所述云端服务器。

S2、所述云端服务器将所述提问文字与题库中的问题相匹配，若匹配成功则执行S3；若匹配不成功则执行S4；

具体地，匹配模块将提问文字与题库中的问题相配对，若题库中存在这样的问题，那么即为匹配成功；如果在题库中找不到该问题，那么匹配失败，基于匹配失败的提问，为不影响给客户提供答案同时又能避免下次有客户再次提出相同的问题无法回答的现象，开始对机器人实施在线自学习。

S3、播放答案语音和/或答案视频，并退出系统；

具体地，题库内能够匹配到与客户的问题相匹配的问题，机器人终端自动播放与之对应的答案语音和/或答案视频，并退出系统，问答流程结束。

S4、所述云端服务器通过机器人终端将匹配不成功的提问文字发送给指定的真人客服服务端，客服人员接收到提问文字后以回答文字的形式作答，机器人终端将回答文字发送给所述云端服务器；若所述云端服务器设置在实体机器人上，则执行步骤5；若所述云端服务器设置在虚拟机器人上，则执行步骤6；

具体地，当面对匹配不到的问题时，系统向真人客服服务端求助，真人客服服务端的客服人员针对提问用文字的形式输送给系统，并且每次需要客服人员提供帮助的问题都能够通过以下步骤进行储备，依次机器人的储备量会越来越丰富，那么在经过一段时间的试用后，对客服人员的依赖性则越来越小。

S5、云端服务器将回答文字发往语音转换模块转换成基于实体机器人的回答语音，并将基于实体机器人的回答语音发往给机器人终端，然后执行S7。

具体地，实体机器人在接受到回答语音后，便能够自行张嘴与闭嘴，以与回答语音的说话模式相匹配，达到逼真的效果。

S6、云端服务器接收到回答文字后，将回答文字转换成基于虚拟机器人的回答语音，同时对所述回答文字进行文字断句、匹配唇形和合成视频，并将基于虚拟机器人的回答语音和合成视频在虚拟机器人上播放。

具体地，如果机器人终端为虚拟机器人，那么就存在这样的问题：当回答语音播放时，虚拟机器人中的机器人动漫如何做到唇形的逼真。为此，为了能够实现机器人动漫在回答语音播放时，保持唇形与声音的一致性，有必要匹配相适应的视频。

在S6中，具体包括以下步骤：S601、所述云端服务器接收到回答文字后，按照标点符号将回答文字拆分成若干个句子；为了便于在编辑成回答语音和匹配相对应的唇形时的识别，因此先进行断句，故此处对客服人员在编辑回答文字时的要求较高，需要注意断句、正确使用标点符号。

S 602、所述云服务端对拆分后的句子与题库中的原型视频库中的唇形进行匹配；

具体地唇形匹配包括以下步骤：S 6021、将句子中的每一个汉字转化成拼音，根据拼音的元音发音不闭唇时，辅音发音时唇形微张则唇形码设为1，唇形大张则唇形码设为2，根据元音发音闭唇时，辅音发音时唇形微张则唇形码设为3，唇形大张则唇形码设为4，根据元音发音咬唇时，辅音发音时唇形微张则唇形码设为5，唇形大张则唇形码设为6，由此得出该句子的一串唇形排列码；

此处使用排列码代替汉语拼音的中的元音、辅音对应的唇形，便于题库中的原型视频的匹配，降低出错率，提高逼真程度。

S 6022、在原型视频库中寻找并获取唇形排列码等同或相近的原型视频，句子最后一个字的唇形码必须相等；

S 6023、若找到相配的原型视频则执行S 603；

S 6024、若原型视频库中没有唇形相近的唇形排列码，则将该句唇形排列码进行有限拆分，直至拆分后每段都找到唇形等同或相近的原型视频，句子最后一个字的唇形码必须相等，并将这些原型视频拼接成句子视频，转S 603。

这样设置，是为了给客户提供视觉上的真实度和舒适感。

S 6025、若进行有限拆分后仍然找不到唇形等同或相近的原型视频，则报告系统添加补充该唇形排列码的原型视频，匹配失败，报告并退出系统。

S 603、将匹配成功的每一句原型视频进行拼接，形成合成视频。

S 604、计算出S 603形成的合成视频所需的播放时间；

S 605、云端服务器将所述回答文字，按S 604的时间设定语速，确保发音时长等于文字演播时长，并将所述回答文字发往语音转换模块，语音转换模块将文所述字转换成基于虚拟机器人的回答语音传回所述云端服务器；

S 606、将S 603产生的合成视频与S 605产生的基于虚拟机器人的回答语音进行合成，形成最终合成视频；

S 607、将S 606产生的合成视频通过指定的机器人终端进行播放。

与回答语音相匹配合成视频，在虚拟机器人演示时，做到同时播放回答语音和合成视频，音效与画面保持一致性，音效的发音与画面上的唇形达到高度的逼着，增加客户观看的舒适度。

S7、将S1产生的提问文字、S15产生的基于实体机器人的回答语音和步骤6产生的基于虚拟机器人的回答语音和合成视频存入到题库中去；扩充题库的储备，该机器人能够自行回答的问题因储备量的扩充会越来多。

S8、给S7产生的新增问题按照主谓宾语设置三级关键词，退出系统。即关键词包括一级关键词、二级关键词和三级关键词，只有当一级关键词匹配成功后，再进行二级关键词匹配，最后进行三级关键词匹配，只有当所有等级的关键词匹配成功后，才能匹配到正确的问题文字，提高匹配的精确度。

一种机器人的自学习系统，包括：机器人终端、云端服务器和真人客服服务端。其中，所述机器人终端可以是基于实体机器人的，如立式机器人；也可以是基于虚拟机器人，如在显示屏幕内的机器人动漫。所述机器人终端用于接收客户的提问语音，并发送回答语音或/和合成视频。

所述云端服务器安装在云端服务设备上，用于通过互联网接收所述机器人终端发送的提问语音，并根据所述提问语音通过互联网向所述机器人终端反馈相对应的回答语音或/和合成视频，所述机器人终端播放回答语音或/和合成视频。所述云端服务设备可以是计算机、手机等能够进行互联网通信的通信设备。

所述真人客服服务端，用于接收匹配不成功的提问文字，并安排客服人员以回答文字的形式作答。所述真人客服服务端安装在计算机、手机等能够进行互联网通信的通信设备上，可以无需固定的工作台。

所述云端服务器包括：处理器、录音单元、触控显示单元和通信单元，所述处理器分别与所述录音单元、所述触控显示单元和通信单元连接；

所述录音单元用于获取客户的提问语音；所述触控显示单元用于客户操作以及播放视频；所述通信单元用于与所述云端服务器进行数据传输。

所述云端服务器包括：接收推送模块，用于接收所述机器人终端发送的数据、及向所述机器人终端发送数据；语音转换模块，用于将通过互联网接收到所述云端服务器上的提问语音转换成提问文字并反馈给所述云端服务器；同时将通过互联网接收到所述云端服务器上的回答文字会转换成回答语音，并通过互联网反馈给所述云端服务；匹配模块，用于将所述提问文字从云端服务器中的题库中匹配对应的答案语音或答案视频；存储模块，用于存储客户的提问语音、回答语音、回答文字、合成视频和关键词。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种机器人模仿及学习讲话的方法，其特征在于，具体包括以下步骤：

步骤1、机器人终端接收到客户的提问语音，将所述提问语音转换成提问文字回传给云端服务器；

步骤2、所述云端服务器将所述提问文字与题库中的问题相匹配，若匹配成功则执行步骤3；若匹配不成功则执行步骤4；

步骤3、播放答案语音和/或答案视频，并退出系统；

步骤4、所述云端服务器通过机器人终端将匹配不成功的提问文字发送给指定的真人客服服务端，客服人员接收到提问文字后以回答文字的形式作答，机器人终端将回答文字发送给所述云端服务器；若所述云端服务器设置在实体机器人上，则执行步骤5；若所述云端服务器设置在虚拟机器人上，则执行步骤6；

步骤5、云端服务器将回答文字发往语音转换模块转换成基于实体机器人的回答语音，并将基于实体机器人的回答语音发往给机器人终端，然后执行步骤7；

步骤6、云端服务器接收到回答文字后，将回答文字转换成基于虚拟机器人的回答语音，同时对所述回答文字进行文字断句、匹配唇形和合成视频，并将基于虚拟机器人的回答语音和合成视频在虚拟机器人上播放；

步骤7、将步骤1产生的提问文字、步骤5产生的基于实体机器人的回答语音或步骤6产生的基于虚拟机器人的回答语音和合成视频存入到题库中去；

步骤8、给步骤7产生的新增问题按照主谓宾语设置三级关键词，退出系统；

2.根据权利要求1所述的一种机器人模仿及学习讲话的方法，其特征在于，在步骤1中具体包括以下步骤：

步骤101、所述机器人终端将客户的提问语音传送到云端服务器；

步骤102、所述云端服务器将客户的提问语音传送到语音转换模块，所述语音转换模块将所述客户的提问语音转换成提问文字传回所述云端服务器。

3.根据权利要求1所述的一种机器人模仿及学习讲话的方法，其特征在于，在步骤6中具体包括以下步骤：

步骤601、所述云端服务器接收到回答文字后，按照标点符号将回答文字拆分成若干个句子；

步骤602、所述云端服务器对拆分后的句子与题库中的原型视频库中的唇形进行匹配；

步骤603、将匹配成功的每一句原型视频进行拼接，形成合成视频；

步骤604、计算出步骤603形成的合成视频所需的播放时间；

步骤605、云端服务器将所述回答文字，按步骤604的时间设定语速，确保发音时长等于文字演播时长，并将所述回答文字发往语音转换模块，语音转换模块将文所述字转换成基于虚拟机器人的回答语音传回所述云端服务器；

步骤606、将步骤603产生的合成视频与步骤605产生的基于虚拟机器人的回答语音进行合成，形成最终合成视频；

步骤607、将步骤606产生的合成视频通过指定的机器人终端进行播放。

4.根据权利要求3所述的一种机器人模仿及学习讲话的方法，其特征在于，在步骤602中具体包括以下步骤：

步骤6021、将句子中的每一个汉字转化成拼音，根据拼音的元音发音不闭唇时，辅音发音时唇形微张则唇形码设为1，唇形大张则唇形码设为2，根据元音发音闭唇时，辅音发音时唇形微张则唇形码设为3，唇形大张则唇形码设为4，根据元音发音咬唇时，辅音发音时唇形微张则唇形码设为5，唇形大张则唇形码设为6，由此得出该句子的一串唇形排列码；

步骤6022、在原型视频库中寻找并获取唇形排列码等同或相近的原型视频，句子最后一个字的唇形码必须相等；

步骤6023、若找到相配的原型视频则执行步骤603；

步骤6024、若原型视频库中没有唇形相近的唇形排列码，则将该句唇形排列码进行有限拆分，直至拆分后每段都找到唇形等同或相近的原型视频，句子最后一个字的唇形码必须相等，并将这些原型视频拼接成句子视频，转步骤603；

步骤6025、若进行有限拆分后仍然找不到唇形等同或相近的原型视频，则报告系统添加补充该唇形排列码的原型视频，匹配失败，报告并退出系统。

5.一种使用如权利要求1至4中任一项所述的一种机器人模仿及学习讲话的系统，其特征在于，包括：

机器人终端，用于接收客户的提问语音，并发送回答语音或/和合成视频；

云端服务器，用于通过互联网接收所述机器人终端发送的提问语音，并根据所述提问语音通过互联网向所述机器人终端反馈相对应的回答语音或/和合成视频，所述机器人终端播放回答语音或/和合成视频；

真人客服服务端，用于接收匹配不成功的提问文字，并安排客服人员以回答文字的形式作答。

6.根据权利要求5所述的一种机器人模仿及学习讲话的系统，其特征在于，所述云端服务器包括：处理器、录音单元、触控显示单元和通信单元，所述处理器分别与所述录音单元、所述触控显示单元和通信单元连接；

7.根据权利要求5所述的一种机器人模仿及学习讲话的系统，其特征在于，所述云端服务器包括：

接收推送模块，用于接收所述机器人终端发送的数据、及向所述机器人终端发送数据；

语音转换模块，用于将通过互联网接收到所述云端服务器上的提问语音转换成提问文字并反馈给所述云端服务器；同时将通过互联网接收到所述云端服务器上的回答文字会转换成回答语音，并通过互联网反馈给所述云端服务；

匹配模块，用于将所述提问文字从云端服务器中的题库中匹配对应的答案语音或答案视频；

存储模块，用于存储客户的提问语音、回答语音、回答文字、合成视频和关键词。