CN110086946A

CN110086946A - 智能聊天语音控制方法、装置、计算机设备及存储介质

Info

Publication number: CN110086946A
Application number: CN201910198878.3A
Authority: CN
Inventors: 吕小立; 刘丽珍; 刘芳
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-08-02

Abstract

本发明实施例公开了一种智能聊天语音控制方法、装置、计算机设备及存储介质，包括下述步骤：将待发送应答话术的唯一标识信息发送至第三方通话服务器端；接收第三方通话服务器端返回的第一通话状态信息，其中，第一通话状态信息为第三方通话服务器端存储有与唯一标识信息相匹配的应答话术录音文件的确认信息；根据确认信息发送确认传输信息至第三方通话服务器端，以使第三方通话服务器端根据确认传输信息将应答话术录音文件传输至用户终端。本发明实施例通过发送应答话术的录音文件至用户终端，由于该录音文件是根据应答话术进行人工语音录制得到的，使得用户终端播放该录音文件的声音语气缓和不生硬，提高用户体验，提高通话质量。

Description

智能聊天语音控制方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及智能聊天语音处理技术领域，尤其是一种智能聊天语音控制方法、装置、计算机设备及存储介质。

背景技术

随着科技的发展，AI(Artificial Intelligence)人工智能技术在日常生活中越来越普及，例如AI人工智能电话语音平台或者智能语音服务，其中，AI人工智能电话语音平台的电话机器人采用人工智能技术，通过识别和语音合成技术，实现客户与系统的无障碍交流；智能语音服务(Artificial Audio Intelligence)由腾讯云携手微信智能团队联合推出，满足语音识别、语音合成、声纹识别等语音处理需求。

现有的智能语音聊天技术，AI机器人回答的应答话术文字转换成合成语音后通过运营商进行通话聊天，但是合成语音的语气生硬不协调，用户体验差，容易导致用户接听到合成语音就挂断电话的情况，对于产品的营销或者用户沟通操作不利影响。

发明内容

本发明实施例提供一种将应答话术进行语音录制以使智能通话语气缓和的智能聊天语音控制方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种智能聊天语音控制方法，包括下述步骤：

将待发送应答话术的唯一标识信息发送至第三方通话服务器端；

接收所述第三方通话服务器端返回的第一通话状态信息，其中，所述第一通话状态信息为所述第三方通话服务器端存储有与所述唯一标识信息相匹配的应答话术录音文件的确认信息；

根据所述确认信息发送确认传输信息至所述第三方通话服务器端，以使所述第三方通话服务器端根据所述确认传输信息将所述应答话术录音文件传输至用户终端。

可选地，所述将待发送应答话术的唯一标识信息发送至第三方通话服务器端的步骤之前，还包括如下述步骤：

获取智能通话系统中所述用户终端发送的回复信息；

根据预设的应答算法在预设的应答数据库中查找与所述回复信息相对应的应答话术，所述应答话术设置有唯一标识信息。

可选地，所述接收所述第三方通话服务器端返回的第一通话状态信息的步骤之前，还包括如下述步骤：

根据所述唯一标识信息查找所述第三方通话服务器端是否存储有与所述唯一标识信息相匹配的应答话术录音文件；

若否，则将存储于本地数据库中与所述唯一标识信息相匹配的应答话术录音文件传输至所述第三方通话服务器端。

可选地，所述将存储于本地数据库中与所述唯一标识信息相匹配的应答话术录音文件传输至所述第三方通话服务器端的步骤之前，还包括如下述步骤：

根据所述唯一标识信息查找所述本地数据库中是否没有与所述唯一标识信息相匹配的应答话术录音文件；

若是，则根据预设的语音合成算法将所述应答话术进行合成语音转换生成应答话术语音文件；

将所述应答话术语音文件由所述第三方通话服务器端转发至所述用户终端。

可选地，所述将所述应答话术语音文件由所述第三方通话服务器端转发至所述用户终端的步骤之后，还包括如下述步骤：

获取与所述应答话术相对应的人工语音录音文件；

根据所述应答话术的唯一标识信息设置所述人工语音录音文件的名称信息，以使所述人工语音录音文件与所述唯一标识信息映射匹配。

可选地，所述根据所述确认信息发送确认传输信息至所述第三方通话服务器端，以使所述第三方通话服务器端根据所述确认传输信息将所述应答话术录音文件传输至用户终端的步骤之后，还包括如下述步骤：

获取与所述用户终端进行通话的通话记录信息，其中，所述通话记录信息包括进行合成语音转换的若干应答话术；

将所述若干应答话术依次进行语音录制生成与所述应答话术的唯一标识信息相匹配的所述应答话术录音文件；

将所述应答话术录音文件同步至所述第三方通话服务器端。

为解决上述技术问题，本发明实施例还提供一种智能聊天语音控制装置，包括：

第一发送模块，用于将待发送应答话术的唯一标识信息发送至第三方通话服务器端；

第一处理模块，用于接收所述第三方通话服务器端返回的第一通话状态信息，其中，所述第一通话状态信息为所述第三方通话服务器端存储有与所述唯一标识信息相匹配的应答话术录音文件的确认信息；

第一执行模块，用于根据所述确认信息发送确认传输信息至所述第三方通话服务器端，以使所述第三方通话服务器端根据所述确认传输信息将所述应答话术录音文件传输至用户终端。

可选地，还包括：

第一获取模块，用于获取智能通话系统中所述用户终端发送的回复信息；

第二执行模块，用于根据预设的应答算法在预设的应答数据库中查找与所述回复信息相对应的应答话术，所述应答话术设置有唯一标识信息。

可选地，还包括：

第二处理模块，用于根据所述唯一标识信息查找所述第三方通话服务器端是否存储有与所述唯一标识信息相匹配的应答话术录音文件；

第三执行模块，用于当所述第二处理模块判断为否时，将存储于本地数据库中与所述唯一标识信息相匹配的应答话术录音文件传输至所述第三方通话服务器端。

可选地，好包括：

第三处理模块，用于根据所述唯一标识信息查找所述本地数据库中是否没有与所述唯一标识信息相匹配的应答话术录音文件；

第四执行模块，用于当所述第三处理模块判断为是时，根据预设的语音合成算法将所述应答话术进行合成语音转换生成应答话术语音文件；

发送模块，用于将所述应答话术语音文件由所述第三方通话服务器端转发至所述用户终端。

可选地，还包括：

第二获取模块，用于获取与所述应答话术相对应的人工语音录音文件；

第五执行模块，用于根据所述应答话术的唯一标识信息设置所述人工语音录音文件的名称信息，以使所述人工语音录音文件与所述唯一标识信息映射匹配。

可选地，还包括：

第三获取模块，用于获取与所述用户终端进行通话的通话记录信息，其中，所述通话记录信息包括进行合成语音转换的若干应答话术；

第四处理模块，用于将所述若干应答话术依次进行语音录制生成与所述应答话术的唯一标识信息相匹配的所述应答话术录音文件；

第六执行模块，用于将所述应答话术录音文件同步至所述第三方通话服务器端。

为解决上述技术问题，本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述智能聊天语音控制方法的步骤。

为解决上述技术问题，本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述智能聊天语音控制方法的步骤。

本发明实施例的有益效果为：通过将待发送应答话术的唯一标识信息发送至第三方通话服务器端，然后接收第三方通话服务器端返回的第一通话状态信息，包括确认第三方通话服务器端存储有与该唯一标识信息相匹配的应答话术的录音文件的确认信息，从而确定第三方通话服务器端存储有该录音文件，再根据该确认信息发送确认传输信息至第三方通话服务器端，从而使得第三方通话服务器端根据该确认传输信息将该录音文件传输至用户终端，用户终端播放该录音文件，由于该录音文件是根据应答话术进行人工语音录制得到的，使得用户终端播放该录音文件的声音语气缓和不生硬，提高用户体验，提高通话质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例智能聊天语音控制方法的基本流程示意图；

图2为本发明实施例选取应答话术的流程示意图；

图3为本发明实施例判断第三方通话服务器端是否存在录音文件的流程示意图；

图4为本发明实施例切换合成语音进行聊天的流程示意图；

图5为本发明实施例进行人员语音录制的流程示意图；

图6为本发明实施例根据通话记录优化话术的流程示意图；

图7为本发明实施例智能聊天语音控制装置基本结构示意图；

图8为本发明实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

具体请参阅图1，图1为本实施例智能聊天语音控制方法的基本流程示意图。

如图1所示，一种智能聊天语音控制方法，包括下述步骤：

S1100、将待发送应答话术的唯一标识信息发送至第三方通话服务器端；

待发送的应答话术是指用于答复用户的回复信息的语音或者文字，在实施时，系统接收用户终端发送或者用户终端通过第三方通话服务器端转发的回复信息，然后根据该回复信息选择相应的应答话术，该应答话术就是用于答复用户的回复信息的，且该应答话术设置有唯一的唯一标识信息，第三方通话服务器端是指提供通话或者网络服务的运营商，例如：中国联通、中国电信、中国移动以及中国广电。

在一个实施例中，以本发明智能聊天语音控制方法应用于智能聊天系统中为例，智能聊天系统是指通过人工智能与用户进行沟通聊天的智能系统，智能聊天系统能自动根据用户的回复选择相应的话术进行答复，从而回答用户的问题或者达到与用户聊天的目地，人工智能(Artificial Intelligence)，英文缩写为AI，其是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学，智能聊天系统中设置有话术数据库，该话术数据库中存储有若干(例如100条、1000条或者20000条)应答话术，系统在接收用户通过用户终端发送的回复信息后，根据算法计算得到在相应场景下与用户的回复信息相匹配的应答话术，即在话术数据库中查找用于答复用户的回复信息的应答话术，以回复信息为“天王盖地虎”为例，系统接收到该回复信息，然后在话术数据库中查找到用于答复“天王盖地虎”的应答话术，例如该应答话术为“宝塔镇河妖”，系统获取该应答话术以及对应该应答话术的唯一标识信息，例如：在话术数据库中存储有第一应答话术、第二应答话术和第三应答话术，第一应答话术、第二应答话术和第三应答话术的唯一标识信息分别为001、002和003，其中，第一应答话术对应为“宝塔镇河妖”，系统根据回复信息“天王盖地虎”查找到第一应答话术的唯一标识信息001并发送至第三方通话服务器端。

S1200、接收所述第三方通话服务器端返回的第一通话状态信息，其中，所述第一通话状态信息为所述第三方通话服务器端存储有与所述唯一标识信息相匹配的应答话术录音文件的确认信息；

在将待发送的应答话术的唯一标识信息发送至第三方通话服务器端后，系统接收该第三方通话服务器端返回的第一通话状态信息，该第一通话状态信息为第三方通话服务器端是否存储有与该唯一标识信息相匹配的应答话术的录音文件的确认信息，系统根据该确认信息即可知道第三方通话服务器端中是否存储有该应答话术的录音文件，在实施时，应答话术的录音文件是指该应答话术的人工录制的声音文件，由于是有人工进行录制的，所以该录音文件的声音缓和连续不生硬。

在一个实施例中，第三方通话服务器端设置有语音数据库，该语音数据库是用于存储和管理录音文件的仓库，语音数据库中的录音文件与应答话术一一对应，具体的，可以先将场景AI回复的应答话术进行语音录制并以该应答话术的唯一标识信息进行命名后存储至语音数据库中，系统即可根据应答话术的唯一标识信息准确查找到与应答话术相对应的录音文件，该录音文件是由人工进行录音的，所以录音文件中的语气比较缓和符合人们的生活习惯。

在实施时，以语音数据库中存储有第1录音文件、第2录音文件、第3录音文件、第4录音文件以及第5录音文件为例，该第1录音文件、第2录音文件、第3录音文件、第4录音文件以及第5录音文件的名称分别为001、002、003、004和005，当系统获取待发送的应答话术的唯一标识信息为002时，系统发送该唯一标识信息002至第三方通话服务器端，第三方通话服务器端接收到该唯一标识信息002后，在语音数据库中查找到与该唯一标识信息002对应的第2录音文件，第三方通话服务器端返回第一通话状态信息，系统接收到该第一通话状态信息，即可根据该第一通话状态信息中的确认信息确认第三方通话服务器端中存储有与该唯一标识信息002对应的第2录音文件。

S1300、根据所述确认信息发送确认传输信息至所述第三方通话服务器端，以使所述第三方通话服务器端根据所述确认传输信息将所述应答话术录音文件传输至用户终端。

系统接收到第三方通话服务器端返回的第一通话状态信息后，根据该第一通话状态信息确认第三方通话服务器端存储有与唯一标识信息相匹配的应答话术的录音文件，系统发送确认传输信息至第三方通话服务器端，从而使得第三方通话服务器端根据该确认传输信息将应答话术的录音文件传输至用户终端，实现与用户的智能语音聊天功能。

在一个实施例中，以待发送的应答话术的唯一标识信息为H1为例，其中，第三方通话服务器端存储有命名为H1的录音文件，该录音文件是根据该应答话术进行人工语音录制得到的，系统将该唯一标识信息H1发送至第三方通话服务器端，第三方通话服务器端接收到该唯一标识信息H1后返回第一通话状态信息，从而使得系统确认该第三方通话服务器端存储有与唯一标识信息H1对应的录音文件，系统再发送确认传输信息至第三方通话服务器端，使得第三方通话服务器端根据该确认传输信息将该命名为H1的录音文件传输至用户终端，用户终端播放该录音文件以实现答复用户的功能。

本实施例通过将待发送应答话术的唯一标识信息发送至第三方通话服务器端，然后接收第三方通话服务器端返回的第一通话状态信息，包括确认第三方通话服务器端存储有与该唯一标识信息相匹配的应答话术的录音文件的确认信息，从而确定第三方通话服务器端存储有该录音文件，再根据该确认信息发送确认传输信息至第三方通话服务器端，从而使得第三方通话服务器端根据该确认传输信息将该录音文件传输至用户终端，用户终端播放该录音文件，由于该录音文件是根据应答话术进行人工语音录制得到的，使得用户终端播放该录音文件的声音语气缓和不生硬，提高用户体验，提高通话质量。

在一个可选实施例中，请参阅图2，图2是本发明一个实施例选取应答话术的流程示意图。

如图2所示，步骤S1100之前，还包括如下述步骤：

S1010、获取智能通话系统中所述用户终端发送的回复信息；

智能通话系统即智能聊天系统，是指通过人工智能与用户进行沟通聊天的智能系统，智能聊天系统能自动根据用户的回复选择相应的话术进行答复，从而回答用户的问题或者达到与用户聊天的目地。用户终端是指能与智能通话系统进行通话连接的电子设备，在实施时，用户终端包括但不限于智能手机、平板电脑、智能手环以及其它能进行联网通话的电子设备。以用户终端为智能手机为例，用户通过智能手机与智能通话系统通话连接，系统可以通过第三方通话服务器端(运营商)接收用户终端发送的回复信息，回复信息是指用户与智能通话系统进行聊天通话的通话语音信息，例如用户通过智能手机讲话为“查询东北菜馆”，系统接收到用户终端发送的表征为“查询东北菜馆”的回复信息。

S1020、根据预设的应答算法在预设的应答数据库中查找与所述回复信息相对应的应答话术，所述应答话术设置有唯一标识信息。

在获取用户终端发送的回复信息后，系统根据应答算法在应答数据库中查找与该回复信息相对应的应答话术，应答算法是预设的用于在应答数据库中查找用于答复用户的回复信息的应答话术，在实施时，本发明智能聊天语音控制方法应用于智能通话系统，该智能通话系统中的任务型多轮AI机器人(Task-Bot)通过多次与用户对话交互来辅助用户完成某项明确具体的任务，包括语音理解(SLU)、对话管理(DM)以及自然语音产生(NLG)，语言理解(SLU)：把用户输入的自然语言转变为结构化信息——act-slot-value三元组。例如餐厅订座应用中用户的回复信息为“订云海肴中关村店”，系统通过NLU(Natural LanguageUnderstanding，自然语音理解)把该回复信息转化为结构化信息：“inform(order_op＝预订,restaurant_name＝云海肴,subbranch＝中关村店)”，其中的“inform”是动作名称，而括号中的是识别出的槽位及其取值。NLU可以使用语义解析或语义标注的方式获得，也可以把它分解为多个分类任务来解决，例如Semantic Tuple Classifier(STC)模型。对话管理是指综合用户当前query(询问)和历史对话中已获得的信息后，给出机器答复的结构化表示。对话管理包含两个模块：对话状态追踪(DST)和策略优化(DPO)，其中，DST维护对话状态，它依据最新的系统和用户行为，把旧对话状态更新为新对话状态。其中对话状态应该包含持续对话所需要的各种信息。DPO根据DST维护的对话状态，确定当前状态下机器人应如何进行答复，也即采取何种策略答复是最优的，可以使用DQN等深度增强学习模型进行建模，系统动作和槽位较少时也可以把此问题视为分类问题。自然语言产生把DM输出的结构化对话策略还原成对人友好的自然语言，简单的NLG方法可以是事先设定好的回复模板，复杂的可以使用深度学习生成模型，如“Semantically Conditioned LSTM”通过在LSTM中加入对话动作cell辅助答复生成。系统在选取了应答话术后，将该应答话术的唯一标识信息发送至第三方通话服务器端，由第三方通话服务器端将于该唯一标识信息匹配的录音文件传输至用户终端。

在另一个可选实施例中，请参阅图3，图3是本发明一个实施例判断第三方通话服务器端是否存在录音文件的基本流程示意图。

如图3所示，步骤S1200之前，还包括如下述步骤：

S1110、根据所述唯一标识信息查找所述第三方通话服务器端是否存储有与所述唯一标识信息相匹配的应答话术录音文件；

在实施时，系统将唯一标识信息发送至第三方通话服务器端时，第三方通话服务器端根据该唯一标识信息查找与该唯一标识信息相匹配的录音文件，当第三方通话服务器端没有找到与该唯一标识信息相匹配的录音文件时，第三方通话服务器端返回一个查找结果信息至系统，系统根据该查找结果信息判断第三方通话服务器端是否存储有与该唯一标识信息相匹配的录音文件。

S1120、若否，则将存储于本地数据库中与所述唯一标识信息相匹配的应答话术录音文件传输至所述第三方通话服务器端。

当系统判断第三方通话服务器端没有存储与该唯一标识信息相匹配的录音文件，此时，系统将存储于本地数据库中的与该唯一标识信息相匹配的录音文件传输至第三方通话服务器端，并存储于第三方通话服务器端，本地数据库是系统预设的用于存储和管理录音文件的仓库，在实施时，系统将于应答话术一一对应的人工录音文件存储至该本地数据库中，且本地数据库中的录音文件是以应答话术的唯一标识信息进行命名的，所以，本地数据库中的录音文件能与应答话术映射匹配，系统将录音文件传输至第三方通话服务器端后再由第三方通话服务器端将该录音文件传输至用户终端。

在一个可选实施例中，请参阅图4，图4是本发明一个实施例切换合成语音进行聊天的基本流程示意图。

如图4所示，步骤S1120之前，还包括如下述步骤：

S1111、根据所述唯一标识信息查找所述本地数据库中是否没有与所述唯一标识信息相匹配的应答话术录音文件；

在将本地数据库中的录音文件传输至第三方通话服务器端之前，还需要对本地数据库中是否存储有该录音文件进行检测，系统遍历本地数据库中的数据，从而查找本地数据库中是否存储有与该唯一标识信息相匹配的录音文件。

S1112、若是，则根据预设的语音合成算法将所述应答话术进行合成语音转换生成应答话术语音文件；

当本地数据库没有存储有该录音文件时，系统根据预设的语音合成算法将该应答话术进行合成语音转换从而生成该应答话术的语音文件，在实施时，语音合成算法是系统预设的用于进行合成语音的工具，具体的，语音合成算法可以采用现有的成熟的语音合成算法和平台，例如：科大讯飞开放平台、百度AI语音合成软件或者cool editor等。

S1113、将所述应答话术语音文件由所述第三方通话服务器端转发至所述用户终端。

在生成应答话术的语音文件后，系统通过第三方通话服务器端将该语音文件转发至用户终端，实现与用户进行智能聊天的功能，避免因没有与应答话术对应的录音文件而出现与用户的通话断层的情况，提高智能聊天的智能化程度。

在一个可选实施例中，请参阅图5，图5是本发明一个实施例进行人员语音录制的基本流程示意图。

如图5所示，步骤S1113之后，还包括如下述步骤：

S1114、获取与所述应答话术相对应的人工语音录音文件；

在判断本地数据库中没有存储与该应答话术的唯一标识信息对应的录音文件时，系统可以对该应答话术进行人员语音录制，具体地，系统获取操作人员针对应答话术信息语音录制的录音文件。

S1115、根据所述应答话术的唯一标识信息设置所述人工语音录音文件的名称信息，以使所述人工语音录音文件与所述唯一标识信息映射匹配。

在获取应答话术的人工语音录音文件后，系统将该录音文件的名称设置为应答话术的唯一标识信息，从而使得录音文件与唯一标识信息映射匹配，系统将没有进行人工语音录制的应答话术进行语音录制生成录音文件，从而优化智能通话系统的话术。

在一个可选实施例中，请参与图6，图6是本发明一个实施例根据通话记录优化话术的基本流程示意图。

如图6所示，步骤S1300还包括如下述步骤：

S1400、获取与所述用户终端进行通话的通话记录信息，其中，所述通话记录信息包括进行合成语音转换的若干应答话术；

在通话的过程中，系统保存通话记录，从而获取与用户终端进行通话的通话记录信息，包括在通话过程中进行合成语音转换的至少一个应答话术，即该至少一个应答话术没有对应的录音文件。

S1500、将所述若干应答话术依次进行语音录制生成与所述应答话术的唯一标识信息相匹配的所述应答话术录音文件；

在获取通话过程中至少一个没有对应的录音文件的应答话术后，系统将该多个应答话术分别进行语音录制从而生成录音文件，录音文件的名称与应答话术的唯一标识信息相匹配，从而使得录音文件与应答话术一一对应。

S1600、将所述应答话术录音文件同步至所述第三方通话服务器端。

在生成语音应答话术相匹配的至少一个录音文件后，系统将该至少一个录音文件传输至第三方通话服务器端，从而与第三方通话服务器端同步，优化智能通话系统的话术。

为解决上述技术问题，本发明实施例还提供一种智能聊天语音控制装置。

具体请参阅图7，图7为本实施例智能聊天语音控制装置基本结构示意图。

如图7所示，一种智能聊天语音控制装置，包括：第一发送模块2100、第一处理模块2200和第一执行模块2300，其中，第一发送模块2100用于将待发送应答话术的唯一标识信息发送至第三方通话服务器端；第一处理模块2200用于接收所述第三方通话服务器端返回的第一通话状态信息，其中，所述第一通话状态信息为所述第三方通话服务器端存储有与所述唯一标识信息相匹配的应答话术录音文件的确认信息；第一执行模块2300用于根据所述确认信息发送确认传输信息至所述第三方通话服务器端，以使所述第三方通话服务器端根据所述确认传输信息将所述应答话术录音文件传输至用户终端。

在一些实施方式中，智能聊天语音控制装置还包括：第一获取模块和第二执行模块，其中，第一获取模块用于获取智能通话系统中所述用户终端发送的回复信息；第二执行模块用于根据预设的应答算法在预设的应答数据库中查找与所述回复信息相对应的应答话术，所述应答话术设置有唯一标识信息。

在一些实施方式中，智能聊天语音控制装置还包括：第二处理模块第三执行模块，其中，第二处理模块用于根据所述唯一标识信息查找所述第三方通话服务器端是否存储有与所述唯一标识信息相匹配的应答话术录音文件；第三执行模块用于当所述第二处理模块判断为否时，将存储于本地数据库中与所述唯一标识信息相匹配的应答话术录音文件传输至所述第三方通话服务器端。

在一些实施方式中，智能聊天语音控制装置还包括：第三处理模块、第四执行模块和发送模块，其中，第三处理模块用于根据所述唯一标识信息查找所述本地数据库中是否没有与所述唯一标识信息相匹配的应答话术录音文件；第四执行模块用于当所述第三处理模块判断为是时，根据预设的语音合成算法将所述应答话术进行合成语音转换生成应答话术语音文件；发送模块用于将所述应答话术语音文件由所述第三方通话服务器端转发至所述用户终端。

在一些实施方式中，智能聊天语音控制装置还包括：第二获取模块和第五执行模块，其中，第二获取模块用于获取与所述应答话术相对应的人工语音录音文件；第五执行模块用于根据所述应答话术的唯一标识信息设置所述人工语音录音文件的名称信息，以使所述人工语音录音文件与所述唯一标识信息映射匹配。

在一些实施方式中，智能聊天语音控制装置还包括：第三获取模块、第四处理模块和第六执行模块，其中，第三获取模块用于获取与所述用户终端进行通话的通话记录信息，其中，所述通话记录信息包括进行合成语音转换的若干应答话术；第四处理模块用于将所述若干应答话术依次进行语音录制生成与所述应答话术的唯一标识信息相匹配的所述应答话术录音文件；第六执行模块用于将所述应答话术录音文件同步至所述第三方通话服务器端。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

如图8所示，计算机设备的内部结构示意图。如图8所示，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种智能聊天语音控制方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种智能聊天语音控制方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中第一发送模块2100、第一处理模块2200和第一执行模块2300，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有智能聊天语音控制装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机通过将待发送应答话术的唯一标识信息发送至第三方通话服务器端，然后接收第三方通话服务器端返回的第一通话状态信息，包括确认第三方通话服务器端存储有与该唯一标识信息相匹配的应答话术的录音文件的确认信息，从而确定第三方通话服务器端存储有该录音文件，再根据该确认信息发送确认传输信息至第三方通话服务器端，从而使得第三方通话服务器端根据该确认传输信息将该录音文件传输至用户终端，用户终端播放该录音文件，由于该录音文件是根据应答话术进行人工语音录制得到的，使得用户终端播放该录音文件的声音语气缓和不生硬，提高用户体验，提高通话质量。

本发明还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例所述智能聊天语音控制方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种智能聊天语音控制方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的智能聊天语音控制方法，其特征在于，所述将待发送应答话术的唯一标识信息发送至第三方通话服务器端的步骤之前，还包括如下述步骤：

获取智能通话系统中所述用户终端发送的回复信息；

3.根据权利要求1所述的智能聊天语音控制方法，其特征在于，所述接收所述第三方通话服务器端返回的第一通话状态信息的步骤之前，还包括如下述步骤：

4.根据权利要求3所述的智能聊天语音控制方法，其特征在于，所述将存储于本地数据库中与所述唯一标识信息相匹配的应答话术录音文件传输至所述第三方通话服务器端的步骤之前，还包括如下述步骤：

5.根据权利要求4所述的智能聊天语音控制方法，其特征在于，所述将所述应答话术语音文件由所述第三方通话服务器端转发至所述用户终端的步骤之后，还包括如下述步骤：

获取与所述应答话术相对应的人工语音录音文件；

6.根据权利要求4所述的智能聊天语音控制方法，其特征在于，所述根据所述确认信息发送确认传输信息至所述第三方通话服务器端，以使所述第三方通话服务器端根据所述确认传输信息将所述应答话术录音文件传输至用户终端的步骤之后，还包括如下述步骤：

将所述应答话术录音文件同步至所述第三方通话服务器端。

7.一种智能聊天语音控制装置，其特征在于，包括：

8.根据权利要求7所述的智能聊天语音控制装置，其特征在于，还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项权利要求所述智能聊天语音控制方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述智能聊天语音控制方法的步骤。