CN110125946B

CN110125946B - 自动通话方法、装置、电子设备及计算机可读介质

Info

Publication number: CN110125946B
Application number: CN201910330584.1A
Authority: CN
Inventors: 刘宗全; 苏绥绥; 常富洋
Original assignee: Beijing Qiyu Information Technology Co Ltd
Current assignee: Beijing Qiyu Information Technology Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2021-08-27
Anticipated expiration: 2039-04-23
Also published as: CN110125946A

Abstract

本公开涉及一种自动通话方法、装置、电子设备及计算机可读介质。该方法包括：建立与终端的语音通话连接；在所述语音通话连接建立后，播放第一音频数据；在所述第一音频数据的播放过程中获取终端的实时音频数据；确定所述实时音频数据的音频能量；以及在所述实时音频能量超过第一阈值时，中断所述第一音频数据的播放。本公开涉及的自动通话方法、装置、电子设备及计算机可读介质，能够在智能机器人进行人机对话的时候，提高智能机器人对用户回应的反应速度，改善用户体验。

Description

自动通话方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种自动通话方法、装置、电子设备及计算机可读介质。

背景技术

人机对话，是人工智能领域的一个子方向，通俗的讲就是让人可以通过人类的语言(即自然语言)与计算机进行交互。作为人工智能的终极难题之一，一个完整的人机对话系统涉及到的技术极为广泛，例如计算机科学中的语音技术，自然语言处理，机器学习，规划与推理，知识工程，甚至语言学和认知科学中的许多理论在人机对话中都有所应用。笼统的讲，人机对话可以分为以下四个子问题：自然语言聊天、任务驱动的多轮对话、问答和推荐。上述的四类问题各自要解决的问题不同，实现技术迥异，但是其中都要面对一个统一技术问题，就是智能机器人如何对用户的反馈进行迅速的反应，以使得人机对话可以顺畅的进行下去，智能机器人能够尽量模拟真实人物的对话和反应。

目前，在人机对话的对话过程中，如果在智能机器人播放预制录音时，用户说话了，就需要打断智能机器人当前的播放，等用户说完，然后再接着播放预制音频。现有的打断方式是FS中的一个模块来控制，等ASR文本返回，根据返回的文本进行打断。这种打断方式会用1到2秒的延迟，造成体验度较差。

因此，需要一种新的自动通话方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种自动通话方法、装置、电子设备及计算机可读介质，能够在智能机器人进行人机对话的时候，提高智能机器人对用户回应的反应速度，改善用户体验。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种自动通话方法，该方法包括：建立与终端的语音通话连接；在所述语音通话连接建立后，播放第一音频数据；在所述第一音频数据的播放过程中获取终端的实时音频数据；确定所述实时音频数据的音频能量；以及在所述实时音频能量超过第一阈值时，中断所述第一音频数据的播放。

在本公开的一种示例性实施例中，中断所述音频数据的播放还包括：在所述实时音频能量低于第二阈值时，继续播放所述第一音频数据。

在本公开的一种示例性实施例中，中断所述音频数据的播放包括：根据所述实时音频数据确定的语音文本；基于所述语音文本对预定关键词进行检索；以及在未检索到所述预定关键词且在所述实时音频能量低于第二阈值时后，继续所述第一音频数据的播放。

在本公开的一种示例性实施例中，在所述实时音频能量超过第一阈值时，中断所述音频数据的播放包括：在检索到所述预定关键词时，根据所述语音文本确定第二音频数据以进行播放。

在本公开的一种示例性实施例中，所述实时音频数据是数字音频数据；通过所述实时音频数据确定实时音频能量包括：将实时音频数据的帧的能量值作为实时音频能量。

在本公开的一种示例性实施例中，将实时音频数据的帧的能量值作为实时音频能量包括：获取所述实时音频数据的多个帧的能量值；计算特定数量的连续帧的能量值的平均值作为实时音频能量。

在本公开的一种示例性实施例中，获取所述实时音频数据的多个帧的能量值；计算特定时长内的连续帧的能量值的平均值作为实时音频能量。

在本公开的一种示例性实施例中，建立与终端的语音通话连接包括：由标识数据库中获取所述终端的语音通话标识；以及基于所述语音通话标识与所述终端建立语音通话的连接。

在本公开的一种示例性实施例中，所述播放第一音频数据还包括：基于所述终端的反馈由语音数据库中获取所述第一音频数据。

在本公开的一种示例性实施例中，基于所述终端的反馈由语音数据库中获取所述第一音频数据包括：获取所述终端反馈的实时音频数据；确定所述实时音频数据对应的语音文本；以及基于所述语音文本由语音数据库中获取所述第一音频数据。

在本公开的一种示例性实施例中，基于所述语音文本由语音数据库中获取所述第一音频数据包括：基于所述语音文本与自然语言理解技术确定所述终端的语义；以及基于所述语义由所述语音数据库中确定所述第一音频数据。

在本公开的一种示例性实施例中，在所述第一音频数据的播放过程中获取终端的实时音频数据包括：在所述第一音频数据的播放过程中通过语音活动检测技术获取所述终端的所述实时音频数据。

在本公开的一种示例性实施例中，基于所述语音通话标识与所述终端建立语音通话的连接还包括：基于所述语音通话标识发送语音通话的连接请求；以及在所述连接请求被所述终端接受后，建立所述语音通话的连接。

在本公开的一种示例性实施例中，还包括：基于预定条件，判断所述连接请求是否未被所述终端接受；以及在所述连接请求未被所述终端接受时，中断所述语音通话的连接请求。

根据本公开的一方面，提出一种自动通话装置，该装置包括：语音建立模块，用于建立与终端的语音通话连接；语音播放模块，用于在所述语音通话连接建立后，播放第一音频数据；音频数据模块，用于在所述第一音频数据的播放过程中获取终端的实时音频数据；音频能量模块，用于确定所述实时音频数据的音频能量；以及第一判断模块，在所述实时音频能量超过第一阈值时，中断所述第一音频数据的播放。

在本公开的一种示例性实施例中，还包括：第二判断模块，用于在所述实时音频能量低于第二阈值时，继续播放第一音频数据。

在本公开的一种示例性实施例中，所述第二判断模块包括：文本单元，用于根据所述实时音频数据确定的语音文本；检索单元，用于基于所述语音文本对预定关键词进行检索；以及播放单元，用于在未检索到所述预定关键词且在所述实时音频能量低于第二阈值时后，继续所述第一音频数据的播放。

在本公开的一种示例性实施例中，还包括：转换单元，用于在检索到所述预定关键词时，根据所述语音文本确定第二音频数据以进行播放。

在本公开的一种示例性实施例中，所述实时音频数据是数字音频数据；所述音频能量模块，还用于计算特定数量的连续帧的能量值的平均值作为实时音频能量。

在本公开的一种示例性实施例中，所述音频能量模块包括：帧数据单元，用于获取所述实时音频数据的多个帧的能量值；第一帧计算单元，用于计算特定数量的连续帧的能量值的平均值作为实时音频能量。

在本公开的一种示例性实施例中，所述音频能量模块还包括：第一帧计算单元，用于计算特定时长内的连续帧的能量值的平均值作为实时音频能量。

在本公开的一种示例性实施例中，所述语音建立模块包括：标识单元，由标识数据库中获取所述终端的语音通话标识；以及通话单元，基于所述语音通话标识与所述终端建立语音通话的连接。

在本公开的一种示例性实施例中，所述语音播放模块包括：反馈单元，用于基于所述终端的反馈由语音数据库中获取所述第一音频数据。

在本公开的一种示例性实施例中，所述反馈单元包括：音频子单元，用于获取所述终端反馈的实时音频数据；文本子单元，用于确定所述实时音频数据对应的语音文本；以及数据子单元，用于基于所述语音文本由语音数据库中获取所述第一音频数据。

在本公开的一种示例性实施例中，所述数据子单元，还用于基于所述语音文本与自然语言理解技术确定所述终端的语义；以及基于所述语义由所述语音数据库中确定所述第一音频数据。

在本公开的一种示例性实施例中，所述音频数据模块包括：请求单元，用于基于所述语音通话标识发送语音通话的连接请求；连接单元，用于在所述连接请求被所述终端接受后，建立所述语音通话的连接。

在本公开的一种示例性实施例中，还包括：第三判断模块，用于基于预定条件，判断所述连接请求是否未被所述终端接受；以及在所述连接请求未被所述终端接受时，中断所述语音通话的连接请求。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的自动通话方法、装置、电子设备及计算机可读介质，在语音通话连接建立后，智能机器人播放第一音频数据；在第一音频数据的播放过程中获取用户反馈的实时音频数据的音频能量；以及在实时音频能量超过第一阈值时，中断所述第一音频数据的播放的方式，能够在智能机器人进行人机对话的时候，提高智能机器人对用户回应的反应速度，改善用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种自动通话方法及装置的系统框图。

图2是根据一示例性实施例示出的一种自动通话方法的流程图。

图3是根据另一示例性实施例示出的一种自动通话方法的流程图。

图4是根据另一示例性实施例示出的一种自动通话方法的流程图。

图5是根据一示例性实施例示出的一种自动通话装置的框图。

图6是根据另一示例性实施例示出的一种自动通话装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

如图1所示，系统架构100可以包括通话终端设备101、102、103，网络104和智能机器人105。网络104用以在通话通话终端设备101、102、103和智能机器人105之间提供通信链路的介质。网络104可以包括各种连接类型，例如电话网络、有线、无线通信链路或者光纤电缆等等。

用户可以使用通话终端设备101、102、103通过网络104与智能机器人105交互，以接收或发送消息等。通话终端设备101、102、103上可以安装有各种通讯客户端应用，例如搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

通话终端设备101、102、103可以是具有通话功能的各种电子设备，包括但不限于普通手机、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

在本公开中，智能机器人可以为具有语音处理功能的智能机器人，在本公开中，智能机器人通过语音与用户人机对话，并对用户的语音指令做出反应。

其中，智能机器人105可以是提供各种语音服务的智能机器人，值得一提的是，智能机器人105可以为具有机器人形状的机器人终端，智能机器人105还可以为不具备机器人形状的处理器，更具体的是智能机器人105可以为能够进行语音数据处理的服务器，例如在智能机器人105与用户通过通话终端设备101、102、103进行通话时，对通话中的智能机器人反应做出支持的服务器。智能机器人105可以对接收到的用户语音数据进行分析等处理，生成处理结果(用户反馈的意图)，智能机器人105还可以根据用户的反馈意图调整与当前用户的通话策略或者通话音频。

智能机器人105可例如基于语音通话标识发送语音通话的连接请求；智能机器人105可例如在所述连接请求被通话终端设备101(和/或102、103)接受后，建立所述语音通话的连接。

智能机器人105可例如在所述语音通话连接建立后，播放第一音频数据；智能机器人105可例如在所述第一音频数据的播放过程中获取通话终端设备101(和/或102、103)的实时音频数据；智能机器人105可例如确定所述实时音频数据的音频能量；智能机器人105可例如在所述实时音频能量超过第一阈值时，中断所述第一音频数据的播放。

智能机器人105还可例如在所述实时音频能量低于第二阈值时，继续播放所述第一音频数据。

智能机器人105可以是一个实体的智能机器人，还可例如为多个服务器组成，需要说明的是，本公开实施例所提供的自动通话方法可以由智能机器人105执行，相应地，自动通话装置可以设置于智能机器人105中。而用户通过通话终端设备101、102、103与智能机器人105进行通话。

根据本公开的自动通话方法及装置，在语音通话连接建立后，智能机器人播放第一音频数据；在第一音频数据的播放过程中获取用户反馈的实时音频数据的音频能量；以及在实时音频能量超过第一阈值时，中断所述第一音频数据的播放的方式，能够在智能机器人进行人机对话的时候，提高智能机器人对用户回应的反应速度，改善用户体验。

图2是根据一示例性实施例示出的一种自动通话方法的流程图。自动通话方法20至少包括步骤S202至S210。

如图2所示，在S202中，建立与终端的语音通话连接。其中，语音通话连接可为通过手机通信网络建立的电话通信连接，或者通过无线或/有线数据网络建立的网络语音通信连接。

在一个实施例中，建立与终端的语音通话连接包括：由标识数据库中获取所述终端的语音通话标识；以及基于所述语音通话标识与所述终端建立语音通话的连接。

在一个实施例中，建立与终端的语音通话连接还包括：基于语音通话标识发送语音通话的连接请求；以及在所述连接请求被所述终端接受后，建立所述语音通话的连接。在一个应用场景中，可例如通过智能机器人进行电话销售或电话催收，预先在数据库中储存用户的电话号码，智能机器人获取电话号码，智能机器人中内置的交互控制的模块会调用对话管理模块拔电话。

在一个实施例中，还包括：基于预定条件，判断所述连接请求是否未被所述终端接受；以及在所述连接请求未被所述终端接受时，中断所述语音通话的连接请求。可通过拨电话的待机时间或者用户端的反馈语音判断用户的电话是否没有接通，像用户已经关机，或者空号之类的，这个信息可以返回到智能机器人的对话管理模块中。在这种情况下，生成挂断电话的指令以便智能机器人挂断电话。

在S204中，在所述语音通话连接建立后，播放第一音频数据。可例如，基于所述终端的反馈由语音数据库中获取所述第一音频数据。在一个应用场景中，可例如通过智能机器人进行电话销售，智能机器人中内置的交互控制的模块会调用对话管理模块拔电话。拔通之后，智能机器人对数据库中预存的多段录音音频数据进行筛选，确定第一音频数据。

在一个实施例中，基于所述终端的反馈由语音数据库中获取所述第一音频数据包括：获取所述终端反馈的实时音频数据；确定所述实时音频数据对应的语音文本；以及基于所述语音文本由语音数据库中获取所述第一音频数据。还可通过用户的反馈，确定第一音频数据。关于“基于所述终端的反馈由语音数据库中获取所述第一音频数据”的详细内容在图4对应的实施例中进行详细描述。

在一个实施例中，基于所述语音文本由语音数据库中获取所述第一音频数据包括：基于所述语音文本与自然语言理解技术确定所述终端的语义；以及基于所述语义由所述语音数据库中确定所述第一音频数据。

在S206中，在所述第一音频数据的播放过程中获取终端的实时音频数据。具体可例如，在所述第一音频数据的播放过程中通过语音活动检测技术获取所述终端的所述实时音频数据。

其中，语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检，是指在噪声环境中检测语音的存在与否,通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。

在一个实施例中，VAD被配置为在接收到的输入信号时检测语音活动，更具体的，语音活动检测器包括：输入部，被配置为接收来自所述VAD的初级语音检测器的指示初级VAD判决的信号以及来自至少一个外部VAD的指示来自所述至少一个外部VAD的语音活动判决的至少一个信号；处理器，被配置为将接收到的信号中指示的语音活动判决进行组合，以产生修改后的初级VAD判决；以及输出部，被配置为将修改后的初级VAD判决发送至所述VAD的尾响添加单元。

在S208中，确定所述实时音频数据的音频能量。其中，所述实时音频数据是数字音频数据；通过所述实时音频数据确定实时音频能量包括：将实时音频数据的帧的能量值作为实时音频能量。

在一个实施例中，可例如，以帧为单位获取的所述实时音频数据；将所述实时音频数据进行采样处理，生成多个离散音频数据；获取所述多个离散音频数据的多个离散音频能量值；以及通过所述多个离散音频能量值确定所述实时音频能量。

对于音频，看作是一个声纹波形，有固定的采样率，例如有8kHz的采样率，相当于1秒采用8000个点。可将把每个点的值取出来取个平均值。可例如一帧为10ms，可会算出每帧的能量值，一个或多个帧的能力值作为实时音频能量。

在一个实施例中，将实时音频数据的帧的能量值作为实时音频能量包括：获取所述实时音频数据的多个帧的能量值；以及计算特定数量的连续帧的能量值的平均值作为实时音频能量。

在一个实施例中，将实时音频数据的帧的能量值作为实时音频能量包括：获取所述实时音频数据的多个帧的能量值；计算特定时长内的连续帧的能量值的平均值作为实时音频能量。

在S210中，在所述实时音频能量超过第一阈值时，中断所述第一音频数据的播放。第一阈值可例如通过经验数值确定，具体可例如，首先确定人类用户的正常讲话时候的音频能量，然后人类用户正常的音频能量确定所述第一阈值。

在一些实施例中，还可确定不同环境下人类用户的正常讲话时候的音频能量，可理解的时，在安静的场合，用户讲话的声音较低，而在嘈杂哦的场合或者信号不好的场合，用户讲话的声音会提高，可根据不同的通话环境，确定不同的第一阈值，以利于更好的确定用户的反应状态，更利于提高人机对话的用户感受。

在一些实施例中，还存在一些情况，比如在安静的场景中，突然有了噪声，这个时候也会产生瞬时的音频能量提高，因此，还可以设置一个数量阈值，即为预定数量帧的能量值达到该阈值时，例如是5个帧，50ms。只有当连续检测到50ms的能量值达到阈值才进行打断。

根据本公开的自动通话方法，在语音通话连接建立后，一旦确定用户开始讲话，则智能机器人能够迅速反应，暂停当前的第一音频的播放，这种方式在智能机器人进行人机对话的时候，提高智能机器人对用户回应的反应速度，改善用户体验。

目前在智能机器人的人机通话过程中，如果在播放预制录音时，用户说话了，就需要打断当前的播放，等用户说完，然后再接着播放预制音频。智能机器人更具根据返回的文本(关键字)进行打断。这种打断方式会用1到2秒的延迟，造成体验度较差。而通过本公开的自动通话方法，即使是通过5个帧的音频能量判断是否进行打断的方式，也仅要50ms的时间延迟，大大提升了机器人的反应速度。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图3是根据另一示例性实施例示出的一种自动通话方法的流程图。图3所示的自动通话方法30是对图2所示的自动通话方法20的补充描述。

如图3所示，在S302中，根据所述实时音频数据确定的语音文本。可例如，基于语音转文本技术与所述实时音频数据确定确定所述终端的语音文本。

语音转文本技术又称为语音识别技术，也被称为自动语音识别Automatic SpeechRecognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。在本公开的实施例中，可通过以上的一种或多种语音识别的方法进行实时音频数据的语音识别，本公开不以此为限。

在S304中，基于所述语音文本对预定关键词进行检索。预定关键词可例如为“不”，“繁忙”或其他的通话通的否定词语。

在一个实施例中，还可根据当前的第一音频数据中的内容，确定预定关键词，可例如，当前语音的内容为人民币信贷场景，关键词可为“美元”、“日元”，“利率”等内容。

在S306中，在未检索到所述预定关键词且在所述实时音频能量低于第二阈值时，继续所述第一音频数据的播放。第二阈值可为当前场景的环境声音的正常值，在实时音频能量低于第二阈值时，可认为用户没有在讲话中，结合未检索到否定或其他类别的关键词，智能机器人可继续播放第一音频数据。

在S308中，在检索到所述预定关键词时，根据所述语音文本确定第二音频数据以进行播放。

在一个实施例中，还可根据所述语音文本确定第二音频数据以进行播放，可例如，当前语音的内容为人民币信贷场景，关键词可为“美元”、“日元”，“利率”等内容。在检所在“美元”关键词时，可在数据库中获取与“美元”相关的第二音频数据，以进行播放。

根据本公开的自动通话方法，根据实时音频能量值的打断可为预打断过程，即先暂停播放音频，等返回的文本之后再根据文本关键字来确定是否是真的打断，如果不是，则接着播放。如果有相关的关键词，可切换其他音频进行继续播放。这种方法缩短了智能机器人的反应时间，提高了用户的满意度。

图4是根据另一示例性实施例示出的一种自动通话方法的流程图。图4所示的自动通话方法40是对图2所示的自动通话方法20中S204中“播放第一音频数据”的详细描述。值得一提的是，在智能机器人和用户终端进行通话接通的初始阶段，智能机器人播放预置的固定音频，在获取来自用户终端的语音反馈之后，执行图4所述的流程。

如图4所示，在S402中，获取所述终端反馈的实时音频数据。通过语音活动检测技术获取所述终端的所述实时音频数据。

在S404中，确定所述实时音频数据对应的语音文本。可例如，基于语音转文本技术与所述实时音频数据确定确定所述终端的语音文本。

在S406中，基于所述语音文本与自然语言理解技术确定所述终端的语义。自其中，然语言处理(NLP，Natural Language Processing)是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU，Natural Language Understanding),也称为计算语言学(ComputationalLinguistics)。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI,Artificial Intelligence)的核心课题之一。

目前可通过机器学习方法建立机器学习模型，进而由语音文本中提取终端的语义。

在S408中，基于所述语义由所述语音数据库中确定所述第一音频数据。可根据来自用户终端的语义确定第一音频数据。

在一个应用场景中，智能机器人为辅助用户进行信息咨询服务的终端，智能机器人可根据用户的语音数据，可例如“XX医院”或者“XX电话号码”来确定用户的语义为对某些信息进行检索。然后基于用户的语义确定第一音频数据。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种自动通话装置的框图。如图5所示，自动通话装置50包括：语音建立模块502，语音播放模块504，音频数据模块506，音频能量模块508，以及第一判断模块510。

语音建立模块502用于建立与终端的语音通话连接；所述语音建立模块502包括：标识单元，通话单元，反馈单元。其中，标识单元，由标识数据库中获取所述终端的语音通话标识；通话单元，基于所述语音通话标识与所述终端建立语音通话的连接；以及反馈单元，用于基于所述终端的反馈由语音数据库中获取所述第一音频数据。所述反馈单元包括：音频子单元，用于获取所述终端反馈的实时音频数据；文本子单元，用于确定所述实时音频数据对应的语音文本；以及数据子单元，用于基于所述语音文本由语音数据库中获取所述第一音频数据。其中，所述数据子单元，还用于基于所述语音文本与自然语言理解技术确定所述终端的语义；以及基于所述语义由所述语音数据库中确定所述第一音频数据。

所述语音建立模块502还包括：请求单元，连接单元，第三判断模块。其中，请求单元，用于基于所述语音通话标识发送语音通话的连接请求；连接单元，用于在所述连接请求被所述终端接受后，建立所述语音通话的连接。第三判断模块，用于基于预定条件，判断所述连接请求是否未被所述终端接受；以及在所述连接请求未被所述终端接受时，中断所述语音通话的连接请求。

语音播放模块504用于在所述语音通话连接建立后，播放第一音频数据。

音频数据模块506用于在所述第一音频数据的播放过程中获取终端的实时音频数据；所述音频能量模块506还用于计算特定数量的连续帧的能量值的平均值作为实时音频能量，所述音频数据模块506可包括：语音活动检测模块，语音活动检测模块，用于在所述第一音频数据的播放过程中获取所述终端的所述实时音频数据。

音频能量模块508还用于确定所述实时音频数据的音频能量；所述音频能量模块508还可包括：帧数据单元，第一帧计算单元，第二帧计算单元。其中，帧数据单元，用于获取所述实时音频数据的多个帧的能量值。第一帧计算单元，用于计算特定数量的连续帧的能量值的平均值作为实时音频能量。第二帧计算单元，用于计算特定时长内的连续帧的能量值的平均值作为实时音频能量。

第一判断模块510在所述实时音频能量超过第一阈值时，中断所述第一音频数据的播放。

根据本公开的自动通话装置，在语音通话连接建立后，智能机器人播放第一音频数据；在第一音频数据的播放过程中获取用户反馈的实时音频数据的音频能量；以及在实时音频能量超过第一阈值时，中断所述第一音频数据的播放的方式，能够在智能机器人进行人机对话的时候，提高智能机器人对用户回应的反应速度，改善用户体验。

图6是根据另一示例性实施例示出的一种自动通话装置的框图。如图6所示，在自动通话装置50的基础上自动通话装置60包括：第二判断模块602。

第二判断模块602用于在所述实时音频能量低于第二阈值时，继续播放第一音频数据。所述第二判断模块包括：文本单元，用于根据所述实时音频数据确定的语音文本；检索单元，用于基于所述语音文本对预定关键词进行检索；以及播放单元，用于在未检索到所述预定关键词且在所述实时音频能量低于第二阈值时后，继续所述第一音频数据的播放。转换单元，用于在检索到所述预定关键词时，根据所述语音文本确定第二音频数据以进行播放。

图7是根据一示例性实施例示出的一种电子设备的框图。

下面参照图7来描述根据本公开的这种实施方式的电子设备200。图7显示的电子设备200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图2，图3，图4中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、智能机器人、或者网络设备等)执行根据本公开实施方式的上述方法。

所述软件产品可以采用一个或多个计算机可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

上述一个或多个计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：建立与终端的语音通话连接；在所述语音通话连接建立后，播放第一音频数据；在所述第一音频数据的播放过程中获取终端的实时音频数据；确定所述实时音频数据的音频能量；以及在所述实时音频能量超过第一阈值时，中断所述第一音频数据的播放。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、智能机器人、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

此外，本说明书说明书附图所示出的结构、比例、大小等，均仅用以配合说明书所公开的内容，以供本领域技术人员了解与阅读，并非用以限定本公开可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本公开所能产生的技术效果及所能实现的目的下，均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语，也仅为便于叙述的明了，而非用以限定本公开可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当也视为本公开可实施的范畴。

Claims

1.一种自动通话方法，其特征在于，包括：

建立与终端的语音通话连接；

在所述语音通话连接建立后，对用户语音数据进行语义分析生成语音文本；

基于所述语音文本由预存的多段录音音频数据中筛选出第一音频数据，并进行播放；

在所述第一音频数据的播放过程中以帧为单位获取终端的实时音频数据；

将所述实时音频数据进行采样处理，生成多个离散音频数据；

获取所述多个离散音频数据的多个离散音频能量值；

通过特定时长内的连续多个帧的离散音频数据的能量的平均值生成实时音频能量；

基于多个预设的声音场景中用户讲话音量生成多个第一阈值；

在所述实时音频能量超过与之对应的第一阈值时，中断所述第一音频数据的播放。

2.如权利要求1所述的方法，其特征在于，中断所述音频数据的播放之后，还包括：

在所述实时音频能量低于第二阈值时，继续播放所述第一音频数据。

3.如权利要求2所述的方法，其特征在于，在所述实时音频能量低于第二阈值时，继续播放所述第一音频数据，包括：

根据所述实时音频数据确定的语音文本；

基于所述语音文本对预定关键词进行检索；以及

在未检索到所述预定关键词且在所述实时音频能量低于第二阈值时，继续所述第一音频数据的播放。

4.如权利要求3所述的方法，其特征在于，还包括：

在检索到所述预定关键词时，根据所述语音文本确定第二音频数据以进行播放。

5.一种自动通话装置，其特征在于，包括：

语音建立模块，用于建立与终端的语音通话连接；

语音播放模块，用于在所述语音通话连接建立后，对用户语音数据进行语义分析生成语音文本；基于所述语音文本由预存的多段录音音频数据中筛选出第一音频数据，并进行播放；

音频数据模块，用于在所述第一音频数据的播放过程中以帧为单位获取终端的实时音频数据；

音频能量模块，用于将所述实时音频数据进行采样处理，生成多个离散音频数据；获取所述多个离散音频数据的多个离散音频能量值；通过特定时长内的连续多个帧的离散音频数据的能量的平均值生成实时音频能量；以及

第一判断模块，用于基于多个预设的声音场景中用户讲话音量生成多个第一阈值；在所述实时音频能量超过与之对应的第一阈值时，中断所述第一音频数据的播放。

6.如权利要求5所述的装置，其特征在于，还包括：

第二判断模块，用于在所述实时音频能量低于第二阈值时，继续播放第一音频数据。

7.如权利要求6所述的装置，其特征在于，所述第二判断模块包括：

文本单元，用于根据所述实时音频数据确定的语音文本；

检索单元，用于基于所述语音文本对预定关键词进行检索；以及

播放单元，用于在未检索到所述预定关键词且在所述实时音频能量低于第二阈值时后，继续所述第一音频数据的播放。

8.如权利要求7所述的装置，其特征在于，还包括：

转换单元，用于在检索到所述预定关键词时，根据所述语音文本确定第二音频数据以进行播放。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。