CN111935348A

CN111935348A - 提供通话处理服务的方法和装置

Info

Publication number: CN111935348A
Application number: CN201910394400.8A
Authority: CN
Inventors: 曹涌; 聂再清; 杜建光
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2020-11-13

Abstract

本发明公开了一种提供通话处理服务的方法和装置，该方法包括：接收通话发起方的第一语音；将所述第一语音转换为文本；基于所述文本，识别所述通话发起方的通话意图；确定与所述通话意图对应的对话策略；基于所述对话策略，代替用户与所述通话发起方进行交互。由此，为用户提供更加智能的通话管理体验。

Description

提供通话处理服务的方法和装置

技术领域

本公开涉及移动通信技术领域，特别涉及一种提供通话处理服务的方法、装置以及计算设备和存储介质。

背景技术

随着移动通信技术的快速发展，各种移动通信终端已从简单的通话工具变为一种综合的信息处理平台，称为人们日常生活中不可或缺的一部分。

但是，目前移动通信终端对于来电的处理尚不够智能化。例如，在一些不方便接听电话的场景，用户只能挂断电话或通过短信回复提醒来电者自己不方便接听电话。在一些漏接电话场景，可以利用运营商提供的电话秘书业务来录音以给用户留言或发送来电通知等服务。但是该项服务需要用户开通，而且用户收听录音耗时耗力，用户体验较差，很多用户并不习惯使用该项服务。在陌生电话场景，目前主要是通过黑名单的方式拦截骚扰电话，该方案只能拦截已知被标记的骚扰电话号码，而对于未被标记的新号码则有较长的时间延迟，在出现误判的情况下，会对被标记号码造成较大的伤害。并且，不同的人群对骚扰电话的定义并不相同，仅基于黑名单的方式拦截骚扰电话也可能会造成有需要的人群的骚扰误判。

因此，仍然需要一种更加智能化的通话处理方案。

发明内容

本发明的目的是提供一种提供通话处理服务的方法和装置，以智能化的通话助手代替用户与通话发起方进行交互，为用户提供更加智能的通话管理体验。

根据本公开的一个方面，提供了一种提供通话处理服务的方法，包括：接收通话发起方的第一语音；将所述第一语音转换为第一文本；基于所述第一文本，识别所述通话发起方的通话意图；确定与所述通话意图对应的对话策略；基于所述对话策略，代替用户与所述通话发起方进行交互。

可选地，所述确定与所述通话意图对应的对话策略的步骤可以包括：使用机器学习模型获取与所述通话意图对应的对话策略。

可选地，所述对话策略可以包括下述至少一项：对于推销类通话，表示拒绝；对于信息通知类通话，从所述第一文本中提取关键信息，并记录所述关键信息；对于通话发起方期望与所述用户直接对话的通话，与所述通话发起方约定再次通话。

可选地，对于信息通知类通话，该方法还可以包括：向所述通话发起方确认所提取的关键信息。

可选地基于所述对话策略代替所述用户与所述通话发起方进行交互的步骤可以包括：基于所述对话策略，确定要向所述语音通话发起方返回的应答文本；以及向所述语音通话发起方返回所述应答文本，或者向所述语音通话发起方返回与所述应答文本对应的第二语音。

可选地，所述确定要向所述通话发起方返回的应答文本的步骤可以包括：基于所述对话策略，从预设的对话库中获取要向所述通话发起方返回的应答文本；以及/或者基于所述对话策略，结合所述第一文本，生成要向所述语音通话发起方返回的应答文本；以及/或者结合本次通话过程中的历史对话信息，决定下一时刻的应答文本。

可选地，该方法还可以包括：向所述用户的移动终端转发来自通话发起方的通话请求；以及/或者向所述用户的移动终端转发所述第一语音和/或与所述第一文本；以及/或者向所述用户的移动终端转发所述第二语音和/或与所述第二语音对应的应答文本。

可选地，该方法还可以包括：从所述第一文本中提取需要通知所述用户或需要所述用户反馈的信息，并提供给所述用户。

可选地，该方法还可以包括：接收所述用户响应于所述通话请求和/或所述第一语音和/或所述第二语音的反馈，执行与所述反馈对应的响应处理。

可选地，所述执行与所述反馈对应的响应处理的步骤可以包括：响应于来自所述用户的移动终端的转接指令，激活通话助手，以接收所述第一语音；以及/或者响应于转发给所述用户的移动终端的通话请求满足至少一个方面的自动接听条件，激活通话助手，以接收所述第一语音；以及/或者响应于所述用户的通话确认信息，使所述用户与所述通话发起方进行交互。

可选地，所述至少一个方面的自动接听条件包括下述至少一项：所述通话请求未在所述用户的移动终端被所述用户接听；用于输出所述通话请求的移动终端无法接收通信信号；以及所述通话请求的请求时间在预定的自动转接时间范围内。

可选地，该方法还可以包括：获取所述用户提供的任务信息，所述任务信息包括所述用户期望通话的其他用户的通信标识以及任务关键词；发起指向所述其他用户的语音通话请求；响应于所述语音通话请求被确认接通，代替所述用户与其他用户进行交互，以实现所述任务。

可选地，所述第一语音可以是通话发起方指向所述用户的。

根据本公开的另一个方面，提供了一种提供通话处理服务的方法，包括：接收通话发起方的第一语音；基于所述第一语音，识别所述通话发起方的通话意图；确定与所述通话意图对应的对话策略；基于所述对话策略，代替用户与所述通话发起方进行交互。根据本公开的另一个方面，还提供了一种为用户提供通话处理服务的方法，包括：接收通话发起方指向用户的第一语音；执行与所述第一语音的通话意图对应的处理策略。

可选地，该方法还可以包括：使用自然语言理解技术识别所述第一语音表达的通话意图。

根据本公开的另一个方面，还提供了一种提供通话处理服务的装置，包括：通信装置，用于接收通话发起方的第一语音；文本转换装置，用于将所述第一语音转换为文本；意图识别装置，用于基于所述文本，识别所述通话发起方的通话意图；策略确定装置，用于确定与所述通话意图对应的对话策略；交互装置，用于基于所述对话策略，代替用户与所述通话发起方进行交互。

根据本公开的另一个方面，提供了一种提供通话处理服务的装置，其特征在于，包括：通信装置，用于接收通话发起方的第一语音；意图识别装置，用于基于所述第一语音，识别所述通话发起方的通话意图；策略确定装置，用于确定与所述通话意图对应的对话策略；交互装置，用于基于所述对话策略，代替用户与所述通话发起方进行交互。

根据本公开的另一个方面，还提供了一种为用户提供通话处理服务的方法，包括：通信装置，用于接收通话发起方指向用户的第一语音；处理器，用于执行与所述第一语音的通话意图对应的处理策略。

根据本公开的另一个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

根据本公开的另一个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

由此，以智能化的通话助手代替用户与通话发起方进行交互，为用户提供更加智能的通话管理体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开一个实施例的为用户提供通话处理服务的系统的示意图。

图2示出了根据本公开一个实施例的为用户提供通话处理服务的方法的流程示意图。

图3示出了根据本公开一个应用例的通话处理流程示意图。

图4示出了根据本公开一个应用例的通话处理流程示意图。

图5示出了根据本发明一实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

如图1所示，本公开的系统100可以包括通话助手110以及用户的移动终端120。

其中，在本文中技术方案中，虽然涉及的其实是“用户”、“通话助手”以及“其他用户(即下述的通话发起方)”之间的交互。但由于系统是经由用户所持有的终端设备(如

之类的智能电话)主动或被动地通话，于是在此可以将用户所持有的移动终端等同于用户。

移动终端110是可用来进行网络访问的任何合适的电子设备，优选为便携式电子设备，包括但不限于移动电话、智能电话、平板电脑或者其它便携式终端。

在一个优选实施例中，该移动终端110可以基于蜂窝移动通信技术并经由服务器与其他移动终端相互通信。在另一个实施例中，该移动终端110也可以基于无线通信技术并经由网络服务器与其他用户相互通信。

在一个实施例中，移动终端110可以具有输出设备，例如显示屏幕、扬声器、耳机、振动传感器等，用于向用户输出来自通话发起方的或者经由通话助手转发的通话请求、或者第一语音、或者该通话助手代替用户与通话发起方进行的交互的交互内容、或者该通话助手代替用户与通话发起方的交互中的关键信息等。

通话助手120是一种能够代替用户与通话发起方进行智能交互的助手。其中的“交互”可以包括任何形式的信息交互。例如，可以包括与服务器的交互，也可以包括与通话发起方的移动终端的交互，还可以包括与通话发起方的经由网络的交互，其中的交互形式可以包括但不限于文本交互、语音交互、以及相关指令交互、消息交互等，本公开对此不做限制。

通话助手可以包括通信装置和处理器。其中，通信装置可以用于接收通话发起方指向用户的第一语音，处理器可以执行与第一语音的通话意图对应的处理策略。其中，处理器例如可以使用自然语言理解技术识别所述第一语音表达的通话意图，并可以经由通信装置代替用户与通话发起方进行交互(下文详述)。

本公开实施例中，通话助手可以适用于任何通话场景，包括但不限于下述的电话通话场景或者基于网络的语音通话场景，并且通话交互中所涉及的基础技术可以包括但不限于下述的ASR、TTS、DM和NLU等。

通话助手120的实现方式可以多样。例如，通话助手可以实现为一种硬件设备，也可以实现为一种应用程序，还可以实现为一种由为用户提供通话服务的服务商提供的助手服务器，本公开对此不做限制。

通话助手120可以与用户的移动终端110关联绑定。

其中，两者之间的关联绑定方式可以由该通话助手的实现方式确定。例如，在通话助手实现为一种独立的硬件设备(例如智能音箱)的情况下，通话助手与移动终端之间可以通过预定账号关联。在通话助手实现为一种设置在移动终端的硬件设备的情况下，通话助手与移动终端之间可以通过预定的IO接口关联。在通话助手实现为一种助手服务器的情况下，通话助手与移动终端之间也可以通过预定的账号关联。本公开对于两者之间的关联方式不做限制。

通话助手120可以包括与外部进行通信的通信装置。其中，这里的“外部”是相对于该通话助手自身而言的外部而非绝对意义的外部。

在一个实施例中，通话助手120的通信装置可以与用户的移动终端110进行通信。其中，通话助手120可以向用户的移动终端转发通话请求或者其代替用户与通话发起方的交互内容，以方便用户与通话发起方端的用户的高效沟通。通话助手120也可以接收来自用户的移动终端的一些操作指令或控制指令和/或经由用户的移动终端转发的通话请求，以便通话助手能够根据用户的要求并代替用户高效地与通话发起方端的用户进行沟通。

在一个实施例中，通话助手120的通信装置也可以与能够为用户提供通话服务的服务器进行通信。其中，通话助手120例如可以通过与该服务器进行通信以检测是否存在指向用户的通话请求。或者，通话助手120例如还可以响应于用户的操作或指令，向用户期望进行通话的其它服务器或者移动终端或者通话助手发送通话请求。

通常，通话助手可以处于休眠状态，并在需要的情况下被唤醒，从而代替用户与通话发起方进行交互。

在一个实施例中，通话助手可以响应于指向用户的通话请求被唤醒。

例如，通话助手可以包括检测装置，可以检测是否存在指向用户的通话请求。在检测到存在指向用户的通话请求的情况下，可以自动唤醒通话助手，然后由该通话助手代替用户识别通话发起方，或者代替用户与通话发起方进行交互，以初步识别通话发起方的通话意图，从而在一定程度上为用户屏蔽一些骚扰电话。其中，这里的“检测”即可以是在通话请求被转发到用户的移动终端之前的检测，也可以是对经由用户的移动终端转发来的通话请求的检测，还可以包括对用户的移动终端侧的通话请求的监测。

在一个实施例中，通话助手可以响应于来自用户的移动终端的转接指令被唤醒。

例如，来自通话发起方的通话请求首先可以被转发到用户的移动终端并输出。在用户处于特定场景(例如会议)而不便于接听的情况下，用户可以例如执行“由通话助手转接”、“挂断”等操作，从而触发移动终端向通话助手发送转接指令。通话助手可以响应于该转接指令被唤醒以接收第一语音，并可以进一步地代替用户与通话发起方进行交互，以为用户提供更为智能的通信体验。

在一个实施例中，通话助手可以在检测到存在指向用户的通话请求时首先进行场景识别，以判断是否唤醒通话助手。例如，识别当前通话请求是否处于用户预先设置的自动转接场景。

例如，来自通话发起方的通话请求首先可以被转发到用户的移动终端并输出，通话助手的检测装置可以实时检测指向用户的通话请求是否被接听。在通话请求被接听的情况下，则暂时不唤醒通话助手。而在通话请求未被接听的情况下，可以识别当前场景是否为用户预先设置的自动唤醒通话助手的特定场景，进而判断是否唤醒通话助手。

特定场景例如可以为通话请求未在所述用户的移动终端被所述用户接听、用于输出通话请求的移动终端无法接收通信信号、通话请求的请求时间在预定的自动转接时间范围内等等。在检测到当前场景非上述特定场景的情况下，可以暂时不唤醒通话助手。而在检测到当前场景为上述特定场景的情况下，即响应于转发给所述用户的移动终端的通话请求满足至少一个方面的自动接听条件，通话助手被唤醒，使得通话助手可以代替用户与通话发起方进行交互，以免用户错过重要通话。

图2示出了根据本公开一个实施例的为用户提供通话处理服务的方法的流程示意图。其中，通话助手被唤醒之后，可以通过执行图2所示的提供通话处理服务的方法，以代替用户与通话发起方进行交互。图3示出了根据本公开一个实施例的提供通话处理服务的装置。该装置300可以对应于如前所述的通话助手，并且可以执行如图2所示的方法。并且，图3所示的通话助手的结构仅是示意而非限定，本公开的通话助手可以包括但不限于图3所示的模块，例如还可以包括如前所述的检测装置。

参见图2，在步骤S210，例如可由图3所示的通信装置310，接收通话发起方的第一语音。其中，可由该通话助手的与外部进行通信的通信装置可以接收所述第一语音，还可以向外部(例如通话发起方)发送第二语音或者相对应的其它内容。其中，第一语音可以是通话发起方指向用户的，换言之，第一语音可以是通话发起方期望与用户沟通而发起的。

应当理解的是，这里的“第一”以及下文中的“第二”仅是对来自通话发起方的语音与用户向通话发起方返回的语音进行区分，而非对其顺序或功能的任何限定。在本公开实施例中，将来自通话发起方的语音统称为第一语音，而将用户返回给通话发起方的语音统称为第二语音，其相应的文本可以分别称为第一文本和第二文本。

通话助手可以对所接收到的第一语音进行识别和/或理解，以识别通话发起方的通话意图，从而便于通话助手与通话发起方进行交互。

第一语音中可以包括一些能够表达通话发起方的通话意图的元信息，例如姓名、时间、地点、商品名称等。在一个实施例中，例如可以在步骤S220，例如可由图3所示的文本转换装置320，将所述第一语音转换为第一文本。在步骤S230，例如可由图3所示的意图识别装置330，基于所述第一文本，识别所述通话发起方的通话意图。

在其它实施例中，也可以不进行文本转换，而直接基于第一语音，识别通话发起方的通话意图，在此情况下，图3所示的装置300可以不包括文本转换装置320。本公开对此不做限制。

其中，通话助手例如可以基于自动语音识别技术(Automatic SpeechRecognition，ASR)，将所接收到的第一语音中的词汇内容转换为计算机可读的输入，例如按键、二进制或者字符序列等。通话助手例如可以基于自然语言理解技术(NaturalLanguage Understanding，NLU)，使计算机能够理解人类语言文本。由此，结合ASR技术和NLU技术，通过意图识别、实体抽取等相关子任务，实现对第一语音的识别、理解。

之后，在步骤S240，例如可由图3所示的策略确定装置340，可以确定与所述通话意图对应的对话策略。在步骤S250，例如可由图3所示的交互装置350基于所述对话策略，代替所述用户与所述通话发起方进行交互。

对话策略能够在一定程度上决定智能助手如何与通信发起方进行交互。在确定了通话发起方的通话意图之后，通话助手可以基于与通话意图对应的对话策略与通信发起方进行交互，以便于提高通话助手与通话发起方之间的沟通效率。

对话策略可以多种多样，并尽可能地涵盖涉及不同领域、不同方面的多种通话意图的多种应对方式。并且，每种对话策略也可以包括多种应对方式。例如，对话策略可以包括针对通话意图的意思表示，例如拒绝或者接受。或者，对话策略也可以包括针对通话意图的响应操作表示，例如拒接、记录关键信息、通话转接、挂断等。或者，对话策略还可以包括针对通话意图的应答表示，例如返回应答语音、返回应答文本、返回应答图像、返回应答表情符号等。

对话策略可以通过多种方式获取。

例如，对话策略例如可以通过机器学习的方式产生。例如可以通过使用机器学习模型获取与所述通话意图对应的对话策略。其中，该机器学习模型可以是预先基于大量的训练样本进行训练得到的，并不断训练完善的。在确定了通话意图之后，可以将通话意图作为机器学习模型的输入，并将该机器学习模型的输出作为与通话意图对应的对话策略。

例如，可以在确定了通话意图之后，根据该通话的类型属性后，确定相应的对话策略。例如，对话策略可以包括但不限于下述的至少一项：对于推销类通话，表示拒绝；对于信息通知类通话，从所述第一文本中提取关键信息，并记录所述关键信息；对于通话发起方期望与所述用户直接对话的通话，与所述通话发起方约定再次通话。

例如，在确定了通话意图之后，可以基于通话意图，从预设的多种应对方式中确定针对该通话意图的至少一种应对方式，并组合得到与该通话意图对应的对话策略。

基于所确定的对话策略所包括的多种应对方式，通话助手可以代替用户与通话发起方进行智能交互。

在一个实施例中，通话助手可以基于对话管理技术(Dialog Management，DM)，控制通话助手与通话发起方之间的对话过程。并且其中，通话助手可以与通话发起方进行多轮对话交互。

具体地，在通话助手代替用户与通话发起方的每轮对话的过程中，通话助手例如可以首先基于所述对话策略确定要向所述语音通话发起方返回的应答文本即第二文本。之后，向所述语音通话发起方返回所述应答文本，或者向所述语音通话发起方返回与所述应答文本对应的第二语音，以实现与通话发起方的一轮对话。

要向通话发起方返回的应答文本也可以通过多种方式确定。例如，通话助手可以基于所述对话策略，从预设的对话库中获取要向所述通话发起方返回的应答文本。或者，通话助手也可以基于所述对话策略，并结合所述第一文本，生成要向所述语音通话发起方返回的应答文本。或者，通话助手还可以结合本次通话过程中的历史对话信息，决定下一时刻的应答文本。

在一个实施例中，通话助手例如可以基于DM来组织文字以确定要向通话发起方返回的第一文本的内容，并基于例如语音合成技术(Text to Speech，TTS)将第一文本合成为第一语音，并返回给通话发起方。

通话助手向通话发起方返回的应答形式可以根据通话所涉及的具体的通话场景确定。

例如，在该通话为基于无线网络的音频通话(例如基于即时通讯应用的音频通话)的场景时，通话助手既可以向通话发起方返回应答文本即第二文本，也可以向通话发起方返回第二语音，还可以向通话发起方返回应答图片、应答表情符号等。

又例如，在该通话为基于蜂窝网络的电话通话(包括固定电话和移动电话)的场景时，通话助手可以在与通话发起方的多轮交互中向通话发起方返回第二语音。或者，在该通话为基于蜂窝网络的移动电话的场景时，通话助手可以向通话发起方返回第二语音，同时，以短信或者彩信的形式，向通话发起方返回第二文本或者其它的应答图片、应答表情符号等。本公开对通话助手的应答形式不做限制。

通话场景可以基于通话请求中所包括的一些场景信息确定。例如，在通话请求中包括用户或者通话发起方的电话号码或手机号码的情况下，确定该通话为电话通话场景。也可以在通话请求中包括用户或者通话发起方的应用账户标识(例如即时通讯应用账号)的情况下，确定该通话为音频通话场景。在其它实施例中，也可以通过识别通信标识、场景关键词等来识别通话场景。本公开对此不做限制。

在通话助手与通话发起方进行交互的过程中，通话助手可以实时地记录交互内容，包括记录其接收到的来自通话发起方的第一语音或者相应的第一文本，也包括记录其代替用户向通话发起方返回的第二语音或者相应的第二文本或者关联的应答图片、应答表情符号等。

在一个实施例中，在通话助手与通话发起方进行交互的过程中或者交互结束之后，通话助手还可以向用户的移动终端转发该交互内容，以便于在移动终端向用户输出该交互内容，使得用户无需接听通话或者再次与通话发起方进行通话即可了解通话内容，为用户带来更多便利。

在一个优选示例中，对于一些重要信息或者关键信息，例如需要通知用户或需要向用户反馈的信息，通话助手还可以从第一文本中提取，并提供给用户。相比于普通的交互内容，这些重要信息可以在用户的移动终端显著性标示，例如文字加粗、标黄示出、增大字号等，从而给用户以提醒，避免用户错过重要信息。其中，在一些场景下，例如对于信息通知类通话，通话助手还可以与通话发起方交互以向通话发起方确认所提取的关键信息，从而避免出错。

在通话助手代替用户与通话发起方进行交互的过程中，在一些场景下，例如在通话发起方期望与用户本人直接进行通话的场景下，通话助手还可以向用户的移动终端转发来自通话发起方的通话请求，或者通过与通话发起方约定再次通话并通知用户，便于用户能够及时地与通话发起方联系，从而提升有效沟通。

如前所述，本公开实施例中，通话助手可以向用户(例如经由用户的移动终端)转发来自通话发起方的通话请求、或者所述第一语音和/或与所述第一文本、或者所述第二语音和/或与所述第二语音对应的应答文本。

在一个实施例中，通话助手还可以接收用户响应于所述通话请求和/或所述第一语音和/或所述第二语音的反馈，并执行与所述反馈对应的响应处理。其中，执行与所述反馈对应的响应处理例如可以包括：响应于来自所述用户的移动终端的转接指令，激活通话助手，以接收所述第一语音。或者，响应于转发给所述用户的移动终端的通话请求满足至少一个方面的自动接听条件，激活通话助手，以接收所述第一语音。或者，响应于所述用户的通话确认信息，使所述用户与所述通话发起方进行交互。本公开对此不做限制。

另外，通话助手还可以代替用户主动向期望通话的其他用户发起例如预定、约会、咨询等任务，以节省用户时间，为用户带来更多便利。

在一个实施例中，用户可以向通话助手提供任务信息，所述任务信息包括所述用户期望通话的其他用户的通信标识以及任务关键词，例如预定事项、时间、地点、交通信息、天气信息、房屋信息等。

通话助手可以获取所述用户提供的任务信息，并主动发起指向所述其他用户的通话请求。在通话请求被接通之后，通话助手可以响应于所述通话请求被确认接通，代替所述用户与其他用户进行交互，以实现所述任务。

由此，通过本公开如上所述的通话处理系统，通话助手不仅能够代替用户智能的接听与发出通话请求，以方便用户与他人的通信，避免错过他人通话。其还能够通过与对方的智能通话与应当，获取对方的通话意图和内容并智能应对，提升用户与他人的沟通效率。并且其中，通话助手还可以在用户的教导下模拟出用户声音(例如通过TTS技术)，从而使得通话助手与他人的对话体感更接近用户本人，提升其他用户的沟通体验。

本公开如上所述的通话助手可以适用于任何通话场景，包括但不限于如前所述的电话通话场景或者基于网络的语音通话场景，并且通话交互中所涉及的基础技术可以包括但不限于ASR、TTS、DM和NLU等。

图4示出了根据本公开一个应用例的通话处理流程示意图。其中，以电话场景中的来电作为示例对上述通话处理方案进行示意性说明。

参见图4，在步骤1中，呼叫者(即通话发起方)将电话拨打至用户的智能电话，用户的智能电话接收到该电话。

在步骤2中，用户的智能电话将所接收到的电话转交给智能助手(即通话助手)。其中，该转接可以为自动转接也可以为用户手动转接。例如，用户在查看到其智能电话输出的来电显示后，其不方便接听(例如在开会)，可以通过转接操作，将该来电转交给智能助手。或者，在智能电话侧的通话请求处于用户设置的特定场景，例如，用户未接听、智能电话不在服务区而无法接收请求信号、智能电话关机、来电属于特定的转接时间段等。

智能助手在被唤醒之后，在步骤3中，可以接听电话并可以与来电者通过自然语音进行交流，例如接收来电者的语音以及向来电者呼出对话，并且，记录交互中所涉及的语音或者文本内容。其中，上述步骤1也可以省略，而直接由智能助手监听指向用户的通话请求并自动唤醒，以在用户之前与来电者进行沟通，从而在一定程度上筛除陌生来电或者骚扰来电。

其中，具体地，智能助手可以接收来电者的语音，并通过ASR技术将来电者的语音转换成对应的文字。或者，智能助手通过NLU技术，并基于所述文字判断来电者的来电意图，并提取其中的相应的元信息(约会时间，地点，商品名等)。同时，智能助手可以确定相应的对话策略，并可以基于对话策略，例如通过DM技术来组织与来电者进行对话的文字内容。然后，例如通过TTS将文字内容转换成为要向来电者呼出的应答语音，并通过电话网络将应答语音传送给来电者。

另外，在智能助手代替用户与来电者交互之时或者之后，在步骤4中，智能助手可以将所记录的电话文字和语音内容发送给用户，从而用户可以通过显示屏幕阅读到对话内容或者通过扬声器收听对话的语音。其中，智能助手也可以将其中的一些重要信息，例如时间、地点、名称等显著输出给用户，例如标黄显示、放大播放声音音量等。

在步骤5中，可以根据用户操作来为用户接通其与来电者或者其他用户的通话。例如，用户可以通过操作使智能助手将正在交互的电话转交给用户的移动终端，使得用户本人直接与来电者进行通话。或者，用户可以通过操作使智能助手向来电者发起再次通话，以便用户本人直接与来电者再次通话，从而提升沟通效率。

具体场景例如可以是：

(1)陌生来电场景：

智能助手：喂，您好！请问哪位？

来电者：您好，我是xx公司的小王，咱们现在有一个xx花园的楼盘在售，不限购的，大哥您感兴趣吗？

智能助手：对不起，我没有兴趣，再见。

用户可以预先设置其感兴趣的话题，智能助手通过与来电者的初步沟通，提取其中的关键信息，并在确定用户对此不感兴趣的情况下，将此来电视为骚扰电话，并主动挂断，从而为用户筛除骚扰电话，使得用户免受骚扰电话的干扰。

(2)用户不方便接听电话的场景(例如会议中、或者用户在图书馆、电影院等不便于接听电话的场所，用户的移动终端开启了静音模式)：

智能助手：喂，您好！请问是什么事？

来电者：您好！请问您是xxx先生吗？

智能助手：您好，我是他的智能助手，他现在不太方便接电话，请问什么事？

来电者：我是今天上午和他联系过的小王，想提醒一下xxx先生明天上午的碰头会时间改到了9点

智能助手：请问是上午9点吗？

来电者：是的。

智能助手：您好，我已经记下来，我会告知主人的，谢谢。

来电者：再见。

智能助手：再见。

智能助手可以代替用户与来电者交互，并记录其中的关键信息，并向来电者再次确认关键信息，使得用户无需再次与来电者通话即可获知来电者的目的以及通话内容，为用户带来了更多的便利。

(3)用户错过电话的场景

来电者：x总，设计方案已经转交给您了，您觉得怎么样？

智能助手：您好，我是他的智能助手。我的主人不方便接电话，我会记录并通知他您的来电，需要提醒他回复您电话吗？

来电者：最好可以回复一下。

智能助手：好的，我会提醒他的，再见。

来电者：再见。

基于交互中所涉及的关键信息，智能助手能够提醒用户再次与对方进行通话，从而提升两者之间的沟通效率。

(4)代替用户对外沟通的场景

用户希望通过电话预定某餐厅的桌位。用户将必要的信息(例如餐厅联系方式、就餐人数、就餐时间、期望预定的菜品等信息)提供给智能助手，然后，由智能助手向该餐厅拨打电话，并基于用户提供的信息完成预定。其中，交互过程中涉及的对话方案可以如前所述，例如结合ASR、TTS、DM、NLU等技术实现。

由此，本公开所述的通话处理方案，通过结合ASR、TTS、DM、NLU等技术，让通话助手代替用户接听和/或拨打电话。并且，通过自然语言和来电方交流，存储通话语音同时以文本形式保留通话记录，以方便用户判断电话内容，避免漏接电话，以及在特定无法接听电话的场景依旧可以获取来电目的和内容。

图5示出了根据本发明一实施例的计算设备的结构示意图。

参见图5，计算设备500包括存储器510和处理器520。

处理器520可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器520可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器520可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器510可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器510可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器510可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器510上存储有可处理代码，当可处理代码被处理器520处理时，可以使处理器520执行上文述及的为用户提供通话处理服务的方法。

上文中已经参考附图详细描述了根据本发明的为用户提供通话处理服务的方案。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种提供通话处理服务的方法，其特征在于，包括：

接收通话发起方的第一语音；

将所述第一语音转换为第一文本；

基于所述第一文本，识别所述通话发起方的通话意图；

确定与所述通话意图对应的对话策略；

基于所述对话策略，代替用户与所述通话发起方进行交互。

2.根据权利要求1所述的方法，其特征在于，所述确定与所述通话意图对应的对话策略的步骤包括：

使用机器学习模型获取与所述通话意图对应的对话策略。

3.根据权利要求1所述的方法，其特征在于，所述对话策略包括下述至少一项：

对于推销类通话，表示拒绝；

对于信息通知类通话，从所述第一文本中提取关键信息，并记录所述关键信息；

对于通话发起方期望与所述用户直接对话的通话，与所述通话发起方约定再次通话。

4.根据权利要求3所述的方法，其特征在于，对于信息通知类通话，还包括：

向所述通话发起方确认所提取的关键信息。

5.根据权利要求1所述的方法，其特征在于，基于所述对话策略代替所述用户与所述通话发起方进行交互的步骤包括：

基于所述对话策略，确定要向所述语音通话发起方返回的应答文本；以及

向所述语音通话发起方返回所述应答文本，或者向所述语音通话发起方返回与所述应答文本对应的第二语音。

6.根据权利要求5所述的方法，其特征在于，所述确定要向所述通话发起方返回的应答文本的步骤包括：

基于所述对话策略，从预设的对话库中获取要向所述通话发起方返回的应答文本；以及/或者

基于所述对话策略，结合所述第一文本，生成要向所述语音通话发起方返回的应答文本；以及/或者

结合本次通话过程中的历史对话信息，决定下一时刻的应答文本。

7.根据权利要求5所述的方法，其特征在于，还包括：

向所述用户的移动终端转发来自通话发起方的通话请求；以及/或者

向所述用户的移动终端转发所述第一语音和/或与所述第一文本；以及/或者

向所述用户的移动终端转发所述第二语音和/或与所述第二语音对应的应答文本。

8.根据权利要求1所述的方法，其特征在于，还包括：

从所述第一文本中提取需要通知所述用户或需要所述用户反馈的信息，并提供给所述用户。

9.根据权利要求1所述的方法，其特征在于，还包括：

接收所述用户响应于所述通话请求和/或所述第一语音和/或所述第二语音的反馈，执行与所述反馈对应的响应处理。

10.根据权利要求9所述的方法，其特征在于，所述执行与所述反馈对应的响应处理的步骤包括：

响应于来自所述用户的移动终端的转接指令，激活通话助手，以接收所述第一语音；以及/或者

响应于转发给所述用户的移动终端的通话请求满足至少一个方面的自动接听条件，激活通话助手，以接收所述第一语音；以及/或者

响应于所述用户的通话确认信息，使所述用户与所述通话发起方进行交互。

11.根据权利要求10所述的方法，其特征在于，所述至少一个方面的自动接听条件包括下述至少一项：

所述通话请求未在所述用户的移动终端被所述用户接听；

用于输出所述通话请求的移动终端无法接收通信信号；以及

所述通话请求的请求时间在预定的自动转接时间范围内。

12.根据权利要求1所述的方法，其特征在于，还包括：

获取所述用户提供的任务信息，所述任务信息包括所述用户期望通话的其他用户的通信标识以及任务关键词；

发起指向所述其他用户的语音通话请求；

响应于所述语音通话请求被确认接通，代替所述用户与其他用户进行交互，以实现所述任务。

13.根据权利要求1所述的方法，其特征在于，

所述第一语音是通话发起方指向所述用户的。

14.一种提供通话处理服务的方法，其特征在于，包括：

接收通话发起方的第一语音；

基于所述第一语音，识别所述通话发起方的通话意图；

确定与所述通话意图对应的对话策略；以及

基于所述对话策略，代替用户与所述通话发起方进行交互。

15.一种为用户提供通话处理服务的方法，其特征在于，包括：

接收通话发起方指向用户的第一语音；

执行与所述第一语音的通话意图对应的处理策略。

16.根据权利要求15所述的方法，其特征在于，还包括：

使用自然语言理解技术识别所述第一语音表达的通话意图。

17.一种提供通话处理服务的装置，其特征在于，包括：

通信装置，用于接收通话发起方的第一语音；

文本转换装置，用于将所述第一语音转换为文本；

意图识别装置，用于基于所述文本，识别所述通话发起方的通话意图；

策略确定装置，用于确定与所述通话意图对应的对话策略；

交互装置，用于基于所述对话策略，代替用户与所述通话发起方进行交互。

18.一种提供通话处理服务的装置，其特征在于，包括：

通信装置，用于接收通话发起方的第一语音；

意图识别装置，用于基于所述第一语音，识别所述通话发起方的通话意图；

策略确定装置，用于确定与所述通话意图对应的对话策略；

19.一种为用户提供通话处理服务的装置，其特征在于，包括：

通信装置，用于接收通话发起方指向用户的第一语音；

处理器，用于执行与所述第一语音的通话意图对应的处理策略。

20.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-16中任何一项所述的方法。

21.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至16中任一项所述的方法。