CN117221452A - 使用话音和文本的同步通信 - Google Patents

使用话音和文本的同步通信 Download PDF

Info

Publication number
CN117221452A
CN117221452A CN202311229074.8A CN202311229074A CN117221452A CN 117221452 A CN117221452 A CN 117221452A CN 202311229074 A CN202311229074 A CN 202311229074A CN 117221452 A CN117221452 A CN 117221452A
Authority
CN
China
Prior art keywords
caller
computing device
user
audio
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311229074.8A
Other languages
English (en)
Inventor
沙维特·马蒂亚斯
保罗·邓洛普
本杰明·施莱辛格
丽贝卡·吉苏·帕克·邱
奥斯曼·阿卜杜拉
埃里克·埃尔法尼安
贾恩·彼得·耶德热约维奇
阿迪蒂·巴尔加瓦
杨京民
诺姆·埃齐翁-罗森贝格
布兰登·巴贝尔洛
奥里·卡贝利
米歇尔·塔德莫尔
尼尔·舍米
纳达夫·巴尔
亚历克斯·阿格拉诺维奇
约西·马蒂亚斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN117221452A publication Critical patent/CN117221452A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42034Calling party identification service
    • H04M3/42042Notifying the called party of information on the calling party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/42Graphical user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42136Administration or customisation of services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/0024Services and arrangements where telephone services are combined with data services
    • H04M7/0033Notification or handling of incoming calls by a computer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/13256Call screening
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q2213/00Indexing scheme relating to selecting arrangements in general and for multiplex systems
    • H04Q2213/256Call screening

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了使用话音和文本的同步通信。描述了一种计算设备,该计算设备从另一设备接受由呼叫者发起的电话呼叫。在建立接收来自用户的口头输入并输出来自呼叫者的口头音频的电话用户界面之前,计算设备执行将音频用户界面输出到另一设备并作为电话呼叫的一部分的呼叫筛选服务。音频用户界面针对包括电话呼叫的目的的附加信息询问呼叫者,其允许用户在决定是接受呼叫或者挂断电话之前具有电话呼叫的更多场境。计算设备输出与电话呼叫相关联的图形用户界面。图形用户界面包括经由询问呼叫者的音频用户界面获得的附加信息的指示。

Description

使用话音和文本的同步通信
分案说明
本申请属于申请日为2019年01月08日的中国发明专利申请201980048824.7的分案申请。
技术领域
本申请涉及使用话音和文本的同步通信。
背景技术
一些垃圾邮件和讨厌的呼叫者使用复杂技术来避免垃圾邮件检测系统。结果,用户可能接收到来源于未知或不熟悉的电话号码的不想要的电话呼叫。即使传入的电话呼叫来源于熟悉的电话号码,电话呼叫的目的也可能并不总是很清楚。也就是说,用户可能缺乏充足信息来决定是否应答、忽略或拒绝呼入的呼叫。这样,许多用户理所当然地只是不应答电话呼叫,特别是来自未知号码的电话呼叫。
发明内容
通常,本公开的技术启用使用话音和文本的组合的同步通信的形式。示例呼叫筛选服务(CSS)在启用呼叫者和用户之间的直接话音通信之前或者替代启用呼叫者和用户之间的直接话音通信,通过关于他们的呼叫的目的询问呼叫者来筛选传入的电话呼叫。示例CSS可以整体上在移动设备上本地执行,例如,以进一步增强安全性并促进用户隐私。示例CSS可以根据特定类型对传入呼叫者进行分类,并为特定类型的呼叫者提供定制的询问体验。为了进行询问,示例CSS可以分析和转录传入的电话音频数据,并自动生成传出的电话音频数据以与呼叫者进行同步通信。呼叫者和示例CSS之间的通信是双向通信(与单向通信相反);呼叫者和示例CSS都以来回方式进行通信。示例CSS可以向呼叫者呈现询问的正在进行的转录,并且响应于该转录而接收用户输入。此类用户输入可能会导致示例CSS异步调节示例CSS与呼叫者的通信的方式或内容(即,用户输入可能会导致在询问期间由示例CSS提出的特定问题或特定陈述,具体由用户自行决定并且代表用户)。示例CSS根据在询问期间接收到的异步用户输入或在先前询问期间接收的过去异步用户输入来询问呼叫者。示例CSS询问呼叫者,直到呼叫者挂断电话或直到用户选择示例CSS呈现的选项以终止询问,包括结束呼叫、通过电话呼叫建立用户到呼叫者和呼叫者到用户的话音通信等。
在整个公开中,描述了其中计算设备和/或计算系统可以分析信息(例如,场境信息、用户和/或设备数据等)的示例。但是,系统只能在计算设备和/或计算系统从计算设备和/或计算系统的用户接收明确许可后使用信息。例如,在其中计算设备和/或计算系统可以收集有关用户与在计算设备或计算系统处执行的应用的交互的信息的以下讨论的情况下,可以为各个用户提供机会以提供输入来控制计算设备和/或计算系统的程序或功能是否可以收集并利用该信息。可以进一步向各个用户提供控制程序或功能可以或不能使用该信息做什么的机会。
此外,在由计算设备和/或计算系统传输、存储或以其他方式使用所收集的信息之前,可以以一种或多种方式对所收集的信息进行预处理,从而去除个人可识别信息。例如,在示例计算系统存储与在计算设备处执行的应用相关联的用户交互数据之前,示例计算系统可以对数据进行预处理以确保去除嵌入在数据中的任何用户识别信息或设备识别信息。因此,用户可以控制是否收集有关用户和用户设备的信息,以及如果收集了这些信息,计算设备和/或计算系统将如何使用这些信息。
在一个示例中,描述了一种方法,该方法包括:由计算设备从另一设备接受由呼叫者发起的电话呼叫;在建立接收来自用户的口头输入并输出来自呼叫者的口头音频的电话用户界面之前,由计算设备执行将音频用户界面输出到另一设备并作为电话呼叫的一部分的呼叫筛选服务,其中执行呼叫筛选服务包括经由音频界面针对包括电话呼叫的目的的附加信息询问呼叫者;以及由计算设备输出与电话呼叫相关联的图形用户界面,其中该图形用户界面包括经由询问呼叫者的音频用户界面获得的附加信息的指示。
在另一示例中,描述了一种计算机可读存储介质,该计算机可读存储介质包括指令,该指令在被执行时使至少一个处理器:从另一设备接受由呼叫者发起的电话呼叫;在建立接收来自用户的口头输入并输出来自呼叫者的口头音频的电话用户界面之前,通过经由音频界面针对包括电话呼叫的目的的附加信息至少询问该呼叫者来执行电话筛选服务,其将音频用户界面输出到另一设备并且作为电话呼叫的一部分;并且输出与电话呼叫相关联的图形用户界面,其中该图形用户界面包括经由询问呼叫者的音频用户界面获得的附加信息的指示。
在另一示例中,描述了一种计算系统,该计算系统包括至少一个处理器,所述至少一个处理器被配置成从另一设备接受由呼叫者发起的电话呼叫;在建立接收来自用户的口头输入并输出来自呼叫者的口头音频的电话用户界面之前,通过经由音频界面针对包括电话呼叫的目的的附加信息至少询问呼叫者来执行呼叫筛选服务,其将音频用户界面输出到另一设备并且作为电话呼叫的一部分;以及输出与电话呼叫相关联的图形用户界面,其中该图形用户界面包括经由询问呼叫者的音频用户界面获得的附加信息的指示。
在另一个示例中,描述了一种系统,该系统包括,用于从另一设备接受由呼叫者发起的电话呼叫的装置;在建立接收来自用户的口语输入并输出来自呼叫者的口头音频的电话用户界面之前,用于执行将音频用户界面输出到另一设备并作为电话呼叫的一部分的呼叫筛选服务的装置,其中用于执行呼叫筛选服务的装置包括用于经由音频界面针对包括电话呼叫的目的的附加信息询问呼叫者的装置;以及用于输出与电话呼叫相关联的图形用户界面的装置,其中该图形用户界面包括经由询问呼叫者的音频用户界面获得的附加信息的指示。
一个或多个示例的细节在附图和以下描述中阐述。根据说明书和附图以及根据权利要求书,本公开的其他特征、目的和优点将是显而易见的。
附图说明
图1是图示根据本公开的一个或多个方面的包括执行呼叫筛选服务的示例计算设备的示例系统的概念图。
图2是图示根据本发明的一个或多个方面的执行呼叫筛选服务的示例计算设备的框图。
图3A至图3E是图示根据本公开的一个或多个方面的执行呼叫筛选服务的示例计算设备的示例呼叫筛选服务用户界面的截屏的概念图。
图3F至图3I是图示根据本公开的一个或多个方面的执行呼叫筛选服务的示例计算设备的另一示例呼叫筛选服务用户界面的截屏的概念图。
图4是图示根据本公开的一个或多个方面的由执行呼叫筛选服务的示例计算设备执行的示例操作的流程图。
具体实施方式
图1是图示根据本公开的一个或多个方面的示例系统的概念图,该示例系统包括执行呼叫筛选服务(CSS)的示例计算设备。图1的系统100包括通信耦合到网络130的计算设备110、呼叫者系统180和计算系统160。
尽管归因于系统100的操作主要被描述为由计算设备110本地执行,但是在一些示例中,系统100的操作可以由多个计算设备和系统执行,包括图1所示之外的其他计算设备和系统。例如,呼叫者系统180、计算系统160或通信耦合到网络130的任何其他设备或系统可以执行计算设备110的一些或全部功能,反之亦然。
网络130表示用于在计算系统、服务器和计算设备之间传输数据的任何公共或专用通信网络。网络130可以包括公共交换电话网络(PSTN)、无线网络(例如,蜂窝、WiFi和/或其他无线网络)、有线网络(例如,局域网(LAN)、广域网(WAN)、互联网等)、互联网协议(IP)电话网络(例如IP话音(VoIP)网络)或任何其他类型的通信网络。网络130可以包括一个或多个可操作地相互耦合从而在计算系统160、呼叫者系统180和计算设备110之间提供信息交换的网络集线器、网络交换机、网络路由器或任何其他网络设备。计算系统160、呼叫者系统180和计算设备110可以使用任何适当的通信技术跨网络130传送和接收数据。
计算系统160、呼叫者系统180和计算设备110可以各自使用相应的网络链路可操作地耦合到网络130。将计算系统160、呼叫者系统180和计算设备110耦合到网络130的链路可以是以太网或其他类型的网络连接,并且这样的连接可以是无线和/或有线连接。在一些示例中,将计算系统160、呼叫者系统180和计算设备110耦合到网络130的链路可以是IP电话链路,例如VoIP或其他类似的电信链路。在一些示例中,将计算系统160、呼叫者系统180和计算设备110耦合到网络130的链路可以是使用会话发起协议(SIP)信令、电路交换(CS)链路或其他类型的电信链路的IP多媒体子系统(IMS)链路。
呼叫者系统180表示能够经由网络130传达信息以实现呼叫者系统180和计算设备110之间的电话呼叫的一个或多个计算机、计算设备、大型机、服务器(包括所谓的“刀片”)、云计算系统或其他类型的远程计算系统的任意组合。即,呼叫者系统180可以执行用于经由网络130与计算设备110传送和接收电话数据的操作。例如,呼叫者系统180可以是移动电话、固定电话、膝上型计算机、电话呼叫中心的工作站或其他配置成给用户提供对电话服务的访问的计算设备。
计算系统160表示一个或多个计算机、大型机、服务器(包括所谓的“刀片”)、云计算系统或能够经由网络130交换信息作为计算设备100访问的一部分CSS的其他类型的远程计算系统的任何组合。也就是说,计算系统160可以存储或提供对额外处理器、所存储的数据或计算设备110所需的其他计算资源的访问,以实现用于启用由计算设备110进行的本地设备上呼叫筛选的所描述的技术。
计算设备110表示能够经由网络130交换信息以执行本地设备上的CSS技术的任何合适的计算设备或计算系统。例如,计算设备110可以是移动电话,用户从该移动电话提供异步非电话输入以接受或拒绝来自诸如呼叫者系统180的呼叫者实体的电话呼叫,而不是提供同步电话输入以直接接受或拒绝该电话呼叫。仅超出移动电话的计算设备110的示例包括:平板计算机、膝上型计算机、台式计算机、服务器、大型机、工作站、固定电话、卫星、蜂窝、或VoIP电话、可穿戴设备(例如,计算机手表等)、家庭自动化设备、辅助设备、游戏机和系统、媒体播放器、电子书阅读器、电视平台、汽车导航或信息娱乐系统,或配置成经由网络(诸如网络130)交换信息的任何其他类型的移动、非移动、可穿戴和不可穿戴的计算设备。
计算设备110包括呼叫筛选服务(“CSS”)模块120、电话模块122,并且进一步包括用户界面组件(UIC)112,其被配置成输出用户界面,诸如CSS用户界面114。模块120和122可以使用驻留在计算设备110、计算系统160和呼叫者系统180之一中和/或在其处执行的软件、硬件、固件或硬件、软件和固件的混合来执行本文所述的操作。计算设备110、计算系统160和呼叫者系统180可以使用多个处理器或多个设备执行模块120和122作为在底层硬件上执行的虚拟机、作为操作系统或计算平台的一个或多个服务、和/或作为计算平台的应用层上的一个或多个可执行程序。在一些示例中,计算设备110、计算系统160和呼叫者系统180可以从应用存储库(例如,应用商店)或其他数据库下载模块120和122中的任何一个。在一些示例中,计算设备110、计算系统160和呼叫者系统180在生产期间以及在被提供给用户之前被预加载有模块120和122中的任意一个。在其他示例中,计算设备110、计算系统160和呼叫者系统180在生产后或被提供给用户之后被加载有模块120和122中的任何一个。
虽然在图1中示出的计算系统160包括UIC 112、CSS模块120和电话模块122,但是模块120和122及其功能可以在计算设备110、计算系统160和呼叫者系统180之间不同地分布。作为一个示例,在一些情况下,呼叫者系统180或计算系统160可以包括CSS模块120的全部或部分功能。
计算设备110的UIC 112可以用作用于计算设备110的输入和/或输出设备。UIC112可以使用各种技术来实现。例如,UIC 112可以使用存在敏感的输入屏幕、麦克风技术、红外传感器技术或其他用于接收用户输入的输入设备用作输入设备。UIC 112可以用作输出设备,该输出设备被配置成使用任何一种或多种显示设备、扬声器技术、触觉反馈技术或用于向用户输出信息的其他输出设备技术向用户呈现输出。UIC 112可以被计算设备110使用以输出GUI(诸如用户界面114)以进行显示。
电话模块122代表计算设备110处理电话功能性。例如,电话模块122也可以被称为“拨号器”,并且可以是计算平台或计算设备110的操作系统的应用或组件,其将计算设备110配置为用作电话。电话模块122可以例如通过与诸如呼叫者系统180的外部设备发起电话呼叫来执行出站呼叫操作。电话模块122也可以例如通过支持计算设备110和外部设备之间的电话数据的交换来处理呼入电话呼叫,从而实现计算设备110和外部设备之间的电话呼叫。电话模块122也可以例如通过合并呼叫、将呼叫置于保持、接受、拒绝或转发呼叫以及其他与电话有关的操作来执行促进现有电话呼叫的操作。
电话模块122可以使UIC模块112呈现与计算设备110的电话功能相关联的电话用户界面。电话模块122的用户界面可以包括数字小键盘或者其它输入元件,用户可以从其提供输入以对电话号码进行拨号。电话模块122的用户界面可以包括用于执行与电话有关的任务(诸如播放话音消息、回顾呼叫历史、在电子地址簿中查找联系人等)的菜单或选项。电话模块122可以提供CSS模块120所请求的信息,以使UIC 112呈现CSS用户界面,诸如CSS用户界面114,计算设备110的用户可以从该CSS用户界面更智能地管理诸如源于呼叫者系统180的那些的呼入的电话呼叫。
CSS模块120管理在计算设备110上执行的CSS。计算设备110的CSS模块120呈现图形用户界面,诸如CSS用户界面114,计算设备110的用户从其可以与由CSS模块120管理的CSS交互,例如,以更智能地管理诸如源自呼叫者系统180的那些的呼入的电话呼叫。在一些情况下,CSS模块120的CSS用户界面114是对由CSS模块120提供的CSS的独立用户界面。在其他示例中,CSS用户界面114形成不同用户界面的部分或一部分,诸如电话模块122输出的电话用户界面或计算设备110呈现的操作系统用户界面。
在提供图形用户界面时,计算设备110的CSS模块120通过至少确定UIC 112呈现什么并且如何呈现来控制UIC 112。CSS模块120可以进一步控制经由网络130与计算设备110交换什么信息,以促进图形用户界面。例如,在控制UIC 112显示什么时,CSS模块120可以从计算设备110(例如,电话模块122)或计算系统160的组件接收信息,其形成一些或全部CSS用户界面114的基础。作为响应,CSS模块120可以根据从计算设备110或计算系统160的组件接收到的信息向UIC 112输出使UIC 112显示CSS用户界面114的指令和信息。
在图1的示例中,CSS用户界面114包括图形元素116A和116B(统称为“图形元素116”),每个图形元素呈现经由由CSS模块120拦截的电话呼叫听到的一部分口头音频。图形元素116A是数字助理对呼叫者讲话的折叠视图。图形元素116B是呼叫者作为响应对数字助理讲话的内容的放大视图。
CSS模块120可以取决于询问中的哪一方(即,呼叫者或CSS)当前正在讲话来使图形元素116A和116B展开或折叠。例如,当呼叫者在图1的示例中答复时,CSS模块120使图形元素116B处于展开形式以用于显示呼叫者讲出的内容。然而,CSS模块120使图形元素116A处于展开形式以用于显示CSS所讲出的内容,并且然后在CSS停止输出口头音频或响应于检测到呼叫者所讲出的音频时使图形元素116A处于折叠形式。在任何时候,计算设备110的用户可以在图形元素116A或116B处提供输入以引起包含在图形元素116A和116B中的内容的展开或折叠。
CSS用户界面114进一步包括图形元素118A至118F(统称为“图形元素118”)。每个图形元素都与用于管理由CSS模块120拦截的电话呼叫的不同用户可选选项相关联。
例如,图形元素118A至118C与用于调节或修改与呼叫者的正在进行的询问的方向的选项相关联。换句话说,图形元素118A至118C提供用于与CSS模块120通信的CSS用户界面114的异步输入特征,使得直接修改或调节CSS模块120如何询问呼叫者。图形元素118A提供选项以将呼叫者和电话呼叫标记为垃圾邮件或不想要的恳求、调查等,并使CSS模块120向呼叫者讲出“Sorry,the person you’re trying to reach can’t take a call rightnow.Thanks,and goodbye(抱歉,您尝试联系的人现在无法应答电话。谢谢,再见)”。图形元素118B提供请求CSS模块120通知呼叫者计算设备110的用户稍后将对其回叫的选项。并且,尽管在图1中从视图中被部分隐藏,但是图形元素118C与请求CSS模块120通知呼叫者计算设备110的用户想要呼叫者向他们发送基于文本的消息的选项相关联。当然,这些仅仅是图形元素118A至118C的一些示例,在其他示例中,用于修改询问的附加选项是可能的。例如,图形元素118A至118C可以与用户可能想要提供给呼叫者的录音或预定的响应相关联。CSS模块120可以基于计算设备110的用户(或其他类似的CSS用户)在先前或正在进行的询问期间如何与其他类似分类的呼叫者进行响应来通过CSS模块120超时学习这样的响应。
然而图形元素118D至118F与调节或修改由CSS模块120提供的音频界面的动作(即,在CSS模块120询问呼叫者的同时由CSS模块120输出的口头对话)相关联。图形元素118D到118F提供CSS用户界面114的异步输入功能,用于与CSS模块120进行通信使得直接控制CSS模块120是否终止、应答或者收听CSS模块120管理的电话呼叫。这样做,异步输入特征可以使用户能够控制在终止、应答或收听时CSS模块120如何对呼叫者讲话。
例如,图形元素118D提供挂断或终止电话呼叫并让CSS模块120对呼叫者讲出“Sorry,the person you’re trying to reach can’t take a call right now.Thanks,and goodbye”的选项。图形元素118E提供通过应答电话呼叫来结束正在进行的询问的选项,并使CSS模块120对呼叫者讲出“Thanks,connecting you now(谢谢,现在正在连接)”。图形元素118F提供了既不终止也不应答电话呼叫的选项,而是提供收听询问的选项。CSS模块120可以在应答电话呼叫之后,使UIC 112输出询问的音频,以允许用户收听CSS模块120和呼叫者。当收听选项被选择时,CSS模块120可以在确保计算设备110的UIC 112的麦克风保持静音的同时输出询问的音频,以防止计算设备110的用户对呼叫者直接讲话。
当然,这些仅仅是图形元素118D至118F的一些示例,在其他示例中,可以使用用于控制电话呼叫的附加或不同选项。例如,图形元素118D至118F可以与用于转发呼入的呼叫、将呼入的呼叫与另一电话呼叫合并、或者使CSS模块120以不同方式对呼叫者讲话的选项相关联。
当处理由UIC 112检测到的输入时,CSS模块120可以响应于在UIC 112的存在敏感的输入组件的相应位置处检测到的对应于在其处显示CSS用户界面114的图形元素116和118的UCI 112的显示组件的位置的一个或者多个输入从UIC 112接收信息。CSS模块120可以将关于由UIC 112检测到的输入的信息散步到计算设备110或计算系统160的其他组件,以解释输入并使计算设备110响应于输入执行一个或多个功能。在一些示例中,CSS模块120可以接收在UIC 112处检测到的一个或多个用户输入的指示,并且可以将关于用户输入的信息输出到电话模块122或用户输入预期用于的计算设备110的任何其他应用或组件。例如,UIC 112可以在UIC 112的显示图形元素118E的位置处检测用户输入,并将有关用户输入的数据发送到CSS模块120。
CSS模块120可以基于检测到的输入来解释一个或多个触摸事件。触摸事件可以包括表征用户输入的信息,诸如用户输入的位置分量(例如,[x,y]坐标)、时间分量(例如,当接收到用户输入时)、力分量(例如,用户输入所施加的压力或力的量)或有关用户输入的其他数据(例如,速度、加速度、方向、密度、检测到触摸的触敏组件的面积数量等)。
基于从用户输入生成的触摸事件的位置信息,CSS模块120可以确定检测到的用户输入与图形元素118E(例如,结束正在进行的询问应答电话呼叫的选项)相关联。CSS模块120可以向电话模块122发送指令(例如,通过在用户和呼叫者之间建立话音通信信道来应答电话呼叫),或者在一些情况下,CSS模块120可以将一个或多个触摸事件的指示发送给电话模块122以进行进一步的解释。
在操作中,计算设备110可以经由网络130接收由呼叫者从诸如呼叫者系统180之类的不同设备发起的电话呼叫。在由电话模块122处理该电话呼叫之前,CSS模块120可以拦截呼入的电话呼叫。
作为将电话呼叫管理职责移交给电话模块122进行电话呼叫的前提,CSS模块120可以在电话呼叫上建立其自己的音频用户界面(有时也称为“声音用户界面”)以获得有关呼叫者和电话呼叫目的的附加信息。附加信息的示例包括呼叫者的姓名、呼叫者陈述的呼叫目的、相关联的企业、教育机构、慈善机构、政府部门、或其他指示电话呼叫预期目的或以其它方式将电话呼叫置于场境(context)中以更好地帮助用户决定是否应答电话呼叫的其他附加信息。
CSS模块120通过电话呼叫经由音频用户界面询问呼叫者附加信息,使得计算设备110的用户可以响应于电话呼叫而决定CSS模块120采取的动作。换句话说,CSS模块120可以向呼叫设备(诸如呼叫者系统180)输出电话音频输出(诸如对附加信息的口头请求的音频)并且将其作为电话呼叫的一部分的。CSS模块120可以从其它设备接收电话音频输入(诸如来自呼叫者的包括附加信息的口头响应的音频)作为电话呼叫的一部分。
CSS模块120可以经由电话呼叫的音频用户接口传送计算机生成的口头输出,并且可以经由音频用户接口从呼叫者接收口头输入。换句话说,CSS模块120可以在呼叫者系统180的呼叫者与CSS模块120的语音引擎或其他预先记录的或计算机生成的话音之间打开音频用户界面,使得CSS模块120和呼叫者可以经由电话呼叫使用相应的话音进行通信。
例如,CSS模块120的语音引擎可以向呼叫者系统180输出口头音频,其包括介绍性说明“Hi,the person you’re calling is using ascreening service and will get acopy of this conversation.Go ahead and say your name,and why you’re calling(嗨,您正在呼叫的人正在使用筛选服务,并将获得此对话的副本。继续说出你的名字,并且为何你要进行呼叫)”。响应于听到介绍性说明,呼叫者具有两个主要的选择以继续进行(尽管在一些示例中存在两个以上的选项),其包括:挂断电话或以其他方式终止来自呼叫系统180的电话呼叫,或经由音频用户界面与CSS模块120讲话,提供从介绍性说明中请求的附加信息。例如,CSS模块120可以从呼叫者接收话音输入,其指示对介绍性说明的响应。响应可能是“Hello,my name is Joe from ACME wanting to let you know about issues withthe order you placed for…(您好,我的名字是Joe,来自ACME,想让您知道关于你下订单的问题……)”CSS模块120可能通过网络130并经由电话接收附加信息,并使用附加信息构建和更新用于筛选呼叫者的CSS界面114。
当向呼叫者介绍自己时,CSS模块120可以提醒呼叫者CSS模块120不是人类。例如,CSS模块120可以给如上面所陈述的介绍性说明加上“This is a computer-generatedvoice answering service(这是计算机生成的话音应答服务)”或简称为“This is arobot…(这是机器人……)”的序言。
在一些示例中,CSS模块120可以向呼叫者传达CSS正在代表特定的命名用户应答,或者可以在与呼叫者进行通信时输出用户话音的合成版本。以这种方式,CSS模块120可以提供呼叫者已经呼叫了正确的用户并且没有对错误的电话号码进行拨号的保证。
CSS模块120可以使UIC 112输出与电话呼叫相关联的CSS用户界面114(在这种情况下为图形用户界面)。CSS模块120可以使UIC 112在CSS用户界面144中包括经由询问呼叫者的音频用户界面获得的附加信息的指示。例如,CSS模块120可以最初以展开形式输出图形指示116A以包括介绍性说明的转录。并且响应于检测到来自呼叫者的音频,CSS模块120可以折叠图形指示116A以在CSS用户界面114内为图形指示116B腾出空间。
CSS模块120可以响应于介绍性说明来转录从呼叫者接收的附加信息,并在图形指示116B内显示来自该转录的每个单词。例如,如图1中所示,CSS模块120可以使UIC 112在CSS用户界面114内显示图形指示116B,其包括口头翻译的文本。CSS模块120可以显示转录,使得每个单词几乎实时地(即,与呼叫者的口头音频输入同时)出现在图形指示116B内。换句话说,CSS模块120可以在由呼叫者讲出并由CSS模块120接收到的附加信息的同时更新包括在图形元素116B中的转录。
在一些示例中,除了显示询问的转录之外或代替显示询问的转录,CSS模块120可以输出询问的音频。音频的这种输出可以是自动的,或者响应于用户对“收听”的选项的选择。
在一些情况下,CSS模块120可以输出询问的音频以克服询问中的障碍,诸如CSS模块120不知道如何进行的僵局。例如,CSS模块120可以输出与集中于可能兴趣点的询问相关联的音频的一部分(例如,作为有用的特定音频片段或文本转录),包括例如通信故障点。在这样的情况下,CSS模块120可以将片段减少为对兴趣点或通信故障的简单描述。
返回到图形元素118,CSS模块120可以经由CSS用户界面114提供用于修改与呼叫者的正在进行的询问或用于终止询问的选项或控件。例如,CSS模块120可以使UIC 112显示用于调节CSS模块120和呼叫者系统189之间的音频用户界面的图形元素118。
CSS模块120可以经由UIC 112检测到的与CSS用户界面114相关联的输入来接收一个或多个选择任何图形元素118的用户输入。例如,计算设备110的用户可以提供在显示图形元素118B的UIC 112的位置处或在其附近的触摸输入。
CSS模块120可以将触摸输入解释为命令,以指示呼叫者计算设备110的用户希望呼叫者稍后尝试回叫。这样,CSS模块120可以基于一个或多个用户输入来控制音频用户界面。也就是说,基于在图形元素118B处或附近检测到的一个或多个用户输入,CSS模块120可以经由电话呼叫输出可听的计算机生成的话音,该话音请求呼叫者稍后尝试回叫。在这一点上,CSS模块120可以代表用户优雅地结束电话呼叫,在某些情况下,经由电话呼叫并且以可听的计算机生成的话音输出短语“good bye(再见)”。
在一些情况下,CSS模块120可以分析电话呼叫、呼叫者和询问来确定呼叫原因或结束呼叫的原因,并取决于原因与呼叫者通信。即,CSS模块120可以通过给出由CSS模块120(例如,根据计算设备110获得的场境信息)确定的原因(例如,呼叫者正在开会、旅行、开车等)来结束呼叫。并且在一些情况下,CSS模块120可以选择一种最适合于电话呼叫的类型、呼叫者的分类或询问中的情绪的方式来结束呼叫,而不是仅通过简单的“goodbye”来结束呼叫。
这样,依赖于本公开的所描述的技术,计算设备可以执行设备上CSS,该设备上CSS使异步用户输入能够修改或调节与呼叫者的同步话音通信。这样,因为用户直到已经执行了询问才需要应答电话,所以所描述的技术可以改善设备和个人信息的安全性(因为防止呼叫者直接对用户讲话)。所描述的技术可以防止来自已知和未知呼叫者的中断。也就是说,即使传入的电话呼叫源自熟悉的电话号码,所描述的技术也可以使计算设备能够更好地传达电话的目的。这样,所描述的技术可以在何时以及如何响应电话呼叫上提供更多的用户控制,从而导致更少的时间、通信带宽以及由接收电话呼叫的计算设备消耗的电能。
另外,因为所描述的技术特别适合于在设备上执行(例如,与云计算环境或其他远程系统相反),所以所描述的CSS更安全,并且用户可以更好地控制他或她的个人信息在计算设备外部被共享。所描述的技术为用户提供了一种在计算设备上接收电话呼叫来确定呼叫者是否真诚的方式,而且为用户提供查询呼叫者而不必直接与他们交互的方式。用户甚至可以在听不到电话呼叫的情况下(例如,在会议期间、在嘈杂或安静的环境中、在公共场所、并且在其中正在进行的电话呼叫可能是挑战性的其它情形下)与呼叫者进行异步和间接交互(例如,问后续问题)。
如前所述,描述了贯穿本公开提出的示例,其中只有首先已经接收到来自用户的这样做的显式信息的时候,计算设备和/或计算系统才可以分析信息(例如,场境信息、用户和/或设备数据等)。例如,在以下讨论的其中计算设备和/或计算系统可以收集有关用户与在计算设备或计算系统上执行的应用的用户交互的信息的情况下,可以为个别用户提供有提供输入以控制计算设备和/或计算系统的程序或者特征是否可以收集并且利用信息的机会。可以进一步给个别用户提供有控制程序或特征可以或不能处理该信息的机会。
此外,在由计算设备和/或计算系统传输、存储或以其他方式使用所收集的信息之前,可以以一种或多种方式对所收集的信息进行预处理,使得去除个人可标识的信息。例如,在示例计算系统存储与在计算设备处执行的应用相关联的用户交互数据之前,示例计算系统可以对数据进行预处理以确保去除嵌入在数据中的任何用户标识信息或设备标识信息。因此,用户可以控制是否收集有关用户和用户设备的信息,以及如果收集了这些信息,计算设备和/或计算系统将如何使用这些信息。
图2是图示根据本公开的一个或多个方面的执行呼叫筛选服务的示例计算设备的框图。在图1的上下文中描述图2。例如,图2的计算设备210是图1的计算设备110的示例。图2仅图示计算设备210的一个特定示例,并且计算设备210的许多其他示例可以在其他实例中使用,并且可以包括示例计算设备210中包括的组件的子集,或者可以包括图2中未示出的附加组件。
如在图2的示例中所示,计算设备210包括用户界面组件(UIC)212、一个或多个处理器240、一个或多个通信单元242、一个或多个输入组件244、一个或多个输出组件246以及一个或多个存储组件248。UIC 212包括输出组件202和输入组件204。计算设备210的存储组件248包括CSS模块220、电话模块222、场境模块224、地址簿229A和垃圾邮件列表229B。CSS模块120包括呼叫者流程管理器模块226和语音引擎模块228。
通信信道250可以互连计算设备210的组件中的每一个,以(物理地,通信地和/或可操作地)进行组件间通信。在一些示例中,通信信道250可以包括系统总线、网络连接、进程间通信数据结构或用于传达数据的任何其他方法。
计算设备210的一个或多个通信单元242可以通过在一个或多个网络上传送和/或接收网络信号来经由一个或多个有线和/或无线网络与外部设备通信。通信单元242的示例包括网络接口卡(例如,诸如以太网卡)、光收发器、射频收发器、GPS接收器或可以通过网络(诸如图1的网络130)发送和/或接收信息的任何其他类型的电信设备。通信单元242的其他示例可以包括短波无线电、蜂窝话音或数据无线电、无线网络无线电以及通用串行总线(USB)控制器、互联网协议话音(VOIP)无线电和包括在具有电话性能的计算设备中的其他无线电。
计算设备210的一个或多个输入组件244可以接收输入。输入的示例是触觉、音频和视频输入。在一个示例中,计算设备210的输入组件242包括存在敏感输入设备(例如,触摸屏、PSD)、鼠标、键盘、话音响应系统、摄像机、麦克风或用于检测人或机器的输入的任何其他类型的设备。在一些示例中,输入组件242可以包括一个或多个传感器组件、一个或多个位置传感器(GPS组件、Wi-Fi@组件、蓝牙@组件、蜂窝组件)、一个或多个温度传感器、一个或多个移动传感器(例如,加速度计,陀螺仪)、一个或多个压力传感器(例如,气压计)、一个或多个环境光传感器以及一个或多个其他传感器(例如,麦克风、相机、红外接近传感器、湿度计等)。其他传感器可以包括心率传感器、磁力计、葡萄糖传感器、湿度计传感器、嗅觉传感器、罗盘传感器、步数计数器传感器,仅举几个其他非限制性示例。
计算设备110的一个或多个输出组件210可以生成输出。输出的示例是触觉、音频和视频输出。在一个示例中,计算设备210的输出组件246包括PSD、声卡、视频图形适配器卡、扬声器、阴极射线管(CRT)监视器、液晶显示器(LCD)或用于生成人或机器的输出的任何其他类型的设备。
计算设备210的UIC 212可以类似于计算设备110的UIC 112,并且包括输出组件202和输入组件204。输出组件202可以是显示组件,例如由UIC 212在其上显示信息的屏幕并且输入组件204可以是存在敏感输入组件,诸如电容传感器的触摸,其检测在输出组件202处和/或附近的对象。输出组件202和输入组件204可以是扬声器和麦克风对或一个或多个输入和输出组件(例如输入组件244和输出组件244)的任何其他组合。在图2的示例中,UIC 212可以呈现用户界面(诸如图1的CSS用户界面114)。
作为一个示例范围,存在敏感输入组件204可以检测在输出组件202的两英寸或更短范围内的对象,例如一个或多个手指、指示笔或一个或多个其他输入单元。输入组件204可以确定检测到对象的输出组件202的位置(例如,[x,y]坐标)。在另一示例范围中,输入组件204可以检测与输出组件202相距六英寸或不超过六英寸的对象,并且其他范围也是可能的。输入组件204可以使用电容、电感和/或光学识别技术确定由用户的手指选择的输出组件202的位置。在一些示例中,输入组件204还使用针对输出组件202所描述的触觉、听觉或视觉刺激向用户提供输出。
计算设备210的UIC 212可以检测二维和/或三维手势作为来自计算设备210的用户的输入。例如,UIC 212的传感器可以检测用户在UIC 212的传感器的阈值距离内的移动(例如,移动一个或多个手、手臂、手指、其他身体部位、笔、触摸笔等)。UIC212可以确定移动的二维或三维矢量表示并将该矢量表示相关于具有多个维度的手势输入(例如,手波、捏、拍手、笔触等)。换句话说,UIC 212可以检测多维手势,而无需用户在UIC 212输出用于显示的信息的屏幕或表面处或附近做出手势。替代地,UIC 212可以检测在传感器处或附近执行的多维手势,该传感器可以或可以不位于UIC 212输出用于显示的信息的屏幕或表面附近。
尽管被图示计算设备210的内部组件,但是UIC 212也可以表示与计算设备210共享用于传送和/或接收输入和输出的数据路径的外部组件。例如,在一个示例中,UIC 212表示位于计算设备210的外部包装内并物理连接到计算设备210的外部包装(例如,移动电话上的屏幕)的计算设备210的内置组件。在另一个示例中,UIC 212表示位于计算设备210的包装或壳体外部并与计算设备210的包装或壳体物理分离的计算设备210的外部组件(例如,监视器、投影仪等,其与计算设备210共享有线和/或无线数据路径)。
计算设备210内的一个或多个存储组件248可以存储在计算设备210的操作期间进行处理的信息(例如,计算设备210可以存储由模块220、222、224、226、228在计算设备210执行期间访问的数据,诸如地址簿229A和垃圾邮件列表229B)。在一些示例中,存储组件248是临时存储器,这意味着存储组件248的主要目的不是长期存储。计算设备210上的存储组件248可以被配置用于作为易失性存储器的信息的短期存储,并且因此如果断电则不保留所存储的内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)以及本领域已知的其他形式的易失性存储器。
在一些示例中,存储组件248还包括一个或多个计算机可读存储介质。在一些示例中,存储组件248包括一个或多个非暂时性计算机可读存储介质。存储组件248可以被配置为存储比通常由易失性存储器存储的信息更多的信息量。存储组件248可以进一步被配置用于将信息作为非易失性存储空间进行长期存储,并在通电/断电周期之后保留信息。非易失性存储器的示例包括磁性硬盘、光盘、软盘、闪存或电可编程存储器(EPROM)或电可擦可编程存储器(EEPROM)的形式。存储组件248可以存储与地址簿229A、垃圾邮件列表229B以及模块220、222、224、226和228相关联的程序指令和/或其他信息。存储组件248可以包括被配置成存储与地址簿229A、垃圾邮件列表229B以及模块220、222、224、226和228相关联的数据或者其他信息。
一个或多个处理器240可以实现与计算设备210相关联的功能和/或执行指令。处理器240的示例包括应用处理器、显示控制器、辅助处理器、一个或多个传感器集线器以及配置为用作处理器、处理单元或处理设备的任何其他硬件。模块220、222、224、226和228可以由处理器240操作以执行计算设备210的各种动作、操作或功能。例如,计算设备210的处理器240可以检索并执行由存储组件248存储的导致处理器240执行本文所述的,归因于模块220、222、224、226以及228的操作的指令。指令在由处理器240执行时可以使计算设备210将信息存储在存储组件248内,诸如地址簿229A和垃圾邮件列表229B。
电话模块222可以包括图1的计算设备110的电话模块122的所有功能性,并且可以执行与电话模块122类似的用于代表计算设备210处理直接的、同步的话音通信和其他电话相关的任务的操作。电话模块222有时称为拨号器或“拨号应用”,与CSS模块220交互,并且在响应于来自CSS模块220的关于接受CSS模块220和计算设备210的用户已经审查的传入的电话呼叫的指令,电话模块222可以执行与电话相关的任务,以在呼叫者和用户之间的电话呼叫上建立直接话音通信会话。电话模块222可以提供应用程序编程接口(API),其用于接收输入并将输出提供给包括CSS模块220的计算设备210的各种组件。
电话模块222的API可以接收一个或多个命令,这些命令在被接收时使电话模块222在计算设备210和另一设备之间建立直接的同步电话话音会话。例如,响应于CSS模块220确定计算设备210的用户想要直接对来自于另一设备的呼叫者讲话,例如,作为电话呼叫的一部分,CSS模块220可以经由API向电话模块222发出使电话模块222接管CSS模块220以管理电话呼叫的命令。然而,响应于CSS模块220确定用户不希望直接对呼叫者讲话(出于任何原因),可以命令电话模块222(例如,经由API)管理电话呼叫。
地址簿229A表示用于保存联系人信息的数据存储,包括计算设备210的用户的联系人的电子邮件地址、电话号码、生日、地址等。模块220、222、224、226和228可以向地址簿229A查询所存储的联系人,并且作为响应,接收与所存储的联系人相关联的联系人信息的指示。在一些情况下,地址簿229A可以被远程存储在模块220、222、224、226和228经由诸如网络130的网络访问的云计算环境(例如,计算系统160)中。例如,呼叫者分类器模块226可以向地址簿229A查询传入的呼叫者的特定电话号码,以将呼叫者分类为“已知”或“未知”。
垃圾邮件列表229B表示用于保存已标记为恶意、恳求等的先前呼叫者的电话号码的数据存储。像地址簿229A一样,模块220、222、224、226和228可以向垃圾邮件列表229B查询电话号码,并且作为响应,接收任何垃圾邮件实体与该电话号码是否相关联的指示。例如,作为一个示例,呼叫者分类器模块226可以向垃圾邮件列表229B查询传入的呼叫者的特定电话号码,以将呼叫者分类为“垃圾邮件”或“恶意”。
场境模块226可以处理和分析与计算设备210相关联的场境信息。当由计算设备210的其他组件请求时,场境模块226可以将与计算设备210或计算设备210的用户相关联的场境信息输出到请求组件。例如,场境模块226被配置成收集场境信息并将其提供给CSS模块220,以使CSS模块220能够管理在计算设备210处执行的CSS。在一些情况下,场境模块226可以处理场境信息以定义计算设备210的场境或计算设备210的用户的场境。
如在整个公开中使用的术语“场境信息”是指可以由计算系统和/或计算设备(诸如计算设备210)用来根据本文所描述的技术提供CSS的任何可能的信息。场境信息的示例可以包括:设备位置和/或感官信息、感兴趣的用户主题(例如,通常作为用户兴趣图或某种其他类型的数据结构维护的用户喜欢的“事物”)、与用户相关联的联系信息(诸如用户的个人联系信息以及关于用户的朋友、同事、社交媒体连接、家庭等的信息)(例如,包含在地址簿229A中或本地存储在存储组件248或远程访问的一些其他信息源中)、搜索历史、位置历史、长期和短期任务、日历信息、应用使用历史、购买历史、标注为收藏夹的项目、电子书签以及计算设备210可以从与计算设备210或者与用户相关联的其它设备的交互中收集关于计算设备210的用户的其他信息。
此外,场境信息的示例包括关于计算设备的操作状态的信息。例如,在给定时间或在特定位置执行的应用是关于计算设备的操作状态的信息的示例。在一些示例中,操作状态可以包括例如基于场境或显式用户命令是否启用请勿打扰设置的指示。指示计算设备的操作状态的场境信息的其他示例包括但不限于开关的位置、电池电量、设备是否插入壁装电源插座或以其他方式可操作地耦合到另一设备和/或机器、用户认证信息(例如,哪个用户当前正在认证或是设备的当前用户)、设备是否在“飞机”模式、待机模式、全功率模式下操作、无线电的操作状态、通信单元、输入设备和输出设备等。
与“场境信息”相比,术语“场境”是指在特定时间来自与计算设备和/或计算设备的用户相关联的特征集合的每个特征的特定状态。场境可以指示在特定位置和/或时间与用户和/或计算设备的物理和/或虚拟环境相关联的特性。作为一些示例,计算设备的场境可以指定声学指纹、视频指纹、位置、移动轨迹、方向、速度、地点名称、街道地址、地点类型、建筑物、在不同的位置和时间的天气状况和交通状况。作为一些其他示例,计算设备的场境可以指定日历事件、会议或与位置或时间相关联的其他事件。
在一些示例中,计算设备的场境可以指定在特定时间访问的任何网页地址、在特定时间在网页的数据字段中进行的一个或多个文本条目,包括搜索或浏览历史记录,在特定时间进行的产品购买、产品愿望清单、产品注册表以及与各种位置和时间相关联的其他应用使用数据。计算设备的场境可以进一步指定在存在计算设备的情况下在各种位置和时间访问或广播的音频和/或视频,在存在计算设备的情况下在各种位置和时间访问或广播的电视或有线/卫星广播,以及有关计算设备在各种位置和时间访问的其他服务的信息。
当收集、存储和使用场境信息或任何其他用户或设备数据时,计算设备210采取预防措施以确保保留用户隐私。即,如果计算设备210接收到场境信息源自的各个用户的明确许可,则计算设备210仅可以收集、存储和分析场境信息。例如,在计算设备210可以收集用于提供示例CSS的信息的情况下,计算设备210的用户可以被提供有提供输入以控制计算设备210是否可以收集并利用他们的信息的机会。可以进一步给各个用户提供控制计算设备210可以或不可以使用该信息做什么的机会。
在将计算设备210收集的任何数据传输到计算设备210,由计算设备210存储或以其他方式使用之前,可以用一种或多种方式对其进行预处理,以便去除个人身份信息。例如,在计算设备210收集场境信息之前,计算设备210可以对场境信息进行预处理,以确保在被计算设备210存储或转移到外部计算设备或系统之前,移除任何嵌入在场境信息中的用户识别信息或设备识别信息。用户可以完全控制是否收集场境信息,如果可以,则可以控制计算设备210如何使用这些信息。
CSS模块220可以包括图1的计算设备110的CSS模块120的所有功能性,并且可以执行与用于管理在计算设备210处执行的CSS的CSS模块120类似的操作。计算设备210的CSS模块220使计算设备210呈现诸如CSS用户界面114的CSS用户界面,计算设备210的用户从其中可以与由CSS模块220管理的CSS交互。
CSS模块220的流管理器模块226控制CSS的整体操作以及CSS模块220提供的CSS用户界面。流管理器模块226可以代表CSS模块220执行各种功能,以提供包括下述的示例CSS:引导CSS模块220与呼叫者之间的询问;将与CSS用户界面相关联的用户输入翻译成CSS模块220传达给呼叫者的口头话语;解释用户输入以执行与传入的电话呼叫相关的动作(例如,终止电话呼叫、将责任移交给电话模块222以管理计算设备210的用户与呼叫者之间的直接通信)以及其他操作。
流管理器模块226可以对已经被CSS模块220拦截的呼入电话进行分类,并使用呼叫者分类来提供定制的CSS来处理特定分类。换句话说,流管理器模块226可以将呼叫者分类为来自多种呼叫者类型的特定类型的呼叫者。流管理器模块226可以基于呼叫者的特定类型来适配经由电话呼叫建立的音频用户界面,CSS模块220使用该音频用户界面来询问呼叫者。流管理器模块226可以适应音频用户界面以获得生成特定于特定类型的呼叫者的CSS用户界面(诸如CSS用户界面114)所需的附加信息。即,流管理器模块226可以重新配置音频用户界面,以从某些类型的呼叫者获得特定类型的信息,并且可以期望从其他类型的呼叫者获得不同的信息。
流管理器模块226可以将呼叫者分类为未知、垃圾邮件、企业、职业联系人、个人联系人、收藏夹以及许多其他方式。例如,响应于在地址簿229A或垃圾邮件列表229B中执行与传入电话呼叫相关联的电话号码或名称的查找,当在地址簿229A中找到时流管理器模块226可以将传入电话呼叫的呼叫者分类为已知联系人,或者如果在垃圾邮件列表229B中找到则可以将其分类为垃圾邮件呼叫者。
对于已知呼叫者,当传入的电话号码出现在地址簿229A的个人目录中时,流管理器模块226可以将呼叫者分类为个人联系人。当传入的电话号码出现在地址簿229A的职业目录中时,流管理器模块226可以将已知呼叫者分类为职业联系人。类似地,对于已知呼叫者,当传入的电话号码出现在地址簿229A的收藏夹目录中时,流管理器模块226可以将呼叫者分类为收藏夹。
响应于在地址簿229A或垃圾邮件列表229B中没有标识出呼入的电话号码或呼叫者,流管理器模块226可以确定呼叫者是否可以被分类为企业、政府、组织或其他非人类实体。在一些示例中,当传入的电话号码未出现在地址簿229A或垃圾邮件列表229B中但与企业、政府、组织或其他非人类实体数据库中列出的电话号码匹配时,流管理器模块226可将已知呼叫者分类为非人类实体。例如,在访问诸如图1的计算系统160的远程计算系统或者经由诸如网络130的网络可访问的一些其他系统的情况下,流管理器模块226可以对呼入的电话号码进行搜索。当搜索将呼入的电话号码与地图数据库或企业目录(例如,在互联网上可访问的地图或企业目录)中的非人列表相匹配时,流管理器模块226可以将呼入的电话号码分类为非人实体。
流管理器模块262可以依靠机器学习(ML)模型来对呼叫者进行分类。例如,当对呼叫者进行分类时流管理器模块262的ML模型可以预测使用规则,该使用规则根据对计算设备210的用户和其他设备的用户的过去行为的观察而发展来的。可以基于包括但不限于计算设备210的一个或多个计算设备之间的过去电话呼叫来训练ML模型,以随着时间的流逝学习并做出关于呼叫者身份以及传入电话呼叫的可能目的的预测。可以基于对过去用户行为的观察来进一步训练ML模型,以确定用户可能希望响应传入呼叫采取的动作。例如,一方面,如果一个用户或其他类似用户通常忽略来自特定呼叫者的呼叫,则ML模型可以建立规则,即,无论电话呼叫何时源自特定呼叫者,也将呼叫者分类为垃圾邮件,尽管呼叫者可能或可能不包括在垃圾邮件列表229B中。另一方面,如果计算设备210的用户从不忽略来自特定呼叫者(例如,配偶、父母、医生等)的呼叫,则ML模型可以建立规则,即,每当电话呼叫源自特定呼叫者以绕过对呼叫者进行分类,而是代替用于处理传入呼叫的任务电话模块222。用于基于关于计算设备210的用户或其他计算设备的用户如何处理传入呼叫学习的行为对呼叫者进行分类的许多其他分类规则是可能的。
除了依赖于在典型电话呼叫中传达的呼入的电话号码或其他与呼叫者标识相关的信息之外,流管理器模块226还可以依赖于补充性的、非电话相关的数据或除了地址簿229A或垃圾邮件列表229B之外的数据作为ML模型的输入以对呼叫进行分类。例如,场境模块224可以向流管理器模块226的ML模型提供场境信息或与计算设备210相关联的当前场境的指示,以对呼叫者进行分类。在图2中示出的流管理器模块226具有可选的“ML模型”。在一些示例中,ML模型在流管理器模块226中执行,而在其他示例中,ML模型可以在计算设备210本地或在计算系统160远程执行,并且可以经由网络(例如网络130)访问外部的流管理器模块226。
作为一个示例,尽管其他设备的其他用户可能将特定的呼叫者或电话号码归类为垃圾邮件,但对于一些用户而言,此类呼叫可能是可取的,特别是如果用户对呼叫者的销售、提问、或查问内容感兴趣。例如,场境模块224可以根据用户的过去购买历史来确定该用户最近订阅了在线或卫星无线电服务。场境模块224可以将过去的购买信息提供给流管理器模块226,以输入到ML模型中。在某一时刻,用户可以与计算设备210进行交互以打电话谈有关服务的问题,并且在被置于保持后,用户可以请求回叫。尽管其他一些用户通常会忽略来自无线电服务的呼叫(因为呼叫者经常尝试进行不必要的推销),但计算设备210的用户可能希望从无线电服务接收呼叫,因为呼叫者可能来自客户服务部门并返回用户的呼叫。这样,不是将呼叫者分类为垃圾邮件,流管理器226的ML模型可以将呼叫者分类为商务呼叫并询问呼叫者以确保呼叫的目的是出于合法目的。
在任何情况下,是使用ML模型对呼叫进行分类还是确定询问模式,此类ML模型的输入数据都可以包括与实例、场境或示例相关联的一个或多个特征。与特定场境相关联的给定特征,流管理器226的ML模型可以输出对该场境的预测。例如,基于先前观察到的电话呼叫,流管理器226的ML模型可以确定先前观察到的电话呼叫的特征、关于用于进行先前电话呼叫的设备的场境信息等,并考虑到相似场境而生成用于预测未来呼叫者的身份、未来呼叫的目的、以及如果未来呼叫者呼叫计算设备210则可以在用户和未来呼叫者之间交换什么信息的规则。
流管理器226的ML模型可以是或包括各种不同类型的机器学习模型中的一种或多种。特别地,在一些实施方式中,流管理器226的ML模型可以执行分类、回归、聚类、异常检测、推荐生成和/或其他任务。不同类型的机器学习模型的示例包括:分类器模型,例如线性分类模型;二次分类模型和回归模型,例如简单的线性回归模型;多元线性回归模型;逻辑回归模型;逐步回归模型;多元自适应回归样条;局部估计的散点图平滑模型等。其他类型的模型包括基于决策树的模型,例如分类和/或回归树;迭代二分法3决策树;C4.5决策树;卡方自动交互检测决策树;决策树桩;有条件的决策树等;内核机器,支持向量机以及基于实例的学习模型,例如学习向量量化模型;自组织地图模型;本地加权学习模型等。在一些实施方式中,流管理器226的ML模型可以是或包括一个或多个最近邻居模型,例如,k个最近邻居分类模型;k个最近邻居回归模型等;贝叶斯模型,例如朴素的贝叶斯模型;高斯朴素贝叶斯模型;多项式朴素贝叶斯模型;平均一依赖估计量;贝叶斯网络;贝叶斯信念网络;隐藏的马尔可夫模型等。
在一些实施方式中,流管理器226的ML模型可以是或包括一个或多个人工神经网络(也简称为神经网络),包括包含多层的神经网络,即所谓的“深度”网络,前馈网络,递归神经网络,包括长短期(LSTM)递归神经网络;门控递归单元;双向递归神经网络;连续时间递归神经网络;神经历史压缩机;回声状态网络;Elman网络;约旦网络;递归神经网络;Hopfield网络;完全递归网络;序列到序列的配置等。在一些实施方式中,流管理器226的ML模型可以是或包括一个或多个卷积神经网络,生成网络,例如生成对抗网络或其他形式的人工神经网络,例如深玻尔兹曼机器;深入信仰网络;堆叠式自动编码器等。本文描述的任何神经网络都可以组合(例如,堆叠)以形成更复杂的网络。
CSS模块220的语音引擎模块228负责代表CSS模块220执行文本到语音(TTS)和语音到文本(STT)的翻译。语音引擎模块228可以由现有的语音引擎改编而成,诸如用于虚拟助理的话音生成器或用于帮助听觉或语音障碍人士的语音引擎。但是,与其他语音引擎不同,语音引擎模块228特别适合于理解比其他语音引擎可能难以处理的较低质量的音频声音。另外,语音引擎模块228被修改为输出可以通过电话连接清楚地理解的口头音频。
语音引擎模块228可以将呼叫者在传入的电话呼叫期间讲出的任何内容转录成文本。语音引擎模块228可以将转录的文本馈送到流管理器模块226,以包括在诸如CSS用户界面114的CSS用户界面中。在一些示例中,语音引擎模块228可以适于理解和转录以各种人类语言中接收到的口头话音输入。例如,语音引擎模块228可以接收第一语言(例如,普通话)的口头输入,并将口头输入转录成以第二语言(例如,英语)写入的文本。以此方式,在用户与呼叫者讲出不同语言的情况下,语音引擎模块228可以能够实现计算设备210的用户与呼叫者之间的异步通信。
通过依赖于场境模块224,流管理器模块226和语音引擎模块228,CSS模块220可以针对特定场境和针对呼叫者的特定分类而定制的专用CSS。例如,如在上面所指示的,由CSS模块220提供的CSS用户界面中包括的任何交互选项(例如,图1的图形元素118)可以基于场境和呼叫者分类而改变。即,可以调整与CSS用户界面相关联的动作或响应选项,使得呈现给用户的任何相关联的动作或命令将适合于呼叫者和场境的分类。例如,对于被分类为未知的呼叫者,CSS模块220可以使CSS用户界面包括用于将呼叫者标注为垃圾邮件的图形元素,但是对于被分类为已知的呼叫者,CSS模块220可以使CSS用户界面省略这样的图形元素。
在一些示例中,CSS模块220可以响应于确定呼叫者或呼入的电话呼叫具有满足用于将呼叫发送到电话模型222或用于自动阻止、忽略或以其他方式处理电话呼叫的准则的特性而自动绕过其CSS。CSS模块222可以基于场境信息或传入呼叫的特性来处理电话呼叫。
例如,如果用户正在等待来自特定呼叫者的回叫(例如,如CSS模块220基于包含在用户电子邮件、话音邮件或其他消息中的信息所确定的,则CSS模块220可以抑制询问呼叫者,而是通过电话模块222发送电话呼叫。另外,或者可替代地,CSS模块220可以抑制询问呼叫者,而是响应于确定呼叫者处于白名单、收藏夹列表或地址簿229A中而通过电话模块222发送电话呼叫。在一些示例中,CSS模块220可以推断出呼叫者是朋友,并立即接通该人而不会进行询问。可以给予用户询问接近朋友的熟人(或频繁呼叫的那些呼叫者)被接通的选项,熟人可以给予要接通或者接受与对陌生人(可能永远不会或很少被接通)执行的询问类型不同的、更个人化和友好的类型的询问的选项。
CSS模块220可以确定呼叫者的情绪以确定是否询问,绕过询问或阻止呼入的呼叫。例如,CSS模块220可以确定呼叫者的响应,以包括音调变化、单词或其他品质,其使CSS模块220的ML模型根据特定的情绪状态对呼叫者进行分类并相应地处理呼叫。例如,生气的呼叫者可能永远不会传递给用户,而总是发送到话音邮件或被阻止。即使是未知的,也可以询问一个愉快的呼叫者,并最终将其传递给用户。
CSS模块220可以确定呼叫者的语言以确定是否如何最好地询问呼叫者。例如,响应于从呼叫者接收到口头音频输入,CSS模块220可以确定口头音频输入中的单词对应于与用户的正常语言不同的语言的单词,而不是使用用户的语言与呼叫者进行通信,CSS模块220可以用口头音频输入的语言与呼叫者通信。在一些情况下,CSS模块220可以自动将在询问期间呼叫者的口头响应翻译成用户首选的语言。
CSS模块220可以确定呼叫者的语言,以确定是询问、绕过询问或者阻止传入呼叫。例如,响应于从呼叫者接收到口头音频输入,CSS模块220可以确定口头音频输入中的单词对应于与用户的普通语言无关的语言的单词。CSS模块220可以推断出,因为呼叫者的语言不同于用户的正常语言,所以该电话呼叫可能是未经请求的和未要求的,并立即将电话呼叫发送到话音邮件。当用户正在访问的其中垃圾邮件呼叫(由其母语与用户母语不同的呼叫者引起)更为频繁的司法管辖区和地理区域时,此特征可能特别有用。
在一些示例中,CSS模块220可以基于对呼叫者的口头话音的话音识别来确定呼叫者的身份。例如,呼叫者的讲话话音可以匹配存储在地址簿229A或CSS模块220可以访问的话音打印。通过这种方式,可以将呼叫者分类为已知或喜欢的呼叫者,并对其进行相应的处理。
在一些示例中,CSS模块220可以基于相对于已知的非人类或机器人讲话话音的呼叫者的讲话话音的话音识别,来确定呼叫者的身份是机器人或非人类的呼叫者。例如,呼叫者的讲话话音可能与机器人或非人类实体的话音打印相匹配。这样,可以将呼叫者归类为机器人并进行相应处理。
在一些示例中,CSS模块220可以执行不同的动作或者以与非人类呼叫者不同的方式处理与人类呼叫者的询问。例如,响应于将机器人识别为呼叫者,CSS模块220可以使用非人类可理解的、可听见的队列与机器人进行通信,或者以其他方式确定机器人呼叫的目的。在一些示例中,响应于识别出机器人呼叫者,CSS模块220可以立即挂断该呼叫。
图3A至图3E是图示根据本公开的一个或多个方面的执行呼叫筛选服务的示例计算设备的示例呼叫筛选服务用户界面的截屏的概念图。图3F至图3I是图示根据本公开的一个或多个方面的执行呼叫筛选服务的示例计算设备的另一示例呼叫筛选服务用户界面的截屏的概念图。
为了便于描述,在图2的计算设备210和图1的系统100的上下文中描述图3A至图3I的示例呼叫筛选用户界面。例如,图3A包括用户界面314A。计算设备210的CSS模块220的流管理器226可以使UIC 212响应于计算设备210接收到呼入呼叫而输出用户界面314A。在图3A至图3E的示例中,计算设备210从未知呼叫者接收呼入呼叫,而在图3F至图3I的另一示例中,计算设备210从已知呼叫者接收呼入呼叫。
图3A包括用户界面314A作为示例CSS用户界面。响应于传入呼叫,CSS模块220的流管理器226可以使UIC 212呈现用户界面314,从其中向计算设备210的用户提供用于处理传入呼叫的数个选项,包括应答呼叫、通过消息答复、并且筛选呼叫。响应于选择图形元素318A,CSS模块220的流管理器226可以将用户对图形元素318A的选择解释为在将传入呼叫传递给电话模块222进行进一步处理之前询问呼叫者的命令。
图3B包括用户界面314B。CSS模块220的流管理器226可以响应于检测到对用户界面314A的图形元素318A的选择而使UIC 212显示用户界面314B。即,在应答呼入电话呼叫之前,CSS模块220的流管理器226可以基于用户输入或者基于来自场境模块224的场境信息或者由流管理器226的ML模型做出的预测自动确定用户更喜欢在直接通过电话连接对他或者她讲话之前筛选呼叫者。CSS模块220的流管理器226可以使UIC 212包括图形元素316A,该图形元素316A包括CSS模块220的语音引擎228正在通过电话连接输出的口头音频的转录。
图3C包括用户界面314C。而且,流管理器226可以将呼叫者分类为未知呼叫者,因为传入呼叫的电话号码可能不会出现在地址簿229A或垃圾邮件列表229B中。响应于也没有标识任何企业列表或目录中的电话号码,流管理器226的ML模型可以将呼叫者分类为潜在的垃圾邮件呼叫者,并且使流管理器226输出包括由语音引擎模块228通过电话连接发出的针对包括呼叫者的姓名和呼叫目的的基本信息的口头请求的转录的图形元素316B。
基于分类,流管理器226可以在用户界面314C内包括一个或多个图形元素,以用于命令语音引擎模块228输出特定于分类的特定响应或特定问题。例如,响应于将传入呼叫标记为可能的垃圾邮件,流管理器模块226可以包括图形元素318A,使得计算设备210的用户响应于读取图形元素316B中的转录,可以选择图形元素318A来将呼叫者添加到垃圾邮件列表229B,并且然后终止呼叫。
图3D包括用户界面314D。响应于接受或拒绝电话呼叫的用户命令,CSS模块220可以终止通过电话呼叫建立的音频用户界面。CSS模块220可以通过对呼叫者讲出“Hang onwhile I connect you(在我连接时不挂断)”,并将控制权传递给电话模块222,以经由电话呼叫能够进行用户和呼叫者之间的直接话音通信,接受电话呼叫。CSS模块220可以在使用户界面314D包括挂断的副本时通过在对呼叫者讲出“We were unable to connect yourcall.Goodbye(我们无法连接您的呼叫。再见。)”挂断电话来拒绝电话呼叫。
现在转向CSS模块220询问已知呼叫者的示例。图3E包括用户界面314E作为示例CSS用户界面。响应于呼入呼叫,CSS模块220的流管理器226可以使UIC 212呈现用户界面314E,从该用户界面向计算设备210的用户提供用于处理呼入呼叫的数个选项,包括应答呼叫、通过消息答复、并且筛选通话。响应于选择图形元素318B,CSS模块220的流管理器226可将用户对图形元素318B的选择解释为在将传入呼叫传递给电话模块222进行进一步处理之前询问呼叫者的命令。
图3F包括用户界面314F。CSS模块220的流管理器226可以响应于检测到对用户界面314E的图形元素318B的选择而使UIC 212显示用户界面314F。即,在应答呼入电话呼叫之前,CSS模块220的流管理器226可以基于用户输入或者基于来自场境模块224的场境信息或者由流管理器226的ML模型做出的预测自动确定用户更喜欢在直接通过电话连接与他或者她说话之前筛选呼叫者。CSS模块220的流管理器226可以使UIC 212包括图形元素316D,该图形元素316D包括CSS模块220的语音引擎228正在通过电话连接输出的口头音频的转录。
图3G包括用户界面314G。CSS模块220可以包括图形元素316E,该图形元素316E示出当呼叫者提供用户请求的附加信息(即,呼叫的目的)时由语音引擎模块229捕获的口头音频的转录。
流管理器226可以将呼叫者分类为已知呼叫者,因为传入呼叫的电话号码可以出现在地址簿229A中的“爸爸”列表的下面。响应于标识地址簿229A中的电话号码,流管理器226的ML模型可以将呼叫者分类为个人联系人,并使流管理器226输出图形元素316D,其包括由语音引擎模块228通过电话连接发出的口头请求的转录,其放弃对包括呼叫者姓名的基本信息的请求,而是按名称对呼叫者进行寻址并请求呼叫的目的。
基于分类,流管理器226可以在用户界面314G内包括一个或多个图形元素,其用于命令语音引擎模块228输出特定于分类的特定响应或特定问题。例如,响应于将传入呼叫标记为来自已知呼叫者,流管理器模块226可以抑制包括图形元素318A,因为已知呼叫者不是垃圾邮件发送者。相反,流管理器模块226可以包括与特定问题、命令或动作相关联的其他图形元素,用户可以让计算设备210响应于从已知呼叫者接收到呼入电话呼叫而执行该特定问题、命令或动作。
如图3G中所示,用户可以在用户界面314G的位置处或附近提供特定输入(例如,力输入、滑动手势或其他输入),在其处显示与用户可以让计算设备210响应于从已知呼叫者接收到呼入电话呼叫而执行的特定问题、命令或动作相关联的图形元素。例如,用户界面314G包括图形元素118C,其与特定响应相关联以使呼叫者对计算设备210的用户发消息,因为用户此刻无法应答。
图3H包括用户界面314H。响应于在图形元素118C处的用户输入,CSS模块220可以使UIC 212显示包括图形元素318D的用户界面314H作为与用户可能希望让计算设备210响应于从已知呼叫者接收到呼入电话呼叫而执行的特定问题、命令或动作相关联的附加图形元素。当呼叫者继续提供用户请求的附加信息时,CSS模块220可以更新包括在图形元素316E中的转录。
图3I包括用户界面314I。响应于用户接受或拒绝电话呼叫的命令,CSS模块220可以终止通过电话呼叫建立的音频用户界面,或者终止电话呼叫或者将控制传递给电话模块222以用于经由电话进行用户和呼叫者之间的直接话音通信。例如,CSS模块220响应于选择图形元素318D的用户输入,并且如图3I中所示,CSS模块220可以使用户界面314I包括图形元素316F,该图形元素316F包括当CSS模块220终止全部让呼叫者知道预期在五分钟内回电话的电话时由语音引擎模块228讲出的音频的转录。
图4是图示根据本公开的一个或多个方面的由执行呼叫筛选服务的示例计算设备执行的示例操作的流程图。例如,操作400至418可以由计算设备210、计算设备110、计算系统160或计算设备110与计算系统160的组合来执行。操作400至418可以以不同的顺序或以比图3中所示的操作更多或者更少的操作来执行。为了便于描述,在图1的计算设备110的上下文中描述图4。
根据本公开的技术,计算设备110可以接受由呼叫者发起的电话呼叫(400)。例如,CSS模块120可以在电话模块122可以提醒用户之前拦截来自呼叫者系统180的呼入呼叫。
计算设备110可以输出询问呼叫者的可听界面作为电话呼叫的一部分(402)。例如,除了已经经由嵌入在从呼叫者系统180接收到的电话数据中的呼叫者id信息已经获得的一般信息之外,CSS模块120可以尝试获取关于呼叫者的附加信息。CSS模块120可以使UIC212输出CSS用户界面114以进行显示。
计算设备110可以经由可听界面从呼叫者接收初始信息(404)。例如,CSS模块120可以从呼叫者接收口头音频数据,并将口头音频数据转录成文本。作为一些示例,初始信息可以指示呼叫者的身份或呼叫目的。
计算设备110可以输出与电话呼叫相关联的图形用户界面(406)。例如,CSS模块120可以使来自呼叫者的响应的转录显示在UIC 212处。CSS模块120可以可选地输出一个或多个建议动作或特定问题作为计算设备110的用户可以选择以引导呼叫者和CSS模块120之间的询问的可选图形元素。
在一些情况下,可以基于场境信息自动确定呈现给用户的建议动作或特定问题。例如,通过访问用户的日历,CSS模块120可以确定用户正在开会,并且建议响应之一可以是“can I call you back after my meeting(我可以在会议之后回叫您)”。
在一些情况下,可以基于从另一设备接受的先前呼叫或基于CSS模块120与呼叫者之间的当前对话来自动确定呈现给用户的建议动作或特定问题。例如,通过访问用户的呼叫历史,CSS模块120可以确定用户通常在晚上与呼叫者聊天,并且因此建议响应可以是“can I call you tonight(我今晚可以给你打电话)”。或者,CSS模块120可以确定当呼叫者陈述他或她当天希望回叫时,CSS模块可以建议对如与建议“can I call you backtomorrow(我明天可以给您回电)”相反的“call me tonight after 7PM(今晚7点以后给我打电话)”(例如,基于用户的日历可用性)的响应。
计算设备110可以基于初始用户输入来调节通过电话呼叫提供的可听界面(410)。例如,CSS模块120可以通过电话呼叫向陈述“the person you’re trying to call wouldlike to call you tonight?Is that ok?(您正试图呼叫的人想今晚给您打电话?那样行吗?)”的呼叫者输出口头音频。
计算设备110可以经由可听界面从呼叫者接收后续信息(412)。例如,CSS模块120可以经由电话呼叫从呼叫者接收口头音频信号,并将口头音频转录为文本。口头音频可能指示呼叫者在晚上10:00PM之前的整个晚上都有空。
计算设备110可以呈现后续信息的至少一部分(414)。例如,CSS模块120可以使UIC212更新CSS用户界面以包括用户的响应“Yes,Iam free all evening except after 10:00PM(是的,除了晚上10:00之后,我整个晚上都有空)”的转录。
计算设备110可以响应于呈现后续信息来接收后续用户输入(416)。例如,CSS模块120可以再次使用附加或替代的可选回复和选项来更新CSS用户界面。在一些示例中,可选选项可以包括用户编写专用回复的选项,CS模块120可以通过电话呼叫对呼叫者讲出该专用回复。例如,计算设备110的用户可以在计算设备110的图形键盘上键入以输入文本回复“Great,I will call you between 7and 8(很好,我会在7到8之间给您打电话)”。
计算设备110可以通过结束电话呼叫或启用用户和呼叫者之间的经由电话呼叫的直接话音通信来终止音频用户界面(418)。例如,在对呼叫者讲出用户计划在当晚7:00至8:00之间返回他们的呼叫之后,CSS模块120可以通过讲出“Good bye”或其他一些适当的短语来礼貌地终止呼叫。
在一些情况下,除了终止电话呼叫之外,CSS模块120还可以响应于显示CSS用户界面来接收输入,该CSS用户界面使计算设备110执行一些其他动作。例如,在诸如CSS用户界面114的CSS用户界面中提供的一个可选选项可以是“经由文本进行响应”或“经由电子邮件进行响应”的选项。响应于对电话之外的文本响应的选项的选择,计算设备110可以自动发起文本编辑器以供用户编写消息。
通过执行所描述的技术,提供了设备上的CSS。通过本地执行设备上的CSS(即,不与其他计算系统或设备共享有关电话呼叫的信息),所描述的技术增强隐私(例如,通过消除与远程服务器共享电话呼叫和/或转录的音频的需求,即使被信任,用于进行分析)。此外,示例CSS的本地执行确保低时延的转录,因为无需将电话音频传送到远程设备以进行转录和后续下载。另外,示例CSS的本地执行使对数据连接(例如,蜂窝数据、等)的任何需求最小化,从而降低与维持超出进行电话呼叫的任何必要连接的数据连接相关联的成本。
条款1.一种方法,包括:由计算设备从另一设备接受由呼叫者发起的电话呼叫;在建立接收来自所述用户的口头输入并输出来自所述呼叫者的口头音频的电话用户界面之前,由所述计算设备执行将音频用户界面输出到所述另一设备并作为所述电话呼叫的一部分的呼叫筛选服务,其中执行所述呼叫筛选服务包括经由所述音频界面针对包括所述电话呼叫的目的的附加信息询问所述呼叫者;以及由所述计算设备输出与电话呼叫相关联的图形用户界面,其中所述图形用户界面包括经由询问所述呼叫者的所述音频用户界面获得的所述附加信息的指示。
条款2.根据条款1所述的方法,进一步包括:由所述计算设备将所述呼叫者分类为来自多个呼叫者类型中的特定类型的呼叫者;由所述计算设备基于所述特定类型的呼叫者来适配所述音频用户界面,所述音频用户界面询问所述呼叫者以针对所述特定类型的呼叫者获得特定信息,所述特定信息不同于针对来自所述多个呼叫者类型中的其他类型的呼叫者获得的其他信息,其中经由所述音频用户界面从所述呼叫者获得的所述附加信息包括该类型的呼叫者的所述特定信息。
条款3.根据条款1或2中的任一项所述方法,其中所述图形用户界面包括所述附加信息的转录。
条款4:根据条款3所述的方法,进一步包括:在接收到所述附加信息时,更新包括在所述图形用户界面中的所述转录。
条款5.根据条款3或者4中的任一项所述的方法,其中,执行所述呼叫筛选服务包括:由所述计算设备向所述另一设备输出并且作为所述电话呼叫的一部分的电话音频输出;由所述计算设备从所述另一设备接收并且作为所述电话呼叫的一部分的电话音频输入,其中,所述音频用户界面的所述口头输入的所述转录包括所述电话音频输出和所述电话音频输入的文本。
条款6.根据条款1-4中的任一项所述的方法,进一步包括:由所述计算设备显示图形用户界面,所述图形用户界面接收用于调节所述音频用户界面的用户输入;由所述计算设备经由所述图形用户界面接收一个或多个用户输入;以及基于所述一个或多个用户输入控制询问所述呼叫者的所述音频用户界面。
条款7:根据条款6所述的方法,其中,所述一个或多个输入包括用于输出特定响应或特定问题的用户命令,并且控制询问所述呼叫者的所述音频用户界面包括向所述另一设备输出并且作为所述电话呼叫的一部分的指示所述特定响应或所述特定问题的音频。
条款8.根据条款7所述的方法,其中,当呈现向所述计算设备的用户提醒所述电话呼叫的所述图形用户界面时,所述特定响应或所述特定问题作为建议动作被呈现。
条款9.根据条款7或8所述的方法,进一步包括:基于与所述计算设备相关联的场境信息,自动确定所述特定响应或所述特定问题。
条款10.根据条款7-9中任一项所述的方法,基于从所述另一设备接受的先前呼叫,自动确定所述特定响应或所述特定问题。
条款11.根据条款6-10中的任一项所述的方法,其中所述一个或多个输入包括用于接受或拒绝所述电话呼叫的用户命令,并且控制询问所述呼叫者的所述音频用户界面包括终止所述音频用户界面作为结束所述电话呼叫或启用所述用户与所述呼叫者之间的经由所述电话呼叫的直接话音通信的一部分。
条款12.一种移动设备,包括至少一个处理器,所述至少一个处理器被配置成本地执行呼叫筛选服务模块,所述呼叫筛选服务模块执行根据条款1-11中的任一项所述的方法。
条款13.一种计算系统,包括至少一个处理器,所述至少一个处理器被配置成执行根据条款1-11中的任一项所述的方法。
条款14.一种计算系统,所述计算系统包括用于执行根据条款1-11中的任一项所述的方法的装置。
条款15.一种计算机可读存储介质,包括指令,所述指令在被执行时使至少一个处理器执行根据条款1-11中的任一项所述的方法。
通过示例而非限制的方式,这种计算机可读存储装置介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁性存储设备、闪存或可用于以指令或数据结构形式存储所需程序代码并且可以由计算机访问任何其他的存储介质。而且,任何连接都适当地称为计算机可读介质。例如,如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或无线技术(诸如红外、无线电和微波)从网站、服务器或其他远程源发送指令,则介质的定义包括同轴电缆、光纤电缆、双绞线、DSL或无线技术(例如红外、无线电和微波)。但是,应当理解,计算机可读存储介质以及介质和数据存储介质不包括连接、载波、信号或其他瞬态介质,而是针对非瞬态的有形存储介质。本文使用的磁盘和光盘包括光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中光盘通常以磁性方式复制数据,而光盘则通过激光光学方式复制数据。上述的组合也应包括在计算机可读介质的范围内。
指令可以由一个或多个处理器执行,诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效集成或分立逻辑电路。因此,如本文中所使用的,术语“处理器”可以指任何前述结构或适合于实现本文中所描述的技术的任何其他结构。另外,在一些方面,本文描述的功能可以在专用硬件和/或软件模块内提供。同样,该技术可以在一个或多个电路或逻辑元件中完全实现。
可以在包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)在内的多种设备或装置中实现本公开的技术。在本公开中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但不一定需要由不同硬件单元来实现。相反,如上所述,各种单元可以组合在硬件单元中,或者由包括如上所述的一个或多个处理器互操作硬件单元的集合结合合适的软件和/或固件提供。
已经描述了各种实施例。这些和其他实施例在所附权利要求的范围内。

Claims (20)

1.一种方法,包括:
由计算设备从呼叫者设备接受由呼叫者发起的电话呼叫;
执行所述计算设备的设备上呼叫筛选服务,其中,所述呼叫筛选服务被配置为向所述呼叫者设备输出音频用户界面,其中,执行所述呼叫筛选服务包括通过以下方式经由所述音频用户界面与所述呼叫者通信:
由所述计算设备从所述用户接收文本输入,以及
经由所述音频用户界面向所述呼叫者提供所述文本输入的合成音频版本,其中,所述合成音频版本与所述用户的话音相对应。
2.根据权利要求1所述的方法,其中,执行所述呼叫筛选服务包括经由所述音频用户界面向所述呼叫者询问包括所述电话呼叫的目的的信息。
3.根据权利要求2所述的方法,进一步包括:
响应于所述查询,经由所述音频用户界面接收作为来自所述呼叫者的口头音频的信息;以及
由所述计算设备向所述用户提供来自所述呼叫者的所述信息。
4.根据权利要求3所述的方法,进一步包括:
将所述信息从所述口头音频转录为文本格式,以及
其中,提供所述信息包括提供所述信息的所转录的版本。
5.根据权利要求4所述的方法,进一步包括:
接收第一语言的所述口头音频,并且
其中,转录包括将所述第一语言的所述口头音频转换为与所述第一语言不同的第二语言的文本格式。
6.根据权利要求3所述的方法,其中,向所述用户提供所述信息是与从所述呼叫者接收所述信息近实时地执行的。
7.根据权利要求3所述的方法,其中,向所述用户提供所述信息包括提供来自所述呼叫者的所述口头音频。
8.根据权利要求7所述的方法,进一步包括:
由所述计算设备从所述用户接收向所述用户以音频格式提供所述信息的指示,以及
其中,提供来自所述呼叫者的所述口头音频是响应于以音频格式提供所述信息的所述指示。
9.根据权利要求1所述的方法,其中,执行所述呼叫筛选服务进一步包括:
使得来自所述用户的异步用户输入能够修改或调整与所述呼叫者的同步话音通信。
10.根据权利要求1所述的方法,其中,所述设备上呼叫筛选服务经由应用编程接口(API)与所述计算设备的电话模块交互。
11.根据权利要求10所述的方法,进一步包括:
由所述设备上呼叫筛选服务并且经由所述API提供使所述电话模块在所述计算设备和所述呼叫者设备之间建立直接、同步电话话音会话的一个或多个命令。
12.根据权利要求1所述的方法,进一步包括:
由机器学习模型将所述呼叫者分类为来自多个呼叫者类型的特定类型的呼叫者。
13.根据权利要求12所述的方法,进一步包括:
由所述机器学习模型预测所述呼叫者的身份以及所述电话呼叫的可能目的。
14.根据权利要求13所述的方法,其中,预测所述呼叫者的所述身份是由话音识别模型来执行的。
15.根据权利要求14所述的方法,进一步包括:
由所述话音识别模型确定所述呼叫者的话音与非人类或机器人说话话音相匹配;以及
其中,执行所述呼叫筛选服务包括基于确定所述呼叫者的所述话音与所述非人类或机器人说话话音相匹配来修改与所述呼叫者的所述通信。
16.根据权利要求1所述的方法,进一步包括:
由所述设备上呼叫筛选服务确定呼叫者的情绪,以确定是否询问、绕过询问或阻止所述电话呼叫。
17.根据权利要求16所述的方法,其中,确定所述情绪是由机器学习模型执行的,并且其中,所述确定包括根据基于音调变化、短语或所述呼叫者的其他特性中的一个或多个的特定情绪状态来对所述呼叫者进行分类。
18.根据权利要求1所述的方法,进一步包括:
由所述计算设备基于特定类型的呼叫者来调整所述音频用户界面以获得所述特定类型的呼叫者的特定信息,所述特定信息与针对来自多个呼叫者类型的其他类型的呼叫者获得的其他信息不同。
19.一种计算设备,包括:
一个或多个处理器;以及
其上存储有程序指令的一个或多个计算机可读存储介质,所述指令在由计算设备的所述一个或多个处理器执行时,使所述计算设备执行包括以下的操作:
由计算设备从呼叫者设备接受由呼叫者发起的电话呼叫;
执行所述计算设备的设备上呼叫筛选服务,其中,所述呼叫筛选服务被配置为向所述呼叫者设备输出音频用户界面,其中,执行所述呼叫筛选服务包括通过以下方式经由所述音频用户界面与所述呼叫者通信:
由所述计算设备从所述用户接收文本输入,以及
经由所述音频用户界面向所述呼叫者提供所述文本输入的合成音频版本,其中,所述合成音频版本与所述用户的话音相对应。
20.一种制品,包括非暂时性计算机可读介质,其上存储有程序指令,所述指令在由计算设备的一个或多个处理器执行时使所述计算设备执行包括以下的操作:
由所述计算设备从呼叫者设备接受由呼叫者发起的电话呼叫;
执行所述计算设备的设备上呼叫筛选服务,其中,所述呼叫筛选服务被配置为向所述呼叫者设备输出音频用户界面,其中,执行所述呼叫筛选服务包括通过以下方式经由所述音频用户界面与所述呼叫者通信:
由所述计算设备从所述用户接收文本输入,以及
经由所述音频用户界面向所述呼叫者提供所述文本输入的合成音频版本,其中,所述合成音频版本与所述用户的话音相对应。
CN202311229074.8A 2018-09-10 2019-01-08 使用话音和文本的同步通信 Pending CN117221452A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862729227P 2018-09-10 2018-09-10
US62/729,227 2018-09-10
PCT/US2019/012723 WO2020055446A1 (en) 2018-09-10 2019-01-08 Synchronous communication using voice and text
CN201980048824.7A CN112470454A (zh) 2018-09-10 2019-01-08 使用话音和文本的同步通信

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201980048824.7A Division CN112470454A (zh) 2018-09-10 2019-01-08 使用话音和文本的同步通信

Publications (1)

Publication Number Publication Date
CN117221452A true CN117221452A (zh) 2023-12-12

Family

ID=65276276

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201980048824.7A Pending CN112470454A (zh) 2018-09-10 2019-01-08 使用话音和文本的同步通信
CN202311229074.8A Pending CN117221452A (zh) 2018-09-10 2019-01-08 使用话音和文本的同步通信

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201980048824.7A Pending CN112470454A (zh) 2018-09-10 2019-01-08 使用话音和文本的同步通信

Country Status (4)

Country Link
US (2) US11811968B2 (zh)
CN (2) CN112470454A (zh)
DE (1) DE112019004505T5 (zh)
WO (1) WO2020055446A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DE112019004505T5 (de) 2018-09-10 2021-06-02 Google Llc Synchrone Kommunikation unter Verwendung von Sprache und Text
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
EP4026290A4 (en) * 2019-10-11 2022-10-26 Alipay (Hangzhou) Information Technology Co., Ltd. DECENTRALIZED AUTOMATIC MANAGEMENT OF PHONE FRAUD RISK
US11928611B2 (en) * 2019-11-18 2024-03-12 International Business Machines Corporation Conversational interchange optimization
US11212249B2 (en) 2020-03-27 2021-12-28 Avaya Management L.P. Real time transcription and feed of voice messages based on user presence and preference
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11595517B2 (en) * 2021-04-13 2023-02-28 Apple Inc. Digital assistant integration with telephony
US12113924B2 (en) * 2021-08-24 2024-10-08 International Business Machines Corporation Enhanced caller identification

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418211B1 (en) * 1998-12-28 2002-07-09 Ericsson Inc. Adaptive call screening method
US20070165811A1 (en) * 2006-01-19 2007-07-19 John Reumann System and method for spam detection
US8275110B2 (en) * 2007-09-28 2012-09-25 Ringcentral, Inc. Active call filtering, screening and dispatching
US9110891B2 (en) * 2011-12-12 2015-08-18 Google Inc. Auto-translation for multi user audio and video
US20180020093A1 (en) * 2016-07-15 2018-01-18 Circle River, Inc. Automated call answering based on artificial intelligence
US10057419B2 (en) * 2016-11-29 2018-08-21 International Business Machines Corporation Intelligent call screening
DE112019004505T5 (de) 2018-09-10 2021-06-02 Google Llc Synchrone Kommunikation unter Verwendung von Sprache und Text

Also Published As

Publication number Publication date
US20210314440A1 (en) 2021-10-07
DE112019004505T5 (de) 2021-06-02
CN112470454A (zh) 2021-03-09
WO2020055446A1 (en) 2020-03-19
US11811968B2 (en) 2023-11-07
US20240031482A1 (en) 2024-01-25

Similar Documents

Publication Publication Date Title
CN117221452A (zh) 使用话音和文本的同步通信
CN112136175B (zh) 用于在主设备处访问配套设备的呼叫功能的语音交互
US11595517B2 (en) Digital assistant integration with telephony
US10748534B2 (en) Personality-based chatbot and methods including non-text input
US20190095050A1 (en) Application Gateway for Providing Different User Interfaces for Limited Distraction and Non-Limited Distraction Contexts
US10553209B2 (en) Systems and methods for hands-free notification summaries
KR102624148B1 (ko) 인간 사용자를 대신하여 대화형 음성 응답(ivr) 트리 자동 탐색
AU2014306221B2 (en) Auto-activating smart responses based on activities from remote devices
KR101816375B1 (ko) 제한된 주의 산만 및 비제한된 주의 산만 컨텍스트에 대해 상이한 사용자 인터페이스를 제공하는 애플리케이션 게이트웨이
CN108337380B (zh) 自动调整用户界面以用于免提交互
US9111538B2 (en) Genius button secondary commands
US9053096B2 (en) Language translation based on speaker-related information
US20130144619A1 (en) Enhanced voice conferencing
KR101834624B1 (ko) 핸즈 프리 상호작용을 위한 사용자 인터페이스 자동 적응
CN105320726A (zh) 降低对手动开始/结束点和触发短语的需求
KR102136962B1 (ko) 컴패니언 디바이스의 통화 기능을 액세스하기 위한 일차 디바이스에서의 음성 상호작용
KR101891496B1 (ko) 사용자간 대화 세션에 대한 능동적 모니터링 및 개입을 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
US20210250438A1 (en) Graphical User Interface for a Voice Response System
KR101914583B1 (ko) 보안 등과 관련된 서비스를, 사용자간 대화 세션에 대한 모니터링에 기초하고 대화 세션 또는 별도의 세션을 통해, 능동적으로 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
CN111429896B (zh) 用于在主设备处访问配套设备的呼叫功能的语音交互
KR20190094080A (ko) 사용자간 대화 세션에 대한 모니터링에 기초하여 능동적으로 주문 또는 예약 서비스를 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
KR20190103928A (ko) 대화 세션 내의 이전의 이력 정보를 이용하여, 사용자간 대화 세션에 대한 모니터링에 기초해서 능동적으로 주문 또는 예약 서비스를 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
CN111899739A (zh) 语音通知
KR20190103927A (ko) 보안 등과 관련된 서비스를, 사용자간 대화 세션에 대한 모니터링에 기초하고 대화 세션 또는 별도의 세션을 통해, 능동적으로 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination