CN117882365A

CN117882365A - 确定和视觉显示呼叫的口头菜单

Info

Publication number: CN117882365A
Application number: CN202280057265.8A
Authority: CN
Inventors: 约瑟夫·约瑟夫·切鲁卡拉; 阿米特·西旺; 安德鲁·乔治·谢巴诺; 约阿夫·楚尔; 费利克斯·王; 雅尼夫·利维坦
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-08-24
Filing date: 2022-07-19
Publication date: 2024-04-12
Also published as: US11895269B2; DE112022004082T5; EP4393144A1; US20230066100A1; KR20240046508A

Abstract

呼叫的口头菜单的确定和视觉显示。接收在呼叫设备和与目标实体相关联的设备之间的呼叫中输出的音频数据。音频数据包括语音，该语音指示用于呼叫设备的用户在呼叫中经由通过目标实体提供的呼叫菜单进行导览的一个或多个选择选项。文本是通过以编程方式分析音频数据来确定的，文本表示语音。选择选项是基于以编程方式分析文本或音频数据中的至少一个来确定的。文本的至少一部分在呼叫期间由呼叫设备显示为与选择选项相对应的一个或多个视觉选项。视觉选项各自作为可操作项目经由用户输入可选择，以通过呼叫菜单引起对应导览。

Description

确定和视觉显示呼叫的口头菜单

相关申请的交叉引用

本申请要求2021年12月2日提交的标题为“Determination and Visual Displayof Spoken Menus for Calls(确定和视觉显示呼叫的口头菜单)”的美国专利申请No.17/540,895的优先权，该专利申请要求2021年8月24日提交的标题为“Determination andVisual Display of Spoken Menus for Calls”的美国临时专利申请No.63/236,651的优先权，这两篇文章均通过引用整体并入本文。

背景技术

许多企业和其他组织为呼叫该企业的呼叫者提供自动电话菜单，也称为交互式话音应答(IVR)。通常，呼叫该企业的呼叫者会接收自动话音，该话音用口头词汇描述了呼叫者可以从中选择的若干选项的菜单。通常会呈现这样的选项的集合的层级结构，允许呼叫者经由选项导览到所期望的结果。例如，呼叫者可能期望接收特定信息、请求企业的产品或服务、与人工智能体交谈等。呼叫者可以通过说出数字、词或短语，或按下与该选项相关联的由自动化系统检测和识别的键，来选择呼叫菜单中的选项。

本文提供的背景描述是为了一般性地呈现本公开的场境的目的。目前指定的发明人的工作，关于在本背景部分中描述的程度，以及在提交时可能不符合现有技术的描述的方面，既没有明确也没有暗示地被承认为针对本公开的现有技术。

发明内容

本申请的实施方式涉及呼叫的口头菜单的确定和视觉显示。在一些实施方式中，计算机实现的方法包括接收在呼叫设备和与目标实体相关联的设备之间的呼叫中输出的音频数据。音频数据包括语音，所述语音指示用于呼叫设备的用户在呼叫中经由由目标实体提供的呼叫菜单进行导览的一个或多个选择选项。通过以编程方式分析音频数据来确定文本，其中文本表示音频数据中的语音。基于以编程方式分析文本或音频数据中的至少一个来确定选择选项。使文本的至少一部分在呼叫期间由呼叫设备显示，该文本被显示为与选择选项相对应的一个或多个视觉选项。视觉选项各自经由用户输入可选择，以引起经由呼叫菜单的对应导览。

描述了该方法的各种实施方式和示例。例如，在一些实施方式中，该方法进一步包括：响应于接收到对一个或多个视觉选项中的特定视觉选项的选择，使得该选择的指示被发送到与目标实体相关联的设备，其中该指示是与键区的键的按压相对应的信号，该键与特定视觉选项相关联，或者是由呼叫设备在呼叫中提供的语音，该语音包括与特定视觉选项相关联的指定符。在一些实施方式中，一个或多个视觉选项各自经由呼叫设备的触摸屏上的触摸输入可选择。

在一些实施方式中，音频数据是第一音频数据，并且响应于接收到对特定视觉选项的选择，该方法进一步包括：接收呼叫中的第二音频数据，该第二音频数据包括指示一个或多个第二选择选项的第二语音，以编程方式分析第二音频数据以确定表示第二音频数据中的第二语音的第二文本，基于以编程方式分析第二文本或第二音频数据中的至少一个来确定一个或多个第二选择选项，并且使得由呼叫设备将第二文本的至少一部分显示为与第二选择选项相对应的一个或多个第二视觉选项，该一个或多个第二视觉选项各自经由第二用户输入可选择以引起经由呼叫菜单的对应导览。在一些实施方式中，一个或多个选择选项是多个选择选项，并且该方法进一步包括以编程方式分析文本或音频数据中的至少一个以确定呼叫菜单中的多个选择选项的层级结构。在一些实施方式中，该方法进一步包括使得一个或多个选择选项被存储在呼叫设备的存储和/或通过通信网络与呼叫设备通信的远程设备的存储中，以及针对在呼叫设备和目标实体之间的下一呼叫检索一个或多个选择选项。

在一些实施方式中，该方法进一步包括：在接收音频数据之前，获得包括一个或多个选择选项的选择选项数据，并且使得在呼叫设备接收到包括指示一个或多个选择选项的语音的音频数据之前，由呼叫设备显示与一个或多个选择选项相对应的一个或多个视觉选项。在一些示例中，通过以编程方式分析在先前呼叫期间接收的音频数据来确定选择选项数据中的选择选项。例如，在一些实施方式中，所获得的选择选项数据在发起呼叫之前被缓存在呼叫设备中，所获得的选择选项数据与由呼叫设备的地理区域中的呼叫者先前已呼叫的实体标识符相关联，并且与先前已被呼叫至少阈值次数或先前已被呼叫比不与所获得的选择选项数据相关联的其他实体标识符更高的次数的实体标识符相关联。

在一些实施方式中，使得在呼叫期间显示视觉指示符，该视觉指示符突出显示在呼叫期间显示的视觉选项的文本的特定部分，文本的特定部分当前在呼叫期间在音频数据中的语音中被接收。在一些实施方式中，该方法进一步包括：将选择选项数据与从音频数据确定的一个或多个选择选项进行比较，以及确定选择选项数据与从音频数据确定的一个或多个选择选项之间是否存在不匹配。在各种实施方式中，该方法进一步包括响应于确定不匹配，使得呼叫设备输出不匹配的通知和/或修改选择选项数据以匹配从音频数据确定的一个或多个选择选项。在一些实施方式中，将选择选项数据与一个或多个选择选项进行比较包括将选择选项数据的文本与一个或多个选择选项的文本进行比较，和/或将选择选项数据的音频数据与在呼叫期间接收的音频数据进行比较。

在一些实施方式中，显示用于呼叫的选择选项的呼叫设备包括存储指令的存储器、显示设备和耦合到存储器的至少一个处理器，该至少一个处理器被配置为访问来自存储器的指令以执行操作。所述操作包括：接收在呼叫设备和与目标实体相关联的设备之间的呼叫中的音频数据，所述音频数据包括语音，所述语音指示用于所述呼叫设备的用户通过在呼叫中经由由目标实体提供的呼叫菜单进行导览的一个或多个选择选项；以编程方式分析音频数据以确定表示音频数据中的语音的文本；基于以编程方式分析文本或音频数据中的至少一个来确定一个或多个选择选项；以及使文本的至少一部分在呼叫期间由显示设备显示，文本的部分被显示为与一个或多个选择选项相对应的一个或多个视觉选项，并且一个或多个视觉选项各自经由用户输入可选择以引起经由呼叫菜单的对应导览。

在呼叫设备的各种实施方式中，处理器执行进一步的操作，包括：响应于接收到对一个或多个视觉选项中的特定视觉选项的选择，使得选择的指示被发送到与目标实体相关联的设备，其中指示是与对键区的键的按压相对应的信号，该键与特定视觉选项相关联，或者是由呼叫设备在呼叫中提供的语音，该语音包括与特定视觉选项相关联的指定符。在一些实施方式中，处理器执行进一步的操作，包括：在接收音频数据之前，获得包括一个或多个选择选项和呼叫菜单中的一个或多个选择选项的层级结构的选择选项数据；以及使得在呼叫设备接收包括指示一个或多个选择选项的语音的音频数据之前，由显示设备显示与一个或多个选择选项相对应的一个或多个视觉选项。

在一些实施方式中，处理器执行进一步的操作，包括使得在呼叫期间显示视觉指示符，该视觉指示符突出显示在呼叫期间显示的一个或多个视觉选项中的文本的特定部分，文本的特定部分当前在呼叫期间在音频数据中的语音中被说出。在一些实施方式中，处理器执行进一步的操作，包括：将选择选项数据与从音频数据确定的一个或多个选择选项进行比较，以及确定选择选项数据与从音频数据确定的一个或多个选择选项之间是否存在不匹配。在各种实施方式中，由处理器执行的操作可以包括上述方法的一个或多个特征。

在一些实施方式中，一种其上存储有指令的非暂时性计算机可读介质，所述指令在由处理器执行时使所述处理器执行操作。所述操作包括：接收在呼叫设备和与目标实体相关联的设备之间的呼叫中的音频数据，所述音频数据包括语音，所述语音指示用于呼叫设备的用户经由通过目标实体提供的呼叫菜单进行导览的一个或多个选择选项；以编程方式分析音频数据以确定表示音频数据中的语音的文本；基于以编程方式分析文本或音频数据中的至少一个来确定一个或多个选择选项；以及使文本的至少一部分在呼叫期间由呼叫设备显示，文本的部分被显示为与一个或多个选择选项相对应的一个或多个视觉选项，并且一个或多个视觉选项各自经由用户输入可选择以引起经由呼叫菜单的对应导览。在各种实施方式中，由处理器执行的操作可以包括上述方法或呼叫设备的一个或多个特征。

附图说明

图1是可以用于本文描述的一个或多个实施方式的示例系统的框图；

图2是示出根据一些实施方式的用于确定和视觉地显示呼叫的口头菜单的示例方法的流程图；

图3是示出根据一些实施方式的基于获得的数据和/或呼叫获得实体的选择选项的示例方法的流程图；

图4是示出根据一些实施方式的用于处理来自呼叫的音频数据并基于音频数据显示或更新视觉选项的示例方法的流程图；

图5是根据一些实施方式的由呼叫设备显示的用户界面的示意图，其中可以发起呼叫；

图6-10是根据一些实施方式的由呼叫设备显示的用户界面的示意图，其中显示并选择呼叫中的呼叫菜单的选择选项；

图11-14是根据一些实施方式的由呼叫设备显示的用户界面的示意图，其中在呼叫中说出对应的选择选项之前显示呼叫菜单的视觉选项；以及

图15是可以用于本文描述的一个或多个实施方式的示例设备的框图。

具体实施方式

本文描述的一个或多个实施方式涉及用于呼叫的口头菜单的确定和视觉显示。在各种实施方式中，从用户的呼叫设备与目标实体(例如，人或企业)之间的呼叫获得包括语音的音频数据。目标实体可以使用自动话音系统(例如，使用交互式话音响应或IVR或应答机器)或人类智能体(agent)。语音包括呼叫菜单中的选择选项，用户可以经由所述选择选项进行导览以获得期望的结果(接收信息、对人类智能体说话等)。从呼叫音频数据中识别文本，该文本表示描述选择选项的语音。基于分析文本和/或音频数据来检测选择选项。文本的至少一部分在呼叫期间由呼叫设备显示为对应于选择选项的视觉选项。视觉选项各自可经由用户输入选择以引起经由呼叫菜单的对应导览。

描述了各种附加特征。例如，在一些实施方式中，用户对特定视觉选项的选择使得该选择被发送到目标实体，其可以是与按压呼叫设备的键区的适当键相对应的信号，或者可以是由呼叫设备提供的选择视觉选项的语音。可以分析音频数据和/或文本以确定呼叫菜单中的选择选项的层级结构。

在一些实施方式中，选择选项数据由呼叫设备在呼叫之前获得，例如，由呼叫设备从存储各种实体的选择选项数据的其他远程设备或服务器接收。在一些示例中，可能已经从由呼叫设备对实体的先前呼叫的音频数据中确定了选择选项数据。呼叫设备可以在呼叫之前下载和缓存各种实体的选择选项数据和/或实体标识符(例如，实体的电话号码、电子邮件地址、即时消息传送或过顶(OTT)服务标识符等)。在一些示例中，缓存的选择选项数据可以是针对已经被用户更频繁地呼叫的实体标识符的(例如，在实体标识符集合中被呼叫最多次数)，或者是针对被呼叫设备的地理区域(或阈值距离)中的用户呼叫至少阈值次数的实体标识符的。

使用缓存的选择选项，在呼叫中由目标实体说出选择选项之前，可以在呼叫期间或呼叫之前显示对应的视觉选项。一些实施方式可以将在呼叫期间说出的选择选项与缓存的选择选项数据进行比较，并且如果在这些选项版本之间检测到不匹配，则可以向用户通知该不匹配和/或可以修改选择选项数据以匹配从当前呼叫的语音数据确定的选择选项。在一些实施方式中，在呼叫期间显示视觉指示符，其突出显示在呼叫期间当前正在说出的视觉选项的文本的特定部分。

所描述的技术和特征具有若干优点。所描述的实施方式可以在呼叫期间提供音频呼叫菜单的视觉表示。这可以极大地帮助用户导览呼叫菜单，因为音频呼叫菜单通常较长，并且对用户施加显著的认知负荷来收听长音频消息以找到他们需要的选项。在呼叫设备上呈现呼叫菜单的对应视觉版本可以极大地帮助用户确定哪些选项正被呈现以及哪些选项是用户感兴趣的。此外，所显示的视觉选项可由用户直接操作和选择，使得用户可使用选项的简单选择，例如经由触摸屏上的触摸，来选择视觉选项。因此，通过所描述的特征将复杂的音频体验转换为简单的视觉体验。

另外，一些实施方式可以在呼叫中由目标实体说出这些选项之前以视觉形式呈现呼叫菜单的选项。这允许用户预先查看呼叫菜单，并且在一些呼叫菜单中，允许用户在该选项被说出之前选择菜单选项，以使目标实体立即将呼叫菜单前进到另一级别，而用户不必等待听到呼叫中说出的剩余选项。菜单的视觉形式允许用户先于菜单的说出的部分进行扫描，找到期望的选项，并且比听到音频形式的选项时更快地选择选项，然后找到并选择期望的选项。

一个或多个所描述的实施方式的技术效果是设备花费更少的计算资源来获得结果。例如，与不提供所描述的技术或特征中的一个或多个的现有系统相比，所描述的技术的技术效果是减少了系统处理资源和功率资源的消耗。例如，这样的现有系统可能要求用户在确定哪个选项最适合用户的需求之前在听到可用选项的输出的呼叫期间花费大量时间。在一些情况下，在这样的现有系统中，用户可能由于说出的选项消息的长度而忘记先前呈现了哪些菜单选项，并且可能必须重放菜单或再次呼叫以理解可用选项，从而花费更多时间。这样长的呼叫时间浪费地消耗系统资源。本文描述的特征可以通过以下来减少这样的缺点：例如显示用于呼叫菜单的选择选项、允许用户更快速地查看可用的呼叫选项并选择期望的选项、减少呼叫持续时间并导致更少的呼叫被发起、从而降低呼叫设备、目标实体设备以及与呼叫设备通信以启用呼叫的其他设备的总体处理和功率要求。

此外，在一些实施方式中，在呼叫中说出的那些选项之前显示视觉呼叫菜单选项。用户可以先于对应的说出的选项来扫描视觉选项，找到期望的选项，并且比选项仅处于音频形式时更快地选择选项。这样的特征通过允许用户以较快的速率经由呼叫菜单进行导览——包括快速经由用户从未听到或遇到的呼叫菜单进行导览——来减少呼叫持续时间并节省呼叫设备和实体设备的处理资源。

此外，在一些实施方式中，可以在发起呼叫之前将在呼叫之前提供选择选项的选择选项数据下载到呼叫设备并由呼叫设备缓存，使得可以减少呼叫期间处理和联网资源的消耗。此外，在一些实施方式中，可以在呼叫期间检测说出的选择选项，并将其与缓存的选择选项数据进行比较，以确定所显示的选项是否可能不同于说出的选项，从而检测错误或差异，否则当用户查看并选择不正确或不期望的选项时，可能浪费呼叫设备的处理和网络资源。此外，所描述的技术的一些实施方式可以基于从由用户和用户呼叫设备(例如，客户端设备)对实体的先前呼叫导出的数据，在呼叫之前和/或在呼叫中说出那些选项之前提供所显示的呼叫菜单的选择选项，而不需要直接从例如可能不可获得的实体或相关联的实体接收选择选项数据。

进一步针对本文中的描述，可以向用户提供控件，所述控件允许用户关于本文中描述的系统、程序或特征是否以及何时可以使得能够收集用户信息(例如，关于用户的呼叫历史的信息，该用户的呼叫历史指定被呼叫的实体和实体标识符、社交网络、社交动作或活动、职业、用户的偏好——包括针对呼叫菜单的用户偏好、用户的当前位置、用户的消息、用户发出的传出呼叫、呼叫的音频数据或用户的设备)，以及是否从服务器向用户发送内容或通信做出选取。此外，某些数据可以在其被存储或使用之前以一种或多种方式被处理，使得个人可识别信息被移除。例如，可以处理用户的身份，使得不能为用户确定个人可识别信息，或者可以在获得位置信息的地方概括用户的地理位置(诸如到城市、邮政编码或州级别)，使得不能确定用户的特定位置。因此，用户可以对收集关于用户的什么信息、如何使用该信息以及向用户提供什么信息进行控制。

图1示出了可以在本文描述的一些实施方式中使用的示例网络环境100的框图。在一些实施方式中，网络环境100包括一个或多个服务器设备，例如图1的示例中的服务器系统102。例如，服务器系统102可以通过网络130进行通信。服务器系统102可以包括服务器设备104和数据库106或其他存储设备。网络环境100还包括一个或多个客户端设备，例如客户端设备120、122、124和126，其可以经由网络连接130与服务器102、彼此和/或与其他设备通信。网络130可以是任何类型的通信网络，包括因特网、局域网(LAN)、无线网络、交换机或集线器连接等中的一个或多个。在一些实施方式中，网络130可以包括设备120-126之间的对等通信，例如，使用对等无线协议(例如，Wi-Fi直连等)或让一个客户端设备充当对另一客户端设备的服务器等。两个客户端设备120和122之间的对等通信的一个示例由箭头132示出。

为了便于说明，图1示出了用于服务器系统102、服务器设备104和数据库106的一个框，并且示出了用于客户端设备120、122、124和126的四个框。服务器框102、104和106可以表示多个系统、服务器设备和网络数据库，并且可以以与所示不同的配置提供框。例如，服务器系统102可以表示可以例如经由网络130与其他服务器系统通信的多个服务器系统。在一些实施方式中，服务器系统102可以包括云托管服务器或提供呼叫服务(例如，因特网协议话音，VOIP)的服务器。在一些示例中，数据库106和/或其他存储设备可以在与服务器设备104分离的服务器系统框中提供，并且可以经由网络130与服务器设备104和其他服务器系统通信。此外，可以存在任何数量的客户端设备。在一些示例中，服务器系统102通过网络连接130与客户端设备无线通信，客户端设备提供可以由来自服务器移动设备的信号启用或补充的各种特征。

服务器系统102和客户端设备120-126可以是在各种应用中使用的任何类型的设备，例如，台式计算机、膝上型计算机、便携式或移动设备、蜂窝电话、智能电话、平板计算机、电视、TV机顶盒或娱乐设备、可穿戴设备(例如，显示眼镜或护目镜、头戴式显示器(HMD)、耳机、耳塞、健身带、手表、耳机、臂带、珠宝等)、启用虚拟现实(VR)和/或增强现实(AR)的设备、个人数字助理(PDA)、媒体播放器、游戏设备等。一些客户端设备还可以具有类似于数据库106的本地数据库或其他存储。在其他实施方式中，网络环境100可以不具有所示的所有组件和/或可以具有其他元件，包括其他类型的元件，代替本文描述的那些元件或补充本文描述的那些元件。

在各种实施方式中，客户端设备120-126可以经由在相应客户端设备和/或服务器系统102上运行的应用与服务器系统102交互。例如，相应的客户端设备120、122、124和126可以向服务器系统102和从服务器系统102传送数据。在一些实施方式中，服务器系统102可以向客户端设备的所有或特定设备发送各种数据，诸如内容数据(例如，音频、图像、视频、消息、电子邮件等)、通知、命令等。每个客户端设备可以向服务器系统102发送适当的数据，例如确认、数据请求、通知、用户命令、呼叫请求等。在一些示例中，服务器和客户端设备可以传送各种形式的数据，包括文本数据、音频数据、视频数据、图像数据或其他类型的数据。

在各种实施方式中，终端用户U1、U2、U3和U4可以使用相应的客户端设备120、122、124和126与服务器系统102和/或彼此通信。在一些示例中，用户U1、U2、U3和U4可以经由在相应客户端设备和/或服务器系统102上运行的应用和/或经由在服务器系统102上实现的网络服务——例如社交网络服务或其他类型的网络服务——彼此交互。在一些实施方式中，服务器系统102可以向客户端设备提供适当的数据，使得每个客户端设备可以接收上传到服务器系统102和/或网络服务的通信内容或共享内容。在一些实施方式中，“用户”可以包括一个或多个程序或虚拟实体，以及与系统或网络对接的人。

客户端设备120、122、124和/或126上的用户界面可以使得能够显示用户内容和其他内容，包括图像、视频、数据和其他内容以及通信(例如，用于电话或因特网呼叫、视频会议、同步或异步聊天等)、隐私设置、通知和其他数据。可以使用客户端设备上的软件、服务器设备上的软件和/或客户端软件和在服务器设备104上执行的服务器软件的组合——例如与服务器系统102通信的客户端软件或应用软件——来显示这样的用户界面。用户界面可以由客户端设备或服务器设备的显示设备——例如触摸屏或其他显示屏、投影仪等——显示。在一些实施方式中，在服务器系统上运行的应用程序可以与客户端设备通信以在客户端设备处接收用户输入并且在客户端设备处输出诸如视觉数据、音频数据等的数据。

在服务器和客户端设备上执行的各种应用和/或操作系统可以实现各种功能，包括通信应用(例如，连接和提供音频呼叫或话音呼叫、视频会议、聊天或其他通信)、电子邮件应用、内容数据的显示、隐私设置、通知、浏览器等。可以使用在客户端设备上执行的应用或其他软件、服务器设备上的软件、和/或客户端软件和在服务器102上执行的服务器软件的组合——例如与服务器102通信的应用软件或客户端软件——来在客户端设备上显示用户界面。用户界面可以由客户端设备或服务器设备的显示设备——例如显示屏、投影仪等——显示。在一些实施方式中，在服务器上运行的应用程序可以与客户端设备通信以在客户端设备处接收用户输入并且在客户端设备处输出诸如视觉数据、音频数据等的数据。在一些实施方式中，网络环境100的一个或多个设备——例如服务器系统102的一个或多个服务器——可以维护电子百科全书、知识图、一个或多个数据库、词、短语、符号和其他信息的语料库、社交网络应用(例如，社交图、朋友的社交网络、商业的社交网络等)、地点或位置的网站(例如，餐厅、汽车经销商等)、地图绘制应用(例如，查找地图位置的网站)、呼叫特性和其他呼叫数据等。在一些实施方式中，服务器系统102可以包括特定类型的内容项(例如，文本或图像)的分类器，并且可以确定是否在接收到的内容项中检测到任何特定类。

一些实施方式可以在与计算机网络断开连接或间歇地连接到计算机网络的客户端或服务器设备上提供本文描述的一个或多个特征。在一些实施方式中，客户端设备可以例如经由聊天或其他消息提供如本文所述的用于异步通信的特征和结果。

如本文所述，服务器系统102和/或一个或多个客户端设备120-126可以使用机器学习模型。在一些实施方式中，机器学习模型可以是具有一个或多个节点的神经网络，根据网络架构布置，例如，在一个或多个层中，具有经由网络架构连接的各种节点，并且具有相关联的权重。例如，在模型的训练阶段，可以使用训练数据来训练模型，然后在推理阶段，经训练的模型可以基于输入数据来确定输出。在一些实施方式中，可以例如在测试实验室或其他设置中的测试设备上离线训练模型，并且可以将经训练的模型提供给执行模型的服务器。在一些实施方式中，可以在设备上本地重新训练或更新经训练的模型，或者可以在设备上训练未经训练的模型。在一些实施方式中，在用户许可的情况下，可以利用联邦学习来更新一个或多个经训练的模型，例如，其中各个服务器设备可以各自执行本地模型训练，并且可以聚合对模型的更新以更新模型的一个或多个中央版本。

图2是示出根据一些实施方式的用于确定和视觉地显示呼叫的口头菜单的示例方法200的流程图。在一些实施方式中，方法200可以在服务器——例如，如图1所示的服务器系统102——上实现。在一些实施方式中，方法200的一些或全部框可以在一个或多个客户端设备(例如，如图1所示的客户端设备120、122、124和/或126)、一个或多个服务器设备上和/或在服务器设备和客户端设备两者上实现。在所描述的示例中，实现方法200的框的系统包括一个或多个处理器硬件或处理电路系统(“处理器”)，并且可以访问一个或多个存储设备，诸如数据库106或其他可访问存储。在一些实施方式中，一个或多个服务器系统的不同组件可以执行不同的框或框的部分。

一些实施方式可以基于用户输入来发起方法200或其部分。例如，用户可能已经从显示的用户界面中选择了方法200或方法200的特定框的发起。在一些实施方式中，方法200或其部分可以通过用户经由用户输入的指导来执行。在一些实施方式中，方法200或方法的部分可以由设备自动地发起。例如，可以基于一个或多个特定事件或条件的发生来发起、或周期性地发起该方法(或其部分)。例如，这样的事件或条件可包括获得选择选项数据，该选择选项数据指示在对实体的呼叫中提供的一个或多个选择选项(例如，以使框208被执行)、自方法200或其一部分的上次执行以来已期满的预定时间段、和/或可在实现方法200的设备的设置中指定的发生的一个或多个其他事件或条件。在一些示例中，设备(服务器或客户端)可以通过访问呼叫中的选择选项数据(如果接收到用户同意)来执行方法200。

在框202中，检查在方法200的实施方式中是否已经获得使用用户数据的用户同意(例如，用户许可)。例如，用户数据可以包括用户偏好、用户选择的响应(例如，在拨号器应用、通信应用或其他应用中)、用户呼叫特性数据(例如，呼叫持续时间、呼叫的时间和位置、在呼叫期间接收的音频数据等)、设备的用户界面中的其他内容、或内容集合中的其他内容数据项(例如，与用户相关联的呼叫)、用户发送或接收的消息、关于用户的社交网络和/或联系人的信息、内容评级、用户的地理位置、历史用户数据等。在一些实施方式中，本文描述的方法的一个或多个框可以使用用户数据。

如果已经从可以在方法200中使用用户数据的相关用户获得了用户同意，则在框204中，确定可以利用如针对那些框描述的能够使用的用户数据来实现本文的方法的框，并且该方法继续到框208。如果尚未获得用户同意，则在框206中确定要在不使用用户数据的情况下实现框，并且该方法继续到框208。在一些实施方式中，如果尚未获得用户同意，则不执行方法200的其余部分，和/或不执行使用用户数据的特定框。在一些实施方式中，如果尚未获得用户同意，则方法200的框将在不使用用户数据的情况下并且利用通用或公共可访问和公共可用数据来实现。

在框208中，基于所获得的数据和/或对实体标识符进行的呼叫，针对实体的实体标识符确定由先前呼叫中的各种实体提供的选择选项。选择选项是在实体与呼叫设备之间的呼叫中由实体(例如，被配置为自动应答呼叫并提供音频数据的服务器设备)经由音频数据提供给用户(例如，呼叫设备)的选项。在一些实施方式中，选择选项可以是由目标实体提供的呼叫菜单中的选项。在一些实施方式中，呼叫菜单可以包括选项集合的多个级别(例如，层级级别)，例如，在一个菜单级别呈现一个选项集合，并且在基于在先前菜单级别中选择的选项的不同菜单级别中呈现另一个或不同的选项集合。

在一些实施方式中，选择选项可以是在用户界面中呈现的未包括在呼叫菜单或其他菜单中的可选元素或区域，例如，可选按钮、链接或引起目标实体的动作的其他元素(例如，针对框232描述的示例)。这样的选择选项可以根据在呼叫期间提供的语音来确定，例如，在呼叫中说出呼叫菜单选项之前、之内或之后，或者根据不提供任何呼叫菜单选项的呼叫中的语音来确定。

在一些实施方式中，可以根据由呼叫中的各种实体提供的语音来确定结构化(或注释)信息，并且可以将结构化信息呈现为选择选项和/或视觉信息。例如，可以从语音中确定大纲、树、格式化文本(例如，具有由系统添加的段落中断、句子中断和/或页面中断、标点符号等的文本)或其他结构化信息。在进一步的示例中，结构化信息可以包括统一资源定位符(URL)、超链接、电子邮件、日期、位置、证实号、账号等，其可以是可操作的选择选项，例如，可由用户输入选择以使系统执行一个或多个操作，诸如检索和显示信息或网页、打开或执行程序等。一些结构化信息可以呈现为不可通过用户输入操作或选择的视觉信息。结构化信息可以在呼叫期间由呼叫设备确定和显示为选择选项或除了本文示例中描述的选择选项之外还可以由呼叫设备确定和显示该结构化信息。

在呼叫中活动的目标实体可以是自动化系统，诸如实体的交互式话音响应(IVR)系统、可以提供呼叫菜单并从呼叫者接收选择的应答机器、或者在一些情况下是在呼叫中说出选项并从呼叫设备接收那些选项的说出的选择的实体的人工智能体。在呈现选择选项的呼叫中，用户能够选择选项中的一个或多个来经由呼叫菜单的一个或多个层级菜单级别进行导览(例如，前进或返回)，和/或获得期望的结果，诸如接收特定信息、请求特定产品或服务、请求对可以回答问题的现场人类智能体说话等。呼叫可以是连接到由用户使用的呼叫设备的电话呼叫、话音呼叫或其他呼叫(例如，经由即时消息或过顶(OTT)服务等发出的)，例如由呼叫设备发起或应答。在框208中，针对在与实体的呼叫中提供这样的选项的实体的各种实体标识符确定选择选项。如本文所提及的，目标实体是要在呼叫中被呼叫或活动的实体(例如，在呼叫设备已经呼叫目标实体之后，反之亦然)，并且与一个或多个实体标识符(例如，目标实体标识符)相关联，诸如可以用于将目标实体连接到允许话音通信的呼叫的电话号码或其他地址信息(例如，用户或实体名称、用户标识符等)。实体可以包括各种人、组织、企业、群组等中的任何一种。

在一些实施方式中，基于从实体(包括从相关联的实体，例如，呼叫中心或处理实体的呼叫的其他实体)接收的实体数据来确定选择选项。在一些实施方式中，基于由呼叫设备对实体进行的先前呼叫来确定选择选项。

框208可被执行为预处理框，该预处理框在发起对目标实体的呼叫之前并且在确定并视觉地显示当前呼叫的选择选项之前确定并存储选择选项数据，如下所述。参考图3描述获得由实体提供的选择选项的一些示例。该方法继续到框210。

在框210，由呼叫设备获取目标实体的实体标识符。呼叫设备是可以用于对实体进行呼叫的设备，例如图1的客户端设备120-126，或者可替代地服务器或其他设备。实体标识符可以是例如电话号码、其他呼叫名称、地址或允许呼叫设备向目标实体发起呼叫的其他实体标识符。可以在各种实施方式和/或情况下，以若干方式中的任何一种获得实体标识符。例如，可以经由来自呼叫设备的用户的用户输入来获得实体标识符。这样的用户输入可以包括用户选择物理或虚拟键区或键盘的键以输入标识符。在一些示例中，可以响应于用户选择存储在呼叫设备上的联系人列表中的联系人条目来获得实体标识符，这使得与该联系人条目相关联的实体标识符被从存储中自动检索并被提供以供使用。例如，实体标识符可以被输入或提供给在呼叫设备上运行的应用，诸如发起呼叫的拨号器或呼叫应用，或可以发起呼叫的另一应用。在一些其他示例中，实体标识符可以从在呼叫设备上运行的另一应用或通过网络从远程设备获得。

在一些示例中，独立于呼叫来接收实体标识符，例如，以查看在呼叫实体时提供的所显示的选择选项，为到目标实体的一个或多个即将到来的呼叫做准备等，而不在接收到标识符时和/或在显示选择选项时发起呼叫。在其他示例中，接收实体标识符以在当前时间立即向目标实体发起呼叫，例如，在拨号器或呼叫应用中接收标识符，并且由用户选择发起呼叫的控件，或者由呼叫设备自动发起的呼叫。在一些实施方式中，在对目标实体或不同实体的(当前)呼叫期间接收实体标识符。例如，实体标识符可以由呼叫设备接收以发起可能已经在进行中的当前呼叫，或者向不同实体发起第二呼叫。该方法可以继续到框212。

在框212中，确定是否要针对目标实体的实体标识符检索选择选项数据。例如，可以确定选择选项数据是否可用于被检索。在一些示例中，各种实体的选择选项数据可能先前已经在框208中例如由呼叫设备可访问的系统(例如，通过网络连接的其他远程设备或服务器)和/或由呼叫设备获得或确定，如图3的示例中所述。在一些实施方式中，针对目标实体标识符的选择选项数据的整个集合的一部分可能已经在框208中获得或确定并且可用于被检索。在一些情况下，在框208中获得的选择选项数据不包括目标实体标识符的数据，并且选择选项数据不可用于被检索。

在一些实施方式中，选择选项数据可能已经由呼叫设备存储，使得在框212中不需要检索选择选项数据。例如，针对目标实体标识符的选择选项数据可能先前已经基于呼叫设备对目标实体标识符的一个或多个先前呼叫来确定(例如，在框210之前)。如果目标实体标识符的呼叫菜单中的仅一些选择选项先前由呼叫设备确定和存储，则可以检索其他剩余的选择选项数据。

在另一示例中，针对目标实体标识符或其子集的选择选项可能先前已经由呼叫设备从一个或多个远程设备检索为选择选项数据。在一些实施方式中，可在框210中接收目标实体标识符(或其任何部分)之前检索选择选项或其子集并将其存储在呼叫设备的本地存储中。与在获得实体标识符时通过网络从远程设备(例如，从服务器、客户端设备或其他设备)检索选择选项相比，这可以使得呼叫设备能够更快地访问和显示选择选项。

在一些实施方式中，在框210的发起之前，可以接收远程设备上可用的选择选项数据的子集并将其存储(例如，缓存)在呼叫设备的本地存储中。例如，可以由呼叫设备获得并本地存储由用户呼叫的受欢迎的实体标识符的选择选项数据。在一些示例中，这些受欢迎的实体标识符可以是在实体标识符集合中被最频繁地呼叫的(例如，实体标识符集合中被呼叫最多次，或比未被缓存在本地存储中的其他实体标识符被呼叫更高的次数)，在特定时间段内被最频繁地呼叫的(如上所述)，和/或被位于呼叫设备的相同地理位置或地区中(或具有与用户/呼叫设备类似的其他特性)的用户最频繁地呼叫的(如上所述)。在另一示例中，可以由呼叫设备获得并且本地存储先前已经由呼叫设备的地理区域(或阈值距离)中的呼叫者呼叫至少阈值次数的实体标识符的选择选项数据。在另一示例中，可以针对位于用户的国家或呼叫设备当前所处的国家中的实体标识符下载选择选项数据。

如果在框212中确定不检索目标实体标识符的选择选项数据，则该方法可以继续到框216，如下所述。如果要检索选择选项数据，则该方法继续到框214。在框214中，检索可用选择选项数据并将其缓存(或以其他方式存储)在呼叫设备的本地存储中。缓存的选择选项数据可以用于在呼叫期间显示选择选项，如下所述。例如，呼叫设备可以通过网络从诸如服务器或其他设备的远程设备(例如，从用于各种实体的呼叫菜单选择选项的储存库)检索与目标实体标识符相关联的选择选项数据，并且将选择选项数据缓存在呼叫设备的本地存储中。在一些实施方式中，缓存的选择选项数据可以包括指示其中组织选择选项的呼叫菜单的结构的数据。在一些实施方式中，在用户许可的情况下，来自被分析以确定选择选项的呼叫的原始音频数据(或其签名)的部分可以与选择选项相关联地被缓存。

在一些实施方式中，在框210中呼叫设备完全获得实体标识符之前，例如在用户完成向呼叫设备输入实体标识符之前，呼叫设备可以请求从远程设备预取一个或多个选择选项。例如，呼叫设备可以从远程设备请求并下载用于多个候选实体(例如，呼叫设备的地理地区中被最频繁呼叫的实体或实体标识符，类似于如上所述)的选择选项，该多个候选实体与迄今为止已经输入的实体标识符的部分匹配。呼叫设备然后可以在标识符被完全指定之后选择并使用与实体标识符相关联的选择选项集合。这样的预取可以允许在指定实体标识符之后由呼叫设备更快地显示选择选项，因为选择选项数据的下载是在标识符输入完成之前发起的，并且从本地存储显示选择选项。

在一些实施方式中，如果已经接收到完整实体标识符的阈值部分，则执行选择选项数据的预取。在一些示例中，如果完整的实体标识符是10数位，则可以在已经接收到第八(或可替代地，第九)数位的部分标识符之后而不是之前执行预取。这允许将候选的数量缩小到在相对短的时间内可以在呼叫设备处接收的、足以在接收到完整标识符之后确定匹配的选择选项数据的数据量。在一些实施方式中，例如由呼叫设备或远程设备确定要由呼叫设备预取的更大量的选择选项数据的子集。例如，基于一个或多个因素，诸如指示用户先前已经呼叫了哪些实体的历史数据(例如，先前呼叫的最频繁和/或最近的实体)和/或用户数据中提及的实体(最近的消息，在用户许可下访问等)，数据子集可以与在用户许可下所确定的最可能由用户输入的标识符的实体标识符相关联。

在一些实施方式中，由呼叫设备存储的缓存的选择选项数据可以基于发生的特定条件——例如响应于数据基于呼叫设备的呼叫被校正、响应于数据在远程设备处被更新(例如，基于由其他用户进行的最近呼叫、添加新的实体或实体标识符等)、在每个特定时间段之后周期性地等——用较新的或校正的数据周期性地更新。

在一些实施方式中，选择选项数据(或其部分)可以在呼叫期间在呼叫设备上确定(如下所述)并且不从不同的设备下载。该方法可以继续到框216。

在框216中，检测已经使用所获得的实体标识符在呼叫设备与目标实体之间发起呼叫。在一些实施方式中，呼叫将呼叫设备和与目标实体相关联的设备连接。呼叫可以是包括音频的与目标实体的任何连接，例如，电话呼叫、经由OTT应用的呼叫、经由应用程序(例如，浏览器、银行应用、浏览器等)的呼叫等。在一些实施方式中，呼叫可以可选地是视频呼叫，其中传输视频数据以使得在呼叫设备和/或连接到呼叫的目标实体设备处显示呼叫者和/或被呼叫者的视频图像。在一些示例中，呼叫设备的用户可能已经发起呼叫，例如，在诸如拨号器应用或呼叫应用的应用的用户界面中选择呼叫控件，以使呼叫设备拨打实体标识符并发起与目标实体的呼叫。在一些示例中，呼叫可能已经由呼叫设备的应用自动发起，例如，在框210中获得实体标识符之后。在这些情况下，用户和呼叫设备是呼叫者。在一些其他示例中，呼叫可能已经由目标实体发起，在这样的情况下，目标实体设备是呼叫者，并且用户和呼叫设备是被呼叫者。本文中，可以在呼叫中活动并且表示目标实体的自动化系统(例如，IVR系统或应答机器)和/或人工智能体被称为目标实体。该方法继续到框218。

在框218中，确定缓存的选择选项是否可用于在与目标实体的呼叫中显示(例如，与当前呼叫的当前菜单级别或其他阶段中的显示相关的缓存的选择选项)。如以上关于框212和214所描述的，针对目标实体的实体标识符的选择选项可能已经被缓存在呼叫设备的存储中。在一些实施方式中，可以存在缓存在本地存储器中的选择选项数据，该选择选项数据在当前呼叫中(或在同一呼叫设备的先前呼叫中)被较早确定和存储，例如，来自下面的框222-230的一个或多个先前迭代，并且该缓存的数据可以与当前阶段中的显示相关(例如，如果用户已经回到当前呼叫中的呼叫菜单中的先前菜单级别)。如果没有缓存的选择选项可用，或者如果确定可用的缓存的选择选项不与呼叫的当前阶段(例如，用户已经导览到的呼叫菜单中的特定层级级别)相关联或相关，则该方法继续到框222，如下所述。

如果相关的缓存的选择选项可用于显示，则该方法继续到框220，其中基于一个或多个对应的缓存的选择选项来显示(例如，呼叫菜单的)一个或多个视觉选项。视觉选项是在呼叫设备的用户界面中显示的项目，其例如可以对应于通常在呼叫中向用户说出的呼叫菜单的可选选项。例如，视觉选项可以显示在拨号器应用或其他应用的界面内，或者显示在呼叫设备上显示的消息或通知中。在一些实施方式中，视觉选项可以显示在分离的窗口或显示区域中，和/或响应于用户选择控件以命令视觉选项的显示。

视觉选项可以包括文本、符号、图像、表情符号、图标和/或其他信息，并且呈现可由用户选择的选项。在一些实施方式中，视觉选项可通过用户提供触摸输入来选择，例如，在与视觉选项的显示相对应的位置中触摸或以其他方式接触触摸屏。在一些实施方式中，视觉选项中的一个或多个与指定符(例如，数字、名称、关键词等)相关联，该指定符通常由用户在呼叫期间说出或输入(例如，经由键按压)以选择与指定符相关联的选项。参考图4(参考图2的框224)并且参考下面描述的图5-13来描述显示视觉选项的一些示例。

在框220中，可以在由目标实体例如由自动化系统(例如，IVR系统或应答机器)或由人类智能体在呼叫中说出对应的可选选项之前显示视觉选项。因此，用户可以立即查看用户可用的可选选项中的一个或多个或全部，而不必等待经由较慢的语音方法听到选项。在一些实施方式中，可以仅显示用于层级呼叫菜单中的当前级别的选择选项，或者在其他实施方式中，可以显示来自呼叫菜单的多个级别的选择选项，例如，使得用户可以查看通过呼叫菜单的级别的选择路径。在一些实施方式中，或者如果由呼叫设备的用户或用户设置命令，则可以基于缓存的选择选项，在使用实体标识符在呼叫设备上发起呼叫之前显示视觉选项。在一些实施方式中，在发起呼叫之后显示视觉选项。例如，选择选项可以显示在拨号器应用或其他应用的界面中(或作为操作系统的通知)，使得用户可以在发起呼叫之前查看视觉选项。

在一些实施方式中，视觉选项还可以或可替代地包括其他可选项目。例如，视觉选项可以提供例如与目标实体相关的信息，并且可以与呼叫菜单的选项相关或无关。视觉选项可以包括可选项目或部分，诸如可以由用户选择以向目标实体发送特定选择或信息的按钮或复选框。在一些示例中，视觉选项可以包括web链接或到各种信息源的其他类型的链接。例如，如果由用户选择，则这样的链接可以使得网页、窗口或其他显示区域在呼叫设备上打开，例如在浏览器应用或其他应用中打开，并且使得信息被下载以在其中显示。在一些实施方式中，例如除了视觉选项之外，可以显示如上所述不可选择的其他视觉信息(例如，结构化信息)。该方法可以继续到框222。

在框222中，从呼叫接收音频数据，包括指示或表示由目标实体(例如，自动化系统或人类智能体)和由用户在呼叫中进行的语音的音频数据。该方法可以继续到框224。

在框224中，处理音频数据并且基于音频数据显示和/或更新视觉选项。例如，从音频数据中表示的语音确定文本，其中文本表示语音。基于文本确定呼叫菜单的选择选项(和/或其他选择选项)，所述选择选项允许呼叫设备的用户经由呼叫菜单进行导览。在一些实施方式或情况下，选择选项由呼叫设备显示为视觉选项。在一些实施方式或情况下，已经基于缓存的选择选项(例如，基于框220)显示了视觉选项，并且如果适当的话，可以基于经处理的音频数据来更新这些视觉选项和对应的选择选项。在一些实施方式中，还可以基于音频数据和从其导出的文本来确定包括选择选项的层级呼叫菜单的结构。下面参考图4描述显示和/或更新视觉选项的一些示例。

在一些实施方式中，例如，如果在框220中呼叫设备已经显示了缓存的选择选项，则可以跳过或省略框224。在一些实施方式中，如果最近确定了缓存的选择选项并且因此更可能是当前的，则可以跳过框224。

在呼叫中接收的音频数据也由呼叫设备输出，例如，在呼叫设备的音频系统处理音频数据之后，使得音频数据中的语音经由设备扬声器、耳机或呼叫设备中或连接到呼叫设备的其他音频设备播放。该方法可以继续到框226。

在框226中，确定用户是否已经选择了一个或多个视觉选项。各种实施方式可以允许选择视觉选项的一种或多种方法。例如，视觉选项可以由用户经由触摸屏界面、话音命令、物理输入设备(鼠标、操纵杆、触控板等)或其他用户输入设备来选择。如果在框226中没有视觉选项被选择，则该方法继续到框218以从呼叫接收附加音频数据。如果选择了视觉选项中的一个或多个，则该方法继续到框228。

在框228中，将与所选视觉选项相对应的选择选项发送到目标实体。在一些实施方式中，选择的指示被发送到目标实体，其中该指示与如同用户在呼叫中执行选项的标准选择一样提供的输入相对应。在一些示例中，如果通常可以经由用户语音(例如，说出诸如与选择选项相关联的数字或词的指定符)来选择所选择的选项，则所发送的指示可以是由呼叫设备在呼叫中说出的适当语音，例如，在由说出适当指定符的呼叫设备记录或合成的语音中。在一些示例中，用户可以经由非话音输入(例如，触摸触摸屏上显示的按钮或区域)选择视觉选项，并且呼叫设备可以输出经由语音选择对应的选择选项的语音。在另一示例中，如果通常可以经由按压键区或键盘的键来选择所选择的选项，则呼叫设备可以发送指示，该指示是与用户按压设备上的键相对应的信号。例如，这样的信号可以包括触摸音调(例如，双音调多频或DTMF信号)或其编码，或与被按压的特定键相对应的其他带内信号。在一些实施方式中，可以使用触摸音调或按键输入的替代，例如带外信号，诸如经由会话发起协议(SIP)、实时传输协议(RTP)、H323等提供的信号。

在框230中，确定是否存在要显示的更多选择选项。例如，框226的用户选择可以使得导览到呼叫菜单的下一级别(例如，在呼叫菜单中向前或向后导览)。目标实体可以例如通过基于先前选择的选项为用户说出新的选择选项集合来在呼叫中开始呈现下一级别，其中新的选项集合可以由呼叫设备显示。在一些情况或实施方式中，新的选择选项集合在用户先前导览到的呼叫菜单的先前级别中，并且那些选择选项可能已经在方法200的先前迭代中被缓存。可以从呼叫设备的本地存储器中的缓存中检索这样的缓存的选择选项。如果存在要显示的更多选择选项，则该方法继续到框218以检查缓存的选择选项是否可用于新的选择选项集合。

如果响应于用户选择在框230中不存在要显示的选择选项，则该方法继续到框232，其中基于目标实体的一个或多个动作来获得结果。目标实体可以响应于接收到所选择的选项而执行任何类型和/或数量的动作。例如，动作可以是从目标实体接收的信息的呈现，例如，如果用户的选择是通过呼叫菜单的特定路径中的最后选项。例如，目标实体可以在呼叫中呈现(例如，说出)用户已请求的信息，其由呼叫设备在框230中接收。在一些实施方式或情况下，可以在接收到这样的信息之后结束呼叫。在一些实施方式或情况下，目标实体可以请求用户说出信息，例如，用户名或其他信息(地址、账号等)。在一些实施方式中，目标实体可以将目标实体的人类智能体连接到呼叫以向用户说话——这可以由呼叫设备(例如，使用语音识别技术)来检测——并且提供通知给用户。

在一些情况下，目标实体的动作可以包括将呼叫设备挂起(on hold)，例如，等待人类智能体变得可用。在一些实施方式中，呼叫设备(和/或连接的设备)可以在没有用户输入或干预的情况下自动确定呼叫设备在当前呼叫中是否挂起，例如，通过使用语音识别技术来确定实体的自动化系统是否正在经由特定词(例如，“an agent can take your callin 10minutes,thanks for waiting(智能体可以在10分钟内接通您的呼叫，感谢等待)”)或经由指示挂起状态的音乐播放来指示呼叫被挂起。在一些实施方式中，如果呼叫已经被目标实体置于挂起，则呼叫设备可以显示该挂起状态的指示，例如，示出音乐播放的消息等。在一些实施方式中，呼叫设备可以例如经由人类智能体或用户说出的特定词、停止挂起音乐或自动话音等来检测在呼叫处于挂起时人类智能体是否已经连接到呼叫，使得呼叫不再处于挂起。在一些实施方式中，呼叫设备可以输出指示呼叫不再处于挂起并且人工智能体连接到呼叫的通知。

在一些实施方式或情况下，在目标实体采取动作之后，目标实体呈现返回到呼叫菜单的选项，在这样的情况下，过程可以继续到框218。

在一些实施方式中，在呼叫结束之后，由方法200确定和显示的选择选项可以被存储在呼叫设备的缓存(或其他存储)中和/或可以被发送到远程设备的存储(通过网络连接)，诸如服务器，其存储各种实体的选择选项数据并且可由多个呼叫设备访问。如果用户使用呼叫设备(或其他用户设备或客户端设备)再次呼叫相同的目标实体标识符，则存储在呼叫设备的缓存中和/或存储在远程设备上的选择选项数据可以被用于新呼叫，例如，以在呼叫中说出那些选项之前显示选择选项。在一些实施方式中，可以从呼叫设备的本地存储检索一些选择选项(例如，先前已经基于选择这些选择选项的呼叫存储在本地存储中)和/或可以从远程设备检索一些选择选项，类似于如上所述。类似地，对缓存的选择选项的任何更新或校正可以被缓存在呼叫设备上和/或被发送到诸如服务器的远程设备处的各种实体的选择选项数据的存储。

在一些实施方式中，在用户许可的情况下，指示呼叫的事件和/或结果的数据可以与在呼叫之后存储的选择选项一起存储为元数据。例如，在用户许可的情况下，结果数据可以包括在呼叫中选择了哪些选择选项的指示、用户是否能够在拨打特定选择选项之后连接到人类智能体的指示、在用户从呼叫断开连接之前选择的选择选项和持续时间的指示等。当从多个呼叫和呼叫设备累积时，此类数据可用于确定是否在未来呼叫中修改由实体提供的选择选项，例如以提高所呈现的呼叫者菜单的有效性和效率。

在一些实施方式中，如果已经获得用户同意，则可以存储呼叫的转录和/或用户在呼叫期间选择的选择选项，并且用户可以例如从呼叫设备或其他用户界面上的呼叫日志查看。

图3是示出根据一些实施方式的基于所获得的数据和/或呼叫来获得实体的选择选项的示例方法300的流程图。例如，方法300可以被实现为图2的框208或者框208的一部分，以在可以使用这样的选择选项的对目标实体的呼叫之前获得实体的选择选项。在一些实施方式中，方法300可以由服务器或除了呼叫设备之外还有的其他设备执行，例如，以获得可以由呼叫设备(例如，客户端设备或其他设备)在对目标实体的呼叫之前或期间下载或访问的选择选项，如参考图2所述。在一些实施方式中，方法300可以由呼叫设备(例如，客户端设备)执行，或者方法的不同部分可以分别由服务器设备和/或客户端设备执行。

该方法开始于框302。在框302中，从实体集合获得实体数据，实体数据包括针对与实体集合中的实体相关联的实体标识符的选择选项数据。在一些实施方式中，为了在对实体的呼叫中提供选择选项的目的，可以由实体使实体数据可用。例如，实体数据可以包括在使用实体标识符的实体标识符的呼叫期间在相关联实体的呼叫菜单中说出的选择选项的指示——包括选项的文本和其他细节——和/或其中出现选择选项的呼叫菜单的层级结构。在一些示例中，可以针对满足特定标准的特定实体(或实体标识符)集合来寻找实体数据。例如，该集合可以包括具有在呼叫设备的地区或区域中和/或在特定时间段内最受欢迎的被呼叫的实体标识符的多个实体。例如，受欢迎的实体标识符可以是类似于如上所述最频繁和/或最近呼叫的，并且呼叫可以在特定时间段内和/或由呼叫设备的阈值距离或地理区域内的呼叫者进行。在一些实施方式中，可以周期性地从实体获得实体数据，使得在所获得的实体数据中包括更多的近期更新。在一些实施方式中，可以从与由实体标识符表示的实体相关联的实体——诸如呼叫中心或与实体相关联的其他实体——获得实体数据。该方法继续到框304。

在框304中，确定实体数据对于从中寻找实体数据的实体集合中的一个或多个实体标识符是否不可用。在各种示例中，实体数据可能由于各种原因(例如，安全限制、选择选项被快速改变和过时(obsolete)的趋势、技术问题等)中的任何原因而不被实体提供。在一些实施方式中，如果已知可用的实体数据过期和/或不正确，则可以认为实体标识符的实体数据不可用。如果实体数据可从该实体集合获得，则该方法继续至图2的框210，如上所述。如果实体数据不可从该实体集合中的一个或多个实体获得，则该方法继续到框306。

在框306中，从与实体集合相关联的实体标识符中选择实体数据不可从实体获得的实体标识符。在一些实施方式中，这可以包括已知实体数据不完整的实体标识符，例如，实体数据可以指定呼叫菜单的一些但不是全部选择选项。在一些实施方式中，可以根据用户反馈来确定不完整的实体数据，该用户反馈基于所获得的实体数据指示在呼叫期间显示的缓存的选择选项中一个或多个选择选项缺失(或不正确)，并且因此该实体数据可能是不完整的。该方法继续到框308。

在框308中，从包括所选择的实体标识符的一个或多个先前呼叫中确定选择选项数据是否可用于所选择的实体标识符。例如，一个或多个用户可能已经在先前的场合使用所选择的实体标识符进行了呼叫，并且在那些呼叫期间接收的选择选项可能已经被保留，例如，在用户许可的情况下被检测和/或存储。在一些实施方式中，那些呼叫的其他呼叫特性(例如，实体标识符、呼叫时间、呼叫位置、呼叫持续时间等)也可以在用户许可的情况下被保留，其中呼叫特性已经与进行呼叫的用户解除关联，使得仅呼叫特性是已知的。这样的数据中的一些或全部可用于方法300。例如，在用户同意的情况下，用户群体可能已经使用从其获得呼叫特性的呼叫设备通过通信网络进行了先前呼叫。如果没有这样的数据可用，则过程可以继续到下面描述的框312。如果这样的选择选项(和/或其他数据)可用，则过程继续到框310。

在框310中，基于先前的呼叫针对所选择的实体标识符确定选择选项。如果已经获得用户同意，则可以由系统基于使用诸如经由机器学习模型的语音识别或其他技术(如下文参考图4所述)的技术对来自先前呼叫的记录的音频数据中的语音数据的分析来自动确定一个或多个选择选项。例如，从对所选择的实体标识符的先前呼叫确定的选择选项数据可以指示在该呼叫中呈现的选择选项的文本，和/或包括在呼叫中呈现的选择选项的呼叫菜单的结构数据(例如，呼叫菜单中的选择选项的层级结构和特定选项对先前选择的选项的依赖性，指示需要先前选项的哪些选择来访问那些选项)。在一些实施方式中，特定呼叫可能已经导览到并登记了呼叫菜单中的一些选择选项，但不是所有选择选项。例如，在所登记的呼叫中，用户可能已经通过呼叫菜单选择了连续选择选项的单个导览路径，而无需向下进行任何其他路径或选项分支。在一些实施方式中，框310可以包括检查遵循呼叫菜单中的选择选项的不同分支的对所选择的实体标识符的多个先前呼叫，直到确定呼叫菜单的每个分支中的所有选择选项(如果可能的话)。在一些实施方式中，在用户许可的情况下，可以与所确定的选择选项相关联地存储被分析以确定选择选项的音频数据(或其签名)的部分。该方法可以继续到下面描述的框318。

在框312中，在确定选择选项数据不可从针对所选择的实体标识符的先前呼叫获得之后，发起使用所选择的实体标识符的一个或多个呼叫。在一些实施方式中，自动化系统可以用于呼叫所选择的实体标识符一次或多次。在一些实施方式中，可以在特定时间进行呼叫，例如，如果实体是企业，则在营业时间内进行呼叫。在一些实施方式中，可以在各种时间——例如，在营业时间之外——进行多个呼叫，以确定可能在这样的各种时间呈现的不同的选择选项数据。该方法继续到框314。

在框314中，确定——例如，检测和存储——呼叫中说出的选择选项，使得确定用于所选择的实体标识符的选择选项。在一些实施方式中，使用一种或多种语音识别技术——例如，机器学习模型或其他技术——来检测选择选项。下面参考图4描述从音频语音数据检测选择选项和菜单结构的一些示例，并且可以在框314中使用类似的技术。在一些实施方式中，框314包括选择在呼叫中呈现的选择选项以导览到呼叫菜单的进一步的层级，并且在那些层级处接收音频数据以检测进一步的选择选项。在一些实施方式中，可以在对所选择的实体标识符的每个呼叫中选择经由呼叫菜单的选择选项的不同导览路径，以便确定所呈现的呼叫菜单中的每个可用选择选项。在一些实施方式中，可以在多个呼叫中导览选择选项的相同路径，例如，以提供用于比较的附加数据并检查在检测选择选项时的错误。在一些实施方式中，如果在框314之前或在框314的迭代之前一些选择选项可用，则可以选择菜单的尚未确定的部分(例如，分支)以确定所提供的选择选项，并且可以跳过可用的选项或部分。在一些实施方式中，在用户许可的情况下，可以与所确定的选择选项相关联地存储被分析以确定选择选项的音频数据(或其签名)的部分。该方法继续到框316。

在框316中，可以基于框314的检测到的选择选项来确定所选择的实体标识符的呼叫菜单的菜单结构。例如，存储检测到的选择选项，并且创建数据结构(例如，图、表等)，该数据结构提供呼叫菜单的不同层级级别处的选择选项之间的关系和依赖性。可以检查来自对所选择的实体标识符的多个呼叫的选择选项数据，以根据可用数据形成尽可能完整的呼叫菜单结构。在一些实施方式中，呼叫菜单中的选择选项的结构可能先前已经例如基于来自框302的部分完整的实体数据或方法300的先前迭代被确定。可以将来自在框312和314中进行的呼叫的选择选项数据添加到这样的现有数据结构。该方法可以继续到框318。

在框318中，确定是否存在要选择的实体数据不可用的更多实体标识符，并且可以确定选择选项数据。如果是，则过程继续到框306，在框306中，选择另一实体标识符以确定选择选项数据。如果没有更多的实体标识符要选择，则过程可以继续到图2中的框210。

图4是示出根据一些实施方式的用于处理来自呼叫的音频数据并基于音频数据显示或更新视觉选项的示例方法400的流程图。例如，在框222之后，可以在图2的框224中实现方法400，其中在已经使用所获得的实体标识符发起的与目标实体的呼叫中接收音频数据。

该方法开始于框402。在框402中，确定表示呼叫的音频数据中的语音的文本。在一些实施方式中，使用一种或多种语音识别技术——例如，使用一种或多种机器学习模型和/或其他技术——来确定文本。在一些实施方式中，例如，如果用户已经给予许可和/或设置相关联的用户设置，则呼叫设备可以提供呼叫的转录，其中显示呼叫中说出的所有词的识别文本，包括介绍性语音、用户响应等。方法继续到框404。

在框404中，基于在框402中确定的文本和/或在框222中接收的音频数据来确定一个或多个当前选择选项和/或菜单结构。在一些实施方式中，每个选择选项通常包括所描述的用于选择的选项，其可以伴随有用于用户要输入到呼叫以选择该选项的选项的选择指定符，例如，通过说出指定符或按下呼叫设备上的对应键或按钮(例如，以提供由触摸音调电话提供的音调，或参考图2描述的其他信号)。在一些示例中，可以基于可以指示或划定正在呈现的选择选项的特定说出的词(或其他说出的指定符)来检测选择选项。例如，选择选项通常可以包括：后跟动词的词“to”(例如，“to speak to a representative(向代表说话)”或“for your account balance(对于您的账户余额)”，或者后跟名词的词“for”(例如，“for Spanish(对于西班牙语)”或“for your account balance(对于您的账户余额)”)。选择选项通常可以从包括“press(按压)”或“say(说)”的短语开始或结束，随后是诸如数字或词的指定符，例如“press or say two(按压或说二)”。在一些实施方式中，语音识别技术可以被定向或训练来识别这样的单词以检测选择选项。

在一些实施方式中，还可以基于检测到的选择选项来确定或添加用于所选择的实体标识符的呼叫菜单的菜单结构，例如，如果音频数据和/或确定的选择选项指示在呼叫中已经访问了呼叫菜单的不同级别。这可以例如在用户选择所呈现的选择选项之后发生。在一些示例中，可以创建提供呼叫菜单的不同层级级别处的选择选项之间的关系和依赖性的数据结构(例如，图、表等)。在一些实施方式中，可以检查所确定的和用户选择的选择选项以形成呼叫菜单结构，该呼叫菜单结构随着呼叫进行以及进一步的选项被选择而被添加。在一些实施方式中，可以将呼叫菜单结构与缓存的呼叫菜单结构(例如，其可以类似于如本文所述的缓存的选择选项)进行比较，和/或可以存储或在对目标实体的未来呼叫中访问呼叫菜单结构，以提供用于那些呼叫的呼叫菜单结构，如本文所述。

在一些实施方式中，一个或多个模型可以用于从音频语音数据和/或从音频语音数据确定的文本中检测选择选项和/或菜单结构。在各种实施方式中，这些模型可以不同于用于确定在框402中使用的音频数据中表示语音的文本的模型，或者这些模型的功能可以包括在框402中使用的相同模型中。在一些实施方式中，可以基于先前呼叫的呼叫特性来训练用于检测选择选项的模型，包括提供说出的选择选项、文本选择选项、呼叫菜单结构等的音频数据。在一些示例中，可以用提供与选择选项相对应的词的示例的训练数据和/或包括非文本数据(例如，与选择选项相对应的音频数据片段或签名)的训练数据来训练模型。在一些实施方式中，模型是机器学习模型，例如，具有一个或多个节点的神经网络，其根据网络架构布置，例如，在一个或多个层中，其中各种节点经由网络架构连接，并且具有相关联的权重。例如，在模型的训练阶段，可以使用训练数据来训练模型，然后在推理阶段，经训练的模型可以基于输入数据提供输出。下面参考图15描述可以包括在模型中的特征的附加示例。其他类型的模型或技术也可以或可替代地用于检测选择选项。

在一些示例实施方式中，包括一个或多个机器学习模型的系统以流式传输方式处理来自呼叫的音频数据，通过语音识别模型运行音频数据以提供文本(如框402中)，然后通过从BERT(来自变换器的双向编码器表示)或其他合适的编码预训练的专用神经网来检测选择选项和/或呼叫结构。另外，可以用音频到意图架构直接处理音频数据，并且结果可以基于输出的组合。输出提供选择选项集合和从音频数据检测到的那些选项的呼叫菜单结构(例如，层级结构)。

一些实施方式可使用若干其他特征中的任一者。例如，一些系统可以接收音频数据流，实时地处理文本到语音，并且具有流式语音识别；机器学习模型可以随着接收到附加音频数据而随着时间的推移通过改变流式音频数据的识别来校正识别的文本；模型可以确定语音识别中的置信水平；模型可以使用非文本线索或数据部分，如音频和定时(例如，词之间的暂停)以帮助识别语音等。方法可以继续到框406。

在框406中，例如从图2的框220确定缓存的选择选项是否已经在当前呼叫中显示，以示出在目标实体说出那些选项之前用户可用的选择选项。如果尚未显示缓存的选择选项，则该方法可以继续到框414，如下所述。如果缓存的选择选项已经被显示，则该方法可以继续到框408。

在框408中，确定在框404中确定的当前选择选项与已经显示的缓存的选择选项之间是否存在不匹配，例如，这些选项之间是否存在足够大的差异以满足一个或多个阈值。将当前选择选项与缓存的选择选项进行比较，并且在一些实施方式中，比较当前和缓存的选择选项的菜单结构。

在各种实施方式中，可以使用各种技术中的一种或多种将当前选择选项与缓存的选择选项进行比较。在第一技术的一些示例中，可以将缓存的选择选项的文本与当前选择选项的对应确定的文本进行比较。在许多情况下，这些选项的文本可能由于语音识别中的错误——例如，来自影响音频数据的呼叫中的不良声学特性或出于其他原因——而不完全匹配。在一些实施方式中，可以例如使用文本比较技术来确定当前选择选项和缓存的选择选项之间的不匹配的幅度或严重性。如果不匹配的幅度低于阈值，则可以认为缓存的选择选项和当前选择选项匹配。

在用于比较选择选项的另一技术的一些示例中，可以将在图2的框222中接收的呼叫的音频数据与缓存的选择选项的对应音频数据部分(如果可用)进行比较，并且可以确定音频数据中的差异。在一些实施方式中，如果已经获得用户许可，则缓存的选择选项可以基于来自先于当前呼叫做出的对目标实体标识符的呼叫(例如，在如上所述的图3的框312中发起的呼叫中)的特定音频数据；这样的音频数据也可以可用于训练机器学习模型中的使用，例如，用于检测选择选项。例如，在用户许可的情况下，用于确定缓存的选择选项(例如，来自先前呼叫)的音频数据可以与缓存的选择选项相关联地存储(或者可以存储从音频数据导出的音频签名)，例如，存储在呼叫设备的本地存储器中或从远程设备检索。可以比较缓存的选择选项和当前选择选项的对应音频数据(或对应音频签名)以寻找差异。如果在当前的音频数据和缓存的音频数据中发现音频数据的显著差异(例如，存在多于阈值差异)，则可能存在不匹配。比较技术可以被选择为稳健的，以考虑不同呼叫的音频质量的可能变化。

在用于确定当前选择选项的文本的准确性的技术的一些示例中，音频数据和当前选择选项的文本两者都可以用于通过将音频和文本对齐来确定文本的准确性。例如，可以基于音频数据和/或来自先前呼叫中的选择选项的识别文本的输入来训练机器学习模型，以输出文本已经从当前呼叫中的音频数据被准确识别的可能性的指示。基于当前呼叫的音频数据，例如基于与文本相对应的词和形成词的上下文的周围词的音频数据，确定文本正确的可能性。这样的模型可以用于提供在框404中确定的当前选择选项的文本的准确性。在一些实施方式中，还可以将对应的缓存的选择选项的音频数据和/或文本作为输入提供给模型，以为模型提供进一步的参考或比较，以增加模型输出的准确性(例如，可能已经基于这样的补充输入训练了模型)。在一些实施方式中，该技术可以在框402中用作当前选择选项的语音识别技术。

如果已经接收到足够的当前选择选项(和用户选择)以从当前呼叫确定呼叫菜单结构的至少一部分，则还可以比较缓存的选择选项和当前选择选项的菜单结构。例如，可以在缓存的呼叫菜单和当前的呼叫菜单之间比较从先前的选择选项导览到的选择选项。

在一些实施方式中，框408的比较可以确定缓存的选择选项(和/或菜单结构)是否可能不正确。例如，目标实体可能已经改变了其呼叫菜单，并且缓存的选择选项可能已经在目标实体呈现的选择选项被改变之前的先前时间获得。由于在当前呼叫中检测到呼叫选项，因此在框404中确定的选择选项通常可能更是最新的。

如果当前选择选项与所显示的缓存的选择选项匹配(例如，基于一个或多个阈值)(并且呼叫菜单结构匹配)，则该方法可以继续到框418，如下所述。在这样的情况下，不改变或更新所显示的视觉选项，因为与当前选择选项没有显著的不一致。如果当前选择选项和缓存的选择选项中存在不匹配，例如，如果当前选择选项中的任何一个基于一个或多个阈值不同于所显示的缓存的选择选项(或者如果呼叫菜单结构不同)，则该方法继续到框410。

在框410中，基于当前选择选项来校正与当前选择选项不同的缓存的选择选项。例如，可以通过用被认为正确的对应当前选择选项选择性地替换(被认为不正确的)不同的缓存的选择选项来更新存储不同的缓存的选择选项的缓存或其他存储。在一些示例中，对于对应的当前选择选项，缓存的选择选项“to receive information about your order,sayor press 3(接收关于您的订单的信息，说3或按压3)”可以被检测为“to receiveinformation about your order,say or press 4(接收关于您的订单的信息，说4或按压4)”，其中除了数字之外的每个词匹配；因此，在存储该选择选项的存储中将前一个实例“3”改变为“4”以校正选项。在一些实施方式中，缓存的整个选择选项或较大部分可以被丢弃并用对应的当前选择选项替换。在一些实施方式中，如果不匹配类似地存在于呼叫菜单结构中，则不匹配的先前结构元素可以由在方法400中确定的元素替换。

在一些实施方式中，对过时的选择选项(和/或呼叫菜单结构)的校正还可或可替代地发送到可存储这些选择选项的其他设备以更新由其他设备存储的选择选项。例如，服务器(或其他远程设备)可以存储在框208中获得的当前选择选项，并且可以向该服务器发送已经在框404中确定的正确的更新的选择选项(和/或呼叫菜单结构)。在一些实施方式中，服务器还可确定其他呼叫设备是否已将这样的校正发送到服务器以确定校正的准确性。例如，如果阈值数量的呼叫设备已经向特定选择选项发送了校正，则服务器可以假设校正是准确的，并且可以将校正应用于其对应的存储的选择选项。

在一些实施方式中，缓存的选择选项(和/或呼叫菜单结构)可以不基于当前选择选项的差异来校正，例如，如果一个或多个特定条件适用。例如，在一些实施方式中，如果当前选择选项(和/或呼叫菜单中的它们的结构)通过具有低于特定阈值的置信水平的语音识别技术来识别，则当前选择选项可能尚未被正确地识别，并且缓存的选择选项不被调整。在一些实施方式中，如果缓存的选择选项具有比当前时间之前的阈值时间段更早的创建日期从而指示它们更可能是陈旧的或过期的，则可以调整缓存的选择选项。该方法可以继续到框412。

在框412中，基于在框404中从当前呼叫确定的当前选择选项来更新由呼叫设备显示的视觉选项。例如，与在框410中发现为不正确或过时的选择选项相对应的视觉选项可以由与替换不正确选项的对应(例如，当前)选择选项相对应的视觉选项替换。在一些示例中，不正确视觉选项的文本被改变为正确视觉选项的文本。在一些实施方式中，还在呼叫设备的用户界面中显示通知，该通知指示已经执行了校正和/或可以具体地指示已经执行了哪些校正。在一些实施方式中，在特定条件下，例如，当选择选项的文本的语音识别的置信水平低于阈值时，不执行校正。在一些实施方式中，可显示通知，该通知指示所显示的视觉选项与呼叫中的语音之间可能存在不一致(例如，指示视觉选项的信息可能不是在呼叫中由目标实体说出的内容)。在一些实施方式中，不执行校正，并且响应于确定对应的选择选项中的一个或多个不正确，可以从屏幕移除不正确的(和/或全部)视觉选项。该方法可以继续到下面描述的框418，如下所述。

在框414中，在框406中确定没有缓存的选择选项可用并显示用于当前呼叫之后，在框404中确定的当前选择选项可以缓存在呼叫设备的本地存储器中。在一些实施方式中，可以稍后检索这样的缓存的选择选项以用于在当前呼叫中显示——例如，如果用户在当前呼叫中重新访问菜单级别——和/或可以在稍后的呼叫中检索和显示。在一些情况下，当前选择选项中的一个或多个可能已经被缓存，例如，在当前呼叫或先前呼叫中的方法400的先前迭代中。该方法可以继续到框416。

在框416中，基于在框404中确定的当前选择选项来确定和显示当前呼叫的视觉选项。在一些实施方式中，在描述选择选项的语音已经完成之后显示选择选项，并且每个附加选择选项可以在对应的语音完成描述之后显示(例如，在当前呼叫期间的方法400的稍后迭代中)。在一些实施方式中，如果这是用于当前呼叫的框416的第一次迭代，则视觉选项可以是在用于当前呼叫的用户界面中显示的第一视觉选项。在稍后的迭代中，在框416中显示的视觉选项可以添加到在先前迭代中显示的现有视觉选项。该方法可以继续到框418。

在框418中，在用户界面中显示和/或更新当前口头文本的指示符，以指向当前由呼叫中的目标实体说出的视觉选项的一部分。在一些实施方式中，显示指示符视觉地指示在呼叫中当前正在说出哪个词、短语或整个选择选项。该特征可以用于向用户指示当前正在通过呼叫中的语音呈现先前显示的视觉选项中的哪一个。在各种示例中，指示符可以采取各种形式，诸如用于当前正在说出的视觉选项(或其部分)的粗体文本；相对于视觉选项的其他文本和正在显示的其他视觉选项，改变这样的文本的字体、颜色、大小或其他视觉特性；向界面添加与当前正在呼叫中说出的词视觉上相关联的指针；等等。例如，指针可以是图标、箭头或出现在当前正在呼叫中说出的词上方的其他对象。

在一些实施方式中，如果从音频数据确定的文本的识别的置信度(如框402中)低于阈值，则当在框412或416中显示视觉选项时，可以由呼叫设备输出通知。在一些实施方式中，从呼叫音频数据识别的文本(例如，在框402中)可以被确定为与在呼叫设备上使用的用户标准语言不同的语言，并且该文本可以被自动翻译，使得呼叫菜单选择选项以用户的语言显示。

在各种实施方式中，例如，如果在特定实施方式中没有提供那些框的特定特征，则可以从方法400中省略一个或多个框。例如，在不使用缓存的选择选项的一些实施方式中，可以省略框406-412。在另一示例中，可以省略图3中的在特定实施方式中不用于获得实体数据的框。

本文描述的方法、框和操作可以以与图2-4中示出或描述的次序不同的次序执行，和/或在适当的情况下与其他框或操作(部分或完全地)同时执行。例如，图2的框220可以至少部分地与框222和/或224同时执行。在另一示例中，图4的框414和416可以以不同的次序和/或至少部分地同时执行。一些框或操作可以针对一部分数据执行，并且稍后例如针对另一部分数据再次执行。并非所有描述的框和操作都需要在各种实施方式中执行。在一些实施方式中，框和操作可以在方法中以不同的次序和/或在不同的时间执行多次。

本文公开的一种或多种方法可以在若干环境和平台中操作，例如，作为可以在任何类型的计算设备上运行的独立计算机程序、作为在移动计算设备上运行的移动应用(“app”)等。

本文描述的一种或多种方法(例如，200、300和/或400)可以在独立程序中运行，该独立程序可以在任何类型的计算设备上执行，可以在web浏览器上运行的程序上运行，可以在移动计算设备(例如，蜂窝电话、智能电话、平板计算机、可穿戴设备——诸如腕表、臂带、珠宝、头饰、虚拟现实护目镜或眼镜、增强现实护目镜或眼镜、头戴式显示器等、膝上型计算机等)上运行的移动应用(“app”)上运行。在一个示例中，可以使用客户端/服务器架构，例如，移动计算设备(作为客户端设备)向服务器设备发送用户输入数据，并且从服务器接收最终输出数据以用于输出(例如，用于显示)。在另一示例中，方法的所有计算可以在移动计算设备上的移动app(和/或其他app)内执行。在另一示例中，可以在移动计算设备和一个或多个服务器设备之间分割计算。

在一个示例中，可以使用客户端/服务器架构，例如，移动计算设备(作为客户端设备)向服务器设备发送用户输入数据，并且从服务器接收最终输出数据以用于输出(例如，用于显示)。在另一示例中，可以在移动计算设备上的移动app(和/或其他app)内执行所有计算。在另一示例中，可以在移动计算设备和一个或多个服务器设备之间分割计算。

本文描述的方法可以通过可以在计算机上执行的计算机程序指令或代码来实现。例如，代码可以由一个或多个数字处理器(例如，微处理器或其他处理电路系统)实现，并且可以存储在计算机程序产品上，该计算机程序产品包括非暂时性计算机可读介质(例如，存储介质)，诸如磁、光、电磁或半导体存储介质，包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、刚性磁盘、光盘、固态存储器驱动器等。程序指令还可以被包括在电子信号中并作为电子信号提供，例如以从服务器(例如，分布式系统和/或云计算系统)递送的软件即服务(SaaS)的形式。可替代地，一种或多种方法可以以硬件(逻辑门等)或硬件和软件的组合来实现。示例硬件可以是可编程处理器(例如，现场可编程门阵列(FPGA)、复杂可编程逻辑器件)、通用处理器、图形处理器、专用集成电路(ASIC)等。一种或多种方法可以作为在系统上运行的应用的一部分或组件来执行，或者作为结合其他应用和操作系统运行的应用或软件来执行。

图5是根据一些实施方式的由其中可以发起呼叫的呼叫设备的显示屏显示的示例用户界面500的示意图。例如，界面500可以由客户端设备——例如，如图1所示的客户端设备120-126中的一个——或诸如服务器设备——例如，服务器系统102——的不同设备的显示设备显示在触摸屏上。

在一些实施方式中，用户界面500可以与呼叫应用程序相关联，该呼叫应用程序发起对其他设备的呼叫，应答来自其他设备的传入呼叫，并且经由呼叫连接与其他设备通信。在该示例中，显示目标实体的名称502，其中目标实体已经例如直接由用户从网页、联系人列表或其他信息显示中选择，作为对实体的搜索或导览的结果，或者作为在呼叫设备或其他设备上执行的另一用户应用或应用过程的结果。还显示了呼叫界面504，其包括数字键区508、标识符键入字段510和呼叫(Call)控件512。数字键区508的键可由用户(例如，经由触摸屏或其他输入设备)选择以在键入字段510中键入标识符514，例如，一次一个字符，或在其他实施方式中键入多个字符。实体标识符514与由实体名称502指示的实体相关联。可以通过使用实体标识符514向实体发起呼叫。例如，实体标识符514被示出为电话号码，但是也可以输入其他类型的标识符以实现对与标识符(例如，电子邮件地址或其他地址)相关联的实体的呼叫。在一些实施方式中，可以由呼叫设备例如响应于用户选择从不同的应用(例如，地图应用、web浏览器等)呼叫目标实体而在键入字段510中自动键入标识符514，这使得呼叫设备显示界面500。如果用户选择了呼叫控件512，则呼叫控件512可以使呼叫设备拨打由名称502指示的目标实体的标识符514并发起对目标实体的呼叫。

图6是根据一些实施方式的其中显示用于呼叫中的呼叫菜单的选择选项的呼叫界面600的示意图。呼叫界面600可以由呼叫设备(例如，诸如客户端设备120-126之一的客户端设备，或诸如服务器系统102的不同设备的显示设备)显示。例如，可以在经由图5所示的实体标识符514发起对目标实体502的呼叫之后显示呼叫界面600。在一些示例中，可以响应于用户选择由用户选择的图5的界面500的呼叫控件512来发起呼叫。可替代地，可以以各种其他方式发起呼叫，例如，响应于用户对目标实体或实体标识符的选择、响应于另一事件、自动地基于来自用户的调度命令等而由应用发起。

可以显示目标实体的名称602以指示当前呼叫的被呼叫者。还可以显示持续时间以指示自发起呼叫以来经过的时间。

在一些实施方式中，如果已经获得来自用户的许可和/或命令，则在呼叫期间由用户和目标实体发出的所有语音的转录可以由呼叫设备转录并显示在用户界面600中。例如，语音的转录可以显示在用户界面600的显示区域604中。界面600还可以包括各种用户控件，当由用户选择时，这些用户控件引起对与呼叫或界面600相关的功能的控制。例如，断开控件606使呼叫设备从呼叫断开，键区(Keypad)控件608使数字键区(或键盘)显示在接面600中或之上(例如，类似于键区508)，扬声器(Speaker)控件610使呼叫设备的音频输出作为扬声器电话输出，并且静音(Mute)控件612使呼叫设备处的用户语音和其他声音不被发送到呼叫中的被呼叫者。

在图6的示例中，对目标实体的呼叫由自动话音(IVR)系统(作为目标实体)应答，其中自动话音说话并在呼叫菜单中为用户(呼叫者)提供选择选项。从在呼叫期间由用户的呼叫设备检测和识别的语音转录文本614。转录文本614的第一部分616与提供介绍性信息的自动系统的语音相对应，该介绍性信息被检测为不是呼叫菜单的选择选项，也不是这样的选择选项的一部分。在其他实施方式中，被检测为不包括在选择选项中的文本，诸如第一部分614，不被呼叫设备显示，除非用户已经设置了设备偏好或设置为这样做。

文本614的第二部分618与在呼叫中被检测为与默认语言或第一部分616的语言不同的语言的语音相对应。第二部分618与由目标实体呈现的呼叫菜单中的选择选项(“forSpanish press number 9(对于西班牙语按压数字9)”)相对应。在图6中，第二部分618尚未被检测为选择选项。

图7是根据一些实施方式的呼叫界面600的示意图，其中检测并显示呼叫中的呼叫菜单的选择选项。在图7的示例中，已例如使用语音识别技术将转录文本614的第二部分618(在图6中示出)检测为呼叫菜单中的选择选项。例如，在检测到将其指定为选择选项的词之后，文本的第二部分618被转换(例如，通过呼叫设备或连接的远程设备)为具有在界面600中显示的相关联的视觉选项702的选择选项。此外，文本部分614从屏幕移除，被视觉选项702替换。在一些实施方式中，当将文本转换为视觉选项时，可以移除第二部分618中的一些文本，如针对视觉选项702所示，使得可以更简洁地呈现视觉选项。

在一些实施方式中，如所示，可以在视觉选项702的文本周围显示边界、轮廓或其他视觉分隔符，以指示视觉选项702是可以与按钮类似地选择的划定选项。在该示例中，在说出的选择选项(“nueve(九)”)中指定的数字被转换成在视觉选项702中显示(或与之相关联)的选择指定符704，其指示可以在键区上选择的(例如，经由键区控件608)(或在一些实施方式中，在呼叫中说出)用于选择视觉选项702的数字。在该示例中，如果用户选择了视觉选项702，则自动系统在当前呼叫中说话的语言被改变为所指示的语言(在该示例中为西班牙语)。视觉选项702的选择还使得界面600中显示的文本——诸如转录的文本和选择选项——被改变为所选择的语言。

视觉选项702可由用户例如经由用户输入——诸如用户在触摸屏上触摸视觉选项702、操纵输入设备、话音命令等——来选择。例如，如果通过经由触摸屏的触摸输入来选择视觉选项702，则该选项的选择由呼叫设备发送到目标实体。在一些示例中，通过呼叫设备输出呼叫中的信号(例如，音调)来发送选择，该信号提供当用户按下指定数字键——诸如图7的示例中的键区上的“9”键——时输出的信号的等同物。这使得目标实体接收指示用户已经选择了数字“9”和与视觉选项702相关联的对应选择选项的信号。

在图7的示例中，未选择视觉选项702，并且目标实体的自动化系统继续说话，描述在其呼叫菜单中的进一步的选择选项。语音被检测并转录为文本部分706，在该示例中，文本部分706在被检测为选择选项之前在显示区域604中被显示为视觉选项702下的原始文本。

图8是根据一些实施方式的呼叫界面600的示意图，其中已经检测并显示呼叫中的呼叫菜单的附加选择选项。在图8的示例中，文本部分706(在图7中示出)已经被检测为选择选项。对应于该选择选项的视觉选项802在视觉选项702之后显示在显示区域604中。文本部分706从屏幕移除，由视觉选项802替换。

视觉选项802可由用户选择。在该情况下，选择选项802指示讲出作为用来选择选项的词(“travel(旅行)”)的指定符，而不是如视觉选项702那样按压键区上的键。如果用户向目标实体说出该词，则被呼叫者检测该词以及对相关联的选择选项的选择。在一些实施方式中，可以在界面600中视觉地指定语音选择的选择选项，以将其与通过按压键区键来选择的选择选项区分开。在该示例中，图标804被显示在视觉选项802中(或以其他方式在视觉上与视觉选项802相关联)以指示语音选择的指定符可以选择该选择选项。在一些呼叫菜单中，可以通过语音或通过用户的键按压来选择选择选项。在一些实施方式中，用于这样的选择选项的视觉选项可以与选择指定符一起显示，该选择指定符示出键标识符并且示出语音的可选择性的指示。

在图8的示例中，在来自目标实体的附加语音之后，已经检测到附加选择选项。这些选择选项被显示为在显示区域604中连续显示的视觉选项。可以类似于上述视觉选项702和802来确定和显示每个视觉选项。在一些实施方式中，当从呼叫中的语音检测和识别每个选择选项的文本时，其被提供为视觉选项，类似于图6和7所示。在一些实施方式中，呼叫中的语音可以被显示为原始文本，直到在呼叫中已经说出当前菜单级别的所有呼叫菜单选择选项，此时文本被转换为代替文本显示的视觉选项。

在一些实施方式中，如果用户在所有选择选项被检测到并显示在当前菜单级别之前选择任何视觉选项，则当前菜单级别的剩余选择选项不被显示为视觉选项(例如，当接收到选择时，目标实体可以在当前菜单级别中断说出进一步的选择选项并开始说出下一菜单级别的选择选项)。

在图8中，用户尚未选择在界面600中显示的任何选择选项，并且已经检测到附加选择选项并将其显示为相关联的视觉选项，类似于视觉选项702和802。例如，视觉选项806和808被检测为可通过键按压来选择，使得选择指定符810和812分别用与用于选择这些选项的键区键相对应的数字来显示。视觉选项814被检测为可通过键盘的“星”键的键按压来选择，使得选择指定符816以星符号显示。

图9是根据一些实施方式的呼叫界面600的示意图，其中用户已经选择了呼叫菜单的视觉选项。在图9的示例中，用户已经在视觉选项808的位置处敲击呼叫设备的触摸屏以选择该视觉选项。在该示例中，响应于该选择，呼叫设备显示选定图标902来代替选择指定符812(图8中所示)以指示视觉选项808已被选择，并且呼叫菜单的其他视觉选项702、802、806和814以更低的可见性(例如，亮度和/或颜色被改变为更接近背景亮度/颜色)显示以强调选定的视觉选项808。各种实施方式可以提供相对于所显示的呼叫菜单的其他视觉选项突出显示选定的视觉选项的其他方式。

响应于视觉选项808的选择，呼叫设备在呼叫中向目标实体发送指示所选择的号码(“2”)的信号。目标实体接收所选号码并相应地进行响应，如下所述。

图10是根据一些实施方式的呼叫界面600的示意图，其中呼叫菜单的视觉选项已被选择。在图10的示例中，在接收到与如图9所示的视觉选项808相对应的选择之后，目标实体将呼叫菜单改变为基于选定选项的不同级别(其可以是呼叫菜单的第二、第三或稍后级别等)。在该示例中，呼叫菜单的该导览路径的下一菜单级别包括由呼叫中的目标实体说出、由呼叫设备检测并转换成所显示的视觉选项1002、1004和1006的多个选择选项。如果在呼叫菜单的当前级别存在进一步的选择选项，则还可以显示附加的视觉选项。这些视觉选项中的一个可以由用户选择，类似于上文针对先前视觉选项所描述的。在一些实施方式中，如所示，显示屏可以向下滚动以显示在呼叫菜单中检测到的进一步的视觉选项。

图11是根据一些实施方式的由呼叫设备显示的呼叫界面1100的示意图，其中在呼叫中说出对应的选择选项之前显示呼叫菜单的视觉选项。呼叫界面1100可以类似于图6所示的呼叫界面600。在一些实施方式中，可以在呼叫设备经由实体标识符发起对诸如图5的目标实体502的目标实体的呼叫之后显示呼叫界面1100。在一些实施方式中，可以在向目标实体发起呼叫之前显示呼叫界面1100(或类似的界面，诸如图5的用户界面500)。例如，可以针对目标实体显示选择选项，其在呼叫之前指示在经由目标实体的实体标识符发起呼叫之后哪些选项将对呼叫中的用户可用。

在该示例中，例如响应于用户选择图5的界面500的呼叫控件512或以其他方式之一来发起呼叫。可以显示与当前呼叫的目标实体相关联的目标实体的名称1102，并且可以显示持续时间以指示自发起呼叫以来经过的时间。在一些实施方式中，如果已经获得来自用户的许可和/或命令，则在呼叫期间由呼叫者和被呼叫者发出的所有语音的转录可以由呼叫设备转录并显示在用户界面1100中的显示区域1104中，类似于图6的呼叫界面600。断开控件1106、键区控件1108、扬声器控件1110和静音控件1112可类似于上述对应控件。

在图11的示例中，呼叫菜单1120在呼叫发起之后或期间立即显示(或者可以在发起呼叫之前显示，如上所述)。在该示例中，呼叫菜单1120包括五个视觉选项1122、1124、1126、1128和1130，它们类似于上面针对图6-10描述的选择选项。如本文所述，基于在呼叫之前接收的选择选项数据，用于这些视觉选项的选择选项在目标实体说话之前可由呼叫设备访问。在目标实体说出对应的选择选项之前显示呼叫菜单1120的视觉选项允许用户预先查看呼叫菜单，并且在一些呼叫菜单实施方式中允许用户选择使目标实体将呼叫菜单前进到另一级别而不必说出菜单的剩余选项的选择选项。

在一些实施方式中，如图11所示，可以在呼叫之前检索对目标实体的呼叫中的目标实体的说出的内容的其他部分，类似于如本文所述的呼叫菜单的选择选项，并且可以在呼叫期间目标实体说出该文本之前被显示。在图11的示例中，文本1132在目标实体说出该文本之前被显示，并且被显示在显示区域1104中的呼叫菜单选择选项上方。例如，文本1132可以包括与图6的示例类似的介绍信息，其基于在呼叫之前获得的选择选项信息而被检测到或先前已知不是呼叫菜单的选择选项的一部分。

在呼叫期间，目标实体发出语音信息，该语音信息由呼叫设备和/或其他连接设备检测和识别。通常，语音信息应当匹配所显示的文本和视觉选项(由于将一些语音信息转换成视觉选项格式，诸如选择指定符图标或数字，语音信息可能不完全匹配所显示的视觉选项)。如上面关于图4所描述的，如果说出的信息与视觉选项的文本不匹配，则可以校正视觉选项并且显示校正版本来代替原始版本。在不执行校正的一些实施方式或情况下，可以显示指示错误可能存在于视觉选项中的通知，和/或可以从显示屏移除一个或多个视觉选项。

在如所示的一些实施方式中，可以显示指示符以指示呼叫中由目标实体当前正在说出的所显示的文本的一部分(包括选择选项中的文本)。在该示例中，指示符以粗体突出显示当前口头文本1134。后续的文本1134和选择选项1122-1130尚未在呼叫中说出，并且以常规(例如，非粗体)字体显示和/或以降低的可见度(例如，更高或更低的亮度，取决于背景亮度和/或颜色)显示。在该示例中，当呼叫菜单的说出部分继续突出显示新文本时，先前在呼叫中说出的文本保持以粗体突出显示，使得新的、居前粗体文本指示呼叫中的当前口头文本。在一些实施方式中，如图12所示，相对于选择选项的文本，可以以降低的强调示出不是选择选项的一部分的先前口头文本。在一些实施方式中，可以以其他方式突出显示当前口头文本，例如，以与其他显示的文本不同的颜色显示，在当前口头文本上方或附近显示单独的指针、箭头或其他视觉指示符等。

所显示的当前被呼叫者口头文本的指示允许用户查看说出的呼叫菜单的进度，这例如可以允许用户查看目标实体当前是否正在等待用户选择所提供的选项。在呼叫菜单的一些实施方式中，目标实体可以不响应于选择选项的选择，直到在说出呼叫菜单时已经进行了特定量的进度。例如，选择选项在其可选择之前可能必须被完全说出或部分说出特定量。在这些实施方式中，提供呼叫中的当前口头文本的指示符可以允许用户估计何时有资格选择视觉选项，从而潜在地减少用户对目标实体不进行响应的选项的选择的浪费尝试。

图12是根据一些实施方式的图11的呼叫界面1100的示意图，其中当前口头文本的指示符前进到呼叫菜单的视觉选项。在该示例中，目标实体已经说出介绍文本1132的剩余部分以及由视觉选项1122表示的选择选项。因此，所有文本1132和视觉选项1122以突出显示的形式显示，例如，粗体文本和/或更大的可见性。另外，视觉选项1124的初始部分1202当前正在由被呼叫者说出，使得与视觉选项1124的其他部分相比，部分1202以突出显示的形式显示(在一些实施方式中，当视觉选项的至少一部分正在被说出时，视觉选项的一个或多个部分也可以被突出显示，诸如所示的选择指定符和/或选项的边界)。视觉选项1126、1128和1130尚未被目标实体说出并且以降低的可见性显示。

图13是根据一些实施方式的图11的呼叫界面1100的示意图，其中当前口头文本的指示符在呼叫菜单中进一步前进。在该示例中，目标实体已经说出了介绍文本1132和由视觉选项1122、1124和1126表示的选择选项。因此，文本1132和这些视觉选项以比在被说出之前更大的可见度以突出显示的形式显示。此外，视觉选项1128的初始部分1302当前正在由被呼叫者说出，使得与视觉选项1128的其他部分相比，部分1302以突出显示的形式显示。视觉选项1130尚未被目标实体说出并且以降低的可见度显示。

图14是根据一些实施方式的图11的呼叫界面1100的示意图，其中当前口头文本的指示符前进到呼叫菜单中的下一级别。在该示例中，目标实体已经说出介绍文本1132和呼叫菜单的初始级别的所有选择选项。因此，文本1132和这些视觉选项以突出显示的形式显示(由于显示屏幕的滚动，图14中仅视觉选项1126、1128和1130当前可见)。此外，用户已经选择了视觉选项1128，如选择指定符1402所指示的。

在选择视觉选项1128之后，呼叫设备显示呼叫菜单的下一级别。与图11中显示的前一级别一样，由于呼叫设备已经访问了如本文所述的指示这些选项的数据，因此预先知道下一级别的视觉选项，并且在呼叫中说出之前显示下一级别的视觉选项。下一级别的视觉选项被显示为视觉选项1404、1406、1408和1410。在图14的示例中，视觉选项1404的初始部分1412当前正在由被呼叫者说出，使得部分1412与视觉选项1404的其他部分相比以突出显示的形式显示(在一些实施方式中，如所示，视觉选项的一个或多个部分也可以被突出显示，诸如相关联的键号码的选择指定符)。视觉选项1406-1410尚未被目标实体说出并且以降低的可见度显示。

在图6-14的示例中，用户和/或呼叫设备发起呼叫并且是呼叫者，并且目标实体是示例呼叫中的被呼叫者(实体被呼叫者)。在其他示例中，目标实体可以呼叫用户和/或呼叫设备，使得目标实体是呼叫者并且用户和/或呼叫设备是被呼叫者。

图15是可以用于实现本文描述的一个或多个特征的示例设备1500的框图。在一个示例中，设备1500可用于实现客户端设备，例如图1所示的客户端设备120-126中的任一个。可替代地，设备1500可以实现服务器设备，例如服务器设备104等。在一些实施方式中，设备1500可以用于实现客户端设备、服务器设备或上述的组合。设备1500可以是如本文所述的任何合适的计算机系统、服务器或其他电子或硬件设备。

在一些实施方式中，设备1500包括处理器1502、存储器1504和I/O接口1506。处理器1502可以是一个或多个处理器和/或处理电路，以执行程序代码并控制设备1500的基本操作。“处理器”包括处理数据、信号或其他信息的任何合适的硬件系统、机制或组件。处理器可以包括具有通用中央处理单元(CPU)的系统，该通用中央处理单元具有一个或多个核(例如，在单核、双核或多核配置中)、多个处理单元(例如，在多处理器配置中)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、复杂可编程逻辑器件(CPLD)、用于实现功能的专用电路系统、用于实现基于神经网络模型的处理的专用处理器、神经电路、针对矩阵计算优化的处理器(例如，矩阵乘法)或其他系统。

在一些实施方式中，处理器1502可以包括实现神经网络处理的一个或多个协处理器。在一些实施方式中，处理器1502可以是处理数据以产生概率输出的处理器，例如，由处理器1502产生的输出可以是不精确的或者可以在距预期输出的范围内是准确的。例如，处理器可以“实时”、“离线”、“批处理模式”等方式执行其功能。处理的部分可以由不同(或相同)处理系统在不同时间和不同位置执行。计算机可以是与存储器通信的任何处理器。

存储器1504通常设置在设备1500中以供处理器1502访问，并且可以是适合于存储供处理器执行的指令的任何合适的处理器可读存储介质，诸如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除只读存储器(EEPROM)、闪存等，并且与处理器1502分开定位和/或与其集成。存储器1504可以存储由处理器1502在服务器设备1500上操作的软件，包括操作系统1508、机器学习应用1530、其他应用1512和应用数据1514。其他应用1512可以包括诸如数据显示引擎、通信应用(例如，拨号器或呼叫应用、过顶呼叫应用、具有呼叫能力的其他应用，诸如与特定实体——诸如银行、餐厅或提供app的其他组织/提供者——相关联的应用)、web托管引擎、图像显示引擎、通知引擎、社交联网引擎等的应用。在一些实施方式中，机器学习应用1530和/或其他应用1512可以各自包括使处理器1502能够执行本文描述的功能的指令，例如，图2、图3和/或图4的方法中的一些或全部。应用数据1514可以包括呼叫菜单数据，诸如选择选项数据和其他实体数据、来自呼叫的音频数据(具有用户许可)、来自呼叫菜单的音频数据、呼叫菜单的文本转录、指示新近性的呼叫选择选项和呼叫菜单结构的时间戳、包括呼叫时间、呼叫持续时间和先前呼叫的其他特性(具有用户许可)的呼叫特性、和/或可以用于确定如本文所述的呼叫选择选项的数据结构(例如，表、列表、图)。

机器学习应用1530可以包括可以使用监督和/或无监督学习的一个或多个命名实体识别(NER)实施方式。机器学习模型可以包括基于多任务学习的模型、具有条件随机场的残差任务双向LSTM(长短期记忆)、统计NER等。本文公开的一种或多种方法可以在若干环境和平台中操作，例如，作为可以在任何类型的计算设备上运行的独立计算机程序、作为具有网页的web应用、作为在移动计算设备上运行的移动应用(“app”)等。

在各种实施方式中，机器学习应用1530可以利用贝叶斯分类器、支持向量机、神经网络或其他学习技术。在一些实施方式中，机器学习应用1530可以包括经训练的模型1534、推理引擎1536和数据1532。在一些实施方式中，数据1532可以包括训练数据，例如，用于生成经训练的模型1534的数据。例如，训练数据可以包括适合于训练用于确定呼叫的选择选项的模型的任何类型的数据，诸如指示在先前呼叫期间发出的语音的语音数据、指示由实体在呼叫中提供的选择选项的呼叫菜单数据、用户的先前呼叫的呼叫特性(如果已经获得用户同意)等。训练数据可以从任何源获得，例如，专门标记用于训练的数据储存库、提供许可以用作机器学习的训练数据的数据等。在一个或多个用户允许使用其相应的用户数据来训练机器学习模型——例如，经训练的模型1534——的实施方式中，训练数据可以包括这样的用户数据。在用户允许使用他们相应的用户数据的实施方式中，数据1532可以包括允许的数据。

在一些实施方式中，训练数据可以包括出于训练的目的而生成的合成数据，诸如不基于正在训练的上下文中的用户输入或活动的数据，例如，从模拟或模型生成的数据等。在一些实施方式中，机器学习应用1530排除数据1532。例如，在这些实施方式中，经训练的模型1534可以例如在不同的设备上生成，并且作为机器学习应用1530的一部分提供。在各种实施方式中，经训练的模型1534可以被提供为包括模型结构或形式以及相关联的权重的数据文件。推理引擎1536可以读取经训练的模型1534的数据文件，并且基于经训练的模型1534中指定的模型结构或形式来实现具有节点连接性、层和权重的神经网络。

机器学习应用1530还包括一个或多个经训练的模型1534。例如，这样的模型可以包括经训练的模型，用于识别语音并根据如本文所述的呼叫中作为音频数据接收的语音确定选择选项。在一些实施方式中，经训练的模型1534可以包括一个或多个模型形式或结构。例如，模型形式或结构可以包括任何类型的神经网络，诸如线性网络、实现多个层的深度神经网络(例如，输入层和输出层之间的“隐藏层”，其中每个层是线性网络)、卷积神经网络(例如，将输入数据分割或划分为多个部分或图块、使用一个或多个神经网络层分别处理每个图块并聚合来自每个图块的处理的结果的网络)、序列到序列神经网络(例如，将诸如句子中的词、视频中的帧等的顺序数据作为输入并产生结果序列作为输出的网络)等。

模型形式或结构可以指定各种节点之间的连接性以及节点到层中的组织。例如，第一层(例如，输入层)的节点可以接收数据作为输入数据1532或应用数据1514。这样的数据可以包括例如来自呼叫的语音数据、指示呼叫的选择选项的实体数据、先前呼叫的呼叫特性和/或来自用户的关于先前呼叫和所提供的选择选项的反馈。后续中间层可以根据模型形式或结构中指定的连接性接收前一层的节点的输出作为输入。这些层也可以被称为隐藏层。最终层(例如，输出层)产生机器学习应用的输出。例如，输出可以是要在界面中提供的选择选项集合。在一些实施方式中，可使用不同的层或模型来识别语音，例如，接收音频数据的输入并提供表示输入音频数据中的语音的文本的输出。在一些实施方式中，模型形式或结构还指定每个层中的节点的数量和/或类型。

在不同的实施方式中，一个或多个经训练的模型1534可以包括按照模型结构或形式布置成层的多个节点。在一些实施方式中，节点可以是没有存储器的计算节点，例如，被配置为处理一个输入单元以产生一个输出单元。由节点执行的计算可以包括例如将多个节点输入中的每一个乘以权重，获得加权和，以及用偏差或截距值调整加权和以产生节点输出。

在一些实施方式中，由节点执行的计算还可以包括将阶跃/激活函数应用于经调整的加权和。在一些实施方式中，阶跃/激活函数可以是非线性函数。在各种实施方式中，这样的计算可以包括诸如矩阵乘法的操作。在一些实施方式中，可以例如使用多核处理器的多个处理器核、使用GPU的各个处理单元或专用神经电路系统并行地执行多个节点的计算。在一些实施方式中，节点可以包括存储器，例如，可以能够在处理后续输入时存储和使用一个或多个较早的输入。例如，具有记忆的节点可以包括长短期记忆(LSTM)节点。LSTM节点可以使用存储器来维持允许节点像有限状态机(FSM)一样起作用的“状态”。具有这样的节点的模型可用于处理顺序数据，例如句子或段落中的词、视频、语音或其他音频中的帧等。

在一些实施方式中，一个或多个经训练的模型1534可以包括针对各个节点的嵌入或权重。例如，模型可以作为由模型形式或结构指定的组织成层的多个节点来发起。在初始化时，可以将相应权重应用于根据模型形式连接的每对节点——例如，神经网络的连续层中的节点——之间的连接。例如，相应权重可以被随机分配或初始化为默认值。例如，相应权重可以被随机分配或初始化为默认值。然后可以例如使用数据1532训练模型以产生结果。

例如，训练可以包括应用监督学习技术。在监督学习中，训练数据可以包括多个输入(例如，音频数据和/或实体数据)和每个输入的对应预期输出(例如，呼叫菜单的选择选项集合；和/或表示音频数据中的语音的文本)。基于模型的输出与预期输出的比较，例如以增加模型在提供类似输入时产生预期输出的概率的方式自动调整权重的值。

在一些实施方式中，训练可以包括应用无监督学习技术。在无监督学习中，可以仅提供输入数据，并且可以训练模型以区分数据，例如，将输入数据聚类为多个组，其中每个组包括以某种方式相似的输入数据。例如，可以训练模型以确定或聚类彼此相似的呼叫特性。

在另一示例中，使用无监督学习训练的模型可以基于在数据源中使用语音和选择选项来聚类语音或选择选项的特征。在一些实施方式中，无监督学习可以用于产生例如可以由机器学习应用1530使用的知识表示。在各种实施方式中，经训练的模型包括与模型结构相对应的权重或嵌入集合。在省略数据1532的实施方式中，机器学习应用1530可以包括基于例如由机器学习应用1530的开发者、第三方等进行的先前训练的经训练的模型1534。在一些实施方式中，经训练的模型1534中的一个或多个可各自包括固定——例如，从提供权重的服务器下载——的权重集合。

机器学习应用1530还包括推理引擎1536。推理引擎1536被配置为将经训练的模型1534应用于数据，诸如应用数据1514，以提供推理，诸如呼叫菜单中的选择选项集合和呼叫菜单的结构。在一些实施方式中，推理引擎1536可以包括要由处理器1502执行的软件代码。在一些实施方式中，推理引擎1536可以指定使得处理器1502能够应用经训练的模型的电路配置(例如，用于可编程处理器、用于现场可编程门阵列(FPGA)等)。在一些实施方式中，推理引擎1536可以包括软件指令、硬件指令或组合。在一些实施方式中，推理引擎1536可以提供应用编程接口(API)，操作系统1508和/或其他应用1512可以使用该API来调用推理引擎1536，例如，将经训练的模型1534应用于应用数据1514以生成推理。

机器学习应用1530可以提供若干技术优点。例如，当基于无监督学习生成经训练的模型1534时，推理引擎1536可以应用经训练的模型1534以从例如应用数据1514的输入数据产生知识表示(例如，数字表示)。例如，被训练用于确定选择选项和/或菜单结构的模型可以产生其表示。在一些实施方式中，这样的表示可以有助于降低生成输出(例如，标签、分类、估计特性等)的处理成本(例如，计算成本、存储器使用等)。在一些实施方式中，这样的表示可以作为输入被提供给从推理引擎1536的输出产生输出的不同的机器学习应用。

在一些实施方式中，由机器学习应用1530生成的知识表示可以被提供给例如通过网络进行进一步处理的不同设备。在这样的实施方式中，提供知识表示而不是数据可以提供技术益处，例如，以降低的成本实现更快的数据传输。

在一些实施方式中，机器学习应用1530可以以离线方式实现。在这些实施方式中，经训练的模型1534可以在第一阶段生成，并且作为机器学习应用1530的一部分提供。在一些实施方式中，机器学习应用1530可以以在线方式实现。例如，在这样的实施方式中，调用机器学习应用1530的应用(例如，操作系统1508、一个或多个其他应用1512)可以利用由机器学习应用1530产生的推理，例如，向用户提供推理，并且可以生成系统日志(例如，如果用户允许，则用户基于推理采取的动作；或者如果用作进一步处理的输入，则生成进一步处理的结果)。系统日志可以周期性地(例如，每小时、每月、每季度等)产生，并且可以在用户许可的情况下用于更新经训练的模型1534，例如，以更新经训练的模型1534的嵌入。

在一些实施方式中，机器学习应用1530可以以可以适应在其上执行机器学习应用1530的设备1500的特定配置的方式来实现。例如，机器学习应用1530可以确定利用可用计算资源的计算图，例如处理器1502。例如，如果机器学习应用1530被实现为多个设备上的分布式应用，则机器学习应用1530可以以优化计算的方式确定要在各个设备上执行的计算。在另一示例中，机器学习应用1530可以确定处理器1502包括具有特定数量的GPU核心(例如，1000)的GPU，并且相应地实现推理引擎(例如，作为1000个单独的进程或线程)。

在一些实施方式中，机器学习应用1530可以实现经训练模型的集成(ensemble)。例如，经训练的模型1534可以包括各自适用于相同输入数据的多个经训练的模型。在这些实施方式中，机器学习应用1530可以例如基于可用的计算资源、具有先前推断的成功率等来选择特定的经训练的模型。在一些实施方式中，机器学习应用1530可以执行推理引擎1536，使得应用多个经训练的模型。在这些实施方式中，机器学习应用1530可以组合来自应用单独模型的输出，例如，使用对来自应用每个经训练的模型的单独输出进行评分的投票技术，或者通过选择一个或多个特定输出。此外，在这些实施方式中，机器学习应用可以应用时间阈值以供应用单独训练模型(例如，0.5ms)，并且仅利用在时间阈值内可用的那些单独输出。可以不利用——例如丢弃——在时间阈值内未接收到的输出。例如，当存在当调用机器学习应用——例如，由操作系统1508或一个或多个其他应用1512——时指定的时间限制时，这样的方法可能是合适的。

在不同的实施方式中，机器学习应用1530可以产生不同类型的输出。在一些实施方式中，机器学习应用1530可以基于由调用应用——例如，操作系统1508或一个或多个其他应用1512——指定的格式来产生输出。在一些实施方式中，调用应用可以是另一机器学习应用。例如，这样的配置可以用于生成对抗网络，其中使用来自机器学习应用1530的输出来训练调用机器学习应用，反之亦然。

存储器1504中的任何软件可以可替代地存储在任何其他合适的存储位置或计算机可读介质上。此外，存储器1504(和/或其他连接的存储设备)可以存储一个或多个消息、一个或多个分类法、电子百科全书、词典、主题、知识库、消息数据、语法、用户偏好和/或在本文描述的特征中使用的其他指令和数据。存储器1504和任何其他类型的存储(磁盘、光盘、磁带或其他有形介质)可以被认为是“存储”或“存储设备”。

I/O接口1506可以提供使服务器设备1500能够与其他系统和设备对接的功能。接口设备可以被包括作为设备1500的一部分，或者可以是分离的并且与设备1500通信。例如，网络通信设备、存储设备(例如，存储器1504和/或数据库106)和输入/输出设备可以经由I/O接口1506进行通信。在一些具体实施中，I/O接口可连接到接口设备，诸如输入设备(键盘、指向设备、触摸屏、麦克风、相机、扫描仪、传感器等)和/或输出设备(显示设备、扬声器设备、打印机、马达等)。

可以连接到I/O接口1506的接口设备的一些示例可以包括一个或多个显示设备1520和一个或多个数据仓储1538(如上所述)。显示设备1520可以用于显示内容，例如，如本文所述的输出应用的用户界面。显示设备1520可以经由本地连接(例如，显示总线)和/或经由网络连接连接到设备1500，并且可以是任何合适的显示设备。显示设备1520可以包括任何合适的显示设备，诸如LCD、LED或等离子体显示屏、CRT、电视、监视器、触摸屏、3-D显示屏或其他视觉显示设备。例如，显示设备1520可以是设置在移动设备上的平面显示屏、设置在护目镜或头戴式设备中的多个显示屏、投影仪或用于计算机设备的监视器屏幕。

I/O接口1506可以接口到其他输入和输出设备。一些示例包括显示设备、打印机设备、扫描仪设备等。一些实施方式可以提供用于捕获声音、话音命令等的麦克风、用于输出声音的音频扬声器设备或其他输入和输出设备。

为了便于说明，图15示出了用于处理器1502、存储器1504、I/O接口1506和软件框1508、1512和1530中的每一个的一个框。这些框可以表示一个或多个处理器或处理电路系统、操作系统、存储器、I/O接口、应用和/或软件模块。在其他实施方式中，设备1500可以不具有所示的所有组件和/或可以具有其他元件，包括代替本文所示的那些元件或除了本文所示的那些元件之外的其他类型的元件。虽然一些组件被描述为执行如本文的一些实施方式中所描述的框和操作，但是环境100、设备1500、类似系统或与这样的系统相关联的任何合适的一个或多个处理器的任何合适的组件或组件的组合可以执行所描述的框和操作。

尽管已经关于特定实施方式描述了本说明，但是这些特定实施方式仅仅是说明性的而不是限制性的。示例中所示的概念可以应用于其他示例和实施方式。

除了上面的描述之外，可以向用户提供控件，该控件允许用户关于本文描述的系统、程序或特征是否和何时可以使得能够收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或者用户的或用户设备的当前位置的信息)，以及是否从服务器发送内容或通信进行选择。此外，某些数据可以在其被存储或使用之前以一种或多种方式被处理，使得个人可识别信息被移除。例如，可以处理用户的身份，使得不能为用户确定个人可识别信息，或者可以在获得位置信息的地方概括用户的地理位置(诸如到城市、邮政编码或州级别)，使得不能确定用户的特定位置。因此，用户可以对收集关于用户的什么信息、如何使用该信息以及向用户提供什么信息进行控制。

注意，如本领域技术人员已知的，本公开中描述的功能框、操作、特征、方法、设备和系统可以被集成或划分为系统、设备和功能框的不同组合。可以使用任何合适的编程语言和编程技术来实现特定实施方式的例程。可以采用不同的编程技术，诸如过程的或面向对象的。例程可以在单个处理设备或多个处理器上执行。尽管步骤、操作或计算可以以特定次序呈现，但是在不同的特定实施方式中可以改变次序。在一些实施方式中，在本说明书中顺序示出的多个步骤或操作可以同时执行。

Claims

1.一种计算机实现的方法，包括：

接收在呼叫设备和与目标实体相关联的设备之间的呼叫中的音频数据，所述音频数据包括语音，所述语音指示用于所述呼叫设备的用户在所述呼叫中经由由所述目标实体提供的呼叫菜单进行导览的一个或多个选择选项；

以编程方式分析所述音频数据以确定表示所述音频数据中的所述语音的文本；

基于以编程方式分析所述文本或所述音频数据中的至少一个来确定所述一个或多个选择选项；以及

使得所述文本的至少一部分在所述呼叫期间由所述呼叫设备显示，其中，所述文本的所述部分被显示为与所述一个或多个选择选项相对应的一个或多个视觉选项，其中，所述一个或多个视觉选项各自经由用户输入可选择以引起经由所述呼叫菜单的对应导览。

2.根据权利要求1所述的计算机实现的方法，进一步包括：响应于接收到对所述一个或多个视觉选项中的特定视觉选项的选择，使得所述选择的指示被发送到与所述目标实体相关联的所述设备，其中，所述指示是以下中的一个：

与键区的键的按压相对应的信号，所述键与所述特定视觉选项相关联，或

由所述呼叫设备在所述呼叫中提供的语音，所述语音包括与所述特定视觉选项相关联的指定符。

3.根据权利要求1所述的计算机实现的方法，其中，所述一个或多个视觉选项各自经由所述呼叫设备的触摸屏上的触摸输入可选择。

4.根据权利要求1所述的计算机实现的方法，其中，所述音频数据是第一音频数据，并且其中，响应于接收到对所述一个或多个视觉选项中的特定视觉选项的选择，所述方法进一步包括：

接收所述呼叫中的第二音频数据，所述第二音频数据包括指示用于所述呼叫设备的所述用户的一个或多个第二选择选项的第二语音；

以编程方式分析所述第二音频数据以确定表示所述第二音频数据中的所述第二语音的第二文本；

基于以编程方式分析所述第二文本或所述第二音频数据中的至少一个来确定所述一个或多个第二选择选项；以及

使得由所述呼叫设备显示所述第二文本的至少一部分，其中，所述第二文本的所述至少一部分被显示为与所述一个或多个第二选择选项相对应的一个或多个第二视觉选项，其中，所述一个或多个第二视觉选项各自经由第二用户输入可选择以引起经由所述呼叫菜单的对应导览。

5.根据权利要求1所述的计算机实现的方法，其中，所述一个或多个选择选项是多个选择选项，并且进一步包括以编程方式分析所述文本或所述音频数据中的至少一个，以确定所述呼叫菜单中的所述多个选择选项的层级结构。

6.根据权利要求1所述的计算机实现的方法，进一步包括在接收所述音频数据之前：

获得包括所述一个或多个选择选项的选择选项数据；以及

使得在所述呼叫设备接收包括指示所述一个或多个选择选项的所述语音的所述音频数据之前，由所述呼叫设备显示与所述一个或多个选择选项相对应的所述一个或多个视觉选项。

7.根据权利要求6所述的计算机实现的方法，其中，通过以编程方式分析在先前呼叫期间接收的音频数据来确定所述选择选项数据中的所述一个或多个选择选项。

8.根据权利要求7所述的计算机实现的方法，其中，所获得的选择选项数据在发起所述呼叫之前被缓存在所述呼叫设备中，其中，所获得的选择选项数据与由所述呼叫设备的地理区域中的呼叫者先前已呼叫的实体标识符相关联，其中，所述实体标识符先前已被呼叫至少阈值次数或者先前已被呼叫比不与所获得的选择选项数据相关联的其他实体标识符更高的次数。

9.根据权利要求6所述的计算机实现的方法，进一步包括：

使得在所述呼叫期间显示视觉指示符，其中，所述视觉指示符突出显示在所述呼叫期间显示的所述一个或多个视觉选项中的所述文本的特定部分，所述文本的所述特定部分当前在所述呼叫期间在所述音频数据中的所述语音中被接收。

10.根据权利要求6所述的计算机实现的方法，进一步包括：

将所述选择选项数据与从所述音频数据确定的所述一个或多个选择选项进行比较；以及

确定所述选择选项数据与从所述音频数据确定的所述一个或多个选择选项之间是否存在不匹配。

11.根据权利要求10所述的计算机实现的方法，进一步包括：响应于确定所述选择选项数据与从所述音频数据确定的所述一个或多个选择选项之间的不匹配，使得所述不匹配的通知由所述呼叫设备输出。

12.根据权利要求10所述的计算机实现的方法，进一步包括：响应于确定所述选择选项数据与从所述音频数据确定的所述一个或多个选择选项之间的不匹配，修改所述选择选项数据以匹配从所述音频数据确定的所述一个或多个选择选项。

13.根据权利要求10所述的计算机实现的方法，其中，将所述选择选项数据与所述一个或多个选择选项进行比较包括以下中的一个：

将所述选择选项数据的文本与所述一个或多个选择选项的所述文本进行比较；或者

将所述选择选项数据的音频数据与在所述呼叫期间接收的所述音频数据进行比较。

14.根据权利要求1所述的计算机实现的方法，进一步包括：

使得所述一个或多个选择选项被存储在以下中的至少一个中：所述呼叫设备的存储或通过通信网络与所述呼叫设备通信的远程设备的存储；以及

针对所述呼叫设备和所述目标实体之间的下一呼叫检索所述一个或多个选择选项。

15.一种显示用于呼叫的选择选项的呼叫设备，所述呼叫设备包括：

存储器，其上存储有指令；

显示设备；以及

耦合到所述存储器的至少一个处理器，所述至少一个处理器被配置为访问来自所述存储器的所述指令以执行操作，所述操作包括：

接收在所述呼叫设备和与目标实体相关联的设备之间的呼叫中的音频数据，所述音频数据包括语音，所述语音指示用于所述呼叫设备的用户在所述呼叫中经由由所述目标实体提供的呼叫菜单进行导览的一个或多个选择选项；

使得所述文本的至少一部分在所述呼叫期间由所述显示设备显示，其中，所述文本的所述部分被显示为与所述一个或多个选择选项相对应的一个或多个视觉选项，其中，所述一个或多个视觉选项各自经由用户输入可选择以引起经由所述呼叫菜单的对应导览。

16.根据权利要求15所述的呼叫设备，其中，所述至少一个处理器执行进一步的操作，包括：响应于接收到对所述一个或多个视觉选项中的特定视觉选项的选择，使得所述选择的指示被发送到与所述目标实体相关联的所述设备，其中，所述指示是以下中的一个：

17.根据权利要求15所述的呼叫设备，其中，所述至少一个处理器执行进一步的操作，包括在接收所述音频数据之前：

获得包括所述一个或多个选择选项以及所述一个或多个选择选项在所述呼叫菜单中的层级结构的选择选项数据；以及

使得在所述呼叫设备接收包括指示所述一个或多个选择选项的所述语音的所述音频数据之前，由所述显示设备显示与所述一个或多个选择选项相对应的所述一个或多个视觉选项。

18.根据权利要求17所述的呼叫设备，其中，所述至少一个处理器执行进一步的操作，所述操作包括：

使得在所述呼叫期间显示视觉指示符，其中，所述视觉指示符突出显示在所述呼叫期间显示的所述一个或多个视觉选项中的所述文本的特定部分，所述文本的所述特定部分当前在所述呼叫期间在所述音频数据中的所述语音中被说出。

19.根据权利要求17所述的呼叫设备，其中，所述至少一个处理器进一步执行操作，所述操作包括：

20.一种其上存储有指令的非暂时性计算机可读介质，所述指令在由处理器执行时使所述处理器执行操作，所述操作包括：

接收在呼叫设备和与目标实体相关联的设备之间的呼叫中的音频数据，所述音频数据包括语音，所述语音指示用于所述呼叫设备的用户经由由所述目标实体提供的呼叫菜单进行导览的一个或多个选择选项；