CN107624177B - 用于提高用户效率和交互性能的可听呈现的选项的自动视觉显示 - Google Patents
用于提高用户效率和交互性能的可听呈现的选项的自动视觉显示 Download PDFInfo
- Publication number
- CN107624177B CN107624177B CN201680027374.XA CN201680027374A CN107624177B CN 107624177 B CN107624177 B CN 107624177B CN 201680027374 A CN201680027374 A CN 201680027374A CN 107624177 B CN107624177 B CN 107624177B
- Authority
- CN
- China
- Prior art keywords
- options
- computing device
- communication identifier
- voice system
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 28
- 230000000007 visual effect Effects 0.000 title description 15
- 238000004891 communication Methods 0.000 claims abstract description 269
- 238000013518 transcription Methods 0.000 claims abstract description 40
- 230000035897 transcription Effects 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims description 56
- 238000012800 visualization Methods 0.000 claims description 45
- 230000004044 response Effects 0.000 claims description 28
- 230000007246 mechanism Effects 0.000 abstract description 45
- 238000000034 method Methods 0.000 description 9
- 230000002093 peripheral effect Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000010006 flight Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000010267 cellular communication Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012358 sourcing Methods 0.000 description 2
- 230000007723 transport mechanism Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72433—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/25—Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service
- H04M2203/251—Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service where a voice mode or a visual mode can be used interchangeably
- H04M2203/252—Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service where a voice mode or a visual mode can be used interchangeably where a voice mode is enhanced with visual information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/25—Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service
- H04M2203/251—Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service where a voice mode or a visual mode can be used interchangeably
- H04M2203/253—Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service where a voice mode or a visual mode can be used interchangeably where a visual mode is used instead of a voice mode
- H04M2203/254—Aspects of automatic or semi-automatic exchanges related to user interface aspects of the telephonic communication service where a voice mode or a visual mode can be used interchangeably where a visual mode is used instead of a voice mode where the visual mode comprises menus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
Abstract
通过视觉显示由自动话音系统可听呈现的选项,用户与自动话音系统的交互性能得以改善,用户的效率也得到了改善,从而使得用户能够更快速准确地与系统进行交互。可以利用通信标识符从集中式可听菜单数据库中获得选项,该通信标识符被用于建立与自动话音系统的通信连接。当用户建立与选项尚未存储在数据库中的自动话音系统的部分的通信连接,然后用户转录由自动话音系统可听呈现的选项的情况下,数据库从众包信息被填充。可听呈现的选项的转录同样用作双重检查,来验证已显示的选项。用户交互利用不同通信标识符生成到自动话音系统的不同部分的后续通信连接,从而重新触发机制。
Description
背景技术
由于计算设备的普及,所以用户越来越习惯于通过文本的视觉呈现,而非可听(audible)呈现口头单词,来消费信息。实际上,用户越来越多地通过书面通信进行通信,该书面通信包括例如电子邮件消息、文本消息、即时消息传送等。为了便于这种书面通信,转录机制有时被用于使得用户能够口述电子邮件消息或文本消息,或者将现有的口头单词(诸如音频话音邮件记录)转换成文本内容以便于接收者对其进行有效消费。
发明内容
为了便于用户与自动话音系统的交互,由自动话音系统呈现的选项可以在显示设备上向用户视觉显示,从而使得用户能够更快速准确地与这样的自动话音系统进行交互,并且以这种方式使得用户能够改善其交互性能并且提高其效率。基于用于建立与自动话音系统的通信连接的通信标识符,可以从集中式可听菜单数据库中,获得由自动话音系统呈现的选项。当用户建立与其选项尚未存储在可听菜单数据库中的自动话音系统的部分的通信连接,然后用户转录由自动话音系统采用口头单词的形式可听呈现的选项的情况下,集中式可听菜单数据库可以从众包信息而被填充。类似地,如果自动话音系统呈现的选项不能从集中式可听菜单数据库中获得,则以口头单词的形式可听呈现的选项可以被转录,然后在显示设备上向用户视觉显示。可听呈现的选项的转录同样可以用作双重检查,来验证已经从集中式可听菜单数据库获得的选项,该选项包括可以已经在显示设备上向用户视觉显示的选项。与自动话音系统的用户交互(诸如通过选择所呈现的选项中的一个或多个选项)可以利用不同通信标识符,生成到自动话音系统的不同部分的后续通信连接,从而重新触发上文所概述的机制。
提供本发明内容以简化形式介绍下文在具体实施方式中进一步描述的一系列概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
从以下参照附图进行的具体实施方式中,附加特征和优点将变得显而易见。
附图说明
结合附图可以最好地理解以下具体实施方式,其中
图1是用于提供自动话音系统的可听呈现的选项的视觉呈现的示例性系统的框图;
图2是用于提供自动话音系统的可听呈现的选项的视觉呈现的示例性部件的框图;
图3是提供自动话音系统的可听呈现的选项的视觉呈现的示例性用户接口的图;
图4是自动话音系统的示例性选项菜单树的框图;
图5是自动话音系统的可听呈现的选项的示例性视觉呈现的流程图;以及
图6是示例性计算设备的框图。
具体实施方式
以下描述涉及通过在物理显示设备上向用户,视觉显示由自动话音系统可听呈现的选项,来改善用户与自动话音系统的交互性能,从而提高用户的效率,从而使得用户能够更快速准确地与这种自动话音系统进行交互。基于用于建立与自动话音系统的通信连接的通信标识符,可以从集中式可听菜单数据库中获得由自动话音系统呈现的选项。当用户建立与选项尚未存储在数据库中的自动话音系统的部分的通信连接,然后转录由自动话音系统以口头单词的形式可听呈现的选项的情况下,集中式可听菜单数据库可以从众包信息而被填充。类似地,如果自动话音系统呈现的选项不能从集中式可听菜单数据库中获得,则以口头单词的形式可听呈现的选项可以被转录,然后在显示设备上向用户视觉显示。可听呈现的选项的转录同样可以用作双重检查,来验证已经从集中式可听菜单数据库获得的选项,该选项可以包括已经在显示设备上向用户视觉显示的选项。与自动话音系统的用户交互(诸如,通过选择所呈现的选项中的一个或多个选项)可以利用不同通信标识符,生成到自动话音系统的不同部分的后续通信连接,从而重新触发上文所概述的机制。
本文中所描述的技术参考由自动话音系统可听呈现的选项的视觉呈现。如本文中所使用的,术语“自动话音系统”是指通过无论是利用计算机生成的话音,还是利用人类话音的记录可听说出有声单词形式的那些选项,来呈现用户可选择的选项的任何自动系统,而不论用户与这种系统建立通信或向这种系统提供用户输入的方式。从而,术语“自动话音系统”包括所谓的“交互式话音响应”或“IVR”系统、自动话务员系统等。尽管当该术语在本文中被利用时,自动话音系统包括用户通过电话方式建立通信的系统,但是支持话音传输的其他通信连接同样被设想并且被术语“自动话音系统”所涵盖。附加地,本文中对“通信标识符”的引用是指字母数字字符的集合,其可以唯一标识自动话音系统的特定选项集合,或者唯一标识与自动话音系统建立通信连接并且到达特定选项集合所需的输入。例如,电话号码可以是通过电话机制可访问(诸如通过拨号电话号码)的自动话音系统的主要选项集合的通信标识符。作为另一示例,与指示选项序列的顺序选择的附加数字条目组合或与其级联的电话号码还可以是单个通信标识符,即,自动话音系统的选项集合中的通信标识符,一旦电话号码被拨号,自动话音系统就可能呈现该单个通信标识符,并且响应于自动话音系统的顺序呈现的选项,顺序地做出选择。其他通信标识符可以包括网络地址,域名,网页和其他类似的通信标识符。最后,如本文所利用的,术语“菜单”是指可以同时或按顺序呈现给用户的备选可选择的选项的集合。
虽然本文中所描述的技术涉及由自动话音系统可听呈现的选项的视觉呈现,但是它们同样适用于其他形式的呈现(诸如盲文),由此指示选项的文本内容以与最初向用户呈现这些选项的格式不同的格式,呈现给用户。
尽管不是必需的,但是下文的描述将在由计算设备执行的计算机可执行指令(诸如程序模块)的一般上下文中。更具体地,除非另有说明,否则该描述将参考由一个或多个计算设备或外设执行的操作的动作和符号表示。如此,应当理解,有时被称为被计算机执行的这种动作和操作,包括由处理单元对表示结构化形式的数据的电信号的操纵。该操纵变换数据或在存储器中的位置处维护该数据,该操纵以本领域技术人员公知的方式重新配置或以其他方式更改计算设备或外设的操作。维护数据的数据结构是具有由数据格式定义的具体特性的物理位置。
通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件和数据结构等。而且,本领域技术人员将领会,计算设备不需要限于常规个人计算机,并且包括其他计算配置,其包括手持式设备、多处理器系统、基于微处理器的或可编程消费电子装置、网络PC、小型计算机、大型计算机等。类似地,计算设备不需要限于独立计算设备,这是因为在通过通信网络而链接的远程处理设备执行任务的分布式计算环境中,也可以实践这些机制。在分布式计算环境中,程序模块可以位于本地存储器存储设备和远程存储器存储设备两者中。
参考图1,图示了示例性系统100,其提供了下文的描述的上下文。图1的示例性系统100被示为包括移动客户端计算设备,诸如示例性移动客户端计算设备110和120,其通信地耦合至诸如示例性数据网络190之类的数据网络。数据网络190还具有集中式系统,其通信地耦合至该数据网络,用于帮助视觉显示由自动话音系统可听呈现的选项,该集中式系统由示例性可听菜单可视化服务器计算设备140表示,从而可供可听菜单数据库141访问。
虽然示例性移动计算设备110和120可以通信地耦合至示例性数据网络190,但是它们还可以耦合至诸如示例性电话网络191之类的电话网络。如本领域技术人员将会认识到的,诸如示例性数据网络190之类的数据网络以及诸如示例性电话网络191的电话网络,可以重叠在另一个之上。例如,现代蜂窝通信连接可以支持电话通信作为数据通信的形式和子集。作为另一示例,现有蜂窝通信连接通常支持数据通信作为电话通信的形式和子集。从而,虽然示例性数据网络190和示例性电话网络191在图1的示例性系统100中被示为分离的网络,但是为了说明方便,严格地提供了这种表示,并不意味着表示示例性数据网络190和示例性电话网络191必须是彼此分离且不同的网络。
还被图示为通信地耦合至示例性电话网络191的是自动话音系统,诸如示例性话音系统130。示例性移动计算设备110在图1的示例性系统100中被图示为已经建立(即,经由示例性电话网络191)与示例性自动话音系统130的音频通信连接151。通过这样的示例性音频通信连接151,示例性移动客户端计算设备110可以接收并且可听地呈现给用户由自动话音系统130提供的、以有声单词的形式所生成的声音的一个或多个选项。虽然移动客户端计算设备110的用户可以聆听到可听呈现的这样的选项,根据一个方面,可听菜单可视化器(诸如可听菜单可视化器111)可以包括计算机可执行指令,其可以通过在物理显示设备上显示这样的选项以视觉方式,向移动客户端计算设备110的用户呈现这样的选项,该物理显示设备是移动客户端计算设备110的一部分或以其他方式通信耦合至移动客户端计算设备110。
可听菜单可视化器111可以以可听方式,转录由自动话音系统130呈现的选项,从而便于它们向移动客户端计算设备110的用户进行可视显示。为了更高的效率和准确性,根据一个方面,可听菜单可视化器111可以与集中式机制(诸如,例如可听菜单可视化服务器计算设备140之类)进行通信,并且从其接收由自动话音系统130呈现的选项,而无需可听菜单可视化器111必须先转录这些选项。例如,并且如图1的示例性系统100所图示的,可听菜单可视化器111可以向可听菜单可视化服务器计算设备140,提供诸如示例性通信标识符161之类的通信标识符。如先前所指示的,这样的通信标识符可以是诸如用于到达自动话音系统130的电话号码之类的电话号码,或者可以是与表示由自动话音系统130顺序呈现的先前选项菜单的顺序选项选择的附加数字相组合的电话号码。通过这样的通信标识符161,可听菜单可视化服务器计算设备140可以参考诸如示例性可听菜单数据库141之类的可听菜单数据库,以确定与通信标识符161相对应的选项集合是否已知并且存储在可听菜单数据库141中。如果与通信标识符161相对应的选项集合已知并且存储在可听菜单数据库141中,则可听菜单可视化服务器计算设备140可以将这样的选项集合162返回到移动客户端计算设备110的可听菜单可视化器111。然后,可听菜单可视化器111可以向移动客户端计算设备110的用户视觉显示这样的选项162,而不必等待自动话音系统130以可听方式完成枚举这样的选项,从而可以提高向用户视觉显示这些选项的效率。如果可听菜单数据库141不包括与通信标识符161相对应的选项集合162,则可听菜单可视化服务器计算设备140可以将指示返回到移动客户端计算设备110的可听菜单可视化器111,该指示指示了由可听菜单可视化器111提供的通信标识符161没有可听菜单可视化服务器计算设备140已知的对应的选项集合162。如下文将进一步详细描述的,可听菜单可视化器111可以进行到以可听方式转录正在由自动话音系统130呈现的选项,并且可以向移动客户端计算设备110的用户视觉显示这样的选项。
另外,根据一个方面,可听菜单可视化器111可以向可听菜单可视化服务器计算设备140,提供由自动话音系统130可听呈现的选项的转录,以存储在可听菜单数据库中。以这种方式,可以通过众包工作,构建可听菜单数据库141。例如,在图1所图示的示例中,其中与通信标识符161相对应的选项集合162已经存储在可听菜单数据库140中,这样的选项集合162可以首先被另一计算设备转录,该计算设备已经利用相同的通信标识符161建立与自动话音系统130的音频通信连接。从而,图1所示的示例性系统100包括另一计算设备,诸如示例性移动客户端计算设备120,其建立与自动话音系统130的音频通信连接,诸如示例性音频通信连接171。通过这样的音频通信连接171,示例性移动客户端计算设备120可能已经采用口头单词的形式,以可听方式从自动话音系统130接收到选项集合162。在示例性移动客户端计算设备120上执行的示例性可听菜单可视化器121,已经可以从自动话音系统130,转录经由音频通信连接171接收的口头单词,以便向移动客户端计算设备120的用户视觉显示选项集合162。另外,移动客户端计算设备120可以向可听菜单可视化服务器计算设备140,提供所转录的选项集合162。以这种方式,与可听菜单可视化服务器计算设备140通信耦合的可听菜单数据库141,可以用选项集合162而进行更新,使得当可听菜单可视化服务器计算设备140随后从在移动客户端计算设备110上执行的可听菜单可视化器111接收相同的通信标识符161时,可听菜单数据库141可以已经包括选项集合162,该选项集合162可以诸如以上文所描述的方式返回到可听菜单可视化器111。
转到图2,本文中示出的示例性系统200图示了示例性部件集合,其可以提供诸如上文参考可听菜单可视化器所描述的功能性之类的功能性,该功能性可以向用户显示自动话音系统选项,该自动话音系统选项采用有声单词的形式以可听方式由自动话音系统以其他方式呈现。建立与自动话音系统的通信连接的用户动作,可以触发图2所示的示例性部件的操作。如先前所指示的,通过本文中所提供的描述,设想了与自动话音系统的多种不同类型的通信连接。然而,为了便于参考和说明,图2的示例性系统200图示了通过电话网络建立的与自动话音系统的通信连接。从而,图2的示例性系统200包括用户拨号动作210,通过该拨号动作210可以通过电话网络建立通信连接,并且该拨号动作210还可以是用户选项选择机制和通过电话网络向自动话音系统的其他反馈。如图2的示例性系统200所示,用户拨号动作210可以被引导到拨号器221,该拨号器221可以通过电话网络执行通信连接的建立。更具体地,并且如本领域技术人员将认识到的,拨号器221可以利用适当的音频或数据传输(诸如双音多频信令(DTMF信令)音调),来通过电话网络建立到自动话音系统的通信连接。
一旦拨号器221建立了通信连接,诸如示例性自动话音系统检测器230之类的自动话音系统检测器,可以监测由拨号器221建立的通信连接,以便确定该通信连接是否是与自动话音系统的连接。更具体地,自动话音系统检测器230可以监测通过由拨号器221建立的通信连接来交换的音频,以检测指示自动话音系统的音频。例如,自动话音系统检测器230可以监测音频正在针对特定口头短语而被交换,该口头短语诸如“请按1”,然后监测选项的叙述。作为另一示例,自动话音系统检测器230可以监测音频正在针对缺乏双向通信而被交换该双向通信可能指示用户仅仅聆听到自动话音系统,而非与另一人说话。在又一示例中,自动话音系统检测器230可以监测音频正在针对声音模式或方差、音高、音色、速度可变性以及其他有声方面而被交换,该声音模式或方差、音高、音色、速度可变性以及其他有声方面指示计算机生成的话音,而非人类话音。
如果自动话音系统检测器230确定由拨号器221建立的通信连接不是与自动话音系统的连接,则自动话音系统检测器230可以停止监测并且使得由拨号器221建立的通信连接能够以常规方式继续进行。更具体地,并且如本领域技术人员将认识到的,诸如由示例性拨号器221实现的拨号功能性之类的拨号功能性可以是可以提供电话功能性的诸如示例性电话应用220之类的应用的一部分,该电话功能性包括建立电话通信连接以及通过这种通信连接交换音频和其他内容的能力。为了便于说明,尽管如所指示的,拨号器221可以是电话应用220的子部件,但是示例性拨号器221可以被图示为与图2中的示例性电话应用220分离的部件。因此,如果自动话音系统检测器230确定由拨号器221建立的通信连接不是到自动话音系统的连接,则自动话音系统检测器230可以允许电话应用220继续以传统方式并且在不受自动话音系统检测器230或下文所描述的部件中的其他部件的进一步干扰的情况下,促进并且提供这种通信连接。如先前所指示的,为了清楚起见,在电话自动话音系统的上下文内呈现了本文中所描述的机制,并且如此,示例性应用220被图示为电话应用220。然而,如先前所指示的,本文中所描述的机制同样适用于其他类型的自动话音系统。
返回到自动话音系统检测器230,如果自动话音系统检测器230确定由拨号器221建立的通信连接是与自动话音系统的连接,则自动话音系统检测器230可以调用诸如示例性集中式系统接口240之类的集中式系统接口,以与诸如由可听菜单可视化服务器计算设备140所表示的集中式系统之类的集中式系统对接,并且从其中获得由自动话音系统呈现的选项,其中拨号器221已经建立了与该自动话音系统的通信连接。更具体地,并且如上文所详细描述的,可听菜单可视化服务器计算设备140可以通信地耦合至可听菜单数据库141,其可以包括选项集合和用于建立与呈现这样的选项的自动话音系统的通信连接的通信标识符(诸如在建立与由自动话音系统检测器230检测到的自动话音系统的通信连接中,由拨号器221拨号的号码所表示的通信标识符)之间的关联。为了便于与集中式系统的交互,诸如示例性通信标识符222之类的通信标识符可以由集中式系统接口240提供给这种集中式系统,以便从其中获得对应的选项集合。尽管示例性通信标识符222被图示为由集中式系统接口240从拨号器221获得,但是这样的通信标识符222可以被诸如自动话音系统检测器230之类的其他部件或监测拨号器221的任何其他部件提供给集中式系统接口240,或以其他方式能够与拨号器221对接,以从中获得由拨号器221拨号的号码。
利用通信标识符222,诸如由示例性可听菜单可视化服务器计算设备140表示的集中式系统之类的集中式系统,可以参考诸如示例性可听菜单数据库141之类的可听菜单数据库,以确定通信标识符222的对应的选项集合是否已知。如果这样的选项集合已知并且被存储在与通信标识符222相对应的可听菜单数据库141中,则这样的选项集合可以被返回到集中式系统接口240,并且集中式系统接口240可以使得这样的选项采用诸如示例性用户接口261之类的用户接口的形式显示在显示设备上。为了提供在显示设备上显示选项,可以利用诸如示例性选项显示引擎260之类的选项显示引擎。根据一个方面,如下文进一步详细所描述的,选项显示引擎260可以诸如从集中式系统接口240或从语音识别器250接收要显示的选项,并且可以使得这样的选项被显示在诸如示例性用户接口261之类的用户接口中,从而便于用户对这些选项的消费和选择。
更具体地,并且如上文所描述的,诸如通过示例性用户接口261,视觉呈现选项可以使得用户能够比用户仅通过由拨号器221已经与其建立通信连接的自动话音系统所发出的口头单词,以可听方式呈现这样的选项,更快速和更彻底地阅读和理解这些选项。因为用户能够更快速和更彻底地阅读和理解这些选项,所以与在通过由拨号器221建立的通信连接由自动话音系统向用户说出这样的选项的同时还必须进行聆听相比较,用户的效率和交互性能得到提高。类似地,诸如通过示例性用户接口261视觉呈现选项使得用户能够更准确地选择一个或多个选项,从而进一步增加用户的效率和交互性能。
根据一个方面,集中式系统接口240可以建立与集中式系统(诸如由可听菜单可视化服务器计算设备140提供的集中式系统之类)的通信连接,其可以与由拨号器221建立与自动话音系统的通信连通分离并且不同。在另一方面中,可以跨与由拨号器221建立的自动话音系统的通信连接相同的数据通信信道,建立集中式系统接口240与集中式系统之间的通信连接。无论通信连接的性质如何,可以提供由诸如可听菜单可视化服务器计算设备140之类的集中式系统提供的与通信标识符222相对应的自动话音系统的选项以作为文本、或其他类似的数据,以便于将这样的选项显示在诸如示例性用户接口261之类的用户接口中显示。从而,与对特定呈现方式的任何引用无关的、对“选项集合”的引用意味着选项本身作为信息构造,而非纯粹的以口头单词的形式发声这样的选项。相比之下,当参考采用口头单词(诸如可能通过传统的电话通信连接由自动话音系统说出的口头单词之类)形式的选项的发声时,显式地参考以下事实:这样的选项采用口头单词或有声单词的形式以可听形式呈现,并且这样的参考意指对这样的口头单词被传送并且被可听地向用户发声的载体介质或传输机制而言,是不可知的。
回到图2的示例性系统200,如果集中式系统接口240不能从与通信标识符222相对应的集中式系统获得选项集合,或可替代地,即使这样的选项从集中式系统获得,自动话音系统检测器230也可以通过调用语音识别器250,来转录采用由自动话音系统发声或说出的单词的形式的选项的可听呈现。如本领域技术人员将认识到的,诸如示例性语音识别器250之类的语音识别器,可以利用已知的转录机制来采用口头单词的形式解释声音,并且从其中导出采用数据格式(诸如文本数据格式之类)的口头单词本身,该口头单词与所说出的那些单词的声音不同。从而,当自动话音系统(诸如拨号器221建立与其通信连接的自动话音系统)向用户说出与所提供的选项以及用户要指示选择这样的选项的方式两者相对应的单词时,语音识别器250可以转录这些单词,并且因此可以标识由这样的自动话音系统提供的选项,并且可以标识对应的选择机制。
根据一个方面,语音识别器250可以标识已知或常见的短语,以区分选项和对应的选择机制。例如,在电话通信的上下文内,选择机制通常采用与电话键盘相对应的数字录入的形式。从而,自动话音系统通常利用常用术语(诸如跟随有数字标识符“按”、“选择”或“输入”之类的),以向用户传达用户要选择枚举选项的方式。语音识别器250可以转录自动话音系统说出的单词,然后解析这样的常用术语的转录以及此后指定的数字标识符,从而可以将特定选择机制与特定选项相关联。
类似地,可以基于用于引入这样的选项的常用术语(诸如单词“用于”、“聆听”、“选择”之类)来标识选项。因此,语音识别器250可以转录由自动话音系统说出的单词,然后解析这种常用术语的转录,以便标识由这样的自动话音系统发声的选项。作为说明性示例,如果自动话音系统要说出短语“用于计费,请按1”,则语音识别器250可以标识单词“用于”,然后标识随后的单词或短语,在这种情况下为“计费”,以作为枚举选项。类似地,语音识别器250可以标识单词“请按”,然后标识随后的单词,在这种情况下为“1”,以作为可以由用户选择先前枚举的选项的枚举选择机制。然后,语音识别器250可以向例如选项显示引擎260提供这样的选项和选择机制对(即,“计费”和“1”),以便生成诸如示例性用户接口261之类的用户接口,其中这样的选项和选择机制被视觉显示给用户。作为另一说明性示例,如果自动话音系统要说出短语“聆听您的帐户概要,请录入星5”,则语音识别器250可以标识短语“聆听”,然后标识随后的短语,即,在本示例中为“您的帐户概要”,以作为枚举选项。类似地,语音识别器250可以标识单词“录入”,然后标识随后的短语,在这种情况下为“星号5”,以作为对应的选择机制。如前所述,语音识别器250可以向选项显示引擎260提供选项和选择机制对(即“您的帐户概要”和“星号5),以便生成这种选项和选择机制在其中被视觉显示给用户的用户接口。
在一些实例中,自动话音系统不是主动向用户呈现选项,而是可以要求用户说出标识用户呼叫的主题原因的单词或短语。在这样的实例中,自动话音系统可以通过参考未主动呈现的预先定义的选项,来确认用户的输入。例如,在与自动话音系统建立通信连接时,自动话音系统可以要求用户“说描述你正在呼叫的原因的单词或短语”。作为响应,在本说明性示例中,用户可以通过说“我想更新我的帐户的地址”来做出响应。然后,自动话音系统可以确认用户的响应,并且将其与由自动话音系统先前未以其他方式向用户枚举或说出的预先定义的选项对准。例如,在本说明性示例中,自动话音系统可以通过声明“您正在呼叫帐户维护,正确吗?”来响应用户的输入。在这样的实例中,语音识别器250可以标识由自动话音系统用作确认的术语或短语,从而标识预先枚举的选项中的一个。例如,在本说明性示例中,语音识别器250可以将短语“帐户维护”标识为可由用户选择的选项。
转到图3,本文中所示出的系统300图示了通过三个示例性用户接口(即,示例性用户接口301、302和303)的时间过程。示例性用户接口301图示了可以由拨号器或用于建立诸如与自动话音系统的通信连接的其他类似部件所提供的用户接口。如图3所示,示例性用户接口301可以包括键盘320,用户可以通过该键盘320录入通信标识符以用于建立诸如与自动话音系统的通信连接。为了说明的目的,示例性键盘320被图示为示例性用户接口301的一部分,诸如可以在触摸屏或其他类似的具有输入功能的显示设备上显示的部分,其中指向显示设备的与键盘320的特定数字相对应的区域的用户输入导致用户录入这样的数字。附加地,示例性用户接口301可以包括通信标识符显示区域310,其中用户可以诸如通过示例性键盘320查看正在被录入的通信标识符。为了说明的目的,通信标识符显示区域310被示为包括电话号码的一部分,通过该部分,可以诸如在自动话音系统内建立电话通信连接。尽管在图3中没有特定说明,但是示例性用户接口301还可以包括其他控件,用户可以通过这些控件访问其他功能性,其包括拨号器或电话应用的其他功能性、或由在呈现这样的示例性用户接口301的计算设备上执行的其他应用提供的其他功能性。如示例性控件区域331和332所示,这样的控件通常被放置在用户接口的顶部或底部。
根据一个方面,在用户录入诸如电话号码之类的通信标识符之后、并且在与自动话音系统建立诸如电话通信连接之类的通信连接之后,上文所详细描述的机制可以被执行,以提供由自动话音系统采用有声单词的形式向用户可听呈现的选项的视觉显示。图3所示的示例性用户接口302图示了一个示例性用户接口,其可以由这样的机制生成,以视觉显示采用有声单词的形式由自动话音系统向用户可听呈现的选项。更具体地,示例性用户接口302可以包括视觉显示的选项350,其可以在先前可能已经包含键盘(诸如示例性用户接口301的示例性键盘320或用户可利用以建立通信连接的其他类似接口部件)的区域内显示。为了说明的目的,视觉显示的选项350包括四个选项,即,视觉显示的选项351、352、353和354。如图3所示,首先转到视觉显示的选项351,这样的视觉显示的选项可以包括可以选择这种选项的选择机制的指示、以及选项的指示符本身(诸如由自动话音系统发声以描述该选项的短语)。在本示例中,视觉显示的选项351可以经由电话“1”代码的录入来选择,从而示例性视觉显示的选项351指示“1”,以作为与这种选项相对应的选择机制,这种选项的标题或描述也显示在专用于视觉显示的选项351的示例性用户接口302的部分内。如同在上文所描述的示例性键盘320的情况中一样,视觉显示的选项350的示例性呈现可以根据触摸屏能力或其他类似显示和输入能力,由此用户可以通过将用户输入引导到由视觉显示的选项351涵盖的区域中来选择第一选项。选择这种选项可以导致被发送到自动话音系统的适当信号。在上文所描述的电话通信的上下文内,例如视觉显示的选项351的用户选择可以导致被发送到自动话音系统的、与示例性键盘320的“1”按键的用户输入相同的信号。更一般地,视觉显示的选项350可以使得用户在不会背离这些选项的显示的情况下,能够视觉消费由自动话音系统提供的选项,而且能够有效选择一个或多个这样的选项(诸如在示例性用户接口302内呈现的选项)。
示例性用户接口302可以包括其他元件,其可以便于用户与自动话音系统的交互。例如,示例性用户接口302可以包括通信标识符显示区域340,其可以类似于通信标识符显示区域310,除了在示例性用户接口302内,为了说明的目的,通信标识符显示区域340可以包括用于通过这样的通信标识符可通信地连接的自动话音系统的选项的初始呈现的完整通信标识符。附加地,示例性用户接口302(如示例性用户接口301)可以包括用于显示和呈现各种控件的区域,其包括可以使得用户能够与其他应用或通信机制交互的控件。在示例性用户接口302内,这样的控件可以例如显示在控制区域371和372内。
根据一个方面,可以提供搜索功能性,以使得用户能够搜索由用户录入的特定搜索项的视觉显示的选项。例如,示例性用户接口302图示了用户可以向其中录入一个或多个搜索项的搜索项录入区域360。如果在一个或多个视觉显示的选项中(诸如在一个或多个视觉显示的选项350中)找到这样的搜索项,则可以修改视觉显示的选项350的显示,以突出显示视觉显示的选项350中的包括搜索项的那些视觉显示的选项。可替代地或另外,可以修改视觉显示的选项350的显示,以移除并且不再显示未包括搜索项的那些选项。如本领域技术人员将认识到的,如果用户以其他方式接合并且仅仅快速浏览示例性用户接口302,如果视觉显示的选项350的数目大于可以在示例性用户接口302内显示的数目,或用户可能难以仔细阅读每个选项其他类似的情形,则这种搜索功能性可能是有帮助的。因此,上述搜索功能性可以进一步提高用户效率和交互性能。
为了向用户提供附加的视觉信息,示例性用户接口302可以包括公司的徽标,其自动话音系统已经建立了与其的通信连接。这样的徽标可以显示在徽标显示区域361内。更具体地,并且如本领域技术人员将认识到的,公司经常利用自动话音系统来便于公司与其客户、代理人、关联人或其他类似的个人之间的交互。如此,其自动话音系统已经与其建立通信连接的公司的徽标可以在徽标显示区域361内显示,以作为进一步的细节补充,并且有效地且方便地向用户提供参考信息。可以通过多种机制来获得这种徽标信息。例如,用于建立与自动话音系统的初始通信连接的通信标识符可以是可以通过各种方式与公司相关联的公知的通信标识符,这些方式包括例如搜索引擎数据库、实体数据库等。因此,为了标识这样的徽标,可以诸如利用搜索引擎来执行搜索,其中通信标识符作为搜索项。作为另一示例,通信标识符可以存在于主页或由公司发布的或为了让公司得益而发布的其他类似的参考源上。首先可以通过标识公司的主页(诸如通过利用通信标识符作为搜索项的搜索),然后随后解析一个或多个徽标的主页来标识这些徽标。作为又一示例,用于通过自动话音系统转录可听呈现的信息的转录功能性可以被扩展,以解析这些转录以便标识提供或利用自动话音系统的公司的名称。诸如通过上文所描述的机制可以由在显示示例性用户接口302的计算设备上执行的过程,来标识诸如可能在徽标显示区域361内显示的徽标之类的徽标。可替代地或者另外,徽标可以通过远程执行的过程(诸如上述集中式机制)来标识,响应于提供诸如在通信标识符显示区域340中所示的通信标识符之类的通信标识符,可能已经从这些集中式机制接收到视觉显示的选项350。为了便于随后呈现,一旦已经将徽标标识为与特定通信标识符相对应或者一般而言与自动话音系统相对应,可以集中保留这样的徽标,诸如将其保留在上述可听菜单数据库中。
由自动话音系统呈现的选项中的一个或多个选项的用户选择可以产生由自动话音系统呈现的不同的选项集合。在这种实例中,用于建立与自动话音系统的初始通信连接的通信标识符,与被提供给自动话音系统的一个或多个附加数字或其他机制选择信息相组合,可以形成随后的通信标识符,其中随后呈现的选项可以与该随后的通信标识符相关联。例如并且参考图3,用户可以与示例性用户接口302进行交互,并且可以已经选择第二显示选项352,从而使得另一选项集合由已经建立与其的通信连接的自动话音系统采用有声单词的形式可听呈现。通过将示例性用户接口302的、在通信标识符显示区域340内显示的原始通信标识符,与被录入以选择第二显示选项352的标识符(即,数字“2”)级联所形成的新的通信标识符,被图示为在示例性用户接口303的通信标识符显示区域380内显示,该示例性用户接口303表示在用户选择第二显示选项352之后,可以在示例性用户接口302之后显示的示例性用户接口。
上文所描述的机制可以利用新的通信标识符,从集中式机制获得与这种新的通信标识符相对应的选项,或者上文所描述的选项可以在它们由自动话音系统采用有声单词的形式可听呈现时,转录选项。这样的选项可以被显示为所显示的选项390,其可以作为示例性用户接口303的一部分向用户显示,该部分所指示的可以在用户对示例性用户接口302中的第二显示选项352的选择之后显示。与示例性用户接口302中的所显示的选项350一样,示例性用户接口303中的所显示的选项390可以包括多个选项,诸如可以向用户显示用户可选的选项以及可以选择这种选项的选择机制的示例性显示的选项391,392和393。如前所述,示例性用户接口303还可以包括在徽标显示区域362内显示的徽标,其可以与徽标显示区域361中显示的徽标相同,或者不同的徽标,诸如子公司或响应于所显示的选项352的选择而其自动话音系统与其建立后续通信连接的不同公司。类似地,示例性用户接口303可以包括控件,诸如上文所参考的那些控件,其可以在诸如示例性控制显示区域373和374之类的示例性用户接口303的各部分内显示。
转到图4,本文中所示出的选项菜单树400图示了可由自动话音系统呈现的示例性菜单集合,以及图示了众包如何构建这样的菜单树的知识以供将来参考。更具体地并且如先前所定义,如本文中所使用的术语“菜单”是指可以同时或按顺序呈现给用户的备选可选择选项的集合。因此,图4的选项菜单树400中所图示的单独菜单中的每个表示响应于与自动话音系统进行通信的初始建立或在先前菜单中呈现的选项的集合的随后选择,而向用户呈现的可选择选项的集合。
例如,初始菜单410表示当与自动话音系统首次建立通信连接时可以由自动话音系统呈现的选项的集合。示例性初始菜单410在图4中被图示为包括四个不同的选项。那些四个选项中的第一选项的用户选择可以导致自动话音系统向用户可听呈现示例性菜单420的选项。类似地,用户从初始菜单410中选择那些四个选项中的第二选项可以导致自动话音系统向用户可听呈现示例性菜单430的选项,并且用户选择那些四个选项中的第三选项可以导致自动话音系统可听呈现示例性菜单440的选项。用户选择选项还可以导致用户与另一人通信地连接,使得自动话音系统不再与用户通信。在这种实例中,从自动话音系统以及由此呈现的选项的角度出发,自动话音系统与用户之间的交互可以结束。从而,在图4所示的选项菜单树400中,经由被标记为“结束”的圆圈(诸如例如,结束圆圈411)来说明从导致用户与另一人通信连接或以其他方式结束与自动话音系统的交互的菜单中选择选项。
作为简单的示例,为了更具体地传达图4的图示,在说明性的简单示例中,初始菜单410可以包括航空公司相关的选项,诸如例如,检查航班状态的第一选项,搜索购买机票的航班的第二选项,访问航空积分帐户的第三选项以及与代表交谈的第四选项。在这样简单的说明性示例中,用户对初始菜单410的第一选项(即,检查航班状态)的选择可以导致诸如示例性菜单420之类的后续菜单由自动话音系统向用户可听呈现。这样的后续菜单420可以包括与初始菜单410的选项不同的其他选项。继续简单的说明性示例,当用户从初始菜单410中选择了检查他们的航班状态的选项时,呈现给用户的后续菜单420可以包括指向检查航行状态的选项,其包括例如通过航班号搜索航班的选项以及通过录入出发城市和到达城市来搜索航班的选项。在示例性选项菜单树400内,还经由被标记为“结束”的圆圈图示了这种选项选择,这是因为在继续足以使得用户能够录入例如航班号的同时,用户中的自动话音系统之间的交互确实终止,只要没有可由用户随后选择的进一步的选项。以类似的方式,如果用户从初始菜单410选择购买机票的选项,则可以呈现后续菜单430,并且这样的后续菜单430可以包括指向购买机票的选项。同样地,如果用户从初始菜单410选择访问航空积分帐户的选项,则可以呈现后续菜单440,并且这样的后续菜单440可以包括指向航空积分帐户访问和管理的选项的后续菜单440。以类似的方式,选择由例如后续菜单440所呈现的选项,可以导致自动话音系统向用户呈现又进一步的后续菜单(诸如例如后续菜单450,460和470)。
根据一个方面,诸如上述可听菜单可视化服务器计算设备和可听菜单数据库之类的集中式机制可以利用众包,来通过接收由与自动话音系统独立交互的多个不同用户提供的自动话音系统的各种选项菜单的转录,来构建用于自动话音系统的诸如示例性选项菜单树400之类的选项菜单树。例如,与自动话音系统通信地耦合的一个用户可以被呈现初始菜单410,可以选择第一选项,并且因此可以被呈现后续菜单420,这样的用户可以再次从该后续菜单420中选择第一选项,并且到达与自动话音系统的交互的末尾。通过由短虚线涵盖的区域491来说明通过这种自动话音系统的选项菜单树的这种交互路径。在通过自动话音系统交互地进行中,这样的用户的计算设备按照上文所描述的机制可以转录各种选项菜单,并且将它们提供给例如可听菜单可视化服务器计算设备,以将这样的选项菜单存储在可听菜单数据库内。可以再次为还与自动话音系统通信地耦合的后续用户,呈现初始菜单410,除了这样的后续用户可以选择第三选项,并且因此不能被呈现后续菜单440之外,这样的用户可以从该后续菜单440中选择第三选项,并且到达与自动话音系统的交互的末尾。通过选项菜单树的这种不同的交互路径是由长虚线涵盖的区域492图示。如前所述,按照上文所描述的机制的、这样的后续用户的计算设备可以转录各种选项菜单,并且将它们提供给可听菜单可视化服务器计算设备以存储在可听菜单数据库内。一旦从这样的后续用户接收到所转录的选项菜单,根据一个方面,可听菜单可视化服务器计算设备可以将来自与初始菜单410相对应的后续用户的所转录的选项菜单,与从初始用户接收到的所转录的菜单选项进行比较。如果没有差异,则可以保留先前存储的转录菜单选项。然而,对于后续菜单440,尚不能接收到先前信息,从而在从后续用户接收到由区域492涵盖的所转录的菜单选项之后,可听菜单可视化服务器计算设备可以保留后续菜单440。以这种方式,来自不同用户的所转录的选项菜单可以被用于以众包方式构建选项菜单树(诸如图4所示的示例性选项菜单树400)。
转到图5,本文中所示出的示例性流程图500图示了一系列示例性步骤,其可以被执行以向用户视觉显示由这种用户与其通信地耦合的自动话音系统,以其他方式可听呈现的选项。最初,如示例性步骤510所图示的,可以利用通信标识符建立通信连接。如先前所指示的,这样的通信标识符可以是电话号码、与指示顺序选项选择的其他数字条目级联的电话号码、或其他形式的通信标识符(诸如网络地址等)。随后,在步骤520处,可以确定在步骤510处建立的通信连接是否是与自动话音系统的连接。如先前所指示的,可以通过监测作为在510处建立的通信连接的一部分而发送和接收的通信(诸如通过确定是否正在交换指示自动话音系统的关键字、短语或其他通信)来做出这种确定。如果在步骤520处确定在步骤510处建立的通信连接不是与自动话音系统的连接,则处理可以进行到步骤590,此时可以允许沿着这种通信连接的通信进行,并且相关处理可以在步骤599处结束。
相反,如果在步骤520处,确定在510处建立的通信连接是与自动话音系统的连接,则处理可以进行到步骤530。在步骤530处,用于在步骤510处建立通信连接的通信标识符,可以被提供给集中式可听菜单可视化系统(诸如由上文所描述的可听菜单可视化服务器计算设备实现的集中式可听菜单可视化系统)。响应于到集中式可听菜单可视化系统的这种通信,可以接收到指示与所提供的通信标识符相对应的自动话音系统的选项或者指示这样的选项对于集中式可听菜单可视化系统而言尚不可知的信息。在步骤540处,可以接收这样的响应,并且如果在步骤540处,这样的响应指示选项未知,则处理可以进行到步骤550,于是采用通过在步骤510处建立的通信连接而传达的有声单词的形式由自动话音系统可听呈现的选项,可以被转录成选项和选择机制对(诸如上文所详细描述的那些选项和选择机制对)。然后,处理可以进行到步骤560,并且可以在显示设备上向用户视觉显示选项和选择机制对。
返回到步骤540,如果在步骤540处确定集中式可听菜单可视化系统已经提供已知与在步骤530处提供的通信标识符相关联的选项,则处理可以直接跳到步骤562,在显示设备上向用户视觉显示这样的选项。可选地,诸如步骤550的转录之类的转录可以在背景中执行,同时等待用户诸如在步骤580处选择选项。然后,这种背景转录可以用于验证从集中式可听菜单可视化系统接收到的选项。如果所转录的选项不同于从集中式可听菜单可视化系统接收的那些选项,或者如果如在步骤540处确定的集中式可听菜单可视化系统没有提供与通信标识符相关联的选项,则在步骤570处,集中式可听菜单可视化系统可以用新的转录选项进行更新。更具体地,集中式可听菜单可视化系统可以被提供有选项和选择机制对,该选项和选择机制对在步骤550处被转录,以用于当步骤510所示的利用通信标识符建立与这样的自动话音系统的通信连接时,由自动话音系统呈现的选项菜单。如先前所指示的,通信标识符可以包括电话号码,其例如用于建立与自动话音系统的初始通信连接,与用于选择在步骤550处转录的当前选项菜单之前的、顺序呈现的选项菜单中的选项序列的其他数值相级联。
根据一个方面,当提供信息以诸在步骤570处更新集中式可听菜单可视化系统时,通配符值可以用于通信标识符的部分,其不是指示选项选择,而是指示个人标识信息(诸如信用卡号、社会保险号码、帐号等)的录入。以这种方式,个人标识信息不能被传送到集中式可听菜单可视化系统或不能由集中式可听菜单可视化系统保留。可以基于这些标识符的数目或长度,来区分指示选项选择的通信标识符的部分和指示个人标识信息的录入的其他标识符或值。例如,选项选择机制通常要求用户诸如经由电话键盘录入一个或至多两个数字。从而,如果检测到更大数目个数字的录入,则所有这些数字不需要级联到先前通信标识符,以便形成新的通信标识符。反之,这样的数字可以由通配符值而替换,否则其可以从被传送到集中式可听菜单可视化系统的通信标识符中排除,以便将其与转录选项和选择机制对的菜单相关联。
返回到图5的示例性流程图500,在步骤570提供当前呈现的选项菜单的选项和选择机制对以及与之相对应的通信标识符之后,处理可以进行到步骤580,其中用户可以选择选项,诸如通过选择电话键盘的一个或多个数字。然后,处理可以返回到步骤520。作为后续回合的一部分,在步骤520处可以再次确定后续通信连接是否仍然是与自动话音系统的连接,现在通信标识符包括先前被用于结合在步骤580处选择的选项的选项选择机制在步骤510处建立通信连接的通信标识符。如果作为通过步骤520的后续回合的一部分,确定用户不再与自动话音系统通信,诸如例如如果用户被转移到人,则处理可以进行到步骤590,并且在步骤599结束,这一点正如上文所描述的。
转到图6,图示了可以执行上文所描述的机制和动作中的一些或全部机制和动作的示例性计算设备600。示例性计算设备600可以包括但不限于,一个或多个中央处理单元(CPU)620、系统存储器630以及将包括系统存储器的各种系统部件耦合至处理单元620的系统总线621。该系统总线621可以是几种类型的总线结构中的任一种,这些总线结构包括存储器总线或存储器控制器、外围总线和使用多种总线体系架构中的任一种总线体系架构的本地总线。计算设备600可以可选地包括图形硬件,其包括但不限于,图形硬件接口670和显示设备671,该显示设备671可以包括能够接收基于触摸的用户输入的显示设备(诸如触敏显示设备或者具有多点触控功能的显示设备)。计算设备还可以包括用于以可听方式向用户呈现信息的外设,其包括例如诸如扬声器之类的声音生成设备。在图6中,示例性计算设备600被示出为包括通信地耦合至系统总线621的外设接口660,其中诸如扬声器651之类的外设通信耦合至该外设接口660。根据特定物理实现方式,计算设备600的CPU 620、系统存储器630和其他部件中的一个或多个可以在物理上位于同一位置(诸如位于单个芯片上)。在这种情况下,系统总线621中的一些或全部系统总线可能仅仅是单个芯片结构内的硅路径,并且为了说明的目的,图6中的图示仅仅是为了图示的方便。
计算设备600还通常包括计算机可读介质,该计算机可读介质可以包括可以由计算设备600访问的任何可用介质,并且包括易失性介质和非易失性介质以及可移除介质和不可移除介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的介质。计算机存储介质,包括但不限于RAM、ROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备或者可以用被于存储所需信息并且可以由计算设备600访问的任何其他介质。然而,计算机存储介质不包括通信介质。通信介质通常实现计算机可读指令、数据结构、程序模块或诸如载波或其他传送机制之类的调制数据信号中的其他数据,并且其包括任何信息传递介质。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接之类的有线介质以及诸如声学、RF、红外和其他无线介质之类的无线介质。上述任一项的组合也应当包括在计算机可读介质的范围内。
系统存储器630包括诸如只读存储器(ROM)631和随机存取存储器(RAM)632之类的易失性存储器和/或非易失性存储器形式的计算机存储介质。包含帮助在计算设备600内的元件之间(诸如在启动期间)传送信息的基本例程的基本输入/输出系统633(BIOS)通常被存储在ROM 631中。RAM 632通常包含数据和/或程序模块,这些数据和/或程序模块可立即访问处理单元620和/或当前正在通过处理单元620而被操作。作为示例而非限制,图6图示了操作系统634、其他程序模块635和程序数据636。
计算设备600还可以包括其他可移除/不可移除的易失性计算机存储介质/非易失性计算机存储介质。仅作为示例,图6图示了从不可移除非易失性磁性介质读取或写入的硬盘驱动器641。可以与示例性计算设备一起使用的其他可移除计算机存储介质/不可移除计算机存储介质、易失性计算机存储介质/非易失性计算机存储介质,包括但不限于上文所定义和描绘的磁带盒、闪存卡、数字通用盘、数字录像带、固态RAM、固态ROM和其他计算机存储介质。通常硬盘驱动器641通过诸如接口640之类的非易失性存储器接口而被连接至系统总线621。
上文所讨论的并且在图6中图示的驱动器及其相关联的计算机存储介质为计算设备600提供计算机可读指令、数据结构、程序模块和其他数据的存储。例如在图6中,硬盘驱动器641被图示为存储操作系统644、其他程序模块645和程序数据646。注意,这些部件可以与操作系统634、其他程序模块635和程序数据636相同或不同。这里对操作系统644、其他程序模块645和程序数据646给出不同的标号,以说明至少它们是不同的副本。
计算设备600可以使用到一个或多个远程计算机的逻辑连接,在联网环境中操作。计算设备600被图示为通过网络接口或适配器660连接到通用网络连接661,该网络接口或适配器660又连接到系统总线621。在联网环境中,相对于计算设备600描绘的程序模块或其部分或外设,可以存储在通过通用网络连接661而通信地耦合至计算设备600的一个或多个其他计算设备的存储器中。将领会的是,所示的网络连接是示例性的,并且可以使用在计算设备之间建立通信链路的其他方式。
尽管被描述为单个物理设备,但是示例性计算设备600可以是虚拟计算设备,在这种情况下,上文所描述的物理部件(诸如CPU 620、系统存储器630、网络接口660和其他相似部件)的功能性可以由计算机可执行指令提供。这样的计算机可执行指令可以在单个物理计算设备上执行,或者可以分布在多个物理计算设备上,这包括以动态方式分布在多个物理计算设备上,使得托管这样的计算机可执行指令的特定物理计算设备可以根据需要和可用性随时间推移而动态地改变。在示例性计算设备600是虚拟化设备的情形下,托管这样的虚拟化计算设备的底层物理计算设备本身可以包括与上文所描述的那些物理部件类似并且以类似方式操作的物理部件。此外,可以在多层中利用虚拟计算设备,其中一个虚拟计算设备在另一虚拟计算设备的构造内执行。因此,如本文中所使用的,术语“计算设备”意指物理计算设备或包括虚拟计算设备的虚拟计算环境,在该虚拟计算设备内,计算机可执行指令可以以与其通过物理计算设备执行的方式一致的方式来执行。类似地,如本文中所利用的,指代计算设备的物理部件的术语意指其执行相同或等同功能的那些物理部件或虚拟化。
作为第一示例,上述描述包括计算设备,其用于通过视觉显示可听呈现的选项来提高用户效率和交互性能。该计算设备包括一个或多个处理单元、扬声器、显示设备、以及一个或多个计算机可读介质,其包括计算机可执行指令,当由一个或多个处理单元执行时,该计算机可执行指令使得计算设备:确定用于在计算设备和自动话音系统之间建立第一通信连接的第一通信标识符,该第一通信连接包括由自动话音系统向用户呈现第一选项集合,第一选项集合通过由扬声器生成的有声单词形式的声音可听地呈现给用户;向独立于自动话音系统的远程计算设备提供第一通信标识符;如果第一选项集合通过远程计算设备与第一通信标识符相关联,则响应于提供,从远程计算设备接收第一选项集合;如果未从远程计算设备接收到第一选项集合,则通过自动话音系统转录第一选项集合的可听呈现;在显示设备上向用户显示第一选项集合,如果从远程计算设备接收到第一选项集合,则从远程计算设备接收到第一选项集合,或者如果未从远程计算设备接收到第一选项集合,则转录第一选项集合;以及如果未从远程计算设备接收到第一选项集合,则向远程计算设备提供所转录的第一选项集合,以使得第一选项集合通过远程计算设备与第一通信标识符相关联。
第二示例是第一示例的计算设备,其中一个或多个计算机可读介质包括另外的计算机可执行指令,当由一个或多个处理单元执行时,该计算机可执行指令使得计算设备:确定第一通信连接是否是基于第一通信连接与自动话音系统的连接,第一通信连接用于接收被预先确定为指示自动话音系统的有声单词。
第三示例是第一示例的计算设备,其中一个或多个计算机可读介质包括另外的计算机可执行指令,当由一个或多个处理单元执行时,该另外的计算机可执行指令使得计算设备:接收指示从第一选项集合之中选择选项的用户输入;通过传送选项选择标识符,向自动话音系统传送选项的选择;以及确定用于在计算设备和自动话音系统之间建立第二通信连接的第二通信标识符,该第二通信连接包括呈现针对所选择的选项的第二选项集合;其中第二通信标识符包括与选项选择标识符级联的第一通信标识符。
第四示例是第一示例的计算设备,其中第一通信标识符是与电话拨号的号码级联的电话号码,其电话拨号的号码被先前录入以顺序选择自动话音系统的先前顺序呈现的选项集合中的选项。
第五示例是第一示例的计算设备,其中一个或多个计算机可读介质包括另外的计算机可执行指令,当由一个或多个处理单元执行时,该另外的计算机可执行指令使得计算设备:即使从远程计算设备接收到第一选项集合,也转录第一选项集合的可听呈现;以及如果从远程计算设备接收到的第一选项集合与第一选项集合不同,则向远程计算设备提供所转录的第一选项集合,以更新与第一通信标识符相关联的第一选项集合。
第六示例是第一示例的计算设备,其中从远程计算设备接收的第一选项集合先前由另一不同计算设备提供给远程计算设备,该另一不同计算设备还具有一个或多个计算机可读介质,其包括计算机可执行指令。
第七示例是第一示例的计算设备,其中一个或多个计算机可读介质包括另外的计算机可执行指令,当由一个或多个处理单元执行时,该另外的计算机可执行指令使得计算设备:利用第一选项集合向用户显示与自动话音系统相关联的公司的徽标。
第八示例是第七示例的计算设备,其中一个或多个计算机可读介质包括另外的计算机可执行指令,当由一个或多个处理单元执行时,该另外的计算机可执行指令使得计算设备:向搜索引擎提供第一通信标识符作为搜索项;以及响应于提供,从搜索引擎所提供的结果中查找徽标。
第九示例是第一示例的计算设备,其中在电话键盘先前被显示时,第一选项集合的显示在显示设备的相同部分上。
第十示例是第一示例的计算设备,其中显示设备是触摸屏;并且其中通过指向所选择的选项在其上显示的触摸屏的一部分的用户触摸,接收指示从第一选项集合中选择选项的另外的用户输入。
第十一示例是第一示例的计算设备,其中一个或多个计算机可读介质包括另外的计算机可执行指令,当由一个或多个处理单元执行时,该另外的计算机可执行指令使得计算设备:利用第一选项集合在显示设备上,向用户显示可以通过其搜索第一选项集合的搜索项录入区域。
第十二示例是第一示例的计算设备,其中一个或多个计算机可读介质包括另外的计算机可执行指令,当由一个或多个处理单元执行时,该另外的计算机可执行指令使得计算设备:基于来自自动话音系统的、确认口头用户输入的响应,从转录标识第一选项集合的至少一个选项,该至少一个选项是先前未通过自动话音系统向用户枚举的预先定义的选项。
第十三示例是通过视觉显示可听呈现的选项来提高用户效率和交互性能的系统,该系统包括第一客户端计算设备,其包括一个或多个处理单元,以及一个或多个计算机可读介质,其包括计算机可执行指令,当由一个或多个处理单元执行时,该计算机可执行指令使得第一客户端计算设备:利用第一通信标识符建立与自动话音系统的第一通信连接,通过自动话音系统转录第一选项集合的可听呈现,向集中式可听菜单可视化系统提供所转录的第一选项集合以及第一通信标识符;第二客户端计算设备,其与第一客户端计算设备不同,该第二客户端计算设备包括一个或多个处理单元、显示设备、以及一个或多个计算机可读介质,其包括计算机可执行指令,当由一个或多个处理单元执行时,该计算机可执行指令使得第二客户端计算设备:利用第一通信标识符建立与自动话音系统的第二通信连接,向集中式可听菜单可视化系统提供第一通信标识符,响应于提供而从集中式可听菜单可视化系统接收第一选项集合,以及在显示设备上向用户显示第一选项集合;以及一个或多个服务器计算设备,其实现集中式可听菜单可视化系统,该服务器计算设备包括:处理单元,包括可听菜单数据库的计算机可读介质,以及包括计算机可执行指令的计算机可读介质,当由处理单元执行时,该计算机可执行指令使得一个或多个服务器计算设备:从第一客户端计算设备接收所转录的第一选项集合和第一通信标识符,在可听菜单数据库中将从第一客户端计算设备接收到的第一选项集合与第一通信标识符相关联,从第二客户端计算设备接收第一通信标识符,基于第一通信标识符从可听菜单数据库中获得第一选项集合,以及响应于第一通信标识符而向第二客户端计算设备提供第一选项集合。
第十四示例是第十三示例的系统,其中可听菜单数据库包括与自动话音系统相关联的不完整选项菜单树,已经从其他客户端计算设备接收到选项菜单树中的条目。
第十五实例是第十三实施例的系统,其中第一通信标识符是与电话拨号的号码级联的电话号码,该电话拨号的号码被先前录入以顺序选择自动话音系统的先前顺序呈现的选项集合中的选项。
第十六示例是第十三示例的系统,其中可听菜单数据库包括与自动话音系统相关联的徽标。
第十七示例是第十六示例的系统,其中一个或多个服务器计算设备的计算机可读介质还包括计算机可执行指令,当由处理单元执行时,该计算机可执行指令使得一个或多个服务器计算设备:向搜索引擎提供第一通信标识符作为搜索项;以及响应于提供,从搜索引擎所提供的结果查找徽标。
第十八示例是用于通过视觉显示可听呈现的选项来提高用户效率和交互性能的计算设备,该计算设备包括一个或多个处理单元;以及一个或多个计算机可读介质,其包括计算机可执行指令,当由一个或多个处理单元执行时,该计算机可执行指令使得计算设备:从已经利用第一通信标识符建立与自动话音系统的第一通信连接的第一客户端计算设备接收所转录的第一选项集合和第一通信标识符;在可听菜单数据库中,将从第一客户端计算设备接收到的第一选项集合与第一通信标识符相关联;从已经利用第一通信标识符建立与自动话音系统的第二通信连接的第二客户端计算设备接收第一通信标识符,第二客户端计算设备不同于第一计算设备;基于第一通信标识符从可听菜单数据库中获得第一选项集合;以及响应于第一通信标识符而向第二客户端计算设备提供第一选项集合。
第十九示例是第十八示例的计算设备,其中第一通信标识符是与电话拨号的号码级联的电话号码,该电话拨号的号码被先前录入,以顺序选择自动话音系统的先前顺序呈现的选项集合中的选项。
第二十示例是第十八示例的计算设备,其中一个或多个计算机可读介质包括另外的计算机可执行指令,当由处理单元执行时,该另外的计算机可执行指令使得计算设备:向搜索引擎提供第一通信标识符,以作为搜索项;响应于提供而从搜索引擎所提供的结果查找徽标;以及将自动话音系统和徽标之间的关联性存储在可听菜单数据库中。
从上文描述可以看出,已经提出了通过视觉显示由自动话音系统可听呈现的选项,来增加用户交互性能的机制。鉴于本文中所描述的主题的多种可能的改变,我们要求本发明所有这些实施例都落入所附权利要求及其等同的范围内。
Claims (20)
1.一种计算设备,其用于通过视觉显示可听呈现的选项来提高用户效率和交互性能,所述计算设备包括:
一个或多个处理单元;
扬声器;
显示设备;以及
一个或多个计算机可读存储介质,其包括计算机可执行指令,当所述计算机可执行指令由所述一个或多个处理单元执行时,使得所述计算设备:
确定被用于在所述计算设备和自动话音系统之间建立第一通信连接的第一通信标识符,所述自动话音系统经由所述第一通信连接向所述用户呈现按照由所述扬声器生成的第一有声单词集合形式的第一选项集合;
向独立于所述自动话音系统的远程计算设备提供所述第一通信标识符;
响应于提供所述第一通信标识符,从所述远程计算设备接收包括被转录成文本形式的所述第一选项集合的数据,所述数据已经从由已经先前建立了到所述自动话音系统的通信连接的一个或多个其他计算设备执行的所述第一有声单词集合的转录而被众包;
在所述显示设备上向所述用户显示按照文本形式的所述第一选项集合;
接收指示从所述第一选项集合之中选择选项的用户输入;
通过传送选项选择标识符,向所述自动话音系统传送所述选项的所述选择;
确定用于在所述计算设备和所述自动话音系统之间建立第二通信连接的第二通信标识符,所述自动话音系统利用所述第二通信连接向所述用户呈现按照由所述扬声器生成的第二有声单词集合形式的、针对选择的所述选项的第二选项集合;
向所述远程计算设备提供所述第二通信标识符;
响应于提供所述第二通信标识符,从所述远程计算设备接收所述远程计算设备不具有与所述第二通信标识符相关联的选项集合的所转录版本的指示;
基于所述指示从所述远程计算设备被接收到,转录所述第二有声单词集合;
在所述显示设备上向所述用户显示如由所述计算设备转录的、按照文本形式的所述第二选项集合;以及
向所述远程计算设备提供如由所述计算设备转录的、按照文本形式的所述第二选项集合以参与所述众包。
2.根据权利要求1所述的计算设备,其中所述一个或多个计算机可读存储介质还包括计算机可执行指令,当所述计算机可执行指令由所述一个或多个处理单元执行时,使得所述计算设备:
基于所述第一通信连接被用于接收预先确定的有声单词,来确定所述第一通信连接是与人还是与自动系统的连接。
3.根据权利要求1所述的计算设备,其中所述第二通信标识符包括与选项选择标识符级联的所述第一通信标识符。
4.根据权利要求1所述的计算设备,其中所述一个或多个计算机可读存储介质包括另外的计算机可执行指令,当所述另外的计算机可执行指令由所述一个或多个处理单元执行时,使得所述计算设备:
转录所述第一有声单词集合,即使包括被转录成文本形式的所述第一选项集合的所述数据从所述远程计算设备被接收到;以及
向所述远程计算设备提供由所述计算设备转录的所述第一选项集合,以参与对所述第一选项集合的众包的所述转录。
5.根据权利要求4所述的计算设备,其中所述计算机可执行指令使得所述计算设备提供由所述计算设备转录的所述第一选项集合仅当由所述计算设备转录的所述第一选项集合与从所述远程计算设备接收到的、被转录成文本形式的所述第一选项集合不同时被执行。
6.根据权利要求1所述的计算设备,其中所述一个或多个计算机可读存储介质包括另外的计算机可执行指令,当所述另外的计算机可执行指令由所述一个或多个处理单元执行时,使得所述计算设备:
利用所述第一选项集合向所述用户显示与所述自动话音系统相关联的公司的徽标。
7.根据权利要求6所述的计算设备,其中所述一个或多个计算机可读存储介质包括另外的计算机可执行指令,当所述另外的计算机可执行指令由所述一个或多个处理单元执行时,使得所述计算设备:
向搜索引擎提供所述第一通信标识符,以作为搜索项;以及
响应于所述提供,从由所述搜索引擎提供的结果中查找所述徽标。
8.根据权利要求1所述的计算设备,其中在电话键盘先前被显示时,所述第一选项集合的所述显示在所述显示设备的相同部分上。
9.根据权利要求1所述的计算设备,其中所述显示设备是触摸屏;并且
其中通过指向选择的所述选项在其上被显示的所述触摸屏的一部分的用户触摸,接收指示从所述第一选项集合中选择所述选项的另外的所述用户输入。
10.根据权利要求1所述的计算设备,其中所述一个或多个计算机可读存储介质包括另外的计算机可执行指令,当所述另外的计算机可执行指令由所述一个或多个处理单元执行时,使得所述计算设备:
利用所述第一选项集合,在所述显示设备上向所述用户显示可以通过其搜索所述第一选项集合的搜索项录入区域。
11.根据权利要求1所述的计算设备,其中所述一个或多个计算机可读存储介质包括另外的计算机可执行指令,当所述另外的计算机可执行指令由所述一个或多个处理单元执行时,使得所述计算设备:
基于来自所述自动话音系统的、确认口头用户输入的响应,转录所述第一选项集合的至少一个选项,所述至少一个选项是先前未通过所述自动话音系统向所述用户枚举的预先定义的选项。
12.一种用于通过视觉显示可听呈现的选项来提高用户效率和交互性能的系统,所述系统包括:
第一客户端计算设备,其包括:
第一一个或多个处理单元;以及
第一一个或多个计算机可读存储介质,其包括计算机可执行指令,当所述计算机可执行指令由所述第一一个或多个处理单元执行时,使得所述第一客户端计算设备:
利用第一通信标识符,建立与自动话音系统的第一通信连接;
由所述自动话音系统将第一选项集合的第一可听呈现转录成所述第一选项集合的第一转录;以及
向集中式可听菜单可视化系统提供所述第一选项集合的所述第一转录以及所述第一通信标识符;
第二客户端计算设备,其包括:
第二一个或多个处理单元;以及
第二一个或多个计算机可读存储介质,其包括计算机可执行指令,当所述计算机可执行指令由所述第二一个或多个处理单元执行时,使得所述第二客户端计算设备:
利用第二通信标识符,建立与所述自动话音系统的第二通信连接;
由所述自动话音系统将第二选项集合的第二可听呈现转录成所述第二选项集合的第一转录,所述第二选项集合响应于对所述第一选项集合中的一个选项的选择由所述自动话音系统呈现;以及
向所述集中式可听菜单可视化系统提供所述第二选项集合的所述第一转录以及所述第二通信标识符;以及
一个或多个服务器计算设备,其实现所述集中式可听菜单可视化系统,所述服务器计算设备包括:
服务器处理单元;
服务器计算机可读存储介质,其包括可听菜单数据库;以及
服务器计算机可读存储介质,其包括计算机可执行指令,当所述计算机可执行指令由所述服务器处理单元执行时,使得所述一个或多个服务器计算设备:
通过在所述可听菜单数据库中,将从所述第一客户端计算设备接收到的所述第一选项集合的所述第一转录与从所述第二客户端计算设备接收到的所述第一通信标识符和所述第二选项集合的所述第一转录相关联,来利用所述第二通信标识符填充所述可听菜单数据库。
13.根据权利要求12所述的系统,其中所述第一通信标识符是电话号码并且所述第二通信标识符是与一个或多个电话拨号的号码级联的所述第一通信标识符,所述一个或多个电话拨号的号码被录入以选择所述第一选项集合中的所述一个选项。
14.根据权利要求12所述的系统,其中所述可听菜单数据库与所述自动话音系统相关联的徽标。
15.根据权利要求14所述的系统,其中所述一个或多个服务器计算设备的所述服务器计算机可读存储介质还包括计算机可执行指令,当所述计算机可执行指令由所述服务器处理单元执行时,使得所述一个或多个服务器计算设备:
向搜索引擎提供所述第一通信标识符,以作为搜索项;以及
响应于所述提供,从由所述搜索引擎提供的结果中查找所述徽标。
16.根据权利要求12所述的系统,还包括:
第三客户端计算设备,其包括:
第三一个或多个处理单元;
显示设备;以及
第三一个或多个计算机可读存储介质,其包括计算机可执行指令,当由所述第三一个或多个处理单元执行时,所述计算机可执行指令使得所述第三客户端计算设备:
利用所述第一通信标识符建立与所述自动话音系统的第三通信连接;
向所述集中式可听菜单可视化系统提供所述第一通信标识符;
响应于所述提供而从所述集中式可听菜单可视化系统接收所述第一选项集合的所述第一转录;以及
在所述显示设备上向所述用户显示所述第一选项集合的所述第一转录;
其中所述一个或多个服务器计算设备的所述服务器计算机可读存储介质包括另外的计算机可执行指令,当所述另外的计算机可执行指令由所述一个或多个服务器计算设备的所述服务器处理单元执行时,使得所述一个或多个服务器计算设备:
从所述第三客户端计算设备接收所述第一通信标识符;
基于所述第一通信标识符从所述可听菜单数据库获得所述第一选项集合的所述第一转录;以及
响应于所述第一通信标识符而向所述第三客户端计算设备提供所述第一选项集合的所述第一转录。
17.根据权利要求12所述的系统,还包括:
第三客户端计算设备,其包括:
第三一个或多个处理单元;以及
第三一个或多个计算机可读存储介质,其包括计算机可执行指令,当由所述第三一个或多个处理单元执行时,所述计算机可执行指令使得所述第三客户端计算设备:
利用所述第一通信标识符建立与所述自动话音系统的第三通信连接;
由所述自动话音系统将所述第一选项集合的第二可听呈现转录成所述第一选项集合的第二转录;以及
向所述集中式可听菜单可视化系统提供所述第一选项集合的所述第二转录以及所述第一通信标识符;
其中使得所述一个或多个服务器计算设备填充所述可听菜单数据库的所述计算机可执行指令包括计算机可执行指令,当所述计算机可执行指令由所述服务器处理单元执行时,使得所述一个或多个服务器计算设备:
基于所述第一选项集合的所述第一转录和所述第一选项集合的所述第二转录来生成所述第一选项集合的更新的转录;以及
在所述可听菜单数据库中将所述第一选项集合的所述更新的转录与所述第一通信标识符相关联。
18.一种计算设备,其用于通过视觉显示可听呈现的选项来提高用户效率和交互性能,所述计算设备包括:
一个或多个处理单元;以及
一个或多个计算机可读存储介质,其包括计算机可执行指令,当所述计算机可执行指令由所述一个或多个处理单元执行时,使得所述计算设备:
从第一客户端计算设备接收第一选项集合的第一转录和第一通信标识符,所述第一客户端计算设备利用所述第一通信标识符建立了与自动话音系统的第一通信连接,所述自动话音系统向所述第一客户端计算设备呈现按照第一有声单词集合形式的、由所述第一客户端计算设备随后转录成所述第一选项集合的所述第一转录的所述第一选项集合;
从第二客户端计算设备接收第二选项集合的第一转录以及第二通信标识符,所述第二选项集合响应于对所述第一选项集合中的一个选项的选择由所述自动话音系统呈现,所述第二客户端计算设备利用所述第二通信标识符建立与所述自动话音系统的第二通信连接,所述自动话音系统向所述第二客户端计算设备呈现按照第二有声单词集合形式的、由所述第二客户端计算设备随后转录成所述第二选项集合的所述第一转录的所述第二选项集合;以及
通过在可听菜单数据库中将从所述第一客户端计算设备接收到的所述第一选项集合的所述第一转录与从所述第二客户端计算设备接收到的所述第一通信标识符和所述第二选项集合的所述第一转录相关联,来利用所述第二通信标识符填充所述可听菜单数据库。
19.根据权利要求18所述的计算设备,其中所述第一通信标识符是电话号码并且所述第二通信标识符是与一个或多个电话拨号的号码级联的所述第一通信标识符,所述一个或多个电话拨号的号码被录入以选择所述第一选项集合中的所述一个选项。
20.根据权利要求18所述的计算设备,其中所述计算机可读存储介质还包括另外的计算机可执行指令,当所述另外的计算机可执行指令由所述一个或多个处理单元执行时,使得所述计算设备:
从第三客户端计算设备接收所述第一选项集合的第二转录以及所述第一通信标识符,所述第三客户端计算设备利用所述第一通信标识符建立与所述自动话音系统的第三通信连接,所述自动话音系统向所述第二客户端计算设备呈现按照所述第一有声单词集合形式的、由所述第三客户端计算设备随后转录成所述第一选项集合的所述第二转录的所述第一选项集合;
基于所述第一选项集合的所述第一转录和所述第一选项集合的所述第二转录来生成所述第一选项集合的更新的转录;以及
在所述可听菜单数据库中将所述第一选项集合的所述更新的转录与所述第一通信标识符相关联。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/711,758 US10579330B2 (en) | 2015-05-13 | 2015-05-13 | Automatic visual display of audibly presented options to increase user efficiency and interaction performance |
US14/711,758 | 2015-05-13 | ||
PCT/US2016/031947 WO2016183256A1 (en) | 2015-05-13 | 2016-05-12 | Automatic visual display of audibly presented options to increase user efficiency and interaction performance |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107624177A CN107624177A (zh) | 2018-01-23 |
CN107624177B true CN107624177B (zh) | 2021-02-12 |
Family
ID=56098349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680027374.XA Active CN107624177B (zh) | 2015-05-13 | 2016-05-12 | 用于提高用户效率和交互性能的可听呈现的选项的自动视觉显示 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10579330B2 (zh) |
EP (1) | EP3295457B1 (zh) |
CN (1) | CN107624177B (zh) |
WO (1) | WO2016183256A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6569926B2 (ja) * | 2016-08-17 | 2019-09-04 | パナソニックIpマネジメント株式会社 | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム |
WO2019004852A1 (en) | 2017-06-29 | 2019-01-03 | Ringcentral , Inc., (A Delaware Corporation) | SYSTEMS AND METHODS FOR GENERATING APPLICATION DATA FROM CALL DATA |
CN112052313A (zh) * | 2019-06-06 | 2020-12-08 | 北京三星通信技术研究有限公司 | 与智能应答系统交互的方法及设备 |
US11627223B2 (en) * | 2021-04-22 | 2023-04-11 | Zoom Video Communications, Inc. | Visual interactive voice response |
US11895269B2 (en) * | 2021-08-24 | 2024-02-06 | Google Llc | Determination and visual display of spoken menus for calls |
WO2023027833A1 (en) * | 2021-08-24 | 2023-03-02 | Google Llc | Determination and visual display of spoken menus for calls |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102667764A (zh) * | 2009-08-07 | 2012-09-12 | 谷歌公司 | 用于为视觉查询的多个区域展示搜索结果的用户接口 |
CN102945074A (zh) * | 2011-10-12 | 2013-02-27 | 微软公司 | 根据所捕捉的语音和音频内容来填充列表和任务 |
CN104185868A (zh) * | 2012-01-24 | 2014-12-03 | 澳尔亚有限公司 | 话音认证和语音识别系统及方法 |
US8995627B1 (en) * | 2014-03-31 | 2015-03-31 | Ringcentral, Inc. | System and method for providing access to a visual phone menu |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6104790A (en) | 1999-01-29 | 2000-08-15 | International Business Machines Corporation | Graphical voice response system and method therefor |
US6920425B1 (en) | 2000-05-16 | 2005-07-19 | Nortel Networks Limited | Visual interactive response system and method translated from interactive voice response for telephone utility |
US7027990B2 (en) | 2001-10-12 | 2006-04-11 | Lester Sussman | System and method for integrating the visual display of text menus for interactive voice response systems |
US7778397B2 (en) | 2005-03-10 | 2010-08-17 | Avaya Inc. | Dynamic video generation in interactive voice response systems |
US7813485B2 (en) | 2005-05-26 | 2010-10-12 | International Business Machines Corporation | System and method for seamlessly integrating an interactive visual menu with an voice menu provided in an interactive voice response system |
US8340969B2 (en) | 2009-04-24 | 2012-12-25 | Research In Motion Limited | Method and mobile communication device for generating dual-tone multi-frequency (DTMF) commands on a mobile communication device having a touchscreen |
US8358753B2 (en) | 2009-12-31 | 2013-01-22 | International Business Machines Corporation | Interactive voice response (IVR) cloud user interface |
US8681951B1 (en) | 2010-02-03 | 2014-03-25 | Tal Lavian | Systems and methods for visual presentation and selection of IVR menu |
US8406388B2 (en) * | 2011-07-18 | 2013-03-26 | Zvi Or-Bach | Systems and methods for visual presentation and selection of IVR menu |
WO2011133824A1 (en) | 2010-04-21 | 2011-10-27 | Michael Jerry Saylor | Multimodal interactive voice response system |
US8917823B1 (en) | 2011-05-26 | 2014-12-23 | Google Inc. | Transcribing and navigating a response system |
KR20130059278A (ko) | 2011-11-28 | 2013-06-05 | (주)수풀콜매니저 | 인터액티브 ars 음성 메뉴 접속 시스템 및 이를 이용한 접속 방법 |
US8687772B2 (en) | 2012-01-10 | 2014-04-01 | Bank Of America Corporation | Global tree rules for an interactive voice response system |
CN103139404A (zh) | 2013-01-25 | 2013-06-05 | 西安电子科技大学 | 基于语音识别生成交互式语音响应显示菜单的系统和方法 |
CN103118206B (zh) | 2013-01-25 | 2015-10-28 | 西安电子科技大学 | 基于网络生成交互式语音响应信息显示菜单的系统和方法 |
US9253321B2 (en) | 2013-06-27 | 2016-02-02 | Zhuangzi Li | Method for visualizing an IVR system |
US8880120B1 (en) | 2013-07-11 | 2014-11-04 | Tal Lavian | Device and method for providing enhanced telephony |
-
2015
- 2015-05-13 US US14/711,758 patent/US10579330B2/en active Active
-
2016
- 2016-05-12 CN CN201680027374.XA patent/CN107624177B/zh active Active
- 2016-05-12 EP EP16727015.6A patent/EP3295457B1/en active Active
- 2016-05-12 WO PCT/US2016/031947 patent/WO2016183256A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102667764A (zh) * | 2009-08-07 | 2012-09-12 | 谷歌公司 | 用于为视觉查询的多个区域展示搜索结果的用户接口 |
CN102945074A (zh) * | 2011-10-12 | 2013-02-27 | 微软公司 | 根据所捕捉的语音和音频内容来填充列表和任务 |
CN104185868A (zh) * | 2012-01-24 | 2014-12-03 | 澳尔亚有限公司 | 话音认证和语音识别系统及方法 |
US8995627B1 (en) * | 2014-03-31 | 2015-03-31 | Ringcentral, Inc. | System and method for providing access to a visual phone menu |
Also Published As
Publication number | Publication date |
---|---|
EP3295457B1 (en) | 2020-06-03 |
US20160335050A1 (en) | 2016-11-17 |
WO2016183256A1 (en) | 2016-11-17 |
CN107624177A (zh) | 2018-01-23 |
EP3295457A1 (en) | 2018-03-21 |
US10579330B2 (en) | 2020-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107624177B (zh) | 用于提高用户效率和交互性能的可听呈现的选项的自动视觉显示 | |
KR102151681B1 (ko) | 언어 모델용 대화 상태들 결정 | |
US10503470B2 (en) | Method for user training of information dialogue system | |
JP6588637B2 (ja) | 個別化されたエンティティ発音の学習 | |
CN110110319B (zh) | 语音输入的字词级纠正 | |
KR101418163B1 (ko) | 컨텍스트 정보를 이용한 음성 인식 복구 | |
US9754592B2 (en) | Methods and systems for speech-enabling a human-to-machine interface | |
US10289433B2 (en) | Domain specific language for encoding assistant dialog | |
US7395959B2 (en) | Hands free contact database information entry at a communication device | |
US7966171B2 (en) | System and method for increasing accuracy of searches based on communities of interest | |
TWI711967B (zh) | 播報語音的確定方法、裝置和設備 | |
US20090013255A1 (en) | Method and System for Supporting Graphical User Interfaces | |
CN110459222A (zh) | 语音控制方法、语音控制装置及终端设备 | |
JP2002032213A (ja) | ボイス・メール・メッセージを転記する方法およびシステム | |
US20080312905A1 (en) | Extracting Tokens in a Natural Language Understanding Application | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
US20060069563A1 (en) | Constrained mixed-initiative in a voice-activated command system | |
US8917823B1 (en) | Transcribing and navigating a response system | |
WO2016136207A1 (ja) | 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム | |
JP2008216461A (ja) | 音声認識・キーワード抽出・知識ベース検索連携装置 | |
CN116935842A (zh) | 语音关键词注册、控制方法、装置、电子设备及储存介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |