CN100409173C - 启动声控用户界面的方法、声音扩展模块和系统 - Google Patents

启动声控用户界面的方法、声音扩展模块和系统 Download PDF

Info

Publication number
CN100409173C
CN100409173C CNB038070049A CN03807004A CN100409173C CN 100409173 C CN100409173 C CN 100409173C CN B038070049 A CNB038070049 A CN B038070049A CN 03807004 A CN03807004 A CN 03807004A CN 100409173 C CN100409173 C CN 100409173C
Authority
CN
China
Prior art keywords
user interface
interface elements
voice
visual feedback
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB038070049A
Other languages
English (en)
Other versions
CN1643491A (zh
Inventor
杰夫·罗兰斯
理查德·J·斯旺
拉马·古拉姆
弗兰基·詹姆斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SAP SE
Original Assignee
SAP SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SAP SE filed Critical SAP SE
Publication of CN1643491A publication Critical patent/CN1643491A/zh
Application granted granted Critical
Publication of CN100409173C publication Critical patent/CN100409173C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Selective Calling Equipment (AREA)
  • Communication Control (AREA)

Abstract

提供了一种利用声音扩展模块来声音启动用户界面的方法和系统。声音扩展模块包括预处理器、语音识别引擎和输入句柄。声音扩展模块接收用户界面信息,比如超文本标签语言(hypertext markup language,HTML,超文本标签语言)文件,并且声音启动该文件以使用户通过使用声音命令同任意界面单元交互。

Description

启动声控用户界面的方法、声音扩展模块和系统
技术领域
本发明涉及声控用户界面。
背景技术
当前许多商用程序采用综合(complex)图形用户界面(graphical userinterfaces,GUIs)的形式。综合GUIs允许用户在同时执行许多任务的同时保持它们其余工作的上下文(context);但是,这些系统通常是需要鼠标和键盘,这可能会对很多人,包括身体上有缺陷的人,引起使用上的问题或甚至造成无法使用。如果采取措施去处理固有的使用性问题,声音界面能够对身体上有缺陷的用户提供易于访问的解决办法,比如用户效率和不明确的操作。此外,声音界面能提高执行某些任务的效率。
大量的资源被花费以发展基于网络的应用程序以对复杂的商业应用程序提供可移植的,独立于平台的前端,其用到,诸如HTML和/或JavaScript等语言。
由于应用程序典型地仅是以视觉表达在头脑中而发展起来,因此很少注意到可能便于发展声音界面的细节。
在大多数的计算机或数据处理系统中,用户交互仅利用视频显示器、键盘和鼠标来提供。附加的输入和输出外围设备有时会用到,诸如打印机、绘图仪、光笔、触摸屏、条形码扫描仪;但是,绝大多数计算机交互仅利用视频显示器、键盘和鼠标。因此,基本的人机交互通过视频显示和机械的刺激来提供。相反,相当大的比例的人与人之间的交互是通过口头进行的。因此希望方便口头的人机交互以为有缺陷的用户增加访问并且提高用户界面的效率。
各种技术被发展起来以提供一些形式的口头人机交互,范围从简单的文本-语音转换声音合成应用程序到更复杂的口述和命令与控制应用程序。不同类型的口头人机交互应用程序可以被两个要素所描述:(1)视觉组件的存在或缺失;和(2)当增加声音界面时加下划线的应用程序和交互所改变的范围。
许多研究机构构建口头人机交互系统集中于第二个要素:创造新的交互风格其可能与视频显示器共同作用或取而代之。例如,不同机构已创建下列的系统:CommandTalk;ATIS;TOOT,和ELVIS。这些系统的每一个都集中于为口头人机交互提供改进的模式,从根本上改变了交互的风格。例如,CommandTalk保持了传统的GUI,同时从根本上改变了交互的风格以改善使用性。ATIS,一种空气传播的(air travel)信息系统,通过对用户的查询以可视化图表的形式呈现结果来保持传统的视觉组件;但是,ATIS修改传统的交互风格,从数据库查询界面变到自然语言查询界面。相似的,TOOT,一种列车时间表(train schedule)信息系统,试图为用户展示图表数据;但是,TOOT通过声音提供图表数据,消除了对视觉组件的需要。最后,ELVIS系统,用于通过声音访问电子信函(email)消息,已尝试了几种交互风格,其与视觉交互的差异有不同的程度。系统-主动风格利用了许多在视觉界面中含有的同样的命令名称,同时混合-主动风格的提供重大地改变了传统交互。
许多商业系统试图以含有不同程度的视觉组件来保持常规的交互风格。Windows访问工具诸如Via Voice和SUITEKeys镜像(mirror)了键盘/鼠标的交互,其程度比任意的上述对话系统的程度都要大。SUITEKeys甚至达到了直接模仿用手移动鼠标并按下各个键的交互方式。同样的,许多电话应用程序直接采用“按下或说1”的方式来交互以模仿数字按键键盘的交互方式。
巨大的资源已被用于开发商业应用程序,其需要综合GUIs以展示大量的信息,显示这些信息内复杂的交互,并且管理最大化用户性能、配置和控制的复杂度(complexity)。现有的应用程序为利用声音控制应用程序仅提供有限的支持。一些现有的系统允许口述或有限的访问命令;但是,存在着对系统和技术的需求,以在传统的和旧版本的应用程序中增大口头的人机交互的程度以为有缺陷的用户提高访问能力并提高所有用户的交互效率。
发明内容
一方面,提供了利用声音扩展模块以声音启动用户界面的方法。该方法包括接收用户界面信息,解析用户界面信息以确定用户界面单元,并且处理用户界面单元以启动声音控制。用户界面信息可能是HTML文件并可能包括JavaScript代码。用户界面数据单元可能包括,例如,文本域,选择列表,滚动条,滑块,单选钮,复选框,图标或按钮。在一些实现中,处理用户界面单元包括用语音识别引擎注册每个用户界面单元的名称和/或类型。
另一方面,提供了用于声音启动用户界面的声音扩展模块。声音扩展模块包括语音识别引擎,预处理器其接收用户界面信息并用语音识别引擎注册相应的声音命令,输入句柄接收和处理用户交互。预处理器可能包括解析器以标识用户界面单元,及翻译器以通过语音识别注册正确的词汇表和保留对用户界面单元的参考(reference)。
另一方面,用于声音启动用户界面的系统包括浏览器,其相应于用户界面信息生成用户界面,和声音扩展模块。声音扩展模块包括语音识别引擎,预处理器其接收用户界面信息并用语音识别引擎注册相应的声音命令,输入句柄其接收和处理用户交互。声音扩展模块可能实现为浏览器的一个组件。
一个或多个实现的细节将在附图和下面的描述中阐明。其它的特征和优点根据描述和附图、及权利要求将是显而易见的。
附图说明
图1是利用声音扩展模块声音启动计算机应用程序的方块图。
图2是含有预处理器、语音识别引擎、和输入句柄的声音扩展模块的方块图。
图3是展示在声音扩展模块中处理用户界面信息的方法的流程图。
图4是展示假期申请应用程序的屏幕镜头。
图5是展示说明列表选择的假期申请应用程序的屏幕镜头。
具体实施方式
在最近的几年中,许多计算机和数据处理应用程序都用基于网络的GUIs来创建。下面描述的系统允许常规的基于网络的GUIs的应用程序成为声音启动的,通过利用声音扩展模块而无需对程序进行重大修改。
参考图1,声音启动的计算机界面100包括声音扩展模块102和浏览器104。浏览器从机能上实现用户输入和输出,例如,利用下面的设备:视频显示监视器106;鼠标107;键盘108;扬声器109;和麦克风110。声音扩展模块102通过网络120(例如internet)从应用程序服务器130接收用户界面数据。
在图1所示的实现中,应用程序服务器130提供了网络启动的用户界面,其利用HTML代码构建浏览器104以显示信息和接受用户输入和命令。浏览器104可通过利用传统的网络浏览器实现,例如微软的Internet Explorer。应用程序服务器130发送描述不同的文本,图象和要显示给用户的用户界面的窗口小部件(widget)的HTML代码。但是HTML代码,首先通过声音扩展模块102接收和预处理以使应用程序变为声音启动的,正如下面参照图3所描述的那样。
声音扩展模块102可能实现为微软的Internet Explorer Browser HelperObject(BHO)。BHO作为浏览器功能的扩展并在操作之前将BHO用于拦截页面和浏览器事件。这允许声音扩展模块102来定义和控制浏览器104环境的行为及事件(例如鼠标点击,键按下)处理的方式。此外,通过在BHO中嵌入语音识别引擎,BHO允许声音扩展模块102响应外部事件,比如当一个词被说出来的时候。在此实现中,任意SAPI-服从语音识别引擎可被用于产生语音识别事件。
如图2所示,声音扩展模块102的一种实现包括预处理器200,其从应用程序服务器130接收用户界面信息,例如HTML或JavaScript代码,并且预处理用户界面信息以在页面显示给用户之前启动声音交互。预处理器200包括解析器202和翻译器204。解析器202利用任意通常的解析技术,比如有限状态机,来标识代码中的用户界面单元。
例如,按HTML网页形式的用户界面信息可能包括各种窗口小部件,其形式有文本域,密码域,复选框,单选钮,和控制按钮(比如标识和重设)。解析器202接收用户界面信息并将其传递到翻译器204,从利用语音识别引擎210和输入句柄220正确地注册相关的词汇。
翻译器204确定哪些所标识的用户界面单元是“可以交谈的”。可以交谈的项目(item)用语音识别引擎210注册以使当这些项目被说出时引发适当的事件。为使页面更加“声音友好”,对在浏览器104内运行的HTML或JavaScript在将其呈现给用户之前需要附加额外的改变。例如,翻译器204可能将标识符附加给单元。一些单元可能包括XML数据或为单元指示适当的声音标识符的其它元数据。这些元数据可以确定适当的标识符,其能够被附加给单元以使其更加声音友好。此外,一些标识符可能被简化。对于含有简化的标识符的单元,翻译器204可以用语音识别引擎210注册简化的标识符,标识符的长形式,或同时注册这两种形式。最后,翻译器204可能试图缩短长的标识符。缩短长的标识符的一种途径是只注册长的标识符的某些部分。例如,如果标识符是“Submit Changes for Processing”,它能缩短为“Submit”或“Submit Changes”。
一旦注册的词汇条目被说出和识别,该短语传送到输入句柄220,其采取适当的步骤完成此操作,保存任意所需的状态,并履行由声音用户界面的行为或整个声音界面策略中使用的视觉聚焦所定义的额外任务。输入句柄220有助于保证同一操作被执行,而不管输入源是鼠标或键盘,或等价的声音命令。
参照图3,声音扩展模块102通过首先接收描述可由用户操纵的界面组件的用户界面信息3010(步骤3015)使得用户界面成为声音启动的。在此实现中,用户界面信息3010被表示为HTML文件,其可能包含被用户控制的不同用户界面单元或窗口小部件。用户界面信息3010也可能包含JavaScript代码或通常被网络浏览器使用的任意其它的传统的控制机制。
用户界面信息3010被声音扩展模块102所接收,然后被预处理器200处理。预处理器200利用解析器202解析所收到的用户界面信息3010(步骤3020)。对于每个被解析器202所标识的用户界面单元,翻译器204处理该单元以使其声音启动。只要有用户界面单元剩余(步骤3030),系统就处理下一个单元(步骤3050)。一旦每个用户界面单元被处理过,用户界面被浏览器104所显示。翻译器204通过用语音识别引擎210注册适当的词汇和通过用输入句柄220注册用户界面单元来处理每个用户界面单元。
例如,下面的用户界面单元可能被声音扩展模块102接收到:“<INPUTTYPE=’button’NAME=’but_xyz’VALUE=’save changes’>”。此用户界面单元显示用于允许用户开始(initiate)保存改变的按钮。翻译器204通过用语音识别引擎210注册“SAVE CHANGES”处理该单元。它也可能与输入句柄220一同被注册为按钮域以使用户通过说“BUTTON”而能够访问此域。输入句柄,通过接收按钮的请求,标识所有激活的按钮,允许用户通过数字选择所需的按钮。这允许采用另外的技术访问命名的按钮单元;但是,此技术可能是访问未命名按钮单元的唯一途径。
数据输入任务需要许多需要用户控制的单元(或窗口小部件)合作。数据输入通常使用鼠标和/或键盘处理,并且通过定点设备的物理交互组件一般易于确定预期的目标。在声音界面中,其它的聚焦和选择技术必须典型地用于确定潜在目标。
许多应用程序中的窗口小部件,诸如滚动条,按钮,及文本域或者没有名字(例如,由于它们关联与特定的未命名的表或行),或者具有不明确的名字(例如,由于存在多个域标为“ID number(身份证号)”),或者在视频显示中看来有名字,但是不容易通过代码关联其名字,其原因为文本看起来处于完全不同于窗口小部件的模块中。
一项技术是使用隐式导航协同通用的方法来处理数据输入窗口小部件。隐式导航在下列的公开文献(publication)中加以描述:James,F.和Roelands,J.,Voice over Workplace(VoWP):Voice Navigation in a Complex Business GUI。ASSETS 2002,(Edinburgh,Scotland,2002)。简要的说,隐式导航是区分屏幕区域的优先次序以最小化潜在的不明确性(ambiguity)。用户界面屏幕可能被划分为几块区分了优先次序的区域。用户交互和屏幕更新修改优先次序以使用户界面更加声音友好。
对界面单元的通用访问依类型通过对单元寻址来提供。例如,为到达所给应用程序的文本域,用户简单的说出“文本域”。如果在当前聚焦区域有多于一处的文本域,则看作任意其它不确定性;覆盖的标签被呈现以允许用户选择期望的目标。尽管该方法使得多数单元选择进入两-步骤过程,但它确实允许用户有效地导航到屏幕上的任意单元。能够通过名称访问到的项目(例如按钮)也能用这种通用的方法访问到,以确保界面的一致性和在识别性能降级时顾及替换方法。
一旦一个项目被选定,如果它是一个图标、按钮、单选钮或复选框,界面就如同该项目被用鼠标点击一样表现。对于组合框,列表中的选项被显示出来以使得用户能够做出选择。文本域用有色的边框突出显示并且激活的光标置入其间,以这种信号表示用户进入到该区域的口述模式。
另外一种解决未命名单元的问题的替代方法是当页面首次呈现给用户时,对所有的单元增加独特的名称,而无需用户首先说出单元类型从而导致编号的被覆盖标签产生。
与声音界面相关的一个问题是从命令中区分数据输入。例如,当用户选择多行文本域,其可假定为用户希望进入口述模式并输入一些文本。但是,需要确定何时该输入完成和何时用户准备重新开始导航的技术。这可以从多种途径来完成。
例如,一种选择是利用明确的命令来结束数据输入。这需要使用密码词或短语,比如,“end dictation(结束口述).”对于用户希望完整的编辑控制的多行文本域,这可能是最好的解决办法,其原因为这种类型的大的口述任务将被作为需要手动退出的单独的模式对待。
这种思想的一个变体是使系统倾听多个关键词,例如界面中的其它目标的名称。完成此任务的一种途径是使用多个并行识别器,每个识别器倾听不同的关键词。但是,这项技术,增加了误解口述为命令并过早地退出口述模式的可能。
相似的,停顿或超时可以用来结束口述。不幸的是这项技术对用户常常是困难的,因为仅是思考接着说什么的停顿就可能引发口述的结束。该技术可以通过对用户提供视频暗示而使其更实用。
另外一种选择是对域分配适当的语法,以消除随时可能的口述的需求。该技术在域期望一些特定的输入的情况下有用,比如日期。但是,它需要途径去潜在地从通常语法资源集合中确定域的期望数据类型,分配合适的语法。然后,一旦域被选定,系统能够自动地设定界面来期望听到特定类型的输入。并且一旦输入完成返回标准的控制模式。对特定文本域的识别语法也在运行时刻被用户通过使用“不变默认(sticky defaults)”的方法选择。例如,第一次用户遇到一个域,他能够指定应使用的日期语法。然后,在随后对那处域的访问中(甚至是在不同的会话中),系统能够默认使用该日期语法。
不管用于确定输入结束时刻的方法,视觉暗示可能被用于指示用户他或她所处的模式。例如,一旦其被选定以指示用户系统期望该域的输入,蓝色的边框将置于文本域的周围。这不仅标识用户对特定域的选定,而且也提醒用户他或她必需为该域提供数据以作为下一步的行动。
图4说明了利用上述技术对于请假申请应用程序的范例的商业应用程序用户界面。屏幕400上的按钮(帮助按钮402,假期剩余按钮404,替换按钮406,和发送按钮408)可以通过说出它们的名称被激活。理想的情况下,剩下的用户界面单元也能通过说它们的名称来访问;但是,将适当的文本与界面单元相关联常常是困难或不可能的。例如,剩下的域(缺席类型(absence type)域410,缺席开始时间(absence from)域412,缺席结束时间(absence to)域414,和注记域416)可能包含内嵌的标签或名称,其不同于靠近这些域的文本。例如,注记域416,可以定义为使用如下的HTML代码:“<TEXTAREANAME=’ABNOTE’ROWS=4COLS=20>”。有时将域与屏幕上仅通过解析HTML代码得到的标签相关联是不可能的。例如,对系统而言将“注记(Note)”文本与注记域416相关联是困难的。在这些情形下,网页的创建者能够包括XML或其它元数据以便系统能够为域确定适当的声音标识符。
缺席类型域410为数据输入使用下拉(选择)列表。为聚焦于此特定的项目,用户说“选择列表”。这通常会对所有的选择列表用透明的覆盖来编号以允许用户选择。由于此屏幕中只有一个选择列表,焦点自动转移到它。列表被高亮显示并且可供选择的选项被显示出。系统的默认是将下个命令解释为列表中的一个选项。
缺席开始时间域412和缺席结束时间域414都是基本的自由-文本输入域其关联于允许从另外的窗口小部件中选择的信息按钮,在此情形下,是日历。如果用户想输入文本到这些域中,他说“文本输入”。这将导致对所有三处文本输入域的透明的覆盖(其包含可以标识的字符或数字)的显示:两处关于日期的文本输入域和用于注记的文本输入域。用户选择数字以选定希望的域。此时,文本输入域将成为焦点并且用户能够口述正确的日期。
注记域416也可以相似地通过使用声音命令激活;但是,文本域也包含滚动条。因此,当注记域416被激活,滚动条声音命令也可用以允许用户在用户界面单元中上下滚动。
图5说明了在用户说“选择列表”后,屏幕400的情况。该域借助视频暗示(在此情形下,是包含该域的蓝色方框)被激活,并且将可用的选项展示给用户。然后用户可以通过读显示的文本选择选项。例如。用户可以说出“结婚日”或“生病日”以选择相应的选项。
用户然后可能通过说“文本域”在缺席开始时间域412和缺席结束时间域414中输入数据。这将导致三个文本输入域在屏幕上被高亮显示以便用户可选择希望的文本输入域。例如,系统可以在三个文本输入域放置透明的覆盖,每个覆盖指示一个数字。然后用户可以读数字以选择希望的域。
用户可以与系统交互,以便通过说“文本盒(box)”和“1”将焦点转移到“缺席开始时间”域412来输入日期。然后,用户可以通过说“10 04 2001”指定日期。语音识别引擎210可以使用被翻译器204注册的日期识别语法来识别声音输入。然后翻译器204为了程序的使用,将识别的数字安排为正确的日期形式。
许多的实现已被描述。但是,应当理解,在不脱离本发明的精神和范围情况下,可以对本发明做出各种修改。因此,其它的实现也在由下列权利要求的范围内。

Claims (30)

1. 一种使用声音扩展模块来声音启动用户界面的方法,包括
接收用户界面信息;
解析用户界面信息以确定用户界面单元,其中将该用户界面单元配置为接受用户输入或控制;
处理用户界面单元以启动声音控制,其中,用语音识别引擎来注册所述用户界面单元;和
响应于初始声音控制来显示视觉反馈,其中该视觉反馈在位置上与所述用户界面单元中的被表示的用户界面单元相联系并且对其补充,并且其中该视觉反馈影响随后的响应于该被表示的用户界面单元的声音控制。
2. 如权利要求1中的方法,其中的用户界面信息是超文本标签语言文件。
3. 如权利要求2中的方法,其中的超文本标签语言文件包含启动动态内容的代码。
4. 如权利要求1中的方法,其中的用户界面单元包括下面组中的一个或多个:
文本域;
选择列表;
滚动条;
滑块;
单选钮;
复选框;
图标;和
按钮。
5. 如权利要求1中的方法,其中用语音识别引擎注册用户界面单元包括注册用户界面单元的名称。
6. 如权利要求1中的方法,其中用语音识别引擎注册用户界面单元包括注册用户界面单元的类型。
7. 如权利要求1中的方法,进一步包括在显示视觉反馈之后接收相应于用户界面单元的输入。
8. 如权利要求7中的方法,其中用户输入是被语音识别引擎识别的声音输入。
9. 如权利要求7中的方法,其中输入包括从一个或多个下述设备中得到数据:
键盘;
鼠标;和
麦克风。
10. 如权利要求1所述的方法,其中显示视觉反馈还包括基于与声音控制的一致,视觉上高亮至少一个用户界面单元。
11. 如权利要求10所述的方法,其中所述视觉上高亮至少一个用户界面单元还包括通过彩色边框来视觉上高亮所述至少一个用户界面单元。
12. 如权利要求10所述的方法,其中所述视觉上高亮至少一个用户界面单元还包括以被覆盖标签来视觉上高亮所述至少一个用户界面单元。
13. 如权利要求1所述的方法,其中显示视觉反馈包括改变用户界面信息以便显示所述视觉反馈。
14. 如权利要求1所述的方法,其中处理用户界面单元还包括使得用户指定与至少一个所述用户界面单元相联系的语法。
15. 一种用于声音启动用户界面的声音扩展模块包括:
语音识别引擎;
预处理器,其接收用户界面信息,用语音识别引擎注册相应的声音命令并且启动视觉反馈;和
输入句柄,其被配置用于接收初始声音命令并且与预处理器通信,以便响应于初始声音命令来显示视觉反馈,其中该视觉反馈在位置上与所述用户界面信息的用户界面单元相联系并且对其补充,将该用户界面单元配置为接受用户输入或控制,并且其中显示该视觉反馈以便影响指向该用户界面单元的随后的声音命令。
16. 如权利要求15的声音扩展模块,其中预处理器包括:
解析器,标识所述用户界面单元;和
翻译器,声音启动用户界面单元。
17. 如权利要求16的声音扩展模块,其中用户界面单元包括下面组中的一个或多个:
文本域;
选择列表;
滚动条;
滑块;
单选钮;
复选框;
图标;和
按钮。
18. 如权利要求15所述的声音扩展模块,其中通过基于与声音控制的一致来启动用户界面单元使之视觉上高亮,预处理器启动视觉反馈。
19. 如权利要求15所述的声音扩展模块,其中预处理器改变用户界面信息以便启动所述视觉反馈。
20. 如权利要求15所述的声音扩展模块,其中输入句柄使得用户指定与所述用户界面单元相联系的语法。
21. 一种用于声音启动用户界面的系统包括:
浏览器,其生成相应于用户界面信息的用户界面;和
声音扩展模块,关联于浏览器并可操作用于声音启动由浏览器生成的用户界面,声音扩展模块包括:
语音识别引擎;
预处理器,其接收用户界面信息,用语音识别引擎注册相应的声音命令并且启动视觉反馈;和
输入句柄,其接收初始声音命令并且与预处理器通信,以便响应于初始声音命令来显示视觉反馈,其中该视觉反馈在位置上与所述用户界面信息的用户界面单元相联系并且对其补充,将该用户界面单元配置为接受用户输入或控制,并且其中显示该视觉反馈以便影响指向该用户界面单元的随后的声音输入。
22. 如权利要求21的系统,其中浏览器是Internet ExplorerTM
23. 如权利要求21的系统,进一步包括输出设备以呈现用户界面,该输出设备包括下面组中的一个或多个:
监视器;
扬声器;和
液晶面板。
24. 如权利要求21的系统,其中用户界面信息是超文本标签语言文件。
25. 如权利要求24的系统,其中预处理器包括
解析器,标识所述用户界面单元;和
翻译器,声音启动所述用户界面单元。
26. 如权利要求25的系统,其中用户界面单元包括下面组中的一个或多个:
文本域;
选择列表;
滚动条;
滑块;
单选钮;
复选框;
图标;和
按钮。
27. 如权利要求21的系统,其中声音扩展模块是浏览器的一个组件。
28. 如权利要求21所述的系统,其中通过基于与声音控制的一致来启动用户界面单元使之视觉上高亮,预处理器启动视觉反馈。
29. 如权利要求21所述的系统,其中预处理器改变用户界面信息以便在浏览器生成相应于用户界面信息的用户界面之前启动所述视觉反馈。
30. 如权利要求21所述的系统,其中输入句柄使得用户指定与所述用户界面单元相联系的语法。
CNB038070049A 2002-02-15 2003-02-14 启动声控用户界面的方法、声音扩展模块和系统 Expired - Lifetime CN100409173C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US35674602P 2002-02-15 2002-02-15
US60/356,746 2002-02-15
US10/184,072 2002-06-28
US10/184,072 US7246063B2 (en) 2002-02-15 2002-06-28 Adapting a user interface for voice control

Publications (2)

Publication Number Publication Date
CN1643491A CN1643491A (zh) 2005-07-20
CN100409173C true CN100409173C (zh) 2008-08-06

Family

ID=27737024

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038070049A Expired - Lifetime CN100409173C (zh) 2002-02-15 2003-02-14 启动声控用户界面的方法、声音扩展模块和系统

Country Status (7)

Country Link
US (1) US7246063B2 (zh)
EP (1) EP1485773B1 (zh)
CN (1) CN100409173C (zh)
AT (1) ATE396446T1 (zh)
AU (1) AU2003215239A1 (zh)
DE (1) DE60321145D1 (zh)
WO (1) WO2003071385A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886882A (zh) * 2014-03-17 2014-06-25 联想(北京)有限公司 一种进度调节方法及电子设备

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447637B1 (en) * 1998-12-23 2008-11-04 Eastern Investments, Llc System and method of processing speech within a graphic user interface
JP4004839B2 (ja) * 2002-04-15 2007-11-07 株式会社東芝 通信装置及びネットワークシステム
US10489449B2 (en) 2002-05-23 2019-11-26 Gula Consulting Limited Liability Company Computer accepting voice input and/or generating audible output
US8611919B2 (en) 2002-05-23 2013-12-17 Wounder Gmbh., Llc System, method, and computer program product for providing location based services and mobile e-commerce
US7307615B2 (en) * 2003-08-08 2007-12-11 Lucent Technologies Inc. Method and apparatus for voice-controlled graphical user interface pointing device
KR20050028150A (ko) * 2003-09-17 2005-03-22 삼성전자주식회사 음성 신호를 이용한 유저-인터페이스를 제공하는휴대단말기 및 그 방법
US7647227B1 (en) * 2004-04-06 2010-01-12 Tuvox, Inc. Machine assisted speech generation for a conversational voice response system
US7657844B2 (en) * 2004-04-30 2010-02-02 International Business Machines Corporation Providing accessibility compliance within advanced componentry
US8788271B2 (en) * 2004-12-22 2014-07-22 Sap Aktiengesellschaft Controlling user interfaces with contextual voice commands
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US7409344B2 (en) 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
US8977636B2 (en) 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US7958131B2 (en) 2005-08-19 2011-06-07 International Business Machines Corporation Method for data management and data rendering for disparate data types
US8266220B2 (en) 2005-09-14 2012-09-11 International Business Machines Corporation Email management and rendering
US20070061712A1 (en) * 2005-09-14 2007-03-15 Bodin William K Management and rendering of calendar data
US8694319B2 (en) 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
US20070100872A1 (en) * 2005-11-03 2007-05-03 Bodin William K Dynamic creation of user interfaces for data management and data rendering
US20070124507A1 (en) * 2005-11-28 2007-05-31 Sap Ag Systems and methods of processing annotations and multimodal user inputs
US20070147355A1 (en) * 2005-12-08 2007-06-28 International Business Machines Corporation Composite services generation tool
US20070165538A1 (en) * 2006-01-13 2007-07-19 Bodin William K Schedule-based connectivity management
US8271107B2 (en) 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
US20070192675A1 (en) * 2006-02-13 2007-08-16 Bodin William K Invoking an audio hyperlink embedded in a markup document
US9135339B2 (en) 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US9196241B2 (en) 2006-09-29 2015-11-24 International Business Machines Corporation Asynchronous communications using messages recorded on handheld devices
US20090013255A1 (en) * 2006-12-30 2009-01-08 Matthew John Yuschik Method and System for Supporting Graphical User Interfaces
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US8462165B1 (en) * 2007-03-19 2013-06-11 Nvidia Corporation System, method, and computer program product for voice control of a graphics hardware processor
US8635069B2 (en) 2007-08-16 2014-01-21 Crimson Corporation Scripting support for data identifiers, voice recognition and speech in a telnet session
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US20090125813A1 (en) * 2007-11-09 2009-05-14 Zhongnan Shen Method and system for processing multiple dialog sessions in parallel
US8689203B2 (en) * 2008-02-19 2014-04-01 Microsoft Corporation Software update techniques based on ascertained identities
US20090248397A1 (en) * 2008-03-25 2009-10-01 Microsoft Corporation Service Initiation Techniques
US20100070863A1 (en) * 2008-09-16 2010-03-18 International Business Machines Corporation method for reading a screen
KR101545582B1 (ko) * 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
JP2012510118A (ja) 2008-11-26 2012-04-26 カルガリー・サイエンティフィック・インコーポレイテッド アプリケーションプログラムの状態への遠隔アクセスを提供するための方法およびシステム
US10055105B2 (en) 2009-02-03 2018-08-21 Calgary Scientific Inc. Method and system for enabling interaction with a plurality of applications using a single user interface
KR20110125647A (ko) * 2009-02-03 2011-11-21 캘거리 싸이언티픽 인코포레이티드 단일 사용자 인터페이스를 사용하여 복수의 애플리케이션과 상호작용하기 위한 방법 및 시스템
JP4826662B2 (ja) * 2009-08-06 2011-11-30 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および音声操作履歴情報共有方法
US8903073B2 (en) 2011-07-20 2014-12-02 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US9001819B1 (en) 2010-02-18 2015-04-07 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8553859B1 (en) 2010-02-03 2013-10-08 Tal Lavian Device and method for providing enhanced telephony
US8548135B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8572303B2 (en) 2010-02-03 2013-10-29 Tal Lavian Portable universal communication device
US8681951B1 (en) 2010-02-03 2014-03-25 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8594280B1 (en) 2010-02-03 2013-11-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8687777B1 (en) 2010-02-03 2014-04-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8537989B1 (en) 2010-02-03 2013-09-17 Tal Lavian Device and method for providing enhanced telephony
US8625756B1 (en) 2010-02-03 2014-01-07 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8879698B1 (en) 2010-02-03 2014-11-04 Tal Lavian Device and method for providing enhanced telephony
US8548131B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for communicating with an interactive voice response system
US8406388B2 (en) 2011-07-18 2013-03-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8434134B2 (en) 2010-05-26 2013-04-30 Google Inc. Providing an electronic document collection
US9741084B2 (en) 2011-01-04 2017-08-22 Calgary Scientific Inc. Method and system for providing remote access to data for display on a mobile device
CA2734860A1 (en) * 2011-03-21 2012-09-21 Calgary Scientific Inc. Method and system for providing a state model of an application program
RU2625525C2 (ru) 2011-08-15 2017-07-14 Калгари Сайентифик Инк. Бесконтактный удаленный доступ к программному приложению
CA2844851A1 (en) 2011-08-15 2013-02-21 Calgary Scientific Inc. Method for flow control and for reliable communication in a collaborative environment
CN103959708B (zh) 2011-09-30 2017-10-17 卡尔加里科学公司 包括用于协作远程应用共享和注释的交互式数字表层的非耦合应用扩展
CN104040946B (zh) 2011-11-23 2017-07-14 卡尔加里科学公司 用于协作远程应用程序共享和会议的方法和系统
US8856640B1 (en) 2012-01-20 2014-10-07 Google Inc. Method and apparatus for applying revision specific electronic signatures to an electronically stored document
US9602581B2 (en) 2012-03-02 2017-03-21 Calgary Scientific Inc. Remote control of an application using dynamic-linked library (DLL) injection
US8867708B1 (en) 2012-03-02 2014-10-21 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8731148B1 (en) 2012-03-02 2014-05-20 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US20130246920A1 (en) * 2012-03-19 2013-09-19 Research In Motion Limited Method of enabling voice input for a visually based interface
CN102662496A (zh) * 2012-04-06 2012-09-12 深圳共银网络技术有限公司 多功能鼠标及其控制方法
US9729673B2 (en) 2012-06-21 2017-08-08 Calgary Scientific Inc. Method and system for providing synchronized views of multiple applications for display on a remote computing device
CN102929385A (zh) * 2012-09-05 2013-02-13 四川长虹电器股份有限公司 语音控制应用程序的方法
US9529916B1 (en) 2012-10-30 2016-12-27 Google Inc. Managing documents based on access context
US11308037B2 (en) 2012-10-30 2022-04-19 Google Llc Automatic collaboration
US9495341B1 (en) 2012-12-18 2016-11-15 Google Inc. Fact correction and completion during document drafting
US9384285B1 (en) 2012-12-18 2016-07-05 Google Inc. Methods for identifying related documents
CN103885693B (zh) * 2012-12-20 2018-07-06 联想(北京)有限公司 一种信息处理方法及电子设备
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
CN103280217B (zh) * 2013-05-02 2016-05-04 锤子科技(北京)有限公司 一种移动终端的语音识别方法及其装置
US20140372892A1 (en) * 2013-06-18 2014-12-18 Microsoft Corporation On-demand interface registration with a voice control system
US9514113B1 (en) 2013-07-29 2016-12-06 Google Inc. Methods for automatic footnote generation
CN104347075A (zh) * 2013-08-02 2015-02-11 迪欧泰克有限责任公司 以语音识别来选择控制客体的装置及方法
KR101447879B1 (ko) * 2013-08-09 2014-10-08 주식회사 디오텍 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
US9842113B1 (en) 2013-08-27 2017-12-12 Google Inc. Context-based file selection
KR101474854B1 (ko) * 2013-09-12 2014-12-19 주식회사 디오텍 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
KR101474856B1 (ko) * 2013-09-24 2014-12-30 주식회사 디오텍 음성인식을 통해 이벤트를 발생시키기 위한 장치 및 방법
US10175938B2 (en) 2013-11-19 2019-01-08 Microsoft Technology Licensing, Llc Website navigation via a voice user interface
US9600227B2 (en) 2013-11-21 2017-03-21 Google Technology Holdings LLC System and method for speech-based navigation and interaction with a device's visible screen elements using a corresponding view hierarchy
EP3075111B1 (en) 2013-11-29 2017-12-20 Calgary Scientific Inc. Method for providing a connection of a client to an unmanaged service in a client-server remote access system
US9529791B1 (en) 2013-12-12 2016-12-27 Google Inc. Template and content aware document and template editing
CN114760555A (zh) * 2013-12-26 2022-07-15 寇平公司 用户可配置的话音命令
US9703763B1 (en) 2014-08-14 2017-07-11 Google Inc. Automatic document citations by utilizing copied content for candidate sources
US10033797B1 (en) 2014-08-20 2018-07-24 Ivanti, Inc. Terminal emulation over HTML
US10015264B2 (en) 2015-01-30 2018-07-03 Calgary Scientific Inc. Generalized proxy architecture to provide remote access to an application framework
CN107431630B (zh) 2015-01-30 2021-06-25 卡尔加里科学公司 高度可扩展、容错的远程访问架构和与之连接的方法
CN105100460A (zh) * 2015-07-09 2015-11-25 上海斐讯数据通信技术有限公司 一种声音操控智能终端的方法及系统
CN106409295B (zh) * 2015-07-31 2020-06-16 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
CN105260080A (zh) * 2015-09-22 2016-01-20 广东欧珀移动通信有限公司 一种在移动终端显示屏实现声控操作的方法及装置
CN105551492A (zh) * 2015-12-04 2016-05-04 青岛海信传媒网络技术有限公司 语音控制的方法、装置与终端
US20170315849A1 (en) * 2016-04-29 2017-11-02 Microsoft Technology Licensing, Llc Application target event synthesis
US11100278B2 (en) 2016-07-28 2021-08-24 Ivanti, Inc. Systems and methods for presentation of a terminal application screen
US11099716B2 (en) 2016-12-23 2021-08-24 Realwear, Inc. Context based content navigation for wearable display
US10620910B2 (en) * 2016-12-23 2020-04-14 Realwear, Inc. Hands-free navigation of touch-based operating systems
US11507216B2 (en) 2016-12-23 2022-11-22 Realwear, Inc. Customizing user interfaces of binary applications
CN109147776A (zh) * 2017-06-19 2019-01-04 丽宝大数据股份有限公司 具有声控功能的显示装置及声控时机指示方法
CN107507614B (zh) * 2017-07-28 2018-12-21 北京小蓦机器人技术有限公司 结合ui执行自然语言命令的方法、设备、系统与存储介质
CN110211586A (zh) * 2019-06-19 2019-09-06 广州小鹏汽车科技有限公司 语音交互方法、装置、车辆以及机器可读介质
CN112256263B (zh) * 2020-09-23 2024-02-06 杭州讯酷科技有限公司 一种基于自然语言的ui界面智能制作系统及方法
CN114625297A (zh) * 2022-03-15 2022-06-14 上海小度技术有限公司 一种交互方法、装置、设备以及存储介质
US11922096B1 (en) * 2022-08-30 2024-03-05 Snap Inc. Voice controlled UIs for AR wearable devices

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010043234A1 (en) * 2000-01-03 2001-11-22 Mallik Kotamarti Incorporating non-native user interface mechanisms into a user interface

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619708A (en) * 1994-10-25 1997-04-08 Korteam International, Inc. System and method for generating database input forms
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
US6125376A (en) * 1997-04-10 2000-09-26 At&T Corp Method and apparatus for voice interaction over a network using parameterized interaction definitions
US6108629A (en) * 1997-04-25 2000-08-22 At&T Corp. Method and apparatus for voice interaction over a network using an information flow controller
US6012030A (en) * 1998-04-21 2000-01-04 Nortel Networks Corporation Management of speech and audio prompts in multimodal interfaces
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US6175820B1 (en) * 1999-01-28 2001-01-16 International Business Machines Corporation Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment
JP2002023996A (ja) * 2000-07-04 2002-01-25 Advanced Media Inc 音声対応スクリプト動作装置
US6791529B2 (en) * 2001-12-13 2004-09-14 Koninklijke Philips Electronics N.V. UI with graphics-assisted voice control system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010043234A1 (en) * 2000-01-03 2001-11-22 Mallik Kotamarti Incorporating non-native user interface mechanisms into a user interface

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886882A (zh) * 2014-03-17 2014-06-25 联想(北京)有限公司 一种进度调节方法及电子设备
CN103886882B (zh) * 2014-03-17 2017-05-24 联想(北京)有限公司 一种进度调节方法及电子设备

Also Published As

Publication number Publication date
WO2003071385A3 (en) 2003-12-31
DE60321145D1 (de) 2008-07-03
US7246063B2 (en) 2007-07-17
ATE396446T1 (de) 2008-06-15
WO2003071385A2 (en) 2003-08-28
EP1485773B1 (en) 2008-05-21
CN1643491A (zh) 2005-07-20
AU2003215239A1 (en) 2003-09-09
AU2003215239A8 (en) 2003-09-09
EP1485773A2 (en) 2004-12-15
EP1485773A4 (en) 2006-10-18
US20030156130A1 (en) 2003-08-21

Similar Documents

Publication Publication Date Title
CN100409173C (zh) 启动声控用户界面的方法、声音扩展模块和系统
US6882974B2 (en) Voice-control for a user interface
US8788271B2 (en) Controlling user interfaces with contextual voice commands
US7389236B2 (en) Navigation and data entry for open interaction elements
US7409344B2 (en) XML based architecture for controlling user interfaces with contextual voice commands
US20190025950A1 (en) User interface apparatus and method for user terminal
US8886521B2 (en) System and method of dictation for a speech recognition command system
US20060136220A1 (en) Controlling user interfaces with voice commands from multiple languages
CN104583927B (zh) 用户终端中的用户接口装置以及用于支持该用户接口装置的方法
US20040187082A1 (en) User operable help information system
EP2891041B1 (en) User interface apparatus in a user terminal and method for supporting the same
WO2008144638A2 (en) Systems and methods of a structured grammar for a speech recognition command system
US8028240B2 (en) Custom labeler for screen readers
US10789053B2 (en) Facilitated user interaction
CN115877997A (zh) 一种面向交互元素的语音交互方法、系统及存储介质
Cloister elsn ew s
CN102522014A (zh) 一种提取资料语言学习的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20080806