CN105074815A - 针对语音识别系统的视觉反馈 - Google Patents

针对语音识别系统的视觉反馈 Download PDF

Info

Publication number
CN105074815A
CN105074815A CN201480005988.9A CN201480005988A CN105074815A CN 105074815 A CN105074815 A CN 105074815A CN 201480005988 A CN201480005988 A CN 201480005988A CN 105074815 A CN105074815 A CN 105074815A
Authority
CN
China
Prior art keywords
phonetic entry
user
outward appearance
designator
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480005988.9A
Other languages
English (en)
Other versions
CN105074815B (zh
Inventor
C.克莱因
M.尼曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN105074815A publication Critical patent/CN105074815A/zh
Application granted granted Critical
Publication of CN105074815B publication Critical patent/CN105074815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了涉及在语音识别系统中提供视觉反馈的实施例。例如,一个公开的实施例提供了一种方法,包括:显示图形反馈指示符,所述图形反馈指示符具有依赖于语音识别系统的状态的可变外观。该方法还包括:接收语音输入;如果语音输入被系统听到并理解,则以第一方式修改图形反馈指示符的外观,以及如果语音输入被听到但未被理解,则以不同于第一方式的方式修改图形反馈指示符的外观。

Description

针对语音识别系统的视觉反馈
背景技术
一些语音识别系统可以在多用户环境下操作,在多用户环境下可以从房间中的各种位置并且以各种音量从多个用户提供话音命令。在一些情况下,可能难以确定哪个用户当前正在与语音识别系统交互和/或语音输入是否被接收该语音输入的计算设备听到并理解。
发明内容
公开了涉及在语音识别系统中提供视觉反馈的实施例。例如,一个公开的实施例提供了一种方法,包括:显示图形反馈指示符,所述图形反馈指示符具有依赖于语音识别系统的状态的可变外观。该方法还包括:接收语音输入;如果语音输入被系统听到并理解,则以第一方式修改图形反馈指示符的外观,以及如果语音输入被听到但未被理解,则以不同的第二方式修改图形反馈指示符的外观。
本概要被提供来以简化的形式介绍构思的选择,在下面的详细说明中进一步描述了这些构思。本概要既不意在识别所要求保护的主题的关键特征或必要特征,也不意在被用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决了在本公开内容的任何部分中提到的任何或全部缺陷的实现。
附图说明
图1示出了根据本公开内容的实施例的、针对语音识别系统的示例性多用户环境。
图2示出了根据本公开内容的实施例的示例性语音识别系统的框图。
图3示出了描绘为语音识别系统提供反馈的方法的实施例的流程图。
图4A-4F示出了根据本公开内容的实施例在显示器上显示的反馈的示例。
图5示出了根据本公开内容的另一实施例的、具有紧凑外观的反馈的示例。
图6示出了根据本公开内容的实施例的示例性计算系统的框图。
具体实施方式
如上文提到的,一些语音识别系统可以在多用户环境下操作,在多用户环境下可以从房间中的各种位置并且以各种音量从多个用户提供话音命令。然而,语音识别系统可能具有简单的反馈机制来向用户警告当前交互状态,或者可能根本不使用任何反馈机制。尽管对于单用户环境而言这样的语音识别系统可能就足够,然而多用户环境和/或多应用环境的复杂性可能导致在使用期间的混乱,因为语音识别系统可能不按对预期语音命令所期望的那样做出响应。此外,用户可能难以查明问题以便修改他们的行为或找到解决方案。
语音识别系统可以在各种状态下操作并且在语音接收和识别的过程中执行各种任务。例如,语音识别系统可以有时工作在受限或被动的(passive)监听状态下,在所述受限或被动的监听状态下,语音识别系统仅监听用于唤醒并进入主动监听状态的触发。因此,在被动监听状态下,可以支持有限数目的所识别的语音命令。在主动监听状态下,语音识别系统可以接收和分析检测到的语音,以确定相对应的动作来在计算设备上进行。语音输入系统可以使用不同的主动监听状态,所述不同的主动监听状态对应于不同的计算设备情境,比如应用情境或操作系统情境。这样,语音输入可以在不同的主动监听情境下,甚至在相同应用中的不同情境下,被不同地解释。
各种参数可以影响语音输入是否被计算系统恰当地听到和理解。例如,如果语音识别系统没有检测到足够音量的语音输入,则该语音输入不会被正确理解。此外,在多用户环境下,如果语音输入系统没有恰当地识别语音输入的源(例如,如果系统尝试将来自多个用户的词语解释为来自单个用户的单个命令),则用户可能在进行语音输入时有困难。此外,甚至在从确定的用户接收到足够音量的语音输入的情况下,在确定进行语音输入的用户的意图时也可能遭遇歧义。
考虑到这样的复杂性,如果用户提供了语音输入并且系统执行了与语音输入不相关的动作或者无法执行任何动作,则可能难以确定语音输入为何没有被恰当地解释。因此,公开了涉及在语音识别系统中提供用户界面反馈机制的实施例。所公开的反馈机制可以提供与监听状态、当前语音输入情境、语音输入音量、用户标识、用户位置、实时语音识别确认和/或用户在进行语音输入时的其他信息有关的反馈。因此,这样的反馈可以有助于使用户能够理解语音输入是否正被接收并且被正确地解释。
图1示出了针对语音识别系统的多用户环境100的示例性实施例。多用户环境包括与计算系统104交互的第一用户102。计算系统104可以通信地连接到其他设备,比如传感器系统106和显示设备108。传感器系统106可以包括一个或多个深度摄像机、一个或多个二维摄像机、一个或多个麦克风(例如,定向麦克风阵列,其允许确定从哪个位置接收到语音输入)和/或任何其他合适的传感器。显示设备108包括用于向用户呈现视觉信息的显示器110。环境100还图示了第二用户112。第二用户112也可以向计算系统104提供语音输入,和/或可以在第一用户102进行语音输入时促成背景噪声。
第一用户102被图示为提供语音输入来控制运行在计算系统104上的视频游戏应用。图1还示出了语音识别反馈机制的示例性实施例,所述语音识别反馈机制采用在显示器110上显示的图形反馈指示符114的形式。所描绘的图形反馈指示符114包括位置和音量指示特征114a,所述位置和音量指示特征114a的位置描绘了语音输入正从哪个方向被接收,所述位置和音量指示特征114a的长度指示了语音输入的检测到的音量。图1中,位置和音量指示特征114a被定位成指示从观众的角度来看正在接收的语音输入是从显示器的左侧被检测到的,这对应于第一用户102的位置。相反,如果系统要检测源自第二用户112的语音,则位置和音量指示特征114a将被定位在图形反馈指示符114的右侧以与第二用户112的位置相对应。
图形反馈指示符114还被描绘为提供与识别和/或理解的语音输入有关的反馈。在描绘的实施例中,这样的反馈的示例被示为文本串,所述文本串响应于第一用户102说词语“再装弹(RELOAD)”或者说与相同的用户意图相对应的其他短语(例如,“改变弹药(CHANGEAMMUNITION)”)而示出词语“再装弹”,这样使得显示的文本串对应于与接收到的语音输入相对应的规范语音输入。这样的反馈可以按照系统的理解实时向用户示出语音输入的内容,从而警告用户语音输入是被正确地理解还是错误地理解。在一些实施例中,除了图形反馈指示符114之外,计算系统104还可以提供话音和/或非话音声频反馈。
针对语音识别系统的图形反馈指示符可以包括任何合适数目和排列的视觉反馈元素,包括但不限于插图、文本、图像等等,并且可以具有任何其他合适的外观。例如,图形反馈指示符114可以被叠加在用户界面的可显示内容上和/或在视觉上被整合在用户界面内。下文参考图4A至图4F以及图5描述了示例性实施例。
图2示出了语音识别系统200的示例性实施例的框图。语音识别系统包括计算设备202,其可以代表计算系统104或其他合适的计算系统。计算设备202包括被存储于其上的存储装置中的计算机可读指令,计算机可读指令可被执行来操作语音识别系统204。语音识别系统204可以被配置为经由传感器系统206接收语音输入,所述传感器系统206可以代表图1的传感器系统106或被配置为接收语音输入的其他合适的传感器系统。计算设备202还可以被配置为向显示设备207提供输出,包括但不限于图形反馈指示符的输出,所述图形反馈指示符被配置为提供针对语音识别系统204的视觉反馈。下文相对于图6来论述示例性计算系统的更多细节。
在一些实施例中,语音识别系统204可被配置为经由网络210与外部语音识别服务208通信,以辅助语音识别过程。例如,可以向外部语音识别服务208提供原始语音数据以用于所识别的语音片段的辨认。此外,可以将计算设备202辨认的所识别的语音片段发送至外部语音识别服务以用于附加的语音处理,例如,自然语言分析、意图确定、歧义语音输入的歧义消除和/或其他任务。
图3示出了描绘为语音识别系统提供用户反馈的方法300的实施例的流程图。方法300包括:在302,显示图形反馈指示符,所述图形反馈指示符具有依赖于语音识别系统的状态的可变外观。例如,如在304处指示的,当语音识别系统在主动监听模式下操作时,图形反馈指示符可以具有第一外观,并且如在306处指示的,当语音识别系统在被动监听模式下操作时,图形反馈指示符可以具有第二外观。
图4A至4C示出了针对语音识别系统的这样的反馈机制的实施例,其中图形反馈指示符在被动监听模式期间隐藏,而在主动监听模式下可见。首先,图4A图示了针对应用的所显示的用户界面402,其中反馈指示符在被动监听模式下隐藏。在被动监听模式期间隐藏语音识别反馈机制可以帮助使用户的注意力保持在正观看的内容上。在其他实施例中,图形反馈指示符可以被显示为具有与被动监听模式相对应的外观,如下文在图5的情境下描述的。
响应于接收到触发输入,语音识别系统可以进入主动监听模式,其中显示图形反馈指示符。图4B和4C示出了图形反馈指示符的示例,其中用户界面402部分地被图形反馈指示符的图形框架遮掩,所述图形反馈指示符指示语音识别系统正处于主动监听模式。在描绘的实施例中,框架作为围绕应用的用户界面的不透明边界而出现,但是其可以具有任何其他合适的外观。
描绘的框架(或主动监听模式的其他合适表示)可以指示在全局或局部范围上的主动监听,并且可以针对这些范围中的每个范围具有不同的外观以向用户通知语音识别系统的当前情境。同样地,在一些实施例中,图形反馈指示符可以针对一个范围包括边框,而针对另一个范围不包括边框(但是包括其他元素,如下文描述的)。将理解的是,局部范围可以与计算设备上当前受关注的应用的元素相对应,而全局范围可以对应于全局应用情境、操作系统情境等等。作为非限制性示例,在全局范围上监听时识别的命令可以包括多任务命令,比如针对没有受关注的应用的命令、导航快捷方式、系统命令或在局部情境之外的任何其他合适的命令。
图4B还图示了文本反馈元素406。文本反馈元素406可以向用户提供任何合适的信息。所描绘的文本反馈元素406被描绘成为用户提供进行语音输入的提示,从而进一步帮助指示语音识别系统处于主动监听模式。还可以使用文本元素来提供与建议有关的反馈,来让用户听从以辅助语音识别系统理解语音输入(例如,通过要求澄清)。还可以使用文本元素来提供对于从当前状态继续的常见方式的建议和/或提示用户继续向语音识别系统提供语音输入。
暂时转回图3,方法300包括:在308接收语音输入,并且在310响应于接收到语音输入而修改图形反馈指示符的外观,以向用户指示检测到语音输入。图形反馈指示符的外观可以以任何合适的方式被修改。例如,图4C图示了通过以指示符轨迹408的形式添加附加元素来修改图形反馈指示符,其中可以在发起语音输入的接收后显示指示符轨迹408。
此外,可以使用指示符轨迹408来指示下述这样的特征,比如接收到的语音输入的音量,如图3中在312处指示的,和/或从哪个方向接收到语音输入,如图3中在314处指示的。图4D示出了定位在指示符轨迹上的音量和位置指示符410的实施例,其中音量和位置指示符410的长度可以指示正在接收的语音输入的音量。此外,如图4E所图示的,音量和位置指示符410的沿着指示符轨迹408的位置可以变化以指示从哪个方向接收到语音输入。该信息可以帮助用户了解语音输入是否以大到足以被系统理解的音量做出,并且还帮助了解哪个用户当前是语音识别系统所关注的。此外,音量和位置指示符的位置和/或长度可以被实时调节,以适应并指示用户位置、语音音量、用户关注等等的改变。
尽管被示为跨图形反馈指示符底部水平延伸的矩形条,然而将理解的是,指示符轨迹408可以具有任何合适的构型。例如,指示符轨迹408可以具有垂直或其他合适的取向和/或位于显示402的任何合适的区域中。此外,如下文相对于图5描述的,在一些实施例中,指示符轨迹可以不是直线的,而替代地可以是弯曲的或以别的方式具有非直线的构型。
可以以任何合适的方式来确定从其接收到语音输入的用户的位置。例如,如上文提到的,定向麦克风阵列可以提供可用于确定从哪个方向接收到语音输入的数据。此外,在一些实施例中,可以通过将语音识别系统的环境的图像数据与接收到的语音输入相关,来确定提供语音输入的用户的位置。例如,计算设备可以使用从深度摄像机和/或二维摄像机接收到的数据来分析一个或多个用户的脸部特征并确定与接收到的语音输入相关地讲话的是哪个用户。
在一些实施例中,可以将指示符轨迹408分成多个段,使得每个段对应于语音识别系统的环境中的不同位置。相应地,可以将所确定的音量指示为指示符轨迹408的相关联段的长度的一部分。在一些实施例中,可以将指示符轨迹408分成与语音识别系统的环境中检测到的用户数目相等的若干段。
再次参考图3,方法300还可以可选地包括辨认正从哪个用户接收语音输入,并修改图形反馈指示符的外观以指示讲话用户的身份,如在316处指示的。可以以任何合适的方式来辨认用户。例如,在一些实施例中,计算设备可以经由声纹分析来辨认讲话者,其中在声纹分析中将语音输入与针对一个或多个用户的已知话音模式相比较。此外,可以通过脸部/身体识别方法经由深度图像和/或二维图像来辨认用户。下文参考图5来描述显示用户身份的图形反馈指示符的示例性实施例。
作为反馈机制的另一示例,方法300还可以包括:修改图形反馈指示符的外观,以随着词语被识别而实时地显示语音输入的词语,如在318处指示的。这样的反馈可以被称作连续语音识别模式,并且可以允许用户确认语音输入正在被语音识别系统正确地识别。这可以允许用户在输入期间做出更正或澄清,而不是在进行了输入并等待相应的动作被执行之后才做出更正或澄清。
图4F图示了在连续语音识别模式下操作的图4A至4E的图形反馈指示符的示例性实施例,并且图示了实时语音输入指示符412。实时语音输入指示符412随着词语被语音识别系统识别而实时地显示用户说的一个或多个词语的文本表示(例如,“播放电影(PLAYMOVIE)”)。在描绘的实施例中,实时语音输入指示符412被直接定位在音量和位置指示符410上方。然而,实时语音输入指示符412可以被定位在显示402上的任何合适的位置。
在一些实施例中,实时语音输入指示符412可以强调所识别的词语中与已知的话音命令、人、应用和/或被系统识别的其他内容相关联的一个或多个关键字和/或部分。可以以任何合适的方式来强调这样的关键字。例如,实时语音输入指示符412可以以更大的尺寸、不同的颜色、通过加亮的背景等来显示所识别的词语的所述一个或多个关键字和/或部分。
连续语音识别模式是可以用于向用户指示语音输入是否被语音识别系统听到并理解的反馈的一个非限制性示例。然而可以使用任何其他合适的机制来指示听到的语音输入是否也被理解。例如,可以使用不同的颜色、选定的符号(例如,取代所识别的文本的问号)和/或图形指示符的外观的任何其他合适的修改来指示语音输入被听到但是没有被理解。这样,方法300可以包括:在320,如果语音输入被语音识别系统听到并理解,则以第一方式修改图形反馈指示符的外观,以及在322,如果语音输入被语音识别系统听到但是未理解,则以不同的第二方式来修改图形反馈指示符的外观。
图5图示了在各种反馈状态下针对语音识别系统的图形反馈指示符500的另一实施例。图形反馈指示符500具有比图4A至4F的实施例更紧凑的布局,因此可以被使用在期望更紧凑表示的设置中。例如,可以将图形反馈指示符500显示在应用窗口或其他用户界面的角落或边缘。
所描绘的图形反馈指示符500采取限定了内部区域的圆的形式,其中圆和内部区域各自可以用于提供反馈。例如,可以使用外环的第一外观502(例如,第一颜色)和位于内部区域中的第一元素504来指示被动监听模式。所描绘的第一元素504包括“X”,然而将理解的是,可以使用任何其他合适的指示符。
接下来,当进入主动监听模式后,可以使用不同的外观来指示全局或局部范围主动监听模式。例如,可以使用外环的第一外观502与位于内部区域中的第二元素506的组合来指示全局范围,而可以使用外环的第二外观508与位于内部区域中的第二元素506相结合来指示局部范围。尽管第二元素506被图示为笑脸,然而将理解的是,可以使用任何其他合适的指示符。
图5还将音量和位置指示符510图示为占据外环的一部分。例如,可以由音量和位置指示符510的长度来指示当前受关注的所检测的声音或语音的音量。此外,可以由音量和位置指示符510在外环上的位置来图示正从其接收到语音输入的用户的位置,如在510a处所示。例如,当确定语音输入源自房间的中心时,音量和位置指示符510可以沿着外环的底部出现。类似的,当确定语音输入源自房间的左侧时,音量和位置指示符510可以沿着外环的左侧出现。音量和位置指示符510的长度和/或位置可以实时改变以向用户提供连续并且实时的反馈。将理解的是,在一些实施例中,指示符510可以表示位置而不表示音量,或者表示音量而不表示位置。
此外,图形反馈指示符500可以被配置为以连续识别模式来显示实时识别语音指示符512。可以以任何合适的方式来显示实时识别语音指示符512。例如,在一些实施例中,实时识别语音指示符512可以采取靠着图形反馈指示符的外环的一侧显示的动画的或静止的弹出(stationaryflyout)的形式。此外,在一些实施例中,可以将识别语音指示符512显示在与提供所识别的语音输入的用户的位置相对应的方位,从而如此地提供位置反馈。
还可以使用图形反馈指示符500来显示当前送入语音输入的用户的所确定的身份。例如,图形反馈指示符500的内部区域可以显示所辨认的用户的名字514和/或可以以任何其他合适的方式(例如,通过显示与用户相关联的化身或其他图像、用户的用户名等等)来指示用户的身份。
此外,图形反馈指示符500可以被配置为具有不同的外观以用于指示听到的语音输入是否被理解。例如,可以使用连续识别模式文本显示或其他肯定指示元素来指示语音输入被理解,而诸如问号518之类的非肯定元素可以被显示在内部区域内以指示听到的语音输入未被理解。此外,可以以第三外观516(例如,不同的颜色、纹理等)来显示外环以提供语音输入未被理解的另外的用户反馈。
还可以修改图形反馈指示符500的外观来指示与语音输入相关联的识别置信度和/或不确定性的具体等级(例如,低、中、高等)。例如,可能由于不清楚的语音输入和/或由于两个命令发音相似而导致命令有歧义。因此,在一些实施例中,图形反馈指示符500可以包括提示性或交互性元素以例如通过以下方式对低置信度语音输入消除歧义:呈现两个或更多个可能的命令和/或语音识别结果,用户可以从中选择预期的词语和/或命令。
同样地,在没有歧义地听到并理解用户输入的情况下,可以以指示听到并理解状态的第四外观520来显示外环。例如,第四外观520可以以颜色和/或亮度的动画的或静止的梯度为特征,和/或可以具有任何其他合适的外观。此外,可以显示表示听到并理解语音输入的文本作为另外的反馈。该文本可以表示用户所说的确切的词语或系统所理解的意图的表示。
在一些实施例中,本文描述的方法和过程可以依靠一个或多个计算设备的计算系统。具体的,这样的方法和过程可以被实现为计算机应用程序或服务、应用编程接口(API)、库和/或其他计算机程序产品。
图6示意性地示出了计算系统600的非限制性实施例,所述计算系统600能够展现上述方法和过程中的一个或多个。计算系统600以简化的形式被示出。计算系统600可以采取以下形式:一个或多个游戏控制台、移动通信设备(例如,智能电话)、移动计算设备、平板计算机、服务器计算机、家庭娱乐计算机、网络计算设备、个人计算机和/或其他计算设备。
计算系统600包括逻辑机602和存储机604。计算系统600可以可选地包括显示子系统606、输入子系统608、通信子系统610和/或图6中未示出的其他组件。
逻辑机602包括被配置为执行指令的一个或多个物理设备。例如,逻辑机可以被配置为执行计算机可读指令,所述计算机可读指令是一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分。这样的指令可以被实施来执行任务、实施数据类型、转换一个或多个组件的状态、实现技术效果或以别的方式达到所希望的结果。
逻辑机可以包括被配置为执行软件指令的一个或多个处理器。附加地或备选地,逻辑机可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机。逻辑机的处理器可以是单核或多核的,并且在逻辑机的处理器上执行的指令可以被配置用于顺序的、并行的和/或分布式的处理。逻辑机的各个组件可选地可以分布在两个或更多个分离的设备上,所述两个或更多个分离的设备可以远程地定位和/或被配置用于协同处理。逻辑机的一些方面可以由按照云计算配置而配置的远程可访问的联网计算设备来虚拟化和执行。
存储机604包括一个或多个物理设备,所述一个或多个物理设备被配置为存储和持有可由逻辑机执行来实施本文描述的方法和过程的指令(例如,计算机可读指令)。例如,逻辑机602可以与传感器接口(例如,图1的传感器系统106的接口)和存储机604可操作地通信。当实施这样的方法和过程时,可以转换存储机604的状态,例如,以持有不同的数据。
存储机604可以包括可移除设备和/或内置设备。存储机604可以包括光学存储器(例如,CD、DVD、HD-DVD、蓝光盘等等)、半导体存储器(例如,RAM、EPROM、EEPROM等等)和/或磁性存储器(例如,硬盘驱动、软盘驱动、磁带驱动、MRAM等等)以及其他。存储机604可以包括易失性设备、非易失性设备、动态设备、静态设备、读/写设备、只读设备、随机存取设备、顺序存取设备、位置可寻址设备、文件可寻址设备和/或内容可寻址设备。
将认识到的是,存储机604包括一个或多个物理设备。然而,本文描述的指令的一些方面备选地可以通过通信介质(例如,电磁信号、光学信号等等)来传播。
可以将逻辑机602和存储机604的一些方面一起集成到一个或多个硬件逻辑组件中。这样的硬件逻辑组件可以包括例如现场可编程门阵列(FPGA)、特定于程序和应用的集成电路(PASIC/ASIC)、特定于程序和应用的标准产品(PSSP/ASSP)、单片系统(SOC)以及复杂可编程逻辑器件(CPLD)。
当包括显示子系统606时,显示子系统606可以被使用来呈现由存储机604持有的数据的视觉表示。该视觉表示可以采取在显示器(比如图1的显示器110)上显示的图形用户界面(GUI)的形式。当本文描述的方法和过程改变了由存储机持有的数据,从而转换存储机的状态时,显示子系统606的状态可以同样被转换成视觉地表示基础数据的改变。显示子系统606可以包括事实上使用任何类型技术的一个或多个显示设备。这样的显示设备可以与逻辑机602和/或存储机604组合在共用的封装中,或者这样的显示设备可以是外围显示设备。
当包括输入子系统608时,输入子系统608可以包括一个或多个用户输入设备,比如触摸屏、键盘、鼠标、麦克风或游戏控制器,或者与一个或多个用户输入设备对接。例如,输入子系统可以包括图1的计算系统104,或者与之对接。在一些实施例中,输入子系统可以包括所选的自然用户输入(NUI)元件部分,或者与之对接。这样的元件部分可以是集成的或外围的,并且对输入动作的转导和/或处理可以被在板上或离板地操纵。示例性NUI元件部分可以包括:用于语音和/或话音识别的麦克风;用于机器视觉和/或手势识别的红外、彩色、立体和/或深度摄像机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪;以及用于评估脑部活动性的电场感测元件部分。
当包括通信子系统610时,通信子系统610可以被配置为将计算系统600与一个或多个其他计算设备通信地耦合。通信子系统610可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可以被配置用于经由无线电话网络或者有线或无线的局域网或广域网来通信。在一些实施例中,通信子系统可以允许计算系统600经由诸如互联网之类的网络向其他设备发送消息和/或从其他设备接收消息。
将理解的是,本文描述的配置和/或方法实际上是示范性的,并且不在限制的意义上考虑这些特定的实施例或示例,因为许多变型是可能的。本文描述的特定例程或方法可以代表任意数目的处理策略中的一个或多个处理策略。这样,所图示和/或所描述的各种动作可以按照图示和/或描述的顺序执行、按照其他顺序执行、并行地执行或者被省略。同样地,可以改变上述过程的次序。
本公开内容的主题包括本文所公开的各种过程、系统和配置以及其他特征、功能、动作和/或属性的所有新颖的、非显而易见的组合和子组合,及其任意和所有的等同物。

Claims (10)

1.一种在计算设备上为语音识别系统提供用户反馈的方法,所述方法包括:
显示图形反馈指示符,所述图形反馈指示符具有基于语音识别系统的状态而变化的外观;
接收语音输入;以及
如果语音输入被系统听到并理解,则以第一方式修改图形反馈指示符的外观,以及如果语音输入被听到但未被理解,则以不同于第一方式的方式修改图形反馈指示符的外观。
2.根据权利要求1所述的方法,还包括:确定语音输入的音量,并修改图形反馈指示符的外观以指示音量。
3.根据权利要求2所述的方法,其中,修改图形反馈指示符的外观以指示音量包括:响应于音量的改变来修改图形反馈指示符上音量指示符的长度。
4.根据权利要求1所述的方法,还包括:确定提供语音输入的用户的位置,并修改图形反馈指示符的外观以指示用户的位置。
5.根据权利要求4所述的方法,其中,修改图形反馈指示符的外观以指示用户的位置包括:将音量指示符的位置调节到与用户的位置相对应的方向中。
6.根据权利要求1所述的方法,还包括:在连续语音识别模式期间修改图形反馈指示符的外观,以随着每个词语被识别而实时地显示语音输入的一个或多个词语。
7.根据权利要求1所述的方法,还包括:当语音识别系统在局部应用范围内操作时,以第一外观显示图形反馈指示符;而当语音识别系统在全局操作系统范围内操作时,以不同于第一外观的第二外观来显示图形反馈指示符。
8.根据权利要求1所述的方法,其中,所述以不同于第一方式的方式修改图形反馈指示符的外观包括:显示让用户提供附加用户输入的提示。
9.一种用于执行语音识别并提供与语音识别有关的反馈的计算系统,所述计算系统包括:
逻辑机;以及
存储机,其包括指令,所述指令可由逻辑机执行来:
  向显示设备输出具有指示语音识别系统处于主动监听模式的第一外观的图形反馈指示符,所述图形反馈指示符具有依赖于语音识别系统的状态的可变外观;
  从一个或多个麦克风接收语音输入;
  如果语音输入被听到,则修改图形反馈指示符的第一外观以指示在与语音输入源的检测到位置相对应的位置处语音输入的检测到的音量;以及
  如果语音输入被理解,则修改图形反馈指示符的第一外观以指示语音输入被理解。
10.根据权利要求9所述的计算系统,所述指令还可执行来:确定用户的身份,以及修改图形反馈指示符的第一外观以显示用户的身份。
CN201480005988.9A 2013-01-24 2014-01-21 针对语音识别系统的视觉反馈 Active CN105074815B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/749392 2013-01-24
US13/749,392 US9721587B2 (en) 2013-01-24 2013-01-24 Visual feedback for speech recognition system
PCT/US2014/012229 WO2014116548A1 (en) 2013-01-24 2014-01-21 Visual feedback for speech recognition system

Publications (2)

Publication Number Publication Date
CN105074815A true CN105074815A (zh) 2015-11-18
CN105074815B CN105074815B (zh) 2019-01-22

Family

ID=50033842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480005988.9A Active CN105074815B (zh) 2013-01-24 2014-01-21 针对语音识别系统的视觉反馈

Country Status (4)

Country Link
US (1) US9721587B2 (zh)
EP (1) EP2948944B1 (zh)
CN (1) CN105074815B (zh)
WO (1) WO2014116548A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106873937A (zh) * 2017-02-16 2017-06-20 北京百度网讯科技有限公司 语音输入方法和装置
CN107155121A (zh) * 2017-04-26 2017-09-12 海信集团有限公司 语音控制文本的显示方法及装置
CN107277630A (zh) * 2017-07-20 2017-10-20 海信集团有限公司 语音提示信息的显示方法及装置
CN109074819A (zh) * 2016-04-29 2018-12-21 维塔驰有限公司 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备
TWI647590B (zh) * 2015-12-01 2019-01-11 美商高通公司 用於產生通知之方法、電子裝置及非暫時性電腦可讀儲存媒體
CN110603901A (zh) * 2017-05-08 2019-12-20 昕诺飞控股有限公司 话音控制
TWI755037B (zh) * 2020-08-21 2022-02-11 陳筱涵 影音錄製裝置與影音編輯播放系統

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110067059A1 (en) * 2009-09-15 2011-03-17 At&T Intellectual Property I, L.P. Media control
US20130339030A1 (en) * 2012-06-13 2013-12-19 Fluential, Llc Interactive spoken dialogue interface for collection of structured data
JP6229287B2 (ja) * 2013-04-03 2017-11-15 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
KR101456974B1 (ko) 2013-05-21 2014-10-31 삼성전자 주식회사 사용자 단말기, 음성인식 서버 및 음성인식 가이드 방법
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
GB2518002B (en) * 2013-09-10 2017-03-29 Jaguar Land Rover Ltd Vehicle interface system
US11132173B1 (en) * 2014-02-20 2021-09-28 Amazon Technologies, Inc. Network scheduling of stimulus-based actions
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN106797413B (zh) * 2014-09-30 2019-09-27 惠普发展公司,有限责任合伙企业 声音调节
US9564130B2 (en) * 2014-12-03 2017-02-07 Samsung Electronics Co., Ltd. Wireless controller including indicator
US10261752B2 (en) * 2016-08-02 2019-04-16 Google Llc Component libraries for voice interaction services
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
US10409552B1 (en) * 2016-09-19 2019-09-10 Amazon Technologies, Inc. Speech-based audio indicators
US11183189B2 (en) * 2016-12-22 2021-11-23 Sony Corporation Information processing apparatus and information processing method for controlling display of a user interface to indicate a state of recognition
US10359993B2 (en) 2017-01-20 2019-07-23 Essential Products, Inc. Contextual user interface based on environment
KR20180085931A (ko) * 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US10166465B2 (en) * 2017-01-20 2019-01-01 Essential Products, Inc. Contextual user interface based on video game playback
DE102017206876B4 (de) 2017-04-24 2021-12-09 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Kraftfahrzeug undSprachsteuerungssystem
CN108108391A (zh) * 2017-11-21 2018-06-01 众安信息技术服务有限公司 用于数据可视化的信息的处理方法以及装置
US11182567B2 (en) * 2018-03-29 2021-11-23 Panasonic Corporation Speech translation apparatus, speech translation method, and recording medium storing the speech translation method
US11544591B2 (en) 2018-08-21 2023-01-03 Google Llc Framework for a computing system that alters user behavior
CN109274828B (zh) * 2018-09-30 2021-01-15 华为技术有限公司 一种生成截图的方法、控制方法及电子设备
US11482215B2 (en) * 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
DE102019134874A1 (de) * 2019-06-25 2020-12-31 Miele & Cie. Kg Verfahren zur Bedienung eines Geräts durch einen Benutzer mittels einer Sprachsteuerung
CN112533041A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 视频播放方法、装置、电子设备和可读存储介质
EP3933560A1 (en) * 2020-06-30 2022-01-05 Spotify AB Methods and systems for providing animated visual feedback for voice commands

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819225A (en) * 1996-05-30 1998-10-06 International Business Machines Corporation Display indications of speech processing states in speech recognition system
US6075534A (en) * 1998-03-26 2000-06-13 International Business Machines Corporation Multiple function graphical user interface minibar for speech recognition
US20030050785A1 (en) * 2000-01-27 2003-03-13 Siemens Aktiengesellschaft System and method for eye-tracking controlled speech processing with generation of a visual feedback signal
CN1604187A (zh) * 1997-04-10 2005-04-06 微软公司 给用户提供声音反馈的可扩展语音识别系统
CN1615508A (zh) * 2001-12-17 2005-05-11 旭化成株式会社 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器
US20100333163A1 (en) * 2009-06-25 2010-12-30 Echostar Technologies L.L.C. Voice enabled media presentation systems and methods
WO2012018658A1 (en) * 2010-08-06 2012-02-09 Google Inc. State-dependent query response
CN102473320A (zh) * 2009-07-13 2012-05-23 微软公司 通过学习到的来自用户的输入使视觉表示生动化
US20120316876A1 (en) * 2011-06-10 2012-12-13 Seokbok Jang Display Device, Method for Thereof and Voice Recognition System

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965863B1 (en) 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US7099829B2 (en) 2001-11-06 2006-08-29 International Business Machines Corporation Method of dynamically displaying speech recognition system information
US7047200B2 (en) * 2002-05-24 2006-05-16 Microsoft, Corporation Voice recognition status display
KR100754385B1 (ko) * 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
US8510109B2 (en) * 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US20090037171A1 (en) * 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
JP5326934B2 (ja) 2009-01-23 2013-10-30 株式会社Jvcケンウッド 電子機器
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US8898324B2 (en) 2010-06-24 2014-11-25 International Business Machines Corporation Data access management in a hybrid memory server
US20120089392A1 (en) 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
US9129591B2 (en) * 2012-03-08 2015-09-08 Google Inc. Recognizing speech in multiple languages
WO2014028069A1 (en) * 2012-08-17 2014-02-20 Flextronics Ap, Llc Epg aggregation from multiple sources

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819225A (en) * 1996-05-30 1998-10-06 International Business Machines Corporation Display indications of speech processing states in speech recognition system
CN1604187A (zh) * 1997-04-10 2005-04-06 微软公司 给用户提供声音反馈的可扩展语音识别系统
US6075534A (en) * 1998-03-26 2000-06-13 International Business Machines Corporation Multiple function graphical user interface minibar for speech recognition
US20030050785A1 (en) * 2000-01-27 2003-03-13 Siemens Aktiengesellschaft System and method for eye-tracking controlled speech processing with generation of a visual feedback signal
CN1615508A (zh) * 2001-12-17 2005-05-11 旭化成株式会社 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器
US20100333163A1 (en) * 2009-06-25 2010-12-30 Echostar Technologies L.L.C. Voice enabled media presentation systems and methods
CN102473320A (zh) * 2009-07-13 2012-05-23 微软公司 通过学习到的来自用户的输入使视觉表示生动化
WO2012018658A1 (en) * 2010-08-06 2012-02-09 Google Inc. State-dependent query response
US20120316876A1 (en) * 2011-06-10 2012-12-13 Seokbok Jang Display Device, Method for Thereof and Voice Recognition System

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI647590B (zh) * 2015-12-01 2019-01-11 美商高通公司 用於產生通知之方法、電子裝置及非暫時性電腦可讀儲存媒體
CN109074819A (zh) * 2016-04-29 2018-12-21 维塔驰有限公司 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备
CN109074819B (zh) * 2016-04-29 2023-05-16 维塔驰有限公司 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备
CN106873937A (zh) * 2017-02-16 2017-06-20 北京百度网讯科技有限公司 语音输入方法和装置
CN107155121A (zh) * 2017-04-26 2017-09-12 海信集团有限公司 语音控制文本的显示方法及装置
CN107155121B (zh) * 2017-04-26 2020-01-10 海信集团有限公司 语音控制文本的显示方法及装置
CN110603901A (zh) * 2017-05-08 2019-12-20 昕诺飞控股有限公司 话音控制
CN110603901B (zh) * 2017-05-08 2022-01-25 昕诺飞控股有限公司 使用语音识别来控制实用程序的方法和控制系统
CN107277630A (zh) * 2017-07-20 2017-10-20 海信集团有限公司 语音提示信息的显示方法及装置
TWI755037B (zh) * 2020-08-21 2022-02-11 陳筱涵 影音錄製裝置與影音編輯播放系統

Also Published As

Publication number Publication date
CN105074815B (zh) 2019-01-22
EP2948944B1 (en) 2021-03-10
US20140207452A1 (en) 2014-07-24
WO2014116548A1 (en) 2014-07-31
US9721587B2 (en) 2017-08-01
EP2948944A1 (en) 2015-12-02

Similar Documents

Publication Publication Date Title
CN105074815A (zh) 针对语音识别系统的视觉反馈
KR102357633B1 (ko) 대화 감지
CN105009031B (zh) 增强现实设备以及在其上操作用户界面的方法
US10126823B2 (en) In-vehicle gesture interactive spatial audio system
Csapó et al. Overview of auditory representations in human-machine interfaces
CN104737101B (zh) 具有力触发的非视觉响应的计算设备
KR20170080672A (ko) 키 문구 사용자 인식의 증강
US20220234593A1 (en) Interaction method and apparatus for intelligent cockpit, device, and medium
CN105378625A (zh) 指示视野外的增强现实图像
EP3229234A1 (en) System and method to distinguish sources in a multiple audio source environment
JP2023525173A (ja) レンダリングされたグラフィカル出力を利用する会話型aiプラットフォーム
US11543242B2 (en) Localization and visualization of sound
WO2021222251A1 (en) Augmented reality interaction and contextual menu system
US20210117040A1 (en) System, method, and apparatus for an interactive container
CN108829371A (zh) 界面控制方法、装置、存储介质及电子设备
US20210118232A1 (en) Method and System for Translating Air Writing To An Augmented Reality Device
CN114728204A (zh) 包括游戏应用/服务的应用/服务的声音数据的可视化扩展功能
KR20180012561A (ko) 사용자의 감정 정보를 이용한 오프라인 캐릭터 인형 제어 장치 및 방법
US11157167B2 (en) Systems and methods for operating a mobile application using a communication tool
CN108804897A (zh) 屏幕控制方法、装置、计算机设备及存储介质
CN110799987B (zh) 主动式物体识别方法、物体识别装置以及物体识别系统
KR20230110352A (ko) 가상 현실 알림 동기화
JP2023120130A (ja) 抽出質問応答を利用する会話型aiプラットフォーム
US11796959B2 (en) Augmented image viewing with three dimensional objects
KR102011036B1 (ko) 알림에 대한 음성 조작 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant