CN100345185C - 用于显示语音识别结果的方法和设备 - Google Patents

用于显示语音识别结果的方法和设备 Download PDF

Info

Publication number
CN100345185C
CN100345185C CNB2003801071061A CN200380107106A CN100345185C CN 100345185 C CN100345185 C CN 100345185C CN B2003801071061 A CNB2003801071061 A CN B2003801071061A CN 200380107106 A CN200380107106 A CN 200380107106A CN 100345185 C CN100345185 C CN 100345185C
Authority
CN
China
Prior art keywords
recognition result
result list
confidence value
recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2003801071061A
Other languages
English (en)
Other versions
CN1729511A (zh
Inventor
马克·T·阿勒纽斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CN1729511A publication Critical patent/CN1729511A/zh
Application granted granted Critical
Publication of CN100345185C publication Critical patent/CN100345185C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Character Discrimination (AREA)

Abstract

用于显示语音识别结果的方法和设备,包括识别过滤器(102),它接收识别结果列表(106),包括多个语音识别项(122),其中每个语音识别项(122)都具有特定项的识别置信度值(124)。识别过滤器(102)会产生修正的识别结果列表(108),它包括具有特定项的识别置信度值的一个或多个语音识别项。此方法和设备还包括显示发生器(104),它接收修正的识别结果列表(108)并产生图形化的识别结果列表(110)。图形化的识别结果列表(110)包括语音识别项和非字母数字的符号,它作为特定项的识别置信度值(128)和语音识别项(126)的图形化表示。

Description

用于显示语音识别结果的方法和设备
技术领域
本发明通常涉及语音识别,更具体地说,本发明涉及一种关联语音识别结果的置信度数值的图形化表示。
背景技术
随着语音识别能力的发展,语音识别应用软件和用途的数量也有了相应的增长。根据语音识别的用户位置,不同类型的语音识别应用软件和系统已得到开发。一个这样的示例就是本地或嵌入式的语音识别引擎,例如SpeechToGo语音识别引擎,它是由位于695 AtlanticAvenue,Boston,Massachusetts,02111的Speech Works International,Inc.销售的。另一种类型的语音识别引擎是基于网络的语音识别引擎,例如Speech Works 6,它是由位于695 Atlantic Avenue,Boston,Massachusetts,02111的Speech Works International,Inc.销售的。
嵌入式或本地语音识别引擎为识别此语音输入提供了额外的优势,其中语音输入中包括了任何类型的可听得到或基于音频的输入信号。嵌入式语音或本地语音识别引擎的一个缺点是这些引擎只能包含有限的词汇表。由于存储容量限制和系统处理的要求,再加上能量消耗的限制,嵌入式或本地语音识别引擎仅仅能够识别基于网络的语音识别引擎可以识别的音频输入信号的一小部分。
在减少存储和处理限制条件的基础上,基于网络的语音识别引擎为容量更多的词汇表提供了额外的优势。然而也存在一个不利方面,就是在用户提供语音输入时和对语音输入进行识别并返回给用户确认时之间存在额外的等待时间。在典型的语音识别系统中,用户提供音频输入信号,音频输入信号经由通信路径提供给服务器,然后进行识别。在另一个实施例中,音频输入信号也可以提供给嵌入式语音识别引擎。
当识别结果包括大量的识别项,并且其中每个识别项都具有预设门限范围内的关联置信度值时,问题就出现了。为用户提供落在预设门限范围内的识别项列表是非常重要的,这样用户就可以选择合适的识别项。而且,在只有有限显示数量的设备中,需要一种有效的方法来显示识别结果及其关联的置信度值,从而为用户提供自动和直接的语音识别反馈。尽管存在某些系统为了在有限的显示空间内显示识别置信度值而为终端用户提供产生的N-最优列表(N-best list),但是没有系统会提供表示关联置信度等级的非字母数字的符号。例如,典型的语音识别结果列表可能包括按数字排序的项列表,但是不会提供不同项置信度等级之间差异的指示。为终端用户提供带有识别结果的关联表示的识别结果列表是有好处的,这样用户就可以更好地理解语音识别引擎的关联性能。此外,在显示空间非常有限的显示区域中,提供语音识别列表和关联置信度值以及关联列表中每个项之间差异的可视指示,这是非常困难的。
附图说明
参考下列附图,本发明将更易于理解:
图1示出了显示语音识别结果的设备的一个示例。
图2示出了语音识别N-最优列表和关联置信度等级的一个示例。
图3示出了带有置信度等级和关联Δ值的N-最优语音识别列表的另一个示例。
图4示出了显示语音识别结果的设备的另一个示例。
图5示出了显示语音识别结果的方法的一个示例。
图6示出了显示语音识别结果的设备的另一个示例。
图7示出了显示语音识别结果的方法的另一个示例。
图8示出了N-最优语音识别结果列表的非字母数字表示的一个示例。
图9示出了N-最优语音识别结果列表的非字母数字表示的另一个示例。
图10示出了N-最优语音识别结果列表的非字母数字表示的另一个示例。
图11示出了N-最优语音识别结果列表的非字母数字表示的另一个示例。
图12示出了带有有限显示屏幕来显示语音识别结果的一种便携式设备。
具体实施方式
简而言之,用于显示语音识别结果的方法和设备包括一个识别过滤器,它能够接收包括大量语音识别项的识别结果列表。每个语音识别项都具有特定的识别置信度值,这样识别过滤器会产生修正的识别结果列表,其中包括具有特定的识别关联置信度值的语音识别项中的至少一个。
用于显示语音识别结果的方法和设备还包括与识别过滤器相关的显示发生器。显示发生器接收修正的识别结果列表,并产生图形化的识别结果列表。图形化的识别结果列表包括语音识别项中的一个或多个,对于每一个语音识别项都有一个特定的识别置信度值的图形化表示。特定项的识别置信度值的图形化表示是一个非字母数字的符号。这种设备和方法还包括显示识别项和特定项置信度值的图形化表示。
图1示出了便携式设备100,它包括识别过滤器102和显示发生器104。识别过滤器102包括在硬件或软件方面易于组合的所有设备,它可以接收识别结果列表106并产生修正的识别结果列表108。显示发生器104接收修正的识别结果列表108并产生图形化的识别结果列表110。便携式设备100包括能够接收音频输入(未示出)并接收识别结果列表106的所有设备,例如能够与服务器或其他通信网络进行通信的无线或有线设备,包括但不仅限于蜂窝式电话、笔记本电脑、台式电脑、寻呼机、智能电话、个人数字助理或其他能够进行或接收语音识别的便携式设备。
识别过滤器102可能包含最小置信度门限值和最大置信度门限值,由此对识别结果列表106进行过滤,从而去除不在置信度门限值内的所有语音识别项。在另一个实施例中,如果存在至少一个或多个识别项的置信度值高于最大置信度门限值,识别过滤器还可能丢弃识别值低于特定置信度值的所有项。而且,在另一个实施例中,如果不存在任何语音识别项的识别置信度等级高于最小门限置信度值,识别过滤器102还可能产生误差消息。应该注意,在一个实施例中,识别置信度门限值可以由终端用户来决定。
显示发生器104在接收到修正的识别结果列表时,会产生非字母数字的符号作为每个特定项识别置信度值的图形化表示。由此,图形化的识别结果列表110包括语音识别项和关联的图形化表示。在一个实施例中,可向包括在便携式设备100内的显示器(未示出)提供图形化识别结果列表110。
为了说明的目的,图2示出了语音识别引擎提供的识别结果列表。识别结果列表120包括项列表122和置信度值列表124。识别结果列表106通常是对提供给语音识别引擎的语音输入的响应。使用示例项122,识别结果列表会包括具有置信度值“68”128的项“New York”126,具有置信度值“64”132的项“Newark”130,具有置信度值“62”136的项“Newtown”134,具有置信度值“52”140的项“New London”138,具有置信度值“44”144的项“New Castle”142,具有置信度值“36”148的项“New Haven”146,具有置信度值“30”152的项“Nevada”150。在一个实施例中,这个识别结果列表106中会被提供给图1中的识别过滤器102。
图3用表格的形式示出了基于识别结果列表106的修正的识别结果列表108。修正的识别结果列表108包括项160、Δ值162和置信度值164。仅为了示例的目的,假定识别过滤器102包括最大置信度门限值70%和最小置信度门限值50%,因此项“New York”126、“Newark”130、“Newtown”134、“New London”138是唯一在修正的识别结果列表108中的项。而且,关联的置信度值128、132、136和144分别也都在修正的识别结果列表108中。此外还包括指示关联项置信度值之间差异的Δ值162,例如Δ值为4表示具有置信度值“64%”132的项“Newark”130与具有置信度值“68%”128的项“NewYork”126之间的置信度值差异为4个百分点。
图4示出了的系统170带有便携式设备100,它带有音频输入设备174,例如麦克风或其他所有能够接收音频输入176的设备。音频输入176通常是由终端用户提供的口头命令,但也可能是由音频输入设备174提供的任何类型的可听得见的输入。便携式设备100还包括嵌入式语音识别引擎178。便携式设备100还包括识别过滤器102和显示发生器104。
识别过滤器102与存储器180和处理器182相连接,显示发生器104与显示设备184相连接。处理器182可能但不仅限于是一个处理器、多个处理器、DSP、微处理器、ASIC、状态机、或是其他所有能够处理并执行软件或离散逻辑的实现方式,或是其他所有硬件、软件和/或固件的适当组合。项处理器不应被解释为专指能够执行软件的硬件,而可能暗中包括DSP硬件、用来存储软件的ROM、RAM和其他所有易失或非易失性的存储媒介。存储器180可能但不仅限于是单独的存储器、多个存储单元、共享的存储器、CD、DVD、ROM、RAM、EEPROM、光学存储器或其他所有能够存储数字数据给处理器182使用的非易失存储器。正如本领域普通技术人员所能认识到的,显示设备184可以是用于音频输出的扬声器、用于视频输出的显示器或监视器、或其他所有提供输出的适当接口。
音频输入设备174可以为嵌入式语音识别引擎178提供编码后的音频输入184A,然后产生识别结果列表106A。在另一个实施例中,如果便携式设备100是能够经由通信网络186进行通信的有线或无线设备,音频输入设备174就可以向通信网络提供编码后的音频输入184B,这样通信网络就可以向外部的语音识别引擎190提供语音输入188。外部语音识别引擎190或基于网络的语音识别引擎可能是SpeechWorks 6,它是由位于695 Atlantic Avenue,Boston,Massachusetts,02111的Speech Works International,Inc.销售的。通信网络186可以是无线区域网络、无线局域网、蜂窝式通信网络、或者其他所有提供便携式设备100和外部语音识别引擎190之间通信的适当网络。因此,通信网络186可以为识别过滤器102提供基于网络的识别结果列表106B。
在前面讨论过的一个实施例中,识别过滤器102会产生修正的识别结果列表108以提供给显示发生器104,这样就可以向显示发生器104提供图形化的识别结果列表110。
识别过滤器102可以从存储器180接收过滤器信息192,或从处理器182接收信息194。在一个实施例中,识别过滤器102可以直接从存储器180中恢复过滤器信息192,在另一个实施例中,处理器182可以执行由存储器180提供的可执行指令196,作为那些可执行指令的响应,它可以向识别过滤器102提供过滤器信息194。在一个实施例中,过滤器信息可能包括最大置信度门限值和最小置信度门限值,这样考虑到这些门限值而产生识别结果列表104。过滤器信息192或194还可能包括能够用于每个语音识别项的加权指示,由此调整特定项的识别置信度值。
显示发生器104还可以从处理器182接收优选信号198,或从存储器180接收优选信号200,这与识别过滤器接收过滤器信息192和194的情形相同。优选信号198或200包括用来指示图形化识别结果列表110的图形化表示的信息。分布在显示发生器104中的图形化表示可以是带有不同颜色的多个线条、具有不同宽度的多个线条、其间具有不同间隔的多个线条、或者其间具有至少一线条指示的几何元素,诸如下面参考图8-10所讨论的。
图5示出了显示语音识别结果方法的一个实施例步骤的流程图,此方法通过接收包括至少一个语音识别项的识别结果列表而开始于步骤210,步骤212中,至少一个语音识别项中的每一个都具有特定项的置信度值。如参考图1所说明的,识别结果列表106有大量的识别项122,每个都带有特定项的置信度值124。此方法的下个步骤214会产生图形化表示,它表示了至少一个识别项和至少一个识别项中每一个的特定项的置信度值,这样图形化表示就会包括至少一个非字母数字的符号,它指示了至少一个特定项的置信度值中的每一个。
在另一个实施例中,产生了修正的识别结果列表108,而由显示发生器104产生的至少一个识别项的图形化表示是基于修正的识别结果列表108的,如前面参考图1所讨论的。下个步骤216包括了显示至少一个识别项和特定项的置信度值的图形化表示。然后,在步骤218中完成此方法。
按照一个实施例,图6示出了带有最大门限过滤器230、最小门限过滤器232。由应用决定的加权施加器234,Δ计算器235和Δ加权施加器238的识别过滤器102。最大门限过滤器230接收分别来自存储器180或处理器182的信号192或194内的识别结果列表106和最大置信度门限值。最大门限过滤器230对输入的识别结果列表106进行过滤以确定是否存在置信度值高于最大门限值的识别项。最大门限过滤器230接着会产生最大过滤列表240以提供给最小门限过滤器232或由应用决定的加权施加器234。在一个实施例中,如果最大门限过滤器230确定有一个或多个识别项高于最大置信度门限值,所有其他项将被丢弃,因此最大门限识别列表不需要由最小门限过滤器232进行过滤。在另一个实施例中,最小门限过滤器232会消除掉来自存储器180或处理器194的置信度值低于最小置信度门限值的所有识别项。
因此,将过滤后的列表242提供给由应用决定的加权施加器234,作为对来自于存储器180或处理器194的加权命令的响应,将加权因子施加用于识别结果列表中的项。例如,如果处理器182在执行涉及到机场的应用程序,由应用决定的加权施加器234可以向所有项提供更进一步的加权因子,比如带有机场的特定城市的名称。
因此,将加权后的列表244提供给Δ计算器236,它可以根据不同项之间的置信度等级差异计算出Δ值,如图3中所示,项160的Δ值162是基于置信度值164的。Δ计算的列表246被提供给Δ加权施加器238,在一个实施例中,它还可以提供特定项的加权,这是根据指示特定值之间差异的Δ因子确定的。例如,Δ加权因子可以为Δ值高于特定门限值的所有项提供特定的加权,这就说明后面最邻近的识别项间存在特定的置信度差异。此处,Δ加权施加器238会产生修正的识别结果列表108以提供给显示发生器104,如上面参考图1和4所讨论的那样。在一个实施例中,显示发生器104因此会产生图形化的识别结果列表110,并作为优选信号198和/或200的响应。
图7示出了显示语音识别结果方法的步骤的另一个示例。此方法通过接收包括至少一个语音识别项的识别结果列表而开始于步骤250,步骤252中,至少一个语音识别项中的每一个都具有特定项的置信度值。下个步骤254包括将至少一个语音识别项中每一个的特定项的置信度值与最小门限值进行比较,并将至少一个语音识别项中其特定项的置信度值低于最小门限值的所有项丢弃。
接下来,在步骤256中,将至少一个语音识别项中每一个的特定项的置信度值与最大门限值进行比较,并将至少一个语音识别项中其特定项的置信度值高于最大门限值的所有项丢弃。在步骤258中,会产生至少一个语音识别项的图形化表示和至少一个语音识别项中每一个的特定项的置信度值,这样图形化表示中会包括至少一个非字母数字的符号以说明至少一个特定项中每一个的置信度值。这样,通过显示出至少一个识别项和特定项的置信度值的图形化表示,此方法在步骤260中得到结论。因此,在步骤262中完成此方法。
图8示出了多个识别项和每个特定项的置信度值的图形化表示的显示270。第一个项“New York”272包括一个具有特定长度的实心长方条,它比其他项的长方条的长度要长,因此如图3中所示出的那样,项“New York”具有最高的置信度值128。项“Newark”276显示为稍短的长方条278,它用图形化的方式表明了其置信度值低于项“New York”272的。如图3中所示出的,项“New Town”280和“NewLondon”282分别与长方条284和286相关联,它用图形化的方式表示出了相关联的置信度值。
图9示出了具有多个项272、276、280和282并分别与置信度值指标288、290、292和294相关联的另一个实施例。特定项的置信度值的图形化表示288-294指示出了几何形状,在这里是一个三角形,其中分布着大量的竖条,竖条的分布与其到三角形左边缘的距离有关,它表示了每个项之间关联的置信度值和关联的Δ值。
在另一种更加简单直接的方法中,图10还包括分别与项272、276、280和282相关联的标准图形化表示长方条296、298、300和302。图形化表示296-302包括大量的具有标准厚度的竖条,每个都有不同的特定分布,并与长方形的左边缘有一定的距离,它指示了不同项之间的关联的置信度值和关联的Δ值。
图11示出了另一个实施例,它包括为不同项提供不同的字体和可能的颜色表示,来为多个项提供置信度值和关联的Δ值的指示。在显示270中,第一个项“New York”304用一个大的长方形来表示可能增大的字体,项304的实际显示尺寸也会增大来表示更高的置信度值。并且,关于显示306、308和310,较小的长方形说明使用不同的字体尺寸为特定项提供较小的显示,因此也表示和说明了语音识别结果的相关联的置信度值。
正如本领域普通技术人员所能认识到的,显示270包括较大的显示区域,它能够在同一时间显示所有项。在某些便携式设备中,显示区域可能是受限制的,因此提供多个项可能是有问题的。因此,图12示出了典型的便携式设备320,它具有可选的键区322和显示324,声音输入326和声音输出328。如图12中所示出的,显示324给出了一个航班预订系统的示例,在其中用户输入来源城市330和目的城市332。在此实施例中,有限的显示区域不允许显示所有的多个项,因此与项336关联的图形化表示334会让用户能够在列表模式中看到多个语音识别项,这种每次只能看到一个项的方式是易于观看的,并且图形化表示的存在也指示了可能会存在识别项。模块334指示存在更多的项,也指示了示出的特定项的识别置信度等级。
因此在此实施例中,会给用户提供语音识别引擎具有的直接的可视反馈能力,以及识别引擎具有的检测与用户本身输入有关的语音识别项的能力。通过允许用户快速有效地识别那些在语音识别引擎和用户之间存在有歧义的项、或者是语音识别引擎存在正确识别困难的项,可视的自动反馈可以有助于将来改进的语音识别能力。因此,可以结合N-最优识别列表的显示为用户提供自动反馈,这样用户就可以根据便携式设备,例如蜂窝电话320中执行的应用程序快速有效地选择正确的语音识别项。
在另一个实施例中,显示发生器104也会产生可听到的识别结果列表,它包括多个识别项中的至少一个和特定项的识别置信度值的可听到的表示。正如上面所讨论过的,显示发生器104会给出非字母数字的图形化表示,同时会给出特定项的识别置信度值的可听到的表示。在此实施例中,显示发生器将可听到的识别结果提供给显示设备,例如扬声器,在这里显示设备会接收可听到的识别结果列表并输出此可听到的识别结果列表。在一个实施例中,可听到的表示包括对识别项的基频调整、音量调整、发音速度调整或对发音增加一个或多个声调。
应该理解的是,本发明及其不同方面存在着其他变化和修正的实现方式,正如本领域普通技术人员易于弄清楚的,并且本发明不限于此处描述的特定实施例。例如,嵌入式语音识别引擎178和外部语音识别引擎190都可以用于向识别过滤器提供N-最优列表,因此识别过滤器102可以基于两种语音识别引擎产生修正的识别结果列表108。因此当前的发明预期并包含了所有的修正、变化或落入本发明权利要求公开了的潜在原理的精神和范围之内的等同物。

Claims (11)

1.一种便携式设备,包括:
识别过滤器,接收识别结果列表,所述识别结果列表包括多个语音识别项,每个语音识别项都具有特定项的识别置信度值,所述识别过滤器用于产生修正的识别结果列表,所述修正的识别结果列表包括具有相关联的特定项识别置信度值的多个语音识别项中的至少一个;以及
与识别过滤器相连接的显示发生器,所述显示发生器用于接收修正的识别结果列表并产生图形化的识别结果列表,其中,图形化的识别结果列表包括多个语音识别项,以及为所述多个语音识别项中的每一个产生的对应的特定项的识别置信度值的图形化表示,其中,每一图形化表示是非字母数字的符号。
2.权利要求1中的便携式设备,还包括:
与显示发生器相连接的显示设备,所述显示设备用于接收图形化的识别结果列表并将图形化的识别结果列表显示出来。
3.权利要求2中的便携式设备,还包括:
能够接收音频输入的音频输入设备,其中,音频输入设备与语音识别引擎相连接,以将音频输入提供给语音识别引擎。
4.权利要求1中的便携式设备,其中,所述的图形化表示包括以下至少一项:具有不同颜色的多个的线条,具有不同间隔的多个的线条,其间具有不同间隔的多个的线条,具有在其间分布的至少一个指示线条的几何元素。
5.权利要求1中的便携式设备,其中,所述的识别过滤器接收最大置信度门限值和最小置信度门限值,从而,考虑下列至少一个来产生修正的识别结果列表:最大置信度门限值和最小置信度门限值。
6.权利要求1中的便携式设备,其中,所述的识别过滤器接收能够施加到多个语音识别项中的每一个的加权指示,以调整特定项的识别置信度值。
7.一种用于显示语音识别结果的方法,包括:
接收识别结果列表,所述识别结果列表包括多个语音识别项,其中语音识别项中的每一个都具有特定项的置信度值;
为语音识别项中的每一个产生多个识别项和特定项的置信度值的图形化表示,以使图形化表示包括至少一个非字母数字的符号,该符号指示了至少一个特定项的置信度值中的每一个;以及
显示所述多个识别项及对应的特定项的置信度值的图形化表示。
8.权利要求7中的方法,还包括:在产生多个语音识别项和特定项的置信度值的图形化表示之前,
将语音识别项中的每一个的特定项的置信度值与最小门限值进行比较,并将语音识别项中特定项的置信度值低于最小门限值的所有项丢弃;
将语音识别项中的每一个的特定项的置信度值与最大门限值进行比较,并将语音识别项中特定项的置信度值高于最大门限值的所有项丢弃。
9.权利要求8中的方法,还包括:
对于图形化识别列表的至少一个语音识别项中的每一个,接收加权因子。
10.权利要求9中的方法,其中,所述的加权因子是从以下至少一个中接收到的:存储器和可执行应用程序。
11.权利要求7中的方法,其中,所述的图形化表示包括以下的至少一个:具有不同颜色的多个的线条,具有不同宽度的多个的线条,其间具有不同间隔的多个的线条,具有在其间分布的至少一个指示线条的几何元素。
CNB2003801071061A 2002-12-18 2003-11-18 用于显示语音识别结果的方法和设备 Expired - Fee Related CN100345185C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/323,500 2002-12-18
US10/323,500 US6993482B2 (en) 2002-12-18 2002-12-18 Method and apparatus for displaying speech recognition results

Publications (2)

Publication Number Publication Date
CN1729511A CN1729511A (zh) 2006-02-01
CN100345185C true CN100345185C (zh) 2007-10-24

Family

ID=32593237

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003801071061A Expired - Fee Related CN100345185C (zh) 2002-12-18 2003-11-18 用于显示语音识别结果的方法和设备

Country Status (6)

Country Link
US (1) US6993482B2 (zh)
EP (1) EP1573718A4 (zh)
CN (1) CN100345185C (zh)
AU (1) AU2003298685A1 (zh)
PL (1) PL377219A1 (zh)
WO (1) WO2004061750A2 (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
GB2409087A (en) * 2003-12-12 2005-06-15 Ibm Computer generated prompting
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US20090164215A1 (en) * 2004-02-09 2009-06-25 Delta Electronics, Inc. Device with voice-assisted system
US8095364B2 (en) * 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7475004B2 (en) * 2004-08-31 2009-01-06 Research In Motion Limited Handheld electronic device with text disambiguation
US20060235684A1 (en) * 2005-04-14 2006-10-19 Sbc Knowledge Ventures, Lp Wireless device to access network-based voice-activated services using distributed speech recognition
US7668716B2 (en) * 2005-05-05 2010-02-23 Dictaphone Corporation Incorporation of external knowledge in multimodal dialog systems
JP4757599B2 (ja) * 2005-10-13 2011-08-24 日本電気株式会社 音声認識システムと音声認識方法およびプログラム
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8380506B2 (en) * 2006-01-27 2013-02-19 Georgia Tech Research Corporation Automatic pattern recognition using category dependent feature selection
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
US8121838B2 (en) 2006-04-11 2012-02-21 Nuance Communications, Inc. Method and system for automatic transcription prioritization
ES2359430T3 (es) * 2006-04-27 2011-05-23 Mobiter Dicta Oy Procedimiento, sistema y dispositivo para la conversión de la voz.
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US9326690B2 (en) * 2008-10-14 2016-05-03 Shenzhen Mindray Bio-Medical Electronics Co. Ltd. Patient monitor with visual reliability indicator
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US20150279354A1 (en) * 2010-05-19 2015-10-01 Google Inc. Personalization and Latency Reduction for Voice-Activated Commands
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US9842299B2 (en) 2011-01-25 2017-12-12 Telepathy Labs, Inc. Distributed, predictive, dichotomous decision engine for an electronic personal assistant
US20120197643A1 (en) * 2011-01-27 2012-08-02 General Motors Llc Mapping obstruent speech energy to lower frequencies
US8924219B1 (en) * 2011-09-30 2014-12-30 Google Inc. Multi hotword robust continuous voice command detection in mobile devices
US20130132079A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Interactive speech recognition
US9223415B1 (en) 2012-01-17 2015-12-29 Amazon Technologies, Inc. Managing resource usage for task performance
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
US8606577B1 (en) * 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
US9367203B1 (en) 2013-10-04 2016-06-14 Amazon Technologies, Inc. User interface techniques for simulating three-dimensional depth
CN103838991A (zh) * 2014-02-20 2014-06-04 联想(北京)有限公司 一种信息处理方法及电子设备
US9443522B2 (en) 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
CN104021786B (zh) * 2014-05-15 2017-05-24 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
US9418679B2 (en) * 2014-08-12 2016-08-16 Honeywell International Inc. Methods and apparatus for interpreting received speech data using speech recognition
US20160111090A1 (en) * 2014-10-16 2016-04-21 General Motors Llc Hybridized automatic speech recognition
US10165362B2 (en) * 2015-12-24 2018-12-25 Intel Corporation Automated equalization
KR102251832B1 (ko) * 2016-06-16 2021-05-13 삼성전자주식회사 번역 서비스를 제공하는 전자 장치 및 방법
US11170768B2 (en) * 2017-04-17 2021-11-09 Samsung Electronics Co., Ltd Device for performing task corresponding to user utterance
JP6984474B2 (ja) * 2018-02-14 2021-12-22 トヨタ自動車株式会社 情報処理装置および情報処理方法
WO2022078172A1 (zh) * 2020-10-16 2022-04-21 海信视像科技股份有限公司 一种显示设备和内容展示方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
US5799273A (en) * 1996-09-24 1998-08-25 Allvoice Computing Plc Automated proofreading using interface linking recognized words to their audio data while text is being changed
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US20020128833A1 (en) * 1998-05-13 2002-09-12 Volker Steinbiss Method of displaying words dependent on areliability value derived from a language model for speech
US20020133340A1 (en) * 2001-03-16 2002-09-19 International Business Machines Corporation Hierarchical transcription and display of input speech

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
US5799273A (en) * 1996-09-24 1998-08-25 Allvoice Computing Plc Automated proofreading using interface linking recognized words to their audio data while text is being changed
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US20020128833A1 (en) * 1998-05-13 2002-09-12 Volker Steinbiss Method of displaying words dependent on areliability value derived from a language model for speech
US20020133340A1 (en) * 2001-03-16 2002-09-19 International Business Machines Corporation Hierarchical transcription and display of input speech

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Speech Works6.0 Communications Solutions TMC Labs 2000 *

Also Published As

Publication number Publication date
US6993482B2 (en) 2006-01-31
AU2003298685A1 (en) 2004-07-29
CN1729511A (zh) 2006-02-01
WO2004061750A3 (en) 2004-12-29
AU2003298685A8 (en) 2004-07-29
EP1573718A2 (en) 2005-09-14
PL377219A1 (pl) 2006-01-23
US20040122666A1 (en) 2004-06-24
EP1573718A4 (en) 2006-03-01
WO2004061750A2 (en) 2004-07-22

Similar Documents

Publication Publication Date Title
CN100345185C (zh) 用于显示语音识别结果的方法和设备
CN110085251B (zh) 人声提取方法、人声提取装置及相关产品
CN108463849A (zh) 确定语言模型的对话状态
CN110428811B (zh) 一种数据处理方法、装置及电子设备
CN105282332B (zh) 语音拨号方法及装置
CN111435592B (zh) 一种语音识别方法、装置及终端设备
EP4131083A2 (en) Method and apparatus for generating federated learning model
CN106155640A (zh) 一种音量显示方法及装置
CN109767763A (zh) 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
WO2021046958A1 (zh) 语音信息处理方法、装置及存储介质
CN115630943A (zh) 智能排班方法及装置
CN108573706A (zh) 一种语音识别方法、装置及设备
CN102053810A (zh) 一种屏保状态下音乐频谱的显示方法和装置
CN106600237B (zh) 一种辅助记忆中医药书籍的方法和装置
CN110852801B (zh) 信息处理方法、装置及设备
CN109948155B (zh) 一种多意图的选择方法及装置、终端设备
CN110263135B (zh) 一种数据交换匹配方法、装置、介质和电子设备
CN110069547B (zh) 在线数据库表格数据统计方法、装置、介质和电子设备
CN111951011B (zh) 监控系统阈值确定方法及装置
CN111477248B (zh) 一种音频噪声检测方法及装置
CN109147819A (zh) 音频信息处理方法、装置及存储介质
CN114357236A (zh) 音乐推荐方法、装置、电子设备及计算机可读存储介质
CN113342981A (zh) 一种基于机器学习的需求文档分类方法及装置
US11188715B2 (en) Methods for displaying a string of text and wearable devices
CN111723234A (zh) 一种音频提供方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110111

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20110111

Address after: Illinois State

Patentee after: Motorola Mobility LLC

Address before: Illinois

Patentee before: Motorola Inc.

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071024

Termination date: 20111118