CN1892819B - 语音识别方法和语音识别设备 - Google Patents

语音识别方法和语音识别设备 Download PDF

Info

Publication number
CN1892819B
CN1892819B CN2006100907781A CN200610090778A CN1892819B CN 1892819 B CN1892819 B CN 1892819B CN 2006100907781 A CN2006100907781 A CN 2006100907781A CN 200610090778 A CN200610090778 A CN 200610090778A CN 1892819 B CN1892819 B CN 1892819B
Authority
CN
China
Prior art keywords
speech recognition
item
recognition grammar
grammar
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006100907781A
Other languages
English (en)
Other versions
CN1892819A (zh
Inventor
中川贤一郎
广田诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1892819A publication Critical patent/CN1892819A/zh
Application granted granted Critical
Publication of CN1892819B publication Critical patent/CN1892819B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Digital Computer Display Output (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种语音识别方法和语音识别设备。在与包括多个可设置的图形用户界面项的图形用户界面一起使用语音识别的交互式处理中,通过减少识别目标词汇来提高识别率。检测未显示在显示屏幕上的可设置的图形用户界面项,使用与该检测到的项相对应的语音识别语法来识别接收到的语音信息,并且使用该识别结果对该项设置数据。

Description

语音识别方法和语音识别设备
技术领域
本发明涉及一种使用语音识别语法识别输入语音的语音识别设备。
背景技术
语音是人类的自然界面,特别地,对于不熟悉操作设备的儿童或老人等用户或视力残障者来说,语音是有效的用户界面(UI)。最近,组合这种语音UI和GUI(Graphical User Interface,图形用户界面)的数据输入方法正受到重视,并且已经在W3C多通道交互活动(Multimodal Interaction Activity)(http://www.w3.org/2002/mmi)或SALT论坛(http://www.saltforum.org/)中展开了讨论。
通常,由语音输入的数据使用传统的语音识别技术。该语音识别为如下处理:将输入语音与在语音识别语法内描述的识别目标词汇进行比较,把最适合的词汇作为识别结果输出。然而,通过该方法,如果语音识别语法的规模或词汇数量增大,则识别性能下降。为了防止出现这个问题,WO02/031643论述了一种通过检测当前为用户显示在GUI上的输入项并使用与该项相对应的语音识别语法进行语音识别的技术。结果,可以限制在语音识别中使用的识别目标词汇的数量,并且可以防止语音识别性能的下降。
在包括语音UI的系统中,常常要求用户在按下特定键(称为即按即说(Push To Talk)键)后开始发声。这种方法的优点在于:可以容易地检测到语音片断,并且即使在嘈杂的环境下也可以减少语音识别性能的下降。存在设有多个即按即说键且每个键均具有特定意义的现有技术。例如,日本特开2003-202890号公报论述了一种根据操作的即按即说键来切换将要使用的语音识别语法集的技术。结果,用户既能够通过按下该键给出语音开始的信息,又能够选择将要使用的语音识别语法集。
如上所述,根据现有技术WO02/031643,可以减少在语音识别中使用的识别词汇。然而,当根据WO02/031643可以将语音输入到GUI的显示区域内的输入目标上时,不考虑输入到未显示的输入目标上的语音。例如,习惯于操作系统的用户可能想将项输入到未显示的输入目标上。然而,在WO02/031643中很难响应这样的要求。
如上所述,日本特开2003-202890号公报是使用多个即按即说键的现有技术。然而,这些键不会根据显示的改变而切换语音识别语法。
发明内容
为了克服上述问题,根据本发明对多项中的每一项设置数据的信息处理方法包括:检测步骤,用于检测未显示在显示屏幕上的项;选择步骤,用于选择与在该检测步骤中检测到的该项相对应的语音识别语法;识别步骤,用于使用在该选择步骤中选择的该语音识别语法来识别接收到的语音信息;以及设置步骤,用于使用该识别步骤的识别结果对该项设置数据,其中,在该选择步骤中选择的该语音识别语法是限于在显示该项的情况下使用的语音识别语法的子集的语音识别语法。
另外,为了克服上述问题,根据本发明对多项中的每一项设置数据的信息处理方法包括:识别步骤,用于在来自指示开始语音识别的指示单元的指示是使未显示在显示屏幕上的项有效的指示的情况下,使用与未显示的项相对应的语音识别语法,来识别接收到的语音信息;以及设置步骤,用于使用该识别步骤的识别结果,对该项设置数据。
而且,为了克服上述问题,根据本发明的信息处理方法包括:检测步骤,用于检测未显示在显示屏幕上的项;识别步骤,用于在将与由该检测步骤检测到的该项的数据相对应的识别词汇作为非识别目标从语音识别语法中排除之后,识别接收到的语音信息,该语音识别语法与各项一一对应并且包括与该项相对应的识别词汇和与将被设置给该项的数据相对应的识别词汇;以及显示控制步骤,用于进行控制,以在该识别步骤的识别结果是与未显示的项相对应的识别词汇的情况下,显示该项。
另外,为了克服上述问题,根据本发明对多项中的每一项设置数据的信息处理设备包括:检测单元,用于检测未显示在显示屏幕上的项;选择单元,用于选择与在该检测单元中检测到的该项相对应的语音识别语法;识别单元,用于使用由该选择单元选择的该语音识别语法,来识别接收到的语音信息;以及设置单元;用于使用该识别单元的识别结果,对该项设置数据,其中,该选择单元所选择的该语音识别语法是限于在显示该项的情况下使用的语音识别语法的子集的语音识别语法。
而且,为了克服上述问题,根据本发明对多项中的每一项设置数据的信息处理设备包括:检测单元,用于检测未显示在显示屏幕上的项;识别单元,用于在来自指示开始语音识别的指示单元的指示是使未显示在显示屏幕上的项有效的指示的情况下,使用与未显示的项相对应的语音识别语法,来识别接收到的语音信息;以及设置单元,用于使用该识别单元的识别结果,对该项设置数据。
另外,为了克服上述问题,根据本发明的信息处理设备包括:检测单元,用于检测未显示在显示屏幕上的项;识别单元,用于在将与由该检测单元检测到的该项的数据相对应的识别词汇作为非识别目标从语音识别语法中排除之后,识别接收到的语音信息,该语音识别语法与各项一一对应并且包括与该项和将被设置给该项的数据相对应的识别词汇;以及显示控制单元,用于进行控制,以在由该识别单元获得的识别结果是与未显示的项相对应的识别词汇的情况下,显示该项。
通过以下结合附图对典型实施例的详细说明,本发明的更多特征将是显而易见的。
附图说明
包含在说明书中并构成说明书的一部分的附图,示出了本发明的典型实施例,并与说明书一起用来解释本发明的原理。
图1是示出根据本发明第一典型实施例的信息处理设备的例子功能结构的图;
图2是根据第一典型实施例的信息处理设备的例子处理流程;
图3是示出根据本发明第二典型实施例的信息处理设备的例子功能结构的图;
图4是根据第二典型实施例的例子信息处理设备的处理流程;
图5是根据本发明的典型实施例的信息处理设备的GUI屏幕的例子;
图6是在典型实施例中使用的语音识别语法的例子;
图7是示出典型实施例中的信息处理设备的GUI组件名称与语音识别语法名称之间的关系的表的例子;
图8是示出GUI屏幕与GUI显示区域之间的关系的图;以及
图9是根据第二典型实施例的信息处理设备的GUI屏幕的例子。
具体实施方式
下面参考附图详细说明本发明的典型实施例。
第一典型实施例
图1示出了根据本发明第一典型实施例的信息处理设备的功能结构。图2是该信息处理设备的处理流程。图5示出了该设备的GUI部分的例子。参考这些附图来说明第一典型实施例。在该典型实施例中,将以其中使用语音UI和GUI进行设置的复印机为例。
现在参考图1,根据本发明第一典型实施例的信息处理设备包括GUI显示单元101、GUI检测单元102、未显示区域语法选择单元103、语音识别语法存储单元104、显示区域语法选择单元105、限制后的未显示区域语法生成单元106和语音识别单元107。
本设备包括显示器或触摸板等GUI显示单元101,通过该GUI显示单元101将GUI呈现给用户。图5中示出了GUI屏幕的例子,其包括语音对话GUI1501和另一语音对话GUI2502。各GUI包括绘制区域503、滚动条504和文本区域505。由于GUI显示装置大小的限制,不能将所有的信息一次显示在设备中。在这种情况下,用户可以通过向上和向下滑动如图5的附图标记501和502中所示的滚动条504来改变显示区域。
当发生如开始语音输入模式的特定事件时,开始本典型实施例的处理,并且处理进入图2中的流程。假定此时GUI屏幕处于附图标记501的状态来说明该流程。
首先,GUI检测单元102获得当前绘制(render)的GUI组件(S201)。之后,将分开使用词“绘制”和“显示”。“绘制”意味着在输出装置的存储器(如VRAM)上布置GUI组件的视图数据。“显示”意味着以用户视觉上可见的形式输出到显示器上。
由GUI检测单元102获得的GUI组件被称为GUI组件A。GUI组件是按钮、文本框、列表框等构成GUI的要素,并且它表示将被设置的项。接着,判断所获得的GUI组件当前是否被显示,并且检测显示的GUI组件和未显示的GUI组件(S202)。通过参考GUI组件的位置、GUI屏幕的大小或滚动条的状态,可以判断组件是否被显示。例如,图8示出了当GUI屏幕处于附图标记501的状态时GUI屏幕与实际显示区域之间的关系,其示出了GUI屏幕801、GUI组件802和显示区域803。当“显示”的GUI组件被定义为完全可见的GUI组件时,此时所显示的GUI组件仅是与“纸张大小(Paper Size)”相对应的文本区域2和与“复印比例(CopyRatio)”相对应的文本区域3。
在判断出GUI组件A被显示之后,显示区域语法选择单元105访问语音识别语法存储单元104,且选择并获得与GUI组件A相对应的语音识别语法。然后将获得的语法称为语法A(步骤S203)。可以使用示出GUI组件名称与语音识别语法名称之间关系的表来选择与GUI组件相对应的语音识别语法。图7是该表的例子。例如,在GUI组件A是文本区域2的情况下,语音识别语法名称是PaperSize.xml。
另一方面,在判断出GUI组件A没有被显示的情况下,未显示区域语法选择单元103访问语音识别语法存储单元104,且选择并获得与GUI组件A相对应的语音识别语法。然后将获得的语法称为语法A’(S204)。在这种情况下也可以使用如图7中所示的示出GUI组件名称与语音识别语法名称之间关系的表。将所选择的语音识别语法A’发送到限制后的未显示区域语法生成单元106。分析语音识别语法A’的内容,并通过限制语音识别语法A’中的词汇,生成语音识别语法A(S205)。换句话说,语法A的词汇比语法A’的词汇要少。可以预先生成词汇被限制的该语音识别语法。
使用图6中所示的语法来解释语法中的词汇的限制。该语音识别语法接受“A4”和“A3”等复印纸张的大小,并利用语音识别语法规范版本1.0(http://www.w3.org/TR/speech-grammar/)的语言规范对其进行描述。该语音识别语法601的根规则名称为“main”规则(602)。因此,当通过一般方法分析语音识别语法时,首先展开(deploy)具有名称“main”的规则(603)。在该主规则中,参考两个规则“slot_name”和“slot_value”(604)。“slot_name”是与将被设置的项的名称(设置类型)相对应的词汇集,“slot_value”是与项的值(将被输入到将被设置的项中的实际数据)相对应的词汇集。在605中描述了这两个规则的实体。
即,通过利用语音识别语法原样进行分析,展开“slot_name”和“slot_value”规则,并且可以识别“Paper Size”等项的名称以及“A4”和“A3”等项的值。然而,通过将待展开的规则限制为“slot_name”,仅接受“Paper Size”和“Size”等项的名称。因此,当实际显示可设置的GUI组件时,词汇被限制在可用词汇的子集内。
在附图标记501的例子中,由于考虑到GUI组件的文本区域1和文本区域4没有被显示,因此从图7中选择“PaperNumber.xml”和“Density.xml”作为未显示区域语法(或语音识别语法A’)。另外,将对这两个语法集展开的规则限制为“slot_name”,使得仅可以接受项的名称。限制后的语法被称为语音识别语法A。
将与GUI组件A相对应的语音识别语法A发送到语音识别单元107,并将其登记在语音识别引擎上(S206)。确认是否已经处理了所有的GUI组件(S207),如果是,则使用所登记的语法进行语音识别(S208)。否则,如果非所有的GUI组件都被处理,则处理返回到步骤S201(S208的“否”)。之后,使用识别结果对GUI组件设置数据(S209)。然后处理结束。
在附图标记501的例子中,将“PaperSize.xml”和“CopyRatio.xml”照原样登记到语音识别引擎上,而限制“PaperNumber.xml”和“Density.xml”使得仅可以对项的名称发声,并对其进行登记。因此,用户可以通过语音输入“纸张大小”和“复印比例”的项的值(如“A4”和“400%”)、项的名称(如“纸张大小”和“复印比例”)、以及“纸张数量(Paper number)”和“浓度(Deusity)”的项的名称(如“纸张数量”和“浓度”)。即使说出“纸张数量”和“浓度”的项的值也不会识别它。
以上说明了根据第一典型实施例的设备的操作。通过使用该设备,可以实现下面的应用。在作为语音识别的结果输出项的值的情况下,该结果被输入到相对应的文本区域。因此,这提供了用于设置数据的设置单元。例如,在附图标记501的状态下输出识别结果“A4”的情况下,字符串“A4”被输入到纸张大小的文本区域。在作为识别结果输出“浓度”等项的名称的情况下,进行控制以显示与项的名称相对应的区域。确切地说,屏幕被滚动到对应于项的名称的区域。例如,如附图标记502所示滚动屏幕。通常,用户不说出未显示在GUI上的项的值。由于这个原因,假定即使从识别词汇中除去未显示项的项的值,可用性也不会下降。相反,由于识别词汇的减少可以提高识别性能。
第二典型实施例
可以进一步将多个语音识别触发器与第一典型实施例进行组合。利用语音输入的交互式设备常常要求用户在开始发声时按下特定键。这样就提高了作为语音识别预处理部分的语音片断检测处理的精度。以下该键被称为即按即说键。通过提供多个这种即按即说键并使用户相应地按下它们,可以提高设备的可用性。将参考图3和图4说明本实施例。用相同的附图标记表示图3中与图1中相同的部分。
现在参考图3,根据本发明第二典型实施例的信息处理设备包括GUI显示单元101、GUI检测单元102、未显示区域语法选择单元103、语音识别语法存储单元104、显示区域语法选择单元105、语音识别单元107和语音识别触发器加载单元。
当发生如开始语音输入模式的特定事件时,开始本发明的处理,并且处理进入图4中的流程。假定此时GUI屏幕处于附图标记501的状态来说明该流程。由于步骤S401至S403中的处理与步骤S201至S203中的处理相同,因此省略其说明。
在未显示区域语法选择单元选择了未显示区域语法之后(S404),语法变为与GUI组件A相对应的语法A。通过语音识别单元107将语法A登记到语音识别引擎上(S405)。接着判断是否处理了所有的GUI组件(S406)。如果确认已经处理了所有的GUI组件(S406的“是”),则加载语音识别触发器(S407)。否则,如果非所有的GUI组件都被处理(S406的“否”),则处理返回到步骤S401。接着,使用与每一类型的触发器相对应的语法进行语音识别(S408),并使用识别结果对GUI组件设置数据(S409)。然后处理结束。
从语音识别触发器加载单元301加载语音识别触发器(S407)。语音识别触发器是用于给出开始语音识别指示的指示单元,之前将其说明为即按即说键。假设提供两个表示为“显示”和“未显示”的即按即说键作为启动语音识别触发器的装置。图9示出了显示GUI 902的显示器901。图9还示出了这些键的例子,附图标记903和904分别表示“显示”键和“未显示”键。在用户按下“显示”键之后发声的情况下,仅使用登记在语音识别引擎中的语音识别语法中的显示区域语法进行语音识别(S408)。在用户按下“未显示”键之后发声的情况下,仅使用未显示区域语法进行语音识别。
如上所述,用户可以通过按键输入指定语音涉及显示区域还是未显示区域。分开按键有助于减少语音识别处理中的识别词汇,并提高识别率。另外,通过将按键分为“显示”和“未显示”,用户可以直观地做出判断。
第三典型实施例
在第二典型实施例中,使用两个表示为“显示”和“未显示”的即按即说键。这仅仅是一个例子,可以使用其它键或事件作为用于开始语音识别的触发器。例如,可以不用按下任何键而把语音的检测作为开始语音识别的触发器。通过这样做,在按下按键的情况下,使用未显示区域语法进行语音识别,在不按下按键而检测到语音的情况下,使用显示区域语法进行语音识别。
如上所述,对当前显示的区域用户能够发声而不用按下即按即说键。相反,也可以在按下按键的情况下使用显示区域语法进行语音识别,在没有按下按键而检测到语音的情况下使用未显示区域语法进行语音识别。
第四典型实施例
在第一典型实施例中,在语音识别中使用与显示的GUI组件相对应的语音识别语法(显示区域语法)和与未显示的GUI组件相对应的且被施加限制的语音识别语法(限制后的未显示区域语法)。可将其与第二典型实施例中使用的用于开始语音识别的多个触发器进行组合。
例如,在使用两个表示为“显示”和“未显示”的即按即说键,且用户在按下“显示”键之后发声的情况下,仅使用登记在语音识别引擎中的语音识别语法中的显示区域语法进行语音识别。在用户按下“未显示”键之后发声的情况下,仅使用限制后的未显示区域语法进行语音识别。
如上所述,由于可以限制与未显示在屏幕上的GUI组件相对应的语音识别词汇,因此预期能够提高语音识别性能。另外,由于也可以通过选择即按即说键限制语音识别语法,因此预期能够进一步减少语音识别词汇。
第五典型实施例
也可以通过向系统或设备提供存储有实现上述典型实施例的功能的软件程序代码的存储介质,使得该系统或设备的计算机(或CPU或MPU)可以读取并执行存储在该存储介质中的程序代码,从而实现本发明的目的。
在这种情况下,从存储介质中读出的程序代码本身实现上述典型实施例的功能,存储程序代码的存储介质可以构成本发明。
用于提供程序代码的存储介质的例子是软盘、硬盘、光盘、磁-光盘、CD-ROM、CD-R、磁带、非易失性存储卡和ROM。
而且,除了通过执行由计算机读出的程序代码实现上述典型实施例的功能以外,本发明还包括如下情况:运行在计算机上的操作系统(OS)根据该程序代码的指示执行部分或全部的实际处理的,且该处理实现上述典型实施例的功能。
而且,本发明还包括如下情况:在从存储介质中读出程序代码并将其加载到插入计算机的功能扩展单元板或连接到计算机的功能扩展单元中的存储器之后,该功能扩展板或功能扩展单元中的CPU根据该程序代码的指示,执行部分或全部的处理,且该处理实现上述典型实施例的功能。
尽管参考典型实施例说明了本发明,但可以理解本发明不局限于所公开的典型实施例。本发明的范围符合最广义的解释,以包含所有这些修改、等同结构和功能。
本申请要求在2005年6月30日申请的日本专利申请2005-191538号的优先权,这里通过引用将其全部包括在此。

Claims (7)

1.一种信息处理方法,其对多个可设置的图形用户界面项中的每一个设置数据,该信息处理方法包括:
检测步骤,用于检测未显示在显示屏幕上的可设置的图形用户界面项;
选择步骤,用于选择与在该检测步骤中检测到的该项相对应的语音识别语法;
识别步骤,用于使用在该选择步骤中选择的该语音识别语法,来识别接收到的语音信息;以及
设置步骤,用于使用该识别步骤的识别结果,对该检测到的项设置数据,
其中,在该选择步骤中选择的该语音识别语法是限于在显示该项的情况下使用的语音识别语法的子集的语音识别语法。
2.根据权利要求1所述的信息处理方法,其特征在于,该设置步骤通过将该识别步骤的识别结果输入到与该检测到的项相对应的输入字段,对该检测到的项设置数据。
3.根据权利要求1所述的信息处理方法,其特征在于,该设置步骤使用该识别步骤的识别结果,通过从与该检测到的项相对应的待选择的对象中进行选择,对该检测到的项设置数据。
4.根据权利要求1所述的信息处理方法,其特征在于,该选择步骤选择与显示在显示屏幕上的可设置的图形用户界面项相对应的语音识别语法,并且该识别步骤使用与未显示的可设置的图形用户界面项相对应的限制后的语音识别语法和与显示的可设置的图形用户界面项相对应的语音识别语法,来识别接收到的语音信息。
5.根据权利要求1所述的信息处理方法,其特征在于,该语音识别语法包括与该检测到的可设置的图形用户界面项相对应的识别词汇和与将被设置给该检测到的项的数据相对应的识别词汇,该限制后的语音识别语法是已经从识别目标中排除了与将被设置给该可设置的图形用户界面项的数据相对应的识别语法的语音识别语法。
6.根据权利要求1所述的信息处理方法,其特征在于,该限制后的语音识别语法是已经删除了特定词汇集的语音识别语法。
7.一种信息处理设备,其对多个可设置的图形用户界面项中的每一个设置数据,该信息处理设备包括:
检测单元,用于检测未显示在显示屏幕上的可设置的图形用户界面项;
选择单元,用于选择与由该检测单元检测到的该项相对应的语音识别语法;
识别单元,用于使用由该选择单元选择的该语音识别语法,来识别接收到的语音信息;以及
设置单元,用于使用该识别单元的识别结果,对该检测到的项设置数据,
其中,该选择单元所选择的该语音识别语法是限于在显示该项的情况下使用的语音识别语法的子集的语音识别语法。
CN2006100907781A 2005-06-30 2006-06-30 语音识别方法和语音识别设备 Expired - Fee Related CN1892819B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005191538A JP4667138B2 (ja) 2005-06-30 2005-06-30 音声認識方法及び音声認識装置
JP2005191538 2005-06-30
JP2005-191538 2005-06-30

Publications (2)

Publication Number Publication Date
CN1892819A CN1892819A (zh) 2007-01-10
CN1892819B true CN1892819B (zh) 2010-04-21

Family

ID=37067634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100907781A Expired - Fee Related CN1892819B (zh) 2005-06-30 2006-06-30 语音识别方法和语音识别设备

Country Status (7)

Country Link
US (1) US7668719B2 (zh)
EP (1) EP1739656B1 (zh)
JP (1) JP4667138B2 (zh)
KR (1) KR100815731B1 (zh)
CN (1) CN1892819B (zh)
AT (1) ATE433180T1 (zh)
DE (1) DE602006007062D1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4878471B2 (ja) * 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
WO2008136081A1 (ja) * 2007-04-20 2008-11-13 Mitsubishi Electric Corporation ユーザインタフェース装置及びユーザインタフェース設計装置
WO2009102885A1 (en) * 2008-02-12 2009-08-20 Phone Through, Inc. Systems and methods for enabling interactivity among a plurality of devices
US9519353B2 (en) * 2009-03-30 2016-12-13 Symbol Technologies, Llc Combined speech and touch input for observation symbol mappings
KR101597289B1 (ko) * 2009-07-31 2016-03-08 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
DE102009059792A1 (de) * 2009-12-21 2011-06-22 Continental Automotive GmbH, 30165 Verfahren und Vorrichtung zur Bedienung technischer Einrichtungen, insbesondere eines Kraftfahrzeugs
KR101207435B1 (ko) 2012-07-09 2012-12-04 다이알로이드(주) 대화형 음성인식 서버, 대화형 음성인식 클라이언트 및 대화형 음성인식 방법
CN103204100B (zh) * 2013-04-08 2015-08-05 浙江海联电子股份有限公司 一种出租车顶灯语音控制系统
US9430186B2 (en) * 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN106098066B (zh) * 2016-06-02 2020-01-17 深圳市智物联网络有限公司 语音识别方法及装置
US10515625B1 (en) 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
CN110569017A (zh) * 2019-09-12 2019-12-13 四川长虹电器股份有限公司 基于语音的文本输入方法
US11967306B2 (en) 2021-04-14 2024-04-23 Honeywell International Inc. Contextual speech recognition methods and systems

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
US6182046B1 (en) * 1998-03-26 2001-01-30 International Business Machines Corp. Managing voice commands in speech applications
CN1325528A (zh) * 1998-09-09 2001-12-05 单一声音技术公司 采用语音识别和自然语言处理的网络交互式用户界面
US20020062213A1 (en) * 2000-10-11 2002-05-23 Tetsuo Kosaka Information processing apparatus, information processing method, and storage medium
US20040093217A1 (en) * 2001-02-02 2004-05-13 International Business Machines Corporation Method and system for automatically creating voice XML file

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
US5890122A (en) 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
JPH10222337A (ja) * 1997-02-13 1998-08-21 Meidensha Corp コンピュータシステム
US5897618A (en) * 1997-03-10 1999-04-27 International Business Machines Corporation Data processing system and method for switching between programs having a same title using a voice command
IL140805A0 (en) 1998-10-02 2002-02-10 Ibm Structure skeletons for efficient voice navigation through generic hierarchical objects
US8275617B1 (en) * 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
JP2000268046A (ja) 1999-03-17 2000-09-29 Sharp Corp 情報処理装置
JP2001042890A (ja) * 1999-07-30 2001-02-16 Toshiba Tec Corp 音声認識装置
JP2002062213A (ja) * 2000-08-22 2002-02-28 Airec Engineering Corp 光ファイバ湿潤度センサ及びこのセンサを用いた湿潤度計測装置
JP4056711B2 (ja) * 2001-03-19 2008-03-05 日産自動車株式会社 音声認識装置
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
JP2003202890A (ja) 2001-12-28 2003-07-18 Canon Inc 音声認識装置及びその方法、プログラム
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置
KR100567828B1 (ko) 2003-08-06 2006-04-05 삼성전자주식회사 향상된 음성인식 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
US6182046B1 (en) * 1998-03-26 2001-01-30 International Business Machines Corp. Managing voice commands in speech applications
CN1325528A (zh) * 1998-09-09 2001-12-05 单一声音技术公司 采用语音识别和自然语言处理的网络交互式用户界面
CN1325527A (zh) * 1998-09-09 2001-12-05 单一声音技术公司 采用语音识别和自然语言处理的交互式用户界面
US20020062213A1 (en) * 2000-10-11 2002-05-23 Tetsuo Kosaka Information processing apparatus, information processing method, and storage medium
US20040093217A1 (en) * 2001-02-02 2004-05-13 International Business Machines Corporation Method and system for automatically creating voice XML file

Also Published As

Publication number Publication date
JP4667138B2 (ja) 2011-04-06
US20070005371A1 (en) 2007-01-04
CN1892819A (zh) 2007-01-10
US7668719B2 (en) 2010-02-23
DE602006007062D1 (de) 2009-07-16
KR20070003640A (ko) 2007-01-05
KR100815731B1 (ko) 2008-03-20
ATE433180T1 (de) 2009-06-15
EP1739656A3 (en) 2007-02-28
JP2007010971A (ja) 2007-01-18
EP1739656A2 (en) 2007-01-03
EP1739656B1 (en) 2009-06-03

Similar Documents

Publication Publication Date Title
CN1892819B (zh) 语音识别方法和语音识别设备
CN103959206B (zh) 用于动态适应虚拟键盘的方法和装置
JP4416643B2 (ja) マルチモーダル入力方法
US6864809B2 (en) Korean language predictive mechanism for text entry by a user
JP4463795B2 (ja) 減少型キーボード曖昧さ除去システム
US8307407B2 (en) Selectable captchas
US7584429B2 (en) Method and device for operating a user-input area on an electronic display device
US6091415A (en) System and method for displaying multiple dialog boxes in a window display
JP2007133884A5 (zh)
CN100440109C (zh) 字符串显示系统及字符串显示方法
CN105718072B (zh) 一种字符输出方法及移动终端
CN103809766A (zh) 将文字转换成表情符号的方法和电子装置
EP3029567B1 (en) Method and device for updating input method system, computer storage medium, and device
CN112562684A (zh) 一种语音识别方法、装置和电子设备
CN101813981A (zh) 中文输入装置
Massung et al. Non-native text analysis: A survey
CN102981693B (zh) 一种多语言手写输入方法和装置
CN107797676B (zh) 一种单字输入方法及装置
CN112861510A (zh) 纪要处理方法、装置、设备和存储介质
CN102685347B (zh) 图像处理装置和图像处理方法
CN109584905B (zh) 一种衡量音乐速度的方法、终端及计算机可读介质
CN100517186C (zh) 基于按键和语音识别的文字输入方法及装置
CN112445901A (zh) 一种设置智能设备的语言的方法和装置
CN115113967A (zh) 问题反馈方法和装置、电子设备及存储介质
CN109255131B (zh) 翻译方法、装置、终端及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100421

Termination date: 20160630