CN1892819A

CN1892819A - 语音识别方法和语音识别设备

Info

Publication number: CN1892819A
Application number: CNA2006100907781A
Authority: CN
Inventors: 中川贤一郎; 广田诚
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-06-30
Filing date: 2006-06-30
Publication date: 2007-01-10
Anticipated expiration: 2026-06-30
Also published as: JP4667138B2; US20070005371A1; US7668719B2; DE602006007062D1; CN1892819B; KR20070003640A; KR100815731B1; ATE433180T1; EP1739656A3; JP2007010971A; EP1739656A2; EP1739656B1

Abstract

一种语音识别方法和语音识别设备。在与包括多个可设置的图形用户界面项的图形用户界面一起使用语音识别的交互式处理中，通过减少识别目标词汇来提高识别率。检测未显示在显示屏幕上的可设置的图形用户界面项，使用与该检测到的项相对应的语音识别语法来识别接收到的语音信息，并且使用该识别结果对该项设置数据。

Description

语音识别方法和语音识别设备

技术领域

本发明涉及一种使用语音识别语法识别输入语音的语音识别设备。

背景技术

语音是人类的自然界面，特别地，对于不熟悉操作设备的儿童或老人等用户或视力残障者来说，语音是有效的用户界面(UI)。最近，组合这种语音UI和GUI(Graphical User Interface，图形用户界面)的数据输入方法正受到重视，并且已经在W3C多通道交互活动(Multimodal Interaction Activity)(http：//www.w3.org/2002/mmi)或SALT论坛(http：//www.saltforum.org/)中展开了讨论。

通常，由语音输入的数据使用传统的语音识别技术。该语音识别为如下处理：将输入语音与在语音识别语法内描述的识别目标词汇进行比较，把最适合的词汇作为识别结果输出。然而，通过该方法，如果语音识别语法的规模或词汇数量增大，则识别性能下降。为了防止出现这个问题，WO 02/031643论述了一种通过检测当前为用户显示在GUI上的输入项并使用与该项相对应的语音识别语法进行语音识别的技术。结果，可以限制在语音识别中使用的识别目标词汇的数量，并且可以防止语音识别性能的下降。

在包括语音UI的系统中，常常要求用户在按下特定键(称为即按即说(Push To Talk)键)后开始发声。这种方法的优点在于：可以容易地检测到语音片断，并且即使在嘈杂的环境下也可以减少语音识别性能的下降。存在设有多个即按即说键且每个键均具有特定意义的现有技术。例如，日本特开2003-202890号公报论述了一种根据操作的即按即说键来切换将要使用的语音识别语法集的技术。结果，用户既能够通过按下该键给出语音开始的信息，又能够选择将要使用的语音识别语法集。

如上所述，根据现有技术WO 02/031643，可以减少在语音识别中使用的识别词汇。然而，当根据WO 02/031643可以将语音输入到GUI的显示区域内的输入目标上时，不考虑输入到未显示的输入目标上的语音。例如，习惯于操作系统的用户可能想将项输入到未显示的输入目标上。然而，在WO 02/031643中很难响应这样的要求。

如上所述，日本特开2003-202890号公报是使用多个即按即说键的现有技术。然而，这些键不会根据显示的改变而切换语音识别语法。

发明内容

为了克服上述问题，根据本发明对多项中的每一项设置数据的信息处理方法包括：检测步骤，用于检测未显示在显示屏幕上的项；选择步骤，用于选择与在该检测步骤中检测到的该项相对应的语音识别语法；识别步骤，用于使用在该选择步骤中选择的该语音识别语法来识别接收到的语音信息；以及设置步骤，用于使用该识别步骤的识别结果对该项设置数据。

另外，为了克服上述问题，根据本发明对多项中的每一项设置数据的信息处理方法包括：识别步骤，用于在来自指示开始语音识别的指示单元的指示是使未显示在显示屏幕上的项有效的指示的情况下，使用与未显示的项相对应的语音识别语法，来识别接收到的语音信息；以及设置步骤，用于使用该识别步骤的识别结果，对该项设置数据。

而且，为了克服上述问题，根据本发明的信息处理方法包括：检测步骤，用于检测未显示在显示屏幕上的项；识别步骤，用于在将与由该检测步骤检测到的该项的数据相对应的识别词汇作为非识别目标从语音识别语法中排除之后，识别接收到的语音信息，该语音识别语法与各项一一对应并且包括与该项相对应的识别词汇和与将被设置给该项的数据相对应的识别词汇；以及显示控制步骤，用于进行控制，以在该识别步骤的识别结果是与未显示的项相对应的识别词汇的情况下，显示该项。

另外，为了克服上述问题，根据本发明对多项中的每一项设置数据的信息处理设备包括：检测单元，用于检测未显示在显示屏幕上的项；选择单元，用于选择与在该检测单元中检测到的该项相对应的语音识别语法；识别单元，用于使用由该选择单元选择的该语音识别语法，来识别接收到的语音信息；以及设置单元；用于使用该识别单元的识别结果，对该项设置数据。

而且，为了克服上述问题，根据本发明对多项中的每一项设置数据的信息处理设备包括：检测单元，用于检测未显示在显示屏幕上的项；识别单元，用于在来自指示开始语音识别的指示单元的指示是使未显示在显示屏幕上的项有效的指示的情况下，使用与未显示的项相对应的语音识别语法，来识别接收到的语音信息；以及设置单元，用于使用该识别单元的识别结果，对该项设置数据。

另外，为了克服上述问题，根据本发明的信息处理设备包括：检测单元，用于检测未显示在显示屏幕上的项；识别单元，用于在将与由该检测单元检测到的该项的数据相对应的识别词汇作为非识别目标从语音识别语法中排除之后，识别接收到的语音信息，该语音识别语法与各项一一对应并且包括与该项和将被设置给该项的数据相对应的识别词汇；以及显示控制单元，用于进行控制，以在由该识别单元获得的识别结果是与未显示的项相对应的识别词汇的情况下，显示该项。

通过以下结合附图对典型实施例的详细说明，本发明的更多特征将是显而易见的。

附图说明

包含在说明书中并构成说明书的一部分的附图，示出了本发明的典型实施例，并与说明书一起用来解释本发明的原理。

图1是示出根据本发明第一典型实施例的信息处理设备的例子功能结构的图；

图2是根据第一典型实施例的信息处理设备的例子处理流程；

图3是示出根据本发明第二典型实施例的信息处理设备的例子功能结构的图；

图4是根据第二典型实施例的例子信息处理设备的处理流程；

图5是根据本发明的典型实施例的信息处理设备的GUI屏幕的例子；

图6是在典型实施例中使用的语音识别语法的例子；

图7是示出典型实施例中的信息处理设备的GUI组件名称与语音识别语法名称之间的关系的表的例子；

图8是示出GUI屏幕与GUI显示区域之间的关系的图；以及

图9是根据第二典型实施例的信息处理设备的GUI屏幕的例子。

具体实施方式

下面参考附图详细说明本发明的典型实施例。

第一典型实施例

图1示出了根据本发明第一典型实施例的信息处理设备的功能结构。图2是该信息处理设备的处理流程。图5示出了该设备的GUI部分的例子。参考这些附图来说明第一典型实施例。在该典型实施例中，将以其中使用语音UI和GUI进行设置的复印机为例。

现在参考图1，根据本发明第一典型实施例的信息处理设备包括GUI显示单元101、GUI检测单元102、未显示区域语法选择单元103、语音识别语法存储单元104、显示区域语法选择单元105、限制后的未显示区域语法生成单元106和语音识别单元107。

本设备包括显示器或触摸板等GUI显示单元101，通过该GUI显示单元101将GUI呈现给用户。图5中示出了GUI屏幕的例子，其包括语音对话GUI1 501和另一语音对话GUI2 502。各GUI包括绘制区域503、滚动条504和文本区域505。由于GUI显示装置大小的限制，不能将所有的信息一次显示在设备中。在这种情况下，用户可以通过向上和向下滑动如图5的附图标记501和502中所示的滚动条504来改变显示区域。

当发生如开始语音输入模式的特定事件时，开始本典型实施例的处理，并且处理进入图2中的流程。假定此时GUI屏幕处于附图标记501的状态来说明该流程。

首先，GUI检测单元102获得当前绘制(render)的GUI组件(S201)。之后，将分开使用词“绘制”和“显示”。“绘制”意味着在输出装置的存储器(如VRAM)上布置GUI组件的视图数据。“显示”意味着以用户视觉上可见的形式输出到显示器上。

由GUI检测单元102获得的GUI组件被称为GUI组件A。GUI组件是按钮、文本框、列表框等构成GUI的要素，并且它表示将被设置的项。接着，判断所获得的GUI组件当前是否被显示，并且检测显示的GUI组件和未显示的GUI组件(S202)。通过参考GUI组件的位置、GUI屏幕的大小或滚动条的状态，可以判断组件是否被显示。例如，图8示出了当GUI屏幕处于附图标记501的状态时GUI屏幕与实际显示区域之间的关系，其示出了GUI屏幕801、GUI组件802和显示区域803。当“显示”的GUI组件被定义为完全可见的GUI组件时，此时所显示的GUI组件仅是与“纸张大小(Paper Size)”相对应的文本区域2和与“复印比例(CopyRatio)”相对应的文本区域3。

在判断出GUI组件A被显示之后，显示区域语法选择单元105访问语音识别语法存储单元104，且选择并获得与GUI组件A相对应的语音识别语法。然后将获得的语法称为语法A(步骤S203)。可以使用示出GUI组件名称与语音识别语法名称之间关系的表来选择与GUI组件相对应的语音识别语法。图7是该表的例子。例如，在GUI组件A是文本区域2的情况下，语音识别语法名称是PaperSize.xml。

另一方面，在判断出GUI组件A没有被显示的情况下，未显示区域语法选择单元103访问语音识别语法存储单元104，且选择并获得与GUI组件A相对应的语音识别语法。然后将获得的语法称为语法A’(S204)。在这种情况下也可以使用如图7中所示的示出GUI组件名称与语音识别语法名称之间关系的表。将所选择的语音识别语法A’发送到限制后的未显示区域语法生成单元106。分析语音识别语法A’的内容，并通过限制语音识别语法A’中的词汇，生成语音识别语法A(S205)。换句话说，语法A的词汇比语法A’的词汇要少。可以预先生成词汇被限制的该语音识别语法。

使用图6中所示的语法来解释语法中的词汇的限制。该语音识别语法接受“A4”和“A3”等复印纸张的大小，并利用语音识别语法规范版本1.0(http：//www.w3.org/TR/speech-grammar/)的语言规范对其进行描述。该语音识别语法601的根规则名称为“main”规则(602)。因此，当通过一般方法分析语音识别语法时，首先展开(deploy)具有名称“main”的规则(603)。在该主规则中，参考两个规则“slot_name”和“slot_value”(604)。“slot_name”是与将被设置的项的名称(设置类型)相对应的词汇集，“slot_value”是与项的值(将被输入到将被设置的项中的实际数据)相对应的词汇集。在605中描述了这两个规则的实体。

即，通过利用语音识别语法原样进行分析，展开“slot_name”和“slot_value”规则，并且可以识别“Paper Size”等项的名称以及“A4”和“A3”等项的值。然而，通过将待展开的规则限制为“slot_name”，仅接受“Paper Size”和“Size”等项的名称。因此，当实际显示可设置的GUI组件时，词汇被限制在可用词汇的子集内。

在附图标记501的例子中，由于考虑到GUI组件的文本区域1和文本区域4没有被显示，因此从图7中选择“PaperNumber.xml”和“Density.xml”作为未显示区域语法(或语音识别语法A’)。另外，将对这两个语法集展开的规则限制为“slot_name”，使得仅可以接受项的名称。限制后的语法被称为语音识别语法A。

将与GUI组件A相对应的语音识别语法A发送到语音识别单元107，并将其登记在语音识别引擎上(S206)。确认是否已经处理了所有的GUI组件(S207)，如果是，则使用所登记的语法进行语音识别(S208)。否则，如果非所有的GUI组件都被处理，则处理返回到步骤S201(S208的“否”)。之后，使用识别结果对GUI组件设置数据(S209)。然后处理结束。

在附图标记501的例子中，将“PaperSize.xml”和“CopyRatio.xml”照原样登记到语音识别引擎上，而限制“PaperNumber.xml”和“Density.xml”使得仅可以对项的名称发声，并对其进行登记。因此，用户可以通过语音输入“纸张大小”和“复印比例”的项的值(如“A4”和“400％”)、项的名称(如“纸张大小”和“复印比例”)、以及“纸张数量(Paper number)”和“浓度(Density)”的项的名称(如“纸张数量”和“浓度”)。即使说出“纸张数量”和“浓度”的项的值也不会识别它。

以上说明了根据第一典型实施例的设备的操作。通过使用该设备，可以实现下面的应用。在作为语音识别的结果输出项的值的情况下，该结果被输入到相对应的文本区域。因此，这提供了用于设置数据的设置单元。例如，在附图标记501的状态下输出识别结果“A4”的情况下，字符串“A4”被输入到纸张大小的文本区域。在作为识别结果输出“浓度”等项的名称的情况下，进行控制以显示与项的名称相对应的区域。确切地说，屏幕被滚动到对应于项的名称的区域。例如，如附图标记502所示滚动屏幕。通常，用户不说出未显示在GUI上的项的值。由于这个原因，假定即使从识别词汇中除去未显示项的项的值，可用性也不会下降。相反，由于识别词汇的减少可以提高识别性能。

第二典型实施例

可以进一步将多个语音识别触发器与第一典型实施例进行组合。利用语音输入的交互式设备常常要求用户在开始发声时按下特定键。这样就提高了作为语音识别预处理部分的语音片断检测处理的精度。以下该键被称为即按即说键。通过提供多个这种即按即说键并使用户相应地按下它们，可以提高设备的可用性。将参考图3和图4说明本实施例。用相同的附图标记表示图3中与图1中相同的部分。

现在参考图3，根据本发明第二典型实施例的信息处理设备包括GUI显示单元101、GUI检测单元102、未显示区域语法选择单元103、语音识别语法存储单元104、显示区域语法选择单元105、语音识别单元107和语音识别触发器加载单元。

当发生如开始语音输入模式的特定事件时，开始本发明的处理，并且处理进入图4中的流程。假定此时GUI屏幕处于附图标记501的状态来说明该流程。由于步骤S401至S403中的处理与步骤S201至S203中的处理相同，因此省略其说明。

在未显示区域语法选择单元选择了未显示区域语法之后(S404)，语法变为与GUI组件A相对应的语法A。通过语音识别单元107将语法A登记到语音识别引擎上(S405)。接着判断是否处理了所有的GUI组件(S406)。如果确认已经处理了所有的GUI组件(S406的“是”)，则加载语音识别触发器(S407)。否则，如果非所有的GUI组件都被处理(S406的“否”)，则处理返回到步骤S401。接着，使用与每一类型的触发器相对应的语法进行语音识别(S408)，并使用识别结果对GUI组件设置数据(S409)。然后处理结束。

从语音识别触发器加载单元301加载语音识别触发器(S407)。语音识别触发器是用于给出开始语音识别指示的指示单元，之前将其说明为即按即说键。假设提供两个表示为“显示”和“未显示”的即按即说键作为启动语音识别触发器的装置。图9示出了显示GUI 902的显示器901。图9还示出了这些键的例子，附图标记903和904分别表示“显示”键和“未显示”键。在用户按下“显示”键之后发声的情况下，仅使用登记在语音识别引擎中的语音识别语法中的显示区域语法进行语音识别(S408)。在用户按下“未显示”键之后发声的情况下，仅使用未显示区域语法进行语音识别。

如上所述，用户可以通过按键输入指定语音涉及显示区域还是未显示区域。分开按键有助于减少语音识别处理中的识别词汇，并提高识别率。另外，通过将按键分为“显示”和“未显示”，用户可以直观地做出判断。

第三典型实施例

在第二典型实施例中，使用两个表示为“显示”和“未显示”的即按即说键。这仅仅是一个例子，可以使用其它键或事件作为用于开始语音识别的触发器。例如，可以不用按下任何键而把语音的检测作为开始语音识别的触发器。通过这样做，在按下按键的情况下，使用未显示区域语法进行语音识别，在不按下按键而检测到语音的情况下，使用显示区域语法进行语音识别。

如上所述，对当前显示的区域用户能够发声而不用按下即按即说键。相反，也可以在按下按键的情况下使用显示区域语法进行语音识别，在没有按下按键而检测到语音的情况下使用未显示区域语法进行语音识别。

第四典型实施例

在第一典型实施例中，在语音识别中使用与显示的GUI组件相对应的语音识别语法(显示区域语法)和与未显示的GUI组件相对应的且被施加限制的语音识别语法(限制后的未显示区域语法)。可将其与第二典型实施例中使用的用于开始语音识别的多个触发器进行组合。

例如，在使用两个表示为“显示”和“未显示”的即按即说键，且用户在按下“显示”键之后发声的情况下，仅使用登记在语音识别引擎中的语音识别语法中的显示区域语法进行语音识别。在用户按下“未显示”键之后发声的情况下，仅使用限制后的未显示区域语法进行语音识别。

如上所述，由于可以限制与未显示在屏幕上的GUI组件相对应的语音识别词汇，因此预期能够提高语音识别性能。另外，由于也可以通过选择即按即说键限制语音识别语法，因此预期能够进一步减少语音识别词汇。

第五典型实施例

也可以通过向系统或设备提供存储有实现上述典型实施例的功能的软件程序代码的存储介质，使得该系统或设备的计算机(或CPU或MPU)可以读取并执行存储在该存储介质中的程序代码，从而实现本发明的目的。

在这种情况下，从存储介质中读出的程序代码本身实现上述典型实施例的功能，存储程序代码的存储介质可以构成本发明。

用于提供程序代码的存储介质的例子是软盘、硬盘、光盘、磁-光盘、CD-ROM、CD-R、磁带、非易失性存储卡和ROM。

而且，除了通过执行由计算机读出的程序代码实现上述典型实施例的功能以外，本发明还包括如下情况：运行在计算机上的操作系统(OS)根据该程序代码的指示执行部分或全部的实际处理的，且该处理实现上述典型实施例的功能。

而且，本发明还包括如下情况：在从存储介质中读出程序代码并将其加载到插入计算机的功能扩展单元板或连接到计算机的功能扩展单元中的存储器之后，该功能扩展板或功能扩展单元中的CPU根据该程序代码的指示，执行部分或全部的处理，且该处理实现上述典型实施例的功能。

尽管参考典型实施例说明了本发明，但可以理解本发明不局限于所公开的典型实施例。以下权利要求的范围符合最广义的解释，以包含所有这些修改、等同结构和功能。

本申请要求在2005年6月30日申请的日本专利申请2005-191538号的优先权，这里通过引用将其全部包括在此。

Claims

1.一种信息处理方法，其对多个可设置的图形用户界面项中的每一个设置数据，该信息处理方法包括：

检测步骤，用于检测未显示在显示屏幕上的可设置的图形用户界面项；

选择步骤，用于选择与在该检测步骤中检测到的该项相对应的语音识别语法；

识别步骤，用于使用在该选择步骤中选择的该语音识别语法，来识别接收到的语音信息；以及

设置步骤，用于使用该识别步骤的识别结果，对该检测到的项设置数据。

2.根据权利要求1所述的信息处理方法，其特征在于，在该选择步骤中选择的该语音识别语法是限于在显示该项的情况下使用的语音识别语法的子集的语音识别语法。

3.根据权利要求1所述的信息处理方法，其特征在于，该设置步骤通过将该识别步骤的识别结果输入到与该检测到的项相对应的输入字段，对该检测到的项设置数据。

4.根据权利要求1所述的信息处理方法，其特征在于，该设置步骤使用该识别步骤的识别结果，通过从与该检测到的项相对应的待选择的对象中进行选择，对该检测到的项设置数据。

5.根据权利要求2所述的信息处理方法，其特征在于，该选择步骤选择与显示在显示屏幕上的可设置的图形用户界面项相对应的语音识别语法，并且该识别步骤使用与未显示的可设置的图形用户界面项相对应的限制后的语音识别语法和与显示的可设置的图形用户界面项相对应的语音识别语法，来识别接收到的语音信息。

6.根据权利要求2所述的信息处理方法，其特征在于，该语音识别语法包括与该检测到的可设置的图形用户界面项相对应的识别词汇和与将被设置给该检测到的项的数据相对应的识别词汇，该限制后的语音识别语法是已经从识别目标中排除了与将被设置给该可设置的图形用户界面项的数据相对应的识别语法的语音识别语法。

7.根据权利要求2所述的信息处理方法，其特征在于，该限制后的语音识别语法是已经删除了特定词汇集的语音识别语法。

8.一种信息处理方法，其对多个可设置的图形用户界面项中的每一个设置数据，该信息处理方法包括：

识别步骤，用于在来自指示开始语音识别的指示单元的指示使得未显示在显示屏幕上的可设置的图形用户界面项有效的情况下，使用与未显示的可设置的图形用户界面项相对应的语音识别语法，来识别接收到的语音信息；以及

设置步骤，用于使用该识别步骤的识别结果，设置该可设置的图形用户界面项。

9.根据权利要求8所述的信息处理方法，其特征在于，与未显示的该可设置的图形用户界面项相对应的该语音识别语法是限于在显示该可设置的图形用户界面项的情况下使用的语音识别语法的子集的语音识别语法。

10.根据权利要求9所述的信息处理方法，其特征在于，在来自指示开始语音识别的该指示单元的指示使显示在显示屏幕上的可设置的图形用户界面项有效的情况下，该识别步骤使用与显示的可设置的图形用户界面项相对应的语音识别语法，来识别接收到的语音信息。

11.根据权利要求10所述的信息处理方法，其特征在于，指示开始语音识别的该指示单元是按钮，并且至少有两个按钮，其中一个按钮使显示在显示屏幕上的可设置的图形用户界面项有效，另一个按钮使未显示在显示屏幕上的可设置的图形用户界面项有效。

12.根据权利要求10所述的信息处理方法，其特征在于，指示开始语音识别的该指示单元是在检测到语音时指示开始语音识别的指示单元和在检测到按键的按下时指示开始语音识别的指示单元中的至少一个。

13.一种信息处理方法，其包括；

识别步骤，用于在将与由该检测步骤检测到的该可设置的图形用户界面项的数据相对应的识别词汇作为非识别目标从语音识别语法中排除之后，识别接收到的语音信息，该语音识别语法与各可设置的图形用户界面项一一对应并且包括与该项和将被设置给该项的数据相对应的识别词汇；以及

显示控制步骤，用于进行控制，以在该识别步骤的识别结果是与未显示的项相对应的识别词汇的情况下，显示该项。

14.一种信息处理设备，其对多个可设置的图形用户界面项中的每一个设置数据，该信息处理设备包括：

检测单元，用于检测未显示在显示屏幕上的可设置的图形用户界面项；

选择单元，用于选择与由该检测单元检测到的该项相对应的语音识别语法；

识别单元，用于使用由该选择单元选择的该语音识别语法，来识别接收到的语音信息；以及

设置单元，用于使用该识别单元的识别结果，对该检测到的项设置数据。

15.一种信息处理设备，其对多个可设置的图形用户界面项中的每一个设置数据，该信息处理设备包括：

识别单元，用于在来自指示开始语音识别的指示单元的指示使未显示在显示屏幕上的可设置的图形用户界面项有效的情况下，使用与未显示的可设置的图形用户界面项相对应的语音识别语法，来识别接收到的语音信息；以及

设置单元，用于使用由该识别单元获得的识别结果，来设置该检测到的项。

16.一种信息处理设备，其包括；

识别单元，用于在将与由该检测单元检测到的该项的数据相对应的该识别词汇作为非识别目标从语音识别语法中排除之后，识别接收到的语音信息，该语音识别语法与各可设置的图形用户界面项一一对应并且包括与该可设置的图形用户界面项和将被设置给该项的数据相对应的识别词汇；以及

显示控制单元，用于进行控制，以在由该识别单元获得的识别结果是与未显示的可设置的图形用户界面项相对应的识别词汇的情况下，显示未显示的该可设置的图形用户界面项。