CN103258534B

CN103258534B - 语音命令识别方法和电子装置

Info

Publication number: CN103258534B
Application number: CN201210113293.5A
Authority: CN
Inventors: 郑尧文; 孙良哲; 许肇凌; 曹希康; 林志鸿
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2012-02-21
Filing date: 2012-04-17
Publication date: 2017-07-07
Anticipated expiration: 2032-04-17
Also published as: US20130218573A1; US9691381B2; CN103258534A

Abstract

本发明提供一种语音命令识别方法，其特征在于，包括：从浏览文件的多个与命令相关的文本字符串中选择多个候选文本字符串；为每个候选文本字符串准备候选语音字符串；接收语音命令；从多个候选语音字符串中搜索匹配所述语音命令的目标语音字符串，其中所述目标语音字符串对应于所述多个候选文本字符串中的目标文本字符串；以及执行与所述目标文本字符串相关的命令。通过利用本发明，可使浏览文件更加简便和直观。

Description

语音命令识别方法和电子装置

技术领域

本发明有关于命令识别(command recognition)，且尤其有关于语音命令识别(voice command recognition)。

背景技术

使用电子装置来浏览文件获取信息是很多人每天都要做的事情。上述电子装置如个人电脑(Personal Comupter，PC)、笔记本电脑(Notebook Computer，NB)、平板电脑(tablet computer)、智能手机、网络电视(Internet Protocol Television，IPTV)、机顶盒(set-top box，STB)以及游戏机(video game console)等；而上述文件如网页或其它包含信息的文件。

文件，尤其是网页，可包含多个与命令相关的(command-associated)文本字符串(text string)。无论是以文本格式还是在图像中出现，一个与命令相关的文本字符串可包含一个或多个连续的字母/字(letter/word)。每个与命令相关的文本字符串与至少一个命令相关，上述命令可为与超链接有关的(hyperlink-related)命令，如可使得电子装置打开另一文件，或者跳到当前浏览的文件或另一文件中的书签(bookmark)。在另一示范例中，另一类型的命令可使得电子装置显示菜单/图片、开始应用程序或者向拥有其所浏览文件的装置发送信息。

一般来说，若一与命令相关的文本字符串位于文件的显示区域内，则用户在浏览文件时可看到该文本字符串。相反地，由于相关的命令通常仅出现在源代码中且并不显示出来，所以用户在浏览文件时一般不会看到相关命令的细节。

图1是专利申请人在2012年1月10日所使用的USPTO专利网页的一部分的示意图，且图中有申请人加的斜体标注。该网页的网址是http://www.uspto.gov/patents/index.jsp，且标题栏区域包含多个与命令相关的文本字符串：“PATENTS”，“TRADEMARKS”，“IP LAW&POLICY”，...，“FAQs”以及“ABOUT”。举例来说，与命令相关的文本字符串“IP LAW&POLICY”与一有关超链接的命令相关，其中点击该有关超链接的命令可打开网页http://www.uspto.gov/ip/index.jsp。此外，图1所示网页的侧边栏区域也包括多个与命令相关的文本字符串：“Patent Process”，“Patent Classification”，“Patent Forms”，...，“Employee Locator”以及“Contact Patents”。举例来说，与命令相关的文本字符串“Patent Forms”与一有关超链接的命令相关，其中点击该有关超链接的命令可打开网页http://www.uspto.gov/forms/index.jsp。此外，图1所示网页的正文区域包括多个图片：“Search Patents”，“PAIR”，“EFS-Web”，...，“ACCELERATED EXAMINATION”以及“ContactUs”。图片中所包含的文本字符串均为与命令相关的文本字符串。举例来说，与命令相关的文本字符串“PAIR”与一有关超链接的命令相关，其中点击该有关超链接的命令可打开网页http://www.uspto.gov/patents/process/status/index.jsp。

当用户在浏览文件时对与某一命令相关的文本字符串进行操作时，原本浏览文件的电子装置将执行该命令。通常来说，用户可以通过将光标移动到该与命令相关的文本字符串上，或通过点击/触摸该与命令相关的文本字符串，来触发电子装置执行该命令。

上述段落所提到的传统方法可满足部分人的需求，但是仍有很多人对一些其它的非传统方法感兴趣。上述传统方法可能更适于PC、NB、平板电脑和智能手机的用户，而对于IPTV、STB以及游戏机的用户来说，由于他们所用的装置并不具有传统的用户输入界面，因此传统方法有时难以适用。

发明内容

有鉴于此，本发明提供一种语音命令识别方法和电子装置。

本发明一实施例提供一种语音命令识别方法，其特征在于，包括：从浏览文件的多个与命令相关的文本字符串中选择多个候选文本字符串；为每个候选文本字符串准备候选语音字符串；接收语音命令；从多个候选语音字符串中搜索匹配所述语音命令的目标语音字符串，其中所述目标语音字符串对应于所述多个候选文本字符串中的目标文本字符串；以及执行与所述目标文本字符串相关的命令。

本发明另一实施例提供一种电子装置，其特征在于，包括：文本字符串选择器，用来从浏览文件的多个与命令相关的文本字符串中选择多个候选文本字符串；语音字符串提供者，用来为每个候选文本字符串准备候选语音字符串；麦克风，用来接收语音命令；以及语音识别器，用来在多个候选语音字符串中搜索匹配所述语音命令的目标语音字符串，所述目标语音字符串对应于所述多个候选文本字符串中的目标文本字符串；其中所述电子装置用来执行与所述目标文本字符串相关的命令。

通过利用本发明，可使浏览文件更加简便和直观。

附图说明

图1是专利申请人在2012年1月10日所使用的USPTO专利网页的一部分的示意图。

图2是根据本发明一实施例的电子装置的方块示意图。

图3是根据本发明一实施例的方法的流程图。

图4是根据本发明一实施例的电子装置的方块示意图。

图5是根据本发明一实施例的电子装置的方块示意图。

图6是加入附加标号索引后呈现在用户面前的画面。

图7是加入示范性符号后显示在用户面前的画面。

具体实施方式

图2是根据本发明一实施例的电子装置的方块示意图。电子装置200的功能之一在于允许其用户浏览文件。

浏览的文件可为网页或其它包含有信息的文件。明确来说，该文件包括多个与命令相关的字符串。无论是以文本格式还是在图像中出现，一个与命令相关的文本字符串可包含一个或多个连续的字母/字。显示装置将与命令相关的文本字符串显示出来后，该文本字符串对电子装置200的用户可见。其中，该显示装置可以位于电子装置200中，也可以位于电子装置200之外而与电子装置200相连接。举例来说，显示装置可为屏幕，或者为可将图片投射到投影屏幕上的投影仪。每个与命令相关的文本字符串均与至少一个命令相关，其中命令的详情一般不显示给用户。

电子装置200的特性之一在于用户可通过语音命令使电子装置200执行相关命令。为了实现该功能，本实施例中的电子装置200可包括麦克风210、文件浏览器220、文本字符串选择器230、语音字符串提供者240以及语音识别器250。为了简单起见，图2省略了电子装置200的其它组件。除了麦克风210之外，图2中所示的所有组件均可通过专用硬件或一般用途处理器(general purpose processor)实现。尽管图2中的组件均被绘示为电子装置200的内部组件，但所有组件均可位于电子装置200的外部，并通过有线或无线连接来为电子装置200工作。举例来说，麦克风210可置于远端装置(如手机或远端控制)中，并可与电子装置200进行无线通信。此外，其它的四个组件均可位于“云”中以进行云计算(cloudcomputation)。

图3是根据本发明一实施例的方法的流程图。图3中的方法300可由图2中的电子装置200执行。为了简单起见，下述段落将采用电子装置200中的组件来解释方法300中的各步骤，并通过方法300中的各步骤来阐明电子装置200的各组件。需注意，方法300也可由不同于图2所示电子装置200的其它电子装置执行，而电子装置200也可以执行不同于图3所示方法的其它方法。换句话说，电子装置200和方法300并不互相限制。

进行图3所示的方法300之前，文件浏览器可首先显示文件，以便电子装置200的用户可以看到并浏览文件的至少一部分。举例来说，若该文件为另一装置拥有的网页，则文件浏览器220首先通过电子装置200的网络接口，从拥有网页的装置中下载文件。接下来，文件浏览器220呈现该网页并允许电子装置200显示文件的至少一部分。如此一来，用户可看到文件的可视信息，包括一些与命令相关的文件字符串。在本示范例中，文件浏览器220也可被认为是网页浏览器。在下面段落中，为简单起见，术语“文件”和“浏览的文件”被用来指浏览的文件的源代码或者浏览的文件的呈现版本(rendered version)，特别是在浏览的文件为网页时。

在步骤320中，文本字符串选择器230从浏览文件的与命令相关的文本字符串中选择多个候选文本字符串。正如后面会详述的那样，将为上述多个候选文本字符串准备一组可接受的语音命令，以用于语音识别。

步骤320的目的之一在于限制可接受的语音命令的数目。这是由于浏览的文件可能会具有太多与命令相关的文本字符串，所以为每个与命令相关的文本字符串准备可接受的语音命令可能并不必要、不可取或者不实际。通过限制可接受的语音命令的数目，本步骤还可以降低语音识别器250的工作负载(work load)以及误码率，并可提高语音识别器250的响应速度。

实现步骤320有几种不同的方式，在第一种方式中，文本字符串选择器230仅从浏览文件的某些子区域(sub-region)选择候选文本字符串。提出本方式的原因之一在于用户可能只对浏览文件的某些子区域感兴趣，而并不会关心其它部分。因此用户可能会发出对应其感兴趣区域中某个与命令相关的文本字符串的语音命令。

在第一种方式的第一示范例中，选择候选文本字符串的区域为文件的显示区域(displayed region)，即出现在屏幕上的文件区域。提出本示范例的原因之一在于屏幕可能不够大，无法显示文件的所有可视信息，用户不太可能发出有关未显示在屏幕上的文本字符串的语音命令。举例来说，USPTO专利网页不止包含图1所显示的内容，但由于屏幕不够大，所以只能显示图1所示的内容。图1所示的区域可作为选择候选文本字符串的区域。

在第一种方式的第二示范例中，选择候选文本字符串的区域为文件的凝视区域(gazed region)，即用户所凝视的区域。凝视区域可为上述的显示区域的子区域。提出本示范例的原因之一在于用户可能会发出对应其感兴趣的与命令相关的文本字符串的语音命令。以图1为例，若用户凝视包含图片“Search Patents”，“PAIR”，“EFS-Web”，...，“ContactUs”的资源区域，则该凝视区域可作为选择候选文本字符串的区域。当然，电子装置200需要先将图片转换为文本字符串。如此一来，包括“Search Patents”，“PAIR”，“EFS-Web”，...，“Contact Us”的7个文本字符串将被选为候选文本字符串。为了实现本示范例，电子装置200可进一步包括或连接至一眼动仪(eye tracker)，用来通过追踪用户的视线来确定凝视区域。其中，眼动仪可为照相机。电子装置200附加上述的眼动仪460便成为了图4中的电子装置400。

在第一种方式的第三示范例中，选择候选文本字符串的区域为手势指定区域(gesture-specified region)，即用户手势所指定的区域。手势指定区域可为上述的显示区域的子区域。举例来说，若显示装置为触屏，用户可通过某些手势触摸屏幕来定义手势指定区域。电子装置200也可通过照相机来检测用户的手势，以确定手势指定区域。提出本示范例的原因之一在于可使得用户在步骤320的选择进程中更积极地进行参与。以图1为例，用户可通过手势来指定侧边栏区域、“Tools”所对应的区域或者“Resources”所对应的区域，指定区域可作为选择候选文本字符串的区域。为了实现本示范例，电子装置200可进一步包括或连接至一手势探测器(gesture detector)，用来通过探测用户的手势来确定手势指定区域。其中，手势探测器可为触摸感应器(touch sensor)或照相机。电子装置200附加上述的手势探测器560便成为了图5中的电子装置500。

在第一种方式的第四示范例中，选择候选文本字符串的区域为浏览文件中的某一预定义区域(pre-defined region)。举例来说，浏览的文件可能具有如标题栏区域、侧边栏区域以及页脚区域等的预定义区域。上述的每个区域可包括一组与命令相关的文本字符串。若用户告知电子装置200其对文件的一预定义区域感兴趣，则文本字符串选择器230可仅从该预定义区域内选择候选文本字符串。用户告知电子装置200其所感兴趣的预定义区域有几种途径，如做手势、凝视感兴趣的区域、将光标移动到感兴趣的区域、对麦克风210发出区域的名字(如发出“侧边栏”的声音)以及在远端装置上按键等。以图1为例，若用户告知电子装置200其对侧边栏区域感兴趣，则将选择“Patent Process”，“PatentClassification”，“Patent Forms”，...，“Employee Locator”以及“Contact Patents”等13个文本字符串作为候选文本字符串。

在步骤320的第二种实施方式中，文本字符串选择器230仅从用户告知的父对象(parent object)的下级(subordinate level)选择与命令相关的文本字符串。提出本实施方式的原因之一在于浏览的文件可能有分层的结构，而用户仅对该结构的某些部分感兴趣。举例来说，图1所示的网页具有“Tools”和“Resources”的父对象，而这两个父对象自身并不是(当然，上述两个父对象可以是)与命令相关的文本字符串，每个都有下级。举例来说，父对象“Tools”的下级包括9个与命令相关的文本字符串：“Inventors AssistanceCenter (IAC)”，“Electronic Filing System(EF S-Web)”，...，以及“Federal RegisterNotices(Patents)”。若用户告知电子装置200其对父对象“Tools”感兴趣，则文本字符串选择器230将上述9个与命令相关的文本字符串作为候选文本字符串。用户告知电子装置其所感兴趣的父对象有几种途径，如做手势、凝视感兴趣的区域、将光标移动到感兴趣的区域、对麦克风210发出父对象的名字以及在远端装置上按键等。

在步骤320的第三种实施方式中，选择的候选文本字符串均有一部分相似于，甚至完全匹配于用户对麦克风210发出的语音命令的一部分。以图1为例，若用户发出“electronic”作为语音命令的一部分，则将以“electronic”开头或者包括该字的与命令相关的文本字符串作为候选文本字符串。上述候选文本字符串包括侧边栏区域的“Electronic Business Center”以及“Tools”栏下的“Electronic Filing System(EF S-Web)”、“Electronic Patent Assignment System(EPAS)”。本实施方式可逐步缩小范围并最终使用户找到其所感兴趣的与命令相关的文本字符串。本实施方式有如粗略搜索(coarse search)，并在某种程度上类似于某些网页浏览器的“自动完成(AutoComplete)”功能，即输入部分搜索请求(search query)时，会显示一系列可能的完整搜索请求。当输入新的字母/字时，可能的完整搜索请求列表也会随之更新。对于步骤320的本实施方式来说，用户发出另外的字/词后，文本字符串选择器230会随之更新候选文本字符串的列表，并将更新后的列表显示在屏幕上。麦克风210、语音字符串提供者240以及语音识别器250可用于实现步骤320的本实施方式。

在步骤330中，语音字符串提供者240为每个候选文本字符串准备候选语音字符串，以用于后续的语音识别。其中候选语音字符串包括一个或多个连续的语音单元，每个语音单元可代表一种语音，如每个语音单元可为一个音节(syllable)或一个音素(phoneme)。每个候选语音字符串可代表用户可发出的可接受的语音命令，并对应候选文本字符串。

在步骤330的第一示范例中，每个候选语音字符串直接代表对应的候选文本字符串的发音。换句话说，语音字符串提供者240直接将每个候选文本字符串转换为候选语音字符串。若候选文本字符串出现在图片中，则电子装置200可首先将图片的内容转换为文本格式，并在随后将文本格式的文本字符串转换为候选语音字符串。接下来，通过发出对应于一命令的候选语音字符串，用户可使得电子装置200执行该命令。

在步骤330的第二示范例中，每个候选语音字符串代表对应的候选文本字符串在多个候选文本字符串中序列(即顺序)的发音。本第二示范例可较佳地用于候选文本字符串在屏幕上形成列表且用户可根据候选文本字符串在列表中的顺序找到每个候选文本字符串时。以图1为例，若在步骤320中选择标题栏区域，则作为列表的第三个，候选文本字符串“IP LAW&POLICY”所对应的候选语音字符串的发音可表示为“第三号”、“项目三”、“第三项”、“第三个”、“第三”、“三”等。接下来，经过步骤340、350和360后，通过对麦克风210发出上述发音中的任何一种，用户可使得电子装置200执行与“IP LAW&POLICY”相关的命令。在另一种实施方式中，用户可跳过步骤340、350和360，而是通过按远端装置上标号为“3”的按键来使电子装置200执行与“IP LAW&POLICY”相关的命令。类似地，用户可通过对麦克风210发出“第二号”、“项目二”、“第二项”、“第二个”、“第二”、“二”等，或者通过按远端装置上标号为“2”的按键，使电子装置200执行与“TRADEMARKS”相关的命令。

为了使候选文本字符串的顺序对用户来说更显而易见，电子装置200可将标号索引(numerical index)另外显示在候选文本字符串旁边。图6是加入附加标号索引后呈现在用户面前的画面。为了使列表更明显，电子装置200还可以将标号列表显示在另一个区域中，如电子装置200屏幕的上层窗口或侧边栏区域，或者远端装置的屏幕。

在步骤330的第三示范例中，每个候选语音字符串代表一符号的发音，其中该符号由电子装置200在对应的候选文本字符串旁边显示出来。以图1为例，若在步骤320选择了标题栏区域，电子装置200可将8个符号另显示在8个候选文本字符串旁边。图7是加入示范性符号后显示在用户面前的画面。参照图7所示的页面，通过对麦克风210发出“正方形”，“三角形”，“圆形”，...，“菱形”或者“Ω”的声音，用户可使得电子装置200执行与“PATENTS”，“TRADEMARKS”，“IP LAW&POLICY”，...，“FAQs”以及“ABOUT”相关的命令。为了使与命令相关的文本字符串与符号之间的联系对用户来说更显而易见，电子装置200可将符号显示在另一个区域中，如电子装置200屏幕的上层窗口或侧边栏区域，或者远端装置的屏幕。上述符号可具有不同的颜色，且通过对麦克风210发出对应于候选文本字符串的符号的颜色(以及/或者形状)，用户可使得电子装置200执行与该候选文本字符串相关的命令。在另一实施例中，若远端装置具有该符号的按钮，则用户可通过按该按钮来使得电子装置200执行命令。

在步骤340中，麦克风210从用户接收语音命令。举例来说，语音命令的内容为用户在屏幕上看到的候选文本字符串，或者候选文本字符串在候选文本字符串列表中的顺序，或者在候选文本字符串旁边显示的附加索引/符号。

接下来在步骤350中，语音识别器250从候选语音字符串中搜索出匹配语音命令的目标语音字符串，其中目标语音字符串对应于(即用于)候选文本字符串中的目标候选文本字符串。如前面所述，步骤320限制了候选语音字符串的数目以便于语音识别识别器250进行搜索。因此，步骤350不会给语音识别器250带来太大的工作负载。如此一来，在进行步骤350时，语音识别器250可具有较低的误码率和较高的响应速度。

最后在步骤360中，文件浏览器220执行与目标候选文本字符串相关的命令。举例来说，若相关的命令有关于打开另一网页的超链接，则文件浏览器220可在步骤360中直接打开链接的网页。若相关的命令有关于发送信息给拥有所浏览文件的装置，则文件浏览器220可发送信息。

上述实施例尤其适用于电子装置200并没有合适的输入界面(如鼠标、跟踪点、跟踪板或触屏)，来用于用户从浏览的文件中选择与命令相关的文本字符串，从而使电子装置200执行相应命令时。上述实施例允许用户简单地发出与命令相关的文本字符串的内容、序列或者该文本字符串旁边的索引/符号的声音，而不需使用不方便的输入界面来选择该文本字符串，电子装置200即可自动执行有关命令。因此，上述实施例可使浏览文件更加简便和直观。

程序员可为方法300或方法300的一部分编写至少一段计算机程序，该至少一段计算机程序可储存在计算机可读取媒介中。当由如图2、4或5所示的电子装置执行时，该至少一段计算机程序可使得电子装置执行方法300或方法300的一部分。

虽然本发明已就较佳实施例揭露如上，然其并非用以限制本发明。本发明所属技术领域中普通技术人员，在不脱离本发明的精神和范围内，当可作各种的变更和润饰。因此，本发明的保护范围当视之前的权利要求书所界定为准。

Claims

1.一种语音命令识别方法，其特征在于，包括：

从浏览文件的多个与命令相关的文本字符串中选择多个候选文本字符串，其中所述多个与命令相关的文本字符串在显示装置上显示给用户；

为每个候选文本字符串准备候选语音字符串，其中每个候选语音字符串代表对应的候选文本字符串在所述多个候选文本字符串中的顺序的发音，或者代表对应的候选文本字符串旁边所显示符号的发音；

接收语音命令；

从多个候选语音字符串中搜索匹配所述语音命令的目标语音字符串，其中所述目标语音字符串对应于所述多个候选文本字符串中的目标文本字符串；以及

执行与所述目标文本字符串相关的命令。

2.如权利要求1所述的语音命令识别方法，其特征在于，其中为每个候选文本字符串准备候选语音字符串的步骤包括：将每个候选文本字符串转换为候选语音字符串，其中所述候选语音字符串代表对应的候选文本字符串的发音。

3.如权利要求1所述的语音命令识别方法，其特征在于，其中从浏览文件中的多个与命令相关的文本字符串中选择多个候选文本字符串的步骤包括：

从所述浏览文件的显示区域内选择所述多个候选文本字符串；

或者从所述浏览文件的用户定义区域中选择所述多个候选文本字符串；

或者从所述浏览文件的凝视区域中选择所述多个候选文本字符串；

或者从所述浏览文件的手势指定区域中选择所述多个候选文本字符串；

或者从所述浏览文件的用户所确定的父对象的下级选择所述多个候选文本字符串。

4.如权利要求1所述的语音命令识别方法，其特征在于，其中选择的候选文本字符串的一部分与接收到的语音命令的一部分相似。

5.一种可通过语音命令使电子装置执行相关命令的电子装置，其特征在于，包括：

文本字符串选择器，用来从浏览文件的多个与命令相关的文本字符串中选择多个候选文本字符串，其中所述多个与命令相关的文本字符串在显示装置上显示给用户；

语音字符串提供者，用来为每个候选文本字符串准备候选语音字符串，其中每个候选语音字符串代表对应的候选文本字符串在所述多个候选文本字符串中的顺序的发音，或者代表对应的候选文本字符串旁边所显示符号的发音；

麦克风，用来接收语音命令；以及

语音识别器，用来在多个候选语音字符串中搜索匹配所述语音命令的目标语音字符串，所述目标语音字符串对应于所述多个候选文本字符串中的目标文本字符串；

其中所述电子装置用来执行与所述目标文本字符串相关的命令。

6.如权利要求5所述的可通过语音命令使电子装置执行相关命令的电子装置，其特征在于，其中所述语音字符串提供者用来将每个候选文本字符串转换为候选语音字符串，其中所述候选语音字符串代表对应的候选文本字符串的发音。

7.如权利要求5所述的可通过语音命令使电子装置执行相关命令的电子装置，其特征在于，其中所述文本字符串选择器用来从所述浏览文件的显示区域中选择所述多个候选文本字符串。

8.如权利要求5所述的可通过语音命令使电子装置执行相关命令的电子装置，其特征在于，其中所述文本字符串选择器用来从所述浏览文件的凝视区域中选择所述多个候选文本字符串，且所述电子装置进一步包括眼动仪，用来通过追踪用户的视线来确定所述凝视区域。

9.如权利要求5所述的可通过语音命令使电子装置执行相关命令的电子装置，其特征在于，其中所述文本字符串选择器用来从所述文件的手势指定区域中选择所述多个候选文本字符串，且所述电子装置进一步包括手势探测器，用来通过探测用户的手势来确定所述手势指定区域。