CN1991975A - 语音信息处理设备和语音信息处理方法 - Google Patents
语音信息处理设备和语音信息处理方法 Download PDFInfo
- Publication number
- CN1991975A CN1991975A CNA2006101705522A CN200610170552A CN1991975A CN 1991975 A CN1991975 A CN 1991975A CN A2006101705522 A CNA2006101705522 A CN A2006101705522A CN 200610170552 A CN200610170552 A CN 200610170552A CN 1991975 A CN1991975 A CN 1991975A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- voice recognition
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 19
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000004044 response Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 57
- 238000003825 pressing Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及一种语音信息处理设备和语音信息处理方法。所述语音信息处理方法包括:检测语音处理开始指示单元的第一操作的步骤;响应于在语音处理开始指示单元的第一操作的检测步骤中所执行的检测,控制显示使得显示语音识别词语;响应于检测到语音处理开始指示单元的第二操作获取语音信息;以及对在获取步骤中获得的语音信息执行语音识别处理。
Description
技术领域
本发明涉及一种用于指出可以通过语音识别来识别出的词语的信息处理设备和信息处理方法。
背景技术
在实现语音识别功能的已知设备和应用中,经常发生使用语音识别功能时用户不确定说什么的情况。这对用户操作这种语音识别功能带来了困难。为了解决这个问题,在日本特公平04-075540号公报、日本特开2004-295578号公报以及日本特开2005-242183号公报中说明了用于向用户指出可识别词语的技术。
在日本特公平04-075540号公报中说明的语音识别设备中,在每个GUI窗口的底部显示独立的可识别词语列表,从而将每个窗口的可识别词语通知用户。在日本特开2004-295578号公报中说明的翻译装置中,使用下划线等突出在屏幕上显示的可识别词语。在日本特开2005-242183号公报中说明的语音识别装置中,当在屏幕上显示的词语中存在可识别词语时,控制屏幕显示使得以与其它词语不同的样式显示可识别词语。
然而,在上述文献中,没有说明对显示/不显示可识别词语执行切换的定时以及显示可识别词语的定时。存在实现了语音识别技术、但是能够通过语音识别技术之外的手段执行所希望的处理的多种设备和应用。当在这种设备或者应用中使用上述文献中说明的技术时,在语音识别功能有效期间,一直显示可识别词语。这种显示样式可能是多余的,因此是使用语音识别技术之外的手段操作设备或者应用的用户所不希望的。
发明内容
考虑到以上情况提出了本发明。因此,需要响应于用户进行的话音输入操作来显示语音识别词语的信息处理方法。因此,根据该方法,即使使用语音识别功能的操作有效时,当没有进行话音输入时,不对用户指出语音识别词语。
根据本发明的第一方面,提供一种语音信息处理设备,包括:第一检测部,用于检测语音处理开始指示部的第一操作;显示控制部,用于响应于语音处理开始指示部的第一操作,控制语音识别信息的显示;第二检测部,用于检测语音处理开始指示部的第二操作;获取部,用于响应于语音处理开始指示部的第二操作,获取语音信息;以及语音识别部,用于对由获取部获得的语音信息执行语音识别处理。
根据本发明的第二方面,提供一种语音信息处理方法,包括如下步骤:检测语音处理开始指示部的第一操作;控制显示使得响应于检测到第一操作,显示语音识别信息;检测语音处理开始指示部的第二操作;获取步骤,响应于第二操作,获取语音信息;以及对在获取步骤中获得的语音信息执行语音识别处理。
从以下参考附图对典型实施例的说明,本发明的其它特征将变得明显。
附图说明
图1是示出根据本发明典型实施例的信息处理设备的框图。
图2示出根据本发明实施例的识别词典的例子。
图3示出根据本发明典型实施例的信息处理设备的显示。
图4是示出由根据本发明典型实施例的信息处理设备所执行的处理过程的流程图。
图5示出在典型实施例中指出语音识别词语的情况。
图6示出根据典型实施例识别出词语“音量(Volume)”时所进行的处理。
图7示出根据典型实施例记录有识别结果和相应处理的表。
图8示出在典型实施例中控制显示以辨别识别对象的情况。
图9示出在典型实施例中显示用于识别由图标或者符号表示的识别对象的词语的情况。
图10示出在典型实施例中显示用于识别由图标或者符号表示的识别对象的词语的情况。
图11示出在典型实施例中指出识别对象的发音说明的情况。
图12示出在典型实施例中指出在窗口中没有显示的识别词语的情况。
图13是示出由根据本发明典型实施例的信息处理设备执行的处理过程的流程图。
图14是示出由根据本发明典型实施例的信息处理设备执行的处理过程的流程图。
图15是示出根据本发明典型实施例的信息处理设备的结构的框图。
图16示出在根据本发明典型实施例的信息处理设备中使用的节目信息数据的例子。
图17示出在根据本发明典型实施例的信息处理设备中使用的相关项数据的例子。
图18示出在根据本发明典型实施例的信息处理设备中使用的识别词典的例子。
图19示出在根据本发明典型实施例的信息处理设备中使用的识别词典的例子。
图20示出在典型实施例中控制显示以辨别识别对象的情况。
图21示出在典型实施例中控制显示以辨别示出识别对象的区域的情况。
图22示出在典型实施例中指出在窗口中没有显示的识别对象的情况。
图23示出在典型实施例中改变识别对象的显示内容的各种情况。
具体实施方式
下面,参考附图说明本发明的优选典型实施例。
第一实施例
使用回放用户选择的音乐数据的应用的例子说明本典型实施例。图1是示意性地示出根据本发明典型实施例的信息处理设备的结构的框图,在该信息处理设备中设置有这种回放音乐数据的应用。该信息处理设备包括:操作单元101、音乐数据存储单元102、话音输出单元103、识别词典存储单元104、语音识别单元105、话音输入单元106、显示控制单元107、显示单元108和控制器109。
操作单元101包括允许用户操作信息处理设备的输入装置,例如按钮和鼠标。控制器109检测用户使用操作单元101执行的操作的内容。然后,控制器109根据检测到的操作执行预定处理。在本典型实施例中,当用户说话以使用语音识别功能时,用户使用包含在操作单元101中的输入装置执行预定操作。该操作用于指示开始话音处理。用于该操作的输入装置可以是专用输入装置或者例如键盘和鼠标的通用输入装置,其中,将指示开始话音处理的功能给予特定按钮等。下面,说明将按钮用作指示开始话音处理的输入装置的情况,这里,将该按钮称为语音处理开始指示按钮。
音乐数据存储单元102存储音乐数据。话音输出单元103设置有例如扬声器的音频输出装置,当用户执行回放音乐的操作时,话音输出单元103输出音乐数据。
识别词典存储单元104存储识别词典。在该识别词典中记录有可通过语音识别单元105识别出的词语和相应的发音说明。在本文中,发音说明通过例如由IPA(国际音标,International PhoneticAlphabet)所定义的音标的预定义音标来指出词语的发音。下文中,将可以由语音识别单元105识别的这种词语称为语音识别词语。在图2中示出这种识别词典的例子。设置有麦克风的话音输入单元106拾取用户的语音。将拾取的语音转换为数字数据以由语音识别单元105进行处理。语音识别单元105对与由话音输入单元106所拾取的用户语音相对应的数据执行语音识别处理,从识别词典中记录的词语中选择与拾取的用户语音最接近的词语。然后,语音识别单元105将所选择的词语作为识别结果输出。
显示单元108具有:例如液晶显示器的显示装置,用于向用户显示例如来自信息处理设备的信息的数据;以及GUI(图像用户界面,graphical user interface)。显示控制单元107控制要在显示单元108上显示的显示内容。显示控制单元107的一个特征在于,当控制器109检测到对语音处理开始指示按钮执行的预定操作时,显示控制单元107控制显示内容使得显示语音识别词语。具体地,当用户说话时,显示控制单元107使得显示语音识别词语以指出用户可以说的词语。
控制器109检测通过操作单元101执行的操作,根据操作的内容执行处理。另外,控制器109与信息处理设备中的其它模块合作以控制与音乐数据再现有关的处理,例如音乐数据的选择、读取以及回放。
下面,说明由具有上述结构的信息处理设备执行的操作。
当起动根据本典型实施例的回放音乐数据的应用时,显示控制单元107产生显示内容,在显示单元108上显示该显示内容。在图3中示出这种显示内容的例子。如图所示,主窗口301中显示文件(file)菜单302、音量菜单303、用于开始回放音乐数据的按钮304以及用于停止回放音乐数据的按钮305。
菜单302和303是在典型GUI中使用的分层式菜单。菜单中的每一个具有选择该菜单时所显示的相关联的子菜单。在本典型实施例中,文件菜单302的子菜单包含“打开(Open)”和“关闭(Close)”,音量菜单303的子菜单包含“增大音量(Volume up)”和“减小音量(Volume down)”,图中没有示出该子菜单。
用户使用鼠标等操作这些GUI。省略该用户操作的说明。下面,使用用户在按下语音处理开始指示按钮后说话的情况说明用户使用语音识别对该应用执行的操作。
参考图4,该流程图示出当使用语音识别功能操作根据本典型实施例的信息处理设备时执行的处理过程。将用于实现该处理过程的程序存储在存储装置(未示出)中,根据控制器109进行的控制执行该程序。
当用户希望使用语音识别功能时,用户首先按下语音处理开始指示按钮。当控制器109检测到按下语音处理开始指示按钮时(步骤S101中的“是”),在步骤S102中,显示控制单元107查阅存储在识别词典存储单元104中的识别词典,控制显示内容以显示可以说出的命令(即语音识别词语)。在图5中示出要在显示单元108上显示的显示内容的例子。如图所示,通过显示控制单元107的控制向主窗口301增加区域306,例如显示语音识别词语307。在该例子中,在主窗口301中显示语音识别词语。然而,还可以产生子窗口用于显示这些语音识别词语。
返回参考图4中的流程图,在步骤S102的处理之后,在步骤S103中在话音输入单元106中开始话音输入。应当指出,可以同时开始步骤S102和S103的两个处理。
语音识别单元105处理由话音输入单元106拾取的语音数据(步骤S104和步骤S105中的“否”),直到检测到用户语音结束。
当语音识别单元105检测到语音结束时(步骤S105中的“是”),停止话音输入和语音识别处理。然后,在步骤S106中,显示控制单元107控制显示内容使得停止显示语音识别词语。具体地,这时,如图3所示,在显示单元108上显示的显示内容与在步骤S102中显示语音识别词语之前所显示的显示内容相同。
随后,在步骤S107中,如果由于例如在按下语音处理开始指示按钮之后语音中断或者没有要拾取的话音而在语音识别单元105中没有获得语音识别处理的结果(步骤S107中的“否”),则停止该处理过程。
如果获得了语音识别处理的结果(步骤S107中的“是”),则将识别结果输出到控制器109。然后,在步骤S108中,控制器109根据识别结果执行处理。例如,识别结果是“音量”,控制器109执行与当用鼠标等选择音量菜单303时所执行的处理相同的处理。图6示出该处理的结果。该图示出选择“音量”(308)因此显示“音量”的子菜单309的状况。可以在控制信息处理设备的程序中预先说明识别结果和相应处理之间的关系。还可以在控制器109中设置记录该关系的对应表。图7中示出这种对应表的例子。在识别出“音量”的上述例子中,控制器109执行由对应于“音量”的“VolumeMenuOpen”(702)所指出的处理。
在以上说明中,语音识别单元105检测到语音结束。然而,也可以配置为用户明确地指出语音结束。例如,用户可以在按下语音处理开始指示按钮的同时说话。在这种情况下,当控制器109检测到语音处理开始指示按钮从按下状态回到未按下状态(释放按钮)时,控制器109判断为语音结束(步骤S105中的“是”)。使用该配置,只要用户将语音处理开始指示按钮保持在按下状态,即可保持显示通过用户按下该按钮而显示的语音识别词语。当用户释放语音处理开始指示按钮时,停止显示语音识别词语。
在步骤S102的处理中可以使用显示识别词语的各种方案。在图8~12中示出这些显示方案的例子。
图8示出指出用户可以说的信息使得用户可以在屏幕上显示的信息中区别出可以说的词语的情况。如图所示,用粗线围绕文件菜单310、音量菜单311和回放按钮312,这表明这些菜单和按钮是可以通过语音识别处理来识别的对象(识别对象)。另一方面,表明不能通过语音识别处理来识别停止(stop)按钮305,即识别不出对应于按钮305的语音。因此,控制显示使得可以在显示的信息中区别出用作语音识别对象的信息。使用该配置,可以有效地通知用户要说的词语。
图9和图10中的每一个示出用于识别以如图8所示的符号或者图标的形式显示的相应识别对象的词语的情况的例子。图9示出将语音识别词语“回放(Play)”(如区域313所示)增加到回放按钮312的情况。图10示出用语音识别词语“回放”(如按钮314所示)代替回放按钮312的情况。因为可以与符号或者图标相关联的词语取决于用户,并且符号可以有多个名称,所以用户不确定说什么使得符号或者图标被识别。例如,用户可以将回放按钮312与词语“回放”或者词语“开始”相关联。因此,使用在图9和图10中示出的显示方案,可以消除词语的不确定性,这使得用户在使用语音识别功能时可以确定地说出。
图11示出对相应的语音识别对象设置发音说明的情况的例子。如图所示,对区域315中示出的相应的语音识别词语设置发音说明。另外,对如按钮316所示的相应的符号或者图标设置发音说明。该配置可以防止用户在读取显示的词语或者符号时出错。
图12示出向用户指出没有在窗口中显示的语音识别词语的情况的例子。在该例子中,将用于识别文件菜单和音量菜单的子菜单的词语列表增加到主窗口301。使用该显示方案,可以通知用户存在在主窗口中显示的语音识别词语之外的语音识别词语。
根据上述根据本典型实施例的配置,响应于用户执行的开始语音的操作指出语音识别词语。因此,当用户使用语音识别功能时,可以通知他或者她语音识别词语,而不用他或者她特别注意语音识别词语。另外,因为不需要语音识别功能时用户不执行开始语音的操作,所以在屏幕上不显示或者指出语音识别词语。即,可以方便地避免不必要信息的多余显示。因此,对于使用语音识别功能或者不使用语音识别功能的用户,具有上述特征的信息处理设备可以实现具有高可操作性的音频接口。
第二实施例
在上述第一实施例中,与检测到按下语音处理开始指示按钮同时地开始显示语音识别词语和话音输入。然而,这可能导致在用户正在看显示的语音识别词语以确定说什么的同时将环境噪声误识别为他或者她的语音的情况。因此,在本典型实施例中,可以通过操作用于开始语音的按钮来在不同的时间执行显示语音识别词语的处理和开始话音输入的处理。这可以通过使用具有与第一实施例中所说明的信息处理设备相同的配置的信息处理设备来实现。具体地,在本典型实施例中,检测语音处理开始指示按钮的按下和释放。响应于检测到按下语音处理开始指示按钮,显示语音识别词语。然后,响应于语音处理开始指示按钮的释放,开始话音输入。
下面,参考图13所示的流程图说明根据本典型实施例的处理过程。该流程图与使用图4所说明的根据第一实施例的处理过程的不同之处在于在步骤S102和步骤S103的处理之间增加了步骤S109的处理。在允许的情况下省略关于步骤S109之外的处理的说明。
当控制器109检测到按下语音处理开始指示按钮(步骤S101中的“是”)时,在步骤S102中,显示控制单元107控制显示内容以显示语音识别词语。该过程与在第一实施例中执行的过程相同。
然后,在步骤S109中,处理不继续进行(步骤S109中的“否”),直到控制器109检测到释放了语音处理开始指示按钮。在这期间不进行话音输入。当控制器109检测到释放了语音处理开始指示按钮时,在步骤S103中,在话音输入单元106中开始话音输入。之后执行的处理过程与第一实施例的处理过程相同,省略其说明。
根据上述配置,可以在不同的时间执行显示语音识别词语的处理和开始语音输入的处理。因此,根据本典型实施例,在用户开始说话以进行话音输入之前,他或者她有充足的时间看语音识别词语,这增加了用户的可操作性。
第三实施例
在本典型实施例中,可区别地检测语音处理开始指示按钮的半按下和完全按下,从而可以在不同的时间执行显示语音识别词语的处理和开始话音输入的处理。应当指出,半按下是指与在使典型的自动调焦照相机进行调焦的情况中相同的轻轻按下按钮的状态。在本典型实施例中,当用户半按下语音处理开始指示按钮时,指出语音识别词语。然后,当用户进一步按下语音处理开始指示按钮(完全按下)时,开始话音输入。当从半按下状态释放语音处理开始指示按钮时,停止指出语音识别词语。
下面,参考图14所示的流程图说明根据本典型实施例的处理过程。
该流程图与根据第一实施例的图4所示的流程图的不同之处在于,执行步骤S110的处理代替步骤S101的处理,并且在步骤S102和步骤S103的处理之间执行步骤S111~步骤S113的处理。与第一实施例类似地执行这些处理之外的处理,在允许的情况下省略其说明。
当控制器109检测到半按下了语音处理开始指示按钮(步骤S110中的“是”)时,在步骤S102中,显示控制单元107控制显示内容以指出语音识别词语。
随后,在步骤S111中,该处理不继续进行(步骤S111中的“否”,步骤S113中“否”),直到控制器109检测到释放或者完全按下语音处理开始指示按钮。在这期间,不开始话音输入。当检测到释放了语音处理开始指示按钮(步骤S111中的“是”)时,在步骤S112中,显示控制单元107控制显示内容使得停止指出语音识别词语。
当用户从半按下状态进一步按下语音处理开始指示按钮,并且控制器109检测到完全按下按钮(步骤S113中的“是”)时,在步骤S103中,在话音输入单元106中开始话音输入。接下来执行的处理过程与第一实施例的处理过程相同,省略其说明。
根据上述配置,可以在不同的时间执行显示语音识别词语的处理和开始话音输入的处理。因此,根据本典型实施例,在用户开始说话以进行话音输入之前,他或者她有充足的时间来看语音识别词语,这增加了用户的可操作性。
第四实施例
在本典型实施例中,说明在节目搜索设备中实现本发明的情况。
图15是示意性地示出根据本发明典型实施例的用于搜索节目的信息处理设备的结构的框图。该信息处理设备包括操作单元401、节目信息存储单元402、识别词典生成单元403、识别词典存储单元404、语音识别单元405、话音输入单元406、显示控制单元407、显示单元408和控制器409。
与在第一实施例中说明的操作单元101类似,操作单元401具有例如按钮和鼠标的允许用户操作设备的输入装置。控制器409检测用户通过操作单元401执行的操作的内容。然后,控制器409根据检测到的操作执行预定处理。同样,在本典型实施例中,与第一实施例的情况相同,将用户使用的用于开始语音的按钮称为语音处理开始指示按钮。
节目信息存储单元402存储由控制器409接收到的例如EPG(电子节目向导,electronic program guide)的节目信息数据。如图1 6示出的节目信息数据501中所示,该节目信息存储单元402存储每个节目的“标题”(节目名)、“台”(台名)、“日期和时间”(播放的日期和时间)以及“信息”(节目信息)。另外,如图17示出的相关项数据601所示,在节目信息存储单元402中还存储有与台名或者节目名有关的项的数据。该相关项数据可以包含在EPG数据中,或者可以作为独立于EPG数据的数据从外部网络获得。
识别词典存储单元404存储识别词典。在识别词典中,记录有可以通过语音识别单元405识别出的词语(语音识别词语)和相应的发音说明。另外,还可以记录与每个识别词语相关联的辅助信息。在本典型实施例中,将用于操作信息处理设备的命令和用于搜索节目的关键词用作语音识别词语。图18和图19中的每一个示出识别词典的例子。图18所示的识别词典701包含用作操作根据本典型实施例的信息处理设备的命令的词语。在识别词典701中,除了发音说明之外,还记录有相应的处理作为每个识别词语的辅助信息。当识别出相应的语音识别词语时,执行相应的处理。图19所示的识别词典801包含用作搜索节目的关键词的词语。作为辅助信息记录关键词的种类。
识别词典生成单元403从节目信息数据501中提取搜索标题、台等所需的关键词,并记录相应的发音说明和种类,以生成用于搜索节目的识别词典。另外,还可以从相关项数据601中提取与每个关键词有关的项增加到识别词典中。例如,当从节目信息数据501中提取标题“Adventure TV”作为关键词时,从相关项数据601中提取“Adventure”作为相关项增加到识别词典中。
话音输入单元406设置有麦克风,拾取用户的语音,将拾取的语音转换为数字数据以由语音识别单元405进行处理。语音识别单元405对由话音输入单元406拾取的语音数据执行语音识别处理,从在识别词典中记录的词语中选择与用户的语音最接近的词语,输出所选择的词语作为语音识别结果。
显示单元408具有例如液晶显示器的显示装置,用作向用户显示GUI和例如从信息处理设备提供的节目信息的信息。显示控制单元407控制要在显示单元408上显示的内容。在该典型实施例中,当控制器409检测到由用户执行的开始话音输入的操作时,显示控制单元407控制显示内容使得用户可以辨别语音识别词语。例如,如果开始话音输入操作时所显示的显示内容中包含语音识别词语或者GUI组件(语音识别对象),则控制显示内容以改变识别对象的例如字体、颜色以及装饰的显示样式,从而识别对象可以与其它词语或者GUI组件相区别。例如,对于没有包含在显示内容中的其它语音识别词语,控制显示内容使得产生独立的窗口以显示这些语音识别词语。当获得语音识别结果时,控制显示内容使得显示由控制器409提供的节目信息。如果由于超时或者用户操作而在话音输入操作期间中断了话音输入,则控制显示内容使得再次显示语音输入操作前所显示的内容。
控制器409与包含在根据本典型实施例的信息处理设备中的每个模块合作来控制节目搜索的全部处理。另外,控制器409接收通过外部网络发送的节目信息数据,将该节目信息数据存储在节目信息存储单元402中。控制器409还监视例如鼠标和键盘的输入装置的操作事件,根据操作事件来执行处理。此外,控制器409根据由语音识别单元405识别出的词语搜索存储在节目信息存储单元402中的节目信息数据,然后输出对应于搜索到的节目信息数据的节目的信息。在外部单元提供相关项词典的情况下,控制器409用于接收词典。
下面,说明具有上述配置的信息处理设备的操作。
在根据本典型实施例的信息处理设备中执行的处理过程与在第一实施例中说明的信息处理设备中执行的处理过程相同。因此,根据图4所示的流程图说明该处理过程。
当开始节目搜索操作时,显示控制单元407执行控制使得根据存储在节目信息存储单元402中的节目信息数据来产生用于节目搜索的显示数据。然后,在显示单元408上显示产生的显示数据。图20示出该显示的数据的例子。该图示出包含在显示单元408中的显示装置的屏幕截图901。屏幕显示902是开始节目搜索操作时所显示的显示内容的例子。在屏幕显示902中,按播放时间顺序显示“Japan TV”台的节目。用户从所显示的节目中选择希望的节目。如果在显示的节目中不包含希望的节目,则用户可以使该显示滚动以显示不同的时间段,或者可以改变要显示的台以寻找所希望的节目。用户使用语音识别功能或者操作单元401的输入装置执行这些操作。
当用户使用语音识别功能时,他或者她说出命令:当选择节目时是所希望的节目的名称;当切换台时是所希望的台的名称;当使显示向下滚动时是“向下滚动(Scroll Down)”。在用户说话之前,他或者她执行开始话音输入的预定操作。在本典型实施例中,将设置在操作单元的输入装置上的特定按钮分配为用于开始话音输入的按钮(语音处理开始指示按钮)。如下所述,当用户按下语音处理开始指示按钮时,开始话音输入。当用户按下语音处理开始指示按钮时,控制器409检测到按下了按钮。然后,在话音输入单元406中开始话音拾取(步骤S101中的“是”)。
在步骤S102中,显示控制单元407改变显示内容使得可以从在显示单元408上显示的其它对象中区别出语音识别对象。这时,显示控制单元407查阅存储在识别词典存储单元404中的识别词典。如果在屏幕显示中包含记录在识别词典中的词语,则改变所记录的词语的例如字体、颜色以及装饰的显示样式。类似地,如果在屏幕显示中包含对应于在识别词典中记录的命令的GUI组件,则改变GUI组件的显示样式。作为例子,在图20所示的屏幕显示912中对此进行了说明。在屏幕显示912中,由粗线围绕标题、台以及用于滚动的GUI组件,从而将这些被围绕的对象指出为语音识别对象。
将在步骤S103中由话音输入单元406拾取的语音依次转换为数字数据以由语音识别单元405进行处理。在语音识别单元405检测到用户的语音结束的时刻,停止语音识别处理和话音输入单元406中的话音输入。当停止话音输入(步骤S105中的“是”)时,显示控制单元407停止指出语音识别词语。具体地,在步骤S106中,将在步骤S102的处理中改变的显示内容变回,如图20中的屏幕显示902所示。
如果在按下语音处理开始指示按钮之后,由于例如语音中断以及没有要拾取的话音等原因在语音识别单元405中没有获得语音识别处理的结果(步骤S107中的“否”),则停止节目搜索操作。
如果在语音识别单元405中获得了语音识别处理的结果(步骤S107中的“是”),则在步骤S108中,控制器409根据语音识别结果执行处理,然后,停止节目搜索操作。例如,当标题被识别为语音识别结果时,控制器409搜索存储在节目信息存储单元402中的节目信息数据。如果在节目信息数据中存储有对应于该标题的节目,则显示控制单元407使显示单元408显示该节目信息。另一方面,如果在节目信息数据中没有存储该相应的标题,则在步骤S108中,显示控制单元407使显示单元408显示结果的通知。然后,停止节目搜索操作。
使用根据本典型实施例的上述配置,响应于用户为开始话音输入而执行的操作,指出包含在屏幕显示中的语音识别对象。因此,当用户使用语音识别功能时,可以通知他或者她该识别对象,而不用特别注意识别对象。另外,当用户不使用语音识别功能时,不显示不必要的信息以避免冗余是有利的。根据根据本典型实施例的信息处理设备,不管用户是否使用语音识别功能,可以实现具有高可操作性的音频接口。
其它实施例
在上述第四实施例中,说明了在步骤S102的处理中改变在屏幕上显示的语音识别对象的显示样式的情况。然而,与此形成对比,可以控制显示内容使得改变语音识别对象之外的显示对象的显示样式,这也使得可以区别出语音识别对象。在图21中示出这种配置。如图所示,使示出语音识别对象之外的对象的屏幕显示922中的区域变暗,从而可以区别出示出语音识别对象的其它区域。
另外,当在步骤S102的处理中指出语音识别对象时,可以显示在屏幕中没有显示的语音识别词语。在这种情况下,显示控制单元407控制显示内容,使得在存储在识别词典存储单元404的识别词典中所记录的词语中,显示当前在屏幕中没有显示的词语。图22示出了这种配置。如图所示,在另一个窗口932中显示在GUI屏幕上没有显示的全部语音识别词语。
此外,当在步骤S102的处理中显示语音识别对象时,可以将要显示的词语缩写,或者可以将要显示的缩写名称还原为原始名称。这时,查阅相关项数据601及识别词典701和801。另外,通过查阅识别词典701和801还可以显示要说出的对象的内容和相应的发音说明。在图23中示出了这种配置。在该图中,区域942示出使用识别词典801提供“VOWVOW”台的名称的发音说明的情况。区域944示出将使用相关项数据601缩写后的标题“Hey!Poffy”用其原始名称“Hey!Hey!Poffy AKIYUKI”代替的情况。区域945示出使用相关项数据601和识别词典801,用缩写标题“NEWS7”代替标题的原始名称“Ichiro’s NEWS7”并且进一步提供相应的发音说明的情况。另外,区域946示出使用词语浮动框指出对应于GUI组件的语音识别词语“向下滚动”的情况。这种配置可以使用户知道用于识别GUI组件的词语。
如上所述,当显示语音识别对象时,可以增加发音说明,可以代替难以发音的名称。与上述仅显示语音识别对象以与其它对象相区别的情况相比较,这种配置实现了具有更高可操作性的用户界面。
本发明还包含如下配置:将用于实现上述实施例的功能的程序直接或者从远程站点提供给具有能够读取并执行所提供的程序代码的计算机的系统或者设备。
因此,对计算机提供并安装用于实现上述实施例的功能的程序代码也是实现本发明的一个特征。即,用于实现上述实施例的功能的计算机程序可以包含在本发明中。
在这种情况下,程序不限于任何形式,例如目标代码、由译码器执行的程序、向操作系统提供的脚本数据等。
用于提供程序的记录介质的例子包括磁性记录介质,例如软盘、硬盘、光盘、磁光盘(MO)、光盘只读存储器(CD-ROM)、可记录CD(CD-R)、可重写CD(CD-RW)。磁带、非易失性存储卡、只读存储器(ROM)、数字通用ROM盘(DVD-ROM)、DVD-R等可用作记录介质。
作为另一个程序提供方法,可以使用浏览器将客户计算机连接到因特网的主页,可以将本发明的计算机程序本身或者包含自动安装功能的压缩文件从主页下载到例如硬盘的记录介质。可以将构成根据本发明典型实施例的程序的程序代码分割为多个文件,可以从不同的主页下载这些文件。即,使多个用户下载使计算机实现本发明的功能处理的程序文件的WWW服务器也可以包含在本发明中。
另外,可以做出如下配置:将根据本发明典型实施例的程序加密并存储在例如CD-ROM的记录介质中,在这种状态下与用于解密从因特网主页下载的加密内容的密钥信息一起分发给用户,例如,分发给满足一定条件的用户,从而可以使用密钥信息来执行被加密的程序,将其安装到计算机。
除了通过在计算机上执行读出的程序来实现上述实施例的功能之外,还可以由计算机上运行的操作系统基于程序的指令执行部分或者全部实际处理来实现上述实施例的功能。
此外,可以通过将从记录介质中读出的程序写入设置到插入计算机中的功能扩展板或者连接到计算机的功能扩展单元的存储器中、功能扩展板或者功能扩展单元的CPU根据程序的指令执行部分或者全部实际处理来实现上述功能。
虽然参考典型实施例对本发明进行了说明,但是应当理解,本发明不限于所公开的典型实施例。所附权利要求的范围符合最宽的解释以覆盖全部变形、等同结构和功能。
Claims (10)
1.一种语音信息处理设备,包括:
第一检测部,用于检测语音处理开始指示部的第一操作;
显示控制部,用于响应于所述语音处理开始指示部的所述第一操作,控制语音识别信息的显示;
第二检测部,用于检测所述语音处理开始指示部的第二操作;
获取部,用于响应于所述语音处理开始指示部的所述第二操作,获取语音信息;以及
语音识别部,用于对由所述获取部获得的语音信息执行语音识别处理。
2.根据权利要求1所述的语音信息处理设备,其特征在于,所述显示控制部控制所述显示,使得所述语音识别信息可以在视觉上与其它显示的信息相区别。
3.根据权利要求1或者2所述的语音信息处理设备,其特征在于,所述语音处理开始指示部是按钮;
所述第一操作是按下所述按钮;以及
所述第二操作是释放所述按钮。
4.根据权利要求1或者2所述的语音信息处理设备,其特征在于,所述语音处理开始指示部是按钮;
所述第一操作是部分按下所述语音处理开始指示按钮;以及
所述第二操作是完全按下所述按钮。
5.根据权利要求1或者2所述的语音信息处理设备,其特征在于,
如果存在显示的语音识别信息之外的语音识别词语,则所述显示控制部执行控制使得除了所述显示的语音识别信息之外还显示所述语音识别词语。
6.根据权利要求1或者2所述的语音信息处理设备,其特征在于,
如果包含在显示的语音识别信息中的对象是图形用户界面组件,则所述显示控制部执行控制使得显示用于识别所述图形用户界面组件的名称以与所述图形用户界面组件相关联。
7.根据权利要求1或者2所述的语音信息处理设备,其特征在于,还包括:相关项存储部,用于存储与显示的语音识别信息有关的词语,
其中,如果记录有对应于所述显示的语音识别信息的相关项,则所述显示控制部执行控制,使得用所述相关项代替所述语音识别信息,或者使得除了所述语音识别信息之外还显示所述相关项。
8.根据权利要求1或者2所述的语音信息处理设备,其特征在于,
所述显示控制部除了所述语音识别信息之外还显示语音识别信息的发音说明,所述发音说明用于使得所述语音识别信息被识别。
9.一种语音信息处理方法,包括如下步骤:
检测语音处理开始指示部的第一操作;
控制显示使得响应于检测到所述第一操作,显示语音识别信息;
检测所述语音处理开始指示部的第二操作;
获取步骤,响应于所述第二操作,获取语音信息;以及
对在所述获取步骤中获得的语音信息执行语音识别处理。
10.根据权利要求9所述的语音信息处理方法,其特征在于,控制所述显示使得所述语音识别信息可以在视觉上与其它显示的信息相区别。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005372428 | 2005-12-26 | ||
JP2005372428A JP2007171809A (ja) | 2005-12-26 | 2005-12-26 | 情報処理装置及び情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1991975A true CN1991975A (zh) | 2007-07-04 |
Family
ID=37891687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006101705522A Pending CN1991975A (zh) | 2005-12-26 | 2006-12-26 | 语音信息处理设备和语音信息处理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8032382B2 (zh) |
EP (1) | EP1811369A3 (zh) |
JP (1) | JP2007171809A (zh) |
KR (1) | KR100894457B1 (zh) |
CN (1) | CN1991975A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034328A (zh) * | 2011-08-05 | 2013-04-10 | 三星电子株式会社 | 电子设备以及提供其用户界面的方法 |
CN103336679A (zh) * | 2013-06-18 | 2013-10-02 | 北京百度网讯科技有限公司 | 语音数据的连续输入方法及装置 |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机系统 |
US9733895B2 (en) | 2011-08-05 | 2017-08-15 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
CN108538284A (zh) * | 2017-03-06 | 2018-09-14 | 北京搜狗科技发展有限公司 | 同声翻译结果的展现方法及装置、同声翻译方法及装置 |
CN110574102A (zh) * | 2017-05-11 | 2019-12-13 | 株式会社村田制作所 | 信息处理系统、信息处理装置、计算机程序以及词典数据库的更新方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5196114B2 (ja) * | 2007-07-17 | 2013-05-15 | ヤマハ株式会社 | 音声認識装置およびプログラム |
JP5035208B2 (ja) * | 2008-10-10 | 2012-09-26 | 株式会社デンソー | 情報処理装置,インタフェース提供方法およびプログラム |
JP2013019958A (ja) * | 2011-07-07 | 2013-01-31 | Denso Corp | 音声認識装置 |
US8751800B1 (en) | 2011-12-12 | 2014-06-10 | Google Inc. | DRM provider interoperability |
KR102003267B1 (ko) * | 2011-12-30 | 2019-10-02 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
JP6229287B2 (ja) * | 2013-04-03 | 2017-11-15 | ソニー株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
JP6659514B2 (ja) | 2016-10-12 | 2020-03-04 | 東芝映像ソリューション株式会社 | 電子機器及びその制御方法 |
EP3567471A4 (en) | 2017-11-15 | 2020-02-19 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
JP7009338B2 (ja) * | 2018-09-20 | 2022-01-25 | Tvs Regza株式会社 | 情報処理装置、情報処理システム、および映像装置 |
CN113794800B (zh) * | 2018-11-23 | 2022-08-26 | 华为技术有限公司 | 一种语音控制方法及电子设备 |
CN112602330B (zh) * | 2019-10-29 | 2023-07-11 | 海信视像科技股份有限公司 | 电子设备及非易失性存储介质 |
JP2021071807A (ja) * | 2019-10-29 | 2021-05-06 | 東芝映像ソリューション株式会社 | 電子機器およびプログラム |
EP3910626A1 (en) * | 2020-05-12 | 2021-11-17 | Deutsche Telekom AG | Presentation control |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6140639A (ja) | 1984-08-01 | 1986-02-26 | Matsushita Electric Ind Co Ltd | 音声入力コンピユ−タシステム |
US5890122A (en) * | 1993-02-08 | 1999-03-30 | Microsoft Corporation | Voice-controlled computer simulateously displaying application menu and list of available commands |
JP4279909B2 (ja) * | 1997-08-08 | 2009-06-17 | ドーサ アドバンスズ エルエルシー | 音声認識装置における認識対象表示方式 |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
US20020077830A1 (en) * | 2000-12-19 | 2002-06-20 | Nokia Corporation | Method for activating context sensitive speech recognition in a terminal |
JP2004295578A (ja) | 2003-03-27 | 2004-10-21 | Matsushita Electric Ind Co Ltd | 翻訳装置 |
KR100567828B1 (ko) | 2003-08-06 | 2006-04-05 | 삼성전자주식회사 | 향상된 음성인식 장치 및 방법 |
US20050075884A1 (en) | 2003-10-01 | 2005-04-07 | Badt Sig Harold | Multi-modal input form with dictionary and grammar |
JP2005242183A (ja) | 2004-02-27 | 2005-09-08 | Toshiba Corp | 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム |
-
2005
- 2005-12-26 JP JP2005372428A patent/JP2007171809A/ja not_active Withdrawn
-
2006
- 2006-12-21 US US11/614,242 patent/US8032382B2/en active Active
- 2006-12-22 EP EP06127077A patent/EP1811369A3/en not_active Withdrawn
- 2006-12-22 KR KR1020060132394A patent/KR100894457B1/ko active IP Right Grant
- 2006-12-26 CN CNA2006101705522A patent/CN1991975A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034328A (zh) * | 2011-08-05 | 2013-04-10 | 三星电子株式会社 | 电子设备以及提供其用户界面的方法 |
US9733895B2 (en) | 2011-08-05 | 2017-08-15 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
CN107396154A (zh) * | 2011-08-05 | 2017-11-24 | 三星电子株式会社 | 电子设备以及提供其用户界面的方法 |
CN103336679A (zh) * | 2013-06-18 | 2013-10-02 | 北京百度网讯科技有限公司 | 语音数据的连续输入方法及装置 |
CN103336679B (zh) * | 2013-06-18 | 2016-05-18 | 北京百度网讯科技有限公司 | 语音数据的连续输入方法及装置 |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机系统 |
CN108538284A (zh) * | 2017-03-06 | 2018-09-14 | 北京搜狗科技发展有限公司 | 同声翻译结果的展现方法及装置、同声翻译方法及装置 |
CN110574102A (zh) * | 2017-05-11 | 2019-12-13 | 株式会社村田制作所 | 信息处理系统、信息处理装置、计算机程序以及词典数据库的更新方法 |
CN110574102B (zh) * | 2017-05-11 | 2023-05-16 | 株式会社村田制作所 | 信息处理系统、信息处理装置、记录介质以及词典数据库的更新方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1811369A2 (en) | 2007-07-25 |
US8032382B2 (en) | 2011-10-04 |
KR100894457B1 (ko) | 2009-04-22 |
EP1811369A3 (en) | 2009-07-08 |
JP2007171809A (ja) | 2007-07-05 |
KR20070068269A (ko) | 2007-06-29 |
US20070150291A1 (en) | 2007-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1991975A (zh) | 语音信息处理设备和语音信息处理方法 | |
CN1191538C (zh) | 在超文本文档等之间导航用的多目标链接的方法和装置 | |
CN1100300C (zh) | 字符输入装置 | |
CN1242337C (zh) | 用于访问在一个网络上的信息的方法和系统 | |
CN1299224C (zh) | Url检索系统、服务器及url检索方法 | |
US20150310856A1 (en) | Speech recognition apparatus, speech recognition method, and television set | |
CN101137030A (zh) | 回放装置、搜索方法及程序 | |
CN1908965A (zh) | 信息处理装置及其方法和程序 | |
CN1530926A (zh) | 语音识别词典制作装置及信息检索装置 | |
CN1276546A (zh) | 信息处理方法、装置及介质 | |
CN1369168A (zh) | 手提式装置的手-耳用户界面 | |
CN101051516A (zh) | 基于连续剧内容的上次观看点播放内容的装置和方法 | |
CN1584886A (zh) | 内容检索系统 | |
CN1382288A (zh) | 用于有效概览和浏览的视频概要描述方案和生成视频概要描述数据的方法和系统 | |
CN1704926A (zh) | 信息处理装置和信息处理方法 | |
CN1748215A (zh) | 信息处理设备、和信息处理方法以及计算机程序 | |
EP3518530B1 (en) | Information processing apparatus, information processing method, program for scheduling the recording of a broadcast program | |
CN1949227A (zh) | 一种针对可播放媒体文件的搜索方法、系统及装置 | |
US8706484B2 (en) | Voice recognition dictionary generation apparatus and voice recognition dictionary generation method | |
CN111722893A (zh) | 一种电子设备图形用户界面交互方法、装置和终端设备 | |
JP2009069875A (ja) | コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体 | |
CN1107954C (zh) | 用于再生录制在录音媒体上的字符信息的装置和方法 | |
CN1975664A (zh) | 信息处理装置、信息处理方法、记录介质和程序 | |
JP2016029495A (ja) | 映像表示装置および映像表示方法 | |
JP2005165514A (ja) | アプリケーション表示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20070704 |