CN102867510A - 语音识别系统 - Google Patents
语音识别系统 Download PDFInfo
- Publication number
- CN102867510A CN102867510A CN2012102330651A CN201210233065A CN102867510A CN 102867510 A CN102867510 A CN 102867510A CN 2012102330651 A CN2012102330651 A CN 2012102330651A CN 201210233065 A CN201210233065 A CN 201210233065A CN 102867510 A CN102867510 A CN 102867510A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- controller
- respective item
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000001514 detection method Methods 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 19
- 241001269238 Data Species 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000007717 exclusion Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音识别系统,该语音识别系统包括用于在语音识别中使用的识别字典和被配置成通过使用识别字典来识别输入语音的控制器。控制器基于输入语音的信号电平来检测语音段、通过使用识别字典来识别对应于语音段的语音数据并且显示识别处理的识别结果和列表形式的对应于识别结果的相应项目。以列表形式显示的相应项目能够手动操作。
Description
技术领域
本公开涉及一种使得用户能够通过语音来至少部分地操作车载设备的语音识别系统。
背景技术
已知的语音识别系统将输入语音与预存储的比较候选进行比较,并且输出具有高的符合度的比较候选作为识别结果。近年来,提出了一种使得用户能够通过语音在不必用手操作的系统中输入电话号码的语音识别系统(参见对应于US 2007/0294086A的JP-2007-256643A)。此外,公开了一种用于通过有效地使用语音识别结果来方便用户操作的方法(参见JP-2008-14818A)。
由于这些语音识别技术的采用可以减少按钮操作等,因此,驾驶车辆的驾驶员可以使用确保安全的语音识别。即,如果驾驶员他自己或她自己使用语音识别,则优点变得特别显著。
在传统的语音识别系统中,在执行语音操作(也称作“语音命令控制”)的情况下,要求特定于语音操作的操作。例如,虽然某些系统可能允许基于按等级排列的列表显示的手动操作,但是,手动操作和语音操作通常是分离的。不同于手工操作,语音操作很难理解。
发明内容
鉴于前述内容做了本公开。本公开的目的是提供一种可以融合列表的手动操作和列表的语音操作并且改善可用性的语音识别系统。
根据本公开的示例,语音识别系统包括用于在语音识别中使用的识别字典和被配置成通过使用识别字典来识别输入语音的控制器。控制器被配置成执行话音活动检测处理、识别处理和列表处理。在话音活动检测处理中,控制器基于输入语音的信号电平来检测语音段。在识别处理中,在在话音活动检测处理中检测到语音段的情况下,控制器通过使用识别字典来识别对应于语音段的语音数据。在列表处理中,控制器显示识别处理的识别结果和列表形式的对应于识别结果的相应项目。以列表形式显示的相应项目是能够手动操作的。
根据以上配置,语音识别系统可以融合列表的手动操作和列表的语音操作,并且可以改善可用性。
附图说明
根据参考附图给出的以下详细描述,本公开的以上和其他目的、特征和优点将变得更加明白。在附图中:
图1是示出语音识别系统的框图;
图2是示出语音识别处理的流程图;
图3是示出语音信号的图;
图4是示出列表显示处理的流程图;
图5是示出手动操作处理的流程图;
图6A至6F是每个示出列表显示的图;以及
图7是示出列表显示中的可操作图标的图。
具体实施方式
下面将描述实施例。图1是示出一个实施例的语音识别系统1的框图。语音识别系统1被安装至车辆并且包括整体控制语音识别系统1的控制器10。控制器10包括具有中央处理单元(CPU)、只读存储器(ROM)、随机存取存储器(RAM)、输入/输出(I/O)和连接上述部件的总线线路的计算机。
控制器10与语音识别单元20、一组操作开关30和显示单元40连接。语音识别单元20包括语音输入装置21、语音存储装置22、语音识别装置23和显示确定装置24。
语音输入装置21被设置成输入语音,并且与麦克风50连接。将输入到语音输入装置21并且被语音输入装置21切割的语音作为语音数据存储在语音存储装置22中。
语音识别装置23执行对存储在语音存储装置22中的语音数据的识别。具体地,通过参考识别字典25,语音识别装置23将语音数据与预存储的比较候选进行比较,从而根据比较候选获得识别结果。识别字典25可以是存储比较候选的专用字典。在本实施例中,没有对比较候选进行分组等。将语音数据与存储在识别字典中的所有比较候选进行比较。
基于通过语音识别装置23获得的识别结果,显示确定装置24确定对应于识别结果的相应项目。准备对应于识别结果的相应项目,作为相应项目列表26。可以根据相应项目列表26来识别对应于每个识别结果的相应项目。
用户能够手动操作一组操作开关30。显示单元40可以包括例如液晶显示器。显示单元40向用户提供信息。
将描述本实施例的语音识别处理。由控制器10来执行语音识别处理。响应于通过一组操作开关30进行的预定操作,控制器10执行语音识别处理。
首先,在S100处,控制器10显示初始画面。在该步骤中,在显示单元40上显示初始列表显示。具体地,如图6A所示,在画面的上部显示显示“听”,并且此外,在显示“听”下面显示语音识别候选中的一部分语音识别候选。在图6A中,显示了四个项目“空气调节器”、“音乐”、“电话”和“搜索周边”。
在S110处,控制器10执行手动操作处理。在本实施例中,可以并行执行语音操作和手动操作。在语音识别处理期间,重复执行手动操作处理。稍后将描述手动操作处理的细节。
在S120处,控制器10确定是否出现了语音段。具体地,控制器10确定电平大于或等于阈值的信号是否经由麦克风50被输入到语音输入装置21。如果控制器10确定出现了语音段,对应于在S120处为是,则处理继续进行至S130。如果控制器10确定没有出现语音段,对应于在S120处为否,则处理返回S110。
如果检测到语音段,则在S130处,控制器10获取语音。具体地,输入到语音输入装置21的语音被获取,并且被放到缓存等中。在S140处,控制器10确定是否检测到第一非语音段(也称为第一无语音段)。在本实施例中,将其间经由麦克风50输入到语音输入装置21的信号的电平低于阈值的区段定义为非语音段。非语音段包括例如由于车辆的行进而导致的噪音。在S140处,如果非语音段持续预定时间T1,则该非语音段被确定为第一非语音段。如果控制器10确定检测到了第一非语音段,对应于在S140处为是,则处理继续进行至S150。在S150处,控制器10将在S130处获得的语音作为语音数据记录在语音存储装置22中。如果控制器10确定没有检测到第一非语音段,对应于在S140处为否,则处理返回S130以重复S130和随后的步骤。在以上步骤中,如果语音段在进行中,或者还没有持续预定时间T1的非语音段在进行中,则控制器10确定没有检测到第一非语音段。
在S150之后,处理继续进行至S160。在S160处,控制器10确定是否检测到第二非语音段(也称为第二无语音段)。在本实施例中,持续第二预定时间T2的非语音段被确定为第二非语音段。如果控制器10确定检测到了第二非语音段,对应于在S160处为是,则处理继续进行至S170。如果控制器10确定没有检测到第二非语音段,对应于在S160处为否,则处理返回S110以重复S110和随后的步骤。
现在,给出关于存储语音数据的说明。图3是示意性地示出经由麦克风50输入的语音的信号的图。在时间t1处,使用一组操作开关30来指示语音操作的开始。
在图3所示的示例中,从时间t2到时间t3的区段被确定为语音段A(在S120处为是)。只要确定没有检测到第一非语音段T1(在S140处为否),则获取语音(S130)。如果确定检测到了第一非语音段T1(在S140处为是),则记录对应于语音段A的语音数据(S150)。
此后,只要确定没有检测到第二非语音段T2(在S160处为否),则重复S110和随后的步骤。在图3所示的示例中,从时间t4到时间t5的区段被确定为语音段B(在S120处为是),并且记录对应于语音段B的语音数据(S150)。
此后,如果确定检测到第二非语音段T2(在S160处为是),则执行识别处理(S170)。因此,在图3所示的示例中,对应于语音段A和语音段B两个语音段的语音数据是识别处理的对象。在本实施例中,可以将多个语音数据作为识别处理的对象。
描述返回图2。在S170处,控制器10执行识别处理。在该识别处理中,将在S150处记录在语音存储装置22中的语音数据与识别字典25中的比较候选进行比较,并且从而,获得对应于语音数据的识别结果。
在S180处,控制器10执行列表处理。图4是示出列表处理的流程图。首先,在S181处,控制器10确定是否存在识别结果。在该步骤中,确定在S170处的识别处理中是否已经获得了任何识别结果。如果控制器10确定存在识别结果,对应于在S181处为是,则处理继续进行至S182。如果控制器10确定不存在识别结果,即,如果在S170处没有识别出语音(对应于在S181处为否),则控制器10结束列表处理,而不执行随后的步骤。
在S182处,控制器10显示识别结果。在该步骤中,在显示单元40上显示S170处的识别结果。在S183处,控制器10显示相应项目。通过参考相应项目列表26,显示确定装置24确定与语音识别装置23给出的识别结果对应的相应项目。具体地,在S183处,控制器10使得显示单元40显示通过显示确定装置24确定的相应项目。
描述返回图2。在S190处,控制器10确定是否存在确认操作。如果控制器10确定存在确认操作(在S190处为是),则语音识别处理结束。如果不存在确认操作,则重复S110和随后的步骤。
现在,将更加具体地描述图2中的S110处的手动操作处理。图5是示出手动操作处理的流程图。如上所述,在本实施例中,重复执行手动操作处理,使得手动操作可以与语音操作并行执行。
在S111处,控制器10确定是否执行手动操作。在该步骤中,例如,控制器10确定是否通过一组操作开关30来执行按钮操作。如果控制器10确定执行手动操作(在S111处为是),则处理继续进行至S112。如果控制器10确定不执行手动操作(在S111处为否),则手动操作处理结束。
在S112处,控制器10确定是否执行选择操作。在该步骤中,控制器10确定是否执行选择显示的相应项目的选择操作。如果控制器10确定执行选择操作(在S112处为是),则处理继续进行至S113。如果控制器10确定不执行选择操作(在S112处为否),则控制器10结束手动操作处理,而不执行随后的步骤。
在S113处,控制器10显示作为被选择的相应项目的选择项目。在显示单元40上显示选择项目,如在识别结果中的情况一样。在S114处,控制器10在显示单元40上显示对应于选择项目的相应项目。
为了便于理解上述语音识别处理,将更具体地描述列表显示。图6A至6F是每个示出列表显示的图。例如,初始列表显示是如图6A所示的这样的列表显示(S100)。如图6B所示,如果S170处的识别处理的识别结果为“音乐”,则显示识别结果“音乐”;此外,通过S180处的列表处理来显示对应于音乐的一组相应项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”。
在以上步骤中,只要不存在确认操作(在S190处为否),则允许进一步的语音操作。如图6C所示,如果S170处的识别处理的识别结果为“艺术家A”,则显示识别结果“艺术家A”;此外,通过S180处的列表处理来显示对应于艺术家A的一组相应项目“曲目A”、“曲目B”、“曲目C”和“曲目D”。
如图6D所示,如果S170处的识别处理的识别结果为“空气调节器”,则显示识别结果“空气调节器”;此外,在S180处的列表处理中显示对应于空气调节器的一组相应项目“温度”、“风量”、“内部循环”和“外部空气引入”。
在以上步骤中,只要不存在确认操作(在S190处为否),则允许进一步的语音操作。如图6E所示,如果S170处的识别处理的识别结果为“温度”,则显示识别结果“温度”;此外,通过S180处的列表处理来显示一组相应项目“25℃”、“27℃”、“27.5℃”和“28℃”。
如图6F所示,如果发出了进一步的语音,并且S170处的识别处理的识别结果为“25℃”,则显示识别结果“25℃”;此外,在S180处的列表处理中显示对应于25℃的一组相应项目“25.5℃”、“27℃”、“27.5℃”和“28℃”。关于“25℃”显示其他温度候选的原因是:即使发生错误的识别,用户也可以迅速地选择其他温度。
在本实施例中,只要不存在确认操作(在S190处为否),则重复执行手动操作处理(S110)。因此,也可以通过手动操作来实现上述列表显示。
例如,如图6B所示,如果语音识别结果为“音乐”,则显示对应于音乐的一组相应项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”。如图6C所示,在这种情况下,如果通过一组操作开关30执行了选择“艺术家A”的选择操作(手动操作)(在S112处为是),则显示所选择的项目“艺术家A”(S113);此外,显示对应于艺术家A的一组相应项目“曲目A”、“曲目B”、“曲目C”和“曲目D”(S114)。
可知,可以通过语音操作或手动操作来显示相同的列表显示。在本实施例中,不管列表显示,语音识别装置23将语音数据与存储在识别字典中的所有比较候选进行比较。因此,即使显示图6A所示的列表显示,也可以识别除四个项目“空气调节器”、“音乐”、“电话”和“搜索周边”以外的语音(例如,艺术家A、艺术家B)。因此,如果艺术家A为识别结果,则提供图6C所示的列表显示。
同样地,即使显示图6C所示的列表显示,也可以识别除四个项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”以外的语音(例如,空气调节器、温度)。因此,如果空气调节器为识别结果,则提供图6D所示的列表显示,而如果温度为识别结果,则提供图6E所示的列表显示。
在本实施例中,可以将多个语音数据作为单个识别处理的对象。因此,如果在执行语音识别之前,换言之,在检测到非语音段T2之前(在S160处为否),发出“音乐”并且之后发出“艺术家A1”,则显示图6C所示的列表显示而不显示图6B所示的列表显示。这样做是为了遵循用户意图。具体地,如果用户发出“音乐”并且此后发出“艺术家A”,则能想到用户意图是听“音乐”中的“艺术家A”的具体乐曲。在另外的示例中,如果在执行语音识别之前,换言之,在检测到非语音段T2之前(在S160处为否),发出“音乐”并且之后发出“空气调节器”,则将优先权给予后面的“空气调节器”,并且显示图6所示的列表显示。这样做是为了对用户的重新陈述作出反应。具体地,例如,如果用户发出“音乐”并且此后发出“空气调节器”,则能想到虽然已经说过“音乐”,但是用户最终想要操作空气调节器。可以通过与例如列表显示平衡来设计在将多个语音数据作为识别对象的情况下的显示形式。
将描述本实施例的语音识别系统1的优点。
在本实施例中,基于输入语音的信号电平来确定(检测)语音段(S120至S140),并且记录(S150)并识别(S170)对应于语音段的语音数据。此后,显示识别结果和对应于识别结果的列表(S180、S182、S183)。在这种情况下,只要不存在确认操作(在S190处为否),则重复执行话音活动检测,同时允许相应项目的显示列表的手动操作(S110)。
换言之,在本实施例中,重复执行话音活动检测,直到按下确认按钮等。因此,重复执行语音识别和对应于识别结果的列表显示。因此,即使在没有发生识别或发生了错误的识别的情况下,用户仍可以重复地发出语音,而不需要在发出之前的按钮操作。此外,由于自动检测语音段,因此,对发出时间选择没有限制。此外,由于以列表形式显示对应于识别结果的相应项目,并且由于列表也能够通过手动操作来操作,所以,语音操作可以与手动操作并行执行,并且因此,语音操作变得容易理解。因此,语音识别系统可以融合手动操作和语音操作,并且可以提供高的可用性。
在本实施例中,如果执行手动操作(在S111处为是),并且选择了相应项目(在S112处为是),则显示所选择的项目(S113)并且显示对应于所选择的项目的相应项目列表(S114)。如果发出了指示图6B所示的相应项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”中的“艺术家A”的语音,则显示艺术家A以及对应于艺术家A的相应项目“乐曲A”、“乐曲B”、“乐曲C”和“乐曲D”的列表。同样地,如果手动选择了图6B所示的相应项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”中的“艺术家A”,则显示艺术家A以及对应于艺术家A的相应项目“乐曲A”、“乐曲B”、“乐曲C”和“乐曲D”的列表。可知,响应于手动操作和语音操作两者提供了同样的列表显示。因此,容易理解语音操作。
此外,在本实施例中,以列表形式显示的相应项目是存储在识别字典25中的比较候选中的一部分比较候选。在图6B所示的示例中,“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”是比较候选中的一部分比较候选。因此,通过查看列表显示,用户可以从被显示为列表的相应项目中选择接下来要发出的语音。因此,语音操作变得容易理解。
本实施例将输入语音与所有比较候选进行比较,而不管以列表形式显示的相应项目。例如,如果在图6B所示的状态下发出了指示没有包括在列表显示中的“空气调节器”的语音,则可以识别语音“空气调节器”,并且因此,显示识别结果“空气调节器”以及对应于识别结果的相应项目“温度”、“风量”、“内部循环”和“外部空气引入”的列表。以这种方式,本实施例使得能够执行高度灵活的语音操作。
此外,在本实施例中,控制器10通过确定(检测)非语音段来检测语音段,非语音段是其间语音的信号电平低于阈值的区段。具体地,控制器10通过检测第一非语音段来检测语音段(在S140处为是和S150)。在检测到第二非语音段之前,控制器(10)重复检测第一非语音段以检测语音段,从而获得多个语音段(在S160处为否、S120至S150)。此后,控制器10识别相应地对应于多个语音段的多个语音数据(S170)。因此,控制器10一次可以识别多个语音数据。这扩展了语音操作多样性。
在本实施例中,步骤S120至S160可以对应于话音活动检测处理。S170可以对应于识别处理。S180,包括S181至S183,可以对应于列表处理。
实施例不限于上述示例,而是可以具有各种形式。
在以上实施例中,只要不存在确认操作,就重复执行语音识别(在S190处为否、S170)。此外,确认操作是通过例如一组操作开关30来输入的手动操作。可替换地,确认操作可以是通过语音来输入的语音操作。
此外,语音识别系统可以被配置成在手动操作发生时结束语音识别,而不是在S190处的确认操作发生时结束语音识别。在这种情况下,在S180之后,处理可以继续进行至S110,并且语音识别处理可以响应于S111处为是而结束。
在以上实施例中,描述了图6A至6F中的列表显示作为示例。可替换地,如果语音识别系统被配置成在手动操作发生时结束语音识别,则可以使用如图7所示的具有可操作图标的列表显示。在这种情况下,用户可以通过使用安装到方向盘等的操作按钮选择图标来执行手动操作。图7所示的示例假设上操作按钮、下操作按钮、左操作按钮和右操作按钮被安装到方向盘等。在这种情况下,上操作按钮和下操作按钮可以用于选择通风模式;左操作按钮可以用于变换为风量调节模式;而右操作按钮可以用于变换为温度调节模式。
即,如果设置有使用操作图标的列表显示,则通过手动操作来执行对列表的相应项目的下一个选择。因此,可以优选的是,在手动操作时结束语音识别。
在以上实施例中,使用预存储有比较候选的专用字典作为识别字典25。可替换地,可以使用通用字典作为识别字典25。通用字典可以不对具体发出的语音造成限制。
本公开有各个方面。例如,根据一个方面,语音识别系统可以如下进行配置。语音识别系统包括用于在语音识别中使用的识别字典(25)和被配置成通过使用识别字典(25)来识别输入语音的控制器(10)。控制器(10)被配置成执行话音活动检测处理、识别处理和列表处理。
在话音活动检测处理中,控制器(10)基于输入语音的信号电平来检测语音段。在识别处理中,如果在话音活动检测处理中检测到语音段,则控制器(10)通过使用识别字典(25)来识别对应于语音段的语音数据。在列表处理中,控制器(10)显示识别处理的识别结果和列表形式的对应于识别结果的相应项目。
以列表形式显示的相应项目能够手动操作。图6A至6F示出了以列表形式显示的相应项目的示例。例如,如果显示了图6A所示的初始画面并且发出语音“音乐”,则显示识别结果“音乐”以及对应于识别结果的相应项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”的列表。以上相应项目能够手动操作。例如,以上相应项目能够手动选择。
更具体地,根据以上语音识别系统,由于对应于识别结果的相应项目以列表形式显示并且能够手动操作,因此,语音操作和手动操作能够并行执行。因此,语音操作容易理解。以这种方式,语音识别系统融合手动操作和语音操作,并且提供高的可用性。
应当注意,传统的语音识别系统通常要求用户在发出语音之前操作按钮。按钮的操作触发语音识别。在以上传统的语音识别系统中,每次没有发生识别或发生了错误的识别的时候,用户需要操作按钮。此外,用户需要在操作按钮之后立即发出语音。这对发出时刻造成了限制。
鉴于上述问题,可以重复执行话音活动检测处理,直到检测到预定操作。例如,重复执行话音活动检测处理,直到按下确认按钮等。结果,重复执行识别处理和列表处理。因此,即使没有发生识别或发生了错误的识别,用户可以重复地发出语音而无需在发出语音之前操作按钮。即,可以除去在发出之前的按钮的操作。此外,由于自动检测语音段,因此,对发出时刻没有限制。以这种方式,语音识别系统增强了可用性。
以与响应于语音操作基本相同的方式响应于手动操作来显示列表是方便的。有鉴于此,以上语音识别系统可以被配置成使得响应于通过手动操作进行的相应项目的选择,控制器(10)显示作为所选择的相应项目的选择项目和列表形式的对应于选择项目的相应项目。例如,如果用户说出了图6B所示的相应项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”中的“艺术家A”,则如图6C所示,显示艺术家A以及对应于艺术家A的相应项目“乐曲A”、“乐曲B”、“乐曲C”和“乐曲D”的列表。类似地,如果用户手动选择了图6B所示的相应项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”中的“艺术家A”,则如图6C所示,显示艺术家A以及对应于艺术家A的相应项目“乐曲A”、“乐曲B”、“乐曲C”和“乐曲D”的列表。以这种方式,可以响应于手动操作和响应于语音操作来显示同一列表。语音操作变得容易理解。
能想到可以采用所谓的“通用字典”作为识别字典。但是,使用存储有比较候选的专用字典可以提高成功识别率。假设使用专用字典,则识别字典(25)可以存储预定的比较候选,并且相应项目可以是预定的比较候选中的一部分。例如,在图6B所示的情况下,相应项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”是比较候选中的一部分比较候选。在这种情况下,由于以列表形式显示的相应项目是比较候选中的一部分比较候选,所以用户可以看到显示列表以从所显示的比较候选中选择语音。以这种方式,语音操作变得容易理解。
此外,假设使用专用字典,则控制器(10)可以将语音数据与所有预定的比较候选进行比较,而不管以列表形式显示的相应项目。在该配置中,控制器(10)不仅将语音数据与被显示为列表的比较候选进行比较,而且还将语音数据与没有被显示为列表的比较候选进行比较。例如,如果显示图6A所示的初始画面并且发出了语音“音乐”,则显示识别结果“音乐”以及对应于识别结果的相应项目“艺术家A”、“艺术家B”、“艺术家C”和“艺术家D”的列表。在这种情况下,如果发出了没有在列表中显示的语音“空气调节器”,则可以识别语音“空气调节器”,并且因此,显示识别结果“空气调节器”以及对应于识别结果的相应项目“温度”、“风量”、“内部循环”和“外部空气引入”的列表。以这种方式,可以实现非常灵活的语音操作。
如上所述,预定操作的示例是确认按钮的按下。即,预定操作可以是预定的确认操作。应当注意,例如,预定的确认操作不仅包括确认按钮的按下,还包括语音操作,如语音“确认”的发出。
预定操作可以是通过列表处理以列表形式显示的相应项目的手动操作。在这种情况下,在手动操作发生时,可以结束语音识别处理。
采用任意上述配置可以使得用户即使在没有发生识别和发生了错误的识别的情况下仍然能够重复地发出语音来输入语音。可以除去在发出之前的按钮的用户操作。此外,由于自动检测语音段,因此,对发出时刻没有限制。
显示列表可以是如图6A至6F所示的比较候选的列表。可替换地,以列表形式显示的相应项目可以显示为可操作图标。例如,可以将以列表形式显示的相应项目显示为如图7所示的可操作图标。这便于手动操作并且使得语音操作能够平稳过渡到手动操作。
对于话音活动检测处理,以上语音识别系统可以如下配置。在话音活动检测处理中,控制器(10)通过检测非语音段来检测语音段,非语音段是其间输入语音的信号电平低于阈值的区段。在该配置中,可以相对容易地检测语音。
以上语音识别系统可以如下配置。非语音段包括第一非语音段和比第一非语音段长的第二非语音段。在话音活动检测处理中,在检测到第二非语音段之前,控制器(10)通过检测第一非语音段来重复检测语音段,从而获得多个语音段。在识别处理中,控制器(10)识别相应地对应于多个语音段的多个语音数据。在识别处理中,可以识别对应于多个语音段的多个语音数据。因此,可以一次识别多个语音数据。这扩展了语音操作多样性。
虽然参考本公开的实施例描述了本公开,然而,应当理解,本公开不限于这些实施例和结构。本公开意在覆盖各种更改和等同布置。此外,虽然上述各种组合和配置在本公开的精神和范围内,但是,包括更多元件、更少元件或仅单个元件的各种其他组合和配置也在本公开的精神和范围内。
Claims (10)
1.一种语音识别系统,包括:
识别字典(25),所述识别字典(25)用于在语音识别中使用;以及
控制器(10),所述控制器(10)被配置成通过使用所述识别字典(25)来识别输入语音,
其中,所述控制器(10)被配置成执行:
话音活动检测处理,用于基于所述输入语音的信号电平来检测语音段,
识别处理,用于在在所述话音活动检测处理中检测到所述语音段的情况下通过使用所述识别字典(25)来识别对应于所述语音段的语音数据,以及
列表处理,用于显示:
所述识别处理的识别结果以及
列表形式的对应于所述识别结果的相应项目,
其中,以列表形式显示的所述相应项目能够手动操作。
2.根据权利要求1所述的语音识别系统,其中:
所述话音活动检测处理被重复执行,直到检测到预定操作。
3.根据权利要求1所述的语音识别系统,其中:
响应于通过手动操作进行的所述相应项目的选择,所述控制器(10)显示:
作为被选择的相应项目的选择项目;以及
列表形式的对应于所述选择项目的所述相应项目。
4.根据权利要求1所述的语音识别系统,其中:
所述识别字典(25)存储预定的比较候选;以及
所述相应项目是所述预定的比较候选中的一部分。
5.根据权利要求1所述的语音识别系统,其中:
所述识别字典(25)存储预定的比较候选;以及
在所述识别处理中,所述控制器(10)将所述语音数据与全部所述预定的比较候选进行比较,而不管以列表形式显示的所述相应项目。
6.根据权利要求1所述的语音识别系统,其中:
所述预定操作是预定的确认操作。
7.根据权利要求1所述的语音识别系统,其中:
所述预定操作是通过所述列表处理以列表形式显示的所述相应项目的手动操作。
8.根据权利要求1所述的语音识别系统,其中:
以列表形式显示的所述相应项目能够显示为可操作图标。
9.根据权利要求1至8中的任一项所述的语音识别系统,其中:
在所述话音活动检测处理中,所述控制器(10)通过检测非语音段来检测所述语音段,所述非语音段是其间所述输入语音的信号电平低于阈值的区段。
10.根据权利要求9所述的语音识别系统,其中:
所述非语音段包括第一非语音段和比所述第一非语音段长的第二非语音段;
在所述话音活动检测处理中,在检测到所述第二非语音段之前,所述控制器(10)通过检测所述第一非语音段来重复检测所述语音段,从而获得多个语音段;以及
在所述识别处理中,所述控制器(10)识别相应地对应于所述多个语音段的多个语音数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011-150993 | 2011-07-07 | ||
JP2011150993A JP2013019958A (ja) | 2011-07-07 | 2011-07-07 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102867510A true CN102867510A (zh) | 2013-01-09 |
Family
ID=47439187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102330651A Pending CN102867510A (zh) | 2011-07-07 | 2012-07-05 | 语音识别系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130013310A1 (zh) |
JP (1) | JP2013019958A (zh) |
CN (1) | CN102867510A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106384590A (zh) * | 2016-09-07 | 2017-02-08 | 上海联影医疗科技有限公司 | 语音控制装置和语音控制方法 |
CN108780542A (zh) * | 2016-06-21 | 2018-11-09 | 日本电气株式会社 | 作业支持系统、管理服务器、便携式终端、作业支持方法以及程序 |
CN110308886A (zh) * | 2018-03-27 | 2019-10-08 | 三星电子株式会社 | 提供与个性化任务相关联的声音命令服务的系统和方法 |
CN111835935A (zh) * | 2019-04-15 | 2020-10-27 | 柯尼卡美能达株式会社 | 操作受理装置、控制方法、图像形成系统以及记录介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5980173B2 (ja) * | 2013-07-02 | 2016-08-31 | 三菱電機株式会社 | 情報処理装置および情報処理方法 |
JP2015026102A (ja) * | 2013-07-24 | 2015-02-05 | シャープ株式会社 | 電子機器 |
JP6011584B2 (ja) * | 2014-07-08 | 2016-10-19 | トヨタ自動車株式会社 | 音声認識装置及び音声認識システム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1083479A1 (de) * | 1999-09-08 | 2001-03-14 | Volkswagen Aktiengesellschaft | Verfahren zum Betrieb einer sprachgesteuerten Befehlseingabeeinheit in einem Kraftfahrzeug |
JP2003122393A (ja) * | 2001-10-19 | 2003-04-25 | Denso Corp | 入力装置、プログラム |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
CN1615508A (zh) * | 2001-12-17 | 2005-05-11 | 旭化成株式会社 | 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器 |
CN101162153A (zh) * | 2006-10-11 | 2008-04-16 | 丁玉国 | 一种语音控制的车载gps导航系统及其实现方法 |
CN101281745A (zh) * | 2008-05-23 | 2008-10-08 | 深圳市北科瑞声科技有限公司 | 一种车载语音交互系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317732A (en) * | 1991-04-26 | 1994-05-31 | Commodore Electronics Limited | System for relocating a multimedia presentation on a different platform by extracting a resource map in order to remap and relocate resources |
US5579431A (en) * | 1992-10-05 | 1996-11-26 | Panasonic Technologies, Inc. | Speech detection in presence of noise by determining variance over time of frequency band limited energy |
US5596680A (en) * | 1992-12-31 | 1997-01-21 | Apple Computer, Inc. | Method and apparatus for detecting speech activity using cepstrum vectors |
JP3004883B2 (ja) * | 1994-10-18 | 2000-01-31 | ケイディディ株式会社 | 終話検出方法及び装置並びに連続音声認識方法及び装置 |
AU707896B2 (en) * | 1995-02-15 | 1999-07-22 | British Telecommunications Public Limited Company | Voice activity detection |
FR2788615B1 (fr) * | 1999-01-18 | 2001-02-16 | Thomson Multimedia Sa | Appareil comportant une interface utilisateur vocale ou manuelle et procede d'aide a l'apprentissage des commandes vocales d'un tel appareil |
JP4201471B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
JP2003005897A (ja) * | 2001-06-20 | 2003-01-08 | Alpine Electronics Inc | 情報入力方法および装置 |
JP4093394B2 (ja) * | 2001-11-08 | 2008-06-04 | 株式会社デンソー | 音声認識装置 |
DE10158583A1 (de) * | 2001-11-29 | 2003-06-12 | Philips Intellectual Property | Verfahren zum Betrieb eines Barge-In-Dialogsystems |
JP4012143B2 (ja) * | 2003-12-16 | 2007-11-21 | キヤノン株式会社 | 情報処理装置およびデータ入力方法 |
KR100652645B1 (ko) * | 2004-07-23 | 2006-12-06 | 엘지전자 주식회사 | 푸시 투 토크형 이동 통신 단말기의 음성 검출 및 인식을이용한 발언권 관리 장치와 방법 |
JP2007171809A (ja) * | 2005-12-26 | 2007-07-05 | Canon Inc | 情報処理装置及び情報処理方法 |
US8762150B2 (en) * | 2010-09-16 | 2014-06-24 | Nuance Communications, Inc. | Using codec parameters for endpoint detection in speech recognition |
-
2011
- 2011-07-07 JP JP2011150993A patent/JP2013019958A/ja active Pending
-
2012
- 2012-07-05 CN CN2012102330651A patent/CN102867510A/zh active Pending
- 2012-07-05 US US13/541,805 patent/US20130013310A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1083479A1 (de) * | 1999-09-08 | 2001-03-14 | Volkswagen Aktiengesellschaft | Verfahren zum Betrieb einer sprachgesteuerten Befehlseingabeeinheit in einem Kraftfahrzeug |
JP2003122393A (ja) * | 2001-10-19 | 2003-04-25 | Denso Corp | 入力装置、プログラム |
CN1615508A (zh) * | 2001-12-17 | 2005-05-11 | 旭化成株式会社 | 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器 |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
CN101162153A (zh) * | 2006-10-11 | 2008-04-16 | 丁玉国 | 一种语音控制的车载gps导航系统及其实现方法 |
CN101281745A (zh) * | 2008-05-23 | 2008-10-08 | 深圳市北科瑞声科技有限公司 | 一种车载语音交互系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108780542A (zh) * | 2016-06-21 | 2018-11-09 | 日本电气株式会社 | 作业支持系统、管理服务器、便携式终端、作业支持方法以及程序 |
CN108780542B (zh) * | 2016-06-21 | 2023-05-02 | 日本电气株式会社 | 作业支持系统、管理服务器、便携式终端、作业支持方法以及程序 |
CN106384590A (zh) * | 2016-09-07 | 2017-02-08 | 上海联影医疗科技有限公司 | 语音控制装置和语音控制方法 |
CN110308886A (zh) * | 2018-03-27 | 2019-10-08 | 三星电子株式会社 | 提供与个性化任务相关联的声音命令服务的系统和方法 |
CN110308886B (zh) * | 2018-03-27 | 2024-03-01 | 三星电子株式会社 | 提供与个性化任务相关联的声音命令服务的系统和方法 |
CN111835935A (zh) * | 2019-04-15 | 2020-10-27 | 柯尼卡美能达株式会社 | 操作受理装置、控制方法、图像形成系统以及记录介质 |
CN111835935B (zh) * | 2019-04-15 | 2022-11-15 | 柯尼卡美能达株式会社 | 操作受理装置、控制方法、图像形成系统以及记录介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2013019958A (ja) | 2013-01-31 |
US20130013310A1 (en) | 2013-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102867510A (zh) | 语音识别系统 | |
US10991374B2 (en) | Request-response procedure based voice control method, voice control device and computer readable storage medium | |
US9211854B2 (en) | System and method for incorporating gesture and voice recognition into a single system | |
US9972317B2 (en) | Centralized method and system for clarifying voice commands | |
CN101313276B (zh) | 将语音和备选项输入形式组合到移动设备中 | |
EP1544719A2 (en) | Information processing apparatus and input method | |
US11068288B2 (en) | Method of controlling communication system including mode switching between modes for receiving a touch input or an audio input, communication system, and storage medium | |
US20170337036A1 (en) | Dialogue support apparatus, method and terminal | |
US20140156277A1 (en) | Information processing device and content retrieval method | |
US20120265536A1 (en) | Apparatus and method for processing voice command | |
US10559304B2 (en) | Vehicle-mounted voice recognition device, vehicle including the same, vehicle-mounted voice recognition system, and method for controlling the same | |
EP3226239A1 (en) | Voice command system | |
EP3593346A1 (en) | Graphical data selection and presentation of digital content | |
US8428314B2 (en) | Fingerprint-initiated navigating method, method for linking a fingerprint and a navigation destination, and navigating device | |
US20140343947A1 (en) | Methods and systems for managing dialog of speech systems | |
US20120109646A1 (en) | Speaker adaptation method and apparatus | |
JP2007314014A (ja) | 車載装置、プログラム、及び車載装置における使用データ決定方法 | |
JP2018028733A (ja) | 入力装置、入力装置の制御方法、表示装置および入力プログラム | |
US11942086B2 (en) | Description support device and description support method | |
JPWO2019103006A1 (ja) | 情報処理装置及び情報処理方法 | |
JP6929960B2 (ja) | 情報処理装置及び情報処理方法 | |
JP6710893B2 (ja) | 電子機器およびプログラム | |
US11107474B2 (en) | Character input device, character input method, and character input program | |
CN107195298B (zh) | 根本原因分析以及校正系统和方法 | |
JP2006178898A (ja) | 地点検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130109 |