CN101558443A - 声音识别装置 - Google Patents
声音识别装置 Download PDFInfo
- Publication number
- CN101558443A CN101558443A CNA2007800459044A CN200780045904A CN101558443A CN 101558443 A CN101558443 A CN 101558443A CN A2007800459044 A CNA2007800459044 A CN A2007800459044A CN 200780045904 A CN200780045904 A CN 200780045904A CN 101558443 A CN101558443 A CN 101558443A
- Authority
- CN
- China
- Prior art keywords
- voice recognition
- word
- dictionary
- control part
- dialogue control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 5
- 238000009795 derivation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 206010016322 Feeling abnormal Diseases 0.000 description 2
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Navigation (AREA)
- Traffic Control Systems (AREA)
Abstract
一种声音识别装置,包括将作为检索对象的词汇按照类别进行存储的类别数据库(DB),用于车载设备用,包括:将发出的声音作为发声数据输出的麦克(1);用于识别在类别(DB)中作为检索对象的类别的词汇的第一声音识别词典(2a);用于识别作为检索对象以外的类别的词汇的第二声音识别词典(2b);通过将从麦克传送来的发声数据与第一及第二声音识别词典所包含的词汇对照,识别发出的声音的声音识别部(3);在从声音识别部传送来的作为识别结果的词语是通过使用第二声音识别词典而得到的词语时,将表示该事实的消息作为呈现信息输出的对话控制部(4);以及将该呈现信息向外部呈现的呈现部(5)。
Description
技术领域
本发明涉及识别发出的声音的声音识别装置,特别是涉及减少伴随着声音的误识别而产生的问题的技术。
背景技术
以往,已知一种可以利用声音识别来发出各种指令的车载导航装置。在没有利用声音识别的车载导航装置中,通过从列表显示的菜单进行选择操作来指定类别,与之相对,在利用声音识别的车载导航装置中,即使在行驶中等无法看到列表显示的状态下,例如通过发出类别名称等的声音,也可以指定类别。
由于这样的声音识别是一种只能识别被预先录入声音识别词典中的词汇的技术,所以在通过声音识别进行输入时,用户需要准确发出表示类别的词语的声音。然而,由于在车载导航装置中作为检索对象的类别的数量一般而言有几十种以上,所以用户难以记住车载导航装置中可以利用的类别。另外,将车载导航装置中可以利用的类别与城市主页或互联网等用户在日常生活中看到的类别或其他车载导航装置可利用的类别区别开也是十分困难的。
另外,作为相关的技术,专利文献1披露了一种即使没有准确发出设施名称等输入对象的声音时也可以进行理想的声音识别的声音识别装置。在这种声音识别装置中,地图数据储存单元储存各设施的正式名称作为基本单词。在声音识别单元中,检测出基本单词内的派生关键字符串,使用该关键字符串将基本单词部分地变形。据此,自动生成以其他表现形式表达与基本单词相同的设施的派生单词。例如,在基本单词“静冈县立裾野高级中学”中包含关键字符串“静冈县立”、“高级中学”。然后,生成派生单词“裾野高级中学”或“裾野高中”。针对识别对象,使用这样的派生单词及基本单词,进行声音识别。所以,最好事先对每个对象储存一个单词。
专利文献1:日本专利特开平11-202891号公报
在应用于以往的车载导航装置的声音识别装置中,尽管有上述的问题,但仍然只有表现作为车载导航装置的功能的、可进行检索的类别的词汇才被录入声音识别词典中。因此,用户在发出表达车载导航装置中无法利用的类别的词语的声音时,会产生由于误识别为其他词语,车载导航装置进行与用户的期望不同的行为这样的问题。
本发明为解决上述的问题而作,其目的在于提供一种声音识别装置,可以防止利用声音识别进行动作的装置进行与用户的期望不同的行为。
发明内容
为达到上述目的,本发明所涉及的声音识别装置包括将作为检索对象的词汇按照类别进行存储的类别数据库,用于车载设备,包括:将发出的声音转换为电信号,作为发声数据输出的麦克风;用于识别在类别数据库中作为检索对象的类别的词汇的第一声音识别词典;用于识别在类别数据库中作为检索对象以外的类别的词汇的第二声音识别词典;通过将从麦克风传送来的发声数据与第一声音识别词典及第二声音识别词典所包含的词汇对照,识别发出的声音的声音识别部;在从声音识别部传送来的作为识别结果的词语是通过与第二声音识别词典所包含的词汇对照而得到的词语时,将表示该词语不是作为检索对象的类别这一事实的消息作为呈现信息输出的对话控制部;以及将从对话控制部传送来的呈现信息向外部呈现的呈现部。
根据本发明所涉及的声音识别装置,除了用于识别在类别数据库中作为检索对象的类别的词汇的第一声音识别词典之外,还包括用于识别在类别数据库中作为检索对象以外的类别的词汇的第二声音识别词典,使用发声数据和第一声音识别词典、第二声音识别词典对发出的声音进行识别,在该识别结果是基于第二声音识别词典得到时,呈现表示该词语不是作为检索对象的类别这一事实的消息,所以即使在发出类别数据库不能检索的词语的声音时,也能正确识别发声的词语。其结果是,可以解决由于误识别为其他词语而导致车载导航装置进行与用户的期望不同的行为这样的问题。另外,在识别结果是基于第二声音识别词典得到时,呈现表示该事实的消息,所以用户可以不会感到不快地使用声音识别功能。
附图说明
图1是表示应用本发明的实施方式1所涉及的声音识别装置的车载导航装置的结构的方框图。
图2是以对话控制处理为中心表示本发明的实施方式1所涉及的声音识别装置的动作的流程图。
图3是表示应用本发明的实施方式2所涉及的声音识别装置的车载导航装置的结构的方框图。
图4是以对话控制处理为中心表示本发明的实施方式2所涉及的声音识别装置的动作的流程图。
图5是表示应用本发明的实施方式3所涉及的声音识别装置的车载导航装置的结构的方框图。
图6是以对话控制处理为中心表示本发明的实施方式3所涉及的声音识别装置的动作的流程图。
图7是表示应用本发明的实施方式4所涉及的声音识别装置的车载导航装置的结构的方框图。
图8是以词典更新处理为中心表示本发明的实施方式4所涉及的声音识别装置的动作的流程图。
图9是表示应用本发明的实施方式5所涉及的声音识别装置的车载导航装置的结构的方框图。
图10是以对话控制处理为中心表示本发明的实施方式5所涉及的声音识别装置的动作的流程图。
图11是以由声音识别服务器进行的处理为中心表示本发明的实施方式5所涉及的声音识别装置的动作的流程图。
具体实施方式
下面,为更详细地说明本发明,参照附图来说明用于实施本发明的最佳方式。另外,在以下的说明中,说明本发明的实施方式所涉及的声音识别装置被应用于作为车载设备的车载导航装置的情况。
实施方式1
图1是表示本发明的实施方式1所涉及的声音识别装置的结构的方框图。该声音识别装置包括:麦克风(以下简称为“麦克”)1、声音识别词典2、声音识别部3、对话控制部4以及呈现部5。另外虽然未图示,但应用该声音识别装置的车载导航装置包括将作为检索对象的词汇按照类别进行存储的类别数据库作为检索数据库。
麦克1将用户发出的声音转换为电信号,作为发声数据传送至声音识别部3。声音识别词典2包括第一声音识别词典2a和第二声音识别词典2b。第一声音识别词典2a存储着在车载导航装置中可以作为检索对象的类别(以下称作“导航检索对象类别”)的词汇,换言之在类别数据库中作为检索对象的类别的词汇(例如车站、高速公路的出入口、医院等)。第二声音识别词典2b存储着不在导航装置的检索对象范围内的类别(以下称作“导航检索对象以外类别”)的词汇,换言之在类别数据库中作为检索对象以外的类别的词汇(例如学校、洗手间等)。
声音识别部3保存从麦克1传送来的发声数据,并且通过将该保存的发声数据与声音识别词典2(第一声音识别词典2a及第二声音识别词典2b)所存储的词汇对照,识别用户发出的声音。该声音识别部3的识别结果传送至对话控制部4。
对话控制部4在从声音识别部3传送来的识别结果表示通过与第一声音识别词典2a所包含的词汇对照而识别出时输出识别出的词语,在从声音识别部3传送来的识别结果表示通过与第二声音识别词典2b所包含的词汇对照而识别出时输出表示该事实的消息。据此,控制与用户的对话。从该对话控制部4输出的词语或者消息传送至呈现部5。
呈现部5例如由扬声器构成,将从对话控制部4传送来的词语或者消息以声音形式输出。该呈现部5也可以由显示器构成。此时,从对话控制部4传送来的词语或者消息显示在显示器的画面上。另外,呈现部5也可以由扬声器和显示器两者构成。
接下来,以由对话控制部4进行的对话控制处理为中心,参照图2所示的流程图来说明如上所述构成的本发明的实施方式1所涉及的声音识别装置的动作。
在对话控制处理中,首先接受识别结果(步骤ST11)。即,对话控制部4接受从声音识别部3传送来的识别结果。接下来,检查在步骤ST11中接受的识别结果是否是导航检索对象类别的词语(步骤ST12)。即,对话控制部4对识别结果表示是通过与第一声音识别词典2a所包含的词汇对照而识别出的,还是表示是通过与第二声音识别词典2b所包含的词汇对照而识别出的进行检查。
在步骤ST12中,若判断为识别结果是导航检索对象类别的词语,则进行识别类别检索(步骤ST13)。即,车载导航装置的未图示的控制部将通过声音识别得到的词汇作为检索关键字,检索类别数据库。之后,声音识别装置的动作结束。
另一方面,在步骤ST12中,若判断为识别结果不是导航检索对象类别的词汇,则输出表示该事实的消息(步骤ST14)。即,对话控制部4生成用户发声的词语在类别数据库中不存在这一事实的消息,传送至呈现部5。据此,呈现部5将从对话控制部4收到的消息以声音形式从扬声器输出;或者以字符形式在显示器的画面中显示。之后,声音识别装置的动作结束。
说明通过上述处理实现的具体例。例如,在发出车载导航装置的类别数据库中没有存储的类别的“学校”的声音时,声音识别部3使用第二声音识别词典2b正确识别出“学校”,将该识别结果传送至对话控制部4。接收到该识别结果的对话控制部4例如生成“由于在数据库中没有学校,所以无法检索”这样的消息,并传送至呈现部5。据此,上述消息由呈现部5以声音或者字符形式向用户呈现。
如以上说明,根据本发明的实施方式1所涉及的声音识别装置,由于即使发出车载导航装置的类别数据库无法检索的词语的声音时,也能正确识别出发声的词汇,所以可以解决由于误识别为其他词汇而导致车载导航装置进行与用户的期望不同的行为这样的问题。
实施方式2
图3是表示本发明的实施方式2所涉及的声音识别装置的结构的方框图。该声音识别装置在实施方式1所涉及的声音识别装置的基础上追加了检索数据库6及检索部7而构成。下面,以与实施方式1不同的部分为中心进行说明。
检索数据库6由类别数据库6a与名称数据库6b构成。类别数据库6a与实施方式1一样,按照类别存储有在车载导航装置中作为检索对象的词汇。另外,名称数据库存储着与类别无关的车载导航装置可检索的名称。检索部7根据来自对话控制部4的指令检索检索数据库6,将通过该检索得到的词语传送至对话控制部4。
接下来,以由对话控制部4进行的对话控制处理为中心,参照图4所示的流程图来说明如上所述构成的本发明的实施方式2所涉及的声音识别装置的动作。另外,对进行与实施方式1所涉及的声音识别装置同样的处理的步骤标注与实施方式1使用的标号相同的标号,省略其说明。
在对话控制处理中,首先接受识别结果(步骤ST11)。接下来,检查在步骤ST11接受的识别结果是否是导航检索对象类别的词语(步骤ST12)。在步骤ST12中,若判断为识别结果是导航检索对象类别的词汇,则进行识别类别检索(步骤ST13)。之后,声音识别装置的动作结束。
在上述步骤ST12中,若判断为识别结果不是导航检索对象类别的词语,则将识别结果的词语作为检索关键字来检索名称数据库(步骤ST21)。即,对话控制部4将识别结果的词语传送至检索部7。检索部7将从对话控制部4收到的词语作为检索关键字,检索检索数据库6中的名称数据库6b。然后,将通过该检索得到的词语返回对话控制部4。
接下来,输出检索结果(步骤ST22)。即,对话控制部4将从检索部7作为检索结果收到的词语传送至呈现部5。据此,呈现部5将从对话控制部4收到的表示检索结果的词语以声音形式从扬声器输出;或者以字符形式在显示器的画面中显示。之后,声音识别装置的动作结束。
说明通过上述处理实现的具体例。例如,在发出车载导航装置的类别数据库6a中没有存储的类别的“学校”的声音时,声音识别部3使用第二声音识别词典2b正确识别出“学校”,将该识别结果传送至对话控制部4。接收到该识别结果的对话控制部4指示检索部7将“学校”作为检索关键字,检索检索数据库6中的名称数据库6b。检索部7通过检索名称数据库6b,获取名称中包含“学校”的词语,例如“○○学校”及“××学校”,传送至对话控制部4。对话控制部4例如生成“找到○○学校、××学校”这样的消息,并传送至呈现部5。据此,上述消息以声音或者字符形式由呈现部5向用户呈现。
如以上说明,根据本发明的实施方式2所涉及的声音识别装置,除了上述的实施方式1所涉及的声音识别装置所带来的效果以外,还能取得下述的效果。即,在发出车载导航装置的类别数据库中无法检索的词语的声音时,将该词语作为检索关键字,检索与类别数据库6a分开准备的名称数据库6b,可以将通过该检索得到的词语向用户呈现。所以,例如在与“学校”这样的类别不同的类别中存在包含“学校”这样的名称的词语时,由于可以将该词语向用户呈现,所以具有能够进行更详细的检索这样的优点。
实施方式3
图5是表示本发明的实施方式3所涉及的声音识别装置的结构的方框图。该声音识别装置在实施方式1所涉及的声音识别装置的基础上追加了通信部8而构成。通信部8与网络9连接。下面,以与实施方式1不同的部分为中心进行说明。
通信部8根据来自对话控制部4的指令,例如使用网络搜索引擎来检索网络9上的网站,将通过该检索得到的词语传送至对话控制部4。作为网络9,例如可以使用互联网。
接下来,以由对话控制部4进行的对话控制处理为中心,参照图6所示的流程图来说明如上所述构成的本发明的实施方式3所涉及的声音识别装置的动作。另外,对进行与实施方式1所涉及的声音识别装置同样的处理的步骤标注与实施方式1使用的标号相同的标号,省略其说明。
在对话控制处理中,首先接受识别结果(步骤ST11)。接下来,检查在步骤ST11中接受的识别结果是否是导航检索对象类别的词语(步骤ST12)。在步骤ST12中,若判断为识别结果是导航检索对象类别的词汇,则进行识别类别检索(步骤ST13)。之后,声音识别装置的动作结束。
在上述步骤ST12中,若判断为识别结果不是导航检索对象类别的词语,则将识别结果的词语作为关键词来检索网络9(步骤ST31)。即,对话控制部4将识别结果的词语传送至通信部8。通信部8将从对话控制部4收到的词语作为关键词,例如使用网络搜索引擎来检索网络9。然后,将通过该检索得到的词语返回对话控制部4。
接下来,输出检索结果(步骤ST32)。即,对话控制部4将从通信部8作为检索结果收到的词汇传送至呈现部5。据此,呈现部5将从对话控制部4收到的表示检索结果的词语以声音形式从扬声器输出;或者以字符形式在显示器的画面中显示。之后,声音识别装置的动作结束。
说明通过上述处理实现的具体例。例如,在发出车载导航装置的类别数据库6a中没有存储的类别的“学校”的声音时,声音识别部3使用第二声音识别词典2b正确识别出“学校”,将该识别结果传送至对话控制部4。接收到该识别结果的对话控制部4指示检索部7将“学校”作为关键词,检索网络9。通信部8通过检索网络9获取在名称中包含“学校”的词语,传送至对话控制部4。对话控制部4生成表示在名称中包含“学校”的词语的消息,传送至呈现部5。据此,上述消息以声音或者字符形式由呈现部5向用户呈现。
如以上说明,根据本发明的实施方式3所涉及的声音识别装置,除了上述的实施方式1所涉及的声音识别装置所带来的效果以外,还能取得下述的效果。即,在发出车载导航装置的类别数据库中无法检索的词语的声音时,将该词语作为关键词来检索网络9,可以将通过该检索得到的词语向用户呈现。所以具有的优点是:即使在发出车载导航装置的类别数据库中没有存储的类别的词语的声音时,也可以将相关的信息向用户呈现。
实施方式4
图7是表示本发明的实施方式4所涉及的声音识别装置的结构的方框图。该声音识别装置在实施方式1所涉及的声音识别装置的基础上追加了词典更新部10而构成。在词典更新部10上安装PC卡11。下面,以与实施方式1不同的部分为中心进行说明。
在PC卡11中存储着用于更新第二声音识别词典2b的更新用声音识别词典11a。更新用声音识别词典11a存储着不在车载导航装置的检索对象范围内的导航检索对象以外类别的词汇,即对已有的第二声音识别词典2b进行追加或者删除之后的词汇。图7表示在实施方式1所涉及的第二声音识别词典2b中追加称作“鞋店”的新词语的更新用声音识别词典11a的例子。
词典更新部10通过安装PC卡11,将已有的第二声音识别词典2b替换为从PC卡11读出的更新用声音识别词典11a,作为新的第二声音识别词典2b。
接下来,以由词典更新部10进行的词典更新处理为中心,参照图8所示的流程图来说明如上所述构成的本发明的实施方式4所涉及声音识别装置的动作。另外,词典更新处理之外的动作与实施方式1所涉及的声音识别装置的动作相同。
在词典更新处理中,首先确认更新对象词典(步骤ST41)。即,词典更新部10确认第二声音识别词典2b的版本、以及从PC卡11读入的更新用声音识别词典11a的版本。接下来,检查是否需要更新(步骤ST42)。即,词典更新部10检查第二声音识别词典2b的版本是否比从PC卡11读入的更新用声音识别词典11a的版本老。
在该步骤ST42中,若判断为不必更新,则词典更新处理结束。另一方面,在步骤ST42中若判断为需要更新,接下来,将旧词典替换为新词典(步骤ST43)。即,词典更新部10将已有的第二声音识别词典2b替换为从PC卡11读入的更新用声音识别词典11a,作为新的第二声音识别词典2b。之后,词典更新处理结束。
如以上说明,根据本发明的实施方式4所涉及的声音识别装置,由于可以更新第二声音识别词典2b,因此,利用该更新可以识别出较老的第二声音识别词典2b不能识别的、导航检索对象以外类别的词语,例如“鞋店”。所以,由于可以追加用户欲发出声音的导航检索对象以外类别的词汇,所以在由于时代的变化等产生新类别时等,可以追加该新的类别。
实施方式5
图9是表示本发明的实施方式5所涉及的声音识别装置的结构的方框图。该声音识别装置在实施方式4所涉及的声音识别装置的基础上追加了通信部8、校正开关12及与网络9连接的声音识别服务器13,并且改变了对话控制部4及词典更新部10的功能而构成。下面,以与实施方式4不同的部分为中心进行说明。
使用校正开关12用于指示声音识别部3的识别结果的校正。表示有无该校正开关12的操作的操作信号传送至对话控制部4。在从校正开关12传送来的操作信号表示校正开关12未被操作时,对话控制部4进行与实施方式1所涉及的声音识别装置同样的动作。另一方面,在从校正开关12传送来的操作信号表示校正开关12被操作时,对话控制部4将保存在声音识别部3的发声数据取出并传送至通信部8,并将从通信部8传送来的更新用声音识别词典(后述)传送至词典更新部10。
通信部8根据来自对话控制部4的指令,通过网络9控制与声音识别服务器13之间的通信。具体而言,通信部8将从对话控制部4传送来的发声数据及第二声音识别词典2b通过网络9传送至声音识别服务器13,并将从声音识别服务器13传送来的更新用声音识别词典传送至对话控制部4。词典更新部10将已有的第二声音识别词典2b替换为从对话控制部4传送来的更新用声音识别词典,作为新的第二声音识别词典2b。
声音识别服务器13包括声音识别部13a和声音识别词典13b。声音识别词典13b除了第二声音识别词典2b中存储的导航检索对象以外类别的词汇以外,还储存其他类别的词汇(以下称作“服务器用类别”)。图9表示在实施方式1所涉及的第二声音识别词典2b的词汇中追加“鞋店”、“花店”这样的类别的例子。
声音识别部13a通过将从通信部8通过网络9传送来的发声数据与存储在声音识别词典13b中的词汇进行对照,识别由发声数据表示的声音。该声音识别部13a可以识别由发声数据表示的声音,且在与该发声数据对应的词汇不包含在从通信部8通过网络9收到的声音识别装置的第二声音识别词典2b中时,生成包含对发声数据进行声音识别时使用的词汇的更新用声音识别词典,通过网络9发送至通信部8。
接下来说明如上所述构成的本发明的实施方式5所涉及的声音识别装置的动作。首先,以由对话控制部4进行的对话控制处理为中心,参照图10所示的流程图进行说明。另外,对进行与实施方式1所涉及的声音识别装置同样的处理的步骤标注与实施方式1使用的标号相同的标号,省略其说明。
在对话控制处理中,首先接受识别结果(步骤ST11)。接下来,检查识别结果是否被校正(步骤ST51)。即,对话控制部4检查从校正开关12传送来的操作信号是否表示操作了校正开关12。在该步骤ST51中,若判断为识别结果没有被校正,则呈现该识别结果(步骤ST54)。之后,声音识别装置的动作结束。
另一方面,在步骤ST51中,若判断为识别结果被校正,则发送发声数据及第二声音识别词典(步骤ST52)。即,对话控制部4获取声音识别部3保存的发声数据及第二声音识别词典2b,传送至通信部8。通信部8将从对话控制部4传送来的发声数据及第二声音识别词典2b通过网络9传送至声音识别服务器13。对其进行响应,声音识别服务器13生成更新用声音识别词典,通过网络9发送至通信部8。由该声音识别服务器13进行的处理的细节后述。
接下来,更新第二声音识别词典(步骤ST53)。即,通信部8接收附带从声音识别服务器13通过网络9传送来的更新用声音识别词典的词典更新请求,传送至对话控制部4。对话控制部4将从通信部8收到的更新用声音识别词典传送至词典更新部10。词典更新部10将已有的第二声音识别词典2b替换为从对话控制部4传送来的更新用声音识别词典,作为新的第二声音识别词典2b。之后,声音识别装置的动作结束。
接下来,参照图11所示的流程图来说明由声音识别服务器13进行的处理的细节。在声音识别服务器13中,首先接受发声数据及第二声音识别词典(步骤ST61)。即,声音识别服务器13接收从声音识别装置的通信部8通过网络9传送来的发声数据及第二声音识别词典2b。这些发声数据及第二声音识别词典2b传送至声音识别部13a。
接下来,执行识别处理(步骤ST62)。即,声音识别部13a通过将步骤ST61接受的发声数据与存储在声音识别词典13b中的词汇对照,识别由发声数据表示的声音。接下来,检查步骤ST62的识别结果是否包含在接受的第二声音识别词典的词汇中(步骤ST63)。即,声音识别部13a检查在步骤ST62中识别出的词语是否包含在步骤ST61接受的第二声音识别词典2b中。在该步骤ST63中,若判断为识别结果包含在接受的第二声音识别词典的词汇中,则声音识别装置只是将其识别为产生识别错误,顺序返回步骤ST61,重复上述的处理。
另一方面,在步骤ST63中,若判断为步骤ST62的识别结果没有包含在接受的第二声音识别词典的词汇中,则发送词典更新请求(步骤ST64)。即,声音识别部13a生成包含识别结果的词汇的更新用声音识别词典,将其随同词典更新请求发送至声音识别装置。之后,顺序返回步骤ST61。如上所述,声音识别服务器13的处理结束。
说明通过上述处理实现的具体例。例如,在发出车载导航装置的类别数据库6a中没有存储的类别的“鞋店”的声音时,若第二声音识别词典2b没有包含“鞋店”,则声音识别部3不能识别发出的“鞋店”的声音。此时,用户操作校正开关12指示进行校正。据此,表示“鞋店”的发声数据及第二声音识别词典2b被发送至声音识别服务器13。在声音识别服务器13中,对发声数据执行声音识别处理。此处,在作为识别结果得到的词语“鞋店”没有包含在从声音识别装置接受的第二声音识别词典2b的词汇中时,生成包含该词语“鞋店”的更新用声音识别词典,发送至声音识别装置。在声音识别装置中,通过将已有的第二声音识别词典2b替换为接收的更新用声音识别词典,作为新的第二声音识别词典2b。据此,在声音识别装置中,以后可以正确地识别“鞋店”。
如以上说明,根据本发明的实施方式5所涉及的声音识别装置,在没有正确地识别出输入的发出声音时,用声音识别服务器13识别表示该发出声音的发声数据,推定发出的声音的内容,生成包含该词汇的更新用声音识别词典,可以使用词典更新部10的功能,将其作为车载导航装置的声音识别装置的第二声音识别词典2b录入。据此,可以不产生浪费、有效地更新车载导航装置的第二声音识别词典2b。
另外,在上述的实施方式5所涉及的声音识别装置中,将发声数据及第二声音识别词典2b发送至声音识别服务器13,在声音识别服务器13中使用服务器用类别的声音识别词典,执行声音识别处理,在不能识别发声数据时,生成包含该识别的词语的更新用声音识别词典,向声音识别装置应答。但声音识别装置也可以只将发声数据发送至声音识别服务器13,声音识别服务器13使用服务器用类别的声音识别词典来执行声音识别处理,在不能识别发声数据时,将该识别的词语向声音识别装置应答,声音识别装置生成包含该应答的词语的更新用声音识别词典,更新第二声音识别词典2b。根据该结构,可以减少在声音识别装置与声音识别服务器13之间收发的数据量。
工业上的实用性
如上所述,本发明所涉及的声音识别装置,在与存储检索对象的类别的词汇的第一声音识别词典以及存储未作为检索对象的类别的词汇的第二声音识别词典对照,识别出发出的声音是第二声音识别词典所包含的词汇时,呈现表示该事实的消息,用户可以不会感到不快地使用声音识别功能,适合用于车载用导航装置等。
Claims (5)
1.一种声音识别装置,包括将作为检索对象的词汇按照类别进行存储的类别数据库,该声音识别装置用于车载设备,包括:
将发出的声音转换为电信号来作为发声数据输出的麦克风;
用于识别在所述类别数据库中作为检索对象的类别的词汇的第一声音识别词典;
用于识别在所述类别数据库中作为检索对象以外的类别的词汇的第二声音识别词典;
通过将从所述麦克风传送来的发声数据与所述第一声音识别词典及所述第二声音识别词典所包含的词汇对照,识别发出的声音的声音识别部;
在从所述声音识别部传送来的作为识别结果的词语是通过与所述第二声音识别词典所包含的词汇对照而得到的词语时,将表示该词语不是作为检索对象的类别的消息作为呈现信息来输出的对话控制部;以及
将从所述对话控制部传送来的呈现信息向外部呈现的呈现部。
2.如权利要求1所述的声音识别装置,其特征在于,包括:
按照名称来存储作为检索对象的词汇的名称数据库;以及
将从对话控制部传送来的词语作为检索关键字来检索所述名称数据库,将通过该检索得到的、名称包含所述检索关键字的词语返回所述对话控制部的检索部,
所述对话控制部在从声音识别部传送来的作为识别结果的词语是通过与第二声音识别词典所包含的词汇对照而得到的词语时,将该词语传送至所述检索部,发出检索指令,将响应该指令而从所述检索部返回的、名称包含所述检索关键字的词语作为呈现信息输出。
3.如权利要求1所述的声音识别装置,其特征在于,
包括将从对话控制部传送来的词语作为关键词执行网络检索,将通过该网络检索得到的、包含所述关键词的词语返回所述对话控制部的通信部,
所述对话控制部在从声音识别部传送来的作为识别结果的词语是通过与第二声音识别词典所包含的词汇对照而得到的词语时,将该词语传送至所述通信部,发出网络检索指令,将响应该指令而从所述检索部返回的、包含所述关键词的词语作为呈现信息输出。
4.如权利要求1所述的声音识别装置,其特征在于,包括:
通过将已有的第二声音识别词典替换为从外部获取的更新用声音识别词典,作为新的第二声音识别词典的词典更新部。
5.如权利要求4所述的声音识别装置,其特征在于,包括:
指示从声音识别部传送来的识别结果的校正的识别校正单元;以及
根据来自所述识别校正单元的指令,将从麦克风通过对话控制部传送来的发声数据通过网络发送至声音识别服务器,在该声音识别服务器不能识别所述发声数据时从所述声音识别服务器通过网络来接收所生成的包含所使用的词汇的更新用声音识别词典,返回所述对话控制部的通信部,
词典更新部从所述对话控制部获取更新用声音识别词典,通过用该获取的更新用声音识别词典替换已有的第二声音识别词典,作为新的第二声音识别词典。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP338813/2006 | 2006-12-15 | ||
JP2006338813 | 2006-12-15 | ||
PCT/JP2007/069479 WO2008072413A1 (ja) | 2006-12-15 | 2007-10-04 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101558443A true CN101558443A (zh) | 2009-10-14 |
CN101558443B CN101558443B (zh) | 2012-01-04 |
Family
ID=39511444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800459044A Expired - Fee Related CN101558443B (zh) | 2006-12-15 | 2007-10-04 | 声音识别装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8195461B2 (zh) |
JP (1) | JP4790024B2 (zh) |
CN (1) | CN101558443B (zh) |
DE (1) | DE112007002665B4 (zh) |
HK (1) | HK1135225A1 (zh) |
WO (1) | WO2008072413A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102566961A (zh) * | 2010-12-31 | 2012-07-11 | 上海博泰悦臻电子设备制造有限公司 | 基于车载设备的应用程序的语音执行方法及装置 |
CN102915729A (zh) * | 2011-08-01 | 2013-02-06 | 佳能株式会社 | 语音关键词检出系统、创建用于其的词典的系统和方法 |
CN104246872A (zh) * | 2012-04-16 | 2014-12-24 | 株式会社电装 | 声音识别装置 |
CN104428766A (zh) * | 2012-07-03 | 2015-03-18 | 三菱电机株式会社 | 语音识别装置 |
CN104603871A (zh) * | 2012-08-02 | 2015-05-06 | 宝马股份公司 | 用于运行车辆用的语音控制的信息系统的方法和设备 |
CN105144285A (zh) * | 2013-06-19 | 2015-12-09 | 松下电器(美国)知识产权公司 | 声音对话方法及设备 |
CN107833578A (zh) * | 2016-09-15 | 2018-03-23 | 东芝泰格有限公司 | 声音识别装置、声音识别方法及计算机可读存储介质 |
CN110574102A (zh) * | 2017-05-11 | 2019-12-13 | 株式会社村田制作所 | 信息处理系统、信息处理装置、计算机程序以及词典数据库的更新方法 |
CN112349284A (zh) * | 2019-08-08 | 2021-02-09 | 本田技研工业株式会社 | 通知控制系统、通知控制装置、通知控制方法及存储介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8423353B2 (en) * | 2009-03-25 | 2013-04-16 | Microsoft Corporation | Sharable distributed dictionary for applications |
JP5426913B2 (ja) * | 2009-04-02 | 2014-02-26 | アルパイン株式会社 | 音声認識辞書編集装置及び音声認識装置 |
JP5378907B2 (ja) * | 2009-08-07 | 2013-12-25 | 株式会社豊田中央研究所 | 音声対話装置及び音声対話プログラム |
JP2011232619A (ja) * | 2010-04-28 | 2011-11-17 | Ntt Docomo Inc | 音声認識装置および音声認識方法 |
JP6150268B2 (ja) * | 2012-08-31 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 単語登録装置及びそのためのコンピュータプログラム |
JP6281856B2 (ja) * | 2012-08-31 | 2018-02-21 | 国立研究開発法人情報通信研究機構 | ローカル言語資源の補強装置及びサービス提供設備装置 |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
WO2015073019A1 (en) * | 2013-11-15 | 2015-05-21 | Intel Corporation | System and method for maintaining speach recognition dynamic dictionary |
JP6597527B2 (ja) * | 2016-09-06 | 2019-10-30 | トヨタ自動車株式会社 | 音声認識装置および音声認識方法 |
US20190019516A1 (en) * | 2017-07-14 | 2019-01-17 | Ford Global Technologies, Llc | Speech recognition user macros for improving vehicle grammars |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3397372B2 (ja) * | 1993-06-16 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
JP3579971B2 (ja) | 1995-07-28 | 2004-10-20 | マツダ株式会社 | 車載用地図表示装置 |
JPH09230889A (ja) | 1996-02-23 | 1997-09-05 | Hitachi Ltd | 音声認識応答装置 |
JPH11202891A (ja) | 1998-01-12 | 1999-07-30 | Toyota Motor Corp | 音声認識装置 |
JPH11224265A (ja) * | 1998-02-06 | 1999-08-17 | Pioneer Electron Corp | 情報検索装置及び情報検索方法並びに情報検索プログラムを記録した記録媒体 |
JP2000075887A (ja) * | 1998-08-31 | 2000-03-14 | Sony Corp | パターン認識装置、方法及びシステム |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
EP1083545A3 (en) * | 1999-09-09 | 2001-09-26 | Xanavi Informatics Corporation | Voice recognition of proper names in a navigation apparatus |
JP4116233B2 (ja) * | 2000-09-05 | 2008-07-09 | パイオニア株式会社 | 音声認識装置ならびにその方法 |
JP4283984B2 (ja) * | 2000-10-12 | 2009-06-24 | パイオニア株式会社 | 音声認識装置ならびに方法 |
JP2002123290A (ja) * | 2000-10-16 | 2002-04-26 | Pioneer Electronic Corp | 音声認識装置ならびに音声認識方法 |
JP2002123279A (ja) * | 2000-10-16 | 2002-04-26 | Pioneer Electronic Corp | 施設検索装置ならびにその方法 |
JP2002215186A (ja) | 2001-01-12 | 2002-07-31 | Auto Network Gijutsu Kenkyusho:Kk | 音声認識システム |
DE10119677A1 (de) * | 2001-04-20 | 2002-10-24 | Philips Corp Intellectual Pty | Verfahren zum Ermitteln von Datenbankeinträgen |
JP2002366578A (ja) | 2001-06-08 | 2002-12-20 | Mitsubishi Electric Corp | 車載情報端末装置および情報検索システム |
JP3576511B2 (ja) | 2001-09-19 | 2004-10-13 | 松下電器産業株式会社 | 音声対話装置 |
JP4275357B2 (ja) | 2002-06-11 | 2009-06-10 | 三菱電機株式会社 | 音声認識装置、辞書管理方法およびプログラム |
US7437296B2 (en) * | 2003-03-13 | 2008-10-14 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation apparatus and information search apparatus |
JP2004333729A (ja) | 2003-05-06 | 2004-11-25 | All Nippon Airways Co Ltd | 音声認識による航空券電話予約システム |
JP2005044071A (ja) | 2003-07-25 | 2005-02-17 | Sharp Corp | 電子辞書 |
JP2005189667A (ja) * | 2003-12-26 | 2005-07-14 | Mitsubishi Electric Corp | 車載機器、音声対話ドキュメント作成サーバ及びこれらを用いたナビゲーションシステム |
JP4705023B2 (ja) * | 2004-06-10 | 2011-06-22 | パナソニック株式会社 | 音声認識装置、音声認識方法、及びプログラム |
JP4684583B2 (ja) | 2004-07-08 | 2011-05-18 | 三菱電機株式会社 | 対話装置 |
CN100375006C (zh) * | 2006-01-19 | 2008-03-12 | 吉林大学 | 车辆导航装置语音控制系统 |
DE102006029755A1 (de) * | 2006-06-27 | 2008-01-03 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
-
2007
- 2007-10-04 JP JP2008549220A patent/JP4790024B2/ja not_active Expired - Fee Related
- 2007-10-04 US US12/447,352 patent/US8195461B2/en not_active Expired - Fee Related
- 2007-10-04 WO PCT/JP2007/069479 patent/WO2008072413A1/ja active Application Filing
- 2007-10-04 DE DE112007002665.0T patent/DE112007002665B4/de active Active
- 2007-10-04 CN CN2007800459044A patent/CN101558443B/zh not_active Expired - Fee Related
-
2010
- 2010-02-09 HK HK10101446.6A patent/HK1135225A1/xx not_active IP Right Cessation
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102566961A (zh) * | 2010-12-31 | 2012-07-11 | 上海博泰悦臻电子设备制造有限公司 | 基于车载设备的应用程序的语音执行方法及装置 |
CN102915729A (zh) * | 2011-08-01 | 2013-02-06 | 佳能株式会社 | 语音关键词检出系统、创建用于其的词典的系统和方法 |
CN102915729B (zh) * | 2011-08-01 | 2014-11-26 | 佳能株式会社 | 语音关键词检出系统、创建用于其的词典的系统和方法 |
CN104246872A (zh) * | 2012-04-16 | 2014-12-24 | 株式会社电装 | 声音识别装置 |
CN104428766B (zh) * | 2012-07-03 | 2017-07-11 | 三菱电机株式会社 | 语音识别装置 |
CN104428766A (zh) * | 2012-07-03 | 2015-03-18 | 三菱电机株式会社 | 语音识别装置 |
CN104603871A (zh) * | 2012-08-02 | 2015-05-06 | 宝马股份公司 | 用于运行车辆用的语音控制的信息系统的方法和设备 |
CN105144285A (zh) * | 2013-06-19 | 2015-12-09 | 松下电器(美国)知识产权公司 | 声音对话方法及设备 |
CN105144285B (zh) * | 2013-06-19 | 2018-11-02 | 松下电器(美国)知识产权公司 | 声音对话方法及设备 |
USRE49014E1 (en) | 2013-06-19 | 2022-04-05 | Panasonic Intellectual Property Corporation Of America | Voice interaction method, and device |
CN107833578A (zh) * | 2016-09-15 | 2018-03-23 | 东芝泰格有限公司 | 声音识别装置、声音识别方法及计算机可读存储介质 |
CN107833578B (zh) * | 2016-09-15 | 2021-11-23 | 东芝泰格有限公司 | 声音识别装置、声音识别方法及计算机可读存储介质 |
CN110574102A (zh) * | 2017-05-11 | 2019-12-13 | 株式会社村田制作所 | 信息处理系统、信息处理装置、计算机程序以及词典数据库的更新方法 |
CN110574102B (zh) * | 2017-05-11 | 2023-05-16 | 株式会社村田制作所 | 信息处理系统、信息处理装置、记录介质以及词典数据库的更新方法 |
CN112349284A (zh) * | 2019-08-08 | 2021-02-09 | 本田技研工业株式会社 | 通知控制系统、通知控制装置、通知控制方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2008072413A1 (ja) | 2008-06-19 |
HK1135225A1 (en) | 2010-05-28 |
US8195461B2 (en) | 2012-06-05 |
US20100076751A1 (en) | 2010-03-25 |
DE112007002665B4 (de) | 2017-12-28 |
JPWO2008072413A1 (ja) | 2010-03-25 |
JP4790024B2 (ja) | 2011-10-12 |
CN101558443B (zh) | 2012-01-04 |
DE112007002665T5 (de) | 2009-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101558443B (zh) | 声音识别装置 | |
CN103035240B (zh) | 用于使用上下文信息的语音识别修复的方法和系统 | |
JP4053141B2 (ja) | 音声に基づくタスク自動分類の方法、呼自動分類の方法及びタスク自動分類システム | |
JP5796496B2 (ja) | 入力支援システム、方法、およびプログラム | |
US9305553B2 (en) | Speech recognition accuracy improvement through speaker categories | |
CN100578474C (zh) | 多模态同步结构中的用户接口和动态语法 | |
US20040260543A1 (en) | Pattern cross-matching | |
US20020088336A1 (en) | Method of identifying pieces of music | |
JP2004295837A (ja) | 音声制御方法、音声制御装置、音声制御プログラム | |
CN101366075A (zh) | 话音控制式无线通信装置系统的控制中心 | |
JP2011018327A (ja) | 質問応答データベース拡張装置および質問応答データベース拡張方法 | |
US20060069563A1 (en) | Constrained mixed-initiative in a voice-activated command system | |
JP2008015439A (ja) | 音声認識システム | |
KR20010007210A (ko) | 음성 메시지 내의 키 세그먼트 스포팅 방법 | |
JP5452407B2 (ja) | オペレータ入力支援方法及び装置 | |
CN110970026A (zh) | 语音交互匹配方法、计算机设备以及计算机可读存储介质 | |
CN1342017A (zh) | 语音对话系统 | |
CN113436614A (zh) | 语音识别方法、装置、设备、系统及存储介质 | |
US20050086057A1 (en) | Speech recognition apparatus and its method and program | |
JP5238395B2 (ja) | 言語モデル作成装置および言語モデル作成方法 | |
JP2003162293A (ja) | 音声認識装置及び方法 | |
CN113676527A (zh) | 信息推送方法、装置、设备及存储介质 | |
US10832675B2 (en) | Speech recognition system with interactive spelling function | |
US20080046230A1 (en) | Reception support system and program therefor | |
JP4049456B2 (ja) | 音声情報利用システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1135225 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1135225 Country of ref document: HK |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120104 Termination date: 20191004 |