JP5772214B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP5772214B2 JP5772214B2 JP2011115081A JP2011115081A JP5772214B2 JP 5772214 B2 JP5772214 B2 JP 5772214B2 JP 2011115081 A JP2011115081 A JP 2011115081A JP 2011115081 A JP2011115081 A JP 2011115081A JP 5772214 B2 JP5772214 B2 JP 5772214B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- distribution
- probability distribution
- appearance probability
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、このような問題を解決するためになされたものであり、トピックに対する発話出現確率分布の適応度を判定する音声認識装置を提供することを目的とする。
このように、トピックに応じて発話出現確率分布を徐々に変化させる場合、変化途中の発話出現確率分布には、確率分布の偏りが小さく変化前後のどちらのトピックに対する適応度も低い状態が生じることがある。したがって、発話出現確率分布の偏りが小さくトピックに対する適応度が低い状態を判定することにより、トピックに対する適応度に基づいて適切な処理を実行できる。
これにより、例えば、トピックに対する発話出現確率分布の適応度が低いと適応判定手
段が判定する場合には、発話出現確率分布を適切な分布に変更することができる。
請求項6に記載の発明によると、適応判定手段は、トピックに対する発話出現確率分布の適応度をユーザに報知するよう指令する。
これにより、例えば音声認識装置による音声認識結果が発話のトピックに適応していないとユーザが判断すると、ユーザが適応クリアスイッチを操作することにより、現在使用されている発話出現確率分布を所定の分布状態に設定できる。その結果、発話出現確率分布を発話のトピックに適応させる処理をやり直すことができる。所定の分布状態の発話出現確率分布とは、音声認識起動時に発話出現確率分布として設定される初期分布でもよいし、特定のトピックに適応した確率分布でもよい。
エントロピーまたは最大値であれば、平滑化すると偏りが平均化されて小さくなっている発話出現確率分布に対して、偏りが小さいために発話出現確率分布がトピックに適応していないと判定できる。
請求項16に記載の発明によると、適応判定手段の指令により報知された可変認識手段による音声認識結果をユーザが選択できる選択スイッチを備える。
[第1実施形態]
図1は、第1実施形態による音声認識機能を持たせたナビゲーションシステム2の概略構成を示すブロック図である。
ナビゲーションシステム2は、車両に搭載されて用いられるいわゆるカーナビゲーションシステムであり、制御回路10、通信装置12、外部メモリ14、表示装置16、リモコンセンサ18、位置検出器20、データ入力器30、操作スイッチ群32、および音声認識装置40を備えている。尚、制御回路10および音声認識装置40はそれぞれ通常のマイクロコンピュータとして構成されており、内部には、周知のCPU、ROM、RAM、I/Oおよびこれらの構成を接続するバスラインが備えられている。
表示装置16は、例えばカラー画像表示装置であり、表示装置16の画面には、位置検出器20から入力された車両現在位置マークと、データ入力器30より入力された地図データと、さらに地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。
音声認識装置40は、音声抽出部42と、音声認識部44と、対話制御部46と、音声合成部48と、マイク50と、スピーカ52と、スイッチ54と、制御部56とを備えている。音声認識装置40は、記憶装置に記憶されている処理プログラムを実行することにおり、ユーザによる発話を音声認識する。
次に、音声認識部44と対話制御部46についてさらに説明する。
図2に示すように、音声認識部44は、抽出結果記憶部442と照合部444と発話出現確率分布格納部446とを有している。対話制御部46は、処理部462と入力部464と発話出現確率分布制御部466と分布記憶部468と分布偏り算出部470とトピック適応判定部472とを有している。
一方、制御回路10は、ユーザからの操作またはコマンド指示を操作スイッチ群32や音声認識装置40を介して受け付ける。そして、制御回路10は、ユーザからの操作またはコマンド指示に基づく発話出現確率分布に対する制御指示を対話制御部46へ出力する。
対話制御部46の処理部462は、音声認識部44が認識した発話の認識結果を制御回路10に出力する。また、入力部464は、制御回路10から入力する発話出現確率分布に対する制御指示または音声認識部44による認識結果を発話出現確率分布制御部466に出力する。
次に、発話出現確率分布とトピックとの対応について説明する。
発話出現確率分布格納部446は、ユーザから音声入力される発話の出現確率分布データを発話出現確率分布として格納している。発話出現確率分布は、例えば、一つ以上の辞書を重み付け結合したものや、n−グラムモデルなどの言語モデルによって表現される。
これに対し、図3の(C)に示すように発話出現確率分布の偏りが大きくなると、発話出現確率分布は、「音楽」に関するトピックに対応して適切に設定されていると判定できる。
本実施形態のナビゲーションシステム2において実行される音声認識処理1について、図4のフローチャートを参照して説明する。図4に示すフローチャートは、音声認識部44および対話制御部46にて常時実行される。
本実施形態のナビゲーションシステム2において実行される音声認識処理の他の例について、図5のフローチャートを参照して説明する。図5に示すフローチャートは、スイッチ54が押されている間、音声認識部44および対話制御部46にて実行される。
S528における上記処理に代えて、発話出現確率分布制御部466は、分布の偏りが所定値以上であり、最後にトピックに適応していると判定された発話出現確率の適応分布を分布記憶部468に記憶しておき、使用中の発話出現確率分布がトピックに適応していない場合には、発話出現確率分布格納部446に格納されている発話出現確率分布をこの適応分布に切り替えてもよい。
確率分布の偏りが所定値以上の場合(S524:Yes)、トピック適応判定部472は、使用中の発話出現確率分布はトピックに対する適応度が高く、発話出現確率分布に基づいて音声認識を高精度に処理できると判断し、S530に処理を移行する。
第1実施形態のナビゲーションシステム2において実行される音声認識処理の他の例について、図7のフローチャートを参照して説明する。図7に示すフローチャートは、スイッチ54が押されていないときに、音声認識部44および対話制御部46にて実行される。
偏りが所定値以上であれば(S552:Yes)、トピック適応判定部472は、発話出現確率分布がトピックに適応していると判定し、処理部462から出力される音声認識結果をコマンドとして採用可能であると制御回路10に報知する(S554)。これにより、制御回路10は、音声認識装置40による認識結果をコマンドとして解釈し、コマンドに基づいて所定の処理を実行する。
また、図5のS510〜S516、S524の処理が本発明の適応判定手段が実行する機能に相当し、S522が分布偏り算出手段が実行する機能に相当し、S528が分布設定手段が実行する機能に相当する。
図8に、第2実施形態による音声認識装置の音声認識部44および対話制御部60の構成を示す。図8の構成では、トピック適応判定部474から照合部444に音声認識実行指令が出力されている点が図2の構成と異なっている。その他、図8において図2と実質的に同一構成部分には同一符号を付している。
具体的には、発話出現確率分布がトピックに適応していないと判定すると、トピック適応判定部474は、例えば照合部444に指令して、音声抽出部42から入力された音声データと、発話出現確率分布格納部446に格納されている発話出現確率分布において出現確率が設定されている発話との照合を行う音声認識処理を中止させる。
[第3実施形態]
図9に、第3実施形態による音声認識装置70の構成を示し、図10に、第3実施形態による音声認識処理のフローチャートを示す。
図10のS540〜S544の処理は、図4のS500〜S504の処理と実質的に同一である。
第3実施形態では、適応クリアスイッチ72が本発明の適応クリアスイッチに相当する。
図11に、第4実施形態による音声認識装置の音声認識部44および対話制御部80の構成を示す。図11の構成では、分布偏り算出部470の前に分布平滑化処理部476が設けられている点が図2の構成と異なっている。その他、図11において図2と実質的に同一構成部分には同一符号を付している。
図12の(A)、(B)の上段に示す平滑化前の確率分布は、このままの分布状態でエントロピーまたは最大値を算出することにより確率分布の偏りを算出すると、偏りが所定値以上になるので、トピック適応判定部472は、両方の確率分布は特定のトピックに対応していると判定する。
次に、第4実施形態による音声認識処理の例について、図13のフローチャートを参照して説明する。
偏りが所定値未満の場合(S564:No)、トピック適応判定部472は、使用中の発話出現確率分布はトピックに適応していないという判定結果を制御回路10に通知する(S568)。
第4実施形態では、分布平滑化処理部476が本発明の平滑化手段に相当する。
図14に、第5実施形態による音声認識装置の音声認識部44および対話制御部90の構成を示す。図14の構成では、分布偏り算出部470が算出する発話出現確率分布の偏りに基づき、発話出現確率分布格納部446に格納されている発話出現確率分布が特定のトピックに適応している発話出現確率分布の特定分布と類似しているか否かをトピック適応判定部478が判定する点が図2の構成と異なっている。その他、図14において図2と実質的に同一構成部分には同一符号を付している。
そこで、第5実施形態では、分布偏り算出部470が算出する発話出現確率分布の偏りが所定値以上の場合、トピック適応判定部478は、発話出現確率分布格納部446に格納されている発話出現確率分布と、図15の(B)、(C)に示すように特定のトピックに適応した発話出現確率分布の特定分布との類似度を判定し、類似度が高ければ発話出現確率分布はトピックに適応していると判定する。発話出現確率分布の特定分布は分布記憶部468に記憶されている。
次に、第5実施形態による音声認識処理の例について、図16のフローチャートを参照して説明する。
S590において発話出現確率分布制御部466は、発話出現確率分布格納部446に格納されている使用中の発話出現確率分布がトピックに適応していないことを入力部464を介して制御回路10から通知されると、使用中の発話出現確率分布を、分布記憶部468に記憶されている特定分布のうち、使用中の発話出現確率分布に最も距離の近い特定分布に切り替える。
第5実施形態では、トピック適応判定部478が本発明の適応判定手段およびコマンド設定手段に相当する。
図17に、第6実施形態による音声認識装置の音声認識部100および対話制御部110の構成を示す。図17において、図2と実質的に同一構成部分には同一符号を付している。
照合部444は、音声抽出部42から入力された音声データに対して、通常、固定確率分布格納部448に格納されている固定確率分布において出現確率が設定されている発話との照合を行う。
次に、第6実施形態による音声認識処理の例について、図19のフローチャートを参照して説明する。
偏りが所定値以上であれば(S606:Yes)、トピック適応判定部480は、可変確率分布はトピックに適応していると判断する。そして、照合部444は、トピック適応判定部480からの指令により可変確率分布による音声認識を実行する(S608)。
第6実施形態では、固定確率分布格納部448に格納されている固定確率分布により音声認識を実行する場合の音声認識部100が本発明の固定認識手段に相当し、可変確率分布格納部450に格納されている可変確率分布により音声認識を実行する場合の音声認識部100が本発明の可変認識手段に相当する。また、トピック適応判定部480が本発明の適応判定手段に相当する。
上記実施形態では、トピックに応じて発話出現確率分布を徐々に変化させ、変化中の発話出現確率分布の偏りを算出することにより、トピックに対する発話出現確率分布の適応度を判定した。これに対し、トピックが変化すると、トピック毎に設定された特定の発話出現確率分布に切り替える場合にも、切り替えられた発話出現確率分布の偏りに基づいてトピックに対する適応度を判定することにより、適切な発話出現確率分布に切り替えられたか否かを判定できる。したがって、適応度の判定結果に基づいて適切な処理を実行できる。
また、音声認識部44による音声認識の結果を、ナビゲーション側の制御回路10を介さずに発話出現確率分布制御部466が受け付ける構成にしてもよい。
Claims (16)
- 発話に出現する語彙の確率分布である発話出現確率分布に基づいて、発話される音声を認識する音声認識装置において、
前記発話の状況であるトピックに応じて前記発話出現確率分布を徐々に変化させる分布設定手段と、
前記発話出現確率分布の偏りを算出する分布偏り算出手段と、
前記分布偏り算出手段が算出する偏りに基づいて、前記トピックに対する前記発話出現確率分布の適応度を判定する適応判定手段と、
を備えることを特徴とする音声認識装置。 - 前記分布設定手段は、前記適応判定手段の判定結果に基づいて前記発話出現確率分布を設定することを特徴とする請求項1に記載の音声認識装置。
- 一つ以上の特定の前記トピックにそれぞれ対応する発話出現確率の特定分布が記憶されている分布記憶手段を備え、
前記分布設定手段は、使用中の前記発話出現確率分布が前記トピックに適応していないと前記適応判定手段が判定すると、前記分布記憶手段に記憶されている前記特定分布のうち使用中の前記発話出現確率分布に最も近い分布を有する前記特定分布を、使用する前記発話出現確率分布として設定する、
ことを特徴とする請求項2に記載の音声認識装置。 - 前記トピックに適応していると前記適応判定手段が最後に判定した前記発話出現確率分布である適応分布が記憶されている分布記憶手段を備え、
前記分布設定手段は、使用中の前記発話出現確率分布が前記トピックに適応していないと前記適応判定手段が判定すると、使用する前記発話出現確率分布として前記分布記憶手段に記憶されている前記適応分布を設定する、
ことを特徴とする請求項2に記載の音声認識装置。 - 一つ以上の特定の前記トピックにそれぞれ対応する発話出現確率の特定分布が記憶されている分布記憶手段を備え、
前記適応判定手段は、前記発話出現確率分布が前記トピックに適応していないと判定すると、ユーザによる前記トピックの選択を指令し、
前記分布設定手段は、ユーザが選択した前記トピックに対応する前記特定分布を前記分布記憶手段から選択し、使用する前記発話出現確率分布として設定する、
ことを特徴とする請求項2に記載の音声認識装置。 - 前記適応判定手段は、前記トピックに対する前記発話出現確率分布の適応度をユーザに報知するよう指令することを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。
- 前記分布設定手段は、音声認識の起動時に発話出現確率分布を初期分布に設定し、
前記適応判定手段は、前記初期分布に対する使用中の前記発話出現確率分布の分布変化量に基づいて、前記トピックに対する前記発話出現確率分布の適応度を判定することを特徴とする請求項1から6のいずれか一項に記載の音声認識装置。 - ユーザが操作する適応クリアスイッチを備え、
前記分布設定手段は、前記適応クリアスイッチが操作されると、使用する前記発話出現確率分布として所定の発話出現確率分布を設定する、
ことを特徴とする請求項1から7のいずれか一項に記載の音声認識装置。 - 発話される音声を前記発話出現確率分布に基づいて認識する音声認識手段と、
前記発話出現確率分布が前記トピックに適応していると前記適応判定手段が判定すると、前記音声認識手段による音声認識の結果を音声コマンドとして設定するコマンド設定手段と、
を備えることを特徴とする請求項1から8のいずれか一項に記載の音声認識装置。 - 発話される音声を前記発話出現確率分布に基づいて認識する音声認識手段と、
前記発話出現確率分布が前記トピックに適応していると前記適応判定手段が判定すると、前記音声認識手段に音声認識の開始を指令する音声認識指令手段と、
を備えることを特徴とする請求項1から8のいずれか一項に記載の音声認識装置。 - 前記適応判定手段は、前記分布偏り算出手段が算出する前記発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、前記発話出現確率分布が前記トピックに適応していないと判定することを特徴とする請求項1から10のいずれか一項に記載の音声認識装置。
- 前記発話出現確率分布を平滑化する平滑化手段を備え、
前記分布偏り算出手段は前記平滑化手段により平滑化された前記発話出現確率分布の平滑分布の偏りを算出し、
前記適応判定手段は、前記分布偏り算出手段が算出する前記平滑分布の偏りに基づいて、前記発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、前記発話出現確率分布が前記トピックに適応していないと判定する、
ことを特徴とする請求項11に記載の音声認識装置。 - 前記分布偏り手段は、前記発話出現確率分布のエントロピーまたは最大値に基づいて前記平滑分布の偏りを算出することを特徴とする請求項12に記載の音声認識装置。
- 一つ以上の特定の前記トピックにそれぞれ対応する発話出現確率の特定分布が記憶されている分布記憶手段を備え、
前記適応判定手段は、前記分布偏り算出手段が算出する前記発話出現確率分布の偏りが所定値以上の場合、前記発話出現確率分布と前記特定分布との類似度に基づいて前記発話出現確率分布の偏りが有意であるか否かを判定し、有意ではない場合、前記発話出現確率分布が前記トピックに適応していないと判定する、
ことを特徴とする請求項11に記載の音声認識装置。 - 発話される音声を前記分布設定手段により分布状態を変化させられない固定の前記発話出現確率分布に基づいて認識する固定認識手段と、
発話される音声を前記分布設定手段により分布状態を変化させられる可変の前記発話出現確率分布に基づいて認識する可変認識手段と、
前記適応判定手段は、可変の前記発話出現確率分布が前記トピックに適応していると判定すると、前記固定認識手段による音声認識結果に加え、前記可変認識手段による音声認識結果をユーザに報知するよう指令する、
ことを特徴とする請求項1から14のいずれか一項に記載の音声認識装置。 - 前記適応判定手段の指令により報知された前記可変認識手段による音声認識結果をユーザが選択できる選択スイッチを備えることを特徴とする請求項15に記載の音声認識装置
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011115081A JP5772214B2 (ja) | 2010-05-24 | 2011-05-23 | 音声認識装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010118473 | 2010-05-24 | ||
JP2010118473 | 2010-05-24 | ||
JP2011115081A JP5772214B2 (ja) | 2010-05-24 | 2011-05-23 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012008554A JP2012008554A (ja) | 2012-01-12 |
JP5772214B2 true JP5772214B2 (ja) | 2015-09-02 |
Family
ID=45539090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011115081A Expired - Fee Related JP5772214B2 (ja) | 2010-05-24 | 2011-05-23 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5772214B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6220694B2 (ja) * | 2013-10-31 | 2017-10-25 | 日本電信電話株式会社 | モデル処理装置、その方法、およびプログラム |
JP2015129793A (ja) * | 2014-01-06 | 2015-07-16 | 株式会社デンソー | 音声認識装置 |
US20150370787A1 (en) * | 2014-06-18 | 2015-12-24 | Microsoft Corporation | Session Context Modeling For Conversational Understanding Systems |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101187A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
JP3923513B2 (ja) * | 2004-06-08 | 2007-06-06 | 松下電器産業株式会社 | 音声認識装置および音声認識方法 |
US7739286B2 (en) * | 2005-03-17 | 2010-06-15 | University Of Southern California | Topic specific language models built from large numbers of documents |
CN101034390A (zh) * | 2006-03-10 | 2007-09-12 | 日电(中国)有限公司 | 用于语言模型切换和自适应的装置和方法 |
JP2010078934A (ja) * | 2008-09-26 | 2010-04-08 | Brother Ind Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
-
2011
- 2011-05-23 JP JP2011115081A patent/JP5772214B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012008554A (ja) | 2012-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106796786B (zh) | 语音识别系统 | |
JP4304952B2 (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
US8005673B2 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
US10446155B2 (en) | Voice recognition device | |
US6937982B2 (en) | Speech recognition apparatus and method using two opposite words | |
WO2013005248A1 (ja) | 音声認識装置およびナビゲーション装置 | |
JP4859982B2 (ja) | 音声認識装置 | |
JP5677650B2 (ja) | 音声認識装置 | |
JP4357867B2 (ja) | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 | |
JP4940887B2 (ja) | 音声入力支援プログラム、音声入力支援装置、音声入力支援方法 | |
JP5772214B2 (ja) | 音声認識装置 | |
JP2009230068A (ja) | 音声認識装置及びナビゲーションシステム | |
JP2008076811A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP4639094B2 (ja) | 音声認識システム、音声認識装置及び音声認識プログラム | |
JP4770374B2 (ja) | 音声認識装置 | |
JP4938719B2 (ja) | 車載情報システム | |
US20110218809A1 (en) | Voice synthesis device, navigation device having the same, and method for synthesizing voice message | |
JP3700533B2 (ja) | 音声認識装置及び処理システム | |
JP2007256643A (ja) | 音声認識装置及びナビゲーションシステム | |
JP4941494B2 (ja) | 音声認識システム | |
JP2004309862A (ja) | 音声認識装置及びナビゲーションシステム | |
JP2010175921A (ja) | 音声認識装置 | |
JPWO2013005248A1 (ja) | 音声認識装置およびナビゲーション装置 | |
JP2007206524A (ja) | 音声検出装置及び音声検出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150615 |
|
LAPS | Cancellation because of no payment of annual fees |