JP4790024B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4790024B2
JP4790024B2 JP2008549220A JP2008549220A JP4790024B2 JP 4790024 B2 JP4790024 B2 JP 4790024B2 JP 2008549220 A JP2008549220 A JP 2008549220A JP 2008549220 A JP2008549220 A JP 2008549220A JP 4790024 B2 JP4790024 B2 JP 4790024B2
Authority
JP
Japan
Prior art keywords
speech recognition
dictionary
unit
word
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008549220A
Other languages
English (en)
Other versions
JPWO2008072413A1 (ja
Inventor
尚嘉 竹裏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2008549220A priority Critical patent/JP4790024B2/ja
Publication of JPWO2008072413A1 publication Critical patent/JPWO2008072413A1/ja
Application granted granted Critical
Publication of JP4790024B2 publication Critical patent/JP4790024B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Description

この発明は、発話された音声を認識する音声認識装置に関し、特に音声の誤認識に伴って発生する問題を低減させる技術に関する。
従来、音声認識を利用して各種指示を与えることができるカーナビゲーション装置が知られている。音声認識を利用しないカーナビゲーション装置では、一覧表示されたメニューから選択操作を行うことによりジャンル指定するのに対し、音声認識を利用したカーナビゲーション装置では、運転中など一覧表示を見ることができない状態であっても、例えばジャンル名称等を発話することによりジャンルを指定できる。
このような音声認識は、予め音声認識辞書に登録された語彙のみを認識できる技術であるため、音声認識による入力を行なう際には、ジャンルを表す言葉をユーザが正確に発話する必要がある。しかしながら、カーナビゲーション装置で検索対象とされるジャンルの数は、一般に、数十以上にのぼるため、ユーザは、カーナビゲーション装置で利用できるジャンルを覚えておくことは困難である。また、カーナビゲーション装置で利用できるジャンルと、タウンページやインターネットなど、ユーザが日常生活で目にするジャンルや他のカーナビゲーション装置で利用可能なジャンルとを区別することは困難である。
なお、関連する技術として、特許文献1は、施設名等の入力対象が不正確に発声された場合でも好適な音声認識ができる音声認識装置を開示している。この音声認識装置において、地図データ記憶手段は、各施設の正式名称を基本単語として記憶している。音声認識ユニットでは、基本単語内の派生キー文字列が検出され、このキー文字列を用いて基本単語が部分的に変形される。これにより基本単語と同じ施設を他の表現で表す派生単語が自動生成される。例えば、基本単語「静岡県立裾野高等学校」には、キー文字列「静岡県立」「高等学校」が含まれる。そして、派生単語「裾野高等学校」や「裾野高校」が生成される。このような派生単語および基本単語を認識対象に用いて音声認識が行われる。従って、対象ごとに1つの単語を記憶しておけばよくなる。
特開平11−202891号公報
従来のカーナビゲーション装置に適用される音声認識装置では、上述した問題があるにもかかわらず、カーナビゲーション装置の機能として検索可能なジャンルを表現する語彙のみが音声認識辞書に登録されている。そのため、ユーザが、カーナビゲーション装置で利用できないジャンルを表す語を発話した場合、別の語に誤認識してしまい、カーナビゲーション装置がユーザの意図とは異なる挙動をするという問題が発生している。
本発明は、上述した問題を解消するためになされたものであり、その課題は、音声認識により動作する装置がユーザの意図とは異なる挙動をすることを防止できる音声認識装置を提供することにある。
上記目的を達成するために、この発明に係る音声認識装置は、検索対象とされる語彙がジャンル毎に格納されたジャンルデータベースを備えた車載機器用の音声認識装置であって、発話された音声を電気信号に変換し、発話データとして出力するマイクロフォンと、ジャンルデータベースで検索対象とされるジャンルの語彙を認識するための第1音声認識辞書と、ジャンルデータベースで検索対象外とされるジャンルの語彙を認識するための第2音声認識辞書と、マイクロフォンから送られてくる発話データと第1音声認識辞書および第2音声認識辞書に含まれる語彙とを照合することにより、発話された音声を認識する音声認識部と、音声認識部から認識結果として送られてくる語が、第2音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、検索対象とされるジャンルの語でない旨を表すメッセージを提示情報として出力する対話制御部と、対話制御部から送られてくる提示情報を外部に提示する提示部を備えている。
この発明に係る音声認識装置によれば、ジャンルデータベースで検索対象とされるジャンルの語彙を認識するための第1音声認識辞書の他に、ジャンルデータベースで検索対象外とされるジャンルの語彙を認識するための第2音声認識辞書を備え、発話データと第1音声認識辞書および第2音声認識辞書を用いて発話された音声を認識し、この認識結果が第2音声認識辞書に基づき得られた場合は、検索対象とされるジャンルの語でない旨を表すメッセージを提示するように構成したので、ジャンルデータベースで検索不可能な語が発話された場合であっても、発話された語を正しく認識することができる。その結果、他の語に誤認識することによってカーナビゲーション装置がユーザの意図とは異なる挙動をするという問題を解消できる。また、認識結果が第2音声認識辞書に基づき得られた場合はその旨のメッセージが提示されるので、ユーザは、違和感なく音声認識機能を使用することができる。
この発明の実施の形態1に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。 この発明の実施の形態1に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。 この発明の実施の形態2に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。 この発明の実施の形態2に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。 この発明の実施の形態3に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。 この発明の実施の形態3に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。 この発明の実施の形態4に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。 この発明の実施の形態4に係る音声認識装置の動作を、辞書更新処理を中心に示すフローチャートである。 この発明の実施の形態5に係る音声認識装置が適用されたカーナビゲーション装置の構成を示すブロック図である。 この発明の実施の形態5に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。 この発明の実施の形態5に係る音声認識装置の動作を、音声認識サーバで行われる処理を中心に示すフローチャートである。
以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。なお、以下では、この発明の実施の形態に係る音声認識装置が、車載機器としてのカーナビゲーション装置に適用される場合について説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、マイクロフォン(以下、「マイク」と略する)1、音声認識辞書2、音声認識部3、対話制御部4および提示部5から構成されている。なお、この音声認識装置が適用されるカーナビゲーション装置は、図示は省略しているが、検索データベースとして、検索対象とされる語彙をジャンル毎に格納したジャンルデータベースを備えている。
マイク1は、ユーザが発話した音声を電気信号に変換し、発話データとして音声認識部3に送る。音声認識辞書2は、第1音声認識辞書2aと第2音声認識辞書2bとから構成されている。第1音声認識辞書2aは、カーナビゲーション装置で検索対象とすることができるジャンル(以下、「ナビ検索対象ジャンル」という)の語彙、換言すれば、ジャンルデータベースで検索対象とされるジャンルの語彙(例えば、駅、インターチェンジ、病院など)を格納している。第2音声認識辞書2bは、ナビゲーション装置で検索対象外とするジャンル(以下、「ナビ検索対象外ジャンル」という)の語彙、換言すれば、ジャンルデータベースで検索対象外とされているジャンルの語彙(例えば、学校、トイレなど)を格納している。
音声認識部3は、マイク1から送られてくる発話データを保持するとともに、この保持した発話データと音声認識辞書2(第1音声認識辞書2aおよび第2音声認識辞書2b)に格納されている語彙と照合することにより、ユーザが発話した音声を認識する。この音声認識部3における認識結果は、対話制御部4に送られる。
対話制御部4は、音声認識部3から送られてくる認識結果が、第1音声認識辞書2aに含まれる語彙と照合することにより認識されたことを示している場合は、認識された語を出力し、第2音声認識辞書2bに含まれる語彙と照合することにより認識されたことを示している場合は、その旨を表すメッセージを出力する。これにより、ユーザとの対話が制御される。この対話制御部4から出力される語またはメッセージは、提示部5に送られる。
提示部5は、例えばスピーカから構成されており、対話制御部4から送られてくる語またはメッセージを音声で出力する。この提示部5はディスプレイから構成することもできる。この場合は、対話制御部4から送られてくる語またはメッセージは、ディスプレイの画面に表示される。なお、提示部5は、スピーカとディスプレイの2つから構成することもできる。
次に、上記のように構成される、この発明の実施の形態1に係る音声認識装置の動作を、対話制御部4で行われる対話制御処理を中心に、図2に示すフローチャートを参照しながら説明する。
対話制御処理では、まず、認識結果が受領される(ステップST11)。すなわち、対話制御部4は、音声認識部3から送られてくる認識結果を受領する。次いで、ステップST11で受領した認識結果がナビ検索対象ジャンルの語を示しているかどうかが調べられる(ステップST12)。すなわち、対話制御部4は、第1音声認識辞書2aに含まれる語彙と照合することにより認識されたことを示しているか、または、第2音声認識辞書2bに含まれる語彙と照合することにより認識されたことを示しているかを調べる。
このステップST12において、認識結果がナビ検索対象ジャンルの語を示していることが判断されると、認識ジャンル検索が行われる(ステップST13)。すなわち、カーナビゲーション装置の図示しない制御部は、音声認識により得られた語を検索キーとしてジャンルデータベースを検索する。その後、音声認識装置の動作は終了する。
一方、ステップST12において、認識結果がナビ検索対象ジャンルの語を示していないことが判断されると、その旨を表すメッセージが出力される(ステップST14)。すなわち、対話制御部4は、発話された語がジャンルデータベースに存在しない旨のメッセージを生成し、提示部5に送る。これにより、提示部5は、対話制御部4から受け取ったメッセージをスピーカから音声で出力し、または、ディスプレイの画面に文字で表示する。その後、音声認識装置の動作は終了する。
上述した処理により実現される具体例を説明する。例えば、カーナビゲーション装置のジャンルデータベースに格納されていないジャンルの「学校」が発話された場合、音声認識部3は、第2音声認識辞書2bを用いて「学校」を正しく認識し、この認識結果を対話制御部4に送る。この認識結果を受けた対話制御部4は、例えば「学校はデータベースにないため検索できません」というメッセージを生成して提示部5に送る。これにより、提示部5から上記メッセージが音声または文字でユーザに提示される。
以上説明したように、この発明の実施の形態1に係る音声認識装置によれば、カーナビゲーション装置のジャンルデータベースで検索不可能な語が発話された場合であっても、発話された語を正しく認識することができるので、他の語に誤認識することによってカーナビゲーション装置がユーザの意図とは異なる挙動をするという問題を解消できる。
実施の形態2.
図3は、この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態1に係る音声認識装置に、検索データベース6および検索部7が追加されて構成されている。以下、実施の形態1と相違する部分を中心に説明する。
検索データベース6は、ジャンルデータベース6aと名称データベース6bとから構成されている。ジャンルデータベース6aは、実施の形態1と同様に、カーナビゲーション装置で検索対象とされる語彙をジャンル毎に格納している。また、名称データベースは、ジャンルとは無関係に、カーナビゲーション装置で検索可能な名称を格納している。検索部7は、対話制御部4からの指示に応じて検索データベース6を検索し、この検索により得られた語を対話制御部4に送る。
次に、上記のように構成される、この発明の実施の形態2に係る音声認識装置の動作を、対話制御部4で行われる対話制御処理を中心に、図4に示すフローチャートを参照しながら説明する。なお、実施の形態1に係る音声認識装置と同様の処理が行われるステップには実施の形態1で用いた符号と同一の符号を付して、説明を簡略化する。
対話制御処理では、まず、認識結果が受領される(ステップST11)。次いで、ステップST11で受領した認識結果がナビ検索対象ジャンルの語を示しているかどうかが調べられる(ステップST12)。このステップST12において、認識結果がナビ検索対象ジャンルの語を示していることが判断されると、認識ジャンル検索が行われる(ステップST13)。その後、音声認識装置の動作は終了する。
上記ステップST12において、認識結果がナビ検索対象ジャンルの語でないことを示していることが判断されると、認識結果の語を検索キーとして名称データベースが検索される(ステップST21)。すなわち、対話制御部4は、認識結果の語を検索部7に送る。検索部7は、対話制御部4から受け取った語を検索キーとして、検索データベース6の中の名称データベース6bを検索する。そして、この検索により得られた語を対話制御部4に返す。
次いで、検索結果が出力される(ステップST22)。すなわち、対話制御部4は、検索部7から検索結果として受け取った語を、提示部5に送る。これにより、提示部5は、対話制御部4から受け取った検索結果を表す語をスピーカから音声で出力し、または、ディスプレイの画面に文字で表示する。その後、音声認識装置の動作は終了する。
上述した処理により実現される具体例を説明する。例えば、カーナビゲーション装置のジャンルデータベース6aに格納されていないジャンルの「学校」が発話された場合、音声認識部3は、第2音声認識辞書2bを用いて「学校」を正しく認識し、この認識結果を対話制御部4に送る。この認識結果を受けた対話制御部4は、検索部7に「学校」を検索キーとして検索データベース6の中の名称データベース6bを検索するように指示する。検索部7は、名称データベース6bを検索することにより名称に「学校」が含まれる語、例えば「○○学校」および「××学校」を取得し、対話制御部4に送る。対話制御部4は、例えば「○○学校、××学校が見つかりました」というメッセージを生成して提示部5に送る。これにより、提示部5から上記メッセージが音声または文字でユーザに提示される。
以上説明したように、この発明の実施の形態2に係る音声認識装置によれば、上述した実施の形態1に係る音声認識装置による効果に加え、下記の効果を奏する。すなわち、カーナビゲーション装置のジャンルデータベースで検索不可能な語が発話された場合に、その語を検索キーとして、ジャンルデータベース6aとは別に用意された名称データベース6bを検索し、この検索により得られた語をユーザに提示することができる。したがって、例えば「学校」というジャンルと異なるジャンルに「学校」という名称を含む語が存在する場合は、その語をユーザに提示することができるので、より細かい検索ができるという利点がある。
実施の形態3.
図5は、この発明の実施の形態3に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態1に係る音声認識装置に、通信部8が追加されて構成されている。通信部8は、ネットワーク9に接続されている。以下、実施の形態1と相違する部分を中心に説明する。
通信部8は、対話制御部4からの指示に応じて、例えばネットワーク検索エンジンを使用してネットワーク9上のサイトを検索し、この検索により得られた語を対話制御部4に送る。ネットワーク9としては、例えばインターネットを用いることができる。
次に、上記のように構成される、この発明の実施の形態3に係る音声認識装置の動作を、対話制御部4で行われる対話制御処理を中心に、図6に示すフローチャートを参照しながら説明する。なお、実施の形態1に係る音声認識装置と同様の処理が行われるステップには実施の形態1で用いた符号と同一の符号を付して、説明を簡略化する。
対話制御処理では、まず、認識結果が受領される(ステップST11)。次いで、ステップST11で受領した認識結果がナビ検索対象ジャンルの語を示しているかどうかが調べられる(ステップST12)。このステップST12において、認識結果がナビ検索対象ジャンルの語を示していることが判断されると、認識ジャンル検索が行われる(ステップST13)。その後、音声認識装置の動作は終了する。
上記ステップST12において、認識結果がナビ検索対象ジャンルの語でないことを示していることが判断されると、認識結果の語をキーワードとしてネットワーク9が検索される(ステップST31)。すなわち、対話制御部4は、認識結果の語を通信部8に送る。通信部8は、対話制御部4から受け取った語をキーワードとして、例えばネットワーク検索エンジンを使用してネットワーク9を検索する。そして、この検索により得られた語を対話制御部4に返す。
次いで、検索結果が出力される(ステップST32)。すなわち、対話制御部4は、通信部8から検索結果として受け取った語を、提示部5に送る。これにより、提示部5は、対話制御部4から受け取った検索結果を表す語をスピーカから音声で出力し、または、ディスプレイの画面に文字で表示する。その後、音声認識装置の動作は終了する。
上述した処理により実現される具体例を説明する。例えば、カーナビゲーション装置のジャンルデータベース6aに格納されていないジャンルの「学校」が発話された場合、音声認識部3は、第2音声認識辞書2bを用いて「学校」を正しく認識し、この認識結果を対話制御部4に送る。この認識結果を受けた対話制御部4は、検索部7に「学校」をキーワードとしてネットワーク9を検索するように指示する。通信部8は、ネットワーク9を検索することにより名称に「学校」が含まれる語を取得し、対話制御部4に送る。対話制御部4は、名称に「学校」が含まれる語を示すメッセージを生成して提示部5に送る。これにより、提示部5から上記メッセージが音声または文字でユーザに提示される。
以上説明したように、この発明の実施の形態3に係る音声認識装置によれば、上述した実施の形態1に係る音声認識装置による効果に加え、下記の効果を奏する。すなわち、カーナビゲーション装置のジャンルデータベースで検索不可能な語が発話された場合に、その語をキーワードとして、ネットワーク9を検索し、この検索により得られた語をユーザに提示することができる。したがって、カーナビゲーション装置のジャンルデータベースに格納されていないジャンルの語が発話された場合でも、関連する情報をユーザに提示できるという利点がある。
実施の形態4.
図7は、この発明の実施の形態4に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態1に係る音声認識装置に、辞書更新部10が追加されて構成されている。辞書更新部10には、PCカード11が装着される。以下、実施の形態1と相違する部分を中心に説明する。
PCカード11には、第2音声認識辞書2bを更新するための更新用音声認識辞書11aが格納されている。更新用音声認識辞書11aは、カーナビゲーション装置で検索対象外とされるナビ検索対象外ジャンルの語彙であって、既存の第2音声認識辞書2bに対する追加または削除を行った後の語彙を格納している。図7は、実施の形態1に係る第2音声認識辞書2bに、「靴屋」という新たな語が追加された更新用音声認識辞書11aの例を示している。
辞書更新部10は、PCカード11が装着されることにより、既存の第2音声認識辞書2bを、PCカード11から読み出した更新用音声認識辞書11aで置き換え、新たな第2音声認識辞書2bとする。
次に、上記のように構成される、この発明の実施の形態4に係る音声認識装置の動作を 辞書更新部10で行われる辞書更新処理を中心に、図8に示すフローチャートを参照しながら説明する。なお、辞書更新処理以外の動作は、実施の形態1に係る音声認識装置の動作と同じである。
辞書更新処理では、まず、更新対象辞書の確認が行われる(ステップST41)。すなわち、辞書更新部10は、第2音声認識辞書2bのバージョンと、PCカード11から読み込んだ更新用音声認識辞書11aのバージョンを確認する。次いで、更新が必要であるかどうかが調べられる(ステップST42)。すなわち、辞書更新部10は、第2音声認識辞書2bのバージョンが、PCカード11から読み込んだ更新用音声認識辞書11aのバージョンより古いかどうかを調べる。
このステップST42において、更新が必要でないことが判断されると、辞書更新処理は終了する。一方、ステップST42において更新が必要であることが判断されると、次いで、旧辞書が新辞書に置き換えられる(ステップST43)。すなわち、辞書更新部10は、既存の第2音声認識辞書2bを、PCカード11から読み込んだ更新用音声認識辞書11aで置き換え、新たな第2音声認識辞書2bとする。その後、辞書更新処理は終了する。
以上説明したように、この発明の実施の形態4に係る音声認識装置によれば、第2音声認識辞書2bを更新できるように構成したので、この更新により、古い第2音声認識辞書2bでは認識できなかったナビ検索対象外ジャンルの語、例えば「靴屋」を認識できるようになる。したがって、ユーザが発話しそうなナビ検索対象外ジャンルの語彙を追加することができるので、時代の変化等によって新しいジャンルが発生した場合などは、その新しいジャンルを追加することが可能になる。
実施の形態5.
図9は、この発明の実施の形態5に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態4に係る音声認識装置に、通信部8、訂正スイッチ12およびネットワーク9に接続された音声認識サーバ13が追加されるとともに、対話制御部4および辞書更新部10の機能が変更されて構成されている。以下、実施の形態4と相違する部分を中心に説明する。
訂正スイッチ12は、音声認識部3における認識結果の訂正を指示するために使用される。この訂正スイッチ12の操作の有無を表す操作信号は、対話制御部4に送られる。対話制御部4は、訂正スイッチ12から送られてくる操作信号が、訂正スイッチ12が操作されていないことを示している場合は、実施の形態1に係る音声認識装置のそれと同様の動作を行う。一方、訂正スイッチ12から送られてくる操作信号が、訂正スイッチ12が操作されたことを示している場合は、対話制御部4は、音声認識部3に保持されている発話データを取り出して通信部8に送るとともに、通信部8から送られてくる更新用音声認識辞書(後述する)を辞書更新部10に送る。
通信部8は、対話制御部4からの指示に応じて、ネットワーク9を介して音声認識サーバ13との間の通信を制御する。具体的には、通信部8は、対話制御部4から送られてくる発話データおよび第2音声認識辞書2bを、ネットワーク9を介して音声認識サーバ13に送るとともに、音声認識サーバ13から送られてくる更新用音声認識辞書を対話制御部4に送る。辞書更新部10は、既存の第2音声認識辞書2bを、対話制御部4から送られてくる更新用音声認識辞書で置き換え、新たな第2音声認識辞書2bとする。
音声認識サーバ13は、音声認識部13aと音声認識辞書13bとを備えている。音声認識辞書13bは、第2音声認識辞書2bに格納されているナビ検索対象外ジャンルの語彙に加え、さらに他のジャンルの語彙(以下、「サーバ用ジャンル」という)を記憶している。図9は、実施の形態1に係る第2音声認識辞書2bの語彙に、「靴屋」、「花屋」といったジャンルが追加されている例を示している。
音声認識部13aは、通信部8からネットワーク9を介して送られてくる発話データと、音声認識辞書13bに格納されている語彙と照合することにより、発話データによって示された音声を認識する。この音声認識部13aにおいて、発話データによって示された音声を認識することができ、かつ、その発話データに対応する語彙が、通信部8からネットワーク9を介して受け取った音声認識装置の第2音声認識辞書2bに含まれていない場合は、発話データに対する音声認識に使用した語彙を含む更新用音声認識辞書を生成し、ネットワーク9を介して通信部8に送信する。
次に、上記のように構成される、この発明の実施の形態5に係る音声認識装置の動作を説明する。まず、対話制御部4で行われる対話制御処理を中心に、図10に示すフローチャートを参照しながら説明する。なお、実施の形態1に係る音声認識装置と同様の処理が行われるステップには実施の形態1で用いた符号と同一の符号を付して、説明を簡略化する。
対話制御処理では、まず、認識結果が受領される(ステップST11)。次いで、認識結果が訂正されたかどうかが調べられる(ステップST51)。すなわち、対話制御部4は、訂正スイッチ12から送られてくる操作信号が、訂正スイッチ12が操作されたことを示しているかどうかを調べる。このステップST51において、認識結果が訂正されていないことが判断されると、認識結果が提示される(ステップST54)。その後、音声認識装置の動作は終了する。
一方、ステップST51において、認識結果が訂正されたことが判断されると、発話データおよび第2音声認識辞書が送信される(ステップST52)。すなわち、対話制御部4は、音声認識部3に保持されている発話データおよび第2音声認識辞書2bを取得し、通信部8に送る。通信部8は、対話制御部4から送られてきた発話データおよび第2音声認識辞書2bを、ネットワーク9を介して音声認識サーバ13に送る。これに応答して、音声認識サーバ13は、更新用音声認識辞書を生成し、ネットワーク9を介して通信部8に送信する。この音声認識サーバ13で行われる処理の詳細は後述する。
次いで、第2音声認識辞書が更新される(ステップST53)。すなわち、通信部8は、音声認識サーバ13からネットワーク9を介して送られてくる更新用音声認識辞書を伴った辞書更新依頼を受信し、対話制御部4に送る。対話制御部4は、通信部8から受け取った更新用音声認識辞書を辞書更新部10に送る。辞書更新部10は、既存の第2音声認識辞書2bを、対話制御部4から送られてくる更新用音声認識辞書で置き換え、新たな第2音声認識辞書2bとする。その後、音声認識装置の動作は終了する。
次に、音声認識サーバ13で行われる処理の詳細を、図11に示すフローチャートを参照しながら説明する。音声認識サーバ13では、まず、発話データおよび第2音声認識辞書が受領される(ステップST61)。すなわち、音声認識サーバ13は、音声認識装置の通信部8からネットワーク9を介して送られてくる発話データおよび第2音声認識辞書2bを受信する。これら発話データおよび第2音声認識辞書2bは、音声認識部13aに送られる。
次いで、認識処理が実行される(ステップST62)。すなわち、音声認識部13aは、ステップST61で受領した発話データと、音声認識辞書13bに格納されている語彙と照合することにより、発話データによって示された音声を認識する。次いで、ステップST62における認識結果が受領した第2音声認識辞書の語彙に含まれるかどうかが調べられる(ステップST63)。すなわち、音声認識部13aは、ステップST62で認識された語が、ステップST61で受領された第2音声認識辞書2bに含まれるかどうかを調べる。このステップST63において、認識結果が受領した第2音声認識辞書の語彙に含まれることが判断されると、音声認識装置において単なる認識エラーが発生したものと認識され、シーケンスはステップST61に戻って上述した処理が繰り返される。
一方、ステップST63において、ステップST62における認識結果が受領した第2音声認識辞書の語彙に含まれないことが判断されると、辞書更新依頼が送信される(ステップST64)。すなわち、音声認識部13aは、認識結果の語彙を含む更新用音声認識辞書を作成し、これを添付して辞書更新依頼を音声認識装置に送信する。その後、シーケンスはステップST61に戻る。以上により、音声認識サーバ13における処理は終了する。
上述した処理により実現される具体例を説明する。例えば、カーナビゲーション装置のジャンルデータベース6aに格納されていないジャンルの「靴屋」が発話された場合、音声認識部3は、第2音声認識辞書2bに「靴屋」が含まれていなければ、発話された「靴屋」を認識することができない。この場合、ユーザは、訂正スイッチ12を操作して、訂正を指示する。これにより、「靴屋」を表す発話データおよび第2音声認識辞書2bが音声認識サーバ13に送信される。音声認識サーバ13では、発話データに対する音声認識処理を実行する。ここで、認識結果として得られた語「靴屋」が音声認識装置から受領した第2音声認識辞書2bの語彙に含まれない場合は、その語「靴屋」を含む更新用音声認識辞書が作成され、音声認識装置に送信される。音声認識装置では、既存の第2音声認識辞書2bを、受信した更新用音声認識辞書で置き換えることにより、新しい第2音声認識辞書2bとする。これにより、音声認識装置では、以後は、「靴屋」を正しく認識できるようになる。
以上説明したように、この発明の実施の形態5に係る音声認識装置によれば、入力された発話が正しく認識されなかった場合は、その発話を表す発話データを音声認識サーバ13で認識させて発話内容を推定し、その語彙を含む更新用音声認識辞書を作成し、辞書更新部10の機能を用いてカーナビゲーション装置の音声認識装置の第2音声認識辞書2bとして登録することができる。これにより、カーナビゲーション装置の第2音声認識辞書2bを無駄なく、効率的に更新できる。
なお、上述した実施の形態5に係る音声認識装置では、発話データおよび第2音声認識辞書2bを音声認識サーバ13に送信し、音声認識サーバ13においてサーバ用ジャンルの音声認識辞書を用いて音声認識処理を実行し、発話データを認識できた場合に、その認識された語を含む更新用音声認識辞書を作成して音声認識装置に返信するように構成したが、音声認識装置は、発話データのみを音声認識サーバ13に送信し、音声認識サーバ13は、サーバ用ジャンルの音声認識辞書を用いて音声認識処理を実行し、発話データを認識できた場合に、その認識された語を音声認識装置に返信し、音声認識装置は、この返信された語を含む更新用音声認識辞書を作成して第2音声認識辞書2bを更新するように構成することもできる。この構成によれば、音声認識装置と音声認識サーバ13との間で送受されるデータ量を減らすことができる。
以上のように、この発明に係る音声認識装置は、発話された音声を、検索対象のジャンルの語彙を格納した第1音声認識辞書と、検索対象としないジャンルの語彙を格納した第2音声認識辞書とで照合して、第2音声認識辞書に含まれる語彙であると認識した場合は、その旨のメッセージを提示して、ユーザが違和感なく音声認識機能を使用できるようにしたことにより、車載用カーナビゲーション装置などに用いるのに適している。

Claims (5)

  1. 検索対象とされる語彙がジャンル毎に格納されたジャンルデータベースを備えた車載機器用の音声認識装置であって、
    発話された音声を電気信号に変換し、発話データとして出力するマイクロフォンと、
    前記ジャンルデータベースで検索対象とされるジャンルの語彙を認識するための第1音声認識辞書と、
    前記ジャンルデータベースで検索対象外とされるジャンルの語彙を認識するための第2音声認識辞書と、
    前記マイクロフォンから送られてくる発話データと前記第1音声認識辞書および前記第2音声認識辞書に含まれる語彙とを照合することにより、発話された音声を認識する音声認識部と、
    前記音声認識部から認識結果として送られてくる語が、前記第2音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、検索対象とされるジャンルの語でない旨を表すメッセージを提示情報として出力する対話制御部と、
    前記対話制御部から送られてくる提示情報を外部に提示する提示部
    とを備えた音声認識装置。
  2. 検索対象とされる語彙を名称別に格納した名称データベースと、
    対話制御部から送られてくる語を検索キーとして前記名称データベースを検索し、該検索により得られた前記検索キーを名称に含む語を前記対話制御部に返す検索部を備え、
    前記対話制御部は、音声認識部から認識結果として送られてくる語が、第2音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、該語を前記検索部に送って検索を指示し、該指示に応答して前記検索部から返される前記検索キーを名称に含む語を提示情報として出力する
    ことを特徴とする請求項1記載の音声認識装置。
  3. 対話制御部から送られてくる語をキーワードとしてネットワーク検索を実行し、該ネットワーク検索により得られた前記キーワードを含む語を前記対話制御部に返す通信部を備え、
    前記対話制御部は、音声認識部から認識結果として送られてくる語が、第2音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、該語を前記通信部に送ってネットワーク検索を指示し、該指示に応答して前記検索部から返される前記キーワードを含む語を提示情報として出力する
    ことを特徴とする請求項1記載の音声認識装置。
  4. 既存の第2音声認識辞書を、外部から取得した更新用音声認識辞書で置き換えることにより新しい第2音声認識辞書とする辞書更新部
    を備えたことを特徴とする請求項1記載の音声認識装置。
  5. 音声認識部から送られてくる認識結果の訂正を指示する認識訂正手段と、
    前記認識訂正手段からの指示に応じて、マイクロフォンから対話制御部を介して送られてくる発話データを、ネットワークを介して音声認識サーバに送信し、該音声認識サーバにおいて該発話データを認識できた場合に使用された語彙を含むように生成された更新用音声認識辞書を前記音声認識サーバからネットワークを介して受信して前記対話制御部に返す通信部を備え、
    辞書更新部は、前記対話制御部から更新用音声認識辞書を取得し、該取得した更新用音声認識辞書で既存の第2音声認識辞書を置き換えることにより新しい第2音声認識辞書とする
    ことを特徴とする請求項4記載の音声認識装置。
JP2008549220A 2006-12-15 2007-10-04 音声認識装置 Expired - Fee Related JP4790024B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008549220A JP4790024B2 (ja) 2006-12-15 2007-10-04 音声認識装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006338813 2006-12-15
JP2006338813 2006-12-15
PCT/JP2007/069479 WO2008072413A1 (ja) 2006-12-15 2007-10-04 音声認識装置
JP2008549220A JP4790024B2 (ja) 2006-12-15 2007-10-04 音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2008072413A1 JPWO2008072413A1 (ja) 2010-03-25
JP4790024B2 true JP4790024B2 (ja) 2011-10-12

Family

ID=39511444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008549220A Expired - Fee Related JP4790024B2 (ja) 2006-12-15 2007-10-04 音声認識装置

Country Status (6)

Country Link
US (1) US8195461B2 (ja)
JP (1) JP4790024B2 (ja)
CN (1) CN101558443B (ja)
DE (1) DE112007002665B4 (ja)
HK (1) HK1135225A1 (ja)
WO (1) WO2008072413A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423353B2 (en) * 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
JP5426913B2 (ja) * 2009-04-02 2014-02-26 アルパイン株式会社 音声認識辞書編集装置及び音声認識装置
JP5378907B2 (ja) * 2009-08-07 2013-12-25 株式会社豊田中央研究所 音声対話装置及び音声対話プログラム
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
CN102566961A (zh) * 2010-12-31 2012-07-11 上海博泰悦臻电子设备制造有限公司 基于车载设备的应用程序的语音执行方法及装置
CN102915729B (zh) * 2011-08-01 2014-11-26 佳能株式会社 语音关键词检出系统、创建用于其的词典的系统和方法
JP5942559B2 (ja) * 2012-04-16 2016-06-29 株式会社デンソー 音声認識装置
JP5925313B2 (ja) * 2012-07-03 2016-05-25 三菱電機株式会社 音声認識装置
DE102012213668A1 (de) * 2012-08-02 2014-05-22 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Vorrichtung zum Betreiben eines sprachgesteuerten Informationssystems für ein Fahrzeug
JP6150268B2 (ja) * 2012-08-31 2017-06-21 国立研究開発法人情報通信研究機構 単語登録装置及びそのためのコンピュータプログラム
JP6281856B2 (ja) * 2012-08-31 2018-02-21 国立研究開発法人情報通信研究機構 ローカル言語資源の補強装置及びサービス提供設備装置
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
USRE49014E1 (en) 2013-06-19 2022-04-05 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US10565984B2 (en) * 2013-11-15 2020-02-18 Intel Corporation System and method for maintaining speech recognition dynamic dictionary
JP6597527B2 (ja) * 2016-09-06 2019-10-30 トヨタ自動車株式会社 音声認識装置および音声認識方法
JP6804909B2 (ja) * 2016-09-15 2020-12-23 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP6611091B2 (ja) * 2017-05-11 2019-11-27 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法
US20190019516A1 (en) * 2017-07-14 2019-01-17 Ford Global Technologies, Llc Speech recognition user macros for improving vehicle grammars
JP2021026188A (ja) * 2019-08-08 2021-02-22 本田技研工業株式会社 通信制御システム、通知制御方法、及び通信制御プログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3397372B2 (ja) * 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JP3579971B2 (ja) 1995-07-28 2004-10-20 マツダ株式会社 車載用地図表示装置
JPH09230889A (ja) 1996-02-23 1997-09-05 Hitachi Ltd 音声認識応答装置
JPH11202891A (ja) 1998-01-12 1999-07-30 Toyota Motor Corp 音声認識装置
JPH11224265A (ja) * 1998-02-06 1999-08-17 Pioneer Electron Corp 情報検索装置及び情報検索方法並びに情報検索プログラムを記録した記録媒体
JP2000075887A (ja) * 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
US6499013B1 (en) 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6434524B1 (en) 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
EP1083545A3 (en) * 1999-09-09 2001-09-26 Xanavi Informatics Corporation Voice recognition of proper names in a navigation apparatus
JP4116233B2 (ja) * 2000-09-05 2008-07-09 パイオニア株式会社 音声認識装置ならびにその方法
JP4283984B2 (ja) * 2000-10-12 2009-06-24 パイオニア株式会社 音声認識装置ならびに方法
JP2002123279A (ja) * 2000-10-16 2002-04-26 Pioneer Electronic Corp 施設検索装置ならびにその方法
JP2002123290A (ja) * 2000-10-16 2002-04-26 Pioneer Electronic Corp 音声認識装置ならびに音声認識方法
JP2002215186A (ja) 2001-01-12 2002-07-31 Auto Network Gijutsu Kenkyusho:Kk 音声認識システム
DE10119677A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren zum Ermitteln von Datenbankeinträgen
JP2002366578A (ja) 2001-06-08 2002-12-20 Mitsubishi Electric Corp 車載情報端末装置および情報検索システム
JP3576511B2 (ja) 2001-09-19 2004-10-13 松下電器産業株式会社 音声対話装置
JP4275357B2 (ja) 2002-06-11 2009-06-10 三菱電機株式会社 音声認識装置、辞書管理方法およびプログラム
US7437296B2 (en) * 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
JP2004333729A (ja) 2003-05-06 2004-11-25 All Nippon Airways Co Ltd 音声認識による航空券電話予約システム
JP2005044071A (ja) 2003-07-25 2005-02-17 Sharp Corp 電子辞書
JP2005189667A (ja) 2003-12-26 2005-07-14 Mitsubishi Electric Corp 車載機器、音声対話ドキュメント作成サーバ及びこれらを用いたナビゲーションシステム
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
JP4684583B2 (ja) 2004-07-08 2011-05-18 三菱電機株式会社 対話装置
CN100375006C (zh) * 2006-01-19 2008-03-12 吉林大学 车辆导航装置语音控制系统
DE102006029755A1 (de) 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung

Also Published As

Publication number Publication date
HK1135225A1 (en) 2010-05-28
CN101558443A (zh) 2009-10-14
US20100076751A1 (en) 2010-03-25
CN101558443B (zh) 2012-01-04
US8195461B2 (en) 2012-06-05
JPWO2008072413A1 (ja) 2010-03-25
DE112007002665T5 (de) 2009-09-10
DE112007002665B4 (de) 2017-12-28
WO2008072413A1 (ja) 2008-06-19

Similar Documents

Publication Publication Date Title
JP4790024B2 (ja) 音声認識装置
CN107039038B (zh) 学习个性化实体发音
US8285537B2 (en) Recognition of proper nouns using native-language pronunciation
US7826945B2 (en) Automobile speech-recognition interface
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
EP2259252B1 (en) Speech recognition method for selecting a combination of list elements via a speech input
TWI281146B (en) Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
KR101445904B1 (ko) 현장 음성 번역 유지 시스템 및 방법
US20070016421A1 (en) Correcting a pronunciation of a synthetically generated speech object
JP4283984B2 (ja) 音声認識装置ならびに方法
US20030144846A1 (en) Method and system for modifying the behavior of an application based upon the application's grammar
US20070156405A1 (en) Speech recognition system
JP2001005488A (ja) 音声対話システム
JP2010191400A (ja) 音声認識装置およびデータ更新方法
WO2016136207A1 (ja) 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム
JP2005043461A (ja) 音声認識方法及び音声認識装置
JP5335165B2 (ja) 発音情報生成装置、車載情報装置およびデータベース生成方法
US20070136070A1 (en) Navigation system having name search function based on voice recognition, and method thereof
WO2014194299A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP3795409B2 (ja) 音声認識装置及び方法
WO2013164870A1 (ja) 音声合成装置
JP2003330488A (ja) 音声認識装置
US11176930B1 (en) Storing audio commands for time-delayed execution
US20080133240A1 (en) Spoken dialog system, terminal device, speech information management device and recording medium with program recorded thereon
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20110606

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20110610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110621

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110719

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4790024

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees