JP2012168349A - 音声認識システムおよびこれを用いた検索システム - Google Patents

音声認識システムおよびこれを用いた検索システム Download PDF

Info

Publication number
JP2012168349A
JP2012168349A JP2011029301A JP2011029301A JP2012168349A JP 2012168349 A JP2012168349 A JP 2012168349A JP 2011029301 A JP2011029301 A JP 2011029301A JP 2011029301 A JP2011029301 A JP 2011029301A JP 2012168349 A JP2012168349 A JP 2012168349A
Authority
JP
Japan
Prior art keywords
recognition
speech
voice
search
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011029301A
Other languages
English (en)
Other versions
JP5606951B2 (ja
Inventor
Toru Marumoto
徹 丸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2011029301A priority Critical patent/JP5606951B2/ja
Publication of JP2012168349A publication Critical patent/JP2012168349A/ja
Application granted granted Critical
Publication of JP5606951B2 publication Critical patent/JP5606951B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】認識精度を向上させることができるとともに正しい認識結果を得るまでの操作を簡略化することができる音声認識システムを提供すること。
【解決手段】車載装置100は、話者が発声した音声を保存する音声保存バッファ112と、認識辞書116を用いて、音声保存バッファ112に保存された音声に対して音声認識処理を行う音声認識部114とを備える。施設検索サーバ150は、認識辞書116と異なる認識辞書162を用いて、音声保存バッファ112に保存された音声に対して音声認識処理を行う音声認識部160とを備える。車載装置100に備わった優先度調整部122は、2つの音声認識部114、160の認識結果に基づいて、音声保存バッファ112に保存された音声に対応する認識候補を決定する。
【選択図】図1

Description

本発明は、使用者の発声した音声に対して音声認識処理を行う音声認識システムおよびこれを用いた検索システムに関する。
従来から、利用者が発声した音声に対して音声認識処理を行う際に、年間行事を含むカレンダーデータベースを用いてこのカレンダーデータベースに記録されている行事に関連する語彙を優先語彙として決定し、この語彙を優先的に認識処理を行うように認識辞書での語彙配列の内容を更新するようにした音声認識装置が知られている(例えば、特許文献1参照)。
特開2007−187975号公報(第8−19頁、図1−20)
ところで、上述した特許文献1に用いられる音声認識装置では、カレンダーデータベースに記録されている行事に関連する語彙が優先されるが、利用者が発生する音声は、必ずしも行事に関連するものとは限らないため、行事に関連しない音声に対して音声認識の精度が低いという問題があった。音声認識処理によって1つの語彙が抽出されたときに、誤認識が生じると、発声からやりなおす必要があるため、操作が煩雑になる。また、音声認識処理によって1つの語彙に絞り込むことができず認識候補として複数の語彙が抽出されると、その中からいずれかを利用者が選択する必要が生じるため、やはり操作が煩雑になる。特に、この音声認識装置を車両に搭載してナビゲーション装置等の施設検索に用いる場合には、施設検索のキーワードとしての語彙が適切に決まらないことになり、所望の施設情報が得られるまでの操作が煩雑になったり時間がかかるという問題があった。
本発明は、このような点に鑑みて創作されたものであり、その目的は、認識精度を向上させることができるとともに正しい認識結果を得るまでの操作を簡略化することができる音声認識システムを提供することにある。また、本発明の他の目的は、音声認識処理を用いて検索キーワードを指定してコンテンツ検索を行う場合に、コンテンツ情報が得られるまでの操作を簡略化することができる検索システムを提供することにある。
上述した課題を解決するために、本発明の音声認識システムは、話者が発声した音声を保存する音声保存手段と、第1の認識辞書を用いて、音声保存手段に保存された音声に対して音声認識処理を行う第1の音声認識手段と、第1の認識辞書と異なる第2の認識辞書を用いて、音声保存手段に保存された音声に対して音声認識処理を行う第2の音声認識手段と、第1および第2の音声認識手段の認識結果に基づいて、音声保存手段に保存された音声に対応する認識候補を決定する認識結果決定手段とを備えている。
2組の認識辞書と音声認識手段を用いて同じ音声に対して音声認識処理を行うことにより、認識精度を上げることが可能となる。これにより、1つの認識候補としての語彙を決定する可能性が高まり、複数の語彙の中から利用者自身が正解となる語彙を指示する機会が減るため、操作の簡略化が可能となる。
また、上述した第1の音声認識手段による音声認識処理の処理時間は、第2の音声認識処理手段による音声認識処理の処理時間よりも短く、第2の音声認識手段による音声認識処理の認識精度は、第1の音声認識処理手段による音声認識処理の認識精度よりも高いことが望ましい。これにより、処理時間と認識精度の異なる2種類の音声認識処理を組み合わせることにより、必要に応じて認識精度を上げることが可能となる。
また、上述した第1および第2の音声認識手段による音声認識処理は、互いに異なる音響モデルおよび照合アルゴリズムを用いて行われることが望ましい。これにより、音響モデルと照合アルゴリズムが異なる2種類の音声認識処理を組み合わせることにより、同時に誤認識が発生する可能性が低くなるため、認識精度を上げることができる。
また、上述した音声保存手段、第1の音声認識手段、認識結果決定手段は、車両に設けられており、第2の音声認識手段は、ネットワークを介して接続された車両外部のサーバに設けられていることが望ましい。これにより、車両に設けられた第1の音声認識手段による音声認識処理だけでなく、車両外部のサーバに設けられた第2の音声認識手段による音声認識処理を併用することができるため、必要に応じて認識精度を上げることが可能となる。
また、上述した第2の音声認識手段による音声認識処理によって複数の認識候補に絞られたときに、これら複数の認識候補に対応する第1の認識辞書を作成する辞書作成手段をさらに備え、認識結果決定手段は、辞書作成手段によって作成された第1の認識辞書を用いた第1の音声認識手段の認識結果を用いて、音声保存手段に保存された音声に対応する認識候補を決定することが望ましい。第2の音声認識手段の音声認識処理によって複数の認識候補を抽出した後、第1の音声認識手段の音声認識処理によってこれら複数の認識候補の中から入力音声に最も近いものを抽出することができるため、一方の音声認識手段のみで認識候補を決定する場合に比べて大幅に認識精度を向上させることができる。
また、上述した認識結果決定手段は、第2の音声認識手段による音声認識処理によって1つの認識候補に絞られたときに、この認識候補を、音声保存手段に保存された音声に対応する認識候補として決定することが望ましい。これにより、不要な処理を削減して最終的な認識候補を決定するまでの時間を短縮することができる。
また、上述した辞書作成手段は、複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、第1の認識辞書を動的に作成することが望ましい。これにより、複数の認識候補の中から入力音声に最も類似するものを正確に決定することができる。
また、上述した認識結果決定手段は、第1の音声認識手段による認識結果が誤りであった場合に、第2の音声認識手段による音声認識処理を依頼することが望ましい。これにより、必要に応じて第2の音声認識手段による音声認識処理を実施して認識候補を得ることにより、認識精度を上げることができる。また、入力音声については、音声保存手段に保存されたものを用いることができるため、発声を繰り返す必要がなく、これに伴う操作の簡略化および処理時間の短縮が可能となる。
また、上述した第1の音声認識手段による認識結果を利用者に通知する通知手段と、通知手段による通知に応じて、認識結果が誤りであった場合にその旨を利用者が指示する操作手段とをさらに備えることが望ましい。これにより、認識結果が誤っているか否かを利用者自身が直接指示することになるため、認識誤りが確実な場合に限って第2の音声認識手段による音声認識処理を実施することにより、処理の簡略化による処理時間の短縮が可能となる。
また、本発明の検索システムでは、上述したサーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、認識結果決定手段によって決定された認識候補を検索キーワードとして複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えている。上述した認識精度が高く操作が簡単な音声認識システムをコンテンツ検索に適用することにより、コンテンツ情報が得られるまでの操作を簡略化することができる。また、サーバ側でコンテンツ検索を行うことにより、車両側で同様のコンテンツ検索を行う場合に比べて、検索対象となるコンテンツの数を増加させるとともに最新のコンテンツ情報を得ることが可能となる。
また、過去に第2の音声認識手段による音声認識処理によって抽出された認識候補であって、正しいことが確かめられた認識候補に対応する第1の認識辞書を作成する辞書作成手段をさらに備え、認識結果決定手段は、辞書作成手段によって作成された第1の認識辞書を用いた第1の音声認識手段の認識結果を用いて、音声保存手段に保存された音声に対応する認識候補を決定することが望ましい。これにより、サーバ側の音声認識処理によって正しい認識結果が得られた音声について、次回以降に車両側でも認識精度を上げることが可能となる。また、次回以降はサーバ側での音声認識処理が不要となるため、認識候補を得るまでの時間を短縮することができる。
また、上述した辞書作成手段は、複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、第1の認識辞書を動的に作成することが望ましい。正しいことが確かめられた認識候補に専用の認識辞書を作成することにより、繰り返し入力される音声に対しての認識精度を大幅に上げることができるとともに、認識候補を得るまでの時間を短縮することができる。
また、本発明の検索システムでは、上述した認識結果決定手段は、音声保存手段に保存された音声に対応する認識候補とともにこの認識候補に対応する文字情報を決定し、サーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、認識結果決定手段によって決定された文字情報を検索キーワードとして複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えている。上述した認識精度が高く操作が簡単な音声認識システムをコンテンツ検索に適用することにより、コンテンツ情報が得られるまでの操作を簡略化することができる。また、サーバ側でコンテンツ検索を行うことにより、車両側で同様のコンテンツ検索を行う場合に比べて、検索対象となるコンテンツの数を増加させるとともに最新のコンテンツ情報を得ることが可能となる。さらに、文字情報を検索キーワードとして用いることにより、コンテンツ検索処理を簡略化することができる。
また、本発明の検索システムでは、上述した車両には、複数のコンテンツに関する情報が格納された第1のコンテンツデータベースと、第1の音声認識手段による音声認識処理によって得られた認識結果を検索キーワードとしてコンテンツに関する情報を検索する第1のコンテンツ検索手段と、第1のコンテンツ検索手段による検索結果としてのコンテンツに関する情報を表示する表示手段とが設けられており、サーバには、複数のコンテンツに関する情報が格納された第2のコンテンツデータベースと、第2の音声認識手段による音声認識処理によって得られた認識結果を検索キーワードとしてコンテンツに関する情報を検索する第2のコンテンツ検索手段とが備わっており、第2のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が得られるまでは、表示手段に第1のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が表示され、第2のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が得られた後はこのコンテンツに関する情報が表示手段に表示される。
これにより、車両側において行われる音声認識処理によって抽出された認識候補を用いたコンテンツ検索を行うことにより、速やかにコンテンツ情報を表示させることができ、その後サーバ側において行われる音声認識処理によって抽出された認識候補を用いたコンテンツ検索によるコンテンツ情報が得られたときに、この新たに得られたコンテンツ情報に表示内容を変更することで検索精度を向上させることができる。しかも、これら一連の動作を実施する際に特別な操作が不要であって操作の簡略化が可能となる。
第1の実施形態の施設検索システムの構成を示す図である。 利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第1の実施形態の一連の動作手順を示す流れ図である。 第2の実施形態の施設検索システムの構成を示す図である。 利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第2の実施形態の一連の動作手順を示す流れ図である。 第3の実施形態の施設検索システムの構成を示す図である。 利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第3の実施形態の一連の動作手順を示す流れ図である。 第4の実施形態の施設検索システムの構成を示す図である。 利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第4の実施形態の一連の動作手順を示す流れ図である。
以下、本発明を適用した一実施形態の施設検索システムについて、図面を参照しながら説明する。
(第1の実施形態)
図1は、第1の実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置100と施設検索サーバ150とを備えている。車載装置100は車両に搭載されている。また、施設検索サーバ150は、車両外部に設けられており、車載装置100と無線回線を介して接続されている。具体的には、車載装置100は、携帯電話機および基地局を介してインターネット経由で施設検索サーバ150に接続される場合の他、無線LAN用の通信装置およびアクセスポイントを介してインターネット経由で施設検索サーバ150に接続される場合などが考えられる。
車載装置100は、マイクロホン110、音声保存バッファ112、音声認識部114、認識辞書116、辞書生成部118、認識結果保存バッファ120、優先度調整部122、操作部124、認識結果表示処理部126、表示装置128、検索結果保存バッファ130、検索結果表示処理部132、通信部134を備えている。
マイクロホン110は、利用者(話者)が発声する音声を集音する。集音された音声は、デジタルの音声データに変換された後、音声保存バッファ112に保存される。音声認識部114は、認識辞書116を用いて、音声保存バッファ112に保存された音声に対して音声認識処理を行う。辞書生成部118は、認識辞書116を作成する。辞書生成部118による認識辞書作成動作については後述する。
認識結果保存バッファ120は、施設検索サーバ150側において行われる音声認識処理によって得られた1あるいは複数の認識候補を受信したときにこれらを保存する。優先度調整部122は、施設検索サーバ150側あるいは車載装置100において行われる音声認識処理によって複数の認識候補が得られたときに、この中から優先順位が高い認識候補を選択する。いずれの認識候補を選択するかは、例えば、操作部124を操作した利用者によって指示される。
認識結果表示処理部126は、音声認識処理によって得られた認識候補を表示装置128に表示する。検索結果保存バッファ130は、施設検索サーバ150側において行われる施設検索によって得られた施設情報を受信したときにこれを保存する。検索結果表示処理部132は、検索結果保存バッファ130に保持された施設情報を表示装置128に表示する。通信部134は、施設検索サーバ150との間で各種データ(音声、認識候補、施設情報や各種の制御データなど)を送信あるいは受信する。
また、施設検索サーバ150は、音声認識部160、認識辞書162、施設検索部164、施設DB(データベース)166、通信部168を備えている。
音声認識部160は、認識辞書162を用いて、車両側から送られてくる音声(音声保存バッファ112に保存された音声)に対して音声認識処理を行う。なお、車載装置100側で行われる音声認識処理と、施設検索サーバ150側で行われる音声認識処理とは、望ましくは、互いに異なる音響モデルおよび照合アルゴリズムを用いて行われる。
施設検索部164は、車載装置100側あるいは施設検索サーバ150側で行われる音声認識処理によって抽出された認識候補に対応する施設情報を、施設DB166から検索する。施設DB166は、検索候補となる施設情報を格納する。また、施設DB166に格納された施設情報は、定期的あるいは不定期的に更新されており、必要に応じて内容変更、追加、削除が適宜行われる。通信部168は、車載装置100との間で各種データ(音声、認識候補、施設情報や各種の制御データなど)を送信あるいは受信する。
上述した音声保存バッファ112が音声保存手段に、認識辞書116が第1の認識辞書に、音声認識部114が第1の音声認識手段に、認識辞書162が第2の認識辞書に、音声認識部160が第2の音声認識手段に、優先度調整部122が認識結果決定手段に、辞書生成部118が辞書作成手段にそれぞれ対応する。また、上述した施設検索部164がコンテンツ検索手段に、施設DB166がコンテンツデータベースにそれぞれ対応する。
第1の実施形態の施設検索システムはこのような構成を有しており、次にその動作を説明する。図2は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第1の実施形態の一連の動作手順を示す流れ図である。
利用者が施設検索用の音声を発声すると、この音声がマイクロホン110によって取り込まれ、対応する音声(音声データ)が音声保存バッファ112に保存される(ステップ100)。この保存された音声は、通信部134によって施設検索サーバ150に向けて送信される(ステップ102)。
施設検索サーバ150側では、通信部168によって、車載装置100から送られてきた音声を受信すると、音声認識部160は、認識辞書162を用いてこの受信した音声に対して音声認識処理を行う(ステップ104)。この音声認識処理では、受信音声と認識辞書162に格納された複数の認識候補のそれぞれとの間で類似度が判定され、最大3つの認識候補が抽出される。なお、1つの認識候補の類似度が他の認識候補の類似度に比べて極端に大きい場合に(どの程度大きい場合に極端に大きいとするかは、設計時に適宜決めればよい)、この類似度が大きい1つの認識候補のみが抽出され、それ以外の場合には類似度が大きい順に3つの認識候補が抽出される。このようにして抽出された認識候補は通信部168によって車載装置100側に送信される。
車載装置100側では、通信部134によって、施設検索サーバ150から送られてきた認識結果を受信する(ステップ106)。受信した認識結果は、認識結果保存バッファ120に保存される。次に、優先度調整部122は、認識結果保存バッファ120に保存された認識結果が複数か否かを判定する(ステップ108)。複数の場合には肯定判断が行われ、次に、辞書生成部118は、認識結果としての文字列に対してGTP(Grapheme To Phoneme、書記素−音素変換)処理を行って、文字列の「よみ情報」を作成する(ステップ110)。また、辞書生成部118は、このよみ情報から音声認識処理用の動的な認識辞書を作成する(ステップ112)。例えば、よみ情報に対してTTS(Text-to-Speech)処理を行って音声波形を生成し、この音声波形について音声認識処理用の特徴抽出を行うことにより動的な認識辞書の作成が行われる。作成された認識辞書は、認識辞書116に追加、格納される。
次に、音声認識部114は、このようにして作成された動的な認識辞書を用いて、音声保存バッファ112に保存されている音声に対して音声認識処理を行う(ステップ114)。一般に、施設検索サーバ150側の音声認識処理と車載装置100側の音声認識処理とを比較すると、コストや処理能力の制限が少ない分施設検索サーバ150側の音声認識処理の方が認識精度が高いといえる。しかし、車載装置100から施設検索サーバ150に対して音声を送受信する際の帯域が狭いことや、車載装置100側の処理ではロードノイズ等の影響を考慮した車載装置特有の音声認識処理を実現することができることなどから必ずしも車載装置100側の音声認識処理の方が精度が低いとは限らない。特に、上述したように、少ない認識候補に対応した動的な認識辞書を作成した場合には、これらの認識候補については認識精度をかなり高めることができると考えられる。
次に、優先度調整部122は、ステップ114の音声認識処理によって複数の認識候補が得られたか否かを判定する(ステップ116)。この時点でも複数の認識候補の類似度が近く、1つの認識候補に絞り込めない場合には肯定判断が行われる。この場合には、優先度調整部122は、これら複数の認識候補について、音声保存バッファ112に保存された音声との類似度が大きい順に並べ替えを行い、最も類似度が大きい認識候補の表示位置が最も上位であって、しかも、強調表示となるように、これら複数の認識候補が選択肢として含まれる選択画面を認識結果表示処理部126によって表示装置128に表示させる(ステップ118)。このようにして選択画面が表示された状態で、優先度調整部122は、利用者が操作部124を操作することによりこの選択画面に含まれるいずれかの認識候補が選択されたか否かを判定する(ステップ120)。選択されるまで否定判断が行われ、ステップ118の表示が行われる。
また、利用者によって認識候補が選択されるとステップ120の判定において肯定判断が行われる。この場合には、あるいは、ステップ114の音声認識処理において1つの認識候補が抽出されてステップ116の判定において否定判断が行われた場合には、次に、優先度調整部122は、この選択された、あるいは、抽出された1つの選択候補を通信部134を介して施設検索サーバ150に向けて送信する(ステップ122)。
施設検索サーバ150では、通信部168によって、車載装置100から送られてくる1つの認識候補を受信すると、施設検索部164は、この認識候補を検索キーワードとして施設検索を行い、施設DB166に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ124)。抽出された施設情報は通信部168から車載装置100に向けて送信される。車載装置100では、通信部134によって、施設検索サーバ150から送られてきた施設情報を受信する(ステップ126)。この受信した施設情報は、検索結果保存バッファ130に一旦保存された後、検索結果表示処理部132によって読み出されてその内容が表示装置128に表示される(ステップ128)。なお、施設検索サーバ150による音声認識処理によって1つの認識結果のみが抽出された場合(ステップ108の判定において否定判断された場合)には、車載装置100における動的な認識辞書による音声認識処理は省略され、ただちにステップ124の施設検索が実施される。
このように、本実施形態の施設検索システムでは、2組の認識辞書と音声認識部を用いて同じ音声に対して音声認識処理を行うことにより、認識精度を上げることが可能となる。これにより、1つの認識候補(語彙)を決定する可能性が高まり、複数の認識候補の中から利用者自身が正解となる認識候補を選択する機会が減るため、操作の簡略化が可能となる。
また、車載装置100と施設検索サーバ150とで、処理時間と認識精度の異なる2種類の音声認識処理を組み合わせることになり、必要に応じて認識精度を上げることが可能となる。特に、音響モデルと照合アルゴリズムが異なる2種類の音声認識処理を組み合わせることにより、同時に誤認識が発生する可能性が低くなるため、認識精度を上げることができる。また、車両(車載装置100)に設けられた音声認識部114による音声認識処理と、施設検索サーバ150に設けられた音声認識部160による音声認識処理とを併用することにより、必要に応じて認識精度を上げることが可能となる。
また、施設検索サーバ150側の音声認識処理によって複数の認識候補を抽出した後、車載装置100側の音声認識処理によってこれら複数の認識候補の中から入力音声に最も近いものを抽出することができるため、一方の音声認識部160のみで認識候補を決定する場合に比べて大幅に認識精度を向上させることができる。また、施設検索サーバ150側の音声認識処理によって1つの認識候補に絞られたときに、入力音声に対応する最終的な認識候補として決定することにより、不要な処理(車載装置100側の音声認識処理)を削減して最終的な認識候補を決定するまでの時間を短縮することができる。
また、上述した辞書作成手段は、複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、第1の認識辞書を作成することが望ましい。これにより、複数の認識候補の中から入力音声に最も類似するものを正確に決定することができる。
また、上述したような認識精度が高く操作が簡単な音声認識手法を施設検索システムに適用することにより、施設情報が得られるまでの操作を簡略化することができる。また、施設検索サーバ150側で施設検索を行うことにより、車載装置側で同様の施設検索を行う場合に比べて、検索対象となる施設の数を増加させるとともに最新の施設情報を得ることが可能となる。
(第2の実施形態)
次に、第2の実施形態の施設検索システムについて説明する。本実施形態の施設検索システムでは、車載装置側で入力音声に対して音声認識処理を行うが、その認識結果が誤りであった場合に、施設検索サーバ側に同じ入力音声についての音声認識処理を依頼する。
図3は、第2の実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置100Aと施設検索サーバ150Aとを備えている。これらに含まれる各構成は、図1に示した車載装置100と施設検索サーバ150に含まれる各構成と基本的に共通するものであり、一部が削除されるとともに信号の入出力経路が一部変更されているが、基本的な動作が共通するものについては説明は省略するものとする。車載装置100Aに含まれる認識結果表示処理部126、表示装置128が通知手段に、操作部124が操作手段にそれぞれ対応する。
図4は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第2の実施形態の一連の動作手順を示す流れ図である。
利用者が施設検索用の音声を発声すると、この音声がマイクロホン110によって取り込まれ、対応する音声(音声データ)が音声保存バッファ112に保存される(ステップ200)。次に、音声認識部114は、認識辞書116を用いて、音声保存バッファ112に保存されている音声に対して音声認識処理を行う(ステップ202)。この音声認識処理によって、入力音声との類似度が最も大きい1つの認識候補が抽出される。なお、第1の実施形態では、認識辞書116に含まれる動的な認識辞書を用いて音声認識処理が行われたが、ステップ202の音声認識処理は、予め作成された一般的な内容を有する認識辞書116を用いて行われる。優先度調整部122は、抽出された認識候補が含まれる確認画面を認識結果表示処理部126によって表示装置128に表示させる(ステップ204)。このようにして確認画面が表示された状態で、優先度調整部122は、利用者が操作部124を操作することによりこの確認画面に含まれる認識候補が正解であることを示す所定の操作がなされたか否かを判定する(ステップ206)。正解でない場合(認識候補が誤りである場合)には否定判断が行われる。
次に、優先度調整部122は、音声保存バッファ112に保存された音声を通信部134によって施設検索サーバ150Aに向けて送信する(ステップ208)。施設検索サーバ150A側では、通信部168によって、車載装置100Aから送られてきた音声を受信すると、音声認識部160は、認識辞書162を用いてこの受信した音声に対して音声認識処理を行う(ステップ210)。この音声認識処理では、受信音声と認識辞書162に格納された複数の認識候補のそれぞれとの間で類似度が判定され、最大で所定個数の認識候補が抽出される。なお、1つの認識候補の類似度が他の認識候補の類似度に比べて極端に大きい場合に、この類似度が大きい1つの認識候補のみが抽出され、それ以外の場合には類似度が大きい順に複数の認識候補が抽出される。このようにして抽出された認識候補は通信部168によって車載装置100A側に送信される。
車載装置100A側では、通信部134によって、施設検索サーバ150Aから送られてきた認識結果を受信する(ステップ212)。受信した認識結果は、認識結果保存バッファ120に保存される。次に、優先度調整部122は、認識結果保存バッファ120に保存された認識結果が複数か否かを判定する(ステップ214)。複数の場合には肯定判断が行われる。この場合には、優先度調整部122は、これら複数の認識候補が選択肢として含まれる選択画面を認識結果表示処理部126によって表示装置128に表示させる(ステップ216)。このようにして選択画面が表示された状態で、優先度調整部122は、利用者が操作部124を操作することによりこの選択画面に含まれるいずれかの認識候補が選択されたか否かを判定する(ステップ218)。選択されるまで否定判断が行われ、ステップ216の表示が行われる。
また、利用者によって認識候補が選択されるとステップ218の判定において肯定判断が行われる。この場合には、あるいは、ステップ206の正解判定で肯定判断が行われた場合には、次に、優先度調整部122は、この選択された、あるいは、正しいと判定された1つの認識候補を通信部134を介して施設検索サーバ150Aに向けて送信する(ステップ220)。
施設検索サーバ150Aでは、通信部168によって、車載装置100Aから送られてくる1つの認識候補を受信すると、施設検索部164は、この認識候補を検索キーワードとして施設検索を行い、施設DB166に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ222)。抽出された施設情報は通信部168から車載装置100Aに向けて送信される。車載装置100Aでは、通信部134によって、施設検索サーバ150Aから送られてきた施設情報を受信する(ステップ224)。この受信した施設情報は、検索結果保存バッファ130に一旦保存された後、検索結果表示処理部132によって読み出されてその内容が表示装置128に表示される(ステップ226)。なお、施設検索サーバ150Aによる音声認識処理によって1つの認識結果のみが抽出された場合(ステップ214の判定において否定判断)には、車載装置100Aにおける選択画面表示による認識候補の選択動作等は省略され、ただちにステップ222の施設検索が実施される。
このように、本実施形態の施設検索システムでは、車載装置100A側の認識結果が誤りであった場合に、施設検索サーバ150A側に音声認識処理を依頼しており、必要に応じて施設検索サーバ150A側の音声認識処理を実施して認識候補を得ることにより、認識精度を上げることができる。また、入力音声については、車載装置100Aの音声保存バッファ112に保存されたものを用いることができるため、発声を繰り返す必要がなく、これに伴う操作の簡略化および処理時間の短縮が可能となる。また、車載装置100A側の音声認識処理の認識結果が誤っているか否かを利用者自身が操作部124を操作して直接指示することになるため、認識誤りが確実な場合に限って施設検索サーバ150Aによる音声認識処理を実施することにより、処理の簡略化による処理時間の短縮が可能となる。
(第3の実施形態)
次に、第3の実施形態の施設検索システムについて説明する。本実施形態の施設検索システムでは、施設検索サーバ側の音声認識処理によって得られた認識候補が正しいことが確かめられ後に、この認識候補に対応して第1の実施形態と同様の動的な認識辞書を作成して車載装置側で音声認識処理を行う。
図5は、第2の実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置100Bと施設検索サーバ150Bとを備えている。これらに含まれる各構成は、図1に示した車載装置100と施設検索サーバ150に含まれる各構成と基本的に共通するものであり、信号の入出力経路が一部変更されているが、基本的な動作が共通するものについては説明は省略するものとする。
図6は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第3の実施形態の一連の動作手順を示す流れ図である。
利用者が施設検索用の音声を発声すると、この音声がマイクロホン110によって取り込まれ、対応する音声(音声データ)が音声保存バッファ112に保存される(ステップ300)。次に、音声認識部114は、認識辞書116に含まれる動的な認識辞書(後述するステップ322で作成される)を用いて、音声保存バッファ112に保存されている音声に対して音声認識処理を行う(ステップ302)。優先度調整部122は、この音声認識処理の結果に基づいて、過去に施設検索サーバ150Bによる音声認識処理によって抽出された認識候補が正しいことが確かめられた音声と今回音声認識処理の対象になっている音声とが同一であるか否かを判定する(ステップ304)。ステップ302の音声認識処理において、既に作成されている動的な認識辞書が存在する音声は、過去に施設検索サーバ150Bによる音声認識処理によって抽出された認識候補が正しいことが確かめられた音声であるといえる。反対に、対応する動的な認識辞書が存在しない音声が音声認識処理の対象である場合にはステップ304の判定において否定判断が行われる。
ステップ304の判定において否定判断がなされると、次に、優先度調整部122は、音声保存バッファ112に保存された音声を通信部134によって施設検索サーバ150Bに向けて送信する(ステップ306)。施設検索サーバ150B側では、通信部168によって、車載装置100Bから送られてきた音声を受信すると、音声認識部160は、認識辞書162を用いてこの受信した音声に対して音声認識処理を行う(ステップ308)。この音声認識処理では、受信音声と認識辞書162に格納された複数の認識候補のそれぞれとの間で類似度が判定され、最大で所定個数の認識候補が抽出される。なお、1つの認識候補の類似度が他の認識候補の類似度に比べて極端に大きい場合に、この類似度が大きい1つの認識候補のみが抽出され、それ以外の場合には類似度が大きい順に複数の認識候補が抽出される。このようにして抽出された認識候補は通信部168によって車載装置100B側に送信される。
車載装置100B側では、通信部134によって、施設検索サーバ150Bから送られてきた認識結果を受信する(ステップ310)。受信した認識結果は、認識結果保存バッファ120に保存される。次に、優先度調整部122は、認識結果保存バッファ120に保存された認識結果が複数か否かを判定する(ステップ312)。複数の場合には肯定判断が行われる。この場合には、優先度調整部122は、これら複数の認識候補が選択肢として含まれる選択画面を認識結果表示処理部126によって表示装置128に表示させる(ステップ314)。このようにして選択画面が表示された状態で、優先度調整部122は、利用者が操作部124を操作することによりこの選択画面に含まれるいずれかの認識候補が選択されたか否かを判定する(ステップ316)。選択されるまで否定判断が行われ、ステップ314の表示が行われる。
また、利用者によって認識候補が選択されるとステップ316の判定において肯定判断が行われる。次に、優先度調整部122は、この選択された認識候補を通信部134を介して施設検索サーバ150Bに向けて送信する(ステップ318)。
次に、ステップ316で選択された1つの認識候補について、あるいは、施設検索サーバ150Bから受信した認識候補が1つだった場合(ステップ312の判定において否定判断)にはその認識候補について、辞書生成部118は、認識結果としての文字列に対してGTP処理を行って、文字列の「よみ情報」を作成する(ステップ320)。また、辞書生成部118は、このよみ情報から音声認識処理用の動的な認識辞書とこのよみ情報に対応する文字情報(よみ情報そのものを文字情報として用いるが場合や、GTP処理を行う前の認識結果としての文字列を文字情報として用いる場合などが考えられる)を作成する(ステップ322)。作成された動的な認識辞書は、認識辞書116に追加、格納される。
なお、作成された文字情報は、動的な認識辞書に対応づけられて認識辞書116の一部に保存されており、いずれかの動的な認識辞書を用いて認識候補の抽出が行われたときに、この動的な認識辞書に対応する文字情報も同時に認識辞書116から読み出され、音声認識部114から優先度調整部122に入力されるようになっている。したがって、優先度調整部122は、この文字情報の有無を調べるだけでステップ304の判定を行うことができる。
対応する文字情報が存在する場合にはステップ304の判定において肯定判断が行われる。この場合には、優先度調整部122は、入力された文字情報を通信部134によって施設検索サーバ150Bに向けて送信する(ステップ324)。
施設検索サーバ150Bでは、通信部168によって、車載装置100Bから送られてくる1つの認識候補(ステップ318で送信)や文字情報(ステップ324で送信)を受信すると、施設検索部164は、この認識候補あるいは文字情報を検索キーワードとして施設検索を行い、施設DB166に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ326)。抽出された施設情報は通信部168から車載装置100Bに向けて送信される。車載装置100Bでは、通信部134によって、施設検索サーバ150Bから送られてきた施設情報を受信する(ステップ328)。この受信した施設情報は、検索結果保存バッファ130に一旦保存された後、検索結果表示処理部132によって読み出されてその内容が表示装置128に表示される(ステップ330)。
このように、本実施形態の施設検索システムでは、施設検索サーバ150B側の音声認識処理によって正しい認識結果が得られた音声について車載装置100B側において動的な認識辞書が作成されるため、この音声については次回以降に車載装置100B側の音声認識処理の認識精度を上げることが可能となる。また、この音声については、次回以降は、施設検索サーバ150B側における音声認識処理が不要となるため、施設検索に要する時間を短縮することができる。特に、文字情報を検索キーワードとして用いることにより、施設検索サーバ150Bにおける施設検索処理を簡略化することができる。
(第4の実施形態)
次に、第4の実施形態の施設検索システムについて説明する。本実施形態の施設検索システムでは、車載装置と施設検索サーバの両方において、入力音声に対する音声認識処理およびその認識結果を用いた施設検索処理を並行して行い、結果が先に得られる車載装置側の検索結果を先に表示し、結果が後から得られる施設検索サーバ側の検索結果については必要に応じて表示するようにした。
図7は、第4の実施形態の施設検索システムの構成を示す図である。本実施形態の施設検索システムは、車載装置100Cと施設検索サーバ150Cとを備えている。これらに含まれる各構成は、図1に示した車載装置100と施設検索サーバ150に含まれる各構成と基本的に共通するものであり、一部が削除あるいは追加されるとともに信号の入出力経路が一部変更されているが、基本的な動作が共通するものについては説明は省略するものとする。車載装置100Cに含まれる施設検索部140が第1のコンテンツ検索手段に、施設DB142が第1のコンテンツデータベースに、施設検索サーバ150Cに含まれる施設検索部164が第2のコンテンツ検索手段に、施設DB166が第2のコンテンツデータベースにそれぞれ対応する。車載装置100C内の施設検索部140および施設DB142は、施設検索サーバ150C内の施設検索部164および施設DB166と比べて基本的に同じものである。また、検索結果保存バッファ144には、施設検索部140の施設検索によって抽出された施設情報が保存される。
図8は、利用者が発声した音声を取り込んでこの音声に対応する施設検索結果を表示するまでの第4の実施形態の一連の動作手順を示す流れ図である。
利用者が施設検索用の音声を発声すると、この音声がマイクロホン110によって取り込まれ、対応する音声(音声データ)が音声保存バッファ112に保存される(ステップ400)。次に、音声認識部114は、認識辞書116を用いて、音声保存バッファ112に保存されている音声に対して音声認識処理を行う(ステップ402)。この音声認識処理によって、入力音声との類似度が最も大きい1つの認識候補が抽出される。なお、第1の実施形態では、認識辞書116に含まれる動的な認識辞書を用いて音声認識処理が行われたが、ステップ402の音声認識処理は、予め作成された一般的な内容を有する認識辞書116を用いて行われる。
次に、施設検索部140は、音声認識部114によって抽出された認識候補を検索キーワードとして施設検索を行い、施設DB142に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ404)。この抽出された施設情報は、検索結果表示処理部132によってその内容が表示装置128に表示される(ステップ406)。
また、音声保存バッファ112に保存された音声は、通信部134によって施設検索サーバ150Cに向けて送信される(ステップ408)。施設検索サーバ150C側では、通信部168によって、車載装置100Cから送られてきた音声を受信すると、音声認識部160は、認識辞書162を用いてこの受信した音声に対して音声認識処理を行う(ステップ410)。この音声認識処理では、受信音声と認識辞書162に格納された複数の認識候補のそれぞれとの間で類似度が判定され、1つの認識候補が抽出される。
また、施設検索部164は、この認識候補を検索キーワードとして施設検索を行い、施設DB166に格納された施設情報の中から1あるいは複数の施設に関する施設情報を抽出する(ステップ412)。ステップ410の音声認識処理によって抽出された1つの認識候補と、ステップ412の施設検索処理によって抽出された施設情報は、ともに通信部168から車載装置100Cに向けて送信される。車載装置100Cでは、通信部134によって、施設検索サーバ150Cから送られてきた認識候補と施設情報を受信する(ステップ414)。その後、検索結果表示処理部132によって、この新たに受信した施設情報の内容が表示装置128に表示され、表示内容の変更が行われる(ステップ416)。
なお、この例では、施設検索サーバ150Cから施設情報を受信したときに、それまで表示していた車載装置100C側の施設情報に代えて、この新たに受信した施設情報を表示するようにしたが、この表示切り替え等については各種の変形例が考えられる。例えば、車載装置100Cと施設検索サーバ150Cのそれぞれの音声認識処理によって同一の認識候補が得られた場合には、上述した場合と同様に施設検索サーバ150C側の施設情報に表示を切り替える。一方、認識候補が異なる場合には、車載装置100C側の認識候補を用いて再度施設検索サーバ150C側で施設検索を行い、検索により抽出された施設情報を取得して車載装置100Cの表示装置128に表示するようにしてもよい。認識候補が同じであるか否かは優先度調整部122によって判定することができる。
このように、本実施形態の施設検索システムでは、車載装置100C側において行われる音声認識処理によって抽出された認識候補を用いた施設検索を行うことにより、速やかに施設情報を表示させることができ、その後、施設検索サーバ150C側において行われる音声認識処理によって抽出された認識候補を用いた施設検索による施設情報が得られたときに、この新たに得られた施設情報に表示内容を変更することで検索精度を向上させることができる。しかも、これら一連の動作を実施する際に特別な操作が不要であって操作の簡略化が可能となる。
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。上述した実施形態では、施設検索サーバ150等において施設情報を検索する場合について説明したが、音声認識処理によって抽出された認識候補を検索キーワードとして検索する対象は、施設を含むあるいは施設以外の広い概念としてのコンテンツとすることができる。
また、上述した実施形態では、音声認識処理によって抽出された認識候補を検索キーワードとして施設情報を検索する施設検索システムについて本発明を適用したが、音声認識処理に関する構成に着目した「音声認識システム」としてもよい。
上述したように、本発明によれば、2組の認識辞書と音声認識部を用いて同じ音声に対して音声認識処理を行うことにより、認識精度を上げることが可能となる。これにより、1つの認識候補(語彙)を決定する可能性が高まり、複数の認識候補の中から利用者自身が正解となる認識候補を選択する機会が減るため、操作の簡略化が可能となる。
100 車載装置
150 施設検索サーバ
110 マイクロホン
112 音声保存バッファ
114、160 音声認識部
116、162 認識辞書
118 辞書生成部
120 認識結果保存バッファ
122 優先度調整部
124 操作部
126 認識結果表示処理部
128 表示装置
130 検索結果保存バッファ
132 検索結果表示処理部
134、168 通信部
164 施設検索部
166 施設DB(データベース)

Claims (15)

  1. 話者が発声した音声を保存する音声保存手段と、
    第1の認識辞書を用いて、前記音声保存手段に保存された音声に対して音声認識処理を行う第1の音声認識手段と、
    前記第1の認識辞書と異なる第2の認識辞書を用いて、前記音声保存手段に保存された音声に対して音声認識処理を行う第2の音声認識手段と、
    前記第1および第2の音声認識手段の認識結果に基づいて、前記音声保存手段に保存された音声に対応する認識候補を決定する認識結果決定手段と、
    を備えることを特徴とする音声認識システム。
  2. 請求項1において、
    前記第1の音声認識手段による音声認識処理の処理時間は、前記第2の音声認識処理手段による音声認識処理の処理時間よりも短く、
    前記第2の音声認識手段による音声認識処理の認識精度は、前記第1の音声認識処理手段による音声認識処理の認識精度よりも高いことを特徴とする音声認識システム。
  3. 請求項1または2において、
    前記第1および第2の音声認識手段による音声認識処理は、互いに異なる音響モデルおよび照合アルゴリズムを用いて行われることを特徴とする音声認識システム。
  4. 請求項1〜3のいずれかにおいて、
    前記音声保存手段、前記第1の音声認識手段、前記認識結果決定手段は、車両に設けられており、
    前記第2の音声認識手段は、ネットワークを介して接続された車両外部のサーバに設けられていることを特徴とする音声認識システム。
  5. 請求項4において、
    前記第2の音声認識手段による音声認識処理によって複数の認識候補に絞られたときに、これら複数の認識候補に対応する前記第1の認識辞書を作成する辞書作成手段をさらに備え、
    前記認識結果決定手段は、前記辞書作成手段によって作成された前記第1の認識辞書を用いた前記第1の音声認識手段の認識結果を用いて、前記音声保存手段に保存された音声に対応する認識候補を決定することを特徴とする音声認識システム。
  6. 請求項5において、
    前記認識結果決定手段は、前記第2の音声認識手段による音声認識処理によって1つの認識候補に絞られたときに、この認識候補を、前記音声保存手段に保存された音声に対応する認識候補として決定することを特徴とする音声認識システム。
  7. 請求項5または6において、
    前記辞書作成手段は、前記複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、前記第1の認識辞書を作成することを特徴とする音声認識システム。
  8. 請求項5〜7のいずれかに記載の前記サーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、前記認識結果決定手段によって決定された認識候補を検索キーワードとして前記複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えることを特徴とする検索システム。
  9. 請求項4において、
    前記認識結果決定手段は、前記第1の音声認識手段による認識結果が誤りであった場合に、前記第2の音声認識手段による音声認識処理を依頼することを特徴とする音声認識システム。
  10. 請求項9において、
    前記第1の音声認識手段による認識結果を利用者に通知する通知手段と、
    前記通知手段による通知に応じて、認識結果が誤りであった場合にその旨を利用者が指示する操作手段と、
    をさらに備えることを特徴とする音声認識システム。
  11. 請求項9または10に記載の前記サーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、前記認識結果決定手段によって決定された認識候補を検索キーワードとして前記複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えることを特徴とする検索システム。
  12. 請求項4において、
    過去に前記第2の音声認識手段による音声認識処理によって抽出された認識候補であって、正しいことが確かめられた認識候補に対応する前記第1の認識辞書を作成する辞書作成手段をさらに備え、
    前記認識結果決定手段は、前記辞書作成手段によって作成された前記第1の認識辞書を用いた前記第1の音声認識手段の認識結果を用いて、前記音声保存手段に保存された音声に対応する認識候補を決定することを特徴とする音声認識システム。
  13. 請求項12において、
    前記辞書作成手段は、前記複数の認識候補のそれぞれに対応する読みを書記素−音素変換により生成し、この読みを音声波形に変換することにより、前記第1の認識辞書を作成することを特徴とする音声認識システム。
  14. 請求項12または13に記載の前記認識結果決定手段は、前記音声保存手段に保存された音声に対応する認識候補とともにこの認識候補に対応する文字情報を決定し、
    前記サーバは、複数のコンテンツに関する情報が格納されたコンテンツデータベースと、前記認識結果決定手段によって決定された前記文字情報を検索キーワードとして前記複数のコンテンツの中から一つあるいは複数のコンテンツに関する情報を検索するコンテンツ検索手段とを備えることを特徴とする検索システム。
  15. 請求項4に記載の前記車両には、複数のコンテンツに関する情報が格納された第1のコンテンツデータベースと、前記第1の音声認識手段による音声認識処理によって得られた認識結果を検索キーワードとしてコンテンツに関する情報を検索する第1のコンテンツ検索手段と、前記第1のコンテンツ検索手段による検索結果としてのコンテンツに関する情報を表示する表示手段とが設けられており、
    前記サーバには、複数のコンテンツに関する情報が格納された第2のコンテンツデータベースと、前記第2の音声認識手段による音声認識処理によって得られた認識結果を検索キーワードとしてコンテンツに関する情報を検索する第2のコンテンツ検索手段とが備わっており、
    前記第2のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が得られるまでは、前記表示手段に前記第1のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が表示され、前記第2のコンテンツ検索手段による検索結果としてのコンテンツに関する情報が得られた後はこのコンテンツに関する情報が前記表示手段に表示されることを特徴とする検索システム。
JP2011029301A 2011-02-15 2011-02-15 音声認識システムおよびこれを用いた検索システム Active JP5606951B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011029301A JP5606951B2 (ja) 2011-02-15 2011-02-15 音声認識システムおよびこれを用いた検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011029301A JP5606951B2 (ja) 2011-02-15 2011-02-15 音声認識システムおよびこれを用いた検索システム

Publications (2)

Publication Number Publication Date
JP2012168349A true JP2012168349A (ja) 2012-09-06
JP5606951B2 JP5606951B2 (ja) 2014-10-15

Family

ID=46972567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011029301A Active JP5606951B2 (ja) 2011-02-15 2011-02-15 音声認識システムおよびこれを用いた検索システム

Country Status (1)

Country Link
JP (1) JP5606951B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014071449A (ja) * 2012-09-28 2014-04-21 Samsung Electronics Co Ltd 電子装置、サーバー及びその制御方法
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
JP2014191030A (ja) * 2013-03-26 2014-10-06 Fuji Soft Inc 音声認識端末およびコンピュータ端末を用いる音声認識方法
JP2015146055A (ja) * 2015-05-21 2015-08-13 シャープ株式会社 音声認識システム、および音声処理装置
JP2017007652A (ja) * 2015-06-08 2017-01-12 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングRobert Bosch Gmbh 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
CN109524002A (zh) * 2018-12-28 2019-03-26 江苏惠通集团有限责任公司 智能语音识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325688A (ja) * 2003-04-23 2004-11-18 Toyota Motor Corp 音声認識システム
JP2005037662A (ja) * 2003-07-14 2005-02-10 Denso Corp 音声対話システム
JP2007041089A (ja) * 2005-08-01 2007-02-15 Hitachi Ltd 情報端末および音声認識プログラム
JP2009265307A (ja) * 2008-04-24 2009-11-12 Toyota Motor Corp 音声認識装置及びこれを用いる車両システム
JP2010224301A (ja) * 2009-03-24 2010-10-07 Denso Corp 音声認識システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325688A (ja) * 2003-04-23 2004-11-18 Toyota Motor Corp 音声認識システム
JP2005037662A (ja) * 2003-07-14 2005-02-10 Denso Corp 音声対話システム
JP2007041089A (ja) * 2005-08-01 2007-02-15 Hitachi Ltd 情報端末および音声認識プログラム
JP2009265307A (ja) * 2008-04-24 2009-11-12 Toyota Motor Corp 音声認識装置及びこれを用いる車両システム
JP2010224301A (ja) * 2009-03-24 2010-10-07 Denso Corp 音声認識システム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014071449A (ja) * 2012-09-28 2014-04-21 Samsung Electronics Co Ltd 電子装置、サーバー及びその制御方法
US9582245B2 (en) 2012-09-28 2017-02-28 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
US10120645B2 (en) 2012-09-28 2018-11-06 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
US11086596B2 (en) 2012-09-28 2021-08-10 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
JP2014191030A (ja) * 2013-03-26 2014-10-06 Fuji Soft Inc 音声認識端末およびコンピュータ端末を用いる音声認識方法
JP2015146055A (ja) * 2015-05-21 2015-08-13 シャープ株式会社 音声認識システム、および音声処理装置
JP2017007652A (ja) * 2015-06-08 2017-01-12 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツングRobert Bosch Gmbh 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
CN109524002A (zh) * 2018-12-28 2019-03-26 江苏惠通集团有限责任公司 智能语音识别方法及装置

Also Published As

Publication number Publication date
JP5606951B2 (ja) 2014-10-15

Similar Documents

Publication Publication Date Title
CN107039038B (zh) 学习个性化实体发音
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
US9239829B2 (en) Speech recognition device
KR101670150B1 (ko) 이름 발음을 위한 시스템 및 방법
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
US8019604B2 (en) Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
US20080130699A1 (en) Content selection using speech recognition
US20180074661A1 (en) Preferred emoji identification and generation
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
US9997155B2 (en) Adapting a speech system to user pronunciation
EP3736807A1 (en) Apparatus for media entity pronunciation using deep learning
EP2747077A1 (en) Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device
WO2008065488A1 (en) Method, apparatus and computer program product for providing a language based interactive multimedia system
JP2014106927A (ja) 情報処理システム
JP2013088477A (ja) 音声認識システム
WO2016136207A1 (ja) 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム
JP2018040904A (ja) 音声認識装置および音声認識方法
KR20140123369A (ko) 음성인식 질의응답 시스템 및 그것의 운용방법
JP5335165B2 (ja) 発音情報生成装置、車載情報装置およびデータベース生成方法
CN107885720B (zh) 关键词生成装置以及关键词生成方法
CN112820294B (zh) 语音识别方法、装置、存储介质及电子设备
JP2009282835A (ja) 音声検索装置及びその方法
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
WO2016136208A1 (ja) 音声対話装置、音声対話システム、および、音声対話装置の制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140827

R150 Certificate of patent or registration of utility model

Ref document number: 5606951

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150