JP5925313B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5925313B2
JP5925313B2 JP2014523470A JP2014523470A JP5925313B2 JP 5925313 B2 JP5925313 B2 JP 5925313B2 JP 2014523470 A JP2014523470 A JP 2014523470A JP 2014523470 A JP2014523470 A JP 2014523470A JP 5925313 B2 JP5925313 B2 JP 5925313B2
Authority
JP
Japan
Prior art keywords
unit
information
search
display
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014523470A
Other languages
English (en)
Other versions
JPWO2014006690A1 (ja
Inventor
裕三 丸田
裕三 丸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5925313B2 publication Critical patent/JP5925313B2/ja
Publication of JPWO2014006690A1 publication Critical patent/JPWO2014006690A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Remote Sensing (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、ユーザが発話した音声を認識して情報を検索する音声認識装置に関するものである。
カーナビゲーションシステム等に搭載されている音声認識機能においては、搭乗者(ユーザ)が発話の開始をシステムに対して明示(指示)するのが一般的である。そのために、音声認識開始を指示するボタン(以下、音声認識開始指示部と記載する)が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、搭乗者(ユーザ)により音声認識開始指示部が押下された後に発話された音声を認識する。すなわち、音声認識開始指示部は音声認識開始信号を出力し、音声認識部は当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、搭乗者(ユーザ)が発話した内容に該当する音声区間を検出し、音声認識処理を行う。
しかし、搭乗者(ユーザ)による音声認識開始指示がなくても、常に、搭乗者(ユーザ)が発話した内容を認識する音声認識装置も存在する。すなわち、音声認識部は、音声認識開始信号を受けなくても、音声取得部により取得された音声データから、搭乗者(ユーザ)が発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する処理を繰り返し行う。または、その文字列をもとにデータベースを検索して検索結果を表示する。
例えば特許文献1には、ユーザが発した音声を常時入力して音声認識を行い、その認識結果を表示し、その後にユーザが操作ボタンにより決定操作を行うことにより、認識結果に基づく処理を実行する音声認識装置が開示されている。
特開2008−14818号公報
しかしながら、例えば特許文献1のような従来の音声認識装置では、同じ発話を認識した場合、常に同じレベルの検索結果が表示されるだけである、という問題があった。すなわち、例えば、ユーザが「ガソリンスタンド」を発話した場合、常に近傍のガソリンスタンドの店名と位置を表示するだけであり、ユーザがガソリンスタンド毎の価格を知るためには、毎回さらに所定の操作を別途行わなければならない、という課題があった。
この発明は、上記のような課題を解決するためになされたものであり、ユーザが求めるレベルの情報を即座に提示できる音声認識装置を提供することを目的とする。
上記目的を達成するため、この発明の音声認識装置は、ユーザにより発話された音声を検知して取得する音声取得部と、前記音声取得部により取得された音声データを認識してキーワードを抽出する音声認識部と、前記ユーザからの操作入力を受け付ける操作入力部と、前記ユーザに情報を提示する表示部と、前記操作入力部により受け付けられた情報および前記表示部に表示された情報に基づいて、前記ユーザの操作を特定する操作応答解析部と、前記音声認識部により抽出されたキーワード毎に、前記操作応答解析部により特定された操作により前記表示部に表示された表示内容とその表示回数を、前記表示内容に応じた階層に分類された履歴情報として記憶する操作表示履歴記憶部と、前記操作表示履歴記憶部に記憶されている履歴情報に応じて、前記音声認識部により抽出されたキーワードの、どの階層の情報まで取得するかを表わす指標である検索レベルを設定する検索レベル設定部と、前記検索レベル設定部により設定された検索レベルにしたがって、前記音声認識部により抽出されたキーワードを検索キーとして情報を検索して、前記検索レベルが設定された履歴情報の階層までの情報を検索結果として取得する情報検索制御部と、前記情報検索制御部により取得された検索結果を、前記表示部に表示させる指示を行う情報提示制御部と、を備え、前記検索レベル設定部は、前記音声認識部により抽出されたキーワードについて、前記操作表示履歴記憶部に記憶されている履歴情報の中の表示回数が所定回数以上になった場合に、前記検索レベルを変更することを特徴とする。
この発明の音声認識装置によれば、ユーザが求めるレベルの情報を即座に提示することができ、常にユーザにとって必要な詳細情報を効率よく提供することができるので、ユーザの利便性が向上する。
ナビゲーション装置の表示画面例を示す図である。 実施の形態1による音声認識装置の一例を示すブロック図である。 検索レベルの定義例を示す図である。 情報検索制御部に設定されているキーワード毎の検索レベルの例を示す図である。 操作表示履歴記憶部に記憶されているキーワード毎のユーザによる操作履歴および表示履歴を示す図である。 実施の形態1における音声認識装置の動作を示すフローチャートである。 操作表示履歴記憶部に記憶されている一のキーワード(ガソリンスタンド)について操作履歴および表示履歴が更新される例を示す図である。 検索結果の表示例を示す図である。 実施の形態2による音声認識装置の一例を示すブロック図である。 実施の形態2における音声認識装置の動作を示すフローチャートである。 実施の形態3による音声認識装置の一例を示すブロック図である。 実施の形態3における音声認識装置の動作を示すフローチャートである。 実施の形態4による音声認識装置の一例を示すブロック図である。 実施の形態4における音声認識装置の動作を示すフローチャートである。
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
まず初めに、この発明の前提となる音声認識装置が組み込まれたナビゲーション装置について説明する。図1は、一般的なナビゲーション装置の表示画面例を示す図である。
例えば、当該ナビゲーション装置が搭載されている車内において、ナビゲーション装置の画面70には、通常の道案内のための地図および自車マーク71が表示されている状態で、次のような会話が行われたとする。
ユーザA:「そろそろガソリンがなくなるなぁ」
ユーザB:「近くにガソリンスタンドはないかなぁ」
すると、その発話内容に含まれるジャンル名(この例では「ガソリンスタンド」)に対応するジャンル名アイコン72がナビゲーション装置の画面70に表示される(図1(a))。ユーザが当該アイコン72を押下すると、現在地周辺のガソリンスタンドが検索され、検索結果としてガソリンスタンドの例えば名称と住所等が検索結果リスト73のように表示される(図1(b))。
続いて、ユーザが表示された検索結果の一つを選択すると、選択されたガソリンスタンドの位置情報が施設マーク74のように表示されるとともに、当該ガソリンスタンドの詳細情報、例えば、営業時間やガソリン価格等を表示するための詳細ボタン75(例えば「営業時間」ボタン75aと「価格」ボタン75b)が表示される(図1(c))。ここで、ユーザが「営業時間」のボタン75aを押下すると、そのガソリンスタンドの営業時間が表示される(図1(d))。
なお、以下の実施の形態ではいずれも、上述したガソリンスタンドのような、ジャンルによる施設検索を例に説明を行うが、この発明において検索する情報はこの施設情報に限られるものではなく、交通情報、天気情報、住所情報、ニュース、音楽情報、映画情報、番組情報などであってもよい。
実施の形態1.
図2は、この発明の実施の形態1による音声認識装置の一例を示すブロック図である。この音声認識装置は、車両(移動体)に搭載されたナビゲーション装置に組み込まれて使用されるものであり、音声取得部1、音声認識部2、音声認識辞書3、情報データベース4、情報検索制御部5、情報提示制御部6、表示部7、操作入力部8、操作応答解析部9、操作表示履歴記憶部10、検索レベル設定部11を備えている。
音声取得部1は、マイクにより集音されたユーザ発話、すなわち、入力された音声を取込み、例えばPCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換する。
音声認識部2は、音声取得部1によりデジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書3を用いて認識処理を行い、音声認識結果の文字列を出力する。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよい。
ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、ユーザが発話の開始をシステムに対して明示(指示)するのが一般的である。そのために、音声認識開始を指示するボタン(以下、音声認識開始指示部と記載する)が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、ユーザにより音声認識開始指示部が押下された後に発話された音声を認識する。すなわち、音声認識開始指示部は音声認識開始信号を出力し、音声認識部は当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、ユーザが発話した内容に該当する音声区間を検出し、上述した認識処理を行う。
しかし、この実施の形態1における音声認識部2は、上述したようなユーザによる音声認識開始指示がなくても、常に、ユーザが発話した内容を認識する。すなわち、音声認識部2は、音声認識開始信号を受けなくても、この音声認識装置が組み込まれたナビゲーション装置が起動されている場合は常時、音声取得部1により取得された音声データから、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書3を用いて認識処理を行い、音声認識結果の文字列を出力する処理を繰り返し行う。以下の実施の形態においても同様である。
情報データベース4は、施設情報や住所情報や曲情報等のうち少なくとも一つ以上を記憶している。施設情報には、例えば、施設名称、施設が属するジャンル、位置データ、営業時間、駐車場の有無等が、住所情報には、例えば、住所、位置データ等が、曲情報には、例えば、アルバム名、アーティスト名、曲名、年代等の情報が含まれる。なお、ここでは、情報データベース4には施設情報が記憶されているものとして説明するが、交通情報、天気情報、住所情報、ニュース、音楽情報、映画情報、番組情報などであってもよい。なお、情報データベース4は、例えば、HDDやフラッシュメモリに格納されているものでもよく、また、ネットワーク上にあり通信手段(図示せず)を介してアクセスするものであってもよい。
情報検索制御部5は、後述する検索レベル設定部11により設定された検索レベルに従って音声認識部2により出力されたキーワードを検索キーとして情報データベース4を検索し、情報を取得する。ここで、検索レベルとは、情報データベース4からどの程度(どの階層)の詳細情報まで取得するかを表す指標であり、キーワード毎に定義されている。
図3に、検索レベルの定義例を示す。例えば、キーワード「ガソリンスタンド」を検索キーとして検索する場合、設定された検索レベルが「1」であれば施設名称と住所情報までを取得し、検索レベルが「2」である場合は、施設名称と住所情報に加え、営業時間かガソリン価格の少なくとも一つ以上の指定された項目の情報を取得する。検索レベルが設定されていない場合は、情報検索制御部5は検索処理を行わない。なお、検索レベル「0」を設定することで検索レベルが設定されていないものとしてもよい。
図4は、後述する検索レベル設定部11により情報検索制御部5に設定されたキーワード毎の検索レベルの例を示したものである。ここで、図3のキーワード「ガソリンスタンド」のように、同じ検索レベルに複数の項目がある場合は、図4(a)に示すように、付加情報として一の項目が設定されてもよい。この場合、施設名称と住所情報に加え営業時間情報を取得する。また、図4(b)に示すように、付加情報として複数の項目が設定されてもよい。また、検索レベルのみが設定された場合は、当該レベルの項目すべてについて情報を取得するようにしてもよい。
情報提示制御部6は、検索レベルに応じてアイコンや情報検索制御部5により取得された検索結果を、後述する表示部7に表示させる指示を行う。具体的には、検索レベルが設定されていない場合は、図1(a)のようなジャンル名アイコン72を表示させ、検索レベルが設定されている場合は、情報検索制御部5により取得された検索結果を、図1(b)に示す検索結果リスト73のように表示させる。
表示部7は、表示一体型のタッチパネルであり、例えばLCD(Liquid Crystal Display)とタッチセンサから構成されており、情報提示制御部6からの指示に応じて検索結果を表示する。また、ユーザが表示部(タッチパネル)7に直接触れることにより、操作することが可能である。
操作入力部8は、ユーザからの操作入力を受け付けて車載用ナビゲーション装置にその指示を入力する操作キー、操作ボタン、タッチパネル等である。ユーザによる諸々の指示は、車載用ナビゲーション複合装置に設けられたハードウエアのスイッチ、ディスプレイに設定され表示されるタッチスイッチ、あるいはハンドル等に設置されたリモコンもしくは別体のリモコンによる指示を認識する認識装置などによるものが挙げられる。
操作応答解析部9は、操作入力部8により受け付けられた情報および表示部7に表示された画面の情報等に基づいて、ユーザの操作を特定する。なお、ユーザの操作の特定に関しては、この発明の本質的な事柄ではなく、公知の技術を用いればよいため説明を省略する。
操作表示履歴記憶部10は、音声認識部2により抽出されたキーワード毎に、操作応答解析部9により特定されたユーザの操作により表示部7に表示された表示内容とその表示回数を、履歴情報として記憶する記憶部である。図5は、操作表示履歴記憶部10に記憶されているキーワード毎のユーザによる履歴情報を示している。例えば、図5のようにキーワード毎にユーザの操作により表示した内容と当該内容を表示した回数を対にして記憶しており、操作応答解析部9によりユーザの操作が特定されると、その操作により表示された内容に対する回数がインクリメントされて保存される。
検索レベル設定部11は、操作表示履歴記憶部10に記憶されている履歴情報を参照して、当該履歴情報に応じて情報検索制御部5において検索キーとされるキーワード毎の検索レベルを設定する。ここで、情報検索制御部5に設定する検索レベルは、所定の表示回数以上の表示内容(または所定の表示回数を超える表示内容)に対応するレベルであるとする。そして、音声認識部2により抽出されたキーワードについて、操作表示履歴記憶部10に記憶されている履歴情報の中の表示回数が所定回数以上になった場合に、検索レベルを変更するものであり、表示回数が所定回数以上になるたびに、検索レベルを上げていく。
例えば、閾値となる所定回数を3回とした場合、図5に示すキーワード「ガソリンスタンド」においては、階層1の名称・住所表示が6回であり、階層2の営業時間表示が2回、価格表示が0回であるため、所定回数3回以上に該当する名称・住所を検索する検索レベル「1」(図3参照)を設定する。また、この時にユーザにより営業時間を表示する操作が行われると、営業時間表示の回数が3回に更新されるので、次にキーワード「ガソリンスタンド」が抽出された場合には、営業時間の表示回数が所定回数3回以上になっているので、検索レベルが「2」に上げられる。
また、表示回数が所定回数を超えているものが複数ある場合は、例えば、最も階層が深い表示内容に対する検索レベルを設定するようにすればよい。例えば、閾値となる所定回数を同じく3回とした場合、図5に示すキーワード「コンビニエンスストア」においては、階層1の名称・住所表示が5回、階層2の営業時間表示とおすすめ商品表示が共に4回であるため、所定回数3回以上に該当し、かつ、最も階層が深い表示内容である営業時間とお勧め商品を検索する検索レベル「2」(図3参照)を設定する。
ここで、閾値とする所定回数については、いずれも3回ということで説明したが、すべてのキーワードについて同じ値を用いるようにしてもよいし、キーワード毎に異なる値を用いるようにしてもよい。
なお、ここに示した検索レベルの設定方法は一例であって、他の方法で決定された検索レベルを設定するようにしてもよい。
次に、図6に示すフローチャートを用いて、実施の形態1の音声認識装置の動作を説明する。
まず、音声取得部1は、マイクにより集音されたユーザ発話、すなわち、入力された音声を取込み、例えばPCMによりA/D変換する(ステップST01)。
次に、音声認識部2は、音声取得部1によりデジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書3を用いて認識処理を行い、キーワードとなる文字列抽出し、出力する(ステップST02)。
そして、情報検索制御部5は、検索レベル設定部11により検索レベルが設定されている場合(ステップST03のYESの場合)は、当該検索レベルに従って音声認識部2により出力されたキーワードを検索キーとして情報データベース4を検索し、情報を取得する(ステップST04)。その後、情報提示制御部6が、情報検索制御部5により取得された検索結果を表示部7に表示するよう指示を行う(ステップST05)。
一方、検索レベルが設定されていない場合(ステップST03のNOの場合)は、当該キーワードに対応するアイコンを表示する(ステップST06)。
続いて、ユーザにより操作入力部8を介して表示画面が操作されると、操作応答解析部9が当該操作を解析し、ユーザの操作を特定し(ステップST07)、当該検索キーワードについて、特定されたユーザの操作により表示された内容に対する回数をインクリメントして、操作表示履歴記憶部10に保存されている操作履歴、表示履歴を更新する(ステップST08)。
検索レベル設定部11は、ステップST02において抽出されたキーワードについて、操作表示履歴記憶部10に保存されている表示内容の回数が、予め設定された閾値である所定回数以上であるものがあるか否かを判定する(ステップST09)。所定回数以上である表示内容がないと判定された場合(ステップST09のNOの場合)は、ステップST01に戻る。一方、所定回数以上である表示内容があると判定された場合(ステップST09のYESの場合)は、その内容に基づいて検索レベルを決定し、情報検索制御部5に対して検索レベルを設定する(ステップST10)。
次に、具体例を挙げて説明する。なお、説明のため、初期状態は、情報検索制御部5において検索レベルは未設定、各キーワードにおける画面表示の回数はすべて0であるものとする。また、検索レベル設定部11における判定の際の閾値とする「所定回数」は2回とする。
例えば、ナビゲーション装置が搭載されている車内において、ナビゲーション装置の画面70には、通常の道案内のための地図および自車マーク71が表示されている状態で、
ユーザA:「そろそろガソリンがなくなるなぁ」
ユーザB:「近くにガソリンスタンドはないかなぁ」
上記のような会話がなされたとすると、音声取得部1によりデジタル化された音声信号が音声認識部2により認識され、キーワード「ガソリンスタンド」が抽出されて出力される(ステップST01、ステップST02)。
ここで、上述したとおり初期状態では、情報検索制御部5においてキーワード「ガソリンスタンド」に対する検索レベルは未設定であるため、情報検索制御部5による情報データベース4の検索は行われない(ステップST03のNOの場合)。そして、検索レベル未設定に対応する表示、すなわち「ガソリンスタンド」のジャンル名アイコン73が、例えば図1(a)に示すように表示部7の画面70に表示される(ステップST06)。
そして、ユーザにより図1(a)(b)(c)に示す操作が行われ、図1(d)のような画面が表示されると、操作応答解析部9によりそれら図1(a)(b)(c)の操作により名称・住所表示と営業時間表示がなされたことが特定され、キーワード「ガソリンスタンド」について、名称・住所表示と営業時間表示の回数がインクリメントされて操作表示履歴記憶部10の内容が更新される(ステップST07、ステップST08)。この結果、操作表示履歴記憶部10には、キーワード「ガソリンスタンド」について、名称・住所表示の回数「1」、営業時間表示の回数「1」、価格表示の回数「0」という履歴が保存される。
また、別のときにユーザが上記のような会話を行い、名称・住所表示まで行ったとすると、操作表示履歴記憶部10に記憶されている情報は、図7(a)に示すように、キーワード「ガソリンスタンド」について、名称・住所表示の回数「2」、営業時間表示の回数「1」、価格表示の回数「0」という内容になり、名称・住所表示回数が閾値である所定回数「2」以上となるため、情報検索制御部5に対して検索レベル「1」が設定される(ステップST09、ステップST10)。
さらに、別のときにユーザが上記のような会話を行うと、キーワード「ガソリンスタンド」について、情報検索制御部5において検索レベル「1」が設定されているので、情報データベース4から名称・住所情報が取得され、検索結果として図8(a)のように検索結果リスト73が表示される(ステップST03のYESの場合、ステップST04、ステップST05)。ここで、ユーザが検索結果の一つを選択すると、図1(c)に示す画面が表示される。また、操作表示履歴記憶部10に記憶されている情報は、図7(b)に示すように、名称・住所表示の回数「3」、営業時間表示の回数「2」、価格表示の回数「0」という内容になり、営業時間表示回数が閾値である所定回数「2」以上となるため、情報検索制御部5に対して検索レベル「2」、付加情報「営業時間」が設定される。
同様にして、操作表示履歴記憶部10で記憶されている情報が図7(b)のような場合に、さらに別のときにユーザが上記のような会話を行うと、キーワード「ガソリンスタンド」について、情報検索制御部5において検索レベル「2」、付加情報「営業時間」が設定されているので、情報データベース4から営業時間まで取得され、検索結果として図8(b)のような営業時間を含めた検索結果リスト73が表示される。ここで、ユーザが検索結果の一つを選択すると、図1(d)に示す画面が表示される。
また、操作表示履歴記憶部10で記憶されている情報が図7(c)に示すように、名称・住所表示の回数「4」、営業時間表示の回数「2」、価格表示の回数「2」という場合には、すべての項目が検索レベル設定部11における判定に使用する閾値である所定回数「2」以上となるため、情報検索制御部5に対して検索レベル「2」、付加情報「営業時間」および「価格」(または、付加情報なし)が設定される。
この状態で、さらにユーザが上記のような会話を行うと、キーワード「ガソリンスタンド」について、情報検索制御部5において検索レベル「2」、付加情報「営業時間」と「価格」(または付加情報なし)が設定されているため、情報データベース4から営業時間および価格まで取得され、検索結果として図8(c)のような営業時間と価格まで含めて検索結果リスト73が表示される。
以上のように、この実施の形態1によれば、ユーザの発話内容から音声認識部により抽出されたキーワードについて、ユーザの操作によって表示が行われた内容と回数を履歴情報として記憶しておき、ユーザが「ガソリンスタンド」の情報を見る時には毎回営業時間の確認をしているなど、所定回数以上同じ操作および表示を行っているか否かを判定して検索レベルを設定することにより、次に同じキーワードが抽出された際に、ユーザが求めるレベルの情報を即座に提示することができ、常にユーザにとって必要な詳細情報を効率よく提供することができるので、ユーザの利便性が向上する。
実施の形態2.
図9は、この発明の実施の形態2による音声認識装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、鳴動設定部12をさらに備えており、音声認識部2により認識されたキーワードに対するユーザの情報表示回数が所定回数以上である(または所定回数を超えている)場合に、ユーザに注意を促すものである。
情報検索制御部5は、音声認識部2により認識されたキーワードに対するユーザの情報表示回数に基づいて、検索レベル設定部11により検索レベル「1」以上が設定された場合(または所定の値より大きい検索レベルが設定された場合)に、鳴動設定部12に対して出力の指示を行う。
鳴動設定部12は、情報検索制御部5からの指示を受けると、所定の出力を行うようナビゲーション装置の設定を変更する。ここで、所定の出力とは、例えば、シートの振動、報知音の出力、当該キーワードが認識された旨の音声出力など、予め定められた振動または音声による鳴動出力をいう。
次に、図10に示すフローチャートを用いて実施の形態2の音声認識装置の動作を説明する。
ステップST11〜ST19までの処理については、実施の形態1における図6のフローチャートのステップST01〜ST09と同じであるため、説明を省略する。
そして、音声認識部2により抽出されたキーワードについて、操作履歴、表示履歴が所定回数以上である表示内容があると判定された場合(ステップST19のYESの場合)は、実施の形態1と同様に検索レベルを設定し(ステップST20)、その後、鳴動設定部12が鳴動設定を変更して所定の出力を行う(ステップST21)。
以上のように、この実施の形態2によれば、ユーザの発話内容から音声認識部により抽出されたキーワードについて、過去にユーザが所定回数以上(または所定回数を超えて)そのキーワードに関する情報表示を行っていると判定された場合、すなわち、そのキーワードの検索レベルに応じて、鳴動設定部により振動または音声による所定の出力を行ってユーザに注意を促すようにしたので、ユーザが、その検索レベルに合わせた詳細情報が即座に提示されている状態である、ということを適切に認識することができる。
実施の形態3.
図11は、この発明の実施の形態3による音声認識装置の一例を示すブロック図である。なお、実施の形態1,2で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態3では、実施の形態2と比べると、検索レベル初期化部13をさらに備えており、操作表示履歴記憶部10に記憶されている履歴情報を、ユーザが初期化したい場合に発話により初期化することができる。
音声認識辞書3は、さらに「初期化」「リセット」等の、操作表示履歴記憶部10に記憶されている履歴情報を初期状態に戻すコマンドを意味するキーワードも認識可能なように構成されており、音声認識部2は、当該キーワードを認識結果として出力する。
検索レベル初期化部13は、音声認識部2により「初期化」「リセット」等の初期状態に戻すコマンドを意味するキーワードが抽出されると、操作表示履歴記憶部10に記憶されている履歴情報を初期化する。
次に、図12に示すフローチャートを用いて実施の形態3の音声認識装置の動作を説明する。
ステップST31〜32およびステップST35〜42は実施の形態2における図10のフローチャートのステップST11〜12およびステップST13〜20と同じであるため、説明を省略する。
そして、ステップST32において音声認識部2により抽出されたキーワードが「初期化」「リセット」等の初期状態に戻すコマンドを意味するキーワードである場合(ステップST33のYESの場合)は、操作表示履歴記憶部10に記憶されている情報を初期化、すなわち、初期状態に戻す(ステップST34)。また、それ以外のキーワードである場合は、ステップST35以降の処理を行う。
以上のように、この実施の形態3によれば、ユーザの発話内容から音声認識部により抽出されたキーワードが、「初期化」「リセット」等の初期状態に戻すコマンドを意味するキーワードであった場合には、操作表示履歴記憶部に記憶されている履歴情報を初期化するようにしたので、検索レベルに応じた詳細情報の表示が期待どおりのものでなくなった場合や、ユーザが変わった場合など、ユーザが初期化したい場合にこのコマンドを意味するキーワードを発話するだけで、操作表示履歴記憶部の内容を初期状態に戻すことができる。
実施の形態4.
図13は、この発明の実施の形態4による音声認識装置の一例を示すブロック図である。なお、実施の形態1〜3で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態4では、実施の形態1と比べると、話者識別部14をさらに備えており、発話者(発話したユーザ)毎に参照する履歴情報を変更するものである。
話者識別部14は、音声取得部1によりデジタル化された音声信号を解析し、発話者(発話したユーザ)を識別する。ここで、発話者の識別方法に関しては、この発明の本質的な事項ではなく、公知の技術を用いればよいため、ここでは説明を省略する。
操作表示履歴記憶部10は、ユーザ毎に図5に示すような履歴情報を保持している。そして、話者識別部14により発話者(発話したユーザ)が識別されると、当該識別されたユーザに対応する履歴情報を有効にする。その他の処理については、実施の形態1と同じであるため説明を省略する。なお、話者識別部14により識別された発話者が操作入力部8を操作したユーザであるとする。
検索レベル設定部11は、操作表示履歴記憶部10に記憶されている履歴情報であって有効になっているものを参照し、当該履歴情報に応じて情報検索制御部5において検索キーとするキーワード毎の検索レベルを設定する。
次に、図14に示すフローチャートを用いて実施の形態4の音声認識装置の動作を説明する。
まず、音声取得部1は、マイクにより集音されたユーザ発話、すなわち、入力された音声を取り込み、例えばPCMによりA/D変換する(ステップST51)。
次に、話者識別部14は、音声取得部1により取り込まれた音声信号を解析し、発話者を識別する(ステップST52)。
そして、操作応答解析部9は、操作表示履歴記憶部10の中から話者識別部14により識別された発話者に対応する履歴情報を有効化する(ステップST53)。
その後のステップST54〜ST62の処理については、実施の形態1における図6に示すフローチャートのステップST02〜ST10と同じであるため、説明を省略する。
以上のように、この実施の形態4によれば、ユーザの発話により発話者を識別し、発話者毎に記憶されている履歴情報を参照して検索レベルを設定してそれに応じた詳細情報を表示するようにしたので、この音声認識装置が組み込まれたナビゲーション装置を使用するユーザが変わっても、それぞれのユーザが求めるレベルの情報を即座に提示することができ、常にユーザにとって必要な詳細情報を効率よく提供することができるので、よりユーザの利便性が向上する。
なお、以上の実施の形態では、ユーザの発話内容を常に認識するものとしているが、所定の期間(例えば、ユーザが音声認識を行うためのボタンを押下し、そのボタンが押下されている間、または、そのボタン押下後所定の時間)のみ音声認識を行うようにしてもよい。また、常に認識するか、所定の期間のみ認識するかを、ユーザが設定できるようにしてもよい。
ただし、以上の実施の形態のように、ユーザが意識しなくても音声認識装置が組み込まれたナビゲーション装置が起動している場合は常時、音声取得および音声認識を行うようにすることにより、何らかの発話があれば自動的に音声取得および音声認識を行ってその音声認識結果からキーワードを抽出し、検索レベルを設定して、ユーザが求めるレベルの情報を即座に表示してくれるため、音声取得や音声認識開始のためのユーザの手動操作や入力の意思などを必要とせず、常にユーザにとって必要な詳細情報を効率よく提供することができる。
また、以上の実施の形態では、この音声認識装置が車載用のナビゲーション装置に組み込まれるものとして説明したが、この発明の音声認識装置が組み込まれる装置は車載用のナビゲーション装置に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用のナビゲーション装置や、携帯型のナビゲーション装置、携帯型の情報処理装置等、ユーザと装置との対話により情報を検索して表示することが可能な装置であれば、どのような形態のものにも適用することができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明の音声認識装置が組み込まれる装置は車載用のナビゲーション装置に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用のナビゲーション装置や、携帯型のナビゲーション装置、携帯型の情報処理装置等、ユーザと装置との対話により情報を検索して表示することが可能な装置であれば、どのような形態のものにも適用することができる。
1 音声取得部、2 音声認識部、3 音声認識辞書、4 情報データベース、5 情報検索制御部、6 情報提示制御部、7 表示部、8 操作入力部、9 操作応答解析部、10 操作表示履歴記憶部、11 検索レベル設定部、12 鳴動設定部、13 検索レベル初期化部、14 話者識別部、70 ナビゲーション装置の画面、71 自車マーク、72 ジャンル名アイコン、73 検索結果リスト、74 施設マーク、75 詳細ボタン。

Claims (6)

  1. ユーザにより発話された音声を検知して取得する音声取得部と、
    前記音声取得部により取得された音声データを認識してキーワードを抽出する音声認識部と、
    前記ユーザからの操作入力を受け付ける操作入力部と、
    前記ユーザに情報を提示する表示部と、
    前記操作入力部により受け付けられた情報および前記表示部に表示された情報に基づいて、前記ユーザの操作を特定する操作応答解析部と、
    前記音声認識部により抽出されたキーワード毎に、前記操作応答解析部により特定された操作により前記表示部に表示された表示内容とその表示回数を、前記表示内容に応じた階層に分類された履歴情報として記憶する操作表示履歴記憶部と、
    前記操作表示履歴記憶部に記憶されている履歴情報に応じて、前記音声認識部により抽出されたキーワードの、どの階層の情報まで取得するかを表わす指標である検索レベルを設定する検索レベル設定部と、
    前記検索レベル設定部により設定された検索レベルにしたがって、前記音声認識部により抽出されたキーワードを検索キーとして情報を検索して、前記検索レベルが設定された履歴情報の階層までの情報を検索結果として取得する情報検索制御部と、
    前記情報検索制御部により取得された検索結果を、前記表示部に表示させる指示を行う情報提示制御部と、を備え、
    前記検索レベル設定部は、前記音声認識部により抽出されたキーワードについて、前記操作表示履歴記憶部に記憶されている履歴情報の中の表示回数が所定回数以上になった場合に、前記検索レベルを変更する
    ことを特徴とする音声認識装置。
  2. 前記検索レベル設定部は、前記音声認識部により抽出されたキーワードについて、前記操作表示履歴記憶部に記憶されている履歴情報の中の表示回数が前記所定回数以上になるたびに、前記検索レベルを上げる
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記情報検索制御部が前記音声認識部により抽出されたキーワードを検索キーとして検索する情報は、施設情報、交通情報、天気情報、住所情報、ニュース、音楽情報、映画情報または番組情報のいずれかである
    ことを特徴とする請求項1記載の音声認識装置。
  4. 前記音声取得部により取得された音声を発話したユーザを特定する話者識別部をさらに備え、
    前記操作表示履歴記憶部は、ユーザ毎に履歴情報を記憶しており、前記話者識別部により特定されたユーザの履歴情報を有効にし、
    前記検索レベル設定部は、前記操作表示履歴記憶部において有効にされた履歴情報を参照して、前記検索レベルを設定する
    ことを特徴とする請求項1記載の音声認識装置。
  5. 前記検索レベルに応じて、振動または音声により前記ユーザに注意を促す鳴動設定部をさらに備える
    ことを特徴とする請求項1記載の音声認識装置。
  6. 前記音声認識部により抽出されたキーワードが、初期状態に戻すコマンドを意味するキーワードであった場合に、前記操作表示履歴記憶部に記憶されている履歴情報を初期状態に戻す検索レベル初期化部をさらに備える
    ことを特徴とする請求項1記載の音声認識装置。
JP2014523470A 2012-07-03 2012-07-03 音声認識装置 Expired - Fee Related JP5925313B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/066974 WO2014006690A1 (ja) 2012-07-03 2012-07-03 音声認識装置

Publications (2)

Publication Number Publication Date
JP5925313B2 true JP5925313B2 (ja) 2016-05-25
JPWO2014006690A1 JPWO2014006690A1 (ja) 2016-06-02

Family

ID=49881481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014523470A Expired - Fee Related JP5925313B2 (ja) 2012-07-03 2012-07-03 音声認識装置

Country Status (5)

Country Link
US (1) US9269351B2 (ja)
JP (1) JP5925313B2 (ja)
CN (1) CN104428766B (ja)
DE (1) DE112012006652T5 (ja)
WO (1) WO2014006690A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
JP5769904B2 (ja) * 2013-04-25 2015-08-26 三菱電機株式会社 評価情報投稿装置および評価情報投稿方法
WO2016002251A1 (ja) * 2014-06-30 2016-01-07 クラリオン株式会社 情報処理システム、及び、車載装置
JP6418820B2 (ja) * 2014-07-07 2018-11-07 キヤノン株式会社 情報処理装置、表示制御方法、及びコンピュータプログラム
CN104834691A (zh) * 2015-04-22 2015-08-12 中国建设银行股份有限公司 一种语音机器人
JP6641732B2 (ja) * 2015-06-09 2020-02-05 凸版印刷株式会社 情報処理装置、情報処理方法、及びプログラム
US10018977B2 (en) * 2015-10-05 2018-07-10 Savant Systems, Llc History-based key phrase suggestions for voice control of a home automation system
JP6625508B2 (ja) * 2016-10-24 2019-12-25 クラリオン株式会社 制御装置、制御システム
JP6920878B2 (ja) 2017-04-28 2021-08-18 フォルシアクラリオン・エレクトロニクス株式会社 情報提供装置、及び情報提供方法
KR102353486B1 (ko) * 2017-07-18 2022-01-20 엘지전자 주식회사 이동 단말기 및 그 제어 방법
JP6978174B2 (ja) * 2017-10-11 2021-12-08 アルパイン株式会社 評価情報生成システムおよび車載装置
JP6903380B2 (ja) * 2017-10-25 2021-07-14 アルパイン株式会社 情報提示装置、情報提示システム、端末装置
KR20200042127A (ko) * 2018-10-15 2020-04-23 현대자동차주식회사 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
CN113112989A (zh) * 2018-08-29 2021-07-13 胡开良 无人机声纹新闻追踪系统
US11094327B2 (en) * 2018-09-28 2021-08-17 Lenovo (Singapore) Pte. Ltd. Audible input transcription
JP7266432B2 (ja) * 2019-03-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN109996026B (zh) * 2019-04-23 2021-01-19 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质
CN111696548A (zh) * 2020-05-13 2020-09-22 深圳追一科技有限公司 显示行车提示信息的方法、装置、电子设备以及存储介质
CN113470636B (zh) * 2020-07-09 2023-10-27 青岛海信电子产业控股股份有限公司 一种语音信息处理方法、装置、设备及介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4137399B2 (ja) * 2001-03-30 2008-08-20 アルパイン株式会社 音声検索装置
JP2004030400A (ja) * 2002-06-27 2004-01-29 Fujitsu Ten Ltd 検索システム
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
JP2004185240A (ja) * 2002-12-02 2004-07-02 Alpine Electronics Inc 操作履歴再現機能を有する電子機器および操作履歴の再現方法
US9224394B2 (en) * 2009-03-24 2015-12-29 Sirius Xm Connected Vehicle Services Inc Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
JP4423327B2 (ja) * 2005-02-08 2010-03-03 日本電信電話株式会社 情報通信端末、情報通信システム、情報通信方法、情報通信プログラムおよびそれを記録した記録媒体
JP4603988B2 (ja) 2006-01-31 2010-12-22 キヤノン株式会社 情報処理装置および方法
JP4736982B2 (ja) 2006-07-06 2011-07-27 株式会社デンソー 作動制御装置、プログラム
CN101558443B (zh) * 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
WO2008084575A1 (ja) * 2006-12-28 2008-07-17 Mitsubishi Electric Corporation 車載用音声認識装置
WO2008136105A1 (ja) 2007-04-25 2008-11-13 Pioneer Corporation 表示装置、表示方法、表示プログラム、および記録媒体
JPWO2009147745A1 (ja) 2008-06-06 2011-10-20 三菱電機株式会社 検索装置
CN101499277B (zh) * 2008-07-25 2011-05-04 中国科学院计算技术研究所 一种服务智能导航方法和系统
US8818816B2 (en) 2008-07-30 2014-08-26 Mitsubishi Electric Corporation Voice recognition device
JP2011075525A (ja) 2009-10-02 2011-04-14 Clarion Co Ltd ナビゲーション装置、および操作メニュー変更方法
US9305555B2 (en) * 2012-06-25 2016-04-05 Mitsubishi Electric Corporation Onboard information device
JP2014109889A (ja) * 2012-11-30 2014-06-12 Toshiba Corp コンテンツ検索装置、コンテンツ検索方法及び制御プログラム

Also Published As

Publication number Publication date
JPWO2014006690A1 (ja) 2016-06-02
CN104428766A (zh) 2015-03-18
CN104428766B (zh) 2017-07-11
US20150120300A1 (en) 2015-04-30
US9269351B2 (en) 2016-02-23
WO2014006690A1 (ja) 2014-01-09
DE112012006652T5 (de) 2015-03-26

Similar Documents

Publication Publication Date Title
JP5925313B2 (ja) 音声認識装置
JP6400109B2 (ja) 音声認識システム
WO2014188512A1 (ja) 音声認識装置、認識結果表示装置および表示方法
JP5921722B2 (ja) 音声認識装置および表示方法
JP5158174B2 (ja) 音声認識装置
KR101614756B1 (ko) 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법
JP5677650B2 (ja) 音声認識装置
JP5835197B2 (ja) 情報処理システム
JP5893217B2 (ja) 音声認識装置および表示方法
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
JP5925401B2 (ja) 音声認識装置、システムおよび方法
JP4466379B2 (ja) 車載音声認識装置
JP6522009B2 (ja) 音声認識システム
US20160019892A1 (en) Procedure to automate/simplify internet search based on audio content from a vehicle radio
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
WO2013157174A1 (ja) 音声認識装置
JP5446540B2 (ja) 情報検索装置、制御方法及びプログラム
JP3759313B2 (ja) 車載用ナビゲーション装置
JP7010585B2 (ja) 音コマンド入力装置
JPH11125533A (ja) ナビゲーション装置及びナビゲート方法
JP2002318811A (ja) 車載情報端末装置
JP2018054829A (ja) 音声対話装置及び方法
JPWO2013005248A1 (ja) 音声認識装置およびナビゲーション装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160419

R150 Certificate of patent or registration of utility model

Ref document number: 5925313

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees