JP4137399B2 - Voice search device - Google Patents
Voice search device Download PDFInfo
- Publication number
- JP4137399B2 JP4137399B2 JP2001100615A JP2001100615A JP4137399B2 JP 4137399 B2 JP4137399 B2 JP 4137399B2 JP 2001100615 A JP2001100615 A JP 2001100615A JP 2001100615 A JP2001100615 A JP 2001100615A JP 4137399 B2 JP4137399 B2 JP 4137399B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- search
- character string
- output
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識を利用して各種情報の検索を行う音声検索装置に関する。
【0002】
【従来の技術】
従来から、利用者により発声される音声に対して音声認識処理を行い、認識結果に基づいて各種情報の検索を行う音声検索装置が知られている。
このような音声検索装置は、車載用のナビゲーション装置などと組み合わせて用いられている。例えば、ナビゲーション装置において、経路探索の目的地とするために各種施設を検索する機能を実行する場合を考えると、音声検索装置は、利用者の音声に対応して、(1)実行する機能を特定し、(2)利用者により指定された施設種別(例えば、食事場所や給油所等)に属する施設を検索し、(3)利用者によって指定されたフランチャイズ名などで特定される施設をさらに検索し、(4)最終的に利用者により指定された一の施設を抽出する、といった手順で情報の検索を行う。
【0003】
【発明が解決しようとする課題】
ところで、従来の音声検索装置では、音声検索装置に対して、どのような言葉を音声入力することができるのかについては各利用者が覚えている必要がある。例えば、上述した例では、各種機能や施設種別などがどのような呼び方で認識対象として設定されているかをあらかじめ把握しておかなければ、的確な音声入力を行うことができない。しかしながら、多くの利用者は、認識対象となっている言葉を全て把握しきれないので、とりあえず適当に思いついた言葉を入力してみることとなり、的確な言葉を用いた音声入力を行うことができないことから音声認識の精度の低下を招く場合があるという問題があった。
【0004】
本発明は、このような点に鑑みて創作されたものであり、その目的は、音声認識の精度を向上させることができる音声検索装置を提供することにある。
【0005】
【課題を解決するための手段】
上述した課題を解決するために、本発明の音声検索装置は、複数の検索対象項目のそれぞれに検索キーが対応付けられており、利用者の入力音声の内容と検索キーとを比較することにより、検索対象項目の中から該当するものを抽出する場合に、検索キーとなりうる文字列の最大個数を設定し、その数を超えない範囲で複数の文字列の読みを認識対象文字列出力手段により音声出力する。そして、マイクロホンによって集音した利用者の音声に対して音声認識処理手段によって所定の音声認識処理を行い、この音声に対応する文字列を、認識対象文字列出力手段による音声出力の対象となった文字列の中から選択しており、音声認識処理手段によって選択された文字列によって特定される検索キーに対応する検索対象項目を項目抽出手段によって抽出している。
【0006】
検索キーとなりうる複数の文字列の読みを音声出力することにより、認識対象となる文字列を利用者にあらかじめ提示しており、この提示に対応して利用者により入力される音声に対応する文字列を、音声出力の対象となった複数の文字列の中から選択して検索キーを特定しているので、音声認識の精度を向上させることができる。
【0007】
また、利用者が発声する前に操作されるスイッチをさらに備え、このスイッチが操作されたときに、音声認識処理手段による音声認識処理を開始することが望ましい。スイッチが操作された場合に音声認識処理を開始すればよいため、音声認識処理を開始するタイミングが明確になり、処理の簡略化が可能となる。
【0008】
また、音声認識処理手段によって選択された文字列の読みを音声出力する選択文字列確認手段をさらに備えることが望ましい。選択された文字列の読みを音声出力することにより、利用者は自分が入力した音声に対する認識結果を容易に確認することができる。
【0009】
また、音声認識処理手段による文字列の選択結果に対して利用者による否定的な見解が示されたときに、この選択結果を得るために用いられた複数の文字列の読みを再度音声出力する指示を認識対象文字列出力手段に対して行う再選択指示手段をさらに備えることが望ましい。これにより利用者は、自分の希望とは異なる文字列が選択結果として得られた場合に、否定的な見解を示すことにより、検索キーを入力し直すことができる。
【0010】
また、認識対象文字列出力手段は、認識対象となる文字列の総数が上述した所定の最大個数を超えているときに、複数回に分けてこの最大個数を超えない範囲の数の文字列の読みを音声出力し、1回の音声出力毎に、音声認識処理手段による文字列の選択判定を行うことが望ましい。認識対象となる文字列が多数存在する場合であっても、所定個数ずつに分けて音声出力が行われるため、利用者はこの所定個数の文字列にのみ着目して文字列の選択を行えばよく、所望の文字列の選択を確実に行うことができる。
【0011】
また、利用者によって他の選択候補の音声出力が指示されたときに、認識対象文字列出力手段に対して2回目以降の音声出力を指示する音声出力指示手段をさらに備えていることが望ましい。これにより利用者は、他の選択候補を容易に得ることができる。
【0012】
また、再度の音声出力が利用者によって指示されたときに、認識対象文字列出力手段に対して、直前に音声出力した複数の文字列の読みを再度音声出力する指示を行う再音声出力指示手段をさらに備えていることが望ましい。これにより、音声出力の内容を聞き逃したような場合に、再度の音声出力を行わせてその内容を確認することができる。
【0013】
また、文字列の選択動作をまかせる旨の指示が利用者によってなされたときに、音声認識処理手段による音声認識処理の結果を用いずに文字列の選択を行う文字列選択手段をさらに備えておき、この文字列選択手段による文字列の選択が行われたときには、音声認識処理手段によって選択される文字列に代えて、文字列選択手段によって選択された文字列を用いて項目抽出手段による検索対象項目の抽出動作を行うことが望ましい。「まかせる」旨の指示を行うことにより、利用者は文字列の選択を音声検索装置に対して委ねることができるため、いずれの文字列が選択されても構わないというような場合における操作の簡略化が可能となる。
【0014】
また、検索対象項目のそれぞれに複数の検索キーが対応付けられており、一の検索キーに対応して項目抽出手段によって一の検索対象項目の絞り込みが行えなかった場合には、一の検索対象項目の絞り込みが行えるまで、他の検索キーを用いた認識対象文字列出力手段、音声認識処理手段および項目抽出手段による処理を繰り返すことが望ましい。これにより、一の検索対象項目を確実に絞り込むことができる。
【0015】
また、複数の検索キーのそれぞれには異なる優先度が対応付けられており、複数の検索対象項目のそれぞれに複数の検索キーに対応する複数の文字列が対応付けられたテーブル情報をテーブル格納手段に格納し、このテーブル格納手段に格納されるテーブル情報に基づいて、認識対象文字列出力手段により、優先度が高い検索キーから順番に、対応する文字列の読みを音声出力することが望ましい。優先度が設定された検索キー毎に内容の追加や変更を行うことができるため、データ更新を容易に行うことができる。
【0016】
また、一の検索キーに対応する文字列の選択が行われたときに、次に選択対象となる検索キーおよびこの検索キーに対応する文字列を示す複数階層のツリー構造情報をツリー構造格納手段に格納し、このツリー構造格納手段に格納されるツリー構造情報に基づいて、認識対象文字列出力手段により、次に音声出力の対象となる検索キーに対応する複数の文字列を抽出して、これらの文字列の読みを音声出力するようにしてもよい。ツリー構造を上位階層から順に辿っていくだけで、次に音声出力する文字列を抽出することができるため、処理の簡略化が可能となる。
【0017】
また、音声認識処理手段による過去の選択履歴情報を格納する選択履歴格納手段をさらに備えておき、この選択履歴格納手段に格納される選択履歴情報に基づいて、選択頻度が高い文字列を認識対象文字列出力手段によって判定し、この文字列の読みを優先的に音声出力することが望ましい。選択される頻度が高い文字列ほど優先的に音声出力を行うようにすることにより、選択頻度の高い文字列を少ない音声入力によって選択することができるようになり、操作性を向上させることができる。
【0018】
また、複数の文字列のそれぞれが日本語の50音の中の一音からなっている場合に、項目抽出手段は、先頭の一語が音声認識処理手段によって選択された一音に一致する検索キーを抽出することが望ましい。選択候補となる文字列が多数存在する場合であっても、容易に候補の文字列を絞り込むことができる。
【0019】
また、音声認識処理手段は、文字列を構成する全ての文字と、音声認識処理結果の全体とを比較することにより、文字列の選択を行うことが望ましい。文字列と音声認識結果とが完全に一致するもののみを考慮して文字列の選択を行えばよいため、比較処理が容易となり処理を簡略化することができる。
【0020】
また、音声認識処理手段は、文字列の一部を構成する文字と、音声認識処理結果の全体とを比較することにより、文字列の選択を行うようにしてもよい。文字列の一部を構成する文字を考慮した比較を行うことにより、文字列の一部に特徴がある場合等において、利用者はこの特徴があって覚えやすい一部分のみを音声入力することが可能となり、操作性の向上を図ることができる。
【0021】
また、音声認識処理手段は、認識対象文字列出力手段による音声出力が終了する前に、利用者の音声がマイクロホンによって集音されたときには、その時点から文字列の選択動作を開始することが望ましい。音声出力において、最初の方で案内された認識対象文字列を選択したい場合などにおいて、全ての音声出力を待つことなくこの所望の文字列を音声入力することができるため、より一層の操作性の向上を図ることができる。
【0022】
また、上述した検索キーとなりうる文字列の最大個数は、7±2の範囲に設定されていることが望ましい。認知心理学における短期記憶の理論によれば、なんらかのまとまりを持つ情報のかたまりを「チャンク」と定義すると、人間が一度に保持することができる情報の量は、およそ7±2チャンクであるとされている。例えば、電話番号を記憶する場合には、基本的には電話番号を構成する数字1個が1チャンクに相当することとなる。また、「2983」という数字列を「肉屋さん」のように語呂合わせにして記憶した場合には、この「肉屋さん」という情報が1チャンクに相当する。したがって、この「チャンク」の概念に基づいて、検索キーとなりうる文字列の最大個数を7±2の範囲に設定しておくことにより、利用者が検索キーとなりうる文字列を確実に覚えておくことができる。なお、上述した「チャンク」に関する詳細については、例えば、文献「認知心理学2記憶 高野陽太郎編 1995 東京大学出版会」の75頁などに記載されている。
【0023】
また、ネットワークを介して接続されたサーバと端末装置とに機能を分散配置して音声検索装置を構成してもよい。具体的には、検索対象項目とそれぞれに対応する検索キーに関する情報を格納する機能をサーバに配置し、端末装置には、認識対象文字列出力手段、マイクロホン、音声認識処理手段、項目抽出手段に対応する機能を配置するようにし、各種の処理に先立って、端末装置がサーバから必要な情報を取得することにより、音声検索装置を構成することが好ましい。各種の処理に必要な情報を端末装置がサーバから取得しているため、端末装置は、内容の更新された新しい情報をサーバから通信によって取得して各種処理に反映させることができる。
【0024】
また、サーバから端末装置に送られてくる情報は、前回までに送られてきた情報に対する変更内容を含む差分情報であることが望ましい。内容に変更があった場合に、その変更内容を含んだ差分情報だけを取得すればよく、通信コストを削減することができる。
【0025】
また、ネットワークを介して接続されたサーバと端末装置とに機能を分散配置して音声検索装置を構成する場合に、検索対象項目とそれぞれに対応する検索キーに関する情報を格納するとともに、認識対象文字列出力手段による音声出力の対象となる文字列の抽出処理と、項目抽出手段による検索対象項目の抽出処理を行う機能をサーバに配置し、端末装置には、認識対象文字列出力手段、マイクロホン、音声認識処理手段に対応する機能を配置し、これらの処理に必要な情報を端末装置がサーバから取得するようにしてもよい。多くの機能をサーバ側に配置することにより、端末装置の処理負担が軽減し、構成の簡略化が可能となるため、端末装置のコストダウンを図ることができる。
【0026】
【発明の実施の形態】
以下、本発明を適用した一実施形態の音声検索装置について、図面を参照しながら説明する。
〔第1の実施形態〕
図1は、第1の実施形態の音声検索装置1を含んで構成される車載用システムの構成を示す図である。図1に示す車載用システムは、利用者が発声した音声に応答して対話形式で各種の動作指示を決定して出力する音声検索装置1と、自車位置を検出して自車位置周辺の地図を表示したり、利用者によって選択された目的地までの経路探索および経路誘導等を行うナビゲーション装置2と、コンパクトディスクやミニディスク等の記録媒体に記録された音楽の再生等を行うオーディオ装置3を含んで構成されている。
【0027】
次に、音声検索装置1の詳細構成について説明する。図1に示す音声検索装置1は、マイクロホン10、音声認識処理部12、対話開始ボタン14、再要求ボタン15、選択肢設定部16、案内文生成部18、音声合成部20、スピーカ22、選択項目判定部24、候補セットデータベース(DB)26、DB更新部28、動作指示出力部30を含んで構成されている。
【0028】
マイクロホン10は、利用者が発声した音声を集音して音声信号に変換する。
音声認識処理部12は、マイクロホン10から出力される音声信号を解析して所定の音声認識処理を行い、利用者が発声した音声に対応する文字列を特定する。本実施形態の音声認識処理部12は、選択肢設定部16によって設定される所定数の選択肢に対応した文字列を認識対象として、所定の認識処理を行っている。
【0029】
対話開始ボタン14は、利用者が音声検索装置1と対話を開始する際に押下する押しボタンスイッチである。また、再要求ボタン15は、利用者が音声検索装置1から出力される音声を再度聞きたい場合に押下する押しボタンスイッチである。
【0030】
選択肢設定部16は、候補セットDB26に格納されたデータに基づいて、音声入力を行う際の候補として提示される所定数の選択肢を設定するものである。なお、この所定数は、1回の提示機会において7±2個の範囲内で設定されることが望ましく、本実施形態では5つの選択肢が設定される。選択肢設定部16によって行われる処理の詳細については後述する。
【0031】
案内文生成部18は、選択肢設定部16によって設定される所定数の選択肢に基づいて、利用者に対して出力する案内音声の内容、すなわち案内文を生成する。
音声合成部20は、案内文生成部18によって生成された案内文に対応した音声出力を行うための音声信号を生成し、スピーカ22に出力する。スピーカ22は、入力される音声信号に基づいて案内音声を出力する
選択項目判定部24は、音声認識処理部12から出力される認識結果の文字列に基づいて、所定数の選択肢の中からいずれの項目が利用者により選択されたかを判定する。
【0032】
候補セットDB26は、選択肢設定部16が複数の選択肢を設定するために必要なデータを格納している。
図2は、候補セットDB26に格納されるデータの構造を示す図である。図2に示すように、候補セットDB26には、階層構造を有する所定の候補セット(ツリー構造情報)が格納されている。それぞれの候補セットには、所定数の選択肢が含まれている。最上位階層の候補セットには、ナビゲーション装置2等に対して実行させることができる複数の機能が選択肢として含まれている。また、2番目以降の階層の候補セットには、上位階層の候補セットに含まれる複数の選択肢のいずれかに関連付けられた複数の選択肢が含まれている。
【0033】
図3は、図2に示したデータ構造における上位階層の候補セットと下位階層の候補セットとの対応関係を示す図である。例えば、最上位階層の候補セット100には、“食事場所検索”、“給油所検索”、“施設検索”、“駐車場検索”、“オーディオ操作”、および“その他”という選択肢が含まれている。これらの選択肢は、所定の優先順位に基づいて並べられており、これらの選択肢を案内する案内音声を生成する際には、優先順位の高いものから順に各選択肢が案内される。例えば、図3に示す候補セット100では、“食事場所検索”が最も優先順位が高くなっており、この候補セット100に基づいて生成される案内音声では、“食事場所検索”、“給油所検索”、…、“その他”の順に各選択肢が案内される。各選択肢が案内される具体例については後述する。なお、他の候補セットについても同様である。
【0034】
また、選択肢の“その他”に関連付けられて、同じ階層に他の候補セット100aがあり、この候補セット100aには、“交通情報”、“地図表示”、…、“その他”という選択肢が含まれている。この候補セット100aに含まれる選択肢の“その他”については、さらに他の選択肢が存在する場合には、新たな候補セットが設けられ、この“その他”に関連付けられる。
【0035】
また、候補セット100等に含まれる“その他”以外の選択肢については、この選択肢に関連付けて、複数の選択肢を含む候補セットが下位階層に設けられる。例えば、候補セット100に含まれる“食事場所検索”に関連付けられた下位階層の候補セットとしては、候補セット102が存在しており、この候補セット102には、食事場所を選択するために、“レストランa”など複数のフランチャイズ名等が選択肢として含まれている。同様に、候補セット100に含まれる“給油所検索”に関連付けられた下位階層の候補セットとしては、候補セット104が存在しており、この候補セット104には、給油所を選択するために、“A石油”など複数のフランチャイズ名等が選択肢として含まれている。
【0036】
このように、本実施形態では、最上位階層の候補セットから順に、一の選択肢を選択してその選択肢に関連付けられた下位階層の候補セットに移るという処理を繰り返していき、最終的に、最下位階層の候補セットに含まれる複数の選択肢の中から一を選択することにより、動作指示の内容が決定される。この場合に、上位階層の候補セットに含まれる複数の選択肢が「検索キー」に対応し、最下位階層の候補セットに含まれる複数の選択肢が「検索対象項目」に対応している。なお、図2では4階層の階層構造を有する候補セットが示されているが、これは一例であり、動作指示の内容によりこの階層数は増減する。
【0037】
DB更新部28は、車両位置の検出結果をナビゲーション装置2から取得し、これに基づいて、候補セットDB26に格納された食事場所、給油所、駐車場などの施設の位置に関するデータ(位置データ)の内容を更新する。例えばDB更新部28は、給油所検索が行われており、検索対象となる施設のフランチャイズ名が選択された場合に、このフランチャイズ名に対応する店舗の中から、その時点での車両位置を中心とした所定範囲内に存在する店舗を抽出し、抽出された店舗についてその位置データを算出し、候補セットDB26の内容を更新する。
【0038】
動作指示出力部30は、複数の選択肢からいずれか一を選択する処理が繰り返されて最終的に選択された項目の内容に対応して、所定の動作指示をナビゲーション装置2またはオーディオ装置3に向けて出力する。
上述した選択肢設定部16、案内文生成部18、音声合成部20、スピーカ22が認識対象文字列出力手段および選択文字列確認手段に、音声認識処理部12が音声認識処理手段に、選択肢設定部16、選択項目判定部24が項目抽出手段に、対話開始ボタン14がスイッチに、再要求ボタン15が再音声出力指示手段に、候補セットDB26がツリー構造格納手段に、選択項目判定部24が音声出力指示手段にそれぞれ対応している。
【0039】
本実施形態の音声検索装置1はこのような構成を有しており、次にその動作について説明する。
図4は、第1の実施形態の音声検索装置1の動作手順を示す流れ図である。利用者の発声する音声に対応してナビゲーション装置2に対する動作指示を出力する際の動作手順が示されている。
【0040】
選択肢設定部16は、利用者により対話開始ボタン14が押下されたか否かを判定している(ステップ100)。対話開始ボタン14が押下されない場合は否定判断がなされ、ステップ100での処理が繰り返される。対話開始ボタンが利用者により押下された場合には肯定判断が行われ、選択肢設定部16は、候補セットDB26に格納されたデータを用いて、最上位階層の候補セットを先頭の候補セットとして設定する(ステップ101)。
【0041】
次に選択肢設定部16は、候補セットに含まれる複数の選択肢に対応する文字列を音声認識処理部12および案内文生成部18に通知する(ステップ102)。
案内文生成部18は、候補セットに含まれる複数の選択肢を案内する所定の案内文を生成して音声合成部20に出力する。音声合成部20によって案内文に対応する音声信号が生成されてスピーカ22に出力され、スピーカ22から選択肢を提示する案内音声が出力される(ステップ103)。
【0042】
また選択肢設定部16は、利用者により再要求ボタン15が押下されたか否かを判定する(ステップ104)。再要求ボタン15が押下された場合には、ステップ104で肯定判断が行われ、ステップ103に戻り、以降の処理が繰り返される。具体的には、案内文を再度出力するように要求された旨が選択肢設定部16から案内文生成部18に通知される。この通知に応じて、先の処理時に生成した案内文が、案内文生成部18により、音声合成部20に再度出力される。これにより、案内音声の再出力が行われる。
【0043】
再要求ボタン15が押下されない場合には、ステップ104で否定判断が行われ、音声認識処理部12は、マイクロホン10から出力される音声信号の有無に基づいて、利用者により音声入力が行われたか否かを判定する(ステップ105)。音声入力が行われない場合には、ステップ105で否定判断が行われ、この場合には上述したステップ104に戻り、以降の処理が繰り返される。
【0044】
音声入力が行われた場合には、ステップ105で肯定判断が行われ、音声認識処理部12は、選択肢設定部16から通知された複数の選択肢に対応する文字列のみを音声認識の対象として所定の音声認識処理を行い、利用者によって選択された一の選択肢を特定する(ステップ106)。なお本実施形態では、選択肢設定部16から通知された複数の選択肢に加えて、「その他」についても選択肢の1つとして音声認識の対象とされているものとする。
【0045】
選択項目判定部24は、音声認識処理部12から出力される音声認識結果に基づいて、選択肢の中から「その他」が選択されたか否かを判定する(ステップ107)。「その他」が選択されなかった場合には、ステップ107で否定判断が行われ、選択項目判定部24は、選択肢設定部16に指示を送り、利用者によって選択された選択肢に対応する次の候補セット(下位階層の候補セット)が存在するか否かを判定する(ステップ108)。
【0046】
次の候補セットが存在する場合には、ステップ108で肯定判断が行われ、選択項目判定部24は、次の候補セットを設定するように選択肢設定部16に指示する。指示を受けた選択肢設定部16は、次の候補セットを設定する(ステップ109)。その後、ステップ102に戻り、以降の処理が行われる。
【0047】
また、選択肢の中から「その他」が選択された場合には、上述したステップ107で肯定判断が行われ、選択項目判定部24は、次の選択肢を設定するように選択肢設定部16に通知する。通知を受けた選択肢設定部16は、候補セットDB26に格納されたデータに基づいて、次の選択肢が存在するか否かを判定し(ステップ110)、存在する場合には肯定判断を行って、次の選択肢を設定する(ステップ111)。その後、上述したステップ102に戻り、次の選択肢が音声認識処理部12および案内文生成部18に通知され、以降の処理が行われる。
【0048】
また、次の選択肢が存在しない場合には、ステップ110で否定判断が行われ、この場合には、選択肢設定部16は、次の選択肢がない旨を案内する案内文を生成するように案内文生成部18に指示を送る。指示を受けた案内文生成部18によって所定の案内文が生成されて音声合成部20に出力され、次の選択肢がない旨を通知する案内音声がスピーカ22から出力される(ステップ112)。その後、上述したステップ103に戻り、前回の処理時に案内された選択肢が、利用者に対して再度提示され、以降の処理が繰り返される。
【0049】
また、上述したステップ108における次の候補セットが存在するかどうかの判定処理において、次の候補セットが存在しない場合には否定判断が行われ、選択項目判定部24は、利用者によって最終的に選択された項目の内容を動作指示出力部30に通知する。通知を受けた動作指示出力部30は、利用者によって選択された項目の内容に対応する動作指示を、ナビゲーション装置2等に出力する(ステップ113)。
【0050】
次に、上述した図4に示した処理にしたがって、音声検索装置1と利用者の間で行われる対話を具体的に説明する。なお、以降の説明では、利用者を「U」、音声検索装置1を「S」として、両者の対話例を説明する。また、対話例と合わせて、候補セットDB26から読み出されるデータの内容を示す図面を適宜参照する。
【0051】
(対話例1)
対話例1は、最寄りの給油所を検索する際の対話例を示している。また図5は、対話例1において用いられるデータの内容を示す図である。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください。」…(1)
U:「給油所検索」…(2)
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」…(3)
U:「B石油」…(4)
S:「B石油ですね、では2km先右側、2.5km左側、3km先左側、5km先右側、その他、の中から選択してください」…(5)
U:「2km先右側」…(6)
S:「2km先右側ですね、それではB石油いわき店に目的地をセットします」…(7)
図5に示すように、利用者により対話開始ボタン14が押下されると、まず最上位階層の候補セットが読み出され、利用者が選択可能な複数の機能が上述した音声(1)のように案内される。
【0052】
この音声に対応して、上述した音声(2)に示すように利用者により「給油所検索」が選択されると、この給油所選択に対応した下位階層の候補セットが読み出され、利用者が選択可能な複数のフランチャイズ名が上述した音声(3)のように案内される。
【0053】
ここで、上述した音声(4)に示すように利用者によりフランチャイズ名の「B石油」が選択されると、このB石油に対応した下位階層の候補セットが読み出され、自車位置を基準とした各施設の位置(相対的な距離)が上述した音声(5)のように案内される。
【0054】
次に、上述した音声(6)に示すように、利用者により位置「2km先右側」が選択されると、この選択された位置に対応する一の給油所である「B石油いわき店」が特定され、上述した音声(7)に示すように、この給油所が経路探索の目的地にセットされ、一連の処理が終了する。
【0055】
(対話例2)
対話例2は、上述した対話例1と同様に最寄りの給油所を検索する場合であって、再要求ボタン15が押下された場合の対話例を示している。なお、対話例2において用いられるデータの内容は上述した図5と同様である。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください」
U:「給油所検索」
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」
U:再要求ボタン15を押下する。
S:「入力は給油所検索ですね、つづいてフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」…(8)
U:「B石油」
S:「B石油ですね、では2km先右側、2.5km左側、3km先左側、5km先右側、その他、の中から選択してください」
U:「2km先右側」
S:「2km先右側ですね、それではB石油いわき店に目的地をセットします」上述した対話例における音声(8)に示すように、利用者により再要求ボタン15が押下されると、直前に案内された候補セットの内容が、再度案内される。
【0056】
なお、この場合には、1回目と2回目で案内文の内容を変更することが望ましい。上述した例では、1回目の案内文は「給油所検索ですね、では…」、2回目の案内文は「入力は給油所検索ですね、つづいて…」となっており、両者の内容が変更されている。また、案内音声が聞き取りにくかった場合も考えられるので、再要求がなされた場合には、2回目の音声の発話スピードを1回目よりも遅くするようにしてもよい。
【0057】
(対話例3)
対話例3は、上述した対話例1と同様に最寄りの給油所を検索する場合であって、選択肢の中から「その他」が選択された場合の対話例を示している。また図6は、対話例3において用いられるデータの内容を示す図である。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください」
U:「給油所検索」
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」
U:「その他」…(9)
S:「では、F石油、G石油、H石油、I石油、J石油、その他、の中から選択してください」…(10)
U:「G石油」
S:「G石油ですね、では2km先右側、2.5km左側、3km先左側、5km先右側、その他、の中から選択してください」
U:「2km先右側」
S:「2km先右側ですね、それではG石油いわき店に目的地をセットします」上述した対話例における音声(9)に示すように、利用者により選択肢の中から「その他」が選択されると、この「その他」に対応して、同じ階層における次の選択肢を含んだ候補セットが読み出され、上述した音声(10)に示すように、利用者が選択可能なフランチャイズ名が追加して案内される。
【0058】
(対話例4)
対話例4は、上述した対話例3と同様に、選択肢の中から「その他」が選択された場合であって、同じ階層における次の候補セットが存在しなかった場合の対話例を示している。また図7は、対話例4において用いられるデータの内容を示す図である。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください」
U:「給油所検索」
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」
U:「その他」
S:「では、F石油、G石油、H石油、I石油、J石油、その他、の中から選択してください」
U:「その他」…(11)
S:「申し訳ございません。その他の候補はありません」…(12)
上述した対話例における音声(11)に示すように、利用者により選択肢の中から「その他」が選択された場合であって、同じ階層における次の候補セットが存在しない場合には、上述した音声(12)に示すように、利用者が選択可能な選択肢がもう存在しない旨が案内される。
【0059】
(対話例5)
対話例5は、所望の施設を検索する際の対話例を示している。また図8は、対話例5において用いられるデータの内容を示す図である。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください」
U:「施設検索」…(13)
S:「施設検索ですね、では施設の地方を、北海道、東北地方、関東地方、中部地方、近畿地方、その他、の中から選択してください」…(14)
U:「東北地方」…(15)
S:「東北地方ですね、では施設の県を、福島県、秋田県、岩手県、宮城県、青森県、その他、の中から選択してください」…(16)
U:「福島県」…(17)
S:「福島県ですね、では施設名称の先頭文字を、あ行、か行、さ行、た行、な行、その他から選択してください」…(18)
U:「あ行」…(19)
S:「あ行ですね、ではRパイ、Rパイ技研、Rパイ情報システム、Rピー事業所、Rピー物流、その他、の中から選択してください」…(20)
U:「Rパイ」…(21)
S:「Rパイですね、それではRパイに目的地をセットします」…(22)
このように、選択可能な複数の機能が音声により案内され、利用者は、この音声に対応して目的の機能を選択する。上述した音声(13)で示すように、利用者により「施設検索」が選択されると、この施設検索に対応した下位階層の候補セットが読み出され、上述した音声(14)に示すように、施設の所在する地方が選択肢として案内される。
【0060】
ここで、上述した音声(15)に示すように利用者により施設の所在する地方として「東北地方」が選択されると、この「東北地方」に対応した下位階層の候補セットが読み出され、施設の所在する都府県名が上述した音声(16)のように案内される。
【0061】
上述した音声(17)に示すように、利用者により「福島県」が選択されると、対応する下位階層の候補セットが読み出され、上述した音声(18)に示すように、施設の名称の先頭文字(あ行、か行等)が選択肢として案内される。
上述した音声(19)に示すように、利用者により「あ行」が選択されると、対応する下位階層の候補セットが読み出され、上述した音声(20)に示すように、「福島県」に所在する施設であって、施設名称の先頭文字が「あ行」に属する施設の名称が選択肢として案内される。
【0062】
ここで、上述した音声(21)に示すように、利用者により一の施設名称「Rパイ」が選択されると、一の施設である「Rパイ」が特定されるため、上述した音声(22)に示すように、この施設が経路探索の目的地にセットされ、一連の処理が終了する。
【0063】
このように、第1の実施形態では、所定の階層構造を有する候補セットを含んだデータを候補セットDB26に格納しており、この候補セットに基づいて、次に音声出力の対象となる選択肢に対応する複数の文字列を抽出して、これらの文字列の読みを音声出力している。そして、認識対象となる文字列を利用者にあらかじめ提示し、この提示に対応して利用者により入力される音声に対応する文字列を、音声出力の対象となった複数の文字列の中から選択し、利用者により選択された選択肢を特定しているので、音声認識の精度を向上させることができる。特に、階層構造を有する候補セットを上位階層から順に辿っていくだけで、次に音声出力する文字列を抽出することができるため、処理の簡略化が可能となる
〔第2の実施形態〕
ところで、上述した第1の実施形態では、候補セットDB26には、階層構造を有する候補セットがあらかじめ用意されて格納されていたが、一般的なテーブル形式の構造を有するデータベースを用いて第1の実施形態と同様の処理を行うこともできる。
【0064】
図9は、第2の実施形態の音声検索装置1Aを含んで構成される車載用システムの構成を示す図である。図9に示す第2の実施形態の音声検索装置1Aは、上述した第1の実施形態における音声検索装置1と比較して、候補セットDB26がデータ内容の異なる候補セットDB26aに置き換えられた点が異なっており、またこのデータ内容の変更に伴って、利用者の発声する音声に対応して動作指示の内容を絞り込む際の動作手順が異なっている。以下、主に第1の実施形態との相違点について着目して説明を行う。
【0065】
候補セットDB26aは、選択肢設定部16が複数の選択肢を設定するために必要なデータを格納している。
図10は、第2の実施形態の候補セットDB26aに格納されるデータの構造を示す図である。図10に示すように、第2の実施形態の候補セットDB26aに格納されるデータは、上述した第1の実施形態の場合と異なり、テーブル形式となっている。
【0066】
この候補セットDB26aに格納されるデータ(テーブル情報)は、「優先度」、「候補セットタイトル」、「選択肢」という3つの要素から構成されている。
「優先度」は、上述した第1の実施形態における階層と同様の意味を示している。すなわち、何らかの動作指示を決定する際には、優先度1の「機能」から順に、複数の選択肢の中から一の選択肢が選択される。選択肢を提示し、選択する処理の具体例については後述する。なお、図10に示す優先度1〜6に対応付けられている各選択肢が「検索キー」に対応し、最終的に特定される選択肢である優先度7の各選択肢が「検索対象項目」に対応している。
【0067】
また候補セットDB26aでは、横方向の1行分が1つのデータ群(以後、これを「レコード」と呼ぶ)となっている。例えば、図10に示した1行目のレコードは、施設名「B石油いわき店」に関するデータ群であり、機能としては「給油所検索」に関連しており、フランチャイズ名が「B石油」、施設の所在する地方が「東北地方」、施設の所在する都府県が「福島県」、施設名称の先頭文字が「は行」にそれぞれ属していることを示している。なお、位置については、上述したDB更新部28によってその内容が更新される。候補セットDB26aには、このようなレコードが複数含まれている。なお、この候補セットDB26aがテーブル格納手段に対応している。
【0068】
本実施形態の音声検索装置1Aはこのような構成を有しており、次にその動作について説明する。
図11は、第2の実施形態の音声検索装置1Aの部分的な動作手順を示す流れ図である。なお、音楽検索装置1Aの基本的な操作手順は、上述した図4に示した第1の実施形態の音楽検索装置1と同様であり、ステップ101の処理内容とステップ107以降の処理内容が異なっている。図11には、この処理内容の相違する部分が主に示されている。
【0069】
選択肢設定部16は、利用者により対話開始ボタン14が押下されたか否かを判定する(ステップ100)。利用者により対話開始ボタン14が押下されない場合は否定判断がなされ、ステップ100の処理が繰り返される。
対話開始ボタン14が押下された場合には、ステップ100で肯定判断が行われ、選択肢設定部16は、候補セットDB26aから“優先度1”の列に属するデータを抽出し、抽出したデータを用いて先頭の候補セットを設定する(ステップ101A)。具体的には、図10に示したように、本実施形態では、“優先度1”の列のデータには各種機能の内容が含まれており、これらの機能の内容を選択肢として含んだ候補セットが設定される。その後、上述した第1の実施形態と同様にして、図4に示すステップ102〜ステップ107に示した処理が行われる。
【0070】
選択項目判定部24は、音声認識処理部12から出力される音声認識結果に基づいて、選択肢の中から「その他」が選択されたか否かを判定する(ステップ107)。
「その他」が選択されなかった場合には、ステップ107で否定判断が行われ、その旨が選択項目判定部24から選択肢設定部16に通知される。通知を受けた選択肢設定部16は、利用者によって選択された選択肢に対応して、次の候補セットとして提示される候補となる選択肢の絞り込みを行う(ステップ120)。例えば、利用者によって「給油所検索」が選択された場合であれば、選択項目判定部24は、この「給油所検索」に対応するレコードの絞り込みを行う。
【0071】
次に選択肢設定部16は、優先度の高い候補セットから順に、選択肢を2つ以上含む候補セットがあるか否かを判定する(ステップ121)。
選択肢を2つ以上含んだ候補セットが存在する場合には、ステップ121で肯定判断が行われ、次に選択肢設定部16は、ステップ121で特定された候補セット(2つ以上の選択肢を含む候補セット)に対応して、所定数の選択肢を抽出し、次の候補セットを設定する(ステップ122)。
【0072】
図12は、ステップ122に示す処理の詳細な手順を示す流れ図である。まず、選択肢設定部16は、候補セットDB26aに格納されているデータに基づいて、優先度が高く、種類の異なる選択肢を2つ以上含んだ候補セットを選択する(ステップ130)。
【0073】
次に選択肢設定部16は、選択した候補セットに含まれている選択肢の種類が所定数(本実施形態では5つ)以下であるか否かを判定する(ステップ131)。
選択肢の種類が所定数以下でない場合には、ステップ131で否定判断が行われ、次に選択肢設定部16は、所定数の選択肢を抽出する(ステップ132)。
【0074】
また、選択肢の種類が所定数以下である場合には、ステップ131で肯定判断が行われ、次に選択制設定部16は、存在する選択肢を全て抽出する(ステップ133)。
次に選択肢設定部16は、ステップ132またはステップ133に示した処理において抽出された選択肢を、次の候補セットとして設定し(ステップ134)、図11に示すステップ122での処理が終了する。その後、ステップ102に戻り、以降の処理が繰り返される。
【0075】
上述したステップ107において、選択肢の中から「その他」が選択された場合には肯定判断が行われ、選択項目判定部24は、次の選択肢を設定するように選択肢設定部16に通知する。通知を受けた選択肢設定部16は、候補セットDB26aに格納されたデータに基づいて、前回の処理において既に提示された選択肢以外の他の選択肢が存在するか否かを判定する(ステップ123)。存在する場合には肯定判断を行って、次の選択肢を設定する(ステップ124)。その後、上述したステップ102に戻り、次の選択肢が音声認識処理部12および案内文生成部18に通知され、以降の処理が行われる。
【0076】
また、次の選択肢が存在しない場合には、ステップ123で否定判断が行われる。この場合には、選択肢設定部16は、次の選択肢が存在しない旨を案内する案内文を生成するように案内文生成部18に指示を送る。指示を受けた案内文生成部18によって所定の案内文が生成されて音声合成部20に出力され、次の選択肢がない旨を通知する案内音声がスピーカ22から出力される(ステップ125)。その後、上述したステップ103に戻り、前回の処理時に案内された選択肢が、利用者に対して再度提示され、以降の処理が繰り返される。
【0077】
上述したステップ121おいて、選択肢を2つ以上含む候補セットが存在しなくなった場合には否定判断が行われ、選択項目判定部24は、利用者によって最終的に選択された選択肢の内容を動作指示出力部30に通知する。通知を受けた動作指示出力部30は、利用者により選択された選択肢の内容に対応する動作指示をナビゲーション装置2等に出力する(ステップ126)。
【0078】
次に、上述した図11に示した処理にしたがって、音声検索装置1Aと利用者の間で行われる対話を具体的に説明し、この対話例と合わせて、候補セットDB26aに格納されたデータの中から必要なレコードを抽出する様子について、図面を適宜参照して説明する。
【0079】
(対話例6)
対話例6は、最寄りの給油所を検索する際の対話例を示している。また図13は、対話例6において候補セットDB26aから抽出されるレコードの内容を示す図である。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください。」…(23)
U:「給油所検索」…(24)
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」…(25)
U:「B石油」…(26)
S:「B石油ですね、では2km先右側、5km左側、その他、の中から選択してください」…(27)
U:「2km先右側」…(28)
S:「2km先右側ですね、それではB石油いわき店に目的地をセットします」…(29)
図13に示すように、利用者により対話開始ボタン14が押下されると、まず優先度1の候補セットタイトルである「機能」に対応して複数の選択肢が抽出され、利用者が選択可能な複数の機能が上述した音声(23)のように案内される。
【0080】
この音声(23)に対応して、上述した音声(24)に示すように利用者により「給油所検索」が選択されると、この「給油所選択」に対応したレコードのみが絞り込まれ、次に優先度の高い優先度2の候補セットタイトルである「フランチャイズ名」に対応して複数の選択肢が抽出され、利用者が選択可能な複数のフランチャイズ名が上述した音声(25)のように案内される。
【0081】
上述した音声(26)に示すように利用者によりフランチャイズ名の「B石油」が選択されると、この「B石油」に対応したレコードのみが絞り込まれ、次に優先度が高く、かつ2つ以上の種類の選択肢を含んでいる候補セットタイトルである優先度6の「位置」に対応して、さらに複数の選択肢が抽出され、自車位置を基準とした各施設の位置(相対的な距離)が上述した音声(27)のように案内される。
【0082】
上述した音声(28)に示すように、利用者により位置「2km先右側」が選択されると、この選択された位置に対応する一の給油所である「B石油いわき店」が特定され、上述した音声(29)に示すように、この給油所が経路探索の目的地にセットされ、一連の処理が終了する。
【0083】
なお、再要求ボタン15が押下された場合については、上述した第1の実施形態における対話例2と同様の対話が行われることとなり、その場合に用いられるデータの内容は、図13に示すものと同様である。
(対話例7)
対話例7は、上述した対話例6と同様に最寄りの給油所を検索する場合であって、選択肢の中から「その他」が選択された場合の対話例を示している。また図14は、対話例7において候補セットDB26aから抽出されるレコードの内容を示す図である。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください」
U:「給油所検索」
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」
U:「その他」…(30)
S:「では、F石油、G石油、その他、の中から選択してください」…(31)
U:「G石油」…(32)
S:「G石油ですね、それではG石油いわき店に目的地をセットします」…(33)
上述した対話例7における音声(30)に示すように、利用者により選択肢の中から「その他」が選択されると、既に提示されたA石油、B石油、C石油、D石油、E石油を除いたレコードが絞り込まれ、上述した音声(31)に示すように、利用者が選択可能なフランチャイズ名が追加して案内される。
【0084】
上述した音声(32)に示すように利用者によりフランチャイズ名の「G石油」が選択されると、この「G石油」に対応したレコードのみが絞り込まれる。この場合には、フランチャイズ名に基づいた絞り込みを行った時点で、一のレコードが絞り込まれており、案内対象となる一の給油所である「G石油いわき店」が特定されるため、上述した音声(33)に示すように、この給油所が経路探索の目的地にセットされ、一連の処理が終了する。
【0085】
(対話例8)
対話例8は、上述した対話例7と同様に、選択肢の中から「その他」が選択された場合であって、次に提示可能な選択肢が存在しなかった場合の対話例を示している。また図15は、対話例8において候補セットDB26aから抽出されるレコードの内容を示す図である。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください」
U:「給油所検索」
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」
U:「その他」
S:「では、F石油、G石油、その他、の中から選択してください」
U:「その他」…(34)
S:「申し訳ございません。その他の候補はありません」…(35)
上述した対話例における音声(34)に示すように、利用者により選択肢の中から「その他」が選択された場合であって、次に提示可能な選択肢が存在しなかった場合には、上述した音声(35)に示すように、利用者が選択可能な選択肢がもう存在しない旨が案内される。
【0086】
このように、第2の実施形態では、所定のテーブル形式を有し、複数の選択肢のそれぞれに異なる優先度が対応付けられた所定のテーブル情報を候補セットDB26aに格納し、このテーブル情報に基づいて、優先度が高い選択肢から順番に、対応する文字列の読みを音声出力している。認識対象となる文字列を利用者にあらかじめ提示し、この提示に対応して利用者により入力される音声に対応する文字列を、音声出力の対象となった複数の文字列の中から選択し、利用者により選択された選択肢を特定しているので、音声認識の精度を向上させることができる。特に、テーブル形式でデータを格納しているので、レコードの追加・変更などを容易に行うことができる利点がある。
【0087】
〔変形例〕
なお、本発明は上述した各実施形態のみに限定されるものではなく、本発明の要旨の範囲内においてさらに種々の変形実施が可能である。例えば、上述した実施形態では、提示される複数の選択肢の中からいずれか一の選択肢を利用者が順次選択していくことにより最終的な選択肢が選択され、その内容に対応する動作指示がナビゲーション装置2等に対して行われていたが、利用者が望んだ場合には選択肢が自動的に選択されるようにしてもよい。
【0088】
図16は、選択肢が自動的に選択される変形例における音声検索装置の構成を示す図である。図16に示す音声検索装置1Bは、上述した第1の実施形態における音声検索装置1と比較して、選択頻度学習部32と学習結果格納部34が追加された点が異なっている。以下、主に第1の実施形態との相違点について着目して、構成および動作の説明を行う。
【0089】
選択頻度学習部32は、利用者に対して提示される複数の選択肢について、利用者による選択頻度を学習する。学習結果格納部34は、選択頻度学習部32による学習結果を格納する。
本実施形態では、選択肢を選択するための音声入力を行う際に、利用者が「まかせる」と入力することにより、選択肢が自動的に選択されるようになっている。この「まかせる」が入力された場合に、選択項目判定部24は、学習結果格納部34に格納された学習結果を用いて、過去の選択頻度が高い選択肢を自動的に選択し、動作指示の内容を決定している。なおこの場合には、選択項目判定部24が文字列選択手段に対応する。
【0090】
音声検索装置1Bはこのような構成を有しており、次に、過去の選択肢の選択頻度に応じて選択肢を自動的に選択する場合の動作について説明する。
図17は、過去の選択肢の選択頻度に応じて選択肢を自動的に選択する場合の音声検索装置1Bの部分的な動作手順を示す流れ図である。なお、音楽検索装置1Bの基本的な操作手順は、上述した図4に示した第1の実施形態の音楽検索装置1と同様であり、ステップ107以降の処理内容が異なっている。図17には、この処理内容の相違する部分が主に示されている。
【0091】
選択項目判定部24は、音声認識処理部12から出力される音声認識結果に基づいて、選択肢の中から「その他」が選択されたか否かを判定する(ステップ107)。「その他」が選択された場合の処理は、図4に示した第1の実施形態の音楽検索装置1と同様であり、説明を省略する。
【0092】
「その他」が選択されなかった場合には、ステップ107で否定判断が行われ、次に選択項目判定部24は、音声認識処理部12から出力される音声認識結果に基づいて、選択肢の中から「まかせる」が選択されたか否かを判定する(ステップ140)。
【0093】
選択肢の中から「まかせる」が選択された場合には、ステップ140で肯定判断が行われ、選択項目判定部24は、学習結果格納部34に格納された学習結果を読み出し、過去の選択頻度に基づいて選択肢を自動的に選択する(ステップ141)。例えば、本実施形態では、最終的な選択肢に至るまでの選択肢が全て自動的に選択される。
【0094】
過去の選択頻度に応じて最終的な選択肢が自動的に選択されると、あるいは、ステップ108で否定判断が行われると、選択項目判定部24は、最終的な選択肢の内容を動作指示出力部30に通知する。通知を受けた動作指示出力部30は、利用者により選択された項目の内容に対応する動作指示をナビゲーション装置2等に出力する(ステップ113)。
【0095】
次に、上述した図17に示した処理にしたがって、音声検索装置1Bと利用者の間で行われる対話を具体的に説明する。
(対話例9)
対話例9は、上述した対話例1と同様に最寄りの給油所を検索する場合であって、選択肢として「まかせる」が選択された場合の対話例を示している。なお、対話例9において用いられるデータの内容は、上述した図5と同様である。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください」
U:「給油所検索」
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください。または、“まかせる”とお話しください」…(36)
U:「まかせる」…(37)
S:「まかせていただけますね、それではB石油いわき店に目的地をセットします」
上述した対話例では、音声(36)に示すように、利用者に対して、“まかせる”と言う選択肢が新たに加えられる。これに対して、音声(37)に示すように、利用者により“まかせる”が選択されると、過去の選択頻度に応じて、最も選択頻度の高い選択肢が自動的に選択される。上述した例では、フランチャイズ名以降の選択肢が過去の選択頻度に応じて自動的に選択されている。具体的には、フランチャイズ名としては「B石油」が自動的に選択され、位置については「2km先右側」が自動的に選択されることにより、最終的に「B石油いわき店」という選択肢が選択されている。
【0096】
なお、上述した例では、最終的な選択肢に至るまで全て自動的に選択されていたが、その時点での選択肢のみが自動的に選択されるようにしてもよい。例えば、フランチャイズ名を選択する際に「まかせる」が選択された場合であれば、このフランチャイズ名についてのみ自動的に選択し、下位階層の候補セットである「位置」に移行し、この候補セットに含まれる複数の選択肢を提示するようにすればよい。また上述した例では、選択肢を自動的に選択する処理を第1の実施形態に対して追加した場合について説明したが、第2の実施形態に対しても同様にしてこの機能を追加することができる。
【0097】
また、上述した変形例では、選択肢として「まかせる」が選択された場合に、過去の選択頻度に応じて選択肢を選択していたが、過去の選択頻度にかかわらずランダムに選択肢を選択するようにしてもよい。この場合には、過去の選択頻度を学習する処理が不要となり、構成を簡略化することができる。
【0098】
また、選択肢の過去の選択頻度を学習する処理を行う場合に、この学習結果を候補セットDB26(または26a)に格納されているデータに反映させるようにしてもよい。例えば、上述した各実施形態では、フランチャイズ名に関する複数の選択肢を案内する場合に、「G石油」は、1回目に提示される選択肢の中から“その他”が選択された場合に行われる2回目の案内時に提示されていた。しかしながら、「G石油」が高い頻度で選択されているという学習結果が得られている場合であれば、この「G石油」が1回目の案内時に提示されるようにしてもよい。あるいは、1回の案内に含まれる複数の選択肢の中においても、過去の選択頻度に応じて案内順序を入れ替えてもよい。例えば、初期状態では1回目の案内において、A石油、B石油、C石油、…という順番で案内されていた場合に、過去の選択頻度としてG石油、B石油、A石油、…という順に選択頻度が高いという学習結果が得られている場合には、1回目の案内を、G石油、B石油、A石油、…という順番に入れ替えればよい。なお、この場合には学習結果格納部34が選択履歴格納手段に対応する。
【0099】
また、上述した各実施形態では、案内音声を再度聞きたい場合には再要求ボタン15を押下していたが、この再要求操作を音声入力によって行うようにしてもよい。この場合には、例えば、「もう一度」などという音声を入力し、これらの音声に対応して、直前の案内内容が再度出力されるようにすればよい。
【0100】
また上述した各実施形態では、一旦選択された選択肢を取り消して、新たに選択肢を選択する場合の動作については説明されなかったが、そのような処理を行うこともできる。
図18は、一旦選択された選択肢を取り消して、新たに選択肢を選択する場合の音声検索装置の動作手順を部分的に示す流れ図である。例えば、上述した第1の実施形態において説明した音声検索装置1において、この処理が行われるものとして説明を行う。この場合における基本的な動作手順は、上述した図4に示す流れ図と同様であり、ステップ107以降に新たな処理が追加されることとなる。図18には、新たに追加される処理内容が主に示されている。なお、この変形例においては、選択項目判定部24が再選択指示手段に対応する。
【0101】
選択項目判定部24は、音声認識処理部12から出力される音声認識結果に基づいて、選択肢の中から「その他」が選択されたか否かを判定する(ステップ107)。利用者により「その他」が選択された場合の処理は前述した図4と同様であり、ここでの説明は省略する。
【0102】
「その他」が選択されなかった場合には、ステップ107で否定判断が行われ、次に選択項目判定部24は、音声認識処理部12から出力される音声認識結果に基づいて、「修正」という音声が入力されたか否かを判定する(ステップ150)。具体的には、この「修正」という音声入力によって否定的な見解を示すことにより、一旦選択した選択肢を取り消す処理が行われるようになっている。なお「修正」の代わりに「戻る」や「違う」などといった音声入力を行うことにより、否定的な見解を示してもよい。
【0103】
「修正」という音声が入力された場合には、ステップ150で肯定判断が行われ、選択項目判定部24は、選択肢設定部16に対して、その時点で着目している階層よりも1つ上位階層の候補セットを再度設定するように指示する。この指示に応じて、選択肢設定部16は、上位階層の候補セットを再度設定する(ステップ151)。その後、上述した図4に示すステップ102に戻り、上位階層の候補セットに含まれる選択肢に対応する文字列が認識対象として通知されるとともに、この選択肢が音声出力され、以降の処理が繰り返される。
【0104】
また「修正」という音声が入力されていない場合には、ステップ150で否定判断が行われ、この場合にはステップ108に進み、それ以降の処理が行われる。
次に、上述した図18に示した処理にしたがって、音声検索装置1と利用者の間で行われる対話を具体的に説明する。
【0105】
(対話例10)
対話例10は、上述した対話例1等と同様に最寄りの給油所を検索する場合であって、「修正」という音声が入力された場合の対話例を示している。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください。」
U:「給油所検索」
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」
U:「A石油」…(38)
S:「E石油ですね、では2km先右側、2.5km先左側、3km先左側、5km左側、その他、の中から選択してください」…(39)
U:「修正」…(40)
S:「ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」…(41)
U:「A石油」
S:「A石油ですね、では2km先左側、5km左側、その他、の中から選択してください」
U:「2km先左側」
S:「2km先左側ですね、それではA石油いわき店に目的地をセットします」上述した対話例10では、音声(38)に示すように利用者により選択肢の中から「A石油」が選択されたにも関わらず、音声(39)に示すように誤認識が生じて「E石油」が選択されたことになっている。この場合に、音声(40)に示すように利用者が「修正」と音声入力を行うことにより、音声(41)に示しように、上位階層の候補セットであるフランチャイズ名に基づいて、利用者が選択可能なフランチャイズ名が再度案内される。
【0106】
(対話例11)
対話例11は、「修正」という音声が入力された場合の他の対話例を示している。
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください。」
U:「給油所検索」
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」
U:「施設検索」…(42)
S:「C石油ですね、では2km先右側、2.5km先左側、3km先右側、5km左側、その他、の中から選択してください」…(43)
U:「修正」…(44)
S:「ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」…(45)
U:「修正」…(46)
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください。」…(47)
U:「施設検索」
以下、施設検索を選択してからの対話は、上述した対話例5と同様に行われるので、ここでは説明を省略する。
【0107】
上述した対話例11では、利用者は一旦「給油所検索」を選択したものの、「施設検索」を選択したくなったため、音声(42)に示すように、音声検索装置1から提示されている選択肢とは異なる選択肢である「施設検索」を音声入力している。この場合であっても音声検索装置1は、音声(43)に示すように、その時点における選択肢の中から、入力された音声に最も近いものを選択して処理を続行する。
【0108】
音声(44)に示すように、利用者が「修正」と音声入力を行うことにより、音声(45)に示すように、上位階層の候補セットであるフランチャイズ名に基づいて、利用者が選択可能なフランチャイズ名が再度案内される。
音声(46)に示すように、ここで利用者が、さらに「修正」と音声入力を行うことにより、音声(47)に示すように、さらに上位階層の候補セットである「機能」に基づいて、利用者が選択可能な選択肢が再度案内される。
【0109】
ところで、上述した対話例11では、提示される複数の選択肢の内容に沿わない音声入力が行われた場合であっても、その時点における複数の選択肢の中からいずれかが選択されていたが、選択肢の内容に沿わない音声入力が行われ、選択肢を特定することが難しい場合には、有効な認識結果が得られなかった旨を通知するようにしてもよい。この場合には、上述した図4に示すステップ106の処理において認識結果の有効性を判断し、文字列の一致率が非常に低い(例えば、10%以下など)場合には、選択肢を特定できなかった旨を通知すればよい。以下に、有効な認識結果が得られなかった場合の対話を具体的に説明する。
【0110】
(対話例12)
U:対話開始ボタン14を押下する。
S:「食事場所検索、給油所検索、施設検索、駐車場検索、オーディオ操作、その他、の中から選択してください。」
U:「給油所検索」
S:「給油所検索ですね、ではフランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」
U:「H石油」…(48)
S:「申し訳ございません。入力された単語を認識できませんでした。フランチャイズ名を、A石油、B石油、C石油、D石油、E石油、その他、の中から選択してください」…(49)
上述した対話例12では、音声(48)に示すように、選択肢として提示されていない「H石油」が利用者によって選択されたため、音声検索装置1は有効な認識結果を得ることができない。したがって音声検索装置1は、音声(49)に示すように、選択肢を特定することができなかった旨を利用者に対して通知するとともに、再度の選択肢の入力を促す案内を行っている。
【0111】
また、音声認識処理を行う際に、提示した複数の選択肢に対応する文字列と利用者によって入力された音声に対する文字列との部分的な一致を考慮して、認識精度を高めるようにしてもよい。例えば、選択肢として提示された「給油所検索」を選択する際に、利用者によっては「給油所」という部分しか発声しないことも考えられる。このような場合に、「給油所検索」という文字列の全体だけを音声認識の対象とすると、利用者が発声した「給油所」とは部分的にしか一致していないため一致率が低く、もちろん、他の選択肢(「食事場所検索」等)とも一致率が低いため、利用者により選択された選択肢を正確に特定することが難しい場合がある。したがって、例えば給油所検索については、認識対象文字列を「給油所検索」および「給油所」とし、食事場所検索については「食事場所検索」、「食事場所」、「食事」などにすることにより、複数の選択肢に対応する文字列と利用者によって入力された音声に対する文字列との全体的な一致と部分的な一致の両者を判定することができるため、認識精度を高めることができる。
【0112】
なお、このように部分的な一致を考慮する場合においても、認識結果を返答する際には、文字列の全体を出力することが好ましい。例えば、利用者により「給油所」と入力された場合であっても、対応する認識結果の返答としては、「給油所検索ですね」というように、文字列の全体を返答することが好ましい。
【0113】
また上述した各実施形態では、複数の選択肢を提示し、いずれか一を利用者に音声入力させていたが、各選択肢に対して所定の符号を付加して提示し、所望の選択肢に付加された符号を音声入力するようにしてもよい。具体的には、所定の符号としては「1、2、3、…」等の数字や「A、B、C、…」等の文字などが考えられる。例えば、選択肢として複数の機能を提示する場合であれば、「1:食事場所検索、2:給油所検索、3:施設検索、4:駐車場検索、5:オーディオ操作、6:その他、の中から該当する数字を選択してください」というような内容の案内音声を出力し、1〜6のいずれかの数字を利用者に音声入力させればよい。このように、所定の符号を用いる場合には、利用者は所望の選択肢に対応付けられた符号を発声するだけでよく、音声入力をより簡単にすることができる。また、音声認識処理の対象とする文字列を数字等の簡単な文字列にすることができるため、認識精度を向上させることができる。
【0114】
また、上述した各実施形態では、複数の選択肢が全て提示された後に、利用者が一の選択肢を選択して音声入力を行っていたが、全ての選択肢が提示されるよりも先に利用者による音声入力が行われた場合には、その時点で音声認識処理を開始するようにしてもよい。利用者によっては、出力される音声案内を聞いているとき、所望の選択肢が出力された直後に、音声入力を開始する場合がある。このような場合には、選択肢が全て提示された後でなくても、速やかに音声認識処理を開始することにより、操作性をより向上させることができる。
【0115】
また、上述した各実施形態では、単体で用いられる音声検索装置について説明していたが、ネットワークを介して接続されたサーバと端末装置とに機能を分散配置して音声検索装置を構成してもよい。
図19は、ネットワークを介して接続されたサーバと端末装置とに機能を分散配置した場合の音声検索装置の構成例を示す図である。図19に示す音声検索装置は、所定のネットワーク6を介して接続された音声検索端末装置4とサーバ5から構成されている。
【0116】
音声検索端末装置4は、基本的には上述した第2の実施形態における音声検索装置1Aと同様の構成を有しており、通信処理部36が追加された点が異なっている。なお、音声検索端末装置4の構成は、上述した第1の実施形態における音声検索装置1と同様にしてもよい。
【0117】
音声検索端末装置4に備わった通信処理部36は、候補セットDB26aに格納されるデータを更新するために必要な情報をネットワーク6を介してサーバ5から取得するための通信処理を行う。DB更新部28は、通信処理部36によって受信された情報に基づいて、候補セットDB26aに格納されているデータを更新する。この更新処理は、音声検索端末装置4による所定の処理に先だって行われる。
【0118】
また、サーバ5は、サーバ制御部50、候補セットDB52、通信処理部54を含んで構成されている。サーバ制御部50は、サーバ5の全体動作を制御する。候補セットDB52は、上述した音声検索端末装置4に備わっている候補セットDB26aと基本的に同じ内容データを格納している。この候補セットDB52に格納されるデータは、随時、新しい内容に更新されている。
【0119】
音声検索端末装置4から所定の要求がなされた場合に、サーバ制御部50は、以前に音声検索端末装置4に送信済みの内容に対する変更内容を含んだ所定の差分情報を候補セットDB52から抽出し、この差分情報を音声検索端末装置4に対して送信する。通信処理部54は、サーバ5が音声検索端末装置4との間でデータの送受を行うために必要な通信処理を行う。
【0120】
このように、サーバ5から送信される所定の差分情報に基づいて、音声検索端末装置4に備わった候補セットDB26aの内容を更新することができるので、音声検索端末装置4は、内容の更新された新しい情報を各種処理に反映させることができる。特に、サーバ5から音声検索端末装置4に送られてくる情報は、前回までに送られてきた情報に対する変更内容を含む差分情報であるため、送受するデータ量を低減し、通信コストを削減することができる。
【0121】
なお、上述したサーバ5が、検索対象項目とそれぞれに対応する検索キーに関する情報を格納する機能を有している。音声検索端末装置4が、認識対象文字列出力手段、マイクロホン、音声認識処理手段、項目抽出手段に対応する機能を有しており、これらを用いた各種の処理に先だって、上述したサーバ5から必要な情報を取得している。
【0122】
図20は、ネットワークを介して接続されたサーバと端末装置とに機能を分散配置した場合の音声検索装置の他の構成例を示す図である。図20に示す音声検索装置は、所定のネットワーク6を介して接続された音声検索端末装置4Aとサーバ5Aから構成されている。
【0123】
図20に示す音声検索装置では、上述した第1の実施形態の音声検索装置1に備わっていた候補セットDB26(あるいは第2の実施形態の音声検索装置1Aに備わっていた候補セットDB26a)、選択肢設定部16、選択項目判定部24のそれぞれによって実現される機能に対応する構成がサーバ5Aに配置されている。具体的には、サーバ5Aは、サーバ制御部50、候補セットDB52、通信処理部54、選択肢設定部56、選択項目判定部58を備えている。
【0124】
また、音声検索端末装置4Aは、上述した音声検索端末装置4から、選択肢設定部16、選択項目判定部24、候補セットDB26a、DB更新部28が省略されており、制御部38が追加されている。
利用者の発声する音声に対応してナビゲーション装置2等に対して動作指示を出力する際に、音声検索端末装置4A内の制御部38は、選択肢を提示するために必要な最小限のデータを通信処理部36を介してサーバ5Aから取得する。案内文生成部18は、制御部38からの指示にしたがって、所定の案内文を生成し、出力する。サーバ5Aは、利用者の音声に対する音声認識結果を音声検索端末装置4Aから取得し、次の候補セットを設定し、選択肢の提示に必要なデータを音声検索端末装置4Aに送信する処理や、最終的に選択された一の選択肢を抽出する処理などを行っている。
【0125】
なお、上述したサーバ5Aが、検索対象項目とそれぞれに対応する検索キーに関する情報を格納するとともに、認識対象文字列出力手段による音声出力の対象となる文字列の抽出処理と、項目抽出手段による検索対象項目の抽出処理を行う機能を有している。また、音声検索端末装置4Aが、認識対象文字列出力手段、マイクロホン、音声認識処理手段に対応する機能を有しており、これらの処理に必要な情報を上述したサーバ5Aから取得している。
【0126】
図21は、ネットワークを介して接続されたサーバと端末装置とに機能を分散配置した場合の音声検索装置の他の構成例を示す図である。図21に示す音声検索装置は、所定のネットワーク6を介して接続された音声検索端末装置4Bとサーバ5Bから構成されている。
【0127】
図21に示す音声検索装置では、上述した図20に示した音声検索装置において、さらに案内文生成部18の機能をサーバ側に配置した点が異なっている。具体的には、サーバ5Bは、サーバ制御部50、候補セットDB52、通信処理部54、選択肢設定部56、選択項目判定部58、案内文生成部60を備えている。また音声検索端末装置4Bは、音声検索端末装置4Aから案内文生成部18が削除された点が異なっている。図21に示す音声検索装置では、案内文の生成がサーバ5Bで行われるため、音声検索端末装置4B内の制御部38は、サーバ5Bによって生成された案内文を受け取り、これを音声合成部20に出力する。それ以外の動作内容は、図20に示す音声検索装置と同様である。
【0128】
図22は、ネットワークを介して接続されたサーバと端末装置とに機能を分散配置した場合の音声検索装置の他の構成例を示す図である。図22に示す音声検索装置は、所定のネットワーク6を介して接続された音声検索端末装置4Cとサーバ5Cから構成されている。図22に示す音声検索装置では、上述した図21に示した音声検索装置において、さらに音声認識処理部12と音声合成部20の機能をサーバ側に配置した点が異なっている。具体的には、サーバ5Cは、サーバ制御部50、候補セットDB52、通信処理部54、選択肢設定部56、選択項目判定部58、案内文生成部60、音声認識処理部62、音声合成部64を備えている。また音声検索端末装置4Cは、音声検索端末装置4Bから音声認識処理部12と音声合成部20が削除された点が異なっている。
【0129】
図22に示す音声検索装置では、マイクロホン10によって集音された利用者の音声が制御部38によってデジタルの音声データに変換されてサーバ5Cに送信される。そして、送信された音声データに基づいて、サーバ5C内の音声認識処理部62により所定の音声認識処理が行われる。また、案内文生成部60によって生成された案内文に対応して、音声合成部64により所定の音声合成処理が行われ、案内文に対応した音声データが生成される。生成された音声データは、音声検索端末装置4Cに送信され、音声検索端末装置4C内の制御部38によってアナログ信号に変換されてスピーカ22に出力される。
【0130】
図20〜図22に示す変形例の音声検索装置では、多くの機能をサーバ側に配置しているので、音声検索端末装置側の処理負担が軽減し、構成の簡略化が可能となるため、音声検索端末装置のコストダウンを図ることができる利点がある。
また、上述した各実施形態や変形例では、本発明の音声検索装置を車載用システムに適用した場合について種々の形態を説明してきたが、本発明の適用範囲は車載用システムに限定されるものではなく、他の種々のシステムに適用することができる。
【0131】
【発明の効果】
上述したように、本発明によれば、検索キーとなりうる複数の文字列の読みを音声出力することにより、認識対象となる文字列をあらかじめ利用者に提示しており、これらの文字列のみを音声認識の対象としているため、音声認識の精度を向上させることができる。
【図面の簡単な説明】
【図1】第1の実施形態の音声検索装置を含んで構成される車載用システムの構成を示す図である。
【図2】候補セットDBに格納されるデータの構造を示す図である。
【図3】図2に示したデータ構造における上位階層の候補セットと下位階層の候補セットとの対応関係を示す図である。
【図4】第1の実施形態の音声検索装置の動作手順を示す流れ図である。
【図5】対話例1において用いられるデータの内容を示す図である。
【図6】対話例3において用いられるデータの内容を示す図である。
【図7】対話例4において用いられるデータの内容を示す図である。
【図8】対話例5において用いられるデータの内容を示す図である。
【図9】第2の実施形態の音声検索装置を含んで構成される車載用システムの構成を示す図である。
【図10】第2の実施形態の候補セットDBに格納されるデータの構造を示す図である。
【図11】第2の実施形態の音声検索装置の部分的な動作手順を示す流れ図である。
【図12】ステップ122に示す処理の詳細な手順を示す流れ図である。
【図13】対話例6において候補セットDBから抽出されるレコードの内容を示す図である。
【図14】対話例7において候補セットDBから抽出されるレコードの内容を示す図である。
【図15】対話例8において候補セットDBから抽出されるレコードの内容を示す図である。
【図16】選択肢が自動的に選択される変形例における音声検索装置の構成を示す図である。
【図17】選択頻度に応じて選択肢を自動的に選択する場合の音声検索装置の部分的な動作手順を示す流れ図である。
【図18】一旦選択された選択肢を取り消して、新たに選択肢を選択する場合の音声検索装置の動作手順を部分的に示す流れ図である。
【図19】ネットワークを介して接続されたサーバと端末装置とに機能を分散配置した場合の音声検索装置の構成例を示す図である。
【図20】ネットワークを介して接続されたサーバと端末装置とに機能を分散配置した場合の音声検索装置の他の構成例を示す図である。
【図21】ネットワークを介して接続されたサーバと端末装置とに機能を分散配置した場合の音声検索装置の他の構成例を示す図である。
【図22】ネットワークを介して接続されたサーバと端末装置とに機能を分散配置した場合の音声検索装置の他の構成例を示す図である。
【符号の説明】
1、1A、1B 音声検索装置
2 ナビゲーション装置
3 オーディオ装置
4、4A、4B、4C 音声検索端末装置
5、5A、5B、5C サーバ
6 ネットワーク
10 マイクロホン
12、62 音声認識処理部
14 対話開始ボタン
15 再要求ボタン
16、56 選択肢設定部
18、60 案内文生成部
20、64 音声出力部
22 スピーカ
24、58 選択項目判定部
26、26a、52 候補セットDB(データベース)
28 DB更新部
30 動作指示出力部
32 選択頻度学習部
34 学習結果格納部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice search apparatus that searches various information using voice recognition.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, there has been known a voice search device that performs voice recognition processing on voice uttered by a user and searches various information based on a recognition result.
Such a voice search device is used in combination with an in-vehicle navigation device. For example, considering the case where a navigation device executes a function of searching for various facilities in order to make a route search destination, the voice search device (1) performs a function to be executed in response to a user's voice. (2) Search for facilities belonging to the facility type specified by the user (for example, eating place or gas station), and (3) further specify the facility specified by the franchise name specified by the user Search for information and (4) search for information in the procedure of finally extracting one facility designated by the user.
[0003]
[Problems to be solved by the invention]
By the way, in the conventional voice search device, each user needs to remember what words can be input to the voice search device. For example, in the above-described example, accurate voice input cannot be performed unless it is known in advance what kind of function, facility type, and the like are set as recognition targets. However, many users cannot grasp all the words that are recognized, so they will try to input the words that they have come up with appropriately, and cannot input speech using the correct words. For this reason, there is a problem that the accuracy of voice recognition may be lowered.
[0004]
The present invention has been created in view of such a point, and an object thereof is to provide a voice search device capable of improving the accuracy of voice recognition.
[0005]
[Means for Solving the Problems]
In order to solve the above-described problem, in the voice search device of the present invention, a search key is associated with each of a plurality of search target items, and the content of the user's input voice is compared with the search key. Set the maximum number of character strings that can be used as search keys when extracting relevant items from the search target items, and read multiple character strings within the range not exceeding that number Output audio. The user's voice collected by the microphone is subjected to predetermined voice recognition processing by the voice recognition processing means, and the character string corresponding to the voice is subjected to voice output by the recognition target character string output means. A search target item corresponding to the search key selected from the character string and specified by the character string selected by the speech recognition processing means is extracted by the item extraction means.
[0006]
A character string corresponding to the voice input by the user corresponding to this presentation is presented to the user in advance by outputting the reading of a plurality of character strings that can serve as search keys. Since the column is selected from a plurality of character strings that are the targets of voice output and the search key is specified, the accuracy of voice recognition can be improved.
[0007]
Further, it is desirable to further include a switch operated before the user utters, and when the switch is operated, it is desirable to start the voice recognition processing by the voice recognition processing means. Since the voice recognition process only needs to be started when the switch is operated, the timing for starting the voice recognition process becomes clear, and the process can be simplified.
[0008]
Further, it is desirable to further include a selected character string confirmation unit that outputs a reading of the character string selected by the voice recognition processing unit. By outputting the reading of the selected character string by voice, the user can easily confirm the recognition result for the voice input by the user.
[0009]
In addition, when a negative opinion is shown by the user with respect to the selection result of the character string by the voice recognition processing means, a plurality of character string readings used to obtain the selection result are again output as a voice It is desirable to further include a reselection instruction means for giving an instruction to the recognition target character string output means. Thus, the user can re-enter the search key by showing a negative opinion when a character string different from his / her wish is obtained as a selection result.
[0010]
Further, the recognition target character string output means, when the total number of character strings to be recognized exceeds the predetermined maximum number, the number of character strings in a range not exceeding the maximum number divided into a plurality of times. It is desirable to output the reading as a voice, and to perform selection determination of the character string by the voice recognition processing means for each voice output. Even when there are a large number of character strings to be recognized, voice output is performed by dividing into a predetermined number of characters, so the user can select a character string by paying attention only to the predetermined number of character strings. Well, it is possible to reliably select a desired character string.
[0011]
In addition, it is preferable that the apparatus further includes voice output instruction means for instructing the recognition target character string output means for the second or subsequent voice output when the user instructs voice output of another selection candidate. Thereby, the user can easily obtain other selection candidates.
[0012]
In addition, when a voice output is instructed again by the user, a re-speech output instructing unit that instructs the recognition target character string output unit to output a plurality of character strings read out immediately before the voice is output again. It is desirable to further include. Thereby, when the content of the audio output is missed, the audio output can be performed again and the content can be confirmed.
[0013]
Further, the apparatus further includes character string selection means for selecting a character string without using the result of the voice recognition processing by the voice recognition processing means when an instruction to perform the character string selection operation is given by the user. When the character string is selected by the character string selecting unit, the item extraction unit uses the character string selected by the character string selecting unit instead of the character string selected by the speech recognition processing unit. It is desirable to perform an item extraction operation. Since the user can leave the selection of the character string to the voice search device by giving an instruction to “keep”, the operation can be simplified in the case where any character string may be selected. Can be realized.
[0014]
In addition, when a plurality of search keys are associated with each search target item and one search target item cannot be narrowed down by the item extraction unit corresponding to one search key, one search target item is displayed. It is desirable to repeat the processing by the recognition target character string output means, the speech recognition processing means and the item extraction means using other search keys until the items can be narrowed down. Thereby, one search object item can be narrowed down reliably.
[0015]
The table storage means stores table information in which different priority levels are associated with each of the plurality of search keys, and a plurality of character strings corresponding to the plurality of search keys are associated with each of the plurality of search target items. It is desirable to read out the corresponding character string readings in order from the search key with the highest priority by the recognition target character string output means based on the table information stored in the table storage means. Since contents can be added or changed for each search key for which priority is set, data can be updated easily.
[0016]
In addition, when a character string corresponding to one search key is selected, a tree structure storage unit stores a search key to be selected next and tree structure information of a plurality of layers indicating the character string corresponding to the search key. Based on the tree structure information stored in the tree structure storage means, the recognition target character string output means extracts a plurality of character strings corresponding to the search key that is the next voice output target, The reading of these character strings may be output by voice. Since it is possible to extract a character string to be output next by simply following the tree structure from the upper layer in order, the processing can be simplified.
[0017]
Further, a selection history storage means for storing past selection history information by the speech recognition processing means is further provided, and a character string having a high selection frequency is recognized based on the selection history information stored in the selection history storage means. It is desirable that the character string output means make a determination and preferentially output the reading of the character string. By performing voice output preferentially for a character string having a higher frequency of selection, it becomes possible to select a character string having a higher frequency of selection with less voice input, thereby improving operability. .
[0018]
In addition, when each of the plurality of character strings is composed of one sound among Japanese 50 sounds, the item extracting means searches for the first word that matches the sound selected by the speech recognition processing means. It is desirable to extract the key. Even if there are many character strings that are selection candidates, the candidate character strings can be easily narrowed down.
[0019]
In addition, it is desirable that the voice recognition processing means selects a character string by comparing all characters constituting the character string with the entire voice recognition processing result. Since it is only necessary to select a character string in consideration of only a character string and a speech recognition result that completely match, the comparison process becomes easy and the process can be simplified.
[0020]
The speech recognition processing means may select a character string by comparing characters constituting a part of the character string with the entire speech recognition processing result. By performing comparisons that take into account the characters that make up part of the character string, the user can input only those parts that have this feature and are easy to remember when there is a feature in the character string. Thus, the operability can be improved.
[0021]
Further, it is preferable that the voice recognition processing means starts the character string selecting operation from the point of time when the user's voice is collected by the microphone before the voice output by the recognition target character string output means is finished. . In voice output, when it is desired to select a recognition target character string guided in the first place, it is possible to input the desired character string without waiting for all the voice output, so that the operability is further improved. Improvements can be made.
[0022]
The maximum number of character strings that can serve as the search key described above is preferably set in a range of 7 ± 2. According to the theory of short-term memory in cognitive psychology, if a chunk of information that has some sort of chunk is defined as a “chunk”, the amount of information that a person can hold at one time is approximately 7 ± 2 chunks. ing. For example, when storing a telephone number, basically, one number constituting the telephone number corresponds to one chunk. In addition, when the number string “2983” is stored in the same manner as “butcher”, the information “butcher” corresponds to one chunk. Therefore, by setting the maximum number of character strings that can serve as search keys in the range of 7 ± 2 based on the concept of “chunk”, the user can surely remember the character strings that can serve as search keys. be able to. Details regarding the above-mentioned “chunk” are described in, for example, page 75 of the document “
[0023]
Further, the voice search device may be configured by distributing functions to servers and terminal devices connected via a network. Specifically, a function for storing information on search target items and search keys corresponding to the search target items is arranged in the server, and the terminal device includes a recognition target character string output unit, a microphone, a voice recognition processing unit, and an item extraction unit. It is preferable to configure the voice search device by arranging the corresponding function and acquiring the necessary information from the server by the terminal device prior to various processes. Since the terminal device acquires information necessary for various processes from the server, the terminal device can acquire new information with updated contents from the server by communication and reflect the information in the various processes.
[0024]
Further, the information sent from the server to the terminal device is preferably difference information including changes to the information sent so far. When the contents are changed, only the difference information including the changed contents needs to be acquired, and the communication cost can be reduced.
[0025]
In addition, when a voice search device is configured by distributing functions to a server and a terminal device connected via a network, information on search target items and search keys corresponding to the search target items is stored, and recognition target characters are stored. A function for performing extraction processing of a character string that is a target of voice output by the column output unit and extraction processing of an item to be searched by the item extraction unit is arranged in the server, and the terminal device includes a recognition target character string output unit, a microphone, Functions corresponding to the voice recognition processing means may be arranged so that the terminal device acquires information necessary for these processes from the server. By placing many functions on the server side, the processing load on the terminal device is reduced and the configuration can be simplified, so that the cost of the terminal device can be reduced.
[0026]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a speech search apparatus according to an embodiment to which the present invention is applied will be described with reference to the drawings.
[First Embodiment]
FIG. 1 is a diagram illustrating a configuration of an in-vehicle system configured to include the
[0027]
Next, the detailed configuration of the
[0028]
The
The voice
[0029]
The
[0030]
The
[0031]
The guidance
The
The selection
[0032]
The candidate set
FIG. 2 is a diagram illustrating the structure of data stored in the candidate set
[0033]
FIG. 3 is a diagram illustrating a correspondence relationship between the upper layer candidate set and the lower layer candidate set in the data structure illustrated in FIG. 2. For example, the candidate set 100 in the highest hierarchy includes the options “meal location search”, “gas station search”, “facility search”, “parking location search”, “audio operation”, and “others”. Yes. These options are arranged based on a predetermined priority, and when generating a guidance voice for guiding these options, each option is guided in descending order of priority. For example, in the candidate set 100 shown in FIG. 3, “meal place search” has the highest priority. In the guidance voice generated based on this candidate set 100, “meal place search” and “gas station search”. Each option is guided in the order of “,. A specific example in which each option is guided will be described later. The same applies to other candidate sets.
[0034]
In addition, there is another candidate set 100a associated with the option “other” in the same hierarchy, and this
[0035]
For options other than “others” included in the candidate set 100 and the like, a candidate set including a plurality of options is provided in the lower hierarchy in association with this option. For example, a
[0036]
As described above, in this embodiment, the process of selecting one option in order from the candidate set of the highest hierarchy and moving to the candidate set of the lower hierarchy associated with the option is repeated. The content of the operation instruction is determined by selecting one from a plurality of options included in the candidate set in the lower hierarchy. In this case, a plurality of options included in the candidate set in the upper hierarchy correspond to the “search key”, and a plurality of options included in the candidate set in the lowest hierarchy correspond to the “search target item”. Note that FIG. 2 shows a candidate set having a four-level hierarchical structure, but this is an example, and the number of hierarchical levels increases or decreases depending on the contents of the operation instruction.
[0037]
The
[0038]
The operation
The
[0039]
The
FIG. 4 is a flowchart illustrating an operation procedure of the
[0040]
The
[0041]
Next, the
The
[0042]
The
[0043]
If the
[0044]
If speech input has been performed, an affirmative determination is made in step 105, and the speech
[0045]
The selection
[0046]
If there is a next candidate set, an affirmative determination is made in
[0047]
If “others” is selected from the options, an affirmative determination is made in
[0048]
If the next option does not exist, a negative determination is made in
[0049]
In addition, in the determination process of whether or not the next candidate set exists in the above-described
[0050]
Next, a dialogue performed between the
[0051]
(Dialogue example 1)
Dialogue example 1 shows a dialogue example when searching for the nearest gas station. FIG. 5 is a diagram showing the contents of data used in Dialogue Example 1.
U: Press the
S: “Please select from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”… (1)
U: “Fuel station search” (2)
S: “Search for gas stations. Then, select the franchise name from A, B, C, D, E, etc.”… (3)
U: “B Petroleum” (4)
S: “Because it is B Petroleum, please choose from 2km ahead right side, 2.5km left side, 3km ahead left side, 5km ahead right side, etc.”… (5)
U: “2km ahead right”… (6)
S: “It's 2 km ahead on the right side, so let ’s set the destination at B Petroleum Iwaki”… (7)
As shown in FIG. 5, when the
[0052]
Corresponding to this voice, as shown in the above-mentioned voice (2), when the “gas station search” is selected by the user, a candidate set in the lower hierarchy corresponding to this gas station selection is read out, and the user A plurality of franchise names that can be selected are guided as in the voice (3) described above.
[0053]
Here, as shown in the voice (4) described above, when the user selects the franchise name “B Petroleum”, a candidate set in a lower hierarchy corresponding to this B Petroleum is read out and the vehicle position is set as a reference. The position (relative distance) of each facility is guided as in the voice (5) described above.
[0054]
Next, as shown in the voice (6) described above, when the position “2 km ahead right” is selected by the user, “B Petroleum Iwaki Store”, which is one filling station corresponding to the selected position, is displayed. As specified and shown in voice (7) above, this gas station is set as the destination of the route search, and a series of processing ends.
[0055]
(Dialogue example 2)
Dialogue example 2 shows a dialogue example in the case where the nearest gas station is searched in the same manner as in dialogue example 1 described above, and when
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Fuel station search”
S: “Search for gas stations. Then select the franchise name from A, B, C, D, E, etc.”
U: Press the
S: “Input is a gas station search, then select a franchise name from A, B, C, D, E, etc.”… (8)
U: “B Oil”
S: “Because it is B Petroleum, please choose from 2km ahead right side, 2.5km left side, 3km ahead left side, 5km ahead right side, etc.”
U: “2km ahead right”
S: “It is 2 km ahead, right, so we will set the destination at B Petroleum Iwaki store.” As shown in the voice (8) in the above dialogue example, when the
[0056]
In this case, it is desirable to change the content of the guidance sentence at the first time and the second time. In the above example, the first guidance sentence is “Search for a gas station,” and the second guidance sentence is “Input is a gas station search, continue…”. has been edited. In addition, since it is possible that the guidance voice is difficult to hear, when the re-request is made, the utterance speed of the second voice may be made slower than the first voice.
[0057]
(Dialogue example 3)
Dialogue example 3 shows a dialogue example in the case where the nearest gas station is searched in the same manner as in dialogue example 1 described above, and “others” is selected from the options. FIG. 6 is a diagram showing the contents of data used in Dialogue Example 3.
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Fuel station search”
S: “Search for gas stations. Then select the franchise name from A, B, C, D, E, etc.”
U: “Others” (9)
S: “Please select from F, G, H, I, J, etc.”… (10)
U: “G Oil”
S: “It ’s G Petroleum, please choose from 2km ahead right side, 2.5km left side, 3km ahead left side, 5km ahead right side, etc.”
U: “2km ahead right”
S: “It is 2km ahead, right, so we set the destination at G Petroleum Iwaki Store” As shown in the voice (9) in the above dialogue example, the user selects “Other” from the options Corresponding to this “other”, a candidate set including the next option in the same hierarchy is read, and a franchise name that can be selected by the user is added as shown in the voice (10) described above. Guided.
[0058]
(Dialogue example 4)
Similar to the above-described dialog example 3, the dialog example 4 shows a dialog example in the case where “other” is selected from the options and there is no next candidate set in the same hierarchy. . FIG. 7 is a diagram showing the contents of data used in the dialogue example 4.
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Fuel station search”
S: “Search for gas stations. Then select the franchise name from A, B, C, D, E, etc.”
U: "Other"
S: “Please choose from F, G, H, I, J, etc.”
U: “Others” (11)
S: "I'm sorry. There are no other candidates" ... (12)
As shown in the voice (11) in the dialogue example described above, when “other” is selected from the options by the user and there is no next candidate set in the same hierarchy, the voice mentioned above As shown in (12), the user is informed that there are no more options that can be selected by the user.
[0059]
(Dialogue example 5)
Dialog example 5 shows an example dialog when searching for a desired facility. FIG. 8 is a diagram showing the contents of data used in the dialogue example 5.
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Facilities search” (13)
S: “Looking for facilities, then select the facility region from Hokkaido, Tohoku region, Kanto region, Chubu region, Kinki region, and others”… (14)
U: “Tohoku region”… (15)
S: “In the Tohoku region, please select the prefecture of the facility from Fukushima, Akita, Iwate, Miyagi, Aomori, and others”… (16)
U: “Fukushima Prefecture” (17)
S: “In Fukushima, please select the first letter of the facility name from A, K, S, TA, NA, etc.” ... (18)
U: “A line”… (19)
S: “Ah, please select from R-Pi, R-Pi-Giken, R-Pi Information System, R-Pi Office, R-Pi Logistics, etc.”… (20)
U: “R pie” (21)
S: “R pie, then set the destination on the R pie”… (22)
Thus, a plurality of selectable functions are guided by voice, and the user selects a target function corresponding to the voice. As shown in the voice (13) described above, when “facility search” is selected by the user, a lower-layer candidate set corresponding to this facility search is read out, as shown in the voice (14) described above. The region where the facility is located is guided as an option.
[0060]
Here, as shown in the voice (15) described above, when “Tohoku region” is selected as a region where the facility is located by the user, a candidate set of a lower hierarchy corresponding to this “Tohoku region” is read out, The name of the prefecture where the facility is located is guided as in the voice (16) described above.
[0061]
As shown in the voice (17) described above, when “Fukushima Prefecture” is selected by the user, the corresponding lower-layer candidate set is read out, and as shown in the voice (18), the name of the facility The first character (A line, KA line, etc.) is guided as an option.
As shown in the above voice (19), when “A row” is selected by the user, the corresponding lower layer candidate set is read out, and as shown in the above voice (20), “Fukushima The name of the facility that is located in “” and the first character of the facility name belongs to “A” is guided as an option.
[0062]
Here, as shown in the voice (21) described above, when one facility name “R pie” is selected by the user, “R pie”, which is one facility, is specified. As shown in 22), this facility is set as the destination of the route search, and a series of processing ends.
[0063]
As described above, in the first embodiment, data including a candidate set having a predetermined hierarchical structure is stored in the candidate set
[Second Embodiment]
By the way, in the first embodiment described above, the candidate set
[0064]
FIG. 9 is a diagram illustrating a configuration of a vehicle-mounted system configured to include the voice search device 1A of the second embodiment. The voice search device 1A according to the second embodiment shown in FIG. 9 is different from the
[0065]
The candidate set DB 26a stores data necessary for the
FIG. 10 is a diagram illustrating a structure of data stored in the candidate set DB 26a according to the second embodiment. As shown in FIG. 10, the data stored in the candidate set DB 26a of the second embodiment is in a table format, unlike the case of the first embodiment described above.
[0066]
The data (table information) stored in the candidate set DB 26a is composed of three elements “priority”, “candidate set title”, and “option”.
The “priority” has the same meaning as the hierarchy in the first embodiment described above. That is, when deciding some operation instruction, one option is selected from a plurality of options in order from the “function” of
[0067]
In the candidate set DB 26a, one horizontal row is one data group (hereinafter referred to as “record”). For example, the record in the first row shown in FIG. 10 is a data group related to the facility name “B Petroleum Iwaki Store”, and the function is related to “Gas Station Search”, and the franchise name is “B Petroleum”. This indicates that the region where the facility is located belongs to the “Tohoku region”, the prefecture where the facility is located belongs to “Fukushima”, and the first character of the facility name belongs to “ha line”. In addition, about the position, the content is updated by
[0068]
The voice search device 1A of the present embodiment has such a configuration, and the operation thereof will be described next.
FIG. 11 is a flowchart showing a partial operation procedure of the voice search device 1A according to the second embodiment. Note that the basic operation procedure of the music search device 1A is the same as that of the
[0069]
The
When the
[0070]
The selection
If “others” is not selected, a negative determination is made in
[0071]
Next, the
If there is a candidate set including two or more options, an affirmative determination is made in
[0072]
FIG. 12 is a flowchart showing a detailed procedure of the process shown in
[0073]
Next, the
If the type of option is not less than the predetermined number, a negative determination is made in
[0074]
If the number of options is less than or equal to the predetermined number, an affirmative determination is made in
Next, the
[0075]
In
[0076]
If there is no next option, a negative determination is made in
[0077]
In
[0078]
Next, the dialogue performed between the voice search device 1A and the user will be specifically described in accordance with the processing shown in FIG. 11 described above. Together with this dialogue example, the data stored in the candidate set DB 26a will be described. The manner in which necessary records are extracted from the inside will be described with reference to the drawings as appropriate.
[0079]
(Dialogue example 6)
Dialog example 6 shows an example of dialog when searching for the nearest gas station. FIG. 13 is a diagram showing the contents of records extracted from the candidate set DB 26a in the dialogue example 6.
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”… (23)
U: “Fuel station search” (24)
S: “It ’s a gas station search, so choose a franchise name from A, B, C, D, E, etc.”… (25)
U: “B Petroleum” (26)
S: “Because it is B Petroleum, please choose from 2km ahead right side, 5km left side, etc.”… (27)
U: “2km ahead right”… (28)
S: “It's 2km ahead on the right side, so let ’s set the destination at B Petroleum Iwaki”… (29)
As shown in FIG. 13, when the
[0080]
Corresponding to this voice (23), as shown in the above-mentioned voice (24), when the “gas station search” is selected by the user, only records corresponding to this “gas station selection” are narrowed down. A plurality of choices are extracted in correspondence with “franchise name”, which is a candidate set title of
[0081]
As shown in the voice (26), when the user selects the franchise name “B Petroleum”, only the records corresponding to this “B Petroleum” are narrowed down, the next highest priority, and two Corresponding to the “position” of priority 6 that is a candidate set title including the above types of options, a plurality of options are further extracted, and the position of each facility (relative distance) based on the vehicle position ) Is guided as in the voice (27) described above.
[0082]
As shown in the voice (28) described above, when the position “2 km ahead right” is selected by the user, “B Petroleum Iwaki Store”, which is one filling station corresponding to the selected position, is specified. As shown in the voice (29) described above, this gas station is set as a route search destination, and a series of processing ends.
[0083]
When the
(Dialogue example 7)
Dialog example 7 shows a dialog example in the case where the nearest gas station is searched in the same manner as dialog example 6 described above, and “others” is selected from the options. FIG. 14 is a diagram showing the contents of records extracted from the candidate set DB 26a in the dialogue example 7.
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Fuel station search”
S: “Search for gas stations. Then select the franchise name from A, B, C, D, E, etc.”
U: “Others” (30)
S: “Now, please select from F, G, etc.”… (31)
U: “G Oil” (32)
S: “It ’s G Oil, so let ’s set a destination at G Oil Iwaki”… (33)
As shown in the voice (30) in the dialogue example 7 described above, when “others” is selected from the choices by the user, the already presented A petroleum, B petroleum, C petroleum, D petroleum, E petroleum The excluded records are narrowed down, and the franchise names that can be selected by the user are additionally guided as shown in the voice (31) described above.
[0084]
As shown in the above-described voice (32), when the user selects the franchise name “G oil”, only records corresponding to this “G oil” are narrowed down. In this case, at the time of narrowing down based on the franchise name, one record is narrowed down, and the “G Oil Iwaki Store”, which is one gas station to be guided, is specified. As shown in the voice (33), this gas station is set as the destination of the route search, and a series of processing ends.
[0085]
(Dialogue example 8)
Similar to the above-described dialog example 7, the dialog example 8 shows a dialog example when “other” is selected from the options and there is no option that can be presented next. FIG. 15 is a diagram showing the contents of records extracted from the candidate set DB 26a in the dialogue example 8.
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Fuel station search”
S: “Search for gas stations. Then select the franchise name from A, B, C, D, E, etc.”
U: "Other"
S: “Please choose from F, G, and others”
U: “Others” (34)
S: “I'm sorry. There are no other candidates”… (35)
As shown in the voice (34) in the dialogue example described above, when “others” is selected from the options by the user and there is no next option that can be presented, As shown in the voice (35), the user is informed that there are no more options that can be selected by the user.
[0086]
As described above, in the second embodiment, predetermined table information having a predetermined table format and in which different priorities are associated with a plurality of options is stored in the candidate set DB 26a, and based on this table information. Thus, the readings of the corresponding character strings are output in voice from the option with the highest priority. The character string to be recognized is presented to the user in advance, and the character string corresponding to the voice input by the user in response to this presentation is selected from a plurality of character strings that are the targets of the voice output. Since the option selected by the user is specified, the accuracy of voice recognition can be improved. In particular, since data is stored in a table format, there is an advantage that records can be easily added or changed.
[0087]
[Modification]
The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the gist of the present invention. For example, in the above-described embodiment, the user sequentially selects one of a plurality of presented options to select a final option, and an operation instruction corresponding to the content is displayed in the navigation. Although it was performed for the
[0088]
FIG. 16 is a diagram showing a configuration of a voice search device in a modified example in which options are automatically selected. The
[0089]
The selection
In the present embodiment, when voice input for selecting an option is performed, the option is automatically selected when the user inputs “make it ok”. When this “automatic” is input, the selection
[0090]
The
FIG. 17 is a flowchart showing a partial operation procedure of the
[0091]
The selection
[0092]
If “others” is not selected, a negative determination is made in
[0093]
When “Kid” is selected from the choices, an affirmative determination is made in
[0094]
When the final option is automatically selected according to the past selection frequency, or when a negative determination is made in
[0095]
Next, a dialogue performed between the
(Dialogue example 9)
Dialogue example 9 shows a dialogue example in the case where the nearest gas station is searched in the same manner as in dialogue example 1 described above, and when “make money” is selected as an option. The contents of data used in the dialogue example 9 are the same as those in FIG.
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Fuel station search”
S: “Search for a gas station. Then, select the franchise name from A, B, C, D, E, etc. Or,“ Please let me know ”…” 36)
U: “Let ’s do it”… (37)
S: “You can leave it, then set the destination at B Petroleum Iwaki”
In the dialog example described above, as shown in the voice (36), an option of “make it cheat” is newly added to the user. On the other hand, as shown in the voice (37), when “automatic” is selected by the user, the option with the highest selection frequency is automatically selected according to the past selection frequency. In the example described above, the options after the franchise name are automatically selected according to the past selection frequency. Specifically, “B Petroleum” is automatically selected as the franchise name, and “2 km ahead right” is automatically selected as the location, so that the option “B Petroleum Iwaki Store” is finally selected. Is selected.
[0096]
In the above-described example, all the options are automatically selected until reaching the final option. However, only the options at that time may be automatically selected. For example, if “Kid” is selected when selecting a franchise name, only this franchise name is automatically selected, and the position is shifted to “position”, which is a candidate set in a lower hierarchy. A plurality of options included may be presented. In the above-described example, the case where the process for automatically selecting an option is added to the first embodiment has been described. However, this function can be added to the second embodiment in the same manner. it can.
[0097]
Further, in the above-described modification, when “Left” is selected as the option, the option is selected according to the past selection frequency. However, the option is selected at random regardless of the past selection frequency. May be. In this case, the process of learning the past selection frequency becomes unnecessary, and the configuration can be simplified.
[0098]
Further, when the process of learning the past selection frequency of options is performed, the learning result may be reflected in the data stored in the candidate set DB 26 (or 26a). For example, in each of the above-described embodiments, when guiding a plurality of options related to the franchise name, “G Oil” is the second time performed when “Other” is selected from the options presented first time. Was presented at the time of guidance. However, if the learning result that “G petroleum” is selected with high frequency is obtained, this “G petroleum” may be presented at the first guidance. Alternatively, among the plurality of options included in one guidance, the guidance order may be changed according to the past selection frequency. For example, in the initial state, when guidance was given in the order of A petroleum, B petroleum, C petroleum,... In the first guidance, the selection frequency in the order of G petroleum, B petroleum, A petroleum,. If the learning result is obtained, the first guidance may be changed in the order of G petroleum, B petroleum, A petroleum,. In this case, the learning
[0099]
In each of the above-described embodiments, the
[0100]
Further, in each of the above-described embodiments, the operation in the case of canceling the selected option and selecting a new option has not been described, but such processing can also be performed.
FIG. 18 is a flowchart partially showing an operation procedure of the speech search apparatus when an option once selected is canceled and a new option is selected. For example, the description will be made on the assumption that this processing is performed in the
[0101]
The selection
[0102]
If “other” is not selected, a negative determination is made in
[0103]
When the voice “correction” is input, an affirmative determination is made in
[0104]
If the voice “correction” is not input, a negative determination is made in
Next, the dialogue performed between the
[0105]
(Dialogue example 10)
Dialog example 10 shows a dialog example in the case where the nearest gas station is searched in the same manner as dialog example 1 described above, and a voice of “correction” is input.
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Fuel station search”
S: “Search for gas stations. Then select the franchise name from A, B, C, D, E, etc.”
U: “A Oil” (38)
S: “E oil, please choose from 2km ahead right side, 2.5km ahead left side, 3km ahead left side, 5km left side, etc.”… (39)
U: “Correction” (40)
S: “Please choose a franchise name from A, B, C, D, E, etc.”… (41)
U: “A Oil”
S: “A petroleum, please choose from 2km ahead left side, 5km left side, other”
U: “2km ahead left”
S: “It is 2km ahead, so let ’s set the destination at A Petroleum Iwaki Store” In
[0106]
(Dialogue example 11)
The dialogue example 11 shows another dialogue example in the case where the voice “correction” is inputted.
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Fuel station search”
S: “Search for gas stations. Then select the franchise name from A, B, C, D, E, etc.”
U: “Facilities search” (42)
S: “C oil, please choose from 2km ahead right side, 2.5km ahead left side, 3km ahead right side, 5km left side, etc.”… (43)
U: “Correction” (44)
S: “Please choose a franchise name from A, B, C, D, E, etc.”… (45)
U: “Correction” (46)
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”… (47)
U: “Facilities Search”
Hereinafter, since the dialog after selecting the facility search is performed in the same manner as the above-described dialog example 5, the description is omitted here.
[0107]
In the dialogue example 11 described above, the user once selected “Filling station search”, but wants to select “Facility search”, so that the user is presented from the
[0108]
As shown in the voice (44), when the user inputs “correction” as a voice, as shown in the voice (45), the user can select based on the franchise name that is a candidate set in the upper hierarchy. Franchise names will be introduced again.
As shown in the voice (46), when the user further performs “correction” and voice input, as shown in the voice (47), based on the “function” that is a candidate set of a higher hierarchy. The user-selectable options are again guided.
[0109]
By the way, in the above-described dialogue example 11, even when voice input that does not follow the contents of the plurality of options presented is performed, one of the plurality of options at that time is selected. When voice input that does not match the content of the option is performed and it is difficult to specify the option, it may be notified that an effective recognition result has not been obtained. In this case, the validity of the recognition result is determined in the processing of
[0110]
(Dialogue example 12)
U: Press the
S: “Choose from meal location search, gas station search, facility search, parking lot search, audio operation, etc.”
U: “Fuel station search”
S: “Search for gas stations. Then select the franchise name from A, B, C, D, E, etc.”
U: “H Oil” (48)
S: “I'm sorry. I couldn't recognize the word you entered. Choose your franchise name from A, B, C, D, E, etc.”… (49)
In the dialog example 12 described above, as shown in the voice (48), “H Petroleum” that is not presented as an option is selected by the user, so the
[0111]
Further, when performing the speech recognition process, the recognition accuracy may be improved in consideration of partial matching between the character string corresponding to the plurality of presented options and the character string corresponding to the voice input by the user. Good. For example, when selecting “Fuel station search” presented as an option, some users may utter only the portion “Fuel station”. In such a case, if only the entire character string “Fill station search” is subject to speech recognition, the match rate is low because it matches only partially with the “Fill station” spoken by the user, Of course, since the matching rate with other options (such as “meal location search”) is low, it may be difficult to accurately specify the option selected by the user. Therefore, for example, for gas station search, the character strings to be recognized are “gas station search” and “gas station”, and for meal location search, “meal location search”, “meal location”, “meal”, etc. Since it is possible to determine both the overall match and the partial match between the character string corresponding to the plurality of options and the character string for the voice input by the user, the recognition accuracy can be improved.
[0112]
Even when partial matching is considered in this way, it is preferable to output the entire character string when returning the recognition result. For example, even when “gas station” is input by the user, it is preferable that the entire character string is returned as a response of a corresponding recognition result, such as “It is a gas station search”.
[0113]
In each of the above-described embodiments, a plurality of options are presented and any one of them is input by voice. However, each option is presented with a predetermined code added to the desired option. You may make it input the code | cord | chord by voice. Specifically, numbers such as “1, 2, 3,...” And characters such as “A, B, C,. For example, in the case of presenting a plurality of functions as an option, “1: Meal location search, 2: Gas station search, 3: Facility search, 4: Parking search, 5: Audio operation, 6: Other, etc. Please select the appropriate number from the above "and output a guidance voice with a content such as" Any number from 1 to 6 ". As described above, when a predetermined code is used, the user only has to utter a code associated with a desired option, and voice input can be simplified. Further, since the character string to be subjected to the speech recognition process can be a simple character string such as a number, the recognition accuracy can be improved.
[0114]
Further, in each of the above-described embodiments, after all the multiple options are presented, the user selects one option and performs voice input. However, the user is presented before all the options are presented. When the voice input by is performed, the voice recognition process may be started at that time. Depending on the user, when listening to the output voice guidance, voice input may be started immediately after a desired option is output. In such a case, the operability can be further improved by promptly starting the speech recognition process even after all the options have not been presented.
[0115]
Further, in each of the above-described embodiments, the voice search device used alone has been described. However, the voice search device may be configured by distributing functions to servers and terminal devices connected via a network. Good.
FIG. 19 is a diagram illustrating a configuration example of a voice search device when functions are distributed and arranged in a server and a terminal device connected via a network. The voice search device shown in FIG. 19 includes a voice search terminal device 4 and a
[0116]
The voice search terminal device 4 basically has the same configuration as the voice search device 1A in the second embodiment described above, except that a
[0117]
The
[0118]
The
[0119]
When a predetermined request is made from the voice search terminal device 4, the
[0120]
Thus, since the content of candidate set DB26a with which the voice search terminal device 4 was equipped can be updated based on the predetermined difference information transmitted from the
[0121]
Note that the
[0122]
FIG. 20 is a diagram illustrating another configuration example of the voice search device when the functions are distributed and arranged in a server and a terminal device connected via a network. The voice search device shown in FIG. 20 includes a voice
[0123]
In the speech search apparatus shown in FIG. 20, the candidate set
[0124]
Further, the voice
When outputting an operation instruction to the
[0125]
Note that the
[0126]
FIG. 21 is a diagram illustrating another configuration example of the voice search device when the functions are distributed and arranged in a server and a terminal device connected via a network. The voice search device shown in FIG. 21 includes a voice
[0127]
The voice search device shown in FIG. 21 is different from the voice search device shown in FIG. 20 described above in that the function of the guidance
[0128]
FIG. 22 is a diagram illustrating another configuration example of the voice search device when the functions are distributed and arranged in a server and a terminal device connected via a network. The voice search device shown in FIG. 22 includes a voice
[0129]
In the voice search device shown in FIG. 22, the voice of the user collected by the
[0130]
In the voice search device of the modification shown in FIGS. 20 to 22, since many functions are arranged on the server side, the processing load on the voice search terminal device side is reduced, and the configuration can be simplified. There is an advantage that the cost of the voice search terminal device can be reduced.
Further, in each of the above-described embodiments and modifications, various forms have been described for the case where the voice search device of the present invention is applied to an in-vehicle system, but the scope of the present invention is limited to the in-vehicle system. Instead, it can be applied to various other systems.
[0131]
【The invention's effect】
As described above, according to the present invention, the character strings to be recognized are presented to the user in advance by outputting the readings of a plurality of character strings that can serve as search keys, and only these character strings are displayed. Since it is the target of speech recognition, the accuracy of speech recognition can be improved.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a configuration of an in-vehicle system that includes a voice search device according to a first embodiment.
FIG. 2 is a diagram illustrating a structure of data stored in a candidate set DB.
3 is a diagram illustrating a correspondence relationship between a candidate set of an upper hierarchy and a candidate set of a lower hierarchy in the data structure shown in FIG.
FIG. 4 is a flowchart showing an operation procedure of the voice search device according to the first embodiment.
FIG. 5 is a diagram showing the contents of data used in Dialog Example 1.
FIG. 6 is a diagram showing the contents of data used in Dialog Example 3.
FIG. 7 is a diagram showing the contents of data used in Dialog Example 4.
FIG. 8 is a diagram showing the contents of data used in Dialog Example 5.
FIG. 9 is a diagram illustrating a configuration of an in-vehicle system configured to include a voice search device according to a second embodiment.
FIG. 10 is a diagram illustrating a structure of data stored in a candidate set DB according to the second embodiment.
FIG. 11 is a flowchart showing a partial operation procedure of the voice search device according to the second embodiment;
12 is a flowchart showing a detailed procedure of processing shown in
FIG. 13 is a diagram showing the contents of a record extracted from a candidate set DB in a dialogue example 6.
14 is a diagram showing the contents of a record extracted from a candidate set DB in a dialogue example 7. FIG.
15 is a diagram showing the contents of a record extracted from a candidate set DB in a dialogue example 8. FIG.
FIG. 16 is a diagram showing a configuration of a voice search device in a modified example in which options are automatically selected.
FIG. 17 is a flowchart showing a partial operation procedure of the voice search device when an option is automatically selected according to a selection frequency.
FIG. 18 is a flowchart partially showing an operation procedure of the speech search apparatus when an option once selected is canceled and a new option is selected.
FIG. 19 is a diagram illustrating a configuration example of a voice search device when functions are distributed to a server and a terminal device connected via a network.
FIG. 20 is a diagram illustrating another configuration example of the voice search device when functions are distributed and arranged in a server and a terminal device connected via a network.
FIG. 21 is a diagram illustrating another configuration example of the voice search device when the functions are distributed and arranged in a server and a terminal device connected via a network.
FIG. 22 is a diagram illustrating another configuration example of the voice search device when functions are distributed and arranged in a server and a terminal device connected via a network.
[Explanation of symbols]
1, 1A, 1B Voice search device
2 Navigation device
3 Audio equipment
4, 4A, 4B, 4C Voice search terminal device
5, 5A, 5B, 5C server
6 network
10 Microphone
12, 62 Voice recognition processing unit
14 Dialogue start button
15 Re-request button
16, 56 Option setting section
18, 60 Guide sentence generator
20, 64 Audio output unit
22 Speaker
24, 58 selection item determination unit
26, 26a, 52 Candidate set DB (database)
28 DB update section
30 Operation instruction output unit
32 Selection frequency learning section
34 Learning result storage
Claims (20)
前記検索キーとなりうる文字列の最大個数を設定し、その数を超えない範囲で複数の前記文字列の読みを音声出力する認識対象文字列出力手段と、
利用者の音声を集音するマイクロホンと、
前記マイクロホンによって集音した音声に対して音声認識処理を行い、この音声に対応する文字列を、前記認識対象文字列出力手段による音声出力の対象となった前記文字列の中から選択する音声認識処理手段と、
前記音声認識処理手段によって選択された前記文字列によって特定される前記検索キーに対応する前記検索対象項目を抽出する項目抽出手段と、
を備えることを特徴とする音声検索装置。A search key is associated with each of a plurality of search target items, and a voice search for extracting a corresponding item from the search target items by comparing the content of user input speech with the search key In the device
A maximum number of character strings that can serve as the search key, and a recognition target character string output means for outputting a plurality of readings of the character strings in a range not exceeding the number;
A microphone that collects the user's voice,
Voice recognition processing is performed on the voice collected by the microphone, and a character string corresponding to the voice is selected from the character strings that are to be output by the recognition target character string output unit. Processing means;
Item extraction means for extracting the search target item corresponding to the search key specified by the character string selected by the voice recognition processing means;
A voice search device comprising:
前記利用者が発声する前に操作されるスイッチをさらに備え、
前記スイッチが操作されたときに、前記音声認識処理手段による音声認識処理を開始することを特徴とする音声検索装置。In claim 1,
A switch that is operated before the user speaks;
2. A voice search apparatus, wherein voice recognition processing by the voice recognition processing means is started when the switch is operated.
前記音声認識処理手段によって選択された前記文字列の読みを音声出力する選択文字列確認手段をさらに備えることを特徴とする音声検索装置。In claim 1,
A voice search device further comprising selected character string confirmation means for outputting the reading of the character string selected by the voice recognition processing means.
前記音声認識処理手段による前記文字列の選択結果に対して前記利用者による否定的な見解が示されたときに、この選択結果を得るために用いられた複数の前記文字列の読みを再度音声出力する指示を前記認識対象文字列出力手段に対して行う再選択指示手段をさらに備えることを特徴とする音声検索装置。In claim 3,
When a negative opinion is shown by the user with respect to the selection result of the character string by the voice recognition processing means, the reading of the plurality of character strings used to obtain the selection result is again voiced. The speech search apparatus further comprising: a reselection instruction unit that issues an output instruction to the recognition target character string output unit.
前記認識対象文字列出力手段は、認識対象となる前記文字列の総数が前記最大個数を超えているときに、複数回に分けて前記最大個数を超えない範囲の数の前記文字列の読みを音声出力し、
前記音声認識処理手段は、1回の音声出力毎に前記文字列の選択判定を行うことを特徴とする音声検索装置。In any one of Claims 1-4,
When the total number of the character strings to be recognized exceeds the maximum number, the recognition target character string output unit reads the number of the character strings in a range not exceeding the maximum number divided into a plurality of times. Audio output,
The voice search apparatus according to claim 1, wherein the voice recognition processing unit performs selection determination of the character string every time voice is output.
前記利用者によって他の選択候補の音声出力が指示されたときに、前記認識対象文字列出力手段に対して2回目以降の音声出力を指示する音声出力指示手段をさらに備えることを特徴とする音声検索装置。In claim 5,
The voice further comprising voice output instruction means for instructing the recognition target character string output means to output voice for the second and subsequent times when the user instructs voice output of another selection candidate. Search device.
再度の音声出力が前記利用者によって指示されたときに、前記認識対象文字列出力手段に対して、直前に音声出力した複数の前記文字列の読みを再度音声出力する指示を行う再音声出力指示手段をさらに備えることを特徴とする音声検索装置。In any one of Claims 1-6,
A re-speech output instruction for instructing the recognition target character string output means to re-speech the reading of the plurality of character strings that were output immediately before, when re-speech output is instructed by the user A voice search device further comprising means.
前記文字列の選択動作をまかせる旨の指示が前記利用者によってなされたときに、前記音声認識処理手段による音声認識処理の結果を用いずに前記文字列の選択を行う文字列選択手段をさらに備え、
前記文字列選択手段による前記文字列の選択が行われたときに、前記項目抽出手段は、前記音声認識処理手段によって選択される前記文字列に代えて、前記文字列選択手段によって選択された前記文字列を用いて前記検索対象項目の抽出動作を行うことを特徴とする音声検索装置。In any one of Claims 1-7,
Further provided is a character string selection means for selecting the character string without using the result of the voice recognition processing by the voice recognition processing means when an instruction to perform the character string selection operation is given by the user. ,
When the character string is selected by the character string selection unit, the item extraction unit replaces the character string selected by the voice recognition processing unit and the item selected by the character string selection unit. A voice search device that performs an operation of extracting the search target item using a character string.
前記検索対象項目のそれぞれには、複数の前記検索キーが対応付けられており、一の前記検索キーに対応して前記項目抽出手段によって一の前記検索対象項目の絞り込みが行えなかったときに、一の前記検索対象項目の絞り込みが行えるまで、他の前記検索キーを用いた前記認識対象文字列出力手段、前記音声認識処理手段および前記項目抽出手段による処理を繰り返すことを特徴とする音声検索装置。In any one of Claims 1-8,
Each of the search target items is associated with a plurality of the search keys, and when the search of the search target items cannot be performed by the item extraction unit corresponding to the one search key, A speech search apparatus that repeats the processing by the recognition target character string output means, the speech recognition processing means, and the item extraction means using the other search keys until one search target item can be narrowed down .
複数の前記検索キーのそれぞれには異なる優先度が対応付けられており、複数の前記検索対象項目のそれぞれに複数の前記検索キーに対応する複数の前記文字列が対応付けられたテーブル情報を格納するテーブル格納手段をさらに備え、
前記認識対象文字列出力手段は、前記テーブル情報に基づいて、優先度が高い前記検索キーから順番に、対応する前記文字列の読みを音声出力することを特徴とする音声検索装置。In claim 9,
Different priority is associated with each of the plurality of search keys, and table information in which a plurality of character strings corresponding to the plurality of search keys is associated with each of the plurality of search target items is stored. Further comprising table storage means for
The recognition target character string output means, based on the table information, outputs the corresponding reading of the character string by voice in order from the search key having the highest priority.
一の前記検索キーに対応する前記文字列の選択が行われたときに、次に選択対象となる前記検索キーおよびこの検索キーに対応する前記文字列を示す複数階層のツリー構造情報を格納するツリー構造格納手段をさらに備え、
前記認識対象文字列出力手段は、前記ツリー構造情報に基づいて、次に音声出力の対象となる前記検索キーに対応する複数の前記文字列を抽出して、これらの文字列の読みを音声出力することを特徴とする音声検索装置。In claim 9,
When the character string corresponding to one search key is selected, the search key to be selected next and the tree structure information of a plurality of layers indicating the character string corresponding to the search key are stored. A tree structure storage means;
The recognition target character string output means extracts a plurality of the character strings corresponding to the search key to be output next, based on the tree structure information, and outputs the readings of these character strings as a sound A voice search device characterized by:
前記音声認識処理手段による過去の選択履歴情報を格納する選択履歴格納手段をさらに備え、
前記認識対象文字列出力手段は、前記選択履歴情報に基づいて選択頻度が高い前記文字列を判定し、この文字列の読みを優先的に音声出力することを特徴とする音声検索装置。In any one of Claims 1-11,
Further comprising selection history storage means for storing past selection history information by the voice recognition processing means,
The recognition target character string output means determines the character string having a high selection frequency based on the selection history information and preferentially outputs the reading of the character string as a voice.
複数の前記文字列のそれぞれは、日本語の50音の中の一音からなっており、
前記項目抽出手段は、先頭の一語が前記音声認識処理手段によって選択された前記一音に一致する前記検索キーを抽出することを特徴とする音声検索装置。In any one of Claims 1-12,
Each of the plurality of character strings is composed of one of the 50 Japanese sounds.
The item extraction unit extracts the search key whose first word matches the one selected by the voice recognition processing unit.
前記音声認識処理手段は、前記文字列を構成する全ての文字と、音声認識処理結果の全体とを比較することにより、前記文字列の選択を行うことを特徴とする音声検索装置。In any one of Claims 1-13,
The speech search apparatus according to claim 1, wherein the speech recognition processing means selects the character string by comparing all characters constituting the character string with the entire speech recognition processing result.
前記音声認識処理手段は、前記文字列の一部を構成する文字と、音声認識処理結果の全体とを比較することにより、前記文字列の選択を行うことを特徴とする音声検索装置。In any one of Claims 1-13,
The voice search apparatus according to claim 1, wherein the voice recognition processing unit selects the character string by comparing characters constituting a part of the character string with the entire voice recognition processing result.
前記音声認識処理手段は、前記認識対象文字列出力手段による音声出力が終了する前に、前記利用者の音声が前記マイクロホンによって集音されたときに、前記文字列の選択動作を開始することを特徴とする音声検索装置。In claim 14 or 15,
The voice recognition processing means starts the character string selection operation when the user's voice is collected by the microphone before the voice output by the recognition target character string output means is finished. A featured voice search device.
前記最大個数は、7±2の範囲に設定されていることを特徴とする音声検索装置。In any one of Claims 1-16,
The maximum number is set in a range of 7 ± 2.
ネットワークを介して接続されたサーバと端末装置とに機能が分散配置されており、
前記サーバは、前記検索対象項目とそれぞれに対応する前記検索キーに関する情報を格納する機能を有し、
前記端末装置は、前記認識対象文字列出力手段、前記マイクロホン、前記音声認識処理手段、前記項目抽出手段に対応する機能を有するとともに、これらを用いた各種の処理に先立って、前記サーバから必要な情報を取得することを特徴とする音声検索装置。In any one of Claims 1-17,
Functions are distributed and distributed between servers and terminal devices connected via a network.
The server has a function of storing information about the search target item and the search key corresponding to each item,
The terminal device has functions corresponding to the recognition target character string output means, the microphone, the voice recognition processing means, and the item extraction means, and is necessary from the server prior to various processes using these. A voice search device characterized by acquiring information.
前記サーバから前記端末装置に送られてくる情報は、前回までに送られてきた情報に対する変更内容を含む差分情報であることを特徴とする音声検索装置。In claim 18,
The information sent from the server to the terminal device is difference information including changes to the information sent up to the previous time.
ネットワークを介して接続されたサーバと端末装置とに機能が分散配置されており、
前記サーバは、前記検索対象項目とそれぞれに対応する前記検索キーに関する情報を格納するとともに、前記認識対象文字列出力手段による音声出力の対象となる前記文字列の抽出処理と、前記項目抽出手段による前記検索対象項目の抽出処理を行う機能を有し、
前記端末装置は、前記認識対象文字列出力手段、前記マイクロホン、前記音声認識処理手段に対応する機能を有するとともに、これらの処理に必要な情報を前記サーバから取得することを特徴とする音声検索装置。In any one of Claims 1-17,
Functions are distributed and distributed between servers and terminal devices connected via a network.
The server stores information related to the search target item and the search key corresponding to each of the search target items, and extracts the character string to be subjected to speech output by the recognition target character string output unit, and the item extraction unit. A function of performing extraction processing of the search target item;
The terminal device has functions corresponding to the recognition target character string output means, the microphone, and the voice recognition processing means, and acquires information necessary for these processes from the server. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001100615A JP4137399B2 (en) | 2001-03-30 | 2001-03-30 | Voice search device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001100615A JP4137399B2 (en) | 2001-03-30 | 2001-03-30 | Voice search device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002297374A JP2002297374A (en) | 2002-10-11 |
JP4137399B2 true JP4137399B2 (en) | 2008-08-20 |
Family
ID=18954043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001100615A Expired - Fee Related JP4137399B2 (en) | 2001-03-30 | 2001-03-30 | Voice search device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4137399B2 (en) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3894005B2 (en) * | 2002-03-14 | 2007-03-14 | 株式会社デンソー | In-vehicle electronic device, in-vehicle electronic device speech recognition result notification method, speech recognition confirmation notification program, and navigation system |
JP2004348658A (en) * | 2003-05-26 | 2004-12-09 | Nissan Motor Co Ltd | Method and apparatus for providing information for vehicle |
WO2006118293A1 (en) * | 2005-04-27 | 2006-11-09 | Semiconductor Energy Laboratory Co., Ltd. | Wireless chip |
JP4603988B2 (en) * | 2006-01-31 | 2010-12-22 | キヤノン株式会社 | Information processing apparatus and method |
JP2007271901A (en) * | 2006-03-31 | 2007-10-18 | Xanavi Informatics Corp | Navigation device and its address input method |
WO2008087738A1 (en) * | 2007-01-19 | 2008-07-24 | Fujitsu Limited | Disease name input assisting program, method, and device |
WO2008136105A1 (en) * | 2007-04-25 | 2008-11-13 | Pioneer Corporation | Display device, display method, display program and recording medium |
WO2010073406A1 (en) * | 2008-12-26 | 2010-07-01 | パイオニア株式会社 | Information providing device, communication terminal, information providing system, information providing method, information output method, information providing program, information output program, and recording medium |
JP5271330B2 (en) | 2010-09-29 | 2013-08-21 | 株式会社東芝 | Spoken dialogue system, method, and program |
DE112012006652T5 (en) * | 2012-07-03 | 2015-03-26 | Mitsubishi Electric Corporation | Voice recognition device |
JP2014115446A (en) * | 2012-12-10 | 2014-06-26 | Nippon Seiki Co Ltd | Voice recognition remote control |
KR102297519B1 (en) * | 2014-02-25 | 2021-09-03 | 삼성전자주식회사 | Server for generating guide sentence and method thereof |
JP6526399B2 (en) * | 2014-09-10 | 2019-06-05 | シャープ株式会社 | Voice dialogue apparatus, control method of voice dialogue apparatus, and control program |
JP7130201B2 (en) * | 2018-01-18 | 2022-09-05 | 株式会社ユピテル | Equipment and programs, etc. |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2924717B2 (en) * | 1995-06-12 | 1999-07-26 | 日本電気株式会社 | Presentation device |
JPH10510081A (en) * | 1995-09-26 | 1998-09-29 | ブラウプンクト−ヴェルケ ゲゼルシャフト ミット ベシュレンクテル ハフツング | Apparatus and voice control device for equipment |
JPH10269066A (en) * | 1997-03-25 | 1998-10-09 | Hitachi Ltd | Automatic shell preparation device by japanese |
JPH1152975A (en) * | 1997-08-08 | 1999-02-26 | Fujitsu Ltd | Speech response apparatus |
JPH11126152A (en) * | 1997-10-23 | 1999-05-11 | Atto Mark:Kk | Method and device for selecting display representation, and computer-readable recording medium where program for selecting display representation is recorded |
JPH11184671A (en) * | 1997-12-22 | 1999-07-09 | Ntt Data Corp | Method, device and system for presenting information |
-
2001
- 2001-03-30 JP JP2001100615A patent/JP4137399B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002297374A (en) | 2002-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4137399B2 (en) | Voice search device | |
JP3962767B2 (en) | Dialogue support device | |
US9076435B2 (en) | Apparatus for text-to-speech delivery and method therefor | |
JP5697860B2 (en) | Information search device, information search method, and navigation system | |
JP5526396B2 (en) | Information search apparatus, information search system, and information search method | |
JP4270611B2 (en) | Input system | |
US6385582B1 (en) | Man-machine system equipped with speech recognition device | |
JP4928701B2 (en) | A method for language input of destinations using the input dialog defined in the destination guidance system | |
US20120077155A1 (en) | Electronic Reading Device | |
JP2000504510A (en) | Database access | |
JP2005030982A (en) | Voice input method and on-vehicle device | |
JP2002123290A (en) | Speech recognition device and speech recognition method | |
JP3530109B2 (en) | Voice interactive information retrieval method, apparatus, and recording medium for large-scale information database | |
JP2012168349A (en) | Speech recognition system and retrieval system using the same | |
JP6477648B2 (en) | Keyword generating apparatus and keyword generating method | |
JP4684583B2 (en) | Dialogue device | |
JP6050171B2 (en) | Recognition processing control device, recognition processing control method, and recognition processing control program | |
EP1397797B1 (en) | Speech recognition | |
JP2009282835A (en) | Method and device for voice search | |
JPH05120596A (en) | Traffic information display device | |
JP2000181475A (en) | Voice answering device | |
JP5246512B2 (en) | Voice reading system and voice reading terminal | |
JP2003091297A (en) | Voice interaction device | |
JP4822993B2 (en) | Point search device and navigation device | |
JP2005265477A (en) | On board navigation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080401 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080603 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080604 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4137399 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110613 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120613 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120613 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130613 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130613 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140613 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |