JP5697860B2 - 情報検索装置,情報検索方法及びナビゲーションシステム - Google Patents
情報検索装置,情報検索方法及びナビゲーションシステム Download PDFInfo
- Publication number
- JP5697860B2 JP5697860B2 JP2009208045A JP2009208045A JP5697860B2 JP 5697860 B2 JP5697860 B2 JP 5697860B2 JP 2009208045 A JP2009208045 A JP 2009208045A JP 2009208045 A JP2009208045 A JP 2009208045A JP 5697860 B2 JP5697860 B2 JP 5697860B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- vocabulary
- input
- search
- recognition vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 145
- 230000008569 process Effects 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 description 13
- 238000012986 modification Methods 0.000 description 13
- 230000015556 catabolic process Effects 0.000 description 10
- 238000003825 pressing Methods 0.000 description 8
- 235000016496 Panda oleosa Nutrition 0.000 description 5
- 240000000220 Panda oleosa Species 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 5
- 241001028048 Nicola Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 241000511538 Macoma Species 0.000 description 2
- 239000009759 San-Chi Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000252794 Sphinx Species 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Navigation (AREA)
Description
カーナビゲーションでは,全国に膨大にある施設名を検索して,目的地を設定するために,上記のような情報検索インタフェースが使用される。この情報検索では,最初,カーナビゲーションのタッチパネルやリモコンを介して,ユーザが施設名の一部を入力する。この後,検索ボタンを押すことにより,ユーザが入力した文字列を含む施設名の一覧が表示され,ここから1つを選ぶことにより,目的地を設定できる。また,ユーザは,音声により施設名を発話することによっても,目的地を設定することができる。
本実施例では,カーナビゲーションにおいて,店舗などの施設を検索するための情報検索を例として説明する。情報検索装置100は,CPU,メモリ,ソフトウェア等により実現される各種の演算処理機能や画像処理機能を有している。情報検索装置100はその構成を機能ブロックに分けると,入力部として,ユーザの操作入力を受け付ける操作入力部110と,ユーザの音声入力を受け付ける音声入力部120とを備えている。操作入力部110は,ユーザの入力のうち,タッチパネル操作,リモコン操作,ダイアル操作などの操作入力を受け付ける。情報検索装置100はさらに,音声入力部から得られた音声を文字列に認識する音声認識部130,音声認識部において参照する音響データを格納する音響モデル記憶部140,音声認識部において認識する語彙と語彙の連結規則を記憶する言語モデル記憶部150,検索部160,名称データベース170,検索部で検索されたレコードの候補をユーザに提示する出力部180,提示されたレコードの候補からユーザが特定の候補等を選択する選択手段(図示略)、及び認識語彙作成部190を備えている。なお,上記情報検索装置100の各部の構成は,一例であり,ソフトウェア等の形態により各部が統合され,あるいは細分化されることもありうる。例えば、選択手段は、操作入力部110や音声入力部120の各機能の一部として構成しても良い。また,音響モデル記憶部140,言語モデル記憶部150,名称データベース170は,共通の記憶装置として構成される。
以下,各部の構成,機能について,詳細に説明する。
名称データベース170は,情報検索装置で検索できるデータを蓄えておくデータベースである。本実施例では,カーナビゲーションの施設に関する情報を格納するものとして,説明する。
図2Aに,名称データベース170のテーブルの構成例を示す。なお,本発明では,各データの単位をレコードと称して説明する。
名称データベース170には,カーナビゲーションに登録されている全国の施設名が記憶されている。1つのレコードに対しては,複数の属性に関する情報が付与されている。また,それぞれの属性に保存されている情報を値と呼ぶこととする。
名称210は,それぞれの施設の名称を示す。
読み220は,各施設の読み仮名を付与する。また,ここでは,施設名の読みを分割した記号を「/」で記載している。分割したそれぞれの部分を形態素と称す。また,各形態素に応じて,その性質を記載した品詞を設ける。形態素分割の実装方法は,後ほど説明する。
ここでは,形態素分割の方法について説明する。
[品詞の種類]
形態素は,自然言語により定義された語彙の単位の1つである。しかし,本実施形態では,施設名を区切りのよい箇所において区切った単位であると定義する。
形態素の定義は,それぞれの言語により異なる。本実施例では,施設の名称の分割について述べる。このための形態素の体系としては,公知の文献(岩瀬成人: 自然言語処理を用いた企業名解析方式,電子情報通信学会論文誌,vol.J82-DII,no.8,pp.1305-1314,1999)で調査されている施設名を分割したときの意味カテゴリを形態素の単位として使用することができる。本明細書の実施形態では,「岩瀬」の論文を参考にして,品詞として,固有名,地名,職業という3種類を想定する。また,これらいずれにも入らないものとして,語尾というものを設けて説明をする。
形態素への分割方法としては,いくつかの方法をとることができる。
第1の方法として,最初から名称データベースにおいて,各名称の形態素区切りの位置と,各形態素の品詞を付与しておく実装が可能である。
第2の方法として,動的に形態素分割処理を行うことも可能である。たとえば,形態素解析の手法として,各形態素と品詞の関係を辞書としてもっておき,最長一致法,分割数最小法,接続コスト最小法といった手法を用いることで,施設名を形態素単位に分割することができる。
また,形態素区切りを,音声合成用の辞書の情報を利用することも可能である。カーナビゲーションでは,施設名や楽曲名そのほかの情報を音声ガイダンスで読み上げるために,各名称の読みの情報を持っている。また,各読みには,自然に読み上げるために必要なアクセント情報,韻律の情報,形態素区切りの情報が付与されている。この情報を利用して,本発明での形態素区切りの単位として使用することも可能である。
図2Aに戻って,名称データベース170の説明をつづける。
メインジャンル230は,各施設の属するジャンルを格納する。
サブンジャンル235は,各施設の属するメインジャンル230よりも詳細なジャンルを格納する。たとえば,鉄道駅に対しては路線名を格納し,スーパーマーケットについては各施設が属するチェーンや経営母体の名称を格納する。
住所240は,各施設の住所を格納する。
追加認識語彙250には,各施設を指定するために使用する音声認識語彙を登録する。この登録方法については,のちほど説明する。
また,図2Aには示さないが,カーナビゲーションで一般に使用される,緯度,経度,マップコードといった属性も合わせて名称データベース170に保存しておく。
図1に戻って,情報検索装置100の構成の説明をする。
操作入力部110は,ユーザの入力のうち,タッチパネル,リモコン,ダイアルなどの手での操作の入力を受け付ける。
音声入力部120は,ユーザの音声による入力を受け付ける。具体的には,マイクから入力したユーザの発話音声をデジタル信号に変換する。
音声認識部130は,音声のデジタル信号から音声認識し,文字列に変換する。ここでは,まず,ユーザが発話した音声データを,特徴ベクトル列に変換する。特徴ベクトル列とは,音声の各時刻の特徴量を多次元ベクトル量で表し,それを時系列に並べたものである。たとえば,各時刻の音声データをMFCC(Mel Frequency Cepstrum Coefficient)パラメータと呼ばれる多次元ベクトル量に変換し,これを時系列に並べたものが使用される。
音響モデル記憶部140には,各音素に対応するモデルを保存しておく。このモデルの表現形態としては,各音素を3状態で定義したHMM(Hidden Markov Model)を使うことができる。
言語モデル記憶部150には,音声認識部が認識対象とする単語と,各単語の連結規則を記録する。
言語モデル記憶部150の内訳を,図3A,図3Bで説明する。
ここでの言語モデルでは,名称データベース170におけるそれぞれの施設の読み220が認識できるように作られている。
図3Aは,言語モデルのうち,認識の単位となる単語を登録した辞書300を示す。ここでは,名称データベース170におけるそれぞれの施設の読み220が,単語として登録されている。
1つ単語の情報は,単語ラベル310,音素列320の2つの属性で構成される。
単語ラベル310には,音声認識結果として出力する文字列情報を記録する。
音素列320には,それぞれの単語の読み方に対応する音素記号を記憶する。図3Aの辞書300における音素記号と実際の音素の対応は,情報処理振興事業協会のプロジェクトにて開発された「日本語ディクテーション基本ソフトウェア」のフォーマットにのっとっており,以下の文献に記載されている。
鹿野,伊藤,河原,武田,山本:「音声認識システム」,オーム社 (2001)の133ページ。
鹿野, 武田, 河原, 伊藤, 山田, 伊藤, 宇津呂, 小林, 嵯峨山, 峯松, 山本:「日本語ディクテーション基本ソフトウェアの開発」,第19IPA 技術発表会論文集(2000) (http://www.ipa.go.jp/SYMPO/sympo2000/pdf/ipa19_1_51_1.pdf)
なお,図3Cに変形例として示すように,言語モデル記憶部150の辞書300は対応ID番号330を3つめの属性として持っておいてもよい。対応ID番号330には,各単語に対応する名称データベースのID番号205を登録する。図3Cの辞書300は,図2Bのテーブル170と組み合わせて使用される。この使い方については,後ほど第1の実施例の変形例として説明する。
音声認識部130は,入力音声の特徴ベクトル列と,言語モデルに記憶された認識可能な単語列の音素系列とを比較し,その一致の度合いを表すスコアを計算する。
そして,スコアが高かった単語列の単語ラベルの文字列を出力する。
ここでは,スコアがもっとも高かった単語列だけを出力しても良いし,スコアが高かった上位複数個の単語列を出力しても良い。
なお,音声認識の方法は,下記の文献に詳しく記載されており,実装に使用することができる。
Lee, Reddy : "Automatic Speech Recognition: The Development of the Sphinx Recognition System", Kluwer Academic Publishers (1989)
Rabiner, Juang : "Fundamentals of Speech Recognition", Prentice Hall PTR (1993)
検索部160は,音声入力部120または音声認識部130から出力された文字列を用い,名称データベース170にある各属性の値のなかで検索を行い,レコードの選択候補を生成する。
ここで,ユーザの入力により検索部160において選択候補が生成される流れを示す。 図4は,カーナビゲーションの画面に装着されたタッチパネル400とその表示の例を示す。このタッチパネル400は,グラフィカルユーザーインターフェース(GUI)機能を有し,操作入力部110,検索部160及び出力部180の各機能を備えている。タッチパネル400はさらに、出力部で出力されたレコードの候補一覧から特定の候補を選択する選択手段の機能も備えている。ここでは,施設を五十音入力により検索することで説明する。
五十音ボタン410は,各ボタンを押すことにより文字を入力できる。また,文字の削除,入力文字種の変更,カーソル移動を行うボタンも用意する。
表示エリア420には,ユーザが五十音ボタン410により押下した文字列が表示される。
検索ボタン430は,ユーザが選択候補の内訳を見たいときに押下するボタンである。また,ユーザが五十音ボタン410を押下して文字列を更新するたびに,検索部160で得られた選択候補が何件あるかを括弧内に表示する。
この入力は,操作入力部110を経て,検索部160へ伝達される。
検索部160では,名称データベース170の属性から読み220の値を検索し,ユーザ入力文字列「フニツ」を含むレコードを検索する。
なお,ユーザの入力の利便性を考慮し,撥音や拗音などで含まれる小さい文字は,対応する大きい文字でも検索できるものとする。また,濁音,半濁音は,有無を問わず検索できるものとする。
この検索の結果,「スーパーフニット国分寺店」,「スーパーフニット府中店」,「ふにつる旅館」の3件が選択候補として得られる。
そして,ユーザがタッチパネル400の選択手段の機能により、選択候補を選択して検索ボタン430を押下したとする。
この選択手段の押下動作により,施設の候補は出力部180に送られる。出力部180は,ユーザに選択候補を提示するため画面表示の変更,または,ユーザに選択候補を音声にて伝える音声再生を行う。
これを受けて,ユーザはタッチパネル400の選択手段の機能により、選択候補の中から自分の行きたい1つの施設を選択し,候補表示エリア510の対応する施設を押下する。この選択手段の押下結果は,操作入力部110を経て受理される。これにより,たとえばユーザが「スーパーフニット府中店」を選択した場合には,この施設を選択結果とし,経路探索や地図表示といったカーナビゲーションの所定の動作を行う。
ユーザが音声で,「スーパーフニット府中店」と発話したとする。この音声は,音声入力部120でデジタル信号に変換された後,音声認識部130にて文字列に変換される。 音声認識処理では,音声信号が,言語モデル記憶部150にある認識対象の単語列のうちもっとも類似するものを探索する。その結果,「スーパーフニットフチュウテン」が出力されるとする。
このユーザによる選択手段を介した選択結果は,検索部160に入力される。
上記述べた検索部160での実際の検索の実装方法について説明する。
まず,検索のクエリとなる入力がタッチパネル400などで入力され,操作入力部110から得られた文字列である場合について説明する。
検索を行う1つめの方法として,全件検索がある。この方法では,まず,操作入力部110から得られた文字列と,名称データベース170の属性の読み220のすべてとを比較し,入力文字列と部分一致したレコードを検索する。しかし,全件検索の処理では,比較演算の回数が多くなるため,処理速度は遅くなる。
入力が音声である場合も,検索部160に文字列が入力されるため,タッチパネルなどの入力と同様の方法で検索を行うことができる。すなわち,入力文字列と名称データベース170の読み220のすべてとを比較する全件検索の方法を用いることができる。また,あらかじめ,音声認識部130から得られる可能性があるあらゆる文字列と,それぞれの文字列に対応するレコードを特定する情報(たとえば,図2Bの名称データベース170のID番号205,レコードの記憶装置上での格納位置を示すアドレスなど)の関係を記録したインディクスを作成しておき,音声認識結果をキーとしてインディクスを参照することで,施設候補を得る方法を使用できる。
上記第1の実施例及びその変形例の説明では,音声認識の結果として,1個の単語列が入力される場合を想定した。しかし,音声認識処理では複数の単語列を得ることも可能である。よって,複数の音声認識の単語列が得られた場合には,それらいずれかの単語列または単語を含む施設名を検索し,その結果を出力しても良い。
また,上記第1の実施例及びその変形例の説明では,音声認識の結果が,名称データベース170の1つの施設の読み220と完全一致する想定で説明した。また,言語モデル記憶部150での文法は,図3Bの連結規則360のように,各施設の読みがそれぞれ並列に記録されている状態とした。一方,言語モデルにおいて,施設名をより細かく分割した単位で単語を記憶し,これをN-gram言語モデルのような連結確率を付与した文法と組み合わせて利用してもよい。この場合には,施設名の一部分の文字列が得られる。よって,検索部160では,認識結果の文字列が施設名の読み220に含まれる(部分一致する)レコードを候補として挙げ,その結果を候補として使用してもよい。
以下,本実施例では,
ユーザはタッチパネルにより「フニツ」と入力し,
この検索の結果,「スーパーフニット国分寺店」,「スーパーフニット府中店」,「ふにつる旅館」の3件が候補として得られ,
ユーザが「スーパーフニット府中店」を選んだ場合における,認識語彙作成部190の動作を説明する。
図6に,認識語彙作成部190の処理の流れを示す。
ステップ610では,ユーザが入力した文字列「フニツ」と,決定した施設「スーパーフニット府中店」の読みとの形態素単位での比較を行う。
その結果,ユーザ入力文字列「フニツ」は,読み「スーパー/フニット/フチュウ/テン」のなかの形態素「フニット」の一部分であることが分かる。
ステップ620では,ユーザ入力文字列を形態素に基づき編集する。ここでは,ユーザが入力した文字列「フニツ」を,該当する形態素まで延長し,「フニット」に編集する。これを音声認識語彙として使用する。
また,「フニットニイク」が追加認識語彙であることを示すフラグを合わせて登録して管理してもよい。
第1の実施例における,その後の操作について説明する。
ユーザは,音声により,「フニットに行く」と発話する。
この結果は,音声入力部120を経て音声認識部130にて音声認識処理が行われる。この音声認識処理の結果,音声認識結果の単語ラベル「フニットニイク」が得られる。
つぎに,検索部160では,音声認識結果の単語ラベルと名称データベース170を比較する。
ここでは,名称データベース170のうち,読み220のほかに,追加認識語彙250とも比較を行う。その結果,施設「スーパーフニット府中店」の追加認識語彙「フニットニイク」260と一致する。
この結果を受けて,出力部からは,「スーパーフニット府中店に目的地を設定します」という音声応答を出し,かつ地図表示,経路探索といったカーナビゲーションの所定の動作を行う。
なお,上記変形例の場合,ユーザの「フニットに行く」という発話から施設「スーパーフニット府中店」を選択する処理の手順は,言語モデル記憶部に付与された対応ID番号330を使用することにより,名称データベース170の読み22,追加認識語彙250と比較する処理を省略して実装する。具体的には,音声認識部は,音声認識結果として単語ラベル「フニットニイク」に加えて,対応ID番号「0201」も合わせて出力する。検索部160は,音声認識結果のうち対応ID番号「0201」を参照し,名称データベース170のID番号205の中で一致する施設を候補として生成する。この方法においても,施設「スーパーフニット府中店」を候補として選択することができる。
次に,第1の実施例において,ユーザが,図5の候補表示エリア510から,「ふにつる旅館」を選択した場合において,認識語彙作成部190の動作を説明する。
この場合には,ユーザが入力した文字列と一致する形態素は「ふにつる」である。よって,「ふにつる旅館」に対して語彙「フニツルニイク」が生成され,名称データベース170の追加認識語彙250と,言語モデル記憶部150に登録される。よって,ユーザは,「ふにつるに行く」と発話すれば,「ふにつる旅館」に関する所定の動作を行う。
なお,本実施例では,形態素区切りを利用してユーザが入力した文字列を拡張した。このことにより,ユーザがタッチパネルで入力した文字列が「フニツ」のように不完全であっても,形態素単位で拡張することにより,ユーザが発話するために自然に感じる単位まで広げることができる。しかし,本実施例とはことなり,ユーザが入力した文字列をなんら加工することなく,追加認識語彙として使用してもよい。
また,本実施例では,ユーザがタッチパネルで入力する文字は仮名である想定であった。しかし,漢字カナ混じりの文字が入力されてもよい。この場合には,名称データベースの名称210に対して,それぞれの名称を形態素に分割しておく(例.「荻窪/駅」)。そして,ステップ610での処理では,ユーザが入力した漢字カナ混じりの文字列を,施設の名称210と比較し,該当する形態素を特定する。このことにより,ユーザの漢字カナ混じりにも対応できる。
また,本実施例では,ユーザがタッチパネルで入力した文字を加工し,これを音声認識語彙として使用する実施例を使用した。しかし,作成された音声認識語彙は,音声認識のためだけでなく,通常のタッチパネルなどの操作における入力でも,検索対象語として使うことができる。
たとえば,名称データベースの施設「スーパーフニット府中店」に対して,すでに追加認識語彙属性に「フニット」が追加されているとする。この状況で,ユーザがタッチパネルより「フニット」と入力したとする。この場合,検索部では,名称データベースの読み220を検索し,読みに「フニット」がつく施設を候補として生成した。
このとき,名称データベース170の追加認識語彙属性も見ると,施設「スーパーフニット府中店」の追加認識語彙属性と一致する。この判断に基づいて,他の候補よりも優先的に「スーパーフニット府中店」をユーザに提示することが考えられる。
たとえば,検索クエリ「フニット」での候補が数百件ある状況でも,画面表示において,「スーパーフニット府中店」を候補表示エリア510のいちばん上に表示するといったことが考えられる。このようにすれば,ユーザは知っている施設をすぐに見つけることができる。
この実施形態は,第1の実施形態において,ユーザが選択した施設に対して,複数の追加認識語彙の候補を作成し,そのなかからユーザに選択してもらうことを特徴とする。
さらに,追加認識語彙がすでに音声認識で使われている場合や,類似する認識語彙が存在する場合には,その追加のための動作を変更する。
なお,名称データベース170,言語モデル記憶部150,辞書300等の構成は,第1の実施形態で説明したID番号を用いない方式とするが,第1の実施形態の変形例で説明したID番号を用いる方式で実現しても良い。
本実施形態の説明の前提として,まず,名称データベース170において,追加認識語彙250として「スーパーフニットニイク」が施設「スーパーフニット国分寺店」に追加されているものとする(図2Aの282)。そのため,言語モデル記憶部150にも,すでに,「スーパーフニットニイク」という語彙が登録されているものとする。
ここから,ユーザは,タッチパネルより「フニツ」と入力し,施設名候補の中から,「スーパーフニット府中店」を選択したとする。
つぎに,形態素に関して形態素重要度を振っておくことについて説明する。
図7A及び図7Bは,各々,本実施形態における形態素の重要度を定義した表700の一例である。
図7Aのような「スーパーフニット府中店」に含まれる形態素710それぞれの形態素重要度730を定義した表700を設ける。形態素重要度とは,ユーザにとって,その形態素を発話することで,該当する施設を呼び出すことが自然である場合に高くなる指標として定義する。たとえば,名称「スーパーフニット府中店」を形態素「フニット」という発話で指定することは自然と考えられるため,形態素重要度を高く設定しておく。一方,形態素「テン」だけで施設を指定することはほとんどないと考えられるため,「テン」の形態素重要度は低い値とする。
また,この形態素重要度は,形態素710に寄らなくとも,品詞720ごとに定義した値を用いても実装できる。この場合には,固有名,地名,職種は高くし,語尾,法人種別名(カブシキガイシャ,ザイダンホウジン,など)などを低くすることが挙げられる。
また,形態素重要度は連続値でなくとも,量子化された値でも良い。たとえば,「重要」,「非重要」という2段階のいずれかの情報を付与してもよい。また,図示はしないものの,形態素の複数組合せに対して形態素重要度を付与しても良い。たとえば,「スーパー/フチュウ」という「フニット」をスキップした組合せがユーザにとって自然であれば,この組合せに対して重要度を高くするといったこともできる。
つぎに,本実施例における認識語彙作成部190の処理の流れ,を図8に示す。
ステップ810では,まず,ユーザが入力した文字列を含む読みの形態素を特定する。その結果,形態素「フニット」がユーザの入力した文字列だと特定される。つぎに,この形態素の重要度を増える方向に再計算する。この実施例では,0.5を加算することとする。これにより,形態素「フニット」の形態素重要度は,図7Aの740で示すとおり,1.4となる。
ステップ820では,音声認識語彙の候補として,施設の形態素の組合せを生成する。さらに,この組合せに対する組合せ重要度も算出する。組合せ重要度とは,高いほど,その形態素の組合せをユーザが発話することが自然であるように付与した重要度である。その算出方法にはさまざまな方法があるが,ここでは,形態素重要度を加算したのち,形態素の数で割った平均値を組合せ重要度として使用する。
たとえば,形態素組合せ「スーパー/フニット」の場合には,「スーパー」の形態素重要度が0.8,「フニット」の形態素重要度が1.4である。よって,加算した後,形態素数2で割ることにより,1.1と計算される。
ステップ825の動作において,生成されたそれぞれの形態素組合せと,言語モデル記憶部に保存されている単語との類似度を計算する。ここでは,「〜ニイク」など認識語彙生成部で付加した語を取り除いた状態において,完全一致していれば類似度1,完全一致していなければ類似度0として算出する。なお,この方法でなくとも,単語の音素間距離などを用いて連続的な値を用いてもよい。音素間距離は,音素記号の編集距離やBhattacharyya距離などの公知の方法により計算できる。
この結果を受けて,類似度が高い場合には,組合せ重要度を低くする方向に再計算する。ここでは,例として,類似度が1であるものは,組合せ重要度を0にする。これにより,形態素組合せ「スーパー/フニット」に対する組合せ重要度は0となる(図9Aの表900中における940の操作)
ステップ830の動作において,認識語彙作成部190は,組合せ重要度920が高かった上位数個の形態素組合せ910を,追加認識語彙の候補とみなす。そして,出力部180に出力する。ここでは,上位3個を出力する。
これを受け,出力部では,画面表示を更新する。表示を更新した表示画面400を図9Bに示す。この画面では,ユーザに対して,候補となる追加認識語彙のうち,どれを使用するかを尋ねることを目的とする。
追加認識語彙候補表示エリア1020には,認識語彙作成部190より出力された追加認識語彙の候補を表示する。なお,ユーザにとって視認性が良いように,追加認識語彙の元となった漢字仮名混じりにより表示する。
ユーザは,このなかから「フニット府中」を選択した場合を説明する。
ステップ840の条件式により,ユーザは音声認識語彙を選択したため,処理はステップ850に移る。
ステップ850では,選択した「フニット府中」を,名称データベース170の「スーパーフニット府中店」の追加認識語彙250に登録する。このとき,第1の実施形態と同様に「〜ニイク」を付与した形態で追加することとし,「フニットフチュウニイク」を追加する。この処理を図2Aの名称データベース170に270として示す。
ステップ860では,言語モデル記憶部150に単語「フニットフチュウニイク」を追加する。
一方,処理をステップ830での音声認識語彙の表示に立ち戻って説明を追加する。ユーザ状況では,候補として表示された音声認識語彙のいずれも使用したくない場合もある。その場合に対応するため,図9Bの画面400において,設定拒否ボタン1030を設ける。
この設定拒否ボタン1030をユーザが押下した場合には,ステップ840の条件式により,ユーザは音声認識語彙を選択しなかったため,処理は終了する。これにより,いずれの音声認識語彙も採用されることがなくなる。
また,追加認識語彙を生成する際に,形態素の重要度に基づいた組合せを生成することにより,よりユーザにとって使いやすい音声認識語彙を提供することができる。
また,形態素の重要度に対して,ユーザが入力した文字列に対応する形態素の重要度を増す動作を行うことにより,ユーザが入力した形態素を含む追加認識語彙を表示されやすくすることができる。
また,本実施例で示したように,既存の言語モデルにある語彙を候補からあらかじめはずすことにより,特定の似ている語彙で複数の施設が指定されることを防ぐことができる。
本実施形態では,既存の語彙と完全一致している場合に,その語彙を追加認識語彙の候補からはずす例で説明した。しかし,以下のような実装も可能である。
まず,完全一致ではないが,きわめて似ている語彙が追加認識語彙に現れる場合がある。たとえば,「ふにつる旅館」にすでに追加認識語彙「フニツルニイク」が存在する状態で,「スーパーフニット府中店」のための追加認識語彙として「フニットニイク」が候補として現れる場合がある。この「フニツル」と「フニット」という語彙は,音素が似ている。そのため,互いに誤認識しやすい対と考えられることができる。このような場合においては,ステップ825の語彙の類似度計算において,音素間距離による方法によって類似度を連続値として算出し,類似度が閾値以上となった場合に,その組合せの重要度を下げ,候補としてはずす作用を実現できる。これをとることにより,追加認識語彙「フニット」を候補からはずすことができる。これにより,あらかじめ類似度が高い語彙を追加認識語彙からはずすことで,認識誤りの発生を抑えることができる。
また,本実施例では,既存の言語モデルにある語彙のうち,すでに追加されている追加認識語彙と比較し,その結果,似ている語彙があった場合に候補からはずす処理で説明した。しかし,既存の語彙は,追加認識語彙ではない場合も含まれる。たとえば,カーナビゲーションにて最初から認識可能な施設の正式名や,カーナビゲーションの音声コマンドと比較し,それらと候補となる追加認識語彙が似ている場合に,候補からはずすこともある。
また,類似度が高い場合には,それを候補からはずす操作を行わなくとも,そのまま画面に候補を提示し,その使い方をユーザに聞いてもよい。
第1に,ユーザにその語彙を追加するかを聞く方法をとることができる。前述の例のように,「ふにつる旅館」にすでに追加認識語彙「フニツルニイク」が存在する状態で,「スーパーフニット府中店」のための追加認識語彙として「フニットニイク」が候補として現れる場合を考える。このとき,音声ガイダンスにより,「『フニットニイク』は,『フニツルニイク』と似ています。『フニットニイク』を音声コマンドに追加しますか?」とユーザに尋ね,ユーザが追加すると判断した場合にのみ,追加してもよい。
第2に,類似度が高い場合には,既存の追加認識語彙と同じ語彙で,新しい施設を指定するように変更するか,または複数の施設を指定するようにするかを尋ねてもよい。たとえば,名称データベースにおいて,すでに施設「スーパーフニット国分寺店」に追加認識語彙「スーパーフニット(ニイク)」が存在し(図2Aの282),その状態からさらにユーザが,施設「スーパーフニット府中店」に対しても,語彙として「スーパーフニット」を追加する場合がある。この場合,ユーザに,音声ガイダンスにて,「スーパーフニットはすでに『スーパーフニット国分寺店』で使われています。『スーパーフニット府中店』を指定するように変更しますか。それとも,両方の施設を指定できるようにしますか」と問う。これにより,ユーザの選択に応じて,「スーパーフニット国分寺店」の追加認識語彙を削除し「スーパーフニット府中店」に「スーパーフニットニイク」を登録すること,または,「スーパーフニット国分寺店」の追加認識語彙を残したまま「スーパーフニット府中店」にも「スーパーフニットニイク」を登録すること,の動作を選ぶことができる。
また,候補として現れた追加認識語彙が,他の施設の追加認識語彙としても使われる可能性がある場合がある。たとえば,図9Aの910にある形態素組合せのうち,「フニット」は,ユーザが設定した「スーパーフニット府中店」だけでなく,「スーパーフニット国分寺店」にも含まれる形態素である。よって,形態素組合せ「フニット」は他の施設の音声認識語彙としてもふさわしい。
よって,このような他の施設にも含まれる形態素組合せに対しては,重要度を下げる操作を行う。これにより,ユーザには,ユーザが指定した施設をより特徴づける追加認識語彙を候補として提示することができ,使い勝手を向上することができる。
一方で,施設の形態素に重要度を付与することにより,その施設名の特徴を表す度合いが極めて強い形態素には特別の配慮をすることができる。たとえば,ユーザは遊園地を選ぶために「ランド」とタッチパネルで入力し,得られた候補のなかから,結果として,「東西/でんでん/ランド」(「/」は形態素区切り)という施設名を選定したとする。この場合,第1の実施形態では,「ランド」を追加認識語彙として生成していた。しかし,「ランド」という語彙は遊園地の多くに含まれるため,「東西」「でんでん」といった他の形態素を追加認識語彙として使用したほうが,ユーザにとって分かりやすいと考えられる。その場合に,本実施形態では,「東西」「でんでん」に対して高い重要度を割り振ることを行えば,仮にユーザが入力した文字列にこれらの形態素が含まれなくとも,「東西」「でんでん」といった語彙を追加認識語彙の候補としてユーザに示すことができる。
また,本実施例では,形態素のすべての組合せを候補として考えた。しかし,この方法では,「フニット/テン」といった不自然な語彙も生成されている。これを解消するためには,形態素組合せを生成する際に,「語尾は,その直前の単語が存在しない場合には,存在を消す」といった,品詞に基づいたルールを設けて,生成を抑止してもよい。
また,形態素の組合せを考える場合,その品詞の内訳により,重要度を左右することもできる。ここでは,図2Aの名称データベースにおいて,ユーザが「マコマ」と入力し,施設「札幌真駒内ビーチ」を選択したとする。
この施設の各形態素の重要度は,図7Bの表700のように定義されていたとする。さらに,ステップ810の処理により,ユーザが入力した形態素は「マコマナイ」と特定される。750のとおり,形態素「マコマナイ」の形態素重要度に0.5を加算する。
これにより,異なる品詞の組合せをユーザに優先して提示することにより,ユーザにとって分かりやすい音声認識語彙を提供することができる。
また,形態素の組合せを考える場合,名称のなかの形態素に,その他の名称データベースに含まれる情報との組合せをとっても良い。
ここでも,図2Aの名称データベース170において,ユーザが「マコマ」と入力し,施設「札幌真駒内ビーチ」を選択した場合において説明する。
この実施例は,図8の処理手順において,処理ステップ820を,図10Aの処理ステップ1910に代替することにより実現する。図8のステップ820では,名称に含まれる形態素の組合せを生成していたのに対し,図10Aのステップ1910では,名称に含まれる形態素と,他の名称データベースに含まれる情報との組合せを生成し,それぞれの新たな形態素組合せとみなし,組合せ重要度を計算する。
なお,本実施例では,名称データベースの名称以外の情報で補完した場合には,その元となった形態素組合せ1920はユーザに提示しない説明を行ったが,もとの形態素組合せ1920と組合せ重要度1960の両方の内訳すべてをユーザへ提示してもよい。また,本実施例では,形態素の品詞の内訳により,他の情報から追加する方法を変更することを説明したが,他の変更方法でもよく,また変更しなくてもよい。
また,本実施例では,形態素重要度を最初から名称データベースに付与されている想定を行った。重要度を決定するためには,開発者により決定する方法や,ユーザ調査に基づく方法が考えられる。一方,文書検索で使用されるtf・idfといった単語の出現回数に基づく算出方法により,重要度を推定してもよい。
また,生成された語彙は音声認識のために使用される。そのため,音声認識での認識誤りの起きやすさを考慮し,認識誤りの原因となりやすい短い語彙,似ている音素列がすでに存在する語彙などは,重要度を低くするということを行ってもよい。
まず,この実施形態の情報検索装置100の構成例を図11に示す。この実施形態では,第1の実施形態に加えて,認識語彙作成部190が作成した追加認識語彙が,どのような種類であるかを判定する語彙種別判定部1110を設けることを特徴とする。認識語彙作成部190は,語彙種別判定部110で判定された追加認識語彙の種別に基づいて,名称データベース170に認識語彙作成部190が作成した追加認識語彙を登録する動作の方法を変更し,認識語彙作成部190が作成した追加認識語彙を言語モデル記憶部150に追加する方法を変更する。さらに,認識語彙作成部190は,語彙種別判定部1110の判定結果にしたがい,名称データベース170,言語モデル記憶部150に対する追加認識語彙の追加方法を変更する。名称データベース170,言語モデル記憶部150,辞書300等の構成は,第1の実施形態で説明したID番号を用いない方式とするが,第1の実施形態の変形例で説明したID番号を用いる方式で実現しても良い。
例として,第1の実施形態と同様,ユーザは「フニツ」と入力し,施設名候補の中から,「スーパーフニット府中店」を選択したとする。ここまで動作は,第1の実施例と同一であるため,省略する。
図12に,認識語彙作成部190と語彙種別判定部1110の処理の流れを示す。
ステップ1210では,ユーザが入力した文字列「フニツ」と,決定した施設名「スーパーフニット府中店」の読みとの形態素単位での比較を行う。
その結果,ユーザ入力文字列「フニツ」は,読み「スーパー/フニット/フチュウ/テン」のなかの形態素「フニット」の一部分であることが分かる。
ステップ1220では,ユーザ入力文字列を形態素に基づき編集する。ここでは,ユーザが入力した文字列「フニツ」を,該当する形態素まで延長し,「フニット」に編集する。これを追加認識語彙として使用する。
この判定の方法として,たとえば,図13Aに示すような語彙判定テーブル1300を参照し,追加認識語彙がテーブルに存在するか否かを判定する。語彙判定テーブルには,サブジャンルに固有に付与された番号であるサブジャンルID番号1305と,サブジャンル1310と,各サブジャンルに対応する語彙1320を保存する。ここでは,施設ジャンル語彙1320には,施設のある特定のサブジャンルを示す語彙を登録する。具体的には,チェーン店名や,支店を多く持つ企業の名称などである。また,このサブジャンルは,名称データベース170に記憶されている属性であるサブジャンル235と対応するものとする。たとえば,サブジャンル「スーパーフニット」は,全国に複数の店舗を持つスーパーマーケットのチェーンであり,その呼称として,「フニット」「スーパーフニット」という語彙が広く人に知れ渡っているとする。そのため,語彙1320には,これらの語彙が登録されている。
処理ステップ1230における,図13Aに示した語彙判定テーブルを使用した判定の方法を説明する。まず,決定した施設名「スーパーフニット府中店」のサブジャンル235は,名称データベース170を参照することにより,「スーパーフニット」であることが分かる。そこで,語彙判定テーブルから,サブジャンル1310が「スーパーフニット」となるレコードを検索する。この結果,対応する語彙1320は,「スーパーフニット」,「フニット」の2つであることが分かる。
ステップ1240では,ステップ1230の判定結果により,分岐を行う。追加認識語彙が通常の施設名であった場合には,ステップ1250へ移る。一方,追加認識語彙が施設ジャンルであった場合には,ステップ1245に移る。すなわち,追加認識語彙の種別によって,名称データベース,言語モデルへの追加方法を変更することを,この分岐によって実現する。
ここでは,ステップ1230での判定結果は施設ジャンルであったため,ステップ1245に移って説明する。
ステップ1245からステップ1285までの処理は,追加認識語彙が何らかの施設のジャンルを表す語彙であったため,施設ジャンルを指定する音声認識語彙としてユーザにとって使いやすい方法で登録を行う。ここでは,施設ジャンルの検索の際によく使われる周辺施設検索として使用できるようにする。
ステップ1245では,追加認識語彙を編集する。ここでは,通常の施設検索に使用するように,「ニイク」を語尾に追加し,「フニットニイク」にする。
ステップ1275では,ステップ1245とは異なる方法で追加認識語彙を編集する。ここでは,周辺施設検索で使われるように,「近くの」を先頭に付属させ,「チカクノフニット」にする。
ステップ1276では,作られた追加認識語彙のうちいずれを使うかをユーザに問い合わせる。問合せの方法としては,たとえば,以下のような音声応答を出力部から再生する。
「音声コマンドの設定を行います。
『フニットニイク』で『スーパーフニット府中店』を目的地に設定する場合には1を,
『チカクノフニット』で,周辺のスーパーフニットを検索する場合には2を,
いずれも行わない場合には3を押してください。」
ステップ1277では,ステップ1276のユーザへの問合せに対するユーザの返答を受つけ,その動作に応じて,処理の分岐を行う。ここでは,ステップ1276の問い合わせに対する返答をタッチパネルのボタン押しにより受け付けるものとする。
ユーザが1を押した場合には,語彙Aが選ばれたため,処理ステップ1260へ分岐する。
ユーザが2を押した場合には,語彙Bが選ばれたため,処理ステップ1280へ分岐する。
ユーザが3を押した場合には,いずれの語彙も選ばなかったため,処理を終了する。
ステップ1280では,語彙Bが選ばれた場合の処理を行う。ここでは,ユーザが選定した「スーパーフニット府中店」と同一のチェーンである施設をサブジャンル235から判定し,すべての同一チェーンの施設に対して追加認識語彙属性に「チカクノフニット」を追加する。その結果,図2Aの280で示すように,「スーパーフニット府中店」,「スーパーフニット国分寺店」の2つについて追加認識語彙「チカクノフニット」が追加される。また,これと合わせて,追加認識語彙「チカクノフニット」は周辺施設検索のための語彙であるフラグを合わせて登録してもよい。
ステップ1285では,追加認識語彙「チカクノフニット」が音声認識可能となるように,言語モデル記憶部に記憶する(図3Aの350,図3Bの355)。また,これと合わせて,「チカクノフニット」が追加認識語彙であり,かつ周辺施設検索のための語彙であるフラグを合わせて登録して管理してもよい。
これらステップ1280,ステップ1285の動作の後,ユーザが「近くのフニット」と音声入力した場合の動作を説明する。ユーザの音声は,音声入力部120でデジタル信号に変換された後,音声認識部130にて文字列に変換され,「チカクノフニット」が出力されたとする。この結果は,検索部160に入力される。
つぎに,処理ステップ1276において,ユーザが1を押下し,語彙Aが選ばれた場合について説明する。この場合,処理はステップ1260へ移る。
ステップ1260,ステップ1270の処理は,追加認識語彙が通常の施設名のであった場合の処理である。この処理の方法は,第1の実施形態とほとんど同一である。
ステップ1260では,作成した追加認識語彙を名称データベースに付与する。ここでは,第1の実施形態と同様,ユーザが選定した「スーパーフニット府中店」の追加認識語彙属性に語彙Aの「フニットニイク」を付与する。その結果,260に示すように付加される。
ステップ1270では,追加認識語彙「フニットニイク」が認識可能となるように,言語モデル記憶部に記憶する。また,これと合わせて,「フニットニイク」が追加認識語彙であり,かつ通常の施設指定のための語彙であるフラグを合わせて登録して管理してもよい。
これらの動作の後,ユーザが「フニットに行く」と音声入力した場合の動作を説明する。ユーザの音声は,音声入力部120でデジタル信号に変換された後,音声認識部130にて文字列に変換され,文字列「フニットニイク」が出力されたとする。この結果は,検索部160に入力される。
その後,出力部からは,「スーパーフニット府中店に目的地を設定します」という音声応答を出し,かつ地図表示,経路探索といったカーナビゲーションの所定の動作を行う。
本実施形態の別の動作を説明する。ここでは,ユーザがタッチパネル400から「フニツトフ」と入力し,施設名候補の中から,「スーパーフニット府中店」を選択したとする。ここまで動作は,第1の実施例と同一であるため,説明を省略する。
ステップ1210では,ユーザが入力した文字列「フニツトフ」と,決定した施設名「スーパーフニット府中店」との形態素単位での比較を行う。
その結果,ユーザ入力文字列「フニツトフ」は,「スーパー/フニット/フチュウ/テン」のなかで,「フニット」と「フチュウ」に内包されることが分かる。
ステップ1220では,ユーザ入力文字列を形態素に基づき編集する。ここでは,ユーザが入力した文字列「フニツトフ」を,該当する形態素まで延長し,「フニットフチュウ」に編集する。これを追加認識語彙として使用する。
ステップ1230では,ステップ1220で作られた追加認識語彙が,どのような種別であるかを判定する。ここでは,音声認識語彙が,通常の施設名であるか,施設のジャンルを表す語彙であるかを判定する。
この判定では,すでに説明したように,図13Aに示す語彙判定テーブルを使用して判定を行う。具体的には,まず,決定した施設「スーパーフニット府中店」のサブジャンル235が「スーパーフニット」であることから,サブジャンル1310から「スーパーフニット」を探す。つぎに,作成された追加認識語彙を,「スーパーフニット」に対応する語彙1320にいずれかと一致するかを調べる。その結果,「フニットフチュウ」は語彙1320のいずれとも一致しない。よって,追加認識語彙は通常の施設名の一部であると判定される。
ステップ1250からステップ1270までの処理は,音声認識語彙が通常の施設名のであった場合の処理である。この処理の方法は,第1の実施形態とほとんど同一であるが,ここでは,ユーザがその語彙を使用するか否かを選択する処理を加えている。
ステップ1250では,追加認識語彙を編集する。ここでは,通常の施設検索に使用するように,「ニイク」を語尾に追加し,「フニットフチュウニイク」にする。また,説明のため,この語彙を語彙Aと呼ぶ。
ステップ1252では,作られた追加認識語彙を使うか否かをユーザに問い合わせる。問合せの方法としては,たとえば,以下のような音声応答を出力部から再生する。
「音声コマンドの設定を行います。『フニットフチュウニイク』で『スーパーフニット府中店』を目的地に設定するようにしますか? 設定する場合は1を,設定しない場合は2を押してください。」
ステップ1254では,ステップ1252のユーザへの問合せに対するユーザの返答を受けつけ,その動作に応じて,処理の分岐を行う。ここでは,ステップ1252の問い合わせに対する返答をタッチパネルのボタン押しにより受け付けるものとする。
ユーザが1を押した場合には,語彙Aが選ばれたため,処理ステップ1260へ分岐する。
ユーザが2を押した場合には,語彙が選ばれなかったため,処理を終了する。ステップ1260,ステップ1270では,作成した追加認識語彙(語彙A)を名称データベースの追加認識語彙属性250に追加する。この方法はすでに説明したため,詳細な説明は省略する。
結果として,ユーザが「フニット府中に行く」と音声入力すると,検索部160は「スーパーフニット府中店」を候補として出力し,地図表示,経路探索といったカーナビゲーションの所定の動作を行う。
以上,本実施形態により,ユーザが入力した語彙の性質により,追加認識語彙の使用方法を変更できる。これにより,ユーザの使い勝手を向上することができる。
また,本実施形態では,図13Aのようなテーブルを参照して,語彙が存在するか否かにより判定した。しかし,別の自動で算出できる情報を用いてもよい。たとえば,形態素の各施設名に含まれる頻度にもとづく方法などにより,語彙の種別を判定してもよい。
また,ユーザに追加認識語彙の使い方を確認する処理を設けることにより,よりユーザの希望にかなった音声認識機能を提供することができる。
また,ユーザがタッチパネルから入力した文字列と形態素を比較した結果,ユーザ入力文字列がどの品詞であったかを判定し,それにより動作を変えても良い。たとえば,ユーザが「フチユ」と入力し,その結果,形態素が「フチュウ」であり,その品詞が地名であったものを選定したとする。これにより,ユーザにとって「フチュウ」という語彙は地名として馴染み深いことが推測される。この結果を使い,たとえば,カーナビゲーションの住所検索において,「フチュウ」という語彙に認識できるようにする,または,他の語彙とくらべて認識のされやすさを上げるといった動作を行っても良い。
なお,本実施例では,検索方法として,音声認識結果として得られる文字列を検索キーとして,名称データベースの読み,追加認識語彙を検索することを前提として説明した。この検索方法としては,実施例1に説明したときと同様,全件検索による方法,インディクスを用いた方法が適用できる。
また,実施例1と同様,言語モデル記憶部の辞書300にあらかじめ対応する施設のID番号を追加しておき,このID番号を参照して該当する施設を候補として生成する方法も適用可能である。しかし,チェーン店名を検索する場合においては,1つの認識結果に対して複数の施設が対応することがあるため,言語モデルへのID番号の記憶方法を実施例1と変更する必要がある。ここでは,その方法について説明する。
1つめに挙げられる方法は,言語モデル記憶部に追加認識語彙を登録する際に,対応ID番号330に複数のID番号を登録する方法がある。具体的には,実施例で説明したように語彙「チカクノフニット」によって,サブジャンル「スーパーフニット」に該当する施設を検索させる場合には,言語モデル記憶部の辞書300において,図3Aの単語「チカクノフニット」の対応ID番号330として,「0200,0201」と複数登録すればよい。しかし,この方法では,図2Aに示した名称データベースのように,サブジャンル「スーパーフニット」に属する施設が2件と少ない場合には適用できるが,もし数百件のように多数存在する場合には,言語モデル記憶部に保存するID番号が多くなってしまう問題がある。
また,本実施例では,ユーザが入力した文字列の長さを加工して,追加認識語彙として使用することを説明した。しかし,追加認識語彙として使用する語彙は,ユーザが入力した語彙と文字列単位で一致していなくとも,意味的に関連が深い言い換え語であってもよい。たとえば,「スーパーフニット府中店」に使われるサブジャンルの語「フニット」は,世間の人々にとってまったく別の呼称で呼ばれている場合もある。この別の呼称を言い換え語と表す。そのような場合には,追加認識語彙として,「フニット」を名称データベース,言語モデルに追加するだけでなく,言い換え語も合わせて,名称データベース,言語モデルに追加すれば,ユーザが言い換え語で発話した場合にもその施設を候補として生成することができる。
本実施形態では,名称データベース170において,ユーザが検索可能である属性が複数ある場合について説明する。また,検索時に複数のクエリを入力した場合についても説明をする。
この実施形態では,ナビゲーションシステムの楽曲再生機能を想定し,そのための楽曲検索を行う使用方法にて説明を行うが、用途としては、ナビゲーションシステムとは独立したオーディオシステムにおいて、楽曲検索、再生を行うものであっても良い。
これらの楽曲を選ぶ際に,音声認識を利用することが可能である。しかし,楽曲にはたくさんの情報があり,これをすべて音声認識語彙として使用すると,認識率の低下や処理時間の増加につながる可能性がある。そこで,前提として,楽曲検索のときの言語モデル150には,名称データベースのなかでもアルバム名1420に含まれる語彙だけを格納するものとし,ユーザの音声入力としては,アルバム名による指定だけを許容するものとする。図17に,言語モデル150に登録されている辞書300の内訳を示す。単語ラベル1710と音素列1720は,アルバム名についてのみ用意する。また,アルバム名の正式名のほか,よく発話される部分文字列(例.「タナバタ」)も登録する。これにより,たとえばユーザが「タナバタ」とだけ発話した場合でも,アルバム「七夕コンサート」を選ぶことができる。また,各単語には,対応ID番号1730を付与しておく。このIDとしては,図14の名称データベースで楽曲に付与されているID番号を格納しておく。一般に1つのアルバムには複数の曲が収録されていることから,記憶する対応ID番号も複数となる。しかし,アルバムごとに固有のID番号を付与しておき,アルバムに付与されたID番号を記憶する方式でもよい。
また,文法は省略するが,図3Bの連結規則360と同様の形態で,図17の辞書300のそれぞれの単語の,単独での発話が受理できる有限状態文法を用いることとする。
たとえば,ユーザがタッチパネルにより「ニコラ」と入力したとする。
この文字列は,検索部160に送られる。検索部160では,名称データベース170のうち,アーティスト名1410,アルバム名1420,楽曲名1430,作曲者名1440,説明1450,追加認識語彙1460のなかで検索を行う。この結果,いずれかの属性の値に「ニコラ」を含む楽曲である3曲が候補として生成される。
ステップ1610では,ユーザが入力した文字列「ニコラ」と,決定した楽曲にてユーザ入力していた文字列を含んでいた属性の値との形態素単位で比較を行う。ここでは,ユーザは「ニコラ」と入力し,その結果,楽曲名とユーザ入力が一致した楽曲「ニコラスの手紙」を選んだ。よって,この両者を形態素単位で比較を行う。その結果,ユーザ入力文字列「ニコラ」は,読み「ニコラス/ノ/テガミ」のなかの形態素「ニコラス」の一部分であることが分かる。
ステップ1615では,ユーザ入力文字列を形態素に基づき編集する。ここでは,ユーザが入力した文字列「ニコラ」を,該当する形態素まで延長し,「ニコラス」に編集する。これを追加認識語彙とする。
ステップ1620では,ステップ1615で作られた追加認識語彙の判定を行う。ここでは判定方法として,追加認識語彙が含まれていた属性を利用して,その属性を判定結果とする。よって,判定結果は,楽曲名となる。
ステップ1635では,追加認識語彙を編集する。ここでは,楽曲名を選択することに適するように,「ヲキク」を最後に追加し,「ニコラスヲキク」とする。なお,この追加方法は,他の方法でもよい。たとえば,楽曲名の先頭に「ニコラス」がつく場合には,「ニコラスナントカヲキク」とし,楽曲名の末尾に「ニコラス」がつく場合には,「ナントカニコラスヲキク」というように,追加認識語彙がレコードの値の文字列のなかでどの位置に現れたかを使用してもよい。
ステップ1640では,名称データベースのうち,ユーザが選択した「ニコラスの手紙」の追加認識語彙属性1460に「ニコラスヲキク」を追加する。この追加の方法を,名称データベース170の1470に示す。
ステップ1645では,追加認識語彙「ニコラスヲキク」が認識可能となるように,言語モデル記憶部に記憶する。辞書300における追加の様子を図17の1740に示す。また,対応ID番号1730には,対応する楽曲「ニコラスの手紙」の名称データベースでのID番号を記録する。文法での追加については,図3Bでの連結規則の追加と同様であり,既存の文法パスに並列に登録する。
また,検索部160が楽曲を選択する方法としては,追加認識単語「ニコラスヲキク」に付与された対応ID番号「0004」を参照し,名称データベースにおいてID番号が一致する楽曲「ニコラスの手紙」を選択する方法でもよい。
その後,この結果は出力部に送られ,カーナビゲーションのオーディオの再生といった動作を行う。
この場合,ステップ1610,ステップ1615では,さきほどと同じ動作を行い,追加認識語彙「ニコラス」を抽出する。
ステップ1630では,ステップ1620の判定結果にしたがい,分岐を行う。判定結果はアーティスト名であったので,ステップ1650へと移る。
ステップ1650では,追加認識語彙を編集する。ここでは,アーティストの選択に適するように,「ノキョクヲキク」を最後に追加し,「ニコラスノキョクヲキク」とする。 ステップ1655では,名称データベース170のうち,アーティスト名が「ニコラス」である曲のすべてに対して,追加認識語彙属性1460に,追加認識語彙「ニコラスノキョクヲキク」を追加する。この追加の方法を,名称データベース170の1480に示す。
ステップ1660では,追加認識語彙「ニコラスノキョクヲキク」が認識可能となるように,言語モデル記憶部に記憶する。辞書300に追加される様子を図17の1750に示す。このとき,対応ID番号1730には,アーティストが「ニコラス」である曲の名称データベースにおけるID番号を記録する。
また,検索部160が楽曲を選択する方法としては,音声認識結果「ニコラスノキョクヲキク」に付与された対応ID番号「0001,0002」を参照し,名称データベース170においてID番号が一致する2つの楽曲を選択する方法でもよい。
その後,この結果は出力部に送られる。そして,ユーザ選択,楽曲の再生といった動作を行う。
たとえば,ユーザが作曲者名の一部「ヒタ」と入力し,最終的に作曲者名「日立太郎」のいずれかの曲を選んだ場合について説明する。
この場合,ステップ1610,ステップ1615では,さきほどと同じ動作を行い,追加認識語彙「ヒタチ」を抽出する。
ステップ1630では,ステップ1620の判定結果にしたがって分岐し,作曲者名の処理であるステップ1661へ移る。
ステップ1661では,追加認識語彙を編集する。ここでは,作曲者名での検索に適するように,「サッキョクノキョクヲキク」を最後に追加し,「ヒタチサッキョクノキョクヲキク」とする。
ステップ1662では,名称データベースのうち,作曲者名が「日立太郎」である曲のすべてに対して,名称データベース170の追加認識語彙1460に,作成された語彙「ヒタチサッキョクノキョクヲキク」を追加する(図示省略)。
ステップ1663では,追加識語彙「ヒタチサッキョクノキョクヲキク」が認識可能となるように,言語モデル記憶部に記憶する。このとき,対応ID番号1730には,作曲者名が「日立太郎」である曲の名称データベースにおけるID番号を記録する。
ステップ1670では,作成された追加認識語彙と,追加認識語彙を含んでいた属性と,追加認識語彙を含んでいた値との対応を,追加認識語彙記憶部に保存する。この処理においては,図18のテーブル2000に2050で示すとおり,属性2010が「作曲者名」に対応する追加認識語彙2020に,ステップ1615で作成された追加認識語彙「ヒタチ」と値である「日立太郎」の組を追加する。
以上の実施により,ユーザが検索のために入力した文字列が実際にはどのような属性の情報であったかを考慮しつつ音声認識語彙を作成できるため,ユーザの知識にマッチした,使いやすい音声認識語彙を提供することができる。
つぎに,ユーザが使った履歴のなかで蓄積された追加音声認識語彙を組み合わせることで,より詳細な検索を行う方法について説明する。
すなわち,
(1) ユーザがタッチパネルより「ニコラ」と入力し,楽曲名が「ニコラスの手紙」である曲を選択。
(2) ユーザがタッチパネルより「ニコラ」を入力し,アーティスト名が「ニコラス」であるいずれかの曲を選択。
(3) ユーザがタッチパネルより「ヒタ」と入力し,作曲者名が「日立太郎」であるいずれかの曲を選択。
という(1)〜(3)を連続して行った場合を想定する。
ステップ2110では,追加認識語彙記憶部に記憶されている追加認識語彙の組合せを作成する。この組合せを作る際のルールとしてはさまざまなものを採用することができるが,ここでは,以下の基準でとることとする。
・属性が異なる追加認識語彙を組み合わせる。
・楽曲名属性は組合せの生成からのぞく。
ステップ2120では,ステップ2115の処理を経て残った組合せの数が1個以上あるかを判定する。この場合には,1個あるため,ステップ2130へ移る。もし,0個である場合には,処理を終了する。
(1) (作曲者名)サッキョクノ(アーティスト名)ノキョクヲキク
(2) (アーティスト名)ノ(楽曲ジャンル名)ヲキク
このテンプレートのいずれかに,組合せを構成する追加認識語彙を当てはめることで,組合せ認識語彙を作成する。ここでの組合せにある属性は,アーティスト名と作曲者名である。よって,(1)のテンプレートを使い,(作曲者名),(アーティスト名)のそれぞれに,先に作成されている追加認識語彙(それぞれ「ヒタチ」,「ニコラス」)を入れて,以下の組合せ認識語彙を作る。
「ヒタチサッキョクノニコラスノキョクヲキク」
ステップ2140では,ステップ2130で作られた組合せ認識語彙を,対応する名称データベースのレコードの追加認識語彙属性に追加する。具体的には,ID番号「0002」の曲に対応するため,図14の名称データベースに示す1490のように追加を行う。この説明では,検索対象の楽曲が1個だけの場合で説明しているが,複数存在する場合には,それぞれの楽曲に対して追加を行う。
以上の実施により,ユーザが複数の条件で検索したい場合においても,ユーザの自然な言い回しによって検索を行うことが可能となる。
なお,第4の実施形態の処理ステップ1620での判定においては,上記ではユーザの入力文字列を含む1つの属性を判定結果としたが,これを複数の属性を用いてもよい。
たとえば,ユーザが文字列「ニコラ」と入力し,ユーザが候補から楽曲「ニコラスの手紙」を選択した場面を考える。この場合,上記の実施例では,楽曲「ニコラスの手紙」に対して追加認識語彙「ニコラスヲキク」を追加するという処理を行った。
しかし, ステップ1615で得られた音声認識語彙「ニコラス」は,楽曲名にも含まれるほか,アーティスト名にも多く含まれている。よって,「ニコラス」という語彙は楽曲名,アーティスト名に限らず,ユーザにとって分かりやすい語彙であると考えられる。または,選んだ楽曲が,楽曲名にも「ニコラス」を含み,かつアーティスト名も「ニコラス」であるといったように,入力文字列が1つのレコードの複数の属性に一致する場合もある。
このことを考慮した処理を説明する。まず,楽曲名属性に対する通常の処理ステップ1635, 1640, 1645を終えた後に,アーティスト属性に対する処理ステップ1650, 1655, 1660を行う。このうち,ステップ1655の処理は,図16に記載の方法から変更する。すなわち,名称データベースのすべての楽曲からアーティスト名が「ニコラス」である楽曲を探し出し,それぞれの楽曲の追加認識語彙属性に「ニコラスノキョクヲキク」を付与する。
これにより,ユーザが「ニコラスを聞く」と発話すれば楽曲「ニコラスの手紙」を検索でき,また「ニコラスの曲を聞く」と発話すればアーティスト名が「ニコラス」である曲を検索できる。
また,本実施例では,最初にユーザがタッチパネルなどから入力するクエリは,1つである仮定で説明を行った。しかし,文字列入力においても複数のクエリを入力することでも実施ができる。たとえば,ユーザが「ベートー」と「ゲツ」という2つの文字列を入力し,両方の文字列を持つ楽曲を検索したとする(アンド検索)。この結果,作曲者が「ベートーベン」,楽曲名が「月光」である楽曲を選択したとする。このとき,「ベートーベン」を作曲者の選択するための音声認識語彙として使用し,「月光」を曲名の選択のための音声認識語彙として使用するという方法も可能となる。
また,本実施例は,単一の端末による実施を示した。しかし,これらが別の端末による実装でも良い。具体的には,楽曲名検索において,たとえば,パソコン上においてキーボードで入力し,楽曲を検索する使用方法が知られている。ここで検索のために入力した文字列と,最終的に選択された楽曲との対応を記録する。また,各楽曲のための追加認識語彙を,本明細書の実施形態にしたがって作成する。
この実施形態は,キーボード入力が容易なパソコンではキーボード入力を行い,タッチパネルなどが小さくなってしまう組み込み機器においては音声で入力するという使い分けに寄与するものであり,使い勝手を向上する。
また,本明細書での各実施形態を組み合わせて使用してもよい。
Claims (19)
- 検索対象となる1つ以上の属性と、それぞれの前記属性に対する内容である値とを関連付けて保存するレコードを単位として、1つ以上の前記レコードを登録すると共に、入力文字列と対応する前記レコードを特定する情報の関係を記録したインディクスを有する名称データベースと、
ユーザの検索クエリとなる操作入力を受け付ける操作入力部と、
前記ユーザの検索クエリとなる音声入力を受け付ける音声入力部と、
前記音声入力部から得られた音声を文字列に認識する音声認識部と、
前記音声認識部において参照する音響データを格納する音響モデル記憶部と、
前記音声認識部において認識する語彙と該語彙の連結規則を言語モデルとして記憶する言語モデル記憶部と、
前記操作入力部または前記音声認識部から入力された前記検索クエリの入力文字列を用いて、前記名称データベースに含まれる前記属性の前記値を検索し、前記入力文字列をキーとして前記インディクスを参照して部分一致または完全一致する検索結果を取得し、遂次、該値に前記入力文字列が含まれる前記レコードを候補として生成する検索部と、
前記検索部で生成された前記レコードの候補を検索結果として出力する出力部と、
出力された前記レコードの候補に対する前記ユーザの選択の結果を受けて、前記1つのレコードを選択する選択手段と、
前記選択手段による前記レコードの選択結果を受けて、前記言語モデルに追加すべき音声認識語彙である新たな追加認識語彙を作成する認識語彙作成部と
を備え、
前記認識語彙作成部は、
前記入力文字列に対応する前記追加認識語彙と前記ユーザの選択の結果に基づく前記1つのレコードとの対応関係を、前記名称データベース若しくは前記言語モデルに記録することを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記認識語彙作成部は、前記選択手段により選択された前記名称データベースの前記1つのレコードにおいて、前記属性の1つとして前記追加認識語彙を登録し、
前記追加認識語彙を前記言語モデル記憶部に追加する
ことを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記認識語彙作成部が作成する前記追加認識語彙は、前記操作入力部から入力された前記文字列である
ことを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記言語モデル記憶部に記憶されている語彙のそれぞれには、対応する前記名称データベースの前記レコードを示す識別子が合わせて記憶されており、
前記音声認識部は、
前記認識された語彙に合わせて、該認識された語彙に対応する識別子を出力し、
前記検索部は、
前記音声認識部が出力した語彙に付与された前記識別子を参照し、前記名称データベースの同一となる識別子を持つレコードを前記レコードの候補として生成し、
前記認識語彙作成部は、前記検索部の出力に基づいて前記追加認識語彙を作成し、
前記名称データベースにおける前記選択されたレコードに対応する識別子と前記作成した追加認識語彙とを組み合わせた形式で、前記追加認識語彙を前記言語モデル記憶部に追加する
ことを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記検索部は、前記音声認識部から前記追加認識語彙が出力された場合に、該追加認識語彙を含む前記名称データベースのレコードを前記検索結果に含める
ことを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記検索部は、前記音声認識部から前記追加認識語彙が複数出力された場合に、前記音声認識部から出力された前記追加認識語彙のそれぞれによって前記名称データベースの追加認識語彙属性を検索して前記レコードの候補群を生成し、
前記それぞれの追加認識語彙での検索によって得られた前記レコードの候補群のうち、いずれの候補群にも存在するレコードだけを検索結果として出力するか、あるいは、それぞれの追加認識語彙によって得られたレコードの候補群のうち、すくなくとも1つの候補群に存在するレコードを集めたものを検索結果として出力する
ことを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記認識語彙作成部は、
前記操作入力部から入力された文字列を所定の方法により編集したものを前記追加認識語彙として使用し、
前記認識語彙作成部は、
前記操作入力部から入力された文字列と、前記名称データベースに登録されている各属性の値に格納されている文字列を分割した形態素とを比較し、前記入力された文字列を該当する形態素まで延長し、
前記操作入力部から入力された文字列が内包される形態素を、前記追加認識語彙として使用する
ことを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記認識語彙作成部は、
前記操作入力部から入力された文字列と、前記選択したレコードとの比較に基づき、前記選択手段により選択された前記レコードの属性に格納されている値の文字列を分割した形態素を組み合わせることにより、1つないし複数の前記追加認識語彙を作成する
ことを特徴とする情報検索装置。 - 請求項8に記載の情報検索装置において、
前記認識語彙作成部は、
前記選択手段により選択された前記レコードの属性に格納されている値の文字列を分割した形態素を組み合わせることにより、
1つないし複数の前記追加認識語彙を作成し、
前記形態素の種類にもとづいて、採用する前記追加認識語彙を決定する
ことを特徴とする情報検索装置。 - 請求項8に記載の情報検索装置において、
前記選択手段により選択された前記レコードの属性に格納されている値の文字列を分割した前記形態素に対して、各形態素の単位または各形態素の種類の単位において重要度を示す値を付与し、
前記認識語彙作成部は、
前記選択手段により選択され前記レコードの値として格納されている文字列を分割した前記形態素を組み合わせることにより、1つないし複数の前記追加認識語彙を作成し、
それぞれの前記追加認識語彙の重要度を、前記形態素の重要度に基づいて算出し、該追加認識語彙の重要度が高いほど、前記音声認識語彙の候補に含まれるように該追加認識語彙の候補を作成する
ことを特徴とする情報検索装置。 - 請求項10に記載の情報検索装置において、
前記追加認識語彙に付与された重要度に加えて、
前記が操作入力部から入力された前記文字列と前記追加認識語彙に含まれる形態素がより一致するほど、前記追加認識語彙の重要度を高くする所定の計算を行う
ことを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記認識語彙作成部で作成した前記追加認識語彙の種別を判定する語彙種別判定部を備え、
前記認識語彙作成部は、さらに、前記語彙種別判定部で判定された前記追加認識語彙の種別に基づいて、該追加認識語彙を前記名称データベース及び前記言語モデル記憶部に追加する方法を変更する機能を有し、
前記語彙種別判定部は、
前記選択手段により選択されたレコードであるユーザ選択レコードにおけるそれぞれの属性の値と、前記操作入力部より入力された文字列である入力文字列とを比較し、前記入力文字列を含む前記ユーザ選択レコードにおける属性を判定結果として出力し、
前記検索部は、
前記ユーザ選択レコードにおける前記属性の値を読み取り、
前記名称データベースの前記属性において、前記値と一致するレコードである一致レコードを検索し、
作成した前記追加認識語彙を、前記名称データベースの前記一致レコードの追加認識語彙属性に追加する
ことを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記認識語彙作成部は、
作成した前記追加認識語彙と、前記言語モデル記憶部または前記名称データベースの属性に値として保存されている文字列との類似度を計算し、類似する語彙である類似語彙を列挙し、
該類似語彙が存在する場合には、作成した前記追加認識語彙の前記名称データベース及び前記言語モデルへの追加方法を変更する
ことを特徴とする情報検索装置。 - 請求項1に記載の情報検索装置において、
前記認識語彙作成部は、
作成した前記追加認識語彙に加えて、前記名称データベースのいずれかの属性と前記追加認識語彙を組み合わせた新規の追加認識語彙を作成する
ことを特徴とする情報検索装置。 - 請求項7に記載の情報検索装置において、
前記形態素の情報は、前記名称データベースの各属性にあらかじめ付与されている形態素区切り情報または形態素品詞情報を利用する
ことを特徴とする情報検索装置。 - 請求項7に記載の情報検索装置において、
前記情報検索装置は、前記形態素の分割処理を行う形態素分割処理手段を備えていることを特徴とする情報検索装置。 - 情報検索装置を用いた情報検索方法であって、
前記情報検索装置は、
検索対象となる1つ以上の属性と、それぞれの前記属性に対する内容である値とを関連付けて保存するレコードを単位として、1つ以上の前記レコードを登録すると共に、入力文字列と対応する前記レコードを特定する情報の関係を記録したインディクスを有する名称データベースと、
検索クエリとなるユーザの操作入力もしくは音声入力を受け付ける入力部と、
前記入力部から得られた音声を文字列に認識する音声認識部と、
前記音声認識部において参照する音響データを格納する音響モデル記憶部と、
前記音声認識部において認識する語彙と該語彙の連結規則を言語モデルとして記憶する言語モデル記憶部と、
検索部、出力部、選択手段及び認識語彙作成部とを備えており、
前記検索部により、前記入力部または前記音声認識部から入力された前記検索クエリの入力文字列を用いて、前記名称データベースに含まれる前記属性の前記値を検索し、前記入力文字列をキーとして前記インディクスを参照して部分一致または完全一致する検索結果を取得し、遂次、該値に前記入力文字列が含まれる前記レコードを候補として生成し、
前記検索部で生成された前記レコードの候補を検索結果として前記出力部に提示し、
前記選択手段により、前記入力部または前記音声認識部からの前記ユーザの文字単位の入力を受け付け、前記出力部に提示された前記レコードの候補から1つの前記レコードを選択し、
前記認識語彙作成部で、作成部前記検索結果に対する前記選択手段による前記レコードの選択結果を受けて、前記言語モデルに追加すべき音声認識語彙である新たな追加認識語彙を作成し、
前記入力文字列に対応する前記追加認識語彙と前記選択されたレコードの対応関係を、前記名称データベース若しくは前記言語モデルに記録し、
前記検索部は、前記音声認識部から前記追加認識語彙が出力された場合に、該追加認識語彙に含まれる前記名称データベースのレコードを前記検索結果に含め前記出力部に提示する
ことを特徴とする情報検索方法。 - 請求項17に記載の情報検索方法において、
前記認識語彙作成部が作成した1つないし複数の前記追加認識語彙を前記出力部に提示し、
前記入力部からの入力結果に基づいて、前記追加認識語彙として採用するものを変更する
ことを特徴とする情報検索方法。 - 入力部を介して入力された操作入力もしくは音声入力を検索クエリとして受け付け、名称データベースを検索して前記入力された検索クエリの文字列を含む施設名等の候補一覧を出力部に提示し、選択手段を介して選択された前記候補一覧中の施設名等により目的地を設定するナビゲーションシステムであって、
前記名称データベースは、検索対象となる1つ以上の属性と、それぞれの前記属性に対する内容である値とを関連付けて保存するレコードを単位として、1つ以上の前記レコードが登録されており、かつ、入力文字列と対応する前記レコードを特定する情報の関係を記録したインディクスを有しており、
前記入力部から得られた音声を文字列に認識する音声認識部と、
前記音声認識部において参照する音響データを格納する音響モデル記憶部と、
前記音声認識部において認識する語彙と該語彙の連結規則を言語モデルとして記憶する言語モデル記憶部と、
前記入力部または前記音声認識部から入力された前記検索クエリの入力文字列を用いて、前記名称データベースに含まれる前記属性の前記値を検索し、前記入力文字列をキーとして前記インディクスを参照して部分一致または完全一致する検索結果を取得し、遂次、該値に前記入力文字列が含まれる前記レコードを候補として生成し、検索結果として前記出力部に出力する検索部と、
出力された前記レコードの候補から1つの前記レコードを選択する前記選択手段と、
前記レコードの候補に対する前記選択手段による前記レコードの選択結果を受けて、前記言語モデルに追加すべき音声認識語彙である新たな追加認識語彙を作成する認識語彙作成部とを備え、
前記認識語彙作成部は、
前記入力文字列に対応する前記追加認識語彙と前記選択された前記1つのレコードとの対応関係を、前記名称データベース若しくは前記言語モデルに記録し、
前記検索部は、前記音声認識部から前記追加認識語彙が出力された場合に、該追加認識語彙に含まれる前記名称データベースのレコードを前記検索結果に含める
ことを特徴とするナビゲーションシステム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009208045A JP5697860B2 (ja) | 2009-09-09 | 2009-09-09 | 情報検索装置,情報検索方法及びナビゲーションシステム |
EP10815412.1A EP2477186B1 (en) | 2009-09-09 | 2010-09-09 | Information retrieving apparatus, information retrieving method and navigation system |
CN2010800399276A CN102549652B (zh) | 2009-09-09 | 2010-09-09 | 信息检索装置 |
PCT/JP2010/065502 WO2011030817A1 (ja) | 2009-09-09 | 2010-09-09 | 情報検索装置,情報検索方法及びナビゲーションシステム |
US13/395,080 US8949133B2 (en) | 2009-09-09 | 2010-09-09 | Information retrieving apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009208045A JP5697860B2 (ja) | 2009-09-09 | 2009-09-09 | 情報検索装置,情報検索方法及びナビゲーションシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011059313A JP2011059313A (ja) | 2011-03-24 |
JP5697860B2 true JP5697860B2 (ja) | 2015-04-08 |
Family
ID=43732486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009208045A Active JP5697860B2 (ja) | 2009-09-09 | 2009-09-09 | 情報検索装置,情報検索方法及びナビゲーションシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US8949133B2 (ja) |
EP (1) | EP2477186B1 (ja) |
JP (1) | JP5697860B2 (ja) |
CN (1) | CN102549652B (ja) |
WO (1) | WO2011030817A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5889542B2 (ja) | 2011-04-07 | 2016-03-22 | クラリオン株式会社 | 無線通信端末及び操作システム |
WO2012172596A1 (ja) * | 2011-06-14 | 2012-12-20 | 三菱電機株式会社 | 発音情報生成装置、車載情報装置およびデータベース生成方法 |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
JP5790768B2 (ja) * | 2011-09-29 | 2015-10-07 | 富士通株式会社 | 検索方法及び情報管理装置 |
DE102011087843B4 (de) * | 2011-12-06 | 2013-07-11 | Continental Automotive Gmbh | Verfahren und System zur Auswahl mindestens eines Datensatzes aus einer relationalen Datenbank |
CN103186523B (zh) * | 2011-12-30 | 2017-05-10 | 富泰华工业(深圳)有限公司 | 电子设备及其自然语言分析方法 |
CN103543905B (zh) * | 2012-07-16 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 语音控制终端的界面的方法及装置 |
CN103631802B (zh) * | 2012-08-24 | 2015-05-20 | 腾讯科技(深圳)有限公司 | 歌曲信息检索方法、装置及相应的服务器 |
US20140075306A1 (en) * | 2012-09-12 | 2014-03-13 | Randy Rega | Music search and retrieval system |
JP6115202B2 (ja) * | 2013-03-12 | 2017-04-19 | アイシン・エィ・ダブリュ株式会社 | 音声認識システム、方法およびプログラム |
JP6538563B2 (ja) | 2013-11-25 | 2019-07-03 | Necソリューションイノベータ株式会社 | 入力支援装置、入力支援方法及びプログラム |
US20160062979A1 (en) * | 2014-08-27 | 2016-03-03 | Google Inc. | Word classification based on phonetic features |
KR102245747B1 (ko) | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
CN105653517A (zh) * | 2015-11-05 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种识别率确定方法及装置 |
TWI557599B (zh) * | 2015-11-05 | 2016-11-11 | 宏碁股份有限公司 | 語音控制方法及語音控制系統 |
CN106773742B (zh) * | 2015-11-23 | 2019-10-25 | 宏碁股份有限公司 | 语音控制方法及语音控制系统 |
WO2017104043A1 (ja) * | 2015-12-17 | 2017-06-22 | 株式会社日立製作所 | 画像処理装置、画像検索インタフェース表示装置、及び画像検索インタフェースの表示方法 |
US10777201B2 (en) * | 2016-11-04 | 2020-09-15 | Microsoft Technology Licensing, Llc | Voice enabled bot platform |
JP6805037B2 (ja) * | 2017-03-22 | 2020-12-23 | 株式会社東芝 | 話者検索装置、話者検索方法、および話者検索プログラム |
JP6869835B2 (ja) * | 2017-07-06 | 2021-05-12 | フォルシアクラリオン・エレクトロニクス株式会社 | 音声認識システム、端末装置、及び辞書管理方法 |
DE102017216571B4 (de) * | 2017-09-19 | 2022-10-06 | Volkswagen Aktiengesellschaft | Kraftfahrzeug |
TWI697890B (zh) * | 2018-10-12 | 2020-07-01 | 廣達電腦股份有限公司 | 語音校正系統及語音校正方法 |
JP2020086364A (ja) * | 2018-11-30 | 2020-06-04 | 株式会社Nttぷらら | 情報提示システム、情報提示装置、情報提示方法及びコンピュータプログラム |
JP2021026188A (ja) * | 2019-08-08 | 2021-02-22 | 本田技研工業株式会社 | 通信制御システム、通知制御方法、及び通信制御プログラム |
CN114817155B (zh) * | 2022-06-23 | 2022-09-20 | 北京理工大学 | 基于通用设备的文件存储及检索方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5920837A (en) * | 1992-11-13 | 1999-07-06 | Dragon Systems, Inc. | Word recognition system which stores two models for some words and allows selective deletion of one such model |
US5774860A (en) * | 1994-06-27 | 1998-06-30 | U S West Technologies, Inc. | Adaptive knowledge base of complex information through interactive voice dialogue |
US5758322A (en) * | 1994-12-09 | 1998-05-26 | International Voice Register, Inc. | Method and apparatus for conducting point-of-sale transactions using voice recognition |
US5937383A (en) * | 1996-02-02 | 1999-08-10 | International Business Machines Corporation | Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection |
US6282511B1 (en) * | 1996-12-04 | 2001-08-28 | At&T | Voiced interface with hyperlinked information |
US6088669A (en) * | 1997-01-28 | 2000-07-11 | International Business Machines, Corporation | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling |
US20050005266A1 (en) * | 1997-05-01 | 2005-01-06 | Datig William E. | Method of and apparatus for realizing synthetic knowledge processes in devices for useful applications |
US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
JP2001005488A (ja) * | 1999-06-18 | 2001-01-12 | Mitsubishi Electric Corp | 音声対話システム |
US7024364B2 (en) * | 2001-03-09 | 2006-04-04 | Bevocal, Inc. | System, method and computer program product for looking up business addresses and directions based on a voice dial-up session |
US7072838B1 (en) * | 2001-03-20 | 2006-07-04 | Nuance Communications, Inc. | Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data |
US7308404B2 (en) * | 2001-09-28 | 2007-12-11 | Sri International | Method and apparatus for speech recognition using a dynamic vocabulary |
JP2003302994A (ja) * | 2002-04-10 | 2003-10-24 | Canon Inc | 音声認識機能付き電子機器及びその制御方法 |
MXPA04006758A (es) * | 2002-09-23 | 2004-11-10 | Lg Electronics Inc | Esquema de comunicacion por radio para proveer servicios de difusion y multidifusion de multimedia. |
JP4269625B2 (ja) | 2002-10-08 | 2009-05-27 | 三菱電機株式会社 | 音声認識辞書作成方法及びその装置と音声認識装置 |
JP4287386B2 (ja) * | 2005-01-31 | 2009-07-01 | 株式会社東芝 | 情報検索システム、方法及びプログラム |
JP4816409B2 (ja) * | 2006-01-10 | 2011-11-16 | 日産自動車株式会社 | 認識辞書システムおよびその更新方法 |
JP4967519B2 (ja) * | 2006-08-11 | 2012-07-04 | 日産自動車株式会社 | 音声認識装置 |
JP5178109B2 (ja) * | 2007-09-25 | 2013-04-10 | 株式会社東芝 | 検索装置、方法及びプログラム |
JP2009109758A (ja) * | 2007-10-30 | 2009-05-21 | Nissan Motor Co Ltd | 音声認識辞書生成装置及び方法 |
CN101510222B (zh) * | 2009-02-20 | 2012-05-30 | 北京大学 | 一种多层索引语音文档检索方法 |
-
2009
- 2009-09-09 JP JP2009208045A patent/JP5697860B2/ja active Active
-
2010
- 2010-09-09 US US13/395,080 patent/US8949133B2/en active Active
- 2010-09-09 WO PCT/JP2010/065502 patent/WO2011030817A1/ja active Application Filing
- 2010-09-09 CN CN2010800399276A patent/CN102549652B/zh active Active
- 2010-09-09 EP EP10815412.1A patent/EP2477186B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN102549652B (zh) | 2013-08-07 |
EP2477186A1 (en) | 2012-07-18 |
CN102549652A (zh) | 2012-07-04 |
WO2011030817A1 (ja) | 2011-03-17 |
US20120173574A1 (en) | 2012-07-05 |
JP2011059313A (ja) | 2011-03-24 |
EP2477186A4 (en) | 2015-09-16 |
EP2477186B1 (en) | 2018-07-18 |
US8949133B2 (en) | 2015-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5697860B2 (ja) | 情報検索装置,情報検索方法及びナビゲーションシステム | |
EP2259252B1 (en) | Speech recognition method for selecting a combination of list elements via a speech input | |
US9805722B2 (en) | Interactive speech recognition system | |
KR100735820B1 (ko) | 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
JP3955880B2 (ja) | 音声認識装置 | |
US8106285B2 (en) | Speech-driven selection of an audio file | |
EP1693829A1 (en) | Voice-controlled data system | |
EP1909263A1 (en) | Exploitation of language identification of media file data in speech dialog systems | |
WO2004044887A1 (ja) | 音声認識用辞書作成装置および音声認識装置 | |
JP6794990B2 (ja) | 楽曲検索方法および楽曲検索装置 | |
CN101415259A (zh) | 嵌入式设备上基于双语语音查询的信息检索系统及方法 | |
CN111462748B (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
EP1933302A1 (en) | Speech recognition method | |
JP5335165B2 (ja) | 発音情報生成装置、車載情報装置およびデータベース生成方法 | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
JP2005257954A (ja) | 音声検索装置、音声検索方法および音声検索プログラム | |
JP5196114B2 (ja) | 音声認識装置およびプログラム | |
JP2009282835A (ja) | 音声検索装置及びその方法 | |
JP2004294542A (ja) | 音声認識装置及びそのプログラム | |
EP2058799B1 (en) | Method for preparing data for speech recognition and speech recognition system | |
JP2000276482A (ja) | 文書検索装置及び文書検索方法 | |
JP2003150185A (ja) | 音声合成システムとその方法及びそれを実現するためのプログラム | |
JP2005084422A (ja) | 音声認識検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140703 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20141027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5697860 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |