JP5542559B2 - 音声検索インタフェース装置及び音声入力検索方法 - Google Patents

音声検索インタフェース装置及び音声入力検索方法 Download PDF

Info

Publication number
JP5542559B2
JP5542559B2 JP2010161779A JP2010161779A JP5542559B2 JP 5542559 B2 JP5542559 B2 JP 5542559B2 JP 2010161779 A JP2010161779 A JP 2010161779A JP 2010161779 A JP2010161779 A JP 2010161779A JP 5542559 B2 JP5542559 B2 JP 5542559B2
Authority
JP
Japan
Prior art keywords
word
search
correction
correction candidate
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010161779A
Other languages
English (en)
Other versions
JP2012022251A (ja
Inventor
浩之 鷲野
啓恭 伍井
一宏 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Mitsubishi Electric Building Techno-Service Co Ltd
Original Assignee
Mitsubishi Electric Corp
Mitsubishi Electric Building Techno-Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp, Mitsubishi Electric Building Techno-Service Co Ltd filed Critical Mitsubishi Electric Corp
Priority to JP2010161779A priority Critical patent/JP5542559B2/ja
Publication of JP2012022251A publication Critical patent/JP2012022251A/ja
Application granted granted Critical
Publication of JP5542559B2 publication Critical patent/JP5542559B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識を利用して特定のデータベースを検索する音声検索インタフェース装置及び音声入力検索方法に関し、特に、ユーザが容易に検索結果を絞り込むことのできる機能と、ユーザが音声認識結果を修正したい場合に、容易にかつ素早く音声認識結果を修正する機能とを備えた音声検索インタフェース装置及び音声入力検索方法に関する。
インターネットの普及や、電子機器が有する機能の多様化・複雑化に伴い、検索キーワードを入力して大規模なデータベースの中から特定の情報を検索するような機会が増加している。パソコンであれば、検索キーワードをキーボードで入力することが一般的であるが、キーボードが使えないようなケースや、文字数の多い検索キーワードを入力する際には、音声認識を利用して音声により検索キーワードを入力する技術が開示されている(例えば、特許文献1参照)。
しかしながら、音声認識では、使用環境やユーザの個人差によって認識率が異なり、誤認識が生じるという本質的な課題がある。その結果、データベースの検索結果もユーザが全く意図しないような課題が出力される場合がある。そこで、特許文献1に示されているような音声認識装置では、音声認識結果の単語を選択してデータベースの検索結果を絞り込む技術が開示されている。
一方、音声認識率を上げて誤認識を抑える方法としては、ユーザによって認識パラメータをチューニングする方法や、場面によって認識語彙を絞る方法があるが、不特定多数のユーザが使用することが想定され、さらにカーナビの施設名検索等のように大規模な語彙を対象にしなくてはならない場合には、上記のような解決策は本質的な解決方法とはならない。従って、音声認識において誤認識が生じた場合に、簡単かつ素早く認識結果を修正するインタフェースを提供することは極めて重要である。そこでこれまでにも、音声認識結果を修正するインタフェースは数々提案されている。
例えば、特許文献2には、音声認識による認識結果とともに、修正候補となる単語の一覧が表示され、ユーザが単語の一覧から所望の単語を選択するだけで、簡単に修正することのできる音声認識装置が開示されている。特許文献2に記載されている手法は、コンフュージョン・ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングにより複数の単語の区間に分割し、単語の各区間ごとに競合確率の高い単語を修正候補として生成する手法である。
特開2006−195576号公報 特開2006−146008号公報
しかしながら、ユーザが音声認識結果の単語を選択して検索結果を絞り込む場合に、どの単語を選択すると検索結果を効率的に絞り込むことができるのかをユーザが把握することができないため、ユーザは単語を選択して検索結果を確認し、必要であればさらに単語を選択する、という試行錯誤を繰り返すことになる。また、音声認識結果を修正したい場合も同様に、修正の結果、どの程度検索結果を絞り込むことができるのかをユーザが把握することができないため、ユーザは単語を修正して検索結果を確認し、必要であればさらに単語を修正する、という試行錯誤を繰り返すことになる。
この発明は上記のような課題を解決するためになされたもので、ユーザが音声認識を利用してデータベースから特定の情報を絞り込む際に、ユーザが効率的に検索結果を絞り込むことのできる音声検索インタフェース装置及び音声入力検索方法を得ることを目的とする。
この発明に係る音声検索インタフェース装置は、音声入力に対する認識結果として単語または単語列を出力する単語出力手段と、任意の単語または単語列が与えられた場合、特定のデータベースを検索して単語または単語列の検索結果及び検索候補数を出力する検索手段と、単語の情報が登録された単語辞書記憶手段と、単語出力手段で出力された単語と、単語辞書記憶手段に登録された単語とのマッチングを行い、単語単位の修正候補を生成する修正候補生成手段と、修正候補生成手段で生成されたそれぞれの修正候補に対する検索候補数を、検索手段を介して取得する修正候補検索候補数取得手段と、修正候補生成手段で生成された修正候補と、修正候補検索候補数取得手段で取得されたそれぞれの修正候補に応じた検索候補数とを出力する修正候補出力手段とを備えたものである。
この発明の音声検索インタフェース装置は、音声認識結果に対して、単語単位の修正候補を生成すると共に、それぞれの修正候補に対する検索候補数を出力するようにしたので、ユーザが音声認識を利用してデータベースから特定の情報を絞り込む際に、効率的に検索結果を絞り込むことができる。
この発明の実施の形態1の音声検索インタフェース装置を示す構成図である。 この発明の実施の形態1の音声検索インタフェース装置における検索結果を示す説明図である。 この発明の実施の形態1の音声検索インタフェース装置における一つの単語で検索結果を絞り込んだ場合の説明図である。 この発明の実施の形態1の音声検索インタフェース装置における複数の単語で検索結果を絞り込んだ場合の説明図である。 この発明の実施の形態1の音声検索インタフェース装置における修正候補生成処理を示すフローチャートである。 この発明の実施の形態1の音声検索インタフェース装置における読み・音節記憶手段の情報を示す説明図である。 この発明の実施の形態1の音声検索インタフェース装置における修正候補の表示を示す説明図である。
実施の形態1.
図1に、本発明の実施の形態1における音声検索インタフェース装置の構成図を示し、以下に説明する。
音声入力手段101は、マイクなどの音声入力デバイス及びAD変換器により構成されており、ユーザが音声を入力すると、アナログ音声信号をコンピュータにより処理可能なデジタル音声信号に変換する。音声認識辞書記憶手段102は、音声認識のために必要な認識辞書(言語モデル)を保存している記憶装置である。音声認識手段(単語出力手段)103は、上記デジタル音声信号を入力として音声認識辞書記憶手段102を参照して音声を認識し、音声認識結果として1つあるいは複数の単語列を出力する。検索用データベース(特定のデータベース)104は、検索対象となる施設名や人名等が保存されている記憶装置である。検索手段105は、検索用データベース104の中から、音声認識手段103から出力された音声認識結果の単語列のいずれか1つを含む検索結果及び検索結果候補数を取得する。同時に、音声認識結果のそれぞれの単語のみを含む検索結果候補数を取得する。
音声認識結果表示手段106は、LCD表示器などの表示デバイスを用いて、上記音声認識結果の単語列と、検索手段105から出力されたそれぞれの単語に対応する検索結果候補数を同時にユーザに提示する。絞り込み単語選択手段107は、ユーザが音声認識結果の単語のいずれかを選択して検索結果を絞り込みたい場合に、マウスやタッチパネルなどの入力デバイスを用いて修正対象となる単語を選択する操作を受け付け、ユーザによって選択操作がなされた場合に、選択された単語を出力する。以下、この絞り込みのために選択された単語を絞り込み単語と呼ぶ。検索結果絞り込み手段108は、絞り込み単語選択手段107においてユーザが絞り込み単語を選択した場合に、検索手段105によって取得された検索結果の中から絞り込み単語のみを含む検索結果及び検索結果候補数を取得する。修正対象単語選択手段109は、ユーザが音声認識結果のいずれかの単語を修正したい場合に、マウスやタッチパネルなどの入力デバイスを用いて修正対象となる単語を選択する操作を受け付け、ユーザによって選択操作がなされた場合に、修正対象単語を出力する。
読み・音節記憶手段(単語辞書記憶手段)110は、認識対象となる単語の表記と読み情報と音節情報を保存している記憶装置である。修正候補生成手段111は、修正対象単語選択手段109が出力した修正対象単語に対して、類似度の高い単語を修正候補として生成して出力する。このとき、読み・音節記憶手段110に保存されている単語単位の読み情報及び音節情報を利用して修正候補を生成する。同時に、それぞれの修正候補がユーザに選択された場合、検索結果が何件に絞り込まれるかを示す検索結果候補数を検索手段105から取得して出力する(修正候補検索候補数取得手段及び修正候補出力手段としての機能)。修正候補表示手段112は、LCD表示器などの表示デバイスを用いて、修正候補生成手段111から出力された修正候補及び検索結果候補数を同時にユーザに表示する。修正候補選択手段113は、マウスやタッチパネルなどの入力デバイスを用いてユーザが意図する修正候補を選択する操作を受け付け、ユーザによって選択操作がなされた場合に、選択された修正候補を出力する。修正実行手段114は、ユーザによって選択された修正候補を入力として、既にユーザに提示されている認識結果を更新し、修正結果をユーザに再提示する。
以下では、上記のように構成された音声検索インタフェース装置の処理の流れについて、具体例を交えて説明する。
ユーザが「三菱電機株式会社」を音声入力しようとして、「ミツビシデンキカブシキガイシャ」と発話したとする。
このとき、先ず、音声入力手段101は、発話されたアナログ音声信号をデジタル音声信号に変換する。次に、音声認識手段103は、上記変換されたデジタル音声信号を入力として音声認識辞書記憶手段102を参照して音声を認識し、音声認識結果の単語列を出力する。音声を認識する手法は任意であり、以下の非特許文献2、3、4に記されているような、公知の音声認識手法を利用することができる。例えば、デジタル音声信号を音響特徴量に変換し、音素など音声認識の基本単位に対する音響スコアと、言語モデルに基づく言語スコアに基づいて、認識候補の探索を行う手法などが考えられる。
非特許文献2:鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著:「音声認識システム」株式会社オーム社、平成13年5月15日
非特許文献3:北研二、辻井潤一著:「確率的言語モデル」、東京大学出版会、平成11年11月25日
非特許文献4;中川聖一著:「確率モデルによる音声認識」、社団法人電子情報通信学会、昭和63年7月1日
音声認識手段103により音声認識結果の単語列が出力される(単語出力ステップ)と、検索手段105は、検索用データベース104の中から、音声認識結果の単語のいずれか1つを含む検索結果及び検索結果候補数を取得する(OR検索)。例えば上記のユーザ発話に対して、音声認識結果が「三菱/電機/株式/会社」(/は単語の区切りを表す)であった場合には、4つの単語「三菱」「電機」「株式」「会社」のいずれか1つを含む検索結果及び検索結果候補数を取得する(検索ステップ)。例えば、「三菱地所」、「大磯電機株式会社」、「株式証券取引所」等が検索結果となる。さらに、検索手段105は、音声認識結果の単語w(i=1,2,…,n;nは検索結果の単語数)それぞれについて、その単語を含む検索結果及び検索結果候補数nを取得する。上記の例では、検索用データベース104の中に「三菱」を含む語が52件あった場合、w=“三菱”とすると、n=52となる。
次に、音声認識結果表示手段106は、図2のように、音声認識結果の単語の分割区間がユーザにわかるようなレイアウトで、LCD表示器などの表示デバイスを用いてユーザに提示する。同時に、検索手段105で取得した、それぞれの単語に応じた検索結果候補数nを単語の表記に隣接して表示する。尚、ここでは、音声認識結果の単語に応じた検索結果候補数を表示したが、候補数そのものを表示するのではなく、候補数の多さによってぞれぞれの単語の大きさや色を変更して表示するなど、候補数を暗示する表示であっても良い。
音声認識結果表示手段106によって音声認識結果及び検索結果候補数が表示されると、ユーザは、表示された音声認識結果の単語を選択することで、検索結果を絞り込むことができる。このとき、絞り込み単語選択手段107が、マウスやタッチパネルなどの入力デバイスを用いてユーザが絞り込み単語を選択する操作を受け付ける。ユーザが絞り込み単語を選択すると、絞り込み単語選択手段107は、選択操作を感知し、選択された絞り込み単語を出力する。
次に、検索結果絞り込み手段108が、絞り込み単語選択手段107によって出力された単語だけを含むものだけに検索結果を絞り込み、絞り込んだ検索結果を図3のようにユーザに表示する。このとき、絞り込み単語として選択されている単語については、背景色を変更して表示する等、ユーザが見てわかるように表示することが望ましい。例えば、上記の例で「三菱」がユーザに選択された場合、「三菱」「電機」「株式」「会社」のいずれかを含む検索結果が、「三菱」のみを含む検索結果に絞り込まれる。絞り込み単語は1つだけでなく、複数選択することも可能であり、複数選択された場合には、選択された複数の絞り込み単語の全てを含む検索結果に絞り込まれる(AND検索)。例えば、「三菱」と「電機」が絞り込み単語として選択された場合には、図4のように、「三菱」と「電機」の両方を含む検索結果に絞り込まれる。
さらに検索結果絞り込み手段108は、絞り込み単語以外の単語がそれぞれ次に選択された場合に、検索結果が何件に絞り込まれるかを計算して図3のように各単語の検索結果候補数を更新してユーザに提示する。例えば、「三菱」のみが絞り込み単語として選択された場合、次に「電機」が選択された場合、「三菱」と「電機」のAND検索によって検索結果が15件に絞り込まれる場合、「電機」の表示箇所に隣接して検索結果候補数15を表示する。他の単語「株式」と「会社」に対しても、同様の計算を行って表示する。このように、ユーザが次に行う操作で検索結果が何件に絞り込まれるかを一目で把握することができるので、効率的に検索結果を絞り込むことが可能である。
ここで、ユーザが音声認識結果の単語を修正したい場合、修正対象単語選択手段109が、マウスやタッチパネルなどの入力デバイスを用いてユーザが修正対象単語を選択する操作を受け付ける。
ユーザが修正対象単語を選択すると、修正対象単語選択手段109は、選択操作を感知し、選択された修正対象単語を出力する。ここで、絞り込み単語の選択操作と修正対象単語選択操作は、互いに判別可能な操作でなければならない。例えば、入力デバイスとしてマウスを用いる場合には、左クリックで絞り込み単語選択、右クリックで修正対象単語選択、タッチパネルを用いる場合には、シングルタップで絞り込み単語選択、ダブルタップで修正対象単語選択、といったように、別の操作を割り当てる。
例えば、ユーザが「三菱電機株式会社」を音声入力しようとして、「ミツビシデンキカブシキガイシャ」と発話したとき、音声認識結果が「三井/電機/株式/会社」であったとする。このとき、ユーザは音声認識結果の「三井」を「三菱」に修正すべく、「三井」を修正対象単語選択する。次に、修正対象単語選択手段109において修正対象単語が選択された場合に、修正候補生成手段111が行う処理(修正候補生成ステップ、修正候補検索候補数取得ステップ、修正候補出力ステップ)の流れを図5のフローチャートに従って詳しく説明する。
修正候補生成手段111は、修正対象単語選択手段109から出力された修正対象単語を入力として、先ず、読み・音節記憶手段110に記憶されている読み情報と音節情報から、修正対象単語の読みと音節情報を取得する(ステップST101)。ここで、読み・音節記憶手段110には、図6のような形で認識対象語句が形態素解析などの単語分割手法によって分割された単語の表記が保存されており、さらに表記に対応して、その読みと音節情報が格納されていることが望ましい。修正候補生成手段111は、読み・音節記憶手段110の中から修正対象単語を検索し、対応する読みと音節情報を取得する。例えば、修正対象単語が「三井」の場合、読み・音節記憶手段110の表記の中から「三井」を検索し、その読み「ミツイ」と音節「mi−cu−i」を取得する。
次に、読み・音節記憶手段110の中から任意の単語を選択し(ステップST102)、修正対象単語の読みとステップST102で選択した単語の読みとの類似度を計算する(ステップST103)。単語の読みを利用した類似度の計算手法は任意の公知の計算方法を利用することができる。例えば、ある単語を別の単語に編集する際の操作手順(挿入、削除、置換)の最少の回数を単語間の距離として定義する編集距離(レーベンシュタイン距離)を利用する。例えば、「ミツイ」を「ミツビシ」に編集する際の手順は以下のように、
「ミツイ」
「ミツビ」 (イをビに置換)
「ミツビシ」 (シを挿入)
となるから、最少で2回の操作手順を必要とする。従って単語「ミツイ」と「ミツビシ」の編集距離は2となる。編集距離が小さいほど、読みの類似度は大きいとしてよいので、編集距離の逆数を単語間の類似度として計算することが可能である。以下では、この読み情報を用いた類似度を読み類似度と呼ぶ。
次に、修正候補生成手段111は、修正対象単語の音節とST102で選択した単語の音節の類似度を計算する(ステップST104)。単語の音節を利用した類似度の計算手法は、公知の計算方法を利用することができる。例えば、以下の非特許文献5に記載されているような、部分音節列の統計的な認識誤り傾向から各部分音節節相互の混同確率を計算し、全ての部分音節列の混同確率の積の対数として単語全体の類似度を求める手法を利用することができる。以下では、この音節情報を用いた類似度を音響類似度と呼ぶ。
非特許文献5:阿部他:『認識誤り傾向の確率モデルを用いた2 段階探索法による大規模連続音声認識』、電子情報通信学会誌、Vol.J83−D− II、No.12、 pp.2545−2553、2000.
以上のステップST102〜ステップST104まで処理を、読み・音節記憶手段110の中に保存されている全ての単語について繰り返す(ステップST105)。
読み・音節記憶手段110に保存されている全ての単語iについて、修正対象単語との読み類似度r及び音響類似度aを求めると、次に修正候補生成手段111は、修正対象単語と、読み・音節記憶手段110の中に保存されている全ての単語との間の読み類似度と音響類似度を、それぞれ読み類似度の総和及び音響類似度の総和で割って正規化し(ただし、nは単語の総数)、次式のように、両類似度の重み付き和を計算して単語間類似度sとする(ステップST106)。

Figure 0005542559
上式中、αは読み類似度と音響類似度のどちらをどれだけ重視して単語の類似度を計算するかを決める重みである。αは音声認識の使用環境に応じて任意に設定することができ、α=0の場合、音響類似度のみを利用することになり、逆に、α=1の場合、読み類似度のみを利用することになる。
このように、修正候補生成手段111は、ユーザが選択した修正対象単語、読み・音節記憶手段110の中に保存されている全ての単語との単語間類似度を計算した後、単語間類似度の大きい順に並べて上位m件の単語を修正候補として生成する(ステップST107)。件数mは任意である。たとえば、m=3として修正対象単語が「三井」である場合には、例えば、単語間類似度の高い「三石(ミツイシ)」や「水井(ミズイ)」、「三菱(ミツビシ)」などの単語が修正候補として選ばれることになる。
次に、修正候補生成手段111は、それぞれの修正候補に対して、修正候補が選択された場合の検索候補数を取得する(ステップST108)。例えば、修正候補「三菱」に対して、検索手段105で出力された検索結果のうち、「三菱」を含むものが何件あるかを示す検索結果候補数を取得する。最後に、修正候補生成手段111は、修正候補及び各修正候補に対応した検索結果候補数を出力する。
修正候補表示手段112は、LCD表示器などの表示デバイスを用いて、修正候補生成手段111から出力された修正候補及び検索結果候補数を、図7のように同時にユーザに表示する。このとき、修正候補の類似度が大きいほど、修正対象単語の近くに表示されるようにレイアウトするのが望ましい。
修正候補表示手段112により修正候補及び検索結果候補数が表示されると、修正候補選択手段113は、マウスやタッチパネルなどの入力デバイスを用いてユーザが意図する修正候補を選択する操作を受け付け、ユーザによって選択操作がなされた場合に、選択された修正候補を出力する。
最後に、修正実行手段114は、ユーザによって選択された修正候補を入力として、既に表示されている音声認識結果の修正を実行する。例えば図7において、修正対象単語の「三井」に対して、修正候補の「三菱」が修正候補として選択された場合には、修正対象単語の「三井」と修正候補の「三菱」を置き換えて図2のように表示する。修正実行手段114により修正が実行されると、検索手段105が、修正された単語から再度検索を実行する。また、修正実行手段114は、後段に音声認識結果を用いるような処理が続く場合には、認識結果の修正が行われた旨を適切な場所に通知する。
以上の処理を、ユーザの所望の検索結果が得られるまで繰り返す。
以上が、本発明に係る音声検索インタフェース装置の処理の流れである。
尚、上記実施の形態1では、音声認識結果が複数の単語からなる単語列の場合を説明したが、音声認識結果が一つの単語だけであっても同様に適用可能である。但し、単語が筆頭だけの場合は、OR検索やAND検索は行わない。
以上のように、実施の形態1の音声検索インタフェース装置によれば、音声入力に対する認識結果として単語または単語列を出力する単語出力手段と、任意の単語または単語列が与えられた場合、特定のデータベースを検索して単語または単語列の検索結果及び検索候補数を出力する検索手段と、単語の情報が登録された単語辞書記憶手段と、単語出力手段で出力された単語と、単語辞書記憶手段に登録された単語とのマッチングを行い、単語単位の修正候補を生成する修正候補生成手段と、修正候補生成手段で生成されたそれぞれの修正候補に対する検索候補数を、検索手段を介して取得する修正候補検索候補数取得手段と、修正候補生成手段で生成された修正候補と、修正候補検索候補数取得手段で取得されたそれぞれの修正候補に応じた検索候補数とを出力する修正候補出力手段とを備えたので、ユーザが音声認識を利用してデータベースから特定の情報を絞り込む際に、効率的に検索結果を絞り込むことができる。
また、実施の形態1の音声検索インタフェース装置によれば、検索手段は、データベースを検索する際、単語出力手段で複数の単語が出力された場合、複数の単語のいずれかを含むOR検索を行うようにしたので、ユーザは、音声認識結果によりどのような検索結果が得られるかを容易に知ることができる。
また、実施の形態1の音声検索インタフェース装置によれば、単語出力手段で複数の単語が出力され、かつ、複数の単語のうちいずれか複数の単語が絞り込み単語として選択された場合、選択された単語を全て含むAND検索結果のみに、検索手段の検索結果を絞り込む検索結果絞り込み手段を備えたので、効率的な絞り込みを行うことができる。
また、実施の形態1の音声検索インタフェース装置によれば、単語出力手段が出力したいずれかの単語に対して修正対象単語の指定を受けた場合、修正候補生成手段は、修正対象単語の音節と修正候補の音節との類似度と、修正対象単語の読みと修正候補の読みの類似度の両方を利用し、両類似度に重みを付けた総和を全体の類似度として修正候補を生成する際の情報に利用するようにしたので、的確な修正候補を生成することができる。
また、実施の形態1の音声検索インタフェース装置によれば、単語出力手段で複数の単語が出力され、かつ複数の単語のうちいずれかの複数の単語が絞り込み単語として選択された場合、選択された単語と選択されていない単語のAND検索を行った場合の検索候補数を取得する検索結果絞り込み手段と、検索結果絞り込み手段が取得した検索候補数を表示する音声認識結果表示手段とを備えたので、ユーザは効率的に検索結果を絞り込むことができる。
また、実施の形態1の音声入力検索方法によれば、音声入力に対する認識結果として単語または単語列を出力する単語出力ステップと、任意の単語または単語列が与えられた場合、特定のデータベースを検索して単語または単語列の検索結果及び検索候補数を出力する検索ステップと、単語出力ステップで出力された単語と、単語辞書記憶手段に登録されている単語とのマッチングを行い、単語単位の修正候補を生成する修正候補生成ステップと、修正候補生成ステップで生成されたそれぞれの修正候補に対する検索候補数を、検索ステップにより取得する修正候補検索候補数取得ステップと、修正候補生成ステップで生成された修正候補と、修正候補検索候補数取得ステップで取得されたそれぞれの修正候補に応じた検索候補数とを出力する修正候補出力ステップとを備えたので、ユーザが音声認識を利用してデータベースから特定の情報を絞り込む際に、ユーザが効率的に検索結果を絞り込むことができる
101 音声入力手段、102 音声認識辞書記憶手段、103 音声認識手段、104 検索用データベース、105 検索手段、106 音声認識結果表示手段、107 絞り込み単語選択手段、108 検索結果絞り込み手段、109 修正対象単語選択手段、110 読み・音節記憶手段、111 修正候補生成手段、112 修正候補表示手段、113 修正候補選択手段、114 修正実行手段。

Claims (6)

  1. 音声入力に対する認識結果として単語または単語列を出力する単語出力手段と、
    任意の単語または単語列が与えられた場合、特定のデータベースを検索して前記単語または単語列の検索結果及び検索候補数を出力する検索手段と、
    単語の情報が登録された単語辞書記憶手段と、
    前記単語出力手段で出力された単語と、前記単語辞書記憶手段に登録された単語とのマッチングを行い、単語単位の修正候補を生成する修正候補生成手段と、
    前記修正候補生成手段で生成されたそれぞれの修正候補に対する検索候補数を、前記検索手段を介して取得する修正候補検索候補数取得手段と、
    前記修正候補生成手段で生成された修正候補と、前記修正候補検索候補数取得手段で取得されたそれぞれの修正候補に応じた検索候補数とを出力する修正候補出力手段とを備えた音声検索インタフェース装置。
  2. 検索手段は、データベースを検索する際、単語出力手段で複数の単語が出力された場合、当該複数の単語のいずれかを含むOR検索を行うことを特徴とする請求項1記載の音声検索インタフェース装置。
  3. 単語出力手段で複数の単語が出力され、かつ、当該複数の単語のうちいずれか複数の単語が絞り込み単語として選択された場合、当該選択された単語を全て含むAND検索結果のみに、検索手段の検索結果を絞り込む検索結果絞り込み手段を備えたことを特徴とする請求項1記載の音声検索インタフェース装置。
  4. 単語出力手段が出力したいずれかの単語に対して修正対象単語の指定を受けた場合、修正候補生成手段は、前記修正対象単語の音節と修正候補の音節との類似度と、前記修正対象単語の読みと修正候補の読みの類似度の両方を利用し、両類似度に重みを付けた総和を全体の類似度として修正候補を生成する際の情報に利用することを特徴とする請求項1記載の音声検索インタフェース装置。
  5. 単語出力手段で複数の単語が出力され、かつ当該複数の単語のうちいずれかの複数の単語が絞り込み単語として選択された場合、選択された単語と選択されていない単語のAND検索を行った場合の検索候補数を取得する検索結果絞り込み手段と、
    前記検索結果絞り込み手段が取得した検索候補数を表示する音声認識結果表示手段とを備えたことを特徴とする請求項1記載の音声検索インタフェース装置。
  6. 音声入力に対する認識結果として単語または単語列を出力する単語出力ステップと、
    任意の単語または単語列が与えられた場合、特定のデータベースを検索して前記単語または単語列の検索結果及び検索候補数を出力する検索ステップと、
    前記単語出力ステップで出力された単語と、単語辞書記憶手段に登録されている単語とのマッチングを行い、単語単位の修正候補を生成する修正候補生成ステップと、
    前記修正候補生成ステップで生成されたそれぞれの修正候補に対する検索候補数を、前記検索ステップにより取得する修正候補検索候補数取得ステップと、
    前記修正候補生成ステップで生成された修正候補と、前記修正候補検索候補数取得ステップで取得されたそれぞれの修正候補に応じた検索候補数とを出力する修正候補出力ステップとを備えた音声入力検索方法。
JP2010161779A 2010-07-16 2010-07-16 音声検索インタフェース装置及び音声入力検索方法 Expired - Fee Related JP5542559B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010161779A JP5542559B2 (ja) 2010-07-16 2010-07-16 音声検索インタフェース装置及び音声入力検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010161779A JP5542559B2 (ja) 2010-07-16 2010-07-16 音声検索インタフェース装置及び音声入力検索方法

Publications (2)

Publication Number Publication Date
JP2012022251A JP2012022251A (ja) 2012-02-02
JP5542559B2 true JP5542559B2 (ja) 2014-07-09

Family

ID=45776563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010161779A Expired - Fee Related JP5542559B2 (ja) 2010-07-16 2010-07-16 音声検索インタフェース装置及び音声入力検索方法

Country Status (1)

Country Link
JP (1) JP5542559B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331191A (zh) * 2021-01-07 2021-02-05 广州华源网络科技有限公司 一种基于大数据的语音识别系统及方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6389795B2 (ja) * 2015-04-24 2018-09-12 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム
KR101789629B1 (ko) 2016-08-29 2017-11-20 주식회사 케이티 텍스트 간의 발음 유사도를 측정하는 사용자 단말
JP7049880B2 (ja) * 2017-03-24 2022-04-07 株式会社Nttドコモ 音声認識結果比較システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
JP5008248B2 (ja) * 2003-06-26 2012-08-22 シャープ株式会社 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP4466379B2 (ja) * 2005-01-11 2010-05-26 トヨタ自動車株式会社 車載音声認識装置
JP4831314B2 (ja) * 2006-01-26 2011-12-07 株式会社ニコン 対象物認識システム
JP5028172B2 (ja) * 2007-07-13 2012-09-19 アルパイン株式会社 ナビゲーション装置
JP5201973B2 (ja) * 2007-12-13 2013-06-05 三菱電機株式会社 音声検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331191A (zh) * 2021-01-07 2021-02-05 广州华源网络科技有限公司 一种基于大数据的语音识别系统及方法

Also Published As

Publication number Publication date
JP2012022251A (ja) 2012-02-02

Similar Documents

Publication Publication Date Title
US10037758B2 (en) Device and method for understanding user intent
JP4887264B2 (ja) 音声データ検索システム
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
US11093110B1 (en) Messaging feedback mechanism
TW201203222A (en) Voice stream augmented note taking
GB2457855A (en) Speech recognition system and speech recognition system program
JPWO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
EP3736807A1 (en) Apparatus for media entity pronunciation using deep learning
JP5408631B2 (ja) 音声検索装置および音声検索方法
JP5799733B2 (ja) 認識装置、認識プログラムおよび認識方法
JP5221768B2 (ja) 翻訳装置、及びプログラム
JP2014232268A (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP5542559B2 (ja) 音声検索インタフェース装置及び音声入力検索方法
JP5538099B2 (ja) 音声入力インタフェース装置及び音声入力方法
JPWO2008150003A1 (ja) キーワード抽出モデル学習システム、方法およびプログラム
JP5436307B2 (ja) 類似文書検索装置
JP5590549B2 (ja) 音声検索装置および音声検索方法
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP5189413B2 (ja) 音声データ検索システム
Liang et al. An efficient error correction interface for speech recognition on mobile touchscreen devices
JP5669707B2 (ja) 類似文書検索装置
JP2014021535A (ja) 関連キーワード列抽出装置及び関連キーワード列抽出方法ならびに相互関係文の検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140507

R150 Certificate of patent or registration of utility model

Ref document number: 5542559

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees