JP5300974B2 - 検索装置 - Google Patents

検索装置 Download PDF

Info

Publication number
JP5300974B2
JP5300974B2 JP2011508269A JP2011508269A JP5300974B2 JP 5300974 B2 JP5300974 B2 JP 5300974B2 JP 2011508269 A JP2011508269 A JP 2011508269A JP 2011508269 A JP2011508269 A JP 2011508269A JP 5300974 B2 JP5300974 B2 JP 5300974B2
Authority
JP
Japan
Prior art keywords
search
narrowing
candidates
input
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011508269A
Other languages
English (en)
Other versions
JPWO2010116785A1 (ja
Inventor
洋平 岡登
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2011508269A priority Critical patent/JP5300974B2/ja
Publication of JPWO2010116785A1 publication Critical patent/JPWO2010116785A1/ja
Application granted granted Critical
Publication of JP5300974B2 publication Critical patent/JP5300974B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、テキスト入力または入力音声等のパタン認識に基づく入力に対する例えば施設等の名称に対する検索装置に関するものである。
文字列索引に基づく名称検索技術は、検索対象の形態素やN文字連鎖の部分文字列について、出現する名称を検索するものである。特許第3665112号公報では、部分文字列の照合に基づいて各候補のスコアを集計し、上位の候補を検索結果とする方法が開示されている。このとき、入力と完全一致する文字列でなくても類似した候補を抽出するあいまい検索が可能である。あいまい検索では、スコアが異なる複数の候補を保持しておく必要があり、完全一致検索よりも使用メモリや演算量が大きくなる。
上記で参照する文字列索引の大きさは、検索対象文字列の検索単位数に比例する。このため、検索対象が大規模になる場合、参照する文字列索引をDVD(Digital Versatile Disk)やハードディスク等の二次記憶上に配置する必要が生じる。この場合、二次記憶からの読み出しに要する処理時間が大きくなる。辞書の読み出し回数は、異なる部分文字列の種類数であり、名称のように短い入力では、ほぼ、入力文字列の長さに比例する。また、一般に、あいまい検索では、スコアが異なる複数の候補を保持しておく必要があり、完全一致検索よりもメモリや演算量が大きい。
上記検索方式を音声認識技術と組み合わせることで音声入力による検索が実現できる。特開2008-262279号公報では、音声を用いた検索方法として、音声認識を考慮した単位と、検索の単位の違いを考慮した検索手法が開示されている。この場合、音声認識時の誤認識も考慮した検索となり、さらに候補数が増加する。
検索の結果、複数の候補が生じた場合、ユーザの追加入力によって候補を絞り込めることが望ましい。特許第3134204号公報では、直前の検索結果である文書集合を母集団として絞り込みを行うハイアラーキ検索モードと、毎回の検索で常に一定の文書集合を母集合して検索するユニバース検索モードを指示操作により選択可能とする方法が開示されている。
特許第3665112号公報、文字列検索方法及び装置 特開2008-262279号公報、音声検索装置 特許第3134204号公報、情報検索用端末装置及び情報検索用端末装置における情報表示・入出力方法
前記特許文献3の特許第3134204号公報で開示された2通りの絞り込みの方式は、ユーザが絞り込み方法を指定する必要があった。また、上記方式をあいまい検索と組み合わせることが考えられる。この場合、それぞれの絞込み方式には、次の課題がある。
上記ハイアラーキ検索モードは、検索履歴として絞り込まれた候補リストを保持しておき、絞り込みのための追加入力に対して、候補リスト内の対象のみ処理を行う。このため、追加入力に対してのみ索引の参照が生じる。また、集計対象が少なく演算量が小さい。
しかし、一度、候補外となると、再び候補になることは無いため、候補が脱落しないようにする必要がある。例えば、東京都にある施設名を検索対象とした場合に、「東京」という入力に対しては膨大な数の候補が生じる。この場合、ユーザが全ての候補を確認することは困難であるにもかかわらず、検索履歴には多数候補が含まれ管理のコストが大きくなる問題がある。また、保持可能な候補数に上限がある場合、候補から脱落する場合が生じる。複数回の絞り込みや絞り込みのキャンセルを考慮すると、複数回分の検索履歴を格納しておく必要があり、管理コストも大きくなる。
上記ユニバース検索モードでは、再検索ごとに、文書母集団に対して再検索を行う。このため、検索履歴としてユーザの入力を保持すればよく検索履歴を管理するコストは小さい。しかし、常に全候補を対象として、全ての入力を処理する必要がある。このため、索引の読み出し回数が多く、集計対象の候補数も多いため、処理時間が長くなり応答性が低下する。
また、音声入力を対象とした検索の場合、特開2008-262279号公報は、検索対象全体をカバーした認識辞書を作成している。この辞書は、絞り込み結果を考慮したものではなく、絞り込みの際にも認識率が改善することは無い。
通常、ユーザは、検索対象を限定できるように入力するため、膨大な候補数となる場合はまれである。そこで、この発明は、上記を鑑みて、絞り込み検索時の管理コストを上げることなく、平均的な検索時間を改善することを目的とする。また、音声による絞り込みにおける認識精度の改善を目的とする。
この発明に係る検索装置は、
ユーザ入力を受理し、検索要求を出力する入力手段と、
入力手段からの入力内容および候補リストを含む検索履歴を格納する検索履歴格納手段と、
検索要求により検索履歴格納手段に格納される検索履歴の内容に応じて、所定のしきい値以上のスコアを有する候補数が、提示する候補数の上限値以下である場合には、検索対象を上位の候補に限定する方式を選択し前記所定のしきい値以上のスコアを有する候補数が、前記提示する候補数の上限値を越える場合には、過去入力に基づいて再検索する方式を選択することで、2方式から絞り込み方法を選択する絞り込み方式選択手段と、
選択した絞り込み方式に基づいて検索履歴から検索候補とそのスコアを設定し、入力手段より受理した文字列に基づき検索用索引を参照に候補スコアを更新する候補スコア更新手段と、
候補スコア更新手段により更新された候補数とスコアの分布に基づいて提示する候補を決定する候補決定手段と、
候補決定手段で決定された候補を名称情報データを参照してユーザに提示する候補提示手段からなる。
この発明に係る検索装置によれば、検索履歴格納手段に格納される検索履歴の内容に応じて、検索対象を上位の候補に限定する方式と、過去入力に基づいて再検索する方式の2方式から絞り込み方法を選択する。このため、妥当性の高い候補が少ない場合は、対象を限定して絞り込みを行い、演算時間を短くできる。また、妥当性の高い候補が多い場合は、検索履歴の入力文字列を参照し、範囲を広げた検索を行うことができ、小さい検索履歴サイズであっても、漏れが生じず、平均的な演算時間が短い検索が可能となる。
この発明が想定する検索装置の全体構成図である。 この発明の実施の形態1に係る検索装置の構成を示す機能ブロック図である。 名称情報辞書例の説明図である。 文字2-gramに基づく検索用索引例の説明図である。 検索履歴例の説明図である。 集計スコアと集計フラグを表す集計用テーブルの説明図である。 実施の形態1に係る検索装置の検索処理動作を示すフローチャートである。 2つの入力に対する検索結果の候補の順位とスコアの特性図である。 この発明の実施の形態2に係る検索装置の構成を示す機能ブロック図である。 バイグラム言語モデルの連接確率Pを表す説明図である。 3個の名称および構成単語を認識する絞り込み用認識辞書例の説明図である。 実施の形態2に係る検索装置の検索処理動作を示すフローチャートである。 この発明の実施の形態3に係る検索装置の構成を示す機能ブロック図である。 実施の形態3に係る検索装置の検索処理動作を示すフローチャートである。
以下、図面を参照しながらこの発明に好適な実施の形態を詳細に説明する。
実施の形態1.
図1は、この発明が想定する検索装置の全体構成である。入力部10は、テキスト、音声等による入力を受理し、必要に応じて大語彙音声認識辞書103を参照して検索部20が受理可能な形式へ変換する。検索部20は検索用索引102を参照してあいまい検索を行う。提示部30は、名称情報辞書101を参照し検索部20による検索結果の名称や付帯情報をユーザへ提示する。
名称情報辞書101、検索用索引102および大語彙音声認識辞書103は、検索対象のデータから作成される。検索対象が大規模となると、これらのデータサイズも大きくなるため、二次記憶装置40上に配置される。
図2は、この発明の実施の形態1に係る検索装置の構成を示す機能ブロック図である。
検索装置は、名称情報辞書101、検索用索引102、入力部10の構成手段の一例である入力手段201、検索履歴格納手段202、絞り込み方式選択手段203、候補スコア更新手段204、候補決定手段205、提示部30の構成手段の一例である候補提示手段206で構成されている。
この発明の特徴的な部分は、絞り込み方式選択手段203を備え、検索履歴格納手段202から読み出した検索履歴に応じて絞り込み方式を決める点である。以下、各機能ブロックの動作を説明する。
名称情報辞書101は、ユーザへ提示するための名称ID(identification)に対応する表記や発音等の名称情報である。図3は、名称IDと名称の読みからなる名称情報辞書101の例である。名称情報辞書101は名称IDと対応付けられる情報であれば、単語分割結果や表記なども登録しておくことができる。
検索用索引102は、部分文字列に対して該当する名称のIDを格納する。入力の部分文字列から名称IDを参照して、名称IDごとのスコアを更新できる。部分文字列の単位は事前に決めておく必要があり、単語(日本語の場合、形態素)や文字N-gram等が使われる。名称ID以外に名称内の位置情報やtf・idf等の情報検索上の重要度等を付与しておくことも可能である。図4は、図3と対応する文字2-gramに基づく検索用索引102の例である。検索用索引は、任意の2文字から該当する名称IDが参照可能となっている。
入力手段201は、ユーザの入力を受理して検索用の文字列を候補スコア更新手段204へ出力する。
検索履歴格納手段202は、それまでのユーザの検索履歴を格納する。検索履歴とは、入力IDと、ユーザの入力文字列、その時点の検索結果を構成する名称IDおよびそのスコアからなる。絞り込みが生じるごとに、検索履歴へ追加していき、絞込みを解除すると、検索履歴の候補は全てクリアされる。検索履歴は、適当なスコアのしきい値や提示可能な候補数で打ち切られる。図5は、検索履歴の例である。
絞り込み方式選択手段203は、検索履歴格納手段202に検索履歴が格納されている場合、検索履歴格納手段202に格納された候補数、スコア等に基づいて絞り込み方法を選択する。
候補スコア更新手段204は、入力手段201より取得した文字列について、文字列を構成する部分文字列に基づいて、候補スコア更新手段204に備えられた集計用テーブルの名称IDのスコアを更新する。集計用テーブルは、名称IDごとのスコアと、絞り込みにより集計対象となっていることを示す集計フラグが付与される。図6は、集計用テーブルの集計スコアと集計フラグを表す例である。検索履歴が無い場合、集計用テーブルの全ての名称IDのスコアをクリアし、集計用テーブルの集計フラグをセットする。
候補決定手段205は、候補スコア更新手段204で取得したスコアが所定の値を超えた候補からユーザに提示するため所定の数以下の候補と、検索用に保持する候補の名称IDとそのスコアを集計用テーブルから抽出し、候補提示手段206と検索履歴格納手段202へ出力する。
候補提示手段206は、名称情報辞書101を参照し、候補決定手段205から取得した名称IDリストに対応する名称をユーザへ提示する。
次に、この発明の実施の形態1に係る検索装置の動作を説明する。
図7は、実施の形態1に係る検索装置の検索処理動作を示すフローチャートである。ここでは、検索履歴格納手段202にh回の検索履歴S[i](i=1..h)が格納されているものとする。
入力手段201は、ユーザ入力の文字列を取得し、検索要求を出す(ステップS1001)。
絞り込み方式選択手段203は、検索要求があると、検索履歴格納手段202を参照して入力文字列に対する検索履歴があるか(履歴数hが1以上か)確認する(ステップS1002)。履歴数が0の場合、集計用テーブルの全ての候補について検索対象の集計フラグをセットし、スコアを0にクリアして、ステップS1008へ進む。
履歴数が1以上の場合、絞り込み方式選択手段203は、検索履歴格納手段202に格納される検索履歴の合計の入力文字列の長さ、最終履歴の候補数、最終履歴の候補スコア分布の少なくとも一つを参照し、(1)過去入力に基づいて再検索する:集計用テーブルのスコア再算出、(2)検索対象を上位の候補に限定する:検索履歴格納手段202が保持する候補内に限定、から絞り込み方法を選択する(ステップS1003)。絞り込み方法選択の詳細は後述する。スコア再算出の場合はステップS1004へ、検索履歴格納手段202が保持する候補内に限定する場合はステップS1007へ進む。
スコア再算出が選択された場合、過去履歴の入力に基づいて集計用テーブルの名称IDごとのスコアを再算出する。まず、集計用テーブルの全ての候補について集計フラグをセットし、参照する履歴番号iを1にセットする(ステップS1004)。
次に、候補スコア更新手段204は、履歴情報S[i]に含まれる入力文字列から検索用索引102の部分文字列索引を読み出し、候補ごとのスコアを加算する(ステップS1005)。
参照する履歴iが格納されている履歴数hより小さければ、iに1を加算し、ステップS1005に戻る。そうでなければステップS1008に進む(ステップS1006)。この結果、全ての履歴の入力文字列を考慮したスコアが候補の名称IDに付与される。
絞り込み方法を検索履歴格納手段202が保持する候補内に限定する場合、候補スコア更新手段204は、集計用テーブルの最新の検索履歴S[h]に保持された名称IDの集計フラグをセットし、スコアを更新する(ステップS1007)。
候補スコア更新手段204は、入力手段201から取得した文字列に対応する検索用索引102を参照するための部分文字列を取得し、検索用索引102を参照して部分文字列に基づくスコアを加算する(ステップS1008)。
候補決定手段205は、候補スコア更新手段204で取得したスコアが所定の値を超えた候補からユーザに提示する提示用の名称IDおよびそのスコアを所定の数以下集計用テーブルから抽出し、提示候補を確定する(ステップS1009)。
検索履歴格納手段202は、候補決定手段205が集計用テーブルから抽出した入力文字列と、提示候補の名称ID、スコアを格納する(ステップS1010)。
候補提示手段206は、名称情報辞書101を参照して、提示する名称IDに対応する名称等の提示内容を取得し、ユーザへ提示する(ステップS1011)。
(絞り込み方式の選択基準)
図2の絞り込み方式選択手段203において絞り込み方法の選択基準を説明する。
図8は、ある入力(A)(B)に対する検索結果の候補を、X軸が順位、Y軸がスコアとして表したものである。候補の妥当性からしきい値が設定される。また、妥当な応答性を確保するため同時に提示する候補数の上限が設定される。
(A)、(B)2つの入力を比較すると、入力(A)は、入力(B)と比べて少ない候補数でスコアが低下している。これは、入力(A)が特定の名称にのみ出現する表現で、候補を絞り込む効果が大きかったことを表す。一方、入力(B)は、入力(A)と同一の順位でのスコアが大きい。これは、入力(B)が、ありふれた表現であり、候補を絞り込む効果が小さいことを表す。
入力(A)のスコア分布の場合、妥当性の高い候補は、所定のしきい値・候補数内に含まれると考えられる。一方、入力(B)のスコア分布のとき、所定の候補数までと、類似した候補がそれ以外にも多数あると考えられる。上記において、入力(A)の場合は、妥当性の高い名称は保持する候補内に含まれていると考えられる。このため、追加の入力に対して保持する候補内に限定して絞り込む。この場合、追加入力についてのみ、限定した候補を対象に集計を行うため、演算量が小さい。
入力(B)の場合、候補数が多数となり、保持する名称数に制限がある場合、妥当性のある名称が保持する候補数から脱落している可能性がある。このため、検索履歴に含まれる全ての入力を用いて再度検索を行う。入力(A)の場合と比べて、入力(B)の場合、演算量が大きい。
ユーザ入力の大半は、絞り込み効果のある(A)のタイプの入力であるため、両者を組み合わせることで平均的な演算量を抑制する。一般的には(A)よりも(B)の方が短い入力である場合が多い。このため、スコアしきい値における候補数の他、入力の長さも上記判別を行う基準とすることができる。
なお上記説明において、入力手段201はユーザのテキスト入力を取得することとしたが、大語彙認識辞書103を参照して、音声入力を認識してテキストで出力しても同様である。
以上のように、この実施の形態1によれば、候補のスコア分布、候補数に基づいて絞り込み方法を制御する。このため、妥当性の高い候補が少ない場合は、対象を限定して絞り込みを行い、演算時間を短くできる。また、妥当性の高い候補が多い場合は、検索履歴の入力文字列を参照し、範囲を広げた検索を行う。このため、小さい検索履歴サイズであっても、漏れが生じず、平均的な演算時間が短い検索が実現される。
実施の形態2.
図9は、この発明の実施の形態2に係る検索装置の構成を示す機能ブロック図である。実施の形態2に係る検索装置は、実施の形態1の検索装置に絞り込み用認識辞書生成手段302が追加して設けられている。また、入力は音声であることを想定している。以下、実施の形態1と同一の構成には図2で使用した符号と同一の符号を付し、説明を省略または簡略化する。
大語彙認識辞書103は、検索対象の名称情報に対するユーザの検索表現を認識するために事前に作成された音声認識用の辞書である。一般に音声認識では、音声認識辞書によって次に来る単語が限定可能である程、高い認識率が期待できる。以下の説明では、認識辞書の例として大語彙音声認識で広く用いられるN-GRAM言語モデル(N=2)に基づく認識辞書について説明する。
N-gram言語モデルは、直前のN-1単語に基づいて次に来る単語の確率を推定するモデルである。N=2の場合は、直前の単語から次の単語を予測し、バイグラムと呼ばれる。バイグラム言語モデルは、認識辞書を構成する任意の2単語w1とw2の連接確率P(w2|w1)に基づいて、認識中の単語から次に来る単語を予測する。図10は、認識対象の単語w1、w2の連接確率P(w2|w1)を表す図である。図中、単語STARTとENDは、文頭、文末を表す擬似的な単語である。連接確率P(w2|w1)は、実際の発声内容や検索対象の名称等の学習データ中の出現頻度に基づいて算出する。ただし、学習データ量には限りがあり、例えば5000単語に対する2千5百万のバイグラム(5000の2乗)の膨大な組合せがある。
このため、連接する可能性があるにもかかわらず、学習データ中に未出現となる連接可能性のある単語列が生じうる。この場合、確率を0とすると、該当する単語列を全く認識できなくなってしまう。そこで、未出現の単語の組み合わせに対しても小さな確率を割り当てる言語モデルのスムージングが用いられる。例えば、図10中の「START・コウエン」という単語の組み合わせは、学習データに存在せず、小さい確率が割り当てられている例である。
入力部10の一実施形態である音声入力手段301は、ユーザの音声入力を受理し、認識辞書を参照して音声認識して文字列を出力する。認識辞書は、想定するユーザの発話を限定することで認識率を高くする効果がある。上記絞り込み用認識辞書生成手段302が認識辞書を出力した場合、その認識辞書を参照し、そうでない場合は事前に作成したユーザの多様な検索表現をカバーする大語彙認識辞書103を参照する。
認識辞書を用いた、一般的な音声認識方法は、非特許文献4および非特許文献5に詳しく説明されている。
非特許文献4:「音声認識の基礎(上)(下)」、Lawrence Rabiner, Biing-Hwang Juang共著、古井貞煕監訳、NTTアドバンステクノロジ株式会社
非特許文献5:「SPOKEN LANGUAGE PROCESSING -A guide to Theory, Algorithm and System Development-」、Xuedong Huang, Alex Acero, Hsiao-Wuen Hon共著、Prentice Hall.
絞り込み方式選択手段203は、絞り込み入力が生じた際、検索履歴格納手段202に格納された検索履歴に基づいた絞り込み方法に応じて、絞り込み用認識辞書を生成するかどうか決定する。
絞り込み用認識辞書生成手段302は、絞り込み方式選択手段203が選択した絞り込み方法が検索履歴格納手段202に格納された候補内に限定している場合、対象となっている名称IDと対応する名称情報を取得し、名称情報101から絞り込み用の辞書を生成する。
図11は、図3に示した3個の名称および構成する単語を認識する絞り込み用認識辞書の例である。音声認識対象は、「START」で示されたノードから「END」で示されたノードへの経路である。途中、通過するカタカナで記載されたノードは、音声認識の単位を表す。図中、単語を単位としてスキップする経路が設定されており、部分的な表現が受理可能となっている。また、「カワサキ」と「ヨコハマ」で共通する音節、末尾の「コウエン」はマージされて、ネットワークのサイズを小型化している。
上記に示したネットワークで表現された認識辞書は、絞り込み対象に関する発話のみ認識するように作成できる。このため、全ての検索対象を想定し、多様な表現を受理する大語彙音声認識辞書103と比べて非常にコンパクトとなり、絞込み対象に対する認識率が高くなる。ただし、辞書の作成には、対象とする名称の数に応じた演算量が必要となるため、絞り込み対象が多い場合、短時間で辞書を生成することが困難である。
次に、この発明の実施の形態2に係る検索装置の動作を説明する。図12は、実施の形態2に係る検索装置の検索処理動作を示すフローチャートである。図中の記号h、S[i](i=1..h)の意味は図7と同様である。
絞り込み用認識辞書生成手段302は、検索履歴格納手段202および絞り込み方式選択手段203の状態を参照し、絞り込みかつ検索履歴格納手段202が保持する候補内限定処理となっているかどうか確認する(ステップS2001)。
絞り込みかつ検索履歴格納手段202が保持する候補内限定の場合、絞り込み用認識辞書生成手段302は、名称情報辞書101、検索履歴格納手段202を参照し、対象となる候補で出現しうる表現を受理可能な認識辞書を生成し、音声入力手段301の認識辞書とする(ステップS2002)。
そうでない場合、音声入力手段301は、大語彙音声認識辞書103を読み込む(ステップS2003)。
音声入力手段301は、設定された認識辞書に基づいてユーザの発話を音声認識し、認識結果文字列を取得し、その文字列を候補スコア更新手段204に出力して、検索要求をする(ステップS2004)。
候補スコア更新手段204は、検索要求に対して、まず検索履歴格納手段202に検索履歴があるか(履歴数hが1以上か)確認する(ステップS2005)。履歴数が0の場合、集計用テーブルの全ての候補について検索対象の集計フラグをセットし、スコアを0にクリアして、ステップS2012へ進む。
履歴数が1以上の場合、絞り込み方式選択手段203は、検索履歴格納手段202に格納される合計の入力文字列の長さ、最終履歴の候補数、最終履歴の候補スコア分布の少なくとも一つを参照し、(1)過去入力に基づいて再検索する:集計用テーブルのスコア再算出、(2)検索対象を上位の候補に限定する:検索履歴格納手段202が保持する候補内に限定、から込み方法を選択する(ステップS2006)。スコア再算出の場合ステップS2007、検索履歴格納手段202が保持する候補内に限定する場合ステップS2010へ進む。
スコア再算出が選択された場合、集計用テーブルの全ての候補について集計フラグをセットし、検索履歴格納手段202に格納された過去の検索履歴を参照してスコアを再算出する。まず、参照する履歴番号iを1にセットする(ステップS2007)。
次に、候補スコア更新手段204は、履歴情報S[i]に含まれる入力文字列から検索用索引の部分文字列索引を読み出し、候補ごとのスコアを加算する(ステップS2008)。
参照履歴iが履歴数hより小さければ、iを1加算し、ステップS2008に戻る。そうでなければステップS2011に進む(ステップS2009)。この結果、集計用テーブルの全ての履歴を考慮したスコアが候補の名称IDに付与される。
保持する候補内に限定する場合、候補スコア更新手段204は、最新の検索履歴S[h]に保持された名称IDの集計フラグをセットし、スコアを更新する(ステップS2010)。
候補スコア更新手段204は、入力手段301から取得した文字列に対応する検索用索引を参照するための部分文字列を取得し、検索用索引102を参照して部分文字列に基づくスコアを加算する(ステップS2011)。
候補決定手段205は、候補スコア更新手段204で取得したスコアが所定の値を超えた候補からユーザに提示する所定の数以下の提示用名称IDおよびそのスコアを集計用テーブルから抽出し、提示候補を確定する(ステップS2012)。
検索履歴格納手段202は、候補決定手段205で抽出された入力文字列と、提示候補の名称ID、スコアを格納する(ステップS2013)。
候補提示手段206は、名称情報辞書101を参照し、候補決定手段205で抽出された提示する名称IDに対応する名称等の提示内容を取得し、ユーザへ提示する(ステップS1014)。
以上のように、この実施の形態2によれば、候補数を考慮した検索履歴に応じて絞り込み辞書を生成する。このため、対象が限定されている場合に限り、限定された名称を対象とする認識辞書を動的に生成することで、大きな処理時間を要することなく、認識精度を改善する。候補数が多数の場合は、認識辞書生成に時間を要する一方で、絞り込み候補に限定する効果が相対的に小さくなるため、絞り込み用の認識辞書を生成しない。
実施の形態3.
図13は、この発明の実施の形態3に係る検索装置の構成を示す機能ブロック図である。実施の形態3に係る検索装置は、実施の形態2の検索装置に絞り込み用認識辞書適応化手段401を追加して設けている。以下、実施の形態2と同一の構成には図9で使用した符号と同一の符号を付し、説明を省略または簡略化する。
音声入力手段301は、ユーザの音声入力を受理し、認識辞書を参照して音声認識して文字列を出力する。認識辞書は、検索履歴が無い場合は、大語彙認識辞書103を参照する。検索履歴がある場合、絞り込み方式選択手段203に基づいて、絞り込み用認識辞書生成手段301または絞り込み用認識辞書適応化手段401の何れか一方から出力される認識辞書を参照する。
絞り込み用認識辞書適応化手段401は、絞り込み方式選択手段203の指示により、検索履歴の入力文字列を参照し、大語彙認識辞書103 の与える単語または単語列の確率を絞り込み用に適応化する。具体的には、認識辞書がバイグラム言語モデルの場合、検索履歴に格納された最後の音声認識結果の入力に後続する表現の出現確率を高くする。例えば、図10に示したバイグラムにおいて、直前発話が「カワサキ」である場合、(w1,w2)=(カワサキ,コウエン)の確率は、0.2である。絞込み時には、直前発話に後続する単語が出現しやすいことを考慮し、「カワサキ」をSTARTに置き換えた(w1,w2)=(START,コウエン)の確率を上げる。この結果、多様な表現を受理可能な大語彙認識辞書103を用いた場合よりも絞り込み発話に対して高い認識率が得られる。
上記に示した適応化は、検索履歴格納手段202に保持された検索履歴の文字列によって構築済みの大語彙認識辞書の確率の一部を修正するものである。このため、絞り込みによる精度改善の効果は、辞書再作成よりも小さいものの、検索結果の候補数によらず、一定の演算量による適応化が可能である。
図14は、実施の形態3に係る検索装置の検索処理動作を示すフローチャートである。図中の記号h、S[i](i=1..h)の意味は図12と同様である。
絞り込み用認識辞書生成手段302は、検索履歴格納手段202および絞り込み方式選択手段203の状態を参照し、絞り込みかつ候補内限定処理となっているかどうか確認する(ステップS3001)。
絞り込みかつ候補内限定の場合、絞り込み用認識辞書生成手段302は、名称情報辞書101、検索履歴格納手段202を参照し、対象となる候補で出現しうる表現を受理可能な認識辞書を生成し、音声認識手段301の認識辞書とする(ステップS3002)。
そうでない場合、絞り込み用認識辞書適応化手段401は、大語彙認識辞書103を読み込み、検索履歴に記載された文字列に基づいて認識辞書の単語連鎖確率を絞り込み用に適応化し、音声入力手段301の適応化認識辞書とする(ステップS3003)。
音声入力手段301は、設定された認識辞書に基づいてユーザの発話を音声認識し、認識結果文字列を取得する(ステップS3004)。
候補スコア更新手段204は、検索要求に対して、まず検索履歴格納手段202に入力履歴があるか(履歴数hが1以上か)確認する(ステップS3005)。履歴数が0の場合、全ての候補について検索対象の集計フラグをセットし、スコアを0にクリアして、ステップS3012へ進む。
履歴数が1以上の場合、絞り込み方式選択手段203は、入力履歴に格納される合計の入力文字列の長さ、最終履歴の候補数、最終履歴の候補スコア分布の少なくとも一つを参照し、(1)過去入力に基づいて再検索する:集計用テーブルのスコア再算出、(2)検索対象を上位の候補に限定する:検索履歴格納手段202が保持する候補内に限定、から込み方法を選択する(ステップS3006)。スコア再算出の場合ステップS3007、保持する候補内に限定する場合ステップS3010へ進む。
スコア再算出が選択された場合、集計用テーブルの全ての候補について集計フラグをセットし、過去履歴を参照してスコアを再算出する。まず、参照する履歴番号iを1にセットする(ステップS3007)。
次に、候補スコア更新手段204は、履歴情報S[i]に含まれる入力文字列から部分文字列索引を読み出し、候補ごとのスコアを加算する(ステップS3008)。
参照履歴iが履歴数hより小さければ、iを1加算し、ステップS3008に戻る。そうでなければステップS3011に進む(ステップS3009)。この結果、集計用テーブルの全ての履歴を考慮したスコアが候補の名称IDに付与される。
保持する候補内に限定する場合、候補スコア更新手段204は、最新の検索履歴S[h]に保持された名称IDの集計フラグをセットし、スコアを更新する(ステップS3010)。
候補スコア更新手段204は、入力手段201から取得した文字列に対応する検索用索引を参照するための部分文字列を取得し、検索用索引101を参照して部分文字列に基づくスコアを加算する(ステップS3011)。
候補決定手段205は、候補スコア更新手段204で取得したスコアが所定の値を超えた候補からユーザに提示する所定の数以下の提示用名称IDおよびそのスコアを集計用テーブルから抽出し、提示候補を確定する(ステップS3012)。
検索履歴格納手段202は、候補決定手段205が抽出した入力文字列と、提示候補の名称ID、スコアを格納する(ステップS3013)。
候補提示手段206は、名称情報辞書102を参照し、候補決定手段205が確定した提示する名称IDに対応する名称等の提示内容を取得し、ユーザへ提示する(ステップS1014)。
以上のように、この実施の形態3によれば、候補数が少数の場合は、対象候補に限定した絞り込み用の音声認識辞書を生成し、候補数が多数の場合は、大語彙認識辞書103を検索履歴の入力に基づいて適応化する。絞り込み対象に合わせた絞り込み用の認識辞書を使用するため、大量の処理時間を要することなく、大語彙認識辞書を参照する場合と比べて認識精度を改善する。
この発明による検索装置は文章や施設名称の検索装置に適用され、特に他の装置に組み込まれる比較的に規模の小さい検索装置に対し好適で利用される可能性がある。

Claims (3)

  1. ユーザ入力を受理し、検索要求を出力する入力手段と、
    入力手段からの入力内容および候補リストを含む検索履歴を格納する検索履歴格納手段と、
    検索要求により検索履歴格納手段に格納される検索履歴の内容に応じて、所定のしきい値以上のスコアを有する候補数が、提示する候補数の上限値以下である場合には、検索対象を上位の候補に限定する方式を選択し前記所定のしきい値以上のスコアを有する候補数が、前記提示する候補数の上限値を越える場合には、過去入力に基づいて再検索する方式を選択することで、2方式から絞り込み方法を選択する絞り込み方式選択手段と、
    選択した絞り込み方式に基づいて検索履歴から検索候補とそのスコアを設定し、入力手段より受理した文字列に基づき検索用索引を参照に候補スコアを更新する候補スコア更新手段と、
    候補スコア更新手段により更新された候補数とスコアの分布に基づいて提示する候補を決定する候補決定手段と、
    候補決定手段で決定された候補を名称情報データを参照してユーザに提示する候補提示手段からなる検索装置。
  2. 音声認識用の大語彙認識辞書と、
    前記絞り込み方式選択手段が上位の候補に限定する方式を選択した場合に、対象候補の名称情報に基づいて絞り込み用認識辞書を生成する絞り込み用認識辞書生成手段を備え、
    前記入力手段は音声を入力して、前記絞り込み方式選択手段が上位の候補に限定する方式を選択した場合は、絞り込み用認識辞書を用い、他の場合は大語彙認識辞書を用いて音声認識を行いテキストを出力する構成にされた請求項1記載の検索装置。
  3. 前記絞り込み方式選択手段が過去入力に基づく再検索が選択された場合に、検索履歴に基づいて大語彙認識辞書を、想定される絞り込み発話へ適応させるように修正して、適応化認識辞書とする絞り込み用認識辞書適応化手段を備え、
    前記入力手段は音声を入力して、絞り込み方式選択手段に従い絞り込み用認識辞書または適応化認識辞書を読み込み、音声を認識してテキストを出力する構成にされた請求項2記載の検索装置。
JP2011508269A 2009-04-06 2010-02-09 検索装置 Expired - Fee Related JP5300974B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011508269A JP5300974B2 (ja) 2009-04-06 2010-02-09 検索装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009092138 2009-04-06
JP2009092138 2009-04-06
PCT/JP2010/051874 WO2010116785A1 (ja) 2009-04-06 2010-02-09 検索装置
JP2011508269A JP5300974B2 (ja) 2009-04-06 2010-02-09 検索装置

Publications (2)

Publication Number Publication Date
JPWO2010116785A1 JPWO2010116785A1 (ja) 2012-10-18
JP5300974B2 true JP5300974B2 (ja) 2013-09-25

Family

ID=42936074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011508269A Expired - Fee Related JP5300974B2 (ja) 2009-04-06 2010-02-09 検索装置

Country Status (5)

Country Link
US (1) US20110320464A1 (ja)
EP (1) EP2418589A4 (ja)
JP (1) JP5300974B2 (ja)
CN (1) CN102365639B (ja)
WO (1) WO2010116785A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5083367B2 (ja) * 2010-04-27 2012-11-28 カシオ計算機株式会社 検索装置、検索方法、ならびに、コンピュータプログラム
US8805828B1 (en) * 2012-01-13 2014-08-12 Google Inc. Providing information regarding prior searches
US8918408B2 (en) * 2012-08-24 2014-12-23 Microsoft Corporation Candidate generation for predictive input using input history
CN103077718B (zh) * 2013-01-09 2015-11-25 华为终端有限公司 语音处理方法、系统和终端
JP6064629B2 (ja) * 2013-01-30 2017-01-25 富士通株式会社 音声入出力データベース検索方法、プログラム、及び装置
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
JP2014229272A (ja) * 2013-05-27 2014-12-08 株式会社東芝 電子機器
US10452695B2 (en) * 2017-09-22 2019-10-22 Oracle International Corporation Context-based virtual assistant implementation
CN107731229B (zh) * 2017-09-29 2021-06-08 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN109840062B (zh) * 2017-11-28 2022-10-28 株式会社东芝 输入辅助装置以及记录介质
CN111274265B (zh) * 2020-01-19 2023-09-19 支付宝(杭州)信息技术有限公司 基于多种检索方式融合检索的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02189680A (ja) * 1989-01-18 1990-07-25 Nec Corp 情報検索方式
JPH0528190A (ja) * 1991-07-19 1993-02-05 Hitachi Ltd 情報検索用端末装置
JP2001282285A (ja) * 2000-03-31 2001-10-12 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置、並びにそれを用いた番組指定装置
JP2001357064A (ja) * 2001-04-09 2001-12-26 Toshiba Corp 情報共有支援システム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
JP3665112B2 (ja) 1995-09-26 2005-06-29 新日鉄ソリューションズ株式会社 文字列検索方法及び装置
US6757718B1 (en) * 1999-01-05 2004-06-29 Sri International Mobile navigation of network-based electronic information using spoken input
DE102005030967B4 (de) * 2005-06-30 2007-08-09 Daimlerchrysler Ag Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
JP5072415B2 (ja) 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
US8090738B2 (en) * 2008-05-14 2012-01-03 Microsoft Corporation Multi-modal search wildcards

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02189680A (ja) * 1989-01-18 1990-07-25 Nec Corp 情報検索方式
JPH0528190A (ja) * 1991-07-19 1993-02-05 Hitachi Ltd 情報検索用端末装置
JP2001282285A (ja) * 2000-03-31 2001-10-12 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置、並びにそれを用いた番組指定装置
JP2001357064A (ja) * 2001-04-09 2001-12-26 Toshiba Corp 情報共有支援システム

Also Published As

Publication number Publication date
US20110320464A1 (en) 2011-12-29
EP2418589A4 (en) 2012-09-12
WO2010116785A1 (ja) 2010-10-14
EP2418589A1 (en) 2012-02-15
CN102365639A (zh) 2012-02-29
JPWO2010116785A1 (ja) 2012-10-18
CN102365639B (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
JP5300974B2 (ja) 検索装置
US8380505B2 (en) System for recognizing speech for searching a database
US9418152B2 (en) System and method for flexible speech to text search mechanism
JP5089955B2 (ja) 音声対話装置
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
JP4105841B2 (ja) 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US6823493B2 (en) Word recognition consistency check and error correction system and method
US20080255841A1 (en) Voice search device
JPWO2010100977A1 (ja) 音声認識装置
JPWO2006040971A1 (ja) 対話支援装置
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4755478B2 (ja) 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
Parlak et al. Performance analysis and improvement of Turkish broadcast news retrieval
JP2013125144A (ja) 音声認識装置およびそのプログラム
JP2007334429A (ja) キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
Wang Experiments in syllable-based retrieval of broadcast news speech in Mandarin Chinese
JP6718787B2 (ja) 日本語音声認識モデル学習装置及びプログラム
JP5590549B2 (ja) 音声検索装置および音声検索方法
JP6126965B2 (ja) 発話生成装置、方法、及びプログラム
Seide et al. Towards an automated directory information system.
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
WO2009147745A1 (ja) 検索装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130618

R150 Certificate of patent or registration of utility model

Ref document number: 5300974

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees