JP2012043000A - 検索装置、検索方法、及び、プログラム - Google Patents

検索装置、検索方法、及び、プログラム Download PDF

Info

Publication number
JP2012043000A
JP2012043000A JP2010180944A JP2010180944A JP2012043000A JP 2012043000 A JP2012043000 A JP 2012043000A JP 2010180944 A JP2010180944 A JP 2010180944A JP 2010180944 A JP2010180944 A JP 2010180944A JP 2012043000 A JP2012043000 A JP 2012043000A
Authority
JP
Japan
Prior art keywords
word
search result
word string
unit
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010180944A
Other languages
English (en)
Inventor
Yukinori Maeda
幸徳 前田
Hitoshi Honda
等 本田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010180944A priority Critical patent/JP2012043000A/ja
Priority to US13/198,158 priority patent/US8688725B2/en
Publication of JP2012043000A publication Critical patent/JP2012043000A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】音声検索において、利便性の高い検索結果を提供する。
【解決手段】マッチング部56は、複数の検索結果対象単語列それぞれについて、入力音声の音声認識結果とのマッチングを、発音を表す発音シンボルを用いて行い、生成部57は、そのマッチング結果に基づいて、入力音声に対する検索結果としての検索結果単語列を生成する。単語選択部63は、検索結果単語列となった検索結果対象単語列とのマッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、検索結果単語列の単語の中で強調する強調対象単語を選択し、強調変換部64は、検索結果単語列を、その検索結果単語列の単語のうちの強調対象単語を強調した強調単語列に変換する。本発明は、例えば、音声検索を行う場合に適用できる。
【選択図】図2

Description

本発明は、検索装置、検索方法、及び、プログラムに関し、特に、例えば、音声検索において、利便性の高い検索結果を提供することができるようにする検索装置、検索方法、及び、プログラムに関する。
ユーザから入力される音声である入力音声を用い、その音声に対応するテキスト等の単語列を検索する音声検索の方法としては、例えば、音声認識装置のみを用いる方法がある(例えば、特許文献1を参照)。
音声認識装置のみを用いる音声検索では、音声認識装置において、あらかじめ辞書に登録された単語(語彙)の並びを、音声認識結果の対象として、入力音声の音声認識が行われ、その音声認識結果が、入力音声に対応する単語列の検索の結果である検索結果単語列として出力される。
したがって、音声認識装置のみを用いる音声検索では、入力音声に対応する単語列の検索結果の対象となる単語列(以下、検索結果対象単語列ともいう)は、音声認識結果の対象である、辞書に登録された単語の並びである単語列(本明細書では、1つの単語を含む)だけであるため、ユーザの発話は、音声認識に用いられる辞書に登録された単語の並びに制限される。
そこで、近年においては、ボイスサーチ(Voice Search)と呼ばれる音声検索の方法が提案されている。
ボイスサーチでは、N-gram等の言語モデルを用いて、連続音声認識が行われ、その音声認識結果と、音声認識に用いられる辞書とは別に用意されたDB(Database)に登録されたテキストとのマッチング(DBに登録されたテキストからの、音声認識結果に対応するテキストのテキスト検索)が行われる。
そして、そのマッチングの結果に基づき、音声認識結果にマッチする最上位の、又は、上位N位以内のテキストが、検索結果単語列として出力される。
ボイスサーチでは、音声認識に用いられる辞書とは別に用意されたDBに登録されたテキストが、検索結果対象単語列となるため、そのDBに、多数のテキストを登録しておくことにより、その多数のテキストを、検索結果対象単語列として、音声検索を行うことができる。
すなわち、ボイスサーチによれば、ユーザが、音声認識に用いられる辞書に登録された単語以外の単語を含む発話を行っても、DBに登録された検索結果対象単語列としてのテキストの範囲内で、ある程度の精度の音声検索を行うことができる。
なお、音声及び画像が格納されたマルチメディアファイルを対象として音声認識を行うことで、マルチメディアファイルの音声から、索引付けのためのテキストを生成しておき、話者識別に基づいて、マルチメディアファイルの音声を検索する方法が提案されている(例えば、特許文献2を参照)。
特開2001-242884号公報 特開2000-348064号公報
ところで、例えば、Web上で提供される検索サイト(Google等)では、ユーザが、テキストによりキーワードを入力すると、ブラウザにおいて、キーワードの検索結果が表示されるが、その検索結果においては、キーワードに対応する部分が、太字等で強調表示される(強調して表示される)。
ここで、検索サイトでは、キーワードのテキスト検索が行われ、そのテキスト検索の検索結果のうちの、表記がキーワードに完全に一致するテキストが、キーワードに対応する部分として、強調表示される。
さらに、検索サイトでは、テキスト検索の検索結果のうちの、表記がキーワードと等価なテキスト等も、キーワードに対応する部分として、強調表示される。
具体的には、例えば、キーワード「Sony」のテキスト検索の検索結果に、表記がキーワード「Sony」と等価なテキスト「ソニー」が含まれる場合には、そのテキスト「ソニー」も、キーワードに対応する部分として、強調表示される。
以上のように、検索結果のうちの、キーワードに対応する部分を強調表示することで、利便性の高い検索結果を提供することができる。
すなわち、キーワードに対応する部分を強調表示した検索結果によれば、ユーザは、その検索結果が検索された理由を把握することができるので、検索結果が検索された理由が分からないことに起因するストレスを感じることを防止することができる。
さらに、キーワードに対応する部分を強調表示した検索結果によれば、ユーザは、複数の検索結果の中から、所望の検索結果を、直感的に、迅速に見つけ出すことができる。
ボイスサーチにおいても、検索結果対象単語列からの、入力音声の音声認識結果のテキスト検索の検索結果である検索結果単語列のうちの、表記がテキスト検索で音声認識結果に一致(完全に一致、又は、一部が一致)した部分を、入力音声に対応する部分として、強調表示することで、利便性の高い検索結果(検索結果単語列)を提供することができる。
すなわち、例えば、ユーザが、入力音声「ローマ」を発話し、その音声認識結果「ローマ」のテキスト検索によって、テキスト「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」が、検索結果単語列として得られたとする。
特に、検索結果単語列「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」のような文字数の多いテキストについては、入力音声に対応する部分を強調せずに表示すると、ユーザは、一見しただけでは、入力音声の音声認識結果に一致するテキスト「ローマ」を見つけることが困難なことがあり、その結果、テキスト「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」が検索された理由が分からずに、ストレスを感じることがある。
これに対して、検索結果単語列「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」を、「世界遺産都市の遺産イタリア”ローマ”ベネチアナポリフィレンツェ」のように、入力音声に対応する部分「ローマ」を強調して表示した場合には、ユーザは、一見しただけで、入力音声の音声認識結果に一致するテキスト「ローマ」を見つけることができ、テキスト「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」が検索された理由を容易に把握することができる。
ところで、ボイスサーチにおいて、入力音声の音声認識結果のテキスト検索の結果得られる検索結果単語列のうちの、表記がテキスト検索で音声認識結果に一致した部分(テキスト)を、入力音声に対応する部分として、強調表示する場合には、入力音声の音声認識結果によっては、適切な強調表示が行われないことがある。
すなわち、例えば、入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られた場合、その音声認識結果「年の瀬解散」のテキスト検索の結果得られる検索結果単語列に、入力音声に一致(完全に一致、又は、一部が一致)するテキスト「世界遺産」や「世界の都市」等が含まれていても、そのテキスト「世界遺産」や「世界の都市」(の表記)は、音声認識結果「年の瀬解散」に一致しないため、強調表示されず、利便性の高い検索結果を得ることが困難となる。
また、音声認識結果が誤っていない場合も、入力音声に対応する部分が強調表示されないことがある。
すなわち、例えば、ユーザが、入力音声「としのせかい」を発話した場合、音声認識結果として、「都市の世界」、及び、「年の瀬かい」のうちのいずれが得られても、音声認識結果が誤っているとは言えない。
そして、ユーザが、「都市の世界」と発話したつもりの入力音声「としのせかい」に対し、音声認識結果「年の瀬かい」が得られた場合、音声認識結果「年の瀬かい」のテキスト検索の結果得られる検索結果単語列に、入力音声(の表記)に一致するテキスト「都市の世界」が含まれていても、そのテキスト「都市の世界」は、音声認識結果「年の瀬かい」にまったく一致しないため、強調表示されず、利便性の高い検索結果を得ることが困難となる。
本発明は、このような状況に鑑みてなされたものであり、音声検索において、利便性の高い検索結果を提供することができるようにするものである。
本発明の一側面の検索装置、又は、プログラムは、入力音声を音声認識する音声認識部と、前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部とを備える検索装置、又は、検索装置として、コンピュータを機能させるためのプログラムである。
本発明の一側面の検索方法は、入力音声に対応する単語列を検索する検索装置が、入力音声を音声認識する音声認識ステップと、前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチングステップと、前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成ステップと、前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択ステップと、前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換ステップとを含む検索方法である。
本発明の他の一側面の検索装置は、クライアント端末で入力された入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部とを備える検索装置である。
本発明の一側面においては、入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングがとられ、そのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列が生成される。そして、前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語が選択され、前記検索結果単語列が、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換される。
なお、検索装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本発明の一側面によれば、音声検索において、利便性の高い検索結果を提供することができる。
本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。 音声検索装置10の構成例を示すブロック図である。 表記シンボルを用いたマッチングで、表記が異なる音声認識結果に対して異なるマッチング結果が得られることが、音声検索の性能に有利でないことを説明する図である。 マッチング単位として、音節2連鎖を採用する場合の、発音シンボル変換部52の処理を説明する図である。 マッチング単位として、音節2連鎖を採用する場合の、発音シンボル変換部55の処理を説明する図である。 単語単位でのマッチング、音節単位でのマッチング、及び、音節2連鎖単位でのマッチングの結果を示す図である。 音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果を示す図である。 音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングの他のシミュレーションの結果を示す図である。 音声検索装置10の処理を説明するフローチャートである。 テーブル作成部61が作成する発音シンボル対単語テーブルの例を示す図である。 テーブル作成部61が発音シンボル対単語テーブルを作成する第1の作成方法を説明する図である。 第1の作成方法で発音シンボル対単語テーブルを作成する処理を説明するフローチャートである。 テーブル作成部61が発音シンボル対単語テーブルを作成する第2の作成方法を説明する図である。 第2の作成方法で発音シンボル対単語テーブルを作成する処理を説明するフローチャートである。 テーブル作成部61が作成する発音シンボル対単語テーブルの他の例を示す図である。 単語選択部63が行う処理を説明するフローチャートである。 発音シンボル対単語テーブルのさらに他の例を示す図である。 検索結果単語列の表示例を示す図である。 検索結果単語列の表示例を示す図である。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
[本発明を適用したレコーダの一実施の形態]
図1は、本発明の検索装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。
図1において、レコーダは、音声検索装置10、レコーダ機能部20、操作部31、制御部32、及び、出力I/F(Interface)33を有する。
音声検索装置10には、ユーザが発話した入力音声(のデータ)が、図示せぬマイク等から供給される。
音声検索装置10は、そこに供給される入力音声を用いて、例えば、ボイスサーチによる音声検索を行い、その結果得られる検索結果単語列を、出力I/F33に供給する。
レコーダ機能部20は、チューナ21、記録再生部22、及び、記録媒体23を有し、テレビジョン放送の番組の記録(録画)及び再生を行う。
すなわち、チューナ21には、図示せぬアンテナで受信された、例えば、ディジタル放送によるテレビジョン放送信号が供給される。
チューナ21は、そこに供給されるテレビジョン放送信号を受信し、そのテレビジョン放送信号から所定のチャンネルのテレビジョン放送信号を抽出して、ビットストリームを復調し、記録再生部22に供給する。
記録再生部22は、チューナ21から供給されるビットストリームから、EPG(Electronic Program Guide)や番組のデータ等を抽出し、出力I/F33に供給する。
また、記録再生部22は、EPGや番組のデータを、記録媒体23に記録(録画)する。
さらに、記録再生部22は、記録媒体23から、番組のデータを再生し、出力I/F33に供給する。
記録媒体23は、例えば、HD(Hard Disk)や半導体メモリ等であり、記録媒体23には、記録再生部22によって、EPGや番組のデータが記録される。
操作部31は、リモートコマンダや、レコーダの筐体に設けられたボタン、図示せぬディスプレイにGUI(Graphics User Interface)として表示されるボタン等で構成される。操作部31は、ユーザによって操作され、その操作に対応した操作信号を、制御部32に供給する。
制御部32は、操作部31からの操作信号等に従い、音声検索装置10、及び、レコーダ機能部20等の、レコーダを構成するブロックの制御、その他の処理を行う。
出力I/F33には、記録再生部22から、EPGや番組のデータが供給される。また、出力I/F33には、音声検索装置10から、入力音声に対する音声検索の結果である検索結果単語列が供給される。
出力部I/F33は、例えば、TV(テレビジョン受像機)等の、少なくとも画像を表示することができる表示デバイスと接続されるインタフェースであり、記録再生部22からのEPGや番組のデータ、及び、音声検索装置10からの検索結果単語列を、出力部I/F33に接続された、例えば、図示せぬTVに供給して表示させる。
[音声検索装置10の構成例]
図2は、図1の音声検索装置10の構成例を示すブロック図である。
図2では、音声検索装置10は、音声認識部51、発音シンボル変換部52、検索結果対象記憶部53、形態素解析部54、発音シンボル変換部55、マッチング部56、生成部57、テーブル作成部61、テーブル記憶部62、単語選択部63、及び、強調変換部64を有し、ボイスサーチによる音声検索を行う。
ここで、従来のボイスサーチでは、音声認識結果と、検索結果対象単語列としてのテキストとのマッチングが、音声認識結果、及び、検索結果対象単語列それぞれの表記を表すシンボルである表記シンボルを用い、単語単位や、表記シンボル単位で行われる。
したがって、音声認識結果の表記シンボルに誤りがあると、マッチングにおいて、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、音声認識結果にマッチし、その結果、そのような、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力される。
すなわち、ユーザが、入力音声として、例えば、「としのせかい」を発話し、その音声認識結果の表記シンボル列が、例えば、「都市の世界」であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列「都市の世界」を、「都市/の/世界/」(スラッシュ(/)は、区切りを表す)のように、1個ずつの単語に区切って、マッチングが行われ、表記シンボル単位のマッチングでは、音声認識結果の表記シンボル列「都市の世界」を、「都/市/の/世/界」のように、1個ずつの表記シンボルに区切って、マッチングが行われる。
一方、入力音声「としのせかい」の音声認識結果の表記シンボル列が、例えば、「年の瀬かい」であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列「年の瀬かい」を、 「/年/の/瀬/かい/」のように、1個ずつの単語に区切って、マッチングが行われ、表記シンボル単位のマッチングでは、音声認識結果の表記シンボル列「年の瀬かい」を、「年/の/瀬/か/い」のように、1個ずつの表記シンボルに区切って、マッチングが行われる。
したがって、入力音声「としのせかい」の音声認識結果(の表記シンボル列)が、「都市の世界」である場合と、「年の瀬かい」である場合とでは、音声認識結果にマッチする検索結果対象単語列は、大きく異なり、その結果、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力される一方、入力音声に対応する単語列が、検索結果単語列として出力されないことがある。
以上のように、表記シンボルを用いたマッチングは、音声認識結果との親和性が高いとはいえず、入力音声に対応する単語列が、検索結果単語列として得られないことがある。
そこで、音声検索装置10では、音声認識結果と、検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列のそれぞれの発音を表すシンボルである発音シンボルを用いて行うことで、入力音声に対応する単語列の検索を、ロバストに行うことができるようにし、これにより、入力音声に対応する単語列が、検索結果単語列として出力されないことを防止する。
すなわち、図2の音声検索装置10において、音声認識部51には、ユーザの発話である入力音声(のデータ)が、図示せぬマイク等から供給される。
音声認識部51は、そこに供給される入力音声を音声認識し、音声認識結果(の表記シンボル)を、発音シンボル変換部52に供給する。
発音シンボル変換部52は、音声認識部51から供給される、入力音声の音声認識結果(の表記シンボル)を、その音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列に変換し、マッチング部56に供給する。
検索結果対象記憶部53は、複数の検索結果対象単語列、すなわち、マッチング部56において、音声認識結果とのマッチングが行われ、入力音声に対応する単語列の検索の結果である検索結果単語列となり得る単語列(の表記シンボルとしてのテキスト)を記憶する。
ここで、検索結果対象記憶部53には、例えば、図1のレコーダの記録媒体23に記録されたEPGを構成する構成要素である番組のタイトルや、出演者名、番組の内容の詳細情報等が供給されて記憶される。
また、検索結果対象記憶部53には、例えば、図1のレコーダの記録媒体23に録画(記録)された番組(録画番組)のメタデータである、番組のタイトルや、出演者名、詳細情報等が供給されて記憶される。
したがって、本実施の形態では、音声検索装置10において、番組のタイトルや、出演者名、詳細情報等を、検索結果対象単語列として、音声検索が行われる。
形態素解析部54は、検索結果対象記憶部53に記憶された検索結果対象単語列の形態素解析を行うことで、検索結果対象単語列を、例えば、単語(形態素)単位に分割し、検索結果対象単語列を構成する各単語(の表記)や、その単語の音韻(読み)等を、形態素解析結果として、発音シンボル変換部55、及び、テーブル作成部61に供給する。
発音シンボル変換部55は、形態素解析部54から供給される形態素解析結果を用いて、検索結果対象単語列(の表記シンボル)を、その検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列に変換し、検索結果対象単語列(の表記シンボル)とともに、マッチング部56に供給する。
マッチング部56は、発音シンボル変換部52からの音声認識結果の認識結果発音シンボル列と、発音シンボル変換部55からの検索対象単語列の検索結果対象発音シンボル列とを用いて、その音声認識結果と検索対象単語列とのマッチングをとり、そのマッチング結果を、生成部57、及び、単語選択部63に供給する。
すなわち、マッチング部56は、検索結果対象記憶部53に記憶されたすべての検索結果対象単語列それぞれについて、入力音声の音声認識結果とのマッチングを、音声認識結果の発音シンボルと、検索結果対象単語列の発音シンボルとを用いて行う。
マッチング部56は、検索結果対象記憶部53に記憶されたすべての検索結果対象単語列それぞれについて、入力音声の音声認識結果とのマッチングをとり、そのマッチング結果を、生成部57、及び、単語選択部63に供給する。
なお、認識結果発音シンボル列と検索結果対象発音シンボル列と(を用いた音声認識結果と検索結果対象単語列と)のマッチングでは、認識結果発音シンボル列と検索結果対象発音シンボル列とが類似している度合いを表す類似度が求められる。
類似度としては、例えば、ベクトル空間法のコサイン距離等を用いることができる。
ここで、マッチング部56は、例えば、2個の発音シンボル等の1個以上の(連続する)発音シンボルを、マッチングをとるときのマッチング単位として、そのマッチング単位で、音声認識結果と検索結果対象単語列とのマッチングを行う。
そして、マッチング部56は、認識結果発音シンボル列と検索結果対象発音シンボル列との類似度と、認識結果発音シンボル列のマッチング単位と一致する、検索結果対象発音シンボル列のマッチング単位であるマッチシンボルとを、発音シンボル変換部55からの検索結果対象単語列(の表記シンボル)とともに、マッチング結果として出力する。
以上のようなマッチング結果のうちの、検索結果対象単語列、及び、類似度は、生成部57に供給され、検索結果対象単語列、及び、マッチシンボルは、単語選択部63に供給される。
生成部57は、マッチング部56からのマッチング結果に基づいて、検索結果対象記憶部53に記憶された検索結果対象単語列の中からの、入力音声に対応する単語列の検索の結果である検索結果単語列を生成する。
すなわち、例えば、生成部57は、マッチング部56からの、検索結果対象記憶部53に記憶された検索結果対象単語列すべてのマッチング結果の中から、類似度が上位の検索結果対象単語列、又は、類似度があらかじめ設定された閾値以上の検索結果対象単語列(の表記シンボル)を、入力音声に対する検索結果単語列として選択する。
そして、生成部57は、検索結果単語列を、単語選択部63、及び、強調変換部64に供給する。
テーブル作成部61は、形態素解析部54から供給される形態素解析結果を用いて、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルを作成し、テーブル記憶部62に供給する。
すなわち、テーブル作成部61は、検索結果対象記憶部53に記憶された検索結果対象単語列について、検索結果対象単語列の、連続する2個以上の発音シンボルを、単語に対応付ける対応付け単位として、対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とを対応付けて登録した発音シンボル対単語テーブルを作成する。
テーブル記憶部62は、テーブル作成部61から供給される発音シンボル対単語テーブルを記憶する。
単語選択部63は、マッチング部56から供給されるマッチング結果のうちの、生成部57から供給される検索結果単語列となった検索結果対象単語列とのマッチング結果、及び、テーブル記憶部62に記憶された発音シンボル対単語テーブルに基づき、検索結果単語列の単語の中で強調する対象の強調対象単語を選択する。
ここで、検索結果単語列となった検索結果対象単語列とのマッチング結果には、その検索結果単語列の発音シンボルのうちの、認識結果発音シンボル列のマッチング単位と一致する発音シンボルであるマッチシンボルが含まれる。
一方、発音シンボル対単語テーブルには、検索結果対象単語列の、連続する2個以上の発音シンボルである対応付け単位と、その検索結果対象単語列を構成する単語とがセットになるように対応付けられている。
単語選択部63は、発音シンボル対単語テーブルに登録された、検索結果単語列(となった検索結果対象単語列)についての、対応付け単位と単語とのセット(以下、単語セットともいう)の中で、検索結果単語列のマッチシンボルに含まれる対応付け単位を含む単語セットを検出し、その単語セットに含まれる単語を、強調対象単語に選択する。
なお、ある検索結果単語列(となった検索結果対象単語列)について選択される強調対象単語は、その検索結果単語列に含まれる単語である。
単語選択部63は、検索結果単語列について選択した強調対象単語を、強調変換部64に供給する。
強調変換部64は、生成部57からの検索結果単語列を、その検索結果単語列の単語のうちの、単語選択部63からの強調対象単語を強調した強調単語列に変換し、出力I/F33(図1)に供給する。
すなわち、強調変換部64は、生成部57からの検索結果単語列に、その検索結果単語列について、単語選択部63から供給される強調対象単語(に一致する単語)が含まれる場合には、生成部57からの検索結果単語列のうちの、強調対象単語のフォントや表示色等の表示の属性(のデータ)を、他の単語の表示の属性とは異なる属性に変更することで、生成部57からの検索結果単語列を、強調対象単語が強調表示される強調単語列に変換する。
以上のように構成される音声検索装置10では、ユーザの発話に応じて、ボイスサーチによる音声検索の処理が行われる。
すなわち、形態素解析部54は、検索結果対象記憶部53に記憶されたすべての検索結果対象単語列の形態素解析を行い、形態素解析結果を、発音シンボル変換部55と、テーブル作成部61とに供給する。
発音シンボル変換部55は、検索結果対象記憶部53に記憶されたすべての検索結果対象単語列を、形態素解析部54からの形態素解析結果に基づいて、検索結果対象発音シンボル列に変換し、検索結果対象単語列とともに、マッチング部56に供給する。
また、テーブル作成部61は、形態素解析部54から供給される形態素解析結果を用いて、検索結果対象記憶部53に記憶されたすべての検索結果対象単語列について、検索結果対象単語列の、連続する2個以上の発音シンボルである対応付け単位と、その検索結果対象単語列を構成する単語とを、単語セットとして対応付けて登録した発音シンボル対単語テーブルを作成し、テーブル記憶部62に供給して記憶させる。
その後、ユーザが発話を行い、その発話としての入力音声が、音声認識部51に供給されると、音声認識部51は、その入力音声を音声認識し、その入力音声の音声認識結果を、発音シンボル変換部52に供給する。
発音シンボル変換部52は、音声認識部51からの入力音声の音声認識結果を、認識結果発音シンボル列に変換し、マッチング部56に供給する。
マッチング部56は、検索結果対象記憶部53に記憶されたすべての検索結果対象単語列それぞれについて、発音シンボル変換部52からの認識結果発音シンボル列と、発音シンボル変換部55からの検索結果対象発音シンボル列とを用いて、入力音声の音声認識結果とのマッチングをとり、そのマッチング結果を、生成部57と単語選択部63とに供給する。
生成部57は、マッチング部56からのマッチング結果に基づいて、検索結果対象記憶部53に記憶された検索結果対象単語列の中から、入力音声に対応する単語列の検索の結果である検索結果単語列(とする検索結果対象単語列)を選択し、単語選択部63と強調変換部64とに供給する。
単語選択部63は、マッチング部56から供給されるマッチング結果のうちの、生成部57から供給される検索結果単語列となった検索結果対象単語列とのマッチング結果、及び、テーブル記憶部62に記憶された発音シンボル対単語テーブルに基づき、検索結果単語列の単語の中で強調する対象の強調対象単語を選択し、強調変換部64に供給する。
強調変換部64は、生成部57からの検索結果単語列を、単語選択部63からの強調対象単語が強調表示される強調単語列に変換して(出力I/F33に)出力する。
以上のような音声検索装置10を有する図1のレコーダでは、例えば、録画が行われた番組(録画番組)の中から、ユーザが所望する番組を、音声検索によって検索し、再生することができる。
すなわち、ユーザが、再生をしようとする番組の音声検索を行うためのキーワードとして、例えば、入力音声「世界遺産」を発話すると、音声検索装置10では、検索結果対象記憶部53に検索結果対象単語列として記憶されている、録画番組のタイトル等を対象として、音声検索を行うことにより、タイトルの発音が、入力音声「世界遺産」の発音に類似する所定数の番組のタイトルが、検索結果単語列として生成され、強調単語列に変換されて、出力I/F33に供給される。
そして、出力I/F33は、強調単語列(に変換された検索結果単語列)としての番組のタイトルを、再生を行う候補の番組(再生候補番組)として、(レコーダと接続されたTV(テレビジョン受像機)等で)表示させる。
このとき、番組のタイトルとしての強調単語列において、強調対象単語は、強調表示される。
その後、ユーザが、再生候補番組の中から、再生を行う番組として、1つの番組を、操作部31を操作すること等により選択すると、レコーダ機能部20では、その番組が再生される。
なお、図2では、2つの発音シンボル変換部52及び55が設けられているが、2つの発音シンボル変換部52及び55は、1つの発音シンボル変換部で兼用することが可能である。
また、図2では、検索結果対象記憶部53に、検索結果対象単語列(の表記シンボルとしてのテキスト)を記憶させておくこととしたが、検索結果対象記憶部53には、検索結果対象単語列の他、その検索結果対象単語列を発音シンボルに変換した検索結果対象発音シンボル列を記憶させておくことが可能である。
また、図2では、音声認識部51において、入力音声を音声認識し、音声認識結果(の表記シンボル)を出力するようにしたが、音声認識部51では、音声認識結果を発音シンボルに変換した認識結果発音シンボル列を出力するようにすることが可能である。
この場合、音声検索装置10は、発音シンボル変換部52を設けずに構成することができる。
[マッチング部56によるマッチング]
図3ないし図8を参照して、図2のマッチング部56によるマッチングについて説明する。
図3は、音声認識結果、及び、検索結果対象単語列のそれぞれの表記を表すシンボルである表記シンボルを用いて行われる、音声認識結果と、検索結果対象単語列としてのテキストとのマッチングを説明する図である。
ここで、表記(シンボル)は、発音に一致しないことがある。
具体的には、例えば、ひらがな「は」の発音(読み)は、「は」である場合と、「わ」である場合があるが、表記シンボルでは、発音の違いを表現することができない。
また、表記シンボルでは、複数の読みがある漢字、すなわち、例えば、「市」については、その読み(発音)が「し」であるのか、又は、「いち」であるのかを、表現することができない。
一方、例えば、表記シンボルで表された単語列「都市の世界遺産」と「年の瀬解散」とは、発音はほぼ一致するが、表記シンボルでは、「の」以外は異なる。
このため、音声認識結果が、「都市の世界遺産」である場合と、「年の瀬解散」である場合とでは、表記シンボルを用いたマッチングでは、異なるマッチング結果が得られるが、このことは、音声検索の性能に、必ずしも有利ではない。
すなわち、図3は、表記シンボルを用いたマッチングで、発音は(ほぼ)一致するか、表記が(ほとんど)異なる音声認識結果に対して異なるマッチング結果が得られることが、音声検索の性能に有利でないことを説明する図である。
図3では、入力音声「都市の世界遺産」の音声認識が行われ、その入力音声「都市の世界遺産」と発音は(ほぼ)一致するが、表記が異なる、誤った音声認識結果「年の瀬解散」が得られている。
また、図3では、音声認識結果「年の瀬解散」を、「年/の/瀬/解/散」のように、表記シンボル単位に区切って(スラッシュ(/)は、区切りを表す)、表記シンボル単位でのマッチングが行われている。
さらに、図3では、マッチングをとる検索結果対象単語列としての、例えば、番組のタイトルとして、「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」の3つが用意されている。
音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」とでは、表記シンボル単位では、図中、丸印を付してある1個の表記シンボル「の」しか一致しない。
また、音声認識結果「年の瀬解散」と、検索結果対象単語列「瀬戸の歯医者さん」とでは、表記シンボル単位では、図中、丸印を付してある2個の表記シンボル「瀬」及び「の」が一致する。
さらに、音声認識結果「年の瀬解散」と、検索結果対象単語列「衆院解散の年」とでは、表記シンボル単位では、図中、丸印を付してある4個の表記シンボル「解」、「散」、「の」及び「年」が一致する。
したがって、表記シンボル単位でのマッチングにおいて求められる、音声認識結果と検索結果対象単語列との類似度としては、音声認識結果「年の瀬解散」と、検索結果対象単語列「衆院解散の年」との類似度が、最も高くなる。
すなわち、マッチングにおいて求められる類似度として、例えば、コサイン距離を採用することとする。
また、単語列を表すベクトルとして、例えば、単語列に存在する表記シンボルに対応するコンポーネントを1とするとともに、単語列に存在しない表記シンボルに対応するコンポーネントを0とするベクトルを採用し、2つの単語列の類似度としてのコサイン距離を、その2つの単語列を表すベクトルを用いて求めることとする。
この場合、表記シンボル単位でのマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」との類似度として、0.15が、音声認識結果「年の瀬解散」と、検索結果対象単語列「瀬戸の歯医者さん」との類似度として、0.32が、音声認識結果「年の瀬解散」と、検索結果対象単語列「衆院解散の年」との類似度として、0.73が、それぞれ求められる。
したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列とすることとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合には、検索結果対象単語列としての3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、「衆院解散の年」が、検索結果単語列とされることになる。
入力音声「都市の世界遺産」に対しては、上述の3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、1番目の番組のタイトル「世界遺産都市の遺産」が、検索結果単語列とされることが適切である。
しかしながら、入力音声「都市の世界遺産」が、発音では一致するが、表記が異なる「年の瀬解散」に音声認識されると、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」ではなく、「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列とされる。
なお、入力音声「都市の世界遺産」に対して、表記が一致する「都市の世界遺産」が、音声認識結果として得られた場合には、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」との類似度が最上位となり、「世界遺産都市の遺産」が、検索結果単語列とされる。
以上のように、音声認識結果が、「都市の世界遺産」である場合と、「年の瀬解散」である場合とでは、表記シンボルを用いたマッチングでは、マッチング結果(音声認識結果と、各検索結果対象単語列との類似度)が異なり、その結果、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」が、検索結果単語列とされる場合と、そのような適切なタイトルが検索結果単語列とされず、入力音声「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列とされる場合とがある。
そこで、音声検索装置10(図2)のマッチング部56では、入力音声に対して適切な番組のタイトルが、検索結果単語列として出力されないことを防止するため、発音シンボルを用いたマッチングが行われる。
ここで、発音シンボルは、例えば、音節、又は、音素の発音を表すシンボルであり、日本語については、例えば、読みを表すひらがなを採用することができる。なお、ここでは、発音シンボルとして、音節を採用することとする。
発音シンボルを用いたマッチングでは、マッチングの単位(マッチング単位)として、音節(の1つ)や、音節の2以上の連鎖、音素(の1つ)、音素の2以上の連鎖等を採用することができる。
なお、発音シンボルを用いたマッチングにおいて、どのようなマッチング単位を採用するかによって、マッチング結果、ひいては、音声検索の性能は異なる。
図4は、マッチング部56(図2)でのマッチング単位として、音節2連鎖(連続する2つの音節(発音シンボル))を採用する場合の、図2の発音シンボル変換部52の処理を説明する図である。
発音シンボル変換部52には、音声認識部51から、入力音声の音声認識結果(の表記シンボル)が供給される。
発音シンボル変換部52は、音声認識部51から供給される音声認識結果を、発音シンボルである音節の並びに変換する。
さらに、発音シンボル変換部52は、音声認識結果の音節の並びの先頭から、注目する注目音節を、後方に、1音節ずつずらしていきながら、注目音節と、その注目音節の直後の音節との、連続する2つの音節である音節2連鎖を抽出し、その音節2連鎖の並びを、マッチング部56(図2)に供給する。
ここで、音声認識結果の音節の並びも、音節2連鎖の並びも、音声認識結果の発音シンボルの並びである認識結果発音シンボル列であるが、特に、音節2連鎖の並びを、認識結果2連鎖シンボル列ともいう。
図5は、マッチング部56(図2)でのマッチング単位として、音節2連鎖を採用する場合の、図2の発音シンボル変換部55の処理を説明する図である。
発音シンボル変換部55には、検索結果対象記憶部53に記憶された検索結果対象単語列としての、番組のタイトル等が、形態素解析部54で形態素解析されて供給される。
発音シンボル変換部55は、形態素解析部54から供給される検索結果対象単語列を、音節の並びに変換する。
さらに、発音シンボル変換部55は、検索結果対象単語列の音節の並びの先頭から、注目する注目音節を、後方に、1音節ずつずらしていきながら、注目音節と、その注目音節の直後の音節との、連続する2つの音節である音節2連鎖を抽出し、その音節2連鎖の並びを、マッチング部56(図2)に供給する。
ここで、検索結果対象単語列の音節の並びも、音節2連鎖の並びも、検索結果対象単語列の発音シンボルの並びである検索結果対象発音シンボル列であるが、特に、音節2連鎖の並びを、検索結果対象2連鎖シンボル列ともいう。
マッチング部56において、認識結果発音シンボル列と、検索結果対象発音シンボル列との、音節2連鎖の単位でのマッチングとして、認識結果2連鎖シンボル列と検索結果対象2連鎖シンボル列との類似度としての、例えば、コサイン距離を求める場合、認識結果2連鎖シンボル列を表すベクトルである認識結果ベクトルが求められる。
すなわち、マッチング部56は、例えば、認識結果2連鎖シンボル列に存在する音節2連鎖に対応するコンポーネントを1とするとともに、認識結果2連鎖シンボル列に存在しない音節2連鎖に対応するコンポーネントを0とするベクトルを、認識結果2連鎖シンボル列を表す認識結果ベクトルとして求める。
さらに、マッチング部56は、検索結果対象記憶部53に記憶された各検索結果対象単語列としての、例えば、番組のタイトル等についても、同様に、検索結果対象単語列の検索結果対象2連鎖シンボル列を表すベクトルである検索結果対象ベクトルを求める。
そして、マッチング部56は、認識結果ベクトルと、検索結果対象ベクトルとの内積を、認識結果ベクトルの大きさと検索結果対象ベクトルの大きさとの乗算値で除算した値であるコサイン距離を、音声認識結果と検索結果対象単語列との(発音シンボルの)類似度として求める、音節2連鎖をマッチング単位とするマッチングを行う。
図6は、単語単位でのマッチング、(1つの)音節単位でのマッチング、及び、音節2連鎖単位でのマッチングの結果を示す図である。
なお、図6では、図3と同様に、入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られており、検索結果対象単語列としての、例えば、番組のタイトルとして、「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」の3つが用意されている。
また、図6では、表記シンボルを用いての、単語単位でのマッチング、発音シンボルを用いての、音節単位でのマッチング、及び、発音シンボルを用いての、音節2連鎖単位でのマッチングが行われている。
さらに、図6では、音声認識結果「年の瀬解散」の単語又は発音シンボル(音節)と一致する、検索結果対象単語列の単語又は発音シンボルには、丸印を付してある。
単語単位でのマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」それぞれとの類似度(コサイン距離)として、それぞれ、0.22,0.25、及び、0.75が求められる。
したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合には、表記シンボルを用いての、単語単位でのマッチングでは、検索結果対象単語列としての3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、音声認識結果「年の瀬解散」との類似度が0.75で最上位の検索結果対象単語列「衆院解散の年」が、検索結果単語列とされることになる。
入力音声「都市の世界遺産」に対しては、上述の3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、1番目の番組のタイトル「世界遺産都市の遺産」が、検索結果単語列とされることが適切である。
しかしながら、入力音声「都市の世界遺産」が、発音では一致するが、表記が異なる「年の瀬解散」に音声認識されると、表記シンボルを用いての、単語単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」ではなく、「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列とされる。
なお、表記シンボルを用いてのマッチングを、単語単位ではなく、表記シンボル単位で行った場合も、図3で説明したように、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」に対して、入力音声「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列とされる。
発音シンボルを用いての、音節単位のマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」それぞれとの類似度として、それぞれ、0.82,1.0、及び、0.75が求められる。
したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合には、発音シンボルを用いての、音節単位でのマッチングでは、検索結果対象単語列としての3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、音声認識結果「年の瀬解散」との類似度が1.0で最上位の検索結果対象単語列「瀬戸の歯科医さん」が、検索結果単語列とされる。
すなわち、入力音声「都市の世界遺産」が、発音では一致するが、表記が異なる「年の瀬解散」に音声認識されると、発音シンボルを用いての、音節単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」ではなく、「都市の世界遺産」とはまったく関係がないような番組のタイトル「瀬戸の歯科医さん」が、検索結果単語列とされる。
なお、表記シンボルを用いての、単語単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「都市の世界遺産都市の遺産」の類似度が、3つの検索結果対象単語列の中で、第3位(最下位)の値である0.22になっているが、発音シンボルを用いての、音節単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」の類似度が、3つの検索結果対象単語列の中で、第2位の値である0.82になっている。
したがって、発音シンボルを用いての、音節単位でのマッチングは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」の類似度が、表示シンボルを用いての、単語単位でのマッチングの場合よりも上位である点で、表示シンボルを用いての、単語単位でのマッチングより有効であるということができる。
発音シンボルを用いての、音節2連鎖単位のマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」それぞれとの類似度として、それぞれ、0.68,0.43、及び、0.48が求められる。
したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合であっても、発音シンボルを用いての、音節2連鎖単位でのマッチングでは、検索結果対象単語列としての3つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、音声認識結果「年の瀬解散」との類似度が0.68で最上位の検索結果対象単語列、すなわち、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」が、検索結果単語列とされる。
以上のように、発音シンボルを用いてのマッチングによれば、表記が音声認識結果とまったく異なる検索結果対象単語列であっても、発音が音声認識結果と類似していれば、類似度が大になるので、表記シンボルを用いてのマッチングを行う場合に比較して、入力音声に対応する単語列の検索を、ロバストに行うことができる。
その結果、発音シンボルを用いてのマッチングによれば、音声認識が誤った場合でも、入力音声に対応する単語列が、検索結果単語列として出力されないことを防止(低減)することができる。
ところで、マッチング部56(図1)において、音声認識結果(の認識結果発音シンボル列)と、検索結果対象単語列(の検索結果対象発音シンボル列)との類似度として、コサイン距離を採用する場合、例えば、上述したように、認識結果発音シンボル列に存在する音節(2連鎖)に対応するコンポーネントを1とするとともに、認識結果発音シンボル列に存在しない音節に対応するコンポーネントを0とするベクトルが、認識結果発音シンボル列を表す認識結果ベクトルとして求められる。
さらに、マッチング部56では、同様にして、検索結果対象単語列の検索結果対象発音シンボル列を表す検索結果対象ベクトルが求められる。
ここで、本実施の形態では、認識結果ベクトルのコンポーネントの値を、そのコンポーネントに対応する音節が、認識結果発音シンボル列に存在するかどうかで、1又は0とすることとするが、認識結果ベクトルのコンポーネントの値としては、そのコンポーネントに対応する音節が、認識結果発音シンボル列に出現する頻度であるtf(Term Frequency)を採用することが可能である。
また、認識結果ベクトルのコンポーネントの値としては、その他、例えば、ある検索結果対象単語列には偏って出現する音節に対しては大になり、多くの検索結果対象単語列に万遍なく出現する音節に対しては小になるidf(Invert Document Frequency)や、tfとidfとの両方を加味したTF-IDFを採用することができる。
検索結果対象ベクトルについても、同様である。
いま、認識結果ベクトルを、VUTRと表すとともに、検索結果対象記憶部53(図1)に記憶されたi番目の検索結果対象単語列の検索結果対象ベクトルを、VTITLE(i)と表すこととすると、音声認識結果と、i番目の検索結果対象単語列との類似度としてのコサイン距離Dは、式(1)に従って計算される。
D=VUTR・VTITLE(i)/(|VUTR||VTITLE(i)|)
・・・(1)
式(1)において、・は、内積を表し、|x|は、ベクトルxの大きさ(ノルム)を表す。したがって、コサイン距離Dは、認識結果ベクトルVUTRと、検索結果対象ベクトルVTITLE(i)との内積VUTR・VTITLE(i)を、認識結果ベクトルVUTRの大きさ|VUTR|と検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|との乗算値|VUTR||VTITLE(i)|で除算することにより求めることができる。
コサイン距離Dは、0.0ないし1.0の範囲の値をとり、値が大きいほど、認識結果ベクトルVUTRが表す認識結果発音シンボル列と、検索結果対象ベクトルVTITLE(i)が表す検索結果対象発音シンボル列とが類似していることを表す。
上述したように、コサイン距離Dは、認識結果ベクトルVUTRと、検索結果対象ベクトルVTITLE(i)との内積VUTR・VTITLE(i)を、認識結果ベクトルVUTRの大きさ|VUTR|と検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|との乗算値で除算することにより求められるため、コサイン距離Dには、音声認識結果、及び、検索結果対象単語列の長さの相違が影響する。
ここで、音声認識結果、及び、検索結果対象単語列の長さとは、音声認識結果と検索結果対象単語列とのマッチング、つまり、類似度としてのコサイン距離Dの計算を、表記シンボルを用いて、表記シンボル単位で行う場合には、音声認識結果、及び、検索結果対象単語列の表記シンボルの個数に対応する値であり、例えば、表記シンボルの個数の総和の平方根である。
また、類似度の計算を、表記シンボルを用いて、単語単位で行う場合には、音声認識結果、及び、検索結果対象単語列の長さとは、それぞれ、音声認識結果、及び、検索結果対象単語列の単語の個数に対応する値であり、例えば、単語の個数の総和の平方根である。
さらに、類似度の計算を、発音シンボルを用いて、音韻単位で行う場合には、音声認識結果、及び、検索結果対象単語列の長さとは、それぞれ、音声認識結果、及び、検索結果対象単語列の発音シンボルとしての音節の個数に対応する値であり、例えば、音節の個数の総和の平方根である。
また、類似度の計算を、発音シンボルを用いて、音節2連鎖単位で行う場合には、音声認識結果、及び、検索結果対象単語列の長さとは、それぞれ、音声認識結果、及び、検索結果対象単語列の音節2連鎖の個数に対応する値であり、例えば、音節2連鎖の個数の総和の平方根である。
いま、説明を簡単にするために、音声認識結果と検索結果対象単語列とのマッチングとしてのコサイン距離Dの計算を、表記シンボルを用いて、単語単位で行うこととすると、類似度としての式(1)のコサイン距離Dの演算は、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|による除算を含むため、例えば、音声認識結果と同一の単語列を含むが、長さ(ここでは、単語の個数)が、長い検索結果対象単語列と、短い検索結果対象単語列とでは、短い検索結果対象単語列との類似度は高くなり(コサイン距離Dが大になり)、長い検索結果対象単語列との類似度は低くなる(コサイン距離Dが小になる)傾向が強い。
したがって、長さが長い検索結果対象単語列の一部が、音声認識結果として得られても、その音声認識結果と、長さが長い検索結果対象単語列との類似度が、上位にならず、そのような検索結果対象単語列が、検索結果単語列として出力されないために、入力音声に対応する単語列の検索の精度が劣化することがある。
つまり、例えば、長いタイトルの一部が発話された場合に、その長いタイトルの類似度が、上位にならず、その長いタイトルが、検索結果単語列として出力されないことがある。
また、同様の理由により、所定の検索結果対象単語列と同一の単語列を含むが、長さが、長い音声認識結果と、短い音声認識結果とでは、長い音声認識結果と所定の検索結果対象単語列との類似度は、低くなり、短い音声認識結果と所定の検索結果対象単語列との類似度は、高くなる傾向が強い。
したがって、所定の検索結果対象単語列と同一の単語列を含むが、長さが長い音声認識結果については、その所定の検索結果対象単語列の類似度は、上位にならず、その所定の検索結果対象単語列が、検索結果単語列として出力されないために、入力音声に対応する単語列の検索の精度が劣化することがある。
つまり、例えば、短いタイトルを含む長い発話がされた場合に、その短いタイトルの類似度が、上位にならず、その短いタイトルが、検索結果単語列として出力されないことがある。
そこで、マッチング部56(図2)では、音声認識結果、及び、検索結果対象単語列の長さの相違の影響を軽減するように、コサイン距離Dを補正した補正距離を、音声認識結果と検索結果対象単語列との類似度として採用することができる。
音声認識結果と検索結果対象単語列との類似度として、補正距離を採用する場合には、上述の音声認識結果と長い検索結果対象単語列との類似度、及び、長い音声認識結果と検索結果対象単語列との類似度が低くなることが防止され、その結果、入力音声に対応する単語列の検索を、ロバストに行うことができ、入力音声に対応する単語列の検索の精度の劣化を防止することができる。
補正距離としては、第1の補正距離と、第2の補正距離とがある。
第1の補正距離は、コサイン距離Dを求める式(1)の演算において、検索結果対象単語列の長さに比例する、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|に代えて、検索結果対象単語列の長さに比例しない値|VUTR|×√(|VTITLE(i)|/|VUTR|)、すなわち、認識結果ベクトルVUTRの大きさ|VUTR|と検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|との乗算値の平方根√(|VTITLE(i)||VUTR|)を用いて求められる。
ここで、コサイン距離Dを求める式(1)の演算において、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|に代えて用いる値を、以下、代用サイズS(i)ともいう。
第1の補正距離D1は、式(2)に従って求められる。
D1=VUTR・VTITLE(i)/(|VUTR|S(i))
=VUTR・VTITLE(i)/(|VUTR||VUTR|×√(|VTITLE(i)|/|VUTR|))
=VUTR・VTITLE(i)/(|VUTR|√(|VTITLE(i)||VUTR|))
・・・(2)
式(2)において、認識結果ベクトルVUTRの大きさ|VUTR|と検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|との乗算値の平方根√(|VTITLE(i)||VUTR|)は、|VTITLE(i)|が小さい場合、つまり、検索結果対象単語列の長さが短い場合には、|VTITLE(i)|より大になり、|VTITLE(i)|が大きい場合、つまり、検索結果対象単語列の長さが長い場合には、|VTITLE(i)|より小になる。
その結果、式(2)に従って求められる第1の補正距離D1は、式(1)に従って求められるコサイン距離Dに比較して、音声認識結果の長さに対する検索結果対象単語列の長さとしての、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|の違いの影響が少ない値、すなわち、音声認識結果と検索結果対象単語列との長さの相違の影響が軽減された値となる。
第2の補正距離は、コサイン距離Dを求める式(1)の演算において、検索結果対象単語列の長さに比例する、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|に代えて、認識結果ベクトルVUTRの大きさ|VUTR|を、代用サイズS(i)として用いて求められる。
したがって、第2の補正距離D2は、式(3)に従って求められる。
D2=VUTR・VTITLE(i)/(|VUTR|S(i))
=VUTR・VTITLE(i)/|VUTR|2
・・・(3)
第2の補正距離D2は、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|を用いずに求められるので、音声認識結果の長さに対する検索結果対象単語列の長さとしての、検索結果対象ベクトルVTITLE(i)の大きさ|VTITLE(i)|の違いの影響がない値、すなわち、音声認識結果と検索結果対象単語列との長さの相違の影響が軽減(除去)された値となる。
図7は、音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングのシミュレーションの結果を示す図である。
なお、図7のシミュレーションでは、短い発話「世界遺産」に対して、正しい音声認識結果「世界遺産」が得られたこととし、検索結果対象単語列としての番組のタイトルとして、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」と、短いタイトル「世界情勢」とを採用した。
さらに、マッチングは、表記シンボルを用いて、単語単位で行った。
また、図7では、音声認識結果「世界遺産」の単語「世界/遺産」と一致する、検索結果対象単語列としての番組のタイトルの単語には、アンダーラインを付してある。
タイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」では、音声認識結果「世界遺産」に対して、「世界」と「遺産」との2つの単語が一致する。
一方、タイトル「世界情勢」では、音声認識結果「世界遺産」に対して、「世界」の1つの単語だけが一致する。
したがって、タイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」と、タイトル「世界情勢」とでは、音声認識結果「世界遺産」と一致する単語の数が多いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、タイトル「世界情勢」の類似度よりも上位になることが適切である。
しかしながら、類似度として、コサイン距離Dを採用した場合、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の一部「世界遺産」に一致する音声認識結果「世界遺産」については、短いタイトル「世界情勢」の類似度が、0.5となり、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が、0.4472となって、短いタイトル「世界情勢」の類似度の方が、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度よりも上位となる。
すなわち、類似度として、コサイン距離Dを採用した場合には、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の一部「世界遺産」に一致する短い音声認識結果「世界遺産」と、その長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」との長さの相違の影響により、音声認識結果「世界遺産」に対して適切な長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が上位にならない。
一方、類似度として、補正距離を採用した場合、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、短いタイトル「世界情勢」の類似度よりも上位となる。
すなわち、類似度として、第1の補正距離D1を採用した場合、音声認識結果「世界遺産」については、短いタイトル「世界情勢」の類似度が、0.5となり、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が、0.6687となって、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、短いタイトル「世界情勢」の類似度よりも上位となる。
また、類似度として、第2の補正距離D2を採用した場合、音声認識結果「世界遺産」については、短いタイトル「世界情勢」の類似度が、0.5となり、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が、1.0となって、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、短いタイトル「世界情勢」の類似度よりも上位となる。
以上のように、類似度として、補正距離を採用した場合には、長い検索結果対象単語列の一部に一致する音声認識結果と、その長い検索結果対象単語列との長さの相違の影響が軽減され、音声認識結果「世界遺産」に対して適切な長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が上位になる。
図8は、音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第1の補正距離D1、及び、第2の補正距離D2を採用した場合のマッチングの他のシミュレーションの結果を示す図である。
なお、図8のシミュレーションでは、長い発話「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して、正しい音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」が得られたこととし、検索結果対象単語列としての番組のタイトルとして、短いタイトル「世界遺産」と、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」とを採用した。
さらに、マッチングは、表記シンボルを用いて、単語単位で行った。
また、図8では、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」の単語「世界/遺産/都市/の/遺産/イタリア/ローマ/ベネチア/ナポリ/フィレンツェ」と一致する、検索結果対象単語列としての番組のタイトルの単語には、アンダーラインを付してある。
タイトル「世界遺産」では、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して、「世界」と「遺産」との2つの単語が一致する。
一方、タイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」では、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して、「世界」、「遺産」、「イタリア」、及び、「フィレンツェ」の4つの単語が一致する。
したがって、タイトル「世界遺産」と、タイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」とでは、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」と一致する単語の数が多いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、タイトル「世界遺産」の類似度よりも上位になることが適切である。
しかしながら、類似度として、コサイン距離Dを採用した場合、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」については、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が、0.4472となり、短いタイトル「世界遺産」の類似度が、0.4772となって、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位にならない。
すなわち、類似度として、コサイン距離Dを採用した場合には、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」と、短い検索結果対象単語列「世界遺産」との長さの相違の影響により、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して適切な長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が上位にならない。
一方、類似度として、補正距離を採用した場合、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位となる。
すなわち、類似度として、第1の補正距離D1を採用した場合、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」については、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が、0.4229となり、短いタイトル「世界遺産」の類似度が、0.2991となって、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位となる。
また、類似度として、第2の補正距離D2を採用した場合、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」については、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が、0.4となり、短いタイトル「世界遺産」の類似度が、0.2となって、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位となる。
以上のように、類似度として、補正距離を採用した場合には、長い音声認識結果と、短い検索結果対象単語列との長さの相違の影響が軽減され、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して適切な長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が上位になる。
したがって、補正距離によれば、音声認識結果と検索結果対象単語列との長さの相違の影響が軽減されることにより、入力音声に対応する単語列の検索を、ロバストに行うことができ、入力音声に対応する単語列の検索の精度の劣化を防止することができる。
なお、類似度として、認識結果ベクトルVUTRと検索結果対象ベクトルVTITLE(i)との内積VUTR・VTITLE(i)に比例するコサイン距離Dや、第1の補正距離D1、第2の補正距離D2等を採用する場合、マッチング部56では、内積VUTR・VTITLE(i)を求めるときに、認識結果発音シンボル列のマッチング単位と一致する、検索結果対象発音シンボル列のマッチング単位であるマッチシンボルを求めることができる。
すなわち、例えば、いま、音節2連鎖(連続する2個の発音シンボル)を、マッチング単位として、マッチングを行うこととすると、そのマッチングとしての類似度の計算において、内積VUTR・VTITLE(i)は、その内積VUTR・VTITLE(i)の初期値を0とし、認識結果2連鎖シンボル列のマッチング単位としての音声2連鎖を、順次、注目2連鎖に選択して、検索結果対象2連鎖シンボル列の中に、注目2連鎖に一致する音節2連鎖が存在する場合には、内積VUTR・VTITLE(i)を1だけインクリメントしていくことで求めることができる。
検索結果対象2連鎖シンボル列の中に、マッチング単位である注目2連鎖に一致する音節2連鎖が存在する場合、その音節2連鎖は、マッチシンボルであるから、マッチング部56では、内積VUTR・VTITLE(i)を求めるときに、マッチシンボル、すなわち、検索結果対象2連鎖シンボル列の中に存在する、認識結果2連鎖シンボル列の注目2連鎖に一致する音節2連鎖を求めることができる。
ここで、マッチシンボルは、検索結果対象発音シンボル列のマッチング単位(音節2連鎖)の中で、認識結果発音シンボル列のマッチング単位と一致するマッチング単位であり、認識結果発音シンボル列に対する、検索結果対象発音シンボル列のマッチシンボルの数が多いほど、認識結果発音シンボル列と検索結果対象発音シンボル列との類似度は大になる。
したがって、認識結果発音シンボル列に対する、検索結果対象発音シンボル列のマッチシンボルの数が多いほど、その検索結果対象発音シンボル列の検索結果対象単語列は、検索結果単語列として選択される可能性が高くなるので、検索結果対象単語列(の検索結果対象発音シンボル列)のマッチシンボルは、その検索結果対象単語列が、検索結果単語列として選択されることの、いわば原因(理由)となる。
また、マッチシンボルは、検索結果対象単語列の中で、発音が入力音声(の音声認識結果)と一致する部分を表す発音シンボルであり、したがって、検索結果対象単語列において、発音がマッチシンボルで表される部分(を含む単語)は、入力音声に対応している(入力音声に対応する部分である)、ということができる。
[音声検索装置10の処理]
図9は、図2の音声検索装置10の処理(音声検索の処理)を説明するフローチャートである。
ステップS11において、音声検索装置10は、必要な前処理を行う。
すなわち、音声検索装置10は、入力音声が供給される前に行うことができる処理を、前処理として行う。
ここで、前処理としては、例えば、記録媒体23(図1)に記録されたEPGを構成する構成要素である番組のタイトルや、出演者名、詳細情報等を読み出して、検索結果対象記憶部53に供給し、検索結果対象単語列として記憶させる処理がある。
さらに、前処理としては、形態素解析部54及び発音シンボル変換部55において、検索結果対象記憶部53に記憶された検索結果対象単語列を、検索結果対象発音シンボル列(検索結果対象2連鎖シンボル列)に変換し、マッチング部56に供給する処理や、テーブル作成部61において、検索結果対象記憶部53に記憶された検索結果対象単語列について、発音シンボル対単語テーブルを作成し、テーブル記憶部62に記憶させる処理等がある。
なお、ステップS11の前処理は、例えば、1日ごとに、所定の時刻に行われる。あるいは、ステップS11の前処理は、記録媒体23に録画されている録画番組が変更されたときや、記録媒体23に記録されているEPGが変更(更新)されたとき等に行われる。
最新の前処理の後、ユーザが発話を行い、その発話としての入力音声が、音声認識部51に供給されると、ステップS12において、音声認識部51は、そこに供給される入力音声を音声認識する。
音声認識部51が入力音声の音声認識を行うことにより得られる音声認識結果は、発音シンボル変換部52を介することにより、認識結果発音シンボル列(認識結果2連鎖シンボル列)となって、マッチング部56に供給される。
マッチング部56は、ステップS13において、検索結果対象記憶部53に記憶されたすべての検索結果対象単語列それぞれについて、音声認識部51から発音シンボル変換部52を介して供給される認識結果発音シンボル列と、前処理で得られた検索結果対象単語列の検索結果対象発音シンボル列とのマッチングを、例えば、音節2連鎖(連続する2個の発音シンボル)をマッチング単位としてとり、そのマッチング結果を、生成部57と単語選択部63とに供給する。
すなわち、マッチング部56は、検索結果対象記憶部53に記憶された各検索結果対象単語列について、音声認識結果との類似度としての、例えば、コサイン距離、又は、補正距離等を計算し、その類似度を、検索結果対象単語列(音声認識結果との類似度が求められた検索結果対象単語列)とともに、マッチング結果として、生成部57に供給する。
さらに、マッチング部56は、検索結果対象記憶部53に記憶された各検索結果対象単語列について、音声認識結果との類似度としてのコサイン距離等を求めるときに、認識結果発音シンボル列のマッチング単位である音節2連鎖に一致する、検索結果対象発音シンボル列のマッチング単位である音節2連鎖を、マッチシンボルとして求め、そのマッチシンボルを、検索結果対象単語列(音声認識結果との類似度が求められた検索結果対象単語列)とともに、マッチング結果として、単語選択部63に供給する。
生成部57は、ステップS14において、マッチング部56からのマッチング結果に基づいて、検索結果単語列を生成し、単語選択部63と強調変換部64とに供給する。
すなわち、生成部57は、マッチング部56からの、検索結果対象記憶部53に記憶された検索結果対象単語列すべてのマッチング結果の中から、類似度が上位の検索結果対象単語列、又は、類似度があらかじめ設定された閾値以上の検索結果対象単語列を、入力音声に対する検索結果単語列として選択し、単語選択部63と強調変換部64とに供給する。
単語選択部63は、ステップS15において、生成部57からの検索結果単語列を、順次、注目単語列に選択する。
さらに、単語選択部63は、テーブル記憶部62に記憶された発音シンボル対単語テーブルに登録された、対応付け単位と単語とのセットである単語セットのうちの、注目単語列としての検索結果単語列(となった検索結果対象単語列)についての単語セットを参照し、その単語セットの中から、マッチング部56からの、注目単語列のマッチシンボルに含まれる対応付け単位(連続する2個以上の発音シンボル)を含む単語セットを検出する。
そして、単語選択部63は、注目単語列についての単語セットの中から検出した、注目単語列のマッチシンボルに含まれる対応付け単位を含む単語セットに含まれる単語(対応付け単位に対応付けられている単語)を、注目単語列の中で強調する対象の強調対象単語に選択し、強調変換部64に供給する。
強調変換部64は、ステップS16において、生成部57からの検索結果単語列を、順次、注目単語列に選択する。
さらに、強調変換部64は、注目単語列について、単語選択部63から強調対象単語が供給される場合には、注目単語列のうちの、強調対象単語の表示の属性を変更することで、注目単語列を、そのうちの強調対象単語が強調表示される強調単語列に変換する。
強調変換部64で得られた強調単語列は、強調変換部64から出力I/F33(図1)に供給され、その後、音声検索装置10は、音声検索の処理を終了する。
なお、検索結果対象単語列が、例えば、番組のタイトルや、出演者名、詳細情報である場合において、音声認識結果との類似度が上位、又は、閾値以上の検索結果対象単語列の中に、タイトル以外の、例えば、出演者名(又は詳細情報)があるときには、生成部57では、その出演者名とともに、又は、その出演者名に代えて、その出演者名をメタデータとして有する番組のタイトルを、検索結果単語列として選択することが可能である。
[発音シンボル対単語テーブルの作成]
図10は、図2のテーブル作成部61が作成する発音シンボル対単語テーブルの例を示す図である。
発音シンボル対単語テーブルには、上述したように、検索結果対象記憶部53に記憶された各検索結果対象単語列について、検索結果対象単語列の、連続する2個以上の発音シンボルを、単語に対応付ける対応付け単位として、対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とが対応付けられた単語セットが登録される。
ここで、例えば、いま、説明を簡単にするために、対応付け単位として、マッチング単位と同一の、連続する2個の発音シンボルである音節2連鎖を採用することとすると、例えば、検索結果対象単語列「年の瀬解散」については、図10に示す単語セットが、発音シンボル対単語テーブルに登録される。
すなわち、検索結果対象単語列「年の瀬解散」の発音シンボルは、「としのせかいさん」であり、検索結果対象単語列「年の瀬解散」について、対応付け単位としての音節2連鎖は、図4や図5で説明した、マッチング単位としての音節2連鎖と同様にして求めることができる。
具体的には、検索結果対象単語列「年の瀬解散」について、対応付け単位としての音節2連鎖は、その発音シンボル「としのせかいさん」の先頭から、注目する注目音節(発音シンボル)を、後方に、1音節ずつずらしていきながら、注目音節と、その注目音節の直後の音節との2つの音節を抽出することで求めることができる。
すなわち、検索結果対象単語列「年の瀬解散」については、対応付け単位としての音節2連鎖「とし」、「しの」、「のせ」、「せか」、「かい」、「いさ」、「さん」を得ることができる。
そして、発音シンボル対単語テーブルでは、対応付け単位が、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とが対応付けられ、単語セットとして登録される。
図10では、検索結果対象単語列「年の瀬解散」についての対応付け単位「とし」が、その対応付け単位「とし」を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「年の瀬」と対応付けられ、単語セット[とし:年の瀬]として登録されている。
さらに、図10では、検索結果対象単語列「年の瀬解散」についての対応付け単位「しの」が、その対応付け単位「しの」を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「年の瀬」と対応付けられ、単語セット[しの:年の瀬]として登録されている。
また、図10では、検索結果対象単語列「年の瀬解散」についての対応付け単位「のせ」が、その対応付け単位「のせ」を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「年の瀬」と対応付けられ、単語セット[のせ:年の瀬]として登録されている。
さらに、図10では、検索結果対象単語列「年の瀬解散」についての対応付け単位「せか」が、その対応付け単位「せか」の一部「せ」を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「年の瀬」と対応付けられ、単語セット[せか:年の瀬]として登録されている。
同様に、図10では、検索結果対象単語列「年の瀬解散」についての対応付け単位「かい」、「いさ」、及び、「さん」のそれぞれが、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「解散」と対応付けられ、単語セット[かい:解散]、[いさ:解散]、及び、[さん:解散]として登録されている。
生成部57において、検索結果対象単語列「年の瀬解散」が、入力音声に対する検索結果単語列として選択された場合、単語選択部63において、図10の発音シンボル対単語テーブルに登録された検索結果単語列(となった検索結果対象単語列)「年の瀬解散」についての単語セットを参照して、検索結果単語列の中で強調する対象の強調対象単語が選択される。
すなわち、例えば、検索結果単語列「年の瀬解散」のマッチシンボルとして、音節2連鎖「とし」、「しの」、「のせ」、又は、「せか」が、マッチング部56から単語選択部63に供給された場合、単語選択部63では、検索結果単語列「年の瀬解散」についての単語セットのうちの、マッチシンボル「とし」、「しの」、「のせ」、又は、「せか」を含む単語セット[とし:年の瀬]、[しの:年の瀬]、[のせ:年の瀬]、又は、[せか:年の瀬]に含まれる単語「年の瀬」を、強調対象単語に選択する。
さらに、例えば、検索結果単語列「年の瀬解散」のマッチシンボルとして、音節2連鎖「かい」、「いさ」、又は、「さん」が、マッチング部56から単語選択部63に供給された場合、単語選択部63では、検索結果単語列「年の瀬解散」についての単語セットのうちの、マッチシンボル「かい」、「いさ」、又は、「さん」を含む単語セット[かい:解散]、[いさ:解散]、又は、[さん:解散]に含まれる単語「解散」を、強調対象単語に選択する。
図11は、図2のテーブル作成部61が発音シンボル対単語テーブルを作成する第1の作成方法を説明する図である。
例えば、いま、形態素解析部54からテーブル作成部61に対して、検索結果対象単語列「世界遺産原点への回帰」の形態素解析結果が供給されたとする。
検索結果対象単語列「世界遺産原点への回帰」の形態素解析結果には、検索結果対象単語列「世界遺産原点への回帰」を構成する単語と読み(音韻)のセット「世界 せかい」、「遺産 いさん」、「原点 げんてん」、「へ へ」、「の の」、「回帰 かいき」が含まれる。
テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」を構成する各単語「世界」、「遺産」、「原点」、「へ」、「の」、「回帰」について、単語の読みに基づき、単語の発音を表す発音シンボル(列)を求め、さらに、単語の発音シンボルの数Sを求める。
ここで、本実施の形態では、単語の発音シンボルは、単語の音節に等しいので、単語の発音シンボルの数Sは、単語の音節の数に等しい。
また、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」を構成する各単語「世界」、「遺産」、「原点」、「へ」、「の」、「回帰」の発音シンボルを並べて、検索結果対象発音シンボル列「せかいいさんげんてんへのかいき」を構成する。
そして、テーブル作成部61は、検索結果対象発音シンボル列「せかいいさんげんてんへのかいき」から、対応付け単位である音節2連鎖の系列(以下、対応付け単位系列ともいう)「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」を生成する。
さらに、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」を構成する1番目(最初)の単語「世界」を、注目単語に選択する。
そして、テーブル作成部61は、注目単語「世界」と、対応付け単位系列の先頭から、注目単語「世界」の発音シンボルの数Sに等しい3個の対応付け単位「せか」、「かい」、「いい」のそれぞれとを対応付けて、注目単語「世界」の発音シンボルの数Sに等しい数の単語セット[せか:世界]、[かい:世界]、[いい:世界]を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。
その後、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位系列から、単語セットを構成した3個の対応付け単位「せか」、「かい」、「いい」を削除することにより、新たな対応付け単位系列「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」を生成する。
さらに、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」を構成する2番目の単語「遺産」を、新たな注目単語に選択する。
そして、テーブル作成部61は、注目単語「遺産」と、(新たな)対応付け単位系列の先頭から、注目単語「遺産」の発音シンボルの数Sに等しい3個の対応付け単位「いさ」、「さん」、「んげ」のそれぞれとを対応付けて、注目単語「遺産」の発音シンボルの数Sに等しい数の単語セット[いさ:遺産]、[さん:遺産]、[んげ:遺産]を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。
その後、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位系列から、単語セットを構成した3個の対応付け単位「いさ」、「さん」、「んげ」を削除することにより、新たな対応付け単位系列「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」を生成する。
さらに、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」を構成する3番目の単語「原点」を、新たな注目単語に選択する。
そして、テーブル作成部61は、注目単語「原点」と、(新たな)対応付け単位系列の先頭から、注目単語「原点」の発音シンボルの数Sに等しい4個の対応付け単位「げん」、「んて」、「てん」、「んへ」のそれぞれとを対応付けて、注目単語「原点」の発音シンボルの数Sに等しい数の単語セット[げん:原点]、[んて:原点]、[てん:原点]、[んへ:原点]を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。
その後、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位系列から、単語セットを構成した4個の対応付け単位「げん」、「んて」、「てん」、「んへ」を削除することにより、新たな対応付け単位系列「への」、「のか」、「かい」、「いき」を生成し、以下、対応付け単位系列を構成する対応付け単位がなくなるまで、同様の処理を繰り返すことで、検索結果対象単語列「世界遺産原点への回帰」についての単語セットを構成し、発音シンボル対単語テーブルに登録する。
なお、対応付け単位系列を構成する対応付け単位の数が、注目単語の発音シンボルの数Sに満たない場合には、その注目単語については、対応付け単位を構成する対応付け単位の数に等しい数の単語セットが構成される。
すなわち、検索結果対象単語列「世界遺産原点への回帰」を構成する最後の単語「回帰」が、注目単語に選択されたとき、対応付け単位系列は、対応付け単位「かい」、「いき」で構成される。
したがって、対応付け単位系列を構成する対応付け単位の数は、2個であり、注目単語「回帰」の発音シンボルの数Sである3個に満たない。
この場合、テーブル作成部61では、注目単語「回帰」と、対応付け単位系列を構成する2個の対応付け単位「かい」、「いき」のそれぞれとが対応付けられて、注目単語「回帰」の発音シンボルの数Sより少ない2個の単語セット[かい:回帰]、[いき:回帰]が構成され、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録される。
テーブル作成部61は、以上のようにして、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」のすべてについて、単語セットを構成し、発音シンボル対単語テーブルに登録する。
そして、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位の中に、同一(の発音シンボル)の対応付け単位が複数存在する場合には、その同一の複数の対応付け単位を含む複数の単語セットを、1つの単語セットにマージする。
ここで、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」においては、2番目の対応付け単位「かい」と、13番目の対応付け単位「かい」とが同一になっている。
この場合、2番目の対応付け単位「かい」を含む単語セット[かい:世界]と、13番目の対応付け単位「かい」を含む単語セット[かい:回帰]とは、1つの単語セット[かい:世界、回帰]にマージされる。
その結果、対応付け単位「かい」は、単語「世界」と「回帰」との両方に対応付けられる。
図12は、第1の作成方法で発音シンボル対単語テーブルを作成する処理を説明するフローチャートである。
ステップS31において、テーブル作成部61は、検索結果対象記憶部53に記憶された検索結果対象単語列のうちの、形態素解析部54から形態素解析結果が供給される検索結果対象単語列を、注目単語列に選択し、形態素解析部54からの注目単語列の形態素解析結果を取得して、処理は、ステップS32に進む。
ステップS32では、テーブル作成部61は、形態素解析部54からの注目単語列の形態素解析結果に基づき、注目単語列を構成する各単語の発音シンボル(列)を求め、その発音シンボルを並べることにより、注目単語列の検索結果対象発音シンボル列を求める(注目単語列を検索結果対象発音シンボル列に変換する)。
さらに、テーブル作成部61は、注目単語列の検索結果対象発音シンボル列から、対応付け単位の系列である対応付け単位系列を生成し、処理は、ステップS32からステップS33に進む。
ステップS33では、テーブル作成部61は、注目単語列を構成する単語のうちの、まだ、注目単語に選択していない、最も先頭側の単語を、注目単語に選択する。
さらに、テーブル作成部61は、注目単語の形態素解析結果から、注目単語の発音シンボルの数Sを求め、処理は、ステップS33からステップS34に進む。
ステップS34では、テーブル作成部61は、注目単語と、対応付け単位系列の先頭から、注目単語の発音シンボルの数Sだけの対応付け単位それぞれとを対応付けて、注目単語の発音シンボルの数Sに等しい数の単語セットを構成し、注目単語列についての単語セットとして、発音シンボル対単語テーブルに登録する。
ここで、対応付け単位系列を構成する対応付け単位の数が、注目単語の発音シンボルの数Sに満たない場合、ステップS34では、テーブル作成部61は、注目単語と、対応付け単位系列を構成するすべての対応付け単位のそれぞれとを対応付け、対応付け単位系列を構成する対応付け単位の数に等しい数の単語セットを構成する。
その後、処理は、ステップS34からステップS35に進み、テーブル作成部61は、注目単語列の対応付け単位系列から、直前のステップS34で単語セットを構成した対応付け単位を削除することにより、新たな対応付け単位系列を生成して、処理は、ステップS36に進む。
ステップS36では、テーブル作成部61は、注目単語列を構成する単語の中で、まだ、注目単語に選択されていない単語があるかどうかを判定する。
ステップS36において、注目単語列を構成する単語の中で、まだ、注目単語に選択されていない単語があると判定された場合、処理は、ステップS33に戻り、上述したように、注目単語列を構成する単語のうちの、まだ、注目単語に選択していない、最も先頭側の単語が、注目単語に選択され、以下、同様の処理が繰り返される。
また、ステップS36において、注目単語列を構成する単語の中で、注目単語に選択されていない単語がないと判定された場合、すなわち、注目単語列を構成する単語のすべてが、注目単語に選択された場合、処理は、ステップS37に進み、テーブル作成部61は、必要に応じて、発音シンボル対単語テーブルに登録された、注目単語列についての単語セットのマージを行う。
すなわち、ステップS37では、発音シンボル対単語テーブルに登録された、注目単語列についての単語セットの中に、同一(の発音シンボル)の対応付け単位を含む単語セットが複数存在する場合には、テーブル作成部61は、その同一の対応付け単位を含む複数の単語セットを、図11で説明したように、1つの単語セットにマージする。
そして、処理は、ステップS37からステップS38に進み、テーブル作成部61は、検索結果対象記憶部53に記憶された検索結果対象単語列の中で、まだ、注目単語列に選択されていない検索結果対象単語列があるかどうかを判定する。
ステップS38において、検索結果対象記憶部53に記憶された検索結果対象単語列の中で、まだ、注目単語列に選択されていない検索結果対象単語列があると判定された場合、テーブル作成部61は、形態素解析部54から形態素解析結果が供給されるのを待って、ステップS31に戻り、形態素解析部54から形態素解析結果が供給された検索結果対象単語列を、注目単語列に選択し、以下、同様の処理が繰り返される。
また、ステップS38において、検索結果対象記憶部53に記憶された検索結果対象単語列の中に、注目単語列に選択されていない検索結果対象単語列がないと判定された場合、すなわち、検索結果対象記憶部53に記憶された検索結果対象単語列のすべてについて、単語セットが構成され、発音シンボル対単語テーブルに登録された場合、処理は、ステップS39に進み、テーブル作成部61は、発音シンボル対単語テーブルを(テーブル記憶部62に)出力して、処理は終了する。
図13は、図2のテーブル作成部61が発音シンボル対単語テーブルを作成する第2の作成方法を説明する図である。
例えば、いま、図11の場合と同様に、形態素解析部54からテーブル作成部61に対して、検索結果対象単語列「世界遺産原点への回帰」の形態素解析結果が供給されたとする。
テーブル作成部61は、図11の場合と同様に、検索結果対象単語列「世界遺産原点への回帰」を構成する各単語「世界」、「遺産」、「原点」、「へ」、「の」、「回帰」について、単語の読みに基づき、単語の発音を表す発音シンボル(列)を求め、その発音シンボルを並べて、検索結果対象発音シンボル列「せかいいさんげんてんへのかいき」を構成する。
さらに、テーブル作成部61は、図11の場合と同様に、検索結果対象発音シンボル列「せかいいさんげんてんへのかいき」から、対応付け単位、ひいては、対応付け単位系列「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」を生成する。
そして、テーブル作成部61は、対応付け単位系列を構成する各対応付け単位から、1番目の発音シンボルを、その対応付け単位のタグとして抽出し、各対応付け単位のタグを並べた系列である1文字タグ系列「せかいいさんげんてんへのかい」を生成する。
その後、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」を構成する1番目の単語「世界」を、注目単語に選択する。
さらに、テーブル作成部61は、注目単語「世界」の発音シンボル「せかい」から、まだ、注目シンボルに選択していない最も先頭側の1個の発音シンボル「せ」を、注目シンボルに選択する。
そして、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の1文字タグ系列「せかいいさんげんてんへのかい」の先頭から終わりに向かって、注目シンボル「せ」に一致する最初のタグ「せ」を検出する。
さらに、テーブル作成部61は、注目シンボル「せ」に一致する最初のタグ「せ」が付された対応付け単位「せか」と、注目単語「世界」とを対応付けて、単語セット[せか:世界]を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。
その後、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の1文字タグ系列「せかいいさんげんてんへのかい」から、注目単語「世界」と対応付けられた対応付け単位「せか」のタグ「せ」を削除して、新たな1文字タグ系列「かいいさんげんてんへのかい」を生成する。
さらに、テーブル作成部61は、注目単語「世界」の発音シンボル「せかい」から、まだ、注目シンボルに選択していない最も先頭側の1個の発音シンボル「か」を、注目シンボルに選択する。
そして、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の1文字タグ系列「かいいさんげんてんへのかい」の先頭から終わりに向かって、注目シンボル「か」に一致する最初のタグ「か」を検出する。
さらに、テーブル作成部61は、注目シンボル「か」に一致する最初のタグ「か」が付された対応付け単位「かい」と、注目単語「世界」とを対応付けて、単語セット[かい:世界]を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。
その後、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の1文字タグ系列「かいいさんげんてんへのかい」から、注目単語「世界」と対応付けられた対応付け単位「かい」のタグ「か」を削除して、新たな1文字タグ系列「いいさんげんてんへのかい」を生成する。
さらに、テーブル作成部61は、注目単語「世界」の発音シンボル「せかい」から、まだ、注目シンボルに選択していない最も先頭側の1個の発音シンボル「い」を、注目シンボルに選択する。
そして、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の1文字タグ系列「いいさんげんてんへのかい」の先頭から終わりに向かって、注目シンボル「い」に一致する最初のタグ「い」を検出する。
さらに、テーブル作成部61は、注目シンボル「い」に一致する最初のタグ「い」が付された対応付け単位「いい」と、注目単語「世界」とを対応付けて、単語セット[いい:世界]を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。
その後、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の1文字タグ系列「いいさんげんてんへのかい」から、注目単語「世界」と対応付けられた対応付け単位「いい」のタグ「い」を削除して、新たな1文字タグ系列「いさんげんてんへのかい」を生成する。
さらに、テーブル作成部61は、上述したように、注目単語「世界」の発音シンボル「せかい」から、まだ、注目シンボルに選択していない最も先頭側の1個の発音シンボルを、注目シンボルに選択するが、注目単語「世界」の発音シンボル「せかい」には、注目シンボルに選択していない発音シンボルがない。
注目単語の発音シンボルに、注目シンボルに選択していない発音シンボルがない場合、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」を構成する2番目の単語「遺産」を、注目単語に選択する。
さらに、テーブル作成部61は、注目単語「遺産」の発音シンボル「いさん」から、まだ、注目シンボルに選択していない最も先頭側の1個の発音シンボル「い」を、注目シンボルに選択する。
そして、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の1文字タグ系列「いさんげんてんへのかい」の先頭から終わりに向かって、注目シンボル「い」に一致する最初のタグ「い」を検出する。
さらに、テーブル作成部61は、注目シンボル「い」に一致する最初のタグ「い」が付された対応付け単位「いさ」と、注目単語「遺産」とを対応付けて、単語セット[いさ:遺産]を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。
その後、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の1文字タグ系列「いさんげんてんへのかい」から、注目単語「遺産」と対応付けられた対応付け単位「いさ」のタグ「い」を削除して、新たな1文字タグ系列「さんげんてんへのかい」を生成する。
その後、テーブル作成部61は、上述したように、注目単語「遺産」の発音シンボル「いさん」から、まだ、注目シンボルに選択していない最も先頭側の1個の発音シンボル「さ」を、注目シンボルに選択し、以下、1文字タグ系列を構成するタグがなくなるまで、同様の処理を繰り返すことで、検索結果対象単語列「世界遺産原点への回帰」についての単語セットを構成し、発音シンボル対単語テーブルに登録する。
テーブル作成部61では、以上のようにして、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」のすべてについて、単語セットが構成され、発音シンボル対単語テーブルに登録される。
そして、テーブル作成部61は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位の中に、同一(の発音シンボル)の対応付け単位が複数存在する場合には、その同一の複数の対応付け単位を含む単語セットを、図11で説明したように、1つの単語セットにマージする。
すなわち、図13では、図11の場合と同様に、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」において、2番目の対応付け単位「かい」と、13番目の対応付け単位「かい」とが同一になっている。
このため、2番目の対応付け単位「かい」を含む単語セット[かい:世界]と、13番目の対応付け単位「かい」を含む単語セット[かい:回帰]とは、1つの単語セット[かい:世界、回帰]にマージされ、その結果、対応付け単位「かい」は、単語「世界」と「回帰」との両方に対応付けられる。
図14は、第2の作成方法で発音シンボル対単語テーブルを作成する処理を説明するフローチャートである。
ステップS51において、テーブル作成部61は、検索結果対象記憶部53に記憶された検索結果対象単語列のうちの、形態素解析部54から形態素解析結果が供給される検索結果対象単語列を、注目単語列に選択し、形態素解析部54からの注目単語列の形態素解析結果を取得して、処理は、ステップS52に進む。
ステップS52では、テーブル作成部61は、形態素解析部54からの注目単語列の形態素解析結果に基づき、注目単語列を構成する各単語の発音シンボル(列)を求め、その発音シンボルを並べることにより、注目単語列の検索結果対象発音シンボル列を求める(注目単語列を検索結果対象発音シンボル列に変換する)。
さらに、テーブル作成部61は、注目単語列の検索結果対象発音シンボル列から、対応付け単位の系列である対応付け単位系列を生成し、処理は、ステップS52からステップS53に進む。
ステップS53では、テーブル作成部61は、対応付け単位系列を構成する各対応付け単位から、1番目の発音シンボルを、その対応付け単位のタグとして抽出し、各対応付け単位のタグを並べた系列である1文字タグ系列を生成して、処理は、ステップS54に進む。
ステップS54では、テーブル作成部61は、注目単語列を構成する単語のうちの、まだ、注目単語に選択していない、最も先頭側の単語を、注目単語に選択し、処理は、ステップS55に進む。
ステップS55では、テーブル作成部61は、注目単語の発音シンボルから、まだ、注目シンボルに選択していない最も先頭側の1個の発音シンボルを、注目シンボルに選択して、処理は、ステップS56に進む。
ステップS56では、テーブル作成部61は、注目単語列の1文字タグ系列の先頭から終わりに向かって、注目シンボルに一致する最初のタグを検出する。
さらに、テーブル作成部61は、注目シンボルに一致する最初のタグが付された対応付け単位と、注目単語とを対応付けて、単語セットを構成し、注目単語列についての単語セットとして、発音シンボル対単語テーブルに登録して、処理は、ステップS56からステップS57に進む。
ステップS57では、テーブル作成部61は、注目単語列の1文字タグ系列から、注目単語と対応付けられた対応付け単位のタグを削除して、新たな1文字タグ系列を生成し、処理は、ステップS58に進む。
ステップS58では、テーブル作成部61は、注目単語の発音シンボルの中に、注目シンボルに選択していない発音シンボルがあるかどうかを判定する。
ステップS58において、注目単語の発音シンボルの中に、注目シンボルに選択していない発音シンボルがあると判定された場合、処理は、ステップS55に戻り、テーブル作成部61は、注目単語の発音シンボルから、まだ、注目シンボルに選択していない最も先頭側の1個の発音シンボルを、注目シンボルに選択し、以下、同様の処理が繰り返される。
また、ステップS58において、注目単語の発音シンボルの中に、注目シンボルに選択していない発音シンボルがないと判定された場合、処理は、ステップS59に進み、テーブル作成部61は、注目単語列を構成する単語の中で、まだ、注目単語に選択されていない単語があるかどうかを判定する。
ステップS59において、注目単語列を構成する単語の中で、まだ、注目単語に選択されていない単語があると判定された場合、処理は、ステップS54に戻り進み、上述したように、注目単語列を構成する単語のうちの、まだ、注目単語に選択していない、最も先頭側の単語が、注目単語に選択され、以下、同様の処理が繰り返される。
また、ステップS59において、注目単語列を構成する単語の中で、注目単語に選択されていない単語がないと判定された場合、すなわち、注目単語列を構成する単語のすべてが、注目単語に選択された場合、処理は、ステップS60に進み、テーブル作成部61は、必要に応じて、発音シンボル対単語テーブルに登録された、注目単語列についての単語セットのマージを行う。
すなわち、ステップS60では、発音シンボル対単語テーブルに登録された、注目単語列についての単語セットの中に、同一(の発音シンボル)の対応付け単位を含む単語セットが複数存在する場合には、テーブル作成部61は、その同一の対応付け単位を含む複数の単語セットを、図11及び図13で説明したように、1つの単語セットにマージする。
そして、処理は、ステップS60からステップS61に進み、テーブル作成部61は、検索結果対象記憶部53に記憶された検索結果対象単語列の中で、まだ、注目単語列に選択されていない検索結果対象単語列があるかどうかを判定する。
ステップS61において、検索結果対象記憶部53に記憶された検索結果対象単語列の中で、まだ、注目単語列に選択されていない検索結果対象単語列があると判定された場合、テーブル作成部61は、形態素解析部54から形態素解析結果が供給されるのを待って、ステップS51に戻り、形態素解析部54から形態素解析結果が供給された検索結果対象単語列を、注目単語列に選択し、以下、同様の処理が繰り返される。
また、ステップS61において、検索結果対象記憶部53に記憶された検索結果対象単語列の中に、注目単語列に選択されていない検索結果対象単語列がないと判定された場合、すなわち、検索結果対象記憶部53に記憶された検索結果対象単語列のすべてについて、単語セットが構成され、発音シンボル対単語テーブルに登録された場合、処理は、ステップS62に進み、テーブル作成部61は、発音シンボル対単語テーブルを(テーブル記憶部62に)出力して、処理は終了する。
図15は、図2のテーブル作成部61が作成する発音シンボル対単語テーブルの他の例を示す図である。
図10の発音シンボル対単語テーブルでは、対応付け単位として、連続する2個の発音シンボルである音節2連鎖を採用したが、図15の発音シンボル対単語テーブルでは、対応付け単位として、連続する3個の発音シンボルである音節3連鎖(連続する3つの音節)が採用されている。
図15の発音シンボル対単語テーブルには、検索結果単語列「世界遺産原点への回帰」についての単語セットが登録されており、その単語セットにおいては、音節3連鎖である対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とが対応付けられている。
検索結果単語列「世界遺産原点への回帰」について、音節3連鎖である対応付け単位は、音節2連鎖の場合と同様にして求めることができる。
すなわち、検索結果単語列「世界遺産原点への回帰」について、音節3連鎖である対応付け単位は、その発音シンボル列「せかいいさんげんてんへのかいき」の先頭から、注目する注目音節(発音シンボル)を、後方に、1音節ずつずらしていきながら、注目音節と、その注目音節の直後の2つの音節との3つの音節を抽出することで求めることができる。
ここで、検索結果単語列「世界遺産原点への回帰」については、音節3連鎖である対応付け単位として、「せかい」、「かいい」、「いいさ」、「いさん」、「さんげ」、「んげん」、「げんて」、「んてん」、「てんへ」、「んへの」、「へのか」、「のかい」、「かいき」を得ることができる。
そして、検索結果単語列「世界遺産原点への回帰」についての発音シンボル対単語テーブルは、上述した第1の作成方法や第2の作成方法によって作成することができる。
なお、対応付け単位としての発音シンボルの数S1は、マッチング単位としての発音シンボルの数S2以下である必要がある。
上述したように、単語選択部63は、発音シンボル対単語テーブルに登録された、検索結果単語列(となった検索結果対象単語列)についての単語セットの中で、検索結果単語列のマッチング単位であるマッチシンボルに含まれる対応付け単位を含む単語セットを検出するので、対応付け単位としての発音シンボルの数S1が、マッチング単位としての発音シンボルの数S2よりも多い場合(S1>S2)には、S1個の発音シンボルである対応付け単位が、そのS1個より少ないS2個の発音シンボルであるマッチシンボルに含まれることがなく、S2個の発音シンボルであるマッチシンボルに含まれる、S1個の発音シンボルである対応付け単位は、存在しないからである。
[単語選択部63の処理]
図16は、図9のステップS15で、単語選択部63が行う処理を説明するフローチャートである。
単語選択部63は、生成部57から供給される検索結果単語列(類似度が上位、又は、閾値以上の検索結果対象単語列)を、順次、注目単語列に選択し、注目単語列に対して、ステップS71ないしS73の処理を行う。
すなわち、単語選択部63は、ステップS71において、マッチング部56から供給されるマッチシンボルの中から、注目単語のマッチシンボル、つまり、認識結果発音シンボル列のマッチング単位と一致する、注目単語列の発音シンボル(検索結果対象発音シンボル列)のマッチング単位を取得する。
そして、単語選択部63は、ステップS72において、テーブル記憶部62に記憶された発音シンボル対単語テーブルに登録された単語セットのうちの、注目単語列としての検索結果単語列(となった検索結果対象単語列)についての単語セットを参照し、その単語セットの中から、注目単語列のマッチシンボルに含まれる対応付け単位(本実施の形態では、マッチング単位と対応付け単位の発音シンボルの数が同一であるため、マッチシンボルに一致する対応付け単位)を含む単語セットを検出する。
さらに、単語選択部63は、注目単語列についての単語セットの中から検出した、注目単語列のマッチシンボルに一致する対応付け単位を含む単語セットに含まれる単語、つまり、注目単語列のマッチシンボルに一致する対応付け単位に対応付けられている単語を、注目単語列の中で強調する対象の強調対象単語に選択する。
そして、単語選択部63は、注目単語列のマッチシンボルのすべてに対して、強調対象単語を選択した後、ステップS73において、その強調対象単語を、強調変換部64に出力する。
[具体例]
図17は、発音シンボル対単語テーブルのさらに他の例を示す図である。
図17の発音シンボル対単語テーブルでは、検索結果対象単語列「The世界遺産」、「世界遺産 原点への回帰」、及び、「速報 年の瀬に解散」のそれぞれについて、対応付け単位としての音節2連鎖と、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とが対応付けられた単語セットが登録されている。
図17の発音シンボル対単語テーブルによれば、音声検索装置10において、以下のような強調単語列が得られる。
すなわち、いま、ユーザが、入力音声「都市の世界遺産」を発話し、音声認識部51において、その入力音声「都市の世界遺産」に対して、正しい音声認識結果「都市の世界遺産」が得られたとする。
さらに、入力音声「都市の世界遺産」の正しい音声認識結果「都市の世界遺産」に対して、生成部57において、検索結果対象単語列「The世界遺産」、「探検ロマン世界遺産 ローマ帝国植民都市」、「世界 遺産100ギリシャ都市国家」、「The世界遺産 空中都市マチュピチュ」、及び、「世界遺産 古代都市テーベ」が、検索結果単語列として選択され、単語選択部63、及び、強調変換部64に供給されたこととする。
いま、検索結果単語列(となった検索結果対象単語列)「The世界遺産」、「探検ロマン世界遺産 ローマ帝国植民都市」、「世界 遺産100ギリシャ都市国家」、「The世界遺産 空中都市マチュピチュ」、及び、「世界遺産 古代都市テーベ」のうちの、例えば、「The世界遺産」を注目単語列とすると、注目単語列「The世界遺産」のマッチング単位である音節2連鎖は、「ざせ/せか/かい/いい/いさ/さん」となる(スラッシュ(/)は、マッチング単位の区切りを表す)。
一方、入力音声「都市の世界遺産」の正しい音声認識結果「都市の世界遺産」のマッチング単位である音節2連鎖は、「とし/しの/のせ/せか/かい/いい/いさ/さん」となる。
したがって、マッチング部56では、注目単語列「The世界遺産」のマッチング単位「ざせ/せか/かい/いい/いさ/さん」の中で、正しい音声認識結果「都市の世界遺産」のマッチング単位「とし/しの/のせ/せか/かい/いい/いさ/さん」と一致するマッチング単位であるマッチシンボルとして、マッチング単位「せか」、「かい」、「いい」、「いさ」、「さん」が求められる。
そして、図17の発音シンボル対単語テーブルにおいて、注目単語列「The世界遺産」については、マッチシンボル「せか」に一致する対応付け単位「せか」には、単語「世界」が、マッチシンボル「かい」に一致する対応付け単位「かい」には、単語「世界」が、マッチシンボル「いい」に一致する対応付け単位「いい」には、単語「遺産」が、マッチシンボル「いさ」に一致する対応付け単位「いさ」には、単語「遺産」が、マッチシンボル「さん」に一致する対応付け単位「さん」には、単語「遺産」が、それぞれ対応付けられている。
したがって、単語選択部63では、単語「世界」、及び、「遺産」のそれぞれが、強調対象単語として選択され、強調変換部64に供給される。
その結果、強調変換部64では、注目単語列「The世界遺産」が、そのうちの強調対象単語「世界」、及び、「遺産」が強調された強調単語列「The世界遺産」に変換される。
強調対象単語「世界」、及び、「遺産」が強調された強調単語列「The世界遺産」によれば、ユーザは、視覚的に、一目で、強調単語列「The世界遺産」のうちの、強調対象単語「世界」、及び、「遺産」が、入力音声「都市の世界遺産」に対応する部分であり、その強調対象単語「世界」、及び、「遺産」の発音(読み)が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致したために、強調単語列「The世界遺産」が、検索結果となっていることを把握することができる。
したがって、音声検索装置10によれば、利便性の高い検索結果を提供することができる。
次に、ユーザが、入力音声「都市の世界遺産」を発話し、音声認識部51において、その入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られたとする。
さらに、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」に対して、生成部57において、検索結果対象単語列「The世界遺産」、「探検ロマン世界遺産 ローマ帝国植民都市」、「世界 遺産100ギリシャ都市国家」、「The世界遺産 空中都市マチュピチュ」、及び、「世界遺産 古代都市テーベ」が、検索結果単語列として選択され、単語選択部63、及び、強調変換部64に供給されたこととする。
いま、検索結果単語列(となった検索結果対象単語列)「The世界遺産」、「探検ロマン世界遺産 ローマ帝国植民都市」、「世界 遺産100ギリシャ都市国家」、「The世界遺産 空中都市マチュピチュ」、及び、「世界遺産 古代都市テーベ」のうちの、例えば、「The世界遺産」を注目単語列とすると、注目単語列「The世界遺産」のマッチング単位である音節2連鎖は、上述したように、「ざせ/せか/かい/いい/いさ/さん」となる。
一方、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」のマッチング単位である音節2連鎖は、「とし/しの/のせ/せか/かい/いさ/さん」となる。
したがって、マッチング部56では、注目単語列「The世界遺産」のマッチング単位「ざせ/せか/かい/いい/いさ/さん」の中で、誤った音声認識結果「年の瀬解散」のマッチング単位「とし/しの/のせ/せか/かい/いさ/さん」と一致するマッチング単位であるマッチシンボルとして、マッチング単位「せか」、「かい」、「いさ」、「さん」が求められる。
そして、図17の発音シンボル対単語テーブルにおいて、注目単語列「The世界遺産」については、マッチシンボル「せか」に一致する対応付け単位「せか」には、単語「世界」が、マッチシンボル「かい」に一致する対応付け単位「かい」には、単語「世界」が、マッチシンボル「いさ」に一致する対応付け単位「いさ」には、単語「遺産」が、マッチシンボル「さん」に一致する対応付け単位「さん」には、単語「遺産」が、それぞれ対応付けられている。
したがって、単語選択部63では、単語「世界」、及び、「遺産」のそれぞれが、強調対象単語として選択され、強調変換部64に供給される。
その結果、強調変換部64では、注目単語列「The世界遺産」が、そのうちの強調対象単語「世界」、及び、「遺産」が強調された強調単語列「The世界遺産」に変換される。
強調対象単語「世界」、及び、「遺産」が強調された強調単語列「The世界遺産」によれば、ユーザは、視覚的に、一目で、強調単語列「The世界遺産」のうちの、強調対象単語「世界」、及び、「遺産」が、入力音声「都市の世界遺産」に対応する部分であり、その強調対象単語「世界」、及び、「遺産」の発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致したために、強調単語列「The世界遺産」が、検索結果となっていることを把握することができる。
さらに、入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られても、発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致する検索結果対象単語列「The世界遺産」を、検索結果(検索結果単語列)として得ることができる。
したがって、音声検索装置10によれば、入力音声に対応する単語列が、音声認識が誤ることに起因して、検索結果単語列として出力されないことを防止(低減)するとともに、利便性の高い検索結果を提供することができる。
次に、ユーザが、入力音声「都市の世界遺産」を発話し、音声認識部51において、その入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られたとする。
さらに、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」に対して、生成部57において、検索結果対象単語列「世界遺産 原点への回帰」が、検索結果単語列として選択され、単語選択部63、及び、強調変換部64に供給されたこととする。
いま、検索結果単語列(となった検索結果対象単語列)「世界遺産 原点への回帰」を注目単語列とすると、注目単語列「世界遺産 原点への回帰」のマッチング単位である音節2連鎖は、「せか/かい/いい/いさ/さん/んげ/げん/んて/てん/んへ/への/のか/かい/いき」となる。
一方、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」のマッチング単位である音節2連鎖は、「とし/しの/のせ/せか/かい/いさ/さん」となる。
したがって、マッチング部56では、注目単語列「世界遺産 原点への回帰」のマッチング単位「せか/かい/いい/いさ/さん/んげ/げん/んて/てん/んへ/への/のか/かい/いき」の中で、誤った音声認識結果「年の瀬解散」のマッチング単位「とし/しの/のせ/せか/かい/いさ/さん」と一致するマッチング単位であるマッチシンボルとして、マッチング単位「せか」、「かい」、「いさ」、「さん」が求められる。
そして、図17の発音シンボル対単語テーブルにおいて、注目単語列「世界遺産 原点への回帰」については、マッチシンボル「せか」に一致する対応付け単位「せか」には、単語「世界」が、マッチシンボル「かい」に一致する対応付け単位「かい」には、単語「世界」及び「回帰」の2つが、マッチシンボル「いさ」に一致する対応付け単位「いさ」には、単語「遺産」が、マッチシンボル「さん」に一致する対応付け単位「さん」には、単語「遺産」が、それぞれ対応付けられている。
したがって、単語選択部63では、単語「世界」、「遺産」、及び、「回帰」のそれぞれが、強調対象単語として選択され、強調変換部64に供給される。
その結果、強調変換部64では、注目単語列「世界遺産 原点への回帰」が、そのうちの強調対象単語「世界」、「遺産」、及び、「回帰」が強調された強調単語列「世界遺産 原点への回帰」に変換される。
強調対象単語「世界」、「遺産」、及び、「回帰」が強調された強調単語列「世界遺産 原点への回帰」によれば、ユーザは、視覚的に、一目で、強調単語列「世界遺産 原点への回帰」のうちの、強調対象単語「世界」、「遺産」、及び、「回帰」が、入力音声「都市の世界遺産」に対応する部分であり、その強調対象単語「世界」、「遺産」、及び、「回帰」の発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致したために、強調単語列「世界遺産 原点への回帰」が、検索結果となっていることを把握することができる。
さらに、入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られても、発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致する検索結果対象単語列「世界遺産 原点への回帰」を、検索結果(検索結果単語列)として得ることができる。
したがって、音声検索装置10によれば、入力音声に対応する単語列が、音声認識が誤ることに起因して、検索結果単語列として出力されないことを防止(低減)するとともに、利便性の高い検索結果を提供することができる。
次に、ユーザが、入力音声「都市の世界遺産」を発話し、音声認識部51において、その入力音声「都市の世界遺産」に対して、正しい音声認識結果「都市の世界遺産」が得られたとする。
さらに、入力音声「都市の世界遺産」の正しい音声認識結果「都市の世界遺産」に対して、生成部57において、検索結果対象単語列「速報 年の瀬に解散」が、検索結果単語列として選択され、単語選択部63、及び、強調変換部64に供給されたこととする。
いま、検索結果単語列(となった検索結果対象単語列)「速報 年の瀬に解散」を注目単語列とすると、注目単語列「速報 年の瀬に解散」のマッチング単位である音節2連鎖は、「そく/くほ/ほう/うと/とし/しの/のせ/せに/にか/かい/いさ/さん」となる。
一方、入力音声「都市の世界遺産」の正しい音声認識結果「都市の世界遺産」のマッチング単位である音節2連鎖は、「とし/しの/のせ/せか/かい/いい/いさ/さん」となる。
したがって、マッチング部56では、注目単語列「速報 年の瀬に解散」のマッチング単位「そく/くほ/ほう/うと/とし/しの/のせ/せに/にか/かい/いさ/さん」の中で、正しい音声認識結果「都市の世界遺産」のマッチング単位「とし/しの/のせ/せか/かい/いい/いさ/さん」と一致するマッチング単位であるマッチシンボルとして、マッチング単位「とし」、「しの」、「のせ」、「かい」、「いさ」、「さん」が求められる。
そして、図17の発音シンボル対単語テーブルにおいて、注目単語列「速報 年の瀬に解散」については、マッチシンボル「とし」に一致する対応付け単位「とし」には、単語「年の瀬」が、マッチシンボル「しの」に一致する対応付け単位「しの」には、単語「年の瀬」が、マッチシンボル「のせ」に一致する対応付け単位「のせ」には、単語「年の瀬」が、マッチシンボル「かい」に一致する対応付け単位「かい」には、単語「解散」が、マッチシンボル「いさ」に一致する対応付け単位「いさ」には、単語「解散」が、マッチシンボル「さん」に一致する対応付け単位「さん」には、単語「解散」が、それぞれ対応付けられている。
したがって、単語選択部63では、単語「年の瀬」、及び、「解散」のそれぞれが、強調対象単語として選択され、強調変換部64に供給される。
その結果、強調変換部64では、注目単語列「速報 年の瀬に解散」が、そのうちの強調対象単語「年の瀬」、及び、「解散」が強調された強調単語列「速報 年の瀬に解散」に変換される。
強調対象単語「年の瀬」、及び、「解散」が強調された強調単語列「速報 年の瀬に解散」によれば、ユーザは、視覚的に、一目で、強調単語列「速報 年の瀬に解散」のうちの、強調対象単語「年の瀬」、及び、「解散」が、入力音声「都市の世界遺産」に対応する部分であり、その強調対象単語「年の瀬」、及び、「解散」の発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致したために、強調単語列「速報 年の瀬に解散」が、検索結果となっていることを把握することができる。
すなわち、マッチング部56では、発音シンボルを用いたマッチングが行われるが、発音シンボルを用いたマッチングでは、音声認識結果「都市の世界遺産」とは、表記が似ていないが、発音が似ている部分がある検索結果対象単語列「速報 年の瀬に解散」の類似度が大になり、そのような検索結果対象単語列「速報 年の瀬に解散」が、検索結果単語列に選択されることがある。
この場合、検索結果単語列(となった検索結果対象単語列)「速報 年の瀬に解散」が、何らの強調もされずに表示されると、ユーザは、入力音声「都市の世界遺産」とは、表記がまったく異なる検索結果単語列「速報 年の瀬に解散」が、入力音声「都市の世界遺産」に対して検索された理由が分からず、ストレスを感じることがある。
一方、音声検索装置10では、上述したように、検索結果単語列「速報 年の瀬に解散」が、そのうちの強調対象単語「年の瀬」、及び、「解散」が強調された強調単語列「速報 年の瀬に解散」に変換されるので、検索結果単語列「速報 年の瀬に解散」の表示は、単語「年の瀬」、及び、「解散」を強調して行われる。
この場合、ユーザは、検索結果単語列「速報 年の瀬に解散」の表示で強調されている「年の瀬」の発音「としのせ」が、入力音声「都市の世界遺産」の発音「としのせかいいさん」のうちの「としのせ」に一致し、検索結果単語列「速報 年の瀬に解散」の表示で強調されている「解散」の発音「かいさん」が、入力音声「都市の世界遺産」の発音「としのせかいいさん」のうちの「かいいさん」にほぼ一致するという理由で、検索結果単語列「速報 年の瀬に解散」が、入力音声「都市の世界遺産」に対して検索されたことを、容易に把握することができる。
図18及び図19は、検索結果単語列(となった検索結果対象単語列)の表示例を示す図である。
すなわち、図18及び図19は、入力音声「いいとも」に対して、正しい音声認識結果「いいとも」が得られた場合の検索結果単語列の表示例を示している。
ここで、図18は、強調対象単語を強調していない表示例を示し、図19は、強調対象単語を強調した表示例を示している。
図19において、強調対象単語は、矩形で囲むことにより強調されている。
図18及び図19から、強調対象単語を強調して表示することにより、ユーザは、入力音声「いいとも」に対して、各検索結果単語列が検索された理由を、容易に把握することができ、さらに、強調対象単語に、ユーザの視線が集中しやすくなることにより、所望の検索結果である(可能性が高い)、入力音声「いいとも」に表記が一致する検索結果単語列を、迅速に見つけ出すことができることが分かる。
[本発明を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図20は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
すなわち、例えば、音声検索装置10(図2)は、その全部、又は、一部を、インターネット等のネットワーク上のサーバに実装することができる。
具体的には、例えば、音声検索装置10は、その全部を、サーバに実装し、クライアント端末からの入力音声を受け付け、その入力音声に対して強調変換部64が出力する強調単語列を、音声検索の検索結果として、クライアント端末に提供することができる。
また、例えば、音声検索装置10は、音声認識部51を、クライアント端末に実装するとともに、音声認識部51以外を、サーバに実行し、クライアント端末では、入力音声を音声認識し、その音声認識結果を、サーバに送信し、サーバでは、クライアント端末からの音声認識結果を受け付け、その音声認識結果に対して強調変換部64が出力する強調単語列を、音声検索の検索結果として、クライアント端末に提供することができる。
10 音声検索装置, 20 レコーダ機能部, 21 チューナ, 22 記録再生部, 23 記録媒体, 31 操作部, 32 制御部, 33 出力I/F, 51 音声認識部, 52 発音シンボル変換部, 53 検索結果対象記憶部, 54 形態素解析部, 55 発音シンボル変換部, 56 マッチング部, 57 生成部, 61 テーブル作成部, 62 テーブル記憶部, 63 単語選択部, 64 強調変換部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (11)

  1. 入力音声を音声認識する音声認識部と、
    前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、
    前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、
    前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、
    前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部と
    を備える検索装置。
  2. 前記発音シンボル対単語テーブルには、前記検索結果対象単語列の発音シンボルと、前記検索結果対象単語列を構成する単語とが対応付けられている
    請求項1に記載の検索装置。
  3. 前記発音シンボル対単語テーブルには、前記検索結果対象単語列の、連続する2個以上の発音シンボルを、単語に対応付ける対応付け単位として、前記対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、前記検索結果対象単語列の単語とが対応付けられている
    請求項2に記載の検索装置。
  4. 前記マッチング部は、
    2個以上の発音シンボルを、マッチングをとるときのマッチング単位として、前記マッチング単位で、前記音声認識結果と前記検索結果対象単語列とのマッチングを行い、
    前記認識結果発音シンボル列と前記検索結果対象発音シンボル列との類似度と、
    前記認識結果発音シンボル列のマッチング単位と一致する、前記検索結果対象発音シンボル列のマッチング単位であるマッチシンボルと
    を、前記マッチング結果として出力する
    請求項3に記載の検索装置。
  5. 前記選択部は、前記マッチング結果としての、前記検索結果対象発音シンボル列のマッチシンボルに基づき、前記発音シンボル対単語テーブルにおいて、前記マッチシンボルに含まれる前記対応付け単位に対応付けられている単語を、前記強調対象単語に選択する
    請求項4に記載の検索装置。
  6. 前記マッチング単位、及び、対応付け単位は、同一の数の発音シンボルであり、
    前記選択部は、前記発音シンボル対単語テーブルにおいて、前記マッチシンボルに一致する前記対応付け単位に対応付けられている単語を、前記強調対象単語に選択する
    請求項5に記載の検索装置。
  7. 前記複数の検索結果対象単語列それぞれについて、前記検索結果対象発音シンボル列の、連続する2個以上の発音シンボルを、前記対応付け単位として、前記対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、前記検索結果対象単語列の単語とを対応付けた前記発音シンボル対単語テーブルを作成する作成部をさらに備える
    請求項6に記載の検索装置。
  8. 前記生成部は、前記マッチング結果としての前記類似度に基づき、前記類似度が所定の閾値以上の前記検索結果対象単語列、又は、前記類似度が上位の前記検索結果対象単語列を、前記検索結果単語列とする
    請求項4に記載の検索装置。
  9. 入力音声に対応する単語列を検索する検索装置が、
    入力音声を音声認識する音声認識ステップと、
    前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチングステップと、
    前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成ステップと、
    前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択ステップと、
    前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換ステップと
    を含む検索方法。
  10. 入力音声を音声認識する音声認識部と、
    前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、
    前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、
    前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、
    前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部と
    して、コンピュータを機能させるためのプログラム。
  11. クライアント端末で入力された入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、
    前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、
    前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、
    前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部と
    を備える検索装置。
JP2010180944A 2010-08-12 2010-08-12 検索装置、検索方法、及び、プログラム Withdrawn JP2012043000A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010180944A JP2012043000A (ja) 2010-08-12 2010-08-12 検索装置、検索方法、及び、プログラム
US13/198,158 US8688725B2 (en) 2010-08-12 2011-08-04 Search apparatus, search method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010180944A JP2012043000A (ja) 2010-08-12 2010-08-12 検索装置、検索方法、及び、プログラム

Publications (1)

Publication Number Publication Date
JP2012043000A true JP2012043000A (ja) 2012-03-01

Family

ID=45565535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010180944A Withdrawn JP2012043000A (ja) 2010-08-12 2010-08-12 検索装置、検索方法、及び、プログラム

Country Status (2)

Country Link
US (1) US8688725B2 (ja)
JP (1) JP2012043000A (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140089876A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 대화형 인터페이스 장치 및 그의 제어 방법
US9244889B2 (en) 2013-01-29 2016-01-26 International Business Machines Corporation Creating tag clouds based on user specified arbitrary shape tags
JP2014229272A (ja) * 2013-05-27 2014-12-08 株式会社東芝 電子機器
KR102053820B1 (ko) * 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
WO2016029045A2 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
JP6483433B2 (ja) * 2014-12-25 2019-03-13 Dynabook株式会社 システム及び電子機器
US10719115B2 (en) * 2014-12-30 2020-07-21 Avago Technologies International Sales Pte. Limited Isolated word training and detection using generated phoneme concatenation models of audio inputs
JP6600203B2 (ja) * 2015-09-15 2019-10-30 キヤノン株式会社 情報処理装置、情報処理方法、コンテンツ管理システム、およびプログラム
WO2019098036A1 (ja) * 2017-11-15 2019-05-23 ソニー株式会社 情報処理装置、情報処理端末、および情報処理方法
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
WO2020065777A1 (ja) * 2018-09-26 2020-04-02 日本電気株式会社 情報処理装置、制御方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345252B1 (en) 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
US6345253B1 (en) 1999-04-09 2002-02-05 International Business Machines Corporation Method and apparatus for retrieving audio information using primary and supplemental indexes
US6421645B1 (en) 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
JP3990075B2 (ja) * 1999-06-30 2007-10-10 株式会社東芝 音声認識支援方法及び音声認識システム
JP4320487B2 (ja) * 1999-09-03 2009-08-26 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
JP4465564B2 (ja) 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
JP3946087B2 (ja) 2002-05-23 2007-07-18 三菱電機株式会社 通信システム、受信機および通信方法

Also Published As

Publication number Publication date
US20120041947A1 (en) 2012-02-16
US8688725B2 (en) 2014-04-01

Similar Documents

Publication Publication Date Title
JP2012043000A (ja) 検索装置、検索方法、及び、プログラム
JP5610197B2 (ja) 検索装置、検索方法、及び、プログラム
US9817889B2 (en) Speech-based pronunciation symbol searching device, method and program using correction distance
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
US7089188B2 (en) Method to expand inputs for word or document searching
CN107741928A (zh) 一种基于领域识别的对语音识别后文本纠错的方法
JP2001356794A (ja) データ処理装置及びその方法
US20100332225A1 (en) Transcript alignment
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
US9607618B2 (en) Out of vocabulary pattern learning
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
Parlak et al. Performance analysis and improvement of Turkish broadcast news retrieval
JP5073024B2 (ja) 音声対話装置
JP2015158582A (ja) 音声認識装置、及びプログラム
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
GB2451938A (en) Methods and apparatus for searching of spoken audio data
JP5273844B2 (ja) 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
KR101493006B1 (ko) 멀티미디어 콘텐츠 편집장치 및 그 방법
JP2011118775A (ja) 検索装置、検索方法、及び、プログラム
US11922931B2 (en) Systems and methods for phonetic-based natural language understanding
JP2011118774A (ja) 検索装置、検索方法、及び、プログラム
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
KR102182408B1 (ko) 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법
JP2005267053A (ja) 音声検索装置、音声検索サーバ、音声検索方法及び音声検索プログラム
TW200951743A (en) Method and system of using text characteristics to expand a query scope, data query method capable of searching word phrases having similar characteristics, and search engine server

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20131105