JP2012043000A

JP2012043000A - 検索装置、検索方法、及び、プログラム

Info

Publication number: JP2012043000A
Application number: JP2010180944A
Authority: JP
Inventors: Yukinori Maeda; 幸徳前田; Hitoshi Honda; 等本田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-08-12
Filing date: 2010-08-12
Publication date: 2012-03-01
Also published as: US20120041947A1; US8688725B2

Abstract

【課題】音声検索において、利便性の高い検索結果を提供する。
【解決手段】マッチング部５６は、複数の検索結果対象単語列それぞれについて、入力音声の音声認識結果とのマッチングを、発音を表す発音シンボルを用いて行い、生成部５７は、そのマッチング結果に基づいて、入力音声に対する検索結果としての検索結果単語列を生成する。単語選択部６３は、検索結果単語列となった検索結果対象単語列とのマッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、検索結果単語列の単語の中で強調する強調対象単語を選択し、強調変換部６４は、検索結果単語列を、その検索結果単語列の単語のうちの強調対象単語を強調した強調単語列に変換する。本発明は、例えば、音声検索を行う場合に適用できる。
【選択図】図２

Description

本発明は、検索装置、検索方法、及び、プログラムに関し、特に、例えば、音声検索において、利便性の高い検索結果を提供することができるようにする検索装置、検索方法、及び、プログラムに関する。

ユーザから入力される音声である入力音声を用い、その音声に対応するテキスト等の単語列を検索する音声検索の方法としては、例えば、音声認識装置のみを用いる方法がある（例えば、特許文献１を参照）。

音声認識装置のみを用いる音声検索では、音声認識装置において、あらかじめ辞書に登録された単語（語彙）の並びを、音声認識結果の対象として、入力音声の音声認識が行われ、その音声認識結果が、入力音声に対応する単語列の検索の結果である検索結果単語列として出力される。

したがって、音声認識装置のみを用いる音声検索では、入力音声に対応する単語列の検索結果の対象となる単語列（以下、検索結果対象単語列ともいう）は、音声認識結果の対象である、辞書に登録された単語の並びである単語列（本明細書では、１つの単語を含む）だけであるため、ユーザの発話は、音声認識に用いられる辞書に登録された単語の並びに制限される。

そこで、近年においては、ボイスサーチ(Voice Search)と呼ばれる音声検索の方法が提案されている。

ボイスサーチでは、N-gram等の言語モデルを用いて、連続音声認識が行われ、その音声認識結果と、音声認識に用いられる辞書とは別に用意されたDB(Database)に登録されたテキストとのマッチング（DBに登録されたテキストからの、音声認識結果に対応するテキストのテキスト検索）が行われる。

そして、そのマッチングの結果に基づき、音声認識結果にマッチする最上位の、又は、上位N位以内のテキストが、検索結果単語列として出力される。

ボイスサーチでは、音声認識に用いられる辞書とは別に用意されたDBに登録されたテキストが、検索結果対象単語列となるため、そのDBに、多数のテキストを登録しておくことにより、その多数のテキストを、検索結果対象単語列として、音声検索を行うことができる。

すなわち、ボイスサーチによれば、ユーザが、音声認識に用いられる辞書に登録された単語以外の単語を含む発話を行っても、DBに登録された検索結果対象単語列としてのテキストの範囲内で、ある程度の精度の音声検索を行うことができる。

なお、音声及び画像が格納されたマルチメディアファイルを対象として音声認識を行うことで、マルチメディアファイルの音声から、索引付けのためのテキストを生成しておき、話者識別に基づいて、マルチメディアファイルの音声を検索する方法が提案されている（例えば、特許文献２を参照）。

特開2001-242884号公報特開2000-348064号公報

ところで、例えば、Web上で提供される検索サイト（Google等）では、ユーザが、テキストによりキーワードを入力すると、ブラウザにおいて、キーワードの検索結果が表示されるが、その検索結果においては、キーワードに対応する部分が、太字等で強調表示される（強調して表示される）。

ここで、検索サイトでは、キーワードのテキスト検索が行われ、そのテキスト検索の検索結果のうちの、表記がキーワードに完全に一致するテキストが、キーワードに対応する部分として、強調表示される。

さらに、検索サイトでは、テキスト検索の検索結果のうちの、表記がキーワードと等価なテキスト等も、キーワードに対応する部分として、強調表示される。

具体的には、例えば、キーワード「Sony」のテキスト検索の検索結果に、表記がキーワード「Sony」と等価なテキスト「ソニー」が含まれる場合には、そのテキスト「ソニー」も、キーワードに対応する部分として、強調表示される。

以上のように、検索結果のうちの、キーワードに対応する部分を強調表示することで、利便性の高い検索結果を提供することができる。

すなわち、キーワードに対応する部分を強調表示した検索結果によれば、ユーザは、その検索結果が検索された理由を把握することができるので、検索結果が検索された理由が分からないことに起因するストレスを感じることを防止することができる。

さらに、キーワードに対応する部分を強調表示した検索結果によれば、ユーザは、複数の検索結果の中から、所望の検索結果を、直感的に、迅速に見つけ出すことができる。

ボイスサーチにおいても、検索結果対象単語列からの、入力音声の音声認識結果のテキスト検索の検索結果である検索結果単語列のうちの、表記がテキスト検索で音声認識結果に一致（完全に一致、又は、一部が一致）した部分を、入力音声に対応する部分として、強調表示することで、利便性の高い検索結果（検索結果単語列）を提供することができる。

すなわち、例えば、ユーザが、入力音声「ローマ」を発話し、その音声認識結果「ローマ」のテキスト検索によって、テキスト「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」が、検索結果単語列として得られたとする。

特に、検索結果単語列「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」のような文字数の多いテキストについては、入力音声に対応する部分を強調せずに表示すると、ユーザは、一見しただけでは、入力音声の音声認識結果に一致するテキスト「ローマ」を見つけることが困難なことがあり、その結果、テキスト「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」が検索された理由が分からずに、ストレスを感じることがある。

これに対して、検索結果単語列「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」を、「世界遺産都市の遺産イタリア”ローマ”ベネチアナポリフィレンツェ」のように、入力音声に対応する部分「ローマ」を強調して表示した場合には、ユーザは、一見しただけで、入力音声の音声認識結果に一致するテキスト「ローマ」を見つけることができ、テキスト「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」が検索された理由を容易に把握することができる。

ところで、ボイスサーチにおいて、入力音声の音声認識結果のテキスト検索の結果得られる検索結果単語列のうちの、表記がテキスト検索で音声認識結果に一致した部分（テキスト）を、入力音声に対応する部分として、強調表示する場合には、入力音声の音声認識結果によっては、適切な強調表示が行われないことがある。

すなわち、例えば、入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られた場合、その音声認識結果「年の瀬解散」のテキスト検索の結果得られる検索結果単語列に、入力音声に一致（完全に一致、又は、一部が一致）するテキスト「世界遺産」や「世界の都市」等が含まれていても、そのテキスト「世界遺産」や「世界の都市」（の表記）は、音声認識結果「年の瀬解散」に一致しないため、強調表示されず、利便性の高い検索結果を得ることが困難となる。

また、音声認識結果が誤っていない場合も、入力音声に対応する部分が強調表示されないことがある。

すなわち、例えば、ユーザが、入力音声「としのせかい」を発話した場合、音声認識結果として、「都市の世界」、及び、「年の瀬かい」のうちのいずれが得られても、音声認識結果が誤っているとは言えない。

そして、ユーザが、「都市の世界」と発話したつもりの入力音声「としのせかい」に対し、音声認識結果「年の瀬かい」が得られた場合、音声認識結果「年の瀬かい」のテキスト検索の結果得られる検索結果単語列に、入力音声（の表記）に一致するテキスト「都市の世界」が含まれていても、そのテキスト「都市の世界」は、音声認識結果「年の瀬かい」にまったく一致しないため、強調表示されず、利便性の高い検索結果を得ることが困難となる。

本発明は、このような状況に鑑みてなされたものであり、音声検索において、利便性の高い検索結果を提供することができるようにするものである。

本発明の一側面の検索装置、又は、プログラムは、入力音声を音声認識する音声認識部と、前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部とを備える検索装置、又は、検索装置として、コンピュータを機能させるためのプログラムである。

本発明の一側面の検索方法は、入力音声に対応する単語列を検索する検索装置が、入力音声を音声認識する音声認識ステップと、前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチングステップと、前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成ステップと、前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択ステップと、前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換ステップとを含む検索方法である。

本発明の他の一側面の検索装置は、クライアント端末で入力された入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部とを備える検索装置である。

本発明の一側面においては、入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングがとられ、そのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列が生成される。そして、前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語が選択され、前記検索結果単語列が、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換される。

なお、検索装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本発明の一側面によれば、音声検索において、利便性の高い検索結果を提供することができる。

本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。音声検索装置１０の構成例を示すブロック図である。表記シンボルを用いたマッチングで、表記が異なる音声認識結果に対して異なるマッチング結果が得られることが、音声検索の性能に有利でないことを説明する図である。マッチング単位として、音節２連鎖を採用する場合の、発音シンボル変換部５２の処理を説明する図である。マッチング単位として、音節２連鎖を採用する場合の、発音シンボル変換部５５の処理を説明する図である。単語単位でのマッチング、音節単位でのマッチング、及び、音節２連鎖単位でのマッチングの結果を示す図である。音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第１の補正距離D1、及び、第２の補正距離D2を採用した場合のマッチングのシミュレーションの結果を示す図である。音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第１の補正距離D1、及び、第２の補正距離D2を採用した場合のマッチングの他のシミュレーションの結果を示す図である。音声検索装置１０の処理を説明するフローチャートである。テーブル作成部６１が作成する発音シンボル対単語テーブルの例を示す図である。テーブル作成部６１が発音シンボル対単語テーブルを作成する第１の作成方法を説明する図である。第１の作成方法で発音シンボル対単語テーブルを作成する処理を説明するフローチャートである。テーブル作成部６１が発音シンボル対単語テーブルを作成する第２の作成方法を説明する図である。第２の作成方法で発音シンボル対単語テーブルを作成する処理を説明するフローチャートである。テーブル作成部６１が作成する発音シンボル対単語テーブルの他の例を示す図である。単語選択部６３が行う処理を説明するフローチャートである。発音シンボル対単語テーブルのさらに他の例を示す図である。検索結果単語列の表示例を示す図である。検索結果単語列の表示例を示す図である。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

［本発明を適用したレコーダの一実施の形態］

図１は、本発明の検索装置を適用したレコーダの一実施の形態の構成例を示すブロック図である。

図１において、レコーダは、音声検索装置１０、レコーダ機能部２０、操作部３１、制御部３２、及び、出力I/F(Interface)３３を有する。

音声検索装置１０には、ユーザが発話した入力音声（のデータ）が、図示せぬマイク等から供給される。

音声検索装置１０は、そこに供給される入力音声を用いて、例えば、ボイスサーチによる音声検索を行い、その結果得られる検索結果単語列を、出力I/F３３に供給する。

レコーダ機能部２０は、チューナ２１、記録再生部２２、及び、記録媒体２３を有し、テレビジョン放送の番組の記録（録画）及び再生を行う。

すなわち、チューナ２１には、図示せぬアンテナで受信された、例えば、ディジタル放送によるテレビジョン放送信号が供給される。

チューナ２１は、そこに供給されるテレビジョン放送信号を受信し、そのテレビジョン放送信号から所定のチャンネルのテレビジョン放送信号を抽出して、ビットストリームを復調し、記録再生部２２に供給する。

記録再生部２２は、チューナ２１から供給されるビットストリームから、EPG(Electronic Program Guide)や番組のデータ等を抽出し、出力I/F３３に供給する。

また、記録再生部２２は、EPGや番組のデータを、記録媒体２３に記録（録画）する。

さらに、記録再生部２２は、記録媒体２３から、番組のデータを再生し、出力I/F３３に供給する。

記録媒体２３は、例えば、HD(Hard Disk)や半導体メモリ等であり、記録媒体２３には、記録再生部２２によって、EPGや番組のデータが記録される。

操作部３１は、リモートコマンダや、レコーダの筐体に設けられたボタン、図示せぬディスプレイにGUI(Graphics User Interface)として表示されるボタン等で構成される。操作部３１は、ユーザによって操作され、その操作に対応した操作信号を、制御部３２に供給する。

制御部３２は、操作部３１からの操作信号等に従い、音声検索装置１０、及び、レコーダ機能部２０等の、レコーダを構成するブロックの制御、その他の処理を行う。

出力I/F３３には、記録再生部２２から、EPGや番組のデータが供給される。また、出力I/F３３には、音声検索装置１０から、入力音声に対する音声検索の結果である検索結果単語列が供給される。

出力部I/F３３は、例えば、TV（テレビジョン受像機）等の、少なくとも画像を表示することができる表示デバイスと接続されるインタフェースであり、記録再生部２２からのEPGや番組のデータ、及び、音声検索装置１０からの検索結果単語列を、出力部I/F３３に接続された、例えば、図示せぬTVに供給して表示させる。

［音声検索装置１０の構成例］

図２は、図１の音声検索装置１０の構成例を示すブロック図である。

図２では、音声検索装置１０は、音声認識部５１、発音シンボル変換部５２、検索結果対象記憶部５３、形態素解析部５４、発音シンボル変換部５５、マッチング部５６、生成部５７、テーブル作成部６１、テーブル記憶部６２、単語選択部６３、及び、強調変換部６４を有し、ボイスサーチによる音声検索を行う。

ここで、従来のボイスサーチでは、音声認識結果と、検索結果対象単語列としてのテキストとのマッチングが、音声認識結果、及び、検索結果対象単語列それぞれの表記を表すシンボルである表記シンボルを用い、単語単位や、表記シンボル単位で行われる。

したがって、音声認識結果の表記シンボルに誤りがあると、マッチングにおいて、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、音声認識結果にマッチし、その結果、そのような、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力される。

すなわち、ユーザが、入力音声として、例えば、「としのせかい」を発話し、その音声認識結果の表記シンボル列が、例えば、「都市の世界」であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列「都市の世界」を、「都市／の／世界／」（スラッシュ（／）は、区切りを表す）のように、１個ずつの単語に区切って、マッチングが行われ、表記シンボル単位のマッチングでは、音声認識結果の表記シンボル列「都市の世界」を、「都／市／の／世／界」のように、１個ずつの表記シンボルに区切って、マッチングが行われる。

一方、入力音声「としのせかい」の音声認識結果の表記シンボル列が、例えば、「年の瀬かい」であった場合、単語単位のマッチングでは、音声認識結果の表記シンボル列「年の瀬かい」を、「／年／の／瀬／かい／」のように、１個ずつの単語に区切って、マッチングが行われ、表記シンボル単位のマッチングでは、音声認識結果の表記シンボル列「年の瀬かい」を、「年／の／瀬／か／い」のように、１個ずつの表記シンボルに区切って、マッチングが行われる。

したがって、入力音声「としのせかい」の音声認識結果（の表記シンボル列）が、「都市の世界」である場合と、「年の瀬かい」である場合とでは、音声認識結果にマッチする検索結果対象単語列は、大きく異なり、その結果、入力音声に対応する単語列とはまったく別の検索結果対象単語列が、検索結果単語列として出力される一方、入力音声に対応する単語列が、検索結果単語列として出力されないことがある。

以上のように、表記シンボルを用いたマッチングは、音声認識結果との親和性が高いとはいえず、入力音声に対応する単語列が、検索結果単語列として得られないことがある。

そこで、音声検索装置１０では、音声認識結果と、検索結果対象単語列とのマッチングを、音声認識結果、及び、検索結果対象単語列のそれぞれの発音を表すシンボルである発音シンボルを用いて行うことで、入力音声に対応する単語列の検索を、ロバストに行うことができるようにし、これにより、入力音声に対応する単語列が、検索結果単語列として出力されないことを防止する。

すなわち、図２の音声検索装置１０において、音声認識部５１には、ユーザの発話である入力音声（のデータ）が、図示せぬマイク等から供給される。

音声認識部５１は、そこに供給される入力音声を音声認識し、音声認識結果（の表記シンボル）を、発音シンボル変換部５２に供給する。

発音シンボル変換部５２は、音声認識部５１から供給される、入力音声の音声認識結果（の表記シンボル）を、その音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列に変換し、マッチング部５６に供給する。

検索結果対象記憶部５３は、複数の検索結果対象単語列、すなわち、マッチング部５６において、音声認識結果とのマッチングが行われ、入力音声に対応する単語列の検索の結果である検索結果単語列となり得る単語列（の表記シンボルとしてのテキスト）を記憶する。

ここで、検索結果対象記憶部５３には、例えば、図１のレコーダの記録媒体２３に記録されたEPGを構成する構成要素である番組のタイトルや、出演者名、番組の内容の詳細情報等が供給されて記憶される。

また、検索結果対象記憶部５３には、例えば、図１のレコーダの記録媒体２３に録画（記録）された番組（録画番組）のメタデータである、番組のタイトルや、出演者名、詳細情報等が供給されて記憶される。

したがって、本実施の形態では、音声検索装置１０において、番組のタイトルや、出演者名、詳細情報等を、検索結果対象単語列として、音声検索が行われる。

形態素解析部５４は、検索結果対象記憶部５３に記憶された検索結果対象単語列の形態素解析を行うことで、検索結果対象単語列を、例えば、単語（形態素）単位に分割し、検索結果対象単語列を構成する各単語（の表記）や、その単語の音韻（読み）等を、形態素解析結果として、発音シンボル変換部５５、及び、テーブル作成部６１に供給する。

発音シンボル変換部５５は、形態素解析部５４から供給される形態素解析結果を用いて、検索結果対象単語列（の表記シンボル）を、その検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列に変換し、検索結果対象単語列（の表記シンボル）とともに、マッチング部５６に供給する。

マッチング部５６は、発音シンボル変換部５２からの音声認識結果の認識結果発音シンボル列と、発音シンボル変換部５５からの検索対象単語列の検索結果対象発音シンボル列とを用いて、その音声認識結果と検索対象単語列とのマッチングをとり、そのマッチング結果を、生成部５７、及び、単語選択部６３に供給する。

すなわち、マッチング部５６は、検索結果対象記憶部５３に記憶されたすべての検索結果対象単語列それぞれについて、入力音声の音声認識結果とのマッチングを、音声認識結果の発音シンボルと、検索結果対象単語列の発音シンボルとを用いて行う。

マッチング部５６は、検索結果対象記憶部５３に記憶されたすべての検索結果対象単語列それぞれについて、入力音声の音声認識結果とのマッチングをとり、そのマッチング結果を、生成部５７、及び、単語選択部６３に供給する。

なお、認識結果発音シンボル列と検索結果対象発音シンボル列と（を用いた音声認識結果と検索結果対象単語列と）のマッチングでは、認識結果発音シンボル列と検索結果対象発音シンボル列とが類似している度合いを表す類似度が求められる。

類似度としては、例えば、ベクトル空間法のコサイン距離等を用いることができる。

ここで、マッチング部５６は、例えば、２個の発音シンボル等の１個以上の（連続する）発音シンボルを、マッチングをとるときのマッチング単位として、そのマッチング単位で、音声認識結果と検索結果対象単語列とのマッチングを行う。

そして、マッチング部５６は、認識結果発音シンボル列と検索結果対象発音シンボル列との類似度と、認識結果発音シンボル列のマッチング単位と一致する、検索結果対象発音シンボル列のマッチング単位であるマッチシンボルとを、発音シンボル変換部５５からの検索結果対象単語列（の表記シンボル）とともに、マッチング結果として出力する。

以上のようなマッチング結果のうちの、検索結果対象単語列、及び、類似度は、生成部５７に供給され、検索結果対象単語列、及び、マッチシンボルは、単語選択部６３に供給される。

生成部５７は、マッチング部５６からのマッチング結果に基づいて、検索結果対象記憶部５３に記憶された検索結果対象単語列の中からの、入力音声に対応する単語列の検索の結果である検索結果単語列を生成する。

すなわち、例えば、生成部５７は、マッチング部５６からの、検索結果対象記憶部５３に記憶された検索結果対象単語列すべてのマッチング結果の中から、類似度が上位の検索結果対象単語列、又は、類似度があらかじめ設定された閾値以上の検索結果対象単語列（の表記シンボル）を、入力音声に対する検索結果単語列として選択する。

そして、生成部５７は、検索結果単語列を、単語選択部６３、及び、強調変換部６４に供給する。

テーブル作成部６１は、形態素解析部５４から供給される形態素解析結果を用いて、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルを作成し、テーブル記憶部６２に供給する。

すなわち、テーブル作成部６１は、検索結果対象記憶部５３に記憶された検索結果対象単語列について、検索結果対象単語列の、連続する２個以上の発音シンボルを、単語に対応付ける対応付け単位として、対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とを対応付けて登録した発音シンボル対単語テーブルを作成する。

テーブル記憶部６２は、テーブル作成部６１から供給される発音シンボル対単語テーブルを記憶する。

単語選択部６３は、マッチング部５６から供給されるマッチング結果のうちの、生成部５７から供給される検索結果単語列となった検索結果対象単語列とのマッチング結果、及び、テーブル記憶部６２に記憶された発音シンボル対単語テーブルに基づき、検索結果単語列の単語の中で強調する対象の強調対象単語を選択する。

ここで、検索結果単語列となった検索結果対象単語列とのマッチング結果には、その検索結果単語列の発音シンボルのうちの、認識結果発音シンボル列のマッチング単位と一致する発音シンボルであるマッチシンボルが含まれる。

一方、発音シンボル対単語テーブルには、検索結果対象単語列の、連続する２個以上の発音シンボルである対応付け単位と、その検索結果対象単語列を構成する単語とがセットになるように対応付けられている。

単語選択部６３は、発音シンボル対単語テーブルに登録された、検索結果単語列（となった検索結果対象単語列）についての、対応付け単位と単語とのセット（以下、単語セットともいう）の中で、検索結果単語列のマッチシンボルに含まれる対応付け単位を含む単語セットを検出し、その単語セットに含まれる単語を、強調対象単語に選択する。

なお、ある検索結果単語列（となった検索結果対象単語列）について選択される強調対象単語は、その検索結果単語列に含まれる単語である。

単語選択部６３は、検索結果単語列について選択した強調対象単語を、強調変換部６４に供給する。

強調変換部６４は、生成部５７からの検索結果単語列を、その検索結果単語列の単語のうちの、単語選択部６３からの強調対象単語を強調した強調単語列に変換し、出力I/F３３（図１）に供給する。

すなわち、強調変換部６４は、生成部５７からの検索結果単語列に、その検索結果単語列について、単語選択部６３から供給される強調対象単語（に一致する単語）が含まれる場合には、生成部５７からの検索結果単語列のうちの、強調対象単語のフォントや表示色等の表示の属性（のデータ）を、他の単語の表示の属性とは異なる属性に変更することで、生成部５７からの検索結果単語列を、強調対象単語が強調表示される強調単語列に変換する。

以上のように構成される音声検索装置１０では、ユーザの発話に応じて、ボイスサーチによる音声検索の処理が行われる。

すなわち、形態素解析部５４は、検索結果対象記憶部５３に記憶されたすべての検索結果対象単語列の形態素解析を行い、形態素解析結果を、発音シンボル変換部５５と、テーブル作成部６１とに供給する。

発音シンボル変換部５５は、検索結果対象記憶部５３に記憶されたすべての検索結果対象単語列を、形態素解析部５４からの形態素解析結果に基づいて、検索結果対象発音シンボル列に変換し、検索結果対象単語列とともに、マッチング部５６に供給する。

また、テーブル作成部６１は、形態素解析部５４から供給される形態素解析結果を用いて、検索結果対象記憶部５３に記憶されたすべての検索結果対象単語列について、検索結果対象単語列の、連続する２個以上の発音シンボルである対応付け単位と、その検索結果対象単語列を構成する単語とを、単語セットとして対応付けて登録した発音シンボル対単語テーブルを作成し、テーブル記憶部６２に供給して記憶させる。

その後、ユーザが発話を行い、その発話としての入力音声が、音声認識部５１に供給されると、音声認識部５１は、その入力音声を音声認識し、その入力音声の音声認識結果を、発音シンボル変換部５２に供給する。

発音シンボル変換部５２は、音声認識部５１からの入力音声の音声認識結果を、認識結果発音シンボル列に変換し、マッチング部５６に供給する。

マッチング部５６は、検索結果対象記憶部５３に記憶されたすべての検索結果対象単語列それぞれについて、発音シンボル変換部５２からの認識結果発音シンボル列と、発音シンボル変換部５５からの検索結果対象発音シンボル列とを用いて、入力音声の音声認識結果とのマッチングをとり、そのマッチング結果を、生成部５７と単語選択部６３とに供給する。

生成部５７は、マッチング部５６からのマッチング結果に基づいて、検索結果対象記憶部５３に記憶された検索結果対象単語列の中から、入力音声に対応する単語列の検索の結果である検索結果単語列（とする検索結果対象単語列）を選択し、単語選択部６３と強調変換部６４とに供給する。

単語選択部６３は、マッチング部５６から供給されるマッチング結果のうちの、生成部５７から供給される検索結果単語列となった検索結果対象単語列とのマッチング結果、及び、テーブル記憶部６２に記憶された発音シンボル対単語テーブルに基づき、検索結果単語列の単語の中で強調する対象の強調対象単語を選択し、強調変換部６４に供給する。

強調変換部６４は、生成部５７からの検索結果単語列を、単語選択部６３からの強調対象単語が強調表示される強調単語列に変換して（出力I/F３３に）出力する。

以上のような音声検索装置１０を有する図１のレコーダでは、例えば、録画が行われた番組（録画番組）の中から、ユーザが所望する番組を、音声検索によって検索し、再生することができる。

すなわち、ユーザが、再生をしようとする番組の音声検索を行うためのキーワードとして、例えば、入力音声「世界遺産」を発話すると、音声検索装置１０では、検索結果対象記憶部５３に検索結果対象単語列として記憶されている、録画番組のタイトル等を対象として、音声検索を行うことにより、タイトルの発音が、入力音声「世界遺産」の発音に類似する所定数の番組のタイトルが、検索結果単語列として生成され、強調単語列に変換されて、出力I/F３３に供給される。

そして、出力I/F３３は、強調単語列（に変換された検索結果単語列）としての番組のタイトルを、再生を行う候補の番組（再生候補番組）として、（レコーダと接続されたTV（テレビジョン受像機）等で）表示させる。

このとき、番組のタイトルとしての強調単語列において、強調対象単語は、強調表示される。

その後、ユーザが、再生候補番組の中から、再生を行う番組として、１つの番組を、操作部３１を操作すること等により選択すると、レコーダ機能部２０では、その番組が再生される。

なお、図２では、２つの発音シンボル変換部５２及び５５が設けられているが、２つの発音シンボル変換部５２及び５５は、１つの発音シンボル変換部で兼用することが可能である。

また、図２では、検索結果対象記憶部５３に、検索結果対象単語列（の表記シンボルとしてのテキスト）を記憶させておくこととしたが、検索結果対象記憶部５３には、検索結果対象単語列の他、その検索結果対象単語列を発音シンボルに変換した検索結果対象発音シンボル列を記憶させておくことが可能である。

また、図２では、音声認識部５１において、入力音声を音声認識し、音声認識結果（の表記シンボル）を出力するようにしたが、音声認識部５１では、音声認識結果を発音シンボルに変換した認識結果発音シンボル列を出力するようにすることが可能である。

この場合、音声検索装置１０は、発音シンボル変換部５２を設けずに構成することができる。

［マッチング部５６によるマッチング］

図３ないし図８を参照して、図２のマッチング部５６によるマッチングについて説明する。

図３は、音声認識結果、及び、検索結果対象単語列のそれぞれの表記を表すシンボルである表記シンボルを用いて行われる、音声認識結果と、検索結果対象単語列としてのテキストとのマッチングを説明する図である。

ここで、表記（シンボル）は、発音に一致しないことがある。

具体的には、例えば、ひらがな「は」の発音（読み）は、「は」である場合と、「わ」である場合があるが、表記シンボルでは、発音の違いを表現することができない。

また、表記シンボルでは、複数の読みがある漢字、すなわち、例えば、「市」については、その読み（発音）が「し」であるのか、又は、「いち」であるのかを、表現することができない。

一方、例えば、表記シンボルで表された単語列「都市の世界遺産」と「年の瀬解散」とは、発音はほぼ一致するが、表記シンボルでは、「の」以外は異なる。

このため、音声認識結果が、「都市の世界遺産」である場合と、「年の瀬解散」である場合とでは、表記シンボルを用いたマッチングでは、異なるマッチング結果が得られるが、このことは、音声検索の性能に、必ずしも有利ではない。

すなわち、図３は、表記シンボルを用いたマッチングで、発音は（ほぼ）一致するか、表記が（ほとんど）異なる音声認識結果に対して異なるマッチング結果が得られることが、音声検索の性能に有利でないことを説明する図である。

図３では、入力音声「都市の世界遺産」の音声認識が行われ、その入力音声「都市の世界遺産」と発音は（ほぼ）一致するが、表記が異なる、誤った音声認識結果「年の瀬解散」が得られている。

また、図３では、音声認識結果「年の瀬解散」を、「年／の／瀬／解／散」のように、表記シンボル単位に区切って（スラッシュ（／）は、区切りを表す）、表記シンボル単位でのマッチングが行われている。

さらに、図３では、マッチングをとる検索結果対象単語列としての、例えば、番組のタイトルとして、「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」の３つが用意されている。

音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」とでは、表記シンボル単位では、図中、丸印を付してある１個の表記シンボル「の」しか一致しない。

また、音声認識結果「年の瀬解散」と、検索結果対象単語列「瀬戸の歯医者さん」とでは、表記シンボル単位では、図中、丸印を付してある２個の表記シンボル「瀬」及び「の」が一致する。

さらに、音声認識結果「年の瀬解散」と、検索結果対象単語列「衆院解散の年」とでは、表記シンボル単位では、図中、丸印を付してある４個の表記シンボル「解」、「散」、「の」及び「年」が一致する。

したがって、表記シンボル単位でのマッチングにおいて求められる、音声認識結果と検索結果対象単語列との類似度としては、音声認識結果「年の瀬解散」と、検索結果対象単語列「衆院解散の年」との類似度が、最も高くなる。

すなわち、マッチングにおいて求められる類似度として、例えば、コサイン距離を採用することとする。

また、単語列を表すベクトルとして、例えば、単語列に存在する表記シンボルに対応するコンポーネントを1とするとともに、単語列に存在しない表記シンボルに対応するコンポーネントを0とするベクトルを採用し、２つの単語列の類似度としてのコサイン距離を、その２つの単語列を表すベクトルを用いて求めることとする。

この場合、表記シンボル単位でのマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」との類似度として、0.15が、音声認識結果「年の瀬解散」と、検索結果対象単語列「瀬戸の歯医者さん」との類似度として、0.32が、音声認識結果「年の瀬解散」と、検索結果対象単語列「衆院解散の年」との類似度として、0.73が、それぞれ求められる。

したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列とすることとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合には、検索結果対象単語列としての３つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、「衆院解散の年」が、検索結果単語列とされることになる。

入力音声「都市の世界遺産」に対しては、上述の３つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、１番目の番組のタイトル「世界遺産都市の遺産」が、検索結果単語列とされることが適切である。

しかしながら、入力音声「都市の世界遺産」が、発音では一致するが、表記が異なる「年の瀬解散」に音声認識されると、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」ではなく、「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列とされる。

なお、入力音声「都市の世界遺産」に対して、表記が一致する「都市の世界遺産」が、音声認識結果として得られた場合には、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」との類似度が最上位となり、「世界遺産都市の遺産」が、検索結果単語列とされる。

以上のように、音声認識結果が、「都市の世界遺産」である場合と、「年の瀬解散」である場合とでは、表記シンボルを用いたマッチングでは、マッチング結果（音声認識結果と、各検索結果対象単語列との類似度）が異なり、その結果、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」が、検索結果単語列とされる場合と、そのような適切なタイトルが検索結果単語列とされず、入力音声「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列とされる場合とがある。

そこで、音声検索装置１０（図２）のマッチング部５６では、入力音声に対して適切な番組のタイトルが、検索結果単語列として出力されないことを防止するため、発音シンボルを用いたマッチングが行われる。

ここで、発音シンボルは、例えば、音節、又は、音素の発音を表すシンボルであり、日本語については、例えば、読みを表すひらがなを採用することができる。なお、ここでは、発音シンボルとして、音節を採用することとする。

発音シンボルを用いたマッチングでは、マッチングの単位（マッチング単位）として、音節（の１つ）や、音節の２以上の連鎖、音素（の１つ）、音素の２以上の連鎖等を採用することができる。

なお、発音シンボルを用いたマッチングにおいて、どのようなマッチング単位を採用するかによって、マッチング結果、ひいては、音声検索の性能は異なる。

図４は、マッチング部５６（図２）でのマッチング単位として、音節２連鎖（連続する２つの音節（発音シンボル））を採用する場合の、図２の発音シンボル変換部５２の処理を説明する図である。

発音シンボル変換部５２には、音声認識部５１から、入力音声の音声認識結果（の表記シンボル）が供給される。

発音シンボル変換部５２は、音声認識部５１から供給される音声認識結果を、発音シンボルである音節の並びに変換する。

さらに、発音シンボル変換部５２は、音声認識結果の音節の並びの先頭から、注目する注目音節を、後方に、１音節ずつずらしていきながら、注目音節と、その注目音節の直後の音節との、連続する２つの音節である音節２連鎖を抽出し、その音節２連鎖の並びを、マッチング部５６（図２）に供給する。

ここで、音声認識結果の音節の並びも、音節２連鎖の並びも、音声認識結果の発音シンボルの並びである認識結果発音シンボル列であるが、特に、音節２連鎖の並びを、認識結果２連鎖シンボル列ともいう。

図５は、マッチング部５６（図２）でのマッチング単位として、音節２連鎖を採用する場合の、図２の発音シンボル変換部５５の処理を説明する図である。

発音シンボル変換部５５には、検索結果対象記憶部５３に記憶された検索結果対象単語列としての、番組のタイトル等が、形態素解析部５４で形態素解析されて供給される。

発音シンボル変換部５５は、形態素解析部５４から供給される検索結果対象単語列を、音節の並びに変換する。

さらに、発音シンボル変換部５５は、検索結果対象単語列の音節の並びの先頭から、注目する注目音節を、後方に、１音節ずつずらしていきながら、注目音節と、その注目音節の直後の音節との、連続する２つの音節である音節２連鎖を抽出し、その音節２連鎖の並びを、マッチング部５６（図２）に供給する。

ここで、検索結果対象単語列の音節の並びも、音節２連鎖の並びも、検索結果対象単語列の発音シンボルの並びである検索結果対象発音シンボル列であるが、特に、音節２連鎖の並びを、検索結果対象２連鎖シンボル列ともいう。

マッチング部５６において、認識結果発音シンボル列と、検索結果対象発音シンボル列との、音節２連鎖の単位でのマッチングとして、認識結果２連鎖シンボル列と検索結果対象２連鎖シンボル列との類似度としての、例えば、コサイン距離を求める場合、認識結果２連鎖シンボル列を表すベクトルである認識結果ベクトルが求められる。

すなわち、マッチング部５６は、例えば、認識結果２連鎖シンボル列に存在する音節２連鎖に対応するコンポーネントを1とするとともに、認識結果２連鎖シンボル列に存在しない音節２連鎖に対応するコンポーネントを0とするベクトルを、認識結果２連鎖シンボル列を表す認識結果ベクトルとして求める。

さらに、マッチング部５６は、検索結果対象記憶部５３に記憶された各検索結果対象単語列としての、例えば、番組のタイトル等についても、同様に、検索結果対象単語列の検索結果対象２連鎖シンボル列を表すベクトルである検索結果対象ベクトルを求める。

そして、マッチング部５６は、認識結果ベクトルと、検索結果対象ベクトルとの内積を、認識結果ベクトルの大きさと検索結果対象ベクトルの大きさとの乗算値で除算した値であるコサイン距離を、音声認識結果と検索結果対象単語列との（発音シンボルの）類似度として求める、音節２連鎖をマッチング単位とするマッチングを行う。

図６は、単語単位でのマッチング、（１つの）音節単位でのマッチング、及び、音節２連鎖単位でのマッチングの結果を示す図である。

なお、図６では、図３と同様に、入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られており、検索結果対象単語列としての、例えば、番組のタイトルとして、「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」の３つが用意されている。

また、図６では、表記シンボルを用いての、単語単位でのマッチング、発音シンボルを用いての、音節単位でのマッチング、及び、発音シンボルを用いての、音節２連鎖単位でのマッチングが行われている。

さらに、図６では、音声認識結果「年の瀬解散」の単語又は発音シンボル（音節）と一致する、検索結果対象単語列の単語又は発音シンボルには、丸印を付してある。

単語単位でのマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」それぞれとの類似度（コサイン距離）として、それぞれ、0.22，0.25、及び、0.75が求められる。

したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合には、表記シンボルを用いての、単語単位でのマッチングでは、検索結果対象単語列としての３つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、音声認識結果「年の瀬解散」との類似度が0.75で最上位の検索結果対象単語列「衆院解散の年」が、検索結果単語列とされることになる。

しかしながら、入力音声「都市の世界遺産」が、発音では一致するが、表記が異なる「年の瀬解散」に音声認識されると、表記シンボルを用いての、単語単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」ではなく、「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列とされる。

なお、表記シンボルを用いてのマッチングを、単語単位ではなく、表記シンボル単位で行った場合も、図３で説明したように、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」に対して、入力音声「都市の世界遺産」とはまったく関係がないような番組のタイトル「衆院解散の年」が、検索結果単語列とされる。

発音シンボルを用いての、音節単位のマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」それぞれとの類似度として、それぞれ、0.82，1.0、及び、0.75が求められる。

したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合には、発音シンボルを用いての、音節単位でのマッチングでは、検索結果対象単語列としての３つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、音声認識結果「年の瀬解散」との類似度が1.0で最上位の検索結果対象単語列「瀬戸の歯科医さん」が、検索結果単語列とされる。

すなわち、入力音声「都市の世界遺産」が、発音では一致するが、表記が異なる「年の瀬解散」に音声認識されると、発音シンボルを用いての、音節単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」ではなく、「都市の世界遺産」とはまったく関係がないような番組のタイトル「瀬戸の歯科医さん」が、検索結果単語列とされる。

なお、表記シンボルを用いての、単語単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「都市の世界遺産都市の遺産」の類似度が、３つの検索結果対象単語列の中で、第３位（最下位）の値である0.22になっているが、発音シンボルを用いての、音節単位でのマッチングでは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」の類似度が、３つの検索結果対象単語列の中で、第２位の値である0.82になっている。

したがって、発音シンボルを用いての、音節単位でのマッチングは、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」の類似度が、表示シンボルを用いての、単語単位でのマッチングの場合よりも上位である点で、表示シンボルを用いての、単語単位でのマッチングより有効であるということができる。

発音シンボルを用いての、音節２連鎖単位のマッチングでは、音声認識結果「年の瀬解散」と、検索結果対象単語列「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」それぞれとの類似度として、それぞれ、0.68，0.43、及び、0.48が求められる。

したがって、例えば、マッチングの結果得られる類似度が最上位の検索結果対象単語列を、検索結果単語列として出力することとすると、入力音声「都市の世界遺産」の音声認識が誤り、音声認識結果「年の瀬解散」が得られた場合であっても、発音シンボルを用いての、音節２連鎖単位でのマッチングでは、検索結果対象単語列としての３つの番組のタイトル「世界遺産都市の遺産」、「瀬戸の歯医者さん」、及び、「衆院解散の年」のうちの、音声認識結果「年の瀬解散」との類似度が0.68で最上位の検索結果対象単語列、すなわち、入力音声「都市の世界遺産」に対して適切な番組のタイトル「世界遺産都市の遺産」が、検索結果単語列とされる。

以上のように、発音シンボルを用いてのマッチングによれば、表記が音声認識結果とまったく異なる検索結果対象単語列であっても、発音が音声認識結果と類似していれば、類似度が大になるので、表記シンボルを用いてのマッチングを行う場合に比較して、入力音声に対応する単語列の検索を、ロバストに行うことができる。

その結果、発音シンボルを用いてのマッチングによれば、音声認識が誤った場合でも、入力音声に対応する単語列が、検索結果単語列として出力されないことを防止（低減）することができる。

ところで、マッチング部５６（図１）において、音声認識結果（の認識結果発音シンボル列）と、検索結果対象単語列（の検索結果対象発音シンボル列）との類似度として、コサイン距離を採用する場合、例えば、上述したように、認識結果発音シンボル列に存在する音節（２連鎖）に対応するコンポーネントを1とするとともに、認識結果発音シンボル列に存在しない音節に対応するコンポーネントを0とするベクトルが、認識結果発音シンボル列を表す認識結果ベクトルとして求められる。

さらに、マッチング部５６では、同様にして、検索結果対象単語列の検索結果対象発音シンボル列を表す検索結果対象ベクトルが求められる。

ここで、本実施の形態では、認識結果ベクトルのコンポーネントの値を、そのコンポーネントに対応する音節が、認識結果発音シンボル列に存在するかどうかで、1又は0とすることとするが、認識結果ベクトルのコンポーネントの値としては、そのコンポーネントに対応する音節が、認識結果発音シンボル列に出現する頻度であるtf(Term Frequency)を採用することが可能である。

また、認識結果ベクトルのコンポーネントの値としては、その他、例えば、ある検索結果対象単語列には偏って出現する音節に対しては大になり、多くの検索結果対象単語列に万遍なく出現する音節に対しては小になるidf(Invert Document Frequency)や、tfとidfとの両方を加味したTF-IDFを採用することができる。

検索結果対象ベクトルについても、同様である。

いま、認識結果ベクトルを、V_UTRと表すとともに、検索結果対象記憶部５３（図１）に記憶されたi番目の検索結果対象単語列の検索結果対象ベクトルを、V_TITLE(i)と表すこととすると、音声認識結果と、i番目の検索結果対象単語列との類似度としてのコサイン距離Dは、式（１）に従って計算される。

D=V_UTR・V_TITLE(i)／(|V_UTR||V_TITLE(i)|)
・・・（１）

式（１）において、・は、内積を表し、|x|は、ベクトルxの大きさ（ノルム）を表す。したがって、コサイン距離Dは、認識結果ベクトルV_UTRと、検索結果対象ベクトルV_TITLE(i)との内積V_UTR・V_TITLE(i)を、認識結果ベクトルV_UTRの大きさ|V_UTR|と検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|との乗算値|V_UTR||V_TITLE(i)|で除算することにより求めることができる。

コサイン距離Dは、0.0ないし1.0の範囲の値をとり、値が大きいほど、認識結果ベクトルV_UTRが表す認識結果発音シンボル列と、検索結果対象ベクトルV_TITLE(i)が表す検索結果対象発音シンボル列とが類似していることを表す。

上述したように、コサイン距離Dは、認識結果ベクトルV_UTRと、検索結果対象ベクトルV_TITLE(i)との内積V_UTR・V_TITLE(i)を、認識結果ベクトルV_UTRの大きさ|V_UTR|と検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|との乗算値で除算することにより求められるため、コサイン距離Dには、音声認識結果、及び、検索結果対象単語列の長さの相違が影響する。

ここで、音声認識結果、及び、検索結果対象単語列の長さとは、音声認識結果と検索結果対象単語列とのマッチング、つまり、類似度としてのコサイン距離Dの計算を、表記シンボルを用いて、表記シンボル単位で行う場合には、音声認識結果、及び、検索結果対象単語列の表記シンボルの個数に対応する値であり、例えば、表記シンボルの個数の総和の平方根である。

また、類似度の計算を、表記シンボルを用いて、単語単位で行う場合には、音声認識結果、及び、検索結果対象単語列の長さとは、それぞれ、音声認識結果、及び、検索結果対象単語列の単語の個数に対応する値であり、例えば、単語の個数の総和の平方根である。

さらに、類似度の計算を、発音シンボルを用いて、音韻単位で行う場合には、音声認識結果、及び、検索結果対象単語列の長さとは、それぞれ、音声認識結果、及び、検索結果対象単語列の発音シンボルとしての音節の個数に対応する値であり、例えば、音節の個数の総和の平方根である。

また、類似度の計算を、発音シンボルを用いて、音節２連鎖単位で行う場合には、音声認識結果、及び、検索結果対象単語列の長さとは、それぞれ、音声認識結果、及び、検索結果対象単語列の音節２連鎖の個数に対応する値であり、例えば、音節２連鎖の個数の総和の平方根である。

いま、説明を簡単にするために、音声認識結果と検索結果対象単語列とのマッチングとしてのコサイン距離Dの計算を、表記シンボルを用いて、単語単位で行うこととすると、類似度としての式（１）のコサイン距離Dの演算は、検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|による除算を含むため、例えば、音声認識結果と同一の単語列を含むが、長さ（ここでは、単語の個数）が、長い検索結果対象単語列と、短い検索結果対象単語列とでは、短い検索結果対象単語列との類似度は高くなり（コサイン距離Dが大になり）、長い検索結果対象単語列との類似度は低くなる（コサイン距離Dが小になる）傾向が強い。

したがって、長さが長い検索結果対象単語列の一部が、音声認識結果として得られても、その音声認識結果と、長さが長い検索結果対象単語列との類似度が、上位にならず、そのような検索結果対象単語列が、検索結果単語列として出力されないために、入力音声に対応する単語列の検索の精度が劣化することがある。

つまり、例えば、長いタイトルの一部が発話された場合に、その長いタイトルの類似度が、上位にならず、その長いタイトルが、検索結果単語列として出力されないことがある。

また、同様の理由により、所定の検索結果対象単語列と同一の単語列を含むが、長さが、長い音声認識結果と、短い音声認識結果とでは、長い音声認識結果と所定の検索結果対象単語列との類似度は、低くなり、短い音声認識結果と所定の検索結果対象単語列との類似度は、高くなる傾向が強い。

したがって、所定の検索結果対象単語列と同一の単語列を含むが、長さが長い音声認識結果については、その所定の検索結果対象単語列の類似度は、上位にならず、その所定の検索結果対象単語列が、検索結果単語列として出力されないために、入力音声に対応する単語列の検索の精度が劣化することがある。

つまり、例えば、短いタイトルを含む長い発話がされた場合に、その短いタイトルの類似度が、上位にならず、その短いタイトルが、検索結果単語列として出力されないことがある。

そこで、マッチング部５６（図２）では、音声認識結果、及び、検索結果対象単語列の長さの相違の影響を軽減するように、コサイン距離Dを補正した補正距離を、音声認識結果と検索結果対象単語列との類似度として採用することができる。

音声認識結果と検索結果対象単語列との類似度として、補正距離を採用する場合には、上述の音声認識結果と長い検索結果対象単語列との類似度、及び、長い音声認識結果と検索結果対象単語列との類似度が低くなることが防止され、その結果、入力音声に対応する単語列の検索を、ロバストに行うことができ、入力音声に対応する単語列の検索の精度の劣化を防止することができる。

補正距離としては、第１の補正距離と、第２の補正距離とがある。

第１の補正距離は、コサイン距離Dを求める式（１）の演算において、検索結果対象単語列の長さに比例する、検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|に代えて、検索結果対象単語列の長さに比例しない値|V_UTR|×√(|V_TITLE(i)|／|V_UTR|)、すなわち、認識結果ベクトルV_UTRの大きさ|V_UTR|と検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|との乗算値の平方根√（|V_TITLE(i)||V_UTR|）を用いて求められる。

ここで、コサイン距離Dを求める式（１）の演算において、検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|に代えて用いる値を、以下、代用サイズS(i)ともいう。

第１の補正距離D1は、式（２）に従って求められる。

D1=V_UTR・V_TITLE(i)／(|V_UTR|S(i))
=V_UTR・V_TITLE(i)／(|V_UTR||V_UTR|×√(|V_TITLE(i)|／|V_UTR|))
=V_UTR・V_TITLE(i)／(|V_UTR|√(|V_TITLE(i)||V_UTR|))
・・・（２）

式（２）において、認識結果ベクトルV_UTRの大きさ|V_UTR|と検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|との乗算値の平方根√（|V_TITLE(i)||V_UTR|）は、|V_TITLE(i)|が小さい場合、つまり、検索結果対象単語列の長さが短い場合には、|V_TITLE(i)|より大になり、|V_TITLE(i)|が大きい場合、つまり、検索結果対象単語列の長さが長い場合には、|V_TITLE(i)|より小になる。

その結果、式（２）に従って求められる第１の補正距離D1は、式（１）に従って求められるコサイン距離Dに比較して、音声認識結果の長さに対する検索結果対象単語列の長さとしての、検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|の違いの影響が少ない値、すなわち、音声認識結果と検索結果対象単語列との長さの相違の影響が軽減された値となる。

第２の補正距離は、コサイン距離Dを求める式（１）の演算において、検索結果対象単語列の長さに比例する、検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|に代えて、認識結果ベクトルV_UTRの大きさ|V_UTR|を、代用サイズS(i)として用いて求められる。

したがって、第２の補正距離D2は、式（３）に従って求められる。

D2=V_UTR・V_TITLE(i)／(|V_UTR|S(i))
=V_UTR・V_TITLE(i)／|V_UTR|²
・・・（３）

第２の補正距離D2は、検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|を用いずに求められるので、音声認識結果の長さに対する検索結果対象単語列の長さとしての、検索結果対象ベクトルV_TITLE(i)の大きさ|V_TITLE(i)|の違いの影響がない値、すなわち、音声認識結果と検索結果対象単語列との長さの相違の影響が軽減（除去）された値となる。

図７は、音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第１の補正距離D1、及び、第２の補正距離D2を採用した場合のマッチングのシミュレーションの結果を示す図である。

なお、図７のシミュレーションでは、短い発話「世界遺産」に対して、正しい音声認識結果「世界遺産」が得られたこととし、検索結果対象単語列としての番組のタイトルとして、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」と、短いタイトル「世界情勢」とを採用した。

さらに、マッチングは、表記シンボルを用いて、単語単位で行った。

また、図７では、音声認識結果「世界遺産」の単語「世界／遺産」と一致する、検索結果対象単語列としての番組のタイトルの単語には、アンダーラインを付してある。

タイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」では、音声認識結果「世界遺産」に対して、「世界」と「遺産」との２つの単語が一致する。

一方、タイトル「世界情勢」では、音声認識結果「世界遺産」に対して、「世界」の１つの単語だけが一致する。

したがって、タイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」と、タイトル「世界情勢」とでは、音声認識結果「世界遺産」と一致する単語の数が多いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、タイトル「世界情勢」の類似度よりも上位になることが適切である。

しかしながら、類似度として、コサイン距離Dを採用した場合、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の一部「世界遺産」に一致する音声認識結果「世界遺産」については、短いタイトル「世界情勢」の類似度が、0.5となり、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が、0.4472となって、短いタイトル「世界情勢」の類似度の方が、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度よりも上位となる。

すなわち、類似度として、コサイン距離Dを採用した場合には、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の一部「世界遺産」に一致する短い音声認識結果「世界遺産」と、その長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」との長さの相違の影響により、音声認識結果「世界遺産」に対して適切な長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が上位にならない。

一方、類似度として、補正距離を採用した場合、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、短いタイトル「世界情勢」の類似度よりも上位となる。

すなわち、類似度として、第１の補正距離D1を採用した場合、音声認識結果「世界遺産」については、短いタイトル「世界情勢」の類似度が、0.5となり、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が、0.6687となって、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、短いタイトル「世界情勢」の類似度よりも上位となる。

また、類似度として、第２の補正距離D2を採用した場合、音声認識結果「世界遺産」については、短いタイトル「世界情勢」の類似度が、0.5となり、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が、1.0となって、長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度の方が、短いタイトル「世界情勢」の類似度よりも上位となる。

以上のように、類似度として、補正距離を採用した場合には、長い検索結果対象単語列の一部に一致する音声認識結果と、その長い検索結果対象単語列との長さの相違の影響が軽減され、音声認識結果「世界遺産」に対して適切な長いタイトル「THE世界遺産都市の遺産スペシャルイタリアローマベネチア」の類似度が上位になる。

図８は、音声認識結果と検索結果対象単語列との類似度として、コサイン距離D、第１の補正距離D1、及び、第２の補正距離D2を採用した場合のマッチングの他のシミュレーションの結果を示す図である。

なお、図８のシミュレーションでは、長い発話「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して、正しい音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」が得られたこととし、検索結果対象単語列としての番組のタイトルとして、短いタイトル「世界遺産」と、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」とを採用した。

また、図８では、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」の単語「世界／遺産／都市／の／遺産／イタリア／ローマ／ベネチア／ナポリ／フィレンツェ」と一致する、検索結果対象単語列としての番組のタイトルの単語には、アンダーラインを付してある。

タイトル「世界遺産」では、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して、「世界」と「遺産」との２つの単語が一致する。

一方、タイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」では、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して、「世界」、「遺産」、「イタリア」、及び、「フィレンツェ」の４つの単語が一致する。

したがって、タイトル「世界遺産」と、タイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」とでは、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」と一致する単語の数が多いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、タイトル「世界遺産」の類似度よりも上位になることが適切である。

しかしながら、類似度として、コサイン距離Dを採用した場合、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」については、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が、0.4472となり、短いタイトル「世界遺産」の類似度が、0.4772となって、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位にならない。

すなわち、類似度として、コサイン距離Dを採用した場合には、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」と、短い検索結果対象単語列「世界遺産」との長さの相違の影響により、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して適切な長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が上位にならない。

一方、類似度として、補正距離を採用した場合、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位となる。

すなわち、類似度として、第１の補正距離D1を採用した場合、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」については、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が、0.4229となり、短いタイトル「世界遺産」の類似度が、0.2991となって、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位となる。

また、類似度として、第２の補正距離D2を採用した場合、長い音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」については、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が、0.4となり、短いタイトル「世界遺産」の類似度が、0.2となって、長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度の方が、短いタイトル「世界遺産」の類似度よりも上位となる。

以上のように、類似度として、補正距離を採用した場合には、長い音声認識結果と、短い検索結果対象単語列との長さの相違の影響が軽減され、音声認識結果「世界遺産都市の遺産イタリアローマベネチアナポリフィレンツェ」に対して適切な長いタイトル「探検ロマン世界遺産イタリアフィレンツェ歴史地区」の類似度が上位になる。

したがって、補正距離によれば、音声認識結果と検索結果対象単語列との長さの相違の影響が軽減されることにより、入力音声に対応する単語列の検索を、ロバストに行うことができ、入力音声に対応する単語列の検索の精度の劣化を防止することができる。

なお、類似度として、認識結果ベクトルV_UTRと検索結果対象ベクトルV_TITLE(i)との内積V_UTR・V_TITLE(i)に比例するコサイン距離Dや、第１の補正距離D1、第２の補正距離D2等を採用する場合、マッチング部５６では、内積V_UTR・V_TITLE(i)を求めるときに、認識結果発音シンボル列のマッチング単位と一致する、検索結果対象発音シンボル列のマッチング単位であるマッチシンボルを求めることができる。

すなわち、例えば、いま、音節２連鎖（連続する２個の発音シンボル）を、マッチング単位として、マッチングを行うこととすると、そのマッチングとしての類似度の計算において、内積V_UTR・V_TITLE(i)は、その内積V_UTR・V_TITLE(i)の初期値を0とし、認識結果２連鎖シンボル列のマッチング単位としての音声２連鎖を、順次、注目２連鎖に選択して、検索結果対象２連鎖シンボル列の中に、注目２連鎖に一致する音節２連鎖が存在する場合には、内積V_UTR・V_TITLE(i)を1だけインクリメントしていくことで求めることができる。

検索結果対象２連鎖シンボル列の中に、マッチング単位である注目２連鎖に一致する音節２連鎖が存在する場合、その音節２連鎖は、マッチシンボルであるから、マッチング部５６では、内積V_UTR・V_TITLE(i)を求めるときに、マッチシンボル、すなわち、検索結果対象２連鎖シンボル列の中に存在する、認識結果２連鎖シンボル列の注目２連鎖に一致する音節２連鎖を求めることができる。

ここで、マッチシンボルは、検索結果対象発音シンボル列のマッチング単位（音節２連鎖）の中で、認識結果発音シンボル列のマッチング単位と一致するマッチング単位であり、認識結果発音シンボル列に対する、検索結果対象発音シンボル列のマッチシンボルの数が多いほど、認識結果発音シンボル列と検索結果対象発音シンボル列との類似度は大になる。

したがって、認識結果発音シンボル列に対する、検索結果対象発音シンボル列のマッチシンボルの数が多いほど、その検索結果対象発音シンボル列の検索結果対象単語列は、検索結果単語列として選択される可能性が高くなるので、検索結果対象単語列（の検索結果対象発音シンボル列）のマッチシンボルは、その検索結果対象単語列が、検索結果単語列として選択されることの、いわば原因（理由）となる。

また、マッチシンボルは、検索結果対象単語列の中で、発音が入力音声（の音声認識結果）と一致する部分を表す発音シンボルであり、したがって、検索結果対象単語列において、発音がマッチシンボルで表される部分（を含む単語）は、入力音声に対応している（入力音声に対応する部分である）、ということができる。

［音声検索装置１０の処理］

図９は、図２の音声検索装置１０の処理（音声検索の処理）を説明するフローチャートである。

ステップＳ１１において、音声検索装置１０は、必要な前処理を行う。

すなわち、音声検索装置１０は、入力音声が供給される前に行うことができる処理を、前処理として行う。

ここで、前処理としては、例えば、記録媒体２３（図１）に記録されたEPGを構成する構成要素である番組のタイトルや、出演者名、詳細情報等を読み出して、検索結果対象記憶部５３に供給し、検索結果対象単語列として記憶させる処理がある。

さらに、前処理としては、形態素解析部５４及び発音シンボル変換部５５において、検索結果対象記憶部５３に記憶された検索結果対象単語列を、検索結果対象発音シンボル列（検索結果対象２連鎖シンボル列）に変換し、マッチング部５６に供給する処理や、テーブル作成部６１において、検索結果対象記憶部５３に記憶された検索結果対象単語列について、発音シンボル対単語テーブルを作成し、テーブル記憶部６２に記憶させる処理等がある。

なお、ステップＳ１１の前処理は、例えば、１日ごとに、所定の時刻に行われる。あるいは、ステップＳ１１の前処理は、記録媒体２３に録画されている録画番組が変更されたときや、記録媒体２３に記録されているEPGが変更（更新）されたとき等に行われる。

最新の前処理の後、ユーザが発話を行い、その発話としての入力音声が、音声認識部５１に供給されると、ステップＳ１２において、音声認識部５１は、そこに供給される入力音声を音声認識する。

音声認識部５１が入力音声の音声認識を行うことにより得られる音声認識結果は、発音シンボル変換部５２を介することにより、認識結果発音シンボル列（認識結果２連鎖シンボル列）となって、マッチング部５６に供給される。

マッチング部５６は、ステップＳ１３において、検索結果対象記憶部５３に記憶されたすべての検索結果対象単語列それぞれについて、音声認識部５１から発音シンボル変換部５２を介して供給される認識結果発音シンボル列と、前処理で得られた検索結果対象単語列の検索結果対象発音シンボル列とのマッチングを、例えば、音節２連鎖（連続する２個の発音シンボル）をマッチング単位としてとり、そのマッチング結果を、生成部５７と単語選択部６３とに供給する。

すなわち、マッチング部５６は、検索結果対象記憶部５３に記憶された各検索結果対象単語列について、音声認識結果との類似度としての、例えば、コサイン距離、又は、補正距離等を計算し、その類似度を、検索結果対象単語列（音声認識結果との類似度が求められた検索結果対象単語列）とともに、マッチング結果として、生成部５７に供給する。

さらに、マッチング部５６は、検索結果対象記憶部５３に記憶された各検索結果対象単語列について、音声認識結果との類似度としてのコサイン距離等を求めるときに、認識結果発音シンボル列のマッチング単位である音節２連鎖に一致する、検索結果対象発音シンボル列のマッチング単位である音節２連鎖を、マッチシンボルとして求め、そのマッチシンボルを、検索結果対象単語列（音声認識結果との類似度が求められた検索結果対象単語列）とともに、マッチング結果として、単語選択部６３に供給する。

生成部５７は、ステップＳ１４において、マッチング部５６からのマッチング結果に基づいて、検索結果単語列を生成し、単語選択部６３と強調変換部６４とに供給する。

すなわち、生成部５７は、マッチング部５６からの、検索結果対象記憶部５３に記憶された検索結果対象単語列すべてのマッチング結果の中から、類似度が上位の検索結果対象単語列、又は、類似度があらかじめ設定された閾値以上の検索結果対象単語列を、入力音声に対する検索結果単語列として選択し、単語選択部６３と強調変換部６４とに供給する。

単語選択部６３は、ステップＳ１５において、生成部５７からの検索結果単語列を、順次、注目単語列に選択する。

さらに、単語選択部６３は、テーブル記憶部６２に記憶された発音シンボル対単語テーブルに登録された、対応付け単位と単語とのセットである単語セットのうちの、注目単語列としての検索結果単語列（となった検索結果対象単語列）についての単語セットを参照し、その単語セットの中から、マッチング部５６からの、注目単語列のマッチシンボルに含まれる対応付け単位（連続する２個以上の発音シンボル）を含む単語セットを検出する。

そして、単語選択部６３は、注目単語列についての単語セットの中から検出した、注目単語列のマッチシンボルに含まれる対応付け単位を含む単語セットに含まれる単語（対応付け単位に対応付けられている単語）を、注目単語列の中で強調する対象の強調対象単語に選択し、強調変換部６４に供給する。

強調変換部６４は、ステップＳ１６において、生成部５７からの検索結果単語列を、順次、注目単語列に選択する。

さらに、強調変換部６４は、注目単語列について、単語選択部６３から強調対象単語が供給される場合には、注目単語列のうちの、強調対象単語の表示の属性を変更することで、注目単語列を、そのうちの強調対象単語が強調表示される強調単語列に変換する。

強調変換部６４で得られた強調単語列は、強調変換部６４から出力I/F３３（図１）に供給され、その後、音声検索装置１０は、音声検索の処理を終了する。

なお、検索結果対象単語列が、例えば、番組のタイトルや、出演者名、詳細情報である場合において、音声認識結果との類似度が上位、又は、閾値以上の検索結果対象単語列の中に、タイトル以外の、例えば、出演者名（又は詳細情報）があるときには、生成部５７では、その出演者名とともに、又は、その出演者名に代えて、その出演者名をメタデータとして有する番組のタイトルを、検索結果単語列として選択することが可能である。

［発音シンボル対単語テーブルの作成］

図１０は、図２のテーブル作成部６１が作成する発音シンボル対単語テーブルの例を示す図である。

発音シンボル対単語テーブルには、上述したように、検索結果対象記憶部５３に記憶された各検索結果対象単語列について、検索結果対象単語列の、連続する２個以上の発音シンボルを、単語に対応付ける対応付け単位として、対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とが対応付けられた単語セットが登録される。

ここで、例えば、いま、説明を簡単にするために、対応付け単位として、マッチング単位と同一の、連続する２個の発音シンボルである音節２連鎖を採用することとすると、例えば、検索結果対象単語列「年の瀬解散」については、図１０に示す単語セットが、発音シンボル対単語テーブルに登録される。

すなわち、検索結果対象単語列「年の瀬解散」の発音シンボルは、「としのせかいさん」であり、検索結果対象単語列「年の瀬解散」について、対応付け単位としての音節２連鎖は、図４や図５で説明した、マッチング単位としての音節２連鎖と同様にして求めることができる。

具体的には、検索結果対象単語列「年の瀬解散」について、対応付け単位としての音節２連鎖は、その発音シンボル「としのせかいさん」の先頭から、注目する注目音節（発音シンボル）を、後方に、１音節ずつずらしていきながら、注目音節と、その注目音節の直後の音節との２つの音節を抽出することで求めることができる。

すなわち、検索結果対象単語列「年の瀬解散」については、対応付け単位としての音節２連鎖「とし」、「しの」、「のせ」、「せか」、「かい」、「いさ」、「さん」を得ることができる。

そして、発音シンボル対単語テーブルでは、対応付け単位が、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とが対応付けられ、単語セットとして登録される。

図１０では、検索結果対象単語列「年の瀬解散」についての対応付け単位「とし」が、その対応付け単位「とし」を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「年の瀬」と対応付けられ、単語セット［とし：年の瀬］として登録されている。

さらに、図１０では、検索結果対象単語列「年の瀬解散」についての対応付け単位「しの」が、その対応付け単位「しの」を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「年の瀬」と対応付けられ、単語セット［しの：年の瀬］として登録されている。

また、図１０では、検索結果対象単語列「年の瀬解散」についての対応付け単位「のせ」が、その対応付け単位「のせ」を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「年の瀬」と対応付けられ、単語セット［のせ：年の瀬］として登録されている。

さらに、図１０では、検索結果対象単語列「年の瀬解散」についての対応付け単位「せか」が、その対応付け単位「せか」の一部「せ」を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「年の瀬」と対応付けられ、単語セット［せか：年の瀬］として登録されている。

同様に、図１０では、検索結果対象単語列「年の瀬解散」についての対応付け単位「かい」、「いさ」、及び、「さん」のそれぞれが、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列「年の瀬解散」の単語「解散」と対応付けられ、単語セット［かい：解散］、［いさ：解散］、及び、［さん：解散］として登録されている。

生成部５７において、検索結果対象単語列「年の瀬解散」が、入力音声に対する検索結果単語列として選択された場合、単語選択部６３において、図１０の発音シンボル対単語テーブルに登録された検索結果単語列（となった検索結果対象単語列）「年の瀬解散」についての単語セットを参照して、検索結果単語列の中で強調する対象の強調対象単語が選択される。

すなわち、例えば、検索結果単語列「年の瀬解散」のマッチシンボルとして、音節２連鎖「とし」、「しの」、「のせ」、又は、「せか」が、マッチング部５６から単語選択部６３に供給された場合、単語選択部６３では、検索結果単語列「年の瀬解散」についての単語セットのうちの、マッチシンボル「とし」、「しの」、「のせ」、又は、「せか」を含む単語セット［とし：年の瀬］、［しの：年の瀬］、［のせ：年の瀬］、又は、［せか：年の瀬］に含まれる単語「年の瀬」を、強調対象単語に選択する。

さらに、例えば、検索結果単語列「年の瀬解散」のマッチシンボルとして、音節２連鎖「かい」、「いさ」、又は、「さん」が、マッチング部５６から単語選択部６３に供給された場合、単語選択部６３では、検索結果単語列「年の瀬解散」についての単語セットのうちの、マッチシンボル「かい」、「いさ」、又は、「さん」を含む単語セット［かい：解散］、［いさ：解散］、又は、［さん：解散］に含まれる単語「解散」を、強調対象単語に選択する。

図１１は、図２のテーブル作成部６１が発音シンボル対単語テーブルを作成する第１の作成方法を説明する図である。

例えば、いま、形態素解析部５４からテーブル作成部６１に対して、検索結果対象単語列「世界遺産原点への回帰」の形態素解析結果が供給されたとする。

検索結果対象単語列「世界遺産原点への回帰」の形態素解析結果には、検索結果対象単語列「世界遺産原点への回帰」を構成する単語と読み（音韻）のセット「世界せかい」、「遺産いさん」、「原点げんてん」、「へへ」、「のの」、「回帰かいき」が含まれる。

テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」を構成する各単語「世界」、「遺産」、「原点」、「へ」、「の」、「回帰」について、単語の読みに基づき、単語の発音を表す発音シンボル（列）を求め、さらに、単語の発音シンボルの数Sを求める。

ここで、本実施の形態では、単語の発音シンボルは、単語の音節に等しいので、単語の発音シンボルの数Sは、単語の音節の数に等しい。

また、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」を構成する各単語「世界」、「遺産」、「原点」、「へ」、「の」、「回帰」の発音シンボルを並べて、検索結果対象発音シンボル列「せかいいさんげんてんへのかいき」を構成する。

そして、テーブル作成部６１は、検索結果対象発音シンボル列「せかいいさんげんてんへのかいき」から、対応付け単位である音節２連鎖の系列（以下、対応付け単位系列ともいう）「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」を生成する。

さらに、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」を構成する１番目（最初）の単語「世界」を、注目単語に選択する。

そして、テーブル作成部６１は、注目単語「世界」と、対応付け単位系列の先頭から、注目単語「世界」の発音シンボルの数Sに等しい３個の対応付け単位「せか」、「かい」、「いい」のそれぞれとを対応付けて、注目単語「世界」の発音シンボルの数Sに等しい数の単語セット［せか：世界］、［かい：世界］、［いい：世界］を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。

その後、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位系列から、単語セットを構成した３個の対応付け単位「せか」、「かい」、「いい」を削除することにより、新たな対応付け単位系列「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」を生成する。

さらに、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」を構成する２番目の単語「遺産」を、新たな注目単語に選択する。

そして、テーブル作成部６１は、注目単語「遺産」と、（新たな）対応付け単位系列の先頭から、注目単語「遺産」の発音シンボルの数Sに等しい３個の対応付け単位「いさ」、「さん」、「んげ」のそれぞれとを対応付けて、注目単語「遺産」の発音シンボルの数Sに等しい数の単語セット［いさ：遺産］、［さん：遺産］、［んげ：遺産］を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。

その後、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位系列から、単語セットを構成した３個の対応付け単位「いさ」、「さん」、「んげ」を削除することにより、新たな対応付け単位系列「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」を生成する。

さらに、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」を構成する３番目の単語「原点」を、新たな注目単語に選択する。

そして、テーブル作成部６１は、注目単語「原点」と、（新たな）対応付け単位系列の先頭から、注目単語「原点」の発音シンボルの数Sに等しい４個の対応付け単位「げん」、「んて」、「てん」、「んへ」のそれぞれとを対応付けて、注目単語「原点」の発音シンボルの数Sに等しい数の単語セット［げん：原点］、［んて：原点］、［てん：原点］、［んへ：原点］を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。

その後、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位系列から、単語セットを構成した４個の対応付け単位「げん」、「んて」、「てん」、「んへ」を削除することにより、新たな対応付け単位系列「への」、「のか」、「かい」、「いき」を生成し、以下、対応付け単位系列を構成する対応付け単位がなくなるまで、同様の処理を繰り返すことで、検索結果対象単語列「世界遺産原点への回帰」についての単語セットを構成し、発音シンボル対単語テーブルに登録する。

なお、対応付け単位系列を構成する対応付け単位の数が、注目単語の発音シンボルの数Sに満たない場合には、その注目単語については、対応付け単位を構成する対応付け単位の数に等しい数の単語セットが構成される。

すなわち、検索結果対象単語列「世界遺産原点への回帰」を構成する最後の単語「回帰」が、注目単語に選択されたとき、対応付け単位系列は、対応付け単位「かい」、「いき」で構成される。

したがって、対応付け単位系列を構成する対応付け単位の数は、２個であり、注目単語「回帰」の発音シンボルの数Sである３個に満たない。

この場合、テーブル作成部６１では、注目単語「回帰」と、対応付け単位系列を構成する２個の対応付け単位「かい」、「いき」のそれぞれとが対応付けられて、注目単語「回帰」の発音シンボルの数Sより少ない２個の単語セット［かい：回帰］、［いき：回帰］が構成され、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録される。

テーブル作成部６１は、以上のようにして、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」のすべてについて、単語セットを構成し、発音シンボル対単語テーブルに登録する。

そして、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位の中に、同一（の発音シンボル）の対応付け単位が複数存在する場合には、その同一の複数の対応付け単位を含む複数の単語セットを、１つの単語セットにマージする。

ここで、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」においては、２番目の対応付け単位「かい」と、１３番目の対応付け単位「かい」とが同一になっている。

この場合、２番目の対応付け単位「かい」を含む単語セット［かい：世界］と、１３番目の対応付け単位「かい」を含む単語セット［かい：回帰］とは、１つの単語セット［かい：世界、回帰］にマージされる。

その結果、対応付け単位「かい」は、単語「世界」と「回帰」との両方に対応付けられる。

図１２は、第１の作成方法で発音シンボル対単語テーブルを作成する処理を説明するフローチャートである。

ステップＳ３１において、テーブル作成部６１は、検索結果対象記憶部５３に記憶された検索結果対象単語列のうちの、形態素解析部５４から形態素解析結果が供給される検索結果対象単語列を、注目単語列に選択し、形態素解析部５４からの注目単語列の形態素解析結果を取得して、処理は、ステップＳ３２に進む。

ステップＳ３２では、テーブル作成部６１は、形態素解析部５４からの注目単語列の形態素解析結果に基づき、注目単語列を構成する各単語の発音シンボル（列）を求め、その発音シンボルを並べることにより、注目単語列の検索結果対象発音シンボル列を求める（注目単語列を検索結果対象発音シンボル列に変換する）。

さらに、テーブル作成部６１は、注目単語列の検索結果対象発音シンボル列から、対応付け単位の系列である対応付け単位系列を生成し、処理は、ステップＳ３２からステップＳ３３に進む。

ステップＳ３３では、テーブル作成部６１は、注目単語列を構成する単語のうちの、まだ、注目単語に選択していない、最も先頭側の単語を、注目単語に選択する。

さらに、テーブル作成部６１は、注目単語の形態素解析結果から、注目単語の発音シンボルの数Sを求め、処理は、ステップＳ３３からステップＳ３４に進む。

ステップＳ３４では、テーブル作成部６１は、注目単語と、対応付け単位系列の先頭から、注目単語の発音シンボルの数Sだけの対応付け単位それぞれとを対応付けて、注目単語の発音シンボルの数Sに等しい数の単語セットを構成し、注目単語列についての単語セットとして、発音シンボル対単語テーブルに登録する。

ここで、対応付け単位系列を構成する対応付け単位の数が、注目単語の発音シンボルの数Sに満たない場合、ステップＳ３４では、テーブル作成部６１は、注目単語と、対応付け単位系列を構成するすべての対応付け単位のそれぞれとを対応付け、対応付け単位系列を構成する対応付け単位の数に等しい数の単語セットを構成する。

その後、処理は、ステップＳ３４からステップＳ３５に進み、テーブル作成部６１は、注目単語列の対応付け単位系列から、直前のステップＳ３４で単語セットを構成した対応付け単位を削除することにより、新たな対応付け単位系列を生成して、処理は、ステップＳ３６に進む。

ステップＳ３６では、テーブル作成部６１は、注目単語列を構成する単語の中で、まだ、注目単語に選択されていない単語があるかどうかを判定する。

ステップＳ３６において、注目単語列を構成する単語の中で、まだ、注目単語に選択されていない単語があると判定された場合、処理は、ステップＳ３３に戻り、上述したように、注目単語列を構成する単語のうちの、まだ、注目単語に選択していない、最も先頭側の単語が、注目単語に選択され、以下、同様の処理が繰り返される。

また、ステップＳ３６において、注目単語列を構成する単語の中で、注目単語に選択されていない単語がないと判定された場合、すなわち、注目単語列を構成する単語のすべてが、注目単語に選択された場合、処理は、ステップＳ３７に進み、テーブル作成部６１は、必要に応じて、発音シンボル対単語テーブルに登録された、注目単語列についての単語セットのマージを行う。

すなわち、ステップＳ３７では、発音シンボル対単語テーブルに登録された、注目単語列についての単語セットの中に、同一（の発音シンボル）の対応付け単位を含む単語セットが複数存在する場合には、テーブル作成部６１は、その同一の対応付け単位を含む複数の単語セットを、図１１で説明したように、１つの単語セットにマージする。

そして、処理は、ステップＳ３７からステップＳ３８に進み、テーブル作成部６１は、検索結果対象記憶部５３に記憶された検索結果対象単語列の中で、まだ、注目単語列に選択されていない検索結果対象単語列があるかどうかを判定する。

ステップＳ３８において、検索結果対象記憶部５３に記憶された検索結果対象単語列の中で、まだ、注目単語列に選択されていない検索結果対象単語列があると判定された場合、テーブル作成部６１は、形態素解析部５４から形態素解析結果が供給されるのを待って、ステップＳ３１に戻り、形態素解析部５４から形態素解析結果が供給された検索結果対象単語列を、注目単語列に選択し、以下、同様の処理が繰り返される。

また、ステップＳ３８において、検索結果対象記憶部５３に記憶された検索結果対象単語列の中に、注目単語列に選択されていない検索結果対象単語列がないと判定された場合、すなわち、検索結果対象記憶部５３に記憶された検索結果対象単語列のすべてについて、単語セットが構成され、発音シンボル対単語テーブルに登録された場合、処理は、ステップＳ３９に進み、テーブル作成部６１は、発音シンボル対単語テーブルを（テーブル記憶部６２に）出力して、処理は終了する。

図１３は、図２のテーブル作成部６１が発音シンボル対単語テーブルを作成する第２の作成方法を説明する図である。

例えば、いま、図１１の場合と同様に、形態素解析部５４からテーブル作成部６１に対して、検索結果対象単語列「世界遺産原点への回帰」の形態素解析結果が供給されたとする。

テーブル作成部６１は、図１１の場合と同様に、検索結果対象単語列「世界遺産原点への回帰」を構成する各単語「世界」、「遺産」、「原点」、「へ」、「の」、「回帰」について、単語の読みに基づき、単語の発音を表す発音シンボル（列）を求め、その発音シンボルを並べて、検索結果対象発音シンボル列「せかいいさんげんてんへのかいき」を構成する。

さらに、テーブル作成部６１は、図１１の場合と同様に、検索結果対象発音シンボル列「せかいいさんげんてんへのかいき」から、対応付け単位、ひいては、対応付け単位系列「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」を生成する。

そして、テーブル作成部６１は、対応付け単位系列を構成する各対応付け単位から、１番目の発音シンボルを、その対応付け単位のタグとして抽出し、各対応付け単位のタグを並べた系列である１文字タグ系列「せかいいさんげんてんへのかい」を生成する。

その後、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」を構成する１番目の単語「世界」を、注目単語に選択する。

さらに、テーブル作成部６１は、注目単語「世界」の発音シンボル「せかい」から、まだ、注目シンボルに選択していない最も先頭側の１個の発音シンボル「せ」を、注目シンボルに選択する。

そして、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の１文字タグ系列「せかいいさんげんてんへのかい」の先頭から終わりに向かって、注目シンボル「せ」に一致する最初のタグ「せ」を検出する。

さらに、テーブル作成部６１は、注目シンボル「せ」に一致する最初のタグ「せ」が付された対応付け単位「せか」と、注目単語「世界」とを対応付けて、単語セット［せか：世界］を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。

その後、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の１文字タグ系列「せかいいさんげんてんへのかい」から、注目単語「世界」と対応付けられた対応付け単位「せか」のタグ「せ」を削除して、新たな１文字タグ系列「かいいさんげんてんへのかい」を生成する。

さらに、テーブル作成部６１は、注目単語「世界」の発音シンボル「せかい」から、まだ、注目シンボルに選択していない最も先頭側の１個の発音シンボル「か」を、注目シンボルに選択する。

そして、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の１文字タグ系列「かいいさんげんてんへのかい」の先頭から終わりに向かって、注目シンボル「か」に一致する最初のタグ「か」を検出する。

さらに、テーブル作成部６１は、注目シンボル「か」に一致する最初のタグ「か」が付された対応付け単位「かい」と、注目単語「世界」とを対応付けて、単語セット［かい：世界］を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。

その後、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の１文字タグ系列「かいいさんげんてんへのかい」から、注目単語「世界」と対応付けられた対応付け単位「かい」のタグ「か」を削除して、新たな１文字タグ系列「いいさんげんてんへのかい」を生成する。

さらに、テーブル作成部６１は、注目単語「世界」の発音シンボル「せかい」から、まだ、注目シンボルに選択していない最も先頭側の１個の発音シンボル「い」を、注目シンボルに選択する。

そして、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の１文字タグ系列「いいさんげんてんへのかい」の先頭から終わりに向かって、注目シンボル「い」に一致する最初のタグ「い」を検出する。

さらに、テーブル作成部６１は、注目シンボル「い」に一致する最初のタグ「い」が付された対応付け単位「いい」と、注目単語「世界」とを対応付けて、単語セット［いい：世界］を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。

その後、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の１文字タグ系列「いいさんげんてんへのかい」から、注目単語「世界」と対応付けられた対応付け単位「いい」のタグ「い」を削除して、新たな１文字タグ系列「いさんげんてんへのかい」を生成する。

さらに、テーブル作成部６１は、上述したように、注目単語「世界」の発音シンボル「せかい」から、まだ、注目シンボルに選択していない最も先頭側の１個の発音シンボルを、注目シンボルに選択するが、注目単語「世界」の発音シンボル「せかい」には、注目シンボルに選択していない発音シンボルがない。

注目単語の発音シンボルに、注目シンボルに選択していない発音シンボルがない場合、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」を構成する２番目の単語「遺産」を、注目単語に選択する。

さらに、テーブル作成部６１は、注目単語「遺産」の発音シンボル「いさん」から、まだ、注目シンボルに選択していない最も先頭側の１個の発音シンボル「い」を、注目シンボルに選択する。

そして、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の１文字タグ系列「いさんげんてんへのかい」の先頭から終わりに向かって、注目シンボル「い」に一致する最初のタグ「い」を検出する。

さらに、テーブル作成部６１は、注目シンボル「い」に一致する最初のタグ「い」が付された対応付け単位「いさ」と、注目単語「遺産」とを対応付けて、単語セット［いさ：遺産］を構成し、検索結果対象単語列「世界遺産原点への回帰」についての単語セットとして、発音シンボル対単語テーブルに登録する。

その後、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の１文字タグ系列「いさんげんてんへのかい」から、注目単語「遺産」と対応付けられた対応付け単位「いさ」のタグ「い」を削除して、新たな１文字タグ系列「さんげんてんへのかい」を生成する。

その後、テーブル作成部６１は、上述したように、注目単語「遺産」の発音シンボル「いさん」から、まだ、注目シンボルに選択していない最も先頭側の１個の発音シンボル「さ」を、注目シンボルに選択し、以下、１文字タグ系列を構成するタグがなくなるまで、同様の処理を繰り返すことで、検索結果対象単語列「世界遺産原点への回帰」についての単語セットを構成し、発音シンボル対単語テーブルに登録する。

テーブル作成部６１では、以上のようにして、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」のすべてについて、単語セットが構成され、発音シンボル対単語テーブルに登録される。

そして、テーブル作成部６１は、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位の中に、同一（の発音シンボル）の対応付け単位が複数存在する場合には、その同一の複数の対応付け単位を含む単語セットを、図１１で説明したように、１つの単語セットにマージする。

すなわち、図１３では、図１１の場合と同様に、検索結果対象単語列「世界遺産原点への回帰」の対応付け単位「せか」、「かい」、「いい」、「いさ」、「さん」、「んげ」、「げん」、「んて」、「てん」、「んへ」、「への」、「のか」、「かい」、「いき」において、２番目の対応付け単位「かい」と、１３番目の対応付け単位「かい」とが同一になっている。

このため、２番目の対応付け単位「かい」を含む単語セット［かい：世界］と、１３番目の対応付け単位「かい」を含む単語セット［かい：回帰］とは、１つの単語セット［かい：世界、回帰］にマージされ、その結果、対応付け単位「かい」は、単語「世界」と「回帰」との両方に対応付けられる。

図１４は、第２の作成方法で発音シンボル対単語テーブルを作成する処理を説明するフローチャートである。

ステップＳ５１において、テーブル作成部６１は、検索結果対象記憶部５３に記憶された検索結果対象単語列のうちの、形態素解析部５４から形態素解析結果が供給される検索結果対象単語列を、注目単語列に選択し、形態素解析部５４からの注目単語列の形態素解析結果を取得して、処理は、ステップＳ５２に進む。

ステップＳ５２では、テーブル作成部６１は、形態素解析部５４からの注目単語列の形態素解析結果に基づき、注目単語列を構成する各単語の発音シンボル（列）を求め、その発音シンボルを並べることにより、注目単語列の検索結果対象発音シンボル列を求める（注目単語列を検索結果対象発音シンボル列に変換する）。

さらに、テーブル作成部６１は、注目単語列の検索結果対象発音シンボル列から、対応付け単位の系列である対応付け単位系列を生成し、処理は、ステップＳ５２からステップＳ５３に進む。

ステップＳ５３では、テーブル作成部６１は、対応付け単位系列を構成する各対応付け単位から、１番目の発音シンボルを、その対応付け単位のタグとして抽出し、各対応付け単位のタグを並べた系列である１文字タグ系列を生成して、処理は、ステップＳ５４に進む。

ステップＳ５４では、テーブル作成部６１は、注目単語列を構成する単語のうちの、まだ、注目単語に選択していない、最も先頭側の単語を、注目単語に選択し、処理は、ステップＳ５５に進む。

ステップＳ５５では、テーブル作成部６１は、注目単語の発音シンボルから、まだ、注目シンボルに選択していない最も先頭側の１個の発音シンボルを、注目シンボルに選択して、処理は、ステップＳ５６に進む。

ステップＳ５６では、テーブル作成部６１は、注目単語列の１文字タグ系列の先頭から終わりに向かって、注目シンボルに一致する最初のタグを検出する。

さらに、テーブル作成部６１は、注目シンボルに一致する最初のタグが付された対応付け単位と、注目単語とを対応付けて、単語セットを構成し、注目単語列についての単語セットとして、発音シンボル対単語テーブルに登録して、処理は、ステップＳ５６からステップＳ５７に進む。

ステップＳ５７では、テーブル作成部６１は、注目単語列の１文字タグ系列から、注目単語と対応付けられた対応付け単位のタグを削除して、新たな１文字タグ系列を生成し、処理は、ステップＳ５８に進む。

ステップＳ５８では、テーブル作成部６１は、注目単語の発音シンボルの中に、注目シンボルに選択していない発音シンボルがあるかどうかを判定する。

ステップＳ５８において、注目単語の発音シンボルの中に、注目シンボルに選択していない発音シンボルがあると判定された場合、処理は、ステップＳ５５に戻り、テーブル作成部６１は、注目単語の発音シンボルから、まだ、注目シンボルに選択していない最も先頭側の１個の発音シンボルを、注目シンボルに選択し、以下、同様の処理が繰り返される。

また、ステップＳ５８において、注目単語の発音シンボルの中に、注目シンボルに選択していない発音シンボルがないと判定された場合、処理は、ステップＳ５９に進み、テーブル作成部６１は、注目単語列を構成する単語の中で、まだ、注目単語に選択されていない単語があるかどうかを判定する。

ステップＳ５９において、注目単語列を構成する単語の中で、まだ、注目単語に選択されていない単語があると判定された場合、処理は、ステップＳ５４に戻り進み、上述したように、注目単語列を構成する単語のうちの、まだ、注目単語に選択していない、最も先頭側の単語が、注目単語に選択され、以下、同様の処理が繰り返される。

また、ステップＳ５９において、注目単語列を構成する単語の中で、注目単語に選択されていない単語がないと判定された場合、すなわち、注目単語列を構成する単語のすべてが、注目単語に選択された場合、処理は、ステップＳ６０に進み、テーブル作成部６１は、必要に応じて、発音シンボル対単語テーブルに登録された、注目単語列についての単語セットのマージを行う。

すなわち、ステップＳ６０では、発音シンボル対単語テーブルに登録された、注目単語列についての単語セットの中に、同一（の発音シンボル）の対応付け単位を含む単語セットが複数存在する場合には、テーブル作成部６１は、その同一の対応付け単位を含む複数の単語セットを、図１１及び図１３で説明したように、１つの単語セットにマージする。

そして、処理は、ステップＳ６０からステップＳ６１に進み、テーブル作成部６１は、検索結果対象記憶部５３に記憶された検索結果対象単語列の中で、まだ、注目単語列に選択されていない検索結果対象単語列があるかどうかを判定する。

ステップＳ６１において、検索結果対象記憶部５３に記憶された検索結果対象単語列の中で、まだ、注目単語列に選択されていない検索結果対象単語列があると判定された場合、テーブル作成部６１は、形態素解析部５４から形態素解析結果が供給されるのを待って、ステップＳ５１に戻り、形態素解析部５４から形態素解析結果が供給された検索結果対象単語列を、注目単語列に選択し、以下、同様の処理が繰り返される。

また、ステップＳ６１において、検索結果対象記憶部５３に記憶された検索結果対象単語列の中に、注目単語列に選択されていない検索結果対象単語列がないと判定された場合、すなわち、検索結果対象記憶部５３に記憶された検索結果対象単語列のすべてについて、単語セットが構成され、発音シンボル対単語テーブルに登録された場合、処理は、ステップＳ６２に進み、テーブル作成部６１は、発音シンボル対単語テーブルを（テーブル記憶部６２に）出力して、処理は終了する。

図１５は、図２のテーブル作成部６１が作成する発音シンボル対単語テーブルの他の例を示す図である。

図１０の発音シンボル対単語テーブルでは、対応付け単位として、連続する２個の発音シンボルである音節２連鎖を採用したが、図１５の発音シンボル対単語テーブルでは、対応付け単位として、連続する３個の発音シンボルである音節３連鎖（連続する３つの音節）が採用されている。

図１５の発音シンボル対単語テーブルには、検索結果単語列「世界遺産原点への回帰」についての単語セットが登録されており、その単語セットにおいては、音節３連鎖である対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とが対応付けられている。

検索結果単語列「世界遺産原点への回帰」について、音節３連鎖である対応付け単位は、音節２連鎖の場合と同様にして求めることができる。

すなわち、検索結果単語列「世界遺産原点への回帰」について、音節３連鎖である対応付け単位は、その発音シンボル列「せかいいさんげんてんへのかいき」の先頭から、注目する注目音節（発音シンボル）を、後方に、１音節ずつずらしていきながら、注目音節と、その注目音節の直後の２つの音節との３つの音節を抽出することで求めることができる。

ここで、検索結果単語列「世界遺産原点への回帰」については、音節３連鎖である対応付け単位として、「せかい」、「かいい」、「いいさ」、「いさん」、「さんげ」、「んげん」、「げんて」、「んてん」、「てんへ」、「んへの」、「へのか」、「のかい」、「かいき」を得ることができる。

そして、検索結果単語列「世界遺産原点への回帰」についての発音シンボル対単語テーブルは、上述した第１の作成方法や第２の作成方法によって作成することができる。

なお、対応付け単位としての発音シンボルの数S1は、マッチング単位としての発音シンボルの数S2以下である必要がある。

上述したように、単語選択部６３は、発音シンボル対単語テーブルに登録された、検索結果単語列（となった検索結果対象単語列）についての単語セットの中で、検索結果単語列のマッチング単位であるマッチシンボルに含まれる対応付け単位を含む単語セットを検出するので、対応付け単位としての発音シンボルの数S1が、マッチング単位としての発音シンボルの数S2よりも多い場合（S1＞S2）には、S1個の発音シンボルである対応付け単位が、そのS1個より少ないS2個の発音シンボルであるマッチシンボルに含まれることがなく、S2個の発音シンボルであるマッチシンボルに含まれる、S1個の発音シンボルである対応付け単位は、存在しないからである。

［単語選択部６３の処理］

図１６は、図９のステップＳ１５で、単語選択部６３が行う処理を説明するフローチャートである。

単語選択部６３は、生成部５７から供給される検索結果単語列（類似度が上位、又は、閾値以上の検索結果対象単語列）を、順次、注目単語列に選択し、注目単語列に対して、ステップＳ７１ないしＳ７３の処理を行う。

すなわち、単語選択部６３は、ステップＳ７１において、マッチング部５６から供給されるマッチシンボルの中から、注目単語のマッチシンボル、つまり、認識結果発音シンボル列のマッチング単位と一致する、注目単語列の発音シンボル（検索結果対象発音シンボル列）のマッチング単位を取得する。

そして、単語選択部６３は、ステップＳ７２において、テーブル記憶部６２に記憶された発音シンボル対単語テーブルに登録された単語セットのうちの、注目単語列としての検索結果単語列（となった検索結果対象単語列）についての単語セットを参照し、その単語セットの中から、注目単語列のマッチシンボルに含まれる対応付け単位（本実施の形態では、マッチング単位と対応付け単位の発音シンボルの数が同一であるため、マッチシンボルに一致する対応付け単位）を含む単語セットを検出する。

さらに、単語選択部６３は、注目単語列についての単語セットの中から検出した、注目単語列のマッチシンボルに一致する対応付け単位を含む単語セットに含まれる単語、つまり、注目単語列のマッチシンボルに一致する対応付け単位に対応付けられている単語を、注目単語列の中で強調する対象の強調対象単語に選択する。

そして、単語選択部６３は、注目単語列のマッチシンボルのすべてに対して、強調対象単語を選択した後、ステップＳ７３において、その強調対象単語を、強調変換部６４に出力する。

［具体例］

図１７は、発音シンボル対単語テーブルのさらに他の例を示す図である。

図１７の発音シンボル対単語テーブルでは、検索結果対象単語列「The世界遺産」、「世界遺産原点への回帰」、及び、「速報年の瀬に解散」のそれぞれについて、対応付け単位としての音節２連鎖と、その対応付け単位の少なくとも一部を発音シンボルに含む、検索結果対象単語列の単語とが対応付けられた単語セットが登録されている。

図１７の発音シンボル対単語テーブルによれば、音声検索装置１０において、以下のような強調単語列が得られる。

すなわち、いま、ユーザが、入力音声「都市の世界遺産」を発話し、音声認識部５１において、その入力音声「都市の世界遺産」に対して、正しい音声認識結果「都市の世界遺産」が得られたとする。

さらに、入力音声「都市の世界遺産」の正しい音声認識結果「都市の世界遺産」に対して、生成部５７において、検索結果対象単語列「The世界遺産」、「探検ロマン世界遺産ローマ帝国植民都市」、「世界遺産１００ギリシャ都市国家」、「The世界遺産空中都市マチュピチュ」、及び、「世界遺産古代都市テーベ」が、検索結果単語列として選択され、単語選択部６３、及び、強調変換部６４に供給されたこととする。

いま、検索結果単語列（となった検索結果対象単語列）「The世界遺産」、「探検ロマン世界遺産ローマ帝国植民都市」、「世界遺産１００ギリシャ都市国家」、「The世界遺産空中都市マチュピチュ」、及び、「世界遺産古代都市テーベ」のうちの、例えば、「The世界遺産」を注目単語列とすると、注目単語列「The世界遺産」のマッチング単位である音節２連鎖は、「ざせ/せか/かい/いい/いさ/さん」となる（スラッシュ（／）は、マッチング単位の区切りを表す）。

一方、入力音声「都市の世界遺産」の正しい音声認識結果「都市の世界遺産」のマッチング単位である音節２連鎖は、「とし/しの/のせ/せか/かい/いい/いさ/さん」となる。

したがって、マッチング部５６では、注目単語列「The世界遺産」のマッチング単位「ざせ/せか/かい/いい/いさ/さん」の中で、正しい音声認識結果「都市の世界遺産」のマッチング単位「とし/しの/のせ/せか/かい/いい/いさ/さん」と一致するマッチング単位であるマッチシンボルとして、マッチング単位「せか」、「かい」、「いい」、「いさ」、「さん」が求められる。

そして、図１７の発音シンボル対単語テーブルにおいて、注目単語列「The世界遺産」については、マッチシンボル「せか」に一致する対応付け単位「せか」には、単語「世界」が、マッチシンボル「かい」に一致する対応付け単位「かい」には、単語「世界」が、マッチシンボル「いい」に一致する対応付け単位「いい」には、単語「遺産」が、マッチシンボル「いさ」に一致する対応付け単位「いさ」には、単語「遺産」が、マッチシンボル「さん」に一致する対応付け単位「さん」には、単語「遺産」が、それぞれ対応付けられている。

したがって、単語選択部６３では、単語「世界」、及び、「遺産」のそれぞれが、強調対象単語として選択され、強調変換部６４に供給される。

その結果、強調変換部６４では、注目単語列「The世界遺産」が、そのうちの強調対象単語「世界」、及び、「遺産」が強調された強調単語列「The世界遺産」に変換される。

強調対象単語「世界」、及び、「遺産」が強調された強調単語列「The世界遺産」によれば、ユーザは、視覚的に、一目で、強調単語列「The世界遺産」のうちの、強調対象単語「世界」、及び、「遺産」が、入力音声「都市の世界遺産」に対応する部分であり、その強調対象単語「世界」、及び、「遺産」の発音（読み）が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致したために、強調単語列「The世界遺産」が、検索結果となっていることを把握することができる。

したがって、音声検索装置１０によれば、利便性の高い検索結果を提供することができる。

次に、ユーザが、入力音声「都市の世界遺産」を発話し、音声認識部５１において、その入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られたとする。

さらに、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」に対して、生成部５７において、検索結果対象単語列「The世界遺産」、「探検ロマン世界遺産ローマ帝国植民都市」、「世界遺産１００ギリシャ都市国家」、「The世界遺産空中都市マチュピチュ」、及び、「世界遺産古代都市テーベ」が、検索結果単語列として選択され、単語選択部６３、及び、強調変換部６４に供給されたこととする。

いま、検索結果単語列（となった検索結果対象単語列）「The世界遺産」、「探検ロマン世界遺産ローマ帝国植民都市」、「世界遺産１００ギリシャ都市国家」、「The世界遺産空中都市マチュピチュ」、及び、「世界遺産古代都市テーベ」のうちの、例えば、「The世界遺産」を注目単語列とすると、注目単語列「The世界遺産」のマッチング単位である音節２連鎖は、上述したように、「ざせ/せか/かい/いい/いさ/さん」となる。

一方、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」のマッチング単位である音節２連鎖は、「とし/しの/のせ/せか/かい/いさ/さん」となる。

したがって、マッチング部５６では、注目単語列「The世界遺産」のマッチング単位「ざせ/せか/かい/いい/いさ/さん」の中で、誤った音声認識結果「年の瀬解散」のマッチング単位「とし/しの/のせ/せか/かい/いさ/さん」と一致するマッチング単位であるマッチシンボルとして、マッチング単位「せか」、「かい」、「いさ」、「さん」が求められる。

そして、図１７の発音シンボル対単語テーブルにおいて、注目単語列「The世界遺産」については、マッチシンボル「せか」に一致する対応付け単位「せか」には、単語「世界」が、マッチシンボル「かい」に一致する対応付け単位「かい」には、単語「世界」が、マッチシンボル「いさ」に一致する対応付け単位「いさ」には、単語「遺産」が、マッチシンボル「さん」に一致する対応付け単位「さん」には、単語「遺産」が、それぞれ対応付けられている。

強調対象単語「世界」、及び、「遺産」が強調された強調単語列「The世界遺産」によれば、ユーザは、視覚的に、一目で、強調単語列「The世界遺産」のうちの、強調対象単語「世界」、及び、「遺産」が、入力音声「都市の世界遺産」に対応する部分であり、その強調対象単語「世界」、及び、「遺産」の発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致したために、強調単語列「The世界遺産」が、検索結果となっていることを把握することができる。

さらに、入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られても、発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致する検索結果対象単語列「The世界遺産」を、検索結果（検索結果単語列）として得ることができる。

したがって、音声検索装置１０によれば、入力音声に対応する単語列が、音声認識が誤ることに起因して、検索結果単語列として出力されないことを防止（低減）するとともに、利便性の高い検索結果を提供することができる。

さらに、入力音声「都市の世界遺産」の誤った音声認識結果「年の瀬解散」に対して、生成部５７において、検索結果対象単語列「世界遺産原点への回帰」が、検索結果単語列として選択され、単語選択部６３、及び、強調変換部６４に供給されたこととする。

いま、検索結果単語列（となった検索結果対象単語列）「世界遺産原点への回帰」を注目単語列とすると、注目単語列「世界遺産原点への回帰」のマッチング単位である音節２連鎖は、「せか／かい／いい／いさ／さん／んげ／げん／んて／てん／んへ／への／のか／かい／いき」となる。

したがって、マッチング部５６では、注目単語列「世界遺産原点への回帰」のマッチング単位「せか／かい／いい／いさ／さん／んげ／げん／んて／てん／んへ／への／のか／かい／いき」の中で、誤った音声認識結果「年の瀬解散」のマッチング単位「とし/しの/のせ/せか/かい/いさ/さん」と一致するマッチング単位であるマッチシンボルとして、マッチング単位「せか」、「かい」、「いさ」、「さん」が求められる。

そして、図１７の発音シンボル対単語テーブルにおいて、注目単語列「世界遺産原点への回帰」については、マッチシンボル「せか」に一致する対応付け単位「せか」には、単語「世界」が、マッチシンボル「かい」に一致する対応付け単位「かい」には、単語「世界」及び「回帰」の２つが、マッチシンボル「いさ」に一致する対応付け単位「いさ」には、単語「遺産」が、マッチシンボル「さん」に一致する対応付け単位「さん」には、単語「遺産」が、それぞれ対応付けられている。

したがって、単語選択部６３では、単語「世界」、「遺産」、及び、「回帰」のそれぞれが、強調対象単語として選択され、強調変換部６４に供給される。

その結果、強調変換部６４では、注目単語列「世界遺産原点への回帰」が、そのうちの強調対象単語「世界」、「遺産」、及び、「回帰」が強調された強調単語列「世界遺産原点への回帰」に変換される。

強調対象単語「世界」、「遺産」、及び、「回帰」が強調された強調単語列「世界遺産原点への回帰」によれば、ユーザは、視覚的に、一目で、強調単語列「世界遺産原点への回帰」のうちの、強調対象単語「世界」、「遺産」、及び、「回帰」が、入力音声「都市の世界遺産」に対応する部分であり、その強調対象単語「世界」、「遺産」、及び、「回帰」の発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致したために、強調単語列「世界遺産原点への回帰」が、検索結果となっていることを把握することができる。

さらに、入力音声「都市の世界遺産」に対して、誤った音声認識結果「年の瀬解散」が得られても、発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致する検索結果対象単語列「世界遺産原点への回帰」を、検索結果（検索結果単語列）として得ることができる。

次に、ユーザが、入力音声「都市の世界遺産」を発話し、音声認識部５１において、その入力音声「都市の世界遺産」に対して、正しい音声認識結果「都市の世界遺産」が得られたとする。

さらに、入力音声「都市の世界遺産」の正しい音声認識結果「都市の世界遺産」に対して、生成部５７において、検索結果対象単語列「速報年の瀬に解散」が、検索結果単語列として選択され、単語選択部６３、及び、強調変換部６４に供給されたこととする。

いま、検索結果単語列（となった検索結果対象単語列）「速報年の瀬に解散」を注目単語列とすると、注目単語列「速報年の瀬に解散」のマッチング単位である音節２連鎖は、「そく／くほ／ほう／うと／とし／しの／のせ／せに／にか／かい／いさ／さん」となる。

したがって、マッチング部５６では、注目単語列「速報年の瀬に解散」のマッチング単位「そく／くほ／ほう／うと／とし／しの／のせ／せに／にか／かい／いさ／さん」の中で、正しい音声認識結果「都市の世界遺産」のマッチング単位「とし/しの/のせ/せか/かい/いい/いさ/さん」と一致するマッチング単位であるマッチシンボルとして、マッチング単位「とし」、「しの」、「のせ」、「かい」、「いさ」、「さん」が求められる。

そして、図１７の発音シンボル対単語テーブルにおいて、注目単語列「速報年の瀬に解散」については、マッチシンボル「とし」に一致する対応付け単位「とし」には、単語「年の瀬」が、マッチシンボル「しの」に一致する対応付け単位「しの」には、単語「年の瀬」が、マッチシンボル「のせ」に一致する対応付け単位「のせ」には、単語「年の瀬」が、マッチシンボル「かい」に一致する対応付け単位「かい」には、単語「解散」が、マッチシンボル「いさ」に一致する対応付け単位「いさ」には、単語「解散」が、マッチシンボル「さん」に一致する対応付け単位「さん」には、単語「解散」が、それぞれ対応付けられている。

したがって、単語選択部６３では、単語「年の瀬」、及び、「解散」のそれぞれが、強調対象単語として選択され、強調変換部６４に供給される。

その結果、強調変換部６４では、注目単語列「速報年の瀬に解散」が、そのうちの強調対象単語「年の瀬」、及び、「解散」が強調された強調単語列「速報年の瀬に解散」に変換される。

強調対象単語「年の瀬」、及び、「解散」が強調された強調単語列「速報年の瀬に解散」によれば、ユーザは、視覚的に、一目で、強調単語列「速報年の瀬に解散」のうちの、強調対象単語「年の瀬」、及び、「解散」が、入力音声「都市の世界遺産」に対応する部分であり、その強調対象単語「年の瀬」、及び、「解散」の発音が、入力音声「都市の世界遺産」の発音の少なくとも一部と一致したために、強調単語列「速報年の瀬に解散」が、検索結果となっていることを把握することができる。

すなわち、マッチング部５６では、発音シンボルを用いたマッチングが行われるが、発音シンボルを用いたマッチングでは、音声認識結果「都市の世界遺産」とは、表記が似ていないが、発音が似ている部分がある検索結果対象単語列「速報年の瀬に解散」の類似度が大になり、そのような検索結果対象単語列「速報年の瀬に解散」が、検索結果単語列に選択されることがある。

この場合、検索結果単語列（となった検索結果対象単語列）「速報年の瀬に解散」が、何らの強調もされずに表示されると、ユーザは、入力音声「都市の世界遺産」とは、表記がまったく異なる検索結果単語列「速報年の瀬に解散」が、入力音声「都市の世界遺産」に対して検索された理由が分からず、ストレスを感じることがある。

一方、音声検索装置１０では、上述したように、検索結果単語列「速報年の瀬に解散」が、そのうちの強調対象単語「年の瀬」、及び、「解散」が強調された強調単語列「速報年の瀬に解散」に変換されるので、検索結果単語列「速報年の瀬に解散」の表示は、単語「年の瀬」、及び、「解散」を強調して行われる。

この場合、ユーザは、検索結果単語列「速報年の瀬に解散」の表示で強調されている「年の瀬」の発音「としのせ」が、入力音声「都市の世界遺産」の発音「としのせかいいさん」のうちの「としのせ」に一致し、検索結果単語列「速報年の瀬に解散」の表示で強調されている「解散」の発音「かいさん」が、入力音声「都市の世界遺産」の発音「としのせかいいさん」のうちの「かいいさん」にほぼ一致するという理由で、検索結果単語列「速報年の瀬に解散」が、入力音声「都市の世界遺産」に対して検索されたことを、容易に把握することができる。

図１８及び図１９は、検索結果単語列（となった検索結果対象単語列）の表示例を示す図である。

すなわち、図１８及び図１９は、入力音声「いいとも」に対して、正しい音声認識結果「いいとも」が得られた場合の検索結果単語列の表示例を示している。

ここで、図１８は、強調対象単語を強調していない表示例を示し、図１９は、強調対象単語を強調した表示例を示している。

図１９において、強調対象単語は、矩形で囲むことにより強調されている。

図１８及び図１９から、強調対象単語を強調して表示することにより、ユーザは、入力音声「いいとも」に対して、各検索結果単語列が検索された理由を、容易に把握することができ、さらに、強調対象単語に、ユーザの視線が集中しやすくなることにより、所望の検索結果である（可能性が高い）、入力音声「いいとも」に表記が一致する検索結果単語列を、迅速に見つけ出すことができることが分かる。

［本発明を適用したコンピュータの説明］

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図２０は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

すなわち、例えば、音声検索装置１０（図２）は、その全部、又は、一部を、インターネット等のネットワーク上のサーバに実装することができる。

具体的には、例えば、音声検索装置１０は、その全部を、サーバに実装し、クライアント端末からの入力音声を受け付け、その入力音声に対して強調変換部６４が出力する強調単語列を、音声検索の検索結果として、クライアント端末に提供することができる。

また、例えば、音声検索装置１０は、音声認識部５１を、クライアント端末に実装するとともに、音声認識部５１以外を、サーバに実行し、クライアント端末では、入力音声を音声認識し、その音声認識結果を、サーバに送信し、サーバでは、クライアント端末からの音声認識結果を受け付け、その音声認識結果に対して強調変換部６４が出力する強調単語列を、音声検索の検索結果として、クライアント端末に提供することができる。

１０音声検索装置，２０レコーダ機能部，２１チューナ，２２記録再生部，２３記録媒体，３１操作部，３２制御部，３３出力I/F，５１音声認識部，５２発音シンボル変換部，５３検索結果対象記憶部，５４形態素解析部，５５発音シンボル変換部，５６マッチング部，５７生成部，６１テーブル作成部，６２テーブル記憶部，６３単語選択部，６４強調変換部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

入力音声を音声認識する音声認識部と、
前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、
前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、
前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、
前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部と
を備える検索装置。
前記発音シンボル対単語テーブルには、前記検索結果対象単語列の発音シンボルと、前記検索結果対象単語列を構成する単語とが対応付けられている
請求項１に記載の検索装置。
前記発音シンボル対単語テーブルには、前記検索結果対象単語列の、連続する２個以上の発音シンボルを、単語に対応付ける対応付け単位として、前記対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、前記検索結果対象単語列の単語とが対応付けられている
請求項２に記載の検索装置。
前記マッチング部は、
２個以上の発音シンボルを、マッチングをとるときのマッチング単位として、前記マッチング単位で、前記音声認識結果と前記検索結果対象単語列とのマッチングを行い、
前記認識結果発音シンボル列と前記検索結果対象発音シンボル列との類似度と、
前記認識結果発音シンボル列のマッチング単位と一致する、前記検索結果対象発音シンボル列のマッチング単位であるマッチシンボルと
を、前記マッチング結果として出力する
請求項３に記載の検索装置。
前記選択部は、前記マッチング結果としての、前記検索結果対象発音シンボル列のマッチシンボルに基づき、前記発音シンボル対単語テーブルにおいて、前記マッチシンボルに含まれる前記対応付け単位に対応付けられている単語を、前記強調対象単語に選択する
請求項４に記載の検索装置。
前記マッチング単位、及び、対応付け単位は、同一の数の発音シンボルであり、
前記選択部は、前記発音シンボル対単語テーブルにおいて、前記マッチシンボルに一致する前記対応付け単位に対応付けられている単語を、前記強調対象単語に選択する
請求項５に記載の検索装置。
前記複数の検索結果対象単語列それぞれについて、前記検索結果対象発音シンボル列の、連続する２個以上の発音シンボルを、前記対応付け単位として、前記対応付け単位と、その対応付け単位の少なくとも一部を発音シンボルに含む、前記検索結果対象単語列の単語とを対応付けた前記発音シンボル対単語テーブルを作成する作成部をさらに備える
請求項６に記載の検索装置。
前記生成部は、前記マッチング結果としての前記類似度に基づき、前記類似度が所定の閾値以上の前記検索結果対象単語列、又は、前記類似度が上位の前記検索結果対象単語列を、前記検索結果単語列とする
請求項４に記載の検索装置。
入力音声に対応する単語列を検索する検索装置が、
入力音声を音声認識する音声認識ステップと、
前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチングステップと、
前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成ステップと、
前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択ステップと、
前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換ステップと
を含む検索方法。
入力音声を音声認識する音声認識部と、
前記入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、
前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、
前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、
前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部と
して、コンピュータを機能させるためのプログラム。
クライアント端末で入力された入力音声に対応する単語列の検索結果の対象となる単語列である複数の検索結果対象単語列それぞれについて、前記検索結果対象単語列の発音を表す発音シンボルの並びである検索結果対象発音シンボル列と、前記入力音声の音声認識結果の発音を表す発音シンボルの並びである認識結果発音シンボル列とを用いて、前記音声認識結果とのマッチングをとるマッチング部と、
前記検索結果対象単語列と前記音声認識結果とのマッチング結果に基づいて、前記複数の検索結果対象単語列からの、前記入力音声に対応する単語列の検索の結果である検索結果単語列を生成する生成部と、
前記検索結果単語列となった前記検索結果対象単語列との前記マッチング結果、及び、発音シンボルと単語とを対応付けた発音シンボル対単語テーブルに基づき、前記検索結果単語列の単語の中で強調する対象の強調対象単語を選択する選択部と、
前記検索結果単語列を、その検索結果単語列の単語のうちの前記強調対象単語を強調した強調単語列に変換する変換部と
を備える検索装置。