JP4511274B2

JP4511274B2 - 音声データ検索装置

Info

Publication number: JP4511274B2
Application number: JP2004222121A
Authority: JP
Inventors: 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-07-29
Filing date: 2004-07-29
Publication date: 2010-07-28
Anticipated expiration: 2024-07-29
Also published as: JP2006040150A

Description

この発明は、音声データ検索装置に関するものである。

音声データ検索の方法として、クエリと検索対象音声データそれぞれを、それらに含まれる単語を基にベクトルとして表現し、ベクトル間の類似度を利用して照合処理を行うものが知られている。クエリ中に複数の単語が含まれる場合には、ベクトル間類似度を利用した照合を行うことにより、精度の高い検索を行うことができる。

例えば、特許文献１に開示された従来の音声データ検索装置は、検索単語列が入力されると、検索単語列を構成する各単語と、単語辞書および類義単語辞書に記憶された単語および類義単語との類似度を示す検索単語ベクトルを生成し、また、検索単語列を構成する単語が、音声データの各音声区間に存在する度合いを示す正規化類似確率ベクトルを生成する。そして、検索単語ベクトルと正規化類似確率ベクトルの内積を検索値とし、検索値の最も大きい音声区間を検索結果として出力する。
また、特許文献２に開示された従来の音声データ検索装置は、音声データベースに含まれる複数の音声データから音素や音節・単語などの照合尤度を計算しておくとともに、クエリを音素や音節・単語などの列に変換し、クエリと照合尤度を照合して両者の一致度を計算している。この際、音声認識結果を有向グラフ型のデータ構造で表現することによって、音声入力されたクエリを音素や音節に展開して、検索対象の音素や音節と照合することで、クエリに未登録語が含まれている場合でも適切な検索処理を行う。

また、テキストデータの検索装置の分野では、特許文献３、特許文献４に開示された技術のように、クエリに含まれる未知語の有無に応じて、例えば単語の統計情報による検索と全文検索を切り替えるように、検索モードを切り替えるものがある。
また、同じくテキストデータ検索の分野では、特許文献５に開示された検索装置のように、検索対象のテキストデータに読みインデックスを備え、キーワードの読みと一致する文字列を検索する技術がある。

また、音声データ検索に関する従来の技術には、特許文献６や特許文献７に開示されたもののように、音声波形データと検索語の両者を音韻符号列に変換して、符号列間照合しているものもある。
さらに、特許文献８に記載された従来の音声検索装置のように、音声波形データの特徴ベクトルと、キーとなる音声データの特徴ベクトルとの間で類似度を算出するものもある。

特開２０００−２０５５１号公報（第５頁〜８頁、第１図）特開２０００−２５９６４５号公報（第２頁〜３頁、第１図）特開平９−３１９７６６号公報特開平２００３−８５２００号公報特開２００２−１３２８０９号公報特開２００１−２１５９８７号公報特開２００２−２７８５７９号公報特開平１１−２８２８５７号公報（第１図）

特許文献１に記載された音声データ検索装置は、クエリ中の単語の中から、単語辞書または類義単語辞書に存在する既知語について検索単語ベクトルを構成して対象音声データを検索している。しかし、単語辞書または類義単語辞書に存在しない未知語については、検索単語ベクトルを構成して検索していない。このため、既知語と未知語が混在するクエリが与えられた場合、既知語と未知語を同時に含む対象データをベクトルを用いて検索することはできなかった。同様に、複数の未知語を含むクエリが与えられても、これらの未知語を同時に含む対象データをベクトルを用いて検索することはできなかった。
また、特許文献２に記載された音声データ検索装置は、クエリに未知語が含まれている場合に、未知語を音素や音節に展開するため、未知語の照合尤度の計算はできるが、既知語と未知語が同時に存在するクエリや未知語が複数同時に存在するクエリを適切に処理して、既知語と未知語が同時に存在する対象データや未知語を複数同時に含む対象データをベクトルとして検索することはできなかった。

また、特許文献３や特許文献４に開示されている従来のテキストデータの検索装置における技術を適用しても、未知語が存在する場合に検索モードを切替えることはできても、同様に、既知語と未知語が同時に存在するクエリや未知語が複数同時に存在するクエリを適切に処理して、既知語と未知語が同時に存在する対象データや未知語を複数同時に含む対象データをベクトルとして検索することはできなかった。
また、同様に、特許文献６〜特許文献８に開示された技術を適用しても、既知語と未知語が同時に存在するクエリや未知語が複数同時に存在するクエリを適切に処理して、既知語と未知語が同時に存在する対象データや未知語を複数同時に含む対象データをベクトルとして検索することはできなかった。

この発明は上記のような課題を解決するためになされたもので、複数の単語を含むクエリに対して、検索精度を向上させることが可能な音声データ検索装置を得ることを目的とする。

この発明に係る音声データ検索装置は、入力されたクエリから検索対象となり得る単語を抽出し、単語辞書に登録された単語である既知検索単語と、単語辞書に未登録の単語である未知検索単語に分類するクエリ解析部と、検索対象の音声ファイル上での、単語辞書に登録された単語の照合位置と照合尤度を保有する既知語インデックスを作成する既知語インデックス作成部と、音声ファイル上での、未知検索単語の照合位置と照合尤度を保有する未知語インデックスを作成する未知語インデックス作成部と、単語辞書に登録された単語と未知検索単語を次元とし、各次元の成分が、クエリ中での各次元に対応する単語の有無を示す値である質問ベクトルを、既知検索単語と未知検索単語を参照して生成する質問ベクトル生成部と、単語辞書に登録された単語と未知検索単語を次元とし、各次元の成分が、音声ファイル上での各次元に対応する単語の最大の照合尤度である対象ベクトルを、既知語インデックスと未知語インデックスを参照して生成する対象ベクトル生成部と、質問ベクトルと対象ベクトルのベクトル間の類似度を算出するベクトル類似度計算部と、類似度の大きさに基づいて検索結果を出力する検索結果提示部を備え、既知語インデックス作成部は、単語辞書に登録された単語と音韻符号列が同一の単語を同音語とし、同音語リストを作成する同音語変換部と、同音語リストに登録されている同音語の音声ファイル上での照合位置と照合尤度を登録した既知同音語インデックスを作成する同音語照合部を備え、質問ベクトルの各次元の成分を、クエリ中での同音語の有無を示す値に変換する質問ベクトル変換部を備え、対象ベクトル生成部は、既知同音語インデックスと未知語インデックスを参照して対象ベクトルを生成し、ベクトル類似度計算部は、対象ベクトルと質問ベクトル変換部によって変換された質問ベクトルのベクトル間の類似度を算出することを特徴とするものである。

この発明によれば、クエリ中に、単語辞書に登録された既知検索単語と登録されていない未知検索単語を含む場合にも、検索対象音声データに対してベクトルの類似度を利用した検索を行うことができるので、検索の精度を向上させることが可能となる。

以下、この発明の実施の様々な形態を説明する。
実施の形態１．
図１は、この発明の実施の形態１による音声データ検索装置１００の構成と動作を説明するためのブロック図である。音声データ検索装置１００は、クエリ解析部２、既知語インデックス作成部５、未知語インデックス作成部６、類似度算出部７、検索結果提示部９、単語辞書記憶部３、既知語インデックス記憶部５９、未知語インデックス記憶部６９、対象音声データ記憶部４を備えている。
クエリ解析部２、既知語インデックス作成部５、未知語インデックス作成部６、類似度算出部７は、音声データ検索装置１００のプロセッサを動作させるプログラムのモジュールを表しており、これらは実際には、一体として音声データ検索装置１００のプロセッサを構成する。
クエリ解析部２は、単語候補抽出部２１と単語分類部２３を備えている。
既知語インデックス作成部５は、単語照合部５１を備え、未知語インデックス作成部６は、単語照合部６１を備えている。
類似度算出部７は、質問ベクトル生成部７１、対象ベクトル生成部７２、およびベクトル類似度計算部７３を備えている。

単語辞書記憶部３、対象音声データ記憶部４、既知語インデックス記憶部５９、未知語インデックス記憶部６９は、音声データ検索装置１００のメモリ、あるいは音声データ検索装置１００と接続された外部の記憶装置等である。単語辞書記憶部３、既知語インデックス記憶部５９、未知語インデックス記憶部６９、対象音声データ記憶部４は、同一の記憶装置であってもよい。

単語辞書記憶部３には、検索に有効な自立語を集めた単語辞書が格納されている。単語辞書には、使用頻度の低い固有名詞などは必ずしも登録されていない。
対象音声データ記憶部４には、検索の対象となる音声データとして、オーディオファイル（例えば拡張子がＷＡＶであるもの。）や映像音声ファイル（例えば拡張子がＡＶＩであるもの。）などが記憶されている。ファイルの単位は、ニュース映像など、ひとつの事件や事故などのトピックごとに分割されており、検索の結果はこのファイルを単位として再生される。実施の形態１では対象音声データ記憶部４には第１番から第Ｎ番までのＮ個の映像音声ファイルが格納されているものとする。
検索結果提示部９は、ディスプレイ、スピーカー等を備え、検索結果の映像音声ファイルを出力することが可能な装置である。

次に動作について説明する。
入力インタフェース（図示せず）を介して質問テキスト（クエリ）１が入力されると、クエリ解析部２の単語候補抽出部２１は、質問テキスト１を形態素解析して、質問テキスト１に含まれ、かつ、検索処理の対象となり得る検索単語候補２２を抽出する。
図２を用いて、単語候補抽出部２１の処理を具体的に説明する。例えば、質問テキスト１として、「アメリカのクリントン大統領」が入力されると、図に示すように、質問テキスト１は形態素解析によって４つの単語に分割される。これらの単語の中で、助詞「の」は検索処理に有効でないと判断され、残りの単語「アメリカ」、「クリントン」、「大統領」が検索単語候補２２として抽出される。

次に、単語分類部２３は、検索単語候補２２に含まれる単語のそれぞれについて、単語辞書記憶部３に登録されている単語との照合を行い、単語辞書記憶部３に登録されている単語と一致する場合は、既知検索単語２８として、一致しない場合は未知検索単語２９として出力する。
図３に単語辞書記憶部３に格納されている単語辞書の例を示す。ここでは、単語辞書には２００００単語が登録されており、単語「アメリカ」と「大統領」は、それぞれ４３番目、２９４番目に登録されている。よって、この単語辞書を用いて分類を行うと、図２に示した検索単語候補２２のうち、「アメリカ」と「大統領」については既知検索単語２８に分類され、固有名詞「クリントン」は未知検索単語２９に分類される。

既知語インデックス作成部５は、対象音声データ記憶部４に格納されている音声データファイルについて既知語インデックスを作成する。
単語照合部５１は、単語辞書記憶部３に登録されている単語のＨＭＭ（隠れマルコフモデル）を生成し、フォワードバックワードアルゴリズムにより、音声データファイルの各音声区間との照合を行う。既知語インデックスには、単語辞書記憶部３に登録されている単語の音声データファイル中の照合位置（ファイルの先頭からの時刻）、および当該単語の照合尤度が登録される。作成された既知後インデックスは、既知語インデックス記憶部５９に格納される。
図４に、既知語インデックスの例を示す。ここでは、例として第ｋ番目のファイルの既知後インデックスを示す。第ｋ番目のファイルは、１９９５年の「アメリカ大統領が予算教書を議会に提出した。」という内容のニュース映像ファイルである。図に示すように、ファイル中に含まれる単語のうち単語辞書記憶部３に登録されている単語「アメリカ」、「大統領」について、照合位置と照合尤度が登録されている。
なお、既知語インデックスの作成は、対象音声データ記憶部４の内容が更新されたとき、または単語辞書記憶部３の内容が更新されたときなど、検索処理の事前に行われる。

未知語インデックス作成部６は、対象音声データ記憶部４に格納されている音声データファイルについて未知語インデックスを作成する。
単語照合部６１は、クエリ解析部２が出力した未知検索単語２９のＨＭＭを生成し、フォワードバックワードアルゴリズムを用いて、音声データファイルの各音声区間との照合を行う。未知語インデックスには、未知検索単語２９の音声データファイル中の照合位置（ファイルの先頭からの時刻）、および当該単語の照合尤度が登録される。作成された未知後インデックスは、未知語インデックス記憶部６９に格納される。
図５に、未知語インデックスの例を示す。ここでは、図４に示す例と同様に、第ｋ番目のファイルの未知語インデックスを示している。図に示すように、ファイル中に含まれる単語のうち、未知検索単語２９に含まれる「クリントン」について、照合位置と照合尤度が登録されている。

次に、類似度算出部７による類似度算出処理について説明する。
質問ベクトル生成部７１は、既知検索単語２８と未知検索単語２９から、質問ベクトルを生成する。質問ベクトルは、単語辞書記憶部３に記憶されている単語数をＶ、未知検索単語２９に含まれる単語数をＵとすると、Ｖ＋Ｕ次元のベクトルであり、前半Ｖ次元の第ｉ番目（１≦ｉ≦Ｖ）のベクトル成分は、単語辞書記憶部３に記憶された第ｉ番目の単語が既知検索単語２８中に存在する場合に１、存在しない場合に０の値をとる。また、後半のＵ次元の第ｊ番目（１≦ｊ≦Ｕ）のベクトル成分は、すべて１の値をとる。
図２に示す質問テキスト及び図３に示す単語辞書の例を用いた場合、単語辞書に登録されている単語数Ｖ＝２００００であり、未知検索単語２９に含まれる単語数Ｕ＝１であるため、図６に示すような質問ベクトルが生成される。すなわち、既知検索単語２８に含まれる「アメリカ」に対応する４３次元目、「大統領」に対応する２９４次元目、また、未知検索単語２９に含まれる「クリントン」に対応する２０００１次元目の値がそれぞれ値１で、その他の次元の値が０の２０００１次元ベクトルが生成される。

また、対象ベクトル生成部７２は、第ｎ番目のファイル（ｎ＝１，２、…、Ｎ）について、既知語インデックス記憶部５９と未知語インデックス記憶部６９から対象ベクトルを生成する。ここで、対象ベクトルは、上記の質問ベクトルと同じく、次元数Ｖ＋Ｕのベクトルである。前半Ｖ次元の第ｉ番目のベクトル成分は、単語辞書記憶部３に記憶された第ｉ番目の単語が既知語インデックス記憶部５９の中に記憶されている場合には、当該単語の複数の照合位置における照合尤度のうち最大の照合尤度を値としてとり、そうでない場合には０の値をとる。後半のＵ次元のベクトル成分は、未知検索単語２９に記憶された第ｊ番目の単語（１≦ｊ≦Ｕ）が未知語インデックス記憶部６９に記憶されている場合には、当該単語の複数の照合位置における照合尤度のうち最大の照合尤度を値としてとり、そうでない場合には０の値をとる。
図７に、対象ベクトルの例を示す。ここでは、図４および図５に示す例と同様に、第ｋ番目のファイルの対象ベクトルを示している。図に示すように、単語辞書記憶部３に記憶された単語のうち、既知語インデックス記憶部５９に登録されている単語「アメリカ」、「大統領」について、最大の照合尤度０．５７、０．７３が値としてとられている。また、未知検索単語２９に記憶された単語のうち、未知語インデックス記憶部６９に登録されている単語「クリントン」について、最大の照合尤度０．４７が値としてとられている。
また、単語辞書記憶部３に記憶されているが既知語インデックス記憶部５９に登録されていない単語、未知検索単語２９に登録されているが未知語インデックス記憶部６９に登録されていない単語については、０の値をとる。

さらに、類似度算出部７のベクトル類似度計算部７３は、質問ベクトルと第ｎ番目のファイルの対象ベクトルとのベクトル間の類似度７９を算出する。ここでは、ベクトル間の類似度７９は、ベクトルの方向の相違を評価するため、方向余弦（コサイン（ＣＯＳ）尺度）を用いて表す。すなわち、質問ベクトルＱと第ｎ番目のファイルの対象ベクトルＯ（ｎ）の類似度７９は、式（１）を用いてベクトルの内積により計算することができる。

ここで、Ｌ（ｎ）は第ｎ番目のファイルの対象ベクトルＯ（ｎ）と質問ベクトルＱとの類似度、Ｑ（ｉ）は質問ベクトルＱの第ｉ次元の成分、Ｏ（ｎ，ｉ）は第ｎ番目のファイルの対象ベクトルＯ（ｎ）の第ｉ次元の成分（照合尤度）を示している。
方向余弦ＣＯＳ（Ｑ，Ｏ（ｎ））は、両ベクトルの向きが一致するとき１となり、ベクトルの向きが直交するとき０となる。

次に、検索結果提示部９は、類似度算出部７が出力した第１番から第Ｎ番までのすべてのファイルについての類似度Ｌ（ｎ）を比較し、最大の類似度を有するファイルｎ^＊を決定し、ファイルｎ^＊を検索結果として再生する。
ｎ^＊は式（２）を用いて決定することができる。

ここでは、既知検索単語２８に含まれる「アメリカ」および「大統領」と、未知検索単語２９に含まれる「クリントン」の全てを音声として含む上述の第ｋ番目のファイルの類似度Ｌ（ｋ）が、他のファイルの類似度Ｌ（ｎ）よりも大きくなり、第ｋ番目のファイルが最大の類似度を有するファイルｎ^＊として選択される。
検索結果提示部９は、第ｋ番目のファイルの音声と映像を再生する。

以上のように、実施の形態１によれば、クエリ解析部２が、質問テキスト１から単語辞書記憶部３に登録された既知検索単語２８と登録されていない未知検索単語２９を分離して抽出し、既知語インデックス作成部５が検索対象の音声データファイルに含まれる単語のうち、単語辞書記憶部３に登録された単語についての既知語インデックスを作成し、未知語インデックス作成部６が、単語辞書記憶部３に登録されていない単語についての未知語インデックスを作成し、質問ベクトル生成部７１は、既知検索単語２８と未知検索単語２９から質問ベクトルを生成し、対象ベクトル成部７２は、既知語インデックスと未知語インデックスから音声データファイル毎に対象ベクトルを生成し、ベクトル類似度計算部７３は、質問ベクトルと対象ベクトルのベクトル間類似度を算出し、検索結果提示部９は、すべてのファイルについての類似度を比較し、最大の類似度を有するファイルを検索結果として決定するようにしたので、質問テキスト１中に、既知検索単語と未知検索単語を含む場合にも、検索対象音声データファイルに対してベクトルの類似度を利用した検索を行うことが可能となり、音声データ検索の精度を向上させることができる。

実施の形態２．
実施の形態１では、質問ベクトルと対象ベクトルのベクトル間類似度を、方向余弦を利用して、式（１）により算出した。実施の形態２では、ベクトル間類似度を他の方法で算出する。実施の形態２による音声データ検索装置の構成は実施の形態１と同様である。

実施の形態２による、類似度算出処理について説明する。
類似度算出部７のベクトル類似度計算部７３は、質問ベクトル生成部７１により生成された質問ベクトルＱと対象ベクトル生成部７２により生成された第ｎ番目のファイルの対象ベクトルＯ（ｎ）とのベクトル間の類似度Ｌ（ｎ）を、式（３）を用いて算出する。

ただし、Ｑ（ｉ）は質問ベクトルＱの第ｉ次元の成分、Ｏ（ｎ，ｉ）は第ｎ番目のファイルの対象ベクトルＯ（ｎ）の第ｉ次元の成分を示している。

式（３）において、Ｌｐ（Ｑ，Ｏ（ｎ））は、ｐ乗ノルムのベクトル空間での平均値を表している。すなわち、質問ベクトルＱの成分が１である次元ｉについて、対象ベクトルＯ（ｎ）の第ｉ次元の成分Ｏ（ｎ，ｉ）をｐ乗してから総和をとり、それを質問ベクトルＱの成分が１である次元数で正規化したもののｐ乗根をＬ（ｎ）とする。
ｐ＝１の場合には、Ｌ（ｎ）は、対象ベクトルＯ（ｎ）の成分のうち、質問ベクトルＱの成分が１である次元の各成分（照合尤度）の単純な加算平均となる。すなわち、類似度は質問テキスト１中の全検索単語の平均的な照合尤度に比例する。
また、ｐ＞１とし、ｐ→∞（無限大）に近づけると、Ｌ（ｎ）は、対象ベクトルＯ（ｎ）の成分のうち、最大値に比例した値となる。これは、質問テキスト１に含まれるいずれかの検索単語の照合尤度の大きさに比例して類似度が大きくなることを意味し、ＯＲ検索に適している。
また、ｐ＜１とし、ｐ→０（ゼロ）に近づけると、類似度Ｌ（ｎ）は、質問テキスト１に含まれる全検索単語の平均的な照合尤度に比例するとともに、質問テキスト１に含まれるすべての検索単語の照合尤度が同時に大きくなる度合いに比例する。これは、質問テキスト１中の各検索単語が同時に出現する度合いに比例して類似度が大きくなることを意味し、ＡＮＤ検索に適している。

図８に示す例を用いて、実施の形態２による類似度算出処理を説明する。
ここでは、質問テキスト１は３つの検索単語を含み、検索対象音声データファイルはＡ，Ｂ，Ｃの３つであるとする。また、質問ベクトルＱおよび対象ベクトルＯ（ｎ）は３次元ベクトルであるとする。図に示すように、ファイルＡはすべての検索単語の照合尤度が同時に０．３０である。また、ファイルＢは、第１次元と第２次元が０．４５で第３次元は０である。また、ファイルＣは、第１次元のみ０．９０で残りの次元は０である。このとき、式（３）を用いて類似度を計算した結果が示されている。ｐ＝１では、いずれのファイルについても類似度は０．３０であり、優劣がつかない。
また、ｐ＞１とすると、１検索単語しか出現しないがその単語の照合尤度が高いファイルＣの類似度が最大となる。このように、ｐ＞１では照合尤度の高い検索単語が１つでもあると類似度が高くなってしまうので、ＯＲ検索に適していることがわかる。
一方、ｐ＜１とすると、すべての検索単語が出現しているファイルＡの類似度が最大となり、同時検索（ＡＮＤ検索）の尺度として適切なことがわかる。
なお、クエリ解析部２、既知語インデックス作成部５、未知語インデックス作成部６の動作は実施の形態１と同様である。

以上のように、実施の形態２によれば、質問テキスト１中に、既知検索単語と未知検索単語を含む場合にも、検索対象音声データファイルに対してベクトルの類似度を利用した検索を行うことが可能になると共に、ｐの値を変えることにより、ＯＲ検索やＡＮＤ検索に適した照合処理を実現することができる。

実施の形態３．
実施の形態３では、照合尤度を補正して音韻系列長の大きい単語の照合尤度を強調して類似度を算出する。
図９は、実施の形態３による類似度算出部７１０の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、類似度算出部７１０は照合尤度補正部７４を備えている。また、音声データ検索装置の類似度算出部７１０以外の構成は実施の形態１と同様である。

実施の形態３による、類似度算出処理について説明する。照合尤度補正部７４は、既知語インデックス記憶部５９と未知語インデックス記憶部６９に記憶された第ｎ番目のファイルの検索単語ｉのＨＭＭに基づく照合尤度Ｐ（ｎ，ｉ）（０≦Ｐ（ｎ，ｉ）≦１を満たす実数）を検索単語ｉの音韻系列長Ｌｅｎ（ｉ）を用いて式（４）により補正し、補正後の照合尤度Ｏ（ｎ，ｉ）を算出する。

ここで、ｐｏｗ（ｘ、ｙ）はｘのｙ乗を表すべき乗（Ｐｏｗｅｒ）関数、αは強調係数である。
音韻系列長Ｌｅｎ（ｉ）は、単語の音韻符号列に含まれる音韻符号の数を表す。例えば、単語「アメリカ」の音韻符号列は図３に示すように「ａｍｅｒｉｋａ」であり、音韻系列長は７である。

一般に、ＨＭＭに基づく照合尤度は、対数値に換算すると音韻系列長に比例して単調に減少する傾向がある。このため、音韻系列長の小さい単語、例えば、単語「議会」は、単語「大統領」よりも照合尤度が高くなり、単語「アンバランス」は単語「大統領」より照合尤度が低くなる傾向がある。
式（４）でα＝１とすると、この傾向が補正され、音韻系列長の大きい単語と音韻系列長の小さい単語の照合尤度のバランスをとることができる。これにより、全検索単語の出現をバランスよく評価することができる。
また、α＞１とすると、音韻系列長の長い単語の照合尤度がより大きく補正され、重み付けされる。例えば、検索単語に、「会計」と「会計帳簿」という２つの単語が含まれる場合、音韻系列長のより大きい「会計帳簿」を音声として含む音声データファイルがの類似度が「会計」を音声として含む音声データファイルの類似度よりも高くなる。
このように、αの値を調節することによって、目的に適した検索結果を得られるようにすることができる。
なお、クエリ解析部２、既知語インデックス作成部５、未知語インデックス作成部６の動作は実施の形態１と同様である。

実施の形態４．
実施の形態４では、音声データファイル中の特定の箇所に検索単語が集中して出現する度合いが反映されるように類似度を算出する。
図１０は、実施の形態４による類似度算出部７１１の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、類似度算出部７１１は、音声区間走査部７５、最大値選択部７６を備えている。また、音声データ検索装置の類似度算出部７１１以外の構成は実施の形態１と同様である。

実施の形態４による、類似度算出処理について説明する。音声区間走査部７５は、既知語インデックス記憶部５９と未知語インデックス記憶部６９を参照し、音声区間番号τをτ＝１からＴ（ｎ）（Ｔ（ｎ）は第ｎ番目のファイルの音声区間数）まで変化させる。対象ベクトル生成部７２は、音声区間走査部７５の指定する音声区間番号τに従って、ｔをτから（τ＋ＴＷ−１）の範囲で変化させ、各音声区間ｔに出現する検索単語の最大の照合尤度Ｏ（ｎ，τ，ｉ）を成分とする対象ベクトルＯ（ｎ，τ）を式（５）を用いて生成する。ここで、ＴＷは音声区間数に対する窓の幅である。

ここで、Ｐ（ｎ，ｔ，ｉ）は既知語インデックス記憶部５９または未知語インデックス記憶部６９に記憶されている音声区間ｔに出現する検索単語ｉの最大の尤度である。ただし、検索単語ｉが音声区間ｔに存在しないときは値を０とする。

次に、ベクトル類似度計算部７３は、質問ベクトル生成部７１が生成したＶ＋Ｕ次元の質問ベクトルＱと対象ベクトル生成部７２の生成したＶ＋Ｕ次元の対象ベクトルＯ（ｎ，τ）の間の類似度を式（６）により算出する。

次に、最大値選択部７６は、ベクトル類似度計算部７３の出力した音声区間τ近傍の類似度Ｌ（ｎ，τ）の最大値を式（７）により求め、Ｌ（ｎ）を第ｎ番目のファイルの類似度７９として出力する。

実施の形態４によれば、各音声データファイルの特定の箇所に質問テキスト１中の各検索単語が集中して出現する度合いに比例した類似度を算出することができる。これにより、例えば「緊急対策」という質問テキスト１に対して、「緊急・・・具体策」といった内容のファイルの類似度が誤って高くなることを防止することができる。
なお、クエリ解析部２、既知語インデックス作成部５、未知語インデックス作成部６の動作は実施の形態１と同様である。

実施の形態５．
実施の形態５では、質問ベクトルに、検索単語の共起単語を補充して類似度を計算する。
図１１は、実施の形態５による類似度算出部７１２の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、類似度算出部７１２は、共起単語補充処理部７８を備えている。また、実施の形態５による音声データ検索装置は、共起単語辞書記憶部７７を備えている。音声データ検索装置のその他の構成は実施の形態１と同様である。

実施の形態５による、類似度算出処理について説明する。共起単語補充処理部７８は、共起単語辞書記憶部７７を参照し、質問ベクトル生成部７１が生成した質問ベクトルＱを変換して補充後の質問ベクトルＱ’を生成する。
共起単語辞書には、ある単語ｉとある単語ｊが共起する度合いを格納した行列Ａ（共起行列と呼ぶ）が格納されている。共起行列ＡはＶ＋Ｕ行、Ｖ＋Ｕ列の行列（Ｖは単語辞書記憶部３に記憶されている単語数、Ｕは未知検索単語２９の数）であり、その第ｉ行、第ｊ列成分Ａ（ｉ，ｊ）には、式（８）に示すように単語ｉと単語ｊが共起する場合には値１が、共起しないときは、値０が格納される。ここで、Ｃ（ｉ，ｊ）は、ｉ≠ｊのとき単語ｉと単語ｊが共起する頻度を表す。また、ｉ＝ｊのときＣ（ｉ，ｊ）は単語ｉの頻度を表す。なお、単語の頻度および単語が共起する頻度は予め求めてある。

共起単語補充処理部７８は、補充後の質問ベクトルＱ’を式（９）に示すように質問ベクトルＱに行列Ａの転置行列を左から掛けることにより生成する。ここで、ｕ（ｘ）は、階段関数であり、ｘ＝０のとき０、ｘ＞１のとき１の値をとる関数である。

この行列演算により、もし、Ｑ（ｉ）＝１、Ｑ（ｊ）＝０であるとしても、Ａ（ｉ，ｊ）＝１であれば、Ｑ’（ｊ）＝１となる。すなわち、単語ｉと単語ｊが共起する関係にあれば、単語ｊが質問テキストに存在せず、したがって、質問ベクトルＱに存在しなくても、補充後の質問ベクトルＱ’においては、単語ｊが存在するようになる。この結果、単語ｉと共起する単語ｊについて、ベクトル類似度が計算され、質問テキスト１に含まれない単語についてもベクトルによる対象ファイルの検索がなされる。
なお、クエリ解析部２、既知語インデックス作成部５、未知語インデックス作成部６の動作は実施の形態１と同様である。

実施の形態６．
実施の形態６では、質問テキストの一部に一致する単語を単語辞書から選択し、選択された単語を検索単語の候補とする。
図１２は、実施の形態６によるクエリ解析部２１０の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部２１０は部分一致検出部２４を備えている。また、音声データ検索装置のクエリ解析部２１０以外の構成は実施の形態１と同様である。

実施の形態６による、質問テキスト１の解析処理について説明する。部分一致検出部２４は、質問テキスト１の入力を受けると、単語辞書記憶部３を参照し、単語辞書記憶部３の各単語ｉ（ｉ＝１，２、…、Ｖ）について、単語ｉの文字列が質問テキスト１の文字列中の部分文字列と完全に一致する場合、単語ｉを検索単語候補２２の１つとして加える。これにより、形態素解析の単語分割の誤り（単語境界のずれや単語の過分割など）により、不自然な単語分割が行われ、質問テキストに存在するにもかかわらず単語辞書に登録された単語が単語候補として得られないということが避けられる。
なお、既知語インデックス作成部５、未知語インデックス作成部６、類似度算出部７の動作は実施の形態１〜実施の形態５と同様である。

実施の形態７．
実施の形態７では、質問テキストの文字列全体を検索単語候補に加える。
図１３は、実施の形態７によるクエリ解析部２１１の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部２１１は全体単語化部２５を備えている。また、音声データ検索装置のクエリ解析部２１１以外の構成は実施の形態１と同様である。

実施の形態７による、質問テキスト１の解析処理について説明する。全体単語化部２５は、質問テキスト１を参照し、質問テキストを形態素解析して読みの付与を行い、質問テキストの文字列全体から単語の表記を生成し、読み全体から単語の音韻符号列を生成する。全体単語化部２５は、こうして得られる質問テキスト全体を１つの単語として検索単語候補２２とする。
このように、質問テキスト全体を１つの検索単語として、ベクトルの１次元を構成する成分にするようにしたので、検索対象の音声データファイルの中に、質問テキストと完全に一致する文字系列を含む音声データファイルの類似度をより高くすることができる。

実施の形態８．
実施の形態８では、質問テキスト中の文字列を単位単語に分割し、それらの単位単語の組み合わせにより複合語を生成して検索単語の候補とする。
図１４は、実施の形態８によるクエリ解析部２１２の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部２１２は単位単語分割部２６１、複合語化部２６２を備えている。また、音声データ検索装置のクエリ解析部２１２以外の構成は実施の形態１と同様である。

実施の形態８による、質問テキスト１の解析処理について説明する。
単位単語分割部２６１は質問テキスト１を参照し、質問テキストを形態素解析し、形態素解析結果に複合語（例えば、単語「日米包括経済協議」）が含まれていれば、その複合語をさらに単位単語に分割し（例えば、単語「日米」、「包括」、「経済」、「協議」）、こうして得られる単位単語を検索単語候補２２に加えるとともに、複合語化部２６２に出力する。複合語化部２６２は、単位単語分割部２６１から単位単語を入力し、単位単語を組み合わせることにより、複合語（例えば、「日米包括協議」、「日米経済協議」、「包括協議」、「経済協議」など）を生成し、生成された複合語を検索単語候補２２に加える。

以上のように実施の形態８によれば、形態素解析で複合語とされた単語（例えば、「日米包括経済協議」）とともに、その複合語を構成する単位単語（例えば、「日米」、「包括」、「協議」）が検索単語として用いられるので、複合語を分割して発声した発話（例えば、「日米の包括協議」）を含む音声ファイルの類似度を高くすることができる。また、質問テキストが例えば「日米の経済に関する包括の協議」であっても、例えば「日米包括協議」という複合語が検索単語として生成されることにより、「日米包括協議」という発話を含むファイルの類似度が「日米・・・協議」という発話を含むファイルの類似度よりも高くなり、優先的に検索することができる。

実施の形態９．
実施の形態９では、検索対象音声データに固有の固有事項単語辞書を設け、質問テキストから、固有事項単語辞書に含まれる単語を抽出して検索単語候補とする。
図１５は、実施の形態９によるクエリ解析部２１３の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部２１３は部分一致検出部２４１（固有単語検出部）を備えている。また、実施の形態９による音声データ検索装置は、固有事項単語辞書記憶部３１を備えている。音声データ検索装置のその他の構成は実施の形態１と同様である。

実施の形態９による、質問テキスト１の解析処理について説明する。固有事項単語辞書記憶部３１は単語辞書記憶部３と同一の構成を有し、検索対象音声データに固有の単語が登録されている。
部分一致検出部２４は質問テキスト１の入力を受けると、固有事項単語辞書記憶部３１を参照し、固有事項単語辞書記憶部３１の各単語ｋ（ｋ＝１，２、…、Ｋ、Ｋは固有事項単語辞書記憶部３１に登録されている単語数）について、単語ｋの文字列が質問テキスト１中の部分文字列と完全に一致する場合、単語ｋを検索単語候補２２とする。これにより、通常の形態素解析では１単語として抽出することが困難な検索対象音声データに固有の単語を質問テキスト１から抽出することができる。例えば、質問テキスト１に「会計帳簿」という文字列が含まれていた場合、通常の形態素解析では「会計」と「帳簿」という２単語に分割されることが多い。しかし、固有事項単語辞書記憶部３１に、「会計帳簿」という単語が含まれていれば、検索単語候補２２に加えることができる。これにより、単語「会計帳簿」を質問ベクトルおよび対象ベクトルの１次元に加えることができるので、単語「会計帳簿」を発話として含む音声データファイルの類似度が、単語「会計」と単語「帳簿」を発話として含む音声データファイルの類似度よりも高くなり、優先的に検索することができる。

実施の形態１０．
実施の形態１０では、読みが同一の単語を同音語としてまとめ、同音語の単位で単語の照合を行う。
図１６は、実施の形態１０による音声データ検索装置１０１の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、音声データ検索装置１０１の既知語インデックス作成部５１０は同音語変換部５１１、同音語照合部５１２を備え、未知語インデックス作成部６１０は同音語変換部６１１、同音語照合部６１２を備え、類似度算出部７１３は同音語変換部（質問ベクトル変換部）７１１を備える。また、音声データ検索装置１０１は既知同音語インデックス記憶部５９１および未知同音語インデックス記憶部６９１を備える。

次に、動作について説明する。
まず、既知語インデックス作成部５１０の処理について説明する。同音語変換部５１１は、単語辞書記憶部３に登録されている単語のなかから、音韻符号列が同一の単語を同音語とする同音語リストを作成する。図１７に同音語リストの作成例を示す。単語辞書記憶部３に登録された単語数をＶとし、同音語リストに記載された同音語の数をＶ’とすると、Ｖ’≦Ｖなる関係がある。
同音語変換部５１１は、単語ｉと同音語ｉ’の写像を表すＶ’行Ｖ列の行列Ｆを生成する。行列Ｆの第ｉ’行第ｉ列の成分は１であり、それ以外の成分は０である。
同音語照合部５１２は、同音語リストに登録されている同音語のＨＭＭ（隠れマルコフモデル）を生成し、この生成された各同音語のＨＭＭと、フォワードバックワードアルゴリズムを用いて、音声データファイルの各音声区間との照合を行い、既知同音語インデックス記憶部５９１を作成する。既知同音語インデックス記憶部５９１には、同音語リストに登録されている各同音語について、対象音声データ記憶部４中の各ファイル中の照合位置（ファイルの先頭からの時刻）、および、当該同音語の照合尤度が登録される。図１８に既知同音語インデックスの例を示す。ここでは、図４に示した既知後インデックスの例と同様のファイルについての既知同音語インデックスを示している。

次に、未知語インデックス作成部６１０の処理について説明する。同音語変換部６１１は、未知検索単語２９から同音語リストを作成する。同音語リストは図１７に例示したものと同じ構成を有し、未知検索単語２９に登録されている単語のなかから、音韻符号列が同一の単語を同音語として登録したものである。未知検索単語２９に登録された単語数をＵとし、同音語リストに登録された同音語の数をＵ’とすると、Ｕ’≦Ｕなる関係がある。
同音語変換部６１１は、単語ｊと同音語ｊ’の写像を表すＵ’行Ｕ列の行列Ｇを生成する。行列Ｇの第ｊ’行第ｊ列の成分は１であり、それ以外の成分は０である。
同音語照合部６１２は、同音語変換部６１１が作成した同音語リストの各同音語について、音韻符号列からＨＭＭ（隠れマルコフモデル）を生成し、生成された各同音語のＨＭＭと、フォワードバックワードアルゴリズムを用いて、音声データファイルの各音声区間との照合を行い、未知同音語インデックス記憶部６９１を作成する。未知同音語インデックス記憶部６９１には、同音語リストに登録されている各同音語について、対象音声データ記憶部４中の各ファイル中の照合位置（ファイルの先頭からの時刻）、および、当該同音語の照合尤度が登録される。図１９に未知同音語インデックスの例を示す。ここでは、図５に示した既知後インデックスの例と同様のファイルについての既知同音語インデックスを示している。

次に、類似度算出部７の処理について説明する。質問ベクトル生成部７１は、クエリ解析部２から出力された既知検索単語２８と未知検索単語２９から、質問ベクトルＱを生成し、同音語変換部７１１に出力する。単語辞書記憶部３に記憶されている単語数をＶ、未知検索単語２９に登録された単語数をＵとすると、質問ベクトルＱは、Ｖ＋Ｕ次元のベクトルであり、前半Ｖ次元の第ｉ番目のベクトル成分は、単語辞書記憶部３に記憶された第ｉ番目の単語（１≦ｉ≦Ｖ）が既知検索単語２８中に存在する場合に１、そうでない場合に０の値をとる。後半Ｕ次元の第ｊ番目のベクトル成分（１≦ｊ≦Ｕ）はすべて１の値をとる。

同音語変換部７１１は、同音語変換部５１１で生成された写像Ｆ（Ｖ’行Ｖ列の行列）と同音語変換部６１１で生成された写像Ｇ（Ｕ’行Ｕ列の行列）を用いて、質問ベクトルＱを同音語変換し、質問ベクトルＱ’を得る。この変換は式（１０）のように写像Ｆおよび写像Ｇを対角線上にならべた行列（Ｆ，Ｇ以外の非対角成分は０とする）を質問ベクトルＱの左から掛けることにより行い、質問ベクトルＱ’はＶ’＋Ｕ’次元のベクトルとなる。

対象ベクトル生成部７２は、対象音声データ記憶部４に格納された第ｎ番目のファイル（１≦ｎ≦Ｎ）について、既知同音語インデックス記憶部５９１と未知同音語インデックス記憶部６９１から対象ベクトルＯ’（ｎ）を生成する。対象ベクトルＯ’（ｎ）は、同音語変換後の質問ベクトルＱ’と同じく、次元数Ｕ’＋Ｖ’のベクトルであり、前半Ｖ’次元の第ｉ番目のベクトル成分は、同音語変換部５１１が生成した同音語リストに記憶された第ｉ’番目（１≦ｉ’≦Ｖ’）の同音語が既知同音語インデックス記憶部５９１に登録されている場合には、照合位置のうち最大の照合尤度を値としてとり、そうでない場合には０の値をとる。後半のＵ’次元のベクトル成分は、同音語変換部６１１が生成した同音語リストに記憶された第ｊ’番目（１≦ｊ’≦Ｕ’）の同音語が未知同音語インデックス記憶部６９１に登録されている場合には、照合位置のうち最大の照合尤度を値としてとり、そうでない場合には０の値をとる。

ベクトル類似度計算部７３は、質問ベクトルＱ’と第ｎ番目のファイルの対象ベクトルＯ’（ｎ）とのベクトル間の類似度Ｌ’（ｎ）を算出する。類似度Ｌ’（ｎ）の算出は、式（１）または式（３）を用いて行うことができる。

検索結果提示部９は、ベクトル類似度計算部７３が出力した第１から第Ｎまでのすべてのファイルの類似度Ｌ’（ｎ）を比較して、最大の類似度を有するファイルｎ^＊を式（２）を用いて求め、検索結果として、ファイルｎ^＊の音声および映像を再生する。

以上のように、実施の形態１０によれば、既知語インデックス作成部５１０および未知語インデックス作成部６１０において、単語辞書および未知検索単語の同音語変換を行った後に単語照合処理を行うようにしたので、同音語照合部５１２および同音語照合部６１２におけるＨＭＭの生成と生成されたＨＭＭと対象音声データの音声区間との照合演算回数が削減される効果がある。特に、同音語を多数含む質問テキストの場合には検索時間の削減に効果がある。

実施の形態１１．
実施の形態１１では、未知語インデックスを作成する際に、未知検索単語または同音語単位のＨＭＭ照合を行わず、未知検索単語の符号列単位でのＨＭＭ照合を行う。
図２０は、実施の形態１１による未知語インデックス作成部６２０の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、未知語インデックス作成部６２０は音韻系列認識部６２、音韻符号系列記憶部６３、符号列照合部６４を備えている。音声データ検索装置のその他の構成は実施の形態１と同様である。

実施の形態１１による、未知語インデックス作成処理について説明する。
まず、音韻系列認識部６２は、対象音声データ記憶部４の内容が更新されたときなど、検索処理の事前（質問テキスト１が入力される前）に次の処理を行う。
音声データファイルについて、各音声区間の始端から前向きに音素環境依存型の音素ＨＭＭを連結しながら、ビタビアルゴリズムを用いて音声区間の各フレームと連結された音素ＨＭＭとの照合を行う。音声区間の終端に到達したら、最適な照合経路を後向きに探索して、最尤音素モデル系列を見出し、最尤音素モデル系列の音素名に基づいて入力音声区間を音韻符号系列に変換する。このようにして得られた各音声区間の音韻符号系列は、音韻符号系列記憶部６３に音声データファイル毎に記憶される。

質問テキスト１が入力され、クエリ解析部２によって未知検索単語２９が生成されると、符号列照合部６４は、未知検索単語２９に登録された検索単語ｊ（１≦ｊ≦Ｕ）の音韻符号列と、音韻符号系列記憶部６３に記憶された第ｎ番目ファイルの各音声区間の音韻符号系列との間で、動的計画法を用いて符号列間照合を行い、照合尤度を計算する。符号列照合部６４はファイル上での照合尤度が大きい箇所を検出し、その位置を検索単語ｊの検出位置として、その位置での照合尤度と共に、検索単語ｊ毎に未知語インデックス記憶部６９に登録する。

以上のように、実施の形態１１によれば、未知語インデックス作成部６２０において、演算量の大きい音韻系列認識を予め行って音韻符号系列を作成しておき、質問テキスト１が入力された時点では、符号列照合のみを行えばよいようにしたので、高速に未知検索単語の照合が行え、未知語インデックスをすばやく作成することができる。これにより、検索処理の応答時間を短縮することができる。なお、音韻符号系列データはもとの音声データに比べてきわめて記憶容量が小さいので、Ｎベストの音韻符号系列を記憶しておいてもよい。

実施の形態１２．
実施の形態１２では、未知語インデックス作成部において、未知検索単語の照合結果を一時保存しておき、過去の検索と同じ未知検索単語が質問テキスト中に含まれている場合に、一時保存した照合結果を再利用して、照合処理を省略する。
図２１は、実施の形態１１による未知語インデックス作成部６３０の構成を示すブロック図である。図１と同一の符号は同一の構成要素を表している。図に示すように、未知語インデックス作成部６３０は照合結果一時記憶部６５、保存結果再利用部６６を備えている。音声データ検索装置のその他の構成は実施の形態１と同様である。

実施の形態１２による、未知語インデックス作成処理について説明する。
保存結果再利用部６６は、未知検索単語２９に登録された検索単語ｊ（１≦ｊ≦Ｕ）、対象音声データ記憶部４に格納された音声データファイルｎ（１≦ｎ≦Ｎ）について、照合結果一時記憶部６５を参照し、検索単語ｊの照合結果が照合結果一時記憶部６５に記憶されていない場合には、単語照合部６１に検索単語ｊを出力し、照合処理を依頼する。また、検索単語ｊの照合結果が照合結果一時記憶部６５に記憶されている場合には、記憶された照合結果を取得し、未知語インデックス記憶部６９に登録する。

単語照合部６１は、照合結果一時記憶部６５から検索単語ｊの照合処理を依頼されたときは、検索単語ｊについてその音韻符号列から単語ＨＭＭを生成し、対象音声データファイルの音声区間について、フォワードバックワードアルゴリズムを用いて単語照合を行い、その照合結果として検索単語毎に、照合位置（ファイルの先頭からの時刻）と照合尤度を照合結果一時記憶部６５に登録する。
保存結果再利用部６６は、照合結果一時記憶部６５に、検索単語ｊについてのファイルｎの照合結果が登録されると、登録された照合結果を、未知語インデックス記憶部６９に登録する。

以上のように、実施の形態１２によれば、過去に質問テキスト１から抽出されたことのある未知検索単語については、単語照合した結果を照合結果一時保存部６４に保存し、その照合結果を再度利用しているので、その未知検索単語が再度質問テキストに現れた場合に、その検索単語に対する単語照合演算を省略することが可能となり、検索処理の応答時間を短縮することができる。

実施の形態１３．
実施の形態１〜実施の形態１２による音声データ検索装置のユーザインタフェースの例について説明する。
図２２は、音声データ検索装置の入出力画面の例を示す図である。
画面上、Ａで示される領域において、ユーザが登録用ボタン２２０１を用いて音声データファイルを選択すると、選択されたファイルが対象音声データ記憶部４に登録される。登録されたファイルは、リストボックス２２０２に表示される。図中では、例えばｆ１ｎ２１５９ｃ．ｗａｖという名前の１７７万５００４バイトのファイルなどが登録されている。
検索処理を行う際には、ユーザがＢで示される領域において、コンボボックス２２０３に質問テキスト１を入力する。図中では、「日米包括協議」と入力されている。
ユーザがボタン２２０４を選択すると検索処理が開始する。

検索処理が終了すると、検索結果提示部９により、Ｃで示される領域に検索結果が表示される。図中では、「ファイル名」の欄に検索対象のファイル名が示され、「尤度」の欄にベクトル検索の類似度が示されている。また、類似度の高いほうから順に検索対象のファイル名がソートされて表示されている。
また、検索結果提示部９は、Ｄで示される領域に、類似度が最大のファイル（ここではファイル名がｆ４ｎ２０６３ｃ．ｗａｖのファイル）の書起しテキストを表示する。

以上のように、検索結果として、ファイル名や類似度と共に、類似度が最大となる音声データファイルの内容を示すテキストファイルも表示するようにしたので、ユーザは所望のファイルの内容を目視で確認することもできるので、検索の利便性が向上する。
また、テキストファイル上で質問テキスト１に含まれる文字列と一致する部分を強調表示するようにしてもよい。

この発明の実施の形態１による、音声データ検索装置の構成を示すブロック図である。この発明の実施の形態１による、質問テキストの解析処理を説明するための図である。この発明の実施の形態１による、単語辞書の例を示す図である。この発明の実施の形態１による、既知語インデックスの例を示す図である。この発明の実施の形態１による、未知語インデックスの例を示す図である。この発明の実施の形態１による、質問ベクトルの例を示す図である。この発明の実施の形態１による、対象ベクトルの例を示す図である。この発明の実施の形態２による、類似度算出処理を説明するための図である。この発明の実施の形態３による、類似度算出部の構成を示すブロック図である。この発明の実施の形態４による、類似度算出部の構成を示すブロック図である。この発明の実施の形態５による、類似度算出部の構成を示すブロック図である。この発明の実施の形態６による、クエリ解析部の構成を示すブロック図である。この発明の実施の形態７による、クエリ解析部の構成を示すブロック図である。この発明の実施の形態８による、クエリ解析部の構成を示すブロック図である。この発明の実施の形態９による、クエリ解析部の構成を示すブロック図である。この発明の実施の形態１０による、音声データ検索装置の構成を示すブロック図である。この発明の実施の形態１０による、同音語リストの例を示す図である。この発明の実施の形態１０による、既知同音語インデックスの例を示す図である。この発明の実施の形態１０による、未知同音語インデックスの例を示す図である。この発明の実施の形態１１による、未知語インデックス作成部の構成を示すブロック図である。この発明の実施の形態１２による、未知語インデックス作成部の構成を示すブロック図である。この発明の実施の形態１３による、音声データ検索装置の入出力画面の例を示す図である。

符号の説明

１質問テキスト（クエリ）、２，２１０，２１１，２１２，２１３クエリ解析部、３単語辞書記憶部、４対象音声データ記憶部、５，５１０既知語インデックス作成部、６，６１０，６２０，６３０未知語インデックス作成部、７，７１０，７１１，７１２，７１３類似度算出部、９検索結果提示部、２１単語候補抽出部、２２検索単語候補、２３単語分類部、２４，２４１部分一致検出部、２５全体単語化部、２８既知検索単語、２９未知検索単語、３１固有事項単語辞書記憶部、５１単語照合部、５９既知語インデックス記憶部、６１単語照合部、６２音韻系列認識部、６３音韻符号系列記憶部、６４符号列照合部、６５照合結果一時記憶部、６６保存結果再利用部、６９未知語インデックス記憶部、７１質問ベクトル生成部、７２対象ベクトル生成部、７３ベクトル類似度計算部、７４照合尤度補正部、７５音声区間走査部、７６最大値選択部、７７共起単語辞書記憶部、７８共起単語補充処理部、７９類似度、１００，１０１音声データ検索装置、２６１単位単語分割部、２６２複合語化部、５１１同音語変換部、５１２同音語照合部、５９１既知同音語インデックス記憶部、６１１同音語変換部、６１２同音語照合部、６９１未知同音語インデックス記憶部、７１１同音語変換部（質問ベクトル変換部）、２２０１登録用ボタン、２２０２リストボックス、２２０３コンボボックス、２２０４ボタン。

Claims

入力されたクエリから検索対象となり得る単語を抽出し、単語辞書に登録された単語である既知検索単語と、単語辞書に未登録の単語である未知検索単語に分類するクエリ解析部と、
検索対象の音声ファイル上での、上記単語辞書に登録された単語の照合位置と照合尤度を保有する既知語インデックスを作成する既知語インデックス作成部と、
上記音声ファイル上での、上記未知検索単語の照合位置と照合尤度を保有する未知語インデックスを作成する未知語インデックス作成部と、
上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記クエリ中での各次元に対応する単語の有無を示す値である質問ベクトルを、上記既知検索単語と上記未知検索単語を参照して生成する質問ベクトル生成部と、
上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記音声ファイル上での各次元に対応する単語の最大の照合尤度である対象ベクトルを、上記既知語インデックスと上記未知語インデックスを参照して生成する対象ベクトル生成部と、
上記質問ベクトルと上記対象ベクトルのベクトル間の類似度を算出するベクトル類似度計算部と、
上記類似度の大きさに基づいて検索結果を出力する検索結果提示部を備え、
上記既知語インデックス作成部は、
上記単語辞書に登録された単語と音韻符号列が同一の単語を同音語とし、同音語リストを作成する同音語変換部と、
上記同音語リストに登録されている同音語の上記音声ファイル上での照合位置と照合尤度を登録した既知同音語インデックスを作成する同音語照合部を備え、
上記質問ベクトルの各次元の成分を、上記クエリ中での上記同音語の有無を示す値に変換する質問ベクトル変換部を備え、
上記対象ベクトル生成部は、
上記既知同音語インデックスと上記未知語インデックスを参照して対象ベクトルを生成し、
上記ベクトル類似度計算部は、
上記対象ベクトルと上記質問ベクトル変換部によって変換された質問ベクトルのベクトル間の類似度を算出することを特徴とする
音声データ検索装置。
入力されたクエリから検索対象となり得る単語を抽出し、単語辞書に登録された単語である既知検索単語と、単語辞書に未登録の単語である未知検索単語に分類するクエリ解析部と、
検索対象の音声ファイル上での、上記単語辞書に登録された単語の照合位置と照合尤度を保有する既知語インデックスを作成する既知語インデックス作成部と、
上記音声ファイル上での、上記未知検索単語の照合位置と照合尤度を保有する未知語インデックスを作成する未知語インデックス作成部と、
上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記クエリ中での各次元に対応する単語の有無を示す値である質問ベクトルを、上記既知検索単語と上記未知検索単語を参照して生成する質問ベクトル生成部と、
上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記音声ファイル上での各次元に対応する単語の最大の照合尤度である対象ベクトルを、上記既知語インデックスと上記未知語インデックスを参照して生成する対象ベクトル生成部と、
上記質問ベクトルと上記対象ベクトルのベクトル間の類似度を算出するベクトル類似度計算部と、
上記類似度の大きさに基づいて検索結果を出力する検索結果提示部を備え、
上記未知語インデックス作成部は、
上記未知検索単語と音韻符号列が同一の単語を同音語とし、同音語リストを作成する同音語変換部と、
上記同音語リストに登録されている同音語の上記音声ファイル上での照合位置と照合尤度を登録した未知同音語インデックスを作成する同音語照合部を備え、
上記質問ベクトルの各次元の成分を、上記クエリ中での上記同音語の有無を示す値に変換する質問ベクトル変換部を備え、
上記対象ベクトル生成部は、
上記既知語インデックスと上記未知同音語インデックスを参照して対象ベクトルを生成し、
上記ベクトル類似度計算部は、
上記対象ベクトルと上記質問ベクトル変換部によって変換された質問ベクトルのベクトル間類似度を算出することを特徴とする
音声データ検索装置。
上記対象ベクトルに対し、上記音声ファイル上の音声区間番号を指定する音声区間走査部を備え、
上記対象ベクトル生成部は、指定された音声区間毎に、当該音声区間での各次元に対応する単語の最大の照合尤度を成分とする対象ベクトルを生成し、
上記ベクトル類似度計算部は、上記音声ファイルの音声区間毎の類似度を算出し、
各音声区間の類似度のうちの最大値を当該音声ファイルの類似度として選択する最大値選択部を備えたことを特徴とする請求項１または請求項２記載の音声データ検索装置。
上記クエリ解析部は、
上記クエリ全体を検索対象となり得る単語として抽出する全体単語化部を備えたことを特徴とする請求項１から請求項３のうちのいずれか１項記載の音声データ検索装置。
上記クエリ解析部は、
上記音声ファイルに固有の単語を登録した固有事項単語辞書を参照し、上記固有の単語と上記クエリに含まれる任意の部分文字列との照合を行い、上記固有の単語と上記部分文字列が一致する場合には、検索対象となり得る単語として抽出する固有単語検出部を備えたことを特徴とする請求項１から請求項４のうちのいずれか１項記載の音声データ検索装置。
上記未知語インデックス作成部は、
上記音声ファイルと上記未知検索単語の照合結果を保存する照合結果一時記憶部と、
上記照合結果一時記憶部に照合結果が保存されている単語については、保持されている照合結果を利用して未知語インデックスを作成する保存結果再利用部を備えたことを特徴とする請求項１から請求項５のうちのいずれか１項記載の音声データ検索装置。
上記検索結果提示部は、
検索結果として、検索対象の音声ファイルの発話内容の書起しテキストを表示することを特徴とする請求項１から請求項６のうちのいずれか１項記載の音声データ検索装置。