JP4511274B2 - 音声データ検索装置 - Google Patents

音声データ検索装置 Download PDF

Info

Publication number
JP4511274B2
JP4511274B2 JP2004222121A JP2004222121A JP4511274B2 JP 4511274 B2 JP4511274 B2 JP 4511274B2 JP 2004222121 A JP2004222121 A JP 2004222121A JP 2004222121 A JP2004222121 A JP 2004222121A JP 4511274 B2 JP4511274 B2 JP 4511274B2
Authority
JP
Japan
Prior art keywords
word
search
unit
unknown
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004222121A
Other languages
English (en)
Other versions
JP2006040150A (ja
Inventor
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004222121A priority Critical patent/JP4511274B2/ja
Publication of JP2006040150A publication Critical patent/JP2006040150A/ja
Application granted granted Critical
Publication of JP4511274B2 publication Critical patent/JP4511274B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、音声データ検索装置に関するものである。
音声データ検索の方法として、クエリと検索対象音声データそれぞれを、それらに含まれる単語を基にベクトルとして表現し、ベクトル間の類似度を利用して照合処理を行うものが知られている。クエリ中に複数の単語が含まれる場合には、ベクトル間類似度を利用した照合を行うことにより、精度の高い検索を行うことができる。
例えば、特許文献1に開示された従来の音声データ検索装置は、検索単語列が入力されると、検索単語列を構成する各単語と、単語辞書および類義単語辞書に記憶された単語および類義単語との類似度を示す検索単語ベクトルを生成し、また、検索単語列を構成する単語が、音声データの各音声区間に存在する度合いを示す正規化類似確率ベクトルを生成する。そして、検索単語ベクトルと正規化類似確率ベクトルの内積を検索値とし、検索値の最も大きい音声区間を検索結果として出力する。
また、特許文献2に開示された従来の音声データ検索装置は、音声データベースに含まれる複数の音声データから音素や音節・単語などの照合尤度を計算しておくとともに、クエリを音素や音節・単語などの列に変換し、クエリと照合尤度を照合して両者の一致度を計算している。この際、音声認識結果を有向グラフ型のデータ構造で表現することによって、音声入力されたクエリを音素や音節に展開して、検索対象の音素や音節と照合することで、クエリに未登録語が含まれている場合でも適切な検索処理を行う。
また、テキストデータの検索装置の分野では、特許文献3、特許文献4に開示された技術のように、クエリに含まれる未知語の有無に応じて、例えば単語の統計情報による検索と全文検索を切り替えるように、検索モードを切り替えるものがある。
また、同じくテキストデータ検索の分野では、特許文献5に開示された検索装置のように、検索対象のテキストデータに読みインデックスを備え、キーワードの読みと一致する文字列を検索する技術がある。
また、音声データ検索に関する従来の技術には、特許文献6や特許文献7に開示されたもののように、音声波形データと検索語の両者を音韻符号列に変換して、符号列間照合しているものもある。
さらに、特許文献8に記載された従来の音声検索装置のように、音声波形データの特徴ベクトルと、キーとなる音声データの特徴ベクトルとの間で類似度を算出するものもある。
特開2000−20551号公報(第5頁〜8頁、第1図) 特開2000−259645号公報(第2頁〜3頁、第1図) 特開平9−319766号公報 特開平2003−85200号公報 特開2002−132809号公報 特開2001−215987号公報 特開2002−278579号公報 特開平11−282857号公報(第1図)
特許文献1に記載された音声データ検索装置は、クエリ中の単語の中から、単語辞書または類義単語辞書に存在する既知語について検索単語ベクトルを構成して対象音声データを検索している。しかし、単語辞書または類義単語辞書に存在しない未知語については、検索単語ベクトルを構成して検索していない。このため、既知語と未知語が混在するクエリが与えられた場合、既知語と未知語を同時に含む対象データをベクトルを用いて検索することはできなかった。同様に、複数の未知語を含むクエリが与えられても、これらの未知語を同時に含む対象データをベクトルを用いて検索することはできなかった。
また、特許文献2に記載された音声データ検索装置は、クエリに未知語が含まれている場合に、未知語を音素や音節に展開するため、未知語の照合尤度の計算はできるが、既知語と未知語が同時に存在するクエリや未知語が複数同時に存在するクエリを適切に処理して、既知語と未知語が同時に存在する対象データや未知語を複数同時に含む対象データをベクトルとして検索することはできなかった。
また、特許文献3や特許文献4に開示されている従来のテキストデータの検索装置における技術を適用しても、未知語が存在する場合に検索モードを切替えることはできても、同様に、既知語と未知語が同時に存在するクエリや未知語が複数同時に存在するクエリを適切に処理して、既知語と未知語が同時に存在する対象データや未知語を複数同時に含む対象データをベクトルとして検索することはできなかった。
また、同様に、特許文献6〜特許文献8に開示された技術を適用しても、既知語と未知語が同時に存在するクエリや未知語が複数同時に存在するクエリを適切に処理して、既知語と未知語が同時に存在する対象データや未知語を複数同時に含む対象データをベクトルとして検索することはできなかった。
この発明は上記のような課題を解決するためになされたもので、複数の単語を含むクエリに対して、検索精度を向上させることが可能な音声データ検索装置を得ることを目的とする。
この発明に係る音声データ検索装置は、入力されたクエリから検索対象となり得る単語を抽出し、単語辞書に登録された単語である既知検索単語と、単語辞書に未登録の単語である未知検索単語に分類するクエリ解析部と、検索対象の音声ファイル上での、単語辞書に登録された単語の照合位置と照合尤度を保有する既知語インデックスを作成する既知語インデックス作成部と、音声ファイル上での、未知検索単語の照合位置と照合尤度を保有する未知語インデックスを作成する未知語インデックス作成部と、単語辞書に登録された単語と未知検索単語を次元とし、各次元の成分が、クエリ中での各次元に対応する単語の有無を示す値である質問ベクトルを、既知検索単語と未知検索単語を参照して生成する質問ベクトル生成部と、単語辞書に登録された単語と未知検索単語を次元とし、各次元の成分が、音声ファイル上での各次元に対応する単語の最大の照合尤度である対象ベクトルを、既知語インデックスと未知語インデックスを参照して生成する対象ベクトル生成部と、質問ベクトルと対象ベクトルのベクトル間の類似度を算出するベクトル類似度計算部と、類似度の大きさに基づいて検索結果を出力する検索結果提示部を備え、既知語インデックス作成部は、単語辞書に登録された単語と音韻符号列が同一の単語を同音語とし、同音語リストを作成する同音語変換部と、同音語リストに登録されている同音語の音声ファイル上での照合位置と照合尤度を登録した既知同音語インデックスを作成する同音語照合部を備え、質問ベクトルの各次元の成分を、クエリ中での同音語の有無を示す値に変換する質問ベクトル変換部を備え、対象ベクトル生成部は、既知同音語インデックスと未知語インデックスを参照して対象ベクトルを生成し、ベクトル類似度計算部は、対象ベクトルと質問ベクトル変換部によって変換された質問ベクトルのベクトル間の類似度を算出することを特徴とするものである。

この発明によれば、クエリ中に、単語辞書に登録された既知検索単語と登録されていない未知検索単語を含む場合にも、検索対象音声データに対してベクトルの類似度を利用した検索を行うことができるので、検索の精度を向上させることが可能となる。
以下、この発明の実施の様々な形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声データ検索装置100の構成と動作を説明するためのブロック図である。音声データ検索装置100は、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6、類似度算出部7、検索結果提示部9、単語辞書記憶部3、既知語インデックス記憶部59、未知語インデックス記憶部69、対象音声データ記憶部4を備えている。
クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6、類似度算出部7は、音声データ検索装置100のプロセッサを動作させるプログラムのモジュールを表しており、これらは実際には、一体として音声データ検索装置100のプロセッサを構成する。
クエリ解析部2は、単語候補抽出部21と単語分類部23を備えている。
既知語インデックス作成部5は、単語照合部51を備え、未知語インデックス作成部6は、単語照合部61を備えている。
類似度算出部7は、質問ベクトル生成部71、対象ベクトル生成部72、およびベクトル類似度計算部73を備えている。
単語辞書記憶部3、対象音声データ記憶部4、既知語インデックス記憶部59、未知語インデックス記憶部69は、音声データ検索装置100のメモリ、あるいは音声データ検索装置100と接続された外部の記憶装置等である。単語辞書記憶部3、既知語インデックス記憶部59、未知語インデックス記憶部69、対象音声データ記憶部4は、同一の記憶装置であってもよい。
単語辞書記憶部3には、検索に有効な自立語を集めた単語辞書が格納されている。単語辞書には、使用頻度の低い固有名詞などは必ずしも登録されていない。
対象音声データ記憶部4には、検索の対象となる音声データとして、オーディオファイル(例えば拡張子がWAVであるもの。)や映像音声ファイル(例えば拡張子がAVIであるもの。)などが記憶されている。ファイルの単位は、ニュース映像など、ひとつの事件や事故などのトピックごとに分割されており、検索の結果はこのファイルを単位として再生される。実施の形態1では対象音声データ記憶部4には第1番から第N番までのN個の映像音声ファイルが格納されているものとする。
検索結果提示部9は、ディスプレイ、スピーカー等を備え、検索結果の映像音声ファイルを出力することが可能な装置である。
次に動作について説明する。
入力インタフェース(図示せず)を介して質問テキスト(クエリ)1が入力されると、クエリ解析部2の単語候補抽出部21は、質問テキスト1を形態素解析して、質問テキスト1に含まれ、かつ、検索処理の対象となり得る検索単語候補22を抽出する。
図2を用いて、単語候補抽出部21の処理を具体的に説明する。例えば、質問テキスト1として、「アメリカのクリントン大統領」が入力されると、図に示すように、質問テキスト1は形態素解析によって4つの単語に分割される。これらの単語の中で、助詞「の」は検索処理に有効でないと判断され、残りの単語「アメリカ」、「クリントン」、「大統領」が検索単語候補22として抽出される。
次に、単語分類部23は、検索単語候補22に含まれる単語のそれぞれについて、単語辞書記憶部3に登録されている単語との照合を行い、単語辞書記憶部3に登録されている単語と一致する場合は、既知検索単語28として、一致しない場合は未知検索単語29として出力する。
図3に単語辞書記憶部3に格納されている単語辞書の例を示す。ここでは、単語辞書には20000単語が登録されており、単語「アメリカ」と「大統領」は、それぞれ43番目、294番目に登録されている。よって、この単語辞書を用いて分類を行うと、図2に示した検索単語候補22のうち、「アメリカ」と「大統領」については既知検索単語28に分類され、固有名詞「クリントン」は未知検索単語29に分類される。
既知語インデックス作成部5は、対象音声データ記憶部4に格納されている音声データファイルについて既知語インデックスを作成する。
単語照合部51は、単語辞書記憶部3に登録されている単語のHMM(隠れマルコフモデル)を生成し、フォワードバックワードアルゴリズムにより、音声データファイルの各音声区間との照合を行う。既知語インデックスには、単語辞書記憶部3に登録されている単語の音声データファイル中の照合位置(ファイルの先頭からの時刻)、および当該単語の照合尤度が登録される。作成された既知後インデックスは、既知語インデックス記憶部59に格納される。
図4に、既知語インデックスの例を示す。ここでは、例として第k番目のファイルの既知後インデックスを示す。第k番目のファイルは、1995年の「アメリカ大統領が予算教書を議会に提出した。」という内容のニュース映像ファイルである。図に示すように、ファイル中に含まれる単語のうち単語辞書記憶部3に登録されている単語「アメリカ」、「大統領」について、照合位置と照合尤度が登録されている。
なお、既知語インデックスの作成は、対象音声データ記憶部4の内容が更新されたとき、または単語辞書記憶部3の内容が更新されたときなど、検索処理の事前に行われる。
未知語インデックス作成部6は、対象音声データ記憶部4に格納されている音声データファイルについて未知語インデックスを作成する。
単語照合部61は、クエリ解析部2が出力した未知検索単語29のHMMを生成し、フォワードバックワードアルゴリズムを用いて、音声データファイルの各音声区間との照合を行う。未知語インデックスには、未知検索単語29の音声データファイル中の照合位置(ファイルの先頭からの時刻)、および当該単語の照合尤度が登録される。作成された未知後インデックスは、未知語インデックス記憶部69に格納される。
図5に、未知語インデックスの例を示す。ここでは、図4に示す例と同様に、第k番目のファイルの未知語インデックスを示している。図に示すように、ファイル中に含まれる単語のうち、未知検索単語29に含まれる「クリントン」について、照合位置と照合尤度が登録されている。
次に、類似度算出部7による類似度算出処理について説明する。
質問ベクトル生成部71は、既知検索単語28と未知検索単語29から、質問ベクトルを生成する。質問ベクトルは、単語辞書記憶部3に記憶されている単語数をV、未知検索単語29に含まれる単語数をUとすると、V+U次元のベクトルであり、前半V次元の第i番目(1≦i≦V)のベクトル成分は、単語辞書記憶部3に記憶された第i番目の単語が既知検索単語28中に存在する場合に1、存在しない場合に0の値をとる。また、後半のU次元の第j番目(1≦j≦U)のベクトル成分は、すべて1の値をとる。
図2に示す質問テキスト及び図3に示す単語辞書の例を用いた場合、単語辞書に登録されている単語数V=20000であり、未知検索単語29に含まれる単語数U=1であるため、図6に示すような質問ベクトルが生成される。すなわち、既知検索単語28に含まれる「アメリカ」に対応する43次元目、「大統領」に対応する294次元目、また、未知検索単語29に含まれる「クリントン」に対応する20001次元目の値がそれぞれ値1で、その他の次元の値が0の20001次元ベクトルが生成される。
また、対象ベクトル生成部72は、第n番目のファイル(n=1,2、…、N)について、既知語インデックス記憶部59と未知語インデックス記憶部69から対象ベクトルを生成する。ここで、対象ベクトルは、上記の質問ベクトルと同じく、次元数V+Uのベクトルである。前半V次元の第i番目のベクトル成分は、単語辞書記憶部3に記憶された第i番目の単語が既知語インデックス記憶部59の中に記憶されている場合には、当該単語の複数の照合位置における照合尤度のうち最大の照合尤度を値としてとり、そうでない場合には0の値をとる。後半のU次元のベクトル成分は、未知検索単語29に記憶された第j番目の単語(1≦j≦U)が未知語インデックス記憶部69に記憶されている場合には、当該単語の複数の照合位置における照合尤度のうち最大の照合尤度を値としてとり、そうでない場合には0の値をとる。
図7に、対象ベクトルの例を示す。ここでは、図4および図5に示す例と同様に、第k番目のファイルの対象ベクトルを示している。図に示すように、単語辞書記憶部3に記憶された単語のうち、既知語インデックス記憶部59に登録されている単語「アメリカ」、「大統領」について、最大の照合尤度0.57、0.73が値としてとられている。また、未知検索単語29に記憶された単語のうち、未知語インデックス記憶部69に登録されている単語「クリントン」について、最大の照合尤度0.47が値としてとられている。
また、単語辞書記憶部3に記憶されているが既知語インデックス記憶部59に登録されていない単語、未知検索単語29に登録されているが未知語インデックス記憶部69に登録されていない単語については、0の値をとる。
さらに、類似度算出部7のベクトル類似度計算部73は、質問ベクトルと第n番目のファイルの対象ベクトルとのベクトル間の類似度79を算出する。ここでは、ベクトル間の類似度79は、ベクトルの方向の相違を評価するため、方向余弦(コサイン(COS)尺度)を用いて表す。すなわち、質問ベクトルQと第n番目のファイルの対象ベクトルO(n)の類似度79は、式(1)を用いてベクトルの内積により計算することができる。
Figure 0004511274
ここで、L(n)は第n番目のファイルの対象ベクトルO(n)と質問ベクトルQとの類似度、Q(i)は質問ベクトルQの第i次元の成分、O(n,i)は第n番目のファイルの対象ベクトルO(n)の第i次元の成分(照合尤度)を示している。
方向余弦COS(Q,O(n))は、両ベクトルの向きが一致するとき1となり、ベクトルの向きが直交するとき0となる。
次に、検索結果提示部9は、類似度算出部7が出力した第1番から第N番までのすべてのファイルについての類似度L(n)を比較し、最大の類似度を有するファイルnを決定し、ファイルnを検索結果として再生する。
は式(2)を用いて決定することができる。
Figure 0004511274
ここでは、既知検索単語28に含まれる「アメリカ」および「大統領」と、未知検索単語29に含まれる「クリントン」の全てを音声として含む上述の第k番目のファイルの類似度L(k)が、他のファイルの類似度L(n)よりも大きくなり、第k番目のファイルが最大の類似度を有するファイルnとして選択される。
検索結果提示部9は、第k番目のファイルの音声と映像を再生する。
以上のように、実施の形態1によれば、クエリ解析部2が、質問テキスト1から単語辞書記憶部3に登録された既知検索単語28と登録されていない未知検索単語29を分離して抽出し、既知語インデックス作成部5が検索対象の音声データファイルに含まれる単語のうち、単語辞書記憶部3に登録された単語についての既知語インデックスを作成し、未知語インデックス作成部6が、単語辞書記憶部3に登録されていない単語についての未知語インデックスを作成し、質問ベクトル生成部71は、既知検索単語28と未知検索単語29から質問ベクトルを生成し、対象ベクトル成部72は、既知語インデックスと未知語インデックスから音声データファイル毎に対象ベクトルを生成し、ベクトル類似度計算部73は、質問ベクトルと対象ベクトルのベクトル間類似度を算出し、検索結果提示部9は、すべてのファイルについての類似度を比較し、最大の類似度を有するファイルを検索結果として決定するようにしたので、質問テキスト1中に、既知検索単語と未知検索単語を含む場合にも、検索対象音声データファイルに対してベクトルの類似度を利用した検索を行うことが可能となり、音声データ検索の精度を向上させることができる。
実施の形態2.
実施の形態1では、質問ベクトルと対象ベクトルのベクトル間類似度を、方向余弦を利用して、式(1)により算出した。実施の形態2では、ベクトル間類似度を他の方法で算出する。実施の形態2による音声データ検索装置の構成は実施の形態1と同様である。
実施の形態2による、類似度算出処理について説明する。
類似度算出部7のベクトル類似度計算部73は、質問ベクトル生成部71により生成された質問ベクトルQと対象ベクトル生成部72により生成された第n番目のファイルの対象ベクトルO(n)とのベクトル間の類似度L(n)を、式(3)を用いて算出する。
Figure 0004511274
ただし、Q(i)は質問ベクトルQの第i次元の成分、O(n,i)は第n番目のファイルの対象ベクトルO(n)の第i次元の成分を示している。
式(3)において、Lp(Q,O(n))は、p乗ノルムのベクトル空間での平均値を表している。すなわち、質問ベクトルQの成分が1である次元iについて、対象ベクトルO(n)の第i次元の成分O(n,i)をp乗してから総和をとり、それを質問ベクトルQの成分が1である次元数で正規化したもののp乗根をL(n)とする。
p=1の場合には、L(n)は、対象ベクトルO(n)の成分のうち、質問ベクトルQの成分が1である次元の各成分(照合尤度)の単純な加算平均となる。すなわち、類似度は質問テキスト1中の全検索単語の平均的な照合尤度に比例する。
また、p>1とし、p→∞(無限大)に近づけると、L(n)は、対象ベクトルO(n)の成分のうち、最大値に比例した値となる。これは、質問テキスト1に含まれるいずれかの検索単語の照合尤度の大きさに比例して類似度が大きくなることを意味し、OR検索に適している。
また、p<1とし、p→0(ゼロ)に近づけると、類似度L(n)は、質問テキスト1に含まれる全検索単語の平均的な照合尤度に比例するとともに、質問テキスト1に含まれるすべての検索単語の照合尤度が同時に大きくなる度合いに比例する。これは、質問テキスト1中の各検索単語が同時に出現する度合いに比例して類似度が大きくなることを意味し、AND検索に適している。
図8に示す例を用いて、実施の形態2による類似度算出処理を説明する。
ここでは、質問テキスト1は3つの検索単語を含み、検索対象音声データファイルはA,B,Cの3つであるとする。また、質問ベクトルQおよび対象ベクトルO(n)は3次元ベクトルであるとする。図に示すように、ファイルAはすべての検索単語の照合尤度が同時に0.30である。また、ファイルBは、第1次元と第2次元が0.45で第3次元は0である。また、ファイルCは、第1次元のみ0.90で残りの次元は0である。このとき、式(3)を用いて類似度を計算した結果が示されている。p=1では、いずれのファイルについても類似度は0.30であり、優劣がつかない。
また、p>1とすると、1検索単語しか出現しないがその単語の照合尤度が高いファイルCの類似度が最大となる。このように、p>1では照合尤度の高い検索単語が1つでもあると類似度が高くなってしまうので、OR検索に適していることがわかる。
一方、p<1とすると、すべての検索単語が出現しているファイルAの類似度が最大となり、同時検索(AND検索)の尺度として適切なことがわかる。
なお、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6の動作は実施の形態1と同様である。
以上のように、実施の形態2によれば、質問テキスト1中に、既知検索単語と未知検索単語を含む場合にも、検索対象音声データファイルに対してベクトルの類似度を利用した検索を行うことが可能になると共に、pの値を変えることにより、OR検索やAND検索に適した照合処理を実現することができる。
実施の形態3.
実施の形態3では、照合尤度を補正して音韻系列長の大きい単語の照合尤度を強調して類似度を算出する。
図9は、実施の形態3による類似度算出部710の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、類似度算出部710は照合尤度補正部74を備えている。また、音声データ検索装置の類似度算出部710以外の構成は実施の形態1と同様である。
実施の形態3による、類似度算出処理について説明する。照合尤度補正部74は、既知語インデックス記憶部59と未知語インデックス記憶部69に記憶された第n番目のファイルの検索単語iのHMMに基づく照合尤度P(n,i)(0≦P(n,i)≦1を満たす実数)を検索単語iの音韻系列長Len(i)を用いて式(4)により補正し、補正後の照合尤度O(n,i)を算出する。
Figure 0004511274
ここで、pow(x、y)はxのy乗を表すべき乗(Power)関数、αは強調係数である。
音韻系列長Len(i)は、単語の音韻符号列に含まれる音韻符号の数を表す。例えば、単語「アメリカ」の音韻符号列は図3に示すように「amerika」であり、音韻系列長は7である。
一般に、HMMに基づく照合尤度は、対数値に換算すると音韻系列長に比例して単調に減少する傾向がある。このため、音韻系列長の小さい単語、例えば、単語「議会」は、単語「大統領」よりも照合尤度が高くなり、単語「アンバランス」は単語「大統領」より照合尤度が低くなる傾向がある。
式(4)でα=1とすると、この傾向が補正され、音韻系列長の大きい単語と音韻系列長の小さい単語の照合尤度のバランスをとることができる。これにより、全検索単語の出現をバランスよく評価することができる。
また、α>1とすると、音韻系列長の長い単語の照合尤度がより大きく補正され、重み付けされる。例えば、検索単語に、「会計」と「会計帳簿」という2つの単語が含まれる場合、音韻系列長のより大きい「会計帳簿」を音声として含む音声データファイルがの類似度が「会計」を音声として含む音声データファイルの類似度よりも高くなる。
このように、αの値を調節することによって、目的に適した検索結果を得られるようにすることができる。
なお、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6の動作は実施の形態1と同様である。
実施の形態4.
実施の形態4では、音声データファイル中の特定の箇所に検索単語が集中して出現する度合いが反映されるように類似度を算出する。
図10は、実施の形態4による類似度算出部711の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、類似度算出部711は、音声区間走査部75、最大値選択部76を備えている。また、音声データ検索装置の類似度算出部711以外の構成は実施の形態1と同様である。
実施の形態4による、類似度算出処理について説明する。音声区間走査部75は、既知語インデックス記憶部59と未知語インデックス記憶部69を参照し、音声区間番号τをτ=1からT(n)(T(n)は第n番目のファイルの音声区間数)まで変化させる。対象ベクトル生成部72は、音声区間走査部75の指定する音声区間番号τに従って、tをτから(τ+TW−1)の範囲で変化させ、各音声区間tに出現する検索単語の最大の照合尤度O(n,τ,i)を成分とする対象ベクトルO(n,τ)を式(5)を用いて生成する。ここで、TWは音声区間数に対する窓の幅である。
Figure 0004511274
ここで、P(n,t,i)は既知語インデックス記憶部59または未知語インデックス記憶部69に記憶されている音声区間tに出現する検索単語iの最大の尤度である。ただし、検索単語iが音声区間tに存在しないときは値を0とする。
次に、ベクトル類似度計算部73は、質問ベクトル生成部71が生成したV+U次元の質問ベクトルQと対象ベクトル生成部72の生成したV+U次元の対象ベクトルO(n,τ)の間の類似度を式(6)により算出する。
Figure 0004511274
次に、最大値選択部76は、ベクトル類似度計算部73の出力した音声区間τ近傍の類似度L(n,τ)の最大値を式(7)により求め、L(n)を第n番目のファイルの類似度79として出力する。
Figure 0004511274
実施の形態4によれば、各音声データファイルの特定の箇所に質問テキスト1中の各検索単語が集中して出現する度合いに比例した類似度を算出することができる。これにより、例えば「緊急対策」という質問テキスト1に対して、「緊急・・・具体策」といった内容のファイルの類似度が誤って高くなることを防止することができる。
なお、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6の動作は実施の形態1と同様である。
実施の形態5.
実施の形態5では、質問ベクトルに、検索単語の共起単語を補充して類似度を計算する。
図11は、実施の形態5による類似度算出部712の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、類似度算出部712は、共起単語補充処理部78を備えている。また、実施の形態5による音声データ検索装置は、共起単語辞書記憶部77を備えている。音声データ検索装置のその他の構成は実施の形態1と同様である。
実施の形態5による、類似度算出処理について説明する。共起単語補充処理部78は、共起単語辞書記憶部77を参照し、質問ベクトル生成部71が生成した質問ベクトルQを変換して補充後の質問ベクトルQ’を生成する。
共起単語辞書には、ある単語iとある単語jが共起する度合いを格納した行列A(共起行列と呼ぶ)が格納されている。共起行列AはV+U行、V+U列の行列(Vは単語辞書記憶部3に記憶されている単語数、Uは未知検索単語29の数)であり、その第i行、第j列成分A(i,j)には、式(8)に示すように単語iと単語jが共起する場合には値1が、共起しないときは、値0が格納される。ここで、C(i,j)は、i≠jのとき単語iと単語jが共起する頻度を表す。また、i=jのときC(i,j)は単語iの頻度を表す。なお、単語の頻度および単語が共起する頻度は予め求めてある。
Figure 0004511274
共起単語補充処理部78は、補充後の質問ベクトルQ’を式(9)に示すように質問ベクトルQに行列Aの転置行列を左から掛けることにより生成する。ここで、u(x)は、階段関数であり、x=0のとき0、x>1のとき1の値をとる関数である。
Figure 0004511274
この行列演算により、もし、Q(i)=1、Q(j)=0であるとしても、A(i,j)=1であれば、Q’(j)=1となる。すなわち、単語iと単語jが共起する関係にあれば、単語jが質問テキストに存在せず、したがって、質問ベクトルQに存在しなくても、補充後の質問ベクトルQ’においては、単語jが存在するようになる。この結果、単語iと共起する単語jについて、ベクトル類似度が計算され、質問テキスト1に含まれない単語についてもベクトルによる対象ファイルの検索がなされる。
なお、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6の動作は実施の形態1と同様である。
実施の形態6.
実施の形態6では、質問テキストの一部に一致する単語を単語辞書から選択し、選択された単語を検索単語の候補とする。
図12は、実施の形態6によるクエリ解析部210の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部210は部分一致検出部24を備えている。また、音声データ検索装置のクエリ解析部210以外の構成は実施の形態1と同様である。
実施の形態6による、質問テキスト1の解析処理について説明する。部分一致検出部24は、質問テキスト1の入力を受けると、単語辞書記憶部3を参照し、単語辞書記憶部3の各単語i(i=1,2、…、V)について、単語iの文字列が質問テキスト1の文字列中の部分文字列と完全に一致する場合、単語iを検索単語候補22の1つとして加える。これにより、形態素解析の単語分割の誤り(単語境界のずれや単語の過分割など)により、不自然な単語分割が行われ、質問テキストに存在するにもかかわらず単語辞書に登録された単語が単語候補として得られないということが避けられる。
なお、既知語インデックス作成部5、未知語インデックス作成部6、類似度算出部7の動作は実施の形態1〜実施の形態5と同様である。
実施の形態7.
実施の形態7では、質問テキストの文字列全体を検索単語候補に加える。
図13は、実施の形態7によるクエリ解析部211の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部211は全体単語化部25を備えている。また、音声データ検索装置のクエリ解析部211以外の構成は実施の形態1と同様である。
実施の形態7による、質問テキスト1の解析処理について説明する。全体単語化部25は、質問テキスト1を参照し、質問テキストを形態素解析して読みの付与を行い、質問テキストの文字列全体から単語の表記を生成し、読み全体から単語の音韻符号列を生成する。全体単語化部25は、こうして得られる質問テキスト全体を1つの単語として検索単語候補22とする。
このように、質問テキスト全体を1つの検索単語として、ベクトルの1次元を構成する成分にするようにしたので、検索対象の音声データファイルの中に、質問テキストと完全に一致する文字系列を含む音声データファイルの類似度をより高くすることができる。
実施の形態8.
実施の形態8では、質問テキスト中の文字列を単位単語に分割し、それらの単位単語の組み合わせにより複合語を生成して検索単語の候補とする。
図14は、実施の形態8によるクエリ解析部212の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部212は単位単語分割部261、複合語化部262を備えている。また、音声データ検索装置のクエリ解析部212以外の構成は実施の形態1と同様である。
実施の形態8による、質問テキスト1の解析処理について説明する。
単位単語分割部261は質問テキスト1を参照し、質問テキストを形態素解析し、形態素解析結果に複合語(例えば、単語「日米包括経済協議」)が含まれていれば、その複合語をさらに単位単語に分割し(例えば、単語「日米」、「包括」、「経済」、「協議」)、こうして得られる単位単語を検索単語候補22に加えるとともに、複合語化部262に出力する。複合語化部262は、単位単語分割部261から単位単語を入力し、単位単語を組み合わせることにより、複合語(例えば、「日米包括協議」、「日米経済協議」、「包括協議」、「経済協議」など)を生成し、生成された複合語を検索単語候補22に加える。
以上のように実施の形態8によれば、形態素解析で複合語とされた単語(例えば、「日米包括経済協議」)とともに、その複合語を構成する単位単語(例えば、「日米」、「包括」、「協議」)が検索単語として用いられるので、複合語を分割して発声した発話(例えば、「日米の包括協議」)を含む音声ファイルの類似度を高くすることができる。また、質問テキストが例えば「日米の経済に関する包括の協議」であっても、例えば「日米包括協議」という複合語が検索単語として生成されることにより、「日米包括協議」という発話を含むファイルの類似度が「日米・・・協議」という発話を含むファイルの類似度よりも高くなり、優先的に検索することができる。
実施の形態9.
実施の形態9では、検索対象音声データに固有の固有事項単語辞書を設け、質問テキストから、固有事項単語辞書に含まれる単語を抽出して検索単語候補とする。
図15は、実施の形態9によるクエリ解析部213の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部213は部分一致検出部241(固有単語検出部)を備えている。また、実施の形態9による音声データ検索装置は、固有事項単語辞書記憶部31を備えている。音声データ検索装置のその他の構成は実施の形態1と同様である。
実施の形態9による、質問テキスト1の解析処理について説明する。固有事項単語辞書記憶部31は単語辞書記憶部3と同一の構成を有し、検索対象音声データに固有の単語が登録されている。
部分一致検出部24は質問テキスト1の入力を受けると、固有事項単語辞書記憶部31を参照し、固有事項単語辞書記憶部31の各単語k(k=1,2、…、K、Kは固有事項単語辞書記憶部31に登録されている単語数)について、単語kの文字列が質問テキスト1中の部分文字列と完全に一致する場合、単語kを検索単語候補22とする。これにより、通常の形態素解析では1単語として抽出することが困難な検索対象音声データに固有の単語を質問テキスト1から抽出することができる。例えば、質問テキスト1に「会計帳簿」という文字列が含まれていた場合、通常の形態素解析では「会計」と「帳簿」という2単語に分割されることが多い。しかし、固有事項単語辞書記憶部31に、「会計帳簿」という単語が含まれていれば、検索単語候補22に加えることができる。これにより、単語「会計帳簿」を質問ベクトルおよび対象ベクトルの1次元に加えることができるので、単語「会計帳簿」を発話として含む音声データファイルの類似度が、単語「会計」と単語「帳簿」を発話として含む音声データファイルの類似度よりも高くなり、優先的に検索することができる。
実施の形態10.
実施の形態10では、読みが同一の単語を同音語としてまとめ、同音語の単位で単語の照合を行う。
図16は、実施の形態10による音声データ検索装置101の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、音声データ検索装置101の既知語インデックス作成部510は同音語変換部511、同音語照合部512を備え、未知語インデックス作成部610は同音語変換部611、同音語照合部612を備え、類似度算出部713は同音語変換部(質問ベクトル変換部)711を備える。また、音声データ検索装置101は既知同音語インデックス記憶部591および未知同音語インデックス記憶部691を備える。
次に、動作について説明する。
まず、既知語インデックス作成部510の処理について説明する。同音語変換部511は、単語辞書記憶部3に登録されている単語のなかから、音韻符号列が同一の単語を同音語とする同音語リストを作成する。図17に同音語リストの作成例を示す。単語辞書記憶部3に登録された単語数をVとし、同音語リストに記載された同音語の数をV’とすると、V’≦Vなる関係がある。
同音語変換部511は、単語iと同音語i’の写像を表すV’行V列の行列Fを生成する。行列Fの第i’行第i列の成分は1であり、それ以外の成分は0である。
同音語照合部512は、同音語リストに登録されている同音語のHMM(隠れマルコフモデル)を生成し、この生成された各同音語のHMMと、フォワードバックワードアルゴリズムを用いて、音声データファイルの各音声区間との照合を行い、既知同音語インデックス記憶部591を作成する。既知同音語インデックス記憶部591には、同音語リストに登録されている各同音語について、対象音声データ記憶部4中の各ファイル中の照合位置(ファイルの先頭からの時刻)、および、当該同音語の照合尤度が登録される。図18に既知同音語インデックスの例を示す。ここでは、図4に示した既知後インデックスの例と同様のファイルについての既知同音語インデックスを示している。
次に、未知語インデックス作成部610の処理について説明する。同音語変換部611は、未知検索単語29から同音語リストを作成する。同音語リストは図17に例示したものと同じ構成を有し、未知検索単語29に登録されている単語のなかから、音韻符号列が同一の単語を同音語として登録したものである。未知検索単語29に登録された単語数をUとし、同音語リストに登録された同音語の数をU’とすると、U’≦Uなる関係がある。
同音語変換部611は、単語jと同音語j’の写像を表すU’行U列の行列Gを生成する。行列Gの第j’行第j列の成分は1であり、それ以外の成分は0である。
同音語照合部612は、同音語変換部611が作成した同音語リストの各同音語について、音韻符号列からHMM(隠れマルコフモデル)を生成し、生成された各同音語のHMMと、フォワードバックワードアルゴリズムを用いて、音声データファイルの各音声区間との照合を行い、未知同音語インデックス記憶部691を作成する。未知同音語インデックス記憶部691には、同音語リストに登録されている各同音語について、対象音声データ記憶部4中の各ファイル中の照合位置(ファイルの先頭からの時刻)、および、当該同音語の照合尤度が登録される。図19に未知同音語インデックスの例を示す。ここでは、図5に示した既知後インデックスの例と同様のファイルについての既知同音語インデックスを示している。
次に、類似度算出部7の処理について説明する。質問ベクトル生成部71は、クエリ解析部2から出力された既知検索単語28と未知検索単語29から、質問ベクトルQを生成し、同音語変換部711に出力する。単語辞書記憶部3に記憶されている単語数をV、未知検索単語29に登録された単語数をUとすると、質問ベクトルQは、V+U次元のベクトルであり、前半V次元の第i番目のベクトル成分は、単語辞書記憶部3に記憶された第i番目の単語(1≦i≦V)が既知検索単語28中に存在する場合に1、そうでない場合に0の値をとる。後半U次元の第j番目のベクトル成分(1≦j≦U)はすべて1の値をとる。
同音語変換部711は、同音語変換部511で生成された写像F(V’行V列の行列)と同音語変換部611で生成された写像G(U’行U列の行列)を用いて、質問ベクトルQを同音語変換し、質問ベクトルQ’を得る。この変換は式(10)のように写像Fおよび写像Gを対角線上にならべた行列(F,G以外の非対角成分は0とする)を質問ベクトルQの左から掛けることにより行い、質問ベクトルQ’はV’+U’次元のベクトルとなる。
Figure 0004511274
対象ベクトル生成部72は、対象音声データ記憶部4に格納された第n番目のファイル(1≦n≦N)について、既知同音語インデックス記憶部591と未知同音語インデックス記憶部691から対象ベクトルO’(n)を生成する。対象ベクトルO’(n)は、同音語変換後の質問ベクトルQ’と同じく、次元数U’+V’のベクトルであり、前半V’次元の第i番目のベクトル成分は、同音語変換部511が生成した同音語リストに記憶された第i’番目(1≦i’≦V’)の同音語が既知同音語インデックス記憶部591に登録されている場合には、照合位置のうち最大の照合尤度を値としてとり、そうでない場合には0の値をとる。後半のU’次元のベクトル成分は、同音語変換部611が生成した同音語リストに記憶された第j’番目(1≦j’≦U’)の同音語が未知同音語インデックス記憶部691に登録されている場合には、照合位置のうち最大の照合尤度を値としてとり、そうでない場合には0の値をとる。
ベクトル類似度計算部73は、質問ベクトルQ’と第n番目のファイルの対象ベクトルO’(n)とのベクトル間の類似度L’(n)を算出する。類似度L’(n)の算出は、式(1)または式(3)を用いて行うことができる。
検索結果提示部9は、ベクトル類似度計算部73が出力した第1から第Nまでのすべてのファイルの類似度L’(n)を比較して、最大の類似度を有するファイルnを式(2)を用いて求め、検索結果として、ファイルnの音声および映像を再生する。
以上のように、実施の形態10によれば、既知語インデックス作成部510および未知語インデックス作成部610において、単語辞書および未知検索単語の同音語変換を行った後に単語照合処理を行うようにしたので、同音語照合部512および同音語照合部612におけるHMMの生成と生成されたHMMと対象音声データの音声区間との照合演算回数が削減される効果がある。特に、同音語を多数含む質問テキストの場合には検索時間の削減に効果がある。
実施の形態11.
実施の形態11では、未知語インデックスを作成する際に、未知検索単語または同音語単位のHMM照合を行わず、未知検索単語の符号列単位でのHMM照合を行う。
図20は、実施の形態11による未知語インデックス作成部620の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、未知語インデックス作成部620は音韻系列認識部62、音韻符号系列記憶部63、符号列照合部64を備えている。音声データ検索装置のその他の構成は実施の形態1と同様である。
実施の形態11による、未知語インデックス作成処理について説明する。
まず、音韻系列認識部62は、対象音声データ記憶部4の内容が更新されたときなど、検索処理の事前(質問テキスト1が入力される前)に次の処理を行う。
音声データファイルについて、各音声区間の始端から前向きに音素環境依存型の音素HMMを連結しながら、ビタビアルゴリズムを用いて音声区間の各フレームと連結された音素HMMとの照合を行う。音声区間の終端に到達したら、最適な照合経路を後向きに探索して、最尤音素モデル系列を見出し、最尤音素モデル系列の音素名に基づいて入力音声区間を音韻符号系列に変換する。このようにして得られた各音声区間の音韻符号系列は、音韻符号系列記憶部63に音声データファイル毎に記憶される。
質問テキスト1が入力され、クエリ解析部2によって未知検索単語29が生成されると、符号列照合部64は、未知検索単語29に登録された検索単語j(1≦j≦U)の音韻符号列と、音韻符号系列記憶部63に記憶された第n番目ファイルの各音声区間の音韻符号系列との間で、動的計画法を用いて符号列間照合を行い、照合尤度を計算する。符号列照合部64はファイル上での照合尤度が大きい箇所を検出し、その位置を検索単語jの検出位置として、その位置での照合尤度と共に、検索単語j毎に未知語インデックス記憶部69に登録する。
以上のように、実施の形態11によれば、未知語インデックス作成部620において、演算量の大きい音韻系列認識を予め行って音韻符号系列を作成しておき、質問テキスト1が入力された時点では、符号列照合のみを行えばよいようにしたので、高速に未知検索単語の照合が行え、未知語インデックスをすばやく作成することができる。これにより、検索処理の応答時間を短縮することができる。なお、音韻符号系列データはもとの音声データに比べてきわめて記憶容量が小さいので、Nベストの音韻符号系列を記憶しておいてもよい。
実施の形態12.
実施の形態12では、未知語インデックス作成部において、未知検索単語の照合結果を一時保存しておき、過去の検索と同じ未知検索単語が質問テキスト中に含まれている場合に、一時保存した照合結果を再利用して、照合処理を省略する。
図21は、実施の形態11による未知語インデックス作成部630の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、未知語インデックス作成部630は照合結果一時記憶部65、保存結果再利用部66を備えている。音声データ検索装置のその他の構成は実施の形態1と同様である。
実施の形態12による、未知語インデックス作成処理について説明する。
保存結果再利用部66は、未知検索単語29に登録された検索単語j(1≦j≦U)、対象音声データ記憶部4に格納された音声データファイルn(1≦n≦N)について、照合結果一時記憶部65を参照し、検索単語jの照合結果が照合結果一時記憶部65に記憶されていない場合には、単語照合部61に検索単語jを出力し、照合処理を依頼する。また、検索単語jの照合結果が照合結果一時記憶部65に記憶されている場合には、記憶された照合結果を取得し、未知語インデックス記憶部69に登録する。
単語照合部61は、照合結果一時記憶部65から検索単語jの照合処理を依頼されたときは、検索単語jについてその音韻符号列から単語HMMを生成し、対象音声データファイルの音声区間について、フォワードバックワードアルゴリズムを用いて単語照合を行い、その照合結果として検索単語毎に、照合位置(ファイルの先頭からの時刻)と照合尤度を照合結果一時記憶部65に登録する。
保存結果再利用部66は、照合結果一時記憶部65に、検索単語jについてのファイルnの照合結果が登録されると、登録された照合結果を、未知語インデックス記憶部69に登録する。
以上のように、実施の形態12によれば、過去に質問テキスト1から抽出されたことのある未知検索単語については、単語照合した結果を照合結果一時保存部64に保存し、その照合結果を再度利用しているので、その未知検索単語が再度質問テキストに現れた場合に、その検索単語に対する単語照合演算を省略することが可能となり、検索処理の応答時間を短縮することができる。
実施の形態13.
実施の形態1〜実施の形態12による音声データ検索装置のユーザインタフェースの例について説明する。
図22は、音声データ検索装置の入出力画面の例を示す図である。
画面上、Aで示される領域において、ユーザが登録用ボタン2201を用いて音声データファイルを選択すると、選択されたファイルが対象音声データ記憶部4に登録される。登録されたファイルは、リストボックス2202に表示される。図中では、例えばf1n2159c.wavという名前の177万5004バイトのファイルなどが登録されている。
検索処理を行う際には、ユーザがBで示される領域において、コンボボックス2203に質問テキスト1を入力する。図中では、「日米包括協議」と入力されている。
ユーザがボタン2204を選択すると検索処理が開始する。
検索処理が終了すると、検索結果提示部9により、Cで示される領域に検索結果が表示される。図中では、「ファイル名」の欄に検索対象のファイル名が示され、「尤度」の欄にベクトル検索の類似度が示されている。また、類似度の高いほうから順に検索対象のファイル名がソートされて表示されている。
また、検索結果提示部9は、Dで示される領域に、類似度が最大のファイル(ここではファイル名がf4n2063c.wavのファイル)の書起しテキストを表示する。
以上のように、検索結果として、ファイル名や類似度と共に、類似度が最大となる音声データファイルの内容を示すテキストファイルも表示するようにしたので、ユーザは所望のファイルの内容を目視で確認することもできるので、検索の利便性が向上する。
また、テキストファイル上で質問テキスト1に含まれる文字列と一致する部分を強調表示するようにしてもよい。
この発明の実施の形態1による、音声データ検索装置の構成を示すブロック図である。 この発明の実施の形態1による、質問テキストの解析処理を説明するための図である。 この発明の実施の形態1による、単語辞書の例を示す図である。 この発明の実施の形態1による、既知語インデックスの例を示す図である。 この発明の実施の形態1による、未知語インデックスの例を示す図である。 この発明の実施の形態1による、質問ベクトルの例を示す図である。 この発明の実施の形態1による、対象ベクトルの例を示す図である。 この発明の実施の形態2による、類似度算出処理を説明するための図である。 この発明の実施の形態3による、類似度算出部の構成を示すブロック図である。 この発明の実施の形態4による、類似度算出部の構成を示すブロック図である。 この発明の実施の形態5による、類似度算出部の構成を示すブロック図である。 この発明の実施の形態6による、クエリ解析部の構成を示すブロック図である。 この発明の実施の形態7による、クエリ解析部の構成を示すブロック図である。 この発明の実施の形態8による、クエリ解析部の構成を示すブロック図である。 この発明の実施の形態9による、クエリ解析部の構成を示すブロック図である。 この発明の実施の形態10による、音声データ検索装置の構成を示すブロック図である。 この発明の実施の形態10による、同音語リストの例を示す図である。 この発明の実施の形態10による、既知同音語インデックスの例を示す図である。 この発明の実施の形態10による、未知同音語インデックスの例を示す図である。 この発明の実施の形態11による、未知語インデックス作成部の構成を示すブロック図である。 この発明の実施の形態12による、未知語インデックス作成部の構成を示すブロック図である。 この発明の実施の形態13による、音声データ検索装置の入出力画面の例を示す図である。
符号の説明
1 質問テキスト(クエリ)、2,210,211,212,213 クエリ解析部、3 単語辞書記憶部、4 対象音声データ記憶部、5,510 既知語インデックス作成部、6,610,620,630 未知語インデックス作成部、7,710,711,712,713 類似度算出部、9 検索結果提示部、21 単語候補抽出部、22 検索単語候補、23 単語分類部、24,241 部分一致検出部、25 全体単語化部、28 既知検索単語、29 未知検索単語、31 固有事項単語辞書記憶部、51 単語照合部、59 既知語インデックス記憶部、61 単語照合部、62 音韻系列認識部、63 音韻符号系列記憶部、64 符号列照合部、65 照合結果一時記憶部、66 保存結果再利用部、69 未知語インデックス記憶部、71 質問ベクトル生成部、72 対象ベクトル生成部、73 ベクトル類似度計算部、74 照合尤度補正部、75 音声区間走査部、76 最大値選択部、77 共起単語辞書記憶部、78 共起単語補充処理部、79 類似度、100,101 音声データ検索装置、261 単位単語分割部、262 複合語化部、511 同音語変換部、512 同音語照合部、591 既知同音語インデックス記憶部、611 同音語変換部、612 同音語照合部、691 未知同音語インデックス記憶部、711 同音語変換部(質問ベクトル変換部)、2201 登録用ボタン、2202 リストボックス、2203 コンボボックス、2204 ボタン。

Claims (7)

  1. 入力されたクエリから検索対象となり得る単語を抽出し、単語辞書に登録された単語である既知検索単語と、単語辞書に未登録の単語である未知検索単語に分類するクエリ解析部と、
    検索対象の音声ファイル上での、上記単語辞書に登録された単語の照合位置と照合尤度を保有する既知語インデックスを作成する既知語インデックス作成部と、
    上記音声ファイル上での、上記未知検索単語の照合位置と照合尤度を保有する未知語インデックスを作成する未知語インデックス作成部と、
    上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記クエリ中での各次元に対応する単語の有無を示す値である質問ベクトルを、上記既知検索単語と上記未知検索単語を参照して生成する質問ベクトル生成部と、
    上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記音声ファイル上での各次元に対応する単語の最大の照合尤度である対象ベクトルを、上記既知語インデックスと上記未知語インデックスを参照して生成する対象ベクトル生成部と、
    上記質問ベクトルと上記対象ベクトルのベクトル間の類似度を算出するベクトル類似度計算部と、
    上記類似度の大きさに基づいて検索結果を出力する検索結果提示部を備え、
    上記既知語インデックス作成部は、
    上記単語辞書に登録された単語と音韻符号列が同一の単語を同音語とし、同音語リストを作成する同音語変換部と、
    上記同音語リストに登録されている同音語の上記音声ファイル上での照合位置と照合尤度を登録した既知同音語インデックスを作成する同音語照合部を備え、
    上記質問ベクトルの各次元の成分を、上記クエリ中での上記同音語の有無を示す値に変換する質問ベクトル変換部を備え、
    上記対象ベクトル生成部は、
    上記既知同音語インデックスと上記未知語インデックスを参照して対象ベクトルを生成し、
    上記ベクトル類似度計算部は、
    上記対象ベクトルと上記質問ベクトル変換部によって変換された質問ベクトルのベクトル間の類似度を算出することを特徴とする
    音声データ検索装置。
  2. 入力されたクエリから検索対象となり得る単語を抽出し、単語辞書に登録された単語である既知検索単語と、単語辞書に未登録の単語である未知検索単語に分類するクエリ解析部と、
    検索対象の音声ファイル上での、上記単語辞書に登録された単語の照合位置と照合尤度を保有する既知語インデックスを作成する既知語インデックス作成部と、
    上記音声ファイル上での、上記未知検索単語の照合位置と照合尤度を保有する未知語インデックスを作成する未知語インデックス作成部と、
    上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記クエリ中での各次元に対応する単語の有無を示す値である質問ベクトルを、上記既知検索単語と上記未知検索単語を参照して生成する質問ベクトル生成部と、
    上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記音声ファイル上での各次元に対応する単語の最大の照合尤度である対象ベクトルを、上記既知語インデックスと上記未知語インデックスを参照して生成する対象ベクトル生成部と、
    上記質問ベクトルと上記対象ベクトルのベクトル間の類似度を算出するベクトル類似度計算部と、
    上記類似度の大きさに基づいて検索結果を出力する検索結果提示部を備え、
    上記未知語インデックス作成部は、
    上記未知検索単語と音韻符号列が同一の単語を同音語とし、同音語リストを作成する同音語変換部と、
    上記同音語リストに登録されている同音語の上記音声ファイル上での照合位置と照合尤度を登録した未知同音語インデックスを作成する同音語照合部を備え、
    上記質問ベクトルの各次元の成分を、上記クエリ中での上記同音語の有無を示す値に変換する質問ベクトル変換部を備え、
    上記対象ベクトル生成部は、
    上記既知語インデックスと上記未知同音語インデックスを参照して対象ベクトルを生成し、
    上記ベクトル類似度計算部は、
    上記対象ベクトルと上記質問ベクトル変換部によって変換された質問ベクトルのベクトル間類似度を算出することを特徴とする
    音声データ検索装置。
  3. 上記対象ベクトルに対し、上記音声ファイル上の音声区間番号を指定する音声区間走査部を備え、
    上記対象ベクトル生成部は、指定された音声区間毎に、当該音声区間での各次元に対応する単語の最大の照合尤度を成分とする対象ベクトルを生成し、
    上記ベクトル類似度計算部は、上記音声ファイルの音声区間毎の類似度を算出し、
    各音声区間の類似度のうちの最大値を当該音声ファイルの類似度として選択する最大値選択部を備えたことを特徴とする請求項1または請求項記載の音声データ検索装置。
  4. 上記クエリ解析部は、
    上記クエリ全体を検索対象となり得る単語として抽出する全体単語化部を備えたことを特徴とする請求項1から請求項のうちのいずれか1項記載の音声データ検索装置。
  5. 上記クエリ解析部は、
    上記音声ファイルに固有の単語を登録した固有事項単語辞書を参照し、上記固有の単語と上記クエリに含まれる任意の部分文字列との照合を行い、上記固有の単語と上記部分文字列が一致する場合には、検索対象となり得る単語として抽出する固有単語検出部を備えたことを特徴とする請求項1から請求項のうちのいずれか1項記載の音声データ検索装置。
  6. 上記未知語インデックス作成部は、
    上記音声ファイルと上記未知検索単語の照合結果を保存する照合結果一時記憶部と、
    上記照合結果一時記憶部に照合結果が保存されている単語については、保持されている照合結果を利用して未知語インデックスを作成する保存結果再利用部を備えたことを特徴とする請求項1から請求項のうちのいずれか1項記載の音声データ検索装置。
  7. 上記検索結果提示部は、
    検索結果として、検索対象の音声ファイルの発話内容の書起しテキストを表示することを特徴とする請求項1から請求項のうちのいずれか1項記載の音声データ検索装置。
JP2004222121A 2004-07-29 2004-07-29 音声データ検索装置 Expired - Fee Related JP4511274B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004222121A JP4511274B2 (ja) 2004-07-29 2004-07-29 音声データ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004222121A JP4511274B2 (ja) 2004-07-29 2004-07-29 音声データ検索装置

Publications (2)

Publication Number Publication Date
JP2006040150A JP2006040150A (ja) 2006-02-09
JP4511274B2 true JP4511274B2 (ja) 2010-07-28

Family

ID=35905040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004222121A Expired - Fee Related JP4511274B2 (ja) 2004-07-29 2004-07-29 音声データ検索装置

Country Status (1)

Country Link
JP (1) JP4511274B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738847B2 (ja) * 2005-03-07 2011-08-03 キヤノン株式会社 データ検索装置および方法
JP5189413B2 (ja) * 2008-06-09 2013-04-24 株式会社日立製作所 音声データ検索システム
JP5590549B2 (ja) * 2010-02-23 2014-09-17 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020551A (ja) * 1998-06-30 2000-01-21 Brother Ind Ltd 音声データ検索装置および記憶媒体
JP2000259645A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2002099566A (ja) * 2000-09-26 2002-04-05 Toshiba Corp 情報検索方法および情報検索装置
JP2002278579A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 音声データ検索装置
JP2003067388A (ja) * 2001-08-24 2003-03-07 Japan Science & Technology Corp 音声データ検索システム
JP2003271629A (ja) * 2002-03-18 2003-09-26 National Institute Of Advanced Industrial & Technology 音声入力によるテキスト検索方法およびその装置
JP2004177551A (ja) * 2002-11-26 2004-06-24 Matsushita Electric Ind Co Ltd 音声認識用未知発話検出装置及び音声認識装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234786A (ja) * 1995-02-24 1996-09-13 Nec Corp 検索装置および音声合成装置
JP3505610B2 (ja) * 1995-07-07 2004-03-08 株式会社日立製作所 文書検索システム
JP3249743B2 (ja) * 1996-05-29 2002-01-21 松下電器産業株式会社 文書検索システム
JP3924894B2 (ja) * 1998-02-09 2007-06-06 富士ゼロックス株式会社 文書検索装置および文書検索方法ならびに記録媒体
JPH11338873A (ja) * 1998-05-26 1999-12-10 Nippon Telegr & Teleph Corp <Ntt> 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020551A (ja) * 1998-06-30 2000-01-21 Brother Ind Ltd 音声データ検索装置および記憶媒体
JP2000259645A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2002099566A (ja) * 2000-09-26 2002-04-05 Toshiba Corp 情報検索方法および情報検索装置
JP2002278579A (ja) * 2001-03-16 2002-09-27 Ricoh Co Ltd 音声データ検索装置
JP2003067388A (ja) * 2001-08-24 2003-03-07 Japan Science & Technology Corp 音声データ検索システム
JP2003271629A (ja) * 2002-03-18 2003-09-26 National Institute Of Advanced Industrial & Technology 音声入力によるテキスト検索方法およびその装置
JP2004177551A (ja) * 2002-11-26 2004-06-24 Matsushita Electric Ind Co Ltd 音声認識用未知発話検出装置及び音声認識装置

Also Published As

Publication number Publication date
JP2006040150A (ja) 2006-02-09

Similar Documents

Publication Publication Date Title
JP3848319B2 (ja) 情報処理方法及び情報処理装置
US7542966B2 (en) Method and system for retrieving documents with spoken queries
JP6188831B2 (ja) 音声検索装置および音声検索方法
US7177795B1 (en) Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems
US9418152B2 (en) System and method for flexible speech to text search mechanism
EP1693828B1 (en) Multilingual speech recognition
US8380505B2 (en) System for recognizing speech for searching a database
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
JP5409931B2 (ja) 音声認識装置及びナビゲーション装置
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
Zweig et al. SCARF: a segmental conditional random field toolkit for speech recognition.
US10872601B1 (en) Natural language processing
JP4738847B2 (ja) データ検索装置および方法
US20220310067A1 (en) Lookup-Table Recurrent Language Model
Suzuki et al. Music information retrieval from a singing voice using lyrics and melody information
Lounnas et al. Enhancement of spoken digits recognition for under-resourced languages: case of Algerian and Moroccan dialects
JP4511274B2 (ja) 音声データ検索装置
JP4269625B2 (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP5436307B2 (ja) 類似文書検索装置
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
JP2003271183A (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP3758241B2 (ja) 音声情報検索装置
JPH06124305A (ja) 文書検索方法
CN113077792B (zh) 佛学主题词识别方法、装置、设备及存储介质
Quénot et al. Content-based search in multilingual audiovisual documents using the International Phonetic Alphabet

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070510

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071012

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100427

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100506

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees