JP2006040150A - 音声データ検索装置 - Google Patents
音声データ検索装置 Download PDFInfo
- Publication number
- JP2006040150A JP2006040150A JP2004222121A JP2004222121A JP2006040150A JP 2006040150 A JP2006040150 A JP 2006040150A JP 2004222121 A JP2004222121 A JP 2004222121A JP 2004222121 A JP2004222121 A JP 2004222121A JP 2006040150 A JP2006040150 A JP 2006040150A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unit
- search
- vector
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 質問テキスト1から検索単語候補22を抽出し、単語辞書に含まれる既知検索単語28と、未登録の未知検索単語29に分類するクエリ解析部2と、単語辞書中の単語のファイル上での照合位置と照合尤度を登録する既知語インデックス作成部5と、未知検索単語29のファイル上での照合位置と照合尤度を登録する未知語インデックス作成部6と、単語辞書中の単語と未知検索単語29を次元とし、質問テキスト1中での各次元に対応する単語の有無を示す値を成分とする質問ベクトルを生成する質問ベクトル生成部71と、単語辞書中の単語と未知検索単語を次元とし、ファイル上での各次元に対応する単語の最大の照合尤度を成分とする対象ベクトルを生成する対象ベクトル生成部72と質問ベクトルと対象ベクトルの類似度を算出するベクトル類似度計算部73を備える。
【選択図】 図1
Description
また、特許文献2に開示された従来の音声データ検索装置は、音声データベースに含まれる複数の音声データから音素や音節・単語などの照合尤度を計算しておくとともに、クエリを音素や音節・単語などの列に変換し、クエリと照合尤度を照合して両者の一致度を計算している。この際、音声認識結果を有向グラフ型のデータ構造で表現することによって、音声入力されたクエリを音素や音節に展開して、検索対象の音素や音節と照合することで、クエリに未登録語が含まれている場合でも適切な検索処理を行う。
また、同じくテキストデータ検索の分野では、特許文献5に開示された検索装置のように、検索対象のテキストデータに読みインデックスを備え、キーワードの読みと一致する文字列を検索する技術がある。
さらに、特許文献8に記載された従来の音声検索装置のように、音声波形データの特徴ベクトルと、キーとなる音声データの特徴ベクトルとの間で類似度を算出するものもある。
また、特許文献2に記載された音声データ検索装置は、クエリに未知語が含まれている場合に、未知語を音素や音節に展開するため、未知語の照合尤度の計算はできるが、既知語と未知語が同時に存在するクエリや未知語が複数同時に存在するクエリを適切に処理して、既知語と未知語が同時に存在する対象データや未知語を複数同時に含む対象データをベクトルとして検索することはできなかった。
また、同様に、特許文献6〜特許文献8に開示された技術を適用しても、既知語と未知語が同時に存在するクエリや未知語が複数同時に存在するクエリを適切に処理して、既知語と未知語が同時に存在する対象データや未知語を複数同時に含む対象データをベクトルとして検索することはできなかった。
実施の形態1.
図1は、この発明の実施の形態1による音声データ検索装置100の構成と動作を説明するためのブロック図である。音声データ検索装置100は、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6、類似度算出部7、検索結果提示部9、単語辞書記憶部3、既知語インデックス記憶部59、未知語インデックス記憶部69、対象音声データ記憶部4を備えている。
クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6、類似度算出部7は、音声データ検索装置100のプロセッサを動作させるプログラムのモジュールを表しており、これらは実際には、一体として音声データ検索装置100のプロセッサを構成する。
クエリ解析部2は、単語候補抽出部21と単語分類部23を備えている。
既知語インデックス作成部5は、単語照合部51を備え、未知語インデックス作成部6は、単語照合部61を備えている。
類似度算出部7は、質問ベクトル生成部71、対象ベクトル生成部72、およびベクトル類似度計算部73を備えている。
対象音声データ記憶部4には、検索の対象となる音声データとして、オーディオファイル(例えば拡張子がWAVであるもの。)や映像音声ファイル(例えば拡張子がAVIであるもの。)などが記憶されている。ファイルの単位は、ニュース映像など、ひとつの事件や事故などのトピックごとに分割されており、検索の結果はこのファイルを単位として再生される。実施の形態1では対象音声データ記憶部4には第1番から第N番までのN個の映像音声ファイルが格納されているものとする。
検索結果提示部9は、ディスプレイ、スピーカー等を備え、検索結果の映像音声ファイルを出力することが可能な装置である。
入力インタフェース(図示せず)を介して質問テキスト(クエリ)1が入力されると、クエリ解析部2の単語候補抽出部21は、質問テキスト1を形態素解析して、質問テキスト1に含まれ、かつ、検索処理の対象となり得る検索単語候補22を抽出する。
図2を用いて、単語候補抽出部21の処理を具体的に説明する。例えば、質問テキスト1として、「アメリカのクリントン大統領」が入力されると、図に示すように、質問テキスト1は形態素解析によって4つの単語に分割される。これらの単語の中で、助詞「の」は検索処理に有効でないと判断され、残りの単語「アメリカ」、「クリントン」、「大統領」が検索単語候補22として抽出される。
図3に単語辞書記憶部3に格納されている単語辞書の例を示す。ここでは、単語辞書には20000単語が登録されており、単語「アメリカ」と「大統領」は、それぞれ43番目、294番目に登録されている。よって、この単語辞書を用いて分類を行うと、図2に示した検索単語候補22のうち、「アメリカ」と「大統領」については既知検索単語28に分類され、固有名詞「クリントン」は未知検索単語29に分類される。
単語照合部51は、単語辞書記憶部3に登録されている単語のHMM(隠れマルコフモデル)を生成し、フォワードバックワードアルゴリズムにより、音声データファイルの各音声区間との照合を行う。既知語インデックスには、単語辞書記憶部3に登録されている単語の音声データファイル中の照合位置(ファイルの先頭からの時刻)、および当該単語の照合尤度が登録される。作成された既知後インデックスは、既知語インデックス記憶部59に格納される。
図4に、既知語インデックスの例を示す。ここでは、例として第k番目のファイルの既知後インデックスを示す。第k番目のファイルは、1995年の「アメリカ大統領が予算教書を議会に提出した。」という内容のニュース映像ファイルである。図に示すように、ファイル中に含まれる単語のうち単語辞書記憶部3に登録されている単語「アメリカ」、「大統領」について、照合位置と照合尤度が登録されている。
なお、既知語インデックスの作成は、対象音声データ記憶部4の内容が更新されたとき、または単語辞書記憶部3の内容が更新されたときなど、検索処理の事前に行われる。
単語照合部61は、クエリ解析部2が出力した未知検索単語29のHMMを生成し、フォワードバックワードアルゴリズムを用いて、音声データファイルの各音声区間との照合を行う。未知語インデックスには、未知検索単語29の音声データファイル中の照合位置(ファイルの先頭からの時刻)、および当該単語の照合尤度が登録される。作成された未知後インデックスは、未知語インデックス記憶部69に格納される。
図5に、未知語インデックスの例を示す。ここでは、図4に示す例と同様に、第k番目のファイルの未知語インデックスを示している。図に示すように、ファイル中に含まれる単語のうち、未知検索単語29に含まれる「クリントン」について、照合位置と照合尤度が登録されている。
質問ベクトル生成部71は、既知検索単語28と未知検索単語29から、質問ベクトルを生成する。質問ベクトルは、単語辞書記憶部3に記憶されている単語数をV、未知検索単語29に含まれる単語数をUとすると、V+U次元のベクトルであり、前半V次元の第i番目(1≦i≦V)のベクトル成分は、単語辞書記憶部3に記憶された第i番目の単語が既知検索単語28中に存在する場合に1、存在しない場合に0の値をとる。また、後半のU次元の第j番目(1≦j≦U)のベクトル成分は、すべて1の値をとる。
図2に示す質問テキスト及び図3に示す単語辞書の例を用いた場合、単語辞書に登録されている単語数V=20000であり、未知検索単語29に含まれる単語数U=1であるため、図6に示すような質問ベクトルが生成される。すなわち、既知検索単語28に含まれる「アメリカ」に対応する43次元目、「大統領」に対応する294次元目、また、未知検索単語29に含まれる「クリントン」に対応する20001次元目の値がそれぞれ値1で、その他の次元の値が0の20001次元ベクトルが生成される。
図7に、対象ベクトルの例を示す。ここでは、図4および図5に示す例と同様に、第k番目のファイルの対象ベクトルを示している。図に示すように、単語辞書記憶部3に記憶された単語のうち、既知語インデックス記憶部59に登録されている単語「アメリカ」、「大統領」について、最大の照合尤度0.57、0.73が値としてとられている。また、未知検索単語29に記憶された単語のうち、未知語インデックス記憶部69に登録されている単語「クリントン」について、最大の照合尤度0.47が値としてとられている。
また、単語辞書記憶部3に記憶されているが既知語インデックス記憶部59に登録されていない単語、未知検索単語29に登録されているが未知語インデックス記憶部69に登録されていない単語については、0の値をとる。
方向余弦COS(Q,O(n))は、両ベクトルの向きが一致するとき1となり、ベクトルの向きが直交するとき0となる。
n*は式(2)を用いて決定することができる。
検索結果提示部9は、第k番目のファイルの音声と映像を再生する。
実施の形態1では、質問ベクトルと対象ベクトルのベクトル間類似度を、方向余弦を利用して、式(1)により算出した。実施の形態2では、ベクトル間類似度を他の方法で算出する。実施の形態2による音声データ検索装置の構成は実施の形態1と同様である。
類似度算出部7のベクトル類似度計算部73は、質問ベクトル生成部71により生成された質問ベクトルQと対象ベクトル生成部72により生成された第n番目のファイルの対象ベクトルO(n)とのベクトル間の類似度L(n)を、式(3)を用いて算出する。
p=1の場合には、L(n)は、対象ベクトルO(n)の成分のうち、質問ベクトルQの成分が1である次元の各成分(照合尤度)の単純な加算平均となる。すなわち、類似度は質問テキスト1中の全検索単語の平均的な照合尤度に比例する。
また、p>1とし、p→∞(無限大)に近づけると、L(n)は、対象ベクトルO(n)の成分のうち、最大値に比例した値となる。これは、質問テキスト1に含まれるいずれかの検索単語の照合尤度の大きさに比例して類似度が大きくなることを意味し、OR検索に適している。
また、p<1とし、p→0(ゼロ)に近づけると、類似度L(n)は、質問テキスト1に含まれる全検索単語の平均的な照合尤度に比例するとともに、質問テキスト1に含まれるすべての検索単語の照合尤度が同時に大きくなる度合いに比例する。これは、質問テキスト1中の各検索単語が同時に出現する度合いに比例して類似度が大きくなることを意味し、AND検索に適している。
ここでは、質問テキスト1は3つの検索単語を含み、検索対象音声データファイルはA,B,Cの3つであるとする。また、質問ベクトルQおよび対象ベクトルO(n)は3次元ベクトルであるとする。図に示すように、ファイルAはすべての検索単語の照合尤度が同時に0.30である。また、ファイルBは、第1次元と第2次元が0.45で第3次元は0である。また、ファイルCは、第1次元のみ0.90で残りの次元は0である。このとき、式(3)を用いて類似度を計算した結果が示されている。p=1では、いずれのファイルについても類似度は0.30であり、優劣がつかない。
また、p>1とすると、1検索単語しか出現しないがその単語の照合尤度が高いファイルCの類似度が最大となる。このように、p>1では照合尤度の高い検索単語が1つでもあると類似度が高くなってしまうので、OR検索に適していることがわかる。
一方、p<1とすると、すべての検索単語が出現しているファイルAの類似度が最大となり、同時検索(AND検索)の尺度として適切なことがわかる。
なお、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6の動作は実施の形態1と同様である。
実施の形態3では、照合尤度を補正して音韻系列長の大きい単語の照合尤度を強調して類似度を算出する。
図9は、実施の形態3による類似度算出部710の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、類似度算出部710は照合尤度補正部74を備えている。また、音声データ検索装置の類似度算出部710以外の構成は実施の形態1と同様である。
音韻系列長Len(i)は、単語の音韻符号列に含まれる音韻符号の数を表す。例えば、単語「アメリカ」の音韻符号列は図3に示すように「amerika」であり、音韻系列長は7である。
式(4)でα=1とすると、この傾向が補正され、音韻系列長の大きい単語と音韻系列長の小さい単語の照合尤度のバランスをとることができる。これにより、全検索単語の出現をバランスよく評価することができる。
また、α>1とすると、音韻系列長の長い単語の照合尤度がより大きく補正され、重み付けされる。例えば、検索単語に、「会計」と「会計帳簿」という2つの単語が含まれる場合、音韻系列長のより大きい「会計帳簿」を音声として含む音声データファイルがの類似度が「会計」を音声として含む音声データファイルの類似度よりも高くなる。
このように、αの値を調節することによって、目的に適した検索結果を得られるようにすることができる。
なお、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6の動作は実施の形態1と同様である。
実施の形態4では、音声データファイル中の特定の箇所に検索単語が集中して出現する度合いが反映されるように類似度を算出する。
図10は、実施の形態4による類似度算出部711の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、類似度算出部711は、音声区間走査部75、最大値選択部76を備えている。また、音声データ検索装置の類似度算出部711以外の構成は実施の形態1と同様である。
なお、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6の動作は実施の形態1と同様である。
実施の形態5では、質問ベクトルに、検索単語の共起単語を補充して類似度を計算する。
図11は、実施の形態5による類似度算出部712の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、類似度算出部712は、共起単語補充処理部78を備えている。また、実施の形態5による音声データ検索装置は、共起単語辞書記憶部77を備えている。音声データ検索装置のその他の構成は実施の形態1と同様である。
共起単語辞書には、ある単語iとある単語jが共起する度合いを格納した行列A(共起行列と呼ぶ)が格納されている。共起行列AはV+U行、V+U列の行列(Vは単語辞書記憶部3に記憶されている単語数、Uは未知検索単語29の数)であり、その第i行、第j列成分A(i,j)には、式(8)に示すように単語iと単語jが共起する場合には値1が、共起しないときは、値0が格納される。ここで、C(i,j)は、i≠jのとき単語iと単語jが共起する頻度を表す。また、i=jのときC(i,j)は単語iの頻度を表す。なお、単語の頻度および単語が共起する頻度は予め求めてある。
なお、クエリ解析部2、既知語インデックス作成部5、未知語インデックス作成部6の動作は実施の形態1と同様である。
実施の形態6では、質問テキストの一部に一致する単語を単語辞書から選択し、選択された単語を検索単語の候補とする。
図12は、実施の形態6によるクエリ解析部210の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部210は部分一致検出部24を備えている。また、音声データ検索装置のクエリ解析部210以外の構成は実施の形態1と同様である。
なお、既知語インデックス作成部5、未知語インデックス作成部6、類似度算出部7の動作は実施の形態1〜実施の形態5と同様である。
実施の形態7では、質問テキストの文字列全体を検索単語候補に加える。
図13は、実施の形態7によるクエリ解析部211の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部211は全体単語化部25を備えている。また、音声データ検索装置のクエリ解析部211以外の構成は実施の形態1と同様である。
このように、質問テキスト全体を1つの検索単語として、ベクトルの1次元を構成する成分にするようにしたので、検索対象の音声データファイルの中に、質問テキストと完全に一致する文字系列を含む音声データファイルの類似度をより高くすることができる。
実施の形態8では、質問テキスト中の文字列を単位単語に分割し、それらの単位単語の組み合わせにより複合語を生成して検索単語の候補とする。
図14は、実施の形態8によるクエリ解析部212の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部212は単位単語分割部261、複合語化部262を備えている。また、音声データ検索装置のクエリ解析部212以外の構成は実施の形態1と同様である。
単位単語分割部261は質問テキスト1を参照し、質問テキストを形態素解析し、形態素解析結果に複合語(例えば、単語「日米包括経済協議」)が含まれていれば、その複合語をさらに単位単語に分割し(例えば、単語「日米」、「包括」、「経済」、「協議」)、こうして得られる単位単語を検索単語候補22に加えるとともに、複合語化部262に出力する。複合語化部262は、単位単語分割部261から単位単語を入力し、単位単語を組み合わせることにより、複合語(例えば、「日米包括協議」、「日米経済協議」、「包括協議」、「経済協議」など)を生成し、生成された複合語を検索単語候補22に加える。
実施の形態9では、検索対象音声データに固有の固有事項単語辞書を設け、質問テキストから、固有事項単語辞書に含まれる単語を抽出して検索単語候補とする。
図15は、実施の形態9によるクエリ解析部213の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、クエリ解析部213は部分一致検出部241(固有単語検出部)を備えている。また、実施の形態9による音声データ検索装置は、固有事項単語辞書記憶部31を備えている。音声データ検索装置のその他の構成は実施の形態1と同様である。
部分一致検出部24は質問テキスト1の入力を受けると、固有事項単語辞書記憶部31を参照し、固有事項単語辞書記憶部31の各単語k(k=1,2、…、K、Kは固有事項単語辞書記憶部31に登録されている単語数)について、単語kの文字列が質問テキスト1中の部分文字列と完全に一致する場合、単語kを検索単語候補22とする。これにより、通常の形態素解析では1単語として抽出することが困難な検索対象音声データに固有の単語を質問テキスト1から抽出することができる。例えば、質問テキスト1に「会計帳簿」という文字列が含まれていた場合、通常の形態素解析では「会計」と「帳簿」という2単語に分割されることが多い。しかし、固有事項単語辞書記憶部31に、「会計帳簿」という単語が含まれていれば、検索単語候補22に加えることができる。これにより、単語「会計帳簿」を質問ベクトルおよび対象ベクトルの1次元に加えることができるので、単語「会計帳簿」を発話として含む音声データファイルの類似度が、単語「会計」と単語「帳簿」を発話として含む音声データファイルの類似度よりも高くなり、優先的に検索することができる。
実施の形態10では、読みが同一の単語を同音語としてまとめ、同音語の単位で単語の照合を行う。
図16は、実施の形態10による音声データ検索装置101の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、音声データ検索装置101の既知語インデックス作成部510は同音語変換部511、同音語照合部512を備え、未知語インデックス作成部610は同音語変換部611、同音語照合部612を備え、類似度算出部713は同音語変換部(質問ベクトル変換部)711を備える。また、音声データ検索装置101は既知同音語インデックス記憶部591および未知同音語インデックス記憶部691を備える。
まず、既知語インデックス作成部510の処理について説明する。同音語変換部511は、単語辞書記憶部3に登録されている単語のなかから、音韻符号列が同一の単語を同音語とする同音語リストを作成する。図17に同音語リストの作成例を示す。単語辞書記憶部3に登録された単語数をVとし、同音語リストに記載された同音語の数をV’とすると、V’≦Vなる関係がある。
同音語変換部511は、単語iと同音語i’の写像を表すV’行V列の行列Fを生成する。行列Fの第i’行第i列の成分は1であり、それ以外の成分は0である。
同音語照合部512は、同音語リストに登録されている同音語のHMM(隠れマルコフモデル)を生成し、この生成された各同音語のHMMと、フォワードバックワードアルゴリズムを用いて、音声データファイルの各音声区間との照合を行い、既知同音語インデックス記憶部591を作成する。既知同音語インデックス記憶部591には、同音語リストに登録されている各同音語について、対象音声データ記憶部4中の各ファイル中の照合位置(ファイルの先頭からの時刻)、および、当該同音語の照合尤度が登録される。図18に既知同音語インデックスの例を示す。ここでは、図4に示した既知後インデックスの例と同様のファイルについての既知同音語インデックスを示している。
同音語変換部611は、単語jと同音語j’の写像を表すU’行U列の行列Gを生成する。行列Gの第j’行第j列の成分は1であり、それ以外の成分は0である。
同音語照合部612は、同音語変換部611が作成した同音語リストの各同音語について、音韻符号列からHMM(隠れマルコフモデル)を生成し、生成された各同音語のHMMと、フォワードバックワードアルゴリズムを用いて、音声データファイルの各音声区間との照合を行い、未知同音語インデックス記憶部691を作成する。未知同音語インデックス記憶部691には、同音語リストに登録されている各同音語について、対象音声データ記憶部4中の各ファイル中の照合位置(ファイルの先頭からの時刻)、および、当該同音語の照合尤度が登録される。図19に未知同音語インデックスの例を示す。ここでは、図5に示した既知後インデックスの例と同様のファイルについての既知同音語インデックスを示している。
実施の形態11では、未知語インデックスを作成する際に、未知検索単語または同音語単位のHMM照合を行わず、未知検索単語の符号列単位でのHMM照合を行う。
図20は、実施の形態11による未知語インデックス作成部620の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、未知語インデックス作成部620は音韻系列認識部62、音韻符号系列記憶部63、符号列照合部64を備えている。音声データ検索装置のその他の構成は実施の形態1と同様である。
まず、音韻系列認識部62は、対象音声データ記憶部4の内容が更新されたときなど、検索処理の事前(質問テキスト1が入力される前)に次の処理を行う。
音声データファイルについて、各音声区間の始端から前向きに音素環境依存型の音素HMMを連結しながら、ビタビアルゴリズムを用いて音声区間の各フレームと連結された音素HMMとの照合を行う。音声区間の終端に到達したら、最適な照合経路を後向きに探索して、最尤音素モデル系列を見出し、最尤音素モデル系列の音素名に基づいて入力音声区間を音韻符号系列に変換する。このようにして得られた各音声区間の音韻符号系列は、音韻符号系列記憶部63に音声データファイル毎に記憶される。
実施の形態12では、未知語インデックス作成部において、未知検索単語の照合結果を一時保存しておき、過去の検索と同じ未知検索単語が質問テキスト中に含まれている場合に、一時保存した照合結果を再利用して、照合処理を省略する。
図21は、実施の形態11による未知語インデックス作成部630の構成を示すブロック図である。図1と同一の符号は同一の構成要素を表している。図に示すように、未知語インデックス作成部630は照合結果一時記憶部65、保存結果再利用部66を備えている。音声データ検索装置のその他の構成は実施の形態1と同様である。
保存結果再利用部66は、未知検索単語29に登録された検索単語j(1≦j≦U)、対象音声データ記憶部4に格納された音声データファイルn(1≦n≦N)について、照合結果一時記憶部65を参照し、検索単語jの照合結果が照合結果一時記憶部65に記憶されていない場合には、単語照合部61に検索単語jを出力し、照合処理を依頼する。また、検索単語jの照合結果が照合結果一時記憶部65に記憶されている場合には、記憶された照合結果を取得し、未知語インデックス記憶部69に登録する。
保存結果再利用部66は、照合結果一時記憶部65に、検索単語jについてのファイルnの照合結果が登録されると、登録された照合結果を、未知語インデックス記憶部69に登録する。
実施の形態1〜実施の形態12による音声データ検索装置のユーザインタフェースの例について説明する。
図22は、音声データ検索装置の入出力画面の例を示す図である。
画面上、Aで示される領域において、ユーザが登録用ボタン2201を用いて音声データファイルを選択すると、選択されたファイルが対象音声データ記憶部4に登録される。登録されたファイルは、リストボックス2202に表示される。図中では、例えばf1n2159c.wavという名前の177万5004バイトのファイルなどが登録されている。
検索処理を行う際には、ユーザがBで示される領域において、コンボボックス2203に質問テキスト1を入力する。図中では、「日米包括協議」と入力されている。
ユーザがボタン2204を選択すると検索処理が開始する。
また、検索結果提示部9は、Dで示される領域に、類似度が最大のファイル(ここではファイル名がf4n2063c.wavのファイル)の書起しテキストを表示する。
また、テキストファイル上で質問テキスト1に含まれる文字列と一致する部分を強調表示するようにしてもよい。
Claims (14)
- 入力されたクエリから検索対象となり得る単語を抽出し、単語辞書に登録された単語である既知検索単語と、単語辞書に未登録の単語である未知検索単語に分類するクエリ解析部と、
検索対象の音声ファイル上での、上記単語辞書に登録された単語の照合位置と照合尤度を保有する既知語インデックスを作成する既知語インデックス作成部と、
上記音声ファイル上での、上記未知検索単語の照合位置と照合尤度を保有する未知語インデックスを作成する未知語インデックス作成部と、
上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記クエリ中での各次元に対応する単語の有無を示す値である質問ベクトルを、上記既知検索単語と上記未知検索単語を参照して生成する質問ベクトル生成部と、
上記単語辞書に登録された単語と上記未知検索単語を次元とし、各次元の成分が、上記音声ファイル上での各次元に対応する単語の最大の照合尤度である対象ベクトルを、上記既知語インデックスと上記未知語インデックスを参照して生成する対象ベクトル生成部と、
上記質問ベクトルと上記対象ベクトルのベクトル間の類似度を算出するベクトル類似度計算部と、
上記類似度の大きさに基づいて検索結果を出力する検索結果提示部を備えた音声データ検索装置。 - 上記ベクトル類似度計算部が算出する類似度は、
上記対象ベクトル中、上記クエリに含まれる単語に対応する次元の成分の、p乗ノルムのベクトル空間における平均値に比例する値であることを特徴とする請求項1記載の音声データ検索装置。 - 上記既知語インデックスと上記未知語インデックスに登録された単語の照合尤度を、当該単語の音韻系列長に基づいて補正する照合尤度補正部を備え、
上記対象ベクトル生成部は、補正された照合尤度を成分とする対象ベクトルを生成することを特徴とする請求項1または請求項2記載の音声データ検索装置。 - 上記対象ベクトルに対し、上記音声ファイル上の音声区間番号を指定する音声区間走査部を備え、
上記対象ベクトル生成部は、指定された音声区間毎に、当該音声区間での各次元に対応する単語の最大の照合尤度を成分とする対象ベクトルを生成し、
上記ベクトル類似度計算部は、上記音声ファイルの音声区間毎の類似度を算出し、
各音声区間の類似度のうちの最大値を当該音声ファイルの類似度として選択する最大値選択部を備えたことを特徴とする請求項1から請求項3のうちのいずれか1項記載の音声データ検索装置。 - 上記質問ベクトルの各次元に対応する単語と共起する単語を登録した共起単語辞書を参照し、上記クエリに含まれる単語と共起する単語については、質問ベクトル上の対応する次元の成分を単語有を示す値とする共起単語補充処理部を備え、
上記ベクトル類似度計算部は、共起単語補充処理後の質問ベクトルを用いて類似度の算出を行うことを特徴とする請求項1から請求項4のうちのいずれか1項記載の音声データ検索装置。 - 上記クエリ解析部は、
上記単語辞書に登録された単語の文字列と、上記クエリに含まれる任意の部分文字列との照合を行い、上記単語と上記部分文字列が一致する場合には、検索対象となり得る単語として抽出する部分一致検出部を備えたことを特徴とする請求項1から請求項5のうちのいずれか1項記載の音声データ検索装置。 - 上記クエリ解析部は、
上記クエリ全体を検索対象となり得る単語として抽出する全体単語化部を備えたことを特徴とする請求項1から請求項6のうちのいずれか1項記載の音声データ検索装置。 - 上記クエリ解析部は、
上記クエリを単位単語に分割する単位単語分割部と、
上記単位単語を組み合わせて複合語を生成し、検索対象となり得る単語として出力する複合語化部を備えたことを特徴とする請求項1から請求項7のうちのいずれか1項記載の音声データ検索装置。 - 上記クエリ解析部は、
上記音声ファイルに固有の単語を登録した固有事項単語辞書を参照し、上記固有の単語と上記クエリに含まれる任意の部分文字列との照合を行い、上記固有の単語と上記部分文字列が一致する場合には、検索対象となり得る単語として抽出する固有単語検出部を備えたことを特徴とする請求項1から請求項8のうちのいずれか1項記載の音声データ検索装置。 - 上記既知語インデックス作成部は、
上記単語辞書に登録された単語と音韻符号列が同一の単語を同音語とし、同音語リストを作成する同音語変換部と、
上記同音語リストに登録されている同音語の上記音声ファイル上での照合位置と照合尤度を登録した既知同音語インデックスを作成する同音語照合部を備え、
上記質問ベクトルの各次元の成分を、上記クエリ中での上記同音語の有無を示す値に変換する質問ベクトル変換部を備え、
上記対象ベクトル生成部は、
上記既知同音語インデックスと上記未知語インデックスを参照して対象ベクトルを生成し、
上記類似度計算部は、
上記対象ベクトルと上記質問ベクトル変換部によって変換された質問ベクトルのベクトル間の類似度を算出することを特徴とする請求項1から請求項9のうちのいずれか1項記載の音声データ検索装置。 - 上記未知語インデックス作成部は、
上記未知検索単語と音韻符号列が同一の単語を同音語とし、同音語リストを作成する同音語変換部と、
上記同音語リストに登録されている同音語の上記音声ファイル上での照合位置と照合尤度を登録した未知同音語インデックスを作成する同音語照合部を備え、
上記質問ベクトルの各次元の成分を、上記クエリ中での上記同音語の有無を示す値に変換する質問ベクトル変換部を備え、
上記対象ベクトル生成部は、
上記既知語インデックスと上記未知同音語インデックスを参照して対象ベクトルを生成し、
上記類似度計算部は、
上記対象ベクトルと上記質問ベクトル変換部によって変換された質問ベクトルのベクトル間の類似度を算出することを特徴とする請求項1から請求項9のうちのいずれか1項記載の音声データ検索装置。 - 上記未知語インデックス作成部は、
上記音声ファイルが更新された際に、当該音声ファイルを音韻符号列に変換する音韻系列認識部と、
上記未知検索単語と、上記音韻系列認識部によって音韻符号列に変換された音声ファイルの符号列間照合を行い、未知語インデックスを作成する符号列照合部を備えたことを特徴とする請求項1から請求項11のうちのいずれか1項記載の音声データ検索装置。 - 上記未知語インデックス作成部は、
上記音声ファイルと上記未知検索単語の照合結果を保存する照合結果一時記憶部と、
上記照合結果一時記憶部に照合結果が保存されている単語については、保存されている照合結果を利用して未知語インデックスを作成する保存結果再利用部を備えたことを特徴とする請求項1から請求項12のうちのいずれか1項記載の音声データ検索装置。 - 上記検索結果提示部は、
検索結果として、検索対象の音声ファイルの発話内容のクエリを表示することを特徴とする請求項1から請求項12のうちのいずれか1項記載の音声データ検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004222121A JP4511274B2 (ja) | 2004-07-29 | 2004-07-29 | 音声データ検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004222121A JP4511274B2 (ja) | 2004-07-29 | 2004-07-29 | 音声データ検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006040150A true JP2006040150A (ja) | 2006-02-09 |
JP4511274B2 JP4511274B2 (ja) | 2010-07-28 |
Family
ID=35905040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004222121A Expired - Fee Related JP4511274B2 (ja) | 2004-07-29 | 2004-07-29 | 音声データ検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4511274B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006243673A (ja) * | 2005-03-07 | 2006-09-14 | Canon Inc | データ検索装置および方法 |
JP2009295101A (ja) * | 2008-06-09 | 2009-12-17 | Hitachi Ltd | 音声データ検索システム |
JP2011175046A (ja) * | 2010-02-23 | 2011-09-08 | Toyohashi Univ Of Technology | 音声検索装置および音声検索方法 |
JP2017016131A (ja) * | 2015-06-30 | 2017-01-19 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識装置及び方法と電子装置 |
CN118520124A (zh) * | 2024-04-02 | 2024-08-20 | 椽檩科技(深圳)有限公司 | 基于文本向量的数据查询方法、装置、设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08234786A (ja) * | 1995-02-24 | 1996-09-13 | Nec Corp | 検索装置および音声合成装置 |
JPH0922417A (ja) * | 1995-07-07 | 1997-01-21 | Hitachi Ltd | 文書検索システムおよび文書検索表示システム |
JPH09319766A (ja) * | 1996-05-29 | 1997-12-12 | Matsushita Electric Ind Co Ltd | 文書検索システム |
JPH11224264A (ja) * | 1998-02-09 | 1999-08-17 | Fuji Xerox Co Ltd | 文書検索装置および記録媒体 |
JPH11338873A (ja) * | 1998-05-26 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体 |
JP2000020551A (ja) * | 1998-06-30 | 2000-01-21 | Brother Ind Ltd | 音声データ検索装置および記憶媒体 |
JP2000259645A (ja) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | 音声処理装置及び音声データ検索装置 |
JP2001092494A (ja) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
JP2002099566A (ja) * | 2000-09-26 | 2002-04-05 | Toshiba Corp | 情報検索方法および情報検索装置 |
JP2002278579A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 音声データ検索装置 |
JP2003067388A (ja) * | 2001-08-24 | 2003-03-07 | Japan Science & Technology Corp | 音声データ検索システム |
JP2003271629A (ja) * | 2002-03-18 | 2003-09-26 | National Institute Of Advanced Industrial & Technology | 音声入力によるテキスト検索方法およびその装置 |
JP2004177551A (ja) * | 2002-11-26 | 2004-06-24 | Matsushita Electric Ind Co Ltd | 音声認識用未知発話検出装置及び音声認識装置 |
-
2004
- 2004-07-29 JP JP2004222121A patent/JP4511274B2/ja not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08234786A (ja) * | 1995-02-24 | 1996-09-13 | Nec Corp | 検索装置および音声合成装置 |
JPH0922417A (ja) * | 1995-07-07 | 1997-01-21 | Hitachi Ltd | 文書検索システムおよび文書検索表示システム |
JPH09319766A (ja) * | 1996-05-29 | 1997-12-12 | Matsushita Electric Ind Co Ltd | 文書検索システム |
JPH11224264A (ja) * | 1998-02-09 | 1999-08-17 | Fuji Xerox Co Ltd | 文書検索装置および記録媒体 |
JPH11338873A (ja) * | 1998-05-26 | 1999-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体 |
JP2000020551A (ja) * | 1998-06-30 | 2000-01-21 | Brother Ind Ltd | 音声データ検索装置および記憶媒体 |
JP2000259645A (ja) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | 音声処理装置及び音声データ検索装置 |
JP2001092494A (ja) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
JP2002099566A (ja) * | 2000-09-26 | 2002-04-05 | Toshiba Corp | 情報検索方法および情報検索装置 |
JP2002278579A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 音声データ検索装置 |
JP2003067388A (ja) * | 2001-08-24 | 2003-03-07 | Japan Science & Technology Corp | 音声データ検索システム |
JP2003271629A (ja) * | 2002-03-18 | 2003-09-26 | National Institute Of Advanced Industrial & Technology | 音声入力によるテキスト検索方法およびその装置 |
JP2004177551A (ja) * | 2002-11-26 | 2004-06-24 | Matsushita Electric Ind Co Ltd | 音声認識用未知発話検出装置及び音声認識装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006243673A (ja) * | 2005-03-07 | 2006-09-14 | Canon Inc | データ検索装置および方法 |
JP2009295101A (ja) * | 2008-06-09 | 2009-12-17 | Hitachi Ltd | 音声データ検索システム |
JP2011175046A (ja) * | 2010-02-23 | 2011-09-08 | Toyohashi Univ Of Technology | 音声検索装置および音声検索方法 |
JP2017016131A (ja) * | 2015-06-30 | 2017-01-19 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識装置及び方法と電子装置 |
CN118520124A (zh) * | 2024-04-02 | 2024-08-20 | 椽檩科技(深圳)有限公司 | 基于文本向量的数据查询方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4511274B2 (ja) | 2010-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
US7542966B2 (en) | Method and system for retrieving documents with spoken queries | |
US8200490B2 (en) | Method and apparatus for searching multimedia data using speech recognition in mobile device | |
US11721329B2 (en) | Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus | |
KR101309042B1 (ko) | 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법 | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
JP5167546B2 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
US20140195238A1 (en) | Method and apparatus of confidence measure calculation | |
EP1693828A1 (en) | Multilingual speech recognition | |
JP2004005600A (ja) | データベースに格納された文書をインデックス付け及び検索する方法及びシステム | |
JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
JPWO2012073275A1 (ja) | 音声認識装置及びナビゲーション装置 | |
US20150348543A1 (en) | Speech Recognition of Partial Proper Names by Natural Language Processing | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
US20220310067A1 (en) | Lookup-Table Recurrent Language Model | |
Hanani et al. | Spoken Arabic dialect recognition using X-vectors | |
Lounnas et al. | Enhancement of spoken digits recognition for under-resourced languages: case of Algerian and Moroccan dialects | |
Suzuki et al. | Music information retrieval from a singing voice using lyrics and melody information | |
Zweig et al. | SCARF: a segmental conditional random field toolkit for speech recognition. | |
JP4511274B2 (ja) | 音声データ検索装置 | |
JP5436307B2 (ja) | 類似文書検索装置 | |
JP4738847B2 (ja) | データ検索装置および方法 | |
JP4084515B2 (ja) | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
JP2965529B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070510 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071012 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100427 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100506 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140514 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |