JP2009295101A

JP2009295101A - 音声データ検索システム

Info

Publication number: JP2009295101A
Application number: JP2008150694A
Authority: JP
Inventors: Hirohiko Sagawa; 浩彦佐川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-06-09
Filing date: 2008-06-09
Publication date: 2009-12-17
Anticipated expiration: 2028-06-09
Also published as: JP5189413B2

Abstract

【課題】検索対象とするキーワードを音声データから検索する際に，音声データから記号列への変換精度が低い場合においても，検索対象のキーワードを精度良く検索する。
【解決手段】インターネット上等に存在する大量のテキスト文書から，検索対象のキーワードとなり得る単語間の共起情報を抽出しておく。検索キーワードが入力された場合，共起情報から検索対象のキーワードに対応する共起キーワードを取得し，共起キーワードそれぞれについて，音声データからの検索処理を実行する。また，検索キーワードについても同様に検索処理を実行し，それらの検索結果と共起情報とのマッチング結果に基づいて検索キーワードの評価値を求め，検索キーワードの検索結果の順位付けを行う。
【選択図】図１

Description

本発明は，音声データ中から，ユーザが指定したキーワードが発話されている箇所を検索し，検索結果をユーザに提示する音声データ検索システムに関し，キーワードが発話されている音声データ中の箇所を高精度に検索する技術に関する。

音声データ中からユーザが指定したキーワードが発話されている箇所を検索する技術としては，特許文献１，２が提案されている。また，特許文献３，４では，テキスト文書の検索データにおいて，キーワード間の関係に基づいた検索に関する技術が提案されている。

特許文献１では，音声データ及びキーワードをサブ音素系列に変換した後，動的計画法によるワードスポッティング技術により，キーワードから変換したサブ音素系列を音声データから変換したサブ音素系列中から探索する。特許文献２では，音素の出現頻度の統計により決定される展開ルールに基づいて，キーワードから生成された音素列・音節列中の音素を置換した新たな音素列・音節列を生成し，それらと検索対象の音素列・音節列を照合することにより検索を行う。特許文献３では，検索式として与えられたキーワードに対する絞り候補のキーワードを共起データベースより検索し，得られたキーワードを最初の検索式に追加して再検索を行うことにより，検索候補の絞込みを行う。また，特許文献４では，ユーザにとって検索目的がわかりやすい検索式を生成するため，キーワード間の共起度に基づいて得られたキーワードにより検索式を補うと共に，冗長性を除去することにより，検索式を生成する。

特開２００２−２２１９８４号公報特開２００５−２５７９５４号公報特開２００３−２２２７５号公報特開２００２−１８３１９４号公報

上記の音声データの検索に関する従来技術では，音声データからサブ音素列等の記号列への変換精度が，検索性能に大きく影響する。音声データから記号列に変換を行う際，検索対象のキーワードが存在する箇所の変換結果が，本来のキーワードとは全く異なる記号列となる場合がある。特許文献１では，キーワードから得られた記号列と音声データから得られた記号列の一致・不一致により，目的とするキーワードの検索を行うため，上記のような状況においては，十分な検索精度を得ることができない。また特許文献２では，音声データから記号列に変換を行う際の誤りの傾向をあらかじめ調査し，それに基づいて，検索対象となるキーワードの記号列を補正した後，検索を行うことにより，上記の問題を解消しようとしている。しかしながら，より多くの誤りのパターンを考慮すると，不必要な検索結果が増加することになり，結果として検索精度の低下を招く。

一方，特許文献３及び特許文献４は，テキスト文書を対象とした検索技術であるが，文書中に出現するキーワード間の共起関係に基づいて，検索式を補足し，補足した検索式を用いて検索を行うことにより，検索精度を向上させることが可能である。特許文献２に特許文献３あるいは特許文献４の技術を導入することにより，不必要な検索結果の増加をある程度抑えることは可能であると考えられる。

しかし，検索式に絞込みのためのキーワードを含めて検索を行う場合，検索対象となるキーワードが正しく検出されていることが前提としてある。そのため，音声データから得られた記号列が本来のキーワードに対する記号列とは大きくかけ離れている場合は，共起するキーワードが検出されていても，検索対象の検索結果の評価値は低いため，その検索結果における順位は低く抑えられることになる。また，上記の従来技術では，検索対象のキーワードは，必ず検出されていなければ結果として出力されないため，キーワード部分から得られた記号列は正しくないが，周囲に現れる共起するキーワードの条件は十分であるというような場合は，従来技術では検索を行うことができないという問題がある。

本発明の目的は，検索対象とするキーワードを音声データから検索する際に，音声データから記号列への変換精度が低い場合においても，検索対象のキーワードを精度良く検索することが可能な技術を提供することにある。

以上の問題を解決し，ユーザが指定したキーワードが発話されている音声データ中の箇所を高精度に検索するため，本発明では，まず，インターネット上等に存在する大量のテキスト文書を自然言語処理技術を利用して単語に分割し，検索対象であるキーワードとなり得る単語間の共起関係を抽出しておく。検索対象のキーワードとなり得る単語としては，名詞や動詞，形容詞等の自立語を選択する。また，共起関係としては，対象となるキーワードから前方，後方それぞれにあらかじめ決められた個数の共起キーワードの出現パターン，及びそれぞれの位置におけるキーワードの種類ごとの出現頻度を集計し，それらの情報を対象となるキーワード毎に共起情報として格納する。

次に，ユーザから検索対象となるキーワードが入力された場合，上記の共起情報から検索対象のキーワードに対応する共起キーワードを取得し，共起キーワードそれぞれについて，音声データからの検索処理を実行する。また，検索対象のキーワードについても同様に検索処理を実行する。さらに，それらの検索結果を統合し，検索対象のキーワードの検索結果とその周辺に検出された共起キーワードの検索結果の組み合わせによるキーワード列を生成する。生成されたキーワード列と検索対象のキーワードに対応する共起情報とのマッチング結果に基づいて検索対象のキーワードの評価値を求める。求めた評価値により検索対象のキーワードの検索結果の順位付けを行い，最終的な検索結果として出力する。

また，検索対象のキーワードについての検索処理を行わず，共起キーワードの検索結果と検索対象のキーワードに対応する共起情報から，検索対象のキーワードの位置候補を決定し，それぞれの位置候補について記号列のマッチング等を行うことにより，検索対象のキーワードの検索結果を求める。

検索対象のキーワードだけでなく，その周囲に出現する可能性が高い共起キーワードの出現パターンに基づいて評価値を計算することにより，対象とするキーワードの箇所から得られる記号列の信頼度が低い場合でも，検索結果の上位に結果を出力することができるようになり，検索精度を向上することが可能となる。また，共起キーワードの検索結果に基づいて検索対象のキーワードの位置候補を求めることにより，検索対象が発話されているが記号列への変換が正しく行われないため従来の検索技術では検索結果に現れることがない候補も，検索結果として出力することが可能となる。

以下，図面を参照して本発明の実施の形態を説明する。

本発明の第一の実施例を図１から図１０により説明する。

図１は，本発明の第一の実施例による音声データ検索システムの構成を示す概念ブロック図である。図１において，テキスト文書１０１は，検索キーワードとなる可能性がある単語間の共起情報を抽出するための元データである。単語分割部１０２は，テキスト文書中の各文を単語に分割するための処理部であり，自然言語処理や機械翻訳の分野でよく知られている形態素解析技術，例えば，「岩波講座ソフトウェア科学（１５）自然言語処理，岩波書店，１９９６年」にある技術を用いることができる。共起情報算出部１０３は，単語分割部１０２で単語に分割された文からキーワードになる可能性がある単語のみに着目し，単語間の共起情報を求める処理を行う。共起情報算出部１０３で求められた共起情報は，キーワード毎に，共起キーワード頻度情報１０４に格納される。

検索キーワード１０５はユーザによって入力される。音声データ１０６は，検索キーワード１０５を検索する対象となるデータであり，検索処理では音声データ１０６中において検索キーワード１０５が発話されている箇所を検索することになる。共起キーワード選択部１０７は，検索キーワード１０５に関する共起情報を共起キーワード頻度情報１０４から呼び出し，検索キーワード１０５と共起する可能性が高い共起キーワードを選択する。共起キーワード検索部１０８は，共起キーワード選択部１０７で選択された全ての共起キーワードについて検索処理を行い，音声データ１０６中で発話されている箇所を検索する。また，検索キーワード検索部１０９は，検索キーワード１０５が発話されている箇所を音声データ１０６から検索する。共起キーワード検索部１０８及び検索キーワード検索部１０９で使用する技術としては，例えば，特開２００２−２２１９８４号公報にある技術を利用することができる。共起キーワード検索部１０８及び検索キーワード検索部１０９で使用する技術としては，キーワードを音声データ中から検索するための技術であれば，どのような技術でも使用することができる。また，共起キーワード検索部１０８及び検索キーワード検索部１０９で使用する検索技術は，同じものを使用しても良いし，それぞれ異なる技術を利用することもできる。また，検索結果としては，目的とするキーワードとその音声データ中における時間(位置)に関する情報が合わせて出力されることを想定しているが，前記の技術等を用いることにより，容易に実現することができる。評価値計算部１１０は，検索キーワード及び共起キーワードの検索結果，及び検索キーワードに関連する共起情報を用いて，検索キーワードの検索結果に対する評価値を求め，検索結果に順位付けを行い，検索結果１１１として出力する。

図２は，本発明による音声データ検索システムを一般的に使用される計算機上で実現した場合の構成図である。情報処理装置２０１は，音声データの検索に必要な各種のプログラムを実行する。入力装置２０２は，図１における検索キーワード１０５を入力するためのものであり，キーワードが文字列の場合はキーボード，音声の場合はマイクを用いることができる。表示装置２０３は，検索結果１１１を出力するための装置であり，モニタやスピーカを使用することができる。記憶装置２０４は，音声データ検索に必要な各種のプログラムや処理の途中経過に関する情報を格納する。単語分割プログラム２０５は図１における単語分割部１０２に対応する処理を行うためのプログラム，共起情報算出プログラム２０６は共起情報算出部１０３に対応する処理を行うためのプログラム，共起キーワード選択プログラム２０７は共起キーワード選択部１０７に対応する処理を行うためのプログラム，共起キーワード検索プログラム２０８は共起キーワード検索部１０８に対応する処理を行うためのプログラム，検索キーワード検索プログラム２０９は検索キーワード検索部１０９に対応する処理を行うためのプログラム，評価値計算プログラム２１０は評価値計算部１１０に対応する処理を行うためのプログラムである。さらに，テキスト文書２１１，共起キーワード頻度情報２１２及び音声データ２１３はそれぞれ，図１における１０１，１０４，１０６に対応する。

図３のフローチャートを用いて，共起情報算出部１０３の処理について説明する。共起情報算出部１０３ではまず，ステップ３０１において，単語分割部１０２で単語に分割されたテキスト文書から，ユーザが検索キーワードとして入力する可能性が高い単語として，名詞，動詞，形容詞等の自立語を抽出する。よく知られた形態素解析技術では，分割された個々の形態素あるいは単語と共に，その品詞を出力することができるため，自立語の抽出は，単語分割部１０２から出力される結果から容易に行うことができる。ステップ３０２では，個々の自立語について，その前後にある他の自立語を共起キーワードとしてあらかじめ決められた個数選択し，各自立語と共起キーワードからなる組み合わせを生成する。

例えば，自立語をＡ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇで表し，得られた自立語の列が
ＡＢＣＤＥＦ
であった場合，前方２個，後方２個の共起キーワードを選択した場合，自立語と共起キーワードの組み合わせは，
Ａ前：() 後：(Ｂ，Ｃ)
Ｂ前：(Ａ) 後：(Ｃ，Ｄ)
Ｃ前：(Ａ，Ｂ) 後：(Ｄ，Ｅ)
Ｄ前：(Ｂ，Ｃ) 後：(Ｅ，Ｆ)
Ｅ前：(Ｃ，Ｄ) 後：(Ｆ)
Ｆ前：(Ｄ，Ｅ) 後：()
となる。

上記において，「前：」の後に記載されている共起キーワードは注目している自立語の前方にある２つの共起キーワード，「後：」の後に記載されている共起キーワードは注目している自立語の後方にある２つの共起キーワードを示している。()内が空白である場合は，共起キーワードが存在しないことを示している。また，上記の組み合わせにおいては，共起キーワードの順序も保存することとしている。ステップ３０２では，テキスト文書１０１から抽出した全ての自立語について，上記のような自立語と共起キーワードの組み合わせを生成する。

ステップ３０３では，ステップ３０２で生成した組み合わせの内，同じ自立語に関する組み合わせを集め，共起情報として共起キーワードの頻度分布を計算する。例えば，自立語Ａに関する組み合わせが，
Ａ前：(Ｂ，Ｃ) 後：(Ｄ，Ｅ)
Ａ前：(Ｃ，Ｆ) 後：(Ｅ，Ｇ)
Ａ前：(Ｂ，Ｆ) 後：(Ｈ，Ｇ)
であった場合，同じ位置に出現している共起キーワードに関して，頻度分布を求める。例えば，Ａの前方２つ先に出現している共起キーワードは，上記の組み合わせよりＢ，Ｃ及びＢであるため，Ｂ＝２，Ｃ＝１という頻度分布となる。同様に，各位置における頻度分布を求めると，
Ａ前：((Ｂ[2]，Ｃ[1])，(Ｃ[1]，Ｆ[2]))
後：((Ｄ[1]，Ｅ[1])，Ｈ[1])，(Ｅ[1]，Ｇ[2]))
という分布が得られる。上記において，[]内に示されている数値が各共起キーワードの頻度を表している。上記の例では，頻度情報として，単純に出現回数を集計した値を用いていたが，最も値の大きい頻度で正規化を行う方法や，テキスト文書中における出現確率で補正を行う方法等，一般的に使用される頻度情報の算出手法を用いることもできる。

以上により求められた自立語毎の共起情報は，共起キーワード頻度情報１０４に格納される。この際，得られた全ての共起キーワードを格納するようにしても良いし，あるいは，頻度があらかじめ決められた値より大きい共起キーワードのみを格納するようにしても良い。

図４から図６を用いて，共起キーワード頻度情報１０４に格納される，共起情報について説明する。図４に，共起情報のフォーマットを示す。図４において，４０１は着目するキーワードの名称であり，共起情報を求める際に着目した自立語の名称である。４０２は，キーワード４０１から前方何個までの共起キーワードに関する情報が格納されているかを示す値であり，上記の例のように，前方２個の共起キーワードに着目して頻度情報を求めている場合は「２」が記述されることになる。４０３は，キーワード４０１から見て前方一番目，すなわちキーワード４０１の直前に存在した共起キーワードの種類数を表す数値であり，４０４及び４０６は，キーワード４０１から見て前方一番目に存在した共起キーワードの名称を表す。また，４０５及び４０７は，キーワード４０１から見て前方一番目に存在した共起キーワードの頻度を表す数値である。４０８は，キーワード４０１から見て前方二番目に存在した共起キーワードの種類数を表す数値であり，その後に，前方二番目に存在した共起キーワードの名称や頻度が記述される。４０９は，キーワード４０１から後方何個までの共起キーワードに関する情報が格納されているかを示す値であり，上記の例のように，後方２個の共起キーワードに着目して頻度情報を求めている場合は「２」が記述されることになる。４１０は，キーワード４０１から見て後方一番目，すなわちキーワード４０１の直後に存在した共起キーワードの種類数を表す数値であり，４１１及び４１３は，キーワード４０１から見て後方一番目に存在した共起キーワードの名称を表す。また，４１２及び４１４は，キーワード４０１から見て後方一番目に存在した共起キーワードの頻度を表す数値である。４１５は，キーワード４０１から見て後方二番目に存在した共起キーワードの種類数を表す数値であり，その後に，後方二番目に存在した共起キーワードの名称や頻度が記述される。

図５に共起情報の具体例を示す。図５における共起情報はキーワード「Ｋ」(図５の５０１)に関する情報を表している。共起キーワードとしては，前方２個(図５の５０２)，後方１個 (図５の５１１)に着目した情報が記載されていることを示している。直前の共起キーワードには「Ｃ１」(図５の５０４)及び「Ｃ２」(図５の５０６)の２種類(図５の５０３)があり，それぞれの頻度は「６」(図５の５０５)及び「４」(図５の５０７)となっている。前方２番目の共起キーワードは１種類(図５の５０８)であり，名称は「Ｃ３」(図５の５０９)，頻度は「５」(図５の５１０)である。また，直後の共起キーワードには３種類(図５の５１２)あり，名称は「Ｃ４」(図５の５１３)，「Ｃ５」(図５の５１５)及び「Ｃ６」(図５の５１７)，頻度はそれぞれ，「７」(図５の５１４)，「４」(図５の５１６)及び「６」(図５の５１８)となっている。

図６は，図５に示した共起情報をイメージ化した図である。図６において，横方向が時間軸であるとみなし，キーワード「Ｋ」(図６の６０１)を中心に，共起キーワードの情報が記載されている。６０２はキーワードの前方一番目，すなわち直前に存在した共起キーワードの情報であり，図５における５０３から５０７に記載されている情報に相当する。６０３はキーワードの前方二番目に存在した共起キーワードの情報であり，図５における５０８から５１０に，また，６０４はキーワードの後方一番目に存在した共起キーワードの情報であり，図５における５１２から５１８に記載されている情報に相当する。また，図６において，各共起キーワードの頻度は()内に記載している。

次に図７のフローチャートを用いて，共起キーワード選択部１０７の処理について説明する。ステップ７０１では，ユーザが入力した検索キーワード１０５に対応する共起情報，すなわち，図４におけるキーワード名４０１が検索キーワード１０５と一致する情報を共起キーワード頻度情報１０４から取得する。次にステップ７０２では，取得した頻度情報から共起キーワードを取得する。この際，共起情報中に格納されている全ての共起キーワードを選択しても良いし，あるいは，あらかじめ定められた値より頻度が大きい共起キーワードのみを選択するようにして良い。あるいは，頻度が大きい共起キーワードから順に，あらかじめ定められた個数の共起キーワードを選択するようにしても良い。

図８及び図９を用いて，評価値計算部１１０における評価値計算方法について説明する。図８は，評価値計算部１１０における処理の流れを表すフローチャートである。ステップ８０１では，検索キーワードと共起キーワードの検索結果の順序関係に基づいて，たとえば図９の９０１に示すような，検索キーワードと共起キーワードの列を作成する。９０１では，検索キーワードは「Ｋ」，共起キーワードを「Ｃ１」から「Ｃ５」で表している。次にステップ８０２において，検索キーワードに関する共起情報を共起キーワード頻度情報１０４から取得する。そして，ステップ８０１で生成したそれぞれの列について，ステップ８０３からステップ８０６の間の処理を繰り返し実行し，各列に対する評価値を求める。ステップ８０４では，作成した列中の共起キーワードと同じ位置にある共起キーワードを頻度情報から検索し，列中の共起キーワードがそれぞれの位置において，共起情報中にも登録されているかどうかを確認する。キーワード「Ｋ」に関する共起情報が図９の９０２に示すような内容であった場合，９０３，９０４，９０５，９０６，９０７においてハッチングされた箇所が検索結果から作成した列中の共起キーワードに対応する情報であると判定される。

さらにステップ８０５では，検索結果から作成した列中の各共起キーワードに対応する頻度を共起情報中から選択し，それらを加算することにより，対象となっている列の評価値とする。図９に示す例では９０８に示すように，Ｃ１，Ｃ２，Ｃ３，Ｃ４，Ｃ５それぞれに対応する頻度の和である２７が９０１で示す列に対する評価値として得られることになる。評価値の計算方法としては，加算するだけでなく，平均を求める方法や，加重和を用いる方法等，使用している頻度の種類に応じて適切な計算方法を用いることができる。最後にステップ８０７において，求めた評価値に基づいて，検索キーワードの検索結果に対して順位付けを行い，検索結果として出力する。

以上では，共起情報中の頻度のみから検索結果の評価値を求めているが，例えば，音声データから検索キーワードや共起キーワードの検索を行う際に，使用する手法によって決定される評価値，例えば，音声認識処理に基づく評価値，を利用することができる場合は，それらの評価値と頻度から求めた評価値を適切な関数により統合することにより，検索結果の評価値としても良い。例えば，音声認識の結果得られる検索キーワードの評価値をEk，評価対象とする共起キーワードの個数をN，音声認識の結果得られる共起キーワードの評価値をEci(i=1,2,3,…,N)，頻度情報中の各共起キーワードに対応する頻度をFi(i=1,2,3,…,N)とすると，検索キーワードに対する統合した評価値E0は，式(1)のような式によって計算することができる。

式(1)では，評価値を統合する関数として，共起キーワードの評価値と頻度情報の加重平均を検索キーワードの評価値に対する重みとして用いているが，これらの情報を組み合わせて評価値を求めることができる関数であれば，任意の関数を使用することができる。

図１０に検索結果の表示形態の一例を示す。図１０では，検索キーワード「Ｋ」に対する検索結果が表示されていると想定しており，検索結果は，１００１から１００５に，音声データの名称，検索キーワードの開始時間，評価値の組として表示されている。それぞれの結果をマウス等により選択することにより，表示されている音声データの開始時間のおける音声を再生する。

図１１から図１３を用いて，本発明の第二の実施例について説明する。

第二の実施例におけるシステム構成は，図１及び図２に示す構成と同一であるが，共起キーワード頻度情報１０４に格納される共起情報のフォーマット，及び評価値計算部１１０の処理が異なっている。

図１１に，第二の実施例における共起情報のフォーマットを示す。図１１において，１１０１は着目するキーワードの名称である。１１０２は，キーワードの前後に出現する共起キーワードの組み合わせパターン数を表す数値である。１１０３は最初の共起キーワードの組み合わせの頻度を表す数値である。１１０４は，キーワード１１０１から前方何個までの共起キーワードに関する情報が格納されているかを示す値である。１１０５及び１１０６は，キーワード１１０１から見て前方一番目及び二番目に存在した共起キーワードの名称を表す。１１０７は，キーワード１１０１から後方何個までの共起キーワードに関する情報が格納されているかを示す値である。１１０８及び１１０９は，キーワード１１０１から見て後方一番目及び二番目に存在した共起キーワードの名称を表す。また，１１１０は二番目の共起キーワードの組み合わせの頻度を表す数値である。

図１２は，図１１に示したフォーマットにより表される共起情報をイメージ化した図である。図１２では，横方向を時間軸であるとみなし，キーワード「Ｋ」を中心にした共起キーワードの情報が記載されている。１２０１は一番目の共起キーワードの組み合わせパターン，１２０２は二番目，１２０３は三番目のパターンを表しており，()内に記載されている数値は，それぞれのパターンの頻度を表している。このように，第二の実施例では，一連の共起キーワードの組み合わせを単位として，共起情報が記述される。

次に図１３を用いて，評価値の計算方法について説明する。第一の実施例では，検索キーワードと共起キーワードの検索結果から作成したキーワードの列中の各共起キーワードが，共起情報中の対応する位置に登録されている場合に，登録されている頻度を評価値に加算することにより，検索結果に対する評価値を求めていた。一方，第二の実施例では，作成した列と，各共起キーワードの組み合わせパターンを比較することにより，一致している共起キーワードの数を求める。さらに，求めた数と各組み合わせパターンの頻度を乗じることにより，各組み合わせパターン毎の評価値を求める。最後に，求めた評価値の内，最も大きい値を作成した列に対する評価値とする。図１３の例では，１３０１のパターンと作成した列との間で一致しているキーワードの数は５であり，１３０１の頻度は７であるため，１３０１に対する評価値は３５となっている。同様に，１３０２，１３０３についてはそれぞれ，１０，１２となっており，１３０４に示すように，最も大きい値が最終的な評価値として選ばれている。

以上の実施例では，作成した列と共起情報中の共起キーワードが一致しているかどうかのみにより評価値を求めていたが，例えば，音声データから検索キーワードや共起キーワードの検索を行う際に，使用する手法によって決定される評価値，例えば，音声認識処理に基づく評価値，を利用することができる場合は，それらの評価値と頻度から求めた評価値を適切な関数により統合することにより，検索結果の評価値としても良い。

図１４及び図１５を用いて，本発明の第三の実施例について説明する。

第三の実施例では，検索結果の表示形態が第一の実施例と異なる。第一の実施例では，図１０に示すように，評価値に基づいて順位付けされた検索結果を一覧の形で表示していた。一方，第三の実施例では，図１４に示すように，検索結果の一覧(１４０５から１４０９)に加え，共起キーワードの組み合わせの一覧(１４０１から１４０４)も合わせて表示するようにしている。

表示する共起キーワードの組み合わせの一覧は，図９や図１３に示した処理において評価値を算出する際に用いた共起キーワードの組み合わせを処理の過程において記憶しておき，同じ組み合わせを削除することにより作成することができる。検索結果を記憶するためのフォーマットの一例を図１５に示す。図１５において，１５０１は図９や図１３に示した処理において評価値を算出する際に用いた共起キーワードの組み合わせを記憶するための領域である。１５０２，１５０３及び１５０４は，１５０１に記憶された共起キーワードの各組み合わせに対応する検索結果を記憶するための領域であり，それぞれ，検索キーワードが含まれるデータ名，検索キーワードの開始時間，及び検索キーワードの評価値が記憶される。図１５において，１５０５から１５０７には，「C1 C2 C3 X C4 C5」という共起キーワードの組み合わせ(Xは検索キーワードが存在する箇所を示す)に対する検索結果が，１５０８から１５０９には「C1 C2 X C5 C4」，１５１０から１５１２には「C2 C3 X C5」という共起キーワードの組み合わせに対する検索結果がそれぞれ記憶されている。図１５に示すフォーマットで記憶された検索結果は，共起キーワードの組み合わせや評価値等に基づいて順序付けをして記憶しても良いし，あるいは，順序付けは行わず，検索された順に格納されていても良い。

検索結果の閲覧においては，共起キーワードの組み合わせを選択し，該当する検索結果のみを表示する。これを行うには，選択した共起キーワードの組み合わせを図１５に示す検索結果の一覧中における共起キーワードの組み合わせと比較を行い，一致するもののみを選択し，画面上に表示するようにすれば良い。あるいは，該当する検索結果の優先順位を上げて検索結果の評価値を再計算した後，検索結果の一覧を表示するようにできる。優先順位の変更は，選択した共起キーワードの組み合わせを図１５に示す検索結果の一覧中における共起キーワードの組み合わせと比較を行い，一致する検索結果の評価値のみに１より大きい数値，例えば，１．５や２．０等を乗じる，あるいは，０より大きい数値を加算する，等により評価値の補正を行い，全ての検索結果に対してそれらの処理を行った後，補正された評価値に基づいて検索結果の並べ替えることにより実行することができる。

優先順位を変更する場合は，共起キーワードの組み合わせを複数選択し，選択された全ての組み合わせについて優先順位を上げるようにしても良い。また，組み合わせの優先順位を指定し，その優先順位に基づいて該当する検索結果に重み付けを行い，評価値を再計算するようにしても良い。この計算は，優先順位の一番高い組み合わせに対する検索結果の評価値に２．０を乗じ，二番目に高い組み合わせに対する検索結果の評価値には１．５を乗じる，等により，評価値を補正する程度を優先順位に基づいて変更すれば，容易に実現することができる。

図１６及び図１７を用いて，本発明の第四の実施例について説明する。

第一の実施例では，検索キーワードも共起キーワードの検索も同様な音声データ検索技術により検索を行うことを前提としていたが，第四の実施例では，共起キーワードの検索結果に基づいて，検索キーワードの候補位置を決定し，決定した候補位置についてのみ，検索キーワードに関する詳細な評価を行う。

図１６は，第四の実施例による音声データ検索システムの構成を示す概念ブロック図である。図１６において，候補位置決定部１６０１と候補位置評価部１６０２が，図１に示す第一の実施例と大きく異なる部分である。

候補位置決定部１６０１では，検索キーワードに関する共起情報中に格納されている共起キーワードの組み合わせと，共起キーワードの検索結果を比較し，一致度が高い音声データ中の箇所を検索キーワードが発話されている可能性が高いと位置であると見なし，そこを候補位置とする。一致度の求め方としては，共起情報を音声データの時間方向にそってシフトさせながら，図９や図１３に示したような評価値の計算を行うことにより，求めることができる。求めた評価値があらかじめ定められた閾値より大きい場合，その箇所を候補位置として決定することができる。

図１７を用いて，候補位置決定部１６０１の処理を詳細に説明する。図１７において共起情報は，図１３で用いた共起情報と同様であると想定する。すなわち，１７０１，１７０２及び１７０３で示される３通りの共起キーワードの組み合わせが共起情報に格納されている。また，共起キーワードの組み合わせの右に表示されている数値は，各組み合わせに対する頻度である。また１７０４は，評価対象となる検索結果から得られた共起キーワードの列である。１７０４中，「−」で示された箇所は，認識された共起キーワード間の時間長が長く，共起キーワード以外の単語が存在する可能性がある箇所である。検索キーワードの候補位置を決定するためには，まず，上述したように，共起情報中の共起キーワードの組み合わせと，共起キーワードの検索結果の比較を行う。また比較は，検索結果の時間軸方向にシフトしながら行うため，図１７においては，共起キーワードの組み合わせ１７０１，１７０２及び１７０３を，１７０５から１７１０，１７０６から１７１１，１７０７から１７１２の共起キーワードの組み合わせに対して比較を行うことになる。

次に，図１７において，共起情報を１７０７から１７１２までの共起キーワードの組み合わせに対して比較する場合を例に，検索キーワードの候補位置であるかどうかを判定する処理について説明する。検索キーワードの候補位置であるかどうかを判定するためには，共起情報と，比較対象である共起キーワードの組み合わせとの一致度に基づいて評価値を求める。この評価値を求める方法は，図１３で説明した方法と全く同じ方法を用いることができる。

例えば，着目している共起情報中の共起キーワードの組み合わせに対する頻度をＦ，共起情報中の共起キーワードの組み合わせと，比較対象である共起キーワードの組み合わせとの間で一致している共起キーワードの個数をＮとすれば，
Ｅ=Ｆ×Ｎ
で計算されるＥを評価値として利用することができる。そして，共起情報中の全ての共起キーワードの組み合わせに対して同様の評価値を求め，最も大きな評価値を検索結果中において対象としている共起キーワードの組み合わせに対する評価値とする。図１７では，１７０１に対応する評価値が７×５＝３５で最も大きいため，その値が１７１３として，１７０７から１７１２までの組み合わせに対する評価値として選択されていることが示されている。そして，選択された評価値があらかじめ定められた閾値より大きい場合，検索キーワードの候補位置と判定する。図１７では，共起情報中の検索キーワード位置に対応する１７１０が候補位置と判定されることになる。

ここでは，候補位置決定部１６０１が，図１３に示した評価値の計算方法を用いて音声データ中での候補位置を決定する例について説明した。なお，図９に示した評価値の計算方法を用いても，前記一致度を評価し，検索キーワードが発話されている候補位置を決定することができる。

候補位置評価部１６０２では，候補位置決定部１６０１で決定された候補位置が検索キーワードに該当するかどうかを判定する。判定方法としては，検索キーワードから生成した音響パラメータと候補位置における音響パラメータを比較する方法や，候補位置の音声データから認識した音素列や音節列を検索キーワードから生成した音素列や音節列と比較する方法等，音声検索においてよく知られた技術を用いることができる。これらの方法により候補位置に対する評価値を算出し，あらかじめ定められた閾値より大きい評価値の候補位置を選択する。最後に，候補位置を決定する際に求めた評価値と候補位置を判定する際に求めた評価値を統合した評価値を算出し，算出した評価値に基づいて選択された候補位置を順位付けし，結果として出力する。評価値を統合するための方法としては，第一の実施例で説明した方法と同じ方法を用いることができる。

本発明は，ハードディスク・レコーダにおいて，その中に記録された音声を含む大量の動画コンテンツから，ユーザが指定したキーワードを含むコンテンツを検索する機能を実現する技術として利用することができる。また，インターネット上に存在する大量の音声コンテンツ，動画コンテンツからユーザが指定したキーワードを含むコンテンツを検索するサービスを実現する技術として利用することができる。

本発明による音声データ検索システムの構成例を示す概念ブロック図である。本発明による音声データ検索システムを計算機上で実現した場合の構成図である。共起情報算出部の処理の流れを示すフローチャートである。共起情報のフォーマットを示す図である。共起情報の具体例を示す図である。共起情報をイメージ化した図である。共起キーワード選択部の処理の流れを示すフローチャートである。評価値計算部における処理の流れを示すフローチャートである。検索キーワードと共起キーワードの列を示す図である。検索結果の表示形態の一例を示す図である。共起情報のフォーマットを示す図である。共起情報をイメージ化した図である。評価値の計算方法について説明する図である。検索結果の表示形態の一例を示す図である。検索結果を記憶するためのフォーマットの一例を示す図である。音声データ検索システムの構成を示す概念ブロック図である。候補位置決定部の処理を説明する図。

符号の説明

１０１テキスト文書
１０２単語分割部
１０３共起情報算出部
１０４共起キーワード頻度情報
１０５検索キーワード
１０６音声データ
１０７共起キーワード選択部
１０８共起キーワード検索部
１０９検索キーワード検索部
１１０評価値計算部
１１１検索結果
１５０１候補位置決定部
１５０２候補位置評価部

Claims

複数のテキスト文書中の各々の文から抽出された，検索対象のキーワードになる可能性の高い単語からあらかじめ定められた範囲内に存在する単語である共起キーワードの種類とその頻度を，キーワード毎の共起キーワード頻度情報として格納した情報格納部と，
検索対象となる検索キーワードを入力する検索キーワード入力部と，
入力された検索キーワードに関連する共起キーワード頻度情報を前記情報格納部から取得し，検索キーワードに関連する共起キーワードを選択する共起キーワード選択部と，
検索対象である音声データを格納する音声データ格納部と，
前記共起キーワード選択部で選択された共起キーワードを前記音声データ格納部に格納された音声データ中から検索する共起キーワード検索部と，
前記入力された検索キーワードを前記音声データ格納部に格納された音声データ中から検索する検索キーワード検索部と，
前記検索キーワード検索部による検索キーワードの検索結果，前記共起キーワード検索部による共起キーワードの検索結果，及び前記共起キーワード選択部によって取得した検索キーワードに関連する共起キーワード頻度情報に基づいて，検索キーワードの検索結果の評価値を求め，当該評価値に基づいて検索結果の順位付けを行う評価値計算部と，
前記評価値によって順位付けを行った検索結果を出力する出力部と，
を有することを特徴とする音声データ検索システム。
請求項１記載の音声データ検索システムにおいて，前記情報格納部には，前記キーワード毎の共起キーワード頻度情報として，共起キーワードと，対象となるキーワードから見た共起キーワードの位置に関する情報，及びテキスト文書中でその位置に共起キーワードが出現した頻度に関する情報が格納されていることを特徴とする音声データ検索システム。
請求項１記載の音声データ検索システムにおいて，前記情報格納部には，前記キーワード毎の共起キーワード頻度情報として，対象となるキーワードの周囲に出現した共起キーワードの列と，それぞれの列がテキスト文書中に出現した頻度に関する情報が格納されていることを特徴とする音声データ検索システム。
請求項１記載の音声データ検索システムにおいて，前記共起キーワード選択部は，共起キーワード頻度情報中で，あらかじめ定められた閾値より大きい頻度を有するキーワード，あるいは，頻度が大きい順にキーワードを並べた場合に，上位からあらかじめ定められた個数のキーワードを，前記検索キーワードに関連する共起キーワードとして選択することを特徴とする音声データ検索システム。
請求項２記載の音声データ検索システムにおいて，前記評価値計算部は，前記検索キーワードの周囲に検出されたそれぞれの共起キーワードの種類と，前記検索キーワードに関連する共起キーワード頻度情報中の該当する位置に登録されている共起キーワードの種類を比較し，一致している共起キーワードに関する頻度情報を用いて前記評価値を算出することを特徴とする音声データ検索システム。
請求項３記載の音声データ検索システムにおいて，前記評価値計算部は，前記検索キーワードの周囲に検出されたそれぞれの共起キーワードの列と，検索キーワードに関連する共起キーワード頻度情報中の共起キーワードの列を比較し，一致度が最も高い共起キーワード列に対する頻度情報を用いて前記評価値を算出することを特徴とする音声データ検索システム。
請求項１記載の音声データ検索システムにおいて，前記出力部は，検索キーワードの周囲の共起キーワードの組み合わせ毎に検索結果を出力することを特徴とする音声データ検索システム。
請求項７記載の音声データ検索システムにおいて，前記出力部は，検索キーワードの周囲の共起キーワードの組み合わせと，共起キーワード頻度情報中の共起キーワードの組み合わせとの一致度に基づいて，共起キーワードの組み合わせに対する評価値を求め，その評価値から求めた順位によって共起キーワードの組み合わせを出力することを特徴とする音声データ検索システム。
請求項７記載の音声データ検索システムにおいて，前記出力部は，出力された共起キーワードの組み合わせのいずれかが選択されたとき，当該選択された共起キーワードの組み合わせに該当する，検索キーワードの検索結果を出力することを特徴とする音声データ検索システム。
請求項１記載の音声データ検索システムにおいて，前記出力部は前記検索キーワードの周囲の共起キーワードの組み合わせを出力し，そのいずれかひとつ，あるいは複数の共起キーワードの組み合わせが選択されたとき，前記評価部は該当する共起キーワードの組み合わせに対応する検索結果の優先順位を上げた評価値を計算し，前記出力部はその結果を出力することを特徴とする音声データ検索システム。
請求項１記載の音声データ検索システムにおいて，
テキスト文書中の各々の文を単語に分割する単語分割部と，
前記検索対象のキーワードになる可能性の高い単語からあらかじめ定められた範囲内に存在する単語である共起キーワードの種類とその頻度を，前記単語分割部によって分割したテキスト文書中の各々の文から抽出し，キーワード毎の共起キーワード頻度情報を作成する頻度情報算出部とを有し，
前記頻度情報算出部で作成された共起キーワード頻度情報を前記情報格納部に格納することを特徴とする音声データ検索システム。
複数のテキスト文書中の各々の文から抽出された，検索対象のキーワードになる可能性の高い単語からあらかじめ定められた範囲内に存在する単語である共起キーワードの種類とその頻度を，キーワード毎の共起キーワード頻度情報として格納した情報格納部と，
検索対象となる検索キーワードを入力する検索キーワード入力部と，
入力された検索キーワードに関連する共起キーワード頻度情報を前記情報格納部から取得し，検索キーワードに関連する共起キーワードを選択する共起キーワード選択部と，
検索対象である音声データを格納する音声データ格納部と，
前記共起キーワード選択部で選択された共起キーワードを前記音声データ格納部に格納された音声データ中から検索する共起キーワード検索部と，
前記共起キーワード検索部によって前記音声データ格納部に格納された音声データ中から共起キーワードを検索した結果と，前記共起キーワード選択部によって取得した検索キーワードに関連する共起キーワード頻度情報との一致度を計算し，当該一致度があらかじめ定められた値以上の箇所を検索キーワードの候補位置として求める候補位置決定部と，
前記候補位置決定部によって決定された候補位置を評価し候補位置の順位付けを行う候補位置評価部と，
前記候補位置評価部によって順位付けされた検索結果を出力する出力部と，
を有することを特徴とする音声データ検索システム。
請求項１２記載の音声データ検索システムにおいて，前記候補位置決定部では，前記候補位置に対して，音響的な処理や音素・音節等の処理により，検索キーワードとの一致度を求め，その一致度と，前記共起キーワードの検索結果から得られる評価値とを用いることにより，候補位置の最終評価値を求め，当該最終評価値によって候補位置の順位付けを行うことを特徴とする音声データ検索システム。
請求項１２記載の音声データ検索システムにおいて，
テキスト文書中の各々の文を単語に分割する単語分割部と，
前記検索対象のキーワードになる可能性の高い単語からあらかじめ定められた範囲内に存在する単語である共起キーワードの種類とその頻度を，前記単語分割部によって分割したテキスト文書中の各々の文から抽出し，キーワード毎の共起キーワード頻度情報を作成する頻度情報算出部とを有し，
前記頻度情報算出部で作成された共起キーワード頻度情報を前記情報格納部に格納することを特徴とする音声データ検索システム。