JP2000259645A

JP2000259645A - 音声処理装置及び音声データ検索装置

Info

Publication number: JP2000259645A
Application number: JP11058295A
Authority: JP
Inventors: Takeshi Mizunashi; 豪水梨; Nobuyuki Saito; 伸行斎藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1999-03-05
Filing date: 1999-03-05
Publication date: 2000-09-22

Abstract

(57)【要約】【課題】音声データに含まれる音素や音節・単語など
の出現尤度を的確に計算して、出現尤度に基づいて音声
データの検索を正確且つ確実に行なう。【解決手段】音声データ検索装置は、複数の音声デー
タからなる音声データベースから音素や音節・単語等の
出現尤度を計算して保管しておく出現尤度保管部と、検
索要求の入力を受けるクエリ入力部と、クエリを音素や
音節・単語等の列に変換するクエリ変換部と、前記変換
されたクエリを保管するクエリ保管部と、前記クエリ保
管部のクエリと前記出現尤度保管部の出現尤度を照合し
て両者の一致度を計算する照合部を備えている。音声認
識結果を有向グラフ型のデータ構造で表現することによ
って、多くの認識結果候補を保持して検索誤りの可能性
を低減することができる。また、検索対象となる音声デ
ータの音声認識結果を音素や音節などの単語以下の単位
で保持することによって、音声入力されたクエリを音素
や音節に展開して、検索対象の音素や音節と照合するこ
とで、クエリに未登録語が含まれている場合でも適切な
検索処理を行うことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数の音声データ
からなる音声データベースに対する検索を正確且つ確実
に行なうための音声処理装置及び音声データ検索装置に
係り、特に、音声データを音素や音節などの単語以下の
単位で扱うことで正確且つ確実な音声データの検索を行
なう音声処理装置及び音声データ検索装置に関する。更
に詳しくは、本発明は、音声データに含まれる音素や音
節・単語などの出現尤度を的確に計算して、出現尤度に
基づいて音声データの検索を正確且つ確実に行なう音声
処理装置及び音声データ検索装置に関する。

【０００２】

【従来の技術】昨今の情報処理技術の発展に伴い、高機
能で且つ強力な演算能力を持つ汎用コンピュータ・シス
テムが、各種研究機関や企業内のオフィス、一般家庭へ
と広汎に普及してきている。また、コンピュータの適用
分野も拡大し、コンピュータ・データのみならず、画像
（静止画と動画の双方を含む）や音声など、様々のデー
タも電子化されコンピュータ上で扱われるようになって
きた。

【０００３】特に最近では、キーボードを介したキャラ
クタ入力やマウスを介した指示座標入力に代わって、音
声によるコンピュータ入力を実現する音声入力や音声認
識に関する技術の開発や関連製品の発表が盛んになされ
ている。また、膨大サイズの音声データを扱うことに伴
ない、複数の音声データからなる音声データベースの中
から所望の音声データを検索する「音声データ検索」に
対する要望も高まってきている。

【０００４】例えば、特開平５−３３４８６１号公報に
開示された「音声検索装置」では、音声信号を記録した
記録媒体の中から、所定の音声キーワードに基づいて所
望の音声信号部分を検索する技術が提案されている。同
公報の実施例では、音声キーワード、音声データの両者
とも、音声認識されて一旦テキスト化された後、キーワ
ードとデータが一致する部分を検出することによって検
索を行う音声検索装置について記述している。

【０００５】また、特開平８−２４９３４３号公報に開
示された「音声情報取得装置及び音声情報取得方法」で
は、ニュース音声や既存の音声データを音声認識し、キ
ーワードや分野特有の言い回し（例えば「７時のニュー
スです」や、「スポーツ情報です」など）を検出して音
声データに付加することによって、検索に用いる方法が
提案されている。

【０００６】上記した従来法はいずれも、検索対象とな
る音声データを、音声認識装置を用いて一度テキスト・
データへ書き起こし、そのテキスト・データに対して検
索処理を行う方法を採用している。しかしながら、この
検索処理方法には、以下のような問題がある。すなわ
ち、（１）音声認識の結果であるテキストに認識誤りが含ま
れている場合、正しい検索結果が得られない。（２）音声認識装置に登録されていない単語（すなわち
未登録語）は、書き起こしたテキスト・データには登場
しない。このため、未登録語を検索キーにして検索を行
っても、検索結果が得られない。

【０００７】本発明は、このような技術的課題を勘案し
てなされたものであり、音声を認識して音素や音節・単
語等を単位とする有向グラフ型のデータ構造を作成し、
このデータ構造を基にして、音声の中に含まれる音素や
音節・単語等の列の出現尤度を計算しておくことによっ
て、内容に基づいた音声データの検索を正確且つ確実に
行えるようにするものである。

【０００８】

【発明が解決しようとする課題】本発明の目的は、複数
の音声データからなる音声データベースに対する検索を
正確且つ確実に行なうことができる、優れた音声処理装
置及び音声データ検索装置を提供することにある。

【０００９】本発明の更なる目的は、音声データを音素
や音節などの単語以下の単位で扱うことで正確且つ確実
な音声データの検索を行なうことができる、優れた音声
処理装置及び音声データ検索装置を提供することにあ
る。

【００１０】本発明の更なる目的は、音声データに含ま
れる音素や音節・単語などの出現尤度を的確に計算し
て、出現尤度に基づいて音声データの検索を正確且つ確
実に行なうことができる、優れた音声処理装置及び音声
データ検索装置を提供することにある。

【００１１】

【課題を解決するための手段及び作用】本発明は上記課
題を参酌してなされたものであり、本発明に係る音声処
理装置は、音声を認識して音素や音節・単語等を単位と
する有向グラフ型のデータ構造を作成し、このデータ構
造を基にして、音声の中に含まれる音素や音節・単語等
の列の出現尤度を計算する。

【００１２】出現尤度は、上記の有向グラフ型のデータ
構造から得た音素や音節・単語等の列の分布とそのスコ
アを基にして計算される。

【００１３】また、上記のスコアは、音素や音節・単語
等の列に対する音響的尤度、言語的尤度、あるいはそれ
らの組み合わせを基にして算出される。スコアは、ある
いは音素や音節・単語等の列を含む上記グラフ上の経路
の数を基にして算出してもよい。

【００１４】また、本発明に係る音声データ検索装置
は、上記の出現尤度計算方法を用いて、複数の音声デー
タからなる音声データベースから音素や音節・単語等の
出現尤度を計算して保管しておく出現尤度保管部と、検
索要求の入力を受けるクエリ入力部と、クエリを音素や
音節・単語等の列に変換するクエリ変換部と、前記変換
されたクエリを保管するクエリ保管部と、前記クエリ保
管部のクエリと前記出現尤度保管部の出現尤度を照合し
て両者の一致度を計算する照合部と、前記照合部の結果
を提示する検索結果提示部を備えることを特徴とする。

【００１５】本発明を応用した音声データ検索システム
では、音声認識の結果を有向グラフ型のデータ構造で表
現するようにしている。有向グラフ型のデータ構造を用
いることによって、書き起こしテキストを用いた場合よ
りもはるかに多くの認識結果候補を保持することがで
き、且つ、音声認識装置の認識誤りから生じる検索誤り
の可能性を低減することができる。また、検索対象とな
る音声データの音声認識結果を音素や音節などの単語以
下の単位で保持することによって、音声入力されたクエ
リを音素や音節に展開して、検索対象の音素や音節と照
合することができる。これによって、クエリに未登録語
が含まれている場合でも適切な検索処理を行うことがで
きる。

【００１６】本発明のさらに他の目的、特徴や利点は、
後述する本発明の実施例や添付する図面に基づくより詳
細な説明によって明らかになるであろう。

【００１７】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施例を詳解する。

【００１８】図１には、本発明の実施に供される音声デ
ータ検索装置１０のシステム構成を模式的に示してい
る。同図に示すように、音声データ検索装置１０は、音
声認識部１１と、音声データベース１２と、出現尤度計
算部１３と、出現尤度保管部１４と、クエリ入力部１５
と、クエリ変換部１６と、クエリ保管部１７と、照合部
１８と、検索結果提示部１９と、ユーザ・インターフェ
ースとしてのキーボード及びディスプレイ２０を備えて
いる。以下、各ブロックについて説明する。

【００１９】音声認識部１１は、音声データベース１２
中の音声データ・ファイルを音声認識して、単語を単位
とする有向グラフ型のデータ構造（以下、「単語グラ
フ」と呼ぶ）を作成する。有向グラフは、ノード（節）
の集合と、二つのノードを結ぶアーク（枝）の集合とし
て定義され、各アークは向きを有している。

【００２０】本実施例で扱う単語グラフでは、アークに
は単語名とその単語の言語的尤度が対応している。ま
た、本実施例では、各アークの単語の言語的尤度は、大
量のテキスト・データを基に推定した単語モノグラム・
モデルを用いて、その出現確率の対数をとることによっ
て規定される。言語的尤度は負の値をとり、数値が大き
い方がより尤もらしいということになる。

【００２１】なお、各単語の言語的尤度を算出する際
に、本実施例で用いた単語モノグラムよりもより制約力
が強い、単語バイグラムや単語トライグラムを用いるこ
とも可能である。

【００２２】出現尤度計算部１３は、このデータ構造を
基に、音声に登場する各単語の出現尤度を音声データ・
ファイル毎に計算し、出現尤度保管部１４に保管する。

【００２３】クエリ入力部１５は、ユーザがキーボード
などのユーザ・インターフェース２０を介して入力した
クエリ（日本語のフレーズ）を受け取る。本実施例で
は、キーボード入力された日本語フレーズを対象にする
が、それ以外の入力形態、例えば、マイクロフォンで入
力された日本語音声を音声認識して得られた日本語フレ
ーズをクエリとすることもできる。

【００２４】クエリ変換部１６は、日本語フレーズであ
るクエリを形態素解析して単語を抽出し、それらを要素
としたクエリ単語集合を作成する。クエリ保管部１７
は、クエリ変換部１６で作成したクエリ単語集合を保管
する。

【００２５】照合部１８は、クエリ保管部１７に格納さ
れたのクエリ単語集合と、出現尤度保管部１４に格納さ
れた単語の出現尤度との照合を行ない、音声データベー
ス１２に格納されている各音声データ・ファイルに対し
て、クエリ単語集合との照合スコアを計算する。

【００２６】検索結果提示部１９は、ディスプレイ２０
上に、検索結果としての音声データ・ファイル名を照合
スコア順に一覧表示する。

【００２７】次に、本実施例に係る音声データ検索装置
１０の動作について説明する。

【００２８】図２には、本実施例に係る音声データ検
索装置１０が実行する処理手順をフローチャート形式で
示している。以下、このフローチャートの各ステップに
ついて説明する。

【００２９】ユーザは、検索クエリとしての日本語フレ
ーズを、キーボードなどのユーザ・インターフェース２
０を介して入力する。クエリ変換部１６では、その日本
語フレーズを形態素解析して単語に分割し、それらの単
語のうち、検索のキーワードとして有効と考えられる自
立語を抽出する（ステップＳ１１）。自立語は、名詞や
動詞などからなる。

【００３０】次いで、抽出された自立語を要素としたク
エリ単語集合をクエリ保管部１７に保管する（ステップ
Ｓ１２）。

【００３１】次いで、照合部１８は、各音声データ・フ
ァイルについて予め計算してある各単語の出現尤度とク
エリ単語集合とを照合することによって、音声データ・
ファイル毎の照合スコアを算出する。そして、照合結果
を検索結果提示部に渡す（ステップＳ１３）。

【００３２】検索結果提示部１９は、各音声データ・フ
ァイル毎の照合スコアを照合部１８から受け取り、音声
データ・ファイルの名前を照合スコアが大きい順にディ
スプレイ２０上に一覧表示する（ステップＳ１４）。

【００３３】上述のステップＳ１３では、照合対象と単
語の出現尤度を音声データ・ファイル毎に予め計算して
おく必要がある。以下では、この出現尤度の計算処理処
理について説明する。図３には、出現尤度を計算する
処理手順をフローチャートの形式で示している。

【００３４】まず、音声認識部１１は、音声データベー
ス１２の中から音声データ・ファイルを１つ取り出す
（ステップＳ２１）。音声データベース１２には、数多
くの音声データ・ファイルが所定形式（フォーマット）
に従って格納されている。音声データ・ファイルのファ
イル形式の一例はＷＡＶ形式であり、拡張子”．ｗａ
ｖ”を持つ。

【００３５】次いで、音声認識部１１は、取り出した音
声データ・ファイルを音声認識して、単語グラフに変換
する（ステップＳ２２）。単語グラフの各アークには、
前述のように、単語名とその単語の言語的尤度が対応し
ている。

【００３６】出現尤度計算部１３は、単語名フィールド
と出現尤度フィールドを持つ単語出現尤度表を、各音声
データ・ファイル毎に１つ用意する。

【００３７】次いで、出現尤度計算部１３は、単語グラ
フ中の１つのアークに注目し、単語名を読み、上述の単
語出現尤度表への登録処理を行なう（ステップＳ２
３）。すなわち、読み出した単語が単語出現尤度表のエ
ントリとして存在しない場合は、単語出現尤度表の新た
なエントリを作成して、該エントリの単語名フィールド
にその単語名を書き込み、また、出現尤度フィールドに
以下の［数１］に示す式によって計算した数値を書き込
む。

【００３８】

【数１】

【００３９】他方、読み出した単語が既に出現尤度表の
エントリとして存在する場合は、その単語エントリの出
現尤度を、以下の［数２］に示す式を用いて更新する。

【００４０】

【数２】

【００４１】次いで、ステップＳ２４では、単語グラフ
中の全てのアークについて調べたか否かをチェックす
る。未処理のアークが残っている場合には、ステップＳ
２３に復帰して、上述と同様の処理を繰り返し行う。

【００４２】また、ステップＳ２５では、音声データベ
ース１２中の全ての音声データ・ファイルに調べたか否
かをチェックする。未処理の音声データ・ファイルが残
っている場合には、ステップＳ２１に復帰して、上述と
同様の処理を繰り返し行う。

【００４３】図４には、図３に示した処理に従って作成
される単語出現尤度表を示している。単語出現尤度表
は、音声データベース１２に格納される各音声データ・
ファイル毎に作成され、出現尤度格納部１４に格納され
る。

【００４４】単語出現尤度の計算については、図３に示
した処理手順に従って単語の言語的尤度を基に計算する
こともできるが、単語を構成する各音節や音素の音響的
尤度を加味することも無論可能である。また、以下の
（１）〜（７）に示す処理手順に従って、アークを含む
経路の数に基づいて単語出現尤度を計算することも可能
である。すなわち、

【００４５】（１）音声認識部１１は、音声データベー
ス１２の中から、音声データ・ファイルを１つ取り出
す。

【００４６】（２）音声認識部１１は、取り出した音声
データ・ファイルを音声認識して、単語グラフに変換す
る。単語グラフの各アークには、単語名とそのアークを
通る経路の数が記述してある。

【００４７】（３）出現尤度計算部１３は、単語名フィ
ールドと出現尤度フィールドを持つ単語出現尤度表を作
成する。単語出現尤度表は、各音声データ・ファイル毎
に１つ用意される。

【００４８】（４）出現尤度計算部１４は、単語グラフ
中の１つのアークに注目し、単語名を読む。

【００４９】（５）読み出した単語が単語出現尤度表の
エントリとして存在しない場合は、単語出現尤度表の新
たなエントリを作成して、該エントリの単語名フィール
ドにその単語名を書き込むとともに、該エントリの出現
尤度フィールドに以下の［数３］に示す式によって計算
した数値を書き込む。

【００５０】

【数３】

【００５１】また、その単語が既に単語出現尤度表のエ
ントリとして存在する場合は、その単語エントリの出現
尤度を以下の［数４］に示す式を用いて更新する。

【００５２】

【数４】

【００５３】（６）単語グラフの全てのアークについ
て、上記処理（４）及び（５）を繰り返し行う。

【００５４】（７）音声データベース１２に格納されて
いる全ての音声データ・ファイルについて、上記処理
（１）〜（６）を繰り返し行う。

【００５５】本明細書中では、単語の出現尤度を計算す
るための２通り方法を述べたが、無論、これらの方法や
出現尤度を計算する他の方法を組み合わせて用いること
も可能である。例えば、これらの処理を行ってから、さ
らにＴＦ．ＩＤＦ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ，ｉ
ｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃ
ｙ）法などを用いて、検索に対する有効性を加味した形
態で出現尤度表の出現尤度を修正することも可能であ
る。すなわち、出現頻度表Ｔ_i中の単語ｗ_jの出現尤度を
Ｓ（Ｔ_i，ｗ_j）とし、ＴＦ．ＩＤＦ法を適用した出現尤
度をＳ’（Ｔ_i，ｗ_j）とすると、以下の［数５］に示す
式によって出現尤度を修正することができる。

【００５６】

【数５】

【００５７】図２に示した音声データ検索処理におい
て、ステップＳ１３ではクエリ単語集合と出現尤度表と
の照合処理を行なう。図５には、Ｎ個の単語からなるク
エリ単語集合と音声データベース１２中の各音声データ
・ファイルに対応した単語の出現尤度表を照合する処理
手順をフローチャートの形式で示している。以下では、
図５を参照しながら、照合処理について詳解する。

【００５８】出現尤度保管部１４には、音声データベー
ス１２に格納された数多くの音声データ・ファイルの各
々に対応する単語出現尤度表が蓄積されている。まず、
ステップＳ３１では、出現尤度保管部１４に保管されて
いる単語出現尤度表のうちから１つを取り出す。

【００５９】また、クエリ保管部１７に格納されている
クエリ単語集合に含まれるＮ個の単語のうちから単語を
１つだけ取り出す（ステップＳ３２）。

【００６０】次いで、取り出した単語を出現尤度表の単
語名フィールドから検索する。出現尤度表中の該当する
エントリの出現尤度をその単語の検索スコアとする。ま
た、該当するエントリがない場合は、検索スコアを０と
する（ステップＳ３３）。

【００６１】ステップＳ３４では、クエリ単語集合中の
全ての単語について処理を終えたか否かをチェックす
る。未処理の単語が残っていればステップＳ３２に復帰
して、残りの単語についてステップＳ３２及びＳ３３を
繰り返し行なう。そして、各単語の検索スコアを加算し
たものを、その単語出現尤度表に対応する音声データ・
ファイルの照合スコアとする（ステップＳ３５）。

【００６２】次いで、ステップＳ３６では、出現尤度保
管部１４に格納されている全ての単語出現尤度表につい
て処理を終えたか否かをチェックする。未処理の単語出
現尤度表があれば、ステップＳ３１に復帰して、残りの
単語出現尤度表に対してステップＳ３１〜Ｓ３５の処理
を繰り返し行なう。そして、各音声データ・ファイル毎
の照合スコアを算出して保持しておく。

【００６３】以上の説明では、音声認識結果を単語グラ
フとして単語出現尤度を計算したが、音声認識結果を音
節グラフとして音節連鎖出現尤度を計算し、音節に展開
したクエリと照合することによって音声データ・ファイ
ルを検索する、という変形例も考えることができる。

【００６４】この変形例の場合、音声認識部１１は、音
声データベース１２中の音声データ・ファイルを音声認
識して、音節を単位とする有向グラフ型のデータ構造
（以下、音節グラフと呼ぶ）を作成する。音節グラフで
は、アークには音節名とその音節の音響的尤度が対応し
ている。各アークの音節の音響的尤度は、ＨＭＭなどを
用いて求められた音節の出現確率の対数をとることによ
って規定される。

【００６５】出現尤度計算部１２は、このデータ構造を
基にして、音声に登場する音節連鎖（例えば音節の３連
鎖）の出現尤度を音声データ・ファイル毎に計算すれば
よい。

【００６６】図６には、この変形例において出現尤度を
計算する処理手順をフローチャートの形式で示してい
る。以下、このフローチャートの各ステップについて説
明する。

【００６７】まず、音声認識部１１は、音声データベー
ス１２の中から音声データ・ファイルを１つ取り出す
（ステップＳ４１）。

【００６８】次いで、音声認識部１１は、取り出した音
声データ・ファイルを音声認識して、音節グラフに変換
する（ステップＳ４２）。

【００６９】次いで、音節グラフの１つのアークに注目
して、そのアークから辿ることができる音節の３連鎖を
抽出する（ステップＳ４３）。

【００７０】次いで、音節３連鎖を１つ取り出して、音
節連鎖の名前とその出現尤度を、対応する音声データ・
ファイルの音声連鎖出現頻度表に登録する（ステップＳ
４４）。

【００７１】ステップＳ４５では、全ての音節３連鎖に
ついて調べたか否かをチェックする。未処理の音節３連
鎖が残っている場合には、ステップＳ４４に復帰して、
上述と同様の処理を繰り返し行う。

【００７２】次いで、ステップＳ４６では、音節グラフ
中の全てのアークについて調べたか否かをチェックす
る。未処理のアークが残っている場合には、ステップＳ
４３に復帰して、上述と同様の処理を繰り返し行う。

【００７３】また、ステップＳ４７では、音声データベ
ース１２中の全ての音声データ・ファイルに調べたか否
かをチェックする。未処理の音声データ・ファイルが残
っている場合には、ステップＳ４１に復帰して、上述と
同様の処理を繰り返し行う。

【００７４】図７には、図６に示した処理に従って作成
される単語出現尤度表を示している。単語出現尤度表
は、音声データベース１２に格納される各音声データ・
ファイル毎に作成され、出現尤度保管部１４に格納され
る。

【００７５】また、クエリ保管部１７には、クエリの単
語を音節に展開したものの集合（図９を参照のこと）が
保管される。

【００７６】照合部１８は、クエリ保管部１７に保管さ
れたクエリと、出現尤度保管部１４に保管された音声デ
ータ・ファイル毎の音節連鎖の出現尤度を照合処理し
て、音声データベース１２中の各音声データ・ファイル
に対して、クエリ単語集合との照合スコアを計算する。

【００７７】図８には、照合部１８が行なう照合処理の
手順をフローチャートの形式で示している。以下、この
フローチャートの各ステップについて説明する。

【００７８】まず、出現尤度保管部１４から出現尤度表
を１つ取り出す（ステップＳ５１）。

【００７９】次いで、クエリ保管部１７に格納されたク
エリ単語集合から単語を１つ取り出して、その単語を構
成する音節の３連鎖を全て抽出する（ステップＳ５
２）。

【００８０】次いで、抽出された音節の３連鎖の１つを
取り出す（ステップＳ５３）。

【００８１】そして、取り出した音節３連鎖を見出しと
するエントリを出現尤度表の中で検索する。該当するエ
ントリを発見できたら、その出現尤度を読み出し、これ
を音節３連鎖の検索スコアとする（ステップＳ５４）。

【００８２】ステップＳ５５では、取り出した単語中の
全ての音節３連鎖について調べたか否かをチェックす
る。未処理の音節３連鎖が残っていれば、ステップＳ５
３に復帰して、上述と同様の処理を繰り返し行なう。

【００８３】単語中の全ての音節３連鎖について処理を
終えたならば、求めた全ての検索スコアの平均を計算
し、その平均値を単語についての検索スコアとする（ス
テップＳ５６）。

【００８４】次いで、ステップＳ５７では、クエリ単語
集合中の全ての単語について処理を終えたか否かをチェ
ックする。未処理の単語が残っている場合には、ステッ
プＳ５２に復帰して、上述と同様の処理を繰り返し行な
う。

【００８５】クエリ単語集合中の全ての単語について処
理を終えたならば、全ての単語の検索スコアを加算す
る。そして、求められた合計値を、その音節連鎖出現尤
度に対応する音声データについての照合スコアとする
（ステップＳ５８）。

【００８６】次いで、ステップＳ５９では、出現尤度保
管部１４に格納されている音節連鎖出現尤度表を全て調
べたか否かをチェックする。未処理の音節連鎖出現尤度
表が残っていれば、ステップＳ５１に復帰して、上述と
同様の処理を繰り返し行なう。

【００８７】［追補］以上、特定の実施例を参照しなが
ら、本発明について詳解してきた。しかしながら、本発
明の要旨を逸脱しない範囲で当業者が該実施例の修正や
代用を成し得ることは自明である。すなわち、例示とい
う形態で本発明を開示してきたのであり、限定的に解釈
されるべきではない。本発明の要旨を判断するために
は、冒頭に記載した特許請求の範囲の欄を参酌すべきで
ある。

【００８８】

【発明の効果】以上詳記したように、本発明によれば、
複数の音声データからなる音声データベースに対する検
索を正確且つ確実に行なうことができる、優れた音声処
理装置及び音声データ検索装置を提供することができ
る。

【００８９】また、本発明によれば、音声データを音素
や音節などの単語以下の単位で扱うことで正確且つ確実
な音声データの検索を行なうことができる、優れた音声
処理装置及び音声データ検索装置を提供することができ
る。

【００９０】また、本発明によれば、音声データに含ま
れる音素や音節・単語などの出現尤度を的確に計算し
て、出現頻度に基づいて音声データの検索を正確且つ確
実に行なうことができる、優れた音声処理装置及び音声
データ検索装置を提供することができる。

【００９１】本発明を応用した音声データ検索システム
では、音声認識の結果を有向グラフ型のデータ構造を用
いて表現することによって、書き起こしテキストを用い
る場合よりもはるかに多くの認識結果候補を保持するこ
とができ、さらには、音声認識装置の認識誤りから生じ
る検索誤りの可能性を低減することができる。また、検
索対象となる音声データの音声認識結果を音素や音節な
どの単語以下の単位で保持することによって、音声入力
されたクエリを音素や音節に展開して、検索対象の音素
や音節と照合することで、クエリに未登録語が含まれて
いる場合でも適切な検索処理を行うことができる。

【図面の簡単な説明】

【図１】本実施例に係る音声データ検索装置の構成を
模式的に示した図である。

【図２】本実施例に係る音声データ検索装置の処理手
順を示したフローチャートである。

【図３】本実施例に係る音声データ検索装置内で実行
される出現尤度計算の処理手順を示したフローチャート
である。

【図４】本実施例において使用される単語出現尤度表
である。

【図５】本実施例に係る音声データ検索装置内で実行
される照合処理の手順を示したフローチャートである。

【図６】本実施例に係る音声データ検索装置内で実行
される出現尤度計算処理の手順を示したフローチャート
である。

【図７】本実施例において使用される音節連鎖出現尤
度表である。

【図８】本実施例に係る音声データ検索装置内で実行
される照合処理の手順を示したフローチャートである。

【図９】本実施例に係る音節列展開処理の手順を示し
たフローチャートである。

【符号の説明】

１０…音声データ検索装置、１１…音声認識部、１２…
音声データベース、１３…出現尤度計算部、１４…出現
尤度保管部、１５…クエリ入力部、１６…クエリ変換
部、１７…クエリ保管部、１８…照合部、１９…検索結
果提示部、２０…ユーザ・インターフェース。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B075 ND14 PP07 PQ46 PQ74 PR04 PR06 QM08 5D015 KK03 LL08 9A001 BB06 GG01 HH15 HH17 JJ01 JJ07

Claims

【特許請求の範囲】

【請求項１】音声を認識して音素や音節・単語等を単位
とする有向グラフ型のデータ構造を作成し、このデータ
構造を基に、音声の中に含まれる音素や音節・単語等の
列の出現尤度を計算することを特徴とする音声処理装
置。
【請求項２】上記データ構造から得た音素や音節・単語
等の列の分布とそのスコアを基に出現尤度を計算するこ
とを特徴とする請求項１に記載の音声処理装置。
【請求項３】音素や音節・単語等の列に対する音響的尤
度、言語的尤度、あるいはそれらの組み合わせを基にし
てスコアを算出することを特徴とする請求項２に記載の
音声処理装置。
【請求項４】音素や音節・単語等の列を含む上記グラフ
上の経路の数を基にスコアを算出することを特徴とする
請求項２に記載の音声処理装置。
【請求項５】検索要求の入力を受けるクエリ入力部と、
クエリを音素や音節・単語等の列に変換するクエリ変換
部と、前記クエリ変換部による変換後のクエリを保管す
るクエリ保管部と、請求項１、２、３、又は４のいずれ
かに記載の音声処理装置を用いて複数の音声データから
なる音声データベースから計算された音素や音節・単語
等の出現尤度を保管する出現尤度保管部と、前記クエリ
保管部のクエリと前記出現尤度保管部の出現尤度を照合
して両者の一致度を計算する照合部と、前記照合部の結
果を提示する検索結果提示部とを具備することを特徴と
する音声データ検索装置。