JP2000259645A - 音声処理装置及び音声データ検索装置 - Google Patents

音声処理装置及び音声データ検索装置

Info

Publication number
JP2000259645A
JP2000259645A JP11058295A JP5829599A JP2000259645A JP 2000259645 A JP2000259645 A JP 2000259645A JP 11058295 A JP11058295 A JP 11058295A JP 5829599 A JP5829599 A JP 5829599A JP 2000259645 A JP2000259645 A JP 2000259645A
Authority
JP
Japan
Prior art keywords
likelihood
speech
word
query
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11058295A
Other languages
English (en)
Inventor
Takeshi Mizunashi
豪 水梨
Nobuyuki Saito
伸行 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP11058295A priority Critical patent/JP2000259645A/ja
Publication of JP2000259645A publication Critical patent/JP2000259645A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 音声データに含まれる音素や音節・単語など
の出現尤度を的確に計算して、出現尤度に基づいて音声
データの検索を正確且つ確実に行なう。 【解決手段】 音声データ検索装置は、複数の音声デー
タからなる音声データベースから音素や音節・単語等の
出現尤度を計算して保管しておく出現尤度保管部と、検
索要求の入力を受けるクエリ入力部と、クエリを音素や
音節・単語等の列に変換するクエリ変換部と、前記変換
されたクエリを保管するクエリ保管部と、前記クエリ保
管部のクエリと前記出現尤度保管部の出現尤度を照合し
て両者の一致度を計算する照合部を備えている。音声認
識結果を有向グラフ型のデータ構造で表現することによ
って、多くの認識結果候補を保持して検索誤りの可能性
を低減することができる。また、検索対象となる音声デ
ータの音声認識結果を音素や音節などの単語以下の単位
で保持することによって、音声入力されたクエリを音素
や音節に展開して、検索対象の音素や音節と照合するこ
とで、クエリに未登録語が含まれている場合でも適切な
検索処理を行うことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の音声データ
からなる音声データベースに対する検索を正確且つ確実
に行なうための音声処理装置及び音声データ検索装置に
係り、特に、音声データを音素や音節などの単語以下の
単位で扱うことで正確且つ確実な音声データの検索を行
なう音声処理装置及び音声データ検索装置に関する。更
に詳しくは、本発明は、音声データに含まれる音素や音
節・単語などの出現尤度を的確に計算して、出現尤度に
基づいて音声データの検索を正確且つ確実に行なう音声
処理装置及び音声データ検索装置に関する。
【0002】
【従来の技術】昨今の情報処理技術の発展に伴い、高機
能で且つ強力な演算能力を持つ汎用コンピュータ・シス
テムが、各種研究機関や企業内のオフィス、一般家庭へ
と広汎に普及してきている。また、コンピュータの適用
分野も拡大し、コンピュータ・データのみならず、画像
(静止画と動画の双方を含む)や音声など、様々のデー
タも電子化されコンピュータ上で扱われるようになって
きた。
【0003】特に最近では、キーボードを介したキャラ
クタ入力やマウスを介した指示座標入力に代わって、音
声によるコンピュータ入力を実現する音声入力や音声認
識に関する技術の開発や関連製品の発表が盛んになされ
ている。また、膨大サイズの音声データを扱うことに伴
ない、複数の音声データからなる音声データベースの中
から所望の音声データを検索する「音声データ検索」に
対する要望も高まってきている。
【0004】例えば、特開平5−334861号公報に
開示された「音声検索装置」では、音声信号を記録した
記録媒体の中から、所定の音声キーワードに基づいて所
望の音声信号部分を検索する技術が提案されている。同
公報の実施例では、音声キーワード、音声データの両者
とも、音声認識されて一旦テキスト化された後、キーワ
ードとデータが一致する部分を検出することによって検
索を行う音声検索装置について記述している。
【0005】また、特開平8−249343号公報に開
示された「音声情報取得装置及び音声情報取得方法」で
は、ニュース音声や既存の音声データを音声認識し、キ
ーワードや分野特有の言い回し(例えば「7時のニュー
スです」や、「スポーツ情報です」など)を検出して音
声データに付加することによって、検索に用いる方法が
提案されている。
【0006】上記した従来法はいずれも、検索対象とな
る音声データを、音声認識装置を用いて一度テキスト・
データへ書き起こし、そのテキスト・データに対して検
索処理を行う方法を採用している。しかしながら、この
検索処理方法には、以下のような問題がある。すなわ
ち、 (1)音声認識の結果であるテキストに認識誤りが含ま
れている場合、正しい検索結果が得られない。 (2)音声認識装置に登録されていない単語(すなわち
未登録語)は、書き起こしたテキスト・データには登場
しない。このため、未登録語を検索キーにして検索を行
っても、検索結果が得られない。
【0007】本発明は、このような技術的課題を勘案し
てなされたものであり、音声を認識して音素や音節・単
語等を単位とする有向グラフ型のデータ構造を作成し、
このデータ構造を基にして、音声の中に含まれる音素や
音節・単語等の列の出現尤度を計算しておくことによっ
て、内容に基づいた音声データの検索を正確且つ確実に
行えるようにするものである。
【0008】
【発明が解決しようとする課題】本発明の目的は、複数
の音声データからなる音声データベースに対する検索を
正確且つ確実に行なうことができる、優れた音声処理装
置及び音声データ検索装置を提供することにある。
【0009】本発明の更なる目的は、音声データを音素
や音節などの単語以下の単位で扱うことで正確且つ確実
な音声データの検索を行なうことができる、優れた音声
処理装置及び音声データ検索装置を提供することにあ
る。
【0010】本発明の更なる目的は、音声データに含ま
れる音素や音節・単語などの出現尤度を的確に計算し
て、出現尤度に基づいて音声データの検索を正確且つ確
実に行なうことができる、優れた音声処理装置及び音声
データ検索装置を提供することにある。
【0011】
【課題を解決するための手段及び作用】本発明は上記課
題を参酌してなされたものであり、本発明に係る音声処
理装置は、音声を認識して音素や音節・単語等を単位と
する有向グラフ型のデータ構造を作成し、このデータ構
造を基にして、音声の中に含まれる音素や音節・単語等
の列の出現尤度を計算する。
【0012】出現尤度は、上記の有向グラフ型のデータ
構造から得た音素や音節・単語等の列の分布とそのスコ
アを基にして計算される。
【0013】また、上記のスコアは、音素や音節・単語
等の列に対する音響的尤度、言語的尤度、あるいはそれ
らの組み合わせを基にして算出される。スコアは、ある
いは音素や音節・単語等の列を含む上記グラフ上の経路
の数を基にして算出してもよい。
【0014】また、本発明に係る音声データ検索装置
は、上記の出現尤度計算方法を用いて、複数の音声デー
タからなる音声データベースから音素や音節・単語等の
出現尤度を計算して保管しておく出現尤度保管部と、検
索要求の入力を受けるクエリ入力部と、クエリを音素や
音節・単語等の列に変換するクエリ変換部と、前記変換
されたクエリを保管するクエリ保管部と、前記クエリ保
管部のクエリと前記出現尤度保管部の出現尤度を照合し
て両者の一致度を計算する照合部と、前記照合部の結果
を提示する検索結果提示部を備えることを特徴とする。
【0015】本発明を応用した音声データ検索システム
では、音声認識の結果を有向グラフ型のデータ構造で表
現するようにしている。有向グラフ型のデータ構造を用
いることによって、書き起こしテキストを用いた場合よ
りもはるかに多くの認識結果候補を保持することがで
き、且つ、音声認識装置の認識誤りから生じる検索誤り
の可能性を低減することができる。また、検索対象とな
る音声データの音声認識結果を音素や音節などの単語以
下の単位で保持することによって、音声入力されたクエ
リを音素や音節に展開して、検索対象の音素や音節と照
合することができる。これによって、クエリに未登録語
が含まれている場合でも適切な検索処理を行うことがで
きる。
【0016】本発明のさらに他の目的、特徴や利点は、
後述する本発明の実施例や添付する図面に基づくより詳
細な説明によって明らかになるであろう。
【0017】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施例を詳解する。
【0018】図1には、本発明の実施に供される音声デ
ータ検索装置10のシステム構成を模式的に示してい
る。同図に示すように、音声データ検索装置10は、音
声認識部11と、音声データベース12と、出現尤度計
算部13と、出現尤度保管部14と、クエリ入力部15
と、クエリ変換部16と、クエリ保管部17と、照合部
18と、検索結果提示部19と、ユーザ・インターフェ
ースとしてのキーボード及びディスプレイ20を備えて
いる。以下、各ブロックについて説明する。
【0019】音声認識部11は、音声データベース12
中の音声データ・ファイルを音声認識して、単語を単位
とする有向グラフ型のデータ構造(以下、「単語グラ
フ」と呼ぶ)を作成する。有向グラフは、ノード(節)
の集合と、二つのノードを結ぶアーク(枝)の集合とし
て定義され、各アークは向きを有している。
【0020】本実施例で扱う単語グラフでは、アークに
は単語名とその単語の言語的尤度が対応している。ま
た、本実施例では、各アークの単語の言語的尤度は、大
量のテキスト・データを基に推定した単語モノグラム・
モデルを用いて、その出現確率の対数をとることによっ
て規定される。言語的尤度は負の値をとり、数値が大き
い方がより尤もらしいということになる。
【0021】なお、各単語の言語的尤度を算出する際
に、本実施例で用いた単語モノグラムよりもより制約力
が強い、単語バイグラムや単語トライグラムを用いるこ
とも可能である。
【0022】出現尤度計算部13は、このデータ構造を
基に、音声に登場する各単語の出現尤度を音声データ・
ファイル毎に計算し、出現尤度保管部14に保管する。
【0023】クエリ入力部15は、ユーザがキーボード
などのユーザ・インターフェース20を介して入力した
クエリ(日本語のフレーズ)を受け取る。本実施例で
は、キーボード入力された日本語フレーズを対象にする
が、それ以外の入力形態、例えば、マイクロフォンで入
力された日本語音声を音声認識して得られた日本語フレ
ーズをクエリとすることもできる。
【0024】クエリ変換部16は、日本語フレーズであ
るクエリを形態素解析して単語を抽出し、それらを要素
としたクエリ単語集合を作成する。クエリ保管部17
は、クエリ変換部16で作成したクエリ単語集合を保管
する。
【0025】照合部18は、クエリ保管部17に格納さ
れたのクエリ単語集合と、出現尤度保管部14に格納さ
れた単語の出現尤度との照合を行ない、音声データベー
ス12に格納されている各音声データ・ファイルに対し
て、クエリ単語集合との照合スコアを計算する。
【0026】検索結果提示部19は、ディスプレイ20
上に、検索結果としての音声データ・ファイル名を照合
スコア順に一覧表示する。
【0027】次に、本実施例に係る音声データ検索装置
10の動作について説明する。
【0028】図 2には、本実施例に係る音声データ検
索装置10が実行する処理手順をフローチャート形式で
示している。以下、このフローチャートの各ステップに
ついて説明する。
【0029】ユーザは、検索クエリとしての日本語フレ
ーズを、キーボードなどのユーザ・インターフェース2
0を介して入力する。クエリ変換部16では、その日本
語フレーズを形態素解析して単語に分割し、それらの単
語のうち、検索のキーワードとして有効と考えられる自
立語を抽出する(ステップS11)。自立語は、名詞や
動詞などからなる。
【0030】次いで、抽出された自立語を要素としたク
エリ単語集合をクエリ保管部17に保管する(ステップ
S12)。
【0031】次いで、照合部18は、各音声データ・フ
ァイルについて予め計算してある各単語の出現尤度とク
エリ単語集合とを照合することによって、音声データ・
ファイル毎の照合スコアを算出する。そして、照合結果
を検索結果提示部に渡す(ステップS13)。
【0032】検索結果提示部19は、各音声データ・フ
ァイル毎の照合スコアを照合部18から受け取り、音声
データ・ファイルの名前を照合スコアが大きい順にディ
スプレイ20上に一覧表示する(ステップS14)。
【0033】上述のステップS13では、照合対象と単
語の出現尤度を音声データ・ファイル毎に予め計算して
おく必要がある。以下では、この出現尤度の計算処理処
理について説明する。図 3には、出現尤度を計算する
処理手順をフローチャートの形式で示している。
【0034】まず、音声認識部11は、音声データベー
ス12の中から音声データ・ファイルを1つ取り出す
(ステップS21)。音声データベース12には、数多
くの音声データ・ファイルが所定形式(フォーマット)
に従って格納されている。音声データ・ファイルのファ
イル形式の一例はWAV形式であり、拡張子”.wa
v”を持つ。
【0035】次いで、音声認識部11は、取り出した音
声データ・ファイルを音声認識して、単語グラフに変換
する(ステップS22)。単語グラフの各アークには、
前述のように、単語名とその単語の言語的尤度が対応し
ている。
【0036】出現尤度計算部13は、単語名フィールド
と出現尤度フィールドを持つ単語出現尤度表を、各音声
データ・ファイル毎に1つ用意する。
【0037】次いで、出現尤度計算部13は、単語グラ
フ中の1つのアークに注目し、単語名を読み、上述の単
語出現尤度表への登録処理を行なう(ステップS2
3)。すなわち、読み出した単語が単語出現尤度表のエ
ントリとして存在しない場合は、単語出現尤度表の新た
なエントリを作成して、該エントリの単語名フィールド
にその単語名を書き込み、また、出現尤度フィールドに
以下の[数1]に示す式によって計算した数値を書き込
む。
【0038】
【数1】
【0039】他方、読み出した単語が既に出現尤度表の
エントリとして存在する場合は、その単語エントリの出
現尤度を、以下の[数2]に示す式を用いて更新する。
【0040】
【数2】
【0041】次いで、ステップS24では、単語グラフ
中の全てのアークについて調べたか否かをチェックす
る。未処理のアークが残っている場合には、ステップS
23に復帰して、上述と同様の処理を繰り返し行う。
【0042】また、ステップS25では、音声データベ
ース12中の全ての音声データ・ファイルに調べたか否
かをチェックする。未処理の音声データ・ファイルが残
っている場合には、ステップS21に復帰して、上述と
同様の処理を繰り返し行う。
【0043】図4には、図3に示した処理に従って作成
される単語出現尤度表を示している。単語出現尤度表
は、音声データベース12に格納される各音声データ・
ファイル毎に作成され、出現尤度格納部14に格納され
る。
【0044】単語出現尤度の計算については、図3に示
した処理手順に従って単語の言語的尤度を基に計算する
こともできるが、単語を構成する各音節や音素の音響的
尤度を加味することも無論可能である。また、以下の
(1)〜(7)に示す処理手順に従って、アークを含む
経路の数に基づいて単語出現尤度を計算することも可能
である。すなわち、
【0045】(1)音声認識部11は、音声データベー
ス12の中から、音声データ・ファイルを1つ取り出
す。
【0046】(2)音声認識部11は、取り出した音声
データ・ファイルを音声認識して、単語グラフに変換す
る。単語グラフの各アークには、単語名とそのアークを
通る経路の数が記述してある。
【0047】(3)出現尤度計算部13は、単語名フィ
ールドと出現尤度フィールドを持つ単語出現尤度表を作
成する。単語出現尤度表は、各音声データ・ファイル毎
に1つ用意される。
【0048】(4)出現尤度計算部14は、単語グラフ
中の1つのアークに注目し、単語名を読む。
【0049】(5)読み出した単語が単語出現尤度表の
エントリとして存在しない場合は、単語出現尤度表の新
たなエントリを作成して、該エントリの単語名フィール
ドにその単語名を書き込むとともに、該エントリの出現
尤度フィールドに以下の[数3]に示す式によって計算
した数値を書き込む。
【0050】
【数3】
【0051】また、その単語が既に単語出現尤度表のエ
ントリとして存在する場合は、その単語エントリの出現
尤度を以下の[数4]に示す式を用いて更新する。
【0052】
【数4】
【0053】(6)単語グラフの全てのアークについ
て、上記処理(4)及び(5)を繰り返し行う。
【0054】(7)音声データベース12に格納されて
いる全ての音声データ・ファイルについて、上記処理
(1)〜(6)を繰り返し行う。
【0055】本明細書中では、単語の出現尤度を計算す
るための2通り方法を述べたが、無論、これらの方法や
出現尤度を計算する他の方法を組み合わせて用いること
も可能である。例えば、これらの処理を行ってから、さ
らにTF.IDF(termfrequency, i
nverse document frequenc
y)法などを用いて、検索に対する有効性を加味した形
態で出現尤度表の出現尤度を修正することも可能であ
る。すなわち、出現頻度表Ti中の単語wjの出現尤度を
S(Ti,wj)とし、TF.IDF法を適用した出現尤
度をS’(Ti,wj)とすると、以下の[数5]に示す
式によって出現尤度を修正することができる。
【0056】
【数5】
【0057】図2に示した音声データ検索処理におい
て、ステップS13ではクエリ単語集合と出現尤度表と
の照合処理を行なう。図5には、N個の単語からなるク
エリ単語集合と音声データベース12中の各音声データ
・ファイルに対応した単語の出現尤度表を照合する処理
手順をフローチャートの形式で示している。以下では、
図5を参照しながら、照合処理について詳解する。
【0058】出現尤度保管部14には、音声データベー
ス12に格納された数多くの音声データ・ファイルの各
々に対応する単語出現尤度表が蓄積されている。まず、
ステップS31では、出現尤度保管部14に保管されて
いる単語出現尤度表のうちから1つを取り出す。
【0059】また、クエリ保管部17に格納されている
クエリ単語集合に含まれるN個の単語のうちから単語を
1つだけ取り出す(ステップS32)。
【0060】次いで、取り出した単語を出現尤度表の単
語名フィールドから検索する。出現尤度表中の該当する
エントリの出現尤度をその単語の検索スコアとする。ま
た、該当するエントリがない場合は、検索スコアを0と
する(ステップS33)。
【0061】ステップS34では、クエリ単語集合中の
全ての単語について処理を終えたか否かをチェックす
る。未処理の単語が残っていればステップS32に復帰
して、残りの単語についてステップS32及びS33を
繰り返し行なう。そして、各単語の検索スコアを加算し
たものを、その単語出現尤度表に対応する音声データ・
ファイルの照合スコアとする(ステップS35)。
【0062】次いで、ステップS36では、出現尤度保
管部14に格納されている全ての単語出現尤度表につい
て処理を終えたか否かをチェックする。未処理の単語出
現尤度表があれば、ステップS31に復帰して、残りの
単語出現尤度表に対してステップS31〜S35の処理
を繰り返し行なう。そして、各音声データ・ファイル毎
の照合スコアを算出して保持しておく。
【0063】以上の説明では、音声認識結果を単語グラ
フとして単語出現尤度を計算したが、音声認識結果を音
節グラフとして音節連鎖出現尤度を計算し、音節に展開
したクエリと照合することによって音声データ・ファイ
ルを検索する、という変形例も考えることができる。
【0064】この変形例の場合、音声認識部11は、音
声データベース12中の音声データ・ファイルを音声認
識して、音節を単位とする有向グラフ型のデータ構造
(以下、音節グラフと呼ぶ)を作成する。音節グラフで
は、アークには音節名とその音節の音響的尤度が対応し
ている。各アークの音節の音響的尤度は、HMMなどを
用いて求められた音節の出現確率の対数をとることによ
って規定される。
【0065】出現尤度計算部12は、このデータ構造を
基にして、音声に登場する音節連鎖(例えば音節の3連
鎖)の出現尤度を音声データ・ファイル毎に計算すれば
よい。
【0066】図6には、この変形例において出現尤度を
計算する処理手順をフローチャートの形式で示してい
る。以下、このフローチャートの各ステップについて説
明する。
【0067】まず、音声認識部11は、音声データベー
ス12の中から音声データ・ファイルを1つ取り出す
(ステップS41)。
【0068】次いで、音声認識部11は、取り出した音
声データ・ファイルを音声認識して、音節グラフに変換
する(ステップS42)。
【0069】次いで、音節グラフの1つのアークに注目
して、そのアークから辿ることができる音節の3連鎖を
抽出する(ステップS43)。
【0070】次いで、音節3連鎖を1つ取り出して、音
節連鎖の名前とその出現尤度を、対応する音声データ・
ファイルの音声連鎖出現頻度表に登録する(ステップS
44)。
【0071】ステップS45では、全ての音節3連鎖に
ついて調べたか否かをチェックする。未処理の音節3連
鎖が残っている場合には、ステップS44に復帰して、
上述と同様の処理を繰り返し行う。
【0072】次いで、ステップS46では、音節グラフ
中の全てのアークについて調べたか否かをチェックす
る。未処理のアークが残っている場合には、ステップS
43に復帰して、上述と同様の処理を繰り返し行う。
【0073】また、ステップS47では、音声データベ
ース12中の全ての音声データ・ファイルに調べたか否
かをチェックする。未処理の音声データ・ファイルが残
っている場合には、ステップS41に復帰して、上述と
同様の処理を繰り返し行う。
【0074】図7には、図6に示した処理に従って作成
される単語出現尤度表を示している。単語出現尤度表
は、音声データベース12に格納される各音声データ・
ファイル毎に作成され、出現尤度保管部14に格納され
る。
【0075】また、クエリ保管部17には、クエリの単
語を音節に展開したものの集合(図9を参照のこと)が
保管される。
【0076】照合部18は、クエリ保管部17に保管さ
れたクエリと、出現尤度保管部14に保管された音声デ
ータ・ファイル毎の音節連鎖の出現尤度を照合処理し
て、音声データベース12中の各音声データ・ファイル
に対して、クエリ単語集合との照合スコアを計算する。
【0077】図8には、照合部18が行なう照合処理の
手順をフローチャートの形式で示している。以下、この
フローチャートの各ステップについて説明する。
【0078】まず、出現尤度保管部14から出現尤度表
を1つ取り出す(ステップS51)。
【0079】次いで、クエリ保管部17に格納されたク
エリ単語集合から単語を1つ取り出して、その単語を構
成する音節の3連鎖を全て抽出する(ステップS5
2)。
【0080】次いで、抽出された音節の3連鎖の1つを
取り出す(ステップS53)。
【0081】そして、取り出した音節3連鎖を見出しと
するエントリを出現尤度表の中で検索する。該当するエ
ントリを発見できたら、その出現尤度を読み出し、これ
を音節3連鎖の検索スコアとする(ステップS54)。
【0082】ステップS55では、取り出した単語中の
全ての音節3連鎖について調べたか否かをチェックす
る。未処理の音節3連鎖が残っていれば、ステップS5
3に復帰して、上述と同様の処理を繰り返し行なう。
【0083】単語中の全ての音節3連鎖について処理を
終えたならば、求めた全ての検索スコアの平均を計算
し、その平均値を単語についての検索スコアとする(ス
テップS56)。
【0084】次いで、ステップS57では、クエリ単語
集合中の全ての単語について処理を終えたか否かをチェ
ックする。未処理の単語が残っている場合には、ステッ
プS52に復帰して、上述と同様の処理を繰り返し行な
う。
【0085】クエリ単語集合中の全ての単語について処
理を終えたならば、全ての単語の検索スコアを加算す
る。そして、求められた合計値を、その音節連鎖出現尤
度に対応する音声データについての照合スコアとする
(ステップS58)。
【0086】次いで、ステップS59では、出現尤度保
管部14に格納されている音節連鎖出現尤度表を全て調
べたか否かをチェックする。未処理の音節連鎖出現尤度
表が残っていれば、ステップS51に復帰して、上述と
同様の処理を繰り返し行なう。
【0087】[追補]以上、特定の実施例を参照しなが
ら、本発明について詳解してきた。しかしながら、本発
明の要旨を逸脱しない範囲で当業者が該実施例の修正や
代用を成し得ることは自明である。すなわち、例示とい
う形態で本発明を開示してきたのであり、限定的に解釈
されるべきではない。本発明の要旨を判断するために
は、冒頭に記載した特許請求の範囲の欄を参酌すべきで
ある。
【0088】
【発明の効果】以上詳記したように、本発明によれば、
複数の音声データからなる音声データベースに対する検
索を正確且つ確実に行なうことができる、優れた音声処
理装置及び音声データ検索装置を提供することができ
る。
【0089】また、本発明によれば、音声データを音素
や音節などの単語以下の単位で扱うことで正確且つ確実
な音声データの検索を行なうことができる、優れた音声
処理装置及び音声データ検索装置を提供することができ
る。
【0090】また、本発明によれば、音声データに含ま
れる音素や音節・単語などの出現尤度を的確に計算し
て、出現頻度に基づいて音声データの検索を正確且つ確
実に行なうことができる、優れた音声処理装置及び音声
データ検索装置を提供することができる。
【0091】本発明を応用した音声データ検索システム
では、音声認識の結果を有向グラフ型のデータ構造を用
いて表現することによって、書き起こしテキストを用い
る場合よりもはるかに多くの認識結果候補を保持するこ
とができ、さらには、音声認識装置の認識誤りから生じ
る検索誤りの可能性を低減することができる。また、検
索対象となる音声データの音声認識結果を音素や音節な
どの単語以下の単位で保持することによって、音声入力
されたクエリを音素や音節に展開して、検索対象の音素
や音節と照合することで、クエリに未登録語が含まれて
いる場合でも適切な検索処理を行うことができる。
【図面の簡単な説明】
【図1】 本実施例に係る音声データ検索装置の構成を
模式的に示した図である。
【図2】 本実施例に係る音声データ検索装置の処理手
順を示したフローチャートである。
【図3】 本実施例に係る音声データ検索装置内で実行
される出現尤度計算の処理手順を示したフローチャート
である。
【図4】 本実施例において使用される単語出現尤度表
である。
【図5】 本実施例に係る音声データ検索装置内で実行
される照合処理の手順を示したフローチャートである。
【図6】 本実施例に係る音声データ検索装置内で実行
される出現尤度計算処理の手順を示したフローチャート
である。
【図7】 本実施例において使用される音節連鎖出現尤
度表である。
【図8】 本実施例に係る音声データ検索装置内で実行
される照合処理の手順を示したフローチャートである。
【図9】 本実施例に係る音節列展開処理の手順を示し
たフローチャートである。
【符号の説明】
10…音声データ検索装置、11…音声認識部、12…
音声データベース、13…出現尤度計算部、14…出現
尤度保管部、15…クエリ入力部、16…クエリ変換
部、17…クエリ保管部、18…照合部、19…検索結
果提示部、20…ユーザ・インターフェース。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND14 PP07 PQ46 PQ74 PR04 PR06 QM08 5D015 KK03 LL08 9A001 BB06 GG01 HH15 HH17 JJ01 JJ07

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】音声を認識して音素や音節・単語等を単位
    とする有向グラフ型のデータ構造を作成し、このデータ
    構造を基に、音声の中に含まれる音素や音節・単語等の
    列の出現尤度を計算することを特徴とする音声処理装
    置。
  2. 【請求項2】上記データ構造から得た音素や音節・単語
    等の列の分布とそのスコアを基に出現尤度を計算するこ
    とを特徴とする請求項1に記載の音声処理装置。
  3. 【請求項3】音素や音節・単語等の列に対する音響的尤
    度、言語的尤度、あるいはそれらの組み合わせを基にし
    てスコアを算出することを特徴とする請求項2に記載の
    音声処理装置。
  4. 【請求項4】音素や音節・単語等の列を含む上記グラフ
    上の経路の数を基にスコアを算出することを特徴とする
    請求項2に記載の音声処理装置。
  5. 【請求項5】検索要求の入力を受けるクエリ入力部と、
    クエリを音素や音節・単語等の列に変換するクエリ変換
    部と、前記クエリ変換部による変換後のクエリを保管す
    るクエリ保管部と、請求項1、2、3、又は4のいずれ
    かに記載の音声処理装置を用いて複数の音声データから
    なる音声データベースから計算された音素や音節・単語
    等の出現尤度を保管する出現尤度保管部と、前記クエリ
    保管部のクエリと前記出現尤度保管部の出現尤度を照合
    して両者の一致度を計算する照合部と、前記照合部の結
    果を提示する検索結果提示部とを具備することを特徴と
    する音声データ検索装置。
JP11058295A 1999-03-05 1999-03-05 音声処理装置及び音声データ検索装置 Pending JP2000259645A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11058295A JP2000259645A (ja) 1999-03-05 1999-03-05 音声処理装置及び音声データ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11058295A JP2000259645A (ja) 1999-03-05 1999-03-05 音声処理装置及び音声データ検索装置

Publications (1)

Publication Number Publication Date
JP2000259645A true JP2000259645A (ja) 2000-09-22

Family

ID=13080241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11058295A Pending JP2000259645A (ja) 1999-03-05 1999-03-05 音声処理装置及び音声データ検索装置

Country Status (1)

Country Link
JP (1) JP2000259645A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005257954A (ja) * 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム
JP2006040150A (ja) * 2004-07-29 2006-02-09 Mitsubishi Electric Corp 音声データ検索装置
JP2006243673A (ja) * 2005-03-07 2006-09-14 Canon Inc データ検索装置および方法
JP2008532099A (ja) * 2005-02-25 2008-08-14 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム
JP2008262279A (ja) * 2007-04-10 2008-10-30 Mitsubishi Electric Corp 音声検索装置
JP2011023007A (ja) * 2009-07-17 2011-02-03 Nhn Corp 統計データに基づくユーザクエリ校正システムおよび方法
JP5386692B2 (ja) * 2007-08-31 2014-01-15 独立行政法人情報通信研究機構 対話型学習装置
US8731926B2 (en) 2010-03-04 2014-05-20 Fujitsu Limited Spoken term detection apparatus, method, program, and storage medium

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005257954A (ja) * 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム
US7813928B2 (en) 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム
JP4595415B2 (ja) * 2004-07-14 2010-12-08 日本電気株式会社 音声検索システムおよび方法ならびにプログラム
JP2006040150A (ja) * 2004-07-29 2006-02-09 Mitsubishi Electric Corp 音声データ検索装置
JP4511274B2 (ja) * 2004-07-29 2010-07-28 三菱電機株式会社 音声データ検索装置
JP2008532099A (ja) * 2005-02-25 2008-08-14 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム
JP2006243673A (ja) * 2005-03-07 2006-09-14 Canon Inc データ検索装置および方法
JP2008262279A (ja) * 2007-04-10 2008-10-30 Mitsubishi Electric Corp 音声検索装置
JP5386692B2 (ja) * 2007-08-31 2014-01-15 独立行政法人情報通信研究機構 対話型学習装置
US8868410B2 (en) 2007-08-31 2014-10-21 National Institute Of Information And Communications Technology Non-dialogue-based and dialogue-based learning apparatus by substituting for uttered words undefined in a dictionary with word-graphs comprising of words defined in the dictionary
JP2011023007A (ja) * 2009-07-17 2011-02-03 Nhn Corp 統計データに基づくユーザクエリ校正システムおよび方法
US8731926B2 (en) 2010-03-04 2014-05-20 Fujitsu Limited Spoken term detection apparatus, method, program, and storage medium

Similar Documents

Publication Publication Date Title
Chelba et al. Retrieval and browsing of spoken content
US6618726B1 (en) Voice activated web browser
US7856350B2 (en) Reranking QA answers using language modeling
US7567902B2 (en) Generating speech recognition grammars from a large corpus of data
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
US7092870B1 (en) System and method for managing a textual archive using semantic units
US7580835B2 (en) Question-answering method, system, and program for answering question input by speech
US9361879B2 (en) Word spotting false alarm phrases
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
WO2003010754A1 (fr) Systeme de recherche a entree vocale
WO2017127296A1 (en) Analyzing textual data
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
JP4738847B2 (ja) データ検索装置および方法
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP4089861B2 (ja) 音声認識文章入力装置
JP2004258531A (ja) 認識誤り訂正方法、装置、およびプログラム
Palmer et al. Information extraction from broadcast news speech data
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
JP3309174B2 (ja) 文字認識方法及び装置
JP2003308094A (ja) 音声認識における認識誤り箇所の訂正方法
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 11

Free format text: PAYMENT UNTIL: 20090515

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100515

Year of fee payment: 12

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 13

Free format text: PAYMENT UNTIL: 20110515

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 13

Free format text: PAYMENT UNTIL: 20110515

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 14

Free format text: PAYMENT UNTIL: 20120515

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 14

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 15

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140515

Year of fee payment: 16