JP2001290496A

JP2001290496A - 音声検索装置および音声検索方法および記録媒体

Info

Publication number: JP2001290496A
Application number: JP2000111907A
Authority: JP
Inventors: Tetsuya Muroi; 哲也室井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2000-04-07
Filing date: 2000-04-07
Publication date: 2001-10-19

Abstract

(57)【要約】【課題】キーワードを発声した話者の話者性に影響さ
れずに、キーワードから音声データを認識精度，検索精
度良く検索することの可能な音声検索装置を提供する。【解決手段】第２の音声認識部５は、話者が発声した
キーワードの音声（音声入力部１から入力された音声）
とキーワード候補格納部４に格納されている音声パター
ンとしてのキーワード候補との照合を行なってキーワー
ドを音声パターンとして割り出し、第１の音声認識部３
は、第２の音声認識部５で割り出された音声パターンと
してのキーワードと音声データ格納部２に格納されてい
る音声データとの照合を行ない、第２の音声認識部５で
割り出された音声パターンとしてのキーワードにより、
音声データ格納部２から所定のデータを検索する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、留守番電話やビデ
オ等の音声データが格納された機器などから所望の音声
データを検索する音声検索装置および音声検索方法およ
び記録媒体に関する。

【０００２】

【従来の技術】従来、音声データが蓄積された装置か
ら、利用者が必要な音声データを検策するのに、例え
ば、特開平５−３３４８６１号や特開平６−１７５６９
８号に示されているような装置が知られている。図８は
従来の音声検索装置の構成例を示す図である。すなわ
ち、図８を参照すると、この音声検索装置は、話者の音
声が入力する音声入力部１０１と、音声データが格納さ
れている音声データ格納部１０２と、音声認識部１０３
とを有し、音声認識部１０３は、話者がキーワードを音
声で発声するとき、音声入力部１０１から入力された音
声データ（話者が発声した音声データ）をキーワードと
して、音声データ格納部１０２から音声データを検索す
るようになっている。なお、ここで、音声データ格納部
１０２に格納されている音声データは、所定の利用者が
発声した音声に基づいている。

【０００３】すなわち、特開平５−３３４８６１号や特
開平６−１７５６９８号に示されているいずれの技術
も、話者が発声した音声データをキーワードとして用い
て、音声データを検索するようになっている。

【０００４】

【発明が解決しようとする課題】しかしながら、上述し
た従来の音声検索装置では、話者が発声した音声データ
をキーワードとして用いるために（話者性が残っている
ものをキーワードとして用いるために）、音声データ格
納部１０２に格納されている音声データを作成した時の
利用者とは異なる話者がキーワードを発声した場合に
は、発声したキーワードと音声データ格納部１０２に格
納されている音声データとの照合において、認識精度が
良くなく、検索精度が良くないという問題があった。

【０００５】本発明は、キーワードを発声した話者の話
者性に影響されずに、キーワードから音声データを認識
精度，検索精度良く検索することの可能な音声検索装置
および音声検索方法および記録媒体を提供することを目
的としている。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の発明は、音声データが格納されてい
る音声データ格納部と、第１の音声認識部と、キーワー
ド候補が音声パターンとして格納されているキーワード
候補格納部と、第２の音声認識部とを有し、第２の音声
認識部は、話者が発声したキーワードの音声とキーワー
ド候補格納部に格納されている音声パターンとしてのキ
ーワード候補との照合を行なってキーワードを音声パタ
ーンとして割り出し、第１の音声認識部は、第２の音声
認識部で割り出された音声パターンとしてのキーワード
と音声データ格納部に格納されている音声データとの照
合を行ない、第２の音声認識部で割り出された音声パタ
ーンとしてのキーワードにより、音声データ格納部から
所定のデータを検索するようになっていることを特徴と
している。

【０００７】また、請求項２記載の発明は、音声データ
が格納されている音声データ格納部と、第１の音声認識
部と、第１の音響モデルが格納されている第１の音響モ
デル格納部と、キーワード候補がテキスト情報として格
納されているキーワード候補格納部と、第２の音響モデ
ルが格納されている第２の音響モデル格納部と、第２の
音声認識部とを有し、第２の音声認識部は、キーワード
候補格納部に格納されているテキスト情報としての候補
を第２の音響モデル格納部に格納されている第２の音響
モデルと組み合わせて得られる音声パターンとしてのキ
ーワード候補と話者が発声したキーワードの音声との照
合を行なって、キーワードをテキスト情報として割り出
し、第１の音声認識部は、第２の音声認識部で割り出さ
れたテキスト情報としてのキーワードを第１の音響モデ
ル格納部に格納されている第１の音響モデルと組み合わ
せて得られる音声パターンとしてのキーワードと音声デ
ータ格納部に格納されている音声データとの照合を行な
い、音声パターンとしてのキーワードより、音声データ
格納部から所定のデータを検索するようになっているこ
とを特徴としている。

【０００８】また、請求項３記載の発明は、請求項１ま
たは請求項２記載の音声検索装置において、第１の音声
認識部は、音声パターンとしてのキーワードと音声デー
タ格納部に格納されている音声データとの照合の結果、
キーワードに対して類似度の高いデータが認識結果とし
て検出されたときに、認識結果としてのデータの名称，
認識スコア，照合位置のうちの少なくとも１つを提示す
ることを特徴としている。

【０００９】また、請求項４記載の発明は、請求項１乃
至請求項３のいずれか一項に記載の音声検索装置におい
て、第１の音声認識部は、音声パターンとしてのキーワ
ードと音声データ格納部に格納されている音声データと
の照合の結果、キーワードに対して複数個の認識結果が
検出されたときに、複数個の認識結果を認識スコアの順
に提示することを特徴としている。

【００１０】また、請求項５記載の発明は、請求項２記
載の音声検索装置において、音声パターンとしてのキー
ワードと音声データ格納部に格納されている音声データ
との第１の音声認識部における照合の結果、キーワード
に対して類似度の高いデータが認識結果として検出さ
れ、該認識結果が提示されて、提示された認識結果に対
して正解／非正解の判断がなされたときに、第１の音響
モデル格納部に格納されている第１の音響モデルに対し
て、正解の認識結果のスコアを上げるように、第１の音
響モデルのパラメータの修正を行なう修正手段がさらに
設けられていることを特徴としている。

【００１１】また、請求項６記載の発明は、請求項２記
載の音声検索装置において、音声パターンとしてのキー
ワードと音声データ格納部に格納されている音声データ
との第１の音声認識部における照合の結果、キーワード
に対して類似度の高いデータが認識結果として検出さ
れ、該認識結果が提示されて、提示された認識結果に対
して正解／非正解の判断がなされたときに、第１の音響
モデル格納部に格納されている第１の音響モデルに対し
て、正解の認識結果のスコアを上げ、非正解の認識結果
のスコアを下げるように、第１の音響モデルのパラメー
タの修正を行なう修正手段がさらに設けられていること
を特徴としている。

【００１２】また、請求項７記載の発明は、請求項５ま
たは請求項６記載の音声検索装置において、音声データ
格納部に格納されている音声データは複数のセグメント
に分割されており、各セグメントに対して、それぞれ第
１の音響モデルが用意されており、前記修正手段による
第１の音響モデルのパラメータの修正は、認識結果の照
合位置が含まれるセグメントに対する第１の音響モデル
に対して行なわれることを特徴としている。

【００１３】また、請求項８記載の発明は、音声データ
格納部には、音声データが格納され、キーワード候補格
納部には、キーワード候補が音声パターンとして格納さ
れているときに、話者が発声したキーワードの音声とキ
ーワード候補格納部に格納されている音声パターンとし
てのキーワード候補との照合を行なってキーワードを音
声パターンとして割り出し、このように割り出された音
声パターンとしてのキーワードと音声データ格納部に格
納されている音声データとの照合を行ない、音声データ
格納部から所定のデータを検索することを特徴としてい
る。

【００１４】また、請求項９記載の発明は、音声データ
格納部には、音声データが格納され、第１の音響モデル
格納部には、第１の音響モデルが格納され、キーワード
候補格納部には、キーワード候補がテキスト情報として
格納され、第２の音響モデル格納部には、第２の音響モ
デルが格納されているときに、キーワード候補格納部に
格納されているテキスト情報としてのキーワード候補を
第２の音響モデル格納部に格納されている第２の音響モ
デルと組み合わせて得られる音声パターンとしてのキー
ワード候補と話者が発声したキーワードの音声との照合
を行なって、キーワードをテキスト情報として割り出
し、割り出されたテキスト情報としてのキーワードを第
１の音響モデル格納部に格納されている第１の音響モデ
ルと組み合わせて得られる音声パターンとしてのキーワ
ードと音声データ格納部に格納されている音声データと
の照合を行ない、音声パターンとしてのキーワードよ
り、音声データ格納部から所定のデータを検索すること
を特徴としている。

【００１５】また、請求項１０記載の発明は、請求項９
記載の音声検索方法において、音声パターンとしてのキ
ーワードと音声データ格納部に格納されている音声デー
タとの照合の結果、キーワードに対して類似度の高いデ
ータが認識結果として検出され、該認識結果が提示され
て、提示された認識結果に対して正解／非正解の判断が
なされたときに、第１の音響モデル格納部に格納されて
いる第１の音響モデルに対して、正解の認識結果のスコ
アを上げるように、第１の音響モデルのパラメータの修
正を行なうことを特徴としている。

【００１６】また、請求項１１記載の発明は、請求項９
記載の音声検索方法において、音声パターンとしてのキ
ーワードと音声データ格納部に格納されている音声デー
タとの照合の結果、キーワードに対して類似度の高いデ
ータが認識結果として検出され、該認識結果が提示され
て、提示された認識結果に対して正解／非正解の判断が
なされたときに、第１の音響モデル格納部に格納されて
いる第１の音響モデルに対して、正解の認識結果のスコ
アを上げ、非正解の認識結果のスコアを下げるように、
第１の音響モデルのパラメータの修正を行なうことを特
徴としている。

【００１７】また、請求項１２記載の発明は、音声デー
タ格納部には、音声データが格納され、キーワード候補
格納部には、キーワード候補が音声パターンとして格納
されているときに、話者が発声したキーワードの音声と
キーワード候補格納部に格納されている音声パターンと
してのキーワード候補との照合を行なってキーワードを
音声パターンとして割り出し、このように割り出された
音声パターンとしてのキーワードと音声データ格納部に
格納されている音声データとの照合を行ない、音声デー
タ格納部から所定のデータを検索する処理をコンピュー
タに実行させるためのプログラムを記録したコンピュー
タ読取可能な記録媒体である。

【００１８】また、請求項１３記載の発明は、音声デー
タ格納部には、音声データが格納され、第１の音響モデ
ル格納部には、第１の音響モデルが格納され、キーワー
ド候補格納部には、キーワード候補がテキスト情報とし
て格納され、第２の音響モデル格納部には、第２の音響
モデルが格納されているときに、キーワード候補格納部
に格納されているテキスト情報としての候補を第２の音
響モデル格納部に格納されている第２の音響モデルと組
み合わせて得られる音声パターンとしてのキーワード候
補と話者が発声したキーワードの音声との照合を行なっ
て、キーワードをテキスト情報として割り出し、割り出
されたテキスト情報としてのキーワードを第１の音響モ
デル格納部に格納されている第１の音響モデルと組み合
わせて得られる音声パターンとしてのキーワードと音声
データ格納部に格納されている音声データとの照合を行
ない、音声パターンとしてのキーワードより、音声デー
タ格納部から所定のデータを検索する処理をコンピュー
タに実行させるためのプログラムを記録したコンピュー
タ読取可能な記録媒体である。

【００１９】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図１は本発明に係る音声検索装置の
第１の構成例を示す図である。図１を参照すると、この
音声検索装置は、話者の音声が入力する音声入力部１
と、音声データが格納されている音声データ格納部２
と、第１の音声認識部３と、キーワード候補が音声パタ
ーンとして格納されているキーワード候補格納部４と、
第２の音声認識部５とを有し、第２の音声認識部５は、
話者が発声したキーワードの音声（音声入力部１から入
力された音声）とキーワード候補格納部４に格納されて
いる音声パターンとしてのキーワード候補との照合を行
なってキーワードを音声パターンとして割り出し、第１
の音声認識部３は、第２の音声認識部５で割り出された
音声パターンとしてのキーワードと音声データ格納部２
に格納されている音声データとの照合を行ない、第２の
音声認識部５で割り出された音声パターンとしてのキー
ワードにより、音声データ格納部２から所定のデータを
検索するようになっている。

【００２０】図２はキーワード候補格納部４に格納され
ている音声パターンとしてのキーワード候補の一例を示
す図である。図２の例では、単語「あさ」の標準音声パ
ターン「ｘ₁…ｘ_k」が１つのキーワード候補として示さ
れている。

【００２１】このような構成では、話者がキーワードの
音声を発声すると、このキーワードの音声はマイクロフ
ォンなどの音声入力部１から入力される。そして、音声
入力部１から入力されたキーワードの音声データ（話者
の発声した音声データ）は、第２の音声認識部５におい
て、キーワード候補格納部４に格納されている音声パタ
ーンとしてのキーワード候補と照合され、第２の音声認
識部５からは最大の類似度（スコア）を持つキーワード
候補（音声パターンとしてのキーワード）が割り出され
る。

【００２２】第１の音声認識部３では、第２の音声認識
部５から割り出された音声パターンとしてのキーワード
を、音声データ格納部２に格納されている音声データと
照合して、音声データ格納部２から所定のデータを検索
することができる。

【００２３】なお、話者は、１単語のキーワードの音声
だけでなく、複数個ｎのキーワードの音声を発声するよ
うにしても良く、この場合には、第２の音声認識部５で
は、音声入力部１から入力された複数個ｎのキーワード
の音声データとキーワード候補格納部４に格納されてい
るキーワード候補（音声パターンとしてのキーワード候
補）との照合を行ない、複数個ｎのキーワードの音声デ
ータに対して、最大の類似度（スコア）をもつ複数個ｎ
のキーワード候補（音声パターンとしてのｎ個のキーワ
ード）を割り出す。そして、第１の音声認識部３では、
第２の音声認識部５で割り出された音声パターンとして
の複数個ｎのキーワードを、音声データ格納部２に格納
されている音声データと照合して、音声データ格納部２
から所定のデータを検索することができる。

【００２４】なお、図１の構成例において、キーワード
候補格納部４には、不特定話者型の音声パターンをキー
ワード候補として格納することができる。この場合、第
２の音声認識部５で割り出されるキーワードは、不特定
話者型の音声パターンとなる。

【００２５】また、キーワードを発声する話者が予め規
定されている場合には、キーワード候補格納部４には、
特定話者型の音声パターンをキーワード候補として格納
することができる。この場合、第２の音声認識部５で割
り出されるキーワードは、特定話者型の音声パターンと
なる。

【００２６】また、音声データ格納部２に格納されてい
る音声データは、一般的に、話者があらかじめ規定され
ていないので（不特定話者のものとなっているので）、
第１の音声認識部３で利用する音声認識方式には、不特
定話者型のものを用いるのが良い。これに対し、音声デ
ータ格納部２に格納されている音声データが講演録や備
忘録などのように、予め話者が規定されているものであ
る場合には、第１の音声認識部３で利用する音声認識方
式には、特定話者型の認識方式や話者適応型の認識方式
を利用するようにしても良い。

【００２７】また、図１の構成例において、第１の音声
認識部３には、連続音声認識型の認識方式、あるいは、
ワードスポッティング型の認識方式を用いることができ
る。すなわち、音声データは、文章などのように、抽出
すべきキーワードより長い単位で発声されることが想定
されるために、当業者に知られているように、連続音声
認識型の認識方式、あるいは、ワードスポッティング型
の認識方式を第１の音声認識部３に用いるのが良い。

【００２８】また、図３は本発明に係る音声検索装置の
第２の構成例を示す図である。なお、図３において、図
１と同様の箇所には同じ符号を付している。図３を参照
すると、この音声検索装置は、話者の音声が入力する音
声入力部１と、音声データが格納されている音声データ
格納部２と、第１の音声認識部１３と、第１の音響モデ
ルが格納されている第１の音響モデル格納部１６と、キ
ーワード候補がテキスト情報として格納されているキー
ワード候補格納部１７と、第２の音響モデルが格納され
ている第２の音響モデル格納部１８と、第２の音声認識
部１５とを有し、第２の音声認識部１５は、キーワード
候補格納部１７に格納されているテキスト情報としての
キーワード候補を第２の音響モデル格納部１８に格納さ
れている第２の音響モデルと組み合わせて得られる音声
パターンとしてのキーワード候補と話者が発声したキー
ワードの音声との照合を行なって、キーワードをテキス
ト情報として割り出し、第１の音声認識部１３は、第２
の音声認識部１５で割り出されたテキスト情報としての
キーワードを第１の音響モデル格納部１６に格納されて
いる第１の音響モデルと組み合わせて得られる音声パタ
ーンとしてのキーワードと音声データ格納部２に格納さ
れている音声データとの照合を行ない、音声パターンと
してのキーワードより、音声データ格納部２から所定の
データを検索するようになっている。

【００２９】図３の構成例では、キーワード候補格納部
１７には、かな文字などで規定されるキーワード候補の
文字列（テキスト情報としてのキーワード候補）が格納
されている。また、第２の音響モデル格納部１８には、
音素モデルなどの音響的なモデルが格納されている。図
３の構成例の場合、第２の音声認識部１５は、音声入力
部１から入力されたキーワードの音声データ（話者が発
声したキーワードの音声データ）を、キーワード候補格
納部１７に格納されているキーワード候補の文字列と第
２の音響モデル格納部１８に格納されている音素モデル
などの音響的なモデルとを使って、認識することができ
る。

【００３０】図４(ａ)，(ｂ) ，(ｃ)には、キーワード
候補格納部１７に格納されているキーワード候補の文字
列（テキスト情報としてのキーワード候補）と第２の音
響モデル格納部１８に格納されている音素モデルなどの
音響的なモデルとを組み合せて、１つのキーワード候補
「あさ」の標準音声パターン「ｘ₁…ｘ_k」を生成する仕
方が示されている。すなわち、図４(ａ)はキーワード候
補格納部１７に格納されているキーワード候補の文字列
（テキスト情報としてのキーワード候補）を示す図であ
り、図４(ａ)の例では、キーワード候補「あさ」，「ひ
る」，「よる」の文字列（テキスト情報）として、「Ａ
ＳＡ」，「ＨＩＲＵ」，「ＹＯＲＵ」がキーワード候補
格納部１７に格納されている。また、図４(ｂ)は第２の
音響モデル格納部１８に格納されている音素モデルなど
の音響的なモデルを示す図であり、図４(ｂ)の例では、
音響的なモデルとして、音素モデル，すなわち音素／ａ
／，／ｉ／，／ｕ／，…の標準音声パターンすなわち特
徴ベクトルμ_a，μ_i，μ_u，…（μ_a＝「ｘ₁…ｘ_A」，μ
_i＝「ｘ_c…ｘ_I」，μ_u＝「ｘ_d…ｘ_U」，…）が第２の音
響モデル格納部１８に格納されている。

【００３１】また、図４(ｃ)はキーワード候補格納部１
７に格納されているキーワード候補の文字列と第２の音
響モデル格納部１８に格納されている音素モデルなどの
音響的なモデルとを組み合わせて音声パターンとしての
キーワードを形成する様子を示す図であり、図４(ｃ)の
例では、キーワード候補の文字列「ＡＳＡ」を構成する
各音素／ａ／，／ｓ／，／ａ／の標準音声パターンすな
わち特徴ベクトルμ_a＝「ｘ₁…ｘ_A」，μ_s＝「ｘ_e…
ｘ_s」，μ_a＝「ｘ₁…ｘ_A」を組み合せて標準音声パター
ン（μ_a，μ_s，μ_a）＝「ｘ₁…ｘ_k」が得られる様子が
示されている。

【００３２】このように、図３の構成例では、キーワー
ド候補格納部１７に格納されているキーワード候補は、
かな文字などで表現された文字列（テキスト情報）であ
り、この文字列と音素モデルなどの音響モデル（第１の
音響モデル）とを組み合わせて音声パターンとしてのキ
ーワードとするようになっている。

【００３３】なお、第２の音響モデル格納部１８に格納
される音響的なモデルとしては、第２の音声認識部１５
が専ら話者の音声を認識するためのものであるので、認
識精度を向上させるために、特定話者型の音響モデルや
話者適応された音響モデルを用いるのが望ましい。

【００３４】また、図３の構成例では、第１の音響モデ
ル格納部１６には、第２の音響モデル格納部１８に格納
されている第２の音響モデルと同様の例えば図４(ｂ)に
示したような音素モデルが格納され、第１の音声認識部
１３は、第２の音声認識部１５で割り出されたテキスト
情報としてのキーワードを第１の音響モデル格納部１６
に格納されている第１の音響モデルと組み合わせて得ら
れる音声パターンとしてのキーワードと音声データ格納
部２に格納されている音声データとの照合を行なうよう
になっている。

【００３５】この場合、第１の音声認識部１３には、連
続音声認識型の認識方式、あるいは、ワードスポッティ
ング型の認識方式を用いることができる。すなわち、音
声データは、文章などのように、抽出すべきキーワード
より長い単位で発声されることが想定されるために、当
業者に知られているように、連続音声認識型の認識方
式、あるいは、ワードスポッティング型の認識方式を第
１の音声認識部１３に用いるのが良い。

【００３６】また、音声データ格納部２に格納されてい
る音声データは、一般的に、話者があらかじめ規定され
ていないので（不特定話者のものとなっているので）、
第１の音声認識部１３で利用する音声認識方式には、不
特定話者型のものを用いるのが良い。これに対し、音声
データ格納部２に格納されている音声データが講演録や
備忘録などのように、予め話者が規定されているもので
ある場合には、第１の音声認識部１３で利用する音声認
識方式には、第１の音声特定話者型の認識方式や話者適
応型の認識方式を利用するようにしても良い。

【００３７】このように、図１あるいは図３の音声検索
装置では、話者が発声した音声データの認識を行なっ
て、キーワードをいったん話者性のないテキスト情報な
どに変換し、このキーワードにより、音声データの検索
を行なうようになっているので、利用者の話者性に影響
されず、認識精度が高い、すなわち検索精度の良い検索
ができる。

【００３８】また、図１あるいは図３の音声検索装置に
おいて、第１の音声認識部３あるいは１３は、音声パタ
ーンとしてのキーワードと音声データ格納部２に格納さ
れている音声データとの照合の結果、キーワードに対し
て類似度の高いデータが認識結果として検出されたとき
に、認識結果としてのデータの名称，認識スコア，照合
位置のうちの少なくとも１つを提示するようになってい
る。すなわち、認識されたキーワードの名称、認識スコ
ア、および照合位置（音声データにおけるキーワードの
始まりの時刻と終わりの時刻）を提示するようになって
いる。なお、照合位置に関しては、当業者に良く知られ
ているように認識結果に対してバックトラックを施すこ
とで、その位置を検出することができる。

【００３９】また、図１あるいは図３の音声検索装置に
おいて、第１の音声認識部３あるいは１３は、音声パタ
ーンとしてのキーワードと音声データ格納部２に格納さ
れている音声データとの照合の結果、キーワードに対し
て複数個の認識結果が検出されたときに、複数個の認識
結果を認識スコアの順に提示することもできる。

【００４０】すなわち、第１の音声認識部３あるいは１
３における認識誤りの可能性を低減するため、第１の音
声認識部３あるいは１３では、認識結果を１つではなく
複数個提示することがある。この場合、本発明では、複
数個の認識結果を認識スコアの順に、例えばスコアの高
い順に提示することもできる。

【００４１】また、図５は図３の音声検索装置の変形例
を示す図である。なお、図５では、簡単のため、音声入
力部１，第２の音声認識部１５，第２の音響モデル格納
部１６，キーワード候補格納部１７は省略されている。
図５の音声検索装置では、図３の音声検索装置におい
て、第１の音声認識部１３で、音声パターンとしてのキ
ーワードと音声データ格納部２に格納されている音声デ
ータとの照合の結果、キーワードに対して類似度の高い
データが認識結果として検出され、該認識結果がユーザ
に提示されて、提示された認識結果に対して正解／非正
解の判断がユーザによりなされたときに、第１の音響モ
デル格納部１６に格納されている第１の音響モデルに対
して、正解の認識結果のスコアを上げ、非正解の認識結
果のスコアを下げるように、第１の音響モデルのパラメ
ータの修正を行なう修正手段２０がさらに設けられてい
る。

【００４２】すなわち、図５の音声検索装置では、第１
の音声認識部１３により提示された認識結果を、利用者
が音声データを再生するなどして、その結果が正解か否
かの確認を行ない、正解の場合には、修正手段２０にお
いて、次のような処理を行なう。

【００４３】すなわち、まず、図６に示すように、音声
データの中でキーワードがあると判定された照合位置の
内側のある時刻ｔの音響的な特徴ベクトルをｘ_tとす
る。また、照合結果のバックトラックによって、時刻ｔ
に対応した音響モデルの特徴ベクトルをμとする。この
とき、次式により、音響モデルの特徴ベクトルμの修正
を行なう。

【００４４】

【数１】μ＝（１−ａ）μ＋ａｘ_t

【００４５】数１において、ａは０≦ａ≦１の値をとる
係数である。ａの値は、音声データの規模や認識結果の
提示回数，スコアなどに影響されるので、実験的に定め
るのが良いが、一律に０．０１〜０．０５程度の値に設
定するようにしても良い。

【００４６】また、音響モデルとしては、平均値だけで
なく分散や継続時間を含んだモデルも数多く知られてい
るが、特徴ベクトルや継続時間のパラメータを修正する
ようにするのが良い。

【００４７】たとえば、変更された特徴ベクトルμが
「あ」／ａ／の音であったとする。すると、音声データ
を第１の音声認識部１３で照合する際に、使用する音響
モデルの／ａ／の音のモデルが修正されており、他のキ
ーワードに含まれた／ａ／の部分の認識スコアも改善さ
れることになる。

【００４８】また、認識結果が正確でない場合（誤って
いる場合）には、修正手段２０において、次のような処
理を行なう。

【００４９】すなわち、まず、図６に示したように音声
データの中でキーワードがあると判定された照合位置の
内側のある時刻ｔの音響的な特徴ベクトルをｘ_tとす
る。また、照合結果のバックトラックによって、時刻t
に対応した音響モデルの特徴ベクトルをμとする。この
とき、次式により、音響モデルの特徴ベクトルμの修正
を行なう。

【００５０】

【数２】μ＝（１＋ｂ）μ−ｂｘ_t （０≦ｂ≦１）

【００５１】例えば、音響モデルの特徴ベクトルμが
「い」／ｉ／のものであり、音声データの特徴ベクトル
ｘ_tが「う」／ｕ／であったとする。すると、数２の作
用として、音響モデルの／ｉ／の特徴ベクトルが音声デ
ータの／ｕ／の特徴ベクトルから遠ざけられることにな
るので、次に認識する際に、音声データの／ｕ／の部分
を／ｉ／と誤認識する可能性が減少する。

【００５２】ｂの値も、ａと同様に実験的に定めるか、
あるいは０．０１〜０．０５程度の値に設定する。

【００５３】また、図５の音声検索装置において、音声
データ格納部２に格納されている音声データを複数のセ
グメントに分割し、各セグメントに対して、それぞれ第
１の音響モデルを用意し、修正手段２０による第１の音
響モデルのパラメータの修正を、認識結果の照合位置が
含まれるセグメントに対する第１の音響モデルに対して
行なうようにすることもできる。すなわち、音声データ
が複数のセグメントに分かれて格納されている（例え
ば、留守番電話の場合には１通話ごとに分割されたり、
ビデオの場合には番組ごとに分かれて格納されている）
場合に、第１の音声認識部１３で使用する音響モデルを
音声データのセグメントごとに用意することができる。
個々に用意する音響モデルは、まったく独立したものと
しても良いし、あるいはマスター辞書のように共通の音
響モデルと個々のセグメントに対応した差分データを用
意するようにしても良い。

【００５４】図７は図１，図３または図５の音声検索装
置のハードウェア構成例を示す図である。図７を参照す
ると、この音声検索装置は、例えばワークステーション
やパーソナルコンピュータ等で実現され、全体を制御す
るＣＰＵ２１と、ＣＰＵ２１の制御プログラム等が記憶
されているＲＯＭ２２と、ＣＰＵ２１のワークエリア等
として使用されるＲＡＭ２３と、音声を入力する音声入
力部（例えばマイク）１と、認識結果を出力（提示）す
る出力装置(例えば、ディスプレイやプリンタ)２６とを
有している。

【００５５】ここで、ＣＰＵ２１は、図１の第１の音声
認識部３，第２の音声認識部５、あるいは、図３，図５
の第１の音声認識部１３，第２の音声認識部１５，修正
手段２０としての機能を有している。

【００５６】なお、ＣＰＵ２１における図１の第１の音
声認識部３，第２の音声認識部５、あるいは、図３，図
５の第１の音声認識部１３，第２の音声認識部１５，修
正手段２０としての機能は、例えばソフトウェアパッケ
ージ(具体的には、ＣＤ−ＲＯＭ等の情報記録媒体)の形
で提供することができ、このため、図７の例では、情報
記録媒体３０がセットさせるとき、これを駆動する媒体
駆動装置３１が設けられている。

【００５７】換言すれば、本発明の音声検索装置は、マ
イク，ディスプレイ等を備えた汎用の計算機システムに
ＣＤ−ＲＯＭ等の情報記録媒体に記録されたプログラム
を読み込ませて、この汎用計算機システムのマイクロプ
ロセッサに音声検索処理を実行させる装置構成において
も実施することが可能である。この場合、本発明の音声
検索処理を実行するためのプログラム(すなわち、ハー
ドウェアシステムで用いられるプログラム)は、媒体に
記録された状態で提供される。プログラムなどが記録さ
れる情報記録媒体としては、ＣＤ−ＲＯＭに限られるも
のではなく、ＲＯＭ，ＲＡＭ，フレキシブルディスク，
メモリカード等が用いられても良い。媒体に記録された
プログラムは、ハードウェアシステムに組み込まれてい
る記憶装置、例えばハードディスク装置にインストール
されることにより、このプログラムを実行して、図１の
第１の音声認識部３，第２の音声認識部５、あるいは、
図３，図５の第１の音声認識部１３，第２の音声認識部
１５，修正手段２０としての機能、すなわち、本発明の
音声検索処理を実現することができる。

【００５８】また、本発明の音声検索処理を実現するた
めのプログラムは、媒体の形で提供されるのみならず、
通信によって(例えばサーバによって)提供されるもので
あっても良い。

【００５９】

【発明の効果】以上に説明したように、請求項１，請求
項３，請求項４，請求項８，請求項１２記載の発明によ
れば、音声データが格納されている音声データ格納部
と、第１の音声認識部と、キーワード候補が音声パター
ンとして格納されているキーワード候補格納部と、第２
の音声認識部とを有し、第２の音声認識部は、話者が発
声したキーワードの音声とキーワード候補格納部に格納
されている音声パターンとしてのキーワード候補との照
合を行なってキーワードを音声パターンとして割り出
し、第１の音声認識部は、第２の音声認識部で割り出さ
れた音声パターンとしてのキーワードと音声データ格納
部に格納されている音声データとの照合を行ない、第２
の音声認識部で割り出された音声パターンとしてのキー
ワードにより、音声データ格納部から所定のデータを検
索するようになっており、利用者が発声した音声を直
接、キーワードとして検索に用いるのではなく、キーワ
ード候補格納部に格納されている音声パターンをキーワ
ードとして、音声データの検索を行なうので、利用者の
話者性に影響されず、認識精度が高い、すなわち検索精
度の良い検索ができる。

【００６０】また、請求項２乃至請求項４，請求項９乃
至請求項１１，請求項１３記載の発明によれば、音声デ
ータが格納されている音声データ格納部と、第１の音声
認識部と、第１の音響モデルが格納されている第１の音
響モデル格納部と、キーワード候補がテキスト情報とし
て格納されているキーワード候補格納部と、第２の音響
モデルが格納されている第２の音響モデル格納部と、第
２の音声認識部とを有し、第２の音声認識部は、キーワ
ード候補格納部に格納されているテキスト情報としての
候補を第２の音響モデル格納部に格納されている第２の
音響モデルと組み合わせて得られる音声パターンとして
のキーワード候補と話者が発声したキーワードの音声と
の照合を行なって、キーワードをテキスト情報として割
り出し、第１の音声認識部は、第２の音声認識部で割り
出されたテキスト情報としてのキーワードを第１の音響
モデル格納部に格納されている第１の音響モデルと組み
合わせて得られる音声パターンとしてのキーワードと音
声データ格納部に格納されている音声データとの照合を
行ない、音声パターンとしてのキーワードより、音声デ
ータ格納部から所定のデータを検索するようになってお
り、利用者が発声した音声を直接、キーワードとして検
索に用いるのではなく、キーワード候補格納部に格納さ
れているテキスト情報（文字列）を先ず割り出し、この
テキスト情報（文字列）と音響モデルとを組み合わせて
音声データの検索を行なうので、利用者の話者性に影響
されず、認識精度が高い、すなわち検索精度の良い検索
ができる。

【００６１】特に、請求項３記載の発明によれば、請求
項１または請求項２記載の音声検索装置において、第１
の音声認識部は、音声パターンとしてのキーワードと音
声データ格納部に格納されている音声データとの照合の
結果、キーワードに対して類似度の高いデータが認識結
果として検出されたときに、認識結果としてのデータの
名称，認識スコア，照合位置のうちの少なくとも１つを
提示するので、利用者は、認識結果の確認が容易にな
る。

【００６２】また、請求項４記載の発明によれば、請求
項１乃至請求項３のいずれか一項に記載の音声検索装置
において、第１の音声認識部は、音声パターンとしての
キーワードと音声データ格納部に格納されている音声デ
ータとの照合の結果、キーワードに対して複数個の認識
結果が検出されたときに、複数個の認識結果を認識スコ
アの順に提示するので、利用者にとって、より一層、認
識結果の確認が容易になる。

【００６３】また、請求項５，請求項６，請求項１０，
請求項１１記載の発明によれば、利用者が認識結果を確
認して、その結果によって音響モデルのパラメータが修
正されるので、再度検索を行なう場合や、他のキーワー
ドの検索を行なう場合に、認識精度が高くなった状態の
音響モデルを用いて検索できることになり、精密な検索
が可能になる。

【００６４】また、請求項７記載の発明によれば、音声
データのセグメントごとに音響モデルを用意し、各セグ
メントごとに音響モデルを修正するので、背景音や録音
状態，話者などの各セグメントに固有な特性に沿って、
音響モデルを修正することが可能になり、認識率の高
い、すなわち検索精度の高い検索が可能になる。

【図面の簡単な説明】

【図１】本発明に係る音声検索装置の第１の構成例を示
す図である。

【図２】キーワード候補格納部に格納されている音声パ
ターンとしてのキーワード候補の一例を示す図である。

【図３】本発明に係る音声検索装置の第２の構成例を示
す図である。

【図４】キーワード候補格納部に格納されているキーワ
ード候補の文字列と第２の音響モデル格納部に格納され
ている音素モデルなどの音響的なモデルとを組み合せ
て、キーワード候補の標準音声パターンを生成する仕方
を示す図である。

【図５】図３の音声検索装置の変形例を示す図である。

【図６】音響モデルの特徴ベクトルの修正を行なう仕方
を説明するための図である。

【図７】図１，図３または図５の音声検索装置のハード
ウェア構成例を示す図である。

【図８】従来の音声検索装置の構成例を示す図である。

【符号の説明】

１音声入力部２音声データ格納部３，１３第１の音声認識部４，１７キーワード候補格納部５，１５第２の音声認識部１６第１の音響モデル格納部１８第２の音響モデル格納部２０修正手段２１ＣＰＵ２２ＲＯＭ２３ＲＡＭ２６出力装置３０情報記憶媒体３１媒体駆動装置

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５６１Ｃ

Claims

【特許請求の範囲】

【請求項１】音声データが格納されている音声データ
格納部と、第１の音声認識部と、キーワード候補が音声
パターンとして格納されているキーワード候補格納部
と、第２の音声認識部とを有し、前記第２の音声認識部
は、話者が発声したキーワードの音声とキーワード候補
格納部に格納されている音声パターンとしてのキーワー
ド候補との照合を行なってキーワードを音声パターンと
して割り出し、前記第１の音声認識部は、前記第２の音
声認識部で割り出された音声パターンとしてのキーワー
ドと音声データ格納部に格納されている音声データとの
照合を行ない、前記第２の音声認識部で割り出された音
声パターンとしてのキーワードにより、音声データ格納
部から所定のデータを検索するようになっていることを
特徴とする音声検索装置。
【請求項２】音声データが格納されている音声データ
格納部と、第１の音声認識部と、第１の音響モデルが格
納されている第１の音響モデル格納部と、キーワード候
補がテキスト情報として格納されているキーワード候補
格納部と、第２の音響モデルが格納されている第２の音
響モデル格納部と、第２の音声認識部とを有し、前記第
２の音声認識部は、キーワード候補格納部に格納されて
いるテキスト情報としての候補を第２の音響モデル格納
部に格納されている第２の音響モデルと組み合わせて得
られる音声パターンとしてのキーワード候補と話者が発
声したキーワードの音声との照合を行なって、キーワー
ドをテキスト情報として割り出し、前記第１の音声認識
部は、前記第２の音声認識部で割り出されたテキスト情
報としてのキーワードを第１の音響モデル格納部に格納
されている第１の音響モデルと組み合わせて得られる音
声パターンとしてのキーワードと音声データ格納部に格
納されている音声データとの照合を行ない、音声パター
ンとしてのキーワードより、音声データ格納部から所定
のデータを検索するようになっていることを特徴とする
音声検索装置。
【請求項３】請求項１または請求項２記載の音声検索
装置において、前記第１の音声認識部は、音声パターン
としてのキーワードと音声データ格納部に格納されてい
る音声データとの照合の結果、キーワードに対して類似
度の高いデータが認識結果として検出されたときに、認
識結果としてのデータの名称，認識スコア，照合位置の
うちの少なくとも１つを提示することを特徴とする音声
検索装置。
【請求項４】請求項１乃至請求項３のいずれか一項に
記載の音声検索装置において、前記第１の音声認識部
は、音声パターンとしてのキーワードと音声データ格納
部に格納されている音声データとの照合の結果、キーワ
ードに対して複数個の認識結果が検出されたときに、複
数個の認識結果を認識スコアの順に提示することを特徴
とする音声検索装置。
【請求項５】請求項２記載の音声検索装置において、
音声パターンとしてのキーワードと音声データ格納部に
格納されている音声データとの前記第１の音声認識部に
おける照合の結果、キーワードに対して類似度の高いデ
ータが認識結果として検出され、該認識結果が提示され
て、提示された認識結果に対して正解／非正解の判断が
なされたときに、第１の音響モデル格納部に格納されて
いる第１の音響モデルに対して、正解の認識結果のスコ
アを上げるように、第１の音響モデルのパラメータの修
正を行なう修正手段がさらに設けられていることを特徴
とする音声検索装置。
【請求項６】請求項２記載の音声検索装置において、
音声パターンとしてのキーワードと音声データ格納部に
格納されている音声データとの前記第１の音声認識部に
おける照合の結果、キーワードに対して類似度の高いデ
ータが認識結果として検出され、該認識結果が提示され
て、提示された認識結果に対して正解／非正解の判断が
なされたときに、第１の音響モデル格納部に格納されて
いる第１の音響モデルに対して、正解の認識結果のスコ
アを上げ、非正解の認識結果のスコアを下げるように、
第１の音響モデルのパラメータの修正を行なう修正手段
がさらに設けられていることを特徴とする音声検索装
置。
【請求項７】請求項５または請求項６記載の音声検索
装置において、音声データ格納部に格納されている音声
データは複数のセグメントに分割されており、各セグメ
ントに対して、それぞれ第１の音響モデルが用意されて
おり、前記修正手段による第１の音響モデルのパラメー
タの修正は、認識結果の照合位置が含まれるセグメント
に対する第１の音響モデルに対して行なわれることを特
徴とする音声検索装置。
【請求項８】音声データ格納部には、音声データが格
納され、キーワード候補格納部には、キーワード候補が
音声パターンとして格納されているときに、話者が発声
したキーワードの音声とキーワード候補格納部に格納さ
れている音声パターンとしてのキーワード候補との照合
を行なってキーワードを音声パターンとして割り出し、
このように割り出された音声パターンとしてのキーワー
ドと音声データ格納部に格納されている音声データとの
照合を行ない、音声データ格納部から所定のデータを検
索することを特徴とする音声検索方法。
【請求項９】音声データ格納部には、音声データが格
納され、第１の音響モデル格納部には、第１の音響モデ
ルが格納され、キーワード候補格納部には、キーワード
候補がテキスト情報として格納され、第２の音響モデル
格納部には、第２の音響モデルが格納されているとき
に、キーワード候補格納部に格納されているテキスト情
報としてのキーワード候補を第２の音響モデル格納部に
格納されている第２の音響モデルと組み合わせて得られ
る音声パターンとしてのキーワード候補と話者が発声し
たキーワードの音声との照合を行なって、キーワードを
テキスト情報として割り出し、割り出されたテキスト情
報としてのキーワードを第１の音響モデル格納部に格納
されている第１の音響モデルと組み合わせて得られる音
声パターンとしてのキーワードと音声データ格納部に格
納されている音声データとの照合を行ない、音声パター
ンとしてのキーワードより、音声データ格納部から所定
のデータを検索することを特徴とする音声検索方法。
【請求項１０】請求項９記載の音声検索方法におい
て、音声パターンとしてのキーワードと音声データ格納
部に格納されている音声データとの照合の結果、キーワ
ードに対して類似度の高いデータが認識結果として検出
され、該認識結果が提示されて、提示された認識結果に
対して正解／非正解の判断がなされたときに、第１の音
響モデル格納部に格納されている第１の音響モデルに対
して、正解の認識結果のスコアを上げるように、第１の
音響モデルのパラメータの修正を行なうことを特徴とす
る音声検索方法。
【請求項１１】請求項９記載の音声検索方法におい
て、音声パターンとしてのキーワードと音声データ格納
部に格納されている音声データとの照合の結果、キーワ
ードに対して類似度の高いデータが認識結果として検出
され、該認識結果が提示されて、提示された認識結果に
対して正解／非正解の判断がなされたときに、第１の音
響モデル格納部に格納されている第１の音響モデルに対
して、正解の認識結果のスコアを上げ、非正解の認識結
果のスコアを下げるように、第１の音響モデルのパラメ
ータの修正を行なうことを特徴とする音声検索方法。
【請求項１２】音声データ格納部には、音声データが
格納され、キーワード候補格納部には、キーワード候補
が音声パターンとして格納されているときに、話者が発
声したキーワードの音声とキーワード候補格納部に格納
されている音声パターンとしてのキーワード候補との照
合を行なってキーワードを音声パターンとして割り出
し、このように割り出された音声パターンとしてのキー
ワードと音声データ格納部に格納されている音声データ
との照合を行ない、音声データ格納部から所定のデータ
を検索する処理をコンピュータに実行させるためのプロ
グラムを記録したコンピュータ読取可能な記録媒体。
【請求項１３】音声データ格納部には、音声データが
格納され、第１の音響モデル格納部には、第１の音響モ
デルが格納され、キーワード候補格納部には、キーワー
ド候補がテキスト情報として格納され、第２の音響モデ
ル格納部には、第２の音響モデルが格納されているとき
に、キーワード候補格納部に格納されているテキスト情
報としての候補を第２の音響モデル格納部に格納されて
いる第２の音響モデルと組み合わせて得られる音声パタ
ーンとしてのキーワード候補と話者が発声したキーワー
ドの音声との照合を行なって、キーワードをテキスト情
報として割り出し、割り出されたテキスト情報としての
キーワードを第１の音響モデル格納部に格納されている
第１の音響モデルと組み合わせて得られる音声パターン
としてのキーワードと音声データ格納部に格納されてい
る音声データとの照合を行ない、音声パターンとしての
キーワードより、音声データ格納部から所定のデータを
検索する処理をコンピュータに実行させるためのプログ
ラムを記録したコンピュータ読取可能な記録媒体。