JP2001290496A - 音声検索装置および音声検索方法および記録媒体 - Google Patents

音声検索装置および音声検索方法および記録媒体

Info

Publication number
JP2001290496A
JP2001290496A JP2000111907A JP2000111907A JP2001290496A JP 2001290496 A JP2001290496 A JP 2001290496A JP 2000111907 A JP2000111907 A JP 2000111907A JP 2000111907 A JP2000111907 A JP 2000111907A JP 2001290496 A JP2001290496 A JP 2001290496A
Authority
JP
Japan
Prior art keywords
voice
keyword
storage unit
acoustic model
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000111907A
Other languages
English (en)
Inventor
Tetsuya Muroi
哲也 室井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000111907A priority Critical patent/JP2001290496A/ja
Publication of JP2001290496A publication Critical patent/JP2001290496A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 キーワードを発声した話者の話者性に影響さ
れずに、キーワードから音声データを認識精度,検索精
度良く検索することの可能な音声検索装置を提供する。 【解決手段】 第2の音声認識部5は、話者が発声した
キーワードの音声(音声入力部1から入力された音声)
とキーワード候補格納部4に格納されている音声パター
ンとしてのキーワード候補との照合を行なってキーワー
ドを音声パターンとして割り出し、第1の音声認識部3
は、第2の音声認識部5で割り出された音声パターンと
してのキーワードと音声データ格納部2に格納されてい
る音声データとの照合を行ない、第2の音声認識部5で
割り出された音声パターンとしてのキーワードにより、
音声データ格納部2から所定のデータを検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、留守番電話やビデ
オ等の音声データが格納された機器などから所望の音声
データを検索する音声検索装置および音声検索方法およ
び記録媒体に関する。
【0002】
【従来の技術】従来、音声データが蓄積された装置か
ら、利用者が必要な音声データを検策するのに、例え
ば、特開平5−334861号や特開平6−17569
8号に示されているような装置が知られている。図8は
従来の音声検索装置の構成例を示す図である。すなわ
ち、図8を参照すると、この音声検索装置は、話者の音
声が入力する音声入力部101と、音声データが格納さ
れている音声データ格納部102と、音声認識部103
とを有し、音声認識部103は、話者がキーワードを音
声で発声するとき、音声入力部101から入力された音
声データ(話者が発声した音声データ)をキーワードと
して、音声データ格納部102から音声データを検索す
るようになっている。なお、ここで、音声データ格納部
102に格納されている音声データは、所定の利用者が
発声した音声に基づいている。
【0003】すなわち、特開平5−334861号や特
開平6−175698号に示されているいずれの技術
も、話者が発声した音声データをキーワードとして用い
て、音声データを検索するようになっている。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来の音声検索装置では、話者が発声した音声データ
をキーワードとして用いるために(話者性が残っている
ものをキーワードとして用いるために)、音声データ格
納部102に格納されている音声データを作成した時の
利用者とは異なる話者がキーワードを発声した場合に
は、発声したキーワードと音声データ格納部102に格
納されている音声データとの照合において、認識精度が
良くなく、検索精度が良くないという問題があった。
【0005】本発明は、キーワードを発声した話者の話
者性に影響されずに、キーワードから音声データを認識
精度,検索精度良く検索することの可能な音声検索装置
および音声検索方法および記録媒体を提供することを目
的としている。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、音声データが格納されてい
る音声データ格納部と、第1の音声認識部と、キーワー
ド候補が音声パターンとして格納されているキーワード
候補格納部と、第2の音声認識部とを有し、第2の音声
認識部は、話者が発声したキーワードの音声とキーワー
ド候補格納部に格納されている音声パターンとしてのキ
ーワード候補との照合を行なってキーワードを音声パタ
ーンとして割り出し、第1の音声認識部は、第2の音声
認識部で割り出された音声パターンとしてのキーワード
と音声データ格納部に格納されている音声データとの照
合を行ない、第2の音声認識部で割り出された音声パタ
ーンとしてのキーワードにより、音声データ格納部から
所定のデータを検索するようになっていることを特徴と
している。
【0007】また、請求項2記載の発明は、音声データ
が格納されている音声データ格納部と、第1の音声認識
部と、第1の音響モデルが格納されている第1の音響モ
デル格納部と、キーワード候補がテキスト情報として格
納されているキーワード候補格納部と、第2の音響モデ
ルが格納されている第2の音響モデル格納部と、第2の
音声認識部とを有し、第2の音声認識部は、キーワード
候補格納部に格納されているテキスト情報としての候補
を第2の音響モデル格納部に格納されている第2の音響
モデルと組み合わせて得られる音声パターンとしてのキ
ーワード候補と話者が発声したキーワードの音声との照
合を行なって、キーワードをテキスト情報として割り出
し、第1の音声認識部は、第2の音声認識部で割り出さ
れたテキスト情報としてのキーワードを第1の音響モデ
ル格納部に格納されている第1の音響モデルと組み合わ
せて得られる音声パターンとしてのキーワードと音声デ
ータ格納部に格納されている音声データとの照合を行な
い、音声パターンとしてのキーワードより、音声データ
格納部から所定のデータを検索するようになっているこ
とを特徴としている。
【0008】また、請求項3記載の発明は、請求項1ま
たは請求項2記載の音声検索装置において、第1の音声
認識部は、音声パターンとしてのキーワードと音声デー
タ格納部に格納されている音声データとの照合の結果、
キーワードに対して類似度の高いデータが認識結果とし
て検出されたときに、認識結果としてのデータの名称,
認識スコア,照合位置のうちの少なくとも1つを提示す
ることを特徴としている。
【0009】また、請求項4記載の発明は、請求項1乃
至請求項3のいずれか一項に記載の音声検索装置におい
て、第1の音声認識部は、音声パターンとしてのキーワ
ードと音声データ格納部に格納されている音声データと
の照合の結果、キーワードに対して複数個の認識結果が
検出されたときに、複数個の認識結果を認識スコアの順
に提示することを特徴としている。
【0010】また、請求項5記載の発明は、請求項2記
載の音声検索装置において、音声パターンとしてのキー
ワードと音声データ格納部に格納されている音声データ
との第1の音声認識部における照合の結果、キーワード
に対して類似度の高いデータが認識結果として検出さ
れ、該認識結果が提示されて、提示された認識結果に対
して正解/非正解の判断がなされたときに、第1の音響
モデル格納部に格納されている第1の音響モデルに対し
て、正解の認識結果のスコアを上げるように、第1の音
響モデルのパラメータの修正を行なう修正手段がさらに
設けられていることを特徴としている。
【0011】また、請求項6記載の発明は、請求項2記
載の音声検索装置において、音声パターンとしてのキー
ワードと音声データ格納部に格納されている音声データ
との第1の音声認識部における照合の結果、キーワード
に対して類似度の高いデータが認識結果として検出さ
れ、該認識結果が提示されて、提示された認識結果に対
して正解/非正解の判断がなされたときに、第1の音響
モデル格納部に格納されている第1の音響モデルに対し
て、正解の認識結果のスコアを上げ、非正解の認識結果
のスコアを下げるように、第1の音響モデルのパラメー
タの修正を行なう修正手段がさらに設けられていること
を特徴としている。
【0012】また、請求項7記載の発明は、請求項5ま
たは請求項6記載の音声検索装置において、音声データ
格納部に格納されている音声データは複数のセグメント
に分割されており、各セグメントに対して、それぞれ第
1の音響モデルが用意されており、前記修正手段による
第1の音響モデルのパラメータの修正は、認識結果の照
合位置が含まれるセグメントに対する第1の音響モデル
に対して行なわれることを特徴としている。
【0013】また、請求項8記載の発明は、音声データ
格納部には、音声データが格納され、キーワード候補格
納部には、キーワード候補が音声パターンとして格納さ
れているときに、話者が発声したキーワードの音声とキ
ーワード候補格納部に格納されている音声パターンとし
てのキーワード候補との照合を行なってキーワードを音
声パターンとして割り出し、このように割り出された音
声パターンとしてのキーワードと音声データ格納部に格
納されている音声データとの照合を行ない、音声データ
格納部から所定のデータを検索することを特徴としてい
る。
【0014】また、請求項9記載の発明は、音声データ
格納部には、音声データが格納され、第1の音響モデル
格納部には、第1の音響モデルが格納され、キーワード
候補格納部には、キーワード候補がテキスト情報として
格納され、第2の音響モデル格納部には、第2の音響モ
デルが格納されているときに、キーワード候補格納部に
格納されているテキスト情報としてのキーワード候補を
第2の音響モデル格納部に格納されている第2の音響モ
デルと組み合わせて得られる音声パターンとしてのキー
ワード候補と話者が発声したキーワードの音声との照合
を行なって、キーワードをテキスト情報として割り出
し、割り出されたテキスト情報としてのキーワードを第
1の音響モデル格納部に格納されている第1の音響モデ
ルと組み合わせて得られる音声パターンとしてのキーワ
ードと音声データ格納部に格納されている音声データと
の照合を行ない、音声パターンとしてのキーワードよ
り、音声データ格納部から所定のデータを検索すること
を特徴としている。
【0015】また、請求項10記載の発明は、請求項9
記載の音声検索方法において、音声パターンとしてのキ
ーワードと音声データ格納部に格納されている音声デー
タとの照合の結果、キーワードに対して類似度の高いデ
ータが認識結果として検出され、該認識結果が提示され
て、提示された認識結果に対して正解/非正解の判断が
なされたときに、第1の音響モデル格納部に格納されて
いる第1の音響モデルに対して、正解の認識結果のスコ
アを上げるように、第1の音響モデルのパラメータの修
正を行なうことを特徴としている。
【0016】また、請求項11記載の発明は、請求項9
記載の音声検索方法において、音声パターンとしてのキ
ーワードと音声データ格納部に格納されている音声デー
タとの照合の結果、キーワードに対して類似度の高いデ
ータが認識結果として検出され、該認識結果が提示され
て、提示された認識結果に対して正解/非正解の判断が
なされたときに、第1の音響モデル格納部に格納されて
いる第1の音響モデルに対して、正解の認識結果のスコ
アを上げ、非正解の認識結果のスコアを下げるように、
第1の音響モデルのパラメータの修正を行なうことを特
徴としている。
【0017】また、請求項12記載の発明は、音声デー
タ格納部には、音声データが格納され、キーワード候補
格納部には、キーワード候補が音声パターンとして格納
されているときに、話者が発声したキーワードの音声と
キーワード候補格納部に格納されている音声パターンと
してのキーワード候補との照合を行なってキーワードを
音声パターンとして割り出し、このように割り出された
音声パターンとしてのキーワードと音声データ格納部に
格納されている音声データとの照合を行ない、音声デー
タ格納部から所定のデータを検索する処理をコンピュー
タに実行させるためのプログラムを記録したコンピュー
タ読取可能な記録媒体である。
【0018】また、請求項13記載の発明は、音声デー
タ格納部には、音声データが格納され、第1の音響モデ
ル格納部には、第1の音響モデルが格納され、キーワー
ド候補格納部には、キーワード候補がテキスト情報とし
て格納され、第2の音響モデル格納部には、第2の音響
モデルが格納されているときに、キーワード候補格納部
に格納されているテキスト情報としての候補を第2の音
響モデル格納部に格納されている第2の音響モデルと組
み合わせて得られる音声パターンとしてのキーワード候
補と話者が発声したキーワードの音声との照合を行なっ
て、キーワードをテキスト情報として割り出し、割り出
されたテキスト情報としてのキーワードを第1の音響モ
デル格納部に格納されている第1の音響モデルと組み合
わせて得られる音声パターンとしてのキーワードと音声
データ格納部に格納されている音声データとの照合を行
ない、音声パターンとしてのキーワードより、音声デー
タ格納部から所定のデータを検索する処理をコンピュー
タに実行させるためのプログラムを記録したコンピュー
タ読取可能な記録媒体である。
【0019】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る音声検索装置の
第1の構成例を示す図である。図1を参照すると、この
音声検索装置は、話者の音声が入力する音声入力部1
と、音声データが格納されている音声データ格納部2
と、第1の音声認識部3と、キーワード候補が音声パタ
ーンとして格納されているキーワード候補格納部4と、
第2の音声認識部5とを有し、第2の音声認識部5は、
話者が発声したキーワードの音声(音声入力部1から入
力された音声)とキーワード候補格納部4に格納されて
いる音声パターンとしてのキーワード候補との照合を行
なってキーワードを音声パターンとして割り出し、第1
の音声認識部3は、第2の音声認識部5で割り出された
音声パターンとしてのキーワードと音声データ格納部2
に格納されている音声データとの照合を行ない、第2の
音声認識部5で割り出された音声パターンとしてのキー
ワードにより、音声データ格納部2から所定のデータを
検索するようになっている。
【0020】図2はキーワード候補格納部4に格納され
ている音声パターンとしてのキーワード候補の一例を示
す図である。図2の例では、単語「あさ」の標準音声パ
ターン「x1…xk」が1つのキーワード候補として示さ
れている。
【0021】このような構成では、話者がキーワードの
音声を発声すると、このキーワードの音声はマイクロフ
ォンなどの音声入力部1から入力される。そして、音声
入力部1から入力されたキーワードの音声データ(話者
の発声した音声データ)は、第2の音声認識部5におい
て、キーワード候補格納部4に格納されている音声パタ
ーンとしてのキーワード候補と照合され、第2の音声認
識部5からは最大の類似度(スコア)を持つキーワード
候補(音声パターンとしてのキーワード)が割り出され
る。
【0022】第1の音声認識部3では、第2の音声認識
部5から割り出された音声パターンとしてのキーワード
を、音声データ格納部2に格納されている音声データと
照合して、音声データ格納部2から所定のデータを検索
することができる。
【0023】なお、話者は、1単語のキーワードの音声
だけでなく、複数個nのキーワードの音声を発声するよ
うにしても良く、この場合には、第2の音声認識部5で
は、音声入力部1から入力された複数個nのキーワード
の音声データとキーワード候補格納部4に格納されてい
るキーワード候補(音声パターンとしてのキーワード候
補)との照合を行ない、複数個nのキーワードの音声デ
ータに対して、最大の類似度(スコア)をもつ複数個n
のキーワード候補(音声パターンとしてのn個のキーワ
ード)を割り出す。そして、第1の音声認識部3では、
第2の音声認識部5で割り出された音声パターンとして
の複数個nのキーワードを、音声データ格納部2に格納
されている音声データと照合して、音声データ格納部2
から所定のデータを検索することができる。
【0024】なお、図1の構成例において、キーワード
候補格納部4には、不特定話者型の音声パターンをキー
ワード候補として格納することができる。この場合、第
2の音声認識部5で割り出されるキーワードは、不特定
話者型の音声パターンとなる。
【0025】また、キーワードを発声する話者が予め規
定されている場合には、キーワード候補格納部4には、
特定話者型の音声パターンをキーワード候補として格納
することができる。この場合、第2の音声認識部5で割
り出されるキーワードは、特定話者型の音声パターンと
なる。
【0026】また、音声データ格納部2に格納されてい
る音声データは、一般的に、話者があらかじめ規定され
ていないので(不特定話者のものとなっているので)、
第1の音声認識部3で利用する音声認識方式には、不特
定話者型のものを用いるのが良い。これに対し、音声デ
ータ格納部2に格納されている音声データが講演録や備
忘録などのように、予め話者が規定されているものであ
る場合には、第1の音声認識部3で利用する音声認識方
式には、特定話者型の認識方式や話者適応型の認識方式
を利用するようにしても良い。
【0027】また、図1の構成例において、第1の音声
認識部3には、連続音声認識型の認識方式、あるいは、
ワードスポッティング型の認識方式を用いることができ
る。すなわち、音声データは、文章などのように、抽出
すべきキーワードより長い単位で発声されることが想定
されるために、当業者に知られているように、連続音声
認識型の認識方式、あるいは、ワードスポッティング型
の認識方式を第1の音声認識部3に用いるのが良い。
【0028】また、図3は本発明に係る音声検索装置の
第2の構成例を示す図である。なお、図3において、図
1と同様の箇所には同じ符号を付している。図3を参照
すると、この音声検索装置は、話者の音声が入力する音
声入力部1と、音声データが格納されている音声データ
格納部2と、第1の音声認識部13と、第1の音響モデ
ルが格納されている第1の音響モデル格納部16と、キ
ーワード候補がテキスト情報として格納されているキー
ワード候補格納部17と、第2の音響モデルが格納され
ている第2の音響モデル格納部18と、第2の音声認識
部15とを有し、第2の音声認識部15は、キーワード
候補格納部17に格納されているテキスト情報としての
キーワード候補を第2の音響モデル格納部18に格納さ
れている第2の音響モデルと組み合わせて得られる音声
パターンとしてのキーワード候補と話者が発声したキー
ワードの音声との照合を行なって、キーワードをテキス
ト情報として割り出し、第1の音声認識部13は、第2
の音声認識部15で割り出されたテキスト情報としての
キーワードを第1の音響モデル格納部16に格納されて
いる第1の音響モデルと組み合わせて得られる音声パタ
ーンとしてのキーワードと音声データ格納部2に格納さ
れている音声データとの照合を行ない、音声パターンと
してのキーワードより、音声データ格納部2から所定の
データを検索するようになっている。
【0029】図3の構成例では、キーワード候補格納部
17には、かな文字などで規定されるキーワード候補の
文字列(テキスト情報としてのキーワード候補)が格納
されている。また、第2の音響モデル格納部18には、
音素モデルなどの音響的なモデルが格納されている。図
3の構成例の場合、第2の音声認識部15は、音声入力
部1から入力されたキーワードの音声データ(話者が発
声したキーワードの音声データ)を、キーワード候補格
納部17に格納されているキーワード候補の文字列と第
2の音響モデル格納部18に格納されている音素モデル
などの音響的なモデルとを使って、認識することができ
る。
【0030】図4(a),(b) ,(c)には、キーワード
候補格納部17に格納されているキーワード候補の文字
列(テキスト情報としてのキーワード候補)と第2の音
響モデル格納部18に格納されている音素モデルなどの
音響的なモデルとを組み合せて、1つのキーワード候補
「あさ」の標準音声パターン「x1…xk」を生成する仕
方が示されている。すなわち、図4(a)はキーワード候
補格納部17に格納されているキーワード候補の文字列
(テキスト情報としてのキーワード候補)を示す図であ
り、図4(a)の例では、キーワード候補「あさ」,「ひ
る」,「よる」の文字列(テキスト情報)として、「A
SA」,「HIRU」,「YORU」がキーワード候補
格納部17に格納されている。また、図4(b)は第2の
音響モデル格納部18に格納されている音素モデルなど
の音響的なモデルを示す図であり、図4(b)の例では、
音響的なモデルとして、音素モデル,すなわち音素/a
/,/i/,/u/,…の標準音声パターンすなわち特
徴ベクトルμa,μi,μu,…(μa=「x1…xA」,μ
i=「xc…xI」,μu=「xd…xU」,…)が第2の音
響モデル格納部18に格納されている。
【0031】また、図4(c)はキーワード候補格納部1
7に格納されているキーワード候補の文字列と第2の音
響モデル格納部18に格納されている音素モデルなどの
音響的なモデルとを組み合わせて音声パターンとしての
キーワードを形成する様子を示す図であり、図4(c)の
例では、キーワード候補の文字列「ASA」を構成する
各音素/a/,/s/,/a/の標準音声パターンすな
わち特徴ベクトルμa=「x1…xA」,μs=「xe
s」,μa=「x1…xA」を組み合せて標準音声パター
ン(μa,μs,μa)=「x1…xk」が得られる様子が
示されている。
【0032】このように、図3の構成例では、キーワー
ド候補格納部17に格納されているキーワード候補は、
かな文字などで表現された文字列(テキスト情報)であ
り、この文字列と音素モデルなどの音響モデル(第1の
音響モデル)とを組み合わせて音声パターンとしてのキ
ーワードとするようになっている。
【0033】なお、第2の音響モデル格納部18に格納
される音響的なモデルとしては、第2の音声認識部15
が専ら話者の音声を認識するためのものであるので、認
識精度を向上させるために、特定話者型の音響モデルや
話者適応された音響モデルを用いるのが望ましい。
【0034】また、図3の構成例では、第1の音響モデ
ル格納部16には、第2の音響モデル格納部18に格納
されている第2の音響モデルと同様の例えば図4(b)に
示したような音素モデルが格納され、第1の音声認識部
13は、第2の音声認識部15で割り出されたテキスト
情報としてのキーワードを第1の音響モデル格納部16
に格納されている第1の音響モデルと組み合わせて得ら
れる音声パターンとしてのキーワードと音声データ格納
部2に格納されている音声データとの照合を行なうよう
になっている。
【0035】この場合、第1の音声認識部13には、連
続音声認識型の認識方式、あるいは、ワードスポッティ
ング型の認識方式を用いることができる。すなわち、音
声データは、文章などのように、抽出すべきキーワード
より長い単位で発声されることが想定されるために、当
業者に知られているように、連続音声認識型の認識方
式、あるいは、ワードスポッティング型の認識方式を第
1の音声認識部13に用いるのが良い。
【0036】また、音声データ格納部2に格納されてい
る音声データは、一般的に、話者があらかじめ規定され
ていないので(不特定話者のものとなっているので)、
第1の音声認識部13で利用する音声認識方式には、不
特定話者型のものを用いるのが良い。これに対し、音声
データ格納部2に格納されている音声データが講演録や
備忘録などのように、予め話者が規定されているもので
ある場合には、第1の音声認識部13で利用する音声認
識方式には、第1の音声特定話者型の認識方式や話者適
応型の認識方式を利用するようにしても良い。
【0037】このように、図1あるいは図3の音声検索
装置では、話者が発声した音声データの認識を行なっ
て、キーワードをいったん話者性のないテキスト情報な
どに変換し、このキーワードにより、音声データの検索
を行なうようになっているので、利用者の話者性に影響
されず、認識精度が高い、すなわち検索精度の良い検索
ができる。
【0038】また、図1あるいは図3の音声検索装置に
おいて、第1の音声認識部3あるいは13は、音声パタ
ーンとしてのキーワードと音声データ格納部2に格納さ
れている音声データとの照合の結果、キーワードに対し
て類似度の高いデータが認識結果として検出されたとき
に、認識結果としてのデータの名称,認識スコア,照合
位置のうちの少なくとも1つを提示するようになってい
る。すなわち、認識されたキーワードの名称、認識スコ
ア、および照合位置(音声データにおけるキーワードの
始まりの時刻と終わりの時刻)を提示するようになって
いる。なお、照合位置に関しては、当業者に良く知られ
ているように認識結果に対してバックトラックを施すこ
とで、その位置を検出することができる。
【0039】また、図1あるいは図3の音声検索装置に
おいて、第1の音声認識部3あるいは13は、音声パタ
ーンとしてのキーワードと音声データ格納部2に格納さ
れている音声データとの照合の結果、キーワードに対し
て複数個の認識結果が検出されたときに、複数個の認識
結果を認識スコアの順に提示することもできる。
【0040】すなわち、第1の音声認識部3あるいは1
3における認識誤りの可能性を低減するため、第1の音
声認識部3あるいは13では、認識結果を1つではなく
複数個提示することがある。この場合、本発明では、複
数個の認識結果を認識スコアの順に、例えばスコアの高
い順に提示することもできる。
【0041】また、図5は図3の音声検索装置の変形例
を示す図である。なお、図5では、簡単のため、音声入
力部1,第2の音声認識部15,第2の音響モデル格納
部16,キーワード候補格納部17は省略されている。
図5の音声検索装置では、図3の音声検索装置におい
て、第1の音声認識部13で、音声パターンとしてのキ
ーワードと音声データ格納部2に格納されている音声デ
ータとの照合の結果、キーワードに対して類似度の高い
データが認識結果として検出され、該認識結果がユーザ
に提示されて、提示された認識結果に対して正解/非正
解の判断がユーザによりなされたときに、第1の音響モ
デル格納部16に格納されている第1の音響モデルに対
して、正解の認識結果のスコアを上げ、非正解の認識結
果のスコアを下げるように、第1の音響モデルのパラメ
ータの修正を行なう修正手段20がさらに設けられてい
る。
【0042】すなわち、図5の音声検索装置では、第1
の音声認識部13により提示された認識結果を、利用者
が音声データを再生するなどして、その結果が正解か否
かの確認を行ない、正解の場合には、修正手段20にお
いて、次のような処理を行なう。
【0043】すなわち、まず、図6に示すように、音声
データの中でキーワードがあると判定された照合位置の
内側のある時刻tの音響的な特徴ベクトルをxtとす
る。また、照合結果のバックトラックによって、時刻t
に対応した音響モデルの特徴ベクトルをμとする。この
とき、次式により、音響モデルの特徴ベクトルμの修正
を行なう。
【0044】
【数1】μ=(1−a)μ+axt
【0045】数1において、aは0≦a≦1の値をとる
係数である。aの値は、音声データの規模や認識結果の
提示回数,スコアなどに影響されるので、実験的に定め
るのが良いが、一律に0.01〜0.05程度の値に設
定するようにしても良い。
【0046】また、音響モデルとしては、平均値だけで
なく分散や継続時間を含んだモデルも数多く知られてい
るが、特徴ベクトルや継続時間のパラメータを修正する
ようにするのが良い。
【0047】たとえば、変更された特徴ベクトルμが
「あ」/a/の音であったとする。すると、音声データ
を第1の音声認識部13で照合する際に、使用する音響
モデルの/a/の音のモデルが修正されており、他のキ
ーワードに含まれた/a/の部分の認識スコアも改善さ
れることになる。
【0048】また、認識結果が正確でない場合(誤って
いる場合)には、修正手段20において、次のような処
理を行なう。
【0049】すなわち、まず、図6に示したように音声
データの中でキーワードがあると判定された照合位置の
内側のある時刻tの音響的な特徴ベクトルをxtとす
る。また、照合結果のバックトラックによって、時刻t
に対応した音響モデルの特徴ベクトルをμとする。この
とき、次式により、音響モデルの特徴ベクトルμの修正
を行なう。
【0050】
【数2】μ=(1+b)μ−bxt (0≦b≦1)
【0051】例えば、音響モデルの特徴ベクトルμが
「い」/i/のものであり、音声データの特徴ベクトル
tが「う」/u/であったとする。すると、数2の作
用として、音響モデルの/i/の特徴ベクトルが音声デ
ータの/u/の特徴ベクトルから遠ざけられることにな
るので、次に認識する際に、音声データの/u/の部分
を/i/と誤認識する可能性が減少する。
【0052】bの値も、aと同様に実験的に定めるか、
あるいは0.01〜0.05程度の値に設定する。
【0053】また、図5の音声検索装置において、音声
データ格納部2に格納されている音声データを複数のセ
グメントに分割し、各セグメントに対して、それぞれ第
1の音響モデルを用意し、修正手段20による第1の音
響モデルのパラメータの修正を、認識結果の照合位置が
含まれるセグメントに対する第1の音響モデルに対して
行なうようにすることもできる。すなわち、音声データ
が複数のセグメントに分かれて格納されている(例え
ば、留守番電話の場合には1通話ごとに分割されたり、
ビデオの場合には番組ごとに分かれて格納されている)
場合に、第1の音声認識部13で使用する音響モデルを
音声データのセグメントごとに用意することができる。
個々に用意する音響モデルは、まったく独立したものと
しても良いし、あるいはマスター辞書のように共通の音
響モデルと個々のセグメントに対応した差分データを用
意するようにしても良い。
【0054】図7は図1,図3または図5の音声検索装
置のハードウェア構成例を示す図である。図7を参照す
ると、この音声検索装置は、例えばワークステーション
やパーソナルコンピュータ等で実現され、全体を制御す
るCPU21と、CPU21の制御プログラム等が記憶
されているROM22と、CPU21のワークエリア等
として使用されるRAM23と、音声を入力する音声入
力部(例えばマイク)1と、認識結果を出力(提示)す
る出力装置(例えば、ディスプレイやプリンタ)26とを
有している。
【0055】ここで、CPU21は、図1の第1の音声
認識部3,第2の音声認識部5、あるいは、図3,図5
の第1の音声認識部13,第2の音声認識部15,修正
手段20としての機能を有している。
【0056】なお、CPU21における図1の第1の音
声認識部3,第2の音声認識部5、あるいは、図3,図
5の第1の音声認識部13,第2の音声認識部15,修
正手段20としての機能は、例えばソフトウェアパッケ
ージ(具体的には、CD−ROM等の情報記録媒体)の形
で提供することができ、このため、図7の例では、情報
記録媒体30がセットさせるとき、これを駆動する媒体
駆動装置31が設けられている。
【0057】換言すれば、本発明の音声検索装置は、マ
イク,ディスプレイ等を備えた汎用の計算機システムに
CD−ROM等の情報記録媒体に記録されたプログラム
を読み込ませて、この汎用計算機システムのマイクロプ
ロセッサに音声検索処理を実行させる装置構成において
も実施することが可能である。この場合、本発明の音声
検索処理を実行するためのプログラム(すなわち、ハー
ドウェアシステムで用いられるプログラム)は、媒体に
記録された状態で提供される。プログラムなどが記録さ
れる情報記録媒体としては、CD−ROMに限られるも
のではなく、ROM,RAM,フレキシブルディスク,
メモリカード等が用いられても良い。媒体に記録された
プログラムは、ハードウェアシステムに組み込まれてい
る記憶装置、例えばハードディスク装置にインストール
されることにより、このプログラムを実行して、図1の
第1の音声認識部3,第2の音声認識部5、あるいは、
図3,図5の第1の音声認識部13,第2の音声認識部
15,修正手段20としての機能、すなわち、本発明の
音声検索処理を実現することができる。
【0058】また、本発明の音声検索処理を実現するた
めのプログラムは、媒体の形で提供されるのみならず、
通信によって(例えばサーバによって)提供されるもので
あっても良い。
【0059】
【発明の効果】以上に説明したように、請求項1,請求
項3,請求項4,請求項8,請求項12記載の発明によ
れば、音声データが格納されている音声データ格納部
と、第1の音声認識部と、キーワード候補が音声パター
ンとして格納されているキーワード候補格納部と、第2
の音声認識部とを有し、第2の音声認識部は、話者が発
声したキーワードの音声とキーワード候補格納部に格納
されている音声パターンとしてのキーワード候補との照
合を行なってキーワードを音声パターンとして割り出
し、第1の音声認識部は、第2の音声認識部で割り出さ
れた音声パターンとしてのキーワードと音声データ格納
部に格納されている音声データとの照合を行ない、第2
の音声認識部で割り出された音声パターンとしてのキー
ワードにより、音声データ格納部から所定のデータを検
索するようになっており、利用者が発声した音声を直
接、キーワードとして検索に用いるのではなく、キーワ
ード候補格納部に格納されている音声パターンをキーワ
ードとして、音声データの検索を行なうので、利用者の
話者性に影響されず、認識精度が高い、すなわち検索精
度の良い検索ができる。
【0060】また、請求項2乃至請求項4,請求項9乃
至請求項11,請求項13記載の発明によれば、音声デ
ータが格納されている音声データ格納部と、第1の音声
認識部と、第1の音響モデルが格納されている第1の音
響モデル格納部と、キーワード候補がテキスト情報とし
て格納されているキーワード候補格納部と、第2の音響
モデルが格納されている第2の音響モデル格納部と、第
2の音声認識部とを有し、第2の音声認識部は、キーワ
ード候補格納部に格納されているテキスト情報としての
候補を第2の音響モデル格納部に格納されている第2の
音響モデルと組み合わせて得られる音声パターンとして
のキーワード候補と話者が発声したキーワードの音声と
の照合を行なって、キーワードをテキスト情報として割
り出し、第1の音声認識部は、第2の音声認識部で割り
出されたテキスト情報としてのキーワードを第1の音響
モデル格納部に格納されている第1の音響モデルと組み
合わせて得られる音声パターンとしてのキーワードと音
声データ格納部に格納されている音声データとの照合を
行ない、音声パターンとしてのキーワードより、音声デ
ータ格納部から所定のデータを検索するようになってお
り、利用者が発声した音声を直接、キーワードとして検
索に用いるのではなく、キーワード候補格納部に格納さ
れているテキスト情報(文字列)を先ず割り出し、この
テキスト情報(文字列)と音響モデルとを組み合わせて
音声データの検索を行なうので、利用者の話者性に影響
されず、認識精度が高い、すなわち検索精度の良い検索
ができる。
【0061】特に、請求項3記載の発明によれば、請求
項1または請求項2記載の音声検索装置において、第1
の音声認識部は、音声パターンとしてのキーワードと音
声データ格納部に格納されている音声データとの照合の
結果、キーワードに対して類似度の高いデータが認識結
果として検出されたときに、認識結果としてのデータの
名称,認識スコア,照合位置のうちの少なくとも1つを
提示するので、利用者は、認識結果の確認が容易にな
る。
【0062】また、請求項4記載の発明によれば、請求
項1乃至請求項3のいずれか一項に記載の音声検索装置
において、第1の音声認識部は、音声パターンとしての
キーワードと音声データ格納部に格納されている音声デ
ータとの照合の結果、キーワードに対して複数個の認識
結果が検出されたときに、複数個の認識結果を認識スコ
アの順に提示するので、利用者にとって、より一層、認
識結果の確認が容易になる。
【0063】また、請求項5,請求項6,請求項10,
請求項11記載の発明によれば、利用者が認識結果を確
認して、その結果によって音響モデルのパラメータが修
正されるので、再度検索を行なう場合や、他のキーワー
ドの検索を行なう場合に、認識精度が高くなった状態の
音響モデルを用いて検索できることになり、精密な検索
が可能になる。
【0064】また、請求項7記載の発明によれば、音声
データのセグメントごとに音響モデルを用意し、各セグ
メントごとに音響モデルを修正するので、背景音や録音
状態,話者などの各セグメントに固有な特性に沿って、
音響モデルを修正することが可能になり、認識率の高
い、すなわち検索精度の高い検索が可能になる。
【図面の簡単な説明】
【図1】本発明に係る音声検索装置の第1の構成例を示
す図である。
【図2】キーワード候補格納部に格納されている音声パ
ターンとしてのキーワード候補の一例を示す図である。
【図3】本発明に係る音声検索装置の第2の構成例を示
す図である。
【図4】キーワード候補格納部に格納されているキーワ
ード候補の文字列と第2の音響モデル格納部に格納され
ている音素モデルなどの音響的なモデルとを組み合せ
て、キーワード候補の標準音声パターンを生成する仕方
を示す図である。
【図5】図3の音声検索装置の変形例を示す図である。
【図6】音響モデルの特徴ベクトルの修正を行なう仕方
を説明するための図である。
【図7】図1,図3または図5の音声検索装置のハード
ウェア構成例を示す図である。
【図8】従来の音声検索装置の構成例を示す図である。
【符号の説明】
1 音声入力部 2 音声データ格納部 3,13 第1の音声認識部 4,17 キーワード候補格納部 5,15 第2の音声認識部 16 第1の音響モデル格納部 18 第2の音響モデル格納部 20 修正手段 21 CPU 22 ROM 23 RAM 26 出力装置 30 情報記憶媒体 31 媒体駆動装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/22 G10L 3/00 561C

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 音声データが格納されている音声データ
    格納部と、第1の音声認識部と、キーワード候補が音声
    パターンとして格納されているキーワード候補格納部
    と、第2の音声認識部とを有し、前記第2の音声認識部
    は、話者が発声したキーワードの音声とキーワード候補
    格納部に格納されている音声パターンとしてのキーワー
    ド候補との照合を行なってキーワードを音声パターンと
    して割り出し、前記第1の音声認識部は、前記第2の音
    声認識部で割り出された音声パターンとしてのキーワー
    ドと音声データ格納部に格納されている音声データとの
    照合を行ない、前記第2の音声認識部で割り出された音
    声パターンとしてのキーワードにより、音声データ格納
    部から所定のデータを検索するようになっていることを
    特徴とする音声検索装置。
  2. 【請求項2】 音声データが格納されている音声データ
    格納部と、第1の音声認識部と、第1の音響モデルが格
    納されている第1の音響モデル格納部と、キーワード候
    補がテキスト情報として格納されているキーワード候補
    格納部と、第2の音響モデルが格納されている第2の音
    響モデル格納部と、第2の音声認識部とを有し、前記第
    2の音声認識部は、キーワード候補格納部に格納されて
    いるテキスト情報としての候補を第2の音響モデル格納
    部に格納されている第2の音響モデルと組み合わせて得
    られる音声パターンとしてのキーワード候補と話者が発
    声したキーワードの音声との照合を行なって、キーワー
    ドをテキスト情報として割り出し、前記第1の音声認識
    部は、前記第2の音声認識部で割り出されたテキスト情
    報としてのキーワードを第1の音響モデル格納部に格納
    されている第1の音響モデルと組み合わせて得られる音
    声パターンとしてのキーワードと音声データ格納部に格
    納されている音声データとの照合を行ない、音声パター
    ンとしてのキーワードより、音声データ格納部から所定
    のデータを検索するようになっていることを特徴とする
    音声検索装置。
  3. 【請求項3】 請求項1または請求項2記載の音声検索
    装置において、前記第1の音声認識部は、音声パターン
    としてのキーワードと音声データ格納部に格納されてい
    る音声データとの照合の結果、キーワードに対して類似
    度の高いデータが認識結果として検出されたときに、認
    識結果としてのデータの名称,認識スコア,照合位置の
    うちの少なくとも1つを提示することを特徴とする音声
    検索装置。
  4. 【請求項4】 請求項1乃至請求項3のいずれか一項に
    記載の音声検索装置において、前記第1の音声認識部
    は、音声パターンとしてのキーワードと音声データ格納
    部に格納されている音声データとの照合の結果、キーワ
    ードに対して複数個の認識結果が検出されたときに、複
    数個の認識結果を認識スコアの順に提示することを特徴
    とする音声検索装置。
  5. 【請求項5】 請求項2記載の音声検索装置において、
    音声パターンとしてのキーワードと音声データ格納部に
    格納されている音声データとの前記第1の音声認識部に
    おける照合の結果、キーワードに対して類似度の高いデ
    ータが認識結果として検出され、該認識結果が提示され
    て、提示された認識結果に対して正解/非正解の判断が
    なされたときに、第1の音響モデル格納部に格納されて
    いる第1の音響モデルに対して、正解の認識結果のスコ
    アを上げるように、第1の音響モデルのパラメータの修
    正を行なう修正手段がさらに設けられていることを特徴
    とする音声検索装置。
  6. 【請求項6】 請求項2記載の音声検索装置において、
    音声パターンとしてのキーワードと音声データ格納部に
    格納されている音声データとの前記第1の音声認識部に
    おける照合の結果、キーワードに対して類似度の高いデ
    ータが認識結果として検出され、該認識結果が提示され
    て、提示された認識結果に対して正解/非正解の判断が
    なされたときに、第1の音響モデル格納部に格納されて
    いる第1の音響モデルに対して、正解の認識結果のスコ
    アを上げ、非正解の認識結果のスコアを下げるように、
    第1の音響モデルのパラメータの修正を行なう修正手段
    がさらに設けられていることを特徴とする音声検索装
    置。
  7. 【請求項7】 請求項5または請求項6記載の音声検索
    装置において、音声データ格納部に格納されている音声
    データは複数のセグメントに分割されており、各セグメ
    ントに対して、それぞれ第1の音響モデルが用意されて
    おり、前記修正手段による第1の音響モデルのパラメー
    タの修正は、認識結果の照合位置が含まれるセグメント
    に対する第1の音響モデルに対して行なわれることを特
    徴とする音声検索装置。
  8. 【請求項8】 音声データ格納部には、音声データが格
    納され、キーワード候補格納部には、キーワード候補が
    音声パターンとして格納されているときに、話者が発声
    したキーワードの音声とキーワード候補格納部に格納さ
    れている音声パターンとしてのキーワード候補との照合
    を行なってキーワードを音声パターンとして割り出し、
    このように割り出された音声パターンとしてのキーワー
    ドと音声データ格納部に格納されている音声データとの
    照合を行ない、音声データ格納部から所定のデータを検
    索することを特徴とする音声検索方法。
  9. 【請求項9】 音声データ格納部には、音声データが格
    納され、第1の音響モデル格納部には、第1の音響モデ
    ルが格納され、キーワード候補格納部には、キーワード
    候補がテキスト情報として格納され、第2の音響モデル
    格納部には、第2の音響モデルが格納されているとき
    に、キーワード候補格納部に格納されているテキスト情
    報としてのキーワード候補を第2の音響モデル格納部に
    格納されている第2の音響モデルと組み合わせて得られ
    る音声パターンとしてのキーワード候補と話者が発声し
    たキーワードの音声との照合を行なって、キーワードを
    テキスト情報として割り出し、割り出されたテキスト情
    報としてのキーワードを第1の音響モデル格納部に格納
    されている第1の音響モデルと組み合わせて得られる音
    声パターンとしてのキーワードと音声データ格納部に格
    納されている音声データとの照合を行ない、音声パター
    ンとしてのキーワードより、音声データ格納部から所定
    のデータを検索することを特徴とする音声検索方法。
  10. 【請求項10】 請求項9記載の音声検索方法におい
    て、音声パターンとしてのキーワードと音声データ格納
    部に格納されている音声データとの照合の結果、キーワ
    ードに対して類似度の高いデータが認識結果として検出
    され、該認識結果が提示されて、提示された認識結果に
    対して正解/非正解の判断がなされたときに、第1の音
    響モデル格納部に格納されている第1の音響モデルに対
    して、正解の認識結果のスコアを上げるように、第1の
    音響モデルのパラメータの修正を行なうことを特徴とす
    る音声検索方法。
  11. 【請求項11】 請求項9記載の音声検索方法におい
    て、音声パターンとしてのキーワードと音声データ格納
    部に格納されている音声データとの照合の結果、キーワ
    ードに対して類似度の高いデータが認識結果として検出
    され、該認識結果が提示されて、提示された認識結果に
    対して正解/非正解の判断がなされたときに、第1の音
    響モデル格納部に格納されている第1の音響モデルに対
    して、正解の認識結果のスコアを上げ、非正解の認識結
    果のスコアを下げるように、第1の音響モデルのパラメ
    ータの修正を行なうことを特徴とする音声検索方法。
  12. 【請求項12】 音声データ格納部には、音声データが
    格納され、キーワード候補格納部には、キーワード候補
    が音声パターンとして格納されているときに、話者が発
    声したキーワードの音声とキーワード候補格納部に格納
    されている音声パターンとしてのキーワード候補との照
    合を行なってキーワードを音声パターンとして割り出
    し、このように割り出された音声パターンとしてのキー
    ワードと音声データ格納部に格納されている音声データ
    との照合を行ない、音声データ格納部から所定のデータ
    を検索する処理をコンピュータに実行させるためのプロ
    グラムを記録したコンピュータ読取可能な記録媒体。
  13. 【請求項13】 音声データ格納部には、音声データが
    格納され、第1の音響モデル格納部には、第1の音響モ
    デルが格納され、キーワード候補格納部には、キーワー
    ド候補がテキスト情報として格納され、第2の音響モデ
    ル格納部には、第2の音響モデルが格納されているとき
    に、キーワード候補格納部に格納されているテキスト情
    報としての候補を第2の音響モデル格納部に格納されて
    いる第2の音響モデルと組み合わせて得られる音声パタ
    ーンとしてのキーワード候補と話者が発声したキーワー
    ドの音声との照合を行なって、キーワードをテキスト情
    報として割り出し、割り出されたテキスト情報としての
    キーワードを第1の音響モデル格納部に格納されている
    第1の音響モデルと組み合わせて得られる音声パターン
    としてのキーワードと音声データ格納部に格納されてい
    る音声データとの照合を行ない、音声パターンとしての
    キーワードより、音声データ格納部から所定のデータを
    検索する処理をコンピュータに実行させるためのプログ
    ラムを記録したコンピュータ読取可能な記録媒体。
JP2000111907A 2000-04-07 2000-04-07 音声検索装置および音声検索方法および記録媒体 Pending JP2001290496A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000111907A JP2001290496A (ja) 2000-04-07 2000-04-07 音声検索装置および音声検索方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000111907A JP2001290496A (ja) 2000-04-07 2000-04-07 音声検索装置および音声検索方法および記録媒体

Publications (1)

Publication Number Publication Date
JP2001290496A true JP2001290496A (ja) 2001-10-19

Family

ID=18624170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000111907A Pending JP2001290496A (ja) 2000-04-07 2000-04-07 音声検索装置および音声検索方法および記録媒体

Country Status (1)

Country Link
JP (1) JP2001290496A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
US9734871B2 (en) 2015-02-24 2017-08-15 Casio Computer Co., Ltd. Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
CN111798840A (zh) * 2020-07-16 2020-10-20 中移在线服务有限公司 语音关键词识别方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
US9734871B2 (en) 2015-02-24 2017-08-15 Casio Computer Co., Ltd. Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
CN111798840A (zh) * 2020-07-16 2020-10-20 中移在线服务有限公司 语音关键词识别方法和装置
CN111798840B (zh) * 2020-07-16 2023-08-08 中移在线服务有限公司 语音关键词识别方法和装置

Similar Documents

Publication Publication Date Title
US6418410B1 (en) Smart correction of dictated speech
US11594215B2 (en) Contextual voice user interface
JP4444396B2 (ja) 音声認識におけるポジション操作
JP4510953B2 (ja) 音声認識におけるノンインタラクティブ方式のエンロールメント
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
US5712957A (en) Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
JP5517458B2 (ja) フラグメントを使用した大規模なリストにおける音声認識
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US5027406A (en) Method for interactive speech recognition and training
EP1693828B1 (en) Multilingual speech recognition
US8417527B2 (en) Speaker adaptation of vocabulary for speech recognition
JP2005010691A (ja) 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JPH10501078A (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
KR930022267A (ko) 자동 음성 인식기
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2001312296A (ja) 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
EP1933302A1 (en) Speech recognition method
US6260014B1 (en) Specific task composite acoustic models
JP2000284795A (ja) テキストの挿入と置換を区別するための方法およびシステム
KR100930714B1 (ko) 음성인식 장치 및 방법
JP3468572B2 (ja) 対話処理装置