JP2012108429A

JP2012108429A - 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム

Info

Publication number: JP2012108429A
Application number: JP2010258924A
Authority: JP
Inventors: Hiroshi Kitade; 祐北出; Seiichi Miki; 清一三木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-11-19
Filing date: 2010-11-19
Publication date: 2012-06-07

Abstract

【課題】複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる音声選択装置を提供することを目的とする。
【解決手段】音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段１０３と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を示す認識結果一致度を算出する認識結果一致度算出手段１０４と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段１０６とを備えたことを特徴とする。
【選択図】図９

Description

本発明は、音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラムに関する。

音声認識の分野において、一定レベルの認識精度を達成するためには、大量のデータを用いてモデルを学習する必要がある。しかし、その学習用のデータを作成するには、書き起こしなどのラベル付け作業が必要であり、多大なコストを要する。

そこで、何らかの基準にしたがってラベル付け作業の優先度を定め、優先度の高いデータのみラベル付けを行って、そのデータで効率的にモデルの学習を行うという能動学習の研究（非特許文献１）が行われている。また、これに関連する技術が、非特許文献２および非特許文献３に記載されている。

Dilek Hakkani-T¨ur et al., "Active learning for automatic speech recognition, Proc. ICASSP, pp.3904-3907, 2002. 濱中ら, "音声認識のための複数の認識器を利用した能動学習," 情報処理学会音声言語情報処理研究会, Vol.2009-SLP-79, No.4, 2009. H.S.Seung, M.Opper, and H.Sompolinsky, "Query by committee," Proc. Workshop on Computational Learning Theory, pp.287-294, 1992.

非特許文献２には、音声認識用モデル学習装置の一例が記載されている。図８は、非特許文献２に記載されたような装置の構成を示すブロック図である。図８に示すように、非特許文献２に記載された装置は、学習データ記憶手段１１と、モデル作成手段１２と、モデル記憶手段１３と、音声データ記憶手段１４と、音声認識処理手段１５と、発話選択手段１６とを含む。

さらに、学習データ記憶手段１１は、学習データを等分割したＫ個の学習データ記憶手段１１−ｋ（ｋ＝１，２，…，Ｋ）を含む。また、モデル作成手段１２は、Ｋ個のモデル作成手段１２−ｋ（ｋ＝１，２，…，Ｋ）を含む。また、モデル記憶手段１３は、Ｋ個のモデル記憶手段１３−ｋ（ｋ＝１，２，…，Ｋ）を含む。また、音声認識処理手段１５は、Ｋ個の音声認識処理手段１５−ｋ（ｋ＝１，２，…，Ｋ）を含む。

このような構成要素を有する音声認識用モデル学習装置は、次のように動作する。すなわち、学習データ記憶手段１１は、書き起こされたテキストデータとその音声データとを記憶する。モデル作成手段１２−ｋは、学習データ記憶手段１１が記憶する学習データを分割してモデルを学習する。モデル記憶手段１３−ｋは、モデル作成手段１２−ｋが学習したモデルを記憶する。

音声データ記憶手段１４は、音声データを記憶する。音声認識処理手段１５−ｋは、音声データ記憶手段１４が記憶する音声データを入力として、モデル記憶手段１３−ｋが記憶するモデルを読み込んで音声認識処理を実行する。

発話選択手段１６は、音声認識処理手段１５が出力したＫ個の認識結果を入力として、ＱＢＣ理論（非特許文献３参照）に基づいて不一致度の高い発話（例えば、音声データの一部）を選択し、それらを書き起こす。そして、発話選択手段１６は、選択した発話を学習データ記憶手段１１に、それ以外の発話を音声データ記憶手段１４に出力し、学習データ記憶手段１１および音声データ記憶手段１４が記憶するデータを更新する。

音声認識用モデル学習装置は、これらの処理を所定回数または何らかの条件が満たされるまで繰り返し実行し、モデルを更新する。

このように、非特許文献２に記載された音声認識用モデル学習装置では、音声認識処理手段１５が複数のモデルを用いて音声認識処理を行い、発話選択手段１６が認識結果を比較して、認識結果がばらついている発話を抽出している。これは、十分に学習できていない発話に対して複数のモデルを用いて音声認識処理を行うと結果がばらつくという基準に則って、発話を選択しているためである。

しかし、この方式では複数のモデルを用いて音声認識処理を行い、用いたモデル間で優劣（区別）をつけることなく、得た認識結果を等価に比較している。そのため、複数のモデルを学習する学習テキスト全体として強化すべきテキスト（学習データ）を抽出しているに過ぎず、複数のモデルのうちのある特定のモデルだけを強化することはできない。すなわち、特定のモデルを強化する場合には、認識結果を等価に比較して抽出した発話ではなく、そのモデルにとって強化すべき発話を抽出する必要がある。

そこで、本発明は、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラムを提供することを目的とする。

本発明による音声選択装置は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段とを備えたことを特徴とする。

本発明による発話選択装置は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段と、音声選択手段が選択した音声をテキストデータに書き起こし、書き起こしたテキストデータと音声とを用いて、特定のモデルを更新するモデル更新手段と、書き起こさなかった音声データを記憶する音声データ記憶手段とを備えたことを特徴とする。

本発明による音声選択システムは、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段とを含むことを特徴とする。

本発明による音声選択方法は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行し、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出し、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択することを特徴とする。

本発明による音声選択プログラムは、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識を行う音声認識処理と、特定のモデルと特定のモデル以外のモデルとを用いて認識した結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出処理と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択処理とを実行させることを特徴とする。

本発明によれば、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。

本発明による音声選択装置の第１の実施形態の構成例を示すブロック図である。音声認識結果の一例を示す表である。音声選択装置の第１の実施形態の動作例を示す流れ図である。発話選択装置の第１の実施形態の構成例を示すブロック図である。音声選択装置の第２の実施形態の構成例を示すブロック図である。音声選択装置の第２の実施形態の動作例を示す流れ図である。発話選択装置の第２の実施形態の構成例を示すブロック図である。非特許文献２に記載された装置の構成を示すブロック図である。音声選択装置の最小の構成例を示すブロック図である。

実施形態１．
次に、本発明の第１の実施形態について図面を参照して説明する。図１は、本発明による音声選択装置の第１の実施形態の構成例を示すブロック図である。図１を参照すると、本発明による音声選択装置の第１の実施形態は、音声データを記憶する音声データ記憶手段１０１と、音声認識用のモデルを記憶するモデル記憶手段１０２と、音声認識処理を実行する音声認識手段１０３と、認識結果を比較して認識結果一致度を算出する認識結果一致度算出手段１０４と、認識結果一致度に基づいて学習に有効な音声を選択する音声選択手段１０６とを含む。音声選択装置は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。

これらの手段はそれぞれ概略つぎのように動作する。

音声データ記憶手段１０１は、認識対象となる音声データを記憶する。音声データ記憶手段１０１は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。

モデル記憶手段１０２は、音声認識用のモデルを記憶する。モデル記憶手段１０２は、特に音声認識の精度を高めたいモデルである特定モデルを記憶するモデル記憶手段１０２−Ｔと、特定モデル以外のモデルである非特定モデルを記憶するモデル記憶手段１０２−ｋ（ｋ＝１，２，…，Ｋ）とを含む。モデル記憶手段１０２−Ｔは、ある特定の特徴（例えば同じ話者や同じ話題、同じタスクなど。以下、特定モデルの特徴とも表現する）を含むデータを用いて学習した特定モデルを記憶する。モデル記憶手段１０２−ｋは、前述のような特定の特徴を含まないデータを用いて学習した非特定モデルを記憶する。モデル記憶手段１０２は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。

音声認識手段１０３は、音声認識手段１０３−Ｔと、音声認識手段１０３−ｋ（ｋ＝１，２，…，Ｋ）とを含む。音声認識手段１０３−Ｔは、音声データ記憶手段１０１が記憶する音声データ（以後、認識対象音声とも表現する）を入力し、モデル記憶手段１０２−Ｔが記憶する特定モデルを用いて、音声認識処理を実行する機能を備えている。また、音声認識手段１０３−ｋは、認識対象音声を入力し、モデル記憶手段１０２−ｋが記憶する非特定モデルを用いて、音声認識処理を実行する機能を備えている。音声認識手段１０３は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

認識結果一致度算出手段１０４は、音声認識手段１０３の認識結果を受けて、特定モデルを用いた場合の認識結果と非特定モデルを用いた場合の認識結果とを比較し、両者の認識結果が一致している度合いを表す認識結果一致度を算出する機能を備えている。認識結果一致度算出手段１０４は、例えば、式（１）を用いて認識結果一致度を算出する。認識結果一致度算出手段１０４は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

ここで、Ｃ_ｉは、ｉ番目の音声Ｓ_ｉに対する認識結果一致度を表す。また、Ｒ_ｉ，ｊは、ｉ番目の音声に対してｊ番目のモデル記憶手段１０２−ｊが記憶するモデルを用いた場合（具体的には、音声認識手段１０３−ｊが音声認識処理を実行する）の認識結果を表す。音声の単位としては、例えば、発話やターン、話者、話題などが考えられる。

ａｌｉ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）については、式（２）のように、各々の認識結果の単語アライメントや、音素アライメントなどにより求まるｍａｔｃｈ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）を用い、その値そのもの（連続値）を用いたものでも、式（３）のようにしきい値θを用いた離散値であってもよい。また、単語アライメントによりｍａｔｃｈ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）を求める際に、単語全体から算出するのではなく、特定の品詞やキーワードに限定するようにしてもよい。

ａｌｉ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）＝ｍａｔｃｈ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）式（２）

ａｌｉ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）が大きい値であるとき、すなわちＲ_ｉ，Ｔと非特定モデルを用いて認識した結果Ｒ_ｉ，ｋとが同じである場合、その音声は特定モデル、非特定モデルに関係なく認識されたことになる。すなわち、その音声は特定モデル、非特定モデルに関係なく学習される一般的な言い回しであると考えられるため、選択すべきものではない。

逆にａｌｉ（Ｒ_ｉ，Ｔ，Ｒ_ｉ，ｋ）が小さい値であるとき、すなわち特定モデルを用いた場合と非特定モデルを用いた場合とで認識結果が異なっている場合を想定する。この場合には、その音声は、非特許文献２に記載された方法での判断基準と同様に認識結果がばらついているか、または特定モデルを用いた場合の認識結果が他のモデルを用いた場合の認識結果と異なっているかのいずれかになる。すなわち、どのモデルにとっても十分に学習できていない音声か、または特定の特徴（話者や話題など）を有する音声かのいずれかであると考えられる。なお、十分に学習できていないとは、具体的には、その音声に対する認識精度が低いことである。

音声選択手段１０６は、認識結果一致度算出手段１０４が算出した音声ごとの認識結果一致度に基づいて、学習に用いる音声を選択する機能を備えている。すなわち、音声選択手段１０６は音声ごとに求めたＣ_ｉが小さい発話を抽出する。

上記の各手段は、例えば、次のように動作する。

音声認識処理手段１０３は、音声データ記憶手段１０１が記憶する所定の単位ごとの音声データ（例えば、発話など）を複数抽出し、モデル記憶手段１０２が記憶する各モデルを用いて、音声認識処理を行う。

次いで、認識結果一致度算出手段１０４は、認識結果に基づいて、音声データごとに、認識結果一致度を算出する。その後、音声選択手段１０６は、認識結果一致度が小さい音声データを選択する。

また、上記の各手段は、例えば、次のように動作する。

音声認識処理手段１０３は、音声データ記憶手段１０１が記憶する音声データを抽出し、抽出した音声データを所定の単位（例えば、発話やターン、話者、話題）に分割する。そして、音声認識処理手段１０３は、分割後の全ての音声データ（例えば、図３におけるＳ_１、Ｓ_２およびＳ_３）について、モデル記憶手段１０２が記憶する各モデルを用いて、音声認識処理を行う。

次いで、認識結果一致度算出手段１０４は、認識結果に基づいて、分割後の音声データごとに、認識結果一致度を算出する。その後、音声選択手段１０６は、認識結果一致度が小さい分割後の音声データを選択する。以下、発話を選択するとの表現を用いるが、具体的には、発話単位の音声データを選択することである。

以上のように各手段が処理を実行することにより、特定モデルを用いて認識して出力した結果と非特定モデルを用いて認識して出力した結果とが大きく異なる発話を選択する。このようにすることで、非特許文献２に記載されていた方法で選択可能である認識結果が全体にばらけている音声だけでなく、特定モデルを用いた場合のみ他のモデルを用いた場合と異なる認識結果を出力しているような発話を選択することができる。

以下、具体例を用いて説明する。例えば、タスクに特徴があるものとし、特定のタスク向けに作られた特定モデル、一例として議会音声を認識するために作られたモデルと、それ以外のタスク用に作られた複数の非特定モデルとが存在する場合を想定する。なお、タスクによって話す内容が大きく異なるため、対応するモデル、すなわちこの場合には、具体的には言語モデルが大きく異なる。

ここで、特定のタスクに対応するモデルを強化するため、特定モデルと同じタスク、すなわち議会の音声を用意し、特定モデルと複数の非特定モデルとを用いて、その音声を認識する。この認識結果を図２に示す。なお、ここでは４つの非特定モデルを用いているため、Ｋ＝４となる。また、モデルの強化とは、具体的には、そのモデルを用いて音声認識した場合の精度が高くなるようにモデルを更新することである。

図２は、音声認識結果の一例を示す表である。例えば、図２に示される表の４行目は、３番目の音声Ｓ_３が入力されたときの認識結果を表す。また、図２に示される表の４行目は、特定モデル１０３−Ｔを用いて認識した結果Ｒ_３，ＴがＡであり、３番目の非特定モデルを用いて認識した結果Ｒ_３，３がＤであることを表す。なお、図２に示されるＡ、Ｂ等の認識結果は、認識の程度を示すランク等ではなく、認識対象音声を「Ａ」や「Ｂ」という音声と認識したことを示している。

図２に示されるように、音声Ｓ_１については、どのモデルを用いて認識した結果もＡとなっている。このような結果となる音声には、例えば、「おはようございます」などの議会やそれ以外のタスクに関係なく話される言い回しによるものが該当する。この場合、Ｒ_１，ＴとＲ_ｉ，ｋとは完全一致しているので、ａｌｉ（Ｒ_１，Ｔ，Ｒ_ｉ，ｋ）＝１となり、Ｃ_１＝（１＋１＋１＋１）／４＝１となる。

次に、音声Ｓ_２については、Ｒ_２，Ｔのみ結果が異なる。このような結果となる音声には、他のタスクではあまり使われず、議会ではよく使われる単語、例えば「異議」などの単語が含まれている発話が該当する。すなわち、非特定モデルを用いた場合には、より一般的に使われる同音異義語の「意義」が認識結果に表われ、Ｒ_２，Ｔのみ「異議」を認識して出力したような場合が該当する。この場合、上述のようにＣ_２を求めると、Ｃ_２＝０となる。

最後に音声Ｓ_３については、全て結果が異なる。このような結果となる音声には、例えば、これまで議会で議題に挙がってこなかった新しい話題が含まれているものが該当する。この場合には、いずれのモデルを用いても認識することができない。また、上述のようにＣ_３を求めると、Ｃ_３＝０となる。

よって、最終的にＣ_ｉに基づいて、音声選択手段１０６は、Ｃ_ｉ値の小さい２番目の音声と３番目の音声とを選択することとなる。このように、図２に示す例においては、音声選択手段１０６は、認識結果一致度が低い音声として、認識結果一致度Ｃ_ｉ＝０である音声を選択する。

次に、図３を参照して本実施形態の全体の動作について説明する。図３は、音声選択装置の第１の実施形態の動作例を示す流れ図である。

まず、音声認識手段１０３は、モデル記憶手段１０２−Ｔが記憶する特定モデルと、その他のデータで作成されたモデル記憶手段１０２−ｋが記憶する非特定モデルとを用いて、音声データ記憶手段１０１が記憶する認識対象音声を入力とする音声認識処理を実行する（図３におけるステップＳ１０１）。この際、音声認識手段１０３は、同一の音声に対して、各モデルを用いてそれぞれ音声認識処理を行う。

次に、認識結果一致度算出手段１０４は、特定モデルを用いて認識した結果と非特定モデルを用いて認識した結果とをそれぞれ比較し、認識結果一致度を算出する（ステップＳ１０２）。認識結果一致度算出手段１０４は、例えば、式（１）を用いて認識結果一致度を算出する。

最後に、音声選択手段１０６は、ステップＳ１０１およびＳ１０２の処理を実行した認識対象音声のうち、ステップＳ１０２で算出した認識結果一致度が低い音声（例えば、発話など）を、学習に用いる音声として選択する（ステップＳ１０３）。

なお、上記に示した音声選択装置を発話選択装置に適用することもできる。図４は、発話選択装置の第１の実施形態の構成例を示すブロック図である。図４に示すように、発話選択装置２００は、音声認識手段１０３と、認識結果一致度算出手段１０４と、音声選択手段１０６と、モデル更新手段２０１とを含む。

上記のステップＳ１０１からＳ１０３の処理を実行することによって音声を選択すると、図４に示されるモデル更新手段２０１は、選択した音声をテキスト等に書き起こし、書き起こしたデータ及びその音声を用いて、モデル記憶手段１０２−Ｔが記憶するモデルを学習し直して、モデルを更新する。

また、音声選択装置は、選択しなかった音声を音声データ記憶手段１０１に出力し、再度音声認識処理を行う。なお、この一連の処理のサイクルを所定の回数または何らかの条件を満たすまで行うようにしてもよい。

次に、本実施形態の効果について説明する。

本実施形態では、ある特定モデルとそれ以外の非特定モデルとを用いた場合の認識結果を比較し、その結果の違いを認識結果一致度という指標で数値化して、その数値が小さい音声（すなわち、本実施形態ではＣ_ｉ＝０となる音声）を選択する。そのため、これまで抽出できていた全体的に認識結果がばらついているような、あまり学習できていない音声だけでなく、特定モデルを用いた場合のみ認識結果が異なるような、特定モデルと特徴が合致した音声も選択することができる。したがって、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。

実施形態２．
次に、本発明による音声選択装置の第２の実施形態について図面を参照して説明する。図５は、音声選択装置の第２の実施形態の構成例を示すブロック図である。

図５を参照すると、本発明による音声選択装置の第２の実施形態は、音声データを記憶する音声データ記憶手段１０１と、音声認識用のモデルを記憶するモデル記憶手段１０２と、音声認識処理を実行する音声認識手段１０３と、認識結果を比較して認識結果一致度を算出する認識結果一致度算出手段１０４と、音声認識手段１０３が算出した非特定モデルの認識結果を比較して認識結果分散度を算出する認識結果分散度算出手段１１５と、認識結果一致度と認識結果分散度とに基づいて学習に有効な音声を選択する音声選択手段１１６とを含む。

これらの手段はそれぞれ概略つぎのように動作する。なお、音声データ記憶手段１０１、モデル記憶手段１０２、音声認識手段１０３および認識結果一致度算出手段１０４については、第１の実施形態と同様の構成であるため、説明を省略する。

認識結果分散度算出手段１１５は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。認識結果分散度算出手段１１５は、音声認識手段１０３−ｋがモデル記憶手段１０２−ｋが記憶する複数の非特定モデルを用いて音声データ記憶手段１０１が記憶する認識対象音声を入力として認識した結果を、互いに比較し、異なり具合を表す認識結果分散度を算出する機能を備えている。認識結果分散度算出手段１１５は、例えば、式（４）を用いて認識結果分散度Ｄ_ｉを算出する。

すなわち、認識結果分散度算出手段１１５は、ある非特定モデルを用いて認識した結果Ｒ_ｉ，ｋを、それ以外のＫ−１個の非特定モデルを用いて認識した結果と比較し、認識結果一致度の算出時と同様にアライメントを取って両者の結果の類似性を求める。また、認識結果分散度算出手段１１５は、これをすべての非特定モデルに対して行い、平均値を求める。これにより、強化したい特定モデルで学習した特徴を含まないデータで学習した非特徴モデルで認識した結果がどれほどばらついているかを求めることができる。

すなわち、認識結果分散度Ｄ_ｉは、その値が小さいときには認識結果がばらついていることを表し、どの非特定モデルにとってもその認識対象音声の内容を十分に学習できていないことを示す。一方、値が大きいときには認識結果間で結果に違いがないことを示し、すなわち認識対象音声の内容は、その特定モデルと同じ特徴が少ない、または非特定モデルで特定モデルと同程度に学習されていると考えられる。

音声選択手段１１６は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。音声選択手段１１６は、認識結果一致度算出手段１０４が算出した認識結果一致度と、認識結果分散度算出手段１１５が算出した認識結果分散度とに基づいて、学習に用いる音声を選択する機能を備えている。その際、音声選択手段１１６は、モデルの作成方針にしたがって、選択する音声をさらに詳細に選ぶことができる。

すなわち、十分に学習できていない発話を選択したい場合には、音声選択手段１１６は、認識結果一致度が小さく、かつ認識結果分散度も小さい発話を選択する。一方、特定モデルを学習したデータと同じ特徴を持った音声を選択し強化したい場合には、音声選択手段１１６は、認識結果一致度が小さく、かつ認識結果分散度が大きい発話を選択する。

図２を用いて具体的に説明すると、音声Ｓ_１に対する認識結果分散度Ｄ_１を求めると、Ｄ_１＝（４＋４＋４）／（３×４）＝１となる。同様に、Ｓ_２、Ｓ_３についても認識結果分散度を求めると、Ｄ_２＝１、Ｄ_３＝０となる。

例えば、認識結果がばらついている発話を選択する場合には、音声選択手段１１６は、認識結果一致度が小さく、かつ認識結果分散度も小さい発話のＳ_３を選択する。このように、図２に示す例において、認識結果がばらついている発話を選択する場合には、音声選択手段１１６は、認識結果一致度Ｃ_ｉ＝０かつ認識結果分散度Ｄ_ｉ＝０の発話を選択する。

また、特定モデルを学習したデータと同じ特徴を持った音声を選択する場合には、音声選択手段１１６は、認識結果一致度が小さく、かつ認識結果分散度が大きいＳ_２を選択する。このように、図２に示す例において、特定モデルを学習したデータと同じ特徴を持った音声を選択する場合には、音声選択手段１１６は、認識結果一致度Ｃ_ｉ＝０かつ認識結果分散度Ｄ_ｉ＝１の発話を選択する。

次に、図６を参照して本実施形態の全体の動作について説明する。図６は、音声選択装置の第２の実施形態の動作例を示す流れ図である。

まず、音声認識手段１０３は、モデル記憶手段１０２−Ｔが記憶する特定モデルと、その他のデータで作成されたモデル記憶手段１０２−ｋが記憶する非特定モデルとを用いて、音声データ記憶手段１０１が記憶する認識対象音声を入力とする音声認識処理を実行する（図６におけるステップＳ２０１）。この際、音声認識手段１０３は、同一の音声に対して、各モデルを用いてそれぞれ音声認識処理を行う。

次いで、認識結果一致度算出手段１０４は、特定モデルを用いて認識した結果と非特定モデルを用いて認識した結果とをそれぞれ比較し、認識結果一致度を算出する（ステップＳ２０２）。

次いで、認識結果分散度算出手段１１５は、非特定モデルを用いて認識した結果をそれぞれ比較し、認識結果分散度を算出する（ステップＳ２０３）。認識結果分散度算出手段１１５は、例えば、式（４）を用いて認識結果分散度Ｄ_ｉを算出する。なお、音声選択装置は、ステップＳ２０２とステップＳ２０３とを順不同で実行してもよい。

最後に、音声選択手段１１６は、ステップＳ２０２で算出した認識結果一致度と、ステップＳ２１３で算出した認識結果分散度とに基づいて、学習に用いる音声（例えば、発話）を選択する（ステップＳ２０４）。

このとき、音声選択手段１１６は、例えば、ユーザの入力操作によって入力されたモデルの作成方針にしたがって、選択する音声をさらに詳細に選択する。

ここで、モデルの作成方針について説明する。本実施形態で示す２つの作成方針は、いずれも特定モデル（だけ）を強化するものである。ただし、この２つの作成方針は、強化する軸（ポイント）が異なる。

具体的に違いを説明すると、認識結果一致度が小さく、認識結果分散度が大きい発話を選択した場合には、特定モデル（だけ）が学習しているような特定の特徴（例えば、話題やタスクなど）をさらに強化することとなる。

また、認識結果一致度が小さく、認識結果分散度も小さい発話を選択した場合には、（どのような特徴を含んでいるかわからないが、）全般的にあまり認識できていないような発話を強化することとなる。

したがって、モデルの作成方針として、特定モデルの強みをさらに強化する場合には、音声選択手段１１６は、認識結果一致度が小さく、認識結果分散度が大きい発話を選択する。また、モデルの作成方針として、特定モデルの弱点を補うように強化する場合には、音声選択手段１１６は、認識結果一致度が小さく、認識結果分散度も小さい発話を選択する。

以上の処理によって、特定のモデルを強化することを目的として学習に有効な音声を選択することができる。

また、第１の実施形態と同様に、上記に示した音声選択装置を発話選択装置に適用することもできる。図７は、発話選択装置の第２の実施形態の構成例を示すブロック図である。図７に示すように、発話選択装置２００は、音声認識手段１０３と、認識結果一致度算出手段１０４と、認識結果分散度算出手段１１５と、音声選択手段１１６と、モデル更新手段２０１とを含む。

上記のステップＳ２０１からＳ２０４の処理を実行することによって音声を選択すると、図７に示されるモデル更新手段２０１は、選択した音声をテキスト等に書き起こし、書き起こしたデータ及びその音声を用いて、モデル記憶手段１０２−Ｔが記憶するモデルを学習し直して、モデルを更新する。

次に、本実施形態の効果について説明する。

本実施形態では、第１の実施形態の構成に加えて、認識結果分散度算出手段１１５と、音声選択手段１１６とを備えている。そして、認識結果分散度算出手段１１５が、非特徴モデルの認識結果を比較して、そのばらつき度合いを表す認識結果分散度を求め、音声選択手段１１６は、認識結果一致度と認識結果分散度とに基づいて、音声を選択する。そのため、本実施形態では、認識結果がばらついている音声と特定モデルの認識結果のみ結果が異なる音声とを区別して選択することができる。すなわち、モデルの学習方針に応じて、より効果的に音声を選択することができる。

以上に説明したように、本発明による音声選択装置は、ある特徴（例えば強化したい話者や、話題、タスクなど）を持ったデータから学習された特定のモデルおよび特定のモデル以外の複数のモデル（非特定モデル）を記憶するモデル記憶手段と、音声データを記憶する音声データ記憶手段と、音声認識処理を実行する音声認識手段と、特定モデルの認識結果と非特定モデルの認識結果との一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて学習に有効な音声を選択する音声選択手段とを備えている。

本発明による音声選択装置は、特定モデルと１つ以上の非特定モデルとを備え、認識結果一致度算出手段が特定モデルの認識結果と非特定モデルの認識結果とを比較して認識結果の一致の度合いを求める。このため、音声データ記憶手段が記憶する認識した音声（認識対象音声）から特定モデルを更に強化するための学習に有効な音声を選択することができる。すなわち、認識結果一致度算出手段が特定モデルの認識結果と非特定モデルの認識結果との違いを求めることにより、特定モデルと同じ特徴（例えば同じ話者や同じ話題、同じタスクなど）を持った音声も抽出できるため、特定モデルにとって学習に有効な音声を選択することができる。

次に、本発明による音声選択装置の最小構成について説明する。図９は、音声選択装置の最小の構成例を示すブロック図である。図９に示すように、音声選択装置は、最小の構成要素として、音声認識手段１０３と、認識結果一致度算出手段１０４と、音声選択手段１０６とを含む。

図９に示す最小構成の音声選択装置では、音声認識手段１０３は、音声データを複数のモデルを用いて音声認識処理を実行する。次いで、認識結果一致度算出手段１０４は、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を示す認識結果一致度を算出する。次いで、音声選択手段１０６は、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する。

従って、最小構成の音声選択装置によれば、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。

なお、本実施形態では、以下の（１）〜（５）に示すような音声選択装置の特徴的構成と、（６）〜（７）に示すような発話選択装置の特徴的構成とが示されている。

（１）音声選択装置は、音声データと、特定のモデル（例えば、モデル記憶手段１０２−Ｔが記憶するモデル）を含む複数のモデルとを入力とし、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段（例えば、音声認識手段１０３によって実現される）と、特定のモデルと特定のモデル以外のモデル（例えば、モデル記憶手段１０２−１から１０２−Ｋが記憶するモデル）とを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度（例えば、Ｃ_ｉによって示される）を算出する認識結果一致度算出手段（例えば、認識結果一致度算出手段１０４によって実現される）と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段（例えば、音声選択手段１０６によって実現される）とを備えたことを特徴とする。

（２）音声選択装置において、音声選択手段は、認識結果一致度が低い音声を選択するように構成されていてもよい。

（３）音声選択装置において、特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度（例えば、Ｄ_ｉによって示される）を算出する認識結果分散度算出手段（例えば、認識結果分散度算出手段１１５によって実現される）を備え、音声選択手段（例えば、音声選択手段１１６によって実現される）は、認識結果分散度と認識結果一致度とに基づいて、音声データから特定のモデルの学習に用いる音声を選択するように構成されていてもよい。

（４）音声選択装置において、音声選択手段は、認識結果分散度が低い音声を選択するように構成されていてもよい。

（５）音声選択装置において、音声選択手段は、認識結果分散度が高い音声を選択するように構成されていてもよい。

（６）発話選択装置は、音声データと、特定のモデル（例えば、モデル記憶手段１０２−Ｔが記憶するモデル）を含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段（例えば、音声認識手段１０３によって実現される）と、特定のモデルと特定のモデル以外のモデル（例えば、モデル記憶手段１０２−１から１０２−Ｋが記憶するモデル）とを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度（例えば、Ｃ_ｉによって示される）を算出する認識結果一致度算出手段（例えば、認識結果一致度算出手段１０４によって実現される）と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段（例えば、音声選択手段１１６によって実現される）と、音声選択手段が選択した音声をテキストデータに書き起こし、書き起こしたテキストデータと音声とを用いて、特定のモデルを更新するモデル更新手段（例えば、モデル更新手段２０１によって実現される）と、書き起こさなかった音声データを記憶する音声データ記憶手段（例えば、音声データ記憶手段１０１によって実現される）とを備えたことを特徴とする。

（７）発話選択装置は、特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度（例えば、Ｄ_ｉによって示される）を算出する認識結果分散度算出手段（例えば、認識結果分散度算出手段１１５によって実現される）を備え、音声選択手段は、認識結果分散度と認識結果一致度とに基づいて、音声データから特定のモデルの学習に用いる音声を選択するように構成されていてもよい。

上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。

（付記１）音声選択手段は、認識結果一致度が低い音声を選択する請求項６記載の発話選択装置。

（付記２）音声選択手段は、認識結果分散度が低い音声を選択する請求項７記載の発話選択装置。

（付記３）音声選択手段は、認識結果分散度が高い音声を選択する請求項７記載の発話選択装置。

本発明は、音声認識処理の認識精度を高める用途に適用可能である。

１０１音声データ記憶手段
１０２モデル記憶手段
１０３音声認識手段
１０４認識結果一致度算出手段
１０６，１１６音声選択手段
１１５認識結果分散度算出手段
２００発話選択装置
２０１モデル更新手段

Claims

音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段とを
備えたことを特徴とする音声選択装置。
音声選択手段は、認識結果一致度が低い音声を選択する
請求項１記載の音声選択装置。
特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度を算出する認識結果分散度算出手段を備え、
音声選択手段は、前記認識結果分散度と認識結果一致度とに基づいて、音声データから前記特定のモデルの学習に用いる音声を選択する
請求項１または請求項２記載の音声選択装置。
音声選択手段は、認識結果分散度が低い音声を選択する
請求項３記載の音声選択装置。
音声選択手段は、認識結果分散度が高い音声を選択する
請求項３記載の音声選択装置。
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段と、
音声選択手段が選択した音声をテキストデータに書き起こし、書き起こした前記テキストデータと前記音声とを用いて、前記特定のモデルを更新するモデル更新手段と、
書き起こさなかった音声データを記憶する音声データ記憶手段とを
備えたことを特徴とする発話選択装置。
特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度を算出する認識結果分散度算出手段を備え、
音声選択手段は、前記認識結果分散度と認識結果一致度とに基づいて、音声データから前記特定のモデルの学習に用いる音声を選択する
請求項６記載の発話選択装置。
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段とを
含むことを特徴とする音声選択システム。
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行し、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出し、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する
ことを特徴とする音声選択方法。
音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識を行う音声認識処理と、
前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出処理と、
前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択処理とを
実行させるための音声選択プログラム。