JP2012108429A - 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム - Google Patents

音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム Download PDF

Info

Publication number
JP2012108429A
JP2012108429A JP2010258924A JP2010258924A JP2012108429A JP 2012108429 A JP2012108429 A JP 2012108429A JP 2010258924 A JP2010258924 A JP 2010258924A JP 2010258924 A JP2010258924 A JP 2010258924A JP 2012108429 A JP2012108429 A JP 2012108429A
Authority
JP
Japan
Prior art keywords
voice
recognition result
recognition
specific model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010258924A
Other languages
English (en)
Inventor
Hiroshi Kitade
祐 北出
Seiichi Miki
清一 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010258924A priority Critical patent/JP2012108429A/ja
Publication of JP2012108429A publication Critical patent/JP2012108429A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる音声選択装置を提供することを目的とする。
【解決手段】音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段103と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を示す認識結果一致度を算出する認識結果一致度算出手段104と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段106とを備えたことを特徴とする。
【選択図】図9

Description

本発明は、音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラムに関する。
音声認識の分野において、一定レベルの認識精度を達成するためには、大量のデータを用いてモデルを学習する必要がある。しかし、その学習用のデータを作成するには、書き起こしなどのラベル付け作業が必要であり、多大なコストを要する。
そこで、何らかの基準にしたがってラベル付け作業の優先度を定め、優先度の高いデータのみラベル付けを行って、そのデータで効率的にモデルの学習を行うという能動学習の研究(非特許文献1)が行われている。また、これに関連する技術が、非特許文献2および非特許文献3に記載されている。
Dilek Hakkani-T¨ur et al., "Active learning for automatic speech recognition, Proc. ICASSP, pp.3904-3907, 2002. 濱中ら, "音声認識のための複数の認識器を利用した能動学習," 情報処理学会 音声言語情報処理研究会, Vol.2009-SLP-79, No.4, 2009. H.S.Seung, M.Opper, and H.Sompolinsky, "Query by committee," Proc. Workshop on Computational Learning Theory, pp.287-294, 1992.
非特許文献2には、音声認識用モデル学習装置の一例が記載されている。図8は、非特許文献2に記載されたような装置の構成を示すブロック図である。図8に示すように、非特許文献2に記載された装置は、学習データ記憶手段11と、モデル作成手段12と、モデル記憶手段13と、音声データ記憶手段14と、音声認識処理手段15と、発話選択手段16とを含む。
さらに、学習データ記憶手段11は、学習データを等分割したK個の学習データ記憶手段11−k(k=1,2,…,K)を含む。また、モデル作成手段12は、K個のモデル作成手段12−k(k=1,2,…,K)を含む。また、モデル記憶手段13は、K個のモデル記憶手段13−k(k=1,2,…,K)を含む。また、音声認識処理手段15は、K個の音声認識処理手段15−k(k=1,2,…,K)を含む。
このような構成要素を有する音声認識用モデル学習装置は、次のように動作する。すなわち、学習データ記憶手段11は、書き起こされたテキストデータとその音声データとを記憶する。モデル作成手段12−kは、学習データ記憶手段11が記憶する学習データを分割してモデルを学習する。モデル記憶手段13−kは、モデル作成手段12−kが学習したモデルを記憶する。
音声データ記憶手段14は、音声データを記憶する。音声認識処理手段15−kは、音声データ記憶手段14が記憶する音声データを入力として、モデル記憶手段13−kが記憶するモデルを読み込んで音声認識処理を実行する。
発話選択手段16は、音声認識処理手段15が出力したK個の認識結果を入力として、QBC理論(非特許文献3参照)に基づいて不一致度の高い発話(例えば、音声データの一部)を選択し、それらを書き起こす。そして、発話選択手段16は、選択した発話を学習データ記憶手段11に、それ以外の発話を音声データ記憶手段14に出力し、学習データ記憶手段11および音声データ記憶手段14が記憶するデータを更新する。
音声認識用モデル学習装置は、これらの処理を所定回数または何らかの条件が満たされるまで繰り返し実行し、モデルを更新する。
このように、非特許文献2に記載された音声認識用モデル学習装置では、音声認識処理手段15が複数のモデルを用いて音声認識処理を行い、発話選択手段16が認識結果を比較して、認識結果がばらついている発話を抽出している。これは、十分に学習できていない発話に対して複数のモデルを用いて音声認識処理を行うと結果がばらつくという基準に則って、発話を選択しているためである。
しかし、この方式では複数のモデルを用いて音声認識処理を行い、用いたモデル間で優劣(区別)をつけることなく、得た認識結果を等価に比較している。そのため、複数のモデルを学習する学習テキスト全体として強化すべきテキスト(学習データ)を抽出しているに過ぎず、複数のモデルのうちのある特定のモデルだけを強化することはできない。すなわち、特定のモデルを強化する場合には、認識結果を等価に比較して抽出した発話ではなく、そのモデルにとって強化すべき発話を抽出する必要がある。
そこで、本発明は、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラムを提供することを目的とする。
本発明による音声選択装置は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段とを備えたことを特徴とする。
本発明による発話選択装置は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段と、音声選択手段が選択した音声をテキストデータに書き起こし、書き起こしたテキストデータと音声とを用いて、特定のモデルを更新するモデル更新手段と、書き起こさなかった音声データを記憶する音声データ記憶手段とを備えたことを特徴とする。
本発明による音声選択システムは、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段と、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段とを含むことを特徴とする。
本発明による音声選択方法は、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行し、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出し、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択することを特徴とする。
本発明による音声選択プログラムは、音声データと、特定のモデルを含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識を行う音声認識処理と、特定のモデルと特定のモデル以外のモデルとを用いて認識した結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出処理と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択処理とを実行させることを特徴とする。
本発明によれば、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。
本発明による音声選択装置の第1の実施形態の構成例を示すブロック図である。 音声認識結果の一例を示す表である。 音声選択装置の第1の実施形態の動作例を示す流れ図である。 発話選択装置の第1の実施形態の構成例を示すブロック図である。 音声選択装置の第2の実施形態の構成例を示すブロック図である。 音声選択装置の第2の実施形態の動作例を示す流れ図である。 発話選択装置の第2の実施形態の構成例を示すブロック図である。 非特許文献2に記載された装置の構成を示すブロック図である。 音声選択装置の最小の構成例を示すブロック図である。
実施形態1.
次に、本発明の第1の実施形態について図面を参照して説明する。図1は、本発明による音声選択装置の第1の実施形態の構成例を示すブロック図である。図1を参照すると、本発明による音声選択装置の第1の実施形態は、音声データを記憶する音声データ記憶手段101と、音声認識用のモデルを記憶するモデル記憶手段102と、音声認識処理を実行する音声認識手段103と、認識結果を比較して認識結果一致度を算出する認識結果一致度算出手段104と、認識結果一致度に基づいて学習に有効な音声を選択する音声選択手段106とを含む。音声選択装置は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
これらの手段はそれぞれ概略つぎのように動作する。
音声データ記憶手段101は、認識対象となる音声データを記憶する。音声データ記憶手段101は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。
モデル記憶手段102は、音声認識用のモデルを記憶する。モデル記憶手段102は、特に音声認識の精度を高めたいモデルである特定モデルを記憶するモデル記憶手段102−Tと、特定モデル以外のモデルである非特定モデルを記憶するモデル記憶手段102−k(k=1,2,…,K)とを含む。モデル記憶手段102−Tは、ある特定の特徴(例えば同じ話者や同じ話題、同じタスクなど。以下、特定モデルの特徴とも表現する)を含むデータを用いて学習した特定モデルを記憶する。モデル記憶手段102−kは、前述のような特定の特徴を含まないデータを用いて学習した非特定モデルを記憶する。モデル記憶手段102は、具体的には、光ディスク装置や磁気ディスク装置等の記憶装置によって実現される。
音声認識手段103は、音声認識手段103−Tと、音声認識手段103−k(k=1,2,…,K)とを含む。音声認識手段103−Tは、音声データ記憶手段101が記憶する音声データ(以後、認識対象音声とも表現する)を入力し、モデル記憶手段102−Tが記憶する特定モデルを用いて、音声認識処理を実行する機能を備えている。また、音声認識手段103−kは、認識対象音声を入力し、モデル記憶手段102−kが記憶する非特定モデルを用いて、音声認識処理を実行する機能を備えている。音声認識手段103は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
認識結果一致度算出手段104は、音声認識手段103の認識結果を受けて、特定モデルを用いた場合の認識結果と非特定モデルを用いた場合の認識結果とを比較し、両者の認識結果が一致している度合いを表す認識結果一致度を算出する機能を備えている。認識結果一致度算出手段104は、例えば、式(1)を用いて認識結果一致度を算出する。認識結果一致度算出手段104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
Figure 2012108429
ここで、Cは、i番目の音声Sに対する認識結果一致度を表す。また、Ri,jは、i番目の音声に対してj番目のモデル記憶手段102−jが記憶するモデルを用いた場合(具体的には、音声認識手段103−jが音声認識処理を実行する)の認識結果を表す。音声の単位としては、例えば、発話やターン、話者、話題などが考えられる。
ali(Ri,T,Ri,k)については、式(2)のように、各々の認識結果の単語アライメントや、音素アライメントなどにより求まるmatch(Ri,T,Ri,k)を用い、その値そのもの(連続値)を用いたものでも、式(3)のようにしきい値θを用いた離散値であってもよい。また、単語アライメントによりmatch(Ri,T,Ri,k)を求める際に、単語全体から算出するのではなく、特定の品詞やキーワードに限定するようにしてもよい。
ali(Ri,T,Ri,k)=match(Ri,T,Ri,k) 式(2)
Figure 2012108429
ali(Ri,T,Ri,k)が大きい値であるとき、すなわちRi,Tと非特定モデルを用いて認識した結果Ri,kとが同じである場合、その音声は特定モデル、非特定モデルに関係なく認識されたことになる。すなわち、その音声は特定モデル、非特定モデルに関係なく学習される一般的な言い回しであると考えられるため、選択すべきものではない。
逆にali(Ri,T,Ri,k)が小さい値であるとき、すなわち特定モデルを用いた場合と非特定モデルを用いた場合とで認識結果が異なっている場合を想定する。この場合には、その音声は、非特許文献2に記載された方法での判断基準と同様に認識結果がばらついているか、または特定モデルを用いた場合の認識結果が他のモデルを用いた場合の認識結果と異なっているかのいずれかになる。すなわち、どのモデルにとっても十分に学習できていない音声か、または特定の特徴(話者や話題など)を有する音声かのいずれかであると考えられる。なお、十分に学習できていないとは、具体的には、その音声に対する認識精度が低いことである。
音声選択手段106は、認識結果一致度算出手段104が算出した音声ごとの認識結果一致度に基づいて、学習に用いる音声を選択する機能を備えている。すなわち、音声選択手段106は音声ごとに求めたCが小さい発話を抽出する。
上記の各手段は、例えば、次のように動作する。
音声認識処理手段103は、音声データ記憶手段101が記憶する所定の単位ごとの音声データ(例えば、発話など)を複数抽出し、モデル記憶手段102が記憶する各モデルを用いて、音声認識処理を行う。
次いで、認識結果一致度算出手段104は、認識結果に基づいて、音声データごとに、認識結果一致度を算出する。その後、音声選択手段106は、認識結果一致度が小さい音声データを選択する。
また、上記の各手段は、例えば、次のように動作する。
音声認識処理手段103は、音声データ記憶手段101が記憶する音声データを抽出し、抽出した音声データを所定の単位(例えば、発話やターン、話者、話題)に分割する。そして、音声認識処理手段103は、分割後の全ての音声データ(例えば、図3におけるS、SおよびS)について、モデル記憶手段102が記憶する各モデルを用いて、音声認識処理を行う。
次いで、認識結果一致度算出手段104は、認識結果に基づいて、分割後の音声データごとに、認識結果一致度を算出する。その後、音声選択手段106は、認識結果一致度が小さい分割後の音声データを選択する。以下、発話を選択するとの表現を用いるが、具体的には、発話単位の音声データを選択することである。
以上のように各手段が処理を実行することにより、特定モデルを用いて認識して出力した結果と非特定モデルを用いて認識して出力した結果とが大きく異なる発話を選択する。このようにすることで、非特許文献2に記載されていた方法で選択可能である認識結果が全体にばらけている音声だけでなく、特定モデルを用いた場合のみ他のモデルを用いた場合と異なる認識結果を出力しているような発話を選択することができる。
以下、具体例を用いて説明する。例えば、タスクに特徴があるものとし、特定のタスク向けに作られた特定モデル、一例として議会音声を認識するために作られたモデルと、それ以外のタスク用に作られた複数の非特定モデルとが存在する場合を想定する。なお、タスクによって話す内容が大きく異なるため、対応するモデル、すなわちこの場合には、具体的には言語モデルが大きく異なる。
ここで、特定のタスクに対応するモデルを強化するため、特定モデルと同じタスク、すなわち議会の音声を用意し、特定モデルと複数の非特定モデルとを用いて、その音声を認識する。この認識結果を図2に示す。なお、ここでは4つの非特定モデルを用いているため、K=4となる。また、モデルの強化とは、具体的には、そのモデルを用いて音声認識した場合の精度が高くなるようにモデルを更新することである。
図2は、音声認識結果の一例を示す表である。例えば、図2に示される表の4行目は、3番目の音声Sが入力されたときの認識結果を表す。また、図2に示される表の4行目は、特定モデル103−Tを用いて認識した結果R3,TがAであり、3番目の非特定モデルを用いて認識した結果R3,3がDであることを表す。なお、図2に示されるA、B等の認識結果は、認識の程度を示すランク等ではなく、認識対象音声を「A」や「B」という音声と認識したことを示している。
図2に示されるように、音声Sについては、どのモデルを用いて認識した結果もAとなっている。このような結果となる音声には、例えば、「おはようございます」などの議会やそれ以外のタスクに関係なく話される言い回しによるものが該当する。この場合、R1,TとRi,kとは完全一致しているので、ali(R1,T,Ri,k)=1となり、C=(1+1+1+1)/4=1となる。
次に、音声Sについては、R2,Tのみ結果が異なる。このような結果となる音声には、他のタスクではあまり使われず、議会ではよく使われる単語、例えば「異議」などの単語が含まれている発話が該当する。すなわち、非特定モデルを用いた場合には、より一般的に使われる同音異義語の「意義」が認識結果に表われ、R2,Tのみ「異議」を認識して出力したような場合が該当する。この場合、上述のようにCを求めると、C=0となる。
最後に音声Sについては、全て結果が異なる。このような結果となる音声には、例えば、これまで議会で議題に挙がってこなかった新しい話題が含まれているものが該当する。この場合には、いずれのモデルを用いても認識することができない。また、上述のようにCを求めると、C=0となる。
よって、最終的にCに基づいて、音声選択手段106は、C値の小さい2番目の音声と3番目の音声とを選択することとなる。このように、図2に示す例においては、音声選択手段106は、認識結果一致度が低い音声として、認識結果一致度C=0である音声を選択する。
次に、図3を参照して本実施形態の全体の動作について説明する。図3は、音声選択装置の第1の実施形態の動作例を示す流れ図である。
まず、音声認識手段103は、モデル記憶手段102−Tが記憶する特定モデルと、その他のデータで作成されたモデル記憶手段102−kが記憶する非特定モデルとを用いて、音声データ記憶手段101が記憶する認識対象音声を入力とする音声認識処理を実行する(図3におけるステップS101)。この際、音声認識手段103は、同一の音声に対して、各モデルを用いてそれぞれ音声認識処理を行う。
次に、認識結果一致度算出手段104は、特定モデルを用いて認識した結果と非特定モデルを用いて認識した結果とをそれぞれ比較し、認識結果一致度を算出する(ステップS102)。認識結果一致度算出手段104は、例えば、式(1)を用いて認識結果一致度を算出する。
最後に、音声選択手段106は、ステップS101およびS102の処理を実行した認識対象音声のうち、ステップS102で算出した認識結果一致度が低い音声(例えば、発話など)を、学習に用いる音声として選択する(ステップS103)。
なお、上記に示した音声選択装置を発話選択装置に適用することもできる。図4は、発話選択装置の第1の実施形態の構成例を示すブロック図である。図4に示すように、発話選択装置200は、音声認識手段103と、認識結果一致度算出手段104と、音声選択手段106と、モデル更新手段201とを含む。
上記のステップS101からS103の処理を実行することによって音声を選択すると、図4に示されるモデル更新手段201は、選択した音声をテキスト等に書き起こし、書き起こしたデータ及びその音声を用いて、モデル記憶手段102−Tが記憶するモデルを学習し直して、モデルを更新する。
また、音声選択装置は、選択しなかった音声を音声データ記憶手段101に出力し、再度音声認識処理を行う。なお、この一連の処理のサイクルを所定の回数または何らかの条件を満たすまで行うようにしてもよい。
次に、本実施形態の効果について説明する。
本実施形態では、ある特定モデルとそれ以外の非特定モデルとを用いた場合の認識結果を比較し、その結果の違いを認識結果一致度という指標で数値化して、その数値が小さい音声(すなわち、本実施形態ではC=0となる音声)を選択する。そのため、これまで抽出できていた全体的に認識結果がばらついているような、あまり学習できていない音声だけでなく、特定モデルを用いた場合のみ認識結果が異なるような、特定モデルと特徴が合致した音声も選択することができる。したがって、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。
実施形態2.
次に、本発明による音声選択装置の第2の実施形態について図面を参照して説明する。図5は、音声選択装置の第2の実施形態の構成例を示すブロック図である。
図5を参照すると、本発明による音声選択装置の第2の実施形態は、音声データを記憶する音声データ記憶手段101と、音声認識用のモデルを記憶するモデル記憶手段102と、音声認識処理を実行する音声認識手段103と、認識結果を比較して認識結果一致度を算出する認識結果一致度算出手段104と、音声認識手段103が算出した非特定モデルの認識結果を比較して認識結果分散度を算出する認識結果分散度算出手段115と、認識結果一致度と認識結果分散度とに基づいて学習に有効な音声を選択する音声選択手段116とを含む。
これらの手段はそれぞれ概略つぎのように動作する。なお、音声データ記憶手段101、モデル記憶手段102、音声認識手段103および認識結果一致度算出手段104については、第1の実施形態と同様の構成であるため、説明を省略する。
認識結果分散度算出手段115は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。認識結果分散度算出手段115は、音声認識手段103−kがモデル記憶手段102−kが記憶する複数の非特定モデルを用いて音声データ記憶手段101が記憶する認識対象音声を入力として認識した結果を、互いに比較し、異なり具合を表す認識結果分散度を算出する機能を備えている。認識結果分散度算出手段115は、例えば、式(4)を用いて認識結果分散度Dを算出する。
Figure 2012108429
すなわち、認識結果分散度算出手段115は、ある非特定モデルを用いて認識した結果Ri,kを、それ以外のK−1個の非特定モデルを用いて認識した結果と比較し、認識結果一致度の算出時と同様にアライメントを取って両者の結果の類似性を求める。また、認識結果分散度算出手段115は、これをすべての非特定モデルに対して行い、平均値を求める。これにより、強化したい特定モデルで学習した特徴を含まないデータで学習した非特徴モデルで認識した結果がどれほどばらついているかを求めることができる。
すなわち、認識結果分散度Dは、その値が小さいときには認識結果がばらついていることを表し、どの非特定モデルにとってもその認識対象音声の内容を十分に学習できていないことを示す。一方、値が大きいときには認識結果間で結果に違いがないことを示し、すなわち認識対象音声の内容は、その特定モデルと同じ特徴が少ない、または非特定モデルで特定モデルと同程度に学習されていると考えられる。
音声選択手段116は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。音声選択手段116は、認識結果一致度算出手段104が算出した認識結果一致度と、認識結果分散度算出手段115が算出した認識結果分散度とに基づいて、学習に用いる音声を選択する機能を備えている。その際、音声選択手段116は、モデルの作成方針にしたがって、選択する音声をさらに詳細に選ぶことができる。
すなわち、十分に学習できていない発話を選択したい場合には、音声選択手段116は、認識結果一致度が小さく、かつ認識結果分散度も小さい発話を選択する。一方、特定モデルを学習したデータと同じ特徴を持った音声を選択し強化したい場合には、音声選択手段116は、認識結果一致度が小さく、かつ認識結果分散度が大きい発話を選択する。
図2を用いて具体的に説明すると、音声Sに対する認識結果分散度Dを求めると、D=(4+4+4)/(3×4)=1となる。同様に、S、Sについても認識結果分散度を求めると、D=1、D=0となる。
例えば、認識結果がばらついている発話を選択する場合には、音声選択手段116は、認識結果一致度が小さく、かつ認識結果分散度も小さい発話のSを選択する。このように、図2に示す例において、認識結果がばらついている発話を選択する場合には、音声選択手段116は、認識結果一致度C=0かつ認識結果分散度D=0の発話を選択する。
また、特定モデルを学習したデータと同じ特徴を持った音声を選択する場合には、音声選択手段116は、認識結果一致度が小さく、かつ認識結果分散度が大きいSを選択する。このように、図2に示す例において、特定モデルを学習したデータと同じ特徴を持った音声を選択する場合には、音声選択手段116は、認識結果一致度C=0かつ認識結果分散度D=1の発話を選択する。
次に、図6を参照して本実施形態の全体の動作について説明する。図6は、音声選択装置の第2の実施形態の動作例を示す流れ図である。
まず、音声認識手段103は、モデル記憶手段102−Tが記憶する特定モデルと、その他のデータで作成されたモデル記憶手段102−kが記憶する非特定モデルとを用いて、音声データ記憶手段101が記憶する認識対象音声を入力とする音声認識処理を実行する(図6におけるステップS201)。この際、音声認識手段103は、同一の音声に対して、各モデルを用いてそれぞれ音声認識処理を行う。
次いで、認識結果一致度算出手段104は、特定モデルを用いて認識した結果と非特定モデルを用いて認識した結果とをそれぞれ比較し、認識結果一致度を算出する(ステップS202)。
次いで、認識結果分散度算出手段115は、非特定モデルを用いて認識した結果をそれぞれ比較し、認識結果分散度を算出する(ステップS203)。認識結果分散度算出手段115は、例えば、式(4)を用いて認識結果分散度Dを算出する。なお、音声選択装置は、ステップS202とステップS203とを順不同で実行してもよい。
最後に、音声選択手段116は、ステップS202で算出した認識結果一致度と、ステップS213で算出した認識結果分散度とに基づいて、学習に用いる音声(例えば、発話)を選択する(ステップS204)。
このとき、音声選択手段116は、例えば、ユーザの入力操作によって入力されたモデルの作成方針にしたがって、選択する音声をさらに詳細に選択する。
ここで、モデルの作成方針について説明する。本実施形態で示す2つの作成方針は、いずれも特定モデル(だけ)を強化するものである。ただし、この2つの作成方針は、強化する軸(ポイント)が異なる。
具体的に違いを説明すると、認識結果一致度が小さく、認識結果分散度が大きい発話を選択した場合には、特定モデル(だけ)が学習しているような特定の特徴(例えば、話題やタスクなど)をさらに強化することとなる。
また、認識結果一致度が小さく、認識結果分散度も小さい発話を選択した場合には、(どのような特徴を含んでいるかわからないが、)全般的にあまり認識できていないような発話を強化することとなる。
したがって、モデルの作成方針として、特定モデルの強みをさらに強化する場合には、音声選択手段116は、認識結果一致度が小さく、認識結果分散度が大きい発話を選択する。また、モデルの作成方針として、特定モデルの弱点を補うように強化する場合には、音声選択手段116は、認識結果一致度が小さく、認識結果分散度も小さい発話を選択する。
以上の処理によって、特定のモデルを強化することを目的として学習に有効な音声を選択することができる。
また、第1の実施形態と同様に、上記に示した音声選択装置を発話選択装置に適用することもできる。図7は、発話選択装置の第2の実施形態の構成例を示すブロック図である。図7に示すように、発話選択装置200は、音声認識手段103と、認識結果一致度算出手段104と、認識結果分散度算出手段115と、音声選択手段116と、モデル更新手段201とを含む。
上記のステップS201からS204の処理を実行することによって音声を選択すると、図7に示されるモデル更新手段201は、選択した音声をテキスト等に書き起こし、書き起こしたデータ及びその音声を用いて、モデル記憶手段102−Tが記憶するモデルを学習し直して、モデルを更新する。
また、音声選択装置は、選択しなかった音声を音声データ記憶手段101に出力し、再度音声認識処理を行う。なお、この一連の処理のサイクルを所定の回数または何らかの条件を満たすまで行うようにしてもよい。
次に、本実施形態の効果について説明する。
本実施形態では、第1の実施形態の構成に加えて、認識結果分散度算出手段115と、音声選択手段116とを備えている。そして、認識結果分散度算出手段115が、非特徴モデルの認識結果を比較して、そのばらつき度合いを表す認識結果分散度を求め、音声選択手段116は、認識結果一致度と認識結果分散度とに基づいて、音声を選択する。そのため、本実施形態では、認識結果がばらついている音声と特定モデルの認識結果のみ結果が異なる音声とを区別して選択することができる。すなわち、モデルの学習方針に応じて、より効果的に音声を選択することができる。
以上に説明したように、本発明による音声選択装置は、ある特徴(例えば強化したい話者や、話題、タスクなど)を持ったデータから学習された特定のモデルおよび特定のモデル以外の複数のモデル(非特定モデル)を記憶するモデル記憶手段と、音声データを記憶する音声データ記憶手段と、音声認識処理を実行する音声認識手段と、特定モデルの認識結果と非特定モデルの認識結果との一致度を算出する認識結果一致度算出手段と、認識結果一致度に基づいて学習に有効な音声を選択する音声選択手段とを備えている。
本発明による音声選択装置は、特定モデルと1つ以上の非特定モデルとを備え、認識結果一致度算出手段が特定モデルの認識結果と非特定モデルの認識結果とを比較して認識結果の一致の度合いを求める。このため、音声データ記憶手段が記憶する認識した音声(認識対象音声)から特定モデルを更に強化するための学習に有効な音声を選択することができる。すなわち、認識結果一致度算出手段が特定モデルの認識結果と非特定モデルの認識結果との違いを求めることにより、特定モデルと同じ特徴(例えば同じ話者や同じ話題、同じタスクなど)を持った音声も抽出できるため、特定モデルにとって学習に有効な音声を選択することができる。
次に、本発明による音声選択装置の最小構成について説明する。図9は、音声選択装置の最小の構成例を示すブロック図である。図9に示すように、音声選択装置は、最小の構成要素として、音声認識手段103と、認識結果一致度算出手段104と、音声選択手段106とを含む。
図9に示す最小構成の音声選択装置では、音声認識手段103は、音声データを複数のモデルを用いて音声認識処理を実行する。次いで、認識結果一致度算出手段104は、特定のモデルと特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を示す認識結果一致度を算出する。次いで、音声選択手段106は、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する。
従って、最小構成の音声選択装置によれば、複数のモデルが存在する場合に、ある特定のモデルを強化することを目的とした学習に有効な学習用データを効率的に選択することができる。
なお、本実施形態では、以下の(1)〜(5)に示すような音声選択装置の特徴的構成と、(6)〜(7)に示すような発話選択装置の特徴的構成とが示されている。
(1)音声選択装置は、音声データと、特定のモデル(例えば、モデル記憶手段102−Tが記憶するモデル)を含む複数のモデルとを入力とし、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段(例えば、音声認識手段103によって実現される)と、特定のモデルと特定のモデル以外のモデル(例えば、モデル記憶手段102−1から102−Kが記憶するモデル)とを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度(例えば、Cによって示される)を算出する認識結果一致度算出手段(例えば、認識結果一致度算出手段104によって実現される)と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段(例えば、音声選択手段106によって実現される)とを備えたことを特徴とする。
(2)音声選択装置において、音声選択手段は、認識結果一致度が低い音声を選択するように構成されていてもよい。
(3)音声選択装置において、特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度(例えば、Dによって示される)を算出する認識結果分散度算出手段(例えば、認識結果分散度算出手段115によって実現される)を備え、音声選択手段(例えば、音声選択手段116によって実現される)は、認識結果分散度と認識結果一致度とに基づいて、音声データから特定のモデルの学習に用いる音声を選択するように構成されていてもよい。
(4)音声選択装置において、音声選択手段は、認識結果分散度が低い音声を選択するように構成されていてもよい。
(5)音声選択装置において、音声選択手段は、認識結果分散度が高い音声を選択するように構成されていてもよい。
(6)発話選択装置は、音声データと、特定のモデル(例えば、モデル記憶手段102−Tが記憶するモデル)を含む複数のモデルとを入力し、入力した音声データを複数のモデルを用いて音声認識処理を実行する音声認識手段(例えば、音声認識手段103によって実現される)と、特定のモデルと特定のモデル以外のモデル(例えば、モデル記憶手段102−1から102−Kが記憶するモデル)とを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度(例えば、Cによって示される)を算出する認識結果一致度算出手段(例えば、認識結果一致度算出手段104によって実現される)と、認識結果一致度に基づいて、音声データから特定のモデルの学習に用いる音声を選択する音声選択手段(例えば、音声選択手段116によって実現される)と、音声選択手段が選択した音声をテキストデータに書き起こし、書き起こしたテキストデータと音声とを用いて、特定のモデルを更新するモデル更新手段(例えば、モデル更新手段201によって実現される)と、書き起こさなかった音声データを記憶する音声データ記憶手段(例えば、音声データ記憶手段101によって実現される)とを備えたことを特徴とする。
(7)発話選択装置は、特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度(例えば、Dによって示される)を算出する認識結果分散度算出手段(例えば、認識結果分散度算出手段115によって実現される)を備え、音声選択手段は、認識結果分散度と認識結果一致度とに基づいて、音声データから特定のモデルの学習に用いる音声を選択するように構成されていてもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)音声選択手段は、認識結果一致度が低い音声を選択する請求項6記載の発話選択装置。
(付記2)音声選択手段は、認識結果分散度が低い音声を選択する請求項7記載の発話選択装置。
(付記3)音声選択手段は、認識結果分散度が高い音声を選択する請求項7記載の発話選択装置。
本発明は、音声認識処理の認識精度を高める用途に適用可能である。
101 音声データ記憶手段
102 モデル記憶手段
103 音声認識手段
104 認識結果一致度算出手段
106,116 音声選択手段
115 認識結果分散度算出手段
200 発話選択装置
201 モデル更新手段

Claims (10)

  1. 音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
    前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
    前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段とを
    備えたことを特徴とする音声選択装置。
  2. 音声選択手段は、認識結果一致度が低い音声を選択する
    請求項1記載の音声選択装置。
  3. 特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度を算出する認識結果分散度算出手段を備え、
    音声選択手段は、前記認識結果分散度と認識結果一致度とに基づいて、音声データから前記特定のモデルの学習に用いる音声を選択する
    請求項1または請求項2記載の音声選択装置。
  4. 音声選択手段は、認識結果分散度が低い音声を選択する
    請求項3記載の音声選択装置。
  5. 音声選択手段は、認識結果分散度が高い音声を選択する
    請求項3記載の音声選択装置。
  6. 音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
    前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
    前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段と、
    音声選択手段が選択した音声をテキストデータに書き起こし、書き起こした前記テキストデータと前記音声とを用いて、前記特定のモデルを更新するモデル更新手段と、
    書き起こさなかった音声データを記憶する音声データ記憶手段とを
    備えたことを特徴とする発話選択装置。
  7. 特定のモデル以外のモデルを用いて認識した認識結果を各々比較し、認識結果の分散度を表す認識結果分散度を算出する認識結果分散度算出手段を備え、
    音声選択手段は、前記認識結果分散度と認識結果一致度とに基づいて、音声データから前記特定のモデルの学習に用いる音声を選択する
    請求項6記載の発話選択装置。
  8. 音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行する音声認識手段と、
    前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出手段と、
    前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択手段とを
    含むことを特徴とする音声選択システム。
  9. 音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識処理を実行し、
    前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出し、
    前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する
    ことを特徴とする音声選択方法。
  10. 音声データと、特定のモデルを含む複数のモデルとを入力し、入力した前記音声データを前記複数のモデルを用いて音声認識を行う音声認識処理と、
    前記特定のモデルと該特定のモデル以外のモデルとを用いて認識した認識結果を比較し、認識結果の一致度を表す認識結果一致度を算出する認識結果一致度算出処理と、
    前記認識結果一致度に基づいて、前記音声データから前記特定のモデルの学習に用いる音声を選択する音声選択処理とを
    実行させるための音声選択プログラム。
JP2010258924A 2010-11-19 2010-11-19 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム Pending JP2012108429A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010258924A JP2012108429A (ja) 2010-11-19 2010-11-19 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010258924A JP2012108429A (ja) 2010-11-19 2010-11-19 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム

Publications (1)

Publication Number Publication Date
JP2012108429A true JP2012108429A (ja) 2012-06-07

Family

ID=46494081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010258924A Pending JP2012108429A (ja) 2010-11-19 2010-11-19 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム

Country Status (1)

Country Link
JP (1) JP2012108429A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015022761A1 (en) 2013-08-13 2015-02-19 Mitsubishi Electric Corporation Pattern recognition apparatus and pattern recognition method
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置
JP2018060268A (ja) * 2016-10-03 2018-04-12 株式会社日立製作所 認識装置および学習システム
KR20200033058A (ko) * 2018-09-19 2020-03-27 주식회사 포티투마루 음성 인식 학습 데이터 생성 시스템, 방법 및 컴퓨터 프로그램
KR102524615B1 (ko) * 2022-10-28 2023-04-21 주식회사 액션파워 개인화된 음성 인식을 위한 데이터를 생성하고, 생성된 데이터를 이용하여 개인화된 음성 인식을 수행하는 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015022761A1 (en) 2013-08-13 2015-02-19 Mitsubishi Electric Corporation Pattern recognition apparatus and pattern recognition method
US9336770B2 (en) 2013-08-13 2016-05-10 Mitsubishi Electric Corporation Pattern recognition apparatus for creating multiple systems and combining the multiple systems to improve recognition performance and pattern recognition method
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置
JP2018060268A (ja) * 2016-10-03 2018-04-12 株式会社日立製作所 認識装置および学習システム
US11341398B2 (en) 2016-10-03 2022-05-24 Hitachi, Ltd. Recognition apparatus and learning system using neural networks
KR20200033058A (ko) * 2018-09-19 2020-03-27 주식회사 포티투마루 음성 인식 학습 데이터 생성 시스템, 방법 및 컴퓨터 프로그램
KR102146524B1 (ko) * 2018-09-19 2020-08-20 주식회사 포티투마루 음성 인식 학습 데이터 생성 시스템, 방법 및 컴퓨터 프로그램
US11315547B2 (en) 2018-09-19 2022-04-26 42 Maru Inc. Method and system for generating speech recognition training data
KR102524615B1 (ko) * 2022-10-28 2023-04-21 주식회사 액션파워 개인화된 음성 인식을 위한 데이터를 생성하고, 생성된 데이터를 이용하여 개인화된 음성 인식을 수행하는 방법

Similar Documents

Publication Publication Date Title
US11158305B2 (en) Online verification of custom wake word
US9934777B1 (en) Customized speech processing language models
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US7966171B2 (en) System and method for increasing accuracy of searches based on communities of interest
US9842585B2 (en) Multilingual deep neural network
US10037758B2 (en) Device and method for understanding user intent
US11049495B2 (en) Method and device for automatically learning relevance of words in a speech recognition system
CN111145718B (zh) 一种基于自注意力机制的中文普通话字音转换方法
US20240153489A1 (en) Data driven dialog management
US9653093B1 (en) Generative modeling of speech using neural networks
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
WO2020226789A1 (en) Contextual biasing for speech recognition
US7292976B1 (en) Active learning process for spoken dialog systems
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
WO2008001485A1 (fr) système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
JP2010282199A (ja) 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム
Wu et al. Encoding linear models as weighted finite-state transducers.
WO2016167779A1 (en) Speech recognition device and rescoring device
WO2010100853A1 (ja) 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
WO2011037562A1 (en) Probabilistic representation of acoustic segments
Bai et al. End-to-end keywords spotting based on connectionist temporal classification for mandarin
JP2013148697A (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP2012108429A (ja) 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP2007078943A (ja) 音響スコア計算プログラム