JP4877113B2

JP4877113B2 - 音響モデル処理装置およびプログラム

Info

Publication number: JP4877113B2
Application number: JP2007183481A
Authority: JP
Inventors: 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-07-12
Filing date: 2007-07-12
Publication date: 2012-02-15
Anticipated expiration: 2027-07-12
Also published as: JP2009020353A

Description

本発明は、例えば音声認識に利用される音響モデルを処理する技術に関する。

隠れマルコフモデルなどの音響モデルを利用して音声を認識（さらには音声に対応した文字を出力）する音声認識の技術が従来から提案されている。音声認識の対象となる総ての音声について事前に音響モデルを作成しておくことは困難であるから、音声信号に基づいて初期的な音響モデルを適応化（話者適応）することで、当該音声の特徴を固有に反映した音響モデルが生成される。例えば特許文献１には、音声信号から抽出された特徴量に基づいて初期的な音響モデルを適応化する技術が開示されている。
特開２００３−２７１１７８号公報

ところで、発声者が特定の空間内で発生した音声には、発声時の環境（例えば空間の音響的な特性や発声点と収音点との位置の関係）に応じた音響的な特性が付加されたうえで収音装置に到達する。したがって、例えば複数の発声者が別位置にて随時に発声する会議で収録された音声信号に音声認識を実行する場合、特許文献１の技術のもとで高精度な音声認識を実現するためには、総ての発声者が各位置で発声した音声を利用して発声者毎に音響モデルを適応化する必要がある。しかし、高精度な音響モデルの作成に必要となる音声（すなわち充分に多数の音素を均等に含む音声）を総ての発声者に事前に各位置で発声させることは現実的には困難である。以上の事情に鑑みて、本発明は、発話環境が相違する複数の発声者の各々の音声について高精度な音声認識を実現し得る音響モデルを簡便に作成するという課題の解決をひとつの目的としている。

以上の課題を解決するために、本発明に係る音響モデル処理装置は、発話環境に非依存な不特定話者の第１音響モデル（例えば図３の音響モデルＭsid）を記憶する記憶手段と、発話環境に非依存な特定話者の音声信号（例えば図３の音声信号ＳA）に基づいて第１音響モデルを適応化することで、発話環境に非依存な特定話者の第２音響モデル（例えば図３の音響モデルＭA[s1,0]）を生成する第１適応化手段と、発話環境が相違する特定話者の複数の音声信号（例えば図３の音声信号ＳB1〜ＳBK）の各々に基づいて第１音響モデルを適応化することで、発話環境が相違する特定話者の複数の第３音響モデル（例えば図３の音響モデルＭB[s1,1]〜ＭB[s1,K]）を生成する第２適応化手段と、第２音響モデルと複数の第３音響モデルの各々との差分を第１音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第４音響モデル（例えば図３の音響モデルＭC[sid,1]〜ＭC[sid,K]）を生成する演算手段とを具備する。

以上の構成によれば、各発声者が別環境のもとで事前に発声するといった煩雑な作業を要することなく、別個の発話環境に対応した不特定話者の複数の第４音響モデルを特定話者の音声信号と第１音響モデルとに基づいて簡便に生成することができる。なお、「不特定話者の音響モデル」とは、複数の発声者の音声から生成された音響モデル（典型的には複数人の音声の平均的な特性をモデル化する音響モデル）を意味する。また、「発話環境に非依存な音響モデル」とは、発音から収音までの経路上で環境（例えば空間内の音響的な特性や発音点と収音点との位置の関係）に応じた特性が殆どまたは全く付加されておらずＳＮ比が高い音声（典型的には残響が付加されていない音声）の音響モデルを意味する。例えば、収音装置に充分に近接した状態（オンマイク）で発声された音声の音響モデルは発話環境に非依存な音響モデルである。

本発明の第１態様において、演算手段は、複数の第３音響モデルの各々と第２音響モデルとの差分を算定する減算手段と、第１音響モデルと各差分とを加算することで複数の第４音響モデルを生成する加算手段とを具備する。
本発明の第２態様（例えば図４の構成）において、演算手段は、第１音響モデルと第２音響モデルとを加算する加算手段と、加算手段による加算後の音響モデルから複数の第３音響モデルの各々を減算することで複数の第４音響モデルを生成する減算手段とを具備する。
本発明の第３態様（例えば図５の構成）において、演算手段は、複数の第３音響モデルの各々と第１音響モデルとを加算する加算手段と、加算手段による加算後の各音響モデルから第２音響モデルを減算することで複数の第４音響モデルを生成する減算手段とを具備する。

本発明の好適な態様に係る音響モデル処理装置は、特定話者の音声信号（例えば図１の音声信号Ａ）を記憶する音声記憶手段と、音声記憶手段が記憶する音声信号が表わす音声を出力する放音手段と、放音手段が出力した音声に応じた音声信号を生成する収音手段とを具備し、第１適応化手段および第２適応化手段は、収音手段が生成した音声信号に基づいて第１音響モデルを適応化する。以上の態様によれば、利用者が実際に発声した音声信号を利用して第１音響モデルを適応化する場合と比較して、適切な第４音響モデルを簡便な作業で生成することが可能である。なお、音声記憶手段は、第１音響モデルを記憶する記憶手段と一体であっても別体であってもよい。

本発明に係る音響モデル処理装置は、音響モデルの処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、発話環境に非依存な不特定話者の第１音響モデルを、発話環境に非依存な特定話者の音声信号に基づいて適応化することで、発話環境に非依存な特定話者の第２音響モデルを生成する第１適応化処理と、発話環境が相違する特定話者の複数の音声信号の各々に基づいて第１音響モデルを適応化することで、発話環境が相違する特定話者の複数の第３音響モデルを生成する第２適応化処理と、第２音響モデルと複数の第３音響モデルの各々との差分を第１音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第４音響モデルを生成する演算処理とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音響モデル処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明は、音響モデルを処理する方法としても特定される。具体的な態様に係る音響モデル処理方法は、発話環境に非依存な不特定話者の第１音響モデルを、発話環境に非依存な特定話者の音声信号に基づいて適応化することで、発話環境に非依存な特定話者の第２音響モデルを生成する第１適応化過程と、発話環境が相違する特定話者の複数の音声信号の各々に基づいて第１音響モデルを適応化することで、発話環境が相違する特定話者の複数の第３音響モデルを生成する第２適応化過程と、第２音響モデルと複数の第３音響モデルの各々との差分を第１音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第４音響モデルを生成する演算過程とを含む。以上の方法によれば、本発明に係る音響モデル処理装置と同様の作用および効果が奏される。

図１は、本発明の実施の形態に係る音声処理装置１００の構成を示すブロック図である。同図に示すように、音声処理装置１００は、制御装置１０と記憶装置３０とを具備するコンピュータシステムである。制御装置１０は、記憶装置３０に格納されたプログラムを実行する演算処理装置である。制御装置１０には収音装置４２と入力装置４４と放音装置５２と出力装置５４とが接続される。

収音装置（マイクロホン）４２は、周囲の音声の波形に応じた音声信号Ｓを生成する。入力装置４４は、音声処理装置１００に対する指示を利用者が入力するための機器（例えばキーボード）である。放音装置（例えばスピーカ）５２は、制御装置１０から供給される信号に応じた音声を放音する。出力装置５４は、制御装置１０による制御のもとに各種の画像を表示する。なお、制御装置１０が指示した画像を印刷する印刷機器も出力装置５４として採用される。

記憶装置３０は、制御装置１０が実行するプログラムや制御装置１０が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置３０として任意に採用される。記憶装置３０には音響モデルＭsidと音声信号Ａとが事前に格納される。なお、音響モデルＭsidと音声信号Ａとは別個の記憶装置に格納されてもよい。

音響モデルＭsidは、音素毎の音響的な特徴を多数の特徴パラメータによって規定する確率モデル（例えば隠れマルコフモデル）である。本形態の音響モデルＭsidは、発声者が収音装置４２に充分に近接して発声した音声を複数の発声者（以下「不特定話者」という）について平均化した標準的なモデルである。したがって、音響モデルＭsidは、発声時の環境に殆ど依存しない（以下「発話環境に非依存」という）。一方、音声信号Ａは、多数の音素を均等に含む文字列を特定の発声者（以下「特定話者」という）ｓ1が発声したときの音声の波形を表わす信号である。なお、符号sidは不特定話者（Speaker InDependent）を意味する。

図１に示すように、制御装置１０は音響モデル処理部１２および音声認識部１４として機能する。なお、制御装置１０の各要素は、音声の処理に専用されるＤＳＰなどの電子回路によっても実現される。また、制御装置１０は、複数の集積回路に分散して実装されてもよい。例えば、音響モデル処理部１２と音声認識部１４とは別体の回路としても実現される。

音響モデル処理部１２は、音響モデルＭsidを適応化する手段である。音声認識部１４は、音声信号Ｖが表わす音声に対応した文字列Ｔを音響モデル処理部１２による適応後の音響モデルに基づいて特定（音声認識）する。音声信号Ｖが表わす音声は、図２に示すように、会議室などの空間Ｒ内に設定されたＫ個（Ｋは２以上の整数）の位置Ｐ1〜ＰKの何れかにて複数の発声者の各々が随時に発生する状況（例えば会議）において、空間Ｒ内の所定の位置ＰMに設置された収音装置４２が収録した音声である。位置Ｐ1〜ＰKは、例えば空間Ｒ内に設置された座席の位置である。

図３は、音響モデル処理部１２の具体的な構成を示すブロック図である。同図に示すように、音響モデル処理部１２は、第１適応部２１と第２適応部２２と演算部２４とで構成される。第１適応部２１には、特定話者ｓ1の音声を表わす音声信号ＳAが供給される。第１適応部２１は、音声信号ＳAに基づいて音響モデルＭsidを適応化（話者適応）することで音響モデルＭA[s1,0]を生成して記憶装置３０に格納する。

第２適応部２２には、音声信号ＳB1〜ＳBKが順次に供給される。音声信号ＳBi（ｉ＝１〜Ｋ）は、位置Ｐiにおける特定話者ｓ1の音声を表わす。第２適応部２２は、各音声信号ＳBiに基づいて音響モデルＭsidを適応化（環境適応）することで音響モデルＭB[s1,i]を生成して記憶装置３０に格納する。

第１適応部２１や第２適応部２２による音響モデルＭsidの適応化には、最尤線形回帰法（ＭＬＬＲ（Maximum Likelihood Linear Regression）法）や最大事後確率推定法（ＭＡＰ（Maximum A Posteriori probability estimation）法）に代表される公知の適応化技術が任意に採用される。

演算部２４は、音響モデルＭsidと音響モデルＭA[s1,0]とＫ個の音響モデルＭB[s1,1]〜ＭB[s1,K]の各々とに基づいてＫ個の音響モデルＭC[sid,1]〜ＭC[sid,K]を生成する。本形態の演算部２４は、減算部２４１と加算部２４２とで構成される。演算部２４による具体的な処理の内容は後述する。

次に、音響モデルＭC[sid,1]〜ＭC[sid,K]を生成する具体的な手順について説明する。まず、利用者は、空間Ｒ内において収音装置４２と放音装置５２とを充分に近接させたうえで、音声の出力の指示を入力装置４４から入力する。当該指示を検出すると、音響モデル処理部１２は、記憶装置３０に格納された音声信号Ａを順次に放音装置５２に供給する。したがって、放音装置５２から特定話者ｓ1の音声が出力されるとともに、当該音声に応じた音声信号ＳAが収音装置４２から音響モデル処理部１２（第１適応部２１）に供給される。

第１適応部２１は、音声信号ＳAに基づいて音響モデルＭsidを適応化することで音響モデルＭA[s1,0]を生成する。収音装置４２は放音装置５２に充分に近接するから、発音時の環境（例えば空間Ｒ内の音響的な特性や放音装置５２と収音装置４２との位置の関係）に応じた特性は音声信号ＳAに殆ど反映されない。すなわち、残響のない音声信号ＳAが採取される。したがって、音響モデルＭA[s1,0]は、発話環境に非依存な特定話者ｓ1の音響モデルである。

次いで、利用者は、空間Ｒ内の位置ＰMに収音装置４２を設置するとともに放音装置５２を位置Ｐiに設置する。音声の出力を利用者が入力装置４４から指示すると、音響モデル処理部１２は、記憶装置３０に格納された音声信号Ａを放音装置５２に供給する。放音装置５２から出力された特定話者ｓ1の音声は位置Ｐiから空間Ｒ内を伝播して位置ＰMの収音装置４２に到達し、当該音声に応じた音声信号ＳBiが第２適応部２２に供給される。

第２適応部２２は、音声信号ＳBiに基づいて音響モデルＭsidを適応化することで音響モデルＭB[s1,i]を生成する。したがって、音響モデルＭB[s1,i]は、空間Ｒの音響的な特性（例えば壁面の反射特性および吸音特性）や発音の位置Ｐi（位置Ｐiと位置ＰMとの関係）に依存する特定話者ｓ1の音響モデルとなる。第２適応部２２は、利用者が放音装置５２を位置Ｐ1〜ＰKの各々に順次に移動させたうえで適応用の音声の出力を指示するたびに以上の処理を実行する。したがって、以上の処理がＫ回にわたって反復された段階では、発話環境（音声信号ＳBiに付与された残響）が相違するＫ個の音響モデルＭB[s1,1]〜ＭB[s1,K]が生成される。

以上の処理が完了すると、減算部２４１は、第２適応部２２が生成した音響モデルＭB[s1,1]〜ＭB[s1,K]の各々から音響モデルＭA[s1,0]を減算することで差分Δ1〜ΔKを算定する。差分Δiは、音響モデルＭB[s1,i]の各音素の特徴パラメータから、音響モデルＭA[s1,0]における当該音素の特徴パラメータを減算することで算定される。したがって、差分Δiは、位置Ｐiでの発声の環境を反映した数値となる。特定話者ｓ1に固有の特性は差分Δ1〜ΔKにおいて除去されている。なお、減算部２４１による減算の対象となる各音素の特徴パラメータは、例えば、音響モデル（ＭA[s1,0]，ＭB[s1,i]）を定義するガウス分布（ガウス混合分布）における平均値である（分散は考慮しない）。

次いで、加算部２４２は、減算部２４１が算定したＫ個の差分Δ1〜ΔKの各々と記憶装置３０に格納された音響モデルＭsidとを加算することで音響モデルＭC[sid,1]〜ＭC[sid,K]を生成する。音響モデルＭC[sid,i]の各音素の特徴パラメータは、差分Δiと音響モデルＭsidとの各々における当該音素の特徴パラメータを加算することで算定される。

音響モデルＭsidは発話環境に非依存な不特定話者の音響モデルであり、差分Δiは位置Ｐiでの発話環境を反映する。したがって、加算部２４２が生成するＫ個の音響モデルＭC[sid,1]〜ＭC[sid,K]の各々は、別個の発話環境を反映した不特定話者の音響モデルである。換言すると、音響モデルＭC[sid,i]は、複数の発声者（不特定話者）が空間Ｒ内の位置Ｐiにて発声した音声の平均的な音響モデルに相当する。

以上の説明から理解されるように、演算部２４が音響モデルＭC[sid,i]を算定する処理の内容は下式で表現できる。下式における“ＭB[s1,i]−ＭA[s1,0]”が差分Δｉに相当する。
ＭC[sid,i]＝Ｍsid＋ＭB[s1,i]−ＭA[s1,0] ……(1)

音声認識部１４は、発声者が位置Ｐiにて発声した音声の音声信号Ｖについて音響モデルＭC[sid,i]を利用した音声認識を実行することで文字列Ｔを特定する。音響モデルＭC[sid,i]を利用した文字列Ｔの特定には公知の技術が任意に採用される。文字列Ｔは出力装置５４から出力（表示や印刷）される。

なお、音声信号Ｖが表わす音声の発声の位置Ｐiを特定する方法は任意であるが、例えば以下の方法が好適である。まず、複数の収音部が相互に離間して配置された収音装置４２（マイクロホンアレイ）を利用することで、複数の系統で構成される音声信号Ｖを採取する。音声認識部１４は、音声信号Ｖを構成する各系統間の音量差や位相差と収音装置４２の各収音部の位置との関係に基づいて発声の位置Ｐiを特定する。そして、音声認識部１４は、当該位置Ｐiに対応した音響モデルＭC[sid,i]を記憶装置３０から取得して音声信号Ｖの音声認識を実行する。なお、音声信号Ｖから発声の位置Ｐiを特定する処理には公知の技術（例えば特開２００７−８９０５８号公報）が任意に採用される。なお、音声信号Ｖの各区間の音声が発声された位置Ｐiを利用者が入力装置４４から入力してもよい。

以上に説明したように、音声信号Ｖに付与される音響的な特性（空間Ｒの特性や位置Ｐiと位置ＰMとの関係）を反映した音響モデルＭC[sid,i]が音声認識に利用されるから、例えば発話環境に非依存の音響モデルＭsidを利用した場合と比較して高精度な音声認識が実現される。しかも、ひとりの特定話者ｓ1の音声に基づいて音響モデルＭC[sid,1]〜ＭC[sid,K]が生成されるから、音声信号Ｖの音声の総ての発声者が各位置Ｐiにて事前に発声する必要はない。したがって、各位置Ｐiでの音声について高精度な音声認識を実現し得る音響モデルＭC[sid,1]〜ＭC[sid,K]を簡便に作成できるという利点がある。

しかも、事前に用意された音声信号Ａに基づいて適応用の音声が放音装置５２から出力される。したがって、音声信号Ｓ（ＳAやＳB1〜ＳBK）を生成するために利用者が空間Ｒ内で実際に発声する場合と比較して、音響モデルＭC[sid,1]〜ＭC[sid,K]を簡便に作成できるという効果は格別に顕著である。さらに、音声信号Ａの音声は多数の音素を均等に含むように作成されるから、高精度な音響モデルＭC[sid,1]〜ＭC[sid,K]が生成されるという利点もある。

＜変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を組合わせてもよい。

（１）変形例１
以上の形態においては適応用の音声が放音装置５２から出力される構成を例示したが、利用者が空間Ｒ内で実際に発声した音声を音響モデルＭsidの適応化に利用してもよい。例えば、利用者が収音装置４２に近接して発声した音声の音声信号ＳAに基づいて第１適応部２１が音響モデルＭA[s1,0]を生成する構成や、ひとりの利用者が空間Ｒ内の位置Ｐiにて発声した音声の音声信号ＳBiに基づいて第２適応部２２が音響モデルＭB[s1,i]を生成する構成が採用される。

（２）変形例２
加算部２４２による音響モデルＭsidの加算の時点は適宜に変更される。例えば、図４に示すように、第１適応部２１が生成した音響モデルＭA[s1,0]と音響モデルＭsidとを加算部２４２が加算する構成も採用される。減算部２４１は、加算部２４２による加算後の音響モデルからＫ個の音響モデルＭB[s1,1]〜ＭB[s1,K]を減算することで音響モデルＭC[sid,1]〜ＭC[sid,K]を生成する。また、図５に示すように、第２適応部２２が生成した音響モデルＭB[s1,1]〜ＭB[s1,K]の各々と音響モデルＭsidとを加算部２４２が加算する構成も採用される。減算部２４１は、音響モデルＭB[s1,i]と音響モデルＭsidとの加算から音響モデルＭA[s1,0]を減算することで音響モデルＭC[sid,i]を生成する。以上の例示から理解されるように、演算部２４は、音響モデルＭsidと音響モデルＭA[s1,0]と音響モデルＭB[s1,1]〜ＭB[s1,K]の各々とに基づいて音響モデルＭC[sid,1]〜ＭC[sid,K]を生成する手段であれば足り、演算部２４による具体的な処理の内容は任意である。

本発明の実施形態に係る音声処理装置の構成を示すブロック図である。音声認識の対象となる音声が収録される空間を示す模式図である。演算部の具体的な構成を示すブロック図である。変形例に係る演算部の具体的な構成を示すブロック図である。変形例に係る演算部の具体的な構成を示すブロック図である。

符号の説明

１００……音声処理装置、１０……制御装置、１２……音響モデル処理部、１４……音声認識部、２１……第１適応部、２２……第２適応部、２４……演算部、２４１……減算部、２４２……加算部、３０……記憶装置、４２……収音装置、４４……入力装置、５２……放音装置、５４……出力装置、Ｍsid……音響モデル（第１音響モデル）、ＭA[s1,0]……音響モデル（第２音響モデル）、ＭB[s1,i]（ＭB[s1,1]〜ＭB[s1,K]）……音響モデル（第３音響モデル）、ＭC[sid,i]（ＭC[sid,1]〜ＭC[sid,K]）……音響モデル（第４音響モデル）、Δi（Δ1〜ΔK）……差分、ＳA，ＳBi（ＳB1〜ＳBK），Ａ，Ｖ……音声信号。

Claims

発話環境に非依存な不特定話者の第１音響モデルを記憶する記憶手段と、
発話環境に非依存な特定話者の音声信号に基づいて前記第１音響モデルを適応化することで、発話環境に非依存な特定話者の第２音響モデルを生成する第１適応化手段と、
発話環境が相違する前記特定話者の複数の音声信号の各々に基づいて前記第１音響モデルを適応化することで、発話環境が相違する前記特定話者の複数の第３音響モデルを生成する第２適応化手段と、
前記第２音響モデルと前記複数の第３音響モデルの各々との差分を前記第１音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第４音響モデルを生成する演算手段と
を具備する音響モデル処理装置。
前記演算手段は、
前記複数の第３音響モデルの各々と前記第２音響モデルとの差分を算定する減算手段と、
前記第１音響モデルと前記各差分とを加算することで前記複数の第４音響モデルを生成する加算手段と
を具備する請求項１の音響モデル処理装置。
前記演算手段は、
前記第１音響モデルと前記第２音響モデルとを加算する加算手段と、
前記加算手段による加算後の音響モデルから前記複数の第３音響モデルの各々を減算することで前記複数の第４音響モデルを生成する減算手段と
を具備する請求項１の音響モデル処理装置。
前記演算手段は、
前記複数の第３音響モデルの各々と前記第１音響モデルとを加算する加算手段と、
前記加算手段による加算後の各音響モデルから前記第２音響モデルを減算することで前記複数の第４音響モデルを生成する減算手段と
を具備する請求項１の音響モデル処理装置。
前記特定話者の音声信号を記憶する音声記憶手段と、
前記音声記憶手段が記憶する音声信号が表わす音声を出力する放音手段と、
前記放音手段が出力した音声に応じた音声信号を生成する収音手段とを具備し、
前記第１適応化手段および前記第２適応化手段は、前記収音手段が生成した音声信号に基づいて前記第１音響モデルを適応化する
請求項１から請求項４の何れかの音響モデル処理装置。
発話環境に非依存な不特定話者の第１音響モデルを、発話環境に非依存な特定話者の音声信号に基づいて適応化することで、発話環境に非依存な特定話者の第２音響モデルを生成する第１適応化処理と、
発話環境が相違する前記特定話者の複数の音声信号の各々に基づいて前記第１音響モデルを適応化することで、発話環境が相違する特定話者の複数の第３音響モデルを生成する第２適応化処理と、
前記第２音響モデルと前記複数の第３音響モデルの各々との差分を前記第１音響モデルに付加するための演算により、発話環境が相違する不特定話者の複数の第４音響モデルを生成する演算処理と
をコンピュータに実行させるプログラム。