JP2005099376A

JP2005099376A - 音声認識方法および装置

Info

Publication number: JP2005099376A
Application number: JP2003332391A
Authority: JP
Inventors: Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-09-24
Filing date: 2003-09-24
Publication date: 2005-04-14

Abstract

【課題】非母国語の発声に対しても音声認識の精度を向上させうる音声認識方法および装置を提供すること。
【解決手段】音声認識装置は、第１の言語の音声データを用いて学習された第１の音響モデルと、第２の言語の音声データを用いて学習された第２の音響モデルと、単語が第１の言語および第２の言語のそれぞれの発音によって表記された音声認識辞書とを予め記憶しておき、これら第１および第２の音響モデルと音声認識辞書とを用いて、入力された音声に対する、第１の言語としての第１の音響尤度と、第２の言語としての第２の音響尤度とを計算する（Ｓ２０２）。そして、それら第１の音響尤度と第２の音響尤度との重み付け和を計算し、その重み付け和に基づいて音声認識の探索を行う（Ｓ２０３）。
【選択図】図２

Description

本発明は、多言語に対応可能な音声認識方法および装置に関する。

近年、利用者の母国語だけでなくその他の外国語をも認識可能な多言語対応の音声認識システムが開発されつつある。

多言語対応を実現する手法としては例えば次のようなものが考えられる。

（１）母国語、外国語ともに共通の音声認識システムを利用し、外国語の発音は利用者の母国語に依存した発音で表現する。
（２）母国語と外国語で別々の音声認識システムを利用する。

しかしながら、前者のシステムの場合は、外国語をネイティブ話者と同様に発音できる利用者にとっては十分な認識性能を得ることができず、逆に、後者のシステムの場合は、外国語の発音がネイティブ話者と同様に行えない利用者にとっては十分な認識性能を得ることができない。

このような問題に鑑み、任意の言語について、これを母国語としない利用者すなわち非母国語話者の発声に対しても、認識精度を向上し得る音声認識システムの実現が望まれる。これを実現する方法としては例えば、２つの言語に対する正規化音響尤度の大小比較を利用するものが提案されている（例えば特許文献１を参照。）。

特開平１０−１１６０９３号公報

しかしながら、このような方法では認識結果を求める際に、２つの言語から音響尤度の高い方を選択してしまうため、例えば日本人で、英語を母国語とする人ではないが、一般的な日本人と比較するとかなり英語的な発声が行えるような利用者に対しては、いずれの言語の音響尤度も高くなることはなく、結果として誤認識を招く可能性を生じると考えられる。

このようなことから、本発明は、非母国語の発声に対しても音声認識の精度を向上させうる音声認識方法および装置を提供することを目的とする。

本発明の一側面によれば、音声認識装置は、第１の言語の音声データを用いて学習された第１の音響モデルと、第２の言語の音声データを用いて学習された第２の音響モデルと、単語が第１の言語および第２の言語のそれぞれの発音によって表記された音声認識辞書とを予め記憶しておき、これら第１および第２の音響モデルと音声認識辞書とを用いて、入力された音声に対する、第１の言語としての第１の音響尤度と、第２の言語としての第２の音響尤度とを計算する。そして、それら第１の音響尤度と第２の音響尤度との重み付け和を計算し、その重み付け和に基づいて音声認識の探索を行う。

本発明によれば、非母国語の発声に対しても音声認識の精度を向上させることができる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。

図１は、本発明の実施形態に係る音声認識装置の構成を示すブロック図である。この音声認識装置は典型的にはＣＰＵを用いたコンピュータシステムで実現されうる。もちろん、ＣＰＵを使用せずに専用のハードウェアロジックで実現してもよい。

１０１はＣＰＵで、ＲＯＭ１０２や外部記憶装置１０４からＲＡＭ１０３にロードされたプログラムに従って、本音声認識装置全体の制御を司る。ＲＯＭ１０２はブートプログラムや各種パラメータなどを格納している。ＲＡＭ１０３は、ＣＰＵ１０１による各種制御の実行時に作業領域を提供する主記憶装置として機能する。

１０４は外部記憶装置としてのハードディスク装置（ＨＤＤ）で、図示するように、ここにＯＳ３の他、多言語対応の音声認識プログラム４、日本語の音声データを用いて学習された第１の音響モデル（母国語音響モデル）５は、英語の音声データを用いて学習された第２の音響モデル（外国語音響モデル）６、そして、単語が日本語および英語のそれぞれの発音によって表記された音声認識辞書７（詳細は後述する）が格納されている。なお、音声認識プログラム４、音響モデル５，６、音声認識辞書７は例えばＣＤ−ＲＯＭ１１０ａに格納されて提供され、ＣＤ−ＲＯＭドライブ１１０を介して外部記憶装置１０４にインストールされる。あるいは、図示しないネットワークを介して音声認識プログラムなどの提供を受けることも可能である。

１０５はマイクロフォンなどによる音声入力部である。１０６は液晶タッチパネルなどの操作表示部であり、処理内容の設定・入力、文字、画像による通知などの表示・出力を行う。１０７は補助入出力部で、例えば、ボタン、テンキー、キーボード、マウス、ペン、スイッチ、ＬＥＤなどの光情報、点字、アクチュエータなどで構成されうる。１０８はスピーカなどの音声出力部であり、利用者へのメッセージの通知などを行う。１０９は上記各部を接続するバスである。

図２は、実施形態における音声認識装置の動作概要を示すフローチャートである。このフローチャートに対応するプログラムはハードディスク装置１０４に格納されている音声認識プログラム４に含まれ、電源投入後もしくはユーザからの指示に基づいてＲＡＭ１０３にロードされＣＰＵ１０１によって実行されるものである。

まず、ステップＳ２０１で、入力された音声をＬＰＣ分析法やケプストラム分析法などによって音声分析を行い、音声の特徴ベクトルを抽出する。

次に、ステップＳ２０２で、図３に示すような構造の２つの言語の発音辞書（音声認識辞書）７を用いて、認識対象語彙に対する入力ベクトルの音響尤度を計算する。例えば、“speech”と“recognition”という２つの単語を語彙とする日本人利用者による英語の発声を音声認識する場合を考える。これらの単語の日本語と英語の発音は、図３に示すとおりで、日本語の発音は日本語の音素セット（a, b, ch, d, e, ...）を用いて記述され、英語の発音は英語の音素セット（AA, AE, AH, AO, AW, AY, B, ...）を用いて記述されている。

これらの音素セットを用いて、“speech”と“recognition”の発音を音素のネットワークとして表現すると図４のようになる。図中の黒丸は単語の始点と終点を表すノードである。この音素ネットワークを用いることによって、入力ベクトルに対する“speech”と“recognition”の音響尤度をステップＳ２０２で計算する。音響尤度の計算方法は、例えば、現在広く用いられている隠れマルコフモデル（ＨＭＭ）に基づく音声認識における音素ＨＭＭを用いた音響尤度の計算方法など既存の方法によって実現することができる。ここで、日本語の音素セットの音響モデル（母国語音響モデル）５は、日本語の音声データを用いて学習したものであり、英語の音素セットの音響モデル（外国語音響モデル）６は、英語の音声データを用いて学習したものである。いま、“speech”の日本語発音に対する入力音声の特徴ベクトルの音響尤度（対数尤度）をP_JPN(speech)、英語発音に対する音響尤度をP_ENG(speech)とし、“recognition”の日本語発音に対する音響尤度をP_JPN(recognition)、英語発音に対する音響尤度をP_ENG(recognition)とする。このとき、日本語発音と英語発音の音響尤度に対する重みをそれぞれ(1-w)、およびwとすると（ただし、0≦w≦1）、“speech”および“recognition”に対する音響尤度P(speech)およびP(recognition)は、それぞれ次式によって求めることができる。

P(speech) = (1-w)*P_JPN(speech)+w*P_ENG(speech),
P(recognition) = (1-w)* P_JPN(recognition)+w* P_ENG(recognition)

次に、ステップＳ２０３で、音声認識探索を行う。この例の場合では、P(speech)とP(recognition)の大小を比較し、ステップＳ２０４において、音響尤度が大きいものを認識結果として出力する。一般には、第１の言語に対する認識対象語ｉの入力音声に対する尤度をP_Lang1(i)、第２の言語に対する認識対象語ｉの入力音声に対する尤度をP_Lang2(i)、第１および第２の言語に対する重みをそれぞれ(1-w)、w（ただし、0≦w≦1）として、次式で示されるｉ＾を求めることによって認識結果が得られる。

ただし、Nは認識対象語の集合であり、argmaxはargmax内を最大にするｉを求める計算を表す。

ここで、重みwは様々な方法によって設定することが可能である。図５は、ＧＵＩのスライドバーを用いて利用者によって判断されるスピーキング・レベル（Speaking Level）に応じて重みを設定する場合の一例を示す図である。スライドが最も左（ノンネイティブ）に設定された場合にはw=0.0、すなわち、上記の例では日本語の発音のみを用いて音声認識を行い、スライドが最も右（ネイティブ）に設定された場合にはw=1.0、すなわち、上記の例では英語の発音のみを用いて音声認識を行う。図６は、ＧＵＩのラジオボタンを用いて利用者の年代に応じた設定を行う場合の一例を示す図である。この例では、小学生、中学生、高校生、大学生の４つの年代の中の一つを利用者が選択することによってそれに応じた重みが設定される。

（変形例１）
図５、図６に示した例では、第１の言語と第２の言語に対する重みは全ての単語間で一定であったが、単語ごとに重みを変化させることも可能である。この場合は、第１の言語に対する認識対象語ｉの入力音声に対する尤度をP_Lang1(i)、第２の言語に対する認識対象語ｉの入力音声に対する尤度をP_Lang2(i)、認識対象語ｉに対する第１および第２の言語に対する重みをそれぞれ(1-w_i)、w_i（ただし、0≦w_i≦1）として、次式で示されるｉ＾を求めることによって認識結果が得られる。

ただし、Nは認識対象語の集合であり、argmaxはargmax内を最大にするiを求める計算を表す。

ＧＵＩのスライドバーを用いて利用者が単語ごとに重みを決定する場合の一例を図７に示す。同図（ａ）は単語“speech”に対して、利用者によって判断されるスピーキング・レベルに応じた重みを設定する場合の例、（ｂ）は単語“recognition”に対して、利用者によって判断されるスピーキング・レベルに応じた重みを設定する場合の例を示している。これに限らず、他にも図６で示したようなラジオボタンや他の手段を用いて利用者が単語ごとに重みを設定できるようにしてもよい。

（変形例２）
上述した例では、認識対象語の発音は、図４に示されるように、第１の言語による発音もしくは第２の言語による発音のいずれかに固定されていたが、一つの認識対象語の中で、第１の言語と第２の言語に渡る遷移をさせることも可能である。ここで、適切な遷移を実現させるために、例えば、第１の言語と第２の言語のそれぞれの音素の発音系列をＤＰマッチングすることにより、発音間の対応を付ける必要がある。音素の発音系列のＤＰマッチングを行うためには、図８で示すような第１の言語と第２の言語の音素間の類似度テーブルを利用し、スコアが最も高くなる対応付けを用いる。例えば、“speech”の場合、次のような対応付けがなされたとする。

日本語： s u p i i ch i
英語： S P IY CH

すなわち、sとS、pとP、iとIY、chとCHがそれぞれ対応付けられている。同様に、“recognition”が、

日本語： r i k o g u n i sh o X
英語： R EH K AH G N IH SH AH N

と対応付けられたとする。このとき、第１の言語と第２の言語の音素間の遷移を許した“speech”および“recognition”の音素ネットワークは図９のようになる。ここで音素ノード間に遷移確率を適用し、この遷移確率を音素に対する重みとすることにより、音素ごとに異なる重みを設定し得る音声認識方法が実現できる。

ここで、ＧＵＩのスライドバーを用いて利用者が音素ごとに重みを設定する場合の一例を図１０に示す。いま、同図（ａ）に示すように、音素IYに対する重みをw=0.3、（ｂ）に示すように、音素CHに対する重みをw=0.8と設定したとする。このとき、図９に示される“speech”の音素ネットワークの一部は、図１１（ａ）に示す初期ネットワークから、図１１（ｂ）のように変更される。すなわち、日本語音素pから英語音素IYへの遷移確率が0.5から0.3に変更され、英語音素Pから日本語音素iへの遷移確率が0.5から0.7に変更される。同様に、日本語音素iから英語音素CHへの遷移確率が0.5から0.8に変更され、英語音素IYから日本語音素chへの遷移確率が0.5から0.2に変更される。このように変更された発音ネットワークを用いて音声認識を行うことによって、音素ごとに重みを設定した外国語の認識が可能となる。これによって、例えば、IYの発音が苦手な利用者は、IYの重みを小さ目に設定することによって、IYは日本語的な発声で、それ以外の音素は英語的な発声といった入力音声に対しても正確に音声認識を行うことが可能となる。

なお、音素ごとの重みの設定は、他にも図６で示したようなラジオボタンや他の手段を用いて設定するようにしてもよい。

（変形例３）
上述の例では、日本語の発音エントリに対して必ず英語の発音エントリが存在していたが、日本語と英語の発音が明らかに異なる場合には、英語の発音エントリを認識辞書から除外しておくことも可能である。例えば、図１２に示すように、“radio”に対する日本語の発音は、英語発音“R EY D IY OW”の日本語発音“r e i d i o”と、「ラジオ」の日本語発音である“r a z i o”の２通りが考えられる。ここで、後者の“r a z i o”は、英語発音とは大きく異なるため、“r a z i o”と“R EY D IY OW”の両方の音響尤度用いて、“radio”の音響尤度とすることは適切でないと考えられる。そこで、“r a z i o”という日本語発音に対する英語発音エントリは予め設けない。この際、日本語発音と英語発音の違いの大きさを計算する必要が生じる。これは、例えば、図８に示した音素間の類似度テーブルを用いた音素ＤＰマッチングにおいて、マッチングの度合いが所定の閾値よりも小さい場合には英語発音エントリを除外することによって実現することが可能である。

（変形例４）
上述した例では、言語、単語、音素に対する重みは、全て利用者によって設定されていたが、想定される利用者の一般的な日本語および英語に対する習熟度、利用者によって指示される音声認識結果の正誤判定結果、日本語と英語の発音の違いの度合い、のいずれかによって自動的に設定することも可能である。

利用者の英語に対する習熟度に応じて重みを設定する方法としては、例えば、所定の英語の発音に対する音響尤度を計算し、この値が低い場合には重みを小さく設定し、値が大きい場合には重みを大きく設定することによって実現できる。一般の利用者の英語に対する習熟度については、例えば、ユーザプロファイルなどから利用者の年齢に関する情報を取得し、この情報から図６に示したような年代に応じた対応関係を求めることによって設定できる。

利用者によって指定される音声認識結果の正誤判定結果に基づいて重みを設定する方法としては、例えば、図１３に示されるフローチャートによって実現できる。まず、ステップＳ３０１において、システムによって予め定められた初期値もしくは上述の例で示した利用者による設定により重みの設定を行う。次に、ステップＳ３０２で、上述の例で説明した方法によって音声認識を行う。次に、ステップＳ３０３で、音声認識結果に対して利用者が行う正誤判定結果情報を保持する。そして、ステップＳ３０４で、正誤判定結果情報に基づいた重みの再計算を行う。再計算された重みはステップＳ３０１において再設定される。重みの再計算方法としては、正解に対する重み付け尤度の和を大きくし、誤りに対する重み付け尤度の和を小さくなるように重みを変更することによって行うことができる。例えば、正誤判定で正解と判定されたもののうち、正解すなわち第１位に対する単語ｉの日本語と英語の音響尤度をそれぞれP_JPN,cor(i)、P_ENG,cor(i)とし、このときの第２位の候補に対する日本語と英語の音響尤度をそれぞれP_JPN,2nd(i)、P_ENG,2nd(i)とする。また、正誤判定で誤りと判定されたもののうち、第１位（誤認識結果）に対する日本語と英語の音響尤度をそれぞれP_JPN,incor(i)、P_ENG,incor(i)とし、このときの正解に対する日本語と英語の音響尤度をそれぞれP_JPN,ans(i)、P_ENG,ans(i)とする。このとき、正解と判定されたものに対しては、第１位と第２位との尤度差を増加させ、誤りと判定されたものに対しては、第１位と正解との尤度差を減少させればよい。すなわち、次式で与えられるLを増加させる方向にwを設定すればよい。

なお、P_JPN,2nd(i)、P_ENG,2nd(i)、P_JPN,ans(i)、P_ENG,ans(i)が得られない場合には、これらを用いずに計算すればよい。また、複数の正誤判定結果を用いる場合には、正誤判定数に対する累積尤度和を増加させる方向にwを設定すればよい。その他、語学教育システムなどのアプリケーションでは、語学レベルの難易度に応じて、アプリケーション側が自動的に設定することも可能である。

日本語と英語の発音の違いの度合いに応じて重みを設定する方法としては、例えば、図８で示した音素類似度テーブルなどの情報を用いた音素ＤＰマッチングや日本語と英語の音響モデルのモデル間の類似度計算するなどの方法によって設定することができる。

（他の実施形態）
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

また、上述の実施形態では、日本人が英語を音声認識の対象とした場合について説明したが、本発明はこれに限らず、他の外国語ならびに他の非母国語話者に対しても適用可能である。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（図２に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。

従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

本発明の実施形態に係る音声認識装置の構成を示すブロック図である。実施形態における音声認識装置の動作概要を示すフローチャートである。実施形態における発音辞書の構造例を示す図である。音素ネットワークの表現例を示す図である。ＧＵＩのスライドバーを用いて重みｗを設定する場合の一例を示す図である。ＧＵＩのラジオボタンを用いて重みｗを設定する場合の一例を示す図である。ＧＵＩのスライドバーを用いて単語ごとに重みｗを設定する場合の一例を示す図である。第１の言語と第２の言語の音素間の類似度テーブルの構造例を示す図である。第１の言語と第２の言語の音素間の遷移を許した“speech”および“recognition”の音素ネットワークの一例を示す図である。ＧＵＩのスライドバーを用いて音素ごとに重みを設定する場合の一例を示す図である。音素ごとに設定された重みによって変更された音素ネットワークの例を示す図である。実施形態における認識辞書から発音エントリを除外する処理を説明するための図である。利用者によって指定される音声認識結果の正誤判定結果に基づいて重みを設定する方法の一例を示すフローチャートである。

Claims

入力された音声を認識する音声認識方法であって、
第１の言語の音声データを用いて学習された第１の音響モデルと、第２の言語の音声データを用いて学習された第２の音響モデルと、単語が第１の言語および第２の言語のそれぞれの発音によって表記された音声認識辞書とを用いて、前記入力された音声に対する、第１の言語としての第１の音響尤度と、第２の言語としての第２の音響尤度とを計算する音響尤度計算ステップと、
前記第１の音響尤度と第２の音響尤度との重み付け和に基づいて音声認識の探索を行う探索ステップと、
を有することを特徴とする音声認識方法。
さらに、前記重み付け和の重みを設定する設定ステップを有することを特徴とする請求項１に記載の音声認識方法。
前記設定ステップは、利用者によって入力されるスピーキング・レベルに対応する値に基づいて前記重みを設定することを特徴とする請求項２に記載の音声認識方法。
前記設定ステップは、想定される利用者の一般的な第１および第２の言語に対する習熟度、利用者によって指示される音声認識結果の正誤判定結果、第１の言語の発音と第２の言語の発音の違いの度合い、のいずれかに基づいて設定することを特徴とする請求項２に記載の音声認識方法。
前記設定ステップは、単語ごとに前記重みを設定することを特徴とする請求項２に記載の音声認識方法。
前記設定ステップは、音素ごとに前記重みを設定することを特徴とする請求項２に記載の音声認識方法。
前記音声認識辞書内の単語について、第１の言語による発音と第２の言語による発音との違いの大きさを計算し、その違いの大きさに応じて、当該単語を音声認識辞書から除外するステップを更に有することを特徴とする請求項１に記載の音声認識方法。
請求項１から７までのいずれかに記載の音声認識方法をコンピュータに実行させるためのプログラム。
請求項８に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
入力された音声を認識する音声認識装置であって、
第１の言語の音声データを用いて学習された第１の音響モデルを記憶する第１の記憶手段と、
第２の言語の音声データを用いて学習された第２の音響モデルを記憶する第２の記憶手段と、
単語が第１の言語および第２の言語のそれぞれの発音によって表記された音声認識辞書を記憶する第３の記憶手段と、
前記第１および第２の音響モデルと前記音声認識辞書とを用いて、前記入力された音声に対する、第１の言語としての第１の音響尤度と、第２の言語としての第２の音響尤度とを計算する音響尤度計算手段と、
前記第１の音響尤度と第２の音響尤度との重み付け和に基づいて音声認識の探索を行う探索手段と、
を有することを特徴とする音声認識装置。