JP3660512B2

JP3660512B2 - 音声認識方法、その装置及びプログラム記録媒体

Info

Publication number: JP3660512B2
Application number: JP34702698A
Authority: JP
Inventors: 克年大附
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-12-07
Filing date: 1998-12-07
Publication date: 2005-06-15
Anticipated expiration: 2018-12-07
Also published as: JP2000172294A

Description

【０００１】
【発明の属する技術分野】
この発明は、人間の音声から発話内容を同定するための音声認識方法及びプログラム記録媒体に関する。
【０００２】
【従来の技術】
音声の音響的特徴を確率的、統計的にモデル化する手法である隠れマルコフモデル（Hidden Markov Model:ＨＭＭ）を用いた音声認識システムでは、一認識対象カテゴリ、つまり音素、音節、単語などの語彙（あるいは認識対象語彙）ごとに、一つ、あるいは複数のＨＭＭを設定し、学習用音声を用いて学習する。認識時には、音声認識システムの入力音声がそれらの音響モデルから観測される確率を計算し、尤度（尤もらしさ）の最も高い順に認識結果候補としている。ＨＭＭは、統計的なモデルであるから学習用音声中に現れた頻度に従って、ある音響的特徴パラメータとあるカテゴリとを関連づける強さを内部に確率分布として表現する。
【０００３】
連続音声認識では、調音結合の影響などにより認識に用いられる特徴パラメータが変動しやすく、また発音が似ているあるいは同じ単語が存在する。そのため特徴パラメータだけから正確な音声認識を行うことが困難である。そこで、文法的な特徴、つまり単語の接続規則から認識結果を判定するための言語モデルを用い、文脈によってより出現しやすい単語により重みをおいて評価するなどの言語的な処理により認識精度を向上する手法が取られる。
【０００４】
音響モデルと言語モデルを組み合わせて用いる音声認識では、図２に示すように音響特徴量分析部１１と、デコーダー１２からなり、デコーダー１２では記憶部１３の、音響的特徴と単語的特徴との対応関係を統計的に示す音響モデルと記憶部１４の、単語の接続規則を表わす言語モデルとによって入力音声の特徴量が評価される。認識対象である音声入力は、分析部１１の特徴量分析により音響パラメータベクトルの時系列（音響特徴量）にされ、デコーダー１２において音響モデルと言語モデルにより尤度が計算される。デコーダー１２は計算された尤度に基づいて上位Ｎ個の仮説を探索の結果として出力する。
【０００５】
つまりこの連続音声認識システムでは一般に、特徴パラメータベクトルの時系列Ｘが単語列Ｗを与える確率Ｐ（Ｗ｜Ｘ）を最大化するようなＷが認識結果として選ばれる。Ｐ（Ｗ｜Ｘ）を最大化するようなＷは以下の式により求められる。
Ｗ＾＝arg _Wmax Ｐ（Ｘ｜Ｗ）Ｐ（Ｗ）
ここで、Ｐ（Ｘ｜Ｗ）は、音響モデルにより与えられ、Ｐ（Ｗ）は言語モデルにより与えられる。つまりＷ＾はＰ（Ｘ｜Ｗ）Ｐ（Ｗ）を最大にするＷである。
【０００６】
【発明が解決しようとする課題】
従来の連続音声認識方法では、言語モデルとして、先行するｎ−１単語に対してある単語が出現する確率を与えるｎ−ｇｒａｍ言語モデルが用いられていた。ｎ−ｇｒａｍ言語モデルは文中の局所的な文法的な拘束を与えることはできるが、発声者が伝えたい内容を抽出するために文全体を評価することはできない。このため、認識結果の文の途中に文の内容とは関係のない単語が誤って含まれることがあった。
【０００７】
この発明の目的は発声者の伝えようとした内容をよりよく表現するような認識結果を与えるような音声認識方法及び装置を提供することにある。
【０００８】
【課題を解決するための手段】
上記課題を解決するため、この発明では音声認識を音声からその発声者が何を伝えたいかを抽出することであると考えつまり、音声認識を図３に示すようなモデルで考える。即ち発話の生成は、発話したい内容（メッセージ）Ｍを考え、次にその内容Ｍがどのような単語列Ｗかを、言語、語彙、文法、意味論、文脈などを参照して考え、その単語列Ｗがどのような音声Ｘであるかを、話者、反響、雑音、マイクロホン特性などを参照して考え、このようにして生成された音声が音声認識器に入力されると考えられる。従って、この過程を逆にたどり、入力音声の音響的特徴Ｘから単語列の予測Ｐ（Ｘ｜Ｗ）を行い、その尤度の高いＷから内容Ｍの予測Ｐ（Ｗ｜Ｍ）を行い、更にその尤度の高いＭから発話意図Ｐ（Ｍ）の高いものを決定すればよい。このことは、音声認識のプロセスを音響パラメータベクトルの時系列Ｘが発声者が伝えようとした内容（メッセージ）Ｍを与える、確率Ｐ（Ｍ｜Ｘ）を最大化するようなＭを選ぶ問題としてとらえることができる。
【０００９】
Ｐ（Ｍ｜Ｘ）を最大化するような内容Ｍ＾は以下の式により求められる。
Ｍ＾＝arg _Mmax Ｐ（Ｘ｜Ｗ）Ｐ′（Ｗ｜Ｍ）Ｐ（Ｍ）
ここで、Ｐ（Ｘ｜Ｗ）は、従来の音声認識方法と同様に音響モデルにより与えられる。Ｐ（Ｍ）は、Ｍに無関係に等確率、例えば１と考えると、問題は、Ｐ′（Ｗ｜Ｍ）をいかに与えるかということに帰着する。
【００１０】
Ｐ′（Ｗ｜Ｍ）を近似的に次式のように表すことにより、Ｍに独立な部分Ｐ（Ｗ）とＭに依存する部分Ｐ（Ｗ｜Ｍ）とに分けて考える。
Ｐ′（Ｗ｜Ｍ）＝（１−λ）Ｐ（Ｗ）＋λＰ（Ｗ｜Ｍ）
ここでλは０≦λ≦１の重みである。Ｐ（Ｗ）は、従来の統計的ｎ−ｇｒａｍ言語モデルで表現される。
【００１１】
Ｐ（Ｗ｜Ｍ）の表現形式としては、Ｍを話題（トピック）の種類などにより明示的に表現する方法と、Ｍをｎ−ｇｒａｍ言語モデルの重み付けや単語の共起などにより暗示的に表現する方法とが考えられる。Ｍを話題（トピック）の種類などにより明示的に表現する方法は、例えば、Stanley F. Chen, Kristie Seymore, Ronald Rosenfeld, “Topic Adaptation for Language Modeling using Unnormalaized Exponential Models,”Proceedings of ICASSP98, pp.681-684 。赤松，甲斐，中川，“新聞・ニュース分の大語彙連続音声認識，”情報処理学会研究報告，98-SLP-21-11、などに示されている。
【００１２】
Ｐ（Ｗ｜Ｍ）の表現形式としてはＭを文中の単語と単語との共起関係に基づく関連度（関連性の強さ）用いてもよい。
この単語間の共起関係に基づく関連度として、学習用テキストデータから統計的に得られる単語間の相互情報量あるいは、それに基づく値を用いてもよい。
【００１３】
【発明の実施の形態】
以下、図１を参照して、この発明の一実施形態について説明する。ＨＭＭに基づく音響モデルとｎ−ｇｒａｍ言語モデルとを用いた連続音声認識の場合を例としてこの発明の一実施形態を説明する。
図１において図２と対応する部分に同一番号を付けてある。入力音声は図３で示したと同様に音響モデルと言語モデルを用いて処理され、尤度の大きい順からＮ個の単語列の認識結果候補が得られる。
【００１４】
この実施形態では、発声者の伝えようとした意図は、発話中の単語の共起によって表されると考え、デコーダー１２により出力された各単語列仮説から、名詞抽出・共起スコア評価部１５で名詞のみを抽出し、記憶部１６の各名詞相互間の相互情報量に基づく共起スコアを用いて仮説の再評価を行い、少なくとも１個以上の認識結果を得る。単語ｗ_iと単語ｗ_jとの共起スコアは次式のように表される。
【００１５】
【数１】

ここで、ｐ（ｗ_i，ｗ_j）は、単語ｗ_iと単語ｗ_jとの一発話中での共起確率、ｐ（ｗ_i），ｐ（ｗ_j）はそれぞれ単語ｗ_i、単語ｗ_jの出現確率である。この共起スコアの式中の分母の平方根演算を省略したものが統計的相互情報量であり、この平方根演算としたものが統計的相互情報量から派生される統計量と言える。この共起スコアは、学習用テキストデータ中の各名詞の組み合わせについて計算した。Ｐ（Ｗ）とＰ（Ｗ｜Ｍ）の重みλは実験的に適切な値に設定した。評価用の音声データとして放送ニュース音声５０文のセットを用いた。仮説中のすべての名詞の組の共起スコアをλで重み付けしたものを、仮説の尤度に加算して再評価することにより、共起スコアを用いない場合の単語正解精度８３．２％から８３．９％まで改善した。なおＰ（Ｗ）は言語モデルを用いた仮説の尤度計算に含まれている。
【００１６】
上述では共起スコアを発声者が伝えようとした意図を表わすとしたが、つまり意味モデルとしたが、主題など明示的に表現する意味モデルを用いてもよい。
図１に示したシステムはコンピュータにより処理させてもよい。
【００１７】
【発明の効果】
以上説明したように、この発明によれば、発声者がその発話で表現しようとした意図に関する情報を利用することにより、精度の高い連続音声認識処理を行うことができる。
【図面の簡単な説明】
【図１】発声者の意図に関する情報として単語の共起情報を利用した、この発明による連続音声認識システムの機能構成例を示す図。
【図２】連続音声認識システムの一般的機能構成を示す図。
【図３】この発明の音声認識方法における音声生成と音声認識のモデルを示す図。

Claims

入力音声信号の音響的特徴を解析する過程と、
音響的特徴と言語的特徴との対応関係を示す音響モデル及び単語の接続規則を表わす言語モデルを参照して前記音響的特徴から尤度の高いものから順に複数の単語列候補Ｗｎ（ｎ＝１，２，３・・・）を求め、各単語列候補Ｗｎの前記音響モデルによる尤度をそれぞれＰ（Ｘ | Ｗｎ）とする過程と、
前記単語列候補Ｗｎのそれぞれについて、単語列とその意味的関係を示す意味モデルを参照して各単語間の全ての組合せの共起スコアを求める過程と、
前記単語列候補Ｗｎのそれぞれについて、各単語間の全ての組合せの共起スコアを加算して単語列候補Ｗｎの意味モデルによる確率Ｐ（Ｗｎ | Ｍ）を求める過程と、
前記単語列候補Ｗｎのそれぞれについて、各単語列Ｗｎの言語モデルによる確率Ｐ（Ｗｎ）を求める過程と、
前記言語モデルによる確率Ｐ（Ｗｎ）と前記意味モデルによる確率Ｐ（Ｗｎ | Ｍ）の予め決めた重みλ（０＜λ≦１）による重み付け和Ｐ′（Ｗｎ | Ｍ）（＝（１−λ）Ｐ（Ｗ）＋λＰ（Ｗ｜Ｍ））を求める過程と、
前記重み付け和Ｐ′（Ｗｎ | Ｍ）と前記音響モデルによる尤度Ｐ（Ｘ | Ｗｎ）の積が最大となる前記単語列候補Ｗｎを認識結果として求める過程と、
を有することを特徴とする音声認識方法。
前記単語の組み合わせの意味的関係の評価において、前記認識結果候補の各単語列におけるすべての単語のうち、名詞のみを単語とみなして意味的関係の評価を行うことを特徴とする請求項１記載の音声認識方法。
前記関連性の強さとして大量のテキストデータから統計的に得られる単語間の相互情報量又はその統計的相互情報量から派生される統計量を用いることを特徴とする請求項１又は２記載の音声認識方法。
音響的特徴と言語的特徴との対応関係を示す音響モデルと、
単語の接続規則を表わす言語モデルと、
単語列とその意味的関係を示す意味モデルと、
入力音声信号の音響的特徴を解析する手段と、
前記音響モデル及び前記言語モデルを参照して前記音響的特徴から尤度の高いものから順に複数の単語列候補Ｗｎ（ｎ＝１，２，３・・・）を求め、各単語列候補Ｗｎの音響モデルによる尤度をそれぞれＰ（Ｘ | Ｗｎ）とする手段と、
前記単語列候補Ｗｎのそれぞれについて、前記意味モデルを参照して各単語間の全ての組合せの共起スコアを求める手段と、
前記単語列候補Ｗｎのそれぞれについて、各単語間の全ての組合せの共起スコアを加算して単語列候補Ｗｎの意味モデルによる確率Ｐ（Ｗｎ | Ｍ）を求める手段と、
前記単語列候補Ｗｎのそれぞれについて、各単語列Ｗｎの言語モデルによる確率Ｐ（Ｗｎ）を求める手段と、
前記言語モデルによる確率Ｐ（Ｗｎ）と前記意味モデルによる確率Ｐ（Ｗｎ | Ｍ）の予め決めた重みλ（０＜λ≦１）による重み付け和Ｐ′（Ｗｎ | Ｍ）（＝（１−λ）Ｐ（Ｗ）＋λＰ（Ｗ｜Ｍ））を求める手段と、
前記重み付け和Ｐ′（Ｗｎ | Ｍ）と前記音響モデルによる尤度Ｐ（Ｘ | Ｗｎ）の積が最大となる前記単語列候補Ｗｎを認識結果として求める手段と、
を具備することを特徴とする音声認識装置。
前記単語の組み合わせの意味的関係の評価において、前記認識結果候補の各単語列におけるすべての単語のうち、名詞のみを単語とみなして意味的関係の評価を行うことを特徴とする請求項４記載の音声認識装置。
入力音声信号の音響的特徴を解析する処理と、
音響的特徴と言語的特徴との対応関係を示す音響モデル及び単語の接続規則を表わす言語モデルを参照して前記音響的特徴から尤度の高いものから順に複数の単語列候補Ｗｎ（ｎ＝１，２，３・・・）を求め、各単語列候補Ｗｎの前記音響モデルによる尤度をそれぞれＰ（Ｘ | Ｗｎ）とする処理と、
前記単語列候補Ｗｎのそれぞれについて、単語列とその意味的関係を示す意味モデルを参照して各単語間の全ての組合せの共起スコアを求める処理と、
前記単語列候補Ｗｎのそれぞれについて、各単語間の全ての組合せの共起スコアを加算して単語列候補Ｗｎの意味モデルによる確率Ｐ（Ｗｎ | Ｍ）を求める処理と、
前記単語列候補Ｗｎのそれぞれについて、各単語列Ｗｎの言語モデルによる確率Ｐ（Ｗｎ）を求める処理と、
前記言語モデルによる確率Ｐ（Ｗｎ）と前記意味モデルによる確率Ｐ（Ｗｎ | Ｍ）の予め決めた重みλ（０＜λ≦１）による重み付け和Ｐ′（Ｗｎ | Ｍ）（＝（１−λ）Ｐ（Ｗ）＋λＰ（Ｗ｜Ｍ））を求める処理と、
前記重み付け和Ｐ′（Ｗｎ | Ｍ）と前記音響モデルによる尤度Ｐ（Ｘ | Ｗｎ）の積が最大となる前記単語列候補Ｗｎを認識結果として求める処理と、
を音声認識装置のコンピュータに実行させるプログラムが記憶された記録媒体。
前記単語の組み合わせの意味的関係の評価において、前記認識結果候補の各単語列におけるすべての単語のうち、名詞のみを単語とみなして意味的関係の評価を行うことを特徴とする請求項６記載の音声認識装置。