JP2005326497A

JP2005326497A - 音声認識方法、音声認識装置、音声認識プログラム、記録媒体

Info

Publication number: JP2005326497A
Application number: JP2004142640A
Authority: JP
Inventors: Yoshikazu Yamaguchi; 義和山口; Akihiro Imamura; 明弘今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-12
Filing date: 2004-05-12
Publication date: 2005-11-24

Abstract

【課題】認識候補以外の音声を聞き流すことができる音声認識方法及び装置。
【解決手段】音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識方法において、音声認識用文法に、あらゆる音声を受理する任意音声受理認識カテゴリを記述し、前記音声認識用文法で認識可能な単語もしくは単語列以外の入力音声を任意発声受理認識カテゴリで任意発声として認識処理させることを特徴とする音声認識方法を提案する。
【選択図】図１

Description

本発明は、音声認識用文法と音響モデルを読み込み、文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルおよび言語モデルとで照合を行い、最も尤度の高い単語もしくは単語列を認識結果として出力する音声認識方法および装置に関する。

従来の音声認識方法ではあらかじめ受理できる単語や文法規則などを音声認識用文法（音声認識用辞書とも言う）として定義し、その中から最も可能性の高い単語もしくは単語列を出力するよう音声認識を行なっている。

しかし、ユーザが実際にこのような音声認識を利用する場合、あらかじめ音声認識用文法を作成する際には想定できない認識対象外の発話をする可能性がある。
ここで、「都道府県」から「市区町村」、「大字・字」、「丁目・番地・号」までの住所を認識する音声認識装置を考える。このとき、利用方法がよくわからないユーザがこの音声認識装置を利用した場合、「丁目・番地・号」だけでなく、マンションなど「建物名」まで発声するかもしれない。このように音声認識装置では受理できない「建物名」まで発声されると「丁目・番地・号」までの認識においても誤認識の原因となる。この誤認識をさけるためには、「建物名」を認識対象に含めて音声認識用文法を用意する必要があるが、「都道府県」「市区町村」「大字・字」「丁目・番地・号」は市販のデータベースをもとに全てを認識対象とする音声認識用文法を作成可能であるものの、「建物名」は日々新しく作成されるものであり、それらを随時、認識対象単語として含めた文法を用意するには人件費等のコストがかかるため、現実的ではない。

また、姓名の「姓」のみを認識しようとした際にも同様である。「姓」のみを発声するようユーザに施したとしても、「名」を発声する可能性がある。誤認識を避けるため「名」の文法を整備しようとしても、「名」も日々、新たに作られているものであり、文法の整備は非常に困難である。
従来の認識対象単語および文法を定義し、その中から最も可能性の高い単語もしくは単語列を出力する音声認識装置で、上記２例の音声認識装置を実装した場合、本来、認識するべき「建物名」直前までの住所や「姓」のみの認識性能の劣化は避けられず、その誤認識を避けるためには、コストが必要となる頻繁な音声認識用辞書の更新が必要である。

本発明の目的は、このような発声の一部のみを性能良く認識し、かつ頻繁な音声認識用辞書の更新を必要としない音声認識装置を実現するために、発声の一部のみを認識し、その他の部分の発声を「聞き流す」処理を実現することにある。

本発明の請求項１では音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識方法において、音声認識用文法に、あらゆる音声を受理する任意音声受理認識カテゴリを記述し、音声認識用文法で認識可能な単語もしくは単語列以外の入力音声を前記任意発声受理認識カテゴリで任意発声として認識処理させることを特徴とする音声認識方法を提案する。
本発明の請求項２では請求項１記載の音声認識方法において、任意発声受理認識カテゴリが認識した音声認識区間の尤度に重みを付与することを特徴とする音声認識方法を提案する。

本発明の請求項３では請求項１又は２記載の音声認識方法の何れかにおいて、任意発声受理認識カテゴリを、音声カテゴリの任意繰返し文法で構成することを特徴とすることを特徴とする音声認識方法を提案する。
本発明の請求項４では請求項１又は２記載の音声認識方法の何れかにおいて、任意発声受理認識カテゴリを、全ての音声カテゴリを１個あるいは複数個にクラスタ化した音声カテゴリクラスタの文法で構成し、音声カテゴリクラスタに相当する音響モデルを用いることを特徴とする音声認識方法を提案する。

本発明の請求項５では音声認識用文法と音響モデルとを備え、音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識装置において、音声認識用文法に、あらゆる発声を受理する任意発声受理認識カテゴリを付加し、音声認識用文法で認識可能な単語もしくは単語以外の入力音声を任意発声受理認識カテゴリで任意発声として処理させることを特徴とする音声認識装置を提案する。
本発明の請求項６では請求項５に記載の音声認識装置において、任意発声受理認識カテゴリが認識した音声認識区間の尤度を算出する尤度計算部と、この尤度計算部で算出した尤度に重み付けを行なう重み付与部とを備えることを特徴とする音声認識装置を提案する。

本発明の請求項７では請求項５又は６記載の音声認識装置の何れかにおいて、ある音声カテゴリの任意繰り返し文法を記憶する置換え文法記憶部と、任意発声受理認識カテゴリを、置換え文法記憶部に記憶されている前記音声カテゴリの任意繰返し文法で置き換える文法変換部とを備えることを特徴とする音声認識装置を提案する。
本発明の請求項８では請求項５又は６記載の音声認識装置の何れかにおいて、全ての音声カテゴリを１個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法を記憶する置き換え文法記憶部と、任意発声受理認識カテゴリを置換え文法記憶部に記憶されている全ての音声カテゴリを１個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法で置き換える文法変換部と、音声カテゴリクラスタに相当する音響モデルを用意しておく音響モデル記憶部とを備えることを特徴とする音声認識装置を提案する。

本発明によれば、音声認識用文法にあらゆる発声を受理できる任意発声受理認識カテゴリを記述可能にすることで、文法の整理をせずに認識する必要のない単語（列）を聞き流し、認識すべき単語（列）のみを認識することが可能となる。また、その際に、任意発声受理認識カテゴリ区間の尤度に重みを付与することによって、本来認識する必要のない区間の重要度を下げることで任意発声受理認識カテゴリが認識に与える悪影響を回避し、より精度の高い音声認識が可能となる。

図１に本発明による音声認識装置の構成例を示す。なお、本発明は言語モデルを利用した音声認識装置にも適用可能であるが、以下では言語モデルを利用しない場合での例を説明する。
図中１００は音声認識装置を示す。従来より知られているように音声認識装置１００はＡ／Ｄ変換部１０１と、特徴量パラメータ抽出部１０２と、尤度計算部１０３と、音声認識用文法記憶部１０４と、音響モデル記憶部１０５とを備えて構成され、特徴量パラメータ抽出部１０２で抽出した入力音声の特徴量を音声認識用文法記憶部１０４に記憶した音声認識用文法（音声認識用辞書とも言う）に含まれる全ての単語と、音響モデル記憶部１０５に記憶した音響モデルと照合し、全ての照合結果の尤度を尤度計算部１０３で算出し、算出した尤度の最も高い値を示す単語、もしくは単語列を音声認識結果として抽出する。

ここで、この発明の特徴とする構成は文法変換部１０６と、重み付与部１０７と、置換え文法記憶部２００を設けた構成とし、更に文法変換部１０６に図２に示すように、音声認識用文法記述部１０６Ａを設けると共に、この音声認識用文法記述部１０６Ａの一部に置換え文法記述部１０６Ｂを設け、文法変換部１０６に設けた音声認識用文法記憶部１０６Ａに音声認識用文法記憶部１０４から音声認識用文法を読み込んで記述すると共に、この音声認識用文法記述部１０６Ａの一部に設けた置換え文法記述部１０６Ｂに置換え文法記憶部２００から任意発声受理認識カテゴリ置換え文法を読み込んで記述することを可能とした点である。

このような構成とすることにより、音声認識文法により音声認識候補を抽出する際に、音声認識候補として抽出した単語もしくは単語列に引き続いて音声が存在したとしても、その音声部分は任意発声受理カテゴリ置換え文法で聞き流し処理することができ、この聞き流し処理により音声認識用文法の認識率の低下を阻止することができる。
本発明の特徴とする部分の動作を以下に説明する。まず音声認識処理前に、文法変換部１０６に設けた音声認識用文法記述部１０６Ａ（図２参照）に認識対象となる複数の単語をリスト形式もしくは文法形式で記述した音声認識用文法（音声認識用辞書）を読み込む。更に、この音声認識用文法記述部１０６Ａに記述した音声認識用文法の一部に置換え文法記述部１０６Ｂを設けているから、この置換え文法記述部１０６Ｂに置換え文法記憶部２００から置換え文法Ｊ１〜Ｊ５（図２参照）の何れかを読み込むことができる。これにより、本発明では音声認識用文法内にあらゆる発声を受理する置換え文法（以下、任意発声受理認識カテゴリ）が含まれている文法を読み込むことができる。任意発声受理認識カテゴリが含まれている文法を読み込んだ場合、あらかじめ置換え文法記憶部２００で用意された、複数の音声カテゴリの任意繰り返し文法Ｊ１又はＪ２（例えば音節タイプライタ、半音節タイプライタ、音素タイプライタなど）、もしくは音声カテゴリクラスタ（例えば全音素クラスタ、全母音クラスタと全子音クラスタ、任意Ｎクラスタ）の任意繰り返し文法の中Ｊ３又はＪ４、Ｊ５（以下、これらを任意発声受理認識カテゴリ置き換え文法とする）から、音声認識用文法読み込み前にあらかじめ指定された文法で任意発声受理認識カテゴリを置き換え、音声認識に利用できる文法に変換する。尚、置換え文法記憶部２００に記憶した各置換え文法Ｊ１、Ｊ２…Ｊ５は従来から良く知られている技術で生成することができる。

上記文法変換部１０６での処理の一例を図２を用いて説明する。ここでは「姓」のみを認識し、ユーザが不必要に発声した「名」を「聞き流す」ための音声認識用文法を読み込んでいる。音声認識用文法内の「＊」は上記任意発声受理認識カテゴリであり、この文法は「姓」を発声した後に何を発生しても音声認識として受理可能である。尚、文法中の「｜」は並列受理を、「＜…＞」は「…」の任意繰り返しを示している。
一方、任意発声受理認識カテゴリに置き換わる文法には、認識速度や認識精度に応じて幾つかの種類を用意することができるが、図２では例として５つの文法Ｊ１〜Ｊ５を用意した例を示している。音声カテゴリの任意繰り返し文法の例として、任意発声受理認識カテゴリ置換え文法Ｊ１の音節タイプライタ、任意発声受理認識カテゴリ置き換え文法Ｊ２の音素タイプライタがある。

ここで置換え文法Ｊ１〜Ｊ５について簡単に説明する。図３は音節タイプライタの例を示す。音節には「あ、い、う、え…ん、が、ぎ、ぐ、げ、ご、ぱ、ぴ、ぷ、ぺ、ぽ、きゃ、ぎゅ、ぎょ、…、ぴょ」等の各音節Ａ１…Ａｎが配置され、音節タイプライタの始動から終了までどのような音声が入力されても音声を音節に区切り、音節として認識する。各音節の認識結果は各音節毎に尤度を算出し、各音節の尤度の総和が音節タイプライタの認識結果として出力される。
以上は音節タイプライタの例であるが、音声カテゴリの任意繰返し文法２００Ａにはその他に半音節タイプライタ、音素タイプライタ等を用いることができる。半音節タイプライタとは図３に示した音節「あ、い、う、え…ん、が、ぎ、ぐ、げ、ご、ぱ、ぴ、ぷ、ぺ、ぽ」の部分に半音節が配置され、入力音声が半音節毎に認識処理される。また、音素タイプライタは図３に示した各音節の部分に音素「Ａ、Ｉ、Ｕ、Ｅ、Ｏ、Ｋ、Ａ、Ｋ、Ｓ、Ｔ、Ｎ、…」が配置され音素毎に認識処理される。

音声カテゴリクラスタの任意繰り返し文法の例としては、任意発声受理認識カテゴリ置換え文法Ｊ３の全音素クラスタの任意繰り返し、任意発声受理認識カテゴリ置換え文法Ｊ４の全母音クラスタと全子音クラスタの任意繰り返し、任意発声受理認識カテゴリ置換え文法Ｊ５のＮ個の音声カテゴリクラスタの繰り返しがある。これらは上述の任意発声受理認識カテゴリ置換え文法Ｊ１、Ｊ２と異なり、音声カテゴリを１個にまとめた、もしくは音響的な特徴を用いてＮ個にクラスタ化したのものである。
このような音声カテゴリクラスタには、それらに対応する音響モデルが用意されている。図４は音声認識において音響モデルとして一般的に利用される隠れマルコフモデル（Hidden Markov Model、以下HMMと略す）の例である。HMMについては、例えば文献１（中川聖一：“確率モデルによる音声認識”電子情報通信学会編）に詳細が示されている。図４はある音声カテゴリのHMMであり、例えば音素、音韻、音節、半音節などの音声カテゴリごと、もしくは前後の音声カテゴリを考慮した環境ごとにこのようなHMMが用意される。HMMは単体もしくは複数の状態を有し、時刻が進むごとに他の状態や自状態へ遷移しながら、各状態が持つ標準音声パターンと入力音声特徴量パラメータと照合し、尤度を計算する。

図２に示した任意発声受理認識カテゴリ置換え文法Ｊ３は例えば音素、音韻、音節、半音節ごとに用意されたHMMとは異なり、図５に示すように全音素クラスタには全ての音素を一つのHMM−１として用意し、任意発声受理認識カテゴリ置換文法Ｊ４の全母音・全子音クラスタは図６に示すように全ての子音を１つのHMM−３でそれぞれ用意するものである。さらに、任意発声受理認識カテゴリ置換え文法Ｊ５はこれらをより一般化したのもであり、音声の特徴量パラメータを用いて、あるクラスタ手法によりN個にグループ別にクラスタ化して、それらを図７に示すようにN個のHMM−４、HMM−５、HMM−ｎとして用意してものである。よって、任意発声受理認識カテゴリ置換え文法をこうした音声カテゴリクラスタの任意繰り返し文法で置き換える場合、これら音声カテゴリクラスタに対応したHMMをあらかじめ用意し、音声認識に用いる。

文法変換部１０６では、このように置換え文法記憶部２００にて複数用意された任意発声受理認識カテゴリ置換え文法で音声認識用文法内の任意発声受理認識カテゴリを置き換えて、音声認識可能な文法に変換しておく。
音声認識時には、ユーザが発声した音声は、音声信号入力端子から入力され、Ａ／Ｄ変換部１０１においてデジタル信号に変換され、特徴量パラメータ抽出部１０２において音声認識特徴量パラメータに変換される。
次に、あらかじめ文法変換部１０６にて読み込まれ、音声認識用に変換された音声認識用文法と、別途読み込まれた音響モデルとを用いて、尤度計算部１０３において入力音声信号の認識対象単語もしくは単語列候補に対応する音響モデルに対する照合尤度を計算し、最終的に最も大きな尤度を示す音響モデルが表現する単語もしくは単語列を認識結果として出力する。

本発明では認識結果を出力する前に、重み付与部１０７において任意発声受理認識カテゴリにあたる認識区間の尤度に重みを付与し、任意発声受理認識カテゴリの重要度を低くすることで誤認識を回避する。図８は、図２に示した音声認識用文法を用い、重みを付与することで誤認識を避けている図である。図８に示す＊は任意発声受話カテゴリ区間を示す。
図８では「さとうけん」とユーザが発声しているが、図２に示した「さとう」と「さと」という認識対象が含まれている音声認識用文法を用いると、図８Ｂに示したように認識候補として認識候補１「さとう［任意発声受理認識カテゴリ］」と認識候補２「さと［任意発声受理認識カテゴリ］」が現れる。尤度計算部１０３において、認識候補１は「さとう」の認識区間の尤度２０２８４、任意発声受理カテゴリの認識区間の尤度は１５８６２と計算され、全音声区間の尤度はそれらの和３６２５２と計算される。以上により、全発声において尤度が最も高い認識候補２「さと」が認識結果となってしまう。このように、発声内容が「さとうけん」であっても任意発声受理認識カテゴリが「けん」でなく「うけん」の区間を認識してしまうことがあり、「さとう」という認識対象単語が認識されにくくなることがある。

そこで、本発明では図８Ｃに示すように重み付与部１０７において任意発声受理認識カテゴリ区間の尤度に重みを付与し、任意発声受理認識カテゴリ区間の重量度を下げる操作をする。認識候補１および２にそれぞれの任意発声受理認識カテゴリ区間の尤度１５８６２、１５９６７に０．９を乗ずると、全発声区間における尤度は認識候補１が３４６６０、認識候補２が３４６５５となり、最も高い認識候補１「さとう」が認識結果となる。
上記では任意発声受理認識カテゴリの重要度を低くするために任意発声受理認識カテゴリに重みを乗じていたが、任意発声受理認識カテゴリ区間以外の認識区間の重要度を高めるために任意発声受理認識カテゴリ以外の認識区間に１以上の重みを乗じることでも同じ効果を得ることができる。

上記実施例のほかに、任意発声受理認識カテゴリを音声認識用文法中の任意の場所に挿入することで、「えーっと」、「あのー」などの不要語対策にも本発明を利用することができる。
上記した本発明で提案する音声認識方法は、プログラム言語によって記述された音声認識プログラムをコンピュータに実行させることにより実現される。音声認識プログラムはコンピュータが読み取り可能な例えば磁気ディスク或はＣＤ−ＲＯＭのような記録媒体に記録され、これらの記録媒体からコンピュータにインストールされるか又は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられたＣＰＵに解読されて実行される。

この発明による音声認識方法、音声認識装置は認識対象単語に対する認識精度が向上するから、音声案内装置、音声対話装置等に活用することができる。

この発明による音声認識装置の一例を説明するためのブロック図。図１に示した音声認識装置に用いた文法変換部と置換え文法記録部の内部の構成を説明するためのブロック図。図１に示した音節タイプライタの構成及び動作を説明するための図。この発明による置換え文法に用いることができる音響モデルの一例であるHMMを説明するための図。この発明の置換え文法に用いることができる全音素クラスタで構成したHMMを説明するための図。この発明の置換え文法に用いることができる全母音クラスタ及び全子音クラスタで構成したHMMを説明するための図。この発明の置換え文法に用いることができるグループ別クラスタで構成したHMMを説明するための図。この発明の音声認識方法を説明するための図。

符号の説明

１００音声認識装置１０６文法変換部
１０１Ａ／Ｄ変換部１０６Ａ音声認識用文法記述部
１０２特徴量パラメータ抽出部１０６Ｂ置換え文法記述部
１０３尤度計算部１０７重み付与部
１０４音声認識用文法記憶部２００置換え文法記憶部
１０５音響モデル記憶部

Claims

音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識方法において、
前記音声認識用文法に、あらゆる音声を受理する任意音声受理認識カテゴリを記述し、前記音声認識用文法で認識可能な単語もしくは単語列以外の入力音声を前記任意発声受理認識カテゴリで任意発声として認識処理させることを特徴とする音声認識方法。
請求項１記載の音声認識方法において、
前記任意発声受理認識カテゴリが認識した音声認識区間の尤度に重みを付与することを特徴とする音声認識方法。
請求項１又は２記載の音声認識方法の何れかにおいて、
前記任意発声受理認識カテゴリを、音声カテゴリの任意繰返し文法で構成することを特徴とすることを特徴とする音声認識方法。
請求項１又は２記載の音声認識方法の何れかにおいて、
前記任意発声受理認識カテゴリを、全ての音声カテゴリを１個あるいは複数個にクラスタ化した音声カテゴリクラスタの文法で構成し、前記音声カテゴリクラスタに相当する音響モデルを用いることを特徴とする音声認識方法。
音声認識用文法と音響モデルとを備え、前記音声認識用文法に含まれる認識対象単語もしくは単語列の中から、入力音声と音響モデルとで照合を行なわせ、最も尤度の高い単語もしくは単語列を認識結果として出力させる音声認識装置において、
前記音声認識用文法に、あらゆる発生を受理する任意発声受理認識カテゴリを付加し、前記音声認識用文法で認識可能な単語もしくは単語以外の入力音声を前記任意発声受理認識カテゴリで任意発声として処理させることを特徴とする音声認識装置。
請求項５に記載の音声認識装置において、
前記任意発声受理認識カテゴリが認識した音声認識区間の尤度を算出する尤度計算部と、この尤度計算部で算出した尤度に重み付けを行なう重み付与部とを備えることを特徴とする音声認識装置。
請求項５又は６記載の音声認識装置の何れかにおいて、
ある音声カテゴリの任意繰り返し文法を記憶する置換え文法記憶部と、
前記任意発声受理認識カテゴリを、前記置換え文法記憶部に記憶されている前記音声カテゴリの任意繰返し文法で置き換える文法変換部と、
を備えることを特徴とする音声認識装置。
請求項５又は６記載の音声認識装置の何れかにおいて、
全ての音声カテゴリを１個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法を記憶する置き換え文法記憶部と、
前記任意発声受理認識カテゴリを前記置換え文法記憶部に記憶されている全ての音声カテゴリを１個あるいは複数個のクラスタ化した音声カテゴリクラスタの文法で置き換える文法変換部と、
前記音声カテゴリクラスタに相当する音響モデルを用意しておく音響モデル記憶部と、
を備えることを特徴とする音声認識装置。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに請求項１乃至４記載の音声認識方法を実行させる音声認識プログラム。
コンピュータが読み取り可能な記録媒体に請求項９記載の音声認識プログラムを記録した記録媒体。