JP3456444B2

JP3456444B2 - 音声判定装置及び方法並びに記録媒体

Info

Publication number: JP3456444B2
Application number: JP12827499A
Authority: JP
Inventors: 啓三郎高木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-05-10
Filing date: 1999-05-10
Publication date: 2003-10-14
Anticipated expiration: 2019-05-10
Also published as: JP2000322084A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、入力音声に認識対象語彙に含まれるか否かを
判定する、すなわち確信度を求める音声判定装置に関す
る。

【０００２】

【従来の技術】音声認識における入力音声の妥当性を検
証することを目的として、従来より、「リジェクショ
ン」もしくは「音声検証（Speech Verification）」と
呼ばれる技術が知られている。この技術は、音声認識に
おける認識対象語彙が有限であることから、利用者はし
ばしば辞書に語彙として登録されていない音声を入力す
る場合があり、このような入力音声を認識する際に、誤
った認識結果を表示しないようにするか、あるいは語彙
に含まれていない旨を通知するなどの処理を行うもので
ある。

【０００３】近時、高精度、高効率なリジェクションを
行うことを目的として、「非キーワードモデル」と呼ば
れる手法の研究が活発に行われている。例えば、文献
（T.Kawahara:”Flexible Speech Understanding Ba
sed on Combined Key−Phrase Detection and Ve
rification”, IEEE Transactions on Speech andA
udio Processing, Vol. 6, No. 6, pp558−568(1998.1
1)）（「文献１」という）には、統計的な特徴量を保持
する標準パタンとして、隠れマルコフモデル（Hidden
Markov Model）を用い、認識対象の音声をサブワード
モデル（subword）を用いて表現している。このサブワ
ードモデルは、入力が単語や文章である場合などにおい
て、入力よりも小さな単位、例えば音素、音節で隠れマ
ルコフモデルを作成しておき、語彙が決定された時に、
サブワードを連結して認識対象語彙を構成するというも
のである。

【０００４】いま、ある入力音声の一部について、一つ
のサブワードモデル候補が決定され、その尤度が、次式
（１）で表わされているものとする。

【０００５】

【０００６】このとき、このサブワードに１対１に対応
している非サブワードモデル（anti-subword）に対する
尤度を次（２）で求める。

【０００７】

【０００８】なお、「非キーワードモデル（anti-keywo
rd）」と称呼されることもあり、上記文献（１）ではこ
の称呼を用いている。

【０００９】これら２つの尤度の差をとり、入力音声の
長さｌｎで正規化し、これをサブワードの尤度（信頼
度）として用いている（なお、詳細は、上記文献１の
（２）式が参照される）。

【００１０】

【００１１】このサブワードの尤度は、入力音声が注目
しているサブワードと合致する音声であった場合には、
上式（３）の第１項は尤度が高く、逆に、第２項の尤度
は低くなると予想されるため、結果として、高い信頼度
が得られる。

【００１２】逆に、入力音声が認識対象と合致しない音
声であった場合には、上式（３）の第１項の尤度が低
く、第２項の尤度は高くなるため、結果として信頼度は
低くなる。

【００１３】また、たまたま入力音声が誤ったサブワー
ドモデルに対して高い尤度を出力したとしても、非サブ
ワードモデルに対する尤度（第２項）も高くなることが
期待され、結果として、正規化後は、低い信頼度とな
り、誤った結果に対してはうまくリジェクションが行わ
れることが期待できる。

【００１４】なお、上記文献１では、上式（３）で求め
られた信頼度をさらに加工して種々の信頼度を用いた場
合の性能について検証を行っている。その詳細は、例え
ば上記文献１の（３）〜（８）式が参照される。基本と
する考えは、上述した式（３）に相当するものであり、
本発明の主題と直接関係しないことから、その説明は省
略する。

【００１５】この非サブワードモデルは、１つのサブワ
ード（例えば音節の「か」などで構成されることが考え
られるが）に対して１つ保持しており、「か」以外のさ
まざまな音声を基に、隠れマルコフモデルの通常の学習
方法を用いて学習が行われる。

【００１６】

【発明が解決しようとする課題】しかしながら、上記文
献１等に記載されているような非キーワードモデルを用
いた音声判定装置には、下記記載の問題点を有してい
る。

【００１７】第１の問題点は、非キーワードモデルの作
成が煩雑であるということである。しかもサブワードを
用いる手法と原理的に矛盾する場合があり、この場合、
非キーワードモデルの作成が困難であり、また作成でき
たとしても期待した性能が得られないことがある。

【００１８】例えば、サブワードの単位として、音節を
用いた場合には、各サブワードとして、“あ”、
“い”、…を基本単位とするモデルが用いられる。

【００１９】この場合、例えば、“か”という音節は、
音響的に、音素“ｋ”と“a”の２つの音素から成りた
っており、これに対応する非キーワードモデルを、文献
１に方法に従って作成すると、例えば、「“ｋ”を前半
に持たない、かつ“a”を後半に持たない」音節か
ら、”か“に対する非キーワードモデルを作成すること
になる。

【００２０】ところが、このようにして作成された
“か”に対する非キーワードモデルは、“さ”のような
音に対しては、本来高い尤度を出力すべきものである
が、後半の母音“a”は、作成データとして用いられて
いないため、後半の尤度が低く、全体的に低い尤度を出
力する場合がある。

【００２１】すなわち、上式（３）の右辺第２項の尤度
が低くなり、結果として得られた尤度が“さ”の音に対
しても高く出力される場合がある。

【００２２】また、別の非キーワードモデルの作成基準
として、「“ｋ”を前半に持たない」という点のみから
非キーワードモデルを作成した場合には、すべての母音
を後半にもつ音節データを用いて作成することと同一と
なり、この場合、そもそも音節の後半部分がすべての母
音に対して尤度が高くなり、これらの間の識別が全く行
えないことになる。

【００２３】以上から明らかなように、一般に複数の音
素で構成される単位をサブワードとして選択した場合、
非キーワードモデルは原理的に作成が困難であり、たと
え作成できたとしても、期待した性能が得られない、こ
とになる。

【００２４】近時、音声認識におけるサブワードモデル
の改良として、音素よりも長い単位のものを用いる方
が、より高性能な結果が得られることが種々の研究によ
り明らかとされている。しかしながら、このような音素
より長い単位を使用する音声認識装置には不適である、
という問題がある。

【００２５】また、第２の問題点として、非キーワード
モデルの作成手順が煩雑であり、容易でない、というこ
とである。

【００２６】例えば、サブワードとして“か”のモデル
を作成する場合には、“か”だけを対象とした学習を行
えば良いが、これに対する非キーワードモデルは、
“か”以外の多くのデータを与えて作成する必要があ
り、サブワードモデルの作成に要する作業工数、負担が
大きなものとなり、また必要とされるデータ量も膨大な
ものとなる。

【００２７】さらに音声認識の性能向上を図る手法とし
て、「話者適応」と呼ばれる技術や、「環境適応」と呼
ばれる技術も知られている。これらは、認識を行おうと
する話者あるいは環境の少量の発声を用いてモデルを適
応化させるものであり、上記した例についてみると、す
べてのサブワードモデルを話者あるいは環境へと適合さ
せるものである。

【００２８】このような適応技術を用いた場合、当然非
キーワードモデルに対しても話者あるいは環境への適合
化を行うことが必要であるが、そもそも非キーワードモ
デルに対する、これらの適合化技術は存在していない、
というのが実状である。このためこれら併用した音声判
定装置の実現は困難であった。

【００２９】以上をまとめると、モデルの構成単位が複
数の音素によって構成されるサブワードもしくは単語モ
デルである場合において、抑制標準パタン（非キーワー
ドモデル）の構成は容易ではなく、また矛盾する音素な
どを含んでしまうことが多く、このため、抑制標準パタ
ンを用いた場合の信頼度の低下が問題となっている。ま
た、抑制標準パタンを作成するには、元の標準パタンよ
りもはるかに多いデータ量及び処理量が必要であり、手
軽に実行できない。このため、話者適応、環境適応など
のオンラインの適応化技術と併用することは困難であ
る。

【００３０】したがって本発明は、上記問題点に鑑みて
なされたものであって、その主たる目的は、モデルの構
成単位がどのような形態であっても、高性能、高精度な
音声判定を行う装置及び方法を提供することにある。

【００３１】本発明の他の目的は、学習という煩雑な手
段に依らずに、また学習データを新たに与えることな
く、簡易な操作で、かつ、高速に、非キーワードモデル
を生成可能とする装置及び方法を提供することにある。

【００３２】本発明のさらに他の目的は、従来困難であ
った話者適応技術との併用を可能とすることで、高性能
な認識を実現する音声認識装置及び方法を提供すること
にある。

【００３３】本発明のさらに別の目的は、近時主流とな
りつつある「音素環境依存モデル」と呼ばれる長い単位
を用いた場合であっても高性能な非キーワードモデルを
与えることで、高性能な認識を可能とする音声判定装置
及び方法を提供することにある。上記以外の本発明の目
的、特徴等は以下の説明から直ちに明らかとされるであ
ろう。

【００３４】

【課題を解決するための手段】前記目的を達成する本願
第１発明は、標準話者音声に対して音声認識のための特
徴抽出を行ない、当該抽出結果を用いて複数のクラス
(カテゴリ)に対する平均値と分散とで表現された統計的
な特徴量分布を保持する音声標準パタン（図１の１１）
と、前記統計的な特徴量の各々に対して、各次元毎の分
布の両側あるいは片側近傍に平均値を持つ新たな分布を
生成し、この分布を全次元まとめたものを該統計的特徴
量に対する抑制標準パタンとして作成する抑制標準パタ
ン生成手段（図１の１２）と、音声認識のために入力さ
れた入力音声に対して前記音声標準パタン作成時と同様
の特徴抽出を行ない、入力音声の特徴ベクトル列を計算
する特徴抽出手段（図１の１３）と、前記特徴抽出手段
が抽出した入力音声の特徴ベクトル列と前記音声標準パ
タンとの間で１つ以上の正解候補とそれに対応する尤度
とを出力する第１のマッチング手段（図１の１４）と、
前記入力音声の特徴ベクトル列と前記抑制標準パタン生
成手段が作成した抑制標準パタンとの間の尤度を計算
し、前記第１のマッチング手段が出力した正解候補に対
応する抑制尤度を出力する第２のマッチング手段（図１
の１５）と、前記第１のマッチング手段の出力する尤度
に対応する前記第２のマッチング手段の出力する抑制尤
度の差または比を計算し、この値を入力音声の確からし
さ（確信度）として通知する入力判定手段（図１の１
６）とを備えたことを特徴とする。

【００３５】本願第２発明は、標準話者音声に対して音
声認識のための特徴抽出を行ない、当該抽出結果を用い
て複数のクラス(カテゴリ)に対する平均値と分散とで表
現された統計的な特徴量分布を保持する音声標準パタン
（図２の２１）と、音声認識のために入力された入力音
声に対して前記音声標準パタン作成時と同様の特徴抽出
を行ない、入力音声の特徴ベクトル列を計算する特徴抽
出手段（図２の２２）と、前記特徴抽出手段が抽出した
入力音声の特徴ベクトル列と前記音声標準パタンとの間
で１つ以上の正解候補とそれに対応する尤度とを出力す
る第１のマッチング手段（図２の２３）と、前記第１の
マッチング手段が出力した正解候補に対応する音声標準
パタンの統計的な特徴量分布の各々に対して、各次元毎
に分布の両側あるいは片側近傍に平均値を持つ新たな分
布を生成し、この分布を全次元まとめたものを該統計的
特徴量に対する抑制標準パタンとして作成する抑制標準
パタン生成手段（図２の２４）と、前記入力音声の特徴
ベクトル列と前記抑制標準パタン生成手段が作成した抑
制標準パタンとの間の尤度を計算し、前記第１のマッチ
ング手段が出力した正解候補に対応する抑制尤度を出力
する第２のマッチング手段（図２の２５）と、前記第１
のマッチング手段の出力する尤度に対応した前記第２の
マッチング手段の出力する抑制尤度の差または比を計算
し、この値を入力音声の確からしさ（確信度）として通
知する入力判定手段（図２の２６）とを備えたものであ
る。

【００３６】本願第３発明は、標準話者音声に対して音
声認識のための特徴抽出を行ない、当該抽出結果を用い
て複数のクラス(カテゴリ)に対する平均値と分散とで表
現された統計的な特徴量分布を保持する音声標準パタン
（図３の３１）と、前記統計的な特徴量の各々に対し
て、各次元毎の分布の両側あるいは片側近傍に平均値を
持つ新たな分布を生成し、この分布を全次元まとめたも
のを該統計的特徴量に対する抑制標準パタンとして作成
する抑制標準パタン生成手段（図３の３２）と、音声認
識のために入力された入力音声に対して前記音声標準パ
タン作成時と同様の特徴抽出を行ない、入力音声の特徴
ベクトル列を計算する特徴抽出手段（図３の３３）と、
前記特徴抽出手段が抽出した入力音声の特徴ベクトル列
と前記音声標準パタンとの間で１つ以上の正解候補とそ
れに対応する尤度と、特徴ベクトル列と分布間の対応情
報とを出力する第１のマッチング手段（図３の３４）
と、前記第１のマッチング手段の出力する特徴ベクトル
列と分布間の対応情報を用い、前記入力音声の特徴ベク
トル列と前記抑制標準パタンとの間の対応付けを行い、
この対応付けにおける尤度を計算し、この尤度を前記第
１のマッチング手段が出力した正解候補に対応する抑制
尤度として出力する第２のマッチング手段（図３の３
５）と、前記第１のマッチング手段の出力する尤度に対
応する前記第２のマッチング手段の出力する抑制尤度の
差または比を計算し、この値を入力音声の確からしさ
（確信度）として通知する入力判定手段（図３の３６）
とを備える。

【００３７】本願第４発明は、標準話者音声に対して音
声認識のための特徴抽出を行ない、当該抽出結果を用い
て複数のクラス(カテゴリ)に対する平均値と分散とで表
現された統計的な特徴量分布を保持する音声標準パタン
（図４の４１）と、音声認識のために入力された入力音
声に対して前記音声標準パタン作成時と同様の特徴抽出
を行ない、入力音声の特徴ベクトル列を計算する特徴抽
出手段（図４の４２）と、前記特徴抽出手段が抽出した
入力音声の特徴ベクトル列と前記音声標準パタンとの間
で１つ以上の正解候補とそれに対応する尤度とを出力す
る第１のマッチング手段（図４の４３）と、前記第１の
マッチング手段が出力した正解候補に対応する音声標準
パタンの統計的な特徴量分布の各々に対して、各次元毎
に分布の両側あるいは片側近傍に平均値を持つ新たな分
布を生成し、この分布を全次元まとめたものを該統計的
特徴量に対する抑制標準パタンとして作成する抑制標準
パタン生成手段（図４の４４）と、前記第１のマッチン
グ手段の出力する特徴ベクトル列と分布間の対応情報を
用い、前記入力音声の特徴ベクトル列と前記抑制標準パ
タンとの間の対応付けを行い、この対応付けにおける尤
度を計算し、この尤度を前記第１のマッチング手段が出
力した正解候補に対応する抑制尤度として出力する第２
のマッチング手段（図４の４５）と、前記第１のマッチ
ング手段の出力する尤度に対応した前記第２のマッチン
グ手段の出力する抑制尤度の差または比を計算し、この
値を入力音声の確からしさ（確信度）として通知する入
力判定手段（図４の４６）とを備える。

【００３８】本願第５発明は、音声標準パタンが入力の
音声のよりも短い単位（いわゆるサブワードモデル）で
構成され、入力判定手段が、サブワード単位毎の音声の
確信度を求めて通知する。

【００３９】

【発明の実施の形態】本発明の実施の形態について説明
する。本発明に係る音声判定装置は、その好ましい一実
施の形態において、図１を参照すると標準話者の音声に
対して音声認識のための特徴抽出を行ない、この抽出結
果を用いて複数のクラス(カテゴリ)に対する平均値と分
散とで表現された統計的な特徴量分布を保持する音声標
準パタン（１１）と、前記音声標準パタンの統計的な特
徴量の各々に対して、各次元毎の分布の両側又は片側近
傍に平均値を持つ新たな分布を生成し、この新たな分布
を全次元まとめたものを該統計的特徴量に対する抑制標
準パタンとして作成する抑制標準パタン生成部（１２）
と、音声認識のために入力された入力音声に対して音声
標準パタンの作成時と同様の特徴抽出を行ない、入力音
声の特徴ベクトル列を算出する特徴抽出部（１３）と、
前記特徴抽出部で算出された入力音声の特徴ベクトル列
と音声標準パタン（１１）との間で１つ以上の正解候補
とそれに対応する尤度とを出力する第１のマッチング部
（１４）と、前記入力音声の特徴ベクトル列と抑制標準
パタン生成部が作成した抑制標準パタンとの間の尤度を
計算し、第１のマッチング部（１４）が出力した正解候
補に対応する抑制尤度を出力する第２のマッチング部
（１５）と、第１のマッチング部（１４）が出力する尤
度と、これに対応する第２のマッチング部（１５）が出
力する抑制尤度との差又は比を計算し、この値を入力音
声の確からしさ（確信度）として通知する入力判定部
（１６）とを備える。

【００４０】本発明の原理・作用について説明する。

【００４１】本発明において、特徴抽出部（１３）は、
入力された認識対象音声を音声認識のための特徴ベクト
ル列を計算する。この特徴ベクトルは、一定周期毎の短
時間分析結果（多次元ベクトル）を時間方向に結合した
ものと表現されており、公知の種々の方法を用いること
ができる。例えば、スペクトル分析、フィルタバンク、
ケプストラム、パワー等に基づき、これらの時間方向の
１次あるいは２次微分といったものと組み合わせて用い
られる。

【００４２】音声標準パタン（１１）は、特徴抽出部
（１３）と同様の方法で多数の標準話者音声を分析し、
複数のクラス(カテゴリ)に対する平均値と分散とで表現
された統計的な多次元の特徴量分布として保持されてい
る。

【００４３】このような構成を実現する手段としては、
隠れマルコフモデル（ＨＭＭ：Hidden Markov Mode
l）と呼ばれる方法が知られている。

【００４４】図５は、サブワードを音節として持つＨＭ
Ｍの一例であり、３つの音節を直列に接続することで、
“はかた”という音声を受理するモデルを構成してい
る。

【００４５】図５において、丸は「状態」を示し、矢印
は「遷移」を示しており、状態には、通常、「分布」と
呼ばれる、特徴ベクトルを統計的な量として表したもの
が保持され、夫々の遷移において通過する際の確率値が
保持されている。

【００４６】第１のマッチング部（１４）は、例えばＨ
ＭＭで音声標準パタン（１１）のすべての単語モデルと
入力音声との類似の度合い（尤度）を計算し、尤度の高
いものから順に正解候補として出力する。このような尤
度の計算方法としては、例えば、公知のビタビ（Viterb
i）アルゴリズム等が用いられる。

【００４７】抑制標準パタン生成部（１２）は、音声標
準パタン（１１）の各モデルに対して、これと対となる
モデルを生成する。このモデルは音声標準パタン（１
１）とちょうど相反する特徴ベクトルを平均値と分散と
で表現した分布の形で生成する。

【００４８】図６を参照すると、元の分布は、音声標準
パタン（１１）の中に保持されている特徴量の分布の一
例を、１次元について模式的に示した図である。

【００４９】抑制標準パタン生成部（２４）は、この分
布に対する抑制分布として、両側に、ちょうど近接する
ように、抑制分布１及び抑制分布２を構成し、最終的
に、抑制標準パタン（１７）として格納保持する。

【００５０】この抑制分布の生成方法は、例えば元の分
布が正規分布で表現されている場合には、ほぼ３σ（分
散の３倍）程度の範囲を覆えば、統計的に殆どの学習デ
ータが含まれることから、３σで交差するような構成を
する。これ以外にも、抑制分布に付いては種々の生成方
法が用いられ、また必ずしも正規分布を用いたり、両側
に配置する必要はない。

【００５１】抑制標準パタン（１７）は、例えば図５に
示す“はかた”という音声標準パタンとちょうど対応す
るように“はかた”を抑制する分布で構成された標準パ
タンとして保持されている。

【００５２】このような抑制分布を用いることで、元の
分布から外れた特徴を持つ入力音声に対しては抑制分布
に対する尤度の方が元の分布より高くなり、結果として
有効にリジェクト（排除）を行うことができる。

【００５３】第２のマッチング部（１５）は、第１のマ
ッチング部（１４）が出力した正解候補に対応する抑制
標準パタン（１７）と入力音声との間の尤度を計算し、
出力する。第２のマッチング部（１５）における尤度計
算は、第１のマッチング部（１４）と同様の方法で行わ
れる。

【００５４】入力判定部（１６）は、第１のマッチング
部（１４）から出力された正解候補に対する尤度と、第
２のマッチング部１５から出力された尤度（抑制尤度）
との差又は比の値を計算し、また必要であれば、上式
（３）のように、入力の長さで正規化し、各候補におけ
る信頼度として出力する。

【００５５】以上から明らかなように、本発明は、音声
標準パタンが保持するそれぞれの分布に対して、両側あ
るいは片側近傍に新たな分布を配置したものを抑制標準
パタンとして作成し、両者に対する尤度を、例えば上式
（３）のように、入力の長さで正規化を行うことによ
り、元の分布から外れた音声に対しては抑制標準パタン
の尤度が確実に高くなるようにしており、その結果、正
確な確信度を計算することができる。

【００５６】さらに、元の分布に対応する抑制分布を用
いることで、サブワードがどのような単位で構成される
かに依存せず、常に、最適な非キーワードモデル（抑制
標準パタン）を構成することを可能としており、また特
別な学習データを必要としないため、高速な処理を実現
することができる。

【００５７】本発明に係る方法は、その好ましい実施の
形態において、（ａ）標準話者音声に対して音声認識の
ための特徴抽出を行ない前記特徴抽出された結果を用い
て、複数のクラス又はカテゴリに対する平均値と分散と
で表現された統計的な特徴量の分布を有する音声標準パ
タンを記憶手段に保持し、（ｂ）前記記憶手段から前記
音声標準パタンを読み出し、前記音声標準パタンの統計
的な特徴量の各々に対して、各次元毎の分布の両側ある
いは片側の近傍に平均値を持つ新たな分布を生成し、こ
の分布を、全ての次元についてまとめたものを前記統計
的特徴量に対する抑制標準パタンとして作成し記憶手段
に出力するステップと、（ｃ）音声認識のために入力さ
れた入力音声に対して、前記音声標準パタン作成時と同
様に、音声認識のための特徴抽出を行ない前記入力音声
の特徴ベクトル列を導出するステップと、（ｄ）前記抽
出された前記入力音声の特徴ベクトル列と、前記音声標
準パタンとの間で１つ以上の正解候補とこれに対応する
尤度とを出力するステップと、（ｅ）前記入力音声の特
徴ベクトル列と、前記記憶手段から読み出された前記抑
制標準パタンとの間の尤度を計算し、前記出力された正
解候補に対応する抑制尤度を出力するステップと、
（ｆ）前記ステップ（ｄ）で出力された尤度と、これに
対応する前記抑制尤度との差または比を計算し、この値
を入力音声の確からしさ、すなわち確信度として通知す
るステップと、を含む。

【００５８】また、本発明に係る方法は、その第２の好
ましい実施の形態において、（ａ）標準話者音声に対し
て音声認識のための特徴抽出を行ない、前記特徴抽出さ
れた結果を用いて複数のクラス又はカテゴリに対する平
均値と分散とで表現された統計的な特徴量分布を有する
音声標準パタンを記憶手段に保持し、（ｂ）音声認識のために入力された入力音声に対して、
前記音声標準パタン作成時と同様の特徴抽出を行ない、
入力音声の特徴ベクトル列を計算するステップと、（ｃ）前記抽出した入力音声の特徴ベクトル列と前記記
憶手段から読み出された前記音声標準パタンとの間で１
つ以上の正解候補とそれに対応する尤度とを出力するス
テップと、（ｄ）前記出力された正解候補に対応する、音声標準パ
タンの統計的な特徴量分布の各々に対して、各次元毎に
分布の両側あるいは片側近傍に平均値を持つ新たな分布
を生成し、この分布を全次元まとめたものを該統計的特
徴量に対する抑制標準パタンとして作成し記憶手段に格
納するステップと、（ｅ）前記入力音声の特徴ベクトル列と、前記記憶手段
から読み出された前記抑制標準パタンとの間の尤度を計
算し、前記出力された正解候補に対応する抑制尤度を出
力するステップと、（ｆ）前記ステップ（ｃ）で出力された尤度と、これに
対応した前記抑制尤度との差または比を計算し、この値
を入力音声の確からしさ、すなわち確信度として通知す
るステップと、を含む。

【００５９】本発明に係る方法は、その好ましい第３の
実施の形態において、（ａ）標準話者音声に対して音声
認識のための特徴抽出を行ない、当該抽出結果を用いて
複数のクラス又はカテゴリに対する平均値と分散とで表
現された統計的な特徴量分布を有する音声標準パタンを
記憶手段に保持し、（ｂ）前記記憶手段から読み出され
た前記音声標準パタンの前記統計的な特徴量の各々に対
して、各次元毎の分布の両側あるいは片側近傍に平均値
を持つ新たな分布を生成し、この分布を全次元まとめた
ものを該統計的特徴量に対する抑制標準パタンとして作
成するステップと、（ｃ）音声認識のために入力された
入力音声に対して前記音声標準パタン作成時と同様の特
徴抽出を行ない、入力音声の特徴ベクトル列を計算する
ステップと、（ｄ）前記抽出された入力音声の特徴ベク
トル列と、前記記憶手段から読み出された前記音声標準
パタンとの間で１つ以上の正解候補とそれに対応する尤
度と、特徴ベクトル列と分布間の対応情報とを出力する
ステップと、（ｅ）前記特徴ベクトル列と分布間の対応
情報を用い、前記入力音声の特徴ベクトル列と、前記記
憶手段から読み出された前記抑制標準パタンとの間の対
応付けを行い、この対応付けにおける尤度を計算し、こ
の尤度を前記正解候補に対応する抑制尤度として算出す
るステップと、（ｆ）前記ステップ（ｄ）で出力された
尤度と、これに対応する前記抑制尤度との差または比を
計算し、この値を入力音声の確からしさ、すなわち確信
度として通知するステップと、を含む。

【００６０】本発明に係る方法は、その好ましい第４の
実施の形態において、（ａ）標準話者音声に対して音声
認識のための特徴抽出を行ない、当該抽出結果を用いて
複数のクラス又はカテゴリに対する平均値と分散とで表
現された統計的な特徴量分布を有する音声標準パタンを
記憶手段に保持し、（ｂ）音声認識のために入力された
入力音声に対して前記音声標準パタン作成時と同様の特
徴抽出を行ない、入力音声の特徴ベクトル列を計算する
ステップと、（ｃ）前記抽出された入力音声の特徴ベク
トル列と前記音声標準パタンとの間で１つ以上の正解候
補とそれに対応する尤度とを算出するステップと、
（ｄ）前記出力された正解候補に対応する音声標準パタ
ンの統計的な特徴量分布の各々に対して、各次元毎に分
布の両側あるいは片側近傍に平均値を持つ新たな分布を
生成し、この分布を全次元まとめたものを該統計的特徴
量に対する抑制標準パタンとして作成するステップと、
（ｅ）前記特徴ベクトル列と分布間の対応情報を用い、
前記入力音声の特徴ベクトル列と前記抑制標準パタンと
の間の対応付けを行い、この対応付けにおける尤度を計
算し、この尤度を前記正解候補に対応する抑制尤度とし
て出力するステップと、（ｆ）前記ステップ（ｃ）で出
力された尤度と、これに対応した前記第抑制尤度との差
または比を計算し、この値を入力音声の確からしさ、す
なわち確信度として通知するステップと、を含む。

【００６１】本発明の実施の形態において、上記した各
ステップは、音声判定装置を構成するコンピュータ（演
算処理装置）でプログラムを実行することで、その処理
・機能を実現することができる。この場合、該プログラ
ムを記録したコンピュータで読み出し可能な記録媒体、
もしくは通信媒体を介して、該プログラムをコンピュー
タに読み出しコンピュータで該プログラムを実行するこ
とで本発明を実施することができる。

【００６２】

【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例について図面を参照し
て以下に説明する。

【００６３】図１は、本発明の音声判定装置の第１の実
施例の構成を示すブロック図である。図１を参照する
と、この音声判定装置は、標準話者音声に対して音声認
識のための特徴抽出を行ない、当該抽出結果を用いて複
数のクラス(カテゴリ)に対する平均値と分散とで表現さ
れた統計的な特徴量分布を記憶保持する音声標準パタン
１１を記憶する記憶部と、音声標準パタン１１の統計的
な特徴量の各々に対して各次元毎の分布の両側あるいは
片側近傍に平均値を持つ新たな分布を生成し、この分布
を全次元まとめたものを統計的特徴量に対する抑制標準
パタンとして作成する抑制標準パタン生成部１２と、音
声認識のために入力された入力音声に対して音声標準パ
タン１１の作成と同様の特徴抽出を行ない、入力音声の
特徴ベクトル列を計算する特徴抽出部１３と、特徴抽出
部１３が抽出した入力音声の特徴ベクトル列と、音声標
準パタン１１との間で１つ以上の正解候補と、この正解
候補に対応する尤度とを出力する第１のマッチング部１
４と、入力音声の特徴ベクトル列と、抑制標準パタン生
成部１２が作成した抑制標準パタン１７との間の尤度を
計算し、第１のマッチング部１４が出力した正解候補に
対応する抑制尤度を出力する第２のマッチング部１５
と、第１のマッチング部１４の出力する尤度に対応する
第２のマッチング部１５が出力する抑制尤度の差または
比を計算し、この値を入力音声の確からしさ（確信度）
として通知する入力判定部１６と、を備えている。

【００６４】本発明の第１の実施例の動作について説明
する。特徴抽出部１３は、入力された認識対象音声を音
声認識のための特徴ベクトル列に変換する。この特徴ベ
クトルは、一定周期毎の短時間分析結果（多次元ベクト
ル）を時間方向に結合したものとして表現されており、
これまでに種々の方法が確立されている。例えば、スペ
クトル分析、フィルタバンク、ケプストラム、パワー等
のいずれかを基に、これらの時間方向の１次あるいは２
次微分といったものと組み合わせて使用されている。こ
こに挙げたもの以外の特徴ベクトルについても、一般に
音声認識に使用可能なものであれば、任意のものが用い
られる。

【００６５】音声標準パタン１１には、特徴抽出部１３
と同様の方法で、多数の標準話者音声を分析し、複数の
クラス(カテゴリ)に対する平均値と分散とで表現された
統計的な多次元の特徴量分布として保持されている。こ
のような構成を実現する手段としては、隠れマルコフモ
デル（ＨＭＭ：Hidden Markov Model）と呼ばれる方法
が知られている。

【００６６】図５は、サブワードを音節として持つＨＭ
Ｍの例であり、３つの音節を直列に接続することで、
“はかた”という音声を受理するモデルを構成してい
る。矢印は遷移、丸は状態と呼ばれるもので、状態には
通常分布と呼ばれる特徴ベクトルを統計的な量として表
現したものが保持され、夫々の遷移においては通過する
際の確率値が保持されている。

【００６７】第１のマッチング部１４は、例えばＨＭＭ
で音声標準パタン１１のすべての単語モデルと入力音声
との類似の度合い（尤度）を計算し、尤度の高いものか
ら順に正解候補として出力する。このような尤度の計算
方法としてはViterbiアルゴリズムが良く知られてい
る。

【００６８】抑制標準パタン生成部１２は、音声標準パ
タン１１の各モデルに対してそれと対となるモデルを生
成する。このモデルは音声標準パタン１１とちょうど相
反する特徴ベクトルを平均値と分散とで表現した分布の
形で生成する。例えば、図６は音声標準パタン１１の中
に保持されている分布の１次元について模式的に現した
ものである（図６の「元の分布」参照）。

【００６９】抑制標準パタン生成部はこの分布に対する
抑制分布として、両側に、ちょうど近接するように「抑
制分布１」及び「抑制分布２」を構成し、最終的に抑制
標準パタンとして保持する。この抑制分布の生成方法
は、例えば元の分布が正規分布で表現されている場合は
ほぼ３σ（分散の３倍）程度の範囲を覆えば殆どの学習
データが含まれることが統計的に明らかであるので、３
σで交差するような構成方法をとる。なお、３σに限定
されるものでなく、必要に応じて４σ、あるいは２σ等
としても良い。この他、抑制分布に付いては種々の生成
方法が用いられ、また必ずしも正規分布を用いたり、両
側に配置する必要はない。

【００７０】抑制標準パタン１７は、例えば図５に示す
“はかた”という音声標準パタンとちょうど対応するよ
うに“はかた”を抑制する分布で構成された標準パタン
として保持されている。このような、抑制分布を用いる
ことで、元の分布から外れた特徴を持つ入力に対しては
抑制分布に対する尤度の方が元の分布より高くなり、結
果として有効にリジェクトを行うことができる。

【００７１】第２のマッチング部１５は、第１のマッチ
ング部１４が出力した正解候補に対応する抑制標準パタ
ンと入力音声との間の尤度を計算して出力する。この尤
度計算は、第１のマッチング部１４と同様の方法で実現
できる。

【００７２】入力判定部１６は、第１のマッチング部１
４が出力した正解候補に対する尤度と第２のマッチング
部１５が出力した尤度との差または比の値を計算し、ま
た必要であれば、（１）式のように入力の長さで正規化
し、各候補における信頼度として出力する。

【００７３】なお、この信頼度を用いて最終的にリジェ
クションを行うが、最も簡単には、前もって定められた
固定の閾値を下回った場合に、リジェクトと判定する方
法が用いられる。この以外にも、尤度の差または比を用
いる方法であればどのような方法でも適用可能である。

【００７４】次に本発明の第２の実施例について説明す
る。図２は、本発明の音声判定装置の第２の実施例の構
成を示すブロック図である。図２を参照すると、この音
声判定装置は、標準話者音声に対して音声認識のための
特徴抽出を行ない、当該抽出結果を用いて複数のクラス
(カテゴリ)に対する平均値と分散とで表現された統計的
な特徴量分布を保持する音声標準パタン２１と、音声認
識のために入力された入力音声に対して音声標準パタン
２１の作成時と同様の特徴抽出を行ない、入力音声の特
徴ベクトル列を計算する特徴抽出部２２と、特徴抽出部
２２が抽出した入力音声の特徴ベクトル列と音声標準パ
タン２１との間で１つ以上の正解候補とそれに対応する
尤度とを出力する第１のマッチング部２３と、第１のマ
ッチング部２３が出力した正解候補に対応する音声標準
パタン２１の統計的な特徴量分布の各々に対して、各次
元毎に分布の両側あるいは片側近傍に平均値を持つ新た
な分布を生成し、この分布を全次元まとめたものを該統
計的特徴量に対する抑制標準パタンとして作成する抑制
標準パタン生成部２４と、入力音声の特徴ベクトル列と
抑制標準パタン生成部２４が作成した抑制標準パタンと
の間の尤度を計算し、第１のマッチング部２３が出力し
た正解候補に対応する抑制尤度を出力する第２のマッチ
ング部２５と、第１のマッチング部２３の出力する尤度
に対応した第２のマッチング部２５の出力する抑制尤度
の差または比を計算し、この値を入力音声の確からしさ
（確信度）として通知する入力判定部２６とを備えて構
成されている。

【００７５】図２において、音声標準パタン２１、特徴
抽出部２２、第１のマッチング部２３、及び入力判定部
２６は、夫々図１の音声標準パタン１１、特徴抽出部１
３、第１のマッチング部１４、及び入力判定部１６と同
一の構成よりなり、同一の動作を行う。

【００７６】抑制標準パタン生成部２４は、第１のマッ
チング部２３が正解候補を計算した後に、その正解候補
に対してのみ抑制標準パタンを生成する。

【００７７】このような構成としたことにより、予め抑
制標準パタンの全てを作成しておく必要がなく、候補が
決定した後、当該候補に対してのみ抑制標準パタンを生
成すればよい。このため、音声認識装置のメモリ量の制
約が大きい場合においても、十分に実現可能であるとい
う利点を有している。

【００７８】一方、抑制標準パタン２７を、第１のマッ
チング部２３が出力する結果に応じて作成するため、前
記第１の実施例の構成と比較して、やや計算時間を要す
る。

【００７９】しかしながら、本発明によれば、学習等の
膨大な処理とは比較にならないほど処理量を縮減してお
り、実用上問題となることは全くない。

【００８０】次に本発明の第３の実施例について説明す
る。図３は、本発明の音声判定装置の第３の実施例の構
成を示すブロック図である。図３を参照すると、この音
声判定装置は、標準話者音声に対して音声認識のための
特徴抽出を行ない、当該抽出結果を用いて複数のクラス
(カテゴリ)に対する平均値と分散とで表現された統計的
な特徴量分布を保持する音声標準パタン３１と、統計的
な特徴量の各々に対して、各次元毎の分布の両側あるい
は片側近傍に平均値を持つ新たな分布を生成し、この分
布を全次元まとめたものを該統計的特徴量に対する抑制
標準パタンとして作成する抑制標準パタン生成部３２
と、音声認識のために入力された入力音声に対して音声
標準パタン３１の作成時と同様の特徴抽出を行ない、入
力音声の特徴ベクトル列を計算する特徴抽出部３３と、
特徴抽出部３３が抽出した入力音声の特徴ベクトル列と
音声標準パタン３１との間で１つ以上の正解候補とそれ
に対応する尤度と、特徴ベクトル列と分布間の対応情報
とを出力する第１のマッチング部３４と、第１のマッチ
ング部３４の出力する特徴ベクトル列と分布間の対応情
報を用い、入力音声の特徴ベクトル列と抑制標準パタン
との間の対応づけを行い、この対応付けにおける尤度を
計算し、この尤度を第１のマッチング部３４が出力した
正解候補に対応する抑制尤度として出力する第２のマッ
チング部３５と、第１のマッチング部３４が出力する尤
度に対応する第２のマッチング部３５が出力する抑制尤
度の差または比を計算し、この値を入力音声の確からし
さ（確信度）として通知する入力判定部３６と、を備え
て構成される。

【００８１】図３において、音声標準パタン３１、特徴
抽出部３３、抑制標準パタン生成部３２、及び入力判定
部３６は、それぞれ図１における音声標準パタン１１、
特徴抽出部１３、抑制標準パタン生成部１２、及び入力
判定部１６と同一の動作を行う。

【００８２】第１のマッチング部３４は、特徴抽出部３
３が抽出した入力音声の特徴ベクトル列と音声標準パタ
ン３１との間で１つ以上の正解候補とそれに対応する尤
度と、特徴ベクトル列と分布間の対応情報とを出力す
る。

【００８３】図７は、ＨＭＭを用いて作成された正解候
補の音声標準パタンと入力音声との対応情報を模式的に
示す図である。図７に示すように、入力音声（横軸）の
特徴ベクトル列と音声標準パタンの各状態とで決まる格
子点上を、両者の間の尤度が尤も高くなるような対応づ
けを出力する。この対応付けを実現する方法としてはHM
MのViterbiアルゴリズムが良く知られている。

【００８４】第２のマッチング部３５は、第１のマッチ
ング部３４が出力した正解候補とそれに対する対応情報
を用い、入力音声の特徴ベクトル列と抑制標準パタンと
の間での尤度を計算する。例えば図７に示した音声標準
パタンと対となる抑制標準パタンに対して、全く同じ対
応づけにおける累積尤度を計算し、出力する。

【００８５】このような、対応情報を用いて抑制標準パ
タンと入力音声の特徴ベクトル列との間の尤度を計算す
ることの利点は、入力音声と正解候補の音声標準パタン
とが内容的に一致する場合、すなわち音声認識が正しく
行われた場合において、音声標準パタンと入力音声とは
音響的に極めて類似しており、得られた対応結果も信頼
の置けるものとなっている。

【００８６】逆に、この正解候補に対応する抑制標準パ
タンとは音響的に極めて類似しないものとなり、もし、
入力音声と抑制標準パタンとの間の自由な対応付けを許
容すると、得られた対応付けは精度の低いものとなる。

【００８７】その結果、得られる抑制尤度も精度が低
く、うまく信頼度の計算が行われない場合がある。この
ような理由から、抑制標準パタンと入力音声との対応づ
けを入力音声と音声標準パタンとの対応づけに合わせて
行うことにより、より高精度な信頼度の抽出が可能とな
る。

【００８８】次に本発明の第４の実施例について説明す
る。図４は、本発明の音声判定装置の第４の実施例の構
成を示すブロック図である。図４を参照すると、この音
声判定装置は、標準話者音声に対して音声認識のための
特徴抽出を行ない、該抽出結果を用いて複数のクラス
(カテゴリ)に対する平均値と分散とで表現された統計的
な特徴量分布を保持する音声標準パタン４１と、音声認
識のために入力された入力音声に対して音声標準パタン
４１の作成時と同様の特徴抽出を行ない、入力音声の特
徴ベクトル列を計算する特徴抽出部４２と、特徴抽出部
４２が抽出した入力音声の特徴ベクトル列と音声標準パ
タン４１との間で１つ以上の正解候補とそれに対応する
尤度とを出力する第１のマッチング部４３と、第１のマ
ッチング部４３が出力した正解候補に対応する音声標準
パタン４１の統計的な特徴量分布の各々に対して、各次
元毎に分布の両側あるいは片側近傍に平均値を持つ新た
な分布を生成し、この分布を全次元まとめたものを該統
計的特徴量に対する抑制標準パタンとして作成する抑制
標準パタン生成部４４と、第１のマッチング部４３の出
力する特徴ベクトル列と分布間の対応情報を用い、入力
音声の特徴ベクトル列と抑制標準パタンとの間の対応づ
けを行い、この対応付けにおける尤度を計算し、この尤
度を第１のマッチング部４３が出力した正解候補に対応
する抑制尤度として出力する第２のマッチング部４５
と、第１のマッチング部４３の出力する尤度に対応した
第２のマッチング部４５の出力する抑制尤度の差または
比を計算し、この値を入力音声の確からしさ（確信度）
として通知する入力判定部４６と、を備えて構成されて
いる。

【００８９】図４において、音声標準パタン４１、特徴
抽出部４２、抑制標準パタン生成部４４、及び入力判定
部４６は、それぞれ図２における音声標準パタン２１、
特徴抽出部２２、抑制標準パタン生成部２４、及び入力
判定部２６と同一の動作を行う。また、第１のマッチン
グ部２３、及び、第２のマッチング部２５は、それぞれ
図３における第１のマッチング部３４及び第２のマッチ
ング部３５と同一の動作を行う。

【００９０】このような構成とすることで、メモリ的な
制約が大きい場合にあっても高性能な信頼度の計算が可
能となる。

【００９１】本発明においては、音声標準パタンを構成
する単位が入力の単位よりも短いサブワード単位で構成
されており、例えば図５に示すような音節単位であった
り、音素であったりする。この他、音声認識に供するこ
とのできる単位であれば、種々のサブワード単位を用い
て本発明を実施することができる。

【００９２】入力判定部６は、信頼度計算結果をサブワ
ード単位で行い、サブワード毎に結果を出力する。な
お、この値を用いて最終的なリジェクションを行うに
は、例えば上記文献１に記載されているようなサブワー
ド毎の信頼度を結合した信頼尺度（Confidence Measur
e）(上記文献１の（３）式〜（８）式)のような方法も
可能であるし、また、結合せず、サブワード毎にリジェ
クト／アクセプトを判定しても良い。

【００９３】また、利用者に信頼が置けるサブワードと
そうでないものを、表示出力装置等で色など視覚的に区
別可能に通知する構成としてもよい。例えば言語処理と
統合して、信頼度情報を言語処理にそのまま送出するこ
とも可能である。

【００９４】

【発明の効果】以上説明したように、本発明によれば、
下記記載の効果を奏する。

【００９５】本発明の第１の効果は、音声認識の基本単
位がどのようなもので構成されていても、高精度な抑制
標準パタンを生成することを可能としており、高精度の
音声判定装置を実現することができる、ということであ
る。

【００９６】本発明の第２の効果は、抑制標準パタンの
生成に特別な学習データを必要とせず、音声標準パタン
のみの情報から高速に、少ない処理量で実行可能として
おり、従来の技術では不可能であった、話者適応、環境
適応と呼ばれる技術との併用をも可能としているという
ことである。

【００９７】本発明の第３の効果は、抑制標準パタンを
保持するためのメモリ量が少なくすみ、音声認識装置の
メモリ使用量を低減することができ、低コスト化を可能
としている、ということである。

【００９８】本発明の第４の効果は、抑制標準パタンに
対する抑制尤度の精度がさらに向上し、より高性能な装
置を実現可能としている、ということである。

【００９９】本発明の第５の効果は、抑制標準パタンに
対する抑制尤度の精度をさらに向上し、より高性能な装
置を実現可能としている、ということである。

【０１００】本発明の第６の効果は、サブワード単位で
の信頼度を通知することができ、サブワード単位でのリ
ジェクト／アクセプト判定を可能とし、また次段に言語
処理部を統合した音声認識装置における認識処理精度の
向上、さらには色などの視覚情報出力装置などを利用し
た部分信頼度情報の利用者への表示し操作性、利便性を
向上する、ということである。

【図面の簡単な説明】

【図１】本発明の第１の実施例の構成を示す図である。

【図２】本発明の第２の実施例の構成を示す図である。

【図３】本発明の第３の実施例の構成を示す図である。

【図４】本発明の第４の実施例の構成を示す図である。

【図５】サブワード単位のHMMを用いた単語モデル構成
を説明するための図である。

【図６】本発明における抑制標準パタン生成を説明する
ための図である。

【図７】音声標準パタン（HMM）と入力音声の特徴ベク
トルとの対応づけ情報を説明するための図である。

【符号の説明】

１１、２１、３１、４１音声標準パタン１３、２２、３３、４２特徴抽出部１４、２３、３４、４３第１のマッチング部１２、２４、３２、４４抑制標準パタン生成部１５、２５、３５、４５第２のマッチング部１６、２６、３６、４６入力判定部

Claims

(57)【特許請求の範囲】

【請求項１】標準話者音声に対して音声認識のための特
徴抽出を行ない前記特徴抽出された結果を用いて複数の
クラス又はカテゴリに対する平均値と分散とにより表現
されてなる統計的な特徴量の分布を保持する音声標準パ
タンと、前記音声標準パタンの統計的な特徴量の各々に対して、
各次元毎の分布の両側又は片側の近傍に平均値を持つ新
たな分布を生成し、該生成された分布を、全ての次元に
ついてまとめたものを前記統計的特徴量に対する抑制標
準パタンとして作成する抑制標準パタン生成手段と、音声認識のために入力された入力音声に対して、前記音
声標準パタンの作成時と同様にして、音声認識のための
特徴抽出を行ない前記入力音声の特徴ベクトル列を導出
する特徴抽出手段と、前記特徴抽出手段で導出された前記入力音声の特徴ベク
トル列と、前記音声標準パタンとの間で１つ以上の正解
候補とこれに対応する尤度とを出力する第１のマッチン
グ手段と、前記入力音声の特徴ベクトル列と前記抑制標準パタン生
成手段で作成された前記抑制標準パタンとの間の尤度を
算出し、前記第１のマッチング手段から出力された正解
候補に対応する抑制尤度を出力する第２のマッチング手
段と、前記第１のマッチング手段の出力する尤度と、該尤度に
対応する前記第２のマッチング手段の出力する前記抑制
尤度との差又は比を求め、この値を前記入力音声の確か
らしさ、すなわち確信度として出力する入力判定手段
と、を備えたことを特徴とする音声判定装置。
【請求項２】標準話者音声に対して音声認識のための特
徴抽出を行ない前記特徴抽出された結果を用いて複数の
クラス又はカテゴリに対する平均値と分散とにより表現
されてなる統計的な特徴量分布を保持する音声標準パタ
ンと、音声認識のために入力された入力音声に対して前記音声
標準パタンの作成時と同様にして特徴抽出を行ない、前
記入力音声の特徴ベクトル列を導出する特徴抽出手段
と、前記特徴抽出手段が導出された前記入力音声の特徴ベク
トル列と前記音声標準パタンとの間で１つ以上の正解候
補とこれに対応する尤度とを出力する第１のマッチング
手段と、前記第１のマッチング手段が出力した正解候補に対応す
る音声標準パタンの統計的な特徴量分布の各々に対し
て、各次元毎に分布の両側又は片側近傍に平均値を持つ
新たな分布を生成し、前記生成された分布を全次元まと
めたものを該統計的特徴量に対する抑制標準パタンとし
て作成する抑制標準パタン生成手段と、前記入力音声の特徴ベクトル列と前記抑制標準パタン生
成手段で作成された前記抑制標準パタンとの間の尤度を
算出し、前記第１のマッチング手段から出力された前記
正解候補に対応する抑制尤度を出力する第２のマッチン
グ手段と、前記第１のマッチング手段の出力する尤度と、該尤度に
対応した前記第２のマッチング手段の出力する抑制尤度
との差又は比を算出し、この値を前記入力音声の確から
しさ、すなわち確信度として出力する入力判定手段と、
を備えたことを特徴とする音声判定装置。
【請求項３】標準話者音声に対して音声認識のための特
徴抽出を行ない、当該抽出結果を用いて複数のクラス又
はカテゴリに対する平均値と分散とにより表現されてな
る統計的な特徴量分布を保持する音声標準パタンと、前記統計的な特徴量の各々に対して、各次元毎の分布の
両側又は片側近傍に平均値を持つ新たな分布を生成し、
前記生成された分布を全次元まとめたものを該統計的特
徴量に対する抑制標準パタンとして作成する抑制標準パ
タン生成手段と、音声認識のために入力された入力音声に対して、前記音
声標準パタンの作成時と同様にして特徴抽出を行ない前
記入力音声の特徴ベクトル列を導出する特徴抽出手段
と、前記特徴抽出手段で導出された前記入力音声の特徴ベク
トル列と前記音声標準パタンとの間で１つ以上の正解候
補とこれに対応する尤度と、特徴ベクトル列と分布間の
対応情報とを出力する第１のマッチング手段と、前記第１のマッチング手段の出力する特徴ベクトル列と
分布間の対応情報を用い、前記入力音声の特徴ベクトル
列と前記抑制標準パタンとの間の対応付けを行い、この
対応付けにおける尤度を算出し、この尤度を前記第１の
マッチング手段から出力された正解候補に対応する抑制
尤度として出力する第２のマッチング手段と、前記第１のマッチング手段の出力される尤度と、該尤度
に対応する前記第２のマッチング手段の出力する抑制尤
度との差又は比を算出し、この値を入力音声の確からし
さ、すなわち確信度として出力する入力判定手段と、を
備えたことを特徴とする音声判定装置。
【請求項４】標準話者音声に対して音声認識のための特
徴抽出を行ない、当該抽出結果を用いて複数のクラス又
はカテゴリに対する平均値と分散とにより表現されてな
る統計的な特徴量分布を保持する音声標準パタンと、音声認識のために入力された入力音声に対して、前記音
声標準パタン作成時と同様にして特徴抽出を行ない前記
入力音声の特徴ベクトル列を算出する特徴抽出手段と、前記特徴抽出手段で抽出された前記入力音声の特徴ベク
トル列と前記音声標準パタンとの間で１つ以上の正解候
補とこれに対応する尤度とを出力する第１のマッチング
手段と、前記第１のマッチング手段から出力された正解候補に対
応する前記音声標準パタンの統計的な特徴量分布の各々
に対して、各次元毎に分布の両側又は片側近傍に平均値
を持つ新たな分布を生成し、前記生成された分布を全次
元まとめたものを該統計的特徴量に対する抑制標準パタ
ンとして作成する抑制標準パタン生成手段と、前記第１のマッチング手段から出力される特徴ベクトル
列と分布間の対応情報を用い、前記入力音声の特徴ベク
トル列と前記抑制標準パタンとの間の対応付けを行い、
この対応付けにおける尤度を算出し、この尤度を前記第
１のマッチング手段から出力された正解候補に対応する
抑制尤度として出力する第２のマッチング手段と、前記第１のマッチング手段の出力する尤度と、該尤度に
対応した前記第２のマッチング手段の出力する抑制尤度
との差または比を算出し、この値を前記入力音声の確か
らしさ、すなわち確信度として出力する入力判定手段
と、を備えたことを特徴とする音声判定装置。
【請求項５】前記音声標準パタンが入力の音声よりも短
い単位であるサブワードモデルで構成され、前記入力判定手段が、サブワード単位毎の音声の確信度
を求めて出力する、ことを特徴とする請求項１乃至４の
いずれか一に記載の音声判定装置。
【請求項６】入力音声を入力し音声認識のための特徴ベ
クトル列を算出する特徴抽出手段と、標準話者音声を予め分析し複数のクラスに対する平均値
と分散とにより表現されてなる統計的な多次元の特徴量
分布として保持する音声標準パタンを格納した記憶手段
と、前記音声標準パタンを入力し、前記特徴抽出手段から出
力された前記入力音声の特徴ベクトル列と前記音声標準
パタンの単語モデルとの類似の度合いである尤度を算出
し、尤度の高いものから順に正解候補として出力する第
１のマッチング手段と、前記音声標準パタンを入力し、前記音声標準パタンの各
単語モデルをなす統計的な特徴量の各々に対して、前記
統計的な特徴量と相反する特徴ベクトルを平均値と分散
とにより表現した抑制分布の形態で、前記音声標準パタ
ンの各単語モデルと対となるモデルを含む抑制標準パタ
ンを生成し記憶手段に出力する抑制標準パタン生成手段
と、前記抑制標準パタン及び前記第１のマッチング手段から
出力された正解候補とを入力とし、前記正解候補に対応
する前記抑制標準パタンと、前記特徴抽出手段から出力
された入力音声の特徴ベクトル列とから抑制尤度を算出
して出力する第２のマッチング手段と、前記第１のマッチング手段から出力された正解候補に対
する尤度と、前記第２のマッチング手段から出力された
抑制尤度との差又は比の値を算出し、必要に応じて前記
値を入力の長さで正規化し、前記各候補における確信度
として出力する手段と、を備え、元の分布から外れた入力音声に対しては抑制標準パタン
の尤度が高くなり、正確な確信度を得るように構成され
てなる、ことを特徴とする音声判定装置。
【請求項７】前記抑制標準パタン生成手段が、前記音声
標準パタンの統計的な特徴量の両側に又は一側に近接す
る位置に平均値を有する抑制分布を構成し抑制標準パタ
ンとして記憶手段に格納保持する、ことを特徴とする請
求項６記載の音声判定装置。
【請求項８】前記音声標準パタンにおいて、音声を受理
するモデルが、サブワードを音節として複数の音節を連
結してなる隠れマルコフモデル（ＨＭＭ）よりなり、前記モデルの状態には特徴ベクトルを統計的な量として
表したものが保持され、それぞれの遷移において通過す
る際の確率値が保持されている、ことを特徴とする請求
項６記載の音声判定装置。
【請求項９】（ａ）標準話者の音声に対して音声認識の
ための特徴抽出を行ない前記特徴抽出された結果を用い
て複数のクラス又はカテゴリに対する平均値と分散とで
表現された統計的な特徴量の分布を有する音声標準パタ
ンを予め記憶手段に格納するステップと、（ｂ）前記記憶手段から前記音声標準パタンを読み出
し、前記音声標準パタンの統計的な特徴量の各々に対し
て、各次元毎の分布の両側又は片側の近傍に平均値を持
つ新たな分布を生成し、前記新たな分布を、全ての次元
についてまとめたものを前記統計的特徴量に対する抑制
標準パタンとして作成し記憶手段に出力するステップ
と、（ｃ）音声認識のために入力された入力音声に対して、
前記音声標準パタンの作成時と同様にして音声認識のた
めの特徴抽出を行ない前記入力音声の特徴ベクトル列を
導出するステップと、（ｄ）前記導出された前記入力音声の特徴ベクトル列
と、前記音声標準パタンとの間で１つ以上の正解候補と
これに対応する尤度とを出力するステップと、（ｅ）前記入力音声の特徴ベクトル列と、前記記憶手段
から読み出された前記抑制標準パタンとの間の尤度を計
算し、前記出力された正解候補に対応する抑制尤度を出
力するステップと、（ｆ）前記ステップ（ｄ）で出力された尤度と、該尤度
に対応する前記抑制尤度との差又は比を計算し、この値
を入力音声の確からしさ、すなわち確信度として出力す
るステップと、を含むことを特徴とする音声判定方法。
【請求項１０】（ａ）標準話者音声に対して音声認識の
ための特徴抽出を行ない、前記特徴抽出された結果を用
いて複数のクラス又はカテゴリに対する平均値と分散と
で表現された統計的な特徴量分布を有する音声標準パタ
ンを予め記憶手段に格納するステップと、（ｂ）音声認識のために入力された入力音声に対して、
前記音声標準パタンの作成時と同様の特徴抽出を行ない
前記入力音声の特徴ベクトル列を算出するステップと、（ｃ）前記算出された前記入力音声の特徴ベクトル列と
前記記憶手段から読み出された前記音声標準パタンとの
間で１つ以上の正解候補とこれに対応する尤度とを出力
するステップと、（ｄ）前記正解候補に対応する、前記音声標準パタンの
統計的な特徴量分布の各々に対して、各次元毎に分布の
両側又は片側近傍に平均値を持つ新たな分布を生成し、
前記新たな分布を全次元まとめたものを該統計的特徴量
に対する抑制標準パタンとして作成して記憶手段に格納
するステップと、（ｅ）前記入力音声の特徴ベクトル列と、前記記憶手段
から読み出された前記抑制標準パタンとの間の尤度を計
算し、前記正解候補に対応する抑制尤度を出力するステ
ップと、（ｆ）前記ステップ（ｃ）で出力された尤度と、該尤度
に対応した前記抑制尤度との差又は比を計算し、この値
を前記入力音声の確からしさ、すなわち確信度として出
力するステップと、を含むことを特徴とする音声判定方法。
【請求項１１】（ａ）標準話者音声に対して音声認識の
ための特徴抽出を行ない、当該抽出結果を用いて複数の
クラス又はカテゴリに対する平均値と分散とで表現され
た統計的な特徴量分布を有する音声標準パタンを予め記
憶手段に格納するステップと、（ｂ）前記記憶手段から読み出された前記音声標準パタ
ンの前記統計的な特徴量の各々に対して、各次元毎の分
布の両側又は片側近傍に平均値を持つ新たな分布を生成
し、前記新たな分布を全次元まとめたものを該統計的特
徴量に対する抑制標準パタンとして作成するステップ
と、（ｃ）音声認識のために入力された入力音声に対して前
記音声標準パタンの作成時と同様の特徴抽出を行ない前
記入力音声の特徴ベクトル列を算出するステップと、（ｄ）前記算出された入力音声の特徴ベクトル列と、前
記記憶手段から読み出された前記音声標準パタンとの間
で１つ以上の正解候補とこれに対応する尤度と、特徴ベ
クトル列と分布間の対応情報とを出力するステップと、（ｅ）前記特徴ベクトル列と分布間の対応情報を用い、
前記入力音声の特徴ベクトル列と、前記記憶手段から読
み出された前記抑制標準パタンとの間の対応付けを行
い、この対応付けにおける尤度を計算し、この尤度を前
記正解候補に対応する抑制尤度として算出するステップ
と、（ｆ）前記ステップ（ｄ）で出力された尤度と、該尤度
に対応する前記抑制尤度との差又は比を計算し、この値
を入力音声の確からしさ、すなわち確信度として出力す
るステップと、を含むことを特徴とする音声判定方法。
【請求項１２】（ａ）標準話者音声に対して音声認識の
ための特徴抽出を行ない、当該抽出結果を用いて複数の
クラス又はカテゴリに対する平均値と分散とで表現され
た統計的な特徴量分布を有する音声標準パタンを記憶手
段に格納するステップと、（ｂ）音声認識のために入力された入力音声に対して前
記音声標準パタン作成時と同様の特徴抽出を行ない、入
力音声の特徴ベクトル列を算出するステップと、（ｃ）前記算出された前記入力音声の特徴ベクトル列と
前記音声標準パタンとの間で１つ以上の正解候補とこれ
に対応する尤度とを算出するステップと、（ｄ）前記正解候補に対応する前記音声標準パタンの統
計的な特徴量分布の各々に対して、各次元毎に分布の両
側又は片側近傍に平均値を持つ新たな分布を生成し、前
記新たな分布を全次元まとめたものを該統計的特徴量に
対する抑制標準パタンとして作成するステップと、（ｅ）前記特徴ベクトル列と分布間の対応情報を用い、
前記入力音声の特徴ベクトル列と前記抑制標準パタンと
の間の対応付けを行い、この対応付けにおける尤度を計
算し、この尤度を前記正解候補に対応する抑制尤度とし
て出力するステップと、（ｆ）前記ステップ（ｃ）で出力された尤度と、該尤度
に対応した前記抑制尤度との差又は比を計算し、この値
を入力音声の確からしさ、すなわち確信度として出力す
るステップと、を含むことを特徴とする音声判定方法。
【請求項１３】標準話者音声に対して音声認識のための
特徴抽出を行ない前記特徴抽出された結果を用いて、複
数のクラス又はカテゴリに対する平均値と分散とで表現
された統計的な特徴量の分布を有する音声標準パタンを
記憶する記憶手段を備え、（ａ）前記音声標準パタンの統計的な特徴量の各々に対
して、各次元毎の分布の両側又は片側の近傍に平均値を
持つ新たな分布を生成し、前記新たな分布を、全ての次
元についてまとめたものを前記統計的特徴量に対する抑
制標準パタンとして作成する処理と、（ｂ）音声認識のために入力された入力音声に対して、
前記音声標準パタンの作成時と同様に、音声認識のため
の特徴抽出を行ない前記入力音声の特徴ベクトル列を導
出する処理と、（ｃ）前記導出された前記入力音声の特徴ベクトル列
と、前記音声標準パタンとの間で１つ以上の正解候補と
これに対応する尤度とを出力する処理と、（ｄ）前記入力音声の特徴ベクトル列と前記抑制標準パ
タンとの間の尤度を計算し、前記出力された正解候補に
対応する抑制尤度を出力する処理と、（ｅ）前記処理（ｃ）で出力された尤度と、該尤度に対
応する前記抑制尤度との差又は比を計算し、この値を前
記入力音声の確からしさ、すなわち確信度として出力す
る処理と、の上記（ａ）乃至（ｅ）の各処理を音声判定
装置を構成するコンピュータで実行するためのプログラ
ムを記録した記録媒体。
【請求項１４】標準話者の音声に対して音声認識のため
の特徴抽出を行ない、前記特徴抽出された結果を用いて
複数のクラス又はカテゴリに対する平均値と分散とで表
現された統計的な特徴量分布を有する音声標準パタンを
記憶する記憶手段を備え、（ａ）音声認識のために入力された入力音声に対して、
前記音声標準パタンの作成時と同様の特徴抽出を行な
い、前記入力音声の特徴ベクトル列を導出する処理と、（ｂ）前記導出された入力音声の特徴ベクトル列と前記
音声標準パタンとの間で１つ以上の正解候補とそれに対
応する尤度とを出力する処理と、（ｃ）前記出力された正解候補に対応する、前記音声標
準パタンの統計的な特徴量分布の各々に対して、各次元
毎に分布の両側又は片側近傍に平均値を持つ新たな分布
を生成し、前記新たな分布を全次元まとめたものを該統
計的特徴量に対する抑制標準パタンとして作成する処理
と、（ｄ）前記入力音声の特徴ベクトル列と前記抑制標準パ
タンとの間の尤度を計算し、前記正解候補に対応する抑
制尤度を出力する処理と、（ｆ）前記処理（ｂ）で出力された尤度と、該尤度に対
応する前記抑制尤度との差又は比を計算し、この値を入
力音声の確からしさ、すなわち確信度として出力する処
理と、の上記（ａ）乃至（ｆ）の各処理を音声判定装置
を構成するコンピュータで実行するためのプログラムを
記録した記録媒体。
【請求項１５】標準話者音声に対して音声認識のための
特徴抽出を行ない、当該抽出結果を用いて複数のクラス
又はカテゴリに対する平均値と分散とで表現された統計
的な特徴量分布を有する音声標準パタンを記憶する記憶
手段を備え、（ａ）前記音声標準パタンの前記統計的な特徴量の各々
に対して、各次元毎の分布の両側又は片側近傍に平均値
を持つ新たな分布を生成し、前記新たな分布を全次元ま
とめたものを該統計的特徴量に対する抑制標準パタンと
して作成する処理と、（ｂ）音声認識のために入力された入力音声に対して前
記音声標準パタン作成時と同様の特徴抽出を行ない、前
記入力音声の特徴ベクトル列を導出する処理と、（ｃ）前記導出された入力音声の特徴ベクトル列と前記
音声標準パタンとの間で１つ以上の正解候補とそれに対
応する尤度と、特徴ベクトル列と分布間の対応情報とを
出力する処理と、（ｄ）前記特徴ベクトル列と分布間の対応情報を用い、
前記入力音声の特徴ベクトル列と前記抑制標準パタンと
の間の対応付けを行い、この対応付けにおける尤度を計
算し、該尤度を前記正解候補に対応する抑制尤度として
算出する処理と、（ｅ）前記処理（ｄ）で出力された尤度と、該尤度に対
応する前記抑制尤度との差又は比を計算し、この値を入
力音声の確からしさ、すなわち確信度として出力する処
理と、の上記（ａ）乃至（ｅ）の各処理を音声判定装置
を構成するコンピュータで実行するためのプログラムを
記録した記録媒体。
【請求項１６】標準話者音声に対して音声認識のための
特徴抽出を行ない、当該抽出結果を用いて複数のクラス
又はカテゴリに対する平均値と分散とで表現された統計
的な特徴量分布を有する音声標準パタンを記憶する記憶
手段を備え、（ａ）音声認識のために入力された入力音声に対して前
記音声標準パタンの作成時と同様の特徴抽出を行ない、
前記入力音声の特徴ベクトル列を計算する処理と、（ｂ）前記抽出された入力音声の特徴ベクトル列と前記
音声標準パタンとの間で１つ以上の正解候補とこれに対
応する尤度とを算出する処理と、（ｃ）前記正解候補に対応する前記音声標準パタンの統
計的な特徴量分布の各々に対して、各次元毎に分布の両
側又は片側近傍に平均値を持つ新たな分布を生成し、前
記新たな分布を全次元まとめたものを該統計的特徴量に
対する抑制標準パタンとして作成する処理と、（ｄ）前記特徴ベクトル列と分布間の対応情報を用い、
前記入力音声の特徴ベクトル列と前記抑制標準パタンと
の間の対応付けを行い、この対応付けにおける尤度を計
算し、該尤度を前記正解候補に対応する抑制尤度として
出力する処理と、（ｅ）前記処理（ｂ）で出力された尤度と、該尤度に対
応する前記第抑制尤度との差又は比を計算し、この値を
入力音声の確からしさ、すなわち確信度として出力する
処理と、の上記（ａ）乃至（ｆ）の各処理を音声判定装
置を構成するコンピュータで実行するためのプログラム
を記録した記録媒体。