JP3456444B2 - 音声判定装置及び方法並びに記録媒体 - Google Patents

音声判定装置及び方法並びに記録媒体

Info

Publication number
JP3456444B2
JP3456444B2 JP12827499A JP12827499A JP3456444B2 JP 3456444 B2 JP3456444 B2 JP 3456444B2 JP 12827499 A JP12827499 A JP 12827499A JP 12827499 A JP12827499 A JP 12827499A JP 3456444 B2 JP3456444 B2 JP 3456444B2
Authority
JP
Japan
Prior art keywords
voice
standard pattern
likelihood
suppression
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12827499A
Other languages
English (en)
Other versions
JP2000322084A (ja
Inventor
啓三郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP12827499A priority Critical patent/JP3456444B2/ja
Publication of JP2000322084A publication Critical patent/JP2000322084A/ja
Application granted granted Critical
Publication of JP3456444B2 publication Critical patent/JP3456444B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、入力音声に認識対象語彙に含まれるか否かを
判定する、すなわち確信度を求める音声判定装置に関す
る。
【0002】
【従来の技術】音声認識における入力音声の妥当性を検
証することを目的として、従来より、「リジェクショ
ン」もしくは「音声検証(Speech Verification)」と
呼ばれる技術が知られている。この技術は、音声認識に
おける認識対象語彙が有限であることから、利用者はし
ばしば辞書に語彙として登録されていない音声を入力す
る場合があり、このような入力音声を認識する際に、誤
った認識結果を表示しないようにするか、あるいは語彙
に含まれていない旨を通知するなどの処理を行うもので
ある。
【0003】近時、高精度、高効率なリジェクションを
行うことを目的として、「非キーワードモデル」と呼ば
れる手法の研究が活発に行われている。例えば、文献
(T.Kawahara:”Flexible Speech Understanding Ba
sed on Combined Key−Phrase Detection and Ve
rification”, IEEE Transactions on Speech andA
udio Processing, Vol. 6, No. 6, pp558−568(1998.1
1))(「文献1」という)には、統計的な特徴量を保持
する標準パタンとして、隠れマルコフモデル(Hidden
Markov Model)を用い、認識対象の音声をサブワード
モデル(subword)を用いて表現している。このサブワ
ードモデルは、入力が単語や文章である場合などにおい
て、入力よりも小さな単位、例えば音素、音節で隠れマ
ルコフモデルを作成しておき、語彙が決定された時に、
サブワードを連結して認識対象語彙を構成するというも
のである。
【0004】いま、ある入力音声の一部について、一つ
のサブワードモデル候補が決定され、その尤度が、次式
(1)で表わされているものとする。
【0005】
【0006】このとき、このサブワードに1対1に対応
している非サブワードモデル(anti-subword)に対する
尤度を次(2)で求める。
【0007】
【0008】なお、「非キーワードモデル(anti-keywo
rd)」と称呼されることもあり、上記文献(1)ではこ
の称呼を用いている。
【0009】これら2つの尤度の差をとり、入力音声の
長さlnで正規化し、これをサブワードの尤度(信頼
度)として用いている(なお、詳細は、上記文献1の
(2)式が参照される)。
【0010】
【0011】このサブワードの尤度は、入力音声が注目
しているサブワードと合致する音声であった場合には、
上式(3)の第1項は尤度が高く、逆に、第2項の尤度
は低くなると予想されるため、結果として、高い信頼度
が得られる。
【0012】逆に、入力音声が認識対象と合致しない音
声であった場合には、上式(3)の第1項の尤度が低
く、第2項の尤度は高くなるため、結果として信頼度は
低くなる。
【0013】また、たまたま入力音声が誤ったサブワー
ドモデルに対して高い尤度を出力したとしても、非サブ
ワードモデルに対する尤度(第2項)も高くなることが
期待され、結果として、正規化後は、低い信頼度とな
り、誤った結果に対してはうまくリジェクションが行わ
れることが期待できる。
【0014】なお、上記文献1では、上式(3)で求め
られた信頼度をさらに加工して種々の信頼度を用いた場
合の性能について検証を行っている。その詳細は、例え
ば上記文献1の(3)〜(8)式が参照される。基本と
する考えは、上述した式(3)に相当するものであり、
本発明の主題と直接関係しないことから、その説明は省
略する。
【0015】この非サブワードモデルは、1つのサブワ
ード(例えば音節の「か」などで構成されることが考え
られるが)に対して1つ保持しており、「か」以外のさ
まざまな音声を基に、隠れマルコフモデルの通常の学習
方法を用いて学習が行われる。
【0016】
【発明が解決しようとする課題】しかしながら、上記文
献1等に記載されているような非キーワードモデルを用
いた音声判定装置には、下記記載の問題点を有してい
る。
【0017】第1の問題点は、非キーワードモデルの作
成が煩雑であるということである。しかもサブワードを
用いる手法と原理的に矛盾する場合があり、この場合、
非キーワードモデルの作成が困難であり、また作成でき
たとしても期待した性能が得られないことがある。
【0018】例えば、サブワードの単位として、音節を
用いた場合には、各サブワードとして、“あ”、
“い”、…を基本単位とするモデルが用いられる。
【0019】この場合、例えば、“か”という音節は、
音響的に、音素“k”と“a”の2つの音素から成りた
っており、これに対応する非キーワードモデルを、文献
1に方法に従って作成すると、例えば、「“k”を前半
に持たない、かつ“a”を後半に持たない」音節か
ら、”か“に対する非キーワードモデルを作成すること
になる。
【0020】ところが、このようにして作成された
“か”に対する非キーワードモデルは、“さ”のような
音に対しては、本来高い尤度を出力すべきものである
が、後半の母音“a”は、作成データとして用いられて
いないため、後半の尤度が低く、全体的に低い尤度を出
力する場合がある。
【0021】すなわち、上式(3)の右辺第2項の尤度
が低くなり、結果として得られた尤度が“さ”の音に対
しても高く出力される場合がある。
【0022】また、別の非キーワードモデルの作成基準
として、「“k”を前半に持たない」という点のみから
非キーワードモデルを作成した場合には、すべての母音
を後半にもつ音節データを用いて作成することと同一と
なり、この場合、そもそも音節の後半部分がすべての母
音に対して尤度が高くなり、これらの間の識別が全く行
えないことになる。
【0023】以上から明らかなように、一般に複数の音
素で構成される単位をサブワードとして選択した場合、
非キーワードモデルは原理的に作成が困難であり、たと
え作成できたとしても、期待した性能が得られない、こ
とになる。
【0024】近時、音声認識におけるサブワードモデル
の改良として、音素よりも長い単位のものを用いる方
が、より高性能な結果が得られることが種々の研究によ
り明らかとされている。しかしながら、このような音素
より長い単位を使用する音声認識装置には不適である、
という問題がある。
【0025】また、第2の問題点として、非キーワード
モデルの作成手順が煩雑であり、容易でない、というこ
とである。
【0026】例えば、サブワードとして“か”のモデル
を作成する場合には、“か”だけを対象とした学習を行
えば良いが、これに対する非キーワードモデルは、
“か”以外の多くのデータを与えて作成する必要があ
り、サブワードモデルの作成に要する作業工数、負担が
大きなものとなり、また必要とされるデータ量も膨大な
ものとなる。
【0027】さらに音声認識の性能向上を図る手法とし
て、「話者適応」と呼ばれる技術や、「環境適応」と呼
ばれる技術も知られている。これらは、認識を行おうと
する話者あるいは環境の少量の発声を用いてモデルを適
応化させるものであり、上記した例についてみると、す
べてのサブワードモデルを話者あるいは環境へと適合さ
せるものである。
【0028】このような適応技術を用いた場合、当然非
キーワードモデルに対しても話者あるいは環境への適合
化を行うことが必要であるが、そもそも非キーワードモ
デルに対する、これらの適合化技術は存在していない、
というのが実状である。このためこれら併用した音声判
定装置の実現は困難であった。
【0029】以上をまとめると、モデルの構成単位が複
数の音素によって構成されるサブワードもしくは単語モ
デルである場合において、抑制標準パタン(非キーワー
ドモデル)の構成は容易ではなく、また矛盾する音素な
どを含んでしまうことが多く、このため、抑制標準パタ
ンを用いた場合の信頼度の低下が問題となっている。ま
た、抑制標準パタンを作成するには、元の標準パタンよ
りもはるかに多いデータ量及び処理量が必要であり、手
軽に実行できない。このため、話者適応、環境適応など
のオンラインの適応化技術と併用することは困難であ
る。
【0030】したがって本発明は、上記問題点に鑑みて
なされたものであって、その主たる目的は、モデルの構
成単位がどのような形態であっても、高性能、高精度な
音声判定を行う装置及び方法を提供することにある。
【0031】本発明の他の目的は、学習という煩雑な手
段に依らずに、また学習データを新たに与えることな
く、簡易な操作で、かつ、高速に、非キーワードモデル
を生成可能とする装置及び方法を提供することにある。
【0032】本発明のさらに他の目的は、従来困難であ
った話者適応技術との併用を可能とすることで、高性能
な認識を実現する音声認識装置及び方法を提供すること
にある。
【0033】本発明のさらに別の目的は、近時主流とな
りつつある「音素環境依存モデル」と呼ばれる長い単位
を用いた場合であっても高性能な非キーワードモデルを
与えることで、高性能な認識を可能とする音声判定装置
及び方法を提供することにある。上記以外の本発明の目
的、特徴等は以下の説明から直ちに明らかとされるであ
ろう。
【0034】
【課題を解決するための手段】前記目的を達成する本願
第1発明は、標準話者音声に対して音声認識のための特
徴抽出を行ない、当該抽出結果を用いて複数のクラス
(カテゴリ)に対する平均値と分散とで表現された統計的
な特徴量分布を保持する音声標準パタン(図1の11)
と、前記統計的な特徴量の各々に対して、各次元毎の分
布の両側あるいは片側近傍に平均値を持つ新たな分布を
生成し、この分布を全次元まとめたものを該統計的特徴
量に対する抑制標準パタンとして作成する抑制標準パタ
ン生成手段(図1の12)と、音声認識のために入力さ
れた入力音声に対して前記音声標準パタン作成時と同様
の特徴抽出を行ない、入力音声の特徴ベクトル列を計算
する特徴抽出手段(図1の13)と、前記特徴抽出手段
が抽出した入力音声の特徴ベクトル列と前記音声標準パ
タンとの間で1つ以上の正解候補とそれに対応する尤度
とを出力する第1のマッチング手段(図1の14)と、
前記入力音声の特徴ベクトル列と前記抑制標準パタン生
成手段が作成した抑制標準パタンとの間の尤度を計算
し、前記第1のマッチング手段が出力した正解候補に対
応する抑制尤度を出力する第2のマッチング手段(図1
の15)と、前記第1のマッチング手段の出力する尤度
に対応する前記第2のマッチング手段の出力する抑制尤
度の差または比を計算し、この値を入力音声の確からし
さ(確信度)として通知する入力判定手段(図1の1
6)とを備えたことを特徴とする。
【0035】本願第2発明は、標準話者音声に対して音
声認識のための特徴抽出を行ない、当該抽出結果を用い
て複数のクラス(カテゴリ)に対する平均値と分散とで表
現された統計的な特徴量分布を保持する音声標準パタン
(図2の21)と、音声認識のために入力された入力音
声に対して前記音声標準パタン作成時と同様の特徴抽出
を行ない、入力音声の特徴ベクトル列を計算する特徴抽
出手段(図2の22)と、前記特徴抽出手段が抽出した
入力音声の特徴ベクトル列と前記音声標準パタンとの間
で1つ以上の正解候補とそれに対応する尤度とを出力す
る第1のマッチング手段(図2の23)と、前記第1の
マッチング手段が出力した正解候補に対応する音声標準
パタンの統計的な特徴量分布の各々に対して、各次元毎
に分布の両側あるいは片側近傍に平均値を持つ新たな分
布を生成し、この分布を全次元まとめたものを該統計的
特徴量に対する抑制標準パタンとして作成する抑制標準
パタン生成手段(図2の24)と、前記入力音声の特徴
ベクトル列と前記抑制標準パタン生成手段が作成した抑
制標準パタンとの間の尤度を計算し、前記第1のマッチ
ング手段が出力した正解候補に対応する抑制尤度を出力
する第2のマッチング手段(図2の25)と、前記第1
のマッチング手段の出力する尤度に対応した前記第2の
マッチング手段の出力する抑制尤度の差または比を計算
し、この値を入力音声の確からしさ(確信度)として通
知する入力判定手段(図2の26)とを備えたものであ
る。
【0036】本願第3発明は、標準話者音声に対して音
声認識のための特徴抽出を行ない、当該抽出結果を用い
て複数のクラス(カテゴリ)に対する平均値と分散とで表
現された統計的な特徴量分布を保持する音声標準パタン
(図3の31)と、前記統計的な特徴量の各々に対し
て、各次元毎の分布の両側あるいは片側近傍に平均値を
持つ新たな分布を生成し、この分布を全次元まとめたも
のを該統計的特徴量に対する抑制標準パタンとして作成
する抑制標準パタン生成手段(図3の32)と、音声認
識のために入力された入力音声に対して前記音声標準パ
タン作成時と同様の特徴抽出を行ない、入力音声の特徴
ベクトル列を計算する特徴抽出手段(図3の33)と、
前記特徴抽出手段が抽出した入力音声の特徴ベクトル列
と前記音声標準パタンとの間で1つ以上の正解候補とそ
れに対応する尤度と、特徴ベクトル列と分布間の対応情
報とを出力する第1のマッチング手段(図3の34)
と、前記第1のマッチング手段の出力する特徴ベクトル
列と分布間の対応情報を用い、前記入力音声の特徴ベク
トル列と前記抑制標準パタンとの間の対応付けを行い、
この対応付けにおける尤度を計算し、この尤度を前記第
1のマッチング手段が出力した正解候補に対応する抑制
尤度として出力する第2のマッチング手段(図3の3
5)と、前記第1のマッチング手段の出力する尤度に対
応する前記第2のマッチング手段の出力する抑制尤度の
差または比を計算し、この値を入力音声の確からしさ
(確信度)として通知する入力判定手段(図3の36)
とを備える。
【0037】本願第4発明は、標準話者音声に対して音
声認識のための特徴抽出を行ない、当該抽出結果を用い
て複数のクラス(カテゴリ)に対する平均値と分散とで表
現された統計的な特徴量分布を保持する音声標準パタン
(図4の41)と、音声認識のために入力された入力音
声に対して前記音声標準パタン作成時と同様の特徴抽出
を行ない、入力音声の特徴ベクトル列を計算する特徴抽
出手段(図4の42)と、前記特徴抽出手段が抽出した
入力音声の特徴ベクトル列と前記音声標準パタンとの間
で1つ以上の正解候補とそれに対応する尤度とを出力す
る第1のマッチング手段(図4の43)と、前記第1の
マッチング手段が出力した正解候補に対応する音声標準
パタンの統計的な特徴量分布の各々に対して、各次元毎
に分布の両側あるいは片側近傍に平均値を持つ新たな分
布を生成し、この分布を全次元まとめたものを該統計的
特徴量に対する抑制標準パタンとして作成する抑制標準
パタン生成手段(図4の44)と、前記第1のマッチン
グ手段の出力する特徴ベクトル列と分布間の対応情報を
用い、前記入力音声の特徴ベクトル列と前記抑制標準パ
タンとの間の対応付けを行い、この対応付けにおける尤
度を計算し、この尤度を前記第1のマッチング手段が出
力した正解候補に対応する抑制尤度として出力する第2
のマッチング手段(図4の45)と、前記第1のマッチ
ング手段の出力する尤度に対応した前記第2のマッチン
グ手段の出力する抑制尤度の差または比を計算し、この
値を入力音声の確からしさ(確信度)として通知する入
力判定手段(図4の46)とを備える。
【0038】本願第5発明は、音声標準パタンが入力の
音声のよりも短い単位(いわゆるサブワードモデル)で
構成され、入力判定手段が、サブワード単位毎の音声の
確信度を求めて通知する。
【0039】
【発明の実施の形態】本発明の実施の形態について説明
する。本発明に係る音声判定装置は、その好ましい一実
施の形態において、図1を参照すると標準話者の音声に
対して音声認識のための特徴抽出を行ない、この抽出結
果を用いて複数のクラス(カテゴリ)に対する平均値と分
散とで表現された統計的な特徴量分布を保持する音声標
準パタン(11)と、前記音声標準パタンの統計的な特
徴量の各々に対して、各次元毎の分布の両側又は片側近
傍に平均値を持つ新たな分布を生成し、この新たな分布
を全次元まとめたものを該統計的特徴量に対する抑制標
準パタンとして作成する抑制標準パタン生成部(12)
と、音声認識のために入力された入力音声に対して音声
標準パタンの作成時と同様の特徴抽出を行ない、入力音
声の特徴ベクトル列を算出する特徴抽出部(13)と、
前記特徴抽出部で算出された入力音声の特徴ベクトル列
と音声標準パタン(11)との間で1つ以上の正解候補
とそれに対応する尤度とを出力する第1のマッチング部
(14)と、前記入力音声の特徴ベクトル列と抑制標準
パタン生成部が作成した抑制標準パタンとの間の尤度を
計算し、第1のマッチング部(14)が出力した正解候
補に対応する抑制尤度を出力する第2のマッチング部
(15)と、第1のマッチング部(14)が出力する尤
度と、これに対応する第2のマッチング部(15)が出
力する抑制尤度の差又は比を計算し、この値を入力音
声の確からしさ(確信度)として通知する入力判定部
(16)とを備える。
【0040】本発明の原理・作用について説明する。
【0041】本発明において、特徴抽出部(13)は、
入力された認識対象音声を音声認識のための特徴ベクト
ル列を計算する。この特徴ベクトルは、一定周期毎の短
時間分析結果(多次元ベクトル)を時間方向に結合した
ものと表現されており、公知の種々の方法を用いること
ができる。例えば、スペクトル分析、フィルタバンク、
ケプストラム、パワー等に基づき、これらの時間方向の
1次あるいは2次微分といったものと組み合わせて用い
られる。
【0042】音声標準パタン(11)は、特徴抽出部
(13)と同様の方法で多数の標準話者音声を分析し、
複数のクラス(カテゴリ)に対する平均値と分散とで表現
された統計的な多次元の特徴量分布として保持されてい
る。
【0043】このような構成を実現する手段としては、
隠れマルコフモデル(HMM:Hidden Markov Mode
l)と呼ばれる方法が知られている。
【0044】図5は、サブワードを音節として持つHM
Mの一例であり、3つの音節を直列に接続することで、
“はかた”という音声を受理するモデルを構成してい
る。
【0045】図5において、丸は「状態」を示し、矢印
は「遷移」を示しており、状態には、通常、「分布」と
呼ばれる、特徴ベクトルを統計的な量として表したもの
が保持され、夫々の遷移において通過する際の確率値が
保持されている。
【0046】第1のマッチング部(14)は、例えばH
MMで音声標準パタン(11)のすべての単語モデルと
入力音声との類似の度合い(尤度)を計算し、尤度の高
いものから順に正解候補として出力する。このような尤
度の計算方法としては、例えば、公知のビタビ(Viterb
i)アルゴリズム等が用いられる。
【0047】抑制標準パタン生成部(12)は、音声標
準パタン(11)の各モデルに対して、これと対となる
モデルを生成する。このモデルは音声標準パタン(1
1)とちょうど相反する特徴ベクトルを平均値と分散と
で表現した分布の形で生成する。
【0048】図6を参照すると、元の分布は、音声標準
パタン(11)の中に保持されている特徴量の分布の一
例を、1次元について模式的に示した図である。
【0049】抑制標準パタン生成部(24)は、この分
布に対する抑制分布として、両側に、ちょうど近接する
ように、抑制分布1及び抑制分布2を構成し、最終的
に、抑制標準パタン(17)として格納保持する。
【0050】この抑制分布の生成方法は、例えば元の分
布が正規分布で表現されている場合には、ほぼ3σ(分
散の3倍)程度の範囲を覆えば、統計的に殆どの学習デ
ータが含まれることから、3σで交差するような構成を
する。これ以外にも、抑制分布に付いては種々の生成方
法が用いられ、また必ずしも正規分布を用いたり、両側
に配置する必要はない。
【0051】抑制標準パタン(17)は、例えば図5に
示す“はかた”という音声標準パタンとちょうど対応す
るように“はかた”を抑制する分布で構成された標準パ
タンとして保持されている。
【0052】このような抑制分布を用いることで、元の
分布から外れた特徴を持つ入力音声に対しては抑制分布
に対する尤度の方が元の分布より高くなり、結果として
有効にリジェクト(排除)を行うことができる。
【0053】第2のマッチング部(15)は、第1のマ
ッチング部(14)が出力した正解候補に対応する抑制
標準パタン(17)と入力音声との間の尤度を計算し、
出力する。第2のマッチング部(15)における尤度計
算は、第1のマッチング部(14)と同様の方法で行わ
れる。
【0054】入力判定部(16)は、第1のマッチング
部(14)から出力された正解候補に対する尤度と、第
2のマッチング部15から出力された尤度(抑制尤度)
との差又は比の値を計算し、また必要であれば、上式
(3)のように、入力の長さで正規化し、各候補におけ
る信頼度として出力する。
【0055】以上から明らかなように、本発明は、音声
標準パタンが保持するそれぞれの分布に対して、両側あ
るいは片側近傍に新たな分布を配置したものを抑制標準
パタンとして作成し、両者に対する尤度を、例えば上式
(3)のように、入力の長さで正規化を行うことによ
り、元の分布から外れた音声に対しては抑制標準パタン
の尤度が確実に高くなるようにしており、その結果、正
確な確信度を計算することができる。
【0056】さらに、元の分布に対応する抑制分布を用
いることで、サブワードがどのような単位で構成される
かに依存せず、常に、最適な非キーワードモデル(抑制
標準パタン)を構成することを可能としており、また特
別な学習データを必要としないため、高速な処理を実現
することができる。
【0057】本発明に係る方法は、その好ましい実施の
形態において、(a)標準話者音声に対して音声認識の
ための特徴抽出を行ない前記特徴抽出された結果を用い
て、複数のクラス又はカテゴリに対する平均値と分散と
で表現された統計的な特徴量の分布を有する音声標準パ
タンを記憶手段に保持し、(b)前記記憶手段から前記
音声標準パタンを読み出し、前記音声標準パタンの統計
的な特徴量の各々に対して、各次元毎の分布の両側ある
いは片側の近傍に平均値を持つ新たな分布を生成し、こ
の分布を、全ての次元についてまとめたものを前記統計
的特徴量に対する抑制標準パタンとして作成し記憶手段
に出力するステップと、(c)音声認識のために入力さ
れた入力音声に対して、前記音声標準パタン作成時と同
様に、音声認識のための特徴抽出を行ない前記入力音声
の特徴ベクトル列を導出するステップと、(d)前記抽
出された前記入力音声の特徴ベクトル列と、前記音声標
準パタンとの間で1つ以上の正解候補とこれに対応する
尤度とを出力するステップと、(e)前記入力音声の特
徴ベクトル列と、前記記憶手段から読み出された前記抑
制標準パタンとの間の尤度を計算し、前記出力された正
解候補に対応する抑制尤度を出力するステップと、
(f)前記ステップ(d)で出力された尤度と、これに
対応する前記抑制尤度との差または比を計算し、この値
を入力音声の確からしさ、すなわち確信度として通知す
るステップと、を含む。
【0058】また、本発明に係る方法は、その第2の好
ましい実施の形態において、(a)標準話者音声に対し
て音声認識のための特徴抽出を行ない、前記特徴抽出さ
れた結果を用いて複数のクラス又はカテゴリに対する平
均値と分散とで表現された統計的な特徴量分布を有する
音声標準パタンを記憶手段に保持し、 (b)音声認識のために入力された入力音声に対して、
前記音声標準パタン作成時と同様の特徴抽出を行ない、
入力音声の特徴ベクトル列を計算するステップと、 (c)前記抽出した入力音声の特徴ベクトル列と前記記
憶手段から読み出された前記音声標準パタンとの間で1
つ以上の正解候補とそれに対応する尤度とを出力するス
テップと、 (d)前記出力された正解候補に対応する、音声標準パ
タンの統計的な特徴量分布の各々に対して、各次元毎に
分布の両側あるいは片側近傍に平均値を持つ新たな分布
を生成し、この分布を全次元まとめたものを該統計的特
徴量に対する抑制標準パタンとして作成し記憶手段に格
納するステップと、 (e)前記入力音声の特徴ベクトル列と、前記記憶手段
から読み出された前記抑制標準パタンとの間の尤度を計
算し、前記出力された正解候補に対応する抑制尤度を出
力するステップと、 (f)前記ステップ(c)で出力された尤度と、これに
対応した前記抑制尤度の差または比を計算し、この値
を入力音声の確からしさ、すなわち確信度として通知す
るステップと、を含む。
【0059】本発明に係る方法は、その好ましい第3の
実施の形態において、(a)標準話者音声に対して音声
認識のための特徴抽出を行ない、当該抽出結果を用いて
複数のクラス又はカテゴリに対する平均値と分散とで表
現された統計的な特徴量分布を有する音声標準パタンを
記憶手段に保持し、(b)前記記憶手段から読み出され
た前記音声標準パタンの前記統計的な特徴量の各々に対
して、各次元毎の分布の両側あるいは片側近傍に平均値
を持つ新たな分布を生成し、この分布を全次元まとめた
ものを該統計的特徴量に対する抑制標準パタンとして作
成するステップと、(c)音声認識のために入力された
入力音声に対して前記音声標準パタン作成時と同様の特
徴抽出を行ない、入力音声の特徴ベクトル列を計算する
ステップと、(d)前記抽出された入力音声の特徴ベク
トル列と、前記記憶手段から読み出された前記音声標準
パタンとの間で1つ以上の正解候補とそれに対応する尤
度と、特徴ベクトル列と分布間の対応情報とを出力する
ステップと、(e)前記特徴ベクトル列と分布間の対応
情報を用い、前記入力音声の特徴ベクトル列と、前記記
憶手段から読み出された前記抑制標準パタンとの間の対
応付けを行い、この対応付けにおける尤度を計算し、こ
の尤度を前記正解候補に対応する抑制尤度として算出す
るステップと、(f)前記ステップ(d)で出力された
尤度と、これに対応する前記抑制尤度との差または比を
計算し、この値を入力音声の確からしさ、すなわち確信
度として通知するステップと、を含む。
【0060】本発明に係る方法は、その好ましい第4の
実施の形態において、(a)標準話者音声に対して音声
認識のための特徴抽出を行ない、当該抽出結果を用いて
複数のクラス又はカテゴリに対する平均値と分散とで表
現された統計的な特徴量分布を有する音声標準パタンを
記憶手段に保持し、(b)音声認識のために入力された
入力音声に対して前記音声標準パタン作成時と同様の特
徴抽出を行ない、入力音声の特徴ベクトル列を計算する
ステップと、(c)前記抽出された入力音声の特徴ベク
トル列と前記音声標準パタンとの間で1つ以上の正解候
補とそれに対応する尤度とを算出するステップと、
(d)前記出力された正解候補に対応する音声標準パタ
ンの統計的な特徴量分布の各々に対して、各次元毎に分
布の両側あるいは片側近傍に平均値を持つ新たな分布を
生成し、この分布を全次元まとめたものを該統計的特徴
量に対する抑制標準パタンとして作成するステップと、
(e)前記特徴ベクトル列と分布間の対応情報を用い、
前記入力音声の特徴ベクトル列と前記抑制標準パタンと
の間の対応付けを行い、この対応付けにおける尤度を計
算し、この尤度を前記正解候補に対応する抑制尤度とし
て出力するステップと、(f)前記ステップ(c)で出
力された尤度と、これに対応した前記第抑制尤度との差
または比を計算し、この値を入力音声の確からしさ、す
なわち確信度として通知するステップと、を含む。
【0061】本発明の実施の形態において、上記した各
ステップは、音声判定装置を構成するコンピュータ(演
算処理装置)でプログラムを実行することで、その処理
・機能を実現することができる。この場合、該プログラ
ムを記録したコンピュータで読み出し可能な記録媒体、
もしくは通信媒体を介して、該プログラムをコンピュー
タに読み出しコンピュータで該プログラムを実行するこ
とで本発明を実施することができる。
【0062】
【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例について図面を参照し
て以下に説明する。
【0063】図1は、本発明の音声判定装置の第1の実
施例の構成を示すブロック図である。図1を参照する
と、この音声判定装置は、標準話者音声に対して音声認
識のための特徴抽出を行ない、当該抽出結果を用いて複
数のクラス(カテゴリ)に対する平均値と分散とで表現さ
れた統計的な特徴量分布を記憶保持する音声標準パタン
11を記憶する記憶部と、音声標準パタン11の統計的
な特徴量の各々に対して各次元毎の分布の両側あるいは
片側近傍に平均値を持つ新たな分布を生成し、この分布
を全次元まとめたものを統計的特徴量に対する抑制標準
パタンとして作成する抑制標準パタン生成部12と、音
声認識のために入力された入力音声に対して音声標準パ
タン11の作成と同様の特徴抽出を行ない、入力音声の
特徴ベクトル列を計算する特徴抽出部13と、特徴抽出
部13が抽出した入力音声の特徴ベクトル列と、音声標
準パタン11との間で1つ以上の正解候補と、この正解
候補に対応する尤度とを出力する第1のマッチング部1
4と、入力音声の特徴ベクトル列と、抑制標準パタン生
成部12が作成した抑制標準パタン17との間の尤度を
計算し、第1のマッチング部14が出力した正解候補に
対応する抑制尤度を出力する第2のマッチング部15
と、第1のマッチング部14の出力する尤度に対応する
第2のマッチング部15が出力する抑制尤度の差または
比を計算し、この値を入力音声の確からしさ(確信度)
として通知する入力判定部16と、を備えている。
【0064】本発明の第1の実施例の動作について説明
する。特徴抽出部13は、入力された認識対象音声を音
声認識のための特徴ベクトル列に変換する。この特徴ベ
クトルは、一定周期毎の短時間分析結果(多次元ベクト
ル)を時間方向に結合したものとして表現されており、
これまでに種々の方法が確立されている。例えば、スペ
クトル分析、フィルタバンク、ケプストラム、パワー等
のいずれかを基に、これらの時間方向の1次あるいは2
次微分といったものと組み合わせて使用されている。こ
こに挙げたもの以外の特徴ベクトルについても、一般に
音声認識に使用可能なものであれば、任意のものが用い
られる。
【0065】音声標準パタン11には、特徴抽出部13
と同様の方法で、多数の標準話者音声を分析し、複数の
クラス(カテゴリ)に対する平均値と分散とで表現された
統計的な多次元の特徴量分布として保持されている。こ
のような構成を実現する手段としては、隠れマルコフモ
デル(HMM:Hidden Markov Model)と呼ばれる方法
が知られている。
【0066】図5は、サブワードを音節として持つHM
Mの例であり、3つの音節を直列に接続することで、
“はかた”という音声を受理するモデルを構成してい
る。矢印は遷移、丸は状態と呼ばれるもので、状態には
通常分布と呼ばれる特徴ベクトルを統計的な量として表
現したものが保持され、夫々の遷移においては通過する
際の確率値が保持されている。
【0067】第1のマッチング部14は、例えばHMM
で音声標準パタン11のすべての単語モデルと入力音声
との類似の度合い(尤度)を計算し、尤度の高いものか
ら順に正解候補として出力する。このような尤度の計算
方法としてはViterbiアルゴリズムが良く知られてい
る。
【0068】抑制標準パタン生成部12は、音声標準パ
タン11の各モデルに対してそれと対となるモデルを生
成する。このモデルは音声標準パタン11とちょうど相
反する特徴ベクトルを平均値と分散とで表現した分布の
形で生成する。例えば、図6は音声標準パタン11の中
に保持されている分布の1次元について模式的に現した
ものである(図6の「元の分布」参照)。
【0069】抑制標準パタン生成部はこの分布に対する
抑制分布として、両側に、ちょうど近接するように「抑
制分布1」及び「抑制分布2」を構成し、最終的に抑制
標準パタンとして保持する。この抑制分布の生成方法
は、例えば元の分布が正規分布で表現されている場合は
ほぼ3σ(分散の3倍)程度の範囲を覆えば殆どの学習
データが含まれることが統計的に明らかであるので、3
σで交差するような構成方法をとる。なお、3σに限定
されるものでなく、必要に応じて4σ、あるいは2σ等
としても良い。この他、抑制分布に付いては種々の生成
方法が用いられ、また必ずしも正規分布を用いたり、両
側に配置する必要はない。
【0070】抑制標準パタン17は、例えば図5に示す
“はかた”という音声標準パタンとちょうど対応するよ
うに“はかた”を抑制する分布で構成された標準パタン
として保持されている。このような、抑制分布を用いる
ことで、元の分布から外れた特徴を持つ入力に対しては
抑制分布に対する尤度の方が元の分布より高くなり、結
果として有効にリジェクトを行うことができる。
【0071】第2のマッチング部15は、第1のマッチ
ング部14が出力した正解候補に対応する抑制標準パタ
ンと入力音声との間の尤度を計算して出力する。この尤
度計算は、第1のマッチング部14と同様の方法で実現
できる。
【0072】入力判定部16は、第1のマッチング部1
4が出力した正解候補に対する尤度と第2のマッチング
部15が出力した尤度との差または比の値を計算し、ま
た必要であれば、(1)式のように入力の長さで正規化
し、各候補における信頼度として出力する。
【0073】なお、この信頼度を用いて最終的にリジェ
クションを行うが、最も簡単には、前もって定められた
固定の閾値を下回った場合に、リジェクトと判定する方
法が用いられる。この以外にも、尤度の差または比を用
いる方法であればどのような方法でも適用可能である。
【0074】次に本発明の第2の実施例について説明す
る。図2は、本発明の音声判定装置の第2の実施例の構
成を示すブロック図である。図2を参照すると、この音
声判定装置は、標準話者音声に対して音声認識のための
特徴抽出を行ない、当該抽出結果を用いて複数のクラス
(カテゴリ)に対する平均値と分散とで表現された統計的
な特徴量分布を保持する音声標準パタン21と、音声認
識のために入力された入力音声に対して音声標準パタン
21の作成時と同様の特徴抽出を行ない、入力音声の特
徴ベクトル列を計算する特徴抽出部22と、特徴抽出部
22が抽出した入力音声の特徴ベクトル列と音声標準パ
タン21との間で1つ以上の正解候補とそれに対応する
尤度とを出力する第1のマッチング部23と、第1のマ
ッチング部23が出力した正解候補に対応する音声標準
パタン21の統計的な特徴量分布の各々に対して、各次
元毎に分布の両側あるいは片側近傍に平均値を持つ新た
な分布を生成し、この分布を全次元まとめたものを該統
計的特徴量に対する抑制標準パタンとして作成する抑制
標準パタン生成部24と、入力音声の特徴ベクトル列と
抑制標準パタン生成部24が作成した抑制標準パタンと
の間の尤度を計算し、第1のマッチング部23が出力し
た正解候補に対応する抑制尤度を出力する第2のマッチ
ング部25と、第1のマッチング部23の出力する尤度
に対応した第2のマッチング部25の出力する抑制尤度
の差または比を計算し、この値を入力音声の確からしさ
(確信度)として通知する入力判定部26とを備えて構
成されている。
【0075】図2において、音声標準パタン21、特徴
抽出部22、第1のマッチング部23、及び入力判定部
26は、夫々図1の音声標準パタン11、特徴抽出部1
3、第1のマッチング部14、及び入力判定部16と同
一の構成よりなり、同一の動作を行う。
【0076】抑制標準パタン生成部24は、第1のマッ
チング部23が正解候補を計算した後に、その正解候補
に対してのみ抑制標準パタンを生成する。
【0077】このような構成としたことにより、予め抑
制標準パタンの全てを作成しておく必要がなく、候補が
決定した後、当該候補に対してのみ抑制標準パタンを生
成すればよい。このため、音声認識装置のメモリ量の制
約が大きい場合においても、十分に実現可能であるとい
う利点を有している。
【0078】一方、抑制標準パタン27を、第1のマッ
チング部23が出力する結果に応じて作成するため、前
記第1の実施例の構成と比較して、やや計算時間を要す
る。
【0079】しかしながら、本発明によれば、学習等の
膨大な処理とは比較にならないほど処理量を縮減してお
り、実用上問題となることは全くない。
【0080】次に本発明の第3の実施例について説明す
る。図3は、本発明の音声判定装置の第3の実施例の構
成を示すブロック図である。図3を参照すると、この音
声判定装置は、標準話者音声に対して音声認識のための
特徴抽出を行ない、当該抽出結果を用いて複数のクラス
(カテゴリ)に対する平均値と分散とで表現された統計的
な特徴量分布を保持する音声標準パタン31と、統計的
な特徴量の各々に対して、各次元毎の分布の両側あるい
は片側近傍に平均値を持つ新たな分布を生成し、この分
布を全次元まとめたものを該統計的特徴量に対する抑制
標準パタンとして作成する抑制標準パタン生成部32
と、音声認識のために入力された入力音声に対して音声
標準パタン31の作成時と同様の特徴抽出を行ない、入
力音声の特徴ベクトル列を計算する特徴抽出部33と、
特徴抽出部33が抽出した入力音声の特徴ベクトル列と
音声標準パタン31との間で1つ以上の正解候補とそれ
に対応する尤度と、特徴ベクトル列と分布間の対応情報
とを出力する第1のマッチング部34と、第1のマッチ
ング部34の出力する特徴ベクトル列と分布間の対応情
報を用い、入力音声の特徴ベクトル列と抑制標準パタン
との間の対応づけを行い、この対応付けにおける尤度を
計算し、この尤度を第1のマッチング部34が出力した
正解候補に対応する抑制尤度として出力する第2のマッ
チング部35と、第1のマッチング部34が出力する尤
度に対応する第2のマッチング部35が出力する抑制尤
度の差または比を計算し、この値を入力音声の確からし
さ(確信度)として通知する入力判定部36と、を備え
て構成される。
【0081】図3において、音声標準パタン31、特徴
抽出部33、抑制標準パタン生成部32、及び入力判定
部36は、それぞれ図1における音声標準パタン11、
特徴抽出部13、抑制標準パタン生成部12、及び入力
判定部16と同一の動作を行う。
【0082】第1のマッチング部34は、特徴抽出部3
3が抽出した入力音声の特徴ベクトル列と音声標準パタ
ン31との間で1つ以上の正解候補とそれに対応する尤
度と、特徴ベクトル列と分布間の対応情報とを出力す
る。
【0083】図7は、HMMを用いて作成された正解候
補の音声標準パタンと入力音声との対応情報を模式的に
示す図である。図7に示すように、入力音声(横軸)の
特徴ベクトル列と音声標準パタンの各状態とで決まる格
子点上を、両者の間の尤度が尤も高くなるような対応づ
けを出力する。この対応付けを実現する方法としてはHM
MのViterbiアルゴリズムが良く知られている。
【0084】第2のマッチング部35は、第1のマッチ
ング部34が出力した正解候補とそれに対する対応情報
を用い、入力音声の特徴ベクトル列と抑制標準パタンと
の間での尤度を計算する。例えば図7に示した音声標準
パタンと対となる抑制標準パタンに対して、全く同じ対
応づけにおける累積尤度を計算し、出力する。
【0085】このような、対応情報を用いて抑制標準パ
タンと入力音声の特徴ベクトル列との間の尤度を計算す
ることの利点は、入力音声と正解候補の音声標準パタン
とが内容的に一致する場合、すなわち音声認識が正しく
行われた場合において、音声標準パタンと入力音声とは
音響的に極めて類似しており、得られた対応結果も信頼
の置けるものとなっている。
【0086】逆に、この正解候補に対応する抑制標準パ
タンとは音響的に極めて類似しないものとなり、もし、
入力音声と抑制標準パタンとの間の自由な対応付けを許
容すると、得られた対応付けは精度の低いものとなる。
【0087】その結果、得られる抑制尤度も精度が低
く、うまく信頼度の計算が行われない場合がある。この
ような理由から、抑制標準パタンと入力音声との対応づ
けを入力音声と音声標準パタンとの対応づけに合わせて
行うことにより、より高精度な信頼度の抽出が可能とな
る。
【0088】次に本発明の第4の実施例について説明す
る。図4は、本発明の音声判定装置の第4の実施例の構
成を示すブロック図である。図4を参照すると、この音
声判定装置は、標準話者音声に対して音声認識のための
特徴抽出を行ない、該抽出結果を用いて複数のクラス
(カテゴリ)に対する平均値と分散とで表現された統計的
な特徴量分布を保持する音声標準パタン41と、音声認
識のために入力された入力音声に対して音声標準パタン
41の作成時と同様の特徴抽出を行ない、入力音声の特
徴ベクトル列を計算する特徴抽出部42と、特徴抽出部
42が抽出した入力音声の特徴ベクトル列と音声標準パ
タン41との間で1つ以上の正解候補とそれに対応する
尤度とを出力する第1のマッチング部43と、第1のマ
ッチング部43が出力した正解候補に対応する音声標準
パタン41の統計的な特徴量分布の各々に対して、各次
元毎に分布の両側あるいは片側近傍に平均値を持つ新た
な分布を生成し、この分布を全次元まとめたものを該統
計的特徴量に対する抑制標準パタンとして作成する抑制
標準パタン生成部44と、第1のマッチング部43の出
力する特徴ベクトル列と分布間の対応情報を用い、入力
音声の特徴ベクトル列と抑制標準パタンとの間の対応づ
けを行い、この対応付けにおける尤度を計算し、この尤
度を第1のマッチング部43が出力した正解候補に対応
する抑制尤度として出力する第2のマッチング部45
と、第1のマッチング部43の出力する尤度に対応した
第2のマッチング部45の出力する抑制尤度の差または
比を計算し、この値を入力音声の確からしさ(確信度)
として通知する入力判定部46と、を備えて構成されて
いる。
【0089】図4において、音声標準パタン41、特徴
抽出部42、抑制標準パタン生成部44、及び入力判定
部46は、それぞれ図2における音声標準パタン21、
特徴抽出部22、抑制標準パタン生成部24、及び入力
判定部26と同一の動作を行う。また、第1のマッチン
グ部23、及び、第2のマッチング部25は、それぞれ
図3における第1のマッチング部34及び第2のマッチ
ング部35と同一の動作を行う。
【0090】このような構成とすることで、メモリ的な
制約が大きい場合にあっても高性能な信頼度の計算が可
能となる。
【0091】本発明においては、音声標準パタンを構成
する単位が入力の単位よりも短いサブワード単位で構成
されており、例えば図5に示すような音節単位であった
り、音素であったりする。この他、音声認識に供するこ
とのできる単位であれば、種々のサブワード単位を用い
て本発明を実施することができる。
【0092】入力判定部6は、信頼度計算結果をサブワ
ード単位で行い、サブワード毎に結果を出力する。な
お、この値を用いて最終的なリジェクションを行うに
は、例えば上記文献1に記載されているようなサブワー
ド毎の信頼度を結合した信頼尺度(Confidence Measur
e)(上記文献1の(3)式〜(8)式)のような方法も
可能であるし、また、結合せず、サブワード毎にリジェ
クト/アクセプトを判定しても良い。
【0093】また、利用者に信頼が置けるサブワードと
そうでないものを、表示出力装置等で色など視覚的に区
別可能に通知する構成としてもよい。例えば言語処理と
統合して、信頼度情報を言語処理にそのまま送出するこ
とも可能である。
【0094】
【発明の効果】以上説明したように、本発明によれば、
下記記載の効果を奏する。
【0095】本発明の第1の効果は、音声認識の基本単
位がどのようなもので構成されていても、高精度な抑制
標準パタンを生成することを可能としており、高精度の
音声判定装置を実現することができる、ということであ
る。
【0096】本発明の第2の効果は、抑制標準パタンの
生成に特別な学習データを必要とせず、音声標準パタン
のみの情報から高速に、少ない処理量で実行可能として
おり、従来の技術では不可能であった、話者適応、環境
適応と呼ばれる技術との併用をも可能としているという
ことである。
【0097】本発明の第3の効果は、抑制標準パタンを
保持するためのメモリ量が少なくすみ、音声認識装置の
メモリ使用量を低減することができ、低コスト化を可能
としている、ということである。
【0098】本発明の第4の効果は、抑制標準パタンに
対する抑制尤度の精度がさらに向上し、より高性能な装
置を実現可能としている、ということである。
【0099】本発明の第5の効果は、抑制標準パタンに
対する抑制尤度の精度をさらに向上し、より高性能な装
置を実現可能としている、ということである。
【0100】本発明の第6の効果は、サブワード単位で
の信頼度を通知することができ、サブワード単位でのリ
ジェクト/アクセプト判定を可能とし、また次段に言語
処理部を統合した音声認識装置における認識処理精度の
向上、さらには色などの視覚情報出力装置などを利用し
た部分信頼度情報の利用者への表示し操作性、利便性を
向上する、ということである。
【図面の簡単な説明】
【図1】本発明の第1の実施例の構成を示す図である。
【図2】本発明の第2の実施例の構成を示す図である。
【図3】本発明の第3の実施例の構成を示す図である。
【図4】本発明の第4の実施例の構成を示す図である。
【図5】サブワード単位のHMMを用いた単語モデル構成
を説明するための図である。
【図6】本発明における抑制標準パタン生成を説明する
ための図である。
【図7】音声標準パタン(HMM)と入力音声の特徴ベク
トルとの対応づけ情報を説明するための図である。
【符号の説明】
11、21、31、41 音声標準パタン 13、22、33、42 特徴抽出部 14、23、34、43 第1のマッチング部 12、24、32、44 抑制標準パタン生成部 15、25、35、45 第2のマッチング部 16、26、36、46 入力判定部

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】標準話者音声に対して音声認識のための特
    徴抽出を行ない前記特徴抽出された結果を用いて複数の
    クラス又はカテゴリに対する平均値と分散とにより表現
    されてなる統計的な特徴量の分布を保持する音声標準パ
    タンと、 前記音声標準パタンの統計的な特徴量の各々に対して、
    各次元毎の分布の両側又は片側の近傍に平均値を持つ新
    たな分布を生成し、該生成された分布を、全ての次元に
    ついてまとめたものを前記統計的特徴量に対する抑制標
    準パタンとして作成する抑制標準パタン生成手段と、 音声認識のために入力された入力音声に対して、前記音
    声標準パタンの作成時と同様にして、音声認識のための
    特徴抽出を行ない前記入力音声の特徴ベクトル列を導出
    する特徴抽出手段と、 前記特徴抽出手段で導出された前記入力音声の特徴ベク
    トル列と、前記音声標準パタンとの間で1つ以上の正解
    候補とこれに対応する尤度とを出力する第1のマッチン
    グ手段と、 前記入力音声の特徴ベクトル列と前記抑制標準パタン生
    成手段で作成された前記抑制標準パタンとの間の尤度を
    算出し、前記第1のマッチング手段から出力された正解
    候補に対応する抑制尤度を出力する第2のマッチング手
    段と、 前記第1のマッチング手段の出力する尤度と、該尤度に
    対応する前記第2のマッチング手段の出力する前記抑制
    尤度との差又は比を求め、この値を前記入力音声の確か
    らしさ、すなわち確信度として出力する入力判定手段
    と、 を備えたことを特徴とする音声判定装置。
  2. 【請求項2】標準話者音声に対して音声認識のための特
    徴抽出を行ない前記特徴抽出された結果を用いて複数の
    クラス又はカテゴリに対する平均値と分散とにより表現
    されてなる統計的な特徴量分布を保持する音声標準パタ
    ンと、 音声認識のために入力された入力音声に対して前記音声
    標準パタンの作成時と同様にして特徴抽出を行ない、前
    記入力音声の特徴ベクトル列を導出する特徴抽出手段
    と、 前記特徴抽出手段が導出された前記入力音声の特徴ベク
    トル列と前記音声標準パタンとの間で1つ以上の正解候
    補とこれに対応する尤度とを出力する第1のマッチング
    手段と、 前記第1のマッチング手段が出力した正解候補に対応す
    る音声標準パタンの統計的な特徴量分布の各々に対し
    て、各次元毎に分布の両側又は片側近傍に平均値を持つ
    新たな分布を生成し、前記生成された分布を全次元まと
    めたものを該統計的特徴量に対する抑制標準パタンとし
    て作成する抑制標準パタン生成手段と、 前記入力音声の特徴ベクトル列と前記抑制標準パタン生
    成手段で作成された前記抑制標準パタンとの間の尤度を
    算出し、前記第1のマッチング手段から出力された前記
    正解候補に対応する抑制尤度を出力する第2のマッチン
    グ手段と、 前記第1のマッチング手段の出力する尤度と、該尤度に
    対応した前記第2のマッチング手段の出力する抑制尤度
    との差又は比を算出し、この値を前記入力音声の確から
    しさ、すなわち確信度として出力する入力判定手段と、
    を備えたことを特徴とする音声判定装置。
  3. 【請求項3】標準話者音声に対して音声認識のための特
    徴抽出を行ない、当該抽出結果を用いて複数のクラス又
    はカテゴリに対する平均値と分散とにより表現されてな
    る統計的な特徴量分布を保持する音声標準パタンと、 前記統計的な特徴量の各々に対して、各次元毎の分布の
    両側又は片側近傍に平均値を持つ新たな分布を生成し、
    前記生成された分布を全次元まとめたものを該統計的特
    徴量に対する抑制標準パタンとして作成する抑制標準パ
    タン生成手段と、 音声認識のために入力された入力音声に対して、前記音
    声標準パタンの作成時と同様にして特徴抽出を行ない前
    記入力音声の特徴ベクトル列を導出する特徴抽出手段
    と、 前記特徴抽出手段で導出された前記入力音声の特徴ベク
    トル列と前記音声標準パタンとの間で1つ以上の正解候
    補とこれに対応する尤度と、特徴ベクトル列と分布間の
    対応情報とを出力する第1のマッチング手段と、 前記第1のマッチング手段の出力する特徴ベクトル列と
    分布間の対応情報を用い、前記入力音声の特徴ベクトル
    列と前記抑制標準パタンとの間の対応付けを行い、この
    対応付けにおける尤度を算出し、この尤度を前記第1の
    マッチング手段から出力された正解候補に対応する抑制
    尤度として出力する第2のマッチング手段と、 前記第1のマッチング手段の出力される尤度と、該尤度
    に対応する前記第2のマッチング手段の出力する抑制尤
    度との差又は比を算出し、この値を入力音声の確からし
    さ、すなわち確信度として出力する入力判定手段と、を
    備えたことを特徴とする音声判定装置。
  4. 【請求項4】標準話者音声に対して音声認識のための特
    徴抽出を行ない、当該抽出結果を用いて複数のクラス又
    はカテゴリに対する平均値と分散とにより表現されてな
    る統計的な特徴量分布を保持する音声標準パタンと、 音声認識のために入力された入力音声に対して、前記音
    声標準パタン作成時と同様にして特徴抽出を行ない前記
    入力音声の特徴ベクトル列を算出する特徴抽出手段と、 前記特徴抽出手段で抽出された前記入力音声の特徴ベク
    トル列と前記音声標準パタンとの間で1つ以上の正解候
    補とこれに対応する尤度とを出力する第1のマッチング
    手段と、 前記第1のマッチング手段から出力された正解候補に対
    応する前記音声標準パタンの統計的な特徴量分布の各々
    に対して、各次元毎に分布の両側又は片側近傍に平均値
    を持つ新たな分布を生成し、前記生成された分布を全次
    元まとめたものを該統計的特徴量に対する抑制標準パタ
    ンとして作成する抑制標準パタン生成手段と、 前記第1のマッチング手段から出力される特徴ベクトル
    列と分布間の対応情報を用い、前記入力音声の特徴ベク
    トル列と前記抑制標準パタンとの間の対応付けを行い、
    この対応付けにおける尤度を算出し、この尤度を前記第
    1のマッチング手段から出力された正解候補に対応する
    抑制尤度として出力する第2のマッチング手段と、 前記第1のマッチング手段の出力する尤度と、該尤度に
    対応した前記第2のマッチング手段の出力する抑制尤度
    との差または比を算出し、この値を前記入力音声の確か
    らしさ、すなわち確信度として出力する入力判定手段
    と、を備えたことを特徴とする音声判定装置。
  5. 【請求項5】前記音声標準パタンが入力の音声よりも短
    い単位であるサブワードモデルで構成され、 前記入力判定手段が、サブワード単位毎の音声の確信度
    を求めて出力する、ことを特徴とする請求項1乃至4の
    いずれか一に記載の音声判定装置。
  6. 【請求項6】入力音声を入力し音声認識のための特徴ベ
    クトル列を算出する特徴抽出手段と、 標準話者音声を予め分析し複数のクラスに対する平均値
    と分散とにより表現されてなる統計的な多次元の特徴量
    分布として保持する音声標準パタンを格納した記憶手段
    と、 前記音声標準パタンを入力し、前記特徴抽出手段から出
    力された前記入力音声の特徴ベクトル列と前記音声標準
    パタンの単語モデルとの類似の度合いである尤度を算出
    し、尤度の高いものから順に正解候補として出力する第
    1のマッチング手段と、 前記音声標準パタンを入力し、前記音声標準パタンの各
    単語モデルをなす統計的な特徴量の各々に対して、前記
    統計的な特徴量と相反する特徴ベクトルを平均値と分散
    とにより表現した抑制分布の形態で、前記音声標準パタ
    ンの各単語モデルと対となるモデルを含む抑制標準パタ
    ンを生成し記憶手段に出力する抑制標準パタン生成手段
    と、 前記抑制標準パタン及び前記第1のマッチング手段から
    出力された正解候補とを入力とし、前記正解候補に対応
    する前記抑制標準パタンと、前記特徴抽出手段から出力
    された入力音声の特徴ベクトル列とから抑制尤度を算出
    して出力する第2のマッチング手段と、 前記第1のマッチング手段から出力された正解候補に対
    する尤度と、前記第2のマッチング手段から出力された
    抑制尤度との差又は比の値を算出し、必要に応じて前記
    値を入力の長さで正規化し、前記各候補における確信度
    として出力する手段と、を備え、 元の分布から外れた入力音声に対しては抑制標準パタン
    の尤度が高くなり、正確な確信度を得るように構成され
    てなる、ことを特徴とする音声判定装置。
  7. 【請求項7】前記抑制標準パタン生成手段が、前記音声
    標準パタンの統計的な特徴量の両側に又は一側に近接す
    る位置に平均値を有する抑制分布を構成し抑制標準パタ
    ンとして記憶手段に格納保持する、ことを特徴とする請
    求項6記載の音声判定装置。
  8. 【請求項8】前記音声標準パタンにおいて、音声を受理
    するモデルが、サブワードを音節として複数の音節を連
    結してなる隠れマルコフモデル(HMM)よりなり、 前記モデルの状態には特徴ベクトルを統計的な量として
    表したものが保持され、それぞれの遷移において通過す
    る際の確率値が保持されている、ことを特徴とする請求
    項6記載の音声判定装置。
  9. 【請求項9】(a)標準話者の音声に対して音声認識の
    ための特徴抽出を行ない前記特徴抽出された結果を用い
    て複数のクラス又はカテゴリに対する平均値と分散とで
    表現された統計的な特徴量の分布を有する音声標準パタ
    ンを予め記憶手段に格納するステップと、 (b)前記記憶手段から前記音声標準パタンを読み出
    し、前記音声標準パタンの統計的な特徴量の各々に対し
    て、各次元毎の分布の両側又は片側の近傍に平均値を持
    つ新たな分布を生成し、前記新たな分布を、全ての次元
    についてまとめたものを前記統計的特徴量に対する抑制
    標準パタンとして作成し記憶手段に出力するステップ
    と、 (c)音声認識のために入力された入力音声に対して、
    前記音声標準パタンの作成時と同様にして音声認識のた
    めの特徴抽出を行ない前記入力音声の特徴ベクトル列を
    導出するステップと、 (d)前記導出された前記入力音声の特徴ベクトル列
    と、前記音声標準パタンとの間で1つ以上の正解候補と
    これに対応する尤度とを出力するステップと、 (e)前記入力音声の特徴ベクトル列と、前記記憶手段
    から読み出された前記抑制標準パタンとの間の尤度を計
    算し、前記出力された正解候補に対応する抑制尤度を出
    力するステップと、 (f)前記ステップ(d)で出力された尤度と、該尤度
    に対応する前記抑制尤度との差又は比を計算し、この値
    を入力音声の確からしさ、すなわち確信度として出力す
    るステップと、 を含むことを特徴とする音声判定方法。
  10. 【請求項10】(a)標準話者音声に対して音声認識の
    ための特徴抽出を行ない、前記特徴抽出された結果を用
    いて複数のクラス又はカテゴリに対する平均値と分散と
    で表現された統計的な特徴量分布を有する音声標準パタ
    ンを予め記憶手段に格納するステップと、 (b)音声認識のために入力された入力音声に対して、
    前記音声標準パタンの作成時と同様の特徴抽出を行ない
    前記入力音声の特徴ベクトル列を算出するステップと、 (c)前記算出された前記入力音声の特徴ベクトル列と
    前記記憶手段から読み出された前記音声標準パタンとの
    間で1つ以上の正解候補とこれに対応する尤度とを出力
    するステップと、 (d)前記正解候補に対応する、前記音声標準パタンの
    統計的な特徴量分布の各々に対して、各次元毎に分布の
    両側又は片側近傍に平均値を持つ新たな分布を生成し、
    前記新たな分布を全次元まとめたものを該統計的特徴量
    に対する抑制標準パタンとして作成して記憶手段に格納
    するステップと、 (e)前記入力音声の特徴ベクトル列と、前記記憶手段
    から読み出された前記抑制標準パタンとの間の尤度を計
    算し、前記正解候補に対応する抑制尤度を出力するステ
    ップと、 (f)前記ステップ(c)で出力された尤度と、該尤度
    に対応した前記抑制尤度との差又は比を計算し、この値
    を前記入力音声の確からしさ、すなわち確信度として出
    力するステップと、 を含むことを特徴とする音声判定方法。
  11. 【請求項11】(a)標準話者音声に対して音声認識の
    ための特徴抽出を行ない、当該抽出結果を用いて複数の
    クラス又はカテゴリに対する平均値と分散とで表現され
    た統計的な特徴量分布を有する音声標準パタンを予め記
    憶手段に格納するステップと、 (b)前記記憶手段から読み出された前記音声標準パタ
    ンの前記統計的な特徴量の各々に対して、各次元毎の分
    布の両側又は片側近傍に平均値を持つ新たな分布を生成
    し、前記新たな分布を全次元まとめたものを該統計的特
    徴量に対する抑制標準パタンとして作成するステップ
    と、 (c)音声認識のために入力された入力音声に対して前
    記音声標準パタンの作成時と同様の特徴抽出を行ない前
    記入力音声の特徴ベクトル列を算出するステップと、 (d)前記算出された入力音声の特徴ベクトル列と、前
    記記憶手段から読み出された前記音声標準パタンとの間
    で1つ以上の正解候補とこれに対応する尤度と、特徴ベ
    クトル列と分布間の対応情報とを出力するステップと、 (e)前記特徴ベクトル列と分布間の対応情報を用い、
    前記入力音声の特徴ベクトル列と、前記記憶手段から読
    み出された前記抑制標準パタンとの間の対応付けを行
    い、この対応付けにおける尤度を計算し、この尤度を前
    記正解候補に対応する抑制尤度として算出するステップ
    と、 (f)前記ステップ(d)で出力された尤度と、該尤度
    に対応する前記抑制尤度との差又は比を計算し、この値
    を入力音声の確からしさ、すなわち確信度として出力す
    るステップと、を含むことを特徴とする音声判定方法。
  12. 【請求項12】(a)標準話者音声に対して音声認識の
    ための特徴抽出を行ない、当該抽出結果を用いて複数の
    クラス又はカテゴリに対する平均値と分散とで表現され
    た統計的な特徴量分布を有する音声標準パタンを記憶手
    段に格納するステップと、 (b)音声認識のために入力された入力音声に対して前
    記音声標準パタン作成時と同様の特徴抽出を行ない、入
    力音声の特徴ベクトル列を算出するステップと、 (c)前記算出された前記入力音声の特徴ベクトル列と
    前記音声標準パタンとの間で1つ以上の正解候補とこれ
    に対応する尤度とを算出するステップと、 (d)前記正解候補に対応する前記音声標準パタンの統
    計的な特徴量分布の各々に対して、各次元毎に分布の両
    側又は片側近傍に平均値を持つ新たな分布を生成し、前
    記新たな分布を全次元まとめたものを該統計的特徴量に
    対する抑制標準パタンとして作成するステップと、 (e)前記特徴ベクトル列と分布間の対応情報を用い、
    前記入力音声の特徴ベクトル列と前記抑制標準パタンと
    の間の対応付けを行い、この対応付けにおける尤度を計
    算し、この尤度を前記正解候補に対応する抑制尤度とし
    て出力するステップと、 (f)前記ステップ(c)で出力された尤度と、該尤度
    に対応した前記抑制尤度との差又は比を計算し、この値
    を入力音声の確からしさ、すなわち確信度として出力す
    るステップと、を含むことを特徴とする音声判定方法。
  13. 【請求項13】標準話者音声に対して音声認識のための
    特徴抽出を行ない前記特徴抽出された結果を用いて、複
    数のクラス又はカテゴリに対する平均値と分散とで表現
    された統計的な特徴量の分布を有する音声標準パタンを
    記憶する記憶手段を備え、 (a)前記音声標準パタンの統計的な特徴量の各々に対
    して、各次元毎の分布の両側又は片側の近傍に平均値を
    持つ新たな分布を生成し、前記新たな分布を、全ての次
    元についてまとめたものを前記統計的特徴量に対する抑
    制標準パタンとして作成する処理と、 (b)音声認識のために入力された入力音声に対して、
    前記音声標準パタンの作成時と同様に、音声認識のため
    の特徴抽出を行ない前記入力音声の特徴ベクトル列を導
    出する処理と、 (c)前記導出された前記入力音声の特徴ベクトル列
    と、前記音声標準パタンとの間で1つ以上の正解候補と
    これに対応する尤度とを出力する処理と、 (d)前記入力音声の特徴ベクトル列と前記抑制標準パ
    タンとの間の尤度を計算し、前記出力された正解候補に
    対応する抑制尤度を出力する処理と、 (e)前記処理(c)で出力された尤度と、該尤度に対
    応する前記抑制尤度との差又は比を計算し、この値を前
    記入力音声の確からしさ、すなわち確信度として出力す
    る処理と、の上記(a)乃至(e)の各処理を音声判定
    装置を構成するコンピュータで実行するためのプログラ
    ムを記録した記録媒体。
  14. 【請求項14】標準話者の音声に対して音声認識のため
    の特徴抽出を行ない、前記特徴抽出された結果を用いて
    複数のクラス又はカテゴリに対する平均値と分散とで表
    現された統計的な特徴量分布を有する音声標準パタンを
    記憶する記憶手段を備え、 (a)音声認識のために入力された入力音声に対して、
    前記音声標準パタンの作成時と同様の特徴抽出を行な
    い、前記入力音声の特徴ベクトル列を導出する処理と、 (b)前記導出された入力音声の特徴ベクトル列と前記
    音声標準パタンとの間で1つ以上の正解候補とそれに対
    応する尤度とを出力する処理と、 (c)前記出力された正解候補に対応する、前記音声標
    準パタンの統計的な特徴量分布の各々に対して、各次元
    毎に分布の両側又は片側近傍に平均値を持つ新たな分布
    を生成し、前記新たな分布を全次元まとめたものを該統
    計的特徴量に対する抑制標準パタンとして作成する処理
    と、 (d)前記入力音声の特徴ベクトル列と前記抑制標準パ
    タンとの間の尤度を計算し、前記正解候補に対応する抑
    制尤度を出力する処理と、 (f)前記処理(b)で出力された尤度と、該尤度に対
    応する前記抑制尤度との差又は比を計算し、この値を入
    力音声の確からしさ、すなわち確信度として出力する処
    理と、の上記(a)乃至(f)の各処理を音声判定装置
    を構成するコンピュータで実行するためのプログラムを
    記録した記録媒体。
  15. 【請求項15】標準話者音声に対して音声認識のための
    特徴抽出を行ない、当該抽出結果を用いて複数のクラス
    又はカテゴリに対する平均値と分散とで表現された統計
    的な特徴量分布を有する音声標準パタンを記憶する記憶
    手段を備え、 (a)前記音声標準パタンの前記統計的な特徴量の各々
    に対して、各次元毎の分布の両側又は片側近傍に平均値
    を持つ新たな分布を生成し、前記新たな分布を全次元ま
    とめたものを該統計的特徴量に対する抑制標準パタンと
    して作成する処理と、 (b)音声認識のために入力された入力音声に対して前
    記音声標準パタン作成時と同様の特徴抽出を行ない、前
    記入力音声の特徴ベクトル列を導出する処理と、 (c)前記導出された入力音声の特徴ベクトル列と前記
    音声標準パタンとの間で1つ以上の正解候補とそれに対
    応する尤度と、特徴ベクトル列と分布間の対応情報とを
    出力する処理と、 (d)前記特徴ベクトル列と分布間の対応情報を用い、
    前記入力音声の特徴ベクトル列と前記抑制標準パタンと
    の間の対応付けを行い、この対応付けにおける尤度を計
    算し、該尤度を前記正解候補に対応する抑制尤度として
    算出する処理と、 (e)前記処理(d)で出力された尤度と、該尤度に対
    応する前記抑制尤度との差又は比を計算し、この値を入
    力音声の確からしさ、すなわち確信度として出力する処
    理と、の上記(a)乃至(e)の各処理を音声判定装置
    を構成するコンピュータで実行するためのプログラムを
    記録した記録媒体。
  16. 【請求項16】標準話者音声に対して音声認識のための
    特徴抽出を行ない、当該抽出結果を用いて複数のクラス
    又はカテゴリに対する平均値と分散とで表現された統計
    的な特徴量分布を有する音声標準パタンを記憶する記憶
    手段を備え、 (a)音声認識のために入力された入力音声に対して前
    記音声標準パタンの作成時と同様の特徴抽出を行ない、
    前記入力音声の特徴ベクトル列を計算する処理と、 (b)前記抽出された入力音声の特徴ベクトル列と前記
    音声標準パタンとの間で1つ以上の正解候補とこれに対
    応する尤度とを算出する処理と、 (c)前記正解候補に対応する前記音声標準パタンの統
    計的な特徴量分布の各々に対して、各次元毎に分布の両
    側又は片側近傍に平均値を持つ新たな分布を生成し、前
    記新たな分布を全次元まとめたものを該統計的特徴量に
    対する抑制標準パタンとして作成する処理と、 (d)前記特徴ベクトル列と分布間の対応情報を用い、
    前記入力音声の特徴ベクトル列と前記抑制標準パタンと
    の間の対応付けを行い、この対応付けにおける尤度を計
    算し、該尤度を前記正解候補に対応する抑制尤度として
    出力する処理と、 (e)前記処理(b)で出力された尤度と、該尤度に対
    応する前記第抑制尤度の差又は比を計算し、この値を
    入力音声の確からしさ、すなわち確信度として出力する
    処理と、の上記(a)乃至(f)の各処理を音声判定装
    置を構成するコンピュータで実行するためのプログラム
    を記録した記録媒体。
JP12827499A 1999-05-10 1999-05-10 音声判定装置及び方法並びに記録媒体 Expired - Fee Related JP3456444B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12827499A JP3456444B2 (ja) 1999-05-10 1999-05-10 音声判定装置及び方法並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12827499A JP3456444B2 (ja) 1999-05-10 1999-05-10 音声判定装置及び方法並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2000322084A JP2000322084A (ja) 2000-11-24
JP3456444B2 true JP3456444B2 (ja) 2003-10-14

Family

ID=14980786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12827499A Expired - Fee Related JP3456444B2 (ja) 1999-05-10 1999-05-10 音声判定装置及び方法並びに記録媒体

Country Status (1)

Country Link
JP (1) JP3456444B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107170455A (zh) * 2017-05-31 2017-09-15 靖西市秀美边城农业科技有限公司 一种简单语音识别装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7024359B2 (en) * 2001-01-31 2006-04-04 Qualcomm Incorporated Distributed voice recognition system using acoustic feature vector modification
JP5599064B2 (ja) * 2010-12-22 2014-10-01 綜合警備保障株式会社 音認識装置および音認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107170455A (zh) * 2017-05-31 2017-09-15 靖西市秀美边城农业科技有限公司 一种简单语音识别装置

Also Published As

Publication number Publication date
JP2000322084A (ja) 2000-11-24

Similar Documents

Publication Publication Date Title
US6618702B1 (en) Method of and device for phone-based speaker recognition
ES2311872T3 (es) Sistema y procedimiento de reconocimiento vocal automatico.
US6401063B1 (en) Method and apparatus for use in speaker verification
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US20140039896A1 (en) Methods and System for Grammar Fitness Evaluation as Speech Recognition Error Predictor
US20080312926A1 (en) Automatic Text-Independent, Language-Independent Speaker Voice-Print Creation and Speaker Recognition
CN101465123A (zh) 说话人认证的验证方法和装置以及说话人认证系统
CN101452701B (zh) 基于反模型的置信度估计方法及装置
JP5007401B2 (ja) 発音評定装置、およびプログラム
WO2018077244A1 (en) Acoustic-graphemic model and acoustic-graphemic-phonemic model for computer-aided pronunciation training and speech processing
JPWO2005096271A1 (ja) 音声認識装置及び音声認識方法
US8219386B2 (en) Arabic poetry meter identification system and method
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP3456444B2 (ja) 音声判定装置及び方法並びに記録媒体
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2008040035A (ja) 発音評定装置、およびプログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP4391179B2 (ja) 話者認識システム及び方法
JP3892173B2 (ja) 音声認識装置及び音声認識方法、並びに音声モデル作成装置及び音声モデル作成方法
JPH11249688A (ja) 音声認識装置およびその方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030701

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080801

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080801

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090801

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090801

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100801

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees