JP2001312293A - 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 - Google Patents

音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体

Info

Publication number
JP2001312293A
JP2001312293A JP2000129132A JP2000129132A JP2001312293A JP 2001312293 A JP2001312293 A JP 2001312293A JP 2000129132 A JP2000129132 A JP 2000129132A JP 2000129132 A JP2000129132 A JP 2000129132A JP 2001312293 A JP2001312293 A JP 2001312293A
Authority
JP
Japan
Prior art keywords
speech
matching
phoneme
tree
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000129132A
Other languages
English (en)
Inventor
Maki Yamada
麻紀 山田
Masakatsu Hoshimi
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000129132A priority Critical patent/JP2001312293A/ja
Publication of JP2001312293A publication Critical patent/JP2001312293A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明は音声認識技術に関するものであり、
認識性能を落とすことなく少ない計算量で音声の認識を
行うことを目的とする。 【解決手段】 認識対象語彙セットの音素表記の特徴の
似ている音素をマージした音素表記列を認識の最小単位
である音声片列に変換しこれを音素マージ音声片ツリー
に展開するステップと、前記音素マージ音声片ツリーに
従って、あらかじめ求めておいた音声の特徴を表す標準
パターンを接続し、これと未知入力音声信号の特徴ベク
トル時系列との照合を、ビームサーチを用いたDPマッ
チングにより時間整合を取りながら行う照合ステップ
と、結果が一意に決まらなかった場合に、再照合用音声
片ツリーに従って標準パターンを接続し、これと未知入
力音声との照合を行い認識結果を出力するステップを有
するもので、認識性能を落とすことなく少ない計算量で
音声の認識を行うことができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ビームサーチを用
いたDPマッチングを用いた音声認識方法およびその装
置、並びにコンピュータ読み取り可能な記憶媒体に関す
るものである。
【0002】
【従来の技術】認識対象となる音声の特徴を表現した標
準パターンと、未知入力音声信号の特徴ベクトル時系列
との照合を、ビームサーチを用いたDPマッチングにより
時間整合を取りながら行い認識する音声認識方法とし
て、日本音響学会講演論文集,平成9年9月,3-1-4「音素
の特徴点に着目した大語彙不特定話者音声認識法」が知
られている。
【0003】図16は、従来の音声認識装置のコンピュ
ータを用いた構成図を示すものである。図16におい
て、1は音声を取り込むマイク、2はA/D、3はイン
タフェース(I/F)、4はメモリ、5はCPU、6は
キーボード/ディスプレイ、7はCPUバス、8はI/
F、9は出力、10は認識対象語彙セット、15は音声
片標準パターン、19は音声片ツリーである。
【0004】上記のように構成された従来の音声認識装
置の動作を図17のフローチャートを用いて説明する。
まず最初に、従来例における認識辞書にあたる音声片ツ
リー19について、図3、図4を参照しながら説明をす
る。
【0005】標準パターンの単位として、音素片、音
素、音節、CV/VC(子音+母音/母音+子音)、V
CV、CVCなどが考えられる。これら認識の最小単位
を音声片と呼ぶ。従来例では、子音の始端から母音中心
までを表すCVと、母音中心から母音終端までを表すV
C、母音中心から母音中心までを表すVVを基本の単位
とする。VCは母音区間しか含まないが、後続子音によ
り異なるVCと定義する。
【0006】たとえば、認識対象語彙を「きりはら」
「きりゅう」「ちり」「ちりゅう」「めぐろ」「めむ
ろ」「ねむろ」「ふちゅう」の8単語としたとき、これ
らを音声片列で表すと、図4のようになる。
【0007】これを単純なツリー構造で表したものが図
3である。これを音声片ツリーと定義する。ここでは、
アークに音声片を割り当てたが、ノードに割り当てるこ
ともできる。語彙の終端にあたるノードには、その語彙
の終端であることがわかるようにしておく。このような
ノードをリーフノードと定義する。図3ではリーフノー
ドを黒丸で表している。また、ツリーの深さを、根から
数えて第1段、第2段、…と数えるとする。
【0008】以下、従来例について、図17のフローチ
ャートを参照しながらその動作を説明する。
【0009】音声片標準パターン15は、あらかじめ多
数話者が発声した学習データから学習し、音声片毎に求
めておく。本従来例では、特徴パラメータベクトルの出
現確率が複数のガウス分布の和(これを混合分布と呼
ぶ)で近似できると仮定し、学習データから、標準パタ
ーンのフレームごとにガウス分布の平均値ベクトルおよ
び共分散行列を求め、これを音声片標準パターン15と
する。
【0010】音声片ツリー19は、あらかじめ認識対象
語彙セット10から、ツリー展開処理S06において作
成しておく。
【0011】まず、音響分析処理S01は、入力された
未知音声信号を分析時間(以下フレームと呼ぶ)毎にN
個の特徴パラメータに変換される。特徴パラメータとし
ては、線形予測分析によるLPCケプストラム係数、L
PCメルケプストラム係数、メル線形予測分析によるメ
ルLPCケプストラム係数、メルスケールフィルタバン
クによるメル周波数ケプストラム係数(MFCC)な
ど、音声認識に適したものならばどのようなものを用い
ても良い。
【0012】照合処理S02では、音声片ツリー19に
したがって音声片標準パターン15を接続しながら、上
記未知入力音声の特徴パラメータ時系列と標準パターン
との照合を行う。照合は、入力フレーム同期のビームサ
ーチを用いたDPマッチングにより行う。照合の結果最
も累積スコアの高かったリーフノードを求め、このリー
フノードに対応する語彙を認識結果として出力する。
【0013】以下に、DPマッチングによる照合と、ビ
ームサーチによる枝刈りのアルゴリズムについて説明す
る。
【0014】DPマッチングは、入力音声と標準パター
ンの時間整合をとりながら照合する方法である。第j番
目の入力フレームと、音声片ツリーの第k番目のアーク
に対応する音声片mの標準パターンの第i番目のフレー
ムとの累積スコアL(i,k;j)は、次の漸化式で表
される。ただしd(i,m;j)は入力の第jフレーム
と音声片mの標準パターンの第iフレームとの距離であ
る。
【0015】
【数1】
【0016】発声終了時に、リーフノードの累積スコア
(終端アークの終端フレームにおける累積スコア)で最
も大きいものが認識結果のスコアとなる。
【0017】ビームサーチは、DPマッチングの際スコ
アの低い経路は計算せずに、スコアの高い経路だけを伸
張させながら計算していく手法である。累積スコアの低
い経路であるかどうかは、入力と辞書の格子点における
累積スコアの値が、その1フレーム前の時刻の最大累積
スコアに比べ一定値(ビーム幅)以上低くなっているか
どうかで判定する。累積スコアの低い格子点は枝刈り
し、それ以外の格子点を候補として残していく。以下に
そのアルゴリズムを示す。
【0018】入力フレーム同期に、以下の式にしたがっ
て、格子点(i,k;j)を枝刈るか、候補として残す
かの次の式によって判定をしながらDPパスを伸ばして
いくものである。
【0019】
【数2】
【0020】ビームサーチを用いたDPマッチングでは、
発声開始付近ではまだどの候補も大きなスコアの差がつ
かないため、枝刈りはあまり行われない。そして発声後
しばらくすると、発声内容とかけ離れた候補が枝刈りさ
れはじめる。
【0021】一方、認識対象語彙数が多い場合、語頭付
近の音声片の種類数は非常に多くなる。そのため上記従
来法の構成では、音声片ツリーは第1段目から大きく広
がってしまい、発声開始付近では、照合のために非常に
多くの経路について計算しなくてはならなくなってしま
う。これはすなわち、発声開始付近では探索空間が広い
と言える。
【0022】したがって、発声開始付近では、探索空間
が広い上に枝刈りがあまりなされないために、格子点候
補数は爆発的にに増えてしまう。発声開始からしばらく
すると、探索空間は広くても、枝刈りが多くなされるよ
うになるため、格子点候補数は急激に減少する。
【0023】従来法では、格子点候補数に比例して、認
識にかかる計算量も増大する。したがって、従来法では
認識にかかる計算量は図18のように時間変化する。図18
を見てわかるとおり、発声開始付近での計算量は極端に
多くなり、全体の計算量を削減するためには、発声開始
付近での計算量を削減することが肝要である。
【0024】単純に発声開始付近でのビーム幅を狭める
ことによっても発声開始付近での計算量を削減すること
はできるが、その場合正解候補が枝刈られやすくなる。
発声開始付近では発声の言いよどみなどが起こりやす
く、語頭のスコアが悪いというだけで枝刈りをしてしま
うのは問題である。
【0025】
【発明が解決しようとする課題】しかしながら上記の従
来の構成では、発声開始付近で計算量が極端に多くなる
という課題を有していた。
【0026】本発明は、上記従来の課題を解決するもの
で、正解パスが枝刈られないようにしつつ語頭付近の探
索空間を小さくするまたは語頭付近での照合にかかる計
算量を削減する、すなわち認識性能を落とさずに全体の
計算量を削減することを目的とする。
【0027】
【課題を解決するための手段】この課題を解決するため
に、本発明は、音声片ツリーの語頭付近の広がりを狭め
た音素マージ音声片ツリーを用いることによって格子点
候補数を削減する、または音声片ツリーの語頭付近にお
ける音声片標準パターンの精度を粗くしたラフ音声片ツ
リーを用いることによって照合にかかる計算量を削減す
る。
【0028】これは、ビームサーチで計算量の多い発声
の前半部分は粗い照合を、ビームサーチで計算量の少な
くなる後半部分は精密な照合をするという考え方に基づ
くものである。
【0029】これにより、発声開始付近での計算量が削
減し、認識性能を落とさずに計算量を削減することがで
きる。
【0030】
【発明の実施の形態】本発明の請求項1に記載の発明
は、未知入力音声信号を音響分析し特徴ベクトル時系列
を求めるステップと、認識対象語彙セットの音素表記の
特徴の似ている音素をマージした音素表記列を認識の最
小単位である音声片列に変換し、これを音素マージ音声
片ツリーに展開するステップと、前記音素マージ音声片
ツリーに従って、あらかじめ求めておいた音声の特徴を
表す音素マージ音声片標準パターンを接続し、これと未
知入力音声信号の特徴ベクトル時系列との照合を、ビー
ムサーチを用いたDPマッチングにより時間整合を取り
ながら行うステップと、照合結果が一意に決まる場合に
認識結果を出力するステップと、照合結果が一意に決ま
らなかった場合に、再照合を行う候補となる認識対象語
彙を抽出するステップと、再照合用の音声片ツリーを展
開するステップと、再照合用音声片ツリーに従って音声
片標準パターンを接続し、これと未知入力音声との照合
を、ビームサーチを用いたDPマッチングにより時間整
合を取りながら行い認識結果を出力するステップとを有
するものであり、音素をマージすることにより音声片ツ
リーの広がりが小さくなるため、探索空間が小さくなり
1回目の照合にかかる計算量を大幅に削減することがで
き、再照合を行ったとしても全体の計算量を削減できる
という作用を有する。さらに1回目の照合では音素マー
ジを行うことにより特徴の似ている語彙は区別せずに認
識を行うため1回目の照合で正解候補が漏れる可能性が
低いという利点がある。
【0031】請求項2に記載の発明は、請求項1記載の
音声認識方法において、音素マージ音声片ツリーに展開
するステップは、認識対象語彙セットの音素表記の語頭
から第N番目の音素までのうち特徴の似ている音素をマ
ージした音素表記列を認識の最小単位である音声片列に
変換し、これを音素マージ音声片ツリーに展開すること
を特徴とするものであり、語頭から第N番目の音素まで
のうち特徴の似ている音素をマージすることにより、特
に探索空間の広い語頭付近のツリーの広がりを狭めるこ
とができるため、探索空間が小さくなり1回目の照合に
かかる計算量を大幅に削減することができ、再照合を行
ったとしても全体の計算量を削減できるという作用を有
する。さらに1回目の照合では音素マージを行うことに
より特徴の似ている語彙は区別せずに認識を行うため1
回目の照合で正解候補が漏れる可能性が低いという利点
がある。
【0032】請求項3に記載の発明は、請求項1または
2記載の音声認識方法において、音素のマージは、子音
を音素群毎にまとめてマージすることを特徴とするもの
であり、カテゴリー数が多く比較的認識が難しい子音を
音響特徴の似通った音素群毎にまとめてマージするた
め、マージによる誤差が小さく認識性能を落とさずに効
率よく計算量削減することができるという作用を有す
る。
【0033】請求項4に記載の発明は、未知入力音声信
号を音響分析し特徴ベクトル時系列を求めるステップ
と、認識対象語彙セットの音素表記列の語頭から第N番
目の音素までを、精度の粗い音声片標準パターンを持つ
ラフ音声片の系列に変換し、第N番目以降の音素を精密
な音声片標準パターンを持つ精密音声片の系列に変換
し、これをラフ音声片ツリーに展開するステップと、前
記ラフ音声片ツリーに従って、あらかじめ求めておいた
音声の特徴を表す音声片標準パターンおよび音素マージ
音声片標準パターンを接続し、これと未知入力音声信号
の特徴ベクトル時系列との照合を、ビームサーチを用い
たDPマッチングにより時間整合を取りながら行うステ
ップと、照合の結果から再照合を行う候補となる認識対
象語彙を抽出するステップと、再照合用の音声片ツリー
を展開するステップと、再照合用音声片ツリーに従って
精密な音声片標準パターンを接続し、これと未知入力音
声との照合を、ビームサーチを用いたDPマッチングに
より時間整合を取りながら行い認識結果を出力するステ
ップとを有するものであり、語頭付近での1回目の照合
では音声片ツリーの前半部分は精度の粗いラフ音声片標
準パターンを用いるため、1回目の照合にかかる計算量
を大幅に削減することができ、再照合を行っても全体の
計算量を削減できるという作用を有する。また再照合を
行うことにより認識性能を落とさずに認識することがで
きる。
【0034】請求項5に記載の発明は、未知入力音声信
号を音響分析し特徴ベクトル時系列を求めるステップ
と、認識対象語彙セットの音素表記列の語頭から第N番
目の音素までを、精度の粗い音声片標準パターンを持つ
ラフ音声片の系列に変換し、第N番目以降の音素を精密
な音声片標準パターンを持つ精密音声片の系列に変換
し、これをラフ音声片ツリーに展開するステップと、前
記ラフ音声片ツリーに従って、あらかじめ求めておいた
音声の特徴を表す音声片標準パターンおよび音素マージ
音声片標準パターンを接続し、これと未知入力音声信号
の特徴ベクトル時系列との照合を、ビームサーチを用い
たDPマッチングにより時間整合を取りながら行い認識
結果を出力するステップとを有するものであり、音声片
ツリーの前半部分のみ精度の粗いラフ音声片標準パター
ンを用いて照合し、再照合をしないため、計算量は大幅
に削減できるという作用を有する。音声片の標準パター
ンの精度を粗くするのは探索空間の広い語頭付近だけで
あるため、一律に音声片の標準パターンの精度を粗くす
るよりも効率的に計算量削減することができる。
【0035】請求項6に記載の発明は、請求項4または
5記載の音声認識方法において、精度を粗い音声片の標
準パターンは、ラフ音声片1つの音声片あたりにかかる
距離計算量を精密音声片1つあたりにかかる計算量に比
べ削減することを特徴とするものであり、1つの音声片
あたりにかかる距離計算量を削減する処理を設けること
により、容易に計算量を削減することができるという作
用を有する。
【0036】請求項7に記載の発明は、請求項4または
5記載の音声認識方法において、精度を粗い音声片の標
準パターンは、認識結果が一意に決まる範囲内で、異な
る音韻環境の音声片をマージすることを特徴とするもの
であり、認識結果が一意に決まる範囲内で、異なる音韻
環境の音声片をマージする処理を設けることにより、語
頭付近の探索空間が狭まり効率よく計算量を削減するこ
とができるという作用を有する。
【0037】請求項8に記載の発明は、請求項6記載の
音声認識方法において、音声片の距離計算量にかかるコ
ストの削減は、ラフ音声片標準パターンのフレーム数を
少なくすることを特徴とするものであり、音声片標準パ
ターンのフレーム数を削減する処理を設けることによ
り、容易に計算量を削減することができるという作用を
有する。
【0038】請求項9に記載の発明は、請求項6記載の
音声認識方法において、音声片の距離計算にかかるコス
トの削減は、特徴パラメータベクトルの出現確率が複数
のガウス分布の和、すなわちガウス分布の混合分布で近
似できると仮定したとき、ラフ音声片標準パターンのガ
ウス分布の混合数を少なくすることを特徴とするもので
あり、音声片標準パターンのガウス分布の混合数を削減
する処理を設けることにより、容易に計算量を削減する
ことができるという作用を有する。
【0039】請求項10に記載の発明は、請求項9記載
の音声認識方法において、音声片の距離計算にかかるコ
ストの削減は、特徴パラメータベクトルの出現確率が複
数のガウス分布の和、すなわちガウス分布の混合分布で
近似できると仮定したとき、ラフ音声片標準パターンの
ガウス分布の共分散行列の種類数を少なくすることを特
徴とするものであり、音声片標準パターンのガウス分布
の共分散行列を共通化する処理を設けることにより、容
易に計算量を削減することができるという作用を有す
る。
【0040】請求項11に記載の発明は、請求項1、
4、5のいずれかに記載の音声認識方法において、再照
合の際、未知入力音声の前半部分とのみ照合を行い認識
結果を出力することを特徴とするものであり、未知入力
音声の前半部分とのみ照合を行い認識結果を出力する処
理を設けることにより、再照合する区間が短くてすむた
め、再照合にかかる計算量を抑えることができるという
作用を有する。
【0041】請求項12に記載の発明は、請求項1、
4、5のいずれかに記載の音声認識方法において、再照
合の際、未知入力音声の発声区間すべてと照合を行い認
識結果を出力することを特徴とするものであり、未知入
力音声の発声区間すべてと照合を行い認識結果を出力す
る処理を設けることにより、より精密な再照合が行える
ため認識性能の劣化が少なくてすむという作用を有す
る。
【0042】請求項13に記載の発明は、請求項1、
4、5のいずれかに記載の音声認識方法において、未知
入力音声の発声区間を特定せず、異なる始端を認める連
続DPマッチングを用いたことを特徴とするものであり、
発声区間を特定しなくても、認識することができるとい
う作用を有する。
【0043】請求項14に記載の発明は、未知入力音声
信号を音響分析し特徴ベクトル時系列を求める音響分析
手段と、認識対象語彙セットの音素表記の特徴の似てい
る音素をマージした音素表記列を認識の最小単位である
音声片列に変換し、これを音素マージ音声片ツリーに展
開するツリー展開手段と、前記音素マージ音声片ツリー
に従って、あらかじめ求めておいた音声の特徴を表す音
素マージ音声片標準パターンを接続し、これと未知入力
音声信号の特徴ベクトル時系列との照合を、ビームサー
チを用いたDPマッチングにより時間整合を取りながら
行う照合手段と、照合結果が一意に決まるか否かを判定
し、一意に決まる場合に認識結果を出力する判定手段
と、照合結果が一意に決まらなかった場合に、再照合を
行う候補となる認識対象語彙を抽出する再照合候補抽出
手段と、再照合用の音声片ツリーを展開する再照合用ツ
リー展開手段と、再照合用音声片ツリーに従って音声片
標準パターンを接続し、これと未知入力音声との照合
を、ビームサーチを用いたDPマッチングにより時間整
合を取りながら行い認識結果を出力する再照合手段とを
有するもので、音素をマージすることにより音声片ツリ
ーの広がりが小さくなるため、探索空間が小さくなり1
回目の照合にかかる計算量を大幅に削減することがで
き、再照合を行ったとしても全体の計算量を削減できる
という作用を有する。
【0044】請求項15に記載の発明は、未知入力音声
信号を音響分析し特徴ベクトル時系列を求める音響分析
手段と、認識対象語彙セットの音素表記列の語頭から第
N番目の音素までを、精度の粗い音声片標準パターンを
持つラフ音声片の系列に変換し、第N番目以降の音素を
精密な音声片標準パターンを持つ精密音声片の系列に変
換し、これをラフ音声片ツリーに展開するツリー展開手
段と、前記ラフ音声片ツリーに従って、あらかじめ求め
ておいた音声の特徴を表す音声片標準パターンおよび音
素マージ音声片標準パターンを接続し、これと未知入力
音声信号の特徴ベクトル時系列との照合を、ビームサー
チを用いたDPマッチングにより時間整合を取りながら
行う照合手段と、照合の結果から再照合を行う候補とな
る認識対象語彙を抽出する再照合候補抽出手段と、再照
合用の音声片ツリーを展開する再照合ツリー展開手段
と、再照合用音声片ツリーに従って精密な音声片標準パ
ターンを接続し、これと未知入力音声との照合を、ビー
ムサーチを用いたDPマッチングにより時間整合を取り
ながら行い認識結果を出力する再照合手段とを有するも
ので、語頭付近での1回目の照合では音声片ツリーの前
半部分は精度の粗いラフ音声片標準パターンを用いるた
め、1回目の照合にかかる計算量を大幅に削減すること
ができ、再照合を行っても全体の計算量を削減できると
いう作用を有する。
【0045】請求項16に記載の発明は、未知入力音声
信号を音響分析し特徴ベクトル時系列を求める音響分析
手段と、認識対象語彙セットの音素表記列の語頭から第
N番目の音素までを、精度の粗い音声片標準パターンを
持つラフ音声片の系列に変換し、第N番目以降の音素を
精密な音声片標準パターンを持つ精密音声片の系列に変
換し、これをラフ音声片ツリーに展開するツリー展開手
段と、前記ラフ音声片ツリーに従って、あらかじめ求め
ておいた音声の特徴を表す音声片標準パターンおよび音
素マージ音声片標準パターンを接続し、これと未知入力
音声信号の特徴ベクトル時系列との照合を、ビームサー
チを用いたDPマッチングにより時間整合を取りながら
行い認識結果を出力する照合手段とを有するもので、音
声片ツリーの前半部分のみ精度の粗いラフ音声片標準パ
ターンを用いて照合し、再照合をしないため、計算量は
大幅に削減できるという作用を有する。
【0046】請求項17に記載の発明は、プログラムさ
れたコンピュータによって音声を認識するプログラムを
記録した記録媒体であって、未知入力音声信号を音響分
析し特徴ベクトル時系列を求めるステップと、認識対象
語彙セットの音素表記の特徴の似ている音素をマージし
た音素表記列を認識の最小単位である音声片列に変換
し、これを音素マージ音声片ツリーに展開するステップ
と、前記音素マージ音声片ツリーに従って、あらかじめ
求めておいた音声の特徴を表す音素マージ音声片標準パ
ターンを接続し、これと未知入力音声信号の特徴ベクト
ル時系列との照合を、ビームサーチを用いたDPマッチ
ングにより時間整合を取りながら行うステップと、照合
結果が一意に決まる場合に認識結果を出力するステップ
と、照合結果が一意に決まらなかった場合に、再照合を
行う候補となる認識対象語彙を抽出するステップと、再
照合用の音声片ツリーを展開するステップと、再照合用
音声片ツリーに従って音声片標準パターンを接続し、こ
れと未知入力音声との照合を、ビームサーチを用いたD
Pマッチングにより時間整合を取りながら行い認識結果
を出力するステップとを有することを特徴とするコンピ
ュータ読み取り可能な記憶媒体であり、コンピュータに
読み込み実行するものであり、音素をマージすることに
より音声片ツリーの広がりが小さくなるため、探索空間
が小さくなり1回目の照合にかかる計算量を大幅に削減
することができ、再照合を行ったとしても全体の計算量
を削減できるという作用を有する。
【0047】請求項18に記載の発明は、プログラムさ
れたコンピュータによって音声を認識するプログラムを
記録した記録媒体であって、未知入力音声信号を音響分
析し特徴ベクトル時系列を求めるステップと、認識対象
語彙セットの音素表記列の語頭から第N番目の音素まで
を、精度の粗い音声片標準パターンを持つラフ音声片の
系列に変換し、第N番目以降の音素を精密な音声片標準
パターンを持つ精密音声片の系列に変換し、これをラフ
音声片ツリーに展開するステップと、前記ラフ音声片ツ
リーに従って、あらかじめ求めておいた音声の特徴を表
す音声片標準パターンおよび音素マージ音声片標準パタ
ーンを接続し、これと未知入力音声信号の特徴ベクトル
時系列との照合を、ビームサーチを用いたDPマッチン
グにより時間整合を取りながら行うステップと、照合の
結果から再照合を行う候補となる認識対象語彙を抽出す
るステップと、再照合用の音声片ツリーを展開するステ
ップと、再照合用音声片ツリーに従って精密な音声片標
準パターンを接続し、これと未知入力音声との照合を、
ビームサーチを用いたDPマッチングにより時間整合を
取りながら行い認識結果を出力するステップとを有する
ことを特徴とするコンピュータ読み取り可能な記憶媒体
であり、コンピュータに読み込み実行するもので、語頭
付近での1回目の照合では音声片ツリーの前半部分は精
度の粗いラフ音声片標準パターンを用いるため、1回目
の照合にかかる計算量を大幅に削減することができ、再
照合を行っても全体の計算量を削減できるという作用を
有する。
【0048】請求項19に記載の発明は、プログラムさ
れたコンピュータによって音声を認識するプログラムを
記録した記録媒体であって、未知入力音声信号を音響分
析し特徴ベクトル時系列を求めるステップと、認識対象
語彙セットの音素表記列の語頭から第N番目の音素まで
を、精度の粗い音声片標準パターンを持つラフ音声片の
系列に変換し、第N番目以降の音素を精密な音声片標準
パターンを持つ精密音声片の系列に変換し、これをラフ
音声片ツリーに展開するステップと、前記ラフ音声片ツ
リーに従って、あらかじめ求めておいた音声の特徴を表
す音声片標準パターンおよび音素マージ音声片標準パタ
ーンを接続し、これと未知入力音声信号の特徴ベクトル
時系列との照合を、ビームサーチを用いたDPマッチン
グにより時間整合を取りながら行い認識結果を出力する
ステップとを有することを特徴とするコンピュータ読み
取り可能な記憶媒体であり、コンピュータに読み込み実
行するもので、音声片ツリーの前半部分のみ精度の粗い
ラフ音声片標準パターンを用いて照合し、再照合をしな
いため、計算量は大幅に削減できるという作用を有す
る。
【0049】以下、本発明の実施の形態について図を用
いて説明する。
【0050】(実施の形態1)図1は、本発明の実施の
形態1における音声認識装置のブロック構成図であり、
以下に説明する。
【0051】図1において、1は音声を取り込むマイ
ク、2はA/D、3はインタフェース(I/F)、4は
メモリ、5はCPU、6はキーボード/ディスプレイ、
7はCPUバス、8はI/F、9は出力、10は認識対
象語彙セット、11は音素マージ音声片ツリー、12は
ラフ音声片ツリー、13は再照合用前半音声片ツリー、
14は再照合用音声片ツリー、15は音声片標準パター
ン、16は音素マージ音声片標準パターン、17はラフ
音声片標準パターン、18は精密音声片標準パターンで
ある。
【0052】まず最初に、実施の形態1における認識辞
書に当たる音素マージ音声片ツリー11について、図
3、図4、図5を参照しながら説明をする。
【0053】標準パターンの単位として、音素片、音
素、音節、CV/VC(子音+母音/母音+子音)、V
CV、CVCなどが考えられる。これら認識の最小単位
を音声片と呼ぶ。本実施の形態では、子音の始端から母
音中心までを表すCVと、母音中心から母音終端までを
表すVC、母音中心から母音中心までを表すVVを基本
の単位とする。VCは母音区間しか含まないが、後続子
音により異なるVCと定義する。
【0054】たとえば、認識対象語彙を「きりはら」
「きりゅう」「ちり」「ちりゅう」「めぐろ」「めむ
ろ」「ねむろ」「ふちゅう」の8単語としたとき、これ
らを音声片列で表すと、図4のようになる。
【0055】これを単純なツリー構造で表したものが図
3である。本実施の形態では、これを基本音声片ツリー
と定義する。これは従来例で用いている音声片ツリーと
同じものである。ここでは、アークに音声片を割り当て
たが、ノードに割り当てることもできる。語彙の終端に
あたるノードには、その語彙の終端であることがわかる
ようにしておく。このようなノードをリーフノードと定
義する。図3ではリーフノードを黒丸で表している。ま
た、ツリーの深さを、根から数えて第1段、第2段、…
と数えるとする。
【0056】音素マージ音声片ツリー11は、基本音声
片ツリーのうち第1段〜第n段までの音素をマージする
ことにより、語頭のツリーの広がりを小さくしたもので
ある。第n+1段以降は基本音声片ツリーそのままであ
る。
【0057】第1段〜第n段までの音素マージは以下の
方法で行う。日本語の母音は、5種類しかなくこれらを
識別することは比較的容易であるが、子音はカテゴリー
数も多く識別が難しい。そこで、子音は音素群(無声破
裂音、摩擦音、有性破裂音など)毎にまとめてマージ
し、同じ音素群内の子音は区別をしないとする。すなわ
ち、子音は、音素の区別は行わず、無声破裂音や摩擦音
のような音素群の区別しか行わない。語頭音素が1文字
違うだけの「きりゅう」と「ちりゅう」は区別を付けず
に照合することになる。
【0058】音響特徴の似通った子音の音素群内でのマ
ージを行うため、マージによる誤差が少なく、しかも異
なる音素群間の識別は音響特徴がかけ離れているため容
易である。したがって、正解候補が枝刈られることはほ
とんどなく認識性能の低下が少ない。本実施の形態で
は、子音を図5のような4つのカテゴリーに分ける。
【0059】音素をマージするとことにより音声片もマ
ージされる。CVは後続母音が同じ場合に、VCは先行
音素が同じ場合にマージする。音素群毎に音素をマージ
して得られる音声片を音素マージ音声片と定義する。音
素マージ音声片のマージ方法と表記法の例を図6に示
す。
【0060】基本音声片ツリーのうち、第1段〜第n段
までの音声片を、音素マージ音声片とすることにより、
同じ音素マージ音声片を割り当てられたアーク同士をマ
ージして語頭付近の広がりの小さいツリーにすることが
できる。これが音素マージ音声片ツリーである。
【0061】図3の基本音声片ツリーを、第1段〜第3
段(n=3)までの音声片をマージして音素マージ音声
片ツリーに変換したのが図7である。図7の音素マージ
音声片ツリーは、図3の音声片ツリーに比べ、語頭付近
のツリーの広がりが狭くなっている。nを1とすると語
頭の1番目の音声片だけをマージしたことになり、∞と
するとすべての音声片をマージすることになる。nの大
きさは、計算量がリアルタイムで収まる程度に決めてお
くと効率が良い。音素マージ音声片ツリーでは、「きり
ゅう」と「ちりゅう」のようにリーフノードに複数の語
彙が割り当てられることがある。
【0062】次に、本発明の実施の形態1における音声
認識装置について、図2のフローチャートを参照しなが
らその動作を説明する。
【0063】図2において、音声片標準パターン15
は、あらかじめ多数話者が発声した学習データから学習
し、音声片毎に求めておく。また、音素マージ音声片標
準パターン16は、マージする音声片すべての学習デー
タから学習することにより求められる。たとえば、音声
片/{p,t,k,c}i/に対する標準パターンは、
/pi/(ピ)、/ti/(ティ)、/ki/(キ)、
/ci/(チ)のすべての学習データから学習すること
により得られる。これを、あらかじめすべての音素マー
ジ音声片について求めておくものとする。
【0064】本実施の形態では、特徴パラメータベクト
ルの出現確率が複数のガウス分布の和(これを混合分布
と呼ぶ)で近似できると仮定し、学習データから、標準
パターンのフレームごとにガウス分布の平均値ベクトル
および共分散行列を求め、これを標準パターンとする。
【0065】音素マージ音声片ツリー11は、あらかじ
め認識対象語彙セット10から、ツリー展開処理S07
において作成しておく。
【0066】まず、音響分析処理S01は、入力された
未知音声信号を分析時間(以下フレームと呼ぶ)毎にD
個の特徴パラメータに変換される。特徴パラメータとし
ては、線形予測分析によるLPCケプストラム係数、L
PCメルケプストラム係数、メル線形予測分析によるメ
ルLPCケプストラム係数、メルスケールフィルタバン
クによるメル周波数ケプストラム係数(MFCC)な
ど、音声認識に適したものならばどのようなものを用い
ても良い。
【0067】照合処理S02では、音素マージ音声片ツ
リー11にしたがって音素マージ音声片標準パターン1
6および音声片標準パターン15を接続しながら、音響
分析処理S01からの未知入力音声の特徴パラメータ時
系列と標準パターンとの照合を行う。照合は、入力フレ
ーム同期のビームサーチを用いたDPマッチングにより
行う。DPマッチングの方法およびビームサーチの方法
は、従来例と同じであるため説明を省略する。この照合
を一回目の照合と呼ぶ。
【0068】なお、本実施の形態では、音素マージ音声
片ツリー11はあらかじめ作成しておくとしたが、ビー
ムサーチDPを行いながら動的にツリー展開してもよ
い。
【0069】入力フレーム同期のビームサーチを用いた
DPについて、その概念図を表したものが図9である。
図9において、横軸は入力音声のフレーム、縦軸は音素
マージ音声片ツリーにしたがって接続した音声片標準パ
ターンのフレームを表している。辞書である縦軸はツリ
ー状になっている。入力音声とツリー状の辞書のDPマ
ッチングは、図9のようなツリー状のDP面上での入力
と標準パターンの最適な経路を求めながらスコアを算出
するものである。このツリー状のDP面は、第1段〜第
n段までが音素マージされており枝の広がりは小さくな
っている。
【0070】DPマッチングは、ビームサーチにより入
力フレーム同期にDP経路の枝刈りを行う。ビーム内に
残る格子点候補数はDP面のすべての格子点数に比べは
るかに少ないため、このDP面は実際にメモリ上に持つ
必要はなく、仮想的なものである。
【0071】発声開始からしばらくすると、発声内容と
似ていない辞書のDPパスの累積スコアは、正解パスの
累積スコアに比べ十分小さな値になり枝刈られるため、
格子点候補数は急激に減少する。したがって、それまで
の間の格子点候補数を抑えることが全体の計算量削減に
つながる。第一の実施の形態のように語頭付近のツリー
の広がりを抑えることにより、発声開始付近のビーム内
に残る格子点候補数は大幅に削減することができる。
【0072】判定処理S03では、DPマッチングによ
り最も累積スコアの高かったリーフノード(最大ゆう度
リーフノード)を求め、これに対応する語彙が一意に決
まるかどうかの判定を行う。もし、一意に決まる場合
(Y)、すなわち最大ゆう度リーフノードに対応する語
彙が1個しかない場合は、その語彙を認識結果として出
力する。もし、一意に決まらない場合(N)、すなわち
最大ゆう度リーフノードに対応する語彙が複数存在する
場合には、次のような方法で認識結果を決定する。
【0073】再照合候補抽出処理S05において、再照
合候補を抽出する。本実施の形態では、再照合候補を最
大ゆう度リーフノードに対応する語彙とする。他の方法
としては、最大ゆう度リーフノードだけでなく、ビーム
内に残った累積スコアの上位K個のリーフノードに対応
する語彙をすべて再照合候補とする方法もある。
【0074】次に、再照合用ツリー展開処理S06にお
いて、再照合候補の語彙に対して音素マージを行わない
第1段〜第n段までの音声片ツリーを展開する。この音
声片ツリーを再照合用前半音声片ツリー13とする。再
照合用前半音声片ツリー13は、第1段〜第n段で認識
語彙が一意に決まる。そこで、第n段の終端ノードにそ
の語彙を割り当てておく。再照合候補が「めぐろ」「め
むろ」「ねむろ」の3単語、n=3であった場合の、再
照合用前半音声片ツリー13の例を図8に示す。
【0075】本実施の形態では、照合処理S02をあら
かじめDPマッチングを行う際、第1段の始端ノードに
対応する入力フレーム位置Fsと、第n段の終端ノード
に対応する入力フレーム位置Feを記憶しておく必要が
ある。
【0076】前半再照合処理S04では、再照合用前半
音声片ツリー13にしたがって接続した音声片標準パタ
ーン15と、フレームFsからフレームFeまでの入力
音声とを、DPマッチングにより再照合する。再照合の
場合は、認識対象語彙が少ないためビームサーチは必ず
しも行わなくてもよい。再照合の結果、最も累積スコア
の高かった再照合用ツリーの第n段の終端ノードに対応
する語彙を認識結果として出力する。
【0077】なお、ビーム内に残った累積スコアの上位
K個のリーフノードに対応する語彙をすべて再照合候補
とする方法の場合には、発声の前半部分のスコア、すな
わち再照合の結果求まる入力フレームFsからフレーム
FeまでのスコアSaと、発声の後半部分のスコア、す
なわち一回目の照合の結果求まる入力フレームFe+1
から発声の終端フレームまでのスコアSbとの和Sを、
再照合候補の語彙すべてについて求め、Sの最も大きい
語彙を認識結果とする。
【0078】本実施の形態では、音素マージを行うのは
一律第1段〜第n段としたが、すべての段において行っ
ても良い。また、ツリーの密集しているところは深くし
たりするなど部分的に変えても良い。再照合を行うのも
一律第n段の終端ノードまでではなく、単語が一意に決
まるノードまでとしてもよい。すべての段において音素
マージを行う場合には一回目の照合では音素マージして
いない音声片標準パターン15を使用する必要はない。
【0079】また、本実施の形態では、最大ゆう度リー
フノードに対応する語彙が1個であった場合は再照合を
行わないとしたが、その場合でも、最大ゆう度リーフノ
ードだけでなく、ビーム内に残った累積スコアの上位K
個のリーフノードに対応する語彙をすべて再照合候補と
してもよい。
【0080】以上のように、本実施の形態によれば、第
一段から第n段までの音声片について、同じ音素群に属
する子音をマージした音素マージ音声片ツリーを用いる
ことにより、一回目の照合における計算量を大幅に削減
することができ、再照合を行ったとしても全体の計算量
は大幅に削減することができるという効果があります。
【0081】また、この方法では似た音素を区別しない
で認識するため、一回目の照合で正解候補が漏れる可能
性が低く、認識性能を劣化させずに計算量を削減するこ
とができるという効果があります。
【0082】さらに、本実施の形態では、再照合は1回
目の照合で第1段の始端ノードに対応する入力フレーム
位置Fsと第n段の終端ノードに対応する入力フレーム
位置Feを記憶しておき、FsからFeまでの間でのみ
再照合を行えばよいため、再照合にかかる計算量は非常
に少なくてすむという効果があります。
【0083】(実施の形態2)次に、本発明の実施の形
態2の音声認識装置について、図10のフローチャート
を参照しながらその動作を説明する。
【0084】実施の形態1と異なるのは、再照合用前半
音声片ツリー13が再照合用音声片ツリー14に、前半
再照合処理S04が再照合処理S21になっていること
である。再照合用音声片ツリー14は、実施の形態1と
異なり、第1段〜第n段だけではなく、単語終端までを
表すツリーになっている。
【0085】実施の形態2の動作は、ほぼ実施の形態1
と同じであるため、異なる部分についてのみ説明する。
【0086】実施の形態1では、再照合は、1回目の照
合のときに音素マージ音声片ツリーの音素マージを行っ
た第1段〜第n段に対応していた入力区間についてのみ
行ったが、実施の形態2では、発声区間全体について再
照合を行う。
【0087】再照合用ツリー展開処理S09では、再照
合候補の語彙に対して音素マージを行わない音声片ツリ
ーを展開する。この音声片ツリーを再照合用音声片ツリ
ー14とする。再照合用音声片ツリー14は、第1段〜
第n段までではなく、単語終端までを表す音声片ツリー
である。
【0088】再照合候補が「めぐろ」「めむろ」「ねむ
ろ」の3単語であった場合の、再照合用音声片ツリーの
例を図11に示す。
【0089】本実施の形態では、照合処理S02で、第
1段の始端ノードに対応する入力フレーム位置および、
第n段の終端ノードに対応する入力フレーム位置を記憶
しておく必要はない。
【0090】再照合処理S21では、再照合用音声片ツ
リー14にしたがって接続した音声片標準パターン15
と、入力音声の発声開始から発声終了までを、DPマッ
チングにより再照合する。再照合の場合は、実施の形態
1と同様、認識対象語彙が少ないためビームサーチは必
ずしも行わなくてよもい。
【0091】再照合処理S21の結果、最も累積スコア
の高かった再照合用ツリーのリーフノードに対応する語
彙を認識結果として出力する。
【0092】以上のように、実施の形態2によれば、1
回目の照合で第n段の終端ノードに対応する入力フレー
ム位置が最適な位置ではなかった場合に、発声区間の開
始から終了までを再照合することにより、より精密な照
合を行うことができるため、実施の形態1に比べさらに
認識性能が向上するという効果があります。
【0093】また、実施の形態2では、第1段の始端ノ
ードに対応する入力フレーム位置Fsと第n段の終端ノ
ードに対応する入力フレーム位置Feを記憶しておく必
要がないため1回目の認識処理およびメモリ容量は実施
の形態1に比べ少なくてすむという効果があります。
【0094】また、実施の形態2のように、発声区間の
開始から終了までを再照合する場合には、再照合の距離
尺度は1回目のものとまったく違うものを用いてもかま
わない。そのため、再照合の際には数単語のみより精密
に認識できる方法を用いて、より高い認識性能を得るこ
ともできる。
【0095】(実施の形態3)次に、本発明の実施の形
態3における音声認識装置について、図12のフローチ
ャートを参照しながらその動作を説明する。
【0096】実施の形態1と異なるのは、音素マージ音
声片ツリー11がラフ音声片ツリー12に、音素マージ
音声片標準パターン16がラフ音声片標準パターン17
に、音声片標準パターン15が精密音声片標準パターン
18になっていること、および判定処理S03が不要な
ことである。
【0097】精密音声片標準パターン18は、実施の形
態1の音声片標準パターン15と同じものである。実施
の形態3では、ラフ音声片と対比づけるために通常の音
声片を精密音声片と呼ぶことにする。
【0098】ラフ音声片ツリー12およびラフ音声片標
準パターン17について以下に説明する。ラフ音声片
は、音声片の標準パターンの精度を粗くしたものとして
定義する。その方法としては、次の二つが考えられる。
【0099】一つ目は、ラフ音声片1つの音声片あたり
にかかる距離計算量を精密音声片1つあたりにかかる計
算量に比べ削減する方法である。具体的には、ラフ音声
片標準パターンの、フレーム数を少なくする方法、ガウ
ス分布の混合数を削減する方法、ガウス分布の共分散行
列を共通化して共分散行列の種類数を削減する方法など
が考えられる。この方法では音声片ツリーの形状は変わ
らない。
【0100】二つ目は、認識結果が一意に決まる範囲内
で、異なる音韻環境の音声片をマージする方法である。
この方法によっても、ツリーのアークとノードが減るた
め計算量を削減することができる。たとえば、VCは母
音部分が同じであれば後続子音が異なっていても1つの
音声片にマージするなどが考えられる。この方法では、
音声片ツリーの形状が変わることがある。音声片の単位
として音素を用いる場合は、音素の前後の音素環境によ
って異なる音声片とすることが多いが、中心音素が同じ
場合には1つの音声片にマージすることにより、ツリー
の広がりを大幅に抑えることが可能になる。当然のこと
ながら中心音素が同じであればマージを行っても認識結
果は必然的に一意に決まる。
【0101】実施の形態3では、標準パターンのフレー
ム数を削減する方法と、母音部分が同じで後続子音の異
なるVCをマージする方法の両方を行う。前者は音声片
記号の上にバーをつけて表記し、後者は子音部分をアス
タリスクで置き換えて表記することとする。
【0102】図13は、図3の基本音声片ツリーを、第
1段〜第3段(n=3)までの音声片をラフ音声片とし
たラフ音声片ツリーである。第4段以降は、基本音声片
ツリーと同じである。ツリーの形状は図2と若干変わっ
ている。なお、VCのマージは、後続子音が同じ音素群
の場合のみに限っても良い。
【0103】ラフ音声片標準パターン17は、以下のよ
うにあらかじめ学習し求めておく。標準パターンのフレ
ーム数をもとのフレーム数の半分に減らして学習する。
さらにVCは母音部分が同じ音声片すべての学習データ
から学習する。たとえば、音声片/e*/に対する標準
パターンは、母音部分が/e/で後続子音が異なる音声
片/em/,/en/,/eg/,/eb/,…のすべ
ての学習データから学習することにより得られる。
【0104】実施の形態3の動作は、ほぼ実施の形態1
と同じであるため、異なる部分についてのみ説明する。
【0105】照合処理S02では、ラフ音声片ツリー1
2にしたがってラフ音声片標準パターン17および精密
音声片標準パターン18を接続しながら、実施の形態1
と同様にして、未知入力音声の特徴パラメータ時系列と
標準パターンとの照合を行う。
【0106】照合を行った後、再照合候補抽出処理S0
5で、再照合候補を抽出する。本実施の形態では、ビー
ム内に残った累積スコアの上位K個のリーフノードに対
応するK個の語彙を再照合候補とする。実施の形態1と
同様に再照合候補に対して再照合用前半音声片ツリー1
3を展開し、前半再照合処理S04において発声前半部
分について精密な音声片標準パターンで照合を行う。
【0107】再照合の結果求まる発声の前半部分のスコ
アSaと、一回目の照合の結果求まる発声の後半部分の
スコアSbとの和Sを、再照合候補の語彙すべてについ
て求め、Sの最も大きい語彙を認識結果とする。
【0108】本実施の形態では、音素マージを行うのは
一律第1段〜第n段としたが、ツリーの密集していると
ころは深くしたりするなど部分的に変えても良い。再照
合を行うのも一律第n段の終端ノードまでではなく、単
語が一意に決まるノードまでとしてもよい。
【0109】以上のように、実施の形態3によれば、音
声片の標準パターンの精度を粗くしたラフ音声片ツリー
を用いることにより、ラフ音声片の照合にかかる計算量
が少なくてすむため、一回目の照合における計算量を大
幅に削減することができ、再照合を行っても全体の計算
量は削減できる。
【0110】発声開始直後の計算量の多いところは粗い
照合を、発声開始後しばらくしてからの計算量の少ない
ところは精密な照合をするため効率が良いという効果が
あります。
【0111】(実施の形態4)次に、本発明の実施の形
態4の音声認識装置について、図14のフローチャート
を参照しながらその動作を説明する。
【0112】実施の形態3と異なるのは、前半再照合処
理S04が再照合処理S21に、再照合用前半音声片ツ
リー13が再照合用音声片ツリー14になっていること
である。実施の形態4は、実施の形態3と実施の形態2
の組み合わせである。再照合処理S21と再照合用音声
片ツリー14は、実施の形態2と同じである。
【0113】実施の形態4の動作は、ほぼ実施の形態3
と同じであるが、再照合用ツリー展開処理S06におい
て再照合用音声片ツリー14を作成し、音声の前半部分
のみ前半再照合処理S21において再照合を行うところ
は、実施の形態2と同じである。
【0114】(実施の形態5)次に、本発明の実施の形
態5における音声認識装置について、図15フローチャ
ートを参照しながらその動作を説明する。
【0115】実施の形態3と異なるのは、前半再照合処
理S04、再照合候補抽出処理S06、再照合用ツリー
展開処理S06、再照合用前半音声片ツリー13が不要
なことである。
【0116】実施の形態3では、一回目の照合で認識結
果は一意に決まるため、再照合を行わなくても認識結果
を出力することができる。そこで再照合を行わずに認識
結果を出力するとしたのが実施の形態5である。実施の
形態5の動作は、再照合を行わずに一回目の照合の結果
をそのまま認識結果とする以外は実施の形態3と同じで
ある。
【0117】実施の形態5では、実施の形態3に比べ、
再照合を行わないため認識性能は劣化するが計算量は大
幅に削減できる。その場合でも音声片の標準パターンの
精度を粗くするのは探索空間の広い語頭付近だけである
ため、一律に音声片の標準パターンの精度を粗くするよ
りも効率的な計算量削減が図れる。また、実施の形態5
では、再照合の必要がないため、入力音声の特徴パラメ
ータ情報を記憶しておく必要がなく容量も小さくてすむ
という利点がある。
【0118】
【発明の効果】以上のように本発明は、特徴の似ている
音素をマージした音声片を用いて照合を行い、認識結果
が一意に決まらなかった場合にのみ再照合を行うことに
より、認識性能を落とさずに計算量を削減することがで
きる。
【0119】また、語頭付近について音声片の標準パタ
ーンの精度を粗くしたラフ音声片ツリーを用いて照合を
行ったのち、精密な音声片標準パターンを用いて再照合
することによって認識性能を落とさずに効率よく計算量
を削減することができる。
【0120】さらに、音声片の標準パターンの精度を粗
くしたラフ音声片ツリーを用いて照合を行い、再照合を
行わない場合には、認識性能の劣化を最小限に抑え計算
量を大幅に削減することができる。
【0121】さらに、1回目の照合で第1段の始端ノー
ドに対応する入力フレーム位置Fsと第n段の終端ノー
ドに対応する入力フレーム位置Feを記憶しておき、F
sからFeまでの間でのみ再照合を行う場合には、再照
合にかかる計算量を抑えることができる。
【0122】また、発声区間の開始から終了までを再照
合する場合には、より精密な再照合が行えるため認識性
能の劣化が少なくてすみ、1回目の照合方法とまったく
違うものを用いてもかまわないため、より精密な手法で
再照合を行った場合にはより高い認識性能を得ることも
できる。
【図面の簡単な説明】
【図1】本発明の実施の形態におけるコンピュータを用
いた音声認識装置の構成図
【図2】本発明の実施の形態1における音声認識装置の
フローチャート
【図3】本発明の実施の形態1における基本音声片ツリ
ーを示す図
【図4】本発明の実施の形態1における音声片列を示す
【図5】本発明の実施の形態1における音素群の定義を
説明する図
【図6】本発明の実施の形態1における音声片のマージ
を説明する図
【図7】本発明の実施の形態1における音素マージ音声
片ツリーを示す図
【図8】本発明の実施の形態1における再照合用前半音
声片ツリーを示す図
【図9】本発明の実施の形態1における仮想DP面を説
明する図
【図10】本発明の実施の形態2における音声認識装置
のフローチャート
【図11】本発明の実施の形態2における再照合用音声
片ツリーを示す図
【図12】本発明の実施の形態3における音声認識装置
のフローチャート
【図13】本発明の実施の形態3におけるラフ音声片ツ
リーを示す図
【図14】本発明の実施の形態4における音声認識装置
のフローチャート
【図15】本発明の実施の形態5における音声認識装置
のフローチャート
【図16】従来の音声認識装置の構成図
【図17】従来例における音声認識装置のフローチャー
【図18】従来例の計算量を説明する図
【符号の説明】
1 マイク 2 A/D 3 インタフェース(I/F) 4 メモリ 5 CPU 6 キーボード/ディスプレイ 7 CPUバス 8 I/F 9 出力 10 認識対象語彙セット 11 音素マージ音声片ツリー 12 ラフ音声片ツリー 13 再照合用前半音声片ツリー 14 再照合用音声片ツリー 15 音声片標準パターン 16 音素マージ音声片標準パターン 17 ラフ音声片標準パターン 18 精密音声片標準パターン 19 音声片ツリー

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 未知入力音声信号を音響分析し特徴ベク
    トル時系列を求めるステップと、認識対象語彙セットの
    音素表記の特徴の似ている音素をマージした音素表記列
    を認識の最小単位である音声片列に変換し、これを音素
    マージ音声片ツリーに展開するステップと、前記音素マ
    ージ音声片ツリーに従って、あらかじめ求めておいた音
    声の特徴を表す音素マージ音声片標準パターンを接続
    し、これと未知入力音声信号の特徴ベクトル時系列との
    照合を、ビームサーチを用いたDPマッチングにより時
    間整合を取りながら行うステップと、照合結果が一意に
    決まる場合に認識結果を出力するステップと、照合結果
    が一意に決まらなかった場合に、再照合を行う候補とな
    る認識対象語彙を抽出するステップと、再照合用の音声
    片ツリーを展開するステップと、再照合用音声片ツリー
    に従って音声片標準パターンを接続し、これと未知入力
    音声との照合を、ビームサーチを用いたDPマッチング
    により時間整合を取りながら行い認識結果を出力するス
    テップとを有することを特徴とする音声認識方法。
  2. 【請求項2】 音素マージ音声片ツリーに展開するステ
    ップは、認識対象語彙セットの音素表記の語頭から第N
    番目の音素までのうち特徴の似ている音素をマージした
    音素表記列を認識の最小単位である音声片列に変換し、
    これを音素マージ音声片ツリーに展開することを特徴と
    する請求項1記載の音声認識方法。
  3. 【請求項3】 音素のマージは、子音を音素群毎にまと
    めてマージすることを特徴とする請求項1または2記載
    の音声認識方法。
  4. 【請求項4】 未知入力音声信号を音響分析し特徴ベク
    トル時系列を求めるステップと、認識対象語彙セットの
    音素表記列の語頭から第N番目の音素までを、精度の粗
    い音声片標準パターンを持つラフ音声片の系列に変換
    し、第N番目以降の音素を精密な音声片標準パターンを
    持つ精密音声片の系列に変換し、これをラフ音声片ツリ
    ーに展開するステップと、前記ラフ音声片ツリーに従っ
    て、あらかじめ求めておいた音声の特徴を表す音声片標
    準パターンおよび音素マージ音声片標準パターンを接続
    し、これと未知入力音声信号の特徴ベクトル時系列との
    照合を、ビームサーチを用いたDPマッチングにより時
    間整合を取りながら行うステップと、照合の結果から再
    照合を行う候補となる認識対象語彙を抽出するステップ
    と、再照合用の音声片ツリーを展開するステップと、再
    照合用音声片ツリーに従って精密な音声片標準パターン
    を接続し、これと未知入力音声との照合を、ビームサー
    チを用いたDPマッチングにより時間整合を取りながら
    行い認識結果を出力するステップとを有することを特徴
    とする音声認識方法。
  5. 【請求項5】 未知入力音声信号を音響分析し特徴ベク
    トル時系列を求めるステップと、認識対象語彙セットの
    音素表記列の語頭から第N番目の音素までを、精度の粗
    い音声片標準パターンを持つラフ音声片の系列に変換
    し、第N番目以降の音素を精密な音声片標準パターンを
    持つ精密音声片の系列に変換し、これをラフ音声片ツリ
    ーに展開するステップと、前記ラフ音声片ツリーに従っ
    て、あらかじめ求めておいた音声の特徴を表す音声片標
    準パターンおよび音素マージ音声片標準パターンを接続
    し、これと未知入力音声信号の特徴ベクトル時系列との
    照合を、ビームサーチを用いたDPマッチングにより時
    間整合を取りながら行い認識結果を出力するステップと
    を有することを特徴とする音声認識方法。
  6. 【請求項6】 精度を粗い音声片の標準パターンは、ラ
    フ音声片1つの音声片あたりにかかる距離計算量を精密
    音声片1つあたりにかかる計算量に比べ削減することを
    特徴とする請求項4または5記載の音声認識方法。
  7. 【請求項7】 精度を粗い音声片の標準パターンは、認
    識結果が一意に決まる範囲内で、異なる音韻環境の音声
    片をマージすることを特徴とする請求項4または5記載
    の音声認識方法。
  8. 【請求項8】 音声片の距離計算量にかかるコストの削
    減は、ラフ音声片標準パターンのフレーム数を少なくす
    ることを特徴とする請求項6記載の音声認識方法。
  9. 【請求項9】 音声片の距離計算にかかるコストの削減
    は、特徴パラメータベクトルの出現確率が複数のガウス
    分布の和、すなわちガウス分布の混合分布で近似できる
    と仮定したとき、ラフ音声片標準パターンのガウス分布
    の混合数を少なくすることを特徴とする請求項6記載の
    音声認識方法。
  10. 【請求項10】 音声片の距離計算にかかるコストの削
    減は、特徴パラメータベクトルの出現確率が複数のガウ
    ス分布の和、すなわちガウス分布の混合分布で近似でき
    ると仮定したとき、ラフ音声片標準パターンのガウス分
    布の共分散行列の種類数を少なくすることを特徴とする
    請求項9記載の音声認識方法。
  11. 【請求項11】 再照合の際、未知入力音声の前半部分
    とのみ照合を行い認識結果を出力することを特徴とする
    請求項1、4、5のいずれかに記載の音声認識方法。
  12. 【請求項12】 再照合の際、未知入力音声の発声区間
    すべてと照合を行い認識結果を出力することを特徴とす
    る請求項1、4、5のいずれかに記載の音声認識方法。
  13. 【請求項13】 未知入力音声の発声区間を特定せず、
    異なる始端を認める連続DPマッチングを用いたことを特
    徴とする請求項1、4、5のいずれかに記載の音声認識
    方法。
  14. 【請求項14】 未知入力音声信号を音響分析し特徴ベ
    クトル時系列を求める音響分析手段と、認識対象語彙セ
    ットの音素表記の特徴の似ている音素をマージした音素
    表記列を認識の最小単位である音声片列に変換し、これ
    を音素マージ音声片ツリーに展開するツリー展開手段
    と、前記音素マージ音声片ツリーに従って、あらかじめ
    求めておいた音声の特徴を表す音素マージ音声片標準パ
    ターンを接続し、これと未知入力音声信号の特徴ベクト
    ル時系列との照合を、ビームサーチを用いたDPマッチ
    ングにより時間整合を取りながら行う照合手段と、照合
    結果が一意に決まるか否かを判定し、一意に決まる場合
    に認識結果を出力する判定手段と、照合結果が一意に決
    まらなかった場合に、再照合を行う候補となる認識対象
    語彙を抽出する再照合候補抽出手段と、再照合用の音声
    片ツリーを展開する再照合用ツリー展開手段と、再照合
    用音声片ツリーに従って音声片標準パターンを接続し、
    これと未知入力音声との照合を、ビームサーチを用いた
    DPマッチングにより時間整合を取りながら行い認識結
    果を出力する再照合手段とを有することを特徴とする音
    声認識装置。
  15. 【請求項15】 未知入力音声信号を音響分析し特徴ベ
    クトル時系列を求める音響分析手段と、認識対象語彙セ
    ットの音素表記列の語頭から第N番目の音素までを、精
    度の粗い音声片標準パターンを持つラフ音声片の系列に
    変換し、第N番目以降の音素を精密な音声片標準パター
    ンを持つ精密音声片の系列に変換し、これをラフ音声片
    ツリーに展開するツリー展開手段と、前記ラフ音声片ツ
    リーに従って、あらかじめ求めておいた音声の特徴を表
    す音声片標準パターンおよび音素マージ音声片標準パタ
    ーンを接続し、これと未知入力音声信号の特徴ベクトル
    時系列との照合を、ビームサーチを用いたDPマッチン
    グにより時間整合を取りながら行う照合手段と、照合の
    結果から再照合を行う候補となる認識対象語彙を抽出す
    る再照合候補抽出手段と、再照合用の音声片ツリーを展
    開する再照合ツリー展開手段と、再照合用音声片ツリー
    に従って精密な音声片標準パターンを接続し、これと未
    知入力音声との照合を、ビームサーチを用いたDPマッ
    チングにより時間整合を取りながら行い認識結果を出力
    する再照合手段とを有することを特徴とする音声認識装
    置。
  16. 【請求項16】 未知入力音声信号を音響分析し特徴ベ
    クトル時系列を求める音響分析手段と、認識対象語彙セ
    ットの音素表記列の語頭から第N番目の音素までを、精
    度の粗い音声片標準パターンを持つラフ音声片の系列に
    変換し、第N番目以降の音素を精密な音声片標準パター
    ンを持つ精密音声片の系列に変換し、これをラフ音声片
    ツリーに展開するツリー展開手段と、前記ラフ音声片ツ
    リーに従って、あらかじめ求めておいた音声の特徴を表
    す音声片標準パターンおよび音素マージ音声片標準パタ
    ーンを接続し、これと未知入力音声信号の特徴ベクトル
    時系列との照合を、ビームサーチを用いたDPマッチン
    グにより時間整合を取りながら行い認識結果を出力する
    照合手段とを有することを特徴とする音声認識装置。
  17. 【請求項17】 プログラムされたコンピュータによっ
    て音声を認識するプログラムを記録した記録媒体であっ
    て、未知入力音声信号を音響分析し特徴ベクトル時系列
    を求めるステップと、認識対象語彙セットの音素表記の
    特徴の似ている音素をマージした音素表記列を認識の最
    小単位である音声片列に変換し、これを音素マージ音声
    片ツリーに展開するステップと、前記音素マージ音声片
    ツリーに従って、あらかじめ求めておいた音声の特徴を
    表す音素マージ音声片標準パターンを接続し、これと未
    知入力音声信号の特徴ベクトル時系列との照合を、ビー
    ムサーチを用いたDPマッチングにより時間整合を取り
    ながら行うステップと、照合結果が一意に決まる場合に
    認識結果を出力するステップと、照合結果が一意に決ま
    らなかった場合に、再照合を行う候補となる認識対象語
    彙を抽出するステップと、再照合用の音声片ツリーを展
    開するステップと、再照合用音声片ツリーに従って音声
    片標準パターンを接続し、これと未知入力音声との照合
    を、ビームサーチを用いたDPマッチングにより時間整
    合を取りながら行い認識結果を出力するステップとを有
    することを特徴とするコンピュータ読み取り可能な記憶
    媒体。
  18. 【請求項18】 プログラムされたコンピュータによっ
    て音声を認識するプログラムを記録した記録媒体であっ
    て、未知入力音声信号を音響分析し特徴ベクトル時系列
    を求めるステップと、認識対象語彙セットの音素表記列
    の語頭から第N番目の音素までを、精度の粗い音声片標
    準パターンを持つラフ音声片の系列に変換し、第N番目
    以降の音素を精密な音声片標準パターンを持つ精密音声
    片の系列に変換し、これをラフ音声片ツリーに展開する
    ステップと、前記ラフ音声片ツリーに従って、あらかじ
    め求めておいた音声の特徴を表す音声片標準パターンお
    よび音素マージ音声片標準パターンを接続し、これと未
    知入力音声信号の特徴ベクトル時系列との照合を、ビー
    ムサーチを用いたDPマッチングにより時間整合を取り
    ながら行うステップと、照合の結果から再照合を行う候
    補となる認識対象語彙を抽出するステップと、再照合用
    の音声片ツリーを展開するステップと、再照合用音声片
    ツリーに従って精密な音声片標準パターンを接続し、こ
    れと未知入力音声との照合を、ビームサーチを用いたD
    Pマッチングにより時間整合を取りながら行い認識結果
    を出力するステップとを有することを特徴とするコンピ
    ュータ読み取り可能な記憶媒体。
  19. 【請求項19】 プログラムされたコンピュータによっ
    て音声を認識するプログラムを記録した記録媒体であっ
    て、未知入力音声信号を音響分析し特徴ベクトル時系列
    を求めるステップと、認識対象語彙セットの音素表記列
    の語頭から第N番目の音素までを、精度の粗い音声片標
    準パターンを持つラフ音声片の系列に変換し、第N番目
    以降の音素を精密な音声片標準パターンを持つ精密音声
    片の系列に変換し、これをラフ音声片ツリーに展開する
    ステップと、前記ラフ音声片ツリーに従って、あらかじ
    め求めておいた音声の特徴を表す音声片標準パターンお
    よび音素マージ音声片標準パターンを接続し、これと未
    知入力音声信号の特徴ベクトル時系列との照合を、ビー
    ムサーチを用いたDPマッチングにより時間整合を取り
    ながら行い認識結果を出力するステップとを有すること
    を特徴とするコンピュータ読み取り可能な記憶媒体。
JP2000129132A 2000-04-28 2000-04-28 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 Pending JP2001312293A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000129132A JP2001312293A (ja) 2000-04-28 2000-04-28 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000129132A JP2001312293A (ja) 2000-04-28 2000-04-28 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体

Publications (1)

Publication Number Publication Date
JP2001312293A true JP2001312293A (ja) 2001-11-09

Family

ID=18638458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000129132A Pending JP2001312293A (ja) 2000-04-28 2000-04-28 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP2001312293A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011257A (ja) * 2004-06-29 2006-01-12 Canon Inc 音声認識装置および方法
CN1302456C (zh) * 2005-04-01 2007-02-28 郑方 一种声纹识别方法
KR100714720B1 (ko) 2005-02-11 2007-05-04 삼성전자주식회사 서브 렉시컬 노드 생성 장치, 이를 이용한 음성 인식 장치및 방법
JP2009092844A (ja) * 2007-10-05 2009-04-30 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
WO2009081895A1 (ja) * 2007-12-25 2009-07-02 Nec Corporation 音声認識システム、音声認識方法、および音声認識用プログラム
JP2009169418A (ja) * 2008-01-16 2009-07-30 Harman Becker Automotive Systems Gmbh フラグメントを使用した大規模なリストにおける音声認識
JP2012018403A (ja) * 2011-08-01 2012-01-26 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
CN108766437A (zh) * 2018-05-31 2018-11-06 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011257A (ja) * 2004-06-29 2006-01-12 Canon Inc 音声認識装置および方法
US7565290B2 (en) 2004-06-29 2009-07-21 Canon Kabushiki Kaisha Speech recognition method and apparatus
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
KR100714720B1 (ko) 2005-02-11 2007-05-04 삼성전자주식회사 서브 렉시컬 노드 생성 장치, 이를 이용한 음성 인식 장치및 방법
CN1302456C (zh) * 2005-04-01 2007-02-28 郑方 一种声纹识别方法
JP2009092844A (ja) * 2007-10-05 2009-04-30 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
WO2009081895A1 (ja) * 2007-12-25 2009-07-02 Nec Corporation 音声認識システム、音声認識方法、および音声認識用プログラム
JP5310563B2 (ja) * 2007-12-25 2013-10-09 日本電気株式会社 音声認識システム、音声認識方法、および音声認識用プログラム
US8639507B2 (en) 2007-12-25 2014-01-28 Nec Corporation Voice recognition system, voice recognition method, and program for voice recognition
JP2009169418A (ja) * 2008-01-16 2009-07-30 Harman Becker Automotive Systems Gmbh フラグメントを使用した大規模なリストにおける音声認識
JP2012018403A (ja) * 2011-08-01 2012-01-26 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
CN108766437A (zh) * 2018-05-31 2018-11-06 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US8321218B2 (en) Searching in audio speech
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
CN101436403B (zh) 声调识别方法和系统
JPWO2015118645A1 (ja) 音声検索装置および音声検索方法
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP2011065120A (ja) すべての言語の音声識別及び音声識別を利用した単字入力の方法
JP2955297B2 (ja) 音声認識システム
US20110218802A1 (en) Continuous Speech Recognition
US5764851A (en) Fast speech recognition method for mandarin words
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2016177045A (ja) 音声認識装置および音声認識プログラム
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
Likitsupin et al. Acoustic-phonetic approaches for improving segment-based speech recognition for large vocabulary continuous speech
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP3277522B2 (ja) 音声認識方法