JPH06324696A

JPH06324696A - 音声認識装置及び方法

Info

Publication number: JPH06324696A
Application number: JP5114970A
Authority: JP
Inventors: Seiya Kato; 誠也加藤; Kimiyasu Mifuji; 仁保美藤
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 1993-05-17
Filing date: 1993-05-17
Publication date: 1994-11-25

Abstract

(57)【要約】【目的】本発明は、発声の長さの違う語彙間の誤認識を
減らすことにより認識率を向上させることができる音声
認識装置及び方法を提供することを目的とする。【構成】本発明は、音声信号をＡ／Ｄ変換器１で変換し
たデジタルデータ中から音声部分の範囲を出力する音声
切り出し装置２と、この音声切り出し装置２から出力さ
れた音声部分の範囲をフレーム設定してフレーム情報を
出力すると共に音声の長さ特徴パラメータを出力するフ
レーム合成装置８と、このフレーム合成装置８で設定さ
れたフレーム毎に周波数特徴パラメータを求める特徴パ
ラメータ演算装置５と、この特徴パラメータ演算装置５
により求めた周波数特徴パラメータと前記フレーム合成
装置８から出力された音声の長さ特徴パラメータが入力
層に入力され最大発火した出力層ニューロン素子に対応
した語彙を認識結果として出力するニューラル・ネット
ワーク９とを具備して構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声特徴パラメータと音
声部分の長さにより音声を認識する音声認識装置及び方
法に関するものである。

【０００２】

【従来の技術】一般に、単語音声を発声した場合、その
音声の長さは、語彙、話者、さらに同じ語彙、同じ話者
でも発声のたびに異なる。そのため、認識対象となる発
声された音声の音声特徴と、辞書に予め記憶されている
音声特徴とを比較するためには、音声の長さについて標
準化しなければならない。

【０００３】図３は従来の音声認識装置の一例を示す構
成説明図であり、図４は図３の動作を説明するための図
である。即ち、図４に示す原音声Ａあるいは原音声Ｂの
ようなアナログの音声信号はＡ／Ｄ（アナログ／デジタ
ル）変換器１に入力され、このＡ／Ｄ変換器１は入力さ
れたアナログの音声信号をデジタルデータに変換して音
声切り出し装置２に出力する。この音声切り出し装置２
はＡ／Ｄ変換器１から入力されたデジタルデータ中から
無声もしくはノイズ等の余計な部分を除いた音声部分の
範囲を切り出して、その音声部分の範囲をフレーム（ｆ
ｒａｍｅ）合成装置４に出力する。このフレーム合成装
置４は音声切り出し装置２から入力された音声部分の範
囲をフレームに分割する為、図４に示すように、音声の
長さに対応してフレーム０，フレーム１，………、フレ
ーム（ｍ−１）をフレーム設定して各フレーム毎の音声
の長さを標準化する。尚、フレームに分割する際に、後
述する辞書装置３に記憶されているフレーム数と一致す
るように、フレームの重なりを調整することにより、音
声全体の長さを辞書装置３に合わせて標準化する。フレ
ーム合成装置４でフレーム設定したフレーム情報を特徴
パラメータ演算装置５に出力する。この特徴パラメータ
演算装置５はフレーム合成装置４により設定されたフレ
ーム０，フレーム１，………、フレーム（ｍ−１）毎に
周波数特徴パラメータを計算した図４に示すような音声
パラメータＡあるいは音声パラメータＢを比較装置６に
出力する。この比較装置６には認識対象の語彙の周波数
特徴パラメータを記憶する辞書装置３から語彙の周波数
特徴パラメータ、例えば図４に示すような辞書パラメー
タ１あるいは辞書パラメータ２が入力される。前記比較
装置６は前記特徴パラメータ演算装置５で求めた音声パ
ラメータＡあるいは音声パラメータＢと、前記辞書装置
３から入力された辞書パラメータ１あるいは辞書パラメ
ータ２とを比較して類似度の大きい語彙を認識結果とし
て出力する。

【０００４】図５は従来の音声認識装置の他の例を示す
構成説明図であり、図６は図５の動作を説明するための
図である。即ち、図６に示す原音声Ａあるいは原音声Ｂ
のようなアナログの音声信号はＡ／Ｄ変換器１に入力さ
れ、このＡ／Ｄ変換器１は入力されたアナログの音声信
号をデジタルデータに変換して音声切り出し装置２に出
力する。この音声切り出し装置２はＡ／Ｄ変換器１から
入力されたデジタルデータ中から無声もしくはノイズ等
の余計な部分を除いた音声部分の範囲を切り出して、そ
の音声部分の範囲をフレーム合成装置４に出力する。こ
のフレーム合成装置４は音声切り出し装置２から入力さ
れた音声部分の範囲をフレームに分割する為、図６に示
すように、音声の長さに対応してフレーム０，フレーム
１，………、フレーム（ｍ−１）をフレーム設定して各
フレーム毎の音声の長さを標準化する。フレーム合成装
置４でフレーム設定したフレーム情報を特徴パラメータ
演算装置５に出力する。この特徴パラメータ演算装置５
はフレーム合成装置４により設定されたフレーム０，フ
レーム１，………、フレーム（ｍ−１）毎に、フレーム
０の周波数特徴パラメータＰ_(0,0) 〜Ｐ_(0,n-1) 、フレ
ーム１の周波数特徴パラメータＰ_(1,0) 〜Ｐ_(1,n-1) 、
………、フレームｍの周波数特徴パラメータＰ_(m-1,0)
〜Ｐ_(m-1,n-1) を計算した図６に示すような音声パラメ
ータＡあるいは音声パラメータＢをニューラル・ネット
ワーク７に出力する。このニューラル・ネットワーク７
は生物の神経回路網における情報伝達方式を模倣したも
のであり、ｐ個のニューロン素子よりなる入力層、ｑ個
のニューロン素子よりなる中間層、及びｒ個のニューロ
ン素子よりなる出力層から構成され、入力層の各ニュー
ロン素子が中間層の各ニューロン素子にそれぞれ対応し
て接続されると共に中間層の各ニューロン素子が出力層
の各ニューロン素子にそれぞれ対応して接続されること
によりネットワーク化される。入力層の各ニューロン素
子には特徴パラメータ演算装置５で求めたフレーム０の
周波数特徴パラメータＰ_(0,0) 〜Ｐ_(0,n-1) 、フレーム
１の周波数特徴パラメータＰ_(1,0) 〜Ｐ_(1,n-1) 、……
…、フレームｍの周波数特徴パラメータＰ_(m-1,0) 〜Ｐ
_(m-1,n-1) の計ｍ×ｎ個の周波数特徴パラメータがそれ
ぞれ対応して入力され、各層の各ニューロン素子はそれ
ぞれの入力信号に重みを掛けた値の合計が閾値を越える
と、出力側に信号を出す。各ニューロン素子の入力に掛
け合わせる重みの値を所定値に学習させておくことによ
り、入力信号に対応した特定の出力信号を出力する。そ
こで、ニューラル・ネットワーク７は認識に使用する前
に予め前記周波数特徴パラメータＰ_(0,0) 〜Ｐ
_(0,n-1) 、………、Ｐ_(m-1,0) 〜Ｐ_(m-1,n-1) を使って
認識対象となる語彙について、例えばバックプロパゲー
ション（誤差逆向き伝播学習）により学習させておく。
認識時は、この学習されたニューラル・ネットワーク７
に入力された周波数特徴パラメータＰ_(0,0) 〜Ｐ
_(0,n-1) 、………、Ｐ_(m-1,0) 〜Ｐ_(m-1,n-1) に対し
て、最大発火した出力層のニューロン素子に対応する語
彙を認識結果Ａ，Ｂ，Ｃ，Ｄ，………，Ｅとして出力す
る。これにより、周波数特徴を考慮した認識が行われ
る。

【０００５】

【発明が解決しようとする課題】従来の音声認識装置の
各例でも、音声の長さの変化に対応するため、フレーム
合成時に、フレームの重複の大きさを変えてパラメータ
を抽出している。しかし、このように音声を線形圧伸的
に長さを揃えて分析すると、それぞれのフレームのパラ
メータには、音声全体の長さについての特徴が含まれ
ず、その特徴が失われ、発声の長い音声と発声の短い音
声、例えば「はと」と「はねぶとん」のように発声の長
さのみで判別できる語彙間での誤認識が起こる。

【０００６】本発明は上記の実情に鑑みてなされたもの
で、発声の長さの違う語彙間の誤認識を減らすことによ
り認識率を向上させることができる音声認識装置及び方
法を提供することを目的とする。

【０００７】

【課題を解決するための手段】上記課題を解決するため
に本発明は、アナログの音声信号をデジタルデータに変
換するＡ／Ｄ変換手段と、このＡ／Ｄ変換手段により変
換されたデジタルデータ中から音声部分の範囲を出力す
る音声切り出し手段と、この音声切り出し手段から出力
された音声部分の範囲をフレーム設定してフレーム情報
を出力すると共に該音声部分の音声の長さである音声長
特徴パラメータを出力するフレーム合成手段と、このフ
レーム合成手段で設定されたフレーム毎に音声の特徴で
ある音声特徴パラメータを求める演算手段と、この演算
手段により求めた音声特徴パラメータと前記フレーム合
成手段から出力された音声長特徴パラメータから音声を
認識する認識手段とを具備することを特徴とするもので
ある。

【０００８】

【作用】上記手段により、周波数的な音声特徴と共に、
発声の長さを音声の長さ特徴パラメータとして付加して
認識装置を構成するので、発声の長さの違う語彙間の誤
認識を減らし、認識率を向上させることができる。

【０００９】

【実施例】以下図面を参照して本発明の実施例を詳細に
説明する。図１は本発明の一実施例を示す構成説明図で
あり、図２は図１の動作を説明するための図である。即
ち、図２に示す原音声Ａあるいは原音声Ｂのようなアナ
ログの音声信号はＡ／Ｄ変換器１に入力され、このＡ／
Ｄ変換器１は入力されたアナログの音声信号をデジタル
データに変換して音声切り出し装置２に出力する。この
音声切り出し装置２はＡ／Ｄ変換器１から入力されたデ
ジタルデータ中から無声もしくはノイズ等の余計な部分
を除いた音声部分の範囲を切り出して、その音声部分の
範囲をフレーム合成装置８に出力する。このフレーム合
成装置８は音声切り出し装置２から入力された音声部分
の範囲（発声）の長さから音声の長さ特徴パラメータＬ
ＥＮＧＴＨを求める。そして、この音声部分の範囲の長
さから全体が設定されたフレーム数がｍになるようにフ
レームを重複させてフレームの合成を行う。すなわち、
音声部分の範囲をフレームに分割する為、図２に示すよ
うに、音声の長さに対応してフレーム０，フレーム１，
………、フレーム（ｍ−１）をフレーム設定して各フレ
ーム毎の音声の長さを標準化する。フレーム合成装置８
で求めた音声の長さ特徴パラメータＬＥＮＧＴＨをニュ
ーラル・ネットワーク９に出力すると共に、フレーム合
成装置８でフレーム設定したフレーム情報を特徴パラメ
ータ演算装置５に出力する。この特徴パラメータ演算装
置５はフレーム合成装置８により設定されたフレーム
０，フレーム１，………、フレーム（ｍ−１）毎に周波
数分析を行い周波数特徴パラメータを計算し、フレーム
０の周波数特徴パラメータＰ_(0,0) 〜Ｐ_(0,n-1) 、フレ
ーム１の周波数特徴パラメータＰ_(1,0) 〜Ｐ_(1,n-1) 、
………、フレームｍの周波数特徴パラメータＰ
_{（ｍ−１，０）}〜Ｐ_{（ｍ−１，ｎ−１）} よりなる図２
に示すような音声パラメータＡあるいは音声パラメータ
Ｂをニューラル・ネットワーク９に出力する。このニュ
ーラル・ネットワーク９はｐ＋α個のニューロン素子よ
りなる入力層、ｑ個のニューロン素子よりなる中間層、
及びｒ個のニューロン素子よりなる出力層から構成さ
れ、入力層の各ニューロン素子が中間層の各ニューロン
素子にそれぞれ対応して接続されると共に中間層の各ニ
ューロン素子が出力層の各ニューロン素子にそれぞれ対
応して接続されることによりネットワーク化される。入
力層の各ニューロン素子には特徴パラメータ演算装置５
で求めたフレーム０の周波数特徴パラメータＰ_(0,0) 〜
Ｐ_(0,n-1) 、フレーム１の周波数特徴パラメータＰ
_(1,0) 〜Ｐ_(1,n-1) 、………、フレームｍの周波数特徴
パラメータＰ_(m-1,0) 〜Ｐ_(m-1,n-1) の計ｍ×ｎ個の周
波数特徴パラメータがそれぞれ対応して入力されと共
に、フレーム合成装置８で求めた音声の長さ特徴パラメ
ータＬＥＮＧＴＨが入力される。各層の各ニューロン素
子はそれぞれの入力信号に重みを掛けた値の合計が閾値
を越えると、出力側に信号を出す。各ニューロン素子の
入力に掛け合わせる重みの値を所定値に学習させておく
ことにより、入力信号に対応した特定の出力信号を出力
する。そこで、ニューラル・ネットワーク９は認識に使
用する前に予め前記周波数特徴パラメータＰ_(0,0) 〜Ｐ
_(0,n-1) 、………、Ｐ_(m-1,0) 〜Ｐ_(m-1,n-1) と、長さ
特徴パラメータＬＥＮＧＴＨを使って認識対象となる語
彙について、例えばバックプロパゲーション（誤差逆向
き伝播学習）により学習させておく。認識時は、この学
習されたニューラル・ネットワーク９に入力された周波
数特徴パラメータＰ_(0,0) 〜Ｐ_(0,n-1) 、………、Ｐ
_(m-1,0) 〜Ｐ_(m-1,n-1) と、長さ特徴パラメータＬＥＮ
ＧＴＨに対して、最大発火した出力層のニューロン素子
に対応する語彙を認識結果Ａ，Ｂ，Ｃ，Ｄ，………，Ｅ
として出力する。これにより、周波数特徴、発声長さ特
徴の両方を考慮した音声認識が行われる。

【００１０】以上のように、音声の発声の長さを考慮す
るために、周波数特徴を使った認識装置に、前処理また
は、後処理として行うと、別に装置を設けなければなら
ず、全体の認識システムが複雑になり規模も大きくな
る。本実施例では、周波数特徴を求める過程で求められ
る音声の発声長さ特徴を、ニューラル・ネットワークの
入力層のニューロン素子を少なくとも１個増やして入力
することにより、装置規模を比較的小さくすることがで
きる。すなわち、音声の発声長さ特徴のために入力層に
増やしたニューロン素子α個と、中間層ニューロン素子
ｑ個の結合の重みα×ｑ個を記憶するメモリ分が増える
のみで、ニューラル・ネットワークの演算もα×ｑ回の
乗算とα×ｑ回の加算が増えるだけで対応できる。

【００１１】

【発明の効果】以上述べたように本発明によれば、音声
の周波数特徴と音声の発声長さ特徴を用いて音声を認識
することにより、発声の長さの違う語彙間の誤認識を減
らすことができ、認識率を向上させることができる音声
認識装置及び方法を提供することができる。

【図面の簡単な説明】

【図１】本発明の一実施例を示す構成説明図である。

【図２】図１の音声認識装置の動作を説明するための説
明図である。

【図３】従来の音声認識装置の一例を示す構成説明図で
ある。

【図４】図３の音声認識装置の動作を説明するための説
明図である。

【図５】従来の音声認識装置の他の例を示す構成説明図
である。

【図６】図５の音声認識装置の動作を説明するための説
明図である。

【符号の説明】

１…Ａ／Ｄ変換器、２…音声切り出し装置、３…辞書装
置、４，８…フレーム合成装置、５…特徴パラメータ演
算装置、６…比較装置、７，９…ニューラル・ネットワ
ーク。

Claims

【特許請求の範囲】

【請求項１】アナログの音声信号をデジタルデータに
変換するＡ／Ｄ変換手段と、このＡ／Ｄ変換手段により変換されたデジタルデータ中
から音声部分の範囲を出力する音声切り出し手段と、この音声切り出し手段から出力された音声部分の範囲を
フレーム設定してフレーム情報を出力すると共に該音声
部分の音声の長さである音声長特徴パラメータを出力す
るフレーム合成手段と、このフレーム合成手段で設定されたフレーム毎に音声の
特徴である音声特徴パラメータを求める演算手段と、この演算手段により求めた音声特徴パラメータと前記フ
レーム合成手段から出力された音声長特徴パラメータか
ら音声を認識する認識手段とを具備することを特徴とす
る音声認識装置。
【請求項２】アナログの音声信号をデジタルデータに
変換するＡ／Ｄ変換器と、このＡ／Ｄ変換器により変換されたデジタルデータ中か
ら音声部分の範囲を出力する音声切り出し装置と、この音声切り出し装置から出力された音声部分の範囲を
フレーム設定してフレーム情報を出力すると共に該音声
部分の音声の長さである音声長特徴パラメータを出力す
るフレーム合成装置と、このフレーム合成装置で設定されたフレーム毎に周波数
に変換した周波数特徴パラメータを求める特徴パラメー
タ演算装置と、この特徴パラメータ演算装置により求めた周波数特徴パ
ラメータと前記フレーム合成装置から出力された音声長
特徴パラメータが入力層に入力され最大発火した出力層
ニューロン素子に対応した語彙を認識結果として出力す
るニューラル・ネットワークとを具備することを特徴と
する音声認識装置。
【請求項３】ニューラル・ネットワークには、特徴パ
ラメータ演算装置で求めたフレーム０の周波数特徴パラ
メータＰ_(0,0) 〜Ｐ_(0,n-1) 、フレーム１の周波数特徴
パラメータＰ_(1,0) 〜Ｐ_(1,n-1) 、………、フレームｍ
の周波数特徴パラメータＰ_(m-1,0) 〜Ｐ_(m-1,n-1) と、
フレーム合成装置で求めた音声の長さ特徴パラメータを
与えることを特徴とする請求項２記載の音声認識装置。
【請求項４】入力デジタル音声信号の中から音声部分
の範囲を切出し、この音声切出しをした音声部分の範囲
をフレーム設定してフレーム情報を出力し、このフレー
ム毎に音声の特徴である音声特徴パラメータを演算し、
この演算により求められた音声特徴パラメータから音声
認識をする音声認識方法において、前記音声部分の音声の長さである音声長特徴パラメータ
を演算し、前記音声特徴パラメータとこの音声長特徴パ
ラメータとに基づいて音声認識をする音声認識方法。
【請求項５】入力デジタル音声信号の中から音声部分
の範囲を切出し、この音声切出しをした音声部分の範囲
をフレーム設定してフレーム情報を出力し、このフレー
ム毎に周波数変換した周波数特徴パラメータを演算し、
この演算により求められた周波数特徴パラメータをニュ
ーラル・ネットワークの入力層ニューロンに入力して音
声認識をする音声認識方法において、前記音声部分の音声の長さである音声長特徴パラメータ
を演算し、前記周波数特徴パラメータと共にこの音声長
特徴パラメータを前記ニューラル・ネットワークの入力
層ニューロンに入力して音声認識をする音声認識方法。