JPH06324696A - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法

Info

Publication number
JPH06324696A
JPH06324696A JP5114970A JP11497093A JPH06324696A JP H06324696 A JPH06324696 A JP H06324696A JP 5114970 A JP5114970 A JP 5114970A JP 11497093 A JP11497093 A JP 11497093A JP H06324696 A JPH06324696 A JP H06324696A
Authority
JP
Japan
Prior art keywords
voice
frame
length
recognition
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5114970A
Other languages
English (en)
Inventor
Seiya Kato
誠也 加藤
Kimiyasu Mifuji
仁保 美藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP5114970A priority Critical patent/JPH06324696A/ja
Publication of JPH06324696A publication Critical patent/JPH06324696A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】本発明は、発声の長さの違う語彙間の誤認識を
減らすことにより認識率を向上させることができる音声
認識装置及び方法を提供することを目的とする。 【構成】本発明は、音声信号をA/D変換器1で変換し
たデジタルデータ中から音声部分の範囲を出力する音声
切り出し装置2と、この音声切り出し装置2から出力さ
れた音声部分の範囲をフレーム設定してフレーム情報を
出力すると共に音声の長さ特徴パラメータを出力するフ
レーム合成装置8と、このフレーム合成装置8で設定さ
れたフレーム毎に周波数特徴パラメータを求める特徴パ
ラメータ演算装置5と、この特徴パラメータ演算装置5
により求めた周波数特徴パラメータと前記フレーム合成
装置8から出力された音声の長さ特徴パラメータが入力
層に入力され最大発火した出力層ニューロン素子に対応
した語彙を認識結果として出力するニューラル・ネット
ワーク9とを具備して構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声特徴パラメータと音
声部分の長さにより音声を認識する音声認識装置及び方
法に関するものである。
【0002】
【従来の技術】一般に、単語音声を発声した場合、その
音声の長さは、語彙、話者、さらに同じ語彙、同じ話者
でも発声のたびに異なる。そのため、認識対象となる発
声された音声の音声特徴と、辞書に予め記憶されている
音声特徴とを比較するためには、音声の長さについて標
準化しなければならない。
【0003】図3は従来の音声認識装置の一例を示す構
成説明図であり、図4は図3の動作を説明するための図
である。即ち、図4に示す原音声Aあるいは原音声Bの
ようなアナログの音声信号はA/D(アナログ/デジタ
ル)変換器1に入力され、このA/D変換器1は入力さ
れたアナログの音声信号をデジタルデータに変換して音
声切り出し装置2に出力する。この音声切り出し装置2
はA/D変換器1から入力されたデジタルデータ中から
無声もしくはノイズ等の余計な部分を除いた音声部分の
範囲を切り出して、その音声部分の範囲をフレーム(f
rame)合成装置4に出力する。このフレーム合成装
置4は音声切り出し装置2から入力された音声部分の範
囲をフレームに分割する為、図4に示すように、音声の
長さに対応してフレーム0,フレーム1,………、フレ
ーム(m−1)をフレーム設定して各フレーム毎の音声
の長さを標準化する。尚、フレームに分割する際に、後
述する辞書装置3に記憶されているフレーム数と一致す
るように、フレームの重なりを調整することにより、音
声全体の長さを辞書装置3に合わせて標準化する。フレ
ーム合成装置4でフレーム設定したフレーム情報を特徴
パラメータ演算装置5に出力する。この特徴パラメータ
演算装置5はフレーム合成装置4により設定されたフレ
ーム0,フレーム1,………、フレーム(m−1)毎に
周波数特徴パラメータを計算した図4に示すような音声
パラメータAあるいは音声パラメータBを比較装置6に
出力する。この比較装置6には認識対象の語彙の周波数
特徴パラメータを記憶する辞書装置3から語彙の周波数
特徴パラメータ、例えば図4に示すような辞書パラメー
タ1あるいは辞書パラメータ2が入力される。前記比較
装置6は前記特徴パラメータ演算装置5で求めた音声パ
ラメータAあるいは音声パラメータBと、前記辞書装置
3から入力された辞書パラメータ1あるいは辞書パラメ
ータ2とを比較して類似度の大きい語彙を認識結果とし
て出力する。
【0004】図5は従来の音声認識装置の他の例を示す
構成説明図であり、図6は図5の動作を説明するための
図である。即ち、図6に示す原音声Aあるいは原音声B
のようなアナログの音声信号はA/D変換器1に入力さ
れ、このA/D変換器1は入力されたアナログの音声信
号をデジタルデータに変換して音声切り出し装置2に出
力する。この音声切り出し装置2はA/D変換器1から
入力されたデジタルデータ中から無声もしくはノイズ等
の余計な部分を除いた音声部分の範囲を切り出して、そ
の音声部分の範囲をフレーム合成装置4に出力する。こ
のフレーム合成装置4は音声切り出し装置2から入力さ
れた音声部分の範囲をフレームに分割する為、図6に示
すように、音声の長さに対応してフレーム0,フレーム
1,………、フレーム(m−1)をフレーム設定して各
フレーム毎の音声の長さを標準化する。フレーム合成装
置4でフレーム設定したフレーム情報を特徴パラメータ
演算装置5に出力する。この特徴パラメータ演算装置5
はフレーム合成装置4により設定されたフレーム0,フ
レーム1,………、フレーム(m−1)毎に、フレーム
0の周波数特徴パラメータP(0,0) 〜P(0,n-1) 、フレ
ーム1の周波数特徴パラメータP(1,0) 〜P(1,n-1)
………、フレームmの周波数特徴パラメータP(m-1,0)
〜P(m-1,n-1) を計算した図6に示すような音声パラメ
ータAあるいは音声パラメータBをニューラル・ネット
ワーク7に出力する。このニューラル・ネットワーク7
は生物の神経回路網における情報伝達方式を模倣したも
のであり、p個のニューロン素子よりなる入力層、q個
のニューロン素子よりなる中間層、及びr個のニューロ
ン素子よりなる出力層から構成され、入力層の各ニュー
ロン素子が中間層の各ニューロン素子にそれぞれ対応し
て接続されると共に中間層の各ニューロン素子が出力層
の各ニューロン素子にそれぞれ対応して接続されること
によりネットワーク化される。入力層の各ニューロン素
子には特徴パラメータ演算装置5で求めたフレーム0の
周波数特徴パラメータP(0,0) 〜P(0,n-1) 、フレーム
1の周波数特徴パラメータP(1,0) 〜P(1,n-1) 、……
…、フレームmの周波数特徴パラメータP(m-1,0) 〜P
(m-1,n-1) の計m×n個の周波数特徴パラメータがそれ
ぞれ対応して入力され、各層の各ニューロン素子はそれ
ぞれの入力信号に重みを掛けた値の合計が閾値を越える
と、出力側に信号を出す。各ニューロン素子の入力に掛
け合わせる重みの値を所定値に学習させておくことによ
り、入力信号に対応した特定の出力信号を出力する。そ
こで、ニューラル・ネットワーク7は認識に使用する前
に予め前記周波数特徴パラメータP(0,0) 〜P
(0,n-1) 、………、P(m-1,0) 〜P(m-1,n-1) を使って
認識対象となる語彙について、例えばバックプロパゲー
ション(誤差逆向き伝播学習)により学習させておく。
認識時は、この学習されたニューラル・ネットワーク7
に入力された周波数特徴パラメータP(0,0) 〜P
(0,n-1) 、………、P(m-1,0) 〜P(m-1,n-1) に対し
て、最大発火した出力層のニューロン素子に対応する語
彙を認識結果A,B,C,D,………,Eとして出力す
る。これにより、周波数特徴を考慮した認識が行われ
る。
【0005】
【発明が解決しようとする課題】従来の音声認識装置の
各例でも、音声の長さの変化に対応するため、フレーム
合成時に、フレームの重複の大きさを変えてパラメータ
を抽出している。しかし、このように音声を線形圧伸的
に長さを揃えて分析すると、それぞれのフレームのパラ
メータには、音声全体の長さについての特徴が含まれ
ず、その特徴が失われ、発声の長い音声と発声の短い音
声、例えば「はと」と「はねぶとん」のように発声の長
さのみで判別できる語彙間での誤認識が起こる。
【0006】本発明は上記の実情に鑑みてなされたもの
で、発声の長さの違う語彙間の誤認識を減らすことによ
り認識率を向上させることができる音声認識装置及び方
法を提供することを目的とする。
【0007】
【課題を解決するための手段】上記課題を解決するため
に本発明は、アナログの音声信号をデジタルデータに変
換するA/D変換手段と、このA/D変換手段により変
換されたデジタルデータ中から音声部分の範囲を出力す
る音声切り出し手段と、この音声切り出し手段から出力
された音声部分の範囲をフレーム設定してフレーム情報
を出力すると共に該音声部分の音声の長さである音声長
特徴パラメータを出力するフレーム合成手段と、このフ
レーム合成手段で設定されたフレーム毎に音声の特徴で
ある音声特徴パラメータを求める演算手段と、この演算
手段により求めた音声特徴パラメータと前記フレーム合
成手段から出力された音声長特徴パラメータから音声を
認識する認識手段とを具備することを特徴とするもので
ある。
【0008】
【作用】上記手段により、周波数的な音声特徴と共に、
発声の長さを音声の長さ特徴パラメータとして付加して
認識装置を構成するので、発声の長さの違う語彙間の誤
認識を減らし、認識率を向上させることができる。
【0009】
【実施例】以下図面を参照して本発明の実施例を詳細に
説明する。図1は本発明の一実施例を示す構成説明図で
あり、図2は図1の動作を説明するための図である。即
ち、図2に示す原音声Aあるいは原音声Bのようなアナ
ログの音声信号はA/D変換器1に入力され、このA/
D変換器1は入力されたアナログの音声信号をデジタル
データに変換して音声切り出し装置2に出力する。この
音声切り出し装置2はA/D変換器1から入力されたデ
ジタルデータ中から無声もしくはノイズ等の余計な部分
を除いた音声部分の範囲を切り出して、その音声部分の
範囲をフレーム合成装置8に出力する。このフレーム合
成装置8は音声切り出し装置2から入力された音声部分
の範囲(発声)の長さから音声の長さ特徴パラメータL
ENGTHを求める。そして、この音声部分の範囲の長
さから全体が設定されたフレーム数がmになるようにフ
レームを重複させてフレームの合成を行う。すなわち、
音声部分の範囲をフレームに分割する為、図2に示すよ
うに、音声の長さに対応してフレーム0,フレーム1,
………、フレーム(m−1)をフレーム設定して各フレ
ーム毎の音声の長さを標準化する。フレーム合成装置8
で求めた音声の長さ特徴パラメータLENGTHをニュ
ーラル・ネットワーク9に出力すると共に、フレーム合
成装置8でフレーム設定したフレーム情報を特徴パラメ
ータ演算装置5に出力する。この特徴パラメータ演算装
置5はフレーム合成装置8により設定されたフレーム
0,フレーム1,………、フレーム(m−1)毎に周波
数分析を行い周波数特徴パラメータを計算し、フレーム
0の周波数特徴パラメータP(0,0) 〜P(0,n-1) 、フレ
ーム1の周波数特徴パラメータP(1,0) 〜P(1,n-1)
………、フレームmの周波数特徴パラメータP
(m−1,0)〜P(m−1,n−1) よりなる図2
に示すような音声パラメータAあるいは音声パラメータ
Bをニューラル・ネットワーク9に出力する。このニュ
ーラル・ネットワーク9はp+α個のニューロン素子よ
りなる入力層、q個のニューロン素子よりなる中間層、
及びr個のニューロン素子よりなる出力層から構成さ
れ、入力層の各ニューロン素子が中間層の各ニューロン
素子にそれぞれ対応して接続されると共に中間層の各ニ
ューロン素子が出力層の各ニューロン素子にそれぞれ対
応して接続されることによりネットワーク化される。入
力層の各ニューロン素子には特徴パラメータ演算装置5
で求めたフレーム0の周波数特徴パラメータP(0,0)
(0,n-1) 、フレーム1の周波数特徴パラメータP
(1,0) 〜P(1,n-1) 、………、フレームmの周波数特徴
パラメータP(m-1,0) 〜P(m-1,n-1) の計m×n個の周
波数特徴パラメータがそれぞれ対応して入力されと共
に、フレーム合成装置8で求めた音声の長さ特徴パラメ
ータLENGTHが入力される。各層の各ニューロン素
子はそれぞれの入力信号に重みを掛けた値の合計が閾値
を越えると、出力側に信号を出す。各ニューロン素子の
入力に掛け合わせる重みの値を所定値に学習させておく
ことにより、入力信号に対応した特定の出力信号を出力
する。そこで、ニューラル・ネットワーク9は認識に使
用する前に予め前記周波数特徴パラメータP(0,0) 〜P
(0,n-1) 、………、P(m-1,0) 〜P(m-1,n-1) と、長さ
特徴パラメータLENGTHを使って認識対象となる語
彙について、例えばバックプロパゲーション(誤差逆向
き伝播学習)により学習させておく。認識時は、この学
習されたニューラル・ネットワーク9に入力された周波
数特徴パラメータP(0,0) 〜P(0,n-1) 、………、P
(m-1,0) 〜P(m-1,n-1) と、長さ特徴パラメータLEN
GTHに対して、最大発火した出力層のニューロン素子
に対応する語彙を認識結果A,B,C,D,………,E
として出力する。これにより、周波数特徴、発声長さ特
徴の両方を考慮した音声認識が行われる。
【0010】以上のように、音声の発声の長さを考慮す
るために、周波数特徴を使った認識装置に、前処理また
は、後処理として行うと、別に装置を設けなければなら
ず、全体の認識システムが複雑になり規模も大きくな
る。本実施例では、周波数特徴を求める過程で求められ
る音声の発声長さ特徴を、ニューラル・ネットワークの
入力層のニューロン素子を少なくとも1個増やして入力
することにより、装置規模を比較的小さくすることがで
きる。すなわち、音声の発声長さ特徴のために入力層に
増やしたニューロン素子α個と、中間層ニューロン素子
q個の結合の重みα×q個を記憶するメモリ分が増える
のみで、ニューラル・ネットワークの演算もα×q回の
乗算とα×q回の加算が増えるだけで対応できる。
【0011】
【発明の効果】以上述べたように本発明によれば、音声
の周波数特徴と音声の発声長さ特徴を用いて音声を認識
することにより、発声の長さの違う語彙間の誤認識を減
らすことができ、認識率を向上させることができる音声
認識装置及び方法を提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す構成説明図である。
【図2】図1の音声認識装置の動作を説明するための説
明図である。
【図3】従来の音声認識装置の一例を示す構成説明図で
ある。
【図4】図3の音声認識装置の動作を説明するための説
明図である。
【図5】従来の音声認識装置の他の例を示す構成説明図
である。
【図6】図5の音声認識装置の動作を説明するための説
明図である。
【符号の説明】
1…A/D変換器、2…音声切り出し装置、3…辞書装
置、4,8…フレーム合成装置、5…特徴パラメータ演
算装置、6…比較装置、7,9…ニューラル・ネットワ
ーク。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 アナログの音声信号をデジタルデータに
    変換するA/D変換手段と、 このA/D変換手段により変換されたデジタルデータ中
    から音声部分の範囲を出力する音声切り出し手段と、 この音声切り出し手段から出力された音声部分の範囲を
    フレーム設定してフレーム情報を出力すると共に該音声
    部分の音声の長さである音声長特徴パラメータを出力す
    るフレーム合成手段と、 このフレーム合成手段で設定されたフレーム毎に音声の
    特徴である音声特徴パラメータを求める演算手段と、 この演算手段により求めた音声特徴パラメータと前記フ
    レーム合成手段から出力された音声長特徴パラメータか
    ら音声を認識する認識手段とを具備することを特徴とす
    る音声認識装置。
  2. 【請求項2】 アナログの音声信号をデジタルデータに
    変換するA/D変換器と、 このA/D変換器により変換されたデジタルデータ中か
    ら音声部分の範囲を出力する音声切り出し装置と、 この音声切り出し装置から出力された音声部分の範囲を
    フレーム設定してフレーム情報を出力すると共に該音声
    部分の音声の長さである音声長特徴パラメータを出力す
    るフレーム合成装置と、 このフレーム合成装置で設定されたフレーム毎に周波数
    に変換した周波数特徴パラメータを求める特徴パラメー
    タ演算装置と、 この特徴パラメータ演算装置により求めた周波数特徴パ
    ラメータと前記フレーム合成装置から出力された音声長
    特徴パラメータが入力層に入力され最大発火した出力層
    ニューロン素子に対応した語彙を認識結果として出力す
    るニューラル・ネットワークとを具備することを特徴と
    する音声認識装置。
  3. 【請求項3】 ニューラル・ネットワークには、特徴パ
    ラメータ演算装置で求めたフレーム0の周波数特徴パラ
    メータP(0,0) 〜P(0,n-1) 、フレーム1の周波数特徴
    パラメータP(1,0) 〜P(1,n-1) 、………、フレームm
    の周波数特徴パラメータP(m-1,0) 〜P(m-1,n-1) と、
    フレーム合成装置で求めた音声の長さ特徴パラメータを
    与えることを特徴とする請求項2記載の音声認識装置。
  4. 【請求項4】 入力デジタル音声信号の中から音声部分
    の範囲を切出し、この音声切出しをした音声部分の範囲
    をフレーム設定してフレーム情報を出力し、このフレー
    ム毎に音声の特徴である音声特徴パラメータを演算し、
    この演算により求められた音声特徴パラメータから音声
    認識をする音声認識方法において、 前記音声部分の音声の長さである音声長特徴パラメータ
    を演算し、前記音声特徴パラメータとこの音声長特徴パ
    ラメータとに基づいて音声認識をする音声認識方法。
  5. 【請求項5】 入力デジタル音声信号の中から音声部分
    の範囲を切出し、この音声切出しをした音声部分の範囲
    をフレーム設定してフレーム情報を出力し、このフレー
    ム毎に周波数変換した周波数特徴パラメータを演算し、
    この演算により求められた周波数特徴パラメータをニュ
    ーラル・ネットワークの入力層ニューロンに入力して音
    声認識をする音声認識方法において、 前記音声部分の音声の長さである音声長特徴パラメータ
    を演算し、前記周波数特徴パラメータと共にこの音声長
    特徴パラメータを前記ニューラル・ネットワークの入力
    層ニューロンに入力して音声認識をする音声認識方法。
JP5114970A 1993-05-17 1993-05-17 音声認識装置及び方法 Pending JPH06324696A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5114970A JPH06324696A (ja) 1993-05-17 1993-05-17 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5114970A JPH06324696A (ja) 1993-05-17 1993-05-17 音声認識装置及び方法

Publications (1)

Publication Number Publication Date
JPH06324696A true JPH06324696A (ja) 1994-11-25

Family

ID=14651138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5114970A Pending JPH06324696A (ja) 1993-05-17 1993-05-17 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JPH06324696A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102820031A (zh) * 2012-08-06 2012-12-12 西北工业大学 一种利用切割—分层构筑法的语音识别方法
CN106328123A (zh) * 2016-08-25 2017-01-11 苏州大学 小数据库条件下正常语音流中耳语音的识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102820031A (zh) * 2012-08-06 2012-12-12 西北工业大学 一种利用切割—分层构筑法的语音识别方法
CN106328123A (zh) * 2016-08-25 2017-01-11 苏州大学 小数据库条件下正常语音流中耳语音的识别方法
CN106328123B (zh) * 2016-08-25 2020-03-20 苏州大学 小数据库条件下正常语音流中耳语音的识别方法

Similar Documents

Publication Publication Date Title
US4624011A (en) Speech recognition system
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US4661915A (en) Allophone vocoder
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
US6553342B1 (en) Tone based speech recognition
AU684214B2 (en) System for recognizing spoken sounds from continuous speech and method of using same
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
JP2955297B2 (ja) 音声認識システム
JPH08202385A (ja) 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置
JP3535292B2 (ja) 音声認識システム
JP2996019B2 (ja) 音声認識装置
JP3523382B2 (ja) 音声認識装置及び音声認識方法
JPH06324696A (ja) 音声認識装置及び方法
JPH01202798A (ja) 音声認識方法
JP2010072446A (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2813209B2 (ja) 大語彙音声認識装置
JPH04273298A (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JPH04324499A (ja) 音声認識装置
JP3100180B2 (ja) 音声認識方法
JPH10116093A (ja) 音声認識装置
KR930011739B1 (ko) 초성 프리매칭의 2단매칭을 이용한 음성 인식방법
JP2757356B2 (ja) 単語音声認識方法および装置