JPH02254498A - 音韻分類記号化装置 - Google Patents

音韻分類記号化装置

Info

Publication number
JPH02254498A
JPH02254498A JP1077536A JP7753689A JPH02254498A JP H02254498 A JPH02254498 A JP H02254498A JP 1077536 A JP1077536 A JP 1077536A JP 7753689 A JP7753689 A JP 7753689A JP H02254498 A JPH02254498 A JP H02254498A
Authority
JP
Japan
Prior art keywords
phoneme
frame
classification
phoneme classification
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1077536A
Other languages
English (en)
Inventor
Shin Kamiya
伸 神谷
Mitsuhiro Toya
充宏 斗谷
Toru Ueda
徹 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP1077536A priority Critical patent/JPH02254498A/ja
Publication of JPH02254498A publication Critical patent/JPH02254498A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は、音声入力装置等に用いられる音韻分類記号
化装置の改良に関する。
〈従来の技術〉 音声入力装置において、入力された音声信号を一定の周
期(8ms程度、以下、フレームと言う)毎に大略的性
質によって分類し、この分類された性質に対してラベル
付け(音韻分類記号化)を行う。
そして、後に入力音声信号から音声区間や音節区間を切
り出す際に、上記音韻分類記号を用いるのである。
従来、音韻分類記号化を行う手法として、例えば次のよ
うな手法がある。すなわち、入力音声信号の各フレーム
毎にパワー、零交差数および自己相関係数等の特徴パラ
メータを求め、この求めた特徴パラメータの値と閾値と
の比較をフレーム毎に行い、その比較結果に基づいて各
フレームに音韻分類記号を付けるようにしている。
また、最近ニューラル・ネットワークを用いて、音節の
切り出しや音素認識を行う方法が提案されている。
〈発明が解決しようとする課題〉 しかしながら、上記閾値を用いた音韻分類記号化の手法
は、特徴パラメータの値と閾値との比較をフレーム毎に
行い、その比較結果に基づいて各フレームに音韻分類記
号を付けるようにしているので、特徴パラメータの値と
比較する閾値の設定には多くの音声認識上の経験を必要
とするという問題がある。さらに、各フレーム毎に独立
して音韻分類記号化を行っているので、隣接するフレー
ムの音韻分類記号間に矛盾が生じる場合があるという問
題もある。
また、上記ニューラル・ネットワークを用いた音節の切
り出しや音素認識は、音節あるいは音素の単位での音韻
分類記号化であり、フレームのように音韻あるいは音素
よりも短い区間における音韻分類記号化には用いられて
いない。
そこで、この発明の目的は、隣接するフレームにおける
音韻分類記号に矛盾のない音韻分類記号化を簡単に実行
できる音韻分類記号化装置を提供することにある。
〈課題を解決するための手段〉 上記目的を達成するため、この発明は、入力された音声
信号のフレーム毎の特徴パラメータに基づいて、入力音
声信号の各フレームに音声の性質を表す音韻分類記号を
付ける音韻分類記号化装置において、入力音声信号の所
定フレーム数の特徴パラメータを表す信号を入力し、上
記所定フレーム数のフレームにおける中心フレームの音
韻分類記号を識別して識別信号を出力する音韻分類記号
化用ニューラル・ネットワークと、上記音韻分類記号化
用ニューラル・ネットワークから出力される上記識別信
号に基づいて、上記中心フレームの音韻分類記号を決定
する音韻分類部を備えたことを特徴としている。
〈作用〉 音韻分類記号化用ニューラル・ネットワークに、入力音
声信号の所定フレーム数の特徴パラメータを表す信号が
入力されると、上記所定フレーム数のフレームにおける
中心フレームの音韻分類記号が識別されて識別信号が出
力される。そうすると、上記音韻分類記号化用ニューラ
ル・ネットワークからの識別信号に基づいて、音韻分類
部によって上記中心フレームの音韻分類記号が決定され
る。
したがって、前後数フレームの特徴パラメータの影響を
考慮して、当該フレームに音韻分類記号を付けることが
できる。
〈実施例〉 以下、この発明を図示の実施例により詳細に説明する。
この発明は、入力音声信号の各フレーム毎の音韻分類記
号を求めろ手法として、ニューラル・ネットワークを用
いるものである。上記ニューラル・ネットワークを利用
した識別は、学習によって入ツノデータが属するカテゴ
リを識別する規則を自ら求め、この求めた規則に従って
入力データが属するカテゴリを識別する方法である。し
たがって、予め適確な学習データを用いて正しく学習さ
れたニューラル・ネットワークを用いれば、簡単な処理
で入力データ(特徴パラメータ)か属するカテゴリ(音
韻分類記号)を正しく識別することができるのである。
第1図はこの発明の音韻分類記号化装置における一実施
例のブロック図である。入力音声信号は音声分析部lに
おいてザンブリング周期12 K I−IZでA/D変
換され、更にフレーム(Iフレームは8ms程度)毎に
パワー、零交差数および1次自己相関係数等の特徴パラ
メータに変換される。
上記音声分析部lから出力された特徴パラメータは、後
に詳述する遅延部2を介して音韻分類記号化用ニューラ
ル・ネットワーク3に入力されると共に、音^口分類部
4に入力される。そして、音韻分類記号化用ニューラル
・ネットワーク3によって、後に詳述するようにして各
フレーム毎に特徴パラメータの属する音韻分類記号が識
別され、識別データが出力される。そうすると、音韻分
類部4によって、音韻分類記号化用ニューラル・ネット
ワーク3からの識別データに基づいて、音韻分類記号が
決定されて得られた音韻分類記号が音声分析部1からの
特徴パラメータに付加されて出力される。
第2図は上記音韻分類記号化用ニューラル・ネットワー
ク3の構造の概略図である。このニューラル・ネットワ
ークは、図中下側から順に入力層11、中間層12およ
び出力層13から成る3層構造を有する3層パーセプト
ロン型ニューラル・ネットワークである。上記音韻分類
記号化用ニューラル・ネットワーク3の入力層11には
7X3=21個のユニットを配し、中間層12には10
個のユニットを配し、出力層13には6gのユニットを
配している。上記入力層11の21個のユニットは3個
づつ7個のグループに分けられる。そして、各グループ
の1番目のユニット+ 4.17.・・20、・・・、
23には、音声分析部lからのパワーを表す信号を入力
する。また、各グループの2番目のユニットI 5,1
8.・、21.・・、24には、音声分析部lからの零
交差数を表す信号を入力する。
さらに、各グループの3番目のユニット16,19゜・
・、22.・・・、25には、音声分析部Iからの1次
自己相関係数を表す信号を入力する。その際に、上記7
個のグループのうちユニット+4.15.16から成る
グループには(t−+−a)フレームの特徴パラメータ
を入力し、ユニットl 7,18.19から成るグルー
プには(t+2)フレームの特徴パラメータを入力し、
以下同様にして、ユニット20゜21.22から成るグ
ループにはLフレームの特徴パラメータを入力し、ユニ
ット23,24.25から成るグループには(t−3)
フレームの特徴パラメータを入力する。すなわち、音韻
分類記号化用ニューラル・ネットワーク3の入力層l!
には、入力音声信号のフレーム(t−3)〜フレームQ
+3)の連続した7フレ一ム分の特徴パラメータを入力
するのである。
ここで、音声分析部lから出力される連続した7フレー
ムの特徴パラメータを入力層11に入力する方法として
、例えば次のような方法がある。
ここで、第3図に示すように上記遅延部2は特徴パラメ
ータの種類に対応して3つの遅延部35゜36.37か
ら成り、各遅延部35,36.37は同じ構造を有し同
じ動作をするので、特徴パラメータのパワーに対応する
遅延部35のみについて説明する。
第2図および第3図において、入力層IIのユニット1
4には音声分析部1からのパワーを表す信号を直接入力
し、ユニット17には音声分析部lからのパワーを表す
信号を遅延部35の遅延素子38によって!フレーム分
だけ時間を遅延させて入力する。以下同様にして、ユニ
ット20には音声分析部1からのパワーを表す信号を3
個の遅延素子38によって3フレ一ム分だけ時間を遅延
させて入力し、ユニット23には音声分析部lからのパ
ワーを表4″信号を6gの遅延素子38によって6フレ
一ム分だけ時間を遅延させて入力すればよい。この場合
、全ユニット14.+7.・・・、20・・・、23の
中心のユニット20が、この音韻分類記号化用ニューラ
ル・ネットワーク3によってカテゴリか識別される当該
フレームtに対応する。
また、出力層13の6個のユニットには次のように音韻
分類記号を割り付ける。すなわち、ユニット26にはカ
テゴリ“(無音性)を割り付け、ユニット27にはカテ
ゴリ“B”(バズバー性)を割り付け、ユニット28に
はカテゴリ“N“(鼻音性)を割す付け、ユニット29
にはカテゴリ″v“(母音性)を割り付け、ユニット3
0にはカテゴリ“C”(弱い摩擦性)を割り付け、ユニ
ット3Iにはカテゴリ“F”(強い摩擦性)を割り付け
る。入力層11の各ユニットは夫々中間層I2の全ユニ
ットと接続している。また、中間層22の各ユニットは
夫々出力層【3の全ユニットと接続している。しかしな
がら、各層内のユニット間は接続されない。
上記音韻分類記号化用ニューラル・ネットワーク3の学
習は、次のように誤差逆伝播法によって行う。すなわち
、多数話者の音声信号から7フレ一ム分の音声信号を切
り出し、各フレーム毎に求められたパワー、零交差数お
よび1次自己相関係数の時系列を学習データとする。ま
た、上記学習データにおける中心フレームの性質を表す
音韻分類記号を視察によって求め、その求めた中心フレ
ームの音韻分類記号を表すデータを教師データとする。
そして、学習の際には、学習データを音韻分類記号化用
ニューラル・ネットワーク3における入力層11の各ユ
ニットに上述のように入力し、入力した7フレームから
成る学習データの中心フレームの音韻分類記号に応じた
教師データを出力層13に入力する。例えば、視察によ
って求められた中心フレームの音韻分類記号が“N”で
ある学習データを音韻分類記号化用ニューラル・ネット
ワーク3の入力層11に入力した場合は、出力層13の
カテゴリ“N”が割り付けられたユニット28への入力
値が“ビであり、他のユニットへの入力値が0”である
教師データを人ツノするのである。
すなわち、この学習においては、音韻分類記号化用ニュ
ーラル・ネットワーク3の入力層11に7フレ一ム分の
特徴パラメータが入力された場合に、この7フレームの
中心フレームの音韻分類記号を識別するように学習する
のである。そうすると、音韻分類記号化用ニューラル・
ネットワーク3は、出力層13の各ユニット26.・・
・、31からの出力値が教師データと同じになるように
ネットワークの重みを設定しなおしてネットワーク横進
を決定するのである。
入力音声信号の音韻分類記号は次のようにして音韻分類
記号化用ニューラル・ネットワーク3によって識別され
る。
上記音韻分類記号化用ニューラル・ネットワーク3の入
力層11に、音声分析部lからのフレーム(t−3)〜
フレーム(t+3)の7フレ一ム分のパワー、零交差数
および1次自己相関係数が上述のように遅延部2を介し
て入力される。その結果、入力された7フレ一ム分の特
徴パラメータの中心フレームtの特徴パラメータが属す
るカテゴリを表す出力データが出力層13から出力され
る。そして、1フレームに相当する時間が経過すると、
音声分析部Iからフレーム(t−2)〜フレーム(t+
4)の7フレ一ム分のパワー、零交差数および1次自己
相関係数が入力層11に入力される。その結果、入力さ
れた7フレ一ム分の特徴パラメータの中心フレーム(t
+1)の特徴パラメータが届するカテゴリを表す出力デ
ータが出力層13から出力されるのである。こうして、
入力音声信号の各フレーム毎の音韻分類記号の識別結果
を表す出力データの時系列が、出力層13から出力され
て音韻分類部4に入力される。
このよう(こ、本実施例においては、音韻分類記号化用
ニューラル・ネッ)・ワーク3によって、前後3フレー
ムを加えた合計7フレ一ム分の特徴パラメータに基づい
て、当該フレームtの音韻分類記号を識別するのである
。したがって、前後3フレームの影響を考慮して音韻分
類記号化を行うことができるのである。
上述のようにして、音韻分類記号化用ニューラル・ネッ
トワーク3の出力層I3から出力される当該フレームt
の識別音韻分類記号を表す出力データは、音韻分類部4
に入力されろ。そして、この音韻分類記号を表す出力デ
ータに基づいて、当該フレームEの音韻分類記号が次の
ようにして決定される。
すなわち、音韻分類記号化用ニューラル・ネットワーク
3における出力層13の全ユニット26゜・・・、31
からの出ツノ値のうち、一つのユニットからの出力値の
みが閾値以上であれば、そのユニットが割り付けられて
いるカテゴリの音韻分類記号を、フレームtの音韻分類
記号とする。また、複数のユニットからの出力値が閾値
以上であれば、出力値の大きいユニットが割り付けられ
ている音韻分類記号の順に、複数の音韻分類記号をフレ
ームtにおける音韻分類記号候補とする。さらに、総て
のユニットの出力値が閾値未満であれば、ひとつ前のフ
レーム(t−1)に付けた音韻分類記号をフレーム(の
音韻分類記号とするのである。
上述のように、本実施例の音韻分類記号化装置において
は、入力音声信号7フレ一ム分の)くワー零交差数およ
び1次自己相関係数を音韻分類記号化用ニューラル・ネ
ットワーク3の入力層11に入力すると、音韻分類記号
化用ニューラル・ネットワーク3は入力された7フレ一
ム分の特徴lクラメータのうちの中心フレームtの特徴
ノくラメータが属する音韻分類記号を識別して、識別音
韻分類記号を表す出ノJデータを出力する。そして、音
韻分類部4によって、上記識別音韻分類記号を表す出力
データに基づいてフレームLの音韻分類記号あるいは音
韻分類記号候補を決定するようにしている。
したがって、本実施例によれば、学習によって、7フ一
ム分の特徴パラメータに基づいて中心フレームの音韻分
類記号を識別する規則を自ら生成するニューラル・ネッ
トワークを用いて、前後3フレームの影響を考慮してフ
レームの音韻分類記号あるいは音韻分類記号候補を決定
することができる。したかって、簡単な処理によって隣
接するフレームの音韻分類記号間に矛盾か生じないよう
に音韻分類記号あるいは音韻分類記号候補を決定できる
のである。
上記実施例において、特徴パラメータとしてパワー、零
交差数および1次自己相関係数を用い、識別カテゴリと
して−”、“B”、“N”、V”、“C“および“F“
を割り付けているが、この発明はこれらに限定されるも
のではない。
上記音韻分類記号化用ニューラル・ネットワーク3の入
ツノ層11.中間層12および出力層I3のユニット数
は、入力する特徴パラメータの数。
識別音韻分類記号の数および音韻分類記号の識別精度等
によって変更しても何等差し支えない。
また、上記実施例においては、3層パーセプトロン型ニ
ューラル・ネットワークを用いているが、4層以上のパ
ーセブトロン型ニューラル・ネットワークであっても+
Rわない。
〈発明の効果〉 以上より明らかなように、この発明の音韻分類記号化装
置は、音韻分類記号化用ニューラル・ネットワーク、音
韻分類部を備えて、入力音声信号の所定フレーム数の特
徴パラメータに基づいて、上記音韻分類記号化用ニュー
ラル・ネットワークによって上記所定フレーム数のフレ
ームにおける中心フレームの音韻分類記号を識別し、こ
の音韻分類記号化用ニューラル・ネットワークからの識
別信号に基づいて、上記音韻分類部によって上記中心フ
レームの音韻分類記号を決定するようにしたので、前後
数フレームの影響を考慮して当該フレームの音韻分類記
号を決定することができ、簡単な処理によって隣接する
フレームの音韻分類記号間に矛盾が生じないように音韻
分類記号を決定することかできる。
【図面の簡単な説明】
第1図はこの発明の音韻分類記号化装置における一実施
例のブロック図、第2図は第1図における音韻分類記号
化用ニューラル・ネットワークの概略構成図、第3図は
第1図における遅延部の詳細なブロック図である。 l・・・音声分析部、       2・・・遅延部、
3・・音韻分類記号化用ニューラル・ネットワーク、4
・・・音韻分類部、       11・・・入力層、
12・・・中間層、        13・・・出力層
、38・・・遅延素子。 特許出願人  シャープ株式会社

Claims (1)

    【特許請求の範囲】
  1. (1)入力された音声信号のフレーム毎の特徴パラメー
    タに基づいて、入力音声信号の各フレームに音声の性質
    を表す音韻分類記号を付ける音韻分類記号化装置におい
    て、 入力音声信号の所定フレーム数の特徴パラメータを表す
    信号を入力し、上記所定フレーム数のフレームにおける
    中心フレームの音韻分類記号を識別して識別信号を出力
    する音韻分類記号化用ニューラル・ネットワークと、 上記音韻分類記号化用ニューラル・ネットワークから出
    力される上記識別信号に基づいて、上記中心フレームの
    音韻分類記号を決定する音韻分類部を備えたことを特徴
    とする音韻分類記号化装置。
JP1077536A 1989-03-29 1989-03-29 音韻分類記号化装置 Pending JPH02254498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1077536A JPH02254498A (ja) 1989-03-29 1989-03-29 音韻分類記号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1077536A JPH02254498A (ja) 1989-03-29 1989-03-29 音韻分類記号化装置

Publications (1)

Publication Number Publication Date
JPH02254498A true JPH02254498A (ja) 1990-10-15

Family

ID=13636711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1077536A Pending JPH02254498A (ja) 1989-03-29 1989-03-29 音韻分類記号化装置

Country Status (1)

Country Link
JP (1) JPH02254498A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123473A (ja) * 1994-10-28 1996-05-17 Sony Corp 音韻ラベル化装置
JPH08123462A (ja) * 1994-10-27 1996-05-17 Sony Corp 音声認識装置
KR100802984B1 (ko) * 2006-11-24 2008-02-14 연세대학교 산학협력단 기준 모델을 이용하여 미확인 신호를 판별하는 방법 및장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123462A (ja) * 1994-10-27 1996-05-17 Sony Corp 音声認識装置
JPH08123473A (ja) * 1994-10-28 1996-05-17 Sony Corp 音韻ラベル化装置
KR100802984B1 (ko) * 2006-11-24 2008-02-14 연세대학교 산학협력단 기준 모델을 이용하여 미확인 신호를 판별하는 방법 및장치

Similar Documents

Publication Publication Date Title
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
JP2764277B2 (ja) 音声認識装置
Orozco et al. Detecting pathologies from infant cry applying scaled conjugate gradient neural networks
EP0549265A2 (en) Neural network-based speech token recognition system and method
JPH0816187A (ja) 音声分析における音声認識方法
CN111681143A (zh) 基于课堂语音的多维度分析方法、装置、设备及存储介质
Dahmani et al. Vocal folds pathologies classification using Naïve Bayes Networks
EP1398758B1 (en) Method and apparatus for generating decision tree questions for speech processing
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
JPH02254498A (ja) 音韻分類記号化装置
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
JPH02253298A (ja) 音声通過フィルタ
Elman et al. An architecture for parallel processing in speech recognition: The TRACE model
Macon et al. Generalization and discrimination in tree-structured unit selection
CN113763992A (zh) 语音测评方法、装置、计算机设备和存储介质
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Bennani Text-independent talker identification system combining connectionist and conventional models
Buscicchio et al. Speech emotion recognition using spiking neural networks
Kavitha et al. Deep Learning based Audio Processing Speech Emotion Detection
JPH0466999A (ja) 文節境界検出装置
Wang et al. Speaker verification and identification using gamma neural networks
CN115171700B (zh) 一种基于脉冲神经网络的声纹识别语音助手方法
Muthusamy et al. A review of research in automatic language identification
JP2792709B2 (ja) 音声認識装置
JPH02254500A (ja) 発声速度推定装置