JPH08123473A - 音韻ラベル化装置 - Google Patents

音韻ラベル化装置

Info

Publication number
JPH08123473A
JPH08123473A JP6265138A JP26513894A JPH08123473A JP H08123473 A JPH08123473 A JP H08123473A JP 6265138 A JP6265138 A JP 6265138A JP 26513894 A JP26513894 A JP 26513894A JP H08123473 A JPH08123473 A JP H08123473A
Authority
JP
Japan
Prior art keywords
phoneme
equation
ggm
function
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6265138A
Other languages
English (en)
Inventor
Kazuo Watanabe
一夫 渡辺
Masao Watari
雅男 渡
Miyuki Tanaka
幸 田中
Kazuo Ishii
和夫 石井
Yasuhiko Kato
靖彦 加藤
Hiroaki Ogawa
浩明 小川
Masanori Omote
雅則 表
Katsuki Minamino
活樹 南野
Hitoshi Honda
等 本田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP6265138A priority Critical patent/JPH08123473A/ja
Publication of JPH08123473A publication Critical patent/JPH08123473A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 隣接するフレームの音韻ラベルに矛盾が生じ
ないように、音韻ラベル化を行うことができるようにす
る。 【構成】 音声分析部1により抽出した音声信号の特徴
パラメータを、遅延部2により所定時間だけ遅延して、
音韻ラベル化GGM部3に入力する。音韻ラベル化GG
M部3においては、Lm個の関数tlm(X)と、係数c
lmとの積の線形和で表される関数fm(X)を第m成分
として有する写像Fを用いて、音韻ラベルを識別する。
音韻分類部4においては、音韻ラベル化GGM部3より
供給された識別データを、音声分析部1より入力された
特徴パラメータに付加して、出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、例えば音声入力装置
等に用いられる音韻ラベル化装置に関する。
【0002】
【従来の技術】音声入力装置においては、入力された音
声信号を、一定の周期(例えば8ms程度の周期であ
り、以下フレームと言う)毎に、大略的性質によって分
類し、この分類された性質に対して音韻ラベル付けを行
う。そして、後に、入力音声信号から音声区間や音節区
間を切り出す際に、この音韻ラベルを用いる。
【0003】従来の音韻ラベル化の方法として、例えば
次のようなものがある。第1の方法は、入力音声信号の
各フレーム毎に、パワー、零交差数及び自己相関係数等
の特徴パラメータを求め、この求めた特徴パラメータの
値と所定の閾値との比較をフレーム毎に行い、その比較
結果に基づいて、各フレームに音韻ラベル付けを行うも
のである。
【0004】また、第2の方法は、ニューラルネットワ
ークを用いて音韻ラベル化を行う方法である。
【0005】
【発明が解決しようとする課題】しかしながら、閾値を
用いて音韻ラベル化を行う第1の方法は、特徴パラメー
タの値と閾値との比較をフレーム毎に行い、その比較結
果に基づいて各フレームに音韻ラベルを付けるようにし
ているので、特徴パラメータと比較する閾値の設定には
多くの音声認識上の経験を必要とするという課題があ
る。さらに、各フレーム毎に独立して音韻ラベル化を行
っているので、隣接するフレームの音韻ラベル間に矛盾
が生じる恐れがある。
【0006】また、ニューラルネットワークを用いて音
韻ラベル化を行う第2の方法は、学習に時間がかかる課
題がある。
【0007】この発明は、このような状況に鑑みてなさ
れたものであり、隣接するフレームに対して矛盾のない
音韻ラベル化を簡単に実行することができるようにする
ものである。
【0008】
【課題を解決するための手段】この発明の音韻ラベル化
装置は、音声信号の特徴パラメータを抽出する抽出手段
(例えば図1の音声分析部1)と、抽出手段により抽出
された、所定の数のフレームの特徴パラメータを、音声
信号の性質を表す音韻ラベルに変換する変換手段(例え
ば図1の音韻ラベル化GGM部3)とを備え、変換手段
は、第m成分の関数fm(X)が、Lm個の基底関数glm
(X)と係数clmとの積の線形和で表される写像により
構成されていることを特徴とする。
【0009】関数fm(X)は、
【数3】 で表されるものとすることができる。
【0010】また、係数clmは、E{X∈Sq}{f
(X)}を、学習サンプルSqの全要素にわたって関数
f(X)の期待値を求める演算とするとき、式
【数4】 で表される評価関数Jを最小にするものから求めること
ができる。
【0011】特徴パラメータを遅延して変換手段に供給
する遅延手段(例えば図1の遅延部2)をさらに設ける
ことができる。
【0012】特徴パラメータは、パワー、零交差数また
は1次相関係数の少なくとも1つとし、音韻ラベルは、
無音性、バズバー性、鼻音性、母音性、弱摩擦性、また
は強摩擦性の少なくとも1つとすることができる。
【0013】
【作用】この構成の音韻ラベル化装置においては、第m
成分の関数fm(X)が、Lm個の基底関数glm(X)と
係数clmとの積の線形和で表される写像を利用して、特
徴パラメータが音韻ラベルに変換される。従って、前後
数フレームの特徴パラメータの影響を考慮して、当該フ
レームに矛盾のない音韻ラベルを簡単につけることがで
きる。
【0014】
【実施例】以下、この発明を図示の実施例により詳細に
説明する。
【0015】この発明においては、入力音声信号の各フ
レーム毎の音韻ラベルを求めるために、本明細書におい
て、GGM(Guaranteed Global minimum Mapping)
(その詳細は後述する)と定義される方法が用いられ
る。このGGMは、入力データが属するカテゴリを識別
する規則を学習によって自ら定め、この定めた規則に従
って入力データが属するカテゴリを識別するものであ
る。従って、予め的確な学習データを用いて正しく学習
させたGGMを用いれば、簡単な処理で入力データが属
するカテゴリを正しく識別することができる。
【0016】図1はこの発明の音韻ラベル化装置の一実
施例の構成を示すブロック図である。入力音声信号は音
声分析部1においてサンプリング周波数12kHzでA
/D変換され、更にフレーム(1フレームは8ms程
度)毎に、一定の周期で、パワー、零交差数及び1次自
己相関係数等の特徴パラメータに変換される。
【0017】音声分析部1から出力された特徴パラメー
タは、後に詳述する遅延部2により所定時間遅延された
後、音韻ラベル化GGM部3に入力されるとともに、音
韻分類部4に直接入力される。音韻ラベル化GGM部3
においては、後に詳述するようにして、各フレーム毎に
特徴パラメータの属する音韻ラベルが識別され、識別デ
ータ(音韻ラベル)が出力される。音韻分類部4は、音
韻ラベル化GGM部3からの識別データに基づき、音韻
ラベルが決定されて得られた音韻ラベルを音声分析部1
からの特徴パラメータに付加して出力する。この出力
は、図示せぬ例えばHMMに供給され、処理される。
【0018】音韻ラベル化GGM部3においては、始集
合(入力)の次元を15次元、終集合(出力)の次元を
6次元としている。始集合は以下のように定義してい
る。始集合の元は、その3k+1(k=0,1,2,・
・・)番目の成分が、音声分析部1からのパワーを表す
成分からなり、3k+2番目の成分が、音声分析部1か
らの零交差数を表す信号からなり、更に3k+3番目の
成分が、音声分析部1からの1次の自己相関係数を表す
信号となるよう構成する。
【0019】ただしその際、1,2,3番目の成分の組
は、(t−2)フレームの特徴パラメータのものとし、
4,5,6番目の成分は、(t−1)フレームの特徴パ
ラメータのものとし、以下同様にして、7,8,9番目
の成分は、tフレームの特徴パラメータのものとし、1
0,11,12番目の成分は、(t+1)フレームの特
徴パラメータのものとし、13,14,15番目の成分
は、(t+2)フレームの特徴パラメータのものとす
る。つまり、始集合は、入力音声信号の(t−2)フレ
ームから(t+2)フレームの連続した5フレーム分の
特徴パラメータを組にした集合として構成する。
【0020】音声分析部1から出力される連続した5フ
レームの特徴パラメータを組にするために、図2に示す
ように、遅延部2は、特徴パラメータの種類に応じて3
つの遅延回路2a,2b,2cを有している。各遅延回
路は同じ構造(図には遅延回路2aの構造だけが示され
ているが、遅延回路2b,2cも同様の構造)を有し、
同じ動作をする。
【0021】そこで、3つの特徴パラメータのうち、パ
ワーについて説明すると、始集合の1番目の成分につい
ては、音声分析部1からのパワーを表す信号が遅延素子
を介することなく、音韻ラベル化GGM部3の入力部3
Aに直接入力され、4番目の成分については、音声分析
部1からのパワーを表す信号が遅延回路2aの遅延素子
21によって1フレーム分だけ時間を遅延された後、入
力される。同様にして、7番目の成分については、音声
分析部1からのパワーを表す信号が、2個の遅延素子2
2,23によって2フレーム分だけ時間を遅延された
後、入力される。
【0022】このようにして、3k+1番目の成分に
は、遅延回路2aのk個の遅延素子よって、kフレーム
分だけ遅延された後、入力される。ここで、1,4,
7,10,13の5つのうち、中心の7番目の成分が、
音韻ラベル化GGM部3によってカテゴリが識別される
該当フレームtに対応する。
【0023】音韻ラベル化GGM部3においては、写像
が設定されており、この設定写像は、後述するように、
その第m成分の関数fm(X)が、Lm個の基底関数glm
(X)と係数clmとの積の線形和で表される。上記のよ
うに構成した始集合の点、つまり15個(1つのフレー
ムについて3つの特徴パラメータがあり、その5フレー
ム分)の音声分析値よりなるベクトルをもとにして各成
分間の相関値を求め、この相関値の大きい組合せからな
る座標成分関数を乗算することにより得られる単項式を
基底関数として設定する。
【0024】また、各成分関数には(従って、終集合の
各成分には)、その1番目の成分に、カテゴリ"無音性
Q”を、2番目の成分に、カテゴリ”バズバー性B”
を、3番目の成分に、カテゴリ”鼻音性N”を、4番目
の成分に、カテゴリ”母音性V”を、5番目の成分には
カテゴリ”弱い摩擦性C”を、そして、6番目の成分に
は、”強い摩擦性F”を、それぞれ対応させる。
【0025】このような設定の基で、音韻ラベル化GG
M部3の学習は、次のように行われる。 すなわち、多
数の話者の音声信号から5フレーム分の音声信号を切り
出し、各フレーム毎に求められたパワー、零交差数及び
1次自己相関係数の時系列を学習データとする。また、
学習データにおける中心フレームの性質を表す音韻ラベ
ルを、例えばそのスペクトラムを視察することによって
求め、その求めた中心フレームの音韻ラベルを表すデー
タを教師ベクトルとする。
【0026】例えば、データの中心フレームの音韻ラベ
ルが”無音性Q”を有している場合、その教師ベクトル
としては、無音対応成分である1番目の成分を”1”
に、それ以外の2番目から6番目の成分はすべて”0”
とする。すなわち、(1,0,0,0,0,0)と定め
る(予め学習データ夫々に対しては、中心フレームの性
質を表す音韻ラベルを(視察によって)求めておく必要
がある)。これより、通常のGGMの係数決定法に従い
(例えば、代数方程式を解くことにより)、誤差最小が
保証された写像が決定される。この点については、後に
詳述する。
【0027】学習が完了した後、入力音声信号の音韻ラ
ベルは次のようにして音韻ラベル化GGM部3によって
識別される。
【0028】図3に示すように、音韻ラベル化GGM部
3に、音声分析部1から出力された、(t−2)フレー
ムから(t+2)フレームまでの5フレーム分のパワ
ー、零交差数及び1次自己相関係数の特徴パラメータ
(15次元)が、遅延部2を介して入力される。音韻ラ
ベル化GGM部3は、入力された5フレームのうち、中
心フレームtの特徴パラメータが属するカテゴリを、写
像を使って判定し、そのカテゴリを表すデータ(6次
元)を出力する。
【0029】そして、1フレームに相当する時間が経過
すると、音声分析部1から、(t−1)フレームから
(t+3)フレームまでの5フレーム分のパワー、零交
差数及び1次自己相関係数が、音韻ラベル化GGM部3
に入力される。その結果、入力された5フレーム分のう
ちの中心フレーム(t+1)の特徴パラメータが属する
カテゴリを表すデータが音韻ラベル化GGM部3より出
力される。
【0030】こうして、入力音声信号の各フレーム毎の
音韻ラベルの識別結果を表すデータの時系列が音韻ラベ
ル化GGM部3より出力され、音韻分類部4に入力され
る。
【0031】本実施例では、音韻ラベル化用GGM部3
において、該当フレームと、その前後2フレームを加え
た合計5フレーム分の特徴パラメータに基づいて、該当
フレームtの音韻ラベルを識別する。従って、前後2フ
レームの影響を考慮して、正確な音韻ラベル化を行うこ
とができる。
【0032】上述のようにして、音韻ラベル化用GGM
部3から出力される該当フレームtの識別音韻ラベルを
表すデータは、音韻分類部4に入力される。そして、音
韻分類部4において、この音韻ラベルを表すデータに基
づいて、該当フレームtの音韻ラベルが次のようにして
決定される。
【0033】すなわち、音韻ラベル化GGM部3におけ
る6次元出力ベクトル(図3に示すように、無音性乃至
強摩擦性に対応されたf1(X)乃至f6(X)の成分よ
りなる)のうち、1つの成分関数からの出力値のみが、
予め設定した閾値以上であれば、その成分に対応するカ
テゴリの音韻ラベルをフレームtの音韻ラベルとする。
また、複数の成分の値が閾値以上であれば、値のより大
きい成分が割り当てられている音韻ラベルの順に、複数
の音韻ラベルをフレームtにおける音韻ラベルの候補と
する。すべての成分値が閾値以下の場合は、1つ前のフ
レーム(t−1)につけた音韻ラベルをフレームtの音
韻ラベルとする。
【0034】同様のことをニューラルネットワークで実
現した場合には、本来区別できないような場合にも、出
力層で設けた飽和特性をもつような関数(例えば、ta
nh(x))により、無理やり識別が行われてしまう。
例えば、音韻分類部4に辞書等を用意し、言語学的情報
を用いることにより候補の中から所定のものを選択する
といったことは実行が困難である。しかしながら、GG
Mを用いた場合にはこれが可能になる。
【0035】上述のように、本実施例の音韻ラベル化装
置においては、入力音声信号の5フレーム分のパワー、
零交差数及び1次相関係数を音韻ラベル化用GGM部3
に入力すると、音韻ラベル化用GGM部3は、入力され
た5フレーム分の特徴パラメータのうちの中心フレーム
tの特徴パラメータが属する音韻ラベルを識別して、音
韻ラベルを表すデータを音韻分類部4に出力する。そし
て、音韻分類部4において、識別された音韻ラベルを表
すデータに基づいて、フレームtの音韻ラベル、あるい
は音韻ラベル候補を決定するようにしている。
【0036】従って、本実施例によれば、5フレーム分
の特徴パラメータに基づいて中心フレームの音韻ラベル
を識別する規則を、学習によって生成するGGMを用い
て、前後2フレームの影響を考慮して、フレームの音韻
ラベル、あるいは音韻ラベル候補を決定できるのであ
る。
【0037】本実施例においては、特徴パラメータとし
てパワー、零交差数及び1次自己相関係数を用い、識別
カテゴリとして”無音性Q”、”バズバー性B”、”母
音性V”、”弱い摩擦性C”,”強い摩擦性F”を割り
付けているが、これらに限定されるものではない。
【0038】また、音韻ラベル化用GGM部3の始集
合、終集合の次元は、入力する特徴パラメータの種類、
束化するフレーム数、識別音韻ラベルの数等によって変
更してもよい。さらに、GGMの基底関数の個数、種類
等も、音韻ラベルの識別精度に対応して、適宜、設定す
ることができる。
【0039】音韻ラベル化用GGM部3においては、写
像が定義され、この写像に対して変換処理が行われる
が、次に音韻ラベル化用GGM部3における写像の詳細
について説明する。
【0040】本実施例においては、N次元計量ベクトル
空間ΩNからM次元計量ベクトル空間ΩMへの写像Fを決
定するに際し、写像Fの第m成分の関数fm(X)が、
m個の関数glm(X)の線形和として、次に示すよう
に定義される。
【0041】
【数5】
【0042】ここで、X=(x0,x1,x2,・・・,
N-1)であり、clmは所定の係数である。
【0043】即ち、本発明においては、関数glm(X)
として、N変数関数空間上の完備な関数系が採用され
る。関数解析における「任意の関数は完備な関数系の線
形結合で表現することができる」という定理から、個数
mの大きさを充分大きくすることにより、原理的に
は、任意の連続写像を、この関数glm(X)により表現
することができることが判る。
【0044】このことは、階層型ニューラルネットにお
ける中間層のニューロン素子の数が充分大きければ、原
理的には、任意の連続写像を表現することができること
に対応する。
【0045】従来のニューラルネットワークとの比較の
ために、本発明の写像をネットワークで表現すると、図
4に示すようになる。
【0046】即ち、素子11乃至14には、それぞれ入
力x0乃至x3が入力される。これらの入力は、それぞれ
中間層の素子15乃至17にそのまま出力される。
【0047】中間層の素子15においては、次式で表さ
れるような演算が行われる。 X’0=c00(X) (2)
【0048】即ち、変数x0,x1,x2,x3から関数g
0(X)(=g0(x0,x1,x2,x3))の関数値を計
算した後、係数c0が乗算される。同様に、素子16と
素子17においては、それぞれ次式で表すような演算が
行われる。 X’1=c11(X) (3) X’2=c22(X) (4)
【0049】そして、出力層の素子18において、中間
層の素子15乃至17の出力x’0,x’1,x’2が加
算され、出力yが得られる。
【0050】従って、関数gi(X)を所定のものに選
択、設定すれば、その後、学習により、係数ciを所定
のものに設定することで、写像Fが得られることにな
る。
【0051】この係数ciを決定するため、Q個のカテ
ゴリCq(q=0,1,2,・・・,Q−1)に分類さ
れているN次元(計量)ベクトル空間ΩN上の学習サン
プル(カテゴリCqの学習サンプルの集合をSq(=(S
q0,Sq1,・・・,Sq(N-1)))とする)を用い、それ
ぞれのカテゴリCqに対するM次元(計量)ベクトル空
間ΩM上のQ個の教師ベクトルTq(=(tq0,tq1,t
q2,・・・,tq(M-1)))を与え、次式で表される評価
関数Jを演算する。
【0052】
【数6】
【0053】尚、上式におけるE{X∈Sq}{ }
は、{ }内において、学習用サンプルの集合Sqの全
要素にわたって、平均値(期待値)を演算することを意
味する。従って、評価関数Jは、学習サンプルに対する
写像出力と教師ベクトルとの自乗誤差のアンサンブル平
均を意味している。
【0054】(1)式を、(5)式に代入すると、次式
が得られる。
【0055】
【数7】
【0056】ここで、 αqmij=E{X∈Sq}{gim(X)gjm(X)} (7) βqmi =E{X∈Sq}{gim(X)} (8) とおくと、上記(6)式は、次のように表すことができ
る。
【0057】
【数8】
【0058】ここで、評価関数Jの極値を求めるため、
(9)式を、次式で表すように、cimで偏微分し、その
値を0とする。 ∂J/∂cim=0 (10)
【0059】(9)式を、(10)式に示すように演算
することにより、次式が得られる。
【0060】
【数9】
【0061】この(11)式は、各mに関し、Lm個の
未知数(係数)cim(i=0,1,・・・,Lm-1)に
関する連立一次方程式となる。
【0062】この(11)式を、さらに、次の(12)
式と(13)式のようにおくと、(14)式に示すよう
な簡潔な形となる。
【0063】
【数10】
【0064】
【数11】
【0065】
【数12】
【0066】(11)式または(14)式は、一次方程
式であるから、不定あるいは不能となる特殊な場合を除
き、一意に解が得られる。
【0067】このことは、(6)式で表される評価関数
Jの最小値に対応するcimが、(11)式の方程式また
は(14)式の方程式を解くことにより、求めることが
できることを意味する。
【0068】この解が一意に決まるという特性は、ニュ
ーラルネットにおけるような準最適解を求めるために、
初期値を変更して繰り返し学習する処理を不要にする。
また、(1)式に示すように写像を表現するようにした
ため、係数cimの値の自由度と、関数glm(X)とし
て、どのような関数を採用するかの自由度があることに
なる(即ち、大きくは自由度が2種類となる)。
【0069】このため、同程度の規模で考えれば、写像
の潜在的表現能力は、上述した本発明による写像決定方
法(GGM(Guaranteed Global minimum Mapping))
の方が、ニューラルネットよりも大きくなる。なぜなら
ば、ニューラルネットの場合には、規模が固定されれ
ば、残る表現の自由度は、結合重み係数の値の取り得る
自由度だけとなるからである。
【0070】以上のGGMとニューラルネットの特性を
比較すると、表1に示すようになる。
【0071】
【表1】
【0072】この表に示すように、ニューラルネットに
おいては、中間層のニューロン素子の数を増加すること
で、任意の連続写像を記述することができるが、GGM
においては、関数gi(X)を適宜選択することで、任
意の連続写像を記述することができる。
【0073】また、フリーパラメータは、ニューラルネ
ットにおいては、結合重み係数ωiであるのに対し、G
GMにおいては、係数ciである。しかしながら、GG
Mの場合は、さらにgi(X)の関数形の選択の自由度
がある。従って、GGMにおいては、写像の表現能力に
関係する自由度が、大きく2種類存在することになる。
【0074】また、ニューラルネットにおいては、評価
関数の誤差を最小にすることは、初期値の問題があるた
め補償されないが、GGMにおいては、初期値の問題が
存在せず、確実に評価関数の誤差を最小にすることが可
能となる。
【0075】さらに、ニューラルネットにおける学習法
はバックプロパゲーションであるが、GGMにおける学
習は、線形方程式を解くことにより行われる。
【0076】さらに、写像の構造が、ニューラルネット
においては、シグモイド関数が内部に組み込まれた複雑
な構造となるのに対して、GGMにおいては、関数と係
数の積の和という単純な構造となる。
【0077】その他、写像の特性付けは、ニューラルネ
ットとGGM、いずれの場合においても、教師ベクトル
により行われ、評価関数は、いずれの場合も、出力と教
師ベクトルとの自乗誤差を最小にする関数が用いられ
る。
【0078】尚、本実施例においては、GGMを判別装
置に適用した例を、2次元の学習内データに対する判別
を行う場合で示したが、より多次元データの判別装置
や、入力パラメータからコントロール信号を出力する形
態の制御装置等で用いられる写像形態の計算部において
も、全く同様の構成の写像装置を実現することができ
る。
【0079】上記実施例では、写像F、つまり係数clm
を求めるために、上記(5)式で表される評価関数J
を、係数clmによって偏微分して得られる(11)式ま
たは(14)式の連立方程式(正規方程式)を解くよう
にした。このようにして決定された解は、その連立方程
式のヤコビ行列が特異(ランク落ち)でない限り、まさ
にJの最小値を与える。この意味で、上記実施例は、最
も素朴かつ優れた方法であると言える。
【0080】しかしながら、このような係数の決定方法
では、(7)式と(8)式における演算を行うために、
各データを全て一旦メモリに記憶する必要があり、写像
の各成分関数の基底関数glmを増やすと、(7)式と
(8)式で示すαqmij,βqmiの数が増大する。これに
より、次の問題が発生する。 (1)αqmij,βqmiの決定に長い時間を費やさなけれ
ばならない。 (2)演算のために十分な記憶領域を必要とする。 (3)必要に応じて、追加学習(写像を修正)すること
が困難である(もう一度、E{X∈Sq}{gim(X)
jm(X)},E{X∈Sq}{gim(X)}を求め
て、正規方程式を解くことが必要である)。
【0081】そこで、データを入力する毎に逐次的に写
像を決定していく方法を考える。このために、写像の決
定を、写像の開折の力学系の軌道決定として定式化す
る。
【0082】上述したように、評価関数Jは(5)式で
表され、この(5)式は、次のように書き換えることが
できる。
【0083】
【数13】
【0084】ここで、写像Fの次のような1パラメータ
開折Uを考える。 U:RN×R→RM U(x,t)=(f0(x,t),・・・,fM-1(x,t)) (16) 即ち、RMは、RNの要素xと、Rの要素tの組み合わせ
(直積)で表される。
【0085】尚、(16)式において、fm(x,t)
は、次式で表される。
【0086】
【数14】
【0087】この開折Uに対して、次式よりJ(tの関
数)を求める。
【0088】
【数15】
【0089】そして、次の力学系を考える。但し、簡単
のため、以後、(1/2)Jを、Jとする。 dclm/dt=−∂J/∂clm 0≦l≦Lm-1 ,0≦m≦M−1 (19)
【0090】この力学系に従い、U(即ち、係数c
(t))が動くとき、Jは非増加である。つまり、次式
が成立する。 dJ/dt≦0 (20)
【0091】この(20)式の等号成立の必要充分条件
は、次の通りである。 ∂J/∂clm=0(∀l,∀m) (21)
【0092】実際、計算してみると、次式が成立する。
【0093】
【数16】
【0094】従って、等号成立の必要充分条件は、上式
より明らかに次の通りとなる。 ∂J/∂clm=0(∀l,∀m) (23)
【0095】これより、十分大なるtに対して、UはJ
の最小値になる。つまり、Jを最小にする写像(その係
数)を、次のようにして決定することができる。
【0096】
【数17】
【0097】このように、写像を決定するために、この
力学系(微分方程式)の軌道(解曲線)を決定すればよ
い。
【0098】上記の力学系(微分方程式)の軌道(解曲
線)を、直接解析的に求めるのではなく、データ毎に逐
次的に導いていく。 dckn/dt=−∂J/∂ckn (25)
【0099】そこで、上記力学系の式におけるdckn
dtを、(ckn(t+h)−ckn(t))で近似するこ
とにより、次式が得られる。 ckn(t+h)−ckn(t)=−h(∂J/∂ckn) (26)
【0100】また、次式が成立している。
【0101】
【数18】
【0102】そこで、次式を定義する。 Dnq(x,t)≡fn(x,t)−tnq (28)
【0103】これにより、次の逐次的学習規則が導かれ
る。
【0104】
【数19】
【0105】この式は、次のように変形することができ
る。
【0106】
【数20】
【0107】いま、 Sq∋x(q):i回目データ とするとき、次式が成立する。 ckn(t+(i/N)h)=ckn(t+((i−1)/N)h) −(h/Cq)Dnq(x(q),t)gnk(x(q)) (31) (i=0,1,2,・・・) (1≦m≦M−1,1≦l≦Lm−1)
【0108】従って、次のように写像(係数)を更新す
ることができる。 ckn(t+1)=ckn(t)−εDnq(x,t)gnk(x) (32) (t=0,1,・・・) (εは小なる定数)
【0109】即ち、(t+1)回目の学習データx(こ
れが、x∈Sqであったとする)とするとき、各k,n
に対して、写像の係数cknを、(35)式に従って更新
していく。この方式を使うことにより、所望の写像を決
定することができる。また、この方式は、一度得られた
写像(データを一旦全て記憶した後、まとめて処理する
方法により得られた写像であれ、データを逐次的に処理
する方法により得られた写像であれ)に対し、必要に応
じてその写像の係数を、この方法より更新することで、
写像を容易に修正することができる。
【0110】以上の原理に従って、逐次的にデータを処
理して写像Fを決定する(係数clmを決定する)より詳
細な方法について、図5のフローチャートを参照して説
明する。
【0111】いま、F(i)を、i回目に更新された設
定写像とし、F(i)(x)を、次式で定義する。 F(i)(x)=(f0(i)(x),・・・,fM-1(i)(x)) (33)
【0112】さらに、1≦m≦M−1に対して、f
m(x)を次式で表す。
【0113】
【数21】
【0114】また、学習データ(特徴ベクトル)全体
を、次式で表す。 D={dj|j=1,・・・,N}⊂RN (35)
【0115】さらに、各カテゴリq(q=1,・・・,
Q−1)に対応する教師ベクトルTを、 T=(tq0,・・・,tqM-1) と表す。学習繰り返し制限回数をSとする。
【0116】最初にステップS41で、係数の初期化処
理を実行する。即ち、変数を、それぞれ、i=0,j=
0,s=0とするとともに、係数clm(0)(1≦m≦
M−1,0≦l≦Lm−1)を小さい値の乱数で初期化
する。
【0117】次にステップS42で、学習データのセッ
トを行う。即ち、dj∈Sq(いまの場合、d0)を学習
データとする。
【0118】さらにステップS43に進み、写像値の計
算を行う。即ち、 F(i)(dj)=(f0(i)(dj),・・・,fM-1(i)(dj)) (36) の値を計算する。
【0119】次にステップS44で、誤差の計算を行
う。即ち、各mに対して、次式を計算する。 Dmq(i)(dj)=fm(i)(dj)−tmq (37)
【0120】ステップS45では、係数の更新を行う。
即ち、次式を計算する。 clm(i+1)=clm(i)−εDqm(dj)glm(dj) (38)
【0121】次にステップS46で、学習データの更新
を行う。即ち、次データdj+1をdjとする。
【0122】さらにステップS47に進み、学習データ
数jと、学習データ総数Nとを比較し、j<Nならステ
ップS42に戻り、それ以降の処理を繰り返す。
【0123】j=Nの場合、ステップS47からステッ
プS48に進み、学習繰り返し数の更新を行う(インク
リメントする)。即ち、s=s+1とする。
【0124】次にステップS49において、学習繰り返
し数sと、制限回数Sとを比較し、s<Sなら、ステッ
プS50において、j=0とした後、ステップS42に
戻り、それ以降の処理を繰り返す。s=Sの場合、処理
を終了する。
【0125】写像を修正する場合においては、ステップ
S41において、係数clmを小さい値の乱数で初期化す
る代わりに、先に決定された写像の所定の係数(値)を clm(0)(1≦m≦M−1,0≦l≦Lm−1) に代入すればよい。
【0126】ところで、この写像決定方法を利用する
際、設定写像の決定が重要である。上記した最初の実施
例では、全学習データ(特徴ベクトル)を用いて相関係
数を計算することにより、成分関数の基底をなす単項式
を求めた。そして、この単項式により生成される(線形
結合として表される)多項式を各成分が持つように写像
を設定した。
【0127】これに対して、最初の実施例および後の実
施例のいずれにおいても、全学習データ(特徴ベクト
ル)を用いるのではなく、カテゴリに分けた学習データ
を使い、それらの相関係数より決定された単項式により
生成される多項式を、そのカテゴリに対応する成分関数
として設定し、これにより、設定写像自体に識別性を込
めるようにすることができる。
【0128】次に、図6のフローチャートを参照して、
その処理例について説明する。最初にステップS61
で、各カテゴリq(0≦q≦Q−1)のベクトルをxq
(= (xq0,・・・,xqN-1))に対して、次式で表
される相関係数ρq,k,l(0≧ k≧l≧N−1)を計算
する。
【0129】
【数22】
【0130】次にステップS62において、(0≦k≦
l≦N−1)なるk,lに対し、次の対応関係を考え
る。
【0131】
【数23】
【0132】そして、さらに、これから次のような組み
合わせを作成する。
【0133】
【数24】
【0134】また、ステップS63では、d=3からd
=Dqまで、以下の処理を繰り返す。即ち、(d+1)
個の組(cq1,cq2,・・・,cqd;v)から、次のよ
うな(d+2)個の組を作る(ここで、Dqは、パター
ン集合の規模、処理時間の現実性にあわせて予め決定す
る)。
【0135】
【数25】
【0136】ステップS64では、ステップS62,S
63で作った組および、(1),(kq,l),(0≦
k≦N)を加えたリストを、右端値((・・・;v)に
おけるvの値)について大きい順に、かつ、組数の小さ
い順に並べ、パターン集合の規模、処理時間の現実性に
あわせてW個選択する。このWは、成分関数毎に変えて
も構わない。
【0137】ステップS65では、選択したW個の組に
対して、次のように単項式を決定する。 (cqi(1),cqi(2),・・・,cqi(l))→xi(1)i(2)・・・xi(l) ここで、 0≦l≦N−1,1≦i(1)≦i(2),・・・,≦i(l) である。そして、これらにより生成される次のような多
項式を成分関数fqとして決定する(1≦q≦Q−1な
る全てのカテゴリに対して、上記のように対応する成分
関数を決定する)。
【0138】
【数26】
【0139】次にステップS66で、これらの成分関数
より設定写像を決定し、さらにステップS67で、上述
した先のまたは後の写像決定法に従って、写像を決定す
る。
【0140】このように、カテゴリに対応して成分関数
を設定することにより、各カテゴリのデータの特質を、
より効果的に関数に反映することができ、より正確な判
別結果を得ることができる。即ち、識別性をより向上さ
せることができる。
【0141】
【発明の効果】以上のように、この発明の音韻ラベル化
装置によれば、第m成分の関数fm(X)が、Lm個の基
底関数glm(X)と係数clmとの積の線形和で表される
写像を利用して、特徴パラメータを音韻ラベルに変換す
るようにしたので、前後数フレームの影響を考慮して、
隣接するフレームの音韻ラベル間に矛盾が生じないよう
に、音韻ラベルを正確に決定することができる。
【図面の簡単な説明】
【図1】この発明の音韻ラベル化装置における一実施例
の構成を表すブロック図である。
【図2】図1の遅延部2の内部の構成を示すブロック図
である。
【図3】図1の音韻ラベル化GGM部3の処理を説明す
る図である。
【図4】図1の音韻ラベル化GGM部3の概念的構成を
示す図である。
【図5】図1の音韻ラベル化GGM部3の処理例を示す
フローチャートである。
【図6】図1の音韻ラベル化GGM部3の他の処理例を
示すフローチャートである。
【符号の説明】
1 音声分析部 2 遅延部 2a,2b,2c 遅延回路 3 音韻ラベル化GGM部 4 音韻分類部 21乃至23 遅延素子
───────────────────────────────────────────────────── フロントページの続き (72)発明者 石井 和夫 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 加藤 靖彦 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 小川 浩明 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 表 雅則 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 南野 活樹 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 本田 等 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声信号の特徴パラメータを抽出する抽
    出手段と、 前記抽出手段により抽出された、所定の数のフレームの
    前記特徴パラメータを、前記音声信号の性質を表す音韻
    ラベルに変換する変換手段とを備え、 前記変換手段は、第m成分の関数fm(X)が、Lm個の
    基底関数glm(X)と係数clmとの積の線形和で表され
    る写像により構成されていることを特徴とする音韻ラベ
    ル化装置。
  2. 【請求項2】 前記関数fm(X)は、 【数1】 で表されることを特徴とする請求項1に記載の音韻ラベ
    ル化装置。
  3. 【請求項3】 前記係数clmは、E{X∈Sq}{f
    (X)}を、学習サンプルSqの全要素にわたって前記
    関数f(X)の期待値を求める演算とするとき、式 【数2】 で表される評価関数Jを最小にするものから求められる
    ことを特徴とする請求項2に記載の音韻ラベル化装置。
  4. 【請求項4】 前記特徴パラメータを遅延して前記変換
    手段に供給する遅延手段をさらに備えることを特徴とす
    る請求項1,2または3に記載の音韻ラベル化装置。
  5. 【請求項5】 前記特徴パラメータは、パワー、零交差
    数または1次相関係数の少なくとも1つであることを特
    徴とする請求項1乃至4のいずれかに記載の音韻ラベル
    化装置。
  6. 【請求項6】 前記音韻ラベルは、無音性、バズバー
    性、鼻音性、母音性、弱摩擦性、または強摩擦性の少な
    くとも1つであることを特徴とする請求項1乃至5のい
    ずれかに記載の音韻ラベル化装置。
JP6265138A 1994-10-28 1994-10-28 音韻ラベル化装置 Pending JPH08123473A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6265138A JPH08123473A (ja) 1994-10-28 1994-10-28 音韻ラベル化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6265138A JPH08123473A (ja) 1994-10-28 1994-10-28 音韻ラベル化装置

Publications (1)

Publication Number Publication Date
JPH08123473A true JPH08123473A (ja) 1996-05-17

Family

ID=17413160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6265138A Pending JPH08123473A (ja) 1994-10-28 1994-10-28 音韻ラベル化装置

Country Status (1)

Country Link
JP (1) JPH08123473A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0232400A (ja) * 1988-07-21 1990-02-02 Sharp Corp 音声の特徴抽出方法
JPH02254498A (ja) * 1989-03-29 1990-10-15 Sharp Corp 音韻分類記号化装置
JPH0635707A (ja) * 1992-05-19 1994-02-10 Sanyo Electric Co Ltd 自己増殖型ニューロファジィ知識獲得装置およびそれを用いた次元推定装置
JPH07225747A (ja) * 1994-02-15 1995-08-22 Sony Corp 写像決定方法
JPH07234855A (ja) * 1993-12-28 1995-09-05 Sony Corp 写像決定方法および装置
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JPH08123462A (ja) * 1994-10-27 1996-05-17 Sony Corp 音声認識装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0232400A (ja) * 1988-07-21 1990-02-02 Sharp Corp 音声の特徴抽出方法
JPH02254498A (ja) * 1989-03-29 1990-10-15 Sharp Corp 音韻分類記号化装置
JPH0635707A (ja) * 1992-05-19 1994-02-10 Sanyo Electric Co Ltd 自己増殖型ニューロファジィ知識獲得装置およびそれを用いた次元推定装置
JPH07234855A (ja) * 1993-12-28 1995-09-05 Sony Corp 写像決定方法および装置
JPH07225747A (ja) * 1994-02-15 1995-08-22 Sony Corp 写像決定方法
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JPH08123462A (ja) * 1994-10-27 1996-05-17 Sony Corp 音声認識装置

Similar Documents

Publication Publication Date Title
JP6902010B2 (ja) 音声評価方法、装置、機器及び読み取り可能な記憶媒体
US6842734B2 (en) Method and apparatus for producing acoustic model
EP2191460B1 (en) Method and system of optimal selection strategy for statistical classifications
CN111161715B (zh) 一种基于序列分类的特定声音事件检索与定位的方法
EP2028645B1 (en) Method and system of optimal selection strategy for statistical classifications in dialog systems
CN108062954B (zh) 语音识别方法和装置
EP0755046B1 (en) Speech recogniser using a hierarchically structured dictionary
EP0706171A1 (en) Speech recognition method and apparatus
EP0451796A1 (en) Speech detection apparatus with influence of input level and noise reduced
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
KR20080023030A (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
JPH06102899A (ja) 音声認識装置
US20020026309A1 (en) Speech processing system
KR20190032868A (ko) 음성인식 방법 및 그 장치
CN113611293A (zh) 一种蒙古语数据集扩充方法
JPH064097A (ja) 話者認識方法
US5555345A (en) Learning method of neural network
CN102308307B (zh) 用于模式发现和识别的方法
JPH08123473A (ja) 音韻ラベル化装置
CN114898776A (zh) 一种多尺度特征联合多任务cnn决策树的语音情感识别方法
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms
US7818172B2 (en) Voice recognition method and system based on the contexual modeling of voice units
JPH08123474A (ja) 時系列パターン認識装置
CN116052725B (zh) 一种基于深度神经网络的细粒度肠鸣音识别方法及装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040702