JPH05297888A - 音韻セグメンテーション及び分類方法 - Google Patents

音韻セグメンテーション及び分類方法

Info

Publication number
JPH05297888A
JPH05297888A JP4104603A JP10460392A JPH05297888A JP H05297888 A JPH05297888 A JP H05297888A JP 4104603 A JP4104603 A JP 4104603A JP 10460392 A JP10460392 A JP 10460392A JP H05297888 A JPH05297888 A JP H05297888A
Authority
JP
Japan
Prior art keywords
phoneme
projection
vector
elements
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4104603A
Other languages
English (en)
Inventor
Yumi Takizawa
由美 滝澤
Keisuke Oda
啓介 小田
Akihiko Watanabe
彰彦 渡邉
Atsushi Fukazawa
敦司 深沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP4104603A priority Critical patent/JPH05297888A/ja
Publication of JPH05297888A publication Critical patent/JPH05297888A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 大局的に拡張性に優れたシステムとなりかつ
話者適応が容易なセグメンテーション方法及び音韻分類
方法にする。 【構成】 音声分析部21、22で抽出した音声特徴ベ
クトルを、射影ベクトル演算部3と射影演算子メモリ4
とによって、次元縮小された射影ベクトルへ変換し、こ
の射影ベクトルの時系列に基づいて、セグメンテーショ
ンあるいは音韻分類を行う。メモリ4で蓄積された射影
演算子は音韻学習サンプルの主成分分析によって作成し
たものであり、射影ベクトルは、低次元で音声特徴の大
部分を荷担し、音源特徴と声道特徴を荷担する重要な要
素であるという性質で疑似的に固定された特徴となる。
そのためシステムが拡張性に富むものとなり、射影演算
子の変更などにより容易に話者適応が可能となる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は連続して発声した音声信
号の音韻セグメンテーション方法及び音韻分類方法に関
するものある。
【0002】
【従来の技術】不特定話者を対象にした連続発声の音声
認識の一方法として、入力音声信号から複数の音声特徴
(音声特徴ベクトル)を抽出し、その音声特徴ベクトル
の時系列を音韻セグメントにセグメンテーションし、標
準音韻との類似度測定やルール化されたしきい値判定に
よって音韻に分類する方法、を採用して行うものがあ
る。このような音韻分類方法では、詳細な音声分析に基
づく詳細な音声知識と詳細な音声特徴の採用が、音韻分
類精度を向上させるけれども、それらは話者依存性が強
いため、話者独立のシステムの構築を阻害する。そのた
め、従来、例えば次の文献で示されているような、話者
不変の音声特徴に基づいて大分類し、大局的なシステム
の話者独立性を維持することが行われている。 文献:「連続音声認識エキスパートシステム−SPRE
X−」(電子通信学会誌D Vol.J70-D No.6,pp.1189-11
98) この文献では、声道のホルマント周波数とその時間変化
を主とした話者不変特徴を採用し、しきい値判定を主な
要素とした詳細なルールを用いて大分類的音韻分類を行
っている。
【0003】
【発明が解決しようとする課題】しかしながら、音声特
徴の話者依存性は、適用機器から制限される特徴抽出精
度、発声環境、その他の環境によって異なり、適用範囲
が狭いと言う問題が残る。また、比較的広い適用範囲を
目標とした場合、現状では、大分類用の音声特徴を含め
て何らかの話者適応が必要となる。従って、本発明の一
つの目的は、大局的には話者独立のシステムが維持で
き、話者適応が容易な音韻分類方法を提供することにあ
り、これを、疑似的に話者不変と見なせる中間的ベクト
ルを設定することによって達成したものである。また、
本発明の他の目的は、中間的ベクトルに基づく音韻分類
方法において、簡易な音韻セグメンテーション方法を提
供することにある。
【0004】
【課題を解決するための手段】第1の発明は、入力音声
信号を分析して1個以上の音源特徴と2個以上の声道特
徴とを要素として含む音声特徴ベクトルを抽出するを段
階と、射影演算子を加重として用い音声特徴ベクトルの
要素を加算することにより音声特徴ベクトルを次元縮小
した中間ベクトル(射影ベクトル)へ変換する段階とを
有する。また、その射影ベクトルの時系列を音韻セグメ
ントにセグメンテーションする段階と、各音韻セグメン
ト毎に複数の前記射影ベクトルを選択する段階とを備
え、選択したその音韻ベクトルに基づいて各音韻を大分
類するものである。そして、ここで用いる射影演算子
は、予め記憶して置くものであり、1個以上の音源特徴
要素と2個以上の声道特徴とを要素として含む音声特徴
ベクトルからなる学習音韻サンプルに対して主成分分析
を行い、一定次元まで次元縮小して得られた主成分の係
数である。
【0005】第2の発明は、クラスタ毎に1個以上の音
源特徴要素と2個以上の声道特徴とを要素として含む音
声特徴ベクトルからなる学習音韻サンプルに対して主成
分分析を行い、一定次元まで次元縮小して得られた主成
分の係数を、射影演算子としてクラスタ毎に記憶して置
くようにしたものであり、指定されたクラスタについ
て、音声特徴ベクトルを射影ベクトルへ変換する段階を
有するものである。第3の発明は、各音韻セグメント毎
に、音韻の静的特徴を代表する射影ベクトルを選択し、
選択したその射影ベクトルの第1主成分対応の要素と第
2主成分対応の要素に関する偏角を計算する段階と、各
音韻セグメント毎に、時間的に両端に位置する射影ベク
トルの第1主成分対応の要素に関する時間的変化量の時
間的変化量を計算して加速度音韻要素を作成する段階と
を備え、静的音韻ベクトルの偏角と加速度音韻要素とに
基づいて音韻を大分類するものである。
【0006】第4の発明は、その射影ベクトルの時系列
において第1主成分対応の要素の時間的変化量を計算す
る段階を備え、その時間的変化量が極値をとる時点で音
韻セグメントにセグメンテーションするものである。第
5の発明は、射影ベクトルの時間的変化量の計算が、Z
df(n)=Z1(n)ーZav1 (ただし、nは時
刻、Zdf(n)は射影ベクトルの時間的変化量、Z1
(n)は射影ベクトルのの第1主成分対応の要素、Za
v1(n)は前記要素Z1(n)の時刻nを中心とした
予め定められている区間長に亘る移動平均) なる式の
演算によって行われ、かつその時間的変化量が正から負
へ変化する時刻及び負から正へ変化する時刻でセグメン
テーションするものである。
【0007】
【作用】第1の発明において、射影演算子は、音声特徴
ベクトルを予め決めた一定次元Pに次元縮小する働きを
するものであり、学習音韻サンプルに対して主成分分析
を行い、その結果得られた主成分の係数を記憶しておい
たものである。次元縮小された射影ベクトルの第1、
2、・・・、Pの各要素は、それぞれ、主成分分析にお
ける第1、2、・・・、Pの各主成分に対応し、その順
位で音声特徴ベクトルの情報を荷担し、何らかの必要性
により、音声特徴ベクトルの要素の追加・削除・変更を
行った場合も、射影ベクトルの各要素は第1、2、・・
・、Pの順位で重要であるという性質は維持される。従
って、音声特徴ベクトルの各要素と次元縮小された射影
ベクトルの各要素との対応関係は明示的でないけれど
も、音源特徴と声道特徴を荷担する重要な要素であると
いう性質で疑似的に固定された一定次元の射影ベクトル
によって、大分類を行うことにより、大局的な音韻分類
システムは不変となる。また、音声特徴ベクトルの各要
素の相関を一般化して特定するのは困難であるが、典型
的には、射影ベクトルの第2要素までの寄与率は70%
であり、第3要素までが90%であり、低次元で音声特
徴ベクトルの大部分の情報を荷担するため、低次元の射
影ベクトルは大分類のための情報として適したものとな
る。
【0008】第2の発明において、射影演算子は似た話
者のクラスタ対応で複数セット用意してあり、少なくと
も1つのクラスタで音韻の大分類を行う。クラスタの指
定は、キー入力によって行うことができ、マルチテンプ
レート的に全てを指定してもよい。また、予め決めてお
いた言葉の発声に基づいて選択することもでき、この場
合は、一旦標準クラスタで音韻認識し、その結果得られ
た音韻記号系列に応じて特定のクラスタを指定する方法
によるとよい。第3の発明において、音韻の大分類が音
声特徴の時間的変化を考慮した上で最も簡単な方法で行
われる。ここでは、2次元の射影ベクトル(第1要素と
第2要素からなるもの)に基づいて行われ、音韻の静的
特徴を代表する射影ベクトルの偏角と第1主成分対応の
第1要素に関する加速度音韻要素との2つに基づいて音
韻を大分類する。音韻の静的特徴を代表する射影ベクト
ルとしては、音韻セグメントの時間中央の射影ベクトル
を選択してもよく、射影ベクトルの第1要素の時間変化
量が最小となる時点の射影ベクトルを選択することもで
きる。
【0009】第4の発明において、時間的変化量の極値
をとる時刻は、射影ベクトルの第1要素の時間変化量の
時間変化量(2次微分)を計算し、それが零となる時刻
とすることができる。なお、この音韻セグメンテーショ
ンには特別の音声知識は何ら利用していないので、切り
過ぎ(2重切り)及び切り不足(2音韻セグメント)は
避けられず、実用的には、何らかの付随的対処を必要と
し、例えば、切り過ぎは単語あるいは文節レベルで統合
し、切り不足は標準音韻として2音韻のものを設けるな
どの対処が必要になる。第5の発明において、ここでの
セグメンテーションは、概念的には、射影ベクトルの時
系列においてその第1要素の時間的変化量が極値をとる
時点でセグメンテーションすることと同じであるが、微
分によらない簡単な演算によって行われる。
【0010】
【実施例】図1は、本発明を採用した音韻分類装置の構
成を示すブロック図であり、この図を用いて本発明の一
実施例を説明する。図1において、入力端子1から入力
された音声データSは声道分析部21に与えられ、そこ
で、最大予測次数10次の線形予測によって分析し、そ
の予測誤差を音源分析部22で、最大予測次数10次の
線形予測によって分析し、音声特徴ベクトルX(n)を
抽出する。ここでは、音声データSのサンプリング周波
数を8kHz(0.125ms周期)、分析フレーム長
を24ms、フレーム周期(分析間隔)を4msとし、
音声平均パワーの音声特徴X1(n)、声道特徴X1
(n)〜X4(n)、及び音源特徴X5(n)〜X6
(n)とをベクトル要素として持つ音声特徴ベクトルX
(n)を抽出する。但し、nは分析時刻である。
【0011】X1(n):音声平均パワー X2(n):予測次数10次の声道エントロピー(正規
化予測誤差パワーの対数値) X3(n):予測次数2次の予測係数に基づく声道周波
数 X4(n):同上の強度 X5(n):音源平均パワー(声道予測誤差平均パワ
ー) X6(n):予測次数10次の音源エントロピー(正規
化予測誤差パワーの対数値) なお、要素X3(n)、X4(n)は、予測次数2次の
予測係数から1組の複素共役根を計算し、その絶対値を
一方の要素X4(n)とし、Z平面で偏角が0〜Πであ
る根に対応した周波数を他方の要素X3(n)としたも
のである。
【0012】抽出した音声特徴ベクトルX(n)は、射
影演算部3へ与えられる。また、射影演算部3には、射
影演算子メモリ4から射影演算子L(要素L11〜L1
6及びL21〜L26からなる)与えられていて、そこ
で、次の式(1)及び式(2)に示すように、射影演算
子Lを加重とした加算演算を実行し、2つのベクトル要
素Z1(n)、Z2(n)からなる2次元のベクトル
(射影ベクトル)Z(n)を作成する。 Z1(n)=L11*X1(n)+L21*X2(n)+L31*X3(n) +L41*X4(n)+L51*X5(n)+L61*X6(n) 式(1) Z2(n)=L12*X1(n)+L22*X2(n)+L32*X3(n) +L42*X4(n)+L52*X5(n)+L62*X6(n) 式(2) ここで、射影演算子メモリ4の12個の射影演算子L
は、連続音声から切り出した学習音韻サンプルに対して
主成分分析を行い、その結果得られた第1主成分及び第
2主成分に関する係数を予め記憶しておいたものであ
り、具体的結果の一例は後述する。
【0013】図2は、射影ベクトルZ(n)の性質の理
解の一助に示したものであり、4msごとに演算した射
影ベクトルZ(n)の時間軌跡の例を示すもものであ
る。この図2は、連続発声した日本語の地名「取手(と
りで)」の場合であり、ここで用いた射影演算子Lは、
次のとおりである(但し、小数点2位切り上げ)。 L11:0.6、 L21:0.3、L31:0.1、
L41:0.1、L51:ー0.6、L61:0.5 L12:ー0.2、L22:0.6、L32:0.7、
L42:0.3、L52:0.1 L62:0.4
【0014】4msごとに出力される射影ベクトルz
(n)は、音韻セグメンテーション部5へ与えられ、そ
こで、式(3)に示すように簡略化した演算により、射
影ベクトルZ(n)の第1要素Z1(n)と、射影ベク
トルの第1要素の移動平均Zav(n)のZav1
(n)との差Zdf(n)を計算する。 Zdf(n)=Z1(n)ーZav1 式(3) (ただし、nは時刻、Zdf(n)は射影ベクトルの時
間的変化量、Z1(n)は射影ベクトルのの第1主成分
対応の要素、Zav1(n)は前記要素Z1(n)の時
刻nを中心とした予め定められている区間長に亘る移動
平均)ここで、移動平均Zav1(n)は、射影ベクト
ル要素Z1(n)の時刻nを中心とした予め定められて
いる区間長(移動平均区間)に亘る平均である。そし
て、差Zdf(n)が、正から負または負から正に変化
した時刻Nsを検出し、その時刻Nsを1音韻毎のセグ
メンテーションを行う。
【0015】差Zdf(n)は、射影ベクトルZ(n)
の時間的変化量の極値を見る簡易な尺度として用いたも
のであり、移動平均区間長を標準的音韻の時間長に比べ
て十分長く設定しておくことにより、射影ベクトル要素
Z1(n)の時間的変化量が極大・最小値(局所最大・
最小値)をとる時刻と、差Zdf(n)の極性変化時刻
とが、ほぼ同じとなる。移動平均Zav1(n)、Za
v2(n)は、長区間を設定すると2音韻毎のセグメン
テーションとなり、短期間を設定すると1音韻を2重に
セグメンテーションするようになる。従って、移動平均
区間長は、学習サンプルに基づいて実験的に決定するも
のであるが、1音韻毎にセグメンテーションする場合に
は、標準的には200ms程度の値が適当である。
【0016】そして、各音韻セグメント毎に、中央時刻
Nの射影ベクトルを音韻の静的特徴を代表する静的音韻
ベクトルZ(N)として選択し、その前縁と後縁の時刻
(セグメンテーション時刻)Nf、Nbにおける射影ベ
クトルZ(Nf)、Z(Nb)の差ベクトル Z(N
f)ーZ(Nb) を音韻の動的特徴を代表するものと
して選択し出力する。音韻セグメンテーション部5から
出力された音韻情報は、音韻特徴ベクトル演算部6へ与
えられ、そこで、4個の要素R1(N)〜R4(N)か
らなる音韻特徴ベクトルR(N)を作成する。ここで、
2個の要素R1(N)、R2(N)は、静的特徴を表わ
すものであり、中央時刻Nの射影ベクトルZ(N)を音
韻の静的特徴を代表するものとみなして、次の式(5)
及び式(6)で示す演算によって作成した、射影ベクト
ルZ(N)の偏角と大きさに対応するものである。 R1(N)=arctan(Z1(N)/Z2(N)) 式(4) R2(N)=√(Z1(N)の2乗+Z2(N)の2乗) 式(5)
【0017】また、他の2個の要素R3(N)、R4
(N)は、動的特徴を表わすものであり、前縁時刻Nf
の射影ベクトルZ(Nf)と中央時刻Nの射影ベクトル
Z(N)との時間変化の時間変化(加速度)と、中央時
刻Nの射影ベクトルZ(N)と後縁時刻Nbの射影ベク
トルZ(Nb)との加速度との、差に対応するものであ
る。 R3(N)=(Z1(Nb)ーZ1(N))/T*Tー(Z1(N)ーZ1( Nf)/T*T 式(6) R4(N)=(Z2(Nb)ーZ2(N))/T*Tー(Z2(N)ーZ2( Nf)/T*T 式(7) 但し、2Tは音韻セグメント長である。
【0018】作成した音韻特徴ベクトルR(N)は、音
韻分類部7へ与えられ、そこで、音韻辞書メモリ8から
読み取った標準音韻ベクトルとの、ベクトルの内積演算
による類似度の計算を行い、最も類似した音韻標準音韻
ベクトルのコードを出力端子9から出力する。ここで
は、要素R1(N)、R3(N)とを大分類情報、他の
2つの要素R2(N)、R4(N)を細分類情報とし
て、2段階の判定によって分類している。また、標準音
韻ベクトルは、学習サンプルに対して音韻分析を行い、
その結果得られた4個の要素を予め記憶しておいたもの
である。
【0019】図3〜図7は、学習サンプルに対する音韻
分類の結果を、大分類情報、すなわち、静的特徴の偏角
R1(N)と動的特徴(加速度特徴)の1つR3(N)
との2つ、に関して示したものである。また、標準音韻
ベクトルの要素は、図3〜図7で示した各領域の頻度の
高い1点またはいくつかの代表点を選択して設定する。
母音の場合、図3〜図5に示すように、加速度特徴R3
(N)は、負の値をとり、偏角R1(N)は、母音/a
/では零近傍に集中し、母音/i/、/e/では正の比
較的小さな領域に分布し、母音/u/、/o/では負の
比較的小さくない領域に分布する。無声摩擦音/s/、
/f/、/h/の場合、図6に示すように、偏角R1
(N)が正の中間的な値で加速度特徴R3(N)が比較
的小さな領域に分布し、無声摩擦音/p/、/t/、/
k/の場合、図7に示すように、偏角R1(N)が正の
大きな値で加速度特徴R3(N)も大きな値の領域に分
布する。有声閉鎖音/b/、/d/、/g/の場合、有
声閉鎖音/j/、/z/の場合、及び鼻音/m/、/n
/、/N/の場合、図示していないが、加速度特徴R3
(N)は正で、順に、1番目、2番目、3番目に大きい
領域に分布し、偏角R1(N)は負で、順に、絶対値が
2番目、1番目、3番目に大きい領域に分布する。
【0020】また、この実施例の主成分分析は次のよう
なステップによった。ます、連続発声した学習サンプル
から音韻サンプル(音韻セグメント)を切り出し、各音
韻サンプルの音声特徴を抽出し、各音韻セグメント毎
に、例えば母音では母音エネルギーの重心、破裂音では
破裂時点のように、音韻を代表的する1つの時点の音声
特徴ベクトルを、変量として得る。次に、取り扱う各変
量の単位が異なるため、各変量の平均値と分散を求めた
後、平均が0で標準偏差が1となるように標準化して、
標準化された変量を求め、標準化した変量に対し主成分
分析を行う。すなわち、標準化された変量の分散共分散
行列を求める(元の変量の相関行列に等しいもの)。次
に、この行列に対する固有値と固有ベクトルを計算し、
固有値の大きいものから順に2個を選択し、それぞれ第
1主成分、第2主成分と決定し、対応した固有ベクトル
を係数として決定する。最後に、元の単位に対応した係
数とするために、主成分の係数(固有ベクトルの各要
素)を対応した分散で除するすることにより、第1主成
分、第2主成分対応のの射影演算子要素を決定する。
【0021】なお、この実施例の説明は、話者適応には
触れず、標準クラスタに関してのみ行った。話者適応
は、クラスタ毎に主成分分析を行って得た射影演算子
と、クラスタ毎の音韻辞書とを用意しておき、キー操作
によって1組の射影演算子を指定することによって行う
ことができる。
【0022】
【発明の効果】以上の説明から明らかなように、本発明
では、音声信号を直接分析して得られる音声特徴を、音
源特徴と声道特徴を荷担する重要な要素であるという性
質で疑似的に固定された一定次元の射影ベクトルへ変換
して、その射影ベクトルに基づいてセグメンテーション
あるいは分類を行うようにしているため、広い環境に適
合して大局的にシステムの話者独立性が維持でき、拡張
性にとんだものとなり、また、クラスタ対応で射影演算
子や音韻辞書を設けるのみで話者適応が可能なため、話
者適応が容易となる。
【図面の簡単な説明】
【図1】本発明を採用した音韻分類装置を示すブロック
【図2】図1の音韻分類装置における音声特徴平面上で
の射影ベクトルの時間軌跡を示す図
【図3】図1の音韻分類装置によって得られた音韻分類
の結果の説明図
【図4】図1の音韻分類装置によって得られた音韻分類
の結果の説明図
【図5】図1の音韻分類装置によって得られた音韻分類
の結果の説明図
【図6】図1の音韻分類装置によって得られた音韻分類
の結果の説明図
【図7】図1の音韻分類装置によって得られた音韻分類
の結果の説明図
【符号の説明】
1 入力端子 21 声道分析部 22 音源分析部 3 射影演算部 4 射影演算子メモリ 5 音韻セグメンテーション部 6 音韻特徴ベクトル演算部 7 音韻分類部 8 音韻辞書メモリ 9 出力端子
フロントページの続き (72)発明者 深沢 敦司 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 1個以上の音源特徴要素と2個以上の声
    道特徴とを要素として含む音声特徴ベクトルからなる学
    習音韻サンプルに対して主成分分析を行い、一定次元ま
    で次元縮小して得られた主成分の係数を、射影演算子と
    して記憶しておき、 入力音声信号を分析して、1個以上の音源特徴と2個以
    上の声道特徴とを要素として含む音声特徴ベクトルを抽
    出するを段階と、 前記射影演算子を加重として用い、前記入力音声信号の
    前記音声特徴ベクトルの要素を加算することにより、前
    記音声特徴ベクトルを前記縮小次元の射影ベクトルへ変
    換する段階と、 その射影ベクトルの時系列を音韻セグメントにセグメン
    テーションする段階と、 各音韻セグメント毎に、複数の前記射影ベクトルを選択
    する段階とを備え、 選択したその音韻ベクトルに基づいて各音韻を大分類す
    ることを特徴とした音韻分類方法。
  2. 【請求項2】 クラスタ毎に、1個以上の音源特徴要素
    と2個以上の声道特徴とを要素として含む音声特徴ベク
    トルからなる学習音韻サンプルに対して主成分分析を行
    い、一定次元まで次元縮小して得られた主成分の係数
    を、射影演算子としてクラスタ毎に記憶しておき、 入力音声信号を分析して、1個以上の音源特徴と2個以
    上の声道特徴とを要素として含む音声特徴ベクトルを抽
    出するを段階と、 指定されたクラスタの前記射影演算子を加重として用
    い、前記入力音声信号の前記音声特徴ベクトルの要素を
    加算することにより、前記音声特徴ベクトルを前記縮小
    次元の射影ベクトルへ変換する段階と、 その射影ベクトルの時系列を音韻セグメントにセグメン
    テーションする段階と、 各音韻セグメント毎に、複数の前記射影ベクトルを選択
    する段階とを備え、を備え、 選択したその音韻ベクトルとに基づいて各音韻を大分類
    することを特徴とした音韻分類方法。
  3. 【請求項3】 1個以上の音源特徴要素と2個以上の声
    道特徴とを要素として含む音声特徴ベクトルからなる学
    習音韻サンプルに対して主成分分析を行い、2次元以上
    の一定次元まで次元縮小して得られた主成分の係数を、
    射影演算子として記憶しておき、 入力音声信号を分析して、1個以上の音源特徴と2個以
    上の声道特徴とを要素として含む音声特徴ベクトルを抽
    出するを段階と、 前記射影演算子を加重として用い、前記入力音声信号の
    前記音声特徴ベクトルの要素を加算することにより、前
    記音声特徴ベクトルを前記縮小次元の射影ベクトルへ変
    換する段階と、 その射影ベクトルの時系列を音韻セグメントにセグメン
    テーションする段階と、 各音韻セグメント毎に、音韻の静的特徴を代表する射影
    ベクトルを選択し、選択した当該射影ベクトルの、第1
    主成分対応の要素と第2主成分対応の要素に関する偏角
    を計算する段階と、 各音韻セグメント毎に、時間的に両端に位置する射影ベ
    クトルの、第1主成分対応の要素に関する、時間的変化
    量の時間的変化量を計算して、加速度音韻要素を作成す
    る段階とを備え、 前記静的音韻ベクトルの偏角と、前記加速度音韻要素と
    に基づいて音韻を大分類することを特徴とした音韻セグ
    メンテーション及び分類方法。
  4. 【請求項4】 1個以上の音源特徴要素と2個以上の声
    道特徴とを要素として含む音声特徴ベクトルからなる学
    習音韻サンプルに対して主成分分析を行い、一定次元ま
    で次元縮小して得られた主成分の係数を、射影演算子と
    して記憶しておき、 入力音声信号を分析して、1個以上の音源特徴と2個以
    上の声道特徴とを要素として含む音声特徴ベクトルを抽
    出する段階と、 前記射影演算子を加重として用い、前記入力音声信号の
    前記音声特徴ベクトルの要素を加算することにより、前
    記音声特徴ベクトルを前記縮小次元の射影ベクトルへ変
    換する段階と、 その射影ベクトルの時系列において、第1主成分対応の
    要素の時間的変化量を計算する段階とを備え、その時間
    的変化量が極値をとる時点で音韻セグメントにセグメン
    テーションすることを特徴とした音韻セグメンテーショ
    ン方法。
  5. 【請求項5】 射影ベクトルの時間的変化量の計算が、
    次の式の演算によって行われ、 Zdf(n)=Z1(n)ーZav1 (ただし、nは時刻、Zdf(n)は射影ベクトルの時
    間的変化量、Z1(n)は射影ベクトルのの第1主成分
    対応の要素、Zav1(n)は前記要素Z1(n)の時
    刻nを中心とした予め定められている区間長に亘る移動
    平均)かつ、前記時間的変化量が、正から負へ変化する
    時刻、及び負から正へ変化する時刻で音韻セグメントに
    セグメンテーションする、ことを特徴とした請求項4記
    載の音韻セグメンテーション方法。
JP4104603A 1992-04-23 1992-04-23 音韻セグメンテーション及び分類方法 Pending JPH05297888A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4104603A JPH05297888A (ja) 1992-04-23 1992-04-23 音韻セグメンテーション及び分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4104603A JPH05297888A (ja) 1992-04-23 1992-04-23 音韻セグメンテーション及び分類方法

Publications (1)

Publication Number Publication Date
JPH05297888A true JPH05297888A (ja) 1993-11-12

Family

ID=14385002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4104603A Pending JPH05297888A (ja) 1992-04-23 1992-04-23 音韻セグメンテーション及び分類方法

Country Status (1)

Country Link
JP (1) JPH05297888A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022101983A1 (ja) * 2020-11-10 2022-05-19 株式会社パーキンエルマージャパン 検体の分類方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022101983A1 (ja) * 2020-11-10 2022-05-19 株式会社パーキンエルマージャパン 検体の分類方法

Similar Documents

Publication Publication Date Title
EP0504927B1 (en) Speech recognition system and method
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3114468B2 (ja) 音声認識方法
EP1355296B1 (en) Keyword detection in a speech signal
EP0689192A1 (en) A speech synthesis system
US6553342B1 (en) Tone based speech recognition
JPH02195400A (ja) 音声認識装置
US8275619B2 (en) Speech recognition
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
JP5007401B2 (ja) 発音評定装置、およびプログラム
Stuttle A Gaussian mixture model spectral representation for speech recognition
JP2004325936A (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
CN106898362A (zh) 基于核主成分分析改进Mel滤波器的语音特征提取方法
Tabibian A voice command detection system for aerospace applications
Kangas Phoneme recognition using time-dependent versions of self-organizing maps.
Russel et al. The ARM continuous speech recognition system
Deiv et al. Automatic gender identification for hindi speech recognition
Blackburn et al. Towards improved speech recognition using a speech production model.
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JPH08211897A (ja) 音声認識装置
JPH05297888A (ja) 音韻セグメンテーション及び分類方法
JPS5972500A (ja) 音声認識方式
Juneja et al. An event-based acoustic-phonetic approach for speech segmentation and E-set recognition
KR101066472B1 (ko) 초성 기반 음성인식장치 및 음성인식방법
Prasangini et al. Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka