JPH0738114B2 - フオルマント型パタンマツチングボコ−ダ - Google Patents

フオルマント型パタンマツチングボコ−ダ

Info

Publication number
JPH0738114B2
JPH0738114B2 JP61134569A JP13456986A JPH0738114B2 JP H0738114 B2 JPH0738114 B2 JP H0738114B2 JP 61134569 A JP61134569 A JP 61134569A JP 13456986 A JP13456986 A JP 13456986A JP H0738114 B2 JPH0738114 B2 JP H0738114B2
Authority
JP
Japan
Prior art keywords
formant
pattern
data
supplied
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61134569A
Other languages
English (en)
Other versions
JPS62103700A (ja
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPS62103700A publication Critical patent/JPS62103700A/ja
Publication of JPH0738114B2 publication Critical patent/JPH0738114B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はフォルマント情報を利用したパタンマッチング
を介して入力音声信号の分析および合成を行なうフォル
マント型パタンマッチングボコーダに関する。
〔従来の技術〕
入力音声信号を分析して抽出したスペクトル包絡に関す
る分布パタンと、あらかじめ設定した標準的音声資料か
ら抽出したスペクトル包絡の分布に関する標準パタンと
を照合し、最もよくマッチングした標準パタンのパタン
ラベルをスペクトル包絡に関する全データに代えて分析
側から合成側に音源情報とともに送出して音声の分析、
合成を行なうパタンマッチングボコーダは音声情報圧縮
伝送の有力な手法としてよく知られており、またスペク
トル包絡を表わす情報としては通常LPC(Linear Predic
tion Coding,線形予測符号化)係数としてのαパラメー
タやKパラメータ、もしくはこれらから誘導される種種
の係数が利用されている。
〔発明が解決しようとする問題点〕
しかしながら従来のこの種のパタンマッチングボコーダ
では標準パタン作成のためにトレーニング(training,
登録)に利用しうる話者の数は経済的その他多くの理由
で制限され、従ってこれら限定された数の話者によるト
レーニングデータをクラスタリングしていかなる不特定
話者にも適合する標準パタンを作成することは極めて困
難である。このことは、入力音声のスペクトル分布は話
者ごとに異なり、実用上たかだか数ないし数10人程度の
話者によるトレーニングデータにもとづいてあらゆる不
特定話者に適合しうる標準パタンの作成は殆ど不可能で
あるという事実にもとづく。スペクトル分布が話者ごと
に異る個人差を有することは話者ごとに声道特性と声帯
音源特性とが異ることに起因する。これら両特性のうち
声道特性の話者ごとの相違は話者ごとに声道長が異るこ
とによって発生し声道における共振点としてのフォルマ
ント周波数の変動をもたらし、一方声帯音源特性の話者
ごとの相違はスペクトル包絡の概形の傾きに影響を与え
る。従って不特定話者にも適合し易いパタンマッチング
を行なうためには話者ごとに異る声道特性と声帯音源特
性とをそれぞれ何等かの手段で正規化するかもしくはそ
の影響を除去することが必要となる。しかしながら通常
のパタンマッチングボコーダではLPC分析によって抽出
したスペクトル包絡パラメータを介してパタンマッチン
グを行なっており、このLPC分析ではもともと一様(フ
ラット)ではない声道音源特性を一様なものとしてスペ
クトル包絡パラメータを抽出することをその基本処理手
法とし、話者によって異る声道特性とフラットと見做し
た声帯音源特性とが畳み込まれた形式でスペクトル包絡
パラメータが抽出されている。
従って不特定話者にも適合し易いパタンマッチングを行
なうためには畳み込まれた声道特性と声帯音源特性とを
分離したうえ何等かの手段でそれぞれの正規化もしくは
話者依存性の除去を図ったスペクトル分布を利用すれば
よいわけであるが、従来のパタンマッチングボコーダは
この点を殆んど配慮していない。
本発明の目的も上述した欠点を除去し、不特定話者に対
しても適用し易いパタンマッチングが行なえる標準パタ
ンを備えたフォルマント型パタンマッチングボコーダを
提供することにある。
〔問題点を解決するための手段〕
本発明のボコーダは、入力音声信号を分析して得られる
第1および第2ならびに第3フォルマント周波数を極座
標表現することによって求まる前記フォルマント周波数
相互間の2つの関係角度情報をベクトル要素とする標準
パタンファイルを備えて構成される。
〔実施例〕
次に図面を参照して本発明を詳細に説明する。第1図は
本発明によるフォルマント型パタンマッチングボコーダ
の分析側の一実施例の構成を示すブロック図、また第2
図は本発明によるフォルマント型パタンマッチングボコ
ーダの合成側の一実施の構成を示すブロック図である。
第1図に示す分析側1はA/Dコンバータ101、ピッチ・V/
UV抽出器102、自己相関係数算出器103、量子化器104、
量子化器105、フォルマント抽出器106、極座標変換器10
7、パタン照合器108、量子化器109、標準パタンファイ
ル110およびマルチプレクサ111を備えて構成される。
また、第2図に示す合成側2は、デマルチプレクサ20
1、復号化器202、復号化器203、復号化器204、パタン読
出器205、ピッチ周波数発生器206、雑音発生器207、切
替器208、乗算器209、標準パタンファイル210、直交座
標変換器211、フォルマント合成器212、D/Aコンバータ2
13を備えて構成される。
第1図の分析側において、入力音声信号はA/Dコンバー
タ101に供給されLPE(Low Pass Filter)を介して不要
な高域周波数成分を遮断したのち所定のサンプリング周
波数で標本化し、このあと所定のビット数で量子化され
る。本実施例にあってはサンプリング周波数8KHz、ビッ
ト数12ビットで量子化している。
量子化信号はたとえば30mSEC分ずつ、すなわち240サン
プル分ずつを窓時間分として一旦内部メモリに格納さ
れ、これにハミング関数あるいは矩形関数の窓関数によ
る荷重乗算を所定の繰返し周期、本実施の場合は20mSEC
ごとに実施しこれが分析フレーム周期となる。量子化信
号はこの分析フレーム周期ごとに読出されてピッチ・V/
UV(Voice/Un−voice,有声/無声)抽出器102と自己相
関係数算出器103とに供給される。
ピッチ・V/UV抽出器102は分析フレームごとに入力する
量子化信号から公知の抽出技術でピッチ周期とV/UV判別
に関するデータを抽出、これを量子化器104に供給す
る。
量子化器104は入力を所定の形式で量子化したうえこれ
をマルチプレクサ111に供給する。
自己相関係数算出器103は分析フレームごとの量子化信
号につき必要な時間遅れ範囲での自己相関係数を所定の
次数、本実施例の場合は12次まで抽出しこれをフォルマ
ント抽出器106に供給するとともに、遅れ時間零におけ
る自己相関係数を短時間平均音声電力として分析フレー
ムごとに量子化器105に供給、これによって所定の形式
の量子化を受けた短時間平均音声電力はマルチプレクサ
111に供給される。
フォルマント抽出器106は12次の自己相関係数を分析フ
レーム単位で受けるごとにこの自己相関係数列を利用し
公知のフォルマント抽出手法、たとえば日本音響学会音
声研究会資料S81−41(1981年10月26日)の論文「自己
相関領域で逆フィルタリングを用いたホルマントの多段
推定方式」(著者伏木田勝信)、自己相関領域における
AbS(Analysis by Synthesis)的手法によって分析フレ
ームごとに第1乃至第3フォルマント周波数f1,f2,f3
を抽出する。この場合、抽出するフォルマントを第1な
いし第3フォルマントとしているのは極座標変換器107
における極座標化に必要最低限のフォルマント周波数が
相連続する3個のフォルマント周波数であることのほ
か、その発生状況が不安定で利用しにくい第4フォルマ
ント以上の高域フォルマントを除いた相連続する3つの
極を利用するものである。ここでいう極とは声道の共振
点でありフォルマント周波数とほぼ一致する。
さて、こうして選定したフォルマント周波数f1とf2なら
びにf3の比f1:f2:f3の分布は話者にかかわらずどのよ
うな音声についてもほぼ一定であり、このことは多くの
音声資料にもとづいてよく知られている。
極座標変換器107は入力した第1〜第3フォルマント周
波数f1,f2,f3の極座標変換を実施する。
第3図は第1〜第3フォルマント周波数の3次元極座標
表示図である。
座標原点0で互いに直交する座標軸はそれぞれフォルマ
ント周波数f1,f2およびf3を示し、これら3座標軸によ
って形成される3次元極座標系における合成ベクトルV
(f1,f2,f3)はフォルマント周波数f1,f2,f3による
合成ベクトルであり、その空間方向を決定する2つの角
度がθ,である。
第4図は極座標変換器107の構成を詳細に説明するため
のブロック図である。第4図に示す極座標変換器107は
乗算器1071,1072,1073、加算器1074,1075,ROM1076−1
〜2、除算器1077−1〜2、ROM1078−1〜2を含んで
構成されている。
フォルマント抽出器106より供給されるフォルマント周
波数データf1,f2,f3は各々、乗算器1071,1072,1073の
2つの入力端子に入力される。f2,f3は各々除算器1077
−1の被除数入力端子1077−12,1077−2の被除数入力
端子1077−22にも同時に入力される。乗算器1071,1072,
1073は乗算結果f1 2,f2 2,f3 2を各々、加算器1074,107
4,1075へ出力する。加算器1074はf1 2とf2 2の和f1 2+f2 2
をROM1076−1と加算器1075へ出力する。加算器1075はf
3 2とf1 2+f2 2の和f1 2+f2 2+f3 2をROM1076−2へ出力す
る。ROM1076−1〜2はROMであり、平方根に関するデー
タが書込まれている。即ち、ROMの番地x1には√x1が書
込まれている。故にROM1076−1,1076−2の各出力は である。出力 は除算器1077−1の除数入力端子1077−1へ供給され
る。出力 は除算器1077−2の除数入力端子1077−21へ供給される
外、データ“l"として量子化器109へ出力される。
尚、 は第3図に示すlであることは自明である。さて除算器
1077−1,1077−2は各々、 をROM1078−1,1078−2へ出力する。ROM1078−1〜2は
ROMでありSINEの逆関数に関するデータが書込まれてい
る。即ち、ROMの番地x2にはSIN-1(x2)が書込まれてい
る。故にROM1078−1,1078−2の各出力は明らかに第3
図に示す“",“”である。これらのデータ,は
パタン照合器108へ出力される。
さて、このようにして算出された角度,は、つまり
極座標表現した第1〜第3フォルマント周波数相互間の
2つの関係角度情報であって3つのフォルマント周波数
に対応して決定され、観点を変えると分析フレームごと
の音声信号の周波数スペクトルを表現し、かつ話者独自
の特性がほぼ除去されたものであることも前述したf1
f2:f3の特徴等から明らかである。
再び第1図を参照すると、こうして極座標表現したフォ
ルマント周波数f1,f2およびf3は合成ベクトル絶対値l
と2つの関係角度,とによって示され、これらのデ
ータが分析フレームごとにデータlは量子化器109に、
またデータ,はパタン照合器108に供給される。
量子化器109に供給されたデータlは所定の量子化を受
けたのちマルチプレクサ111に供給される。
パタン照合器108に供給されるデータ,は標準パタ
ンファイル110に格納されている複数の標準パタンそれ
ぞれの,との距離、いわゆる市街地距離もしくはユ
ークリッド距離の計測を介してパタン照合を分析フレー
ムごとに実施する。本実施例では市街地距離利用しこの
距離が最小となる標準パタンを指定するパタンラベルデ
ータをマルチプレクサ111に供給する。
標準パタンファイル110は、予め設定した1名乃至数十
名の特定話者による音声資料を本実施例の分析側もしく
は別に用意したコンピュータシステム等を利用して分析
しオフライン的におよびに関するデータを分析フレ
ーム単位で抽出しクラスタリングした標準パタンを格納
したROMである。標準パタンファイル110はパタン照合器
108より供給される番地情報により指定された番地を記
憶されているデータ、即ち標準パタンをパタン照合器10
8へ出力する。無論、標準パタンのラベルとこの番地と
は一致している。パタン照合器108は標準パタンファイ
ル110より供給される標準パタンデータと極座標変換器1
07から供給される,とのパタン照合を実施する。こ
のパタン照合は次の(1)式で示される市街地距離dik
最小とする標準パタンを選択する形式によって実施され
る。
dik=min(|▲s i▼−k|+|▲s i▼−k|)…
…(1) (1)式においてkkは極座標変換器107から入力
する分析フレームごとの角度データ、▲s i▼,▲s i
▼は標準パタンファイルに格納されている角度データで
あり前述した如くいずれも周波数スペクトルとしての角
度データである。なおi=0,1…,n−1でnは標準パタ
ンの総数である。
次にパタン照合器108の構成を図面を用いて詳細に説明
する。第5図はパタン照合器108の構成を示すブロック
図である。第5図に示すパタン照合器108は市街地距離
算出器120、比較器121、最小距離レジスタ122、アドレ
スカウンタ123、制御器124、とラベルレジスタ125を含
んで構成され、標準パタンファイル110を併記してあ
る。
制御器124はフレーム周期にイニシャライズされる。制
御器124はイニシャライズされると次の所期設定を実施
する。所期設定の内容は、 1)アドレスカウンタ123を“0"に設定、 2)ラベルレジスタ125を“0"に設定、および3)最小
距離レジスタ122を最大値に設定、の3種である。尚、
この最大値は前記(1)式により算出される市街地距離
が取り得る理論的最大値、又はこの値を越える値であ
る。アドレスカウンタ123の内容“0"は番地情報として
標準パタンファイル110へ供給される。標準パタンファ
イル110は“0"番地に記憶しているラベル“0"の標準パ
タンデータ0 s0 sを市街地距離算出器120へ出力す
る。市街地距離算出器120には同時に極座標変換器107よ
り分析されたフォルマント周波数より算出されたk
kが供給されている。市街地距離算出器120はこれらの
データより後述する(2)式を用いて市街地距離d0kを
求める。この市街地距離の算出は具体的には以下のよう
に実施される。
第6図は市街地距離算出器120の具体的な構成を示すブ
ロック図である。第6図に示す市街地距離算出器120は
減算器1201−1〜2、絶対値算出器1202−1〜2、乗算
器1203−1〜2、加算器1204を有して構成されている。
説明の都合上、乗算器1203−1〜2が存在しないものと
する。減算器1201−1,1201−2で各々、0 sk0
skが算出され絶対値算出器1202−1,1202−2へ出力
される。絶対値算出器1202−1,1202−2はこれらのデー
タの絶対値|0 sk|,|0 sk|を算出し加算器1
204へ出力する。加算器1204の出力は下記(2)式で示
されるd0kである。
d0k=|0 sk|+|0 sk| ……………(2) 無論、市街地距離として、角度,に聴覚的な重み付
けを実施する事も可能である。重み係数をa,bとすると
前記(2)式の代りに次の(3)式を用いてd0kが算出
される。
d0k=a|0 sk|+b|0 sk| ……………(3) (3)式を用いる場合には第6図に於いて乗算器1203−
1〜2を追加すればよい。
次に絶対値算出器1202−1〜2の構成を図面を用いて説
明する。第7図は絶対値算出器1202の構成を示すブロッ
ク図である。第7図に示す絶対値算出器1202は排他的論
理和1202−30〜37、全加算器1202−4を有して構成され
ている。8bit構成のデータD0〜D7が排他的論理和1202−
30〜37の一方の入力端子に接続されている。又、D0が排
他的論理和1202−30〜37の他の入力端子に接続されてい
る。D0〜D7はD0をMSB、D7をLSMとする2の補数で表現さ
れたデータである。即ち、データが負の場合にはD0
1、正又は0の場合にはD0=0となっている。排他的論
理和1202−30〜37の出力はD0=1の場合には入力D0〜D7
を反転し、D0=0の場合には入力と一致する。これらの
出力は全加算器1202−4の27〜20の一方の入力端子に供
給される。全加算器1202−4の27〜21の他の入力端子に
は“0"が、20にはD0が供給されている。従って全加算器
1202−4の出力D′0〜D′7はD0=0の場合、D0〜D7
一致し、D0=1の場合、D0〜D7の各bitを反転し、“1"
を加えたものとなっている。即ち、公知の補数計算法を
利用して、入力データが負の場合には出力データはその
補数となっている。
再び第5図を用いて説明を続ける。市街地距離算出器12
0で算出された市街地距離d0kは比較器121と最小距離レ
ジスタ122へ供給される。前述のように最小距離レジス
タ122には最大値が予じめ記憶されている。この最大値
は比較器121へ供給されている。比較器121はこの最大値
とd0kを比較し、d0kが小さい場合に制御信号を制御器12
4へ供給される。制御器124は、この信号が入力されると
最小距離レジスタ122とラベルレジスタ125へ記憶命令を
出力する。最小距離レジスタは記憶命令により前記d0k
を前記“最大部分の代りに記憶する。又、ラベルレジス
タ125はアドレスカウンタ123より供給されている番地情
報“0"を記憶する。次に制御器124はカウントアップ命
令をアドレスカウンタ123へ出力する。アドレスカウン
タ123はカウントアップ命令によりその内容を“1"だけ
アップする。アドレスカウンタ123は0+1=1を標準
パタンファイル110へ出力する。標準パタンファイル110
は標準パタン1 s1 sを市街地距離算出器120へ出力
する。市街地距離算出器120はd0kと同様にd1kを算出
し、比較器121と最小距離レジスタ122へ供給する。比較
器121は最小距離レジスタ122より供給されるd0kとこのd
1kの大小を比較する。もしd0k<d1kの場合には最小距離
レジスタ122とラベルレジスタ125の内容は変更されな
い。又、もしd0k>d1kの場合には制御信号が制御器124
へ供給され、最小距離レジスタ122にはd1kが、ラベルレ
ジスタ125にはラベル“1"があらためて記憶される。ア
ドレスカウンタが0,1,…,j(j<n−1)と次々にアッ
プされていくと、結果として最小距離レジスタ122には
下記(4)式で示されるd(j)が書込まれる。
るd(j)=min(d0k,d1k,…dj-1k,djk)…(4) 又、ラベルレジスタ125には(4)式に付随して求めら
れたラベルが書込まれる。
こうしてk=n−1となったときにラベルレジスタ125
には必要なラベルが書込まれている。このラベルデータ
はマルチプレクサ111へ出力される。
再び第1図に戻って説明を続ける。
このように、パタン照合は(1)式に示すdikを最小と
する標準パタンを選択することによって行なわれるが、
このことはフォルマント周波数比f1:f2:f3が最もよく
近似した標準パタンを選択することに他ならず、しかも
この場合のフォルマント周波数は話者による差異が非常
に少ない第1〜第3フォルマント周波数の比の分布を対
象とする形式で行なわれるため不特定話者による入力音
声のパタン照合も特定話者による入力音声のパタン照合
とほぼ同様な適合し易さで実施できる。
前述した如く任意の不特定話者に対してもよく適合する
標準パタンの作成は極めて困難であり、この原因は話者
ごとにスペクトル分布が異ることに起因し、このスペク
トル分布の話者ごとの差異を無くすためには声道特性の
差異を生む声道長と声帯音源とを何かの手段でそれぞれ
独立的に正規化するかもしくはこれらから個人差を除去
することにより不特定話者にも適合し易いパタンマッチ
ングが実施できる。本実施例でもこの点に着目し極座標
表現による第1〜第3フォルマント周波数のなす角度情
報,を介して声道長を正規化し、さらにスペクトル
包絡を第1ないし第3フォルマントの比で代表させて声
帯音源特性の個人差の問題を基本的にほぼ排除し不特定
話者にも適合し易いパタンマッチングを行なっている。
さて、マルチプレクサ111はこうして入力した各種デー
タを所定の形式で符号化したうえその多重化を行なって
伝送路1111を介して合成側2に送出する。
合成側2ではデマルチプレクサ201によって受信信号の
多重化分離を行なったのちピッチ・V/UVデータは復号化
器202に、短時間平均電力データは復号化器203に、l′
データは復号化器204に、またパタンラベルデータはパ
タン読出器205にそれぞれ供給される。
復号化器202によって復号されたピッチ情報はピッチ周
波数発生器206に供給されピッチ周期に対応する周波数
のピッチ周波数信号を発生せしめる。
切替器208は供給されたV/UV情法がV(有声)を指定す
るときはピッチ周波数発生器206の出力を乗算器209に供
給し、V/UV情報がUV(無声)を指定するときは雑音発生
器207の出力する雑音信号を乗算器209に供給するように
切替える。
乗算器209にはまた、復号化器203の出力、すなわち復号
化された短時間平均電力が供給されこれら2入力の乗算
結果としてモデル化された音源データがフォルマント合
成器212に供給される。
lデータは復号化器204によって復号化l′として交座
標変換器211に供給される。
パタン読出器205は入力したパタンラベルデータにもと
づいて標準パタンファイル210から標準パタンを読出
す。この標準パタンは分析側1のパタン照合器108によ
って入力,データと最もよく適合した標準パタンの
,データとしての′,′である。
標準パタンファイル210は分析側1の標準パタンファイ
ル110とほぼ同一のファイル内容を格納し、パタン読出
器205で指定されたパタンラベルを有する標準パタンの
角度情報′,′をパタン読出器205を介して直交座
標変換器211に供給する。
直交座標変換器211はこうして供給されたl′,′,
′による極座標データを直交座標データに変換して
f′1,f′2,f′3のフォルマント周波数を得てこれをフ
ォルマント合成器212に供給する。
フォルマント合成器212は入力したf′1,f′2,f′3にそ
れぞれあらかじめ設定する帯域幅を付与する。これら帯
域幅はフォルマントに関する資料、経験等にもとづいて
それぞれ適宜設定される。
こうして得られるフォルマント情報を合成するにも種種
の手法が考えられるが本実施例ではこれら帯域幅を付与
された3個のフォルマント情報のそれぞれから1組2個
ずつのαパラメータを求めこれらαパラメータをフィル
タ係数とする3個の2次の巡回型ディジタルフィルタを
カスケード接続しその入力に音源データを印加するとい
う形式でフォルマントの合成を行なっている。このフォ
ルマント合成の結果、入力音声信号のディジタル再生が
行なわれこれはD/Aコンバータ213に出力される。
D/Aコンバータ213は、入力したディジタル音声信号をア
ナログ量に変換したうえLPFを介して不要の高域成分を
除去し出力音声信号として送出する。
本発明はパタンマッチングボコーダにおける分析側と合
成側とに備える標準パタンファイルを、入力音声信号を
分析して得られる第1〜第3フォルマント周波数を極座
標表現して求まる2つの角度情報をベクトル要素として
構成する点に基本的特徴を有するものであり第1および
第2図の実施例の変形も種種考えられる。
たとえば、本実施例では第1〜第3フォルマント周波数
の極座標表現化は極座標系のf1,f2,f3軸上にそれぞれ
第1,2,3フォルマントの中心周波数とその分布範囲とを
それぞれ独立的に設定する形式で行なっているが、この
場合これら3つの分布範囲の下限周波数が座標原点で正
規化される形式で座標表現化を行ない量子化感情の平準
化を図っても勿論差支えない。
また、合成側におけるフォルマント合成は第2図に示す
フォルマント合成器212とほぼ同一の機能を有する他の
構成、たとえば市販製品としてのフォルマント合成用LS
I等を利用しても勿論差支えない。
さらに、本実施例では音源情報として、有声の場合には
抽出ピッチ周期に対応するピッチ周波数、また無声の場
合には雑音信号でモデル化したモデル化音源を利用して
いるが、これは他の形式の音源情報たとえばマルチパル
ス等を利用しても一向に差支えなく以上はすべて本発明
の主旨を損なうことなくいずれも容易に実施しうるもの
である。
〔発明の効果〕
以上説明した如く本発明によれば、パタンマッチングボ
コーダにおいて、入力音声信号を分析して得られる第1
〜第3フォルマント周波数を極座標表現して求まる2つ
の角度情報をベクトル要素とする標準パタンファイルを
備えることにより特定話者とともに不特定話者に対して
も極めてよく適合し易いパタンマッチングが実施できる
フォルマント型パタンマッチングボコーダが実現できる
という効果がある。
【図面の簡単な説明】
第1図は本発明のフォルマント型パタンマッチングボコ
ーダの分析側の一実施例の構成を示すブロック図、第2
図は本発明のフォルマント型パタンマッチングボコーダ
の合成側の一実施例の構成を示すブロック図、第3図は
第1〜第3フォルマント周波数の3次元極座標表示図、
第4図は第1図に示されている極座標変換器107の構成
を示すブロック図、第5図は第1図に示されているパタ
ン照合器108の構成を示すブロック図、第6図は第5図
に示されている市街地距離算出器120の構成を示すブロ
ック図、第7図は第6図に示されている絶対値算出器12
02の構成を示すブロック図である。 1……分析側、2……合成側、101……A/Dコンバータ、
102……ピッチ・V/UV抽出器、103……自己相関係数算出
器、104……量子化器、105……量子化器、106……フォ
ルマント抽出器、107……極座標変換器、108……パタン
照合器、109……量子化器、110……標準パタンファイ
ル、111……マルチプレクサ、201……デマルチプレク
サ、202……複号化器、203……復号化器、204……復号
化器、205……パタン読出器、206……ピッチ周波数発生
器、207……雑音発生器、208……切替器、209……乗算
器、210……標準パタンファイル、211……直交座標変換
器、212……フォルマント合成器、213……D/Aコンバー
タ、1071,1072,1073……乗算器、1074,1075……加算
器、1076−1〜2……ROM、1077−1〜2……除算器、1
078−1〜2……ROM、120……市街地距離算出器、121…
…比較器、122……最小距離レジスタ、123……アドレス
カウンタ、124……制御器、125……ラベルレジスタ、12
01−1〜2……減算器、1202−1〜2……絶対値算出
器、1203−1〜2……乗算器、1204……加算器、1202−
30〜37……排他的論理和、1202−4……全加算器。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力音声信号を分析して得られる第1およ
    び第2ならびに第3フォルマント周波数を極座標表現す
    ることによって求まる前記フォルマント周波数相互間の
    2つの関係角度情報をベクトル要素とする標準パタンフ
    ァイルと、 この標準パタンファイルと分析された角度情報とから得
    られるラベル情報と、分析された第1および第2ならび
    に第3フォルマント周波数を極座標表現して求まる合成
    ベクトル絶対値情報とをスペクトル包絡情報として伝送
    する手段とを備えて成ることを特徴とするフォルマント
    型パタンマッチングボコーダ。
JP61134569A 1985-07-03 1986-06-09 フオルマント型パタンマツチングボコ−ダ Expired - Lifetime JPH0738114B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP60-147262 1985-07-03
JP14726285 1985-07-03

Publications (2)

Publication Number Publication Date
JPS62103700A JPS62103700A (ja) 1987-05-14
JPH0738114B2 true JPH0738114B2 (ja) 1995-04-26

Family

ID=15426253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61134569A Expired - Lifetime JPH0738114B2 (ja) 1985-07-03 1986-06-09 フオルマント型パタンマツチングボコ−ダ

Country Status (3)

Country Link
US (1) US4914702A (ja)
JP (1) JPH0738114B2 (ja)
CA (2) CA1270568A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5165008A (en) * 1991-09-18 1992-11-17 U S West Advanced Technologies, Inc. Speech synthesis using perceptual linear prediction parameters
US5325462A (en) * 1992-08-03 1994-06-28 International Business Machines Corporation System and method for speech synthesis employing improved formant composition
WO1997013242A1 (en) * 1995-10-02 1997-04-10 Motorola Inc. Trifurcated channel encoding for compressed speech
US6208959B1 (en) * 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
NL188189C (nl) * 1979-04-04 1992-04-16 Philips Nv Werkwijze ter bepaling van stuursignalen voor besturing van polen van een louter-polen filter in een spraaksynthese-inrichting.
US4661915A (en) * 1981-08-03 1987-04-28 Texas Instruments Incorporated Allophone vocoder
CA1203906A (en) * 1982-10-21 1986-04-29 Tetsu Taguchi Variable frame length vocoder
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses

Also Published As

Publication number Publication date
CA1277034C (en) 1990-11-27
CA1270568A (en) 1990-06-19
US4914702A (en) 1990-04-03
JPS62103700A (ja) 1987-05-14

Similar Documents

Publication Publication Date Title
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
Liutkus et al. Adaptive filtering for music/voice separation exploiting the repeating musical structure
JP2779886B2 (ja) 広帯域音声信号復元方法
US7035791B2 (en) Feature-domain concatenative speech synthesis
JPH0638199B2 (ja) 音声認識装置
JPS6128998B2 (ja)
JPH09244694A (ja) 声質変換方法
JPH0738114B2 (ja) フオルマント型パタンマツチングボコ−ダ
Felipe et al. Acoustic scene classification using spectrograms
Radfar et al. Monaural speech segregation based on fusion of source-driven with model-driven techniques
JP2012181475A (ja) 音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法
CN107025902B (zh) 数据处理方法及装置
JP2709926B2 (ja) 声質変換方法
JPH0345840B2 (ja)
JPH07191696A (ja) 音声認識装置
Tomchuk Spectral Masking in MFCC Calculation for Noisy Speech
JPH1097274A (ja) 話者認識方法及び装置
D'haes et al. Discrete cepstrum coefficients as perceptual features
JP3230782B2 (ja) 広帯域音声信号復元方法
JPH0345839B2 (ja)
JP3921416B2 (ja) 音声合成装置及び音声明瞭化方法
Orphanidou et al. Voice morphing using the generative topographic mapping
JPS6032100A (ja) Lsp型パタンマッチングボコ−ダ
JP2605256B2 (ja) Lspパタンマツチングボコーダ
JP2880508B2 (ja) 音声の規則合成装置