JPS5994795A - 音声分析処理方式 - Google Patents

音声分析処理方式

Info

Publication number
JPS5994795A
JPS5994795A JP57204798A JP20479882A JPS5994795A JP S5994795 A JPS5994795 A JP S5994795A JP 57204798 A JP57204798 A JP 57204798A JP 20479882 A JP20479882 A JP 20479882A JP S5994795 A JPS5994795 A JP S5994795A
Authority
JP
Japan
Prior art keywords
envelope
spectrum
deformed
autocorrelation coefficient
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57204798A
Other languages
English (en)
Other versions
JPS6238720B2 (ja
Inventor
藤崎 博也
ヒネク・ヘルマンスキー
佐藤 泰雄
杉田 忠靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57204798A priority Critical patent/JPS5994795A/ja
Publication of JPS5994795A publication Critical patent/JPS5994795A/ja
Publication of JPS6238720B2 publication Critical patent/JPS6238720B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Devices For Checking Fares Or Tickets At Control Points (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は、線形予測にもとづく音声分析処理方式に関し
、特に音声の・ξワー・スペクトル包絡を、高調波ピー
クによシ標本化し、更に各標本点間を補間して連続なパ
ワー・スペクトル包絡とする手段と、パワー・スペクト
ルの振幅を圧縮ないし伸長する変形手段とをそなえるこ
とにょ9、ノイズおよびピッチ周波数変動の双方にょシ
生じる誤差を軽減した音声分析処理方式に関する。
〔技術の背景〕
音声合成や音声認識に用いる音声波形の情報圧縮ノ髪う
メータとして、音声波形の標本値間の相関にもとづく線
形予測理論にしたがって抽出した線形予測係数を使用す
る音声分析方式は、従来がら多くの用途に広く利用され
ている。しかし、この方式は、ノイズやピッチ周波数変
動に影響され易く、誤差を生じ易い欠点があった。
ところで、一般に線形予測係数α(n)は、まず音声波
形S (n)をフーリエ変換してF←)を求め、これか
らノQワー・スペクトルP←)= l F(→I2f:
、計算し、更にこれを逆フーリエ変換して自己相関係1
数R(rL) ’e求め、この自己相関係数R(ル)か
ら算出される0 そこで、本発明者らは、上記ノイズやピッチ周波数変動
による影Vを軽減するため、先に特願昭57−5043
1において、音声波形S (rL)の、Qワー・スペク
トルP(へ))の包絡を、その音声情報量の多い高調波
成分のピーク値のみに着目して一旦標本化し、これらの
高調波ピークからなる。Qワー・スペクトル包絡を用い
て、フーリエ逆変換により自己相関係数R(rL)を求
め、更に線形予測係数α(→を算出する改良方式を提案
した。
本発明者らは、更に特願昭56−188060および特
願昭56−188061において、)?ワーeスペクト
ル包絡P←)の振幅レベルを、圧縮ないし伸長して変形
し、該変形ノQワー・スペクトル包絡を用いて線形予測
係数α(n)を求めることにより、ピッチ周波数変動に
よる影響を軽減した改良方式を提案している。
〔発明の目的および構成〕
本発明の目的は、線形予測による音声分析処理方式にお
いて、ノイズおよびピッチ周波数変動による影響を、従
来方式にくらべて更に軽減し、フォルマントの推定精度
を向上させる改良された方式を提供することにある。
本発明の構成は、そのため、音声波形の/Qクワ−スペ
クトル包絡を最もよく表わす個々の高調波成分のピーク
を検出して、これにょ9/Qワー・スペクトル包絡を標
本化し、更にこれら標本点間を補間して連続近似された
ノぐワー・スペクトル包絡を得る手段と、パワー・スペ
クトル包絡を、標本化および補間処理の前あるいは後に
、振幅レベルを圧縮ないし伸長して/Qワー串スペクト
ル包絡を変形し、線形予測係数を求める処理の後で変形
を彼元する処理を行う手段とを含む音声分析処理方式を
特徴とするものである。
〔発明の実施例〕
以下に、本発明の実施例を図面にしたがって詳述する。
第1図は、線形予測法による一般的な音声分析処理方式
の従来例を示す。第2図乃至第4図は、本発明実施例に
含まれる。eワー・スペクトル包絡の標本化処理を説明
するための図である。第5図および第6図は、本発明実
施例に含まわる標本点間の補間処理を説明するための図
である。そして、M7図乃至第1O図は本発明の実施的
システムを説明する図である。
第1図において、lはフーリエ変換部、2はフーリエ逆
変換部、3は線形予測係数算出部、S (n)は入力音
声信号、P(ω)fd/eワー・スペクトル、R(→は
自己相関係数、α(ル)は線形予測係数を表わしている
従共からね形予測係数α(ル)を得るに当って、第1図
図示の如き構成が採用され、入力音声信号S(→につい
てフーリエ変換部1によってフーリエ変換を行いし0え
は2乗するなどして)Qワー・スペクトルP(ω)を抽
出する。該ノQワー・スペクトルは、第3図において、
eワー・スペクトルP((ロ)の対数値をとってtoy
 p(ハ)として示す如く、ピッチ周波数に対応した凹
凸をもつものであると考えてよい。
従来、該ノξワー・スペクトルP((ロ)にもとづいて
、フーリエ逆変換部2によって、自己相関係数R(rL
)を算出し、そして線形予測係数算出部3によって線形
予測係数α(→を抽出するようにしていた0    □
第2図は標本化処理を行うための構成例を示しておシ、
図中の符号1.2.3は第1図に対応し、4はピッチ周
波数抽出部、5はノQワー・スペクト△ ル包絡情報抽出部を表わしている0まfCP←)はノぐ
ワー・スペクトル包絡情報、R’(ル)は本発明におい
て得られる自己相関係数、α′(→は改良線形予測係数
を表わす。
本構成の場合には、第2図において入力信号5(n)か
らピッチ周波数を抽出するなどして、フーリエ変換部1
を介して得られているパワー・スペクトルP←)につい
て、第3図図示+印の如き点に対応するパワー・スペク
トル情報を抽出し、該抽出された/ξクワ−スペクトル
情報をフーリエ逆変換部2へ入力するようにされる。上
記+印の如き点に対応するノ(ワー・スペクトル情報を
本構成に訃いては・リ−・スペクトル包絡情報令←)と
呼んでいる。そして上記+印の点板外のパワー・スペク
トルの値を値“0”としてフーリエ逆変換部2へ六カす
るようにする。勿論、十印の点のみの値をフーリエ逆変
換部2へ入力してもよい〇上記+印の点は、フーリエ変
換部1を介して得られた/Qクワ−スペクトルP←)に
おけるピーク点に対応しているものと考えてよく、第2
図図示の場合には、入力音声信号S (rL)から図示
ピッチ周波数抽出部4によってピッチ周波数を抽出し、
該ピッチ周波数できまる周期の整数倍(1倍を含む)の
周期でサンプリングする点で与えられる。しかし、上記
・Qワー・スペクトル化tx t’A$ f(へ))を
得る手段については任意である。
上記・gワー・スペクトル包絡情報令([株]が第2図
図示の如く7一リエ逆変換部2に入力されかつ得られた
出力R’ (FL)が線形予測係数算出部3に入力され
ることによって、改良された線形予測係数α′(→が抽
出される○ 第4図は、パワー・スペクトル包絡の標本化によって得
られた改良線形予測係数を用いることによる効果を説明
する図である。曲線Aは第2図の構成による改良線形予
測係数を用いた場合に対応し、曲aBは第1図の構成に
おいて得らfL、た線形予測係数を用いた場合に対応し
ている0なお横軸はS/N比(dB)’e表わし、縦軸
はノイズ混入により変動したスペクトルと基準のスペク
トルとの間の誤差距離について対数をとった値(”B)
を表わしている。
第4図の曲線Aは、S/Nff、小さくしたとき、すな
わちノイズ混入率を高くしたとき、曲線Bよりはスペク
トル誤差が小さいことを示しており、これにより第2図
の方式は、第1図の方式とくらべて、ノイズに対して性
能的に改善されていることがわかる。
第5図は、本発明によるスペクトル包絡補間の1実施例
の説明図であり、単純な直線補間による方式を示す。同
図において、6はノ9ワー・スペクトル、7は高調波ピ
ーク、8は隣シ合った2つのピークを結ぶ直線補間線、
9は線形予測LPによる近似線を示す。
第6図は、本発明によるスペクトル包絡補間方式の他の
実施例の説明図であり、第5図の直線補間方式よりも近
似特性のよい2次曲線を用いた補間方式を示す。同図に
おいて、Pニー11 PKI PK+1゜PK+2は、
相違なる高調波ピーク点であり、それぞれ座標(、τy
;、−4+ 3’に−I L (”1(w 3’l(J
 ! (”Kl1t’/pc−+−+ L (鮨。21
3’に+□)をもっている。またLK−1は、”K−1
1PKI PK+1の3点を通る2次曲線を表わし、L
Kは、次に続< ”i(” Kl11 PK+2の3点
を通る2次曲線を表わす。2次曲線L K = 1 +
LKは、ピーク点PKおよびPK+1を共有するOLK
′は、2次曲線LK−1およびLKを、ピーク点PKお
よびPK+1間で平均した平均2次曲線であり、これを
各ピーク点の相続く2点間で求め、補間綜として使用す
る。
2点間を補間する平均2次曲線の公式は、(xK。
yK )s (”Kl1131に+1 )# (”Kl
213’に+2 )の3点を通る2次曲線の係数をαえ
l hICI ’にとするとき、(”Kl yK)およ
び(”K−111ffK+1 )の間♂。
の区間にΔいて、 y= −(αに十’LK++ )x2+−(bK十%+
1)”+’(’に+’に+1)2          
    2            2で叡わされる〇 第7図は、本発明実施例の構成図であり、上述した、e
ワー・スペクトルの標本化および補間処理および後述さ
れるパワー・スペクトル包絡の菱形および彼元処理を含
む改良された音声分析処理システムを示す。
図“中、11は7一リエ変換部、12は2乗値抽出部、
13は標本化部、14はピッチ抽出部、15は補間部、
16は変形処理部、17はフーリ数、処理部、22は復
元処理部を表わす。
7一リエ変換部11は、離散的な入力音声信号S(ル)
をフーリエ変換し、2乗値抽出部12は、これから/ξ
クワ−スペクトルP(→を抽出する。ピッチ抽出部14
は、入力音声信号S (FL)からピッチ周波数F。を
抽出する。
標本化部13は、第3図で説明したように、/ξクワ−
スペクトルP(→から、ピッチ周波数F。の各高調波位
置の振幅を検出し、標本化パワー・スペクトル包絡情報
分(→を生成する。
補間部1ffld、令(ハ)の離散的な各標本点間を、
第5図および第6図で説明したような方式で補間し、連
続的な・ξワー・スペクトル包絡9工に)を生成する。
変形処理部16は、介l←)について、その振幅を圧縮
ないし伸長する変形処理を行い、令1T(→を生成する
。これにより、/ξクワ−スペクトル包絡の高レベルの
ピークが線形予測係数算出に及ぼす影響は弱められ、逆
に、低レベルのピーフカ線形予測係数算出に及ばず影響
は強められ、る。
フーリエ逆変換部17は、補間および変形されたパワー
・スペクトル包絡情報91T(ハ)にもとづいて7−リ
エ逆変換処理を行い、自己相関係数R′(ル)を生成す
る。
線形予測係数算出部18は、R′(→にもとづいて、線
形予測係数α′(→を算出する。フーリエ変換部19は
、このα′(rL)を時間関数とみなしてフーリエ変換
し、更に2乗値抽出部20および逆数処理部21とによ
り、入力音声信号の変形さ扛たスペクトル包絡情報介′
(→を抽出する。
復元処理部22は、変形処理部工6で行った。eワー・
スペクトルに対する変形を、逆変換処理して復元し、最
終的なスペクトル包絡情報介←)を生成する。
次に、変形処理部16の機能について詳述する0変形処
理部16は、標本化および補間された/?パワースペク
トル包絡情報介、(へ))に対して、たとえば、 飢T(→=〔飢(ハ))r   −(1)なる変換を行
う。r(D値はer(m>の値にもとづいて予め定めら
れ、0<r(1’s 1(r、−1<r(0,r<−1
のそれぞれの場合にしたがって、△ Pl(→について圧縮、伸長、圧縮/逆数、伸長/逆数
の処理を行う。また俵元処理部22は、これに対して、
逆の変換 令■)=〔9′(→) −r を行う。
本発明者らは、更に上記変形処理部16による変形態様
について、より好ましい関数形を探索し、他の実施91
1として次の如き関数形を見出した0即ち、 で与えられる変換を行うことが好ましいことを見出した
。なお、第(2)式におけるGは、eワー・スペクトル
P(ω)を正規化するためのものと考えてよく、μは正
の値をもつ任意の係数であり、またtO?のカッコ内の
値1は対数値が負の値をとらないようにするためのもの
と考えてよい。
上記第(2)式の如き変換を行なうようにすると、スペ
クトル包絡情報介(→を得るには、第7図から明らかな
如く、俵元処理部22において第(2)式の変形に対応
する逆変形を行なうことが必要となる0なお、第7図の
構成において、変形処理部16を、2乗値抽出部12と
標本化部13との間に配置しても同等の結果を得ること
ができるO第8図乃至第10図は、本発明実施例の特性
改善効果を説明するための図である0各図中、LPは第
1図の方式、5TLPは変形処理のみを行ったLP方式
、EILPは標本化および補間のみを行ったLP方式、
E1’[’LPは標本化および補間と変形処理を行った
本発明実施例方式の特性を示す。
第8図は、ピッチ周波数変動に対する特性を示したもの
で、横軸のピッチ周波数と第17オルマント周波数F、
との比F、/Foに対して、縦軸は第17オルマント周
波数F、が受ける相対誤差の大きさを表わしている。同
図から明らかなように、本発明のBITLP方式は、F
oの変動に対して受ける誤差が、LPと同等でその他の
方式よりも小さくなっていることがわかる。
第9図および第10図は、本発明実施例のノイズ特性を
説明するもので、横軸はS/N(dB)、周波数F。と
の比がF+ / FO= 2−5の場合、そして第10
図はF+ / Fo = 1.75の場合を示す。これ
らの図から、EILPおよびEITLPの各方式がS/
Hの小さい領域でLP方式よりも良好な特性を示し、ま
たそれがF、/Foの違いによって大きく変らないこと
がわかる0 〔発明の効果〕 以上述べたように、本発明によれ社、ノイズ混入率の大
きい信号波形に対してもよい精度で線形予測分析を行う
ことができ、またピッチ周波数の変動やフォルマント周
波数との間の距離の大小によって受ける影響を小さくす
ることができ、音声認識あるいは合成等の多くの用途に
おいて、装置の性能を向上させる効果は大きい。
【図面の簡単な説明】
第1図は従来の一般的な縁形予測方式の構成図、第2図
は標本化処理方式の構成図、第3図はパワー・スペクト
ル包絡の標本化処理の説明図、第4図は標本化処理の効
果を示す図、第5図は標本点間の4i1間処理の説明図
、2(K 6図は平均2次曲線補間の説明図、第7図は
本発明実力布例システムの構成図、第8図乃至第10図
は本発明の効果を示す特性図でめる0 図中、11はフーリエ変換部、12は2乗値抽出部、1
3は標本化部、14はピッチ抽出部、1511−、iイ
1B同部、16は変形処理部、17は7−りエ逆変換部
、18は線形予測係数算出ff1tR119ば7一リエ
変換部、20は2乗値抽出部、211は逆数処理部、2
2は代元処理部を坂わず。5Cn)は入力音声信号、P
((ロ)l−iパワー・スペクトル包fi15悄今v之
、R’(ル)は自己相関係数、α′(rL)は綜形予i
t;+係数を表わす〇 特許出願人  藤崎博也(外1名) 代理人弁理士  長谷用文廣(外1名)十1回 S/N (ds)− オ6目 オフ目 才8図 十9目         才10図

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声信号中の有声部に対して該有声部のノQ
    ワー・スペクトルを算出し、該パワー・スペクトルの包
    絡をもつともよく表わす個々の高調波成分の振幅をまず
    検出し、次に隣シ合う高調波成分の間を補間することに
    よって、よシ密なスペクトル包絡を求めfcOも、該/
    eワーースペクトル包終について圧縮ないし伸長による
    所定の変形処理を施し、得られた変形ノQワー・スペク
    トル包絡を逆フーリエ変換して変形自己相関係数を算出
    し、該変形自己相関係数から変形スペクトル包絡全算出
    した後、先に施した圧縮ないし伸長による変形処理の逆
    変形処理を行うことにより入力音声信号のスペクトル包
    M!1情@を抽出することを特徴とする音声分析処理方
    式。
  2. (2)入力音声信号中の有声部に対して該有声部のノQ
    ワースベクトルを算出し、該パワー・スペクトルに対し
    て圧縮ないし伸長による所定の変形処理を施し、該変形
    されたパワー・スペクトルについて、その包絡をもつと
    もよく表わす個々の高調波成分の振幅を検出し、次に隣
    シ合う高調波成分の1&Jを補間することによって、よ
    p密な変形ノ9ワースベクトル包絡を求め、これを逆フ
    ーリエ変換して変形自己相関係数を算出し、該変形自己
    相関係数から髪形スペクトル包絡を算出した後、先に施
    した圧縮ないし伸長による変形処理の逆変形処理   
     □を行うことにより、入力音声信号のスペクトル包絡
    情報を抽出することを特徴とする音声分析処理方式。
JP57204798A 1982-11-22 1982-11-22 音声分析処理方式 Granted JPS5994795A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57204798A JPS5994795A (ja) 1982-11-22 1982-11-22 音声分析処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57204798A JPS5994795A (ja) 1982-11-22 1982-11-22 音声分析処理方式

Publications (2)

Publication Number Publication Date
JPS5994795A true JPS5994795A (ja) 1984-05-31
JPS6238720B2 JPS6238720B2 (ja) 1987-08-19

Family

ID=16496531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57204798A Granted JPS5994795A (ja) 1982-11-22 1982-11-22 音声分析処理方式

Country Status (1)

Country Link
JP (1) JPS5994795A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015166693A1 (ja) * 2014-05-01 2015-11-05 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体
WO2015166694A1 (ja) * 2014-05-01 2015-11-05 日本電信電話株式会社 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015166693A1 (ja) * 2014-05-01 2015-11-05 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体
WO2015166694A1 (ja) * 2014-05-01 2015-11-05 日本電信電話株式会社 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体
CN106537500A (zh) * 2014-05-01 2017-03-22 日本电信电话株式会社 周期性综合包络序列生成装置、周期性综合包络序列生成方法、生成程序、记录介质
JPWO2015166694A1 (ja) * 2014-05-01 2017-04-20 日本電信電話株式会社 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体
JPWO2015166693A1 (ja) * 2014-05-01 2017-04-20 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体
CN106663437A (zh) * 2014-05-01 2017-05-10 日本电信电话株式会社 编码装置、解码装置、编码方法、解码方法、编码程序、解码程序、记录介质
JP2018005247A (ja) * 2014-05-01 2018-01-11 日本電信電話株式会社 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体
JP2018013795A (ja) * 2014-05-01 2018-01-25 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体
CN106537500B (zh) * 2014-05-01 2019-09-13 日本电信电话株式会社 周期性综合包络序列生成装置、周期性综合包络序列生成方法、记录介质
CN110491401A (zh) * 2014-05-01 2019-11-22 日本电信电话株式会社 周期性综合包络序列生成装置、方法、程序、记录介质
CN110491402A (zh) * 2014-05-01 2019-11-22 日本电信电话株式会社 周期性综合包络序列生成装置、方法、程序、记录介质
CN110491401B (zh) * 2014-05-01 2022-10-21 日本电信电话株式会社 周期性综合包络序列生成装置、方法、记录介质
CN110491402B (zh) * 2014-05-01 2022-10-21 日本电信电话株式会社 周期性综合包络序列生成装置、方法、记录介质

Also Published As

Publication number Publication date
JPS6238720B2 (ja) 1987-08-19

Similar Documents

Publication Publication Date Title
Wise et al. Maximum likelihood pitch estimation
EP1914727A1 (en) Noise suppression method and device thereof
JPS5850360B2 (ja) 音声認識装置における前処理方法
CN111639541A (zh) 基于频率变化率的自适应同步压缩时频分析方法
US4937868A (en) Speech analysis-synthesis system using sinusoidal waves
US7444128B1 (en) Method of estimating a high frequency carrier signal
CA1164569A (en) System for extraction of pole/zero parameter values
JPS5994795A (ja) 音声分析処理方式
US20040199381A1 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
CN113552543B (zh) 基于set-stiaa的空间微动目标时频分析方法
US5870704A (en) Frequency-domain spectral envelope estimation for monophonic and polyphonic signals
JPS5994796A (ja) 音声分析処理方式
Zhao et al. A New Pitch Estimation Method Based on AMDF.
JPH04288600A (ja) ピッチ周波数差分特徴量抽出法
O'Shea et al. Instantaneous frequency estimation using the cross Wigner-Ville distribution with application to nonstationary transient detection
Kunieda et al. Pitch extraction by using autocorrelation function on the log spectrum
US6954707B2 (en) Multiple sinusoidal burst frequency measurements
Zhao et al. A robust algorithm for formant frequency extraction of noisy speech
Soon et al. Transformation of narrowband speech into wideband speech with aid of zero crossings rate
Lin et al. Improved tone recognition for fluent Mandarin speech based on new inter-syllabic features and robust pitch extraction
JPH1097288A (ja) 背景雑音除去装置及び音声認識装置
JP2880683B2 (ja) 雑音抑制装置
Kader Pitch detection algorithm using a wavelet correlation model
JPS599917B2 (ja) 音声分析処理方式
JPH0114599B2 (ja)