JPH0136959B2 - - Google Patents

Info

Publication number
JPH0136959B2
JPH0136959B2 JP56208357A JP20835781A JPH0136959B2 JP H0136959 B2 JPH0136959 B2 JP H0136959B2 JP 56208357 A JP56208357 A JP 56208357A JP 20835781 A JP20835781 A JP 20835781A JP H0136959 B2 JPH0136959 B2 JP H0136959B2
Authority
JP
Japan
Prior art keywords
speech
spectrum
speaker
outline
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56208357A
Other languages
English (en)
Other versions
JPS58108591A (ja
Inventor
Akihiro Kimura
Juji Kijima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56208357A priority Critical patent/JPS58108591A/ja
Publication of JPS58108591A publication Critical patent/JPS58108591A/ja
Publication of JPH0136959B2 publication Critical patent/JPH0136959B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (1) 発明の技術分野 本発明は音声認識装置における話者正規化機能
付き音声認識装置に関し、特に不特定話者を対象
とした音声認識装置に不可決な話者正規化機能付
き音声認識装置に関するものである。
(2) 技術の背景 入力された音声にもとづき各種処理を行なうよ
うな場合、入力された音声が何であるかを認識し
なければならない。そのために入力された音声信
号より特徴抽出を行ないその特徴を辞書と比較し
て入力音声信号が何かということを識別すること
が行なわれている。
しかしながら音声には個人差があるために不特
定話者を対象とした音声認識装置では、各話者の
個人差を取除く、いわゆる話者正規化処理を入力
音声に対して行なう必要がある。
(3) 従来技術と問題点 従来、不特定話者を対象として音声認識を行な
う場合には、第1図に示すように、例えばマイク
ロフオン1より入力された音声信号をAD変換部
2に伝達してこれをサンプリングしたのち、後述
する逆フイルタ3により話者正規化を行ない、こ
れをスペクトル分析部4にて高速フーリエ変換し
て音声スペクトルを作成し、特徴抽出部5にてそ
の特徴抽出を行ない、パターンマツチング部6に
より辞書7に格納されている標準パターンとのマ
ツチングを求め、そのもつとも一致度の高い標準
パターンのものを認識結果として出力している。
ここで、前記逆フイルタ3は下記式の特性H
(Z)を有するものである。
H(Z)=(1−αZ-12 …… Z=e〓〓ω:正規化周波数 したがつてこの逆フイルタ3の特性は上記αを
変えることにより定まるものであるので、認識に
先立ち、話者毎に特定文章を読上げてこれにより
このαを学習し、話者正規化をはかるものであ
る。なおこのαは個人別に異なるものであり、自
己相関関係より求められる。
しかしながら、このようにして音声波に時間領
域の処理のみの上記式の逆フイルタをかけて数
次の平担化フイルタ処理を行うのみでは、周波数
領域(例えば0〜5KHz)でこの式の関数の形
の範囲でしか正規化できないので、個人毎に細か
い相違があるようなものに対しては充分正規規化
することができないという欠点があつた。
(4) 発明の目的 したがつて本発明はこのような問題を改善する
ために、話者間の音声スペクトルの各周波数にお
ける強度軸方向の差異を細かく正規化する装置を
提供するものである。
(5) 発明の構成 そしてこのために本発明における話者正規化機
能付き音声認識装置では、音声信号入力手段と話
者特性正規化手段とスペクトル分析手段と特徴抽
出手段とパターンマツチング手段と辞書部を具備
する音声認識装置において、スペクトル分析対象
の全音声区間についてのスペクトル時系列のパワ
ー重み付平均値からなる音声スペクトル概形を作
成する音声スペクトル概形作成手段と、この作成
された音声スペクトル概形を保持する保持手段を
設け、音声認識に先立ち各話者に特有の音声スペ
クトル概形を任意の音声から学習してこれを前記
保持手段に保持しておき、認識時にこの音声スペ
クトル概形により入力音声のスペクトルを正規化
することにより話者間のスペクトルの各周波数に
おける強度軸方向の差異を正規化するようにした
ことを特徴とする。
(6) 発明の実施例 本発明の一実施例を詳述するに先立ちその動作
原理について説明する。
本発明では発声された音声の短区間スペクトル
のパワー加重平均をその発声者の固有の音声スペ
クトル概形とし、認識時にその音声スペクトル概
形を入力音声のスペクトルから差引くことにより
話者正規化を行なうものである。第2図に示す如
く、学習に際して入力音声を時間軸t方向に、例
えば10msec程の時間間隔△tでt1,t2,t3…と区
間分割し、第3図に示す如く、その区間のスペク
トル又はスペクトル包絡を作成し、これを{Si
(ω)}とする。ここでiは区間番号、ωは正規化
周波数(図示の例では5KHz)である。そしてそ
の区間の正規化対数のパワーを{Pi}(0≦Pi≦
1)とする。換言すれば、このPiは第2図の各区
間の音声波形のパワーに対応するものであり、Si
(ω)は第3図のスペクトル包絡線に対応するも
のである。そしてこれらにより音声スペクトル概
形(ω)を次の式により求める。
(ω)= 〓i Si(ω)Pi/ 〓i Pi …… 一方音声認識時は、入力音声のスペクトル包絡
を{S′i(ω)}とすると、特徴抽出するスペクト
ルS″i(ω)は次の式のようにして求める。
S″i(ω)=S′i(ω)−(ω) …… すなわち(ω)は話者の個人性を示すもので
あり、音声認識に先立ち特定文章を読上げること
によりこれを作成しておく。そして音声認識時に
は入力された音声信号より得られたスペクトル包
絡S′i(ω)よりこの個人特性分の(ω)を引け
ば各正規化周波数までのスペクトルに対して細か
く補正された正規化スペクトルS″i(ω)を得るこ
とができるので、これにより特徴抽出することに
より正確な音声認識を行なうことができる。
次に本発明の一実施例を第4図にもとづき説明
する。
第4図において第1図と同符号部は同一部分を
示すものであり、8はスペクトル加重平均部、9
はスペクトル概形メモリ、10は加算部、Sは切
換スイツチである。
スペクトル加重平均部8は、学習時において前
記式の演算を行なつて話者個人の音声スペクト
ル概形(ω)を算出するものである。
スペクトル概形メモリ9は前記スペクトル加重
平均部8にて演算されて求められた音声スペクト
ル概形(ω)を保持するメモリである。
次に第4図の動作について説明する。
先ず音声認識に先立ち特定話者に対する学習の
ために切換スイツチSを固定接点S1と接続させ
る。そして特定話者が学習のためにあらかじめ特
定の文章を読上げるとその音声信号がマイクロフ
オン1からAD変換部2に伝達されてデイジタル
信号として出力され、これがスペクトル分析部4
にて高速フーリエ交換(FFT)されてスペクト
ル分析される。このときスペクトル分析部4から
はスペクトル加重平均部8に対してそのスペクト
ル分析されたスペクトル曲線のみならず、正規化
対数パワーPiも伝達される。かくしてこのスペク
トル加重平均部8にて前記式の演算が行なわ
れ、その結果得られた音声スペクトル概形
(ω)がスペクトル概形メモリ9に記憶されるこ
とになる。
認識時には切換スイツチSを固定接点S2側に切
換える。そして特定話者が認識のためにマイクロ
フオン1から入力した音声信号はAD変換部2に
よりデイジタル値に変換されたのち、スペクトル
分析部4にて高速フーリエ変換されてスペクトル
分析される。そして加算部10においてスペクト
ル概形メモリ9に記憶されている音声スペクトル
概形(ω)の符号反転されたものの加算、つま
り減算を行なうことにより、その個人的特性分が
補償され、これにもとづき特徴抽出部5にて特徴
抽出(例えば帯域パワーの抽出等)が行なわれ
る。そしてこの特徴抽出されたものと辞書に記入
されたものとの比較がパターンマツチング部で行
なわれ、そのもつとも一致したものを認識結果と
して出力することになる。このようにして認識時
には一定したスペクトル概形(ω)を使用でき
るので、音声認識に重要な時間変動情報を見落す
ことなく正しい認識を行うことができる。
ところで本発明において音声スペクトル概形
(ω)を使用するのは以下のことによる。
話者毎の音声の違いは特に母音区間のスペクト
ルに現れることはよく知られている。具体的には
各母音(アイウエオ)のホルマント周波数の位置
や、各ホルマントの強度の相対的関係に話者毎の
違いが現れる。したがつて、話者毎の学習用音声
データよりその話者特有の各母音のスペクトル情
報(ホルマント周波数および各ホルマントの相対
強度関係など)を事前に学習しておけばほぼ完全
にその話者の母音を認識することができる。その
ため認識に先立ち母音のみを学習させる音声認識
装置さえ発表されている。本発明では、学習用音
声データとして母音を発声させるのではなく、任
意の発音内容の音声からその話者の母音の情報を
学習することを目的としている。本発明では、音
声中の母音はパワーが大きいことに注目し、全音
声区間のスペクトル時系列のパワー重み付平均を
式を用いて計算することにより、等価的に全母
音(アイウエオ)の平均スペクトルの近似値を求
めている。上述のように、本当は各母音の平均ス
ペクトルを求めたいのであるが、本発明の適用さ
れる音声認識装置の前処理部では認識結果さえ得
られず、ましてや不特定の話者の任意発声内容の
音声中の母音位置を検出しその母音の種類を決定
することは不可能であるため、本発明では全母音
の平均スペクトルの近似値を求めている。しか
し、本発明の全母音の平均スペクトルの近似値で
も話者の個人性を表現する情報を十分含んでお
り、これを認識音声データから差し引くことによ
り、音声データから話者性を取り除くことが十分
に可能となる。
(7) 発明の効果 したがつて本発明によれば話者間のスペクトル
の各周波数における強度軸方向の差異が学習によ
り細かく正規化することが可能となるので、不特
定話者を対象とした音声認識装置において、時間
変動情報を落すこともない、非常に安定した、高
い認識率を得ることができる。
【図面の簡単な説明】
第1図は従来の音声認識装置の説明図、第2図
は本発明における分割区間の説明図、第3図は音
声スペクトル包絡の説明図、第4図は本発明の一
実施例構成図である。 図中、1はマイクロフオン、2はAD変換部、
3は逆フイルタ、4はスペクトル分析部、5は特
徴抽出部、6はパターンマツチング部、7は辞
書、8はスペクトル加重平均部、9はスペクトル
概形メモリ、10は加算部をそれぞれ示す。

Claims (1)

    【特許請求の範囲】
  1. 1 音声信号入力手段と話者特性正規化手段とス
    ペクトル分析手段と特徴抽出手段とパターンマツ
    チング手段と辞書部を具備する音声認識装置にお
    いて、スペクトル分析対象の全音声区間について
    のスペクトル時系列のパワー重み付平均値からな
    る音声スペクトル概形を形成する音声スペクトル
    概形作成手段と、この作成された音声スペクトル
    概形を保持する保持手段を設け、音声認識に先立
    ち各話者に特有の音声スペクトル概形を任意の音
    声から学習してこれを前記保持手段に保持してお
    き、認識時にこの音声スペクトル概形により入力
    音声のスペクトルを正規化することにより話者間
    のスペクトルの各周波数における強度軸方向の差
    異を正規化するようにしたことを特徴とする話者
    正規化機能付き音声認識装置。
JP56208357A 1981-12-23 1981-12-23 話者正規化機能付き音声認識装置 Granted JPS58108591A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56208357A JPS58108591A (ja) 1981-12-23 1981-12-23 話者正規化機能付き音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56208357A JPS58108591A (ja) 1981-12-23 1981-12-23 話者正規化機能付き音声認識装置

Publications (2)

Publication Number Publication Date
JPS58108591A JPS58108591A (ja) 1983-06-28
JPH0136959B2 true JPH0136959B2 (ja) 1989-08-03

Family

ID=16554948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56208357A Granted JPS58108591A (ja) 1981-12-23 1981-12-23 話者正規化機能付き音声認識装置

Country Status (1)

Country Link
JP (1) JPS58108591A (ja)

Also Published As

Publication number Publication date
JPS58108591A (ja) 1983-06-28

Similar Documents

Publication Publication Date Title
EP0219109B1 (en) Method of analyzing input speech and speech analysis apparatus therefor
CN106935248B (zh) 一种语音相似度检测方法及装置
Bou-Ghazale et al. A comparative study of traditional and newly proposed features for recognition of speech under stress
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
US4783802A (en) Learning system of dictionary for speech recognition
WO2011046474A2 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
JPH0612089A (ja) 音声認識方法
Athineos et al. LP-TRAP: Linear predictive temporal patterns
Zhou et al. Classification of speech under stress based on features derived from the nonlinear Teager energy operator
Naini et al. Formant-gaps features for speaker verification using whispered speech
KR19990001828A (ko) 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법
JPH07191696A (ja) 音声認識装置
JPH0136959B2 (ja)
CN116052689A (zh) 一种声纹识别方法
JPH1097274A (ja) 話者認識方法及び装置
Sahu et al. Analysis of Short-Time Magnitude Spectra for Improving Intelligibility Assessment of Dysarthric Speech
Tolba et al. Automatic speech recognition based on cepstral coefficients and a mel-based discrete energy operator
Christiansen et al. Noise reduction in speech using adaptive filtering I: Signal processing algorithms
Singh et al. The Voice Signal and Its Information Content—2
JPS63213899A (ja) 話者照合方式
JP2569472B2 (ja) 音声分析装置
JPH0136960B2 (ja)
Krause Recent developments in speech signal pitch extraction
Flanagan et al. Techniques for speech analysis
JPS6148898A (ja) 音声の有声無声判定装置