JPS58111992A - 話者認識装置 - Google Patents
話者認識装置Info
- Publication number
- JPS58111992A JPS58111992A JP56214312A JP21431281A JPS58111992A JP S58111992 A JPS58111992 A JP S58111992A JP 56214312 A JP56214312 A JP 56214312A JP 21431281 A JP21431281 A JP 21431281A JP S58111992 A JPS58111992 A JP S58111992A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- spectrum
- spectral
- outline
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(1) 発明の技術分野
本発明は話者認識方式に関し、2%に各話者に特有なス
ペクトル概形をあらかじめ学習してこれを記録しておき
、話者認識のときにこの学習し九スペクトル概形にもと
づくマツチングを行なって話者が帷であるかということ
を確実に認識するようにした話者認識方式に関する。
ペクトル概形をあらかじめ学習してこれを記録しておき
、話者認識のときにこの学習し九スペクトル概形にもと
づくマツチングを行なって話者が帷であるかということ
を確実に認識するようにした話者認識方式に関する。
(2)従来技術と間亀点
従来、話者なIiwItする場合、その音声の特徴パラ
メータとして時間領域の計算で求められるパラメータ、
例えば自己相関関数な、どが使用されていた。すなわち
あらかじめ話者毎に特定暗を読むことにより得られた自
己相関関数を配憶しておき、話者認識すべき音声か入力
されたときこれよりその自己相関関数を求め、先に登録
ずみのメモリ内よりこれともつとも一致する自己相関関
数を抽出して、話者をU繊することが行なわれていた。
メータとして時間領域の計算で求められるパラメータ、
例えば自己相関関数な、どが使用されていた。すなわち
あらかじめ話者毎に特定暗を読むことにより得られた自
己相関関数を配憶しておき、話者認識すべき音声か入力
されたときこれよりその自己相関関数を求め、先に登録
ずみのメモリ内よりこれともつとも一致する自己相関関
数を抽出して、話者をU繊することが行なわれていた。
しかし、この自己相関N数のようなパラメータは、音声
スペクトルと直接的な関係で社なく、その関数全体の形
状を表現するものであって、物定の周波数領域に、おけ
る伏線を表示するものではないので、話者認識に1賛な
周波数スペクトルにおけゐ特定の周波数領域における微
妙な変化状態を捉えることはできなかったために、高精
度の話者認識を行なうことができなかった。
スペクトルと直接的な関係で社なく、その関数全体の形
状を表現するものであって、物定の周波数領域に、おけ
る伏線を表示するものではないので、話者認識に1賛な
周波数スペクトルにおけゐ特定の周波数領域における微
妙な変化状態を捉えることはできなかったために、高精
度の話者認識を行なうことができなかった。
(3)発明の目的
したがって本発明はこのような問題を改善するために、
話者間の音声スペクトルの細かな差異を抽出するために
、話者毎のスペクトル概形な求めておき、話者間のスペ
クトル概形の細かな差異に注目して話者認識を行なう話
者認識方式を提供することにある。
話者間の音声スペクトルの細かな差異を抽出するために
、話者毎のスペクトル概形な求めておき、話者間のスペ
クトル概形の細かな差異に注目して話者認識を行なう話
者認識方式を提供することにある。
(4)発明の構成
そしてこのために本発明における話者g線方式では、音
声信号を入力する音声入力手段と、この入力された音声
をスペクトル分析するスペクトル分析手段と、入力され
た音声信号からスペクトル概形となる音声の短区間スペ
クトルのパワー加重平均を得るスペクトル加重平均手段
と、あらかじめ既知の話者のスペクトル概形が登録され
る話者メモリ手段と、スペクトル概形を比較する比較手
段を設け、前記話者メモリ手段にあらかじめ既知の複数
の話者のスペクトル概形を記入しておき、未知の話者の
入力音声から得られたスペクトル概形と前記話者メモリ
手段に記入されたスペクトル概形とを比較することによ
り入力音声の話者を認識するようにしたことを%黴とす
る。
声信号を入力する音声入力手段と、この入力された音声
をスペクトル分析するスペクトル分析手段と、入力され
た音声信号からスペクトル概形となる音声の短区間スペ
クトルのパワー加重平均を得るスペクトル加重平均手段
と、あらかじめ既知の話者のスペクトル概形が登録され
る話者メモリ手段と、スペクトル概形を比較する比較手
段を設け、前記話者メモリ手段にあらかじめ既知の複数
の話者のスペクトル概形を記入しておき、未知の話者の
入力音声から得られたスペクトル概形と前記話者メモリ
手段に記入されたスペクトル概形とを比較することによ
り入力音声の話者を認識するようにしたことを%黴とす
る。
(5) 発明の実施例
本発明の一実鵜例を詳述するに先立ちその動作原理につ
いて説明する。
いて説明する。
本発明では発声され丸音声の短区間スペクトルのパワー
加重平均をその発声者の固有の音声スペクトル概形とし
て各話者毎にこれを登録しておき、話者認識時にその入
力音声のスペクトル概形と登録されている各話者のスペ
クトル概形との間で距離計算を行ない、最も距離の小さ
くなったものの登録話者名を鰺鐵結果として出力するも
のであんこの際、各話者のスペクトル概形間で話者変動
の大きな帯域での距離計算を行なってその最も小さな距
離のものを求めるものである。
加重平均をその発声者の固有の音声スペクトル概形とし
て各話者毎にこれを登録しておき、話者認識時にその入
力音声のスペクトル概形と登録されている各話者のスペ
クトル概形との間で距離計算を行ない、最も距離の小さ
くなったものの登録話者名を鰺鐵結果として出力するも
のであんこの際、各話者のスペクトル概形間で話者変動
の大きな帯域での距離計算を行なってその最も小さな距
離のものを求めるものである。
す々わち、第1図に示す如く、入力音声を時間軸を方向
に、例えば10 m sec 根度の時間間隔Δ1で、
t+ 、b 、t*・・・と区間分割し、第2図に示す
如く、その区間のスペクトル包絡を作成し、このスペク
トル包絡な(bij (ω))とする。ここでtj)坪
漬1号、jは話者番号、ωは正規化周波数(図示の例で
は5曲翼のときω=π)である。そしてその音声の正規
化対数パワーを(Pij) : 0< Ptj≦1とす
る。こむで換首すればこのPりは第1図の入力音声の各
区間分割のパワーに対応するものであり、8−j(ω)
は第2図のスペクトル包結線に対応するものであるが、
これを正規化周波数ω= t iである単位周波数毎に
サンプリングしt(iEとして演算しておく。そしてこ
れらにより話者jの音声スペクトル概形1N(ω)は次
の0式により求められる。
に、例えば10 m sec 根度の時間間隔Δ1で、
t+ 、b 、t*・・・と区間分割し、第2図に示す
如く、その区間のスペクトル包絡を作成し、このスペク
トル包絡な(bij (ω))とする。ここでtj)坪
漬1号、jは話者番号、ωは正規化周波数(図示の例で
は5曲翼のときω=π)である。そしてその音声の正規
化対数パワーを(Pij) : 0< Ptj≦1とす
る。こむで換首すればこのPりは第1図の入力音声の各
区間分割のパワーに対応するものであり、8−j(ω)
は第2図のスペクトル包結線に対応するものであるが、
これを正規化周波数ω= t iである単位周波数毎に
サンプリングしt(iEとして演算しておく。そしてこ
れらにより話者jの音声スペクトル概形1N(ω)は次
の0式により求められる。
8j (ω) =2b4j (Ql) Pij /’;
P4j・−・・・・■s この(,7(@)を各話者について登録しておく。
P4j・−・・・・■s この(,7(@)を各話者について登録しておく。
この場合、(B、<ω))は単位周波毎にサンプリング
し友値としてf録しておく。
し友値としてf録しておく。
一方音声認識時には、入力音声についてそのスペクトル
包絡(8’4(ω))とその正規化対数パワー(P’4
) (LIF’i≦1)を登録時のときと同様にして
求め、入力音声のスペクトル概形H+(ω)を次の0式
により求める。
包絡(8’4(ω))とその正規化対数パワー(P’4
) (LIF’i≦1)を登録時のときと同様にして
求め、入力音声のスペクトル概形H+(ω)を次の0式
により求める。
M’ (ω) −f b’t (ω) ”4/); 1
1”i ・・・・・[そしてこの0式により得られた入
力音声のスペクトル概形百1(ψ)を、登録ずみの各話
者の音声スペクトル概形8j(ω)と比較してそれがも
つともよくマツチングしたものを話者として認識する4
のである。このとき、各スペクトル概形のうち話者変動
の大きな帯域での距離計算を行なってその距離の蝋も小
さなものを求める。すなわち次の0式を蛾小にするtt
U−結果とする。但しVv(ω)は菖み関数であって、
話者変動の大きな帯域を指定する関数で、あらかじめ定
められており、例えは第3図に示す如き帯域を示してお
り、その値は9〈W(ω)≦1であるものとする。
1”i ・・・・・[そしてこの0式により得られた入
力音声のスペクトル概形百1(ψ)を、登録ずみの各話
者の音声スペクトル概形8j(ω)と比較してそれがも
つともよくマツチングしたものを話者として認識する4
のである。このとき、各スペクトル概形のうち話者変動
の大きな帯域での距離計算を行なってその距離の蝋も小
さなものを求める。すなわち次の0式を蛾小にするtt
U−結果とする。但しVv(ω)は菖み関数であって、
話者変動の大きな帯域を指定する関数で、あらかじめ定
められており、例えは第3図に示す如き帯域を示してお
り、その値は9〈W(ω)≦1であるものとする。
ゑ1百j(ω) −8’(ω)IW(ω)・・・・・・
■このようにして各話者毎に細かく相違するスペクトル
範囲での比較ができることにな9、より正確な話者S繊
が可能となる。
■このようにして各話者毎に細かく相違するスペクトル
範囲での比較ができることにな9、より正確な話者S繊
が可能となる。
次に本発明の一実施例を第4図にもとづき説明する。
1はマイクロフォンであって第1図に示す如き音声信号
を入力するものであシ、2はAi)変換部であって、マ
イクロフォン1から第1図の如きアナログの音声信号が
入力されたとき、これをデイジタシ出力に変換するもの
である。3はスペクトル包絡分析部であってAD変換部
2から出力され良信号を高速フーリエ変換して第2図に
示す如く音声スペクトル包絡を作成するものである。4
はスペクトル加重平均部であって、前記0式および0式
の演算を行ない入力音声のスペクトル概形を求めるもの
である。5は登録部であって学習時に前記スペクトル加
重平均部4で求めた話者の判明しているスペクトル概形
を話、看病とともに話者辞書メモリ6に登録するもので
ある。7は重み関数メモリであって、例えば第3図に示
す重み関数が出力されるメモリであり、8はマツチング
部であって、未知の話者の入力音声から作成されたスペ
クトル概形を語基辞書メモリ6に格納されている話者の
明らかな各スペクトル概形とを重み関数メモリ7から伝
達された重み関数の制御のもとで距−演算を行なって、
すなわち前記0式の演算を行ないそのもつとも小さな距
離のスペクトル概形の話者病を出力すあものである。
を入力するものであシ、2はAi)変換部であって、マ
イクロフォン1から第1図の如きアナログの音声信号が
入力されたとき、これをデイジタシ出力に変換するもの
である。3はスペクトル包絡分析部であってAD変換部
2から出力され良信号を高速フーリエ変換して第2図に
示す如く音声スペクトル包絡を作成するものである。4
はスペクトル加重平均部であって、前記0式および0式
の演算を行ない入力音声のスペクトル概形を求めるもの
である。5は登録部であって学習時に前記スペクトル加
重平均部4で求めた話者の判明しているスペクトル概形
を話、看病とともに話者辞書メモリ6に登録するもので
ある。7は重み関数メモリであって、例えば第3図に示
す重み関数が出力されるメモリであり、8はマツチング
部であって、未知の話者の入力音声から作成されたスペ
クトル概形を語基辞書メモリ6に格納されている話者の
明らかな各スペクトル概形とを重み関数メモリ7から伝
達された重み関数の制御のもとで距−演算を行なって、
すなわち前記0式の演算を行ないそのもつとも小さな距
離のスペクトル概形の話者病を出力すあものである。
次に第4図の動作について簡単に説明する。
fi) はじめに切換スイッチ8を登録側接点aに接
続し、あらかじめ規定されている短文あるいは単鎖を話
者毎にマイクロフォン1から音声入力する。この音声入
力信号はAIJ変換部2でディジタル信号に変換され、
スペクトル包絡分析部3で音声の短区間の前記スペクト
ル包絡(Btj (ω))が求められる。このスペクト
ル包H(5sj(ω))ハそのときのサンプリングのと
きに求め九P−jとともにこのスペクトル包絡(bij
(ω))を伝達する。
続し、あらかじめ規定されている短文あるいは単鎖を話
者毎にマイクロフォン1から音声入力する。この音声入
力信号はAIJ変換部2でディジタル信号に変換され、
スペクトル包絡分析部3で音声の短区間の前記スペクト
ル包絡(Btj (ω))が求められる。このスペクト
ル包H(5sj(ω))ハそのときのサンプリングのと
きに求め九P−jとともにこのスペクトル包絡(bij
(ω))を伝達する。
コノスペクトル包絡は単位周波数毎にサンプリングさA
た値とじて求められている。スペクトル加重平均部4は
このスペクトル包絡(8旬(ω))およびPjjにより
前記0式の演算を行なう。この結果得られ九スペクトル
概形がその話者病とともに登録部5に伝達されて話者辞
書メモリ6に格納される。このようにして話者辞書メモ
リ6にはあらかじめその話者病とともに多数のスペクト
ル概形が格納される。
た値とじて求められている。スペクトル加重平均部4は
このスペクトル包絡(8旬(ω))およびPjjにより
前記0式の演算を行なう。この結果得られ九スペクトル
概形がその話者病とともに登録部5に伝達されて話者辞
書メモリ6に格納される。このようにして話者辞書メモ
リ6にはあらかじめその話者病とともに多数のスペクト
ル概形が格納される。
(ロ) このようにして話者辞書メモリ6に対するf録
が終ると、今度は切換スイッチSをマッチング1111
接点鈎と接続する。そして話者認識すべ色入力音声がマ
イクロフォン1より入力されると、前記と同様にしてス
ペクトル包絡分析部3にはスペクトル包絡(5’((ω
))が求められ、スペクトル加重平均部4では前記0式
の演算が行なわれてスペクトル概形♂(ψ〉φ(1求め
ら才し、これがマツチング部8に伝達される。これによ
り話者辞書メモリ6から登録されているスペクトル概形
が順次出力される。このとき、重み関数メモリ7から、
重み関数にもとづき、例えば単位周波数毎にW(ω)と
して第3図に示すよりな0〜1tでの値が出力されて重
みの付与され九上記■式の演算が行なわれる。そしてこ
のような演算が話者辞書メ毫り6に登録されているすべ
てのスペクトル概形について行なわれたのちに、マツチ
ング部8はその距離のもつとも小さかったスペクトル概
形の話者病を認識結果として出力する。
が終ると、今度は切換スイッチSをマッチング1111
接点鈎と接続する。そして話者認識すべ色入力音声がマ
イクロフォン1より入力されると、前記と同様にしてス
ペクトル包絡分析部3にはスペクトル包絡(5’((ω
))が求められ、スペクトル加重平均部4では前記0式
の演算が行なわれてスペクトル概形♂(ψ〉φ(1求め
ら才し、これがマツチング部8に伝達される。これによ
り話者辞書メモリ6から登録されているスペクトル概形
が順次出力される。このとき、重み関数メモリ7から、
重み関数にもとづき、例えば単位周波数毎にW(ω)と
して第3図に示すよりな0〜1tでの値が出力されて重
みの付与され九上記■式の演算が行なわれる。そしてこ
のような演算が話者辞書メ毫り6に登録されているすべ
てのスペクトル概形について行なわれたのちに、マツチ
ング部8はその距離のもつとも小さかったスペクトル概
形の話者病を認識結果として出力する。
なお話者l#膏メモリにスペクトル概形を登録するとき
に、あらJ≧しめ各スペクトル概形を比較してその個人
的変化の大亀な帯域を検出し、これにもとづき重み関数
メモリ70重み関数値を記入しておけは、その登録者間
の個人差をより正確に示し九重み関数を記入することが
できる。
に、あらJ≧しめ各スペクトル概形を比較してその個人
的変化の大亀な帯域を検出し、これにもとづき重み関数
メモリ70重み関数値を記入しておけは、その登録者間
の個人差をより正確に示し九重み関数を記入することが
できる。
(6)発明の詳細
な説明の如く、本発明によれば自己相関関数を使用する
場合とは異なり、各個人差が細かく存在するスペクトル
を利用して、そのスペクトル概形を求め、これにもとづ
き話者識別を行なうようにするとともに、スペクトルの
話者変動の大きい帯域の距離計算を行なうことができな
いので、認識率の高い話者認識が集塊できる。
場合とは異なり、各個人差が細かく存在するスペクトル
を利用して、そのスペクトル概形を求め、これにもとづ
き話者識別を行なうようにするとともに、スペクトルの
話者変動の大きい帯域の距離計算を行なうことができな
いので、認識率の高い話者認識が集塊できる。
第1図はサンプリング区間の正規化対数パワーの説明図
、第2図は音声スペクトルの説明図、第3図は重み関数
の説明図、第4図は本発明の一実施例構成図である。 図中、1はマイクdフォン、2はAD変換部、3はスペ
クトル包籟分析部、4はスペクトル加重平均部、5は登
録部、6祉話省辞書メモリ、7は重みXaメモリ、8は
マツチング部をそれぞれ示す。 特許出願人 富士通株式金社 代理人弁理士 山 谷 晧 榮 才1目 1、 121314 Δを 才2巳 才3目
、第2図は音声スペクトルの説明図、第3図は重み関数
の説明図、第4図は本発明の一実施例構成図である。 図中、1はマイクdフォン、2はAD変換部、3はスペ
クトル包籟分析部、4はスペクトル加重平均部、5は登
録部、6祉話省辞書メモリ、7は重みXaメモリ、8は
マツチング部をそれぞれ示す。 特許出願人 富士通株式金社 代理人弁理士 山 谷 晧 榮 才1目 1、 121314 Δを 才2巳 才3目
Claims (1)
- (1) 音声備考を入力する音−人力手段と、この入
力され九音声をスペクトル分析するスペクトル分析手段
と、入力され友音声信号からスペクトル概形となる音声
の短区間スペクトルのパワー加重平均を得るスペクトル
加重平均手段と、あらかじめ既知の話者のスペクトル概
形が登録される話者メモリ手段と、スペクトル概形を比
較する比較手段を設け、前記話者メモリ手段にあらかじ
め既知の複数の話者のスペクトル概形を記入しておき、
未知の話者の入力音声から得られたスペクトル概形と前
記話者メモリ手段に記入されたスペクトル概形とを比較
することによυ入力音声の話者を認識するようにしたこ
とを特徴とする話者認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56214312A JPS58111992A (ja) | 1981-12-25 | 1981-12-25 | 話者認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56214312A JPS58111992A (ja) | 1981-12-25 | 1981-12-25 | 話者認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58111992A true JPS58111992A (ja) | 1983-07-04 |
JPH0136960B2 JPH0136960B2 (ja) | 1989-08-03 |
Family
ID=16653655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56214312A Granted JPS58111992A (ja) | 1981-12-25 | 1981-12-25 | 話者認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58111992A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6582514B2 (ja) | 2015-04-23 | 2019-10-02 | 富士通株式会社 | コンテンツ再生装置、コンテンツ再生プログラム及びコンテンツ再生方法 |
-
1981
- 1981-12-25 JP JP56214312A patent/JPS58111992A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPH0136960B2 (ja) | 1989-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH02242298A (ja) | 声門波形に基づく話者識別装置 | |
CN102543073A (zh) | 一种沪语语音识别信息处理方法 | |
KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
CN112992109A (zh) | 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体 | |
US4078154A (en) | Voice recognition system using locus of centroid of vocal frequency spectra | |
CN107871498A (zh) | 一种基于Fisher准则以提高语音识别率的混合特征组合算法 | |
CN116665649A (zh) | 基于韵律特征的合成语音检测方法 | |
JPS58111992A (ja) | 話者認識装置 | |
JPS63165900A (ja) | 会話音声認識方式 | |
JPS58108590A (ja) | 音声認識装置 | |
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
JPS5936759B2 (ja) | 音声認識方法 | |
ES2297839T3 (es) | Sistema y metodo para el reconocimiento de voz en tiempo real independiente del usuario. | |
Nath et al. | Feature Selection Method for Speaker Recognition using Neural Network | |
EP0245252A1 (en) | System and method for sound recognition with feature selection synchronized to voice pitch | |
Wang et al. | Acoustic and Perceptual Study of Tones in Jin Chinese (Togtoh variety) | |
JPH0236960B2 (ja) | ||
KR100349341B1 (ko) | 유사단어 및 문장 인식시의 인식율 개선 방법 | |
JPS59114600A (ja) | 話者識別方式 | |
JPH11249685A (ja) | 話者認識方法及び装置 | |
JPH02124600A (ja) | 音声認識装置 | |
Yavuz et al. | Recognition of Turkish vowels by probabilistic neural networks using Yule-Walker AR method | |
JPH05108088A (ja) | 音声区間検出装置 | |
JPH06324696A (ja) | 音声認識装置及び方法 | |
JPS61117600A (ja) | 音声認識装置 |