JPH01243098A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH01243098A JPH01243098A JP63069415A JP6941588A JPH01243098A JP H01243098 A JPH01243098 A JP H01243098A JP 63069415 A JP63069415 A JP 63069415A JP 6941588 A JP6941588 A JP 6941588A JP H01243098 A JPH01243098 A JP H01243098A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- recognition
- masking
- auditory system
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 16
- 230000000873 masking effect Effects 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 230000003595 spectral effect Effects 0.000 claims description 13
- 238000002474 experimental method Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 abstract description 3
- 238000012546 transfer Methods 0.000 description 11
- 210000000056 organ Anatomy 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 210000003926 auditory cortex Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003478 temporal lobe Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は標準パターンを用いる音声認識方法に関する。
従来の標準パターンを用いる音声認識方法は第2図のよ
うに、周波数分析部9において音声波の周波数分析をお
こない、その結果をもとに特徴抽出部10においてホル
マントのピーク値、ピーク周波数、隣接するホルマント
間の距離、周波数帯域ごとの強度の平均値等の音声の言
語的特徴を抽出し、類似度計算部12に云いて、特徴メ
モリ11に予め記憶されている標準パターンとの類似度
の計算をおこない、判定部13において類似度が最大の
ものを選択し、認識結果を出力する。
うに、周波数分析部9において音声波の周波数分析をお
こない、その結果をもとに特徴抽出部10においてホル
マントのピーク値、ピーク周波数、隣接するホルマント
間の距離、周波数帯域ごとの強度の平均値等の音声の言
語的特徴を抽出し、類似度計算部12に云いて、特徴メ
モリ11に予め記憶されている標準パターンとの類似度
の計算をおこない、判定部13において類似度が最大の
ものを選択し、認識結果を出力する。
上記従来技術は標準パターンとして、音道における、音
素等の発生パターンに相当する、音声波を周波数分析し
て得られたスペクトルパターンを用いており、その音声
認識方法を用いて認識されたパターンが人間の聴覚野に
おける認識パターンと同じであるか否かという点につい
ては全く配慮されていない。
素等の発生パターンに相当する、音声波を周波数分析し
て得られたスペクトルパターンを用いており、その音声
認識方法を用いて認識されたパターンが人間の聴覚野に
おける認識パターンと同じであるか否かという点につい
ては全く配慮されていない。
一方、今日音声認識は多くの分野で実用化されている。
しかし、特定の話者の音声を分析して得られる標準パタ
ーンを用いた音声認識方式は他の話者では認識率が低下
するという問題点をもつ。
ーンを用いた音声認識方式は他の話者では認識率が低下
するという問題点をもつ。
上記問題点は、音声認識をおこなう際に用いられる標準
パターンは1人間が音声をどのように認識するかではな
く、どのように発声するかを示す声道におけるパターン
であるため1話者によって個体差が大きい点に起因する
。
パターンは1人間が音声をどのように認識するかではな
く、どのように発声するかを示す声道におけるパターン
であるため1話者によって個体差が大きい点に起因する
。
そこで、本発明の目的は、不特定話者に対する音声認識
の認識率向上のために1機械に人間の脳と同じ音声認識
方法、すなわち、人間の聴覚器から側頭葉に位置する聴
覚器までの聴覚系の伝達特性を考慮した聴覚器での認識
パターンを用いた音声認識方法を提供することにある。
の認識率向上のために1機械に人間の脳と同じ音声認識
方法、すなわち、人間の聴覚器から側頭葉に位置する聴
覚器までの聴覚系の伝達特性を考慮した聴覚器での認識
パターンを用いた音声認識方法を提供することにある。
上記目的を達成するために、本発明は、標準パターンと
して、音声のマスキング効果の実験結果として得られる
人間の聴覚器での認識パターン、すなわち、マスキング
パターンを分析して得られた特徴量を用いる点、および
、マスキング効果実験に用いた音声のスペクトルパター
ンを入力、上記マスキングパターンを出力とする聴覚系
の伝達特性部を構成し、音声認識時は入力音声のスペク
トルパターンを上記聴覚系の伝達特性部に入力し、その
出力に対して特徴抽出をおこない、標準パターンとの間
で類似性を判定し、認識をおこなう点を特徴としている
。
して、音声のマスキング効果の実験結果として得られる
人間の聴覚器での認識パターン、すなわち、マスキング
パターンを分析して得られた特徴量を用いる点、および
、マスキング効果実験に用いた音声のスペクトルパター
ンを入力、上記マスキングパターンを出力とする聴覚系
の伝達特性部を構成し、音声認識時は入力音声のスペク
トルパターンを上記聴覚系の伝達特性部に入力し、その
出力に対して特徴抽出をおこない、標準パターンとの間
で類似性を判定し、認識をおこなう点を特徴としている
。
音声波スペクトルパターンは上記聴覚系の伝達特性によ
って、個体差の大きい声道パターンから、人間の聴覚器
での認識パターンに変換される。これによって、機械に
人間の聴覚系と同じ認識機構を与えられたこととなる。
って、個体差の大きい声道パターンから、人間の聴覚器
での認識パターンに変換される。これによって、機械に
人間の聴覚系と同じ認識機構を与えられたこととなる。
以下、本発明の実施例を図面により詳細に説明する。
第1図は本発明の一実施例構成を示す。
同図において、1は周波数分析部であって、複数の帯域
フィルタを備え、入力音声を周波数分析するもの、2は
聴覚系伝達特性部であって、本発明にいう、音声波スペ
クトルパターンを聴覚器における認識パターンに変換す
るもので、通常プロセッサ3とメモリ4によって構成さ
れる。5は特徴抽出部であって、第1ホルマントのピー
ク周波数を求めるもの、6は特徴メモリであって、標準
パターンを格納するもの、7は類似度計算部であって、
距離計算をするもの、8は判定部であって認識結果を出
力するものである。なお、聴覚系伝達特性部2.特徴抽
出部5.類似度計算部72判定部8を共通のプロセッサ
を用いて実現できる。
フィルタを備え、入力音声を周波数分析するもの、2は
聴覚系伝達特性部であって、本発明にいう、音声波スペ
クトルパターンを聴覚器における認識パターンに変換す
るもので、通常プロセッサ3とメモリ4によって構成さ
れる。5は特徴抽出部であって、第1ホルマントのピー
ク周波数を求めるもの、6は特徴メモリであって、標準
パターンを格納するもの、7は類似度計算部であって、
距離計算をするもの、8は判定部であって認識結果を出
力するものである。なお、聴覚系伝達特性部2.特徴抽
出部5.類似度計算部72判定部8を共通のプロセッサ
を用いて実現できる。
本発明の大きな特徴は第1図聴覚系伝達特性部2、およ
び、特徴メモリ6に記憶される標準パターンにある。
び、特徴メモリ6に記憶される標準パターンにある。
最近の聴覚系の情報処理に関する研究では、聴覚器で認
識される音声パターンは音声波スペクトルパターンとは
異なるものであることが分かつてきた。これは、音声の
マスキング効果の実験(伊福部達著、「九官鳥の声帯模
写に教えられる」科学朝日、46.9/33 [198
6] )からの知見であるが、第3図スペクトルパター
ン14に示される周波数パターンをもつ九官鳥の発する
母音「イ」を妨害音とした場合、人間が純音を聞き分け
る周波数パターンは同図15のようになる。上記周波数
パターンをマスキングパターンと呼ぶ。
識される音声パターンは音声波スペクトルパターンとは
異なるものであることが分かつてきた。これは、音声の
マスキング効果の実験(伊福部達著、「九官鳥の声帯模
写に教えられる」科学朝日、46.9/33 [198
6] )からの知見であるが、第3図スペクトルパター
ン14に示される周波数パターンをもつ九官鳥の発する
母音「イ」を妨害音とした場合、人間が純音を聞き分け
る周波数パターンは同図15のようになる。上記周波数
パターンをマスキングパターンと呼ぶ。
このように、マスキングパターンと九官鳥の発する母音
のスペクトルパターンは異なり、九官鳥の発する母音「
イ」の周波数パターンでは存在しない第1ホルマントが
同図16に示されるようにマスキングパターンでは出現
している。従って、人間の聴覚系の情報処理過程におい
ては、第2.第3の高周波数ホルマントに類似性がある
場合は、第1ホルマントを自分自身で補って五2識して
いることが分かる。
のスペクトルパターンは異なり、九官鳥の発する母音「
イ」の周波数パターンでは存在しない第1ホルマントが
同図16に示されるようにマスキングパターンでは出現
している。従って、人間の聴覚系の情報処理過程におい
ては、第2.第3の高周波数ホルマントに類似性がある
場合は、第1ホルマントを自分自身で補って五2識して
いることが分かる。
人間の場合、内耳においてカギュウによって周波数分析
された音声波は、聴覚系のはたらきによって、音声波ス
ペクトルパターンとは異なるマスキングパターンとして
聴覚器において認識される。
された音声波は、聴覚系のはたらきによって、音声波ス
ペクトルパターンとは異なるマスキングパターンとして
聴覚器において認識される。
上記知見は聴覚系は音声波スペクトルパターンをマスキ
ングパターンに変換するはたらきをもっことを示す。
ングパターンに変換するはたらきをもっことを示す。
先に述べたように、本発明では、先ず、標情パターン、
および、聴覚系の伝達特性を求めることが必要である。
および、聴覚系の伝達特性を求めることが必要である。
これらは上記マスキング効果の実験結果をもとに作成さ
れる。第4図に標準パターン、および、聴覚系の伝達特
性を求める手順を示す。手順17において認識すべき音
素aに対して、音素aの標準的な音声波の周波数分析を
おこない、その結果得られるスペクトルパターンをPa
とする。手順18においては手順17で用いた音声波を
妨害音とし、上記知見に基づくマスキング効果実験を行
なって周波数分析をし、マスキングパターンQaを作成
する。手順19においてはマスキングパターンQaの第
1ホルマントのピーク周波数Raを求め、標準パターン
として第1図に示す特性メモリ6に記憶する。聴覚系の
伝達特性Fは、手順ITで求めたスペクトルパターンP
a、および、手順18で求めたマスキングパターンQa
をもとに、 F = Q a / P a
・=(1)から求めることができる6手順20にお
いては。
れる。第4図に標準パターン、および、聴覚系の伝達特
性を求める手順を示す。手順17において認識すべき音
素aに対して、音素aの標準的な音声波の周波数分析を
おこない、その結果得られるスペクトルパターンをPa
とする。手順18においては手順17で用いた音声波を
妨害音とし、上記知見に基づくマスキング効果実験を行
なって周波数分析をし、マスキングパターンQaを作成
する。手順19においてはマスキングパターンQaの第
1ホルマントのピーク周波数Raを求め、標準パターン
として第1図に示す特性メモリ6に記憶する。聴覚系の
伝達特性Fは、手順ITで求めたスペクトルパターンP
a、および、手順18で求めたマスキングパターンQa
をもとに、 F = Q a / P a
・=(1)から求めることができる6手順20にお
いては。
(1)式の関係をメモリ4に記憶する。なお、Fが非線
形特性を持つ場合は複数の音声波に関して繰り返して(
1)式を用いる必要がある。
形特性を持つ場合は複数の音声波に関して繰り返して(
1)式を用いる必要がある。
音声認識時には、未知入力音声波Xを第1図の周波数分
析部1において分析し、その結果得られるスペクトルパ
ターンをPxとし、同図聴覚系伝達特性部2において、
メモリ4に記憶されたプログラムをプロセッサ3で実行
し、マスキングパターンQxを求め、同図特徴抽出部5
において、その第1ホルマントのピーク周波数Rxを求
め、同図特徴メモリ6に記憶されたS$パターンRaと
の類似性を、同図類似度計算部7において1次元ユーク
リッド距離 /)(X)= l Rx−Ra l =
42)で求め、同図判定部8において、定数εに対して
。
析部1において分析し、その結果得られるスペクトルパ
ターンをPxとし、同図聴覚系伝達特性部2において、
メモリ4に記憶されたプログラムをプロセッサ3で実行
し、マスキングパターンQxを求め、同図特徴抽出部5
において、その第1ホルマントのピーク周波数Rxを求
め、同図特徴メモリ6に記憶されたS$パターンRaと
の類似性を、同図類似度計算部7において1次元ユーク
リッド距離 /)(X)= l Rx−Ra l =
42)で求め、同図判定部8において、定数εに対して
。
ρ(x)≦E ・・・(3)
であれば認識出力1、すなわち、入力音声波がaである
ことを、 ρ(X)〉ε ・・・(4
)であれば認識出力0、すなわち、入力音声波がaでな
いことを出力する。
であれば認識出力1、すなわち、入力音声波がaである
ことを、 ρ(X)〉ε ・・・(4
)であれば認識出力0、すなわち、入力音声波がaでな
いことを出力する。
本実施例によれば第1図聴覚系伝達特性部2によって、
音声波の第1ホルマントのピーク周波数の発声者に関す
る個体差が解消する。
音声波の第1ホルマントのピーク周波数の発声者に関す
る個体差が解消する。
本発明によれば声道パターンといった話者の個別性に強
く依存した認識パターンでなく、人間と同じ認識パター
ンを用いた音声認識を機械が行なうこととなり、不特定
話者に関する認識率の向上の効果がある。
く依存した認識パターンでなく、人間と同じ認識パター
ンを用いた音声認識を機械が行なうこととなり、不特定
話者に関する認識率の向上の効果がある。
第1図は、本発明による音声認識方式の説明図、第2図
は従来の音声認識方式の説明図、第3図は九官鳥の母音
発声におけるマスキング効果を示す特性図、第4図は本
発明における標準パターン、および、聴覚系の伝達特性
を求める手順を示す図第 1 口 す 第212]
は従来の音声認識方式の説明図、第3図は九官鳥の母音
発声におけるマスキング効果を示す特性図、第4図は本
発明における標準パターン、および、聴覚系の伝達特性
を求める手順を示す図第 1 口 す 第212]
Claims (1)
- 【特許請求の範囲】 1、入力音声を分析してスペクトルパターンを発生させ
、該スペクトルパターンをマスキングパターンに変換し
、該変換結果のパターンに対して、予じめ登録されてい
るマスキングパターンからなる標準パターンとの間で類
似性を判定し、その判定結果で入力音声の認識を行なう
ことを特徴とする音声認識方法。 2、スペクトル分析された音声波を発生させ、該音声波
を妨害音とし、マスキング効果実験による周波数分析を
行ないマスキングパターンを作成し、該パターンを標準
パターンとして用いることを特徴とする標準パターンの
作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63069415A JPH01243098A (ja) | 1988-03-25 | 1988-03-25 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63069415A JPH01243098A (ja) | 1988-03-25 | 1988-03-25 | 音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01243098A true JPH01243098A (ja) | 1989-09-27 |
Family
ID=13401955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63069415A Pending JPH01243098A (ja) | 1988-03-25 | 1988-03-25 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH01243098A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5086471A (en) * | 1989-06-29 | 1992-02-04 | Fujitsu Limited | Gain-shape vector quantization apparatus |
US5263119A (en) * | 1989-06-29 | 1993-11-16 | Fujitsu Limited | Gain-shape vector quantization method and apparatus |
-
1988
- 1988-03-25 JP JP63069415A patent/JPH01243098A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5086471A (en) * | 1989-06-29 | 1992-02-04 | Fujitsu Limited | Gain-shape vector quantization apparatus |
US5263119A (en) * | 1989-06-29 | 1993-11-16 | Fujitsu Limited | Gain-shape vector quantization method and apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Likitha et al. | Speech based human emotion recognition using MFCC | |
Cooke et al. | The auditory organization of speech and other sources in listeners and computational models | |
JP4624552B2 (ja) | 狭帯域言語信号からの広帯域言語合成 | |
US4829574A (en) | Signal processing | |
Daqrouq | Wavelet entropy and neural network for text-independent speaker identification | |
US5666466A (en) | Method and apparatus for speaker recognition using selected spectral information | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
Vaysse et al. | Automatic extraction of speech rhythm descriptors for speech intelligibility assessment in the context of Head and Neck Cancers | |
CN113593588B (zh) | 一种基于生成对抗网络的多唱歌人歌声合成方法和系统 | |
Chauhan et al. | Speaker recognition using fusion of features with feedforward artificial neural network and support vector machine | |
Kumari et al. | A new gender detection algorithm considering the non-stationarity of speech signal | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
Ge et al. | Explainable deepfake and spoofing detection: an attack analysis using SHapley Additive exPlanations | |
JPH01243098A (ja) | 音声認識方法 | |
Gao | Audio deepfake detection based on differences in human and machine generated speech | |
Mantilla-Caeiros et al. | A pattern recognition based esophageal speech enhancement system | |
JP2956069B2 (ja) | 音声合成装置のデータ処理方式 | |
Hossain et al. | Finding emotion from multi-lingual voice data | |
Heistermann | Decomposition of multichannel electromyographic signals for a silent speech interface | |
Hsieh et al. | A robust speaker identification system based on wavelet transform | |
Jeyalakshmi et al. | Transcribing deaf and hard of hearing speech using Hidden markov model | |
Xiaofang et al. | Short Overview on the Main Issues of Speaker Recognition | |
MacKinnon et al. | Realtime recognition of unvoiced fricatives in continuous speech to aid the deaf | |
Smith | Using an onset-based representation for sound segmentation | |
KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 |