JPH02720B2 - - Google Patents

Info

Publication number
JPH02720B2
JPH02720B2 JP6726183A JP6726183A JPH02720B2 JP H02720 B2 JPH02720 B2 JP H02720B2 JP 6726183 A JP6726183 A JP 6726183A JP 6726183 A JP6726183 A JP 6726183A JP H02720 B2 JPH02720 B2 JP H02720B2
Authority
JP
Japan
Prior art keywords
sound
formant
voiced
sounds
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP6726183A
Other languages
Japanese (ja)
Other versions
JPS59192298A (en
Inventor
Hiroyoshi Yuasa
Koichi Oomura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP6726183A priority Critical patent/JPS59192298A/en
Publication of JPS59192298A publication Critical patent/JPS59192298A/en
Publication of JPH02720B2 publication Critical patent/JPH02720B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

〔技術分野〕 本発明は電子機器を音声メツセージによつて操
作するための音声メツセージ識別方式に関するも
のである。 〔背景技術〕 第1図乃至第4図は日本語の5母音の特徴を示
す資料である。まず音声は音韻に対応して、第1
図に示したような周波数スペクトル包絡を有し、
音声の周波数スペクトル分析により、このスペク
トル包絡線のピークに相当するホルマント周波数
を求め周波数の低い方から第1ホルマントF1
第2ホルマントF2,……と順に表わせば、5母
音は、第2図に示したようなF1〜F4の変化カー
ブで表わせる。 このホルマント周波数の分布をF1,F2座標軸
上で調べたものを第3図に示した。この第3図か
らもわかるような日本語の5母音を線型識別する
ためには、第1〜第3ホルマントを正しく求めな
いとできないと云われている。 我々は、ごく少数の限定された単語ないしは、
文章を識別する装置をローコストに製作するた
め、完全ではなくともおおよそ5母音に似た擬音
韻に記号化する方式を検討した。 第5図は従来本発明者らが開発した音声メツセ
ージ識別装置の概略構成を示している。同図にお
いて、Vは音声入力中、O〜1KHzの周波数帯域
の短時間平均パワーを示しており、有声音のエネ
ルギに対応している。また、Uは音声入力中、5
〜12KHzの周波数帯域の短時間平均パワーを示し
ており、無声音のエネルギに対応している。さら
に、VL、VH、VB、VFはそれぞれ音声入力中、
0〜0.4KHz、0.4〜0.8KHz、0.8〜1.8KHzおよび
1.8〜3.2KHzの周波数帯域の短時間平均パワーを
示しており、それぞれ、狭顎音、広顎音、後舌
音、および前舌音のエネルギーに対応している。
S0〜S3は差動増幅手段であり、それぞれ差信号
UV/V、VH/VL、VB/VLおよびVF/VBを
算出するものである。差動増幅手段S0の出力は比
較手段C0において基準値Rv、Ru(Rv<O<Ru)
と比較され、差信号出力が基準値Rvよりも小さ
い場合には有声音Vと判定される。また上記信号
出力が基準値Ruよりも大きい場合には無声音U
と判定され、基準値RuとRvとの間であれば無音
Sと判定される。そして無音、有声音、および無
声音の各場合についてS、V、Uの各符号のうち
いずれか1つの符号が記号化処理部MY0入力さ
れる。また、MC0は、各差動増幅手段S1〜S3
出力を入力とする行列計算部であり、この行列計
算部MC0は各差信号出力VH/VL、VB/VL、
およびVF/VBを成分とする3次元ベクトルに
所定の行列Tmを乗算して、音声入力中に含まれ
る各母音/a/、/i/、/u/、/e/、/
o/の短時間平均パワーVa、Vi、Vu、Ve、Vo
並びに広顎有声音、狭顎有声音、前舌有声音、後
舌有声音、母音/a/と/o/の中間的な有声音
の各短時間平均パワーVh、Vl、Vf、Vb、Vwを
算出するもののである。行列計算部MC0の出力
は最大値判定部MX0に入力されて、各成分Va、
Vi、Vu、Ve、Vo、Vh、Vl、Vf、Vwのうち最
大の成分がどれであるかを判定され、その最大の
成分の符号が記号化処理部MY0に入力される。
記号化処理部MY0は、比較手段C0から出力され
る符号がVであるときには、最大値判定部MX0
から出力されるVa、Vi、Vu、Ve、Vo、Vh、
Vl、Vf、Vb、およびVwのうちのいずれか1つ
の符号を出力し、また比較手段C0から出力され
る符号がUまたはSであるときには、その符号を
そのまま出力するものである。この記号化処理部
MY0から出力される複合符号は、音声メツセー
ジの登録時には標準パターン記憶部に入力記憶さ
れ、音声メツセージの認識時には入力パターン記
憶部に入力記憶されるものであり、照合処理時に
は、予め登録された標準パターンのうち入力パタ
ーンに最も近似する標準パターンを入力メツセー
ジとして識別するものである。 ところで第5図従来例において、VHとVLの
パワーのバランスを調整すると、差信号の零点を
境界にして、正側に5母音の{e,a,o}、負
側に{i,u}が位置し、したがつてVH/VL
差信号は、Veao/Viu差信号と云うべき信号に
なる。次に、VFとVBのパワーのバランスを調
整すると、差信号の零点を境界にして、正側に5
母音の{i,e}、負側に5母音の{a,o,u}
が位置し、VF/VB差信号はVie/Vaou差信号
と云うべき信号になる。一方、VB/VL差信号
のバランスを調整すると、差信号の零点を境界に
して、正側に5母音の{a}、負側に5母音の
{o}が位置し、したがつてVB/VL差信号は
Va/Vo差信号と云うべき信号になる。 第6図a,bは第5図従来例において各有声音
VH、VL、VF、VBの短時間平均パワーを取り
出すために用いるフイルタの周波数特性を示す図
であり、同図aは横軸の周波数を均等目盛として
描いてあり、同図bは横軸の周波数を対数目盛と
して描いてある。なお第6図において、APは後
述する調整アンプの特性を示している。 第7図は第5図従来例における行列計算部
MC0および最大値判定部MX0と同じ機能を実現
する別の手段を示すものである。この第7図は、
各差信号Veao/Viu、Va/Vo、Vie/Vaouの
レベルを高レベル(H)、中レベル(M)、および
低レベル(L)の3値で表わした場合における擬
音韻判別フローを示している。同図のフローで
は、まず第一段階では第1ホルマントF1に対応
したVeao/Viu差信号で判別し、第二段階では
第2ホルマントF2に対応したVie/Vaou差信号
で判別し、第三段階でVa/Vo差信号で判別する
ことにより、{i,e,a,o,u,h,l,f,
b,w,m}の11種類に有声音を記号化するもの
である。 第8図乃至第11図は第5図従来例において、
5母音/i/、/e/、/a/、/o/、/u/
を入力した場合における差動増幅手段S0〜S3の出
力信号波形を示している。上記各図において、
U/V信号、H/L信号、F/B信号、A/O信
号はそれぞれ差動増幅手段S0〜S3の出力を示して
いる。またSYMは各有声音の区別を示しており、
例えば第8図において、l、i、f、e,……な
どは、有声音Vl、Vi、Vf、Ve、……をそれぞれ
示している。ただし、符号mは各有声音Va、
Vi、Vu、Ve、Vo、Vh、Vl、Vf、Vb、Vwのう
ち、いずれにも該当しない有声音Vmを示してい
る。しかして第8図および第9図は相異なる男性
の被験者二人について測定した例を示しており、
第10図および第11図は女性の被験者二人につ
いて測定した例を示している。上記各図を見れ
ば、話者によらず、ほぼ同じ特徴を抽出している
ことがわかるが、母音の/e/音と/u/音と/
o/音の記号化は、フイルタの調整にノウハウが
あつて、記号化が若干不完全である。 ところで、上述の母音の第1ホルマントF1と、
第2ホルマントF2の分布を示す第3図と舌の調
音位置を表わす第4図とを比較すると、第1ホル
マントF1は、顎が広く開いていると/a/のよ
うに高い周波数になり、顎が狭く開いていると/
i/のように低い周波数になるので、ほぼ顎の広
狭に対応していることがわかる。一方、第2ホル
マントF2は、同様に舌の位置の前後にほぼ対応
していることがわかる。また第2図および第3図
を見れば、母音の第2ホルマントは男性と女性と
でばらつきが大きいことがわかる。しかるに従来
例にあつては、かかる第2ホルマントをVF/
VB差信号のみで分離しているものであるから、
特に母音の{e}と{o,u}の分離が不完全に
なるという問題があつた。つまり、VF/VB差
信号では、第8図乃至第11図において5母音の
なかで/u/に対応する部分が負側にもつと大き
く検出されたいが、これが弱く、また/e/に対
応する部分や/o/に対応する部分の後半も弱い
ことがわかり、これが記号化を不確実にする要因
となつている。かかる不完全さを解消するため
に、従来、5母音を発声したときの差信号のずれ
を個人別にオフセツトとして求めて補正する方式
を提案したが、それでもこのようなオフセツト調
整はなるべく無い方がよいし、またオフセツト量
が少ない方が望ましいことは云うまでもない。そ
れにも拘らず、従来例にあつては上述のようにば
らつきの大きい第2ホルマントをVF/VB差信
号のみで分離しているので、フイルタ対の差信号
出力の零点補正のオフセツトがかなり大きくな
り、場合によつては完全に補正できないおそれが
あつた。またこのような差信号出力の零点補正を
行なわない場合には、実際の発声と擬音韻の記号
との相違のため、識別単語数の減少の低下をまね
くという欠点があつた。このため、不特定話者用
としては、成分数等で著しく制限を受けるという
ことにもなつた。 〔発明の目的〕 本発明は上述の点に鑑みて為されたものであ
り、母音の第2ホルマントの特徴を確実に抽出で
きるようにして、5母音のより完全な記号化を可
能とし、またフイルタ対の差信号出力の話者によ
る零点補正量を少なくできるようにした音声メツ
セージ識別方式を提供することを目的とするもの
である。 〔発明の開示〕 第12図は、本発明の特許請求の範囲第1項に
記載された構成を機能的にブロツク化して示した
いわゆるクレーム対応図である。同図において、
Fvは音声入力の低周波成分の短時間平均パワー
を取り出すフイルタであり、Fuは音声入力の高
周波成分を取り出すフイルタである。各フイルタ
Fv、Fuの出力は差動増幅手段S0に入力されて、
差信号成分を抽出される。C0は比較手段であり、
上記差動増幅手段S0から出力される差信号成分
が、基準値Rvよりも小さいときには有声音Vの
符号を割り当て、基準値Ruよりも大きいときに
は無声音UVの符号を割り当て、それ以外の場合
には無音Sの符号を割り当てるもである。ただ
し、Ru>O>Rvである。次にFFa1は有声音のう
ち顎の開きの狭い狭顎有声音(母音のi、uな
ど)の短時間平均パワーを取り出すフイルタであ
り、Fa2は有声音のうち顎の開きの広い広顎有声
音(母音のe、a、oなど)の短時間平均パワー
を取り出すフイルタである。次に、Fb1は顎の開
きの広い広顎有声音のうち、母音のe、oのよう
な第1ホルマントの低い音の短時間平均パワーを
取り出すフイルタであり、Fb2は同じく顎の開き
の広い広顎有声音のうち、母音のaのような第1
ホルマントの高い音の短時間平均パワーを取り出
すフイルタである。次にFc1は、第1ホルマント
の低い広顎有声音のうち、母音のoのような第2
ホルマントの低い音の短時間平均パワーを取り出
すフイルタであり、Fc2は、同じく第1ホルマン
トの低い広顎有声音のうち、母音のeのような第
2ホルマントの高い音の短時間平均パワーを取り
出すフイルタである。さらにFd1は、顎の開きの
狭い狭顎有声音のうち、母音のuのような第2ホ
ルマントの低い音の短時間平均パワーを取り出す
フイルタであり、Fd2は母音のiのような第2ホ
ルマントの高い短時間平均パワーを取り出すフイ
ルタである。S0〜S4は差動増幅手段であり、それ
ぞれ差信号V/UV、Veao/Viu、Va/Veo、
Ve/Vo、Vi/Vuを算出するものである。差動
増幅手段S0の出力は比較手段C0において基準値
Rv,Ru(Rv<O<Ru)と比較され、差信号出力
が基準値Rvよりも小さい場合には有声音Vと判
定される。また上記差信号出力が基準値Ruより
も大きい場合には無声音Uと判定され、基準値
RuとRvとの間であれば無音Sと判定される。そ
して無音、有声音、および無声音の各場合につい
てS、V、Uの各符号のうちいずれか1つの符号
が記号化処理部MY0に入力される。MC0は、各
差動増幅手段S1〜S4の出力を入力とする行列計算
部であり、この行列計算部MC0は各差信号出力
Veao/Viu、Va/Veo、Ve/Vo、Vi/Vuを成
分とする4次元ベクトルに所定の行列Tvを乗算
して、音声入力中に含まれる各母音i、e、a、
o、uの短時間平均パワーを算出するものであ
る。第12図の構成においては、広顎有声音VH
と狭顎有声音VLとの比率を求める差動増幅手段
S5と、前舌有声音VFと後舌有声音VBとの比率
を求める差動増幅手段S6とを設けてあり、行列計
算部MC0ではこれらの各差動増幅手段S5,S6
差信号出力VH/VLおよびVF/VBに所定の行
列Tcを乗算して、音声入力中に含まれる広顎有
声音h、狭顎有声音l、前舌有声音f、後舌有声
音b、およびその他の広顎かつ後舌有声音wのパ
ワーを算出するものである。行列計算部MC0
おいて用いる行列Tv、Tcの一例を示せば、次式
のようになる。 行列計算部MC0の出力は最大値判定部MX0
入力されて、各成分i、e、a、o、u、h、
l、f、b、wのうち最大の成分がどれであるか
を判定され、その最大の成分の符号が記号化処理
部MY0に入力される。ただし最大の成分と2番
目に大きい成分との差が小さいときには符号mが
出力される。記号化処理部MY0は、比較手段C0
から出力される符号がVであるときには、最大値
判定部MX0から出力されるi、e、a、o、u、
h、l、f、b、wおよびmのうちのいずれか1
つの符号を出力し、また比較手段C0から出力さ
れる符号がUまたはSであるときには、その符号
をそのまま出力するものである。この記号化処理
部MY0から出力される複合符号は、音声メツセ
ージの登録時には標準パターン記憶部に入力記憶
され、音声メツセージの認識時には入力パターン
記憶部に入力記憶されるものであり、照合処理時
には、予め登録された標準パターンのうち入力パ
ターンに最も近似する標準パターンを入力メツセ
ージとして識別するものである。 なお第12図の構成において、VH/VL差信
号およびVF/VB差信号は、それぞれVeao/
Viu差信号およびVe/Vo差信号で代用してもか
まわない。 第13図は8フイルタ方式の実施例構成を示す
ブロツク図である。上述の第12図の構成では、
Fv、Fu、Fa1、Fa2、Fb1、Fb2、Fc1、Fc2
Ed1、Fd2の合計10個のフイルタを必要とするが、
第13図の構成では、このうち2つのフイルタを
兼用して8フイルタで音声の特徴を抽出できるよ
うにしたものである。第13図において、VFh
は前舌有声音の高域成分、VFは前舌有声音の成
分、VBは後舌有声音の成分、VHhは広顎有声音
の高域成分、VHlは広顎有声音の低域成分、VL
は狭顎有声音の成分をそれぞれ抽出するフイルタ
の出力である。そして第13図の実施例において
は、Veao/Viu差信号とVa/Veo差信号につい
てVLを共用し、またVe/Vo差信号とVi/Vu差
信号についてVB(又はVL)を共用したものであ
る。これは、フイルタ対の差信号の零点がフイル
タ帯域の交差点(クロスオーバ周波数)に対応す
るものであるため、差信号をとるフイルタ対のう
ち、片方のフイルタの帯域を固定しても、もう一
方のフイルタの帯域が2種類あれば、フイルタ帯
域の交差点が変わることになる。 ところで、第13図の実施例においては、
VHhとVBは、ほぼ同じであるので、1つのVB
にまとめたいが、第13図のままでは、VBから
3つの差信号を取り出すことになつて、フイルタ
対のバランス調整が困難になる。そこでVBを高
域成分VBhと全域成分VBとに分け、VFを1つ
にまとめて、7フイルタ方式とした例を第14図
に示す。この場合には、VBから2つの差信号を
抽出するだけであるのでフイルタのバランス調整
は簡単になる。また別な見方をすれば、第14図
の実施例は第5図従来例にVBhを加えたものと
も云える。第15図a,bは、第14図の7フイ
ルタ方式において各有声音の成分VL、VH、
VB、VBh、VFの短時間平均パワーを取り出す
ために用いるフイルタの周波数特性を示す図であ
り、同図aは横軸の周波数を均等目盛として描い
てあり、同図bは横軸の周波数を対数目盛として
描いてある。この第15図においてAPは後述す
る調整アンプの特性を示している。 第16図は6フイルタ方式の実施例である。す
なわち、上述の第14図実施例にあつては、
VBhの代わりにVHをとつても、母音のiとuの
識別は可能であるので、周波数成分ベクトルは、
UV、V、VF、VB、VH、VLの6成分(6フイ
ルタ)で構成することができるものである。この
第16図実施例は、別な見方をすれば第5図従来
例にVF/VH差信号を追加したものであり、フ
イルタ帯域もほぼ同じものが使える。ただし、
VF/VB差信号は、母音のeとoが確実に識別
できるように調整する。第17図a,bは、第1
6図の6フイルタ方式において各有声音の成分
VL、VH、VB、VFの短時間平均パワーを取り
出すために用いるフイルタの周波数特性を示す図
であり、同図aは横軸の周波数を均等目盛として
描いてあり、同図bは横軸の周波数を対数目盛と
して描いてある。この第15図においてAPは後
述する調整アンプの特性を示している。 第13図実施例の8フイルタ方式、第14図実
施例の7フイルタ方式、および第16図実施例の
6フイルタ方式における行列計算部MC0の変換
行列Tmとしては、〜式のようなものが使用
可能である。 まず式の変換行列Tmは、識別に最低限必要
な要素以外は0にして、計算を速くできるように
したもので、式は、要素の絶対値が8の部分に
冗長度を持たせ、差信号の検出が弱い場合には幅
広く5母音の記号化が可能になるようにしたもの
で、式は第1ホルマントF1に関する差信号に
対する5母音の要素をすべて同じ大きさの重み
(絶対値14)にすると共に、第2ホルマントF2
関する2つの差信号に関しては、5母音に対し
て、どちらかに一個づつ識別に必要な重みをつけ
たもので、第1ホルマントF1を第2ホルマント
F2より重要視したものと云える。この変換行列
Tmは、識別対象の言葉等によつて任意に設定で
きるものである。 特に、記号ベクトルの成分を5母音{i、e、
a、o、u}のみとする場合には、第12図の
Tvに相当する行列の要素は{+1,0,−1}の
いづれかで良いので、乗算を必要とせず符号変換
だけで、簡単な記号化が可能である。一方第12
図のTcに相当する符号{h,l,f,b,w}
の変換行列の要素は、このの行列の行ベクトルの
ノルムをTvの行ベクトルのノルムと同じにする
かTcの行ベクトルのノルムの値が、Tvの行ベク
トルのノルムの値より小さく、かつTvの行列の
要素の絶対値よりも大きくする。このようにしな
いと、5母音の各成分{i,e,a,o,u}よ
りもその他の有声音の成分{h,l,f,b,
w}の方が小さくなつてしまう。 次により具体的な実施例について説明する。第
18図は第14図の7フイルタ方式をより具体化
した実施例、第19図は第16図の6フイルタ方
式をより具体化した実施例を示しており、両者の
違いはフイルタFBhの有無のみである。上記各
実施例において、音声は、マイク1より入力さ
れ、プリアンプ2で増幅されて、調整アンプ3で
ゲインとオフセツトを調整される。次にレベル調
整器5ではV/UV差信号と他の差信号と他の差
信号との入力パワーのバランスをとる。(一般に、
V/UV差信号よりも他の差信号の方を強調す
る。)次に、V/UVバランス調整器4ではフイ
ルタFvの入力とフイルタFuの入力とのバランス
をとる。一方、VB/VLバランス調整器6を中
点に調整し、VH/VLバランス調整器7で、フ
イルタFHとフイルタFLの入力バランスをとり、
VF/VBバランス調整器8でフイルタFFとフイ
ルタFB(FBh)のバランスをとる。次にVB/VL
バランス調整器6で、VBとVLのバランスをと
る。第19図の構成では、VB/VLバランス調
整器6を調整するとVF/VHのバランスも同時
にとれている。 各フイルタの出力は、マルチプレクサ9で順次
切り換えながら対数変換器10で、パワーを対数
スケールに変換し、A/Dコンバータ11で8ビ
ツトの2進数にデイジタル化する。なお各フイル
タをデイジタルフイルタで構成する場合には、
A/Dコンバータ11は、調整アンプ3の次段に
来るもので、パイプライン方式で、各フイルタ計
算を順次行ない、一種のマルチプレクサ9のよう
に順々に各フイルタの出力が計算される。次に、
このデイジタル値の相互の差を計算し、差信号ベ
ルトル抽出部12で、差信号ベクトル{UV/
V、Veao/Viu、Va/Veo、Ve/Vo、Vi/
Vu}の5成分を計算する。 第20図乃至第23図は、第18図の実施例に
ついて、第8図乃至第11図の音声と同一の音声
を録音テープにより入力し、音声の特徴抽出を行
なつた結果を示しており、また第24図乃至27
図は、第19図の実施例について、同様に第8図
乃至第11図の音声と同一の音声を録音テープに
より入力し、音声の特徴抽出を行なつた結果を示
している。これらの第20図乃至第27図におい
ては、従来例のVF/VB差信号が、Ve/Vo差信
号とVi/Vu差信号の2本になり、また従来例の
VA/VU差信号が、Va/Veo差信号(図中では
a/oと略記)になつたものである。なお第20
図乃至第27図において、a/iでは、Veao/
Vin差信号を示している。しかして従来例では、
VF/VB差信号によるe、u、oの検出が差信
号の零点に近づいて弱くなり、e、u、oの記号
化がi、aに比べて困難であつたが、第20図乃
至第27図では、Ve/Vo差信号でe、oの検出
が確実になり、Vi/Vu差信号でuの検出が確実
になつたので、5母音の記号化が、より確実に行
なえることがわかる。特に第24図乃至第27図
では、Vi/Vu差信号が第20図乃至第23図よ
りも明確にiとuを識別しており、実施例に関す
る限り第18図のものよりも第19図の方が確実
に5母音を記号化していると云えるものである。 次に第18図および第19図に戻つて、V/
UV判定部13では、V/UV差信号がある設定
値RUより正のときUVと判定し、ある設定値RV
より負のときVと判定し、その中間をSと判定す
る。始端、終端検知部14では、V又はUVの判
定により音声の始端を検知し、無音がある設定値
以上のサンプル数の間、継続すると終端と検知す
る。 記号ベクトル変換部15は、第14図および第
16図で示したように行列演算で、記号ベクトル
{i,e,a,o,u,h,l,f,b,w}に
変換する。但し、行列演算はVの区間でのみ行な
うものである。記号化処理部16は、Vの区間で
は記号ベクトルの最大成分がある設定値以上の場
合にはその記号を出力し、設定値以下の場合には
mを出力する。またUVとSの区間では、それぞ
れUV、Sを出力する。 整形処理部17では、同じ記号の繰返しを一つ
の記号とその継続時間とのリストに直し、さらに
継続時間が、ある設定値より少ないものは、前後
の記号が同じ場合には、これらを一つのリストに
し、前後の記号が異なる場合には、前の記号に含
めるようにして、継続時間の短いものは省略す
る。 時間軸線型正規化処理部18は、各リストの継
続時間の合計が200(あるいは1000)といつた一定
値になるように、継続時間を正規化する。これ
は、従来例と同様に全サンプル値200(あるいは
1000)と継続時間との比率をそれぞれの継続時間
に掛け合わせると良い。この際、リストの数が少
ない(10〜20)ので、乗除算にはあまり時間をと
らない。 以上のプロセスで、本方式の音声パターンが、
作成できる。 この音声パターンは、登録モードでは、標準パ
ターン記憶部19に登録される。認識モードで
は、距離計算部20で、標準パターンと照合する
が、まずUVの数等で一次識別して、照合対象を
限定しておく。次に、距離テーブル21で、時間
軸上で対応する記号間の距離(相関値)を求め
て、これを、全サンプルについて合計したものを
パターン間の距離とする。距離テーブル21とし
ては第1表に示すようなものを用いるものであ
る。
[Technical Field] The present invention relates to a voice message identification method for operating electronic equipment using voice messages. [Background Art] Figures 1 to 4 are materials showing the characteristics of the five Japanese vowels. First, speech corresponds to phoneme, and the first
It has a frequency spectrum envelope as shown in the figure,
By analyzing the frequency spectrum of the voice, the formant frequencies corresponding to the peaks of this spectral envelope are found, starting from the lowest frequency, the first formant F 1 ,
If the second formants are represented in order as F 2 , . . . , the five vowels can be represented by a change curve from F 1 to F 4 as shown in FIG. Figure 3 shows the distribution of this formant frequency investigated on the F 1 and F 2 coordinate axes. It is said that in order to linearly identify the five Japanese vowels, as can be seen from Figure 3, the first to third formants must be determined correctly. We use only a few limited words or
In order to create a low-cost device for identifying sentences, we considered a method of symbolizing them into onomatopoeias that roughly, if not completely, resemble five vowels. FIG. 5 shows a schematic configuration of a conventional voice message identification device developed by the present inventors. In the figure, V indicates the short-time average power in a frequency band of 0 to 1 KHz during voice input, and corresponds to the energy of voiced sound. Also, U is inputting voice, 5
It shows the short-term average power in the frequency band ~12KHz, which corresponds to the energy of unvoiced sounds. Furthermore, VL, VH, VB, and VF are each inputting audio,
0~0.4KHz, 0.4~0.8KHz, 0.8~1.8KHz and
It shows the short-term average power in the frequency band of 1.8-3.2KHz, which corresponds to the energy of narrow jaw sounds, wide jaw sounds, back tongue sounds, and front tongue sounds, respectively.
S 0 to S 3 are differential amplification means, each of which outputs a difference signal.
It calculates UV/V, VH/VL, VB/VL and VF/VB. The output of the differential amplification means S0 is the reference value Rv, Ru (Rv<O<Ru) in the comparison means C0 .
If the difference signal output is smaller than the reference value Rv, it is determined to be a voiced sound V. Also, if the above signal output is larger than the reference value Ru, the unvoiced sound U
If it is between the reference values Ru and Rv, it is determined that there is no sound S. Then, for each case of silence, voiced sound, and unvoiced sound, one of the codes S, V, and U is input to the encoding processing unit MY0 . Further, MC 0 is a matrix calculation unit which receives the outputs of the respective differential amplification means S 1 to S 3 as input, and this matrix calculation unit MC 0 receives each difference signal output VH/VL, VB/VL,
The three-dimensional vector whose components are
Short-term average power of o/Va, Vi, Vu, Ve, Vo
and short-term average powers Vh, Vl, Vf, Vb, and Vw of wide-jawed voiced sounds, narrow-jawed voiced sounds, front-tongue voiced sounds, back-tongue voiced sounds, and voiced sounds intermediate between vowels /a/ and /o/. It is used to calculate. The output of the matrix calculation unit MC 0 is input to the maximum value determination unit MX 0 , and each component Va,
It is determined which of Vi, Vu, Ve, Vo, Vh, Vl, Vf, and Vw is the largest component, and the code of the largest component is input to the encoding processing unit MY0 .
When the code output from the comparison means C0 is V, the symbolization processing unit MY0 converts the maximum value determination unit MX0
Va, Vi, Vu, Ve, Vo, Vh, output from
It outputs one of the codes Vl, Vf, Vb, and Vw, and when the code output from the comparing means C0 is U or S, it outputs that code as is. This symbolization processing part
The composite code output from MY 0 is input and stored in the standard pattern storage unit when registering a voice message, is input and stored in the input pattern storage unit when recognizing a voice message, and is input and stored in the input pattern storage unit when a voice message is recognized. Among the standard patterns, the standard pattern that is most similar to the input pattern is identified as the input message. By the way, in the conventional example shown in FIG. 5, when the power balance between VH and VL is adjusted, the five vowels {e, a, o} are on the positive side and {i, u} are on the negative side, with the zero point of the difference signal as the boundary. is located and therefore VH/VL
The difference signal becomes a signal called a Veao/Viu difference signal. Next, when adjusting the power balance of VF and VB, 5
Vowels {i, e}, 5 vowels {a, o, u} on the negative side
is located, and the VF/VB difference signal becomes a signal called the Vie/Vaou difference signal. On the other hand, when the balance of the VB/VL difference signal is adjusted, with the zero point of the difference signal as the boundary, the 5th vowel {a} is located on the positive side and the 5th vowel {o} is located on the negative side, so that the VB/VL difference signal is The VL difference signal is
This becomes a signal that can be called a Va/Vo difference signal. Figure 6 a and b show each voiced sound in the conventional example in Figure 5.
This is a diagram showing the frequency characteristics of a filter used to take out the short-term average power of VH, VL, VF, and VB. Figure a shows the frequency on the horizontal axis as a uniform scale, and Figure b shows the frequency on the horizontal axis. Frequency is plotted on a logarithmic scale. In FIG. 6, AP indicates the characteristics of the adjustment amplifier, which will be described later. Figure 7 shows the matrix calculation section in the conventional example shown in Figure 5.
This shows another means for realizing the same function as MC 0 and maximum value determination unit MX 0 . This figure 7 is
The onomatopoeia discrimination flow is shown when the levels of the difference signals Veao/Viu, Va/Vo, and Vie/Vaou are expressed as three values: high level (H), medium level (M), and low level (L). There is. In the flow shown in the figure, first, in the first step, discrimination is made using the Veao/Viu difference signal corresponding to the first formant F 1 , in the second step, discrimination is made using the Vie/Vaou difference signal corresponding to the second formant F 2 , and then By determining the Va/Vo difference signal in three stages, {i, e, a, o, u, h, l, f,
It symbolizes voiced sounds into 11 types: b, w, m}. 8 to 11 are the conventional example shown in FIG. 5,
5 vowels /i/, /e/, /a/, /o/, /u/
3 shows the output signal waveforms of the differential amplification means S 0 to S 3 when the input voltage is input. In each of the above figures,
The U/V signal, H/L signal, F/B signal, and A/O signal indicate the outputs of the differential amplification means S0 to S3, respectively. SYM also shows the distinction between each voiced sound,
For example, in FIG. 8, l, i, f, e, . . . indicate voiced sounds Vl, Vi, Vf, Ve, . . . , respectively. However, the code m is each voiced sound Va,
A voiced sound Vm that does not fall under any of Vi, Vu, Ve, Vo, Vh, Vl, Vf, Vb, and Vw is shown. However, FIGS. 8 and 9 show examples of measurements taken on two different male subjects.
FIGS. 10 and 11 show examples of measurements performed on two female subjects. If you look at each of the above figures, you can see that almost the same features are extracted regardless of the speaker, but the vowel /e/ sound and /u/ sound /
The symbolization of the o/ sound requires a lot of know-how in filter adjustment, and the symbolization is somewhat incomplete. By the way, the first formant F 1 of the vowel mentioned above is
Comparing Figure 3, which shows the distribution of the second formant F 2 , and Figure 4, which shows the articulatory position of the tongue, the first formant F 1 changes to a high frequency like /a/ when the jaw is wide open. and the jaw opens narrowly/
It can be seen that since the frequency is low like i/, it corresponds to the wideness and narrowness of the jaw. On the other hand, it can be seen that the second formant F 2 also approximately corresponds to the front and back positions of the tongue. Furthermore, looking at Figures 2 and 3, it can be seen that there is a large variation in the second formant of vowels between men and women. However, in the conventional example, such second formant is converted to VF/
Since it is separated only by the VB difference signal,
In particular, there was a problem that the vowels {e} and {o, u} were incompletely separated. In other words, in the VF/VB difference signal, among the five vowels in Figures 8 to 11, if the part corresponding to /u/ is on the negative side, it would be detected to be large, but this is weak, and The second half of the part corresponding to /o/ is also found to be weak, and this is a factor that makes the symbolization uncertain. In order to eliminate such imperfections, we have proposed a method in which the deviation of the difference signal when the five vowels are uttered is determined and corrected as an offset for each individual, but it is still better to avoid such offset adjustment as much as possible. However, it goes without saying that it is desirable that the amount of offset be small. Nevertheless, in the conventional example, as mentioned above, since the second formant with large variations is separated only by the VF/VB difference signal, the offset of the zero point correction of the difference signal output of the filter pair becomes quite large. In some cases, there was a risk that complete correction might not be possible. In addition, if such zero point correction of the difference signal output is not performed, there is a drawback that the number of identified words decreases due to the difference between the actual utterance and the onomatopoeic symbol. For this reason, for use by unspecified speakers, there are significant limitations in terms of the number of components, etc. [Object of the Invention] The present invention has been made in view of the above-mentioned points, and makes it possible to reliably extract the characteristics of the second formant of a vowel, thereby enabling a more complete symbolization of five vowels. It is an object of the present invention to provide a voice message identification system that allows a speaker to reduce the amount of zero point correction of the difference signal output of a pair of filters. [Disclosure of the Invention] FIG. 12 is a so-called claim correspondence diagram showing the structure described in claim 1 of the present invention in functional blocks. In the same figure,
Fv is a filter that extracts the short-term average power of the low frequency component of the audio input, and Fu is a filter that extracts the high frequency component of the audio input. Each filter
The outputs of Fv and Fu are input to the differential amplification means S0 ,
The difference signal component is extracted. C 0 is a means of comparison,
When the difference signal component output from the differential amplification means S0 is smaller than the reference value Rv, it is assigned the sign of a voiced sound V, when it is larger than the reference value Ru, it is assigned the sign of an unvoiced sound UV, and in other cases, is used to assign the sign of silence S. However, Ru>O>Rv. Next, FFa 1 is a filter that extracts the short-term average power of voiced sounds with a narrow jaw opening (vowels i, u, etc.), and Fa 2 is a filter that extracts the short-term average power of voiced sounds with a narrow jaw opening (vowels i, u, etc.). This filter extracts the short-term average power of jaw-voiced sounds (e, a, o, etc. of vowels). Next, Fb 1 is a filter that extracts the short-term average power of low sounds in the first formant, such as vowels e and o, among wide-jawed voiced sounds with a wide jaw opening. Among the wide-mouthed voiced sounds, the first one, like the vowel a,
This is a filter that extracts the short-term average power of high formant sounds. Next, Fc 1 is the second formant of the low wide-mouthed voiced sounds like the vowel o.
Fc 2 is a filter that extracts the short-term average power of low formant sounds, and Fc 2 also extracts the short-term average power of high second formant sounds such as the vowel e among low wide-mouthed first formant sounds. This is the filter to take out. Furthermore, Fd 1 is a filter that extracts the short-term average power of a low sound in the second formant, such as the vowel u, among narrow-jawed voiced sounds with a narrow jaw opening, and Fd 2 is a filter that extracts the short-term average power of the low sound in the second formant, such as the vowel u. This is a filter that extracts high short-term average power of 2 formants. S 0 to S 4 are differential amplification means, which respectively output difference signals V/UV, Veao/Viu, Va/Veo,
This is to calculate Ve/Vo and Vi/Vu. The output of the differential amplification means S 0 is the reference value in the comparison means C 0
Rv and Ru (Rv<O<Ru), and if the difference signal output is smaller than the reference value Rv, it is determined to be a voiced sound V. In addition, if the above difference signal output is larger than the reference value Ru, it is determined to be an unvoiced sound U, and the reference value
If it is between Ru and Rv, it is determined that there is no sound S. Then, for each of silent, voiced, and unvoiced sounds, one of the S, V, and U codes is input to the symbolization processing unit MY0 . MC 0 is a matrix calculation unit that receives the outputs of each differential amplification means S 1 to S 4 as input, and this matrix calculation unit MC 0 receives each difference signal output.
By multiplying a 4-dimensional vector whose components are Veao/Viu, Va/Veo, Ve/Vo, and Vi/Vu by a predetermined matrix Tv, each vowel i, e, a included in the audio input is
This is to calculate the short-term average power of o and u. In the configuration shown in Figure 12, the wide-mouthed voiced sound VH
Differential amplification means for determining the ratio between
S 5 and differential amplification means S 6 for calculating the ratio between the front voiced sound VF and the back voiced sound VB are provided. The difference signal outputs VH/VL and VF/VB are multiplied by a predetermined matrix Tc to calculate the wide-mouthed voiced h, the narrow-mouthed voiced l, the frontal voiced f, and the backlogged voiced b included in the speech input. , and other wide-jaw and posterior tongue voiced sounds w. An example of the matrices Tv and Tc used in the matrix calculation unit MC 0 is as follows. The output of the matrix calculation unit MC 0 is input to the maximum value determination unit MX 0 , and each component i, e, a, o, u, h,
It is determined which of l, f, b, and w is the largest component, and the code of the largest component is input to the encoding processing unit MY0 . However, when the difference between the largest component and the second largest component is small, the code m is output. The symbolization processing unit MY 0 is the comparison means C 0
When the code output from MX0 is V, i, e, a, o, u,
Any one of h, l, f, b, w and m
Furthermore, when the code output from the comparison means C0 is U or S, that code is output as is. The composite code output from the symbolization processing unit MY 0 is input and stored in the standard pattern storage unit when registering a voice message, is input and stored in the input pattern storage unit when recognizing a voice message, and is input and stored in the input pattern storage unit during verification processing. , the standard pattern that is most similar to the input pattern among the standard patterns registered in advance is identified as the input message. In the configuration shown in Figure 12, the VH/VL difference signal and the VF/VB difference signal are Veao/VB difference signals, respectively.
The Viu difference signal and the Ve/Vo difference signal may be used instead. FIG. 13 is a block diagram showing the configuration of an embodiment of the 8-filter system. In the configuration shown in FIG. 12 above,
Fv, Fu, Fa 1 , Fa 2 , Fb 1 , Fb 2 , Fc 1 , Fc 2 ,
A total of 10 filters, Ed 1 and Fd 2 , are required, but
In the configuration shown in FIG. 13, two of these filters are also used so that voice features can be extracted using eight filters. In Figure 13, VFh
is the high-frequency component of the front-voiced sound, VF is the component of the front-voiced sound, VB is the component of the back-voiced sound, VHh is the high-frequency component of the wide-jaw voiced sound, VHl is the low-frequency component of the wide-jaw voiced sound, VL
are the outputs of filters that extract the components of narrow-jaw voiced sounds. In the embodiment shown in FIG. 13, VL is shared between the Veao/Viu difference signal and the Va/Veo difference signal, and VB (or VL) is shared between the Ve/Vo difference signal and the Vi/Vu difference signal. be. This is because the zero point of the difference signal of a pair of filters corresponds to the intersection (crossover frequency) of the filter band, so even if the band of one filter is fixed among the pair of filters that take the difference signal, the band of the other filter is fixed. If there are two types of filter bands, the intersection of the filter bands will change. By the way, in the embodiment shown in FIG.
VHh and VB are almost the same, so one VB
I would like to summarize it as follows, but if we continue as shown in Figure 13, three difference signals will be taken out from VB, making it difficult to adjust the balance of the filter pair. Therefore, FIG. 14 shows an example in which VB is divided into a high frequency component VBh and a whole range component VB, and VF is combined into one, resulting in a 7-filter system. In this case, only two difference signals are extracted from VB, so filter balance adjustment becomes easy. From another perspective, the embodiment shown in FIG. 14 can be said to be the conventional example shown in FIG. 5 with VBh added. Figures 15a and 15b show the components VL, VH, and
This is a diagram showing the frequency characteristics of a filter used to take out the short-term average power of VB, VBh, and VF. Figure a shows the frequency on the horizontal axis as a uniform scale, and Figure b shows the frequency on the horizontal axis as a uniform scale. It is plotted on a logarithmic scale. In FIG. 15, AP indicates the characteristics of the adjustment amplifier, which will be described later. FIG. 16 shows an embodiment of the 6-filter system. That is, in the embodiment of FIG. 14 described above,
Even if VH is used instead of VBh, the vowels i and u can be distinguished, so the frequency component vector is
It can be composed of six components (six filters): UV, V, VF, VB, VH, and VL. From a different perspective, the embodiment shown in FIG. 16 is the conventional example shown in FIG. 5 in which a VF/VH difference signal is added, and almost the same filter band can be used. however,
The VF/VB difference signal is adjusted so that the vowels e and o can be reliably distinguished. Figures 17a and b show the first
In the 6-filter method shown in Figure 6, the components of each voiced sound
This is a diagram showing the frequency characteristics of a filter used to take out the short-term average power of VL, VH, VB, and VF. Figure a shows the frequency on the horizontal axis as a uniform scale, and Figure b shows the frequency on the horizontal axis. Frequency is plotted on a logarithmic scale. In FIG. 15, AP indicates the characteristics of the adjustment amplifier, which will be described later. The transformation matrix Tm of the matrix calculation unit MC 0 in the 8-filter method of the embodiment shown in FIG. 13, the 7-filter method shown in the embodiment shown in FIG. 14, and the 6-filter method shown in the embodiment shown in FIG. Available for use. First, the transformation matrix Tm in the formula is set to 0 except for the minimum necessary elements for identification, so that calculations can be made faster. When the signal detection is weak, it is possible to widely symbolize the 5 vowels, and the formula gives the same weight (absolute value 14) to all the 5 vowel elements for the difference signal regarding the first formant ), and regarding the two difference signals regarding the second formant F 2 , one of the five vowels is given the necessary weight for discrimination, and the first formant F 1 is converted to the second formant F 1 .
It can be said that it was given more importance than F2 . This transformation matrix
Tm can be arbitrarily set depending on the word to be identified. In particular, the components of the symbol vector are divided into five vowels {i, e,
a, o, u} only, as shown in Figure 12.
Since the matrix element corresponding to Tv can be any one of {+1, 0, -1}, simple symbolization is possible without the need for multiplication and only by code conversion. On the other hand, the 12th
Code corresponding to Tc in the figure {h, l, f, b, w}
The elements of the transformation matrix are such that either the norm of the row vector of this matrix is the same as the norm of the row vector of Tv, or the value of the norm of the row vector of Tc is less than the value of the norm of the row vector of Tv, and Tv be larger than the absolute value of the elements of the matrix. If this is not done, other voiced sound components {h, l, f, b,
w} becomes smaller. Next, more specific examples will be described. FIG. 18 shows an embodiment of the 7-filter method shown in FIG. 14, and FIG. 19 shows an embodiment of the 6-filter method shown in FIG. 16. The difference between the two is the filter F B h. It is only the presence or absence of. In each of the embodiments described above, audio is input from a microphone 1, amplified by a preamplifier 2, and adjusted for gain and offset by an adjustment amplifier 3. Next, the level adjuster 5 balances the input powers of the V/UV difference signal, other difference signals, and other difference signals. (in general,
Other difference signals are emphasized more than the V/UV difference signal. ) Next, the V/UV balance adjuster 4 balances the input of the filter Fv and the input of the filter Fu. On the other hand, adjust the VB/VL balance adjuster 6 to the middle point, and use the VH/VL balance adjuster 7 to balance the inputs of filter F H and filter F L.
The VF/VB balance adjuster 8 balances filter F F and filter F B (F B h). Next, VB/VL
Balance VB and VL using balance adjuster 6. In the configuration shown in FIG. 19, when the VB/VL balance adjuster 6 is adjusted, VF/VH are also balanced at the same time. The output of each filter is sequentially switched by a multiplexer 9, the power is converted to a logarithmic scale by a logarithmic converter 10, and the output is digitized into an 8-bit binary number by an A/D converter 11. Note that when each filter is configured with a digital filter,
The A/D converter 11 is located at the next stage of the adjustment amplifier 3, and performs calculations for each filter in sequence in a pipeline manner, so that the output of each filter is calculated in sequence like a kind of multiplexer 9. next,
The difference between these digital values is calculated, and the difference signal vector {UV/
V, Veao/Viu, Va/Veo, Ve/Vo, Vi/
Calculate the five components of Vu}. FIGS. 20 to 23 show the results of voice feature extraction for the embodiment shown in FIG. 18 by inputting the same voices as those in FIGS. 8 to 11 from a recording tape. , and FIGS. 24 to 27
The figure shows the results obtained by inputting the same sounds as those shown in FIGS. 8 to 11 using a recording tape and extracting the features of the sounds in the embodiment shown in FIG. 19. In these FIGS. 20 to 27, the VF/VB difference signal of the conventional example becomes two, the Ve/Vo difference signal and the Vi/Vu difference signal, and the conventional example
The VA/VU difference signal has become a Va/Veo difference signal (abbreviated as a/o in the figure). Furthermore, the 20th
In Figures to Figure 27, a/i is Veao/
It shows the Vin difference signal. However, in the conventional example,
The detection of e, u, and o by the VF/VB difference signal became weaker as the difference signal approached the zero point, and symbolizing e, u, and o was difficult compared to i and a. In Figure 27, e and o can be detected reliably with the Ve/Vo difference signal, and u can be reliably detected with the Vi/Vu difference signal, so the symbolization of the five vowels can be performed more reliably. Recognize. In particular, in FIGS. 24 to 27, the Vi/Vu difference signal distinguishes i and u more clearly than in FIGS. 20 to 23, and as far as the example is concerned, the Vi/Vu difference signal in FIG. can be said to more reliably symbolize the five vowels. Next, returning to FIGS. 18 and 19, V/
In the UV judgment unit 13, when the V/UV difference signal is more positive than a certain setting value RU, it is judged as UV, and a certain setting value R V
When it is more negative, it is determined to be V, and when it is in between, it is determined to be S. The start and end detection unit 14 detects the start of audio by determining V or UV, and detects the end if silence continues for a number of samples equal to or greater than a certain set value. The symbol vector conversion unit 15 performs matrix operations to convert the symbols into symbol vectors {i, e, a, o, u, h, l, f, b, w}, as shown in FIGS. 14 and 16. However, matrix operations are performed only in the interval of V. In the interval V, the symbolization processing unit 16 outputs the symbol if the maximum component of the symbol vector is greater than or equal to a certain set value, and outputs m if it is less than or equal to the set value. Furthermore, in the UV and S sections, UV and S are output, respectively. The formatting processing unit 17 converts the repetition of the same symbol into a list of one symbol and its duration, and further converts the repetition of the same symbol into a list of one symbol and its duration.If the duration is less than a certain setting value, if the symbols before and after are the same, these are combined into one list. If the symbols before and after are different, include them in the previous symbol, and omit those with short durations. The time axis linear normalization processing unit 18 normalizes the duration so that the total duration of each list becomes a constant value such as 200 (or 1000). This means that the total sample value is 200 (or
1000) and the duration time by multiplying each duration time. At this time, since the number of lists is small (10 to 20), it does not take much time to multiply and divide. Through the above process, the voice pattern of this method is
Can be created. This voice pattern is registered in the standard pattern storage section 19 in the registration mode. In the recognition mode, the distance calculation unit 20 matches the pattern with a standard pattern, but first, the number of UVs is used for primary identification to limit the matching target. Next, distances (correlation values) between corresponding symbols on the time axis are determined using the distance table 21, and the sum of these values for all samples is used as the distance between patterns. As the distance table 21, one shown in Table 1 is used.

【表】 第1表において、横の欄および縦の欄はそれぞ
れ標準パターンの符号および入力パターンの符号
に対応しており、例えば標準パターンの符号がa
であつて、しかも入力パターンの符号もaである
ときには、距離テーブル21の出力は2となり、
近似度が高いことを示すものである。また標準パ
ターンの符号がUVであり、入力パターンの符号
がaであるときには、距離テーブル21の出力は
−2となり、近似度が低いことを示すものであ
る。したがつて距離計算部20においては、距離
テーブル21からの出力を順次加算するだけの演
算操作により、入力パターンと標準パターンとの
パターン全体としての近似度を容易に計算するこ
とができるものである。 有意性検定部22は、距離の最も近いパターン
がある設定値より近く、さらに2番目に近いもの
より、ある設定値以上離れている場合に、この最
も近いパターンと入力パターンが同じとみなし、
他の場合には認識不良としてリジエクトする。認
識結果は識別結果出力部23より出力する。 次に第28図は、特許請求の範囲第2項に記載
された併合発明の構成を、機能的にブロツク化し
て示したいわゆるクレーム対応図であり、また第
29図は第28図の構成をさらに具体化した実施
例の構成を示すブロツク図である。上記各図にお
いて、S0、S1、S2、S3、S4はそれぞれ、UV/V
差信号、Veao/Viu差信号、Va/Veo差信号、
Ve/Vo差信号、Vi/Vu差信号を抽出するため
の差動増幅手段である。各差動増幅手段S0〜S4
出力は、それぞれ比較器24〜33において所定
の基準レベルと比較され、各基準レベルとの大小
関係に応じてそれぞれ別々の符号を割り当てられ
る。まず比較器24,25は、差動増幅手段S0
出力が正の一定値以上であるときには符号UVを
割り当て、負の一定値以下であるときには符号V
を割り当て、その他の場合には符号Sを割り当て
るものである。次に比較器26,27は、差動増
幅手段S1の出力が正の一定値以上であるときには
符号Veaoを割り当て、負の一定値以下であると
きには符号Viuを割り当て、その他の場合には符
号Sを割り当てるものである。また比較器28,
29は、差動増幅手段S2の出力が正の一定値以上
であるときには符号Vaを割り当て、負の一定値
以下であるときには符号Veoを割り当て、その他
の場合には符号Sを割り当てるものである。次に
比較器30,31は、差動増幅手段S3の出力が正
の一定値以上であるときには符号Veを割り当て、
負の一定値以下であるときには符号Voを割り当
て、その他の場合には符号Sを割り当てるもので
ある。さらに比較器32,33は、差動増幅手段
S4の出力が正の一定値以上であるときには符号
Viを割り当て、負の一定値以下であるときには
符号Vuを割り当て、その他の場合には符号Sを
割り当てるものである。各比較器26〜33の出
力は入力ビツトパターンレジスタ34に一時記憶
され、V記号化処理部35において記号化テーブ
ル36を参照しながら、第12図の場合と同様
に、符号a、e、o、i、u、h、l、f、b、
w、mのうちのいずれか1つの符号に変換され
る。記号化テーブル36の一例を示すと、第2表
のようになる。
[Table] In Table 1, the horizontal and vertical columns correspond to the code of the standard pattern and the code of the input pattern, respectively. For example, if the code of the standard pattern is a
, and when the sign of the input pattern is also a, the output of the distance table 21 is 2,
This indicates that the degree of approximation is high. Further, when the code of the standard pattern is UV and the code of the input pattern is a, the output of the distance table 21 is -2, indicating that the degree of approximation is low. Therefore, in the distance calculation unit 20, the degree of approximation of the input pattern and the standard pattern as a whole can be easily calculated by simply adding the outputs from the distance table 21 in sequence. . The significance test unit 22 considers that the closest pattern and the input pattern are the same if the pattern with the closest distance is closer than a certain setting value and is further away from the second closest one by more than a certain setting value,
In other cases, it is rejected as recognition failure. The recognition result is output from the identification result output section 23. Next, FIG. 28 is a so-called claim correspondence diagram that functionally shows the structure of the combined invention described in claim 2 in blocks, and FIG. 29 shows the structure of FIG. 28. FIG. 2 is a block diagram showing the configuration of a more specific embodiment. In each of the above figures, S 0 , S 1 , S 2 , S 3 , and S 4 are UV/V
difference signal, Veao/Viu difference signal, Va/Veo difference signal,
This is a differential amplification means for extracting a Ve/Vo difference signal and a Vi/Vu difference signal. The outputs of the differential amplification means S 0 to S 4 are compared with predetermined reference levels in comparators 24 to 33, respectively, and assigned different codes depending on the magnitude relationship with each reference level. First, the comparators 24 and 25 assign a code UV when the output of the differential amplifying means S0 is above a positive constant value, and assign a sign V when the output is below a negative constant value.
, and in other cases, the code S is assigned. Next, the comparators 26 and 27 assign the code Veao when the output of the differential amplifying means S1 is above a certain positive value, the sign Viu when it is below a certain negative value, and the sign Viu in other cases. S is assigned. Also, the comparator 28,
29 assigns a code Va when the output of the differential amplification means S2 is above a certain positive value, assigns a code Veo when it is below a certain negative value, and assigns a code S in other cases. . Next, the comparators 30 and 31 assign a sign Ve when the output of the differential amplification means S3 is equal to or higher than a certain positive value,
When the value is less than a certain negative value, the code Vo is assigned, and in other cases, the code S is assigned. Furthermore, the comparators 32 and 33 are differential amplification means.
When the output of S 4 is above a certain positive value, the sign is
Vi is assigned, and when it is less than a certain negative value, a code Vu is assigned, and in other cases, a code S is assigned. The outputs of the comparators 26 to 33 are temporarily stored in the input bit pattern register 34, and are converted into codes a, e, o by referring to the symbolization table 36 in the V symbolization processing section 35, as in the case of FIG. , i, u, h, l, f, b,
The code is converted to one of w and m. An example of the symbolization table 36 is shown in Table 2.

〔発明の効果〕〔Effect of the invention〕

本発明は叙上のように構成されており、音声入
力から母音のア、エ、オのような顎の開きの広い
広顎有声音と、母音のイ、ウのような顎の開きの
狭い狭顎有声音との比率を求める第1のフイルタ
対と、広顎有声音のうち母音のアのような第1ホ
ルマントの高い音と、母音のエ、オのような第1
ホルマントの低い音との比率を求める第2のフイ
ルタ対と、第1ホルマントの低い広顎有声音のう
ち音声のエのような第2ホルマントの高い音と、
母音のオのような第2ホルマントの低い音との比
率を求める第3のフイルタ対と、狭顎有声音のう
ち母音のイのような第2ホルマントの高い音と、
母音のウのような第2ホルマントの低い音との比
率を求める第4のフイルタ対とを設け、第1乃至
第4のフイルタ対の差信号出力から音声の特徴を
抽出するようにしたものであるから、母音の第2
ホルマントの特徴を確実に抽出できるようにな
り、日本語の5母音のうち、特に従来不完全であ
つたe、u、oの識別を確実に行なうことができ
て、5母音のより完全な記号化が可能となり、ま
た第2ホルマントの抽出に際して、従来のような
無理な抽出の仕方をしていないので、フイルタ対
の差信号出力の話者による零点補正量を少なくで
きるという効果がある。また本発明にあつては、
上記各フイルタ対の差信号出力を成分とする4次
元ベクトルを入力とし、この4次元ベクトルに変
換行列を乗算して日本語の5母音およびその他の
有声音の短時間平均パワーを各成分とするベクト
ルを算出する行列計算部を設け、行列計算部から
出力されるベクトルの各成分のうちの最大の成分
に対応する符号を出力する最大値判定部を設け、
比較手段の出力および最大値判定部の出力にて入
力パターンを形成するようにしたものであるか
ら、行列計算部や最大値判定部のような比較的汎
用性の高い手段を用いて5母音およびその他の有
声音の符号を得ることができ、装置の構成が簡単
になるという効果もある。さらにまた、併合発明
にあつては、第1乃至第4のフイルタ対の差信号
出力複数の基準値と比較して、この基準値との大
小関係に応じてそれぞれ別々の符号を割り当て
て、各フイルタ対ごとに割り当てられた符号のす
べての組合せに応じて、日本語の5母音およびそ
の他の有声音の符号のうちいずれか1つの符号を
割り当てて出力する有声音判別手段を設けたもの
であるから、ROMテーブルなどを用いて、簡単
な構成で、しかも高速度で有声音の判別を行なう
ことができるという効果があり、電子機器を音声
メツセージによつて操作する際の応答速度を早く
し、かつ安価に構成できるという効果がある。
The present invention is configured as described above, and from the audio input, wide-jawed voiced sounds with a wide jaw opening such as the vowels A, E, and O, and narrow jaw openings such as the vowels A and U are obtained. A first filter pair that calculates the ratio between narrow-jaw voiced sounds, high-pitched first formants such as the vowel A, and first formant sounds such as the vowels E and O among the wide-jaw voiced sounds.
a second filter pair for determining the ratio between a low formant sound and a high sound of the second formant, such as the phonetic E among the low wide-mouthed sounds of the first formant;
a third filter pair for determining the ratio between a low sound in the second formant, such as the vowel o, and a high sound in the second formant, such as the vowel i among narrowly voiced sounds;
A fourth filter pair is provided to determine the ratio of the second formant to a low sound such as the vowel u, and speech characteristics are extracted from the difference signal output of the first to fourth filter pairs. Because there is, the second vowel
It has become possible to reliably extract formant features, and among the five Japanese vowels, it has become possible to reliably identify e, u, and o, which were previously incomplete, and to create more complete symbols for the five vowels. Furthermore, since the second formant is not extracted in an unreasonable manner as in the conventional method, the amount of zero point correction by the speaker of the difference signal output of the filter pair can be reduced. Furthermore, in the present invention,
A 4-dimensional vector whose components are the difference signal outputs of each of the above filter pairs is input, and this 4-dimensional vector is multiplied by a transformation matrix to obtain the short-term average power of the five Japanese vowels and other voiced sounds as each component. A matrix calculation unit for calculating a vector is provided, a maximum value determination unit is provided for outputting a sign corresponding to the maximum component of each component of the vector output from the matrix calculation unit,
Since the input pattern is formed by the output of the comparison means and the output of the maximum value determination section, the five vowels and Another advantage is that codes for other voiced sounds can be obtained, and the configuration of the device can be simplified. Furthermore, in the case of the combined invention, the difference signal outputs of the first to fourth filter pairs are compared with a plurality of reference values, and different codes are assigned to each one according to the magnitude relationship with the reference values. A voiced sound discriminating means is provided which allocates and outputs one of the five Japanese vowels and other voiced sound codes in accordance with all combinations of codes assigned to each filter pair. This has the effect of making it possible to discriminate between voiced sounds with a simple configuration and at high speed using a ROM table, etc., which increases the response speed when operating electronic equipment using voice messages. It also has the effect of being able to be constructed at low cost.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は日本語の5母音の標準スペクトルを示
す図、第2図は母音のホルマントの男女差を示す
図、第3図は母音の第1ホルマントと第2ホルマ
ントの分布を示す図、第4図は日本語の5母音と
舌の位置の関係を示す図、第5図は従来例の構成
を示すブロツク図、第6図a,bは同上に用いる
フイルタの周波数特性を示す図、第7図は従来例
における擬音韻記号化処理の手順を示すフローチ
ヤート、第8図乃至第11図は同上の動作説明
図、第12図は本発明の要旨となる構成を示すク
レーム対応ブロツク図、第13図は本発明の一実
施例のブロツク図、第14図は同上の他の実施例
のブロツク図、第15図a,bは同上に用いるフ
イルタの周波数特性を示す図、第16図は同上の
さらに他の実施例のブロツク図、第17図a,b
は同上に用いるフイルタの周波数特性を示す図、
第18図は同上の別の実施例を示すブロツク図、
第19図は同上のさらに別の実施例を示すブロツ
ク図、第20図乃至第23図は第18図実施例の
動作説明図、第24図乃至第27図は第19図実
施例の動作説明図、第28図は併合発明の要旨と
なる構成を示すクレーム対応ブロツク図、第29
図は同上の一実施例のブロツク図、第30図は同
上の擬音韻記号化処理の手順を示すフローチヤー
トである。 Fv、Fu、Fa1、Fa2、Fb1、Fb2、Fc1、Fc2
Fd1、Fd2はフイルタ、S0〜S4は差動増幅手段、
C0は比較手段、MC0は行列計算部、MX0は最大
値判定部、24〜33は比較器、36は記号化テ
ーブルである。
Figure 1 is a diagram showing the standard spectrum of the five Japanese vowels, Figure 2 is a diagram showing gender differences in vowel formants, Figure 3 is a diagram showing the distribution of the first and second formants of vowels, Figure 4 is a diagram showing the relationship between the five vowels in Japanese and the position of the tongue; Figure 5 is a block diagram showing the configuration of a conventional example; Figures 6a and b are diagrams showing the frequency characteristics of the filter used in the same example; FIG. 7 is a flowchart showing the procedure of onomatopoeic symbolization processing in the conventional example, FIGS. 8 to 11 are explanatory diagrams of the same operation as above, and FIG. 12 is a claim correspondence block diagram showing the configuration that is the gist of the present invention. FIG. 13 is a block diagram of one embodiment of the present invention, FIG. 14 is a block diagram of another embodiment of the same as above, FIGS. 15 a and b are diagrams showing frequency characteristics of a filter used in the above, and FIG. Block diagram of still another embodiment same as above, FIGS. 17a and 17b
is a diagram showing the frequency characteristics of the filter used in the above,
FIG. 18 is a block diagram showing another embodiment of the same as above;
FIG. 19 is a block diagram showing still another embodiment same as the above, FIGS. 20 to 23 are diagrams explaining the operation of the embodiment in FIG. 18, and FIGS. 24 to 27 are diagrams explaining the operation of the embodiment in FIG. 19. Fig. 28 is a block diagram corresponding to claims showing the gist of the combined invention, Fig. 29
The figure is a block diagram of one embodiment of the same as above, and FIG. 30 is a flowchart showing the procedure of the onomatopoeic symbolization process of the same. Fv, Fu, Fa 1 , Fa 2 , Fb 1 , Fb 2 , Fc 1 , Fc 2 ,
Fd 1 and Fd 2 are filters, S 0 to S 4 are differential amplification means,
C 0 is a comparison means, MC 0 is a matrix calculation unit, MX 0 is a maximum value determination unit, 24 to 33 are comparators, and 36 is a symbolization table.

Claims (1)

【特許請求の範囲】 1 音声入力の高周波成分および低周波成分の短
時間平均パワーをそれぞれ取り出す一対のフイル
タの差信号出力を入力とし、高周波成分の方が強
いときには無声音の符号を、低周波成分の方が強
いときには有声音の符号を、高周波成分と低周波
成分とが略同じときには無音の符号を出力する比
較手段を設け、音声入力から母音のア、エ、オの
ような顎の開きの広い広顎有声音と、母音のイ、
ウのような顎の開きの狭い狭顎有声音との比率を
求める第1のフイルタ対と、広顎有声音のうち母
音のアのような第1ホルマントの高い音と、母音
のエ、オのような第1ホルマントの低い音との比
率を求める第2のフイルタ対と、第1ホルマント
の低い広顎有声音のうち母音のエような第2ホル
マントの高い音と、母音のオのような第2ホルマ
ントの低い音との比率を求める第3のフイルタ対
と、狭顎有声音のうち母音のイのような第2ホル
マントの高い音と、母音のウのような第2ホルマ
ントの低い音との比率を求める第4のフイルタ対
とを設け、第1乃至第4のフイルタ対の差信号出
力を成分とする4次元ベクトルを入力とし、この
4次元ベクトルに変換行列を乗算して日本語の5
母音およびその他の有声音の短時間平均パワーを
各成分とするベクトルを算出する行列計算部を設
け、行列計算部から出力されるベクトルの各成分
のうち最大の成分に対応する符号を出力する最大
値判定部を設け、比較手段の出力および最大値判
定部の出力にて入力パターンを形成し、この入力
パターンを予め記録されている複数種の標準パタ
ーンと照合して入力パターンに最も近い標準パタ
ーンを入力メツセージとして識別することを特徴
とする音声メツセージ識別方式。 2 音声入力の高周波成分および低周波成分の短
時間平均パワーをそれぞれ取り出す一対のフイル
タの差信号出力を入力とし、高周波成分の方が強
いときには無声音の符号を、低周波成分の方が強
いときには有声音の符号を、高周波成分と低周波
成分とが略同じときには無音の符号を出力する比
較手段を設け、音声入力から母音のア、エ、オの
ような顎の開きの広い広顎有声音と、母音のイ、
ウのような顎の開きの狭い狭顎有声音との比率を
求める第1のフイルタ対と、広顎有声音のうち母
音のアのような第1ホルマント対の高い音と、母
音のエ、オのような第1ホルマントの低い音との
比率を求める第2のフイルタ対と、第1ホルマン
トの低い広顎有声音のうち母音のエのような第2
ホルマントの高い音と、母音のオのような第2ホ
ルマントの低い音との比率を求める第3のフイル
タ対と、狭顎有声音のうち母音のイのような第2
ホルマントの高い音と、母音のウのような第2ホ
ルマントの低い音との比率を求める第4のフイル
タ対とを設け、第1乃至第4のフイルタ対の差信
号出力を複数の基準値と比較して、この基準値と
の大小関係に応じてそれぞれ別々の符号を割り当
てて、各フイルタ対ごとに割り当てられた符号の
すべての組合せに応じて、日本語の5母音および
その他の有声音の符号のうちいずれか1つの符号
を割り当てて出力する有声音判別手段を設け、有
声音判別手段の出力および上記比較手段の出力に
て入力パターンを形成し、この入力パターンを予
め記録されている複数種の標準パターンと照合し
て入力パターンに最も近い標準パターンを入力メ
ツセージとして識別することを特徴とする音声メ
ツセージ識別方式。
[Claims] 1. The difference signal output of a pair of filters that extracts the short-term average power of the high-frequency component and low-frequency component of the audio input, respectively, is input, and when the high-frequency component is stronger, the sign of the unvoiced sound is taken as the signal of the low-frequency component. A comparison means is provided that outputs the sign of a voiced sound when the voiced sound is stronger, and the sign of silence when the high-frequency component and the low-frequency component are approximately the same. Broad jawed voiced sound and vowel i,
The first filter pair calculates the ratio between a narrow-jawed voiced sound with a narrow jaw opening such as ``U'', and a high-pitched first formant sound such as the vowel A among wide-jawed voiced sounds, and the vowel ``E'' and ``O''. A second filter pair that calculates the ratio between low sounds in the first formant, such as low wide-voiced sounds in the first formant, and high sounds in the second formant, such as the vowel E, and vowel O sounds. A third filter pair that calculates the ratio between the low sound of the second formant and the high sound of the second formant of narrow voiced sounds, such as the vowel i, and the low sound of the second formant, such as the vowel u. A fourth filter pair for calculating the ratio with the sound is provided, a four-dimensional vector whose components are the difference signal outputs of the first to fourth filter pairs is input, this four-dimensional vector is multiplied by a transformation matrix, and the Japanese word 5
A matrix calculation unit is provided that calculates a vector whose components are short-term average powers of vowels and other voiced sounds, and a maximum calculation unit that outputs a sign corresponding to the maximum component of each component of the vector output from the matrix calculation unit. A value judgment section is provided, an input pattern is formed by the output of the comparison means and the output of the maximum value judgment section, and this input pattern is compared with multiple types of standard patterns recorded in advance to determine the standard pattern closest to the input pattern. A voice message identification method characterized by identifying an input message as an input message. 2 Inputs the difference signal output of a pair of filters that extracts the short-term average power of the high-frequency component and low-frequency component of the audio input, and when the high-frequency component is stronger, the sign of unvoiced sound is input, and when the low-frequency component is stronger, the signal output is the signal of the unvoiced sound. A comparison means is provided that outputs a silent code when the high-frequency component and low-frequency component are approximately the same, and it is possible to compare the voiced sounds with wide-jawed voiced sounds such as the vowels A, E, and O from the audio input. , vowel i,
The first filter pair calculates the ratio between narrow-jawed voiced sounds with a narrow jaw opening such as U, the high-pitched sound of the first formant pair such as the vowel A among wide-jawed voiced sounds, and the vowel E, A second filter pair that calculates the ratio between the low sound of the first formant and the low sound of the first formant;
A third pair of filters calculates the ratio between high formant sounds and low sounds in the second formant, such as the vowel o, and
A fourth filter pair is provided to determine the ratio between a high formant sound and a low second formant sound such as the vowel u, and the difference signal output of the first to fourth filter pairs is calculated using a plurality of reference values. By comparison, different codes are assigned to each according to the magnitude relationship with this reference value, and the five Japanese vowels and other voiced sounds are determined according to all combinations of codes assigned to each filter pair. A voiced sound discriminating means is provided which assigns and outputs one of the codes, an input pattern is formed by the output of the voiced sound discriminating means and the output of the comparison means, and this input pattern is combined with a plurality of pre-recorded patterns. A voice message identification method characterized in that the standard pattern closest to the input pattern is identified as the input message by comparing it with a standard pattern of the species.
JP6726183A 1983-04-15 1983-04-15 Voice message identification system Granted JPS59192298A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6726183A JPS59192298A (en) 1983-04-15 1983-04-15 Voice message identification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6726183A JPS59192298A (en) 1983-04-15 1983-04-15 Voice message identification system

Publications (2)

Publication Number Publication Date
JPS59192298A JPS59192298A (en) 1984-10-31
JPH02720B2 true JPH02720B2 (en) 1990-01-09

Family

ID=13339835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6726183A Granted JPS59192298A (en) 1983-04-15 1983-04-15 Voice message identification system

Country Status (1)

Country Link
JP (1) JPS59192298A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5082760B2 (en) * 2007-10-23 2012-11-28 ヤマハ株式会社 Sound control apparatus and program

Also Published As

Publication number Publication date
JPS59192298A (en) 1984-10-31

Similar Documents

Publication Publication Date Title
US6922668B1 (en) Speaker recognition
JPS5944639B2 (en) Standard pattern update method in voice recognition method
WO2011046474A2 (en) Method for identifying a speaker based on random speech phonograms using formant equalization
JPS6247320B2 (en)
JP2955297B2 (en) Speech recognition system
JP2996019B2 (en) Voice recognition device
JP4839970B2 (en) Prosody identification apparatus and method, and speech recognition apparatus and method
JPH05119792A (en) Speech recognition device
JPH0229232B2 (en)
JPH02720B2 (en)
JPH04324499A (en) Speech recognition device
JPH0230520B2 (en) ONSEIMETSUSEEJISHIKIBETSUHOSHIKI
JP3457578B2 (en) Speech recognition apparatus and method using speech synthesis
JPS5936759B2 (en) Voice recognition method
JPH02717B2 (en)
JP2658104B2 (en) Voice recognition device
JPS6331798B2 (en)
JPH0534679B2 (en)
JPS6336678B2 (en)
JPS6245560B2 (en)
JPH0316038B2 (en)
JPH0124320B2 (en)
JPS59189398A (en) Continuous voice recognition system
JPS5977500A (en) Word voice recognition system
JPS61174600A (en) Voice recognition equipment