JPS5895399A - 音声メッセージ識別方法 - Google Patents
音声メッセージ識別方法Info
- Publication number
- JPS5895399A JPS5895399A JP56193556A JP19355681A JPS5895399A JP S5895399 A JPS5895399 A JP S5895399A JP 56193556 A JP56193556 A JP 56193556A JP 19355681 A JP19355681 A JP 19355681A JP S5895399 A JPS5895399 A JP S5895399A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- voiced
- code
- range
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は被制御機器を音声メツセージによって操作する
ための音声メ・シセージ識別方式に関するものである。
ための音声メ・シセージ識別方式に関するものである。
第1図は本発明者らが開発した従来の音声メツセージ識
別装置の概略構成を示すものであり九同図において先ず
音声はマイクfl)から入リープリア7 ′j+21で
高域強調され、LOGアンプ(3)で対数変換されてデ
シベル値に比例する出力になり、ACアシプ(4)で交
流成分のみが増幅される0次に低周波用フィルタバンク
15)で低周波成分(IKHz以下)?とり出し、高周
波用フィルタバンク(6)で高周波成分(5KHz−1
2KHz)tとり出す0フイルタパンク+51161は
各帯域毎に帯域フィルタ(Fl)(lh) 。
別装置の概略構成を示すものであり九同図において先ず
音声はマイクfl)から入リープリア7 ′j+21で
高域強調され、LOGアンプ(3)で対数変換されてデ
シベル値に比例する出力になり、ACアシプ(4)で交
流成分のみが増幅される0次に低周波用フィルタバンク
15)で低周波成分(IKHz以下)?とり出し、高周
波用フィルタバンク(6)で高周波成分(5KHz−1
2KHz)tとり出す0フイルタパンク+51161は
各帯域毎に帯域フィルタ(Fl)(lh) 。
整流回路(DIXDt) 、積分回路よりなる平均化回
路(Ml)(Mりで構成されている。低周波用フィルタ
バンクの積分回路(Ml)は時定数5・〜l Om8e
C程度、高周波フィルタバンクの積分回路(M2)は時
定数1〜2m5ec程度VC設定されている0両フィル
タバンク+51 illの各出力は差動アンプ(7)ニ
入力され、その出力すなわち高周波成分と低周波成分の
差が時定数2[m see程度の積分回路よりなる平均
化回路(8)で平均化される。
路(Ml)(Mりで構成されている。低周波用フィルタ
バンクの積分回路(Ml)は時定数5・〜l Om8e
C程度、高周波フィルタバンクの積分回路(M2)は時
定数1〜2m5ec程度VC設定されている0両フィル
タバンク+51 illの各出力は差動アンプ(7)ニ
入力され、その出力すなわち高周波成分と低周波成分の
差が時定数2[m see程度の積分回路よりなる平均
化回路(8)で平均化される。
この平均化回路(8)から出力されるアナ0夕信号波形
y ft)は入力音声中に含まれる有声音Vと無声音U
の比率を表わしている。第2図(a) (b)は当社の
音声制御式あんま椅子の音声入力例「もみ下げセット」
に対するアナロク信号波形Y (t) ’ii示したも
のであり、本実施例では有声音Vはつラス、無声音Uは
マイナスの値をとっている。この信号電圧y (t)
k V判定回路+91オヨびU判定回路1ll) K加
え、クロック発生回路(11)からのりDツクCKによ
りて一定周期毎にサンプリンクする。両判定回路19)
1lolにはそれぞれ基準電圧RVおよびRuが加え
られ、サンプリンタ時にアナDり信号電圧がウラス側の
基準電圧Rv以上であれば有声音V1マイナス側の基準
電圧RU以下であれば無声音U、RvとRUとの間の値
であれば無音Sと判定する。第2図(a) (b) [
おいて、z(t)は信号処理回路(1乃から得られるV
U判定出力信号を示しており、無声音Uに対しては−1
、無音Sに対してけ0、有声音に対しては+1の値をと
るようになっている。なお謳2図(a)はLOGアンウ
(3)?使用した場合を、談た同図(b)はL0Gアン
プ(3)全除去した場合をそれぞれ示しており、両者?
比較すれば明らかなように、入力音声をフィルタバンク
till f6+の前でLOG変換しておくと、有声音
Vと無声音Uの識別全確実に行なえるものである〇 次にLOGアン″j+31 ’i通す前のプリアンプ(
21の出力は、例えば1.5KHz〜2.5KHz
の帯域フィルタ(Fs)、整流回路(Dl)、平均化回
路(Mm)からなるフィルタバンクα″4と、L5KH
z−&5KHzの帯域フィルタ(F4)、整流回路(D
4) 、平均化回路(M4)から成るフィルタハシ90
蜀によって各周波数領域の特性成分會抽出される0フイ
ルタJ3ンク晴の出力である低域前■Lと、フィルタバ
ンク(14)の出力である高域音VHとは差動アンプθ
5)Kより比較され、平均化回路θ[9により平均化さ
れる。平均化回路−の出力はクロックCKに同期して動
作する■L判定回路(17)およびvH判定回路Q〜に
それぞれ入力され、平均化回路0櫛の出力電圧が基準電
圧Rt、よりも低いとvL酸成分判定され、また基準電
圧RHよりも高いと■H酸成分判定され、RL (!:
RHO間であれば中域音vMと判定される。信号処理
回路(I鴫はVH、VL 、およびvM〕各成各成分上
れぞれ+1.0、−1の出力に8値化するものである〇 信号処理回路(121(19)の各出力はIlo ボ
ートーケ介してCPU(21)に読み込まれるものであ
り、読み込まれたデータFi−1人カパターンメ℃す(
ロ)に格納され、標準パターンメf、 IJ(ハ)に記
憶されている複数個の標準パターンのうちどれに一番近
いかを照合判定されて・その照合判定結果に基いて被制
御機器(2)4Iヲ制御するようになっている。これら
の照合判定動作等はCPUt21)とプ0タラムROM
岡、およびワー+ンタRAM(ハ)を有するマイク0]
ンヒユータ闘により行なっているものである。
y ft)は入力音声中に含まれる有声音Vと無声音U
の比率を表わしている。第2図(a) (b)は当社の
音声制御式あんま椅子の音声入力例「もみ下げセット」
に対するアナロク信号波形Y (t) ’ii示したも
のであり、本実施例では有声音Vはつラス、無声音Uは
マイナスの値をとっている。この信号電圧y (t)
k V判定回路+91オヨびU判定回路1ll) K加
え、クロック発生回路(11)からのりDツクCKによ
りて一定周期毎にサンプリンクする。両判定回路19)
1lolにはそれぞれ基準電圧RVおよびRuが加え
られ、サンプリンタ時にアナDり信号電圧がウラス側の
基準電圧Rv以上であれば有声音V1マイナス側の基準
電圧RU以下であれば無声音U、RvとRUとの間の値
であれば無音Sと判定する。第2図(a) (b) [
おいて、z(t)は信号処理回路(1乃から得られるV
U判定出力信号を示しており、無声音Uに対しては−1
、無音Sに対してけ0、有声音に対しては+1の値をと
るようになっている。なお謳2図(a)はLOGアンウ
(3)?使用した場合を、談た同図(b)はL0Gアン
プ(3)全除去した場合をそれぞれ示しており、両者?
比較すれば明らかなように、入力音声をフィルタバンク
till f6+の前でLOG変換しておくと、有声音
Vと無声音Uの識別全確実に行なえるものである〇 次にLOGアン″j+31 ’i通す前のプリアンプ(
21の出力は、例えば1.5KHz〜2.5KHz
の帯域フィルタ(Fs)、整流回路(Dl)、平均化回
路(Mm)からなるフィルタバンクα″4と、L5KH
z−&5KHzの帯域フィルタ(F4)、整流回路(D
4) 、平均化回路(M4)から成るフィルタハシ90
蜀によって各周波数領域の特性成分會抽出される0フイ
ルタJ3ンク晴の出力である低域前■Lと、フィルタバ
ンク(14)の出力である高域音VHとは差動アンプθ
5)Kより比較され、平均化回路θ[9により平均化さ
れる。平均化回路−の出力はクロックCKに同期して動
作する■L判定回路(17)およびvH判定回路Q〜に
それぞれ入力され、平均化回路0櫛の出力電圧が基準電
圧Rt、よりも低いとvL酸成分判定され、また基準電
圧RHよりも高いと■H酸成分判定され、RL (!:
RHO間であれば中域音vMと判定される。信号処理
回路(I鴫はVH、VL 、およびvM〕各成各成分上
れぞれ+1.0、−1の出力に8値化するものである〇 信号処理回路(121(19)の各出力はIlo ボ
ートーケ介してCPU(21)に読み込まれるものであ
り、読み込まれたデータFi−1人カパターンメ℃す(
ロ)に格納され、標準パターンメf、 IJ(ハ)に記
憶されている複数個の標準パターンのうちどれに一番近
いかを照合判定されて・その照合判定結果に基いて被制
御機器(2)4Iヲ制御するようになっている。これら
の照合判定動作等はCPUt21)とプ0タラムROM
岡、およびワー+ンタRAM(ハ)を有するマイク0]
ンヒユータ闘により行なっているものである。
しかるにかかる従来例においては、人力式ターンと照合
判定される標準パターンが1通りしかない次めに、音声
メツセージの発声音が異なる場合や、あるいは同一の発
声音においても発声速度を変えたり発声の態様を変えた
りした場合には、音声メ゛ソセージを正しく認識するこ
とができなくなるという問題があった0そこで従来、a
!数の発声者の声を登録し次り、あるいは同一の発声者
について複数回の発声を登録したりして同一の音声メツ
セージについて複数通りの標準パターンを用意して1人
カバターンがいずれか1つの標準パターンと一致したと
きにはその一致出力に応じて被制御機器を制御するよう
にした音声メツセージ識別方式が提案されているが、発
声者の性別や年齢差、あるいは方Hによる訛りなども考
慮に入れて様々な標準パターンを用意しておくものとす
ると、標準パターンメtり關の容量が著しく大きくなる
という問題があった。
判定される標準パターンが1通りしかない次めに、音声
メツセージの発声音が異なる場合や、あるいは同一の発
声音においても発声速度を変えたり発声の態様を変えた
りした場合には、音声メ゛ソセージを正しく認識するこ
とができなくなるという問題があった0そこで従来、a
!数の発声者の声を登録し次り、あるいは同一の発声者
について複数回の発声を登録したりして同一の音声メツ
セージについて複数通りの標準パターンを用意して1人
カバターンがいずれか1つの標準パターンと一致したと
きにはその一致出力に応じて被制御機器を制御するよう
にした音声メツセージ識別方式が提案されているが、発
声者の性別や年齢差、あるいは方Hによる訛りなども考
慮に入れて様々な標準パターンを用意しておくものとす
ると、標準パターンメtり關の容量が著しく大きくなる
という問題があった。
本発明は従来例のこのような問題点を解決するために為
されたものであり、音声メツし一ジの発声の態様が様々
な変化を示しても確実に音声メツセージを認識すること
ができ、しかも所要メ七り容量をできるだけ少なく抑え
ることができるようにした音声メツセージ識別方式を提
供することを目的とするものである・ 以下本発明の構成?図示実施例について説明する。第8
図は不発明による音声メツセージ識別装置のブロック図
を示すものであり、同図に示すように音声メッセー、;
識別装置!i#i音響処理部?樽と、周波数分析部端と
、符号化処理部−と、照合判定部131)とから構成さ
れている。このうち音響処理部I281と周波数分析部
129)については、従来例の装置と同様の構成を有し
ており、フィルタバンク+51 Is)およびフィルタ
バンクt13)(14)の後段に接続された判定回路c
+a +g31Vi第1図における差動アンづ+71
(15+から信号処理回路θ2)(191までの回Mに
よって構成されている。たたし、帯域フィルタ(pり(
F4)の通過周波数帯域は後述のようにそれぞれθ〜5
00Hz および500Hz〜lKH2KPI定され
ている。これらのIlo ホード−よりも前段の回路
はアナ0ジICによって構成され、I10ボート−より
も後段の回FjlIViマイクロコンピュータにより構
成されている。符号化処理部(30)において、(財)
は無音区間を検出するためのSカリンクであり、有声音
vま7’(ij無声音Uが検出されるとリセットされて
音声入力動作を開始させ、その後無音Sが一定時間(約
0.2秒)以上続くとカウントアツプして音声入力動作
を停止するようになっている。音声入力動作F′15〜
20m5ecのサンプリング周期(実施例で#″15m
5ecの周期)に従って行なわれ、一方の判定回路04
からは有声音V、無声音U、および無音Sの各符号とそ
の継続時間とが入力されてメ七りに格納され、また他方
の判定回路−からは高域音VH、中域音vM、および低
域音■Lの各符号とその継続時間とが入力されてメ七り
に格納されるようになっている。このようにしてメ七り
に一旦格納された信号は波形整形処理部州側により整形
処理される。
されたものであり、音声メツし一ジの発声の態様が様々
な変化を示しても確実に音声メツセージを認識すること
ができ、しかも所要メ七り容量をできるだけ少なく抑え
ることができるようにした音声メツセージ識別方式を提
供することを目的とするものである・ 以下本発明の構成?図示実施例について説明する。第8
図は不発明による音声メツセージ識別装置のブロック図
を示すものであり、同図に示すように音声メッセー、;
識別装置!i#i音響処理部?樽と、周波数分析部端と
、符号化処理部−と、照合判定部131)とから構成さ
れている。このうち音響処理部I281と周波数分析部
129)については、従来例の装置と同様の構成を有し
ており、フィルタバンク+51 Is)およびフィルタ
バンクt13)(14)の後段に接続された判定回路c
+a +g31Vi第1図における差動アンづ+71
(15+から信号処理回路θ2)(191までの回Mに
よって構成されている。たたし、帯域フィルタ(pり(
F4)の通過周波数帯域は後述のようにそれぞれθ〜5
00Hz および500Hz〜lKH2KPI定され
ている。これらのIlo ホード−よりも前段の回路
はアナ0ジICによって構成され、I10ボート−より
も後段の回FjlIViマイクロコンピュータにより構
成されている。符号化処理部(30)において、(財)
は無音区間を検出するためのSカリンクであり、有声音
vま7’(ij無声音Uが検出されるとリセットされて
音声入力動作を開始させ、その後無音Sが一定時間(約
0.2秒)以上続くとカウントアツプして音声入力動作
を停止するようになっている。音声入力動作F′15〜
20m5ecのサンプリング周期(実施例で#″15m
5ecの周期)に従って行なわれ、一方の判定回路04
からは有声音V、無声音U、および無音Sの各符号とそ
の継続時間とが入力されてメ七りに格納され、また他方
の判定回路−からは高域音VH、中域音vM、および低
域音■Lの各符号とその継続時間とが入力されてメ七り
に格納されるようになっている。このようにしてメ七り
に一旦格納された信号は波形整形処理部州側により整形
処理される。
第4図(a)は波形整形処理部Cf9において波形整形
される前の信号波形倉示しており、また第4図(b)は
波形整形処理された後の信号波形を示している。波形整
形処理は第4図(a)の矢印a、[示すように、有声音
■または無声音Uの継続時間の短いものを無音Sとする
第1の処理と、第4図(a)の矢印am〜a6に示すよ
うに、有声音■または無声音Uの継続時間が比較的長い
ものの次に来る無音Sの期間が短く飄かつ無音Sに続く
次の符号が無音Sの前の符号と同じであれば、無音Sを
消すようにする第2の処理とから構成されているもので
ある。第6図はかかる波形整形処理部−における波形整
形処理の手順を示すフローチャートである。
される前の信号波形倉示しており、また第4図(b)は
波形整形処理された後の信号波形を示している。波形整
形処理は第4図(a)の矢印a、[示すように、有声音
■または無声音Uの継続時間の短いものを無音Sとする
第1の処理と、第4図(a)の矢印am〜a6に示すよ
うに、有声音■または無声音Uの継続時間が比較的長い
ものの次に来る無音Sの期間が短く飄かつ無音Sに続く
次の符号が無音Sの前の符号と同じであれば、無音Sを
消すようにする第2の処理とから構成されているもので
ある。第6図はかかる波形整形処理部−における波形整
形処理の手順を示すフローチャートである。
このフローチセートは、符号V 、U 、Sとその継続
時間とのリスト形式によりメ七りに格納されたデータを
演算処理して析たなリスト形式のデータ全作成し1p4
びメtりに格納するための″jOタラムを示している。
時間とのリスト形式によりメ七りに格納されたデータを
演算処理して析たなリスト形式のデータ全作成し1p4
びメtりに格納するための″jOタラムを示している。
まず整形前のリストはその最初の符号がSであるか否か
を判定し、最初の符号がSでなければその継続時間が基
準値T1よりも大きいかどうかを判定される。継続時間
が基準1ii T +よりも大きくなければ、その符号
VまfcはU?符符号圧変換して符号Sとその継続時間
全整形後のリストとしてメtりに書き込む0また継続時
間が基準値T1よりも大きければ、その符号VまたはU
とその継続時間とを整形後のリストとしてそのまま転写
する。そして次の符号Sの継続時間が基準値T!よりも
短いかどうかを判定し、基準値Tsよりも短かければ、
その符号Sの次の符号は符号Sの前の符号と同じである
かどうかを判定する。同じでなければ符号Sとその継続
時間とをそのまま整形後のりストに転写する0また同じ
であれば符号Sを前後の符号UまたViVK変えて、そ
の変えた後の符号とその継続時間とを整形後のリストと
してメ七りKWき込む。さらに次の符号Sについてその
継続時間が基準値゛r2よりも短いが否が會再び判定す
る。以上の演算処理動作は整形前のすべてのリストが変
換処理されるまで続けられるものであり、変換処理が終
了すると整形後のリストの最後の符号がSであるかどう
かを判定し、最後の符号がSであればその符号sl整形
後のリストから除去して、再び最後の符号がSであるか
どうが全判定する0しかして最後の符号がSでなくなれ
ば一連の波形整形処理動作を終了するものであり、この
と@にメtりには、第4図(b)に示すような波形整形
処理された信号が符号U 、V 、Sとその継続時間と
のリスト形式で格納されていること罠なる0また他方の
波形整形処理部−においても同様の演纂処理1作が行な
われるものであり、■符号VHおよび符号VLのうち継
続時間の短いものを符号VMK変換する動作と、■符号
■Hと符号vHとの間に挾まれた継続時間の短い符号v
Mv+−符号VHに変換する動作と・■符号Vtと符号
Vt、との間に挾まれfc継続時間の短い符号VM k
符号Vtに変換する1作と?行なうものである。
を判定し、最初の符号がSでなければその継続時間が基
準値T1よりも大きいかどうかを判定される。継続時間
が基準1ii T +よりも大きくなければ、その符号
VまfcはU?符符号圧変換して符号Sとその継続時間
全整形後のリストとしてメtりに書き込む0また継続時
間が基準値T1よりも大きければ、その符号VまたはU
とその継続時間とを整形後のリストとしてそのまま転写
する。そして次の符号Sの継続時間が基準値T!よりも
短いかどうかを判定し、基準値Tsよりも短かければ、
その符号Sの次の符号は符号Sの前の符号と同じである
かどうかを判定する。同じでなければ符号Sとその継続
時間とをそのまま整形後のりストに転写する0また同じ
であれば符号Sを前後の符号UまたViVK変えて、そ
の変えた後の符号とその継続時間とを整形後のリストと
してメ七りKWき込む。さらに次の符号Sについてその
継続時間が基準値゛r2よりも短いが否が會再び判定す
る。以上の演算処理動作は整形前のすべてのリストが変
換処理されるまで続けられるものであり、変換処理が終
了すると整形後のリストの最後の符号がSであるかどう
かを判定し、最後の符号がSであればその符号sl整形
後のリストから除去して、再び最後の符号がSであるか
どうが全判定する0しかして最後の符号がSでなくなれ
ば一連の波形整形処理動作を終了するものであり、この
と@にメtりには、第4図(b)に示すような波形整形
処理された信号が符号U 、V 、Sとその継続時間と
のリスト形式で格納されていること罠なる0また他方の
波形整形処理部−においても同様の演纂処理1作が行な
われるものであり、■符号VHおよび符号VLのうち継
続時間の短いものを符号VMK変換する動作と、■符号
■Hと符号vHとの間に挾まれた継続時間の短い符号v
Mv+−符号VHに変換する動作と・■符号Vtと符号
Vt、との間に挾まれfc継続時間の短い符号VM k
符号Vtに変換する1作と?行なうものである。
次に第6図は上記波形整形処理部−例により形成されf
c2系統のリストを1系統のリストにまとめるためのコ
ンポジット符号化処理部のηの処理動作を示すフO−チ
セートである。その動作について説明すると、まず波形
整形処理部間によって形成された符号U、V、Sとその
継続時間のリストを調べて、最初の符号がUまたhsで
あるかどうかを判定する。最初の符号がUまたはSであ
れば、その符号UまたはSとその継続時間とがコンポジ
ット符号リストとしてメtりにそのまま転写される。ま
た最初の符号がUまたはSではなくてVであるときには
、波形整形処理部@鴎によって形成された符号yH,V
、 、”vLとその継続時間のリスト?調べて・符号V
の継続時間中にまず符号vHが含まれているかどうかt
判定して含まれている場合にId、符号VHとその継続
時間と金コシポジット符号リストとしてメtりに転写す
る。また符号vMおよびVLにりいても、符号Vの継続
時間中に含まれている場合には符号VM、VLとその継
続時間とがそれぞれコンポジット符号リストとしてメt
りに転写される。
c2系統のリストを1系統のリストにまとめるためのコ
ンポジット符号化処理部のηの処理動作を示すフO−チ
セートである。その動作について説明すると、まず波形
整形処理部間によって形成された符号U、V、Sとその
継続時間のリストを調べて、最初の符号がUまたhsで
あるかどうかを判定する。最初の符号がUまたはSであ
れば、その符号UまたはSとその継続時間とがコンポジ
ット符号リストとしてメtりにそのまま転写される。ま
た最初の符号がUまたはSではなくてVであるときには
、波形整形処理部@鴎によって形成された符号yH,V
、 、”vLとその継続時間のリスト?調べて・符号V
の継続時間中にまず符号vHが含まれているかどうかt
判定して含まれている場合にId、符号VHとその継続
時間と金コシポジット符号リストとしてメtりに転写す
る。また符号vMおよびVLにりいても、符号Vの継続
時間中に含まれている場合には符号VM、VLとその継
続時間とがそれぞれコンポジット符号リストとしてメt
りに転写される。
以上のようにして]ンボジット符号リストが得られるも
のであるが、本実施例のように、符号V+U+Sの系統
と、符号VH,VM、 VL (7)系統とについて別
々に波形整形処理?行なってから、コンポジット符号化
する方法(第7図(a)参照)の他に、纂7図(b)に
示すように先にコンポジット符号化を行なってから波形
整形処理を行なう方法もあり得るものである。この場合
には符号U 、 V 、VH,VLの各論理値に基いて
第1表に示すような論理演算?行なうことによりコンポ
ジット符号化全行なう第 1 表 次V′C第8図は、階層化処理部−の処理動作を示すフ
0−チP−トである。階層化処理部1381は後段の照
合判定部叫IKおけるパターン照合ケ音声の構造に合わ
せて段階的に行ない得るよう罠するためにコンポジット
符号リストから第1階層リストと第2階層リストと?作
成するものである。このうち第1階層リストについては
、符号U、V、Sとその継続時間のみからなる符号リス
トと圏−であるので、波形整形処理部(ハ)の出力リス
ト?そのまま転写するか、あるいはコンポジット符号リ
ストにおける符号VH,Vm+Vt’rすべて符号vに
置き換えることによって容易に得られるものである0次
にm2階層リストについてはコンポジット符号リストの
うち−続きの符号VH、Vt 、 VMとその継続時間
からなる符号リストを転写することによって得られるも
のである。したがって第1階層リストの中に符号Vがn
個含まれているものとすると、第2階層リストもまたn
個得られるようになっている0 さらに第9図は、上述のようにして得られ次第1階層リ
ストと第2階層リストについて符号の継続時間ケ正規化
するための正規化処理部−の処理動作倉示すフ0−チP
−トである正規化処理部−は符号U 、V 、Sとその
継続時間からなる第1階層リストと、符号VH、VM
* VLとその継続時間からなるn個の第2階層リスト
についてその継続時間の総和が一定になるように時間軸
上の正規化を行なうものである。第2表は第1階層リス
ト罠ついて、符号V、U、Sとその継続時間TKおよび
正規化された継続時間Tsの関係?示したものであり、
継続時間TKはサシづル個数に対応している。
のであるが、本実施例のように、符号V+U+Sの系統
と、符号VH,VM、 VL (7)系統とについて別
々に波形整形処理?行なってから、コンポジット符号化
する方法(第7図(a)参照)の他に、纂7図(b)に
示すように先にコンポジット符号化を行なってから波形
整形処理を行なう方法もあり得るものである。この場合
には符号U 、 V 、VH,VLの各論理値に基いて
第1表に示すような論理演算?行なうことによりコンポ
ジット符号化全行なう第 1 表 次V′C第8図は、階層化処理部−の処理動作を示すフ
0−チP−トである。階層化処理部1381は後段の照
合判定部叫IKおけるパターン照合ケ音声の構造に合わ
せて段階的に行ない得るよう罠するためにコンポジット
符号リストから第1階層リストと第2階層リストと?作
成するものである。このうち第1階層リストについては
、符号U、V、Sとその継続時間のみからなる符号リス
トと圏−であるので、波形整形処理部(ハ)の出力リス
ト?そのまま転写するか、あるいはコンポジット符号リ
ストにおける符号VH,Vm+Vt’rすべて符号vに
置き換えることによって容易に得られるものである0次
にm2階層リストについてはコンポジット符号リストの
うち−続きの符号VH、Vt 、 VMとその継続時間
からなる符号リストを転写することによって得られるも
のである。したがって第1階層リストの中に符号Vがn
個含まれているものとすると、第2階層リストもまたn
個得られるようになっている0 さらに第9図は、上述のようにして得られ次第1階層リ
ストと第2階層リストについて符号の継続時間ケ正規化
するための正規化処理部−の処理動作倉示すフ0−チP
−トである正規化処理部−は符号U 、V 、Sとその
継続時間からなる第1階層リストと、符号VH、VM
* VLとその継続時間からなるn個の第2階層リスト
についてその継続時間の総和が一定になるように時間軸
上の正規化を行なうものである。第2表は第1階層リス
ト罠ついて、符号V、U、Sとその継続時間TKおよび
正規化された継続時間Tsの関係?示したものであり、
継続時間TKはサシづル個数に対応している。
第 2 表
かかる正規化処理動作を第9図のフO−チP−トにより
て説明すれば、まず符号U、S、Vの全継続時間TKの
総和ΣTh(=16628)2求めて、これから正規化
係数Ps−1000/ΣTK k求める。
て説明すれば、まず符号U、S、Vの全継続時間TKの
総和ΣTh(=16628)2求めて、これから正規化
係数Ps−1000/ΣTK k求める。
次に各符号U、V、Sについてその継続時間Txl)に
正規化係数Psi乗算して正規化された継続時間Ts(
j) k順に求めて行くものである。以上のようにして
第1階層リストについての継続時間の正規化11作が完
了すると、n個の第2階層リストについてそれぞれ同様
の操作により継続時間の正規化処理を行なうものである
。第8表(a)〜(d) Vi、第1階層リスト(第2
表参照)に含まれる4個の符号■について作成された第
2階層リストとその正規化されfC継続時間とをそれぞ
れ示したものである0第 8 嵌 (a) 第8表(b) 第 8 表 (c) 第8表fd) 第8表(a)は第2表に示す第1階層リストの最初の符
号V(継続時間8415)K対応する@2階層リストV
1を示しており、以下順に第8表(b)〜(d)は継続
時間X)E8621.1487.18717)各符号V
に対応する第2階層リストv2〜V4i示している。以
上のようにして継続時間の正規化を行なうと、発声速度
の影f#を受は罠くくなるので、認識率?高めることが
できるものである。なお第2表及び第8表に示した継続
時間TKのデータは音声メツセージ「せなかをさすれ。
正規化係数Psi乗算して正規化された継続時間Ts(
j) k順に求めて行くものである。以上のようにして
第1階層リストについての継続時間の正規化11作が完
了すると、n個の第2階層リストについてそれぞれ同様
の操作により継続時間の正規化処理を行なうものである
。第8表(a)〜(d) Vi、第1階層リスト(第2
表参照)に含まれる4個の符号■について作成された第
2階層リストとその正規化されfC継続時間とをそれぞ
れ示したものである0第 8 嵌 (a) 第8表(b) 第 8 表 (c) 第8表fd) 第8表(a)は第2表に示す第1階層リストの最初の符
号V(継続時間8415)K対応する@2階層リストV
1を示しており、以下順に第8表(b)〜(d)は継続
時間X)E8621.1487.18717)各符号V
に対応する第2階層リストv2〜V4i示している。以
上のようにして継続時間の正規化を行なうと、発声速度
の影f#を受は罠くくなるので、認識率?高めることが
できるものである。なお第2表及び第8表に示した継続
時間TKのデータは音声メツセージ「せなかをさすれ。
」を50μsecのサンプリンタパルスを用いて分析し
た場合のシミュレーションデータであって、5m5ec
のサンプリングパルス?用いて分析を行なう場合にF′
i継続時間(すなわちサシプリンタ個数)は衣の値の1
00分の1になるものである。
た場合のシミュレーションデータであって、5m5ec
のサンプリングパルス?用いて分析を行なう場合にF′
i継続時間(すなわちサシプリンタ個数)は衣の値の1
00分の1になるものである。
以上のようにして正規化されfc第1階層リストの符号
U 、V 、S 、および概2階層リストの符号VH,
VM、VL Vi、 8 ft!符号化処man(II
Cオイテ+ 1.0、−1の8値符号に変換されるもの
である。
U 、V 、S 、および概2階層リストの符号VH,
VM、VL Vi、 8 ft!符号化処man(II
Cオイテ+ 1.0、−1の8値符号に変換されるもの
である。
すなわち、まず第1階層リストにおける符号vF′i+
1.符号UV1−1.符号SはOKそれぞれ対応させ、
また第2階j−リストにおける符号Vn Fi+l +
符号vMt−to、符号vLは−1にそれぞれ対応させ
るものであるaこのようにすれば、距離計算照合部(4
1)において標準パターンメ七り(偵の内容と第1階層
リストおよび第2階j−リストの内容と倉照合するとき
に計算速度全署しく高速化することができるものである
。すなわち距離計算照合部(41)は標準ハターンメモ
リしJK記憶された+1.0、−1の8値化きれたデー
タと8値打号化処理部明から出力されるデータとの相互
相関係数會求めるようになっているものであるが、デー
タが+1.0.−1の8通りしかないために、数値の乗
算全必要とせず、単なる調理演算と加減算とによってき
わめて蔦速度で相互相関係数を計算することかできるも
のである0各標準パターンについてそれぞれ計算された
相互相関係数は1次階M識別部(ハ)と2次階層識別部
(旬に記憶され、判定処理部T4119において大小関
係を比較され、相互相関係数が太きいものほど似/こパ
ターンであると判定されるものである。
1.符号UV1−1.符号SはOKそれぞれ対応させ、
また第2階j−リストにおける符号Vn Fi+l +
符号vMt−to、符号vLは−1にそれぞれ対応させ
るものであるaこのようにすれば、距離計算照合部(4
1)において標準パターンメ七り(偵の内容と第1階層
リストおよび第2階j−リストの内容と倉照合するとき
に計算速度全署しく高速化することができるものである
。すなわち距離計算照合部(41)は標準ハターンメモ
リしJK記憶された+1.0、−1の8値化きれたデー
タと8値打号化処理部明から出力されるデータとの相互
相関係数會求めるようになっているものであるが、デー
タが+1.0.−1の8通りしかないために、数値の乗
算全必要とせず、単なる調理演算と加減算とによってき
わめて蔦速度で相互相関係数を計算することかできるも
のである0各標準パターンについてそれぞれ計算された
相互相関係数は1次階M識別部(ハ)と2次階層識別部
(旬に記憶され、判定処理部T4119において大小関
係を比較され、相互相関係数が太きいものほど似/こパ
ターンであると判定されるものである。
ここて相互相関係数とは、時間tの変化に対する標準パ
ターンの値の変化1ktI(t)とし、1次階層リスト
や2次階層リストのような入カバターンの値の変化1f
dt)としたと@に次式で与えられるものであるD fl2(τ) ” f fl(t) fl(t−τ)
dt第10図(a) (b)は時間tの変化に対する標
準パターンの値の変化ft(t)と、入カバターンの値
の変化f2(t)と?それぞれ示すものであり、同図に
示すようにf+(t)とfz(t)とは+1.0.−1
の8通りの値しかとらないので、両者の槓f+(t)
f *(t)の値も+1,0゜−1のいずれかの値しか
とらないことになり、このために相互相関係数の計算は
非常に容易になるものである。かかる相互相関係数f+
* (τ)はマイクロコンビュータケ用いて計算する場
合には、実用上は次式のような数値演算により充分に計
算できるものである。
ターンの値の変化1ktI(t)とし、1次階層リスト
や2次階層リストのような入カバターンの値の変化1f
dt)としたと@に次式で与えられるものであるD fl2(τ) ” f fl(t) fl(t−τ)
dt第10図(a) (b)は時間tの変化に対する標
準パターンの値の変化ft(t)と、入カバターンの値
の変化f2(t)と?それぞれ示すものであり、同図に
示すようにf+(t)とfz(t)とは+1.0.−1
の8通りの値しかとらないので、両者の槓f+(t)
f *(t)の値も+1,0゜−1のいずれかの値しか
とらないことになり、このために相互相関係数の計算は
非常に容易になるものである。かかる相互相関係数f+
* (τ)はマイクロコンビュータケ用いて計算する場
合には、実用上は次式のような数値演算により充分に計
算できるものである。
ところで相互相関係数fsx(τ)は互いに乗算される
標準パターンfx(t)と入カバターンf雪(を−τ)
との位相差τの関数となっており、ある特定の位相差τ
において最大の値をとるようになっている。
標準パターンfx(t)と入カバターンf雪(を−τ)
との位相差τの関数となっており、ある特定の位相差τ
において最大の値をとるようになっている。
そこで距離計算照合部圓においてはこの相互相関係数h
*(τ)が最大になる点を求めて、その最大値に!標
準パターンについて計算し、1次および2次階層識別部
(ハ)に)にそれぞれ記憶させ、最後に判定処理部(州
においてその大小関係を比較して入カバターンに最も近
い標準パターンを判定しているものである。
*(τ)が最大になる点を求めて、その最大値に!標
準パターンについて計算し、1次および2次階層識別部
(ハ)に)にそれぞれ記憶させ、最後に判定処理部(州
においてその大小関係を比較して入カバターンに最も近
い標準パターンを判定しているものである。
ところで、本発明においては音声メツセージから抽出し
た符号パターンを標準パターンと照合する際に、符号1
1ターンを1次階層リストと2次階層リストと罠分離し
て、1次階層リストに関する照合を行なった後に、2次
階j−リストに関する照合?行なうようにして、照合処
理を段階的罠行なりているが、これは音声の巨視的な構
造に対応する特徴を先に抽出し次後で、次に音声の微視
的な特徴に対応する特&を抽出するようにした方が、音
声の認識を効率的に、かつ確実知行なうことができるか
らである。第11図は音声の特徴を階層化して表わした
ものであり、音声はまず声帯振動を伴う有声音Vと、声
帯振動ヲ洋わない無声音Uとに大きく分類され、有声音
Vは顎の開きの広い有声音/a/グループと、顎の開き
の狭い有声音/i/ジルーウとに分類される。顎の開き
の広い有声音は上述の高域音VHIC対応し、音声の第
1ホルマシトの周波数が比較的高く、その周波数帯域は
500Hz=IKH2に多く分布している、ま次顎の開
きの狭い有声音は上述の低域音vLに対応し、音声の第
1ホルマントの周波数が比較的低く、その周波数帯域は
θ〜500HzK多く分布している。
た符号パターンを標準パターンと照合する際に、符号1
1ターンを1次階層リストと2次階層リストと罠分離し
て、1次階層リストに関する照合を行なった後に、2次
階j−リストに関する照合?行なうようにして、照合処
理を段階的罠行なりているが、これは音声の巨視的な構
造に対応する特徴を先に抽出し次後で、次に音声の微視
的な特徴に対応する特&を抽出するようにした方が、音
声の認識を効率的に、かつ確実知行なうことができるか
らである。第11図は音声の特徴を階層化して表わした
ものであり、音声はまず声帯振動を伴う有声音Vと、声
帯振動ヲ洋わない無声音Uとに大きく分類され、有声音
Vは顎の開きの広い有声音/a/グループと、顎の開き
の狭い有声音/i/ジルーウとに分類される。顎の開き
の広い有声音は上述の高域音VHIC対応し、音声の第
1ホルマシトの周波数が比較的高く、その周波数帯域は
500Hz=IKH2に多く分布している、ま次顎の開
きの狭い有声音は上述の低域音vLに対応し、音声の第
1ホルマントの周波数が比較的低く、その周波数帯域は
θ〜500HzK多く分布している。
顎の開きの広い有声音には、母音/a/ 、/り77/
ε/などがあり、また顎の開きの狭い有声音には、母音
/i〆/e/10./; /u/や、鼻子音や、その他
の有声子音などがある。また無声音Uには定常的な無声
音すなわち無声摩擦音UPと、過渡的な無声音すなわち
無声破裂音UBとがある0 しかして、音声メツセージ’k 1 語1 @#4Hに
認識しようとすれば、これらの音声の各特&をすべて識
別する必要があるが、照明器具や自動扉、あるいはあん
ま椅子などを音声メツセージを用いて制御する場合には
、すべての子音および母音を完全に識別する必要はなく
、もう少し巨視的な特徴を抽出するだけでも充分に実用
になるものである0このような音声の特Itヲ巨視的な
特徴から順に列挙して行くと次のようになるO 1)有声音Vであるか無声音Uであるか0かかる特徴は
音声の周波数スペクトルの中に低域成分(IKHz以下
)が多いか、高域取分(5KHz 〜tgKHz)が多
いかによって判定できる。
ε/などがあり、また顎の開きの狭い有声音には、母音
/i〆/e/10./; /u/や、鼻子音や、その他
の有声子音などがある。また無声音Uには定常的な無声
音すなわち無声摩擦音UPと、過渡的な無声音すなわち
無声破裂音UBとがある0 しかして、音声メツセージ’k 1 語1 @#4Hに
認識しようとすれば、これらの音声の各特&をすべて識
別する必要があるが、照明器具や自動扉、あるいはあん
ま椅子などを音声メツセージを用いて制御する場合には
、すべての子音および母音を完全に識別する必要はなく
、もう少し巨視的な特徴を抽出するだけでも充分に実用
になるものである0このような音声の特Itヲ巨視的な
特徴から順に列挙して行くと次のようになるO 1)有声音Vであるか無声音Uであるか0かかる特徴は
音声の周波数スペクトルの中に低域成分(IKHz以下
)が多いか、高域取分(5KHz 〜tgKHz)が多
いかによって判定できる。
2)有声音■であれば、顎の開きの広い有声音VH(/
a/グループ)であるか、顎の開きの狭い有声it V
t、 (/i/クルー″j)であるか。かかる%欲は有
声音の周波数スペクトルの中に高域音Vu (500H
z〜1KHz)か多いか、低域音VL(0〜500Hz
)か多いかによって判定できる。
a/グループ)であるか、顎の開きの狭い有声it V
t、 (/i/クルー″j)であるか。かかる%欲は有
声音の周波数スペクトルの中に高域音Vu (500H
z〜1KHz)か多いか、低域音VL(0〜500Hz
)か多いかによって判定できる。
8)無声音Uであれば、無声摩擦音UPであるか、無声
破裂音UB′t1″あるか。かかる特徴は無声音が定常
的であるか、過渡的であるかによって判定できる。すな
わち無声音Uの継続時間が長いが短いかによって判定で
きる。
破裂音UB′t1″あるか。かかる特徴は無声音が定常
的であるか、過渡的であるかによって判定できる。すな
わち無声音Uの継続時間が長いが短いかによって判定で
きる。
4)音声メツセージの中で、各特徴VH,VLIUB、
UF吟の占める時間、または音声メツセージの継続時間
の中で占める割合。かかる特I!&は上述の第1階層リ
ストや第2階層リストにおける継続時間全参照すれば判
定できる。
UF吟の占める時間、または音声メツセージの継続時間
の中で占める割合。かかる特I!&は上述の第1階層リ
ストや第2階層リストにおける継続時間全参照すれば判
定できる。
その他にも、音声の第2ホルマシトが高いか低いかによ
りて前古の母音(/i〆A/に対応)と高舌の母音(/
ul 10/に対応)とを識別することができるが、そ
こまで微視的な特徴全抽出しなくても、機器を制御する
ための音声メツセージは充分に認識できるものである。
りて前古の母音(/i〆A/に対応)と高舌の母音(/
ul 10/に対応)とを識別することができるが、そ
こまで微視的な特徴全抽出しなくても、機器を制御する
ための音声メツセージは充分に認識できるものである。
例えば第12図は、あんま椅子用の音声入力/5ena
kaosasure/の周波数スペクトルの例であり、
音声入力を20KHzでサシプリンタしたものを200
サシプル(10m5ec)klフL+−ムとして、20
次のLPG分析を行なったものであるが、無声音/8/
は5KHz以上にパワーが集中しており、また有声音は
IKHz以下にパワーの山があることがわかる。さらに
有声性では/a% 10/のパワー1500Hz〜1K
Hzに集中し、/n〆/Vは0〜50.OHzにパワー
が寒中していることがわかる。さらに有声音は、同一の
スペクトルが各音素に対応して数個(数十m5eC)続
いていることがわかる0 ′1fc第13図(a)は上記と同じ音声入力に対する
有声音成分Vと無声音成分Uとの変化を示しており、第
18図(b)は有声音のなかの烏賊成分VHと低域成分
vLとの変化ケ示しているものであるが、まず第18図
(a)においては無声音/8//に/に対応する部分が
Ui示し、/n a% /a o〆/a//u r e
/に対応する部分が明確にvl示している。また第13
図(b)においてVi10/ /s a/VC対応する
部分がVt、で、/a//ao〆/e/ に対応する部
分か■HVCなっているoしたがって、上述したように
有声音■、無声音U、無音Sに対応する1次階層リスト
と、有声音のなかの高域音vH2中城音VM r Uk
域音vLに対応する2次階層リストを予め記憶された標
準へターンと照合すれば、大抵の音声メツセー、;は識
別できるものである。
kaosasure/の周波数スペクトルの例であり、
音声入力を20KHzでサシプリンタしたものを200
サシプル(10m5ec)klフL+−ムとして、20
次のLPG分析を行なったものであるが、無声音/8/
は5KHz以上にパワーが集中しており、また有声音は
IKHz以下にパワーの山があることがわかる。さらに
有声性では/a% 10/のパワー1500Hz〜1K
Hzに集中し、/n〆/Vは0〜50.OHzにパワー
が寒中していることがわかる。さらに有声音は、同一の
スペクトルが各音素に対応して数個(数十m5eC)続
いていることがわかる0 ′1fc第13図(a)は上記と同じ音声入力に対する
有声音成分Vと無声音成分Uとの変化を示しており、第
18図(b)は有声音のなかの烏賊成分VHと低域成分
vLとの変化ケ示しているものであるが、まず第18図
(a)においては無声音/8//に/に対応する部分が
Ui示し、/n a% /a o〆/a//u r e
/に対応する部分が明確にvl示している。また第13
図(b)においてVi10/ /s a/VC対応する
部分がVt、で、/a//ao〆/e/ に対応する部
分か■HVCなっているoしたがって、上述したように
有声音■、無声音U、無音Sに対応する1次階層リスト
と、有声音のなかの高域音vH2中城音VM r Uk
域音vLに対応する2次階層リストを予め記憶された標
準へターンと照合すれば、大抵の音声メツセー、;は識
別できるものである。
tころが以上のことはあくまでも一般論であって、音声
メツセージの発声者が異なる場合や、あるいは同一の発
声者においても発声速度を変えたり発声の態様音度えた
りし次場合VCは、音節中の無声破裂音音検出できなか
りたり、あるいは音節中の無声音に挾まれた有声音が無
声音化したりするような現象が生じるために、音声メツ
セージの様々な発声態様にすべて対応できるような標準
パターンを作成する必要がある0不発F!Aはこのよう
な微妙な発声の変化による入カバターンの変動があって
も音声メッセー、;ヲ正しく認識できるようにするもの
である。すなわち本発明においては、標準パターンとし
て例えば第14図に示すように符号C+ 、 C2、C
m 、 C4、Cs 、 Csの時系列からなる基本パ
ターンの他に、符号C24,符号C4&のような分岐パ
ターン?付加して、入カバターシ會符号C8゜Cs4+
Cs 、 Csの時系列からなる第1の派生パターン
や)符号Cr +Ct、Cs、C4s 、Caの時系列
からなる第2の派生パターンと照合することも可能とし
て、音声メツセージの認識率ケ高めたものである以下具
体的な例金挙げながら、本発明における標準パターンを
構成する基本パターンと分岐パターン、および派生パタ
ーンの概念について説明する。
メツセージの発声者が異なる場合や、あるいは同一の発
声者においても発声速度を変えたり発声の態様音度えた
りし次場合VCは、音節中の無声破裂音音検出できなか
りたり、あるいは音節中の無声音に挾まれた有声音が無
声音化したりするような現象が生じるために、音声メツ
セージの様々な発声態様にすべて対応できるような標準
パターンを作成する必要がある0不発F!Aはこのよう
な微妙な発声の変化による入カバターンの変動があって
も音声メッセー、;ヲ正しく認識できるようにするもの
である。すなわち本発明においては、標準パターンとし
て例えば第14図に示すように符号C+ 、 C2、C
m 、 C4、Cs 、 Csの時系列からなる基本パ
ターンの他に、符号C24,符号C4&のような分岐パ
ターン?付加して、入カバターシ會符号C8゜Cs4+
Cs 、 Csの時系列からなる第1の派生パターン
や)符号Cr +Ct、Cs、C4s 、Caの時系列
からなる第2の派生パターンと照合することも可能とし
て、音声メツセージの認識率ケ高めたものである以下具
体的な例金挙げながら、本発明における標準パターンを
構成する基本パターンと分岐パターン、および派生パタ
ーンの概念について説明する。
音声の入カバターンが変動する最も典型的な例としては
、まず第1に無声破裂音/P/、/l//に/の欠落現
象が挙げられる。すなわち第18図(a) ’fr:参
照すればわかるように、無声破裂音/に/は過渡的な無
声音であるためにその継続時間が短く、非常に検出しに
くいものである0これに比べると無声摩擦音/s/は定
常的な無声音であるために第18図(a) K示すよう
にその継続時間が長く、その検出が容易である。このた
めにサンプリンタ周期を若干長くすると、無声摩擦音/
S/は検出できても無声破裂音/に/ Vi検出できな
い場合が生じ得る。第15図はこの点を考慮に入れて上
記音声人力/8enakaosasure/の第1階層
リストに対する標準パターンを構成したものであり、符
号U、S、V+、 S 、U 、S 、vt、S 、U
、 S 、Vs、S 、U、S、V4の時系列からなる
基本パターンの他に、符号VlとVlとで挾まれる符号
S、U、5ofi続時間に等しい符号Sからなる分岐パ
ターンを設けたものである。したがって、音声の符号化
された入カバターンは、上記基本パターンと照合される
のみならず、分岐バター、7によって生じる符号U。
、まず第1に無声破裂音/P/、/l//に/の欠落現
象が挙げられる。すなわち第18図(a) ’fr:参
照すればわかるように、無声破裂音/に/は過渡的な無
声音であるためにその継続時間が短く、非常に検出しに
くいものである0これに比べると無声摩擦音/s/は定
常的な無声音であるために第18図(a) K示すよう
にその継続時間が長く、その検出が容易である。このた
めにサンプリンタ周期を若干長くすると、無声摩擦音/
S/は検出できても無声破裂音/に/ Vi検出できな
い場合が生じ得る。第15図はこの点を考慮に入れて上
記音声人力/8enakaosasure/の第1階層
リストに対する標準パターンを構成したものであり、符
号U、S、V+、 S 、U 、S 、vt、S 、U
、 S 、Vs、S 、U、S、V4の時系列からなる
基本パターンの他に、符号VlとVlとで挾まれる符号
S、U、5ofi続時間に等しい符号Sからなる分岐パ
ターンを設けたものである。したがって、音声の符号化
された入カバターンは、上記基本パターンと照合される
のみならず、分岐バター、7によって生じる符号U。
S 、V+、S 、V2.S 、U、S 、Vs、 S
、U 、S 。
、U 、S 。
■4からなる派生パターンとも照合されるものであり、
したがって無声破裂音A/が入カフ’lターシから欠落
するようなことがあっても音声メツセージを正しく認識
することができるものである。なお第15図中に記載し
た数字■、■け同一の話者の5回の発声バター9を分析
した結果、基本パターンに一致した場合が4回、派生パ
ターンに一致した場合が1回あったということを示すも
のである。以上のように構成することにより、無声破裂
音/l /l/ /に/ を聞き落とすような事態全防
止できるものである。
したがって無声破裂音A/が入カフ’lターシから欠落
するようなことがあっても音声メツセージを正しく認識
することができるものである。なお第15図中に記載し
た数字■、■け同一の話者の5回の発声バター9を分析
した結果、基本パターンに一致した場合が4回、派生パ
ターンに一致した場合が1回あったということを示すも
のである。以上のように構成することにより、無声破裂
音/l /l/ /に/ を聞き落とすような事態全防
止できるものである。
次に第16図(a) 〜(C)は音声入力/5enak
aoaasure/に含まれる4個の有声音v1〜v4
について、それぞれの2次階層リストに対する標準
パターンを作成した例を示している0このうち第1番目
の有声音V+にりいて説明すると、その基本パターンは
符号VM、 VLI VM、 VH,VM、 VL ノ
R系列カラ構成されており、さらに符号vMからなる8
個の分岐パターンを有しているoしたがってこの場合に
ti−符号vM−■L、vM、vLノ時系列からなるM
l’)派生7S ター :/ (!ニー、符号VM r
Vt、 、 VM * Vt、 、VM )時系列か
らなる第2の派生パターンと、符号v、、 l Vt
。
aoaasure/に含まれる4個の有声音v1〜v4
について、それぞれの2次階層リストに対する標準
パターンを作成した例を示している0このうち第1番目
の有声音V+にりいて説明すると、その基本パターンは
符号VM、 VLI VM、 VH,VM、 VL ノ
R系列カラ構成されており、さらに符号vMからなる8
個の分岐パターンを有しているoしたがってこの場合に
ti−符号vM−■L、vM、vLノ時系列からなるM
l’)派生7S ター :/ (!ニー、符号VM r
Vt、 、 VM * Vt、 、VM )時系列か
らなる第2の派生パターンと、符号v、、 l Vt
。
vM 、 v、 、 vMの時系列からなる第8の派生
パターンとが形成されるものである。第16図(a)に
記載された数字■、■、■などは前と同様に分岐の回数
を示している。なお各分岐パターンの継続時間は、分岐
パターンに入らずに基本パターンをそのまま進んだ場合
の継続時間と等しくなっている。以上のように標準パタ
ーンを構成することにより、第2階層リストにおける符
号VH、VM 、 Vt、が少々変動しても確実に音声
メツセージのあ織ができるようになっている。
パターンとが形成されるものである。第16図(a)に
記載された数字■、■、■などは前と同様に分岐の回数
を示している。なお各分岐パターンの継続時間は、分岐
パターンに入らずに基本パターンをそのまま進んだ場合
の継続時間と等しくなっている。以上のように標準パタ
ーンを構成することにより、第2階層リストにおける符
号VH、VM 、 Vt、が少々変動しても確実に音声
メツセージのあ織ができるようになっている。
ところでこのような第2階層リストにおける符号V■、
VM 、 VLの変動の仕方は多種多様であり、−例
を挙げると(イ) VL−VH系列がvL−vM系列に
なる場合(例、/5enaka/の/na/)、(1)
) VL−VM系列がVt−Vt系列になる場合(例、
/5asure/の/ r e / )、(ハ) VL
−VM系列カvL−■H系列になる場合(例、/lom
are/の/re/)、(=) VHVt、系列がvH
−vM系列になる場合(例、/5enaka/の/ak
/)、(ホ)符号VHがvL−v、系列になる場合(例
、/sa/)、(へ)符号vHがVL−VH−vL系列
になる場合(例/kata/の/ k a t / )
などの例75Eアル0これらの符号VH、VM 、 V
tの変動の規則全整理すると大体次の2つの場合に分類
される。
VM 、 VLの変動の仕方は多種多様であり、−例
を挙げると(イ) VL−VH系列がvL−vM系列に
なる場合(例、/5enaka/の/na/)、(1)
) VL−VM系列がVt−Vt系列になる場合(例、
/5asure/の/ r e / )、(ハ) VL
−VM系列カvL−■H系列になる場合(例、/lom
are/の/re/)、(=) VHVt、系列がvH
−vM系列になる場合(例、/5enaka/の/ak
/)、(ホ)符号VHがvL−v、系列になる場合(例
、/sa/)、(へ)符号vHがVL−VH−vL系列
になる場合(例/kata/の/ k a t / )
などの例75Eアル0これらの符号VH、VM 、 V
tの変動の規則全整理すると大体次の2つの場合に分類
される。
1)前後の音韻の相互作用により、符号VHとvMおよ
び符号vLとvMの相互の入れ代わりが生じること。す
なわち、vH−vL系列がVH−VM系列まfcはvM
−v系列になり得ること、および■L−vH系列がL VL VM系列ま次はvMVH系列罠なり得ること。
び符号vLとvMの相互の入れ代わりが生じること。す
なわち、vH−vL系列がVH−VM系列まfcはvM
−v系列になり得ること、および■L−vH系列がL VL VM系列ま次はvMVH系列罠なり得ること。
2)符号vHが前後の無声音の影豐を受けて、符号vH
の前まfCは後あるいは前後双方に符号vLが付加され
ること。すなわち、符号VHが、VL VH系列、vH
−vL系列、まfc td Vt、−VH−vL系列に
入れ代わること0 音声の入カバターンが変動する他の例としては、母音の
無声化現象が挙げられる。例えば日本人の場合、「私(
ワタクシ)」という言葉@ / W atakusi/
と正確て発音する人よりはむしろ、母音/u/ k飛ば
して/wataksi/と発音する人の方が多いもので
ある0これは母音//U/が無声破裂音A/と無声摩擦
音/8/に挾まれているからであり、一般に■無声破裂
音UBと無声破裂音UB罠挾まれi1個の母音(例えば
/kiQpu/の/l/)や、■無声破裂音UBと無声
摩擦音UPとに挾まれた1個の母音(例えば/wata
scusi/の/U/)、および■無声音と有声子音に
挾まれた1個の母音などは無声化する傾向が非常に強い
0その他にも無声音Uと無音Sの間に挾ま/″した1個
の母音(例えは、/dousa/の/a/)も無音化す
る傾向が若干ある。そこで、一般に無声音と無声音の間
、および無声音と無音の間、ならびに無声音と有声子音
の間に挾まれた1個の母音については、その母音の部分
を有声1vとする基本パターンの他に、その母音の部分
を無声音Uとする分岐パターンを標準パターンに付加し
ておき、上記特定の母音が有声音Vとして明瞭に発音さ
れた場合ておいては基本パターンにより照合判定するこ
とができ、また上記特定の母音があたかも無声音Uであ
るかのように不明瞭に発音された場合においては派生パ
ターンにより照合判定できるようにしておけば、音声メ
ツセージの認識率を高くすることができるものである。
の前まfCは後あるいは前後双方に符号vLが付加され
ること。すなわち、符号VHが、VL VH系列、vH
−vL系列、まfc td Vt、−VH−vL系列に
入れ代わること0 音声の入カバターンが変動する他の例としては、母音の
無声化現象が挙げられる。例えば日本人の場合、「私(
ワタクシ)」という言葉@ / W atakusi/
と正確て発音する人よりはむしろ、母音/u/ k飛ば
して/wataksi/と発音する人の方が多いもので
ある0これは母音//U/が無声破裂音A/と無声摩擦
音/8/に挾まれているからであり、一般に■無声破裂
音UBと無声破裂音UB罠挾まれi1個の母音(例えば
/kiQpu/の/l/)や、■無声破裂音UBと無声
摩擦音UPとに挾まれた1個の母音(例えば/wata
scusi/の/U/)、および■無声音と有声子音に
挾まれた1個の母音などは無声化する傾向が非常に強い
0その他にも無声音Uと無音Sの間に挾ま/″した1個
の母音(例えは、/dousa/の/a/)も無音化す
る傾向が若干ある。そこで、一般に無声音と無声音の間
、および無声音と無音の間、ならびに無声音と有声子音
の間に挾まれた1個の母音については、その母音の部分
を有声1vとする基本パターンの他に、その母音の部分
を無声音Uとする分岐パターンを標準パターンに付加し
ておき、上記特定の母音が有声音Vとして明瞭に発音さ
れた場合ておいては基本パターンにより照合判定するこ
とができ、また上記特定の母音があたかも無声音Uであ
るかのように不明瞭に発音された場合においては派生パ
ターンにより照合判定できるようにしておけば、音声メ
ツセージの認識率を高くすることができるものである。
次にこのような基本パターンおよび分岐パターンを有す
る標準パターンを作成する方法について説明する。標準
パターン全作成する方法には大別して2つの方法があり
、lりは音声メツセージ全構成する個々の音素符号およ
びその継続時間勿十−ボード等から入力し、分岐処理つ
0ジラムにより基本パターンおよび分岐パターンを目動
的に作成する方法であり、もうlりは同一の音声メツセ
ージ全発声の仕方ケ変えたりあるいけ発声者を変えたり
しなから複数回登録し、共通する性質を基本パターンと
し、共通しない特異な性質を分岐パターンとして登録す
る学習登録方式であり、前者は演紳法的なものであり後
者V11f6納法的なものであるO まず前者の方法は、例えば第17図足示すように十−ボ
ードφ0)から/s//e〆/n//al /に% /
a/ 。
る標準パターンを作成する方法について説明する。標準
パターン全作成する方法には大別して2つの方法があり
、lりは音声メツセージ全構成する個々の音素符号およ
びその継続時間勿十−ボード等から入力し、分岐処理つ
0ジラムにより基本パターンおよび分岐パターンを目動
的に作成する方法であり、もうlりは同一の音声メツセ
ージ全発声の仕方ケ変えたりあるいけ発声者を変えたり
しなから複数回登録し、共通する性質を基本パターンと
し、共通しない特異な性質を分岐パターンとして登録す
る学習登録方式であり、前者は演紳法的なものであり後
者V11f6納法的なものであるO まず前者の方法は、例えば第17図足示すように十−ボ
ードφ0)から/s//e〆/n//al /に% /
a/ 。
/a//s〆/J /Il//ul /r〆/e/など
の各音素符号とその継続時間と全順次入力して行く力失
であり、まず各音素符号が有声音Vであるか否か?判定
し、有声音■であれば母音/a/については符号vH全
割り当て、母音/I/と有声子音〜/Vにりいては符号
VLk割り当て、その他の有声子音?母音/ei /u
i 10/にりいてけ、符号VH、VM ・vl、のい
ずれにもなり得るものとして分岐パターンを作成する。
の各音素符号とその継続時間と全順次入力して行く力失
であり、まず各音素符号が有声音Vであるか否か?判定
し、有声音■であれば母音/a/については符号vH全
割り当て、母音/I/と有声子音〜/Vにりいては符号
VLk割り当て、その他の有声子音?母音/ei /u
i 10/にりいてけ、符号VH、VM ・vl、のい
ずれにもなり得るものとして分岐パターンを作成する。
また無声音には符号Uを、さらに無音′に−け符号Sを
そのまま割り当てるようにする。次に継続時間を入力し
て継続時間の短い無声音、すなわち無声破裂音について
は符号Uからなる基本パターンの他罠、符号Sからなる
分岐バター、7を付加する。さらに符号系列を入力して
、無声音と無音または無声音あるいは有声子音とに挾ま
れた単母音には、符号Vからなる基本パターンの他に符
号Uからなる分岐パターンを付加するものである0以上
のようにすれば、音声メツセージの認識率?高めるよう
な分岐パターンを基本パターンに付加した標準パターン
?自動的に作成することができるものである〇 次に学習登録方式について説明する。第18図(a)〜
(C)は第2階層リストに対応する符号vHI VM
。
そのまま割り当てるようにする。次に継続時間を入力し
て継続時間の短い無声音、すなわち無声破裂音について
は符号Uからなる基本パターンの他罠、符号Sからなる
分岐バター、7を付加する。さらに符号系列を入力して
、無声音と無音または無声音あるいは有声子音とに挾ま
れた単母音には、符号Vからなる基本パターンの他に符
号Uからなる分岐パターンを付加するものである0以上
のようにすれば、音声メツセージの認識率?高めるよう
な分岐パターンを基本パターンに付加した標準パターン
?自動的に作成することができるものである〇 次に学習登録方式について説明する。第18図(a)〜
(C)は第2階層リストに対応する符号vHI VM
。
VLからなる標準パターン全作成する場合を示しており
、第19図はその作成手順を示すフローチセートである
0まず第18図(a)に示すように同一の言葉全複数回
登録し、正規化された時間klOの領域に分割し、同じ
時間領域で符号が変化しない部分を核パターンとし、同
じ時間領域で符号が変化する部分k VMとする。この
時点で第18図(b)に示すような学習基本パターンが
作成される0次に同じ時間領域でVMかvLになる部分
にはVLの分岐パターン全付加する。ま7′c四じ時間
領域でvMかVHになる部分にはVHの分岐パターンを
作成する。さらに同じ時間領域でVHにもvLにもなる
部分はvMのままrこしておく。この時点で第18図(
C)に示すような分岐パターンを有する学習標準パター
ンが形成される。こうして得られ次学習標準パターンは
標準パターンメモリ(6)に登録記憶されるようになっ
ているものである。
、第19図はその作成手順を示すフローチセートである
0まず第18図(a)に示すように同一の言葉全複数回
登録し、正規化された時間klOの領域に分割し、同じ
時間領域で符号が変化しない部分を核パターンとし、同
じ時間領域で符号が変化する部分k VMとする。この
時点で第18図(b)に示すような学習基本パターンが
作成される0次に同じ時間領域でVMかvLになる部分
にはVLの分岐パターン全付加する。ま7′c四じ時間
領域でvMかVHになる部分にはVHの分岐パターンを
作成する。さらに同じ時間領域でVHにもvLにもなる
部分はvMのままrこしておく。この時点で第18図(
C)に示すような分岐パターンを有する学習標準パター
ンが形成される。こうして得られ次学習標準パターンは
標準パターンメモリ(6)に登録記憶されるようになっ
ているものである。
しかして本発明においては、かかる学習登録方式と非学
習登録方式とt折衷した登録処理部(41tl−設けて
おり、纂20図にその)O−チャートを示す。まず登録
処理郁鴎に入力されたデータは第1階層リストの内に、
5−U−V系列またはS−■系列があるか否かを判定さ
れ、もしあれば5−U−V系列とS−■系列のいずれの
符号系列tも含むような標準パターンが形成される0次
に第2階層リストについては上述の第19図に示すよう
な学習モードにより標準パターンを作成する場合と非学
習七−ドにより標準パターンを作成する場合と會切り換
え得るようになっており、一方のモードでうまく行かな
いときKは他方のt−ド會使用できるようになっている
。しかして学習モードの動作については第19図の70
−チャートによりすでに説明したので、非学1it−ド
によって第2階層リストに対する標準パターンを作成す
る場合の動作について、第21図のフ0−チセートによ
り説明する。まず第8階層リストの最初の符号がVt、
であれば、基本パターン5T−Vt、と派生パターン5
T−v、、と金含む標準パターンを作成する。筐た最初
の符号がVHであれば基本パターンS T −Vt −
VHの他に、2りの派生バ9− y ST−VM−VH
(!: 5T−Vt、 −vMとを含む標準パターン?
作成する。さらに最初の符号がVMであれば基本パター
ン5T−v、、のみの標準パターンを作成する0次に最
後の符号か■Hr VL * VMのうちいずれである
か、および最初の符号と最後の符号との間に含まれる各
符号がVL VH系列か、VH−VL系列かに応じてそ
れぞれ、第21図の70−チャートに記載したような分
岐パターン付きの標準パターンが自動的に形成されるも
のである。
習登録方式とt折衷した登録処理部(41tl−設けて
おり、纂20図にその)O−チャートを示す。まず登録
処理郁鴎に入力されたデータは第1階層リストの内に、
5−U−V系列またはS−■系列があるか否かを判定さ
れ、もしあれば5−U−V系列とS−■系列のいずれの
符号系列tも含むような標準パターンが形成される0次
に第2階層リストについては上述の第19図に示すよう
な学習モードにより標準パターンを作成する場合と非学
習七−ドにより標準パターンを作成する場合と會切り換
え得るようになっており、一方のモードでうまく行かな
いときKは他方のt−ド會使用できるようになっている
。しかして学習モードの動作については第19図の70
−チャートによりすでに説明したので、非学1it−ド
によって第2階層リストに対する標準パターンを作成す
る場合の動作について、第21図のフ0−チセートによ
り説明する。まず第8階層リストの最初の符号がVt、
であれば、基本パターン5T−Vt、と派生パターン5
T−v、、と金含む標準パターンを作成する。筐た最初
の符号がVHであれば基本パターンS T −Vt −
VHの他に、2りの派生バ9− y ST−VM−VH
(!: 5T−Vt、 −vMとを含む標準パターン?
作成する。さらに最初の符号がVMであれば基本パター
ン5T−v、、のみの標準パターンを作成する0次に最
後の符号か■Hr VL * VMのうちいずれである
か、および最初の符号と最後の符号との間に含まれる各
符号がVL VH系列か、VH−VL系列かに応じてそ
れぞれ、第21図の70−チャートに記載したような分
岐パターン付きの標準パターンが自動的に形成されるも
のである。
ところでこのようにして第2階層リストに対する標準パ
ターン?作成する場合には、符号VHと符号VLの識別
ケ正しく行なう必要がある0上述のように符号Vnii
高域有声音(/a/グループ)K対応し、符号vLは低
域有声音(/i/ジルー″”)”)VC対応するもので
あるが、本発明にありては、第22図に示すようにVH
分析系とVt分析糸の出力のバランスを調節するバラン
ス脚部用の可変抵抗VR+とオフセット調節用の可変抵
抗V Rsと上膜けて、母音/a/會発声したときVc
Fi必ず符号■Hが検出され、母音/V’を発声したと
きには必ず符号Vtが検出されるようにしているもので
ある0ところが厳密にVi話者の個性によってこのバラ
ンスの最適値は異なることがある。そこで本発明者らは
、母音/e/を自然に発生したと1!にVH/VL差信
号がぜ0になるようにノSランス1t14I!−すれば
よいことを見出したものである。第28図はその賭理會
示すものであり、同図に示すように母音/a/の第1ホ
ルマントは500Hz−IKH2に分布し、母音/i/
の第1ホルマントはθ〜500H2に分布しているもの
であるが1母音/e/の第1ホルマシトは大体その中間
に位置している。したがって母音/e/?基準にしてv
HとvLのバランス調整を行なうとバランスの最適値が
得られるものである。
ターン?作成する場合には、符号VHと符号VLの識別
ケ正しく行なう必要がある0上述のように符号Vnii
高域有声音(/a/グループ)K対応し、符号vLは低
域有声音(/i/ジルー″”)”)VC対応するもので
あるが、本発明にありては、第22図に示すようにVH
分析系とVt分析糸の出力のバランスを調節するバラン
ス脚部用の可変抵抗VR+とオフセット調節用の可変抵
抗V Rsと上膜けて、母音/a/會発声したときVc
Fi必ず符号■Hが検出され、母音/V’を発声したと
きには必ず符号Vtが検出されるようにしているもので
ある0ところが厳密にVi話者の個性によってこのバラ
ンスの最適値は異なることがある。そこで本発明者らは
、母音/e/を自然に発生したと1!にVH/VL差信
号がぜ0になるようにノSランス1t14I!−すれば
よいことを見出したものである。第28図はその賭理會
示すものであり、同図に示すように母音/a/の第1ホ
ルマントは500Hz−IKH2に分布し、母音/i/
の第1ホルマントはθ〜500H2に分布しているもの
であるが1母音/e/の第1ホルマシトは大体その中間
に位置している。したがって母音/e/?基準にしてv
HとvLのバランス調整を行なうとバランスの最適値が
得られるものである。
最後に2次階層リストについて各符号VH,VM。
vLの継続時間等を考慮に入れた照合の方法について説
明する。菖24図Vi2次階層リストの3通りの照合識
別方式會示すフO−チP−トであり、最も適当ないずれ
か1つの方法を選択して使用するものである0まず第1
の万fIKは1つの音声メツセージに含まれる複数個の
有声fV1〜Vnについて、その中罠含丈れている符号
で穀も多いものはvHであるかvMであるかvLである
かを照合するものであり、また第2の方法は各有声音v
1〜Vnに含埜れているVHの割合が入カバターンと標
準パターンとで一致するか否か全照合するものであり、
さらに第8の方法は入カバターシにおけるVMが標準バ
タ−ンのvHまたは■Lに合致するものの数と、標準パ
ターンにおけるvMが入カバターンのvHまたはvLV
c合致するものの数とtリストアツブして照合するもの
である。しかして音声メツセージ中のすべての有声音V
+〜VnlCついて、上記8種類の照合方法のうち最も
適当ないずれかlりの照合方法を用いて入カバターンと
複数の標準パターンとを照合し、最もよく特徴の一致す
る標準パターンを判定するようにしているものである。
明する。菖24図Vi2次階層リストの3通りの照合識
別方式會示すフO−チP−トであり、最も適当ないずれ
か1つの方法を選択して使用するものである0まず第1
の万fIKは1つの音声メツセージに含まれる複数個の
有声fV1〜Vnについて、その中罠含丈れている符号
で穀も多いものはvHであるかvMであるかvLである
かを照合するものであり、また第2の方法は各有声音v
1〜Vnに含埜れているVHの割合が入カバターンと標
準パターンとで一致するか否か全照合するものであり、
さらに第8の方法は入カバターシにおけるVMが標準バ
タ−ンのvHまたは■Lに合致するものの数と、標準パ
ターンにおけるvMが入カバターンのvHまたはvLV
c合致するものの数とtリストアツブして照合するもの
である。しかして音声メツセージ中のすべての有声音V
+〜VnlCついて、上記8種類の照合方法のうち最も
適当ないずれかlりの照合方法を用いて入カバターンと
複数の標準パターンとを照合し、最もよく特徴の一致す
る標準パターンを判定するようにしているものである。
なお本発明においては入カバターンと照合される標準パ
ターンとして、基本パターンの他に基本パターンから分
岐する分岐パターンを設けて、複数の派生パターン全形
成できるようにし、基本パターンまたは複数の派生パタ
ーンのうちのいずれかが入カバターンに一致するか否か
?判定できるようにしているが、これとは反対に、入カ
バターンの方を様々に変化させるようにすれば、標準パ
ターンは一意的なものとすることも可能である。
ターンとして、基本パターンの他に基本パターンから分
岐する分岐パターンを設けて、複数の派生パターン全形
成できるようにし、基本パターンまたは複数の派生パタ
ーンのうちのいずれかが入カバターンに一致するか否か
?判定できるようにしているが、これとは反対に、入カ
バターンの方を様々に変化させるようにすれば、標準パ
ターンは一意的なものとすることも可能である。
すなわち入カバターンから欠落した無声破裂音?補なり
たり、無声化された母音を元に戻したりするような操作
を行なって、1つの入カバターンから複数の派生入カバ
ターン?作成し、これ’k1通りの標準パターンと照合
するように構成すれば標準パターンケ変動させる場合と
同様に認識率ケ高くすることができるものである。
たり、無声化された母音を元に戻したりするような操作
を行なって、1つの入カバターンから複数の派生入カバ
ターン?作成し、これ’k1通りの標準パターンと照合
するように構成すれば標準パターンケ変動させる場合と
同様に認識率ケ高くすることができるものである。
本発明の音声メツセージ認識方式は以上のように構成さ
れており、音声入力から異なる周波数成分を取り出すフ
ィルタの差信号出力のレベルの大小に応じて、音声メツ
セージを第1 、第2.第8の各符号の時系列からなる
入力パターンに変換し、この入カバターンを予め記録さ
れている複数種の標準パターンと照合して入力メツセー
ジを識別する方式において、同一の音声メツセージを異
なる態様で複数回入力したときに最も高い確率で生じる
入カバターンを基本パターンとし、基本パターンよりも
低い確率で生じる入カバターシ?派生パターンとし、こ
の派生パターンと上記基本パターンとのパターンが一致
しない部分を基本パターンから分岐する分岐パターンと
して予め記録し、入カバi−ンを基本パターンと照合し
て符合しないときには基本パターンと分岐パターンとの
組合せによって生じる派生バターyk人カバターシと照
合するような分岐照合処理の可能な標準パターンを設け
るようrこしたものであるから、発声者の性別や年齢尭
9発声速度差、あるいは万dVcよる訛などによって入
力される音声メツセージの特徴が微妙に変動しても、基
本パターンと分岐パターンとの組合せによって生じる様
々な派生パターンと照合することによって基本パターン
と若干異なる入カバターンでも充分に認識することがで
きるという利点があり、また本発明においては最も筒い
確率で生じる入カバターシを基本パターンとし、基本パ
ターンよりも低い確率で生じる派生パターン?基本パタ
ーンから分岐する分岐パターンの形式で記録するように
したものであるから、非常に多くの派生パターンをきわ
めて少ないメ七り容置で記録しておくことができ、した
がりてきわめて高い認識率を有しながらしかも安価な音
声メツセージ識別方式を実現することができるという利
点ケ有するものである。
れており、音声入力から異なる周波数成分を取り出すフ
ィルタの差信号出力のレベルの大小に応じて、音声メツ
セージを第1 、第2.第8の各符号の時系列からなる
入力パターンに変換し、この入カバターンを予め記録さ
れている複数種の標準パターンと照合して入力メツセー
ジを識別する方式において、同一の音声メツセージを異
なる態様で複数回入力したときに最も高い確率で生じる
入カバターンを基本パターンとし、基本パターンよりも
低い確率で生じる入カバターシ?派生パターンとし、こ
の派生パターンと上記基本パターンとのパターンが一致
しない部分を基本パターンから分岐する分岐パターンと
して予め記録し、入カバi−ンを基本パターンと照合し
て符合しないときには基本パターンと分岐パターンとの
組合せによって生じる派生バターyk人カバターシと照
合するような分岐照合処理の可能な標準パターンを設け
るようrこしたものであるから、発声者の性別や年齢尭
9発声速度差、あるいは万dVcよる訛などによって入
力される音声メツセージの特徴が微妙に変動しても、基
本パターンと分岐パターンとの組合せによって生じる様
々な派生パターンと照合することによって基本パターン
と若干異なる入カバターンでも充分に認識することがで
きるという利点があり、また本発明においては最も筒い
確率で生じる入カバターシを基本パターンとし、基本パ
ターンよりも低い確率で生じる派生パターン?基本パタ
ーンから分岐する分岐パターンの形式で記録するように
したものであるから、非常に多くの派生パターンをきわ
めて少ないメ七り容置で記録しておくことができ、した
がりてきわめて高い認識率を有しながらしかも安価な音
声メツセージ識別方式を実現することができるという利
点ケ有するものである。
また特許請求の範囲第9項記載の併合発明にありては、
標準パターンの記録動作時に同一の音声メッセー!;を
異なる態様で複数回入力することにより形成される複数
個の入カバターンをそれぞれ一定時間間隔ごとに時分割
して、各時分割された区間のうち、符号が変動しない区
間については当該変動しない符号を核パターンとして割
り当て、符号が変動する区間についてはすべて第8の符
号全開り当てて、この第8の符号と核パターンとにより
基本パターンを作成し、符号が変動する区間のうち、符
号が第1の符号になり得ない区間については、第2の符
号からなる分岐パターン?基本パターンに付加し、符号
が第2の符号になり得ない区間については、第1の符号
からなる分岐パターン?基本パターンに付加し、基本パ
ターンと分岐パターンとを標準パターンとして予め記録
しておくようにしたものであるから、同一の音声メッセ
ージケ発声者を変えながら複数回登録したり、あるいは
同一の発声者が発声の態様を変えながら同一の音声メツ
セージを複数回登録したりすることにより、各音声メツ
セージに共通する性質を基本パターンとして自動的に抽
出することができ、筐た各音声メツセージに共通しない
特異な性質全分岐パターンとして自動的に基本パターン
に付加することができ、分岐照合処理を行なう標準l\
ターンの作成作業を着しく容易にすることができるとい
う利点を有するものである0 なお上記音声メツセージ識別方式において、第1、第2
.および第8の符号として有声音、無声音、および無音
に対応する符号を使用したり、高域有声音、低域有声音
、および中域有声音に対応する符号を使用したりするよ
うにすれば、音声の構造に応じ次照合動作を行なうこと
ができるので認識率?著しく高めることができるもので
ある。
標準パターンの記録動作時に同一の音声メッセー!;を
異なる態様で複数回入力することにより形成される複数
個の入カバターンをそれぞれ一定時間間隔ごとに時分割
して、各時分割された区間のうち、符号が変動しない区
間については当該変動しない符号を核パターンとして割
り当て、符号が変動する区間についてはすべて第8の符
号全開り当てて、この第8の符号と核パターンとにより
基本パターンを作成し、符号が変動する区間のうち、符
号が第1の符号になり得ない区間については、第2の符
号からなる分岐パターン?基本パターンに付加し、符号
が第2の符号になり得ない区間については、第1の符号
からなる分岐パターン?基本パターンに付加し、基本パ
ターンと分岐パターンとを標準パターンとして予め記録
しておくようにしたものであるから、同一の音声メッセ
ージケ発声者を変えながら複数回登録したり、あるいは
同一の発声者が発声の態様を変えながら同一の音声メツ
セージを複数回登録したりすることにより、各音声メツ
セージに共通する性質を基本パターンとして自動的に抽
出することができ、筐た各音声メツセージに共通しない
特異な性質全分岐パターンとして自動的に基本パターン
に付加することができ、分岐照合処理を行なう標準l\
ターンの作成作業を着しく容易にすることができるとい
う利点を有するものである0 なお上記音声メツセージ識別方式において、第1、第2
.および第8の符号として有声音、無声音、および無音
に対応する符号を使用したり、高域有声音、低域有声音
、および中域有声音に対応する符号を使用したりするよ
うにすれば、音声の構造に応じ次照合動作を行なうこと
ができるので認識率?著しく高めることができるもので
ある。
第1図は従来例のブロック図、第2図(a) (b)は
同上の動作波形図、第8図は本発明の一実施例の全体構
成を示すブロック図、第41囚(a) (b) Fi同
上の波形整形処理部の動作を示す波形図、第5図は同上
の波形整形処理部の納作會示す流れ図、第6図は同上の
コンポジット符号化処理部の動作ケ示すフ0−チP−ト
、第7図(a) (b)は同上の符号化処理部のブロッ
ク図、第8図は同上の階層化処理部の動作を示す流れ図
、第9図は同上の正規化処理部の動作全示す流れ図、第
1θ図(a) (b)は距離計算照合部の動作を示す波
形図、第11図は音声の特I7を階層化して示した図、
第12図は音声の周波数スペクトルを示す図、第18図
(a) (b)は音声から抽出した信号の波形図、第1
4図は本発明の分岐照合処理の原理を示す図、第15図
は音声の第1階層リストを示す図、第16図(a)〜(
d)は音声の再2階層リストを示す図、第17図は音声
の標準へターンを作成する装置の動作を示す流れ図、第
18図(a) (b)(c)は学習登録方式の原理を示
す図、第19図は学習登録方式の動作を示す図、第20
図は本発明における登録処理部の動作?示す流れ図、第
21図は同上の非学習登録処理の動作?示す流れ図、第
22図は同上の音声分析部の回路図、第23図は母音/
a〆/i〆/e/の第1ホルマントの周波数分布?示す
図、第24図は本発明の判定処理部の動作を示す流れ図
である。+51 +61 HHはフィルタバンクA輔り
け柳準バターシメ七り、(4eけ登録欠を連部である。 代理人 弁理士 石 1)長 七 第17図 −706− 第22図 0 500Hz I
KHz第24x 手続補正書(自発) 昭和56年12月28日 1、事件の表示 昭和56年特許願第193556号 2、発 明の名称 音声メツセージ識別方式 3、補正をする者 事件との関係 特許出願人件 所
大阪府門真市太字門真1048番地名 称 (58
3)松下電工株式会社 代表者神 前 善 − 4、代理人 郵便番号 530 5、補正命令の日付 自 発 訂 正 書 出願番号 特許1召56−193556Ji3′1、本
顯明M書第28頁第15行目の全文を次のように訂正致
します。 [きるものである。第25図(a)は母音/ a /、
/ i /、/u/、/ e /、10/の調音点を示
しており、同図(b)は母音の第1ホルマントと第2ポ
ルマントの周波数分布を示している(電子通信学会(三
浦博士監修)「新版聴覚と音声」のp363〜p364
より引用)。また第26図は日本語の母音の第1ホルマ
ントお裏び第2ホルマントの分布を男声および女声の場
合について各別に示したものである。第25図(b)お
工び第26図に示された第2ホルマシトの分布を見れば
明らかなように約0.8〜1.8 KHzの帯域フィル
タと約1.8〜3゜2 KHzの帯域フィルタの出力と
を分析すれば、第2ホルマントの位置を検出することが
でき、これによって舌の位置の前後に対応した特徴をも
抽出することができるものである。もっともそこまで微
視的な特徴を抽出しなくてもJ 2、 1riJ l第43頁第9行目の「ものである。 」の後に次の文全挿入致します。 [さらに入力パターンと標準パターンとの一致度合を各
サンプルごとに対応する点数+1. 0、−1で評価し
、合計点数でヤJ定することも可能である。第4表はか
かる点数付けの方法を示すものであり、その基本的な考
え方は上述の3値化された符号同士の相互相関&数6計
算する場合とほとんど同じである。しかして第4表の規
則に従って点数付けを行ない、各サシづル毎に計算した
点数の総計が予め定められた所定値以上であるときには
一致すると判定し、所定値以下であるときに#−t一致
しないと判定するものである。したがってサンプルの合
計が1000であるとすると、パターンが完全に一致し
たときには点数の合計は1000となるものである。 第4表 」 3、同上第49負第1行目の[である。]の前に「、第
25図(a)は母音の調音点を示す図、同図(b)およ
び第26図は第1ホルマントおよび第2ポルマントの周
波数分布を示す図」を挿入致し捷す。 4、添付図面中、第25図および第26図を別紙のよう
に追加致します。 代理人 弁理士 石 1)長 七 (4) 第25図 (b) +1ホルマ斗 第26図 1本ルマシト (KHz)
同上の動作波形図、第8図は本発明の一実施例の全体構
成を示すブロック図、第41囚(a) (b) Fi同
上の波形整形処理部の動作を示す波形図、第5図は同上
の波形整形処理部の納作會示す流れ図、第6図は同上の
コンポジット符号化処理部の動作ケ示すフ0−チP−ト
、第7図(a) (b)は同上の符号化処理部のブロッ
ク図、第8図は同上の階層化処理部の動作を示す流れ図
、第9図は同上の正規化処理部の動作全示す流れ図、第
1θ図(a) (b)は距離計算照合部の動作を示す波
形図、第11図は音声の特I7を階層化して示した図、
第12図は音声の周波数スペクトルを示す図、第18図
(a) (b)は音声から抽出した信号の波形図、第1
4図は本発明の分岐照合処理の原理を示す図、第15図
は音声の第1階層リストを示す図、第16図(a)〜(
d)は音声の再2階層リストを示す図、第17図は音声
の標準へターンを作成する装置の動作を示す流れ図、第
18図(a) (b)(c)は学習登録方式の原理を示
す図、第19図は学習登録方式の動作を示す図、第20
図は本発明における登録処理部の動作?示す流れ図、第
21図は同上の非学習登録処理の動作?示す流れ図、第
22図は同上の音声分析部の回路図、第23図は母音/
a〆/i〆/e/の第1ホルマントの周波数分布?示す
図、第24図は本発明の判定処理部の動作を示す流れ図
である。+51 +61 HHはフィルタバンクA輔り
け柳準バターシメ七り、(4eけ登録欠を連部である。 代理人 弁理士 石 1)長 七 第17図 −706− 第22図 0 500Hz I
KHz第24x 手続補正書(自発) 昭和56年12月28日 1、事件の表示 昭和56年特許願第193556号 2、発 明の名称 音声メツセージ識別方式 3、補正をする者 事件との関係 特許出願人件 所
大阪府門真市太字門真1048番地名 称 (58
3)松下電工株式会社 代表者神 前 善 − 4、代理人 郵便番号 530 5、補正命令の日付 自 発 訂 正 書 出願番号 特許1召56−193556Ji3′1、本
顯明M書第28頁第15行目の全文を次のように訂正致
します。 [きるものである。第25図(a)は母音/ a /、
/ i /、/u/、/ e /、10/の調音点を示
しており、同図(b)は母音の第1ホルマントと第2ポ
ルマントの周波数分布を示している(電子通信学会(三
浦博士監修)「新版聴覚と音声」のp363〜p364
より引用)。また第26図は日本語の母音の第1ホルマ
ントお裏び第2ホルマントの分布を男声および女声の場
合について各別に示したものである。第25図(b)お
工び第26図に示された第2ホルマシトの分布を見れば
明らかなように約0.8〜1.8 KHzの帯域フィル
タと約1.8〜3゜2 KHzの帯域フィルタの出力と
を分析すれば、第2ホルマントの位置を検出することが
でき、これによって舌の位置の前後に対応した特徴をも
抽出することができるものである。もっともそこまで微
視的な特徴を抽出しなくてもJ 2、 1riJ l第43頁第9行目の「ものである。 」の後に次の文全挿入致します。 [さらに入力パターンと標準パターンとの一致度合を各
サンプルごとに対応する点数+1. 0、−1で評価し
、合計点数でヤJ定することも可能である。第4表はか
かる点数付けの方法を示すものであり、その基本的な考
え方は上述の3値化された符号同士の相互相関&数6計
算する場合とほとんど同じである。しかして第4表の規
則に従って点数付けを行ない、各サシづル毎に計算した
点数の総計が予め定められた所定値以上であるときには
一致すると判定し、所定値以下であるときに#−t一致
しないと判定するものである。したがってサンプルの合
計が1000であるとすると、パターンが完全に一致し
たときには点数の合計は1000となるものである。 第4表 」 3、同上第49負第1行目の[である。]の前に「、第
25図(a)は母音の調音点を示す図、同図(b)およ
び第26図は第1ホルマントおよび第2ポルマントの周
波数分布を示す図」を挿入致し捷す。 4、添付図面中、第25図および第26図を別紙のよう
に追加致します。 代理人 弁理士 石 1)長 七 (4) 第25図 (b) +1ホルマ斗 第26図 1本ルマシト (KHz)
Claims (1)
- 【特許請求の範囲】 il+ 音声入力から異なる周波数成分を取り出すフ
ィルタの差信号出力が第1の基準値以上のときには第1
の符号?、第2の基準値以下のときには第2の符号を、
第1の基準値以下でかつ第2の基準値以上のときにFi
第8の符号?それぞれ割り当てることにより、入力され
た音声メツセージに対して第1 、第2 、第8の各符
号の時系列からなる入力パターンケ作成し、この人カバ
ターシを予め記録されている複数種の標準パターンと照
合して入カバターシとの距離が最小となる標準パターン
を入力メツセージとして識別する方式において、同一の
音声メツセージを異なる態様で複数回入力したときに最
も高い確率で生じる入カバターンを基本パターンとし、
基本パターンよりも低い確率で生じる入カバターンを派
生パターンとし、この派生パターンと上記基本パターン
とのパターンが一致しない部分を基本パターンから分岐
する分岐パターンとして予め記録し、入力バター:、I
を基本パターンと照合して符合しないときには基本パタ
ーンと分岐パターンとの組合せによって生じる派生パタ
ーンを人カバターンと照合するような分岐照合処理の可
能な標準バター、7を設けて成ることを特徴とする音声
メツセージ識別方式。 (21有声音のエネルギが集中するlKH2以下の低周
波成分を抽出するフィルタと、無声音のエネルギが集中
する2 KHz ” 12KHzの高周波成分を抽出す
るフィルタとの差信号出力により、有声音。 無声音、および無音の8也の符号の時系列からなる入カ
バターンを作成して、標準パターンと照合するようにし
て成ることを特徴とする特許請求の範囲第1項記載の音
声メツセージ識別方式。 (3)有声音の区間においては、母音/a/のような高
域有声音のエネルギが集中する500Hz〜lKH2の
成分を抽出するフィルタと、母音/i/のような低域有
声音のエネル手が集中する500Hz以下の成分を抽出
するフィルタの差信号出力により、高域有声音、低域有
声音、および中域有声音の8種の符号の時系列からなる
入カバターンを作成して、標準パターンと照合するよう
にして成ることを特徴とする特許請求の範囲第2項記載
の音声メツセージ識別方式。 (4)基本パターンを構成する有声音、無声音。 および無音の時系列の中に、継続時間の短い無声音が含
まれている場合には、当該無声音の部分全無音に置き換
える分岐パターン全基本パターンに付加して成ること全
特徴とする特許請求の範囲第2項記載の音声メツセージ
識別方式。 (11)有声音区間の基本パターン?構成する高域有声
音、低域有声音、および中域有声音の時系列の中に、高
域有声音から低域有声音に遷移する時系列がある場合に
は、当該時系列を高域有声音から中域有声音に遷移する
時系列および中域有声音から低域有声音に遷移する時系
列のいずれにも置換し得るような分岐パターン全基本パ
ターンに付加して成ることを特徴とする特許請求の範囲
第8項記載の音声メツセージ識別方式。 (6)有声音区間の基本パターン?構成する高域有声音
、低域有声音、および中域有声音の時系列の中に、低域
有声音から高域有声音に遷移する時系列がある場合には
、当該時系列を低域有声音から中域有声音に遷移する時
系列および中域有声音から高域有声音に遷移する時系列
のいずれにも置換し得るような分岐パターンを基本パタ
ーシに付加して成ることを特徴とする特許請求の範囲第
8項記載の音声メツセージ識別方式。 (7)有声音区間の基本パターンを構成する高域有声音
、低域有声音、および中域有声音の時系列の中に高域有
声音が含まれている場合には、低域有声音を上記高域有
声音の前、後、および前後双方のうちいずれかに付加し
た時系列を作成するような分岐パターシを基本パターン
に付加して成ることを特徴とする特許請求の範囲第8項
記載の音声メツセージ識別方式。 (8)基本パターン?構成する有声音、無声音。 および無音の時系列の中に、無声音と無声音に挾まれた
短い有声音がある場合、および無声音と無音に挾まれた
短い有声音がある場合には、当該有声音の部分を無声音
に置き換える分岐パターンを基本パターンに付加して成
ることを特徴とする特許請求の範囲第2項記載の音声メ
ツセージ識別方式0 (9) 音声入力から異なる周波数成分を取り出すフ
ィルタの差信号出力が第1の基準値以上のときには第1
の符号を、第2の基準値以下のときには第2の符号を、
第1の基準値以下でかつ第2の基準値以上のときには第
8の符号をそれぞれ割り当てることにより、入力された
音声メツセー、;に対して第1.第2.第8の各符号の
時系列からなる入力バター:/に作成し、この入カバタ
ーンを予め記録されている複数種の標準パターンと照合
して入カバターンとの距離が最小となる標準パターンを
入カメ・リセージとして識別する方式において、標準パ
ターンの記録動作時に同一の音声メツセージを異なる態
様で複数回入力することにより形成される複数個の入カ
バターンをそれぞれ一定時間間隔ごとに時分割して、各
時分割された区間のうち、符号が変動しない区間につい
ては当該変動しない符号を核パターンとして割り当て、
符号が変動する区間についてはすべて第3の符号を割り
当てて、この第8の符号と核パターンとにより基本パタ
ーンを作成し、符号が変動する区間のうち、符号が第1
の符号になり得ない区間については、第2の符号からな
る分岐パターンを基本パターシに付加し、符号が第2の
符号になり得ない区間については、第1の符号からなる
分岐パターン全基本パターシに付加し、基本バターシと
分岐パターンとを標準バターシとして予め記録して、入
カバターンを基本パターンと照合して符合しない場合に
は基本パターンと分岐パターシとの組合せによって生じ
る派生パターンを人カバターンと照合するような分岐照
合処理を行なうようにして成ることを特徴とする音声メ
ツセージ識別方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56193556A JPS5895399A (ja) | 1981-11-30 | 1981-11-30 | 音声メッセージ識別方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56193556A JPS5895399A (ja) | 1981-11-30 | 1981-11-30 | 音声メッセージ識別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5895399A true JPS5895399A (ja) | 1983-06-06 |
JPS6331798B2 JPS6331798B2 (ja) | 1988-06-27 |
Family
ID=16310005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56193556A Granted JPS5895399A (ja) | 1981-11-30 | 1981-11-30 | 音声メッセージ識別方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5895399A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6243697A (ja) * | 1985-08-20 | 1987-02-25 | 三洋電機株式会社 | 音声分析装置 |
JP2012252060A (ja) * | 2011-05-31 | 2012-12-20 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
JP2013011680A (ja) * | 2011-06-28 | 2013-01-17 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4949361A (ja) * | 1972-09-19 | 1974-05-13 | ||
JPS5085203A (ja) * | 1973-11-29 | 1975-07-09 | ||
JPS5162904A (en) * | 1974-11-30 | 1976-05-31 | Fujitsu Ltd | Onseininshikihoshiki |
-
1981
- 1981-11-30 JP JP56193556A patent/JPS5895399A/ja active Granted
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4949361A (ja) * | 1972-09-19 | 1974-05-13 | ||
JPS5085203A (ja) * | 1973-11-29 | 1975-07-09 | ||
JPS5162904A (en) * | 1974-11-30 | 1976-05-31 | Fujitsu Ltd | Onseininshikihoshiki |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6243697A (ja) * | 1985-08-20 | 1987-02-25 | 三洋電機株式会社 | 音声分析装置 |
JP2012252060A (ja) * | 2011-05-31 | 2012-12-20 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
JP2013011680A (ja) * | 2011-06-28 | 2013-01-17 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
Also Published As
Publication number | Publication date |
---|---|
JPS6331798B2 (ja) | 1988-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Holmes | Speech synthesis and recognition | |
Johnson et al. | Music and lyrics interactions and their influence on recognition of sung words: An investigation of word frequency, rhyme, metric stress, vocal timbre, melisma, and repetition priming | |
EP1606793A1 (en) | Speech recognition method | |
JPS6147440B2 (ja) | ||
Alotaibi | Investigating spoken Arabic digits in speech recognition setting | |
Shen | Ability of learning the prosody of an intonational language by speakers of a tonal language: Chinese speakers learning French prosody | |
Wells et al. | Phonetic analysis of self-supervised representations of english speech | |
Raso et al. | Modeling the prosodic forms of Discourse Markers | |
Padmini et al. | Age-Based Automatic Voice Conversion Using Blood Relation for Voice Impaired. | |
JPS5895399A (ja) | 音声メッセージ識別方法 | |
Ramteke et al. | Efficient model for numerical text-to-speech synthesis system in Marathi, Hindi and English languages | |
Do et al. | Vietnamese Text-To-Speech system with precise tone generation | |
Hlaing et al. | Myanmar speech synthesis system by using phoneme concatenation method | |
Arslan | Foreign accent classification in American English | |
JPS5895400A (ja) | 音声メツセ−ジ識別方式 | |
Luthra et al. | Punjabi speech generation system based on phonemes | |
Ata | An acoustic study of Nigerian English vowels produced by Hausa speakers | |
Altamrah et al. | An acoustic analysis and comparison of two unique and almost identical arabic emphatic phonemes | |
Sbattella et al. | Kaspar: a prosodic multimodal software for dyslexia | |
Dessai et al. | Development of Konkani TTS system using concatenative synthesis | |
Apopei et al. | Towards prosodic phrasing of spontaneous and reading speech for Romanian corpora | |
Datta et al. | Time Domain Representation of Speech Sounds | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
Ghosh et al. | End-to-End Acoustic Feedback in Language Learning for Correcting Devoiced French Final-Fricatives | |
JPS5895398A (ja) | 音声メッセージ識別方法 |