JPS5895400A - Voice message identification system - Google Patents

Voice message identification system

Info

Publication number
JPS5895400A
JPS5895400A JP19355781A JP19355781A JPS5895400A JP S5895400 A JPS5895400 A JP S5895400A JP 19355781 A JP19355781 A JP 19355781A JP 19355781 A JP19355781 A JP 19355781A JP S5895400 A JPS5895400 A JP S5895400A
Authority
JP
Japan
Prior art keywords
voiced
frequency
section
sound
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP19355781A
Other languages
Japanese (ja)
Other versions
JPS6245560B2 (en
Inventor
湯浅 啓義
大村 皓一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP19355781A priority Critical patent/JPS5895400A/en
Publication of JPS5895400A publication Critical patent/JPS5895400A/en
Publication of JPS6245560B2 publication Critical patent/JPS6245560B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 本発明は被制御機器を音声メツセージによって操作する
だめの音声メツセージ識別方式に関するものであり、そ
の目的とするところは、音声の構造に基いて効率的に照
合処理を行なうことかできるようにした音声メ・シセー
ジ識別方式を提供するにあ゛る。
[Detailed Description of the Invention] The present invention relates to a voice message identification method for operating a controlled device using voice messages, and its purpose is to efficiently perform verification processing based on the structure of the voice. The purpose of the present invention is to provide a voice message identification method that allows the user to perform the following tasks.

以下本発明の構成を図示実施例によって説明する。第1
図は本発明による音声メ・リセージ識別装置のハードウ
ェア的な概略構成を示すプ0・ツク図であり、第3図は
同装置の処理機能を″jOツク化して示したものである
。まず第1図において音声はマイク+1)から入り、プ
リアンプ(2)で高域強調され、LOGアンプ(3)で
対数変換されてヂシベ)し値に比例する出力になり、A
Cアンづ14)で交流成分のみが増幅される。次に低周
波用フィルタバンク(5)で低周波成分(L KHz以
下)をとり出し、高周波用フィルタノヘシク(8)で高
周波成分(5KHz /v12KHz)をとり出す。フ
ィルタバンクill +61は各帯域毎に帯域フィルタ
CF+) (F2)、整流回路(D+XDg)、積分回
路よりなる平均化回路(M+)(tti2)で構成され
ている。低周波用フィルタバンクの積分回路(Ml)は
時定数5〜10m5ec程度、高周波用フィルタバシク
ノ積分回路(M2)は時定数1 /−”l tnwwr
穆度に設定されている。両フイ1しタバシク−6) t
6)の各出力は差動アンプ(7)に入力され、その出力
すなわち高周波成分と低周波成分の差が時定数2077
1 式程度の積が回路よりなる平均1し回路:8)で平
均化される。
The structure of the present invention will be explained below with reference to illustrated embodiments. 1st
The figure is a block diagram showing the schematic hardware configuration of the voice message identification device according to the present invention, and FIG. In Figure 1, the sound enters from the microphone +1), is emphasized in the high range by the preamplifier (2), is logarithmically converted by the LOG amplifier (3), and becomes an output proportional to the value of A.
Only the alternating current component is amplified by the C amplifier 14). Next, a low frequency filter bank (5) extracts a low frequency component (L KHz or less), and a high frequency filter bank (8) extracts a high frequency component (5 KHz/v12 KHz). The filter bank ill +61 is composed of a bandpass filter CF+) (F2), a rectifier circuit (D+XDg), and an averaging circuit (M+) (tti2) consisting of an integrating circuit for each band. The low frequency filter bank integrator circuit (Ml) has a time constant of about 5 to 10 m5ec, and the high frequency filter bank integrator circuit (M2) has a time constant of 1 /-"l tnwwr
It is set to a high degree of purity. Both feet 1 and 6) t
Each output of 6) is input to the differential amplifier (7), and the output, that is, the difference between the high frequency component and the low frequency component, has a time constant of 2077.
The products of about 1 equation are averaged by an average circuit consisting of a circuit: 8).

この平均(ヒ回路□、8)から出力されるアナログ信号
電圧y +t)は入力音声中に含まれる有声音Vと無声
音Uの比率を衣わしている。第2図(a) (b)は当
社の音声制御式あんま椅子の音声入力例「もみFげセッ
ト」に対するアナ0/)信号波形y (t)を示したも
のであり、本実施例では有声音■はづうス、無声音Uは
マイナスの値をとっている。この信号電圧y (t)を
V判定回路(81および15判定回路(lO)に加え、
りn1リク発生回路Ql)からのりOIツクCKによっ
て(5) =7°1 一定周期毎にサンプリングする。両判定回路91 (1
0)にはそれぞれ基準電圧RvおよびRuが加えられ、
サンプリング時にアナログ信号電圧がプラス側の基*を
圧Ru以とであれば有声音v1 マイナス側の描*を圧
RU以下であれば無声音U、RvとRuとの間の値であ
れば無音Sと判定する。第2図(a) (b)において
、ztt)は信号処理回路02)から得られるVU判定
出力信号を示しており、無声音Uに対しては−1、無音
Sに対しては0、有声音に対しては+lの値をとるよう
になっている。なお第2図(a)・すLOGアンプ(3
)を使用した場合を、また同図(b)はLOGアシづ(
3)を除去した場合をそれぞれ示しており、両者を比較
すれば明らかなように、入力音声をフィルタバンクi5
) telの前でLOG変換してお・くと、■声音Vと
無声音Uの識別を確実に行なえるものである。
This average (analog signal voltage y+t) output from the circuit □, 8) affects the ratio of the voiced sound V and the unvoiced sound U contained in the input voice. Figures 2 (a) and 2 (b) show the analog 0/) signal waveform y (t) in response to the voice input example "Massage Fage set" of our voice-controlled massage chair, and in this example, The voiced sound ■ is negative, and the unvoiced sound U has a negative value. Add this signal voltage y (t) to the V judgment circuit (81 and 15 judgment circuit (lO),
(5) =7°1 Sampling is performed at regular intervals by the OI check CK from the Rn1 leak generation circuit Ql). Both judgment circuit 91 (1
0) are applied with reference voltages Rv and Ru, respectively,
At the time of sampling, if the analog signal voltage on the positive side is less than the pressure Ru, it is a voiced sound v1. If the negative side drawing * is less than the pressure RU, it is a voiceless sound U. If the value is between Rv and Ru, it is a voiceless sound S. It is determined that In FIGS. 2(a) and 2(b), ztt) indicates the VU judgment output signal obtained from the signal processing circuit 02), which is -1 for unvoiced sound U, 0 for silent sound S, and ztt) for voiced sound. It takes a value of +l for . In addition, Fig. 2 (a) - SLOG amplifier (3
) is used, and (b) in the same figure shows the case when LOG assist (
3) is removed, and as is clear from comparing the two, the input audio is filtered using filter bank i5.
) By performing LOG conversion before tel, it is possible to reliably identify voiced sounds V and unvoiced sounds U.

次にLOGアンプ(3)を通す曲のプリアンプ(2)の
出力は、例えば0−0.5 KH2の帯域フィルタ(F
3)、整流回路(Dl)、平均化回路(M3)からなる
フィルタバンク03)と、0.5−1.OK)12の帯
域フィルタ(F4)、(6) 2− 整流回路(D4)、平均化回路(M、)からなるフィル
タバンク(14)によって各周波数領處の特性成分を抽
出される。フィルタバンク(131の出力である低域前
Vt。
The output of the preamplifier (2) for the song that is then passed through the LOG amplifier (3) is, for example, a 0-0.5 KH2 bandpass filter (F
3), a filter bank 03) consisting of a rectifier circuit (Dl), an averaging circuit (M3), and 0.5-1. OK) Characteristic components in each frequency range are extracted by a filter bank (14) consisting of 12 bandpass filters (F4), (6) 2- rectifier circuit (D4), and averaging circuit (M). The pre-low frequency Vt which is the output of the filter bank (131).

と、フィルタバンク(14)の出力である高域音VHと
は差動アン−j (15+により比較され、平均(ヒ回
路α荀により平均化される。平均化回路(+6)の出力
はりO・ツクCKに同期して動作するML判定回路θカ
およびVH判定回路&g)にそれぞれ入力され、平均化
回路へ@の出力電圧が基準電圧RLよりも低いとVL酸
成分判定され、また基準電圧RHよりも高いとVH成分
と判定され、RLとRHの間であれば中域音VMと判定
される。
and the high frequency sound VH which is the output of the filter bank (14) are compared by the differential an-j (15+), and are averaged by the average (hi circuit α).The output of the averaging circuit (+6) is O - It is input to the ML judgment circuit θ and the VH judgment circuit &g) which operate in synchronization with the CK, and sent to the averaging circuit.If the output voltage of @ is lower than the reference voltage RL, it is judged that the VL acid component, If it is higher than RH, it is determined to be a VH component, and if it is between RL and RH, it is determined to be a midrange sound VM.

信号処理回路(+ !J)はVH,Vt、およびVMの
各成分を、それぞれ+1.0、−1の出力に3値化する
ものである。
The signal processing circuit (+!J) converts each component of VH, Vt, and VM into three values into outputs of +1.0 and -1, respectively.

1′ざり畑里回路(l匈(1!I)の各出力はI10ボ
ート徴を介してCP U 121)に読み込まれるもの
であり、読み込まれたデータは一旦入力ノ〜ターンメ七
り(四に格納され、標準パターンメ七り陣に逓す憶され
ている複数個の標準パターンのうちどれに一番近いかを
照合判定されて、その照合判定結果に基いて被制御機器
(24)を制御するようになっている。これらの照合判
定動作等はCp U (21+とづOクラムROM+滅
、およびワーキングRAM+261を有するマイクロコ
ンピュータ闇により行なっているものである。
Each output of the 1'Zaribatari circuit (1!I) is read into the CPU 121 via the I10 port, and the read data is once input to the A comparison is made to determine which of the plurality of stored standard patterns is closest to the stored standard pattern, and the controlled device (24) is controlled based on the result of the comparison and determination. These verification and judgment operations are carried out by a microcomputer having a CpU (21+TozuO CRAM ROM+1) and a working RAM+261.

次に第3図は本発明による音声メ・ソセーリ識別装置の
音声メツセージ識別処理機能をブロック化して示したも
のである。同図に示すように音声メ・リセージ識別装置
は音響処理部1281と、同波数分析部シ9)と、符号
化処理部(晴と、照合判定部(31)とから構成されて
いる。このうち音響処理部(28)と同波数分析部(2
9)については、第1図の説明において詳述したような
構成を有しており、フィルタバンク15)(6)および
フィルタバンク(13) (+4)の後段に接続された
判定回路+3’b tag)は差動アンj t?) (
15)から信号処理回路<1’2+ (19) tでの
回路によって構成されているものである。またI10ポ
ート(傾よりも後段の回路は上述のようにマイクロコン
ビュータレηにより構成され、・ ′4 ている。符号化処理部(噛において、(341は無音区
間を検出するためのSカウンタであり、有声音Vまたは
無声音Uが検出されるとリセットされて音声入力動作を
開始させ、その後無音Sが一定時間(約0.2秒)以上
続くとガウンドアツブして音声入力動作を停止するよう
になっている。音声入力動作は5/−2(Iff!=e
cのサシづリンジ周期(実施例では5m5ecの周期)
に従って行なわれ、一方の判定回路(煽からは有声音V
、無声音U 、および無音Sの各符号とその継続時間と
が入力されでメ七りに格納され、また他方の判定回路(
38)からは高域音VH1中域音VM、および低域前V
t、の各符号とその継続時間とが入力されてメモリに格
納されるようになっているっこのようにしてメモリに一
旦格納された信号は波形整形処理部〜附憾により整形処
理される。
Next, FIG. 3 is a block diagram showing the voice message recognition processing function of the voice message recognition apparatus according to the present invention. As shown in the figure, the voice message identification device is composed of an acoustic processing section 1281, a wave number analysis section (9), an encoding processing section (1281), and a verification determination section (31). Of these, the acoustic processing section (28) and the wave number analysis section (2
Regarding 9), it has the configuration as detailed in the explanation of FIG. tag) is the differential anj t? ) (
15) to the signal processing circuit <1'2+ (19) t. In addition, the circuit after the I10 port (inclination) is composed of the microcomputer η as mentioned above. Yes, when a voiced sound V or an unvoiced sound U is detected, it will be reset and start the voice input operation, and if silence S continues for a certain period of time (approximately 0.2 seconds) or more, the voice input operation will be stopped. The voice input operation is 5/-2 (Iff!=e
Sashizu ring cycle of c (cycle of 5m5ec in the example)
One of the judgment circuits (from the voiced sound V
, unvoiced U, and silent S and their durations are input and stored in the memory, and the other judgment circuit (
From 38), high range sound VH1 mid range sound VM, and low range front V
Each code of t, and its duration are input and stored in the memory.The signal once stored in the memory in this way is shaped by the waveform shaping processing section.

麻4図(a)は波形整形処理部(酒において波形整形さ
れる曲の信号波形分水しており、また第4図(b)は波
形整形処理された後の信号波形を示している。波形整形
処理は第4図(a)の矢印a[に示すように、有声音V
または無声音Uの継続時間の短いものを無音Sとする第
1の処理と、第4図(a)の矢印a。
Figure 4 (a) shows the signal waveform of a song that is waveform-shaped by the waveform shaping processing section (sake), and Figure 4 (b) shows the signal waveform after the waveform shaping process. The waveform shaping process is performed on the voiced sound V as shown by arrow a in FIG. 4(a).
Alternatively, the first process in which the short duration of the unvoiced sound U is set as the silent S, and the arrow a in FIG. 4(a).

〜asVI−示すように、有声音■または無−音tJの
継続時間が比較的長いものの次に来る無音Sの期間が短
く、かつ無音Sに続く次の符号が無音SL:I)曲の符
号と同じであれば、無音Sを消すようにする第2の処理
とから構成されているものである。第5図はかかる波形
整形処理部+3f9における波形整形処理の手順を示す
フローチャートである。
~asVI- As shown, the duration of the voiced sound ■ or the silent sound tJ is relatively long, but the duration of the next silent S is short, and the next code following the silent S is silent SL: I) Code of the song If it is the same, then the second process is to erase the silence S. FIG. 5 is a flowchart showing the procedure of waveform shaping processing in the waveform shaping processing section +3f9.

このフ0−チセートは、符号■、Ul Sとその継続時
間とのリスト形式によりメ七りに格納されたデータを演
算処理して新たなリスト形式のデータを作成し、再びメ
芒りに格納するための′joジラムを示している。まず
整形前のリストはその最初の符号がSであるか否かを判
定し、最初の符号がSでなければその継続時間が基準値
゛r1よりも大きいかどうかを判定される。継続時間が
基準値T。
This footset creates new list-format data by processing the data stored in the menu in a list format with the code ■, Ul S, and its duration, and stores it in the menu again. It shows 'jo jiram for. First, it is determined whether the first code of the list before formatting is S, and if the first code is not S, it is determined whether its duration is greater than a reference value r1. The duration is the standard value T.

よりも大きくなければ、その符号VまたはUを符号SK
変換して符号Sとその継続時間を整形後のリストとして
メ七りに書き込む。また継続時間が基準(直′rIより
も大きければ、その符号VまたけUとその継続時間とを
整形後のリストとしてそのまま転写する。そして次の符
号Sの継続時間が幕準値T2よりも短いかどうかを判定
し、基準値T2よりも短かければ、その符号Sの次の符
号は符号Sの前の符号と同じであるかどうかを判定する
。同じでなければ符号Sとその継続時間とをそのまま整
形後のリストに転写する。また同じであれば符号Sを+
4fl後の符号UまたはVに変えて、その変えた後の符
号とその継続時間とを整形後のリストとしてメモリに書
き込む。さらに次の符号Sについてその継続時間が基準
値T2よりも短いか否かを再び判定する。以上の演算処
理動作は整形前のすべてのリストが変換処理されるまで
続けられるものであり、変換処理が終了すると整形後の
11ストの最後の符号がSであるかどうかを判定し、最
後の符号がSであればその符号Sを整形後のリストから
除去して、再び最後の符号がSであるかどうかを判定す
る。しかして最後の符号がSでなくなれば一連の波形整
形処理動作を終了するものであり、このときにメ七りに
は、第4図(b)に示すような波形整形処理された信号
が符号U、V、Sとその継続時間とのリスト形式で格納
されていることになる。また他方の波形整形処理部(3
6)においても同様の演算処理動作が行なわれるもので
あり、■符号VHおよび符号VLのうち継続時間の短い
ものを符号VMに変換する動作と、■符号VHと符号V
Hとの間に挾まれた継続時間の短い符号VMを符号VH
に変換する動作と、■符号VLと符号Vt、との間に挾
まれた継続時間の短い符号VMを符号■Lに変換する動
作とを行なうものである。
If the code is not greater than SK, then the code V or U is
Convert and write the code S and its duration in the menu as a formatted list. Also, if the duration is larger than the reference value (direction 'rI), the code V spanning U and its duration are transcribed as is as a formatted list.Then, the duration of the next code S is greater than the standard value T2. If it is shorter than the reference value T2, it is determined whether the next code of the code S is the same as the code before the code S. If not, the code S and its duration are determined. transcribe as is into the formatted list.If they are the same, add the sign S to +
The code is changed to U or V after 4fl, and the changed code and its duration are written into the memory as a formatted list. Furthermore, it is again determined whether or not the duration of the next code S is shorter than the reference value T2. The above arithmetic processing operation continues until all the lists before formatting have been converted. When the conversion process is completed, it is determined whether the last sign of the 11 lists after formatting is S, and the last If the code is S, that code S is removed from the formatted list, and it is again determined whether the last code is S. However, when the last code is no longer S, the series of waveform shaping processing operations is completed, and at this time, the signal that has been subjected to waveform shaping processing as shown in Fig. 4(b) is displayed as a code. It is stored in a list format of U, V, S and their durations. In addition, the other waveform shaping processing section (3
Similar arithmetic processing operations are performed in 6), including: (1) converting the shorter duration of code VH and code VL into code VM; and (2) converting code VH and code V
The short-duration code VM sandwiched between H and VH
and (2) converting the short-duration code VM sandwiched between the code VL and the code Vt into the code (2) L.

次に第6図は上記波形整形処理部(議(泗により形成さ
れた2系統のリストを1系統のリストにまとめるための
コンポジット符号化処理部(3′71の処理動作を示す
フローチャートである。その動作について説明すると、
まず波形整形処理部0輪によって形成された符号U、V
、Sとその継続時間のリストを調べて、最初の符号がU
またはSであるかどうかを判定する。最初の符号がUま
たはSであれば、その符号UまたはSとその継続時間と
が〕ンボジット符号リストとしてメtりにそのまま転写
される。また最初の符号がUまたはSではなくて■であ
るときには、波形整形処理部(綱によって形成された符
号VH,Vv、Vjとその継続時間のリストを調べて、
符号Vの継続時間中にまず符号VHが含まれているかど
うかを判定して含まれている場合には、符号VHとその
継続時間とを〕シボジtソト符号リストとしてメモリに
転写する。また符号VMおよびVLについても、符号V
の継続時間中に含まれている場合には符号VM、 VL
とその継続時間とがそれぞれコンポジット符号リストと
してメモリに転写される。
Next, FIG. 6 is a flowchart showing the processing operations of the composite encoding processing section (3'71) for combining the two lists formed by the waveform shaping processing section (processing) into one list. To explain its operation,
First, the symbols U and V formed by the waveform shaping processing unit 0 wheels
, S and its duration, the first sign is U
Or determine whether it is S. If the first code is U or S, that code U or S and its duration are transcribed exactly as is as a list of embodied codes. Also, when the first code is ■ instead of U or S, the waveform shaping processing unit (examines the list of codes VH, Vv, Vj formed by lines and their durations,
First, it is determined whether or not the code VH is included in the duration of the code V. If the code VH is included, the code VH and its duration are transferred to the memory as a list of codes. Also, regarding the symbols VM and VL, the symbol V
If it is included in the duration of the code VM, VL
and its duration are each transferred to memory as a composite code list.

以北のようにして〕ンボジット符号リストが潜られるも
のであるが、本実施例のように、符号V、U、Sの系統
と符号V)I、VM%Vt、の系統とについて別々に波
形整形処理を行なってから、コンポジ・ソト符号化する
方法(第7図(a)参照)の鰺に、第7図(b)に示す
ように先にコンポジ・ソト符号化を行なってから波形整
形処理を行なう方法もあり瀞るものである。この場合に
は符号U、V、VH,VT。
However, as in this embodiment, the waveforms are calculated separately for the system of codes V, U, S and the system of codes V)I, VM%Vt. As shown in Figure 7(b), as shown in Figure 7(b), the method of performing composite-soto encoding after shaping processing and then performing waveform shaping (see Figure 7(a)) There are ways to do this. In this case, the symbols U, V, VH, VT.

の各論理直に基いて第1表に示すような論理演算を行な
うことによりコンポジット符号化を行なうものである。
Composite encoding is performed by performing logical operations as shown in Table 1 based on each logical logic.

第1表 次に第8図は、階層化処理部(38)の処理動作を示す
フローチャートである。階層化処理部13〜は後段の照
合判定部@1)におけるパターン照合を音声の構造に合
わせて段階的に行ない得るようにするためにコンポジッ
ト符号リストから第1階層リストと第2階層リストとを
作成するものである。このうち11階層リストについて
は、符号U、V、Sとその継続時間のみからなる符号リ
ストと同一であるので、波形整形処理部(請の出力リス
トをそのまま転写するか、あるいはコンポジット符号リ
ストにおける符号VH,VM、VL  をすべて符号V
K置き換えることによって容易に得られるものである。
Table 1 and FIG. 8 are flowcharts showing the processing operations of the hierarchization processing section (38). The layering processing unit 13~ extracts a first layer list and a second layer list from the composite code list so that the pattern matching in the subsequent matching/judgment section @1) can be performed step by step according to the structure of the voice. It is something to create. Of these, the 11th layer list is the same as the code list consisting only of codes U, V, S and their durations, so it is best to copy the output list of the waveform shaping processing unit (as is) or use the codes in the composite code list. VH, VM, and VL are all coded V
This can be easily obtained by replacing K.

次に糸2階層リストについてはコンポジもソト符号リス
トのうち−続きの符号Vl(、VL、VMとその継続時
間からなる符号リストを転写することによって得られる
ものである。したがって第1階層リストの中に符号Vが
n個含まれているものとすると、第2階層リストもまた
n個得られるようになっている。
Next, regarding the thread 2-layer list, the composite is also obtained by transcribing the code list consisting of the continuation code Vl (, VL, VM and its duration from the soto code list. Therefore, the first layer list Assuming that n codes V are included in the list, n second hierarchy lists can also be obtained.

さらに第9図は、1述のようにして得られた第1階層リ
ストと第2階層リストについて符号の継続時間を正規化
するための正規化処理部@9)の処理動作を示すフロー
チャートであるっ正規化処理部(瞬は符号U、V、Sと
その継続時間からなる第1階層リストと、符号VH,V
M、VLとその継続時間からなるn個の第2階層リスト
についてその継続時間の@ス和が一定になるように時間
軸」二の正規化を行なうものであるっ第2表は第1階層
リストについて、符号V、tJ、Sとその継続時間TK
および正規化された継続時間T8の関係を示したもので
あり、@続時間TKはサンプル個数に対応している。
Further, FIG. 9 is a flowchart showing the processing operation of the normalization processing unit @9) for normalizing the code duration time for the first layer list and the second layer list obtained as described above. Normalization processing unit (Shun is a first layer list consisting of codes U, V, S and their durations, and codes VH, V
For the n second layer lists consisting of M, VL and their durations, normalization is performed on the time axis so that the sum of the durations is constant. Table 2 shows the first layer list. For the list, the symbols V, tJ, S and their duration TK
and normalized duration T8, where @duration TK corresponds to the number of samples.

第 2 戎 かかる正規化処理動作を第9図の)O−チr−トによっ
て院明すれば、まず符号U、S%Vの全継続時間Tvc
の徳利ΣTK(−=16623)を求めて、これから正
規化系数Ps=1000/ΣTKを求める。次に各符号
tJ、V、Sについてその継続1時間TK(j)に正規
1ヒ係数P8N乗痒しで正規化された継続時間Ts(i
)を順に求めて行くものである。以とのようにして朶1
階層リストについてのm続時間の正規化動作が完了する
と、n個の12階j−リストについてそれぞれ同様の操
作により継続時間の正規(ヒ処理を行なうもの−である
。癌3表(a)〜(d)は、第1階層リスト(第2表参
照)に含まれる4個の符号V +/Cついて作成された
第2階層リストとその正規化された継続時間とをそれぞ
れ示したものである第  3  表 (a) 第3表(b) 第 3 表(c) 第 3 表(d) 第3表(a)は第2表に示す第1階層リストの最初の符
号V(継続時間3415)に対応する第1階層リスト■
1を示しており、以下順に第3表(b)〜(d)は継続
時間が3621. 1437.2637の各符号■に対
応する第2階層リストv2〜V、を示している。
2nd If we clarify the normalization processing operation using the O-tilt shown in FIG.
The sake bottle ΣTK (-=16623) is determined, and the normalization series Ps=1000/ΣTK is determined from this. Next, for each code tJ, V, and S, the duration time Ts(i
) in order. 1 as follows
When the normalization operation of the m duration for the hierarchical list is completed, the same operation is performed for each of the n 12th floor j-lists to normalize the duration (this is the one that performs the processing).Table 3 (a) ~ (d) shows the second layer list created for the four codes V+/C included in the first layer list (see Table 2) and their normalized durations. Table 3 (a) Table 3 (b) Table 3 (c) Table 3 (d) Table 3 (a) is the first code V (duration 3415) of the first layer list shown in Table 2. First layer list corresponding to ■
1, and in Table 3 (b) to (d) below, the duration is 3621. 1437.2637, second layer lists v2 to V corresponding to each code ■ are shown.

以北のようにして継続時間の正規化を行なうと、発声速
度の影響を受けにくくなるので、認識率を高めることが
できるものである。なお第2表及び第3表に示した継続
時間TKOデータは音声メツセージ「せなかをさすれ。
If the duration is normalized as described above, the recognition rate can be increased because it is less affected by the speaking speed. The duration TKO data shown in Tables 2 and 3 is based on the voice message "Senaka wo Susare.

」を50μ式のサンづリンクバ;レスを用いて分析した
場合のシ三ユし−ションデータであって、5m5ecの
サシプリンジパルスを用いて分析を行なう場合には継続
時間(すなわちサンづりyり個数)は表の値の100号
の1になるものである。
” is analyzed using a 50 μ type Sunz Link Bar; The number) is 1 in 100 of the value in the table.

以上のようにして正規化された第1階層リストの符号U
%V、S、および第2階層リストの符号Vu、Vg、V
Lld、3 M符’lt、処i”1部+4(ffiKオ
イ1” +1.0、−1の3値打号に変換されるもので
ある。すなわち、まず第1階層リストにおける符号Vは
+11符号Uは−l、符号Sは0にそれぞれ対応させ、
また第21階層リストにおける符号VHは+l、符号V
Mば01符号VLは−1にそれぞれ対応させるものであ
る。このようにすれば、距離計算照合部(11)におい
て標準バターシメ七り(421の内容と第1階層リスト
も・よび第2階層リストの内容とを照合するときに計算
薦度を著しく高速化することができるものである。すな
わち距離計算照合部(41)は標準パターシメ七りI4
zに記憶された+1.0、−1の3値化されたデータと
31i!r符号化処理部・、4(2)から出力されるデ
ータとの相互相関係数を求めるようになっているもので
あるが、データが+1.0、−1の3通りしかないため
に、数値の乗算を必要とせず、単なる論理演算と加減算
とによってきわめて高速度で相互相関係数を計算するこ
とがでさるものである。各標準パターンについてそれぞ
れ計算された相互相関係数は1次階層識別部(43)と
2次階層識別部(44に記憶され、判定処理部(4θに
おいて大小関係を比較され、相互相関係数が大きいもの
ほど似たパターンであると判定されるものである。
Code U of the first layer list normalized as above
%V, S, and codes Vu, Vg, V of the second layer list
Lld, 3 M sign'lt, processing i''1 part +4 (ffiKoi1'' +1.0, -1. That is, the code V in the first layer list is +11 sign. U corresponds to -l, code S corresponds to 0,
Also, the code VH in the 21st layer list is +l, and the code V
The Mba01 code VL corresponds to -1, respectively. In this way, when the distance calculation matching unit (11) compares the contents of the standard Butter Shime Seven (421) with the contents of the first layer list and the second layer list, the calculation speed will be significantly increased. In other words, the distance calculation verification unit (41) can be
+1.0, -1 ternarized data stored in z and 31i! It is designed to calculate the cross-correlation coefficient with the data output from the r encoding processing unit, 4(2), but since there are only three types of data, +1.0 and -1, The cross-correlation coefficient can be calculated at extremely high speed by simple logical operations and addition/subtraction without requiring numerical multiplication. The cross-correlation coefficients calculated for each standard pattern are stored in the primary layer identification section (43) and the secondary layer identification section (44), and are compared in magnitude in the judgment processing section (4θ), and the cross-correlation coefficients are The larger the pattern, the more similar the pattern is determined to be.

ここに相互相関係数とは、時間t17)変化に対する標
準パターンの儂の変化をf + (t)とし、1次階層
リストや2次階層リストのような入カバターンの値の変
化をf t Lt)としたときに次式で与λ−られるも
のであるっ 第10図(a) (h)け時間(の変化に対する・@準
パターシの値の変化t I(t)と、入力l〜ターンの
値の変化reft)とをそれぞれ示すものであり、同図
に示すようにf + (t)とf t (t)とは+L
、o、−1の3j内りのイ直しかとらないので、両者の
積t+ tt) f i tt)の(直も+1.0.−
1のいずれかの値しかとらないことになり、このために
相互相関係数の計Wは非常に容爲に々るものである。か
かる相互相関(糸数f、g(τ)はマイク0コシピ1−
夕を用いて計算する場合には、実用土は次式のような数
値演算により充分に計算できるものであろう ところで相互相関係数f1□(τ)は互いに乗痒される
標準Jヘターンf 、 (t)と入カッ〜ターyf、(
を−τ)との位相喀τの関数となっており、ある特定の
位相差τにおいて一大の1直をとるようになっている。
The cross-correlation coefficient here means that the change in the standard pattern with respect to the change at time t17) is f + (t), and the change in the value of input patterns such as the primary hierarchy list and the secondary hierarchy list is f t Lt. ), then λ- is given by the following equation. Figure 10 (a) (h) The change in the value of quasi-pattern with respect to the change in time t I(t) and the input l ~ turn , respectively, and as shown in the figure, f + (t) and f t (t) are +L
, o, -1 within 3j, so the product of both t+ tt) f i tt) is also +1.0.-
Therefore, the total cross-correlation coefficient W is very generous. Such cross-correlation (number of threads f, g(τ) is mic 0 cosipi 1-
In the case of calculation using the following equation, the cross-correlation coefficient f1□(τ) is multiplied by the standard Jheturn f, where the practical soil can be calculated satisfactorily by numerical calculations as shown in the following equation. (t) and input cutter yf, (
It is a function of the phase difference τ with respect to −τ), and takes a large 1-axis value at a certain specific phase difference τ.

そこで距離計算照合部(41)においてはこの相互相関
係数f1己τ)が最大になる点を求めて、その最大値を
各標準パターンについて計算し、1次および2次階層識
別部(431f、n)にそれぞれ記憶させ、最後に判定
処理部(州においてその大小関係を比較して入カッ〜タ
ーンに最も近い標準)〜ターンを判定しているものであ
る。
Therefore, the distance calculation matching unit (41) finds the point where the cross-correlation coefficient f1 and τ) is maximum, calculates the maximum value for each standard pattern, and calculates the maximum value for each standard pattern. Finally, the determination processing unit (the standard closest to the input cut-turn by comparing the magnitude relationship in the state) determines the turn.

ところで、本発明にお勺ては音声メ・ソセージから抽出
した符号Isターシを標準ノルターンと照合する際に、
符号パターンを1次階層リストと2次階層リストとに分
離して、1次階層リストに関する照合を行なった後に、
2次階層リストに関する照合を行なうようにして、照f
#肌理を段階的に行なっているが、これは音声の巨視的
な構債に対応する特徴を先に油出した後で、次に音声の
微視的な特徴に対応する特徴を抽出するようにした方が
、音声の認識を効率的に、かつ確実に行なうことができ
るからである。第11図は音声の特徴を階層化して表わ
したものであり、音声はまず声帯撮動を伴う釘声音Vと
、声帯撮動を伴わない無声音Uとに大きく分類され、有
声音Vは顎の開きの広い有声音(/1/クルー″j)と
、顎の開きの狭い有声音(/i/’)ルー″j)とに分
類される。顎の開きの広い有声音は上述の高域音■に対
応し、音声の第1ホ1しマシトの周波数が比較的高く、
その周波数帯域は500Hz ” l KHzに多く分
布している。また顎の開きの狭い有声音は上述の低域前
VLに対応し、音声の第1ホルマントの周波数が比較的
低く、その周波数帯域は0−500H2に多く分布して
いる。
By the way, in the present invention, when comparing the code extracted from the voice message with the standard Nortern,
After separating the code pattern into a primary hierarchy list and a secondary hierarchy list and performing a comparison on the primary hierarchy list,
By performing verification on the secondary hierarchy list,
# Texture is carried out in stages, which means that the features corresponding to the macroscopic structure of the voice are extracted first, and then the features corresponding to the microscopic features of the voice are extracted. This is because voice recognition can be performed more efficiently and reliably. Figure 11 shows the characteristics of speech in a hierarchical manner.Sounds are first broadly classified into nail sounds V, which involve vocal cord movement, and unvoiced sounds U, which do not involve vocal cord movement. It is classified into voiced sounds with a wide jaw opening (/1/crew"j) and voiced sounds with a narrow jaw opening (/i/') ru"j). A voiced sound with a wide opening of the jaw corresponds to the above-mentioned high-frequency sound■, and the frequency of the first and second parts of the voice is relatively high.
The frequency band is mostly distributed in 500 Hz "l KHz. Also, the voiced sound with a narrow jaw opening corresponds to the above-mentioned pre-low range VL, and the frequency of the first formant of the voice is relatively low, and the frequency band is It is mostly distributed in 0-500H2.

顎の開きの広い有声音には、母音/a/、1つ/、/已
/などがあり、また顎の開きの狭い有声音には、母音/
i/、/e/、10/、/u/や、鼻子音や、その池の
有声子音などがある。また無声音Uには定常的な無声音
すなわち無声摩擦音UFと、過渡的な無声音すなわち無
声破裂音UBとがある。
Voiced sounds with a wide jaw opening include the vowels /a/, one/, /已/, etc., and voiced sounds with a narrow jaw opening include the vowel /a/, one/, /已/, etc.
These include i/, /e/, 10/, /u/, nasal consonants, and voiced consonants. Furthermore, the unvoiced sounds U include stationary unvoiced sounds, that is, unvoiced fricatives UF, and transient unvoiced sounds, that is, unvoiced plosive sounds UB.

しかして、音声メツセージをlR1語明確に認識しよう
とすれば、これらの音声の各特徴をすべて識別する必要
があるが、照明器具や自動罪、あるい・ばあんま椅子な
どを音声メツセージを用いて制御する場合には、すべて
の子音および母音を完全に識別する必要はなく、もう少
し巨視的な特徴を抽出するだけでも充分に実用になるも
のである。このような音声の特徴を巨視的な特徴から頓
に列挙して行くと次のようになる。
However, in order to clearly recognize a voice message in one word, it is necessary to identify all of the characteristics of these voices. In the case of control, it is not necessary to completely identify all consonants and vowels, and it is sufficiently practical to extract macroscopic features. The following is a list of the features of such speech, starting from the macroscopic features.

l)有声音Vであるか無声音tJであるか。かかる特徴
は音声の周波数スペクトルの中に低域成か(I KHz
以ド)が多いか、高域成5+ (5KHz ”12KH
z )が多いかによって判定できる。
l) Is it a voiced sound V or an unvoiced sound tJ? Such features are found in the low range of the voice frequency spectrum (I KHz).
5+ (5KHz "12KH")
It can be determined by whether there are many z).

2)有声音Vであれば、顎の開きの広い有声音VH(/
q/ジルーづ)であるか、顎の開きの狭い有声音Vt、
(/i/ジルーづ)であるか。かかる特徴は有声音の同
波数スペクトルの中に高域音VH(500H2” t 
KHz )が多いか、低域前Vt、(0/−500Hz
 )が多いかによって判定できる。
2) If it is a voiced sound V, then the voiced sound VH (/
q/Girouzu) or a voiced sound with a narrow jaw opening Vt,
(/i/Jirouzu) Is it? This feature is due to the presence of high-frequency sounds VH (500H2" t) in the same wavenumber spectrum of voiced sounds.
KHz) is too much, or Vt before low frequency, (0/-500Hz
) can be judged by whether there are many.

3)無声音Uであれば、無声摩擦音Uvであるか、無声
破裂JUaであるかつかかる特徴は無声音が定常的であ
るか、過渡的であるかによって判定できる。すなわち無
声音Uの継続時間が長いか短いかによって判定できる。
3) If it is an unvoiced sound U, it is a voiceless fricative Uv or a voiceless plosive JUa, and such characteristics can be determined depending on whether the unvoiced sound is stationary or transient. That is, the determination can be made based on whether the duration of the unvoiced sound U is long or short.

4)音声メツセージの中で、各特徴VH,VL、UB、
Ur等の占める時間、または音声メツセージの継続時間
の中で占める割合。かかる特徴は上述の第1階層リスト
や第2階層リストにおける継続時間を参照すれば判定で
きるっ その仲にも、音声の第2ホルマシトが高いか低いかによ
って前古の母音(/i/、/ e /に対応)と高舌の
母音(/U/、10/に対応)とを識別することができ
るが、そこまで微恍的な特徴を抽出しなくても、機器を
制御するだめの音声メツセージは充分に認識できるもの
である。
4) In the voice message, each characteristic VH, VL, UB,
The time occupied by Ur, etc., or the proportion of the duration of the voice message. Such characteristics can be determined by referring to the duration in the first and second hierarchy lists mentioned above. Although it is possible to distinguish between high-toned vowels (corresponding to /U/ and 10/), it is possible to distinguish between high-toned vowels (corresponding to /U/ and 10/). The message is fully recognizable.

例えば112図1・ま、あんま椅子用の音声人力/5e
nakaosasuτe/の周波数スペクトルの例であ
り、音声入力を20 KH2でサンプリンタしたものを
200It−J″jル(lof+l城)を1フレームと
して、20次のLPG分析を行なったものであるが、無
声音/、/は5 K Hz以上にノ〜ワーが集中してお
り、また有声音はl KHz以下にパワーの山があるこ
とがわかる。さらに有声音でけ/3/、10/のパワー
は500 Hz −I KHzに集中し、/、/、/ 
u /は0/−50oV(z Kパワーが集中している
ことがわかる。さらに有声音は、同一のスペクトルが各
音素に対応して数個(数十n1−>読いていることがわ
かる。
For example, 112 Figure 1/Voice human power for the Anma chair/5e
This is an example of the frequency spectrum of nakaosasuτe/, which was obtained by performing 20-order LPG analysis on the voice input sampled at 20 KH2, with 200It-J"j le (lof + l castle) as one frame, but it is unvoiced. It can be seen that / and / have a concentration of noise above 5 KHz, and voiced sounds have a peak of power below l KHz.Furthermore, the voiced sounds /3/ and 10/ have a power of 500. Hz −I Concentrate on KHz, /, /, /
u/ is 0/-50oV (z It can be seen that the K power is concentrated. Furthermore, it can be seen that for voiced sounds, the same spectrum is read several times (several tens n1->) corresponding to each phoneme.

また413図(a)は上記と同じ音声入力に対する有声
音成分Vと無声音成分Uとの変化を示しており、413
図(b)は有声音のなかの高域成分VHと低域成分Vt
、との変化を示しているものであるが、まず第13図(
a)においては無声音/s/、/に/に対応する部分が
Uを示し、/n a /、/a o /、/a/、/ 
u r p /に対応する部分が明確にVを示している
っまた1g1a図(b)においては/n /、/ Q 
a /に対応する部分がVt、で、/a/、/ao/、
/e/に対応する部分がVHになっている。したがって
、上述したように有声音V、無声音U、鴨音Sに対応す
る1次階層リストと、有声音のなかの高域音VH1中城
音VM、低域前Vt、に対応する2次階層リストを予め
記憶されだし準ノ\ターンと照合すれば、大JLの靜、
声メツセージは識別できるものである。
413(a) shows changes in the voiced sound component V and the unvoiced sound component U for the same audio input as above, and 413
Figure (b) shows the high frequency component VH and low frequency component Vt of voiced sound.
, which shows the changes between , and Figure 13 (
In a), the part corresponding to the unvoiced sounds /s/, /ni/ shows U, /n a /, /a o /, /a/, /
The part corresponding to u r p / clearly shows V, and in Figure 1g1a (b) /n /, /Q
The part corresponding to a / is Vt, /a/, /ao/,
The part corresponding to /e/ is VH. Therefore, as described above, there is a primary hierarchy list corresponding to the voiced sound V, unvoiced sound U, and duck sound S, and a secondary hierarchy corresponding to the high-range sound VH1, middle-range sound VM, and low-range pre-Vt among the voiced sounds. If you compare the list with the pre-memorized semi-no \ turn, the spirit of Dai JL,
Voice messages are distinguishable.

ただし以Eのことは一応の一般論であって、音声メツセ
ージの発声者が異なる場合や、あるいは同一の発声者に
おいても宅声速度を変え7tり発声の態様を変えたりし
た場合には、音節中の賊声破裂音を検出でき・なかった
り、あるいは音節中の味声音に侠まれた有声音が無声音
化したりするような現象が生じるために、音声メ・ソし
一ジの嘩々な発声相様にすべて対応で趣るようなlji
準ノ〜ターンを作成する必要がある。本実施例にあって
はこのような微妙な発声の変化による入カバターンの変
動があっても音声メツセージを正しく昭職できるように
なっているものである。すなわち本実施例においては、
標準ノ\ターンとして例えばfJ14図に示すように符
号C1、C2、C3、CいC5、C1の時系列からなる
等本ノ〜ターシの池に、符号C2g、符号C45のよう
な分岐ノ\ターンを付加して、入カバターンを符号C1
、C2いC5、C0のI時系フ1jから々る第1の派生
ノルターンや、符号CI、C2、C1、Cps、C1の
時系列からなる弔2の派生J〜ターンと照合することも
可能として、音声メツセージの昭織率を高めているもの
である。
However, the following is a generalization, and if the voice message is spoken by different speakers, or if the same speaker changes the speed of voice or changes the manner of utterance, the syllables may change. The quarrelsome vocalizations of the voice medium occur due to phenomena such as the inability to detect plosive sounds in the middle of the voice, or the voiced sounds in the syllables becoming voiceless sounds. A charming lji who can handle everything for you
It is necessary to create a quasi-no-turn. In this embodiment, even if the input pattern changes due to such subtle changes in vocalization, the voice message can be correctly interpreted. That is, in this example,
As a standard no\turn, for example, as shown in the fJ14 diagram, there is a branch no\turn such as C2g, C45 in the time series of C1, C2, C3, C5, C1, etc. is added, and the input cover pattern is coded C1.
It is also possible to check with the first derived Nortern from the I time series f1j of C2, C5, and C0, and the derived J~ turn of Sou2, which consists of the time series of codes CI, C2, C1, Cps, and C1. As a result, the performance rate of voice messages is increasing.

以ド具体的な例を挙げながら、標I′sバ9−ンを構成
する基本ノ\ターンと分岐パターン、および派生ノルタ
ーンの概念について説明する。
Hereinafter, the basic no.\turn, branching pattern, and the concept of derived noturn will be explained using specific examples.

音声の入カバターンが変動する命も典型的な例としては
、まず弔lK無声破裂音/、/、/1/、/に/の欠落
現象が挙げられる。すなわち113図(a)を参照すれ
ばわかるように、無声破裂音/に/は過渡的な無声音で
あるためにその継続時間が短く、非常に険出しにくいも
のである。これに比べると無声摩擦音/s 7は定常的
な無声音であるために第13図(a)に示すようにその
継続時間が長く、その検出が容易である。このためにサ
ンプリング周期を苔干長くすると、無声摩擦音/!I/
は噴出できても無声破裂音/に/は検出できない場合が
生じ得る。第15図はこの点を考慮に入れてと記音声人
力/ 5enakaoaaqure /の第1階層リス
トに対する標準パターンを構成したものであり、符号U
、  S、■8、s%ty、s、v、、S、U、S、V
、、S、tJSS、7番の時系列からなる基本ノルター
ンの他に、符号v1とv2とで挾まれる符号S、TJ、
Sの継続時間に等しい符号Sからなる分岐パターンを設
けたものであるっしたがって、音声の符号化された入カ
ッ\ターンは、北記基本)\ターンと照合されるのみな
らず、分岐J\ターンによって生じる符号U、S、■い
S%v2、S、U、S、VN、S、U%S、Vtからな
る派生パターンとも照合されるものであり、したがって
無声破裂音/に/が入カバターンから欠落するようなこ
とがあっても音声メ・ソセージを正しく認識することが
でらるものである。なお415図中に記載した数字■、
■は同一の話者の5回の発声パターンを分析した結果、
基本パターンに一致した場合が4回、派生ノルターンに
一致した場合が1回あったということを示すものである
。以上のように構成することにより、無声破裂音/p/
、/1/、/に/を聞色落すような事態を防止で色るも
のである。
A typical example of a life in which the input pattern of a voice fluctuates is the phenomenon of missing voiceless plosives /, /, /1/, and /ni/. That is, as can be seen from FIG. 113(a), the voiceless plosive /ni/ is a transient unvoiced sound, so its duration is short and it is very difficult to express. In comparison, the unvoiced fricative /s7 is a stationary unvoiced sound, so its duration is long as shown in FIG. 13(a), and it is easy to detect. For this purpose, if the sampling period is lengthened, voiceless fricative /! I/
Even if the voiceless plosive sound /ni/ can be emitted, it may not be possible to detect the voiceless plosive sound /ni/. Fig. 15 shows a standard pattern for the first layer list of ``Personal Power'' / 5enakaoaaakure / taking this point into consideration, and is designated by the symbol U.
, S, ■8, s%ty, s, v, , S, U, S, V
,,S,tJSS, In addition to the basic Nortern consisting of time series No. 7, the code S, TJ, which is sandwiched between codes v1 and v2,
A branch pattern consisting of a code S equal to the duration of S is provided.Therefore, the encoded input character \ turn of speech is not only matched with the coded \ turn, but also the branch J \ turn. It is also matched with the derived pattern consisting of the symbols U, S, ■S%v2, S, U, S, VN, S, U%S, Vt generated by the turn, and therefore the unvoiced plosive /ni/ is included. Even if something is missing from the cover turn, the voice message can be recognized correctly. In addition, the numbers written in Figure 415■,
■ is the result of analyzing the vocal patterns of the same speaker five times.
This shows that there were four cases in which the basic pattern was matched and one case in which the derived Nortern was matched. By configuring as above, the voiceless plosive /p/
, /1/, /ni/ to prevent the color from fading.

次に第16図(a) ” (c)は音声人力/ 5en
akaosas −ure /に含まれる4個の有声音
■、〜■、について、それぞれの2次階Li!リストに
対する標準パターンを作成した例を示している。このう
ち4を番目の有声音vIについて説明すると、その基本
パターンは符号VM、 Vt、、 VM、 VHlVM
lVL(7)時系列カラ構成されており、さらに符号V
Mからなる3個の分岐ノルターンを有している。したが
ってこの場合には、符号VM、 VL、 VM、 VL
ノ時系列からなる4tの派生パターンと、符号VM、V
L、VM、VL、VMの時系列から々る絡2の派生J\
ターンと、符号VM、 VL、 VM1VH%VMの時
系列からなる第3.の派生パターンとが形成されるもの
である。116図(a)に記載された数字■、■、■な
どはsijと同嘩に分岐の回数を示している。なお各分
岐ノルターンの継続時間は、分岐パターンに入らずに基
本パターンをそのまま進んだ場合の継続時間と等しくな
っている。以上のように標準パターンを構成することに
より、第2階層リストにおける符号VH,VM、vLが
少々変動しても確実に音声メツセージの認識ができるよ
うになっている。
Next, Figure 16 (a) ” (c) is voice human power / 5en
For the four voiced sounds ■, ~■, included in akaosas -ure /, each second-order Li! An example of creating a standard pattern for a list is shown. To explain the fourth voiced sound vI among them, its basic pattern is as follows: VM, Vt, VM, VHlVM
lVL(7) It is composed of time series color, and furthermore, the code V
It has three branched norterns consisting of M. Therefore, in this case, the symbols VM, VL, VM, VL
The derived pattern of 4t consisting of the time series and the codes VM, V
Derivation of 2 from the time series of L, VM, VL, VM J\
The third turn consists of a time series with codes VM, VL, and VM1VH%VM. A derived pattern is formed. The numbers ■, ■, ■, etc. written in FIG. 116 (a) indicate the number of branches in the same way as sij. Note that the duration time of each branch norturn is equal to the duration time when the basic pattern is continued as it is without entering the branch pattern. By configuring the standard pattern as described above, voice messages can be reliably recognized even if the codes VH, VM, and vL in the second layer list vary slightly.

ところでこのような隋2階層リストにおける符号V)I
、Vv、Vt、の変動の仕方は多種多様であり、−例を
挙げると(−OVL −VH系列つE VL−VM 系
列になる場合(例 / 5enaka /の/na/ 
) 、 (q)Vt、 −Vbt系列カVL−Vt、系
列になる場合(例、/5aqu−re/の/re)、θ
9 VL −VM系列がVL −VH系列に7るユ易合
(例 / tomare /の/re/)、(:)VH
−VL系列がVH−VM系列になる場合(例 / IS
en−al、/の/lk/)、DI+符号V)IがVL
 −VH系列になる場合(例 /sa/) 、(’J符
号VuがVL −VH−vL系列になる場合(例/ k
 a t a /の/ k a t / )などの例が
ある。これらの符号Vo 、 V&4、Vt、の変動の
規則を整理すると大体次の2つの場合に分類されるう l)前後の音韻の相互作用に1す、符号VuとVMおよ
び符号■LとVMの相互の入れ代わりが生じること。す
なわち、VH−VL系列がVH−Vv系列またばVM 
−VL系列になり得ること。およびVL −VH系列が
Vt −Vv系列またはVM −VH系列になり得るこ
とっ 2)符号VHが1市後の無声音の影響を受けて、符号V
Hの前または後あるいは萌後双力に符号vLが付加され
ることっtなわち、符号V)Iが、Vt、 −VH系列
、VH−Vt、系列、t ft1i VL −Vn −
Vt、 i列ニ入れ代わること。
By the way, the code V)I in such a Sui 2-layer list
, Vv, and Vt vary in a wide variety of ways. For example, in the case of (-OVL-VH series and EVL-VM series (e.g. /5enaka/'s /na/
), (q)Vt, -Vbt series force VL-Vt, when it becomes series (e.g. /re of /5aqu-re/), θ
9 A combination of VL-VM series and VL-VH series (e.g. /re/ of /tomare/), (:)VH
- When VL series becomes VH-VM series (example / IS
en-al, /of /lk/), DI + sign V) I is VL
-VH sequence (e.g. /sa/), ('J code Vu becomes VL -VH-vL sequence (e.g. /k
Examples include a ta /'s / ka t /). If we organize the rules for the fluctuations of these codes Vo, V & 4, Vt, they can be roughly classified into the following two cases: 1) Due to the interaction of the preceding and following phonemes, the codes Vu and VM and the codes L and VM Mutual replacement occurs. That is, the VH-VL series is the VH-Vv series or VM
- It can become a VL series. and the VL-VH sequence can become the Vt-Vv sequence or the VM-VH sequence.
The code vL is added before or after H or after the power, that is, the code V)I is Vt, -VH series, VH-Vt, series, t ft1i VL -Vn -
Vt, i-column 2 is swapped.

音声の入カッ\ターンが変動する能の例としては、母音
の無声化声象が挙げられる。例えば日本人の場合、「私
(ワタクシ)」という言葉を/wa−talzusi 
/と正確に発音する人よりはむしろ、母音/u/を飛ば
して/ watak*i /と発音する人の方が多いも
のである。これは母音/u/が無声破裂汗/に/と無声
摩擦音/S/に挾まれているからであり、一般に■無声
破裂音Usと無声破裂音Uaに挾まれた1個の母音(例
えば/ klQpu /の/i/)や、■無声破裂音U
aと無声II音tJFとに侠まれだ1個の母音(例えば
/ wataku@i /の/U/)、および■無声音
と有声子音に挾まれた1個の母音などは無声化する傾向
が非常に強い。その他にも無声音Uと無音Sの間に挾ま
れた1個の母音(例えば、/d−ousa /の/a/
)も無声化する傾向が苦土ある。そこで、−投に無声音
と無声音の間、および無声音と無音の間、ならびに無声
音と有声子音の間に侠まれだ1個の母音については、そ
の母音の部分を有声音Vとする基本パターンの池に、そ
の母音の部分を無声音Uとする分岐パターンを標準ノー
ターンに付加しておき、E記特定の母音が有声音Vとし
て明瞭に発音された場合においては基本パターンにより
照合判定することがで轡、またE記特定の母音があたか
も無声音Uであるかのように不明瞭に発音された場合に
おいては派生パターンにより照合判定できるようにして
おけば、音声メツセージの認識率を高くすることができ
るものである次にこのような基本ノーターンおよび分岐
l〜ターンを有する標準パターンを作成する方法につい
て説明する。標準パターンを作成する方法には大別して
2つの古史があり、1つは音声メ・ソセージを構成する
個々の音素符号およびその継続時間を士−ボード等から
入力し、分岐処理プOジう乙により基本パターンおよび
分岐パターンを自動的に作成する方法であり、もう1つ
は同一の音声メツセージを発声の仕方を変えたりあるい
は発声者を変えたりしながら複数回登録し、共通する性
質を基本パターンとし、共通しない特異な性質を分岐l
〜ターンとして登録する学習登録方式であわ、前者は演
紳法的なものであり後者は帰納法的なものである。
An example of a Noh performance in which the entrance and turn of the voice fluctuates is the devoicing of vowels. For example, for Japanese people, the word "watakushi" is /wa-talzusi.
Rather than those who pronounce it correctly as /, there are more people who skip the vowel /u/ and pronounce it as /watak*i/. This is because the vowel /u/ is sandwiched between a voiceless plosive /ni/ and a voiceless fricative /S/, and generally one vowel sandwiched between a voiceless plosive Us and a voiceless plosive Ua (for example, / klQpu /no/i/) and ■Voiceless plosive U
A vowel that is rare between a and the voiceless II sound tJF (for example, /U/ in /wataku@i /), and a vowel sandwiched between a voiceless sound and a voiced consonant, have a strong tendency to be devoiced. Strong against In addition, one vowel sandwiched between voiceless U and silent S (e.g. /d-ousa / of /a/
) also tends to become silent. Therefore, for a vowel that is rare in the - throw between a voiceless consonant, between a voiceless consonant and a voiceless consonant, and between a voiceless consonant and a voiced consonant, the basic pattern where the vowel part is the voiced consonant V is created. In addition, a branch pattern in which the vowel part is an unvoiced sound U is added to the standard no-turn, and when a specific vowel in E is clearly pronounced as a voiced sound V, it is possible to make a comparison judgment using the basic pattern. In addition, if a specific vowel in E is pronounced unclearly, as if it were a voiceless sound U, it is possible to increase the recognition rate of spoken messages by making it possible to compare and judge based on derived patterns. Next, a method of creating a standard pattern having such a basic no-turn and branch l~ turns will be described. There are two ancient methods for creating standard patterns.One is to input the individual phoneme codes and their durations that make up a voice message from a board, etc., and then use a branch processing program. One method is to automatically create basic patterns and branch patterns by Party B, and the other is to register the same voice message multiple times by changing the way it is uttered or by changing the speaker, and then creating basic patterns based on common characteristics. Patterns and branching out unique characteristics that are not common
~ It is a learning registration method that registers as a turn, the former is a deductive method and the latter is an inductive method.

まず+1f1者の方法は、例えば第17図に示すように
+−ボード(FiO)から/9/、/s /、/n/、
/ =1 /、/に/、 /a/、 10/、 /s/
、 /a/、 /9/、 /++/、 /r/、 /e
/々どの各音素符号とその継続時間とを順次入力して行
く方法であり、まず各音素符号が有声音Vであるか否か
を判定し、有声音■であれば母音/q/につ(八ては符
号Vt+を割り当て、母音/i/と有声子音/m/、/
b/については符号Vt、を割り当て。
First, the method of the +1f1 person is, for example, as shown in FIG.
/ =1 /, /ni/, /a/, 10/, /s/
, /a/, /9/, /++/, /r/, /e
This method involves sequentially inputting each phoneme code and its duration. First, it is determined whether each phoneme code is a voiced sound V, and if it is a voiced sound ■, the vowel /q/ is entered. (The code Vt+ is assigned to the vowel /i/ and the voiced consonants /m/, /
For b/, the code Vt is assigned.

その龍の有声子音や母音/e/、/u/、10/(でつ
いては、符号VH,VM、VLのいずれにもなり得るも
のとして分岐J〜ターンを作成する。また無声音には符
号Uを、さらに無音にlは符号Sをそのまま割り当てる
ようにする。次にe、1続時間を入力して継続時間の短
い無声音、すなわち無声破裂音については符号tJから
なる基本〕\ターンの他に、符号Sからなる分岐ノ\タ
ーンを付加する。さらに符号系列を入力して、無声音と
無音または無声音あるいは有声子音とに挾まれた学母音
には、符号Vからなる基本ノーターンの池に符号Uから
々る分岐パターンを付加するものである。以Eのように
すれば、音声メツセージの認識率を高めるような汁岐バ
ターフを基本ノルターンに付加した標準パターンを自動
的に作成することができるものである。
For the voiced consonants and vowels /e/, /u/, and 10/ (of the dragon), we create a branch J~ turn that can be any of the symbols VH, VM, and VL. Also, the symbol U is used for unvoiced sounds. , Furthermore, l assigns the code S to silence as is.Next, enter e, the duration time, and for unvoiced sounds with short duration, that is, voiceless plosives, in addition to the basic]\ turn consisting of the code tJ, A branch no\turn consisting of the symbol S is added.Additionally, a code sequence is input, and for a school vowel sandwiched between a voiceless sound and a voiceless sound or a voiced consonant, a basic no-turn pond consisting of the symbol V is added from the symbol U. By doing the following, it is possible to automatically create a standard pattern in which a branch pattern is added to the basic nortern, which increases the recognition rate of voice messages. be.

次に学習登録方式について説明する。第18図(a)〜
(c)は第2階層リストに対応する符号VH1VM、V
Lからなる標準l\ターンを作成する場合を示しており
、第19図はその作成手順を示すフ0−チセートである
。まず第18図(a、)に示すように同一の言葉を複数
回登録し、正規化された時間をlOの領域に分割し、同
じ時間領域で符号が変化しない部分を核パターンとし、
同じ時間領域で符号が変化する部分をVMとする。この
時点で第18図(b)に示すような学習基本ノ3ターン
が作成される。次に同じ時間領域でvMかVLK々る部
分にはVLの分岐パターンを付加する。また同じ時間領
域でVMかV)Iになる部分にはVuの分岐ノルターン
を作成する。
Next, the learning registration method will be explained. Figure 18(a)~
(c) is the code VH1VM, V corresponding to the second layer list.
This shows a case where a standard l\ turn consisting of L is created, and FIG. 19 is a footset showing the creation procedure. First, as shown in Fig. 18(a), the same word is registered multiple times, the normalized time is divided into lO regions, and the portion where the sign does not change in the same time region is taken as a core pattern.
Let VM be the part where the sign changes in the same time domain. At this point, three turns of learning basics as shown in FIG. 18(b) are created. Next, a VL branch pattern is added to the portion where vM or VLK are present in the same time domain. In addition, a branch nortern of Vu is created in a portion where VM or V)I becomes in the same time domain.

さらに同じ時間領域でVHにもVt、にもなる部分はV
Mのままにしておく。この時点で#!J18図(c)に
示すような分岐ノルターンを有する学習標準ノルターン
が形成される。こうして得られた学習標準パターンはi
準ノヘターンメe l t+2に登録記憶されるように
なっているものである。
Furthermore, the part that becomes both VH and Vt in the same time domain is V
Leave it as M. at this point#! A learning standard nortern having a branching nortern as shown in FIG. J18 (c) is formed. The learning standard pattern obtained in this way is i
It is designed to be registered and stored in the semi-nohetanme elt+2.

しかして本実施例においては、かかる学習v19方大と
非学習登録方式とを折衷した登録処理S顛を設けており
、第20図にそのフローチャートを示す。まず径録処理
部1461に人力されたデータトま窮1階層リストの内
に、S −IJ −V系列またはS−■系列があるか否
かを判定され、もしあれば5−TJ −V系列とS−■
系列のいずれの符号系列をも含むような1準ノ〜ターシ
が形成される。次に第2階層リストについてはと述の列
19図に示すような学習モードにより標準ノルターンを
作成する場合と非学習モードにより標準パターンを作成
する鴫合とを切り換え得るようになっており、一方の七
−ドでうまく行力為ないときには他方のモードを使用で
きるようになっている。しかして学習モードの動作につ
いては第19図の70−チャートによりすでに説明した
ので、非学習モードによって第2階層リストに対する標
準7<ターフを作成する部会の動作について、第21図
のフローチャート(てより説明するつまず第21壇層リ
ストの最初の符号がVt、であれば、基本パターンST
 −VLと派生パターンST −VMとを含む標準)\
ターンを作成する。
Therefore, in this embodiment, a registration process S system is provided which is a compromise between the learning v19 system and the non-learning registration method, and a flowchart thereof is shown in FIG. First, it is determined whether or not there is an S-IJ-V series or an S-■ series in the 1st layer list of data entered manually by the catalog processing unit 1461, and if so, it is determined that the 5-TJ-V series is present. S-■
A quasi-notice is formed that includes any code sequence in the sequence. Next, regarding the second layer list, it is possible to switch between creating a standard norturn in the learning mode as shown in Figure 19 in column 19, and creating a standard pattern in the non-learning mode. If you are unable to perform well in the seventh mode, you can use the other mode. Since the operation in the learning mode has already been explained using the chart 70 in FIG. If the first code of the 21st stage list to be explained is Vt, the basic pattern ST
-VL and derived pattern ST -VM)\
Create a turn.

また最初の符号がVHであれば基本パターンST −V
t、 −VHノf1.K、2つの原性バター :/ S
T −VM −VuとST −Vt −VMとを含む標
準I\ターンを作成する。さらに最初の符号がVMであ
れば基本バター:/ ST −VMのみの標準パターン
を作成する。次に最後の符号がVH,VL、V−のうち
のいずれであるか、および最初の符号と最後の符号との
間に含まれる各符号がVL −VH系列か、VH−Vt
、系列かに応じてそれぞれ、第21図のフローチャート
に記載したような分岐パターン付色の標準パターンが自
動的に形成されるものである。
Also, if the first code is VH, the basic pattern ST -V
t, -VH no f1. K, two primary butters: / S
Create a standard I\turn containing T -VM -Vu and ST -Vt -VM. Furthermore, if the first code is VM, a standard pattern of only basic butter:/ST-VM is created. Next, determine whether the last code is VH, VL, or V-, and whether each code included between the first code and the last code is a VL -VH sequence or VH - Vt.
, a standard pattern with branch patterns and colors as shown in the flowchart of FIG. 21 is automatically formed depending on the series.

ところでこのようにして第2階層リストに対する標準パ
ターンを作成する場合には、符号VHと符号VLの識別
を正しく行なう必要がある。1述のように符号Vnは高
域有声音(/a/り1し−づ)に灯応し、符号VLは低
域有声音(/i/ ’Jループ)に対応するものである
が、本発明者らの開発したけ析装置にあっては第22図
に示すようにVH分析系とVL分析系の出力のバラシス
を調節するバランス、調節用の可変抵抗VR,とオフセ
ット調節用の可変抵抗VR2とを設けて、母音/a/を
発声したときには必ず符号VHが噴出され、母音/i/
を発声したときには必ず符号vLが噴出されるようにし
ているものである。ところが厳密には話者の個性によっ
てこのバラシスの最適値は異なることがある。そこで本
発明者らは、母音/e/を自然に発生したときにVH/
VL差信号がゼロになるようにバランス調整すればよい
ことを見出したものである。第23図はその原理を示す
ものであり、同図に示すように母音/a/の第1ホルマ
ントは500Hz ” l KHzに分布し、母音/i
/のitホルマシトは0−500Hz K ’y+布し
ているものであるが、母音/e/の41t1ルマントは
大体その中間に位置している。したがって母音/e/を
基準にしてvHとVLのバランス調整を行なうとバラン
スの最適値が得られるものである。
By the way, when creating a standard pattern for the second layer list in this manner, it is necessary to correctly identify the code VH and the code VL. As mentioned above, the code Vn corresponds to a high-frequency voiced sound (/a/ri1shi-zu), and the code VL corresponds to a low-range voiced sound (/i/ 'J loop). As shown in Fig. 22, the analyzer developed by the present inventors has a balance for adjusting the output balance of the VH analysis system and the VL analysis system, a variable resistance VR for adjustment, and a variable resistance VR for adjusting the offset. By providing a resistor VR2, when the vowel /a/ is uttered, the code VH is always emitted, and the vowel /i/
When this is uttered, the code vL is always emitted. However, strictly speaking, the optimal value of this balance may differ depending on the personality of the speaker. Therefore, the present inventors found that when the vowel /e/ is naturally produced, VH/
The inventors have discovered that it is sufficient to adjust the balance so that the VL difference signal becomes zero. Figure 23 shows the principle. As shown in the figure, the first formant of the vowel /a/ is distributed at 500Hz '' l KHz, and the vowel /i
The it formacite of / is in the 0-500Hz K'y+ range, but the 41t1 lumant of the vowel /e/ is roughly in the middle. Therefore, by adjusting the balance between vH and VL using the vowel /e/ as a reference, the optimum balance value can be obtained.

最後に2次階層リストについて各符号VH,VM、vL
の継続時間等を考慮に入れた照合の方法について説明す
る。第24図は2次階層リストの3通りの照合識別方式
を示すフO−チセートであり、最も適当ないずれか1つ
の方法を選択して使用するものである。まずitの方法
は1つの音声メツセージに含まれる複数個の有声音V+
 ” vnについて、その中に含まれている符号で号も
多いものはVHであるかVMであるかYt、であるかを
照合するものである。この場合次に多いもの、号も少な
いものはどれであるかをも同時に照合するようにしても
かまわない。また第2の方法は各有声音■1〜Vnに含
まれているVHの割合が入力J〜ターンと標準パターン
とで一致するか否かを照合するものであり、さらに癌3
の方法は入カッ\ターンにおけるVMが標準パターンの
VHまたはVL K合致するものの数と、標準パターン
におけるVIAが人カバターンのViiまたはVLに合
致するものの数とをリストアツブして照合するものであ
る。しかして音声メツセージ中のすべての有声音v、 
/i、 V、について、上記3種類の照合方法のうち最
も適当ないずれか1つの照合方法を用いて入カッ\ター
ンと複数の標準パターンとを照合し、最もよく特徴の一
致する標準ノルターンを判定するようにしているもので
ある。
Finally, regarding the secondary hierarchy list, each code VH, VM, vL
A method of matching that takes into consideration the duration of time will be explained. FIG. 24 is a diagram showing three methods of collation and identification of the secondary hierarchy list, and the most suitable one is selected and used. First, the IT method uses multiple voiced sounds V+ included in one voice message.
” For vn, the code included in it with the most codes is checked to see if it is VH, VM, or Yt. In this case, the next most codes and the code with the fewest codes are The second method is to check whether the proportion of VH included in each voiced sound ■1~Vn matches the input J~ turn and the standard pattern. This is to check whether cancer 3
The method is to restore and compare the number of cases in which VM in the input turn matches the VH or VLK of the standard pattern and the number of cases in which the VIA in the standard pattern matches the Vii or VL of the human pattern. Therefore, all voiced sounds v in a voice message,
For /i, V, match the input cut\turn with multiple standard patterns using the most appropriate one of the three matching methods above, and select the standard norturn with the most matching features. This is what I am trying to judge.

本発明は以上のように構成されており、1次照合の段階
では音声入力の高周波成分と低周波成分とをとり出す一
対のフィルタの出力を比較して高周波成分の方が強い区
間を無声音区間、低同波成分の方が強い区間を有声音区
間、高周波成分と低周波成分とが略同じ区間を無音区間
とし、無声音、有声音、および無音の各区間の時系列か
ら々る第1の入カバターンを予め記録されている複数種
の標準パターンと照合し、また2次照合の段階では、有
声音の周波数帯域のうちの高周波成分と低周波成分とを
とり出す一対のフィルタの出力を比較し、高周波成分の
方が強い区間を高穢有声音区間、低周波成分の方が強い
区間を低域有声音区間有声音注し、高域有声音、低域有
声音、および中域有声音の各区間の時系列からなる第2
の入カバターンを予め記録されている複数種の標準パタ
ーンと照合するようにしたから、最初に有声音か無声音
か無音かという音声の巨視的な特徴を抽出して照合範囲
を絞り、次に有声音の中の周波数成分という音声の微視
的な特徴を抽出して入力メツセージの識別を行なうこと
かで色、1次照合の段階で照合範囲を限定することがで
きるので、音声メツセージの認識を確実にかつ迅速に行
なうことができるという利点を何するものである。特に
実施例の説明において述べたように2次照合の段階で、
高域有声音を母音/a/のfJlホルマントに対応させ
、低域有声音を母音/Vの4tホん71しトに対応させ
るようにしておけば、有声音を顎の開きの大きい有声音
と顎の開きの小さい有声音とに分けて認識することがで
きることになり、音声の構造に合致した照合処理を行な
うことができるのでより認識率を高めることができるも
のである。
The present invention is configured as described above, and in the stage of primary matching, the outputs of a pair of filters that extract high-frequency components and low-frequency components of voice input are compared, and a section in which the high-frequency component is stronger is determined as an unvoiced speech section. , the interval in which the low homowave component is stronger is the voiced interval, and the interval in which the high-frequency component and the low-frequency component are approximately the same is the silent interval, and the first time series of the unvoiced, voiced, and silent intervals is The input cover pattern is compared with multiple types of pre-recorded standard patterns, and in the secondary matching stage, the outputs of a pair of filters that extract high-frequency components and low-frequency components of the frequency band of voiced sounds are compared. The section where the high-frequency component is stronger is called a high-voiced section, and the section where the low-frequency component is stronger is called a low-frequency voiced section. The second time series consisting of the time series of each interval of
Since the input pattern of the input pattern is compared with multiple types of standard patterns that have been recorded in advance, we first narrow down the matching range by extracting the macroscopic characteristics of the voice, such as whether it is voiced, voiceless, or silent. By extracting the microscopic features of the voice called the frequency components in the voice and identifying the input message, it is possible to limit the matching range at the color and primary matching stage, making it possible to recognize voice messages. What is the advantage of being able to do it reliably and quickly? In particular, as mentioned in the explanation of the embodiment, at the stage of secondary verification,
If you make the high-frequency voiced sound correspond to the fJl formant of the vowel /a/ and the low-range voiced sound to the 4t hon71 of the vowel /V, you can change the voiced sound to a voiced sound with a wide jaw opening. It is possible to recognize voiced sounds and voiced sounds with a small jaw opening, and it is possible to perform matching processing that matches the structure of the speech, thereby further increasing the recognition rate.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明による音声メツセージ識別装置の概略構
成を示すブロック図、第2図(a) (b)は同上の動
作波形図、第3図は同1の音声メツセージ識別処理動作
をブロック化して示した図、!!84図(a)(b)は
同、ヒの波形整形処理部の動作を示す波形図、第5図は
同上の波形整形処理部の動作を示す流れ図、第6図は同
上のコンポジ1ソト符号化処理部の動作を示すフローチ
ャート、第7図(a) (b)は同トの符号化処理部の
プOIνり図、第8図は同上の階層化処理部の動作を示
す流れ図、第9図は同上の正規化処理部の動作を示す流
れ図、4to図(a) (b)は距離計算照合部の動作
を示す波形図、第11図は音声の特徴を階層化して示し
た図、第12図は音声の周波数スペクトルを示す図、第
13図(a) (b)は音声から抽出した信号の波形図
、114図は四ヒの装置における分岐照合処理の原理を
示す図、第15図は音声の第1階層リストを示す図、糸
16図(a) A(d)は音声の第2階層リストを示す
図、417図は音声の標準パターンを作成する装置の動
作を示す流れ図、第18図(a) (b) (c)は学
習登録方式の原理を示す図、第19図は学習登録方式の
動作を示す図、第20図は本発明の装置における登録処
理部の動作を示す流れ図、121図は同上の非学習登録
処理の動作を示す流れ図、8g22図は同上の音声分析
部の回路図、第23図は母音/a/、/l/、/e/の
41車ルマシトの周波数分布を示す図、第24図は本発
明における判定処理部の動作を示す流れ図である。 代理人 弁理士  石 1)長 七 第22図 釘24;C 手続補正帯(自発) 1、事件の表示 昭和56年特許願第193557号 2、発 明の名称 音声メツセージ識別方式 3、補正をする者 事件との関係 特許出願人柱  所
  大阪府門真市太字門真1048番地名 称 (58
3)松下電工株式会社 代表者神 前 善 − 4、代理人 郵便番号 530 5゜補正命令の日付 自     発 訂     正     書 出願番号 特幀昭56−193557号1、本願明細書
第25頁第5行目の全文を次のように訂正致し塘す。 [ることかできるものでるる。第25図(a)は母音/
 a /、/ i /、/ u /、/ e /、10
/の調音点を示しており、同図(b)は母音の第1ホル
マシトと第2ホルマントの周波数分布を示している(電
子通信学会(三浦博士監修)「新版聴覚と音声」のp3
63〜p364エリ引用)。また第26図は日本語の母
音の第1ホルマントおよび第2ホルマシトの分布を男声
および女声の場合について各別に示したものである。第
25図(b)お工び第26図に示された第2ホルマント
の分布を見れば明らかなように約0.8〜1.8 KH
zの帯域フィルタと約1.8〜3.2 KHzの帯域フ
ィルタの出力とを分析すれば、第2ホルマシトの位置を
検出することができ、これに工って舌の位置の前後に対
応した特徴をも抽出することができるものである。もっ
ともそこまで微視的な特徴を抽出」 2.同上第40頁第1行目の「ものである。」の後に次
の文を挿入致します。 [さらに入カバターンと標準パターンとの一致度合を各
す、?7プルごとに対応する点数+1,0、−1で評価
し、合計点数で判定することも可能である。第4表はか
かる点数付けの方法を示すものであり、その基本的な考
え方は上述の3値化された符号同士の相互相関係数を計
算する場合とほとんど同じである。しかして第4表の規
則に従って点数付けを行ない、各サンプル毎に計算した
点数の総計が予め定められた所定値以上であるときには
一致すると判定し、所定値以下であるときには一致しな
いと判定するものである。したがってサンプルの合計が
1000であるとすると、パターンが完全に一致したと
きには点数の合計は1000となるものである。 $4表 」 3、同上第43Tj第3行目の「である。」のi++に
[、第25図(a)は母音の調音点を示す図、同図(b
)お工び第26図は第1ホルマントおよび第2ホルマン
トの周波数分布を示す図」を挿入致します。 4、添付図面中、第25図および第26図を別紙のよう
に追加致します。 代理人 弁理士  石 1)長 上 第25図 (b) 第26図
FIG. 1 is a block diagram showing a schematic configuration of a voice message identification device according to the present invention, FIGS. 2(a) and 2(b) are operation waveform diagrams of the same, and FIG. 3 is a block diagram showing the voice message identification processing operation of the same. The diagram shown,! ! 84 (a) and (b) are waveform diagrams showing the operation of the waveform shaping processing section of the same as above, FIG. 5 is a flow chart showing the operation of the same waveform shaping processing section of the above, and FIG. FIGS. 7(a) and 7(b) are flowcharts showing the operation of the encoding processing section, FIG. 8 is a flowchart showing the operation of the layering processing section, and FIG. The figure is a flowchart showing the operation of the normalization processing section same as above, 4to diagrams (a) and (b) are waveform diagrams showing the operation of the distance calculation matching section, FIG. Figure 12 is a diagram showing the frequency spectrum of audio, Figure 13 (a) and (b) are waveform diagrams of signals extracted from audio, Figure 114 is a diagram showing the principle of branch matching processing in the Shihi device, and Figure 15. 16(a) and 16(d) are diagrams showing the second layer list of voices, and FIG. 18(a), (b), and (c) are diagrams showing the principle of the learning registration method, FIG. 19 is a diagram showing the operation of the learning registration method, and FIG. 20 is a diagram showing the operation of the registration processing section in the device of the present invention. Figure 121 is a flowchart showing the operation of the non-learning registration process as above, Figure 8g22 is a circuit diagram of the speech analysis section as above, and Figure 23 is a flowchart showing the operation of the non-learning registration process of the same as above. FIG. 24, which is a diagram showing the frequency distribution, is a flowchart showing the operation of the determination processing section in the present invention. Agent Patent Attorney Ishi 1) Chief 7 Figure 22 Nail 24; C Procedural amendment band (spontaneous) 1. Indication of case Patent Application No. 193557 of 1982 2. Name of invention Voice message identification method 3. Make amendments Person Relationship to the case Patent applicant Location 1048 Bold Kadoma, Kadoma City, Osaka Name (58)
3) Matsushita Electric Works Co., Ltd. Representative Yoshi Kamimae - 4, agent postal code 530 5゜ Date of amendment order Self-corrected application number Tokusho 56-193557 No. 1, page 25, line 5 of the specification of the present application I have corrected the entire sentence as follows. [There are things that can be done. Figure 25(a) shows the vowel /
a /, / i /, / u /, / e /, 10
The figure (b) shows the frequency distribution of the first formant and second formant of the vowel.
63-p364 (cited by Eli). Furthermore, FIG. 26 shows the distribution of the first formant and second formant of Japanese vowels for male and female voices, respectively. Fig. 25(b) As is clear from the distribution of the second formant shown in Fig. 26, it is approximately 0.8 to 1.8 KH.
By analyzing the outputs of the z bandpass filter and the approximately 1.8-3.2 KHz bandpass filter, the position of the second formasite can be detected, and this can be used to detect the position of the tongue before and after the tongue position. It is also possible to extract features. 2. Extract the most microscopic features. The following sentence will be inserted after "Mono deru." in the first line of page 40 of the same page. [Furthermore, check the degree of matching between the input cover pattern and the standard pattern. It is also possible to evaluate with the corresponding score +1, 0, -1 for every 7 pulls, and to judge based on the total score. Table 4 shows this scoring method, and the basic idea is almost the same as when calculating the cross-correlation coefficient between ternary codes described above. Scoring is performed according to the rules in Table 4, and when the total score calculated for each sample is greater than or equal to a predetermined value, it is determined that they match, and when it is less than or equal to the predetermined value, it is determined that they do not match. It is. Therefore, if the total number of samples is 1000, the total score will be 1000 when the patterns match perfectly. $4 Table" 3. In the i++ of "deru." in the third line of the 43rd Tj above, [, Figure 25 (a) is a diagram showing the articulation points of vowels, Figure 25 (b)
) We have inserted "Figure 26, which shows the frequency distribution of the first and second formants." 4. Figures 25 and 26 will be added to the attached drawings as attached. Agent Patent Attorney Ishi 1) Chief Figure 25 (b) Figure 26

Claims (1)

【特許請求の範囲】 (1)  音声入力の高周波成分と低周波成分とをとり
出す一対のフィルタの出力を比較して高周波成分の方が
強い区間を無声音区間、低周波成分の方が強い区間を有
声音区間、高周波成分と低周波成分とが略同じ区間を無
音区間とし、無声音、有声音、および無音の各区間の時
系列からなる刑lの入カバターンを予め記録されている
複数種の標準J〜ターシと1次照合し、有声音区間につ
いては、有声音の周波数帯域のうちの高周波成分と低周
波成分とをとり出す一対のフィルタの出力を比較し、高
周波成分の方が強い区間を高域有声音区間、低同波成分
の方が強い区間を低域有声音区間、高周波成分と低周波
成分とが略同じ区間を中域有声音区間とし、高域有声音
、低域有声音、および中城何声音の各区間の時系列から
なる名2の入力バターシを予め記録されている複数種の
標準パターンと2次照合し、入カバターンとの距離が最
小となる標準JSターンを入力メツセージとして識別す
ることを特徴とする音声メツセージ識別方式。 (2)42の入カバターシと標準ノルターンとを2次照
合する際には、高域有声音区間の継続時間が一致するか
否かを照合することを特徴とする特許請求の範囲第1項
記載の音声メツセージ識別方式(3)第2の入カバター
ンと標準パターンとを2次照合する際には、第20入カ
バターンの全継続時間の中で高域有声音区間が占める時
間の割合が一致するか否かを照合することを特徴とする
特許請求の範囲11項記載の音声メツセージ識別方式(
4)第2の入力バターシと標準パターンとを2次照合す
る際には、高域有声音区間、低域有声音区間、および中
域有声音区間のうち継続時間が最も長いものが一致する
か否かを比較することを特徴とする特許請求の範囲第1
項記載の音声メッセ−ジ繊別方式。 (5)第2の入力パターンと標準パターンとを2火照合
する際には、高域付声音区間、低域有声音区間、および
中城河声音区間を継続時間の長い順に並べたときの順序
が一致するか否かを比較することを′+!j敵とする特
許請求の範囲第1項記載の音声メツセージ識別方式。 (6)有声音のエネル平が集中する1KHz以下の低局
波成汁を抽出するフィルタと、無声音のエネル早が集中
する2 KHz ” 12KHzの高周波成分を抽出す
るフィルタとの出力を比較して有声音、無声音、および
無音の各区間を識別するようにして成ることを特徴とす
る特W!f請求の範囲第1項記載の音声メ1すせ−ジ識
別方式。 (7)有声音の区間においては、母音/a/のような高
域付声音のエネル千が集中する500)1z −IKH
zの成分を抽出するフィルタと、母音/i/のような低
域有声音のエネルfが集中する500T(z以下の成分
を抽出するフィルタの出力を比較することにより、高域
有声音、低域有声音、および中域有声音の各区間を識別
するようにして成ることを特徴とする特許請求の範囲第
1項記載の音声メツセージ識別方法。
[Claims] (1) The outputs of a pair of filters that extract high-frequency components and low-frequency components of audio input are compared, and the section where the high-frequency component is stronger is defined as an unvoiced section, and the section where the low-frequency component is stronger is determined as an unvoiced section. is a voiced sound interval, and a silent interval is an interval in which high-frequency components and low-frequency components are approximately the same. First-order matching with the standard J~Tashi is performed, and for voiced sound sections, the outputs of a pair of filters that extract high-frequency components and low-frequency components in the frequency band of the voiced sound are compared, and the section in which the high-frequency components are stronger is determined. is a high-frequency voiced interval, an interval in which the low-frequency component is stronger is a low-frequency voiced interval, and an interval in which the high-frequency component and low-frequency component are approximately the same is a mid-range voiced interval; A standard JS turn with the minimum distance from the input cover turn is determined by secondarily comparing the input batashi of the name 2, which consists of the time series of each section of the vocal sound and the voice of Nakagusuku, with multiple types of standard patterns recorded in advance. A voice message identification method characterized by identifying it as an input message. (2) When performing the secondary comparison between the 42 input cover patterns and the standard nortern, it is checked whether the durations of the high-frequency voiced sound sections match or not. Voice message identification method (3) When performing a secondary comparison between the second input cover turn and the standard pattern, the proportion of time occupied by the high-frequency voiced sound section in the total duration of the 20th input cover turn matches. The voice message identification method according to claim 11, characterized in that the voice message identification method (
4) When performing a secondary comparison between the second input Batashi and the standard pattern, determine whether the longest duration among the high-range voiced sound section, low-range voiced sound section, and mid-range voiced sound section matches. Claim 1, which is characterized by comparing whether or not
Voice message sorting method described in Section 1. (5) When comparing the second input pattern and the standard pattern, the order in which the high-frequency voiced section, low-frequency voiced section, and Nakagusukuga voice section are arranged in descending order of duration ′+! j. A voice message identification system according to claim 1. (6) Comparing the outputs of a filter that extracts low frequency components of 1 KHz or less, where the energy peaks of voiced sounds are concentrated, and a filter that extracts high frequency components of 2 KHz and 12 KHz, where the energy peaks of unvoiced sounds are concentrated. A voice media 1 sequence identification system according to claim 1, characterized in that each section of voiced sound, unvoiced sound, and silent sound is identified. (7) Voiced sound 500) 1z -IKH in which the energy of high-frequency voice sounds such as the vowel /a/ is concentrated.
By comparing the output of the filter that extracts the component of z and the output of the filter that extracts the component of 500T (500T) where the energy f of low-frequency voiced sounds such as the vowel /i/ is concentrated, it is possible to 2. The voice message identification method according to claim 1, wherein each section of a range-voiced sound and a mid-range voiced sound is identified.
JP19355781A 1981-11-30 1981-11-30 Voice message identification system Granted JPS5895400A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19355781A JPS5895400A (en) 1981-11-30 1981-11-30 Voice message identification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19355781A JPS5895400A (en) 1981-11-30 1981-11-30 Voice message identification system

Publications (2)

Publication Number Publication Date
JPS5895400A true JPS5895400A (en) 1983-06-06
JPS6245560B2 JPS6245560B2 (en) 1987-09-28

Family

ID=16310021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19355781A Granted JPS5895400A (en) 1981-11-30 1981-11-30 Voice message identification system

Country Status (1)

Country Link
JP (1) JPS5895400A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6243697A (en) * 1985-08-20 1987-02-25 三洋電機株式会社 Voice analyzer
JPS62244100A (en) * 1986-04-17 1987-10-24 株式会社リコー Voice section detecting system
JP2014002217A (en) * 2012-06-15 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> Generation sound sensing device, method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6243697A (en) * 1985-08-20 1987-02-25 三洋電機株式会社 Voice analyzer
JPS62244100A (en) * 1986-04-17 1987-10-24 株式会社リコー Voice section detecting system
JP2014002217A (en) * 2012-06-15 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> Generation sound sensing device, method, and program

Also Published As

Publication number Publication date
JPS6245560B2 (en) 1987-09-28

Similar Documents

Publication Publication Date Title
Shahin et al. Tabby Talks: An automated tool for the assessment of childhood apraxia of speech
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
JPS6147440B2 (en)
Alsulaiman et al. Speaker recognition based on Arabic phonemes
Muhammad et al. Voice content matching system for quran readers
Alotaibi Investigating spoken Arabic digits in speech recognition setting
Rudzicz Acoustic transformations to improve the intelligibility of dysarthric speech
Hermansky et al. Perceptual properties of current speech recognition technology
Sigmund Voice recognition by computer
Jeyalakshmi et al. Efficient speech recognition system for hearing impaired children in classical Tamil language
Deekshitha et al. Broad phoneme classification using signal based features
Raso et al. Modeling the prosodic forms of Discourse Markers
JPS5895400A (en) Voice message identification system
Gupta et al. Autoassociative neural network models for online speaker verification using source features from vowels
Ouhnini et al. Towards an automatic speech-to-text transcription system: amazigh language
Ching et al. From phonology and acoustic properties to automatic recognition of Cantonese
MY An improved feature extraction method for Malay vowel recognition based on spectrum delta
Blevins Phonetically-based sound patterns: Typological tendencies or phonological universals
JPS6331798B2 (en)
Kamarudin et al. Analysis on Mel Frequency Cepstral Coefficients and Linear Predictive Cepstral Coefficients as Feature Extraction on Automatic Accents Identification
Přibilová et al. Spectrum modification for emotional speech synthesis
Nidhyananthan et al. Contemporary speech/speaker recognition with speech from impaired vocal apparatus
Komissarchik et al. Application of knowledge-based speech analysis to suprasegmental pronunciation training
JP3808732B2 (en) Speech recognition method and system
Thubthong et al. Stress and tone recognition of polysyllabic words in Thai speech