JPS59197100A - Voice wave detector - Google Patents

Voice wave detector

Info

Publication number
JPS59197100A
JPS59197100A JP7242083A JP7242083A JPS59197100A JP S59197100 A JPS59197100 A JP S59197100A JP 7242083 A JP7242083 A JP 7242083A JP 7242083 A JP7242083 A JP 7242083A JP S59197100 A JPS59197100 A JP S59197100A
Authority
JP
Japan
Prior art keywords
plane
time
output
voice
nem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7242083A
Other languages
Japanese (ja)
Other versions
JPH0223878B2 (en
Inventor
神内教博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP7242083A priority Critical patent/JPS59197100A/en
Publication of JPS59197100A publication Critical patent/JPS59197100A/en
Publication of JPH0223878B2 publication Critical patent/JPH0223878B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 この発明は、人間の音声を検出するための音声波検出装
置に関するものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to an audio wave detection device for detecting human speech.

コンピュータの発展に伴い、音声入力装置が提案されて
いる。この音声入力装置は予めコンピュータに入力する
特定の人の音声波形を音声記憶部に記憶させ、特定の人
の発する音声波形を音声記憶部の記憶値と比較して入力
した音声を認識するものである。
With the development of computers, voice input devices have been proposed. This voice input device stores the voice waveform of a specific person input into the computer in advance in the voice storage section, and recognizes the input voice by comparing the voice waveform uttered by the specific person with the value stored in the voice storage section. be.

この音声入力装置は、特定の人が風邪をひいたりして記
憶した音声波形と異なると、正しい音声を入力したとし
ても、入力できないという種々の問題かある。
This voice input device has various problems in that if a specific person catches a cold and the voice waveform differs from the memorized voice waveform, the voice cannot be input even if the correct voice is input.

この発明は、以上の点に鑑み、鼻と口からの音声を別個
に検出するようにして、より正確な音声入力を得ること
ができるようにした音声波検出装置を提供することを目
的とするものである。
In view of the above points, it is an object of the present invention to provide a sound wave detection device that detects sounds coming from the nose and mouth separately, thereby making it possible to obtain more accurate sound input. It is something.

即ち、この発明は頭部に固定されるアーム先端部に所定
間隔を設けて音声再生器を2個設け、一方の音声再生器
で鼻腔出力を、他方で口腔出力を検出するようにしたこ
とを特徴とするものである。
That is, the present invention provides two audio reproducers at a predetermined interval at the tip of an arm fixed to the head, and one audio reproducer detects nasal output and the other detects oral cavity output. This is a characteristic feature.

以下、この発明を添付図面に示す実施例に基づいて説明
する。
The present invention will be described below based on embodiments shown in the accompanying drawings.

第1図に示すように、人の頭部1に固定されるヘッドア
ニム2からは、先端に2個のマイク3m、3nを支持す
る支持アーム4が位置調整可能に顔面の前方に延ひてい
る。上記マイク3nは鼻腔出力を検出するために鼻に向
かい、且つ、マイク3mは口腔出力を検出するために口
に向かっている。
As shown in FIG. 1, a support arm 4 that supports two microphones 3m and 3n at its tip extends from a head animation 2 fixed to a person's head 1 in front of the face in an adjustable position. . The microphone 3n faces the nose to detect nasal output, and the microphone 3m faces the mouth to detect oral cavity output.

なお、上記マイク3m、3nのいずれか一方は、位置調
整可能に設けることが望ましい。また、マイク3mと3
n間には鼻腔出力と口腔出力とを分離する遮蔽板5を設
けておくことが望ましい。
Note that it is desirable that either one of the microphones 3m and 3n is provided so that its position can be adjusted. Also, microphone 3m and 3m
It is desirable to provide a shielding plate 5 between the nasal passage and the oral cavity output to separate the nasal cavity output and the oral cavity output.

上記マイク3m、3nからの信号は、第2図に示すよう
にマルチプレクサ等の切換器6を介してAD変換器7に
入力され、ディジタル信号に変換されてコンピュータ8
で音声の認識を行なうための処理をする。
The signals from the microphones 3m and 3n are input to an AD converter 7 via a switch 6 such as a multiplexer, as shown in FIG.
performs processing for voice recognition.

この発明、は、以上の構成であり、音声の認識の一例を
以下に詳述する。
The present invention has the above configuration, and an example of speech recognition will be described in detail below.

第3図にはマイク3mと、3nによって得られたエネル
ギー曲線を示すもので、マイク3 m 、 3 nから
のエネルギー曲線をNEm +  N”nとすると、/
a/ 、 /ka/ 、 /Sa/、/El/ 、/n
a/、 /ha/、/ma/、/ya/、/ra/、/
Wa/、/pa/、/N/のエネルギー曲線N”m +
 NEnは第3図(a)〜(Iりニ示すしている。この
エネルギー曲線NEm + NEn  はマイク3m 
、3nで観測した音声波エネルギーを各々最大値で正規
したエネルギーの時間変化曲線である。
Figure 3 shows the energy curves obtained by microphones 3m and 3n, and if the energy curves from microphones 3m and 3n are NEm + N''n, /
a/ , /ka/ , /Sa/, /El/ , /n
a/, /ha/, /ma/, /ya/, /ra/, /
Energy curve N”m + of Wa/, /pa/, /N/
NEm is shown in Figures 3(a) to (I).This energy curve NEm + NEn is
, 3n is a time change curve of energy normalized by the maximum value.

次に、第3図のエネルギー曲線の特徴について述べる。Next, the characteristics of the energy curve shown in FIG. 3 will be described.

/L/ 、 /h a/ではNEnとNEmが同時にり
時に破裂気流によるピークが現われ、IN’mはN E
nより早く立上がっている。/s a/では/s/の区
間でNEmに小さな値(矢印)か現われている。
At /L/ and /h a/, a peak due to burst airflow appears when NEn and NEm rise at the same time, and IN'm is NE
It is rising faster than n. In /s a/, a small value (arrow) appears in NEm in the /s/ interval.

/n/、/ma/ではNEnがNEm より早く立上か
り、NEm が増加を始めると同時にNEn  が減少
を始める。/ya/、/ra/、/wa/ではNEnと
NEmがほぼ同時に立上がるが立上り時の傾斜はNEn
がNEm より大きい。/N/では口腔出力が極めて小
さく、NEm  には室内騒音のエネルギー曲線が現わ
れている。
At /n/ and /ma/, NEn rises earlier than NEm, and NEn begins to decrease at the same time as NEm begins to increase. For /ya/, /ra/, /wa/, NEn and NEm rise almost simultaneously, but the slope at the rise is NEn.
is larger than NEm. In /N/, the oral cavity output is extremely small, and in NEm an energy curve of indoor noise appears.

以上で、各音韻のエネルギー曲線の特徴を述べたが、こ
の特徴を表わすパラメータを遅延時間りと傾斜比Sとし
て次式tl) 、 (2+で定義する。
The characteristics of the energy curve of each phoneme have been described above, and the parameters representing these characteristics are defined by the following equation tl), (2+) with delay time and slope ratio S.

D”” ’nO−’mo            (1
)但し、’no l ’moはNEn、NEm が各々
5悌点を初めて越えた時刻、(m 3はtlnOから例
えば、19.2m5ec  後の時刻である。式(1)
はN”nとNEmの立上り時間差を、式(2)はNEm
 の立上り時におけるNEnとNEmの傾斜の比を表わ
している。
D""'nO-'mo (1
) However, 'no l'mo is the time when NEn and NEm each exceeded the 5th point for the first time, (m3 is the time after, for example, 19.2m5ec from tlnO.Equation (1)
is the rise time difference between N”n and NEm, and equation (2) is NEm
It represents the ratio of the slopes of NEn and NEm at the rise of .

第4図は第3図から/Sa/と//N/を除く10種の
単音節をこの2つのパラメータが張るD−5平面上にプ
ロットしたもので、音声試料は10名の男性が孤立発声
したものを用いた。/Sa/ては/S/の区間でNEm
の値のばらつきが太きく ’moの検出が不安定となり
、また/N/では口腔出力が極めて小さいためしmoが
決定できないという理由で除外した。第4図によれば/
−&/ 、 /h a/の遅延時間りは小さく、傾斜比
Sは1.0を中心に分布する。
Figure 4 shows 10 types of monosyllables from Figure 3, excluding /Sa/ and //N/, plotted on the D-5 plane defined by these two parameters. I used what I said out loud. /Sa/teha/S/ NEm
It was excluded because the variation in the value of 'mo was wide, making the detection of 'mo unstable, and because the oral output was extremely small in /N/, mo could not be determined. According to Figure 4/
The delay time of -&/ and /h a/ is small, and the slope ratio S is distributed around 1.0.

/ka/ 、 /la/ 、/pa/ではD)QでSは
小さい。
For /ka/, /la/, /pa/, D) Q and S are small.

又、/na/ 、 7m a/ではD<O、S<0であ
り、/y a/ 、 /r a/ 、 /wa/ではD
が小さく、Sは他の音韻群より大きい。第4図ではS 
) 3.0の場合、S = 3.0の位置にプロットし
ている、/ya/、/ra1、/Wa/ては、NEmが
NEn  の立上りよりややおくれる(D<O’)音声
試料があることが第4図に示されている。この場合、N
EnとNEmの概形は第1図と同じであるが、第1図に
おける/ya/。
Also, for /na/, 7m a/, D<O and S<0, and for /y a/, /ra/, /wa/, D
is small, and S is larger than other phoneme groups. In Figure 4, S
) 3.0, /ya/, /ra1, /Wa/ plotted at the position of S = 3.0 are voice samples where NEm is slightly later than the rising edge of NEn (D<O'). It is shown in Figure 4 that there is. In this case, N
The outlines of En and NEm are the same as in Figure 1, but /ya/ in Figure 1.

ヂ がある(第4図矢印)。も (arrow in Figure 4).

第1図に示すように、咽頭腔9の通過エネルギーをEo
(【)l鼻腔10と口腔11の出力エネルギーを各々E
+1 (’) + %(’)又、マイク3n・3mか観
測するエネルギーをEn(in)(L) 、 Em(i
n) (t)とした時、観測値En(in)(L)から
En (’)/Eo (t)時間変化曲線を推定する問
題を考える。エネルギーは声道内で無損失であると仮定
すると式(3)が成り立つ。
As shown in FIG. 1, the energy passing through the pharyngeal cavity 9 is Eo
([)l The output energy of the nasal cavity 10 and the oral cavity 11 is E
+1 (') + % (') Also, the energy observed by microphones 3n and 3m is En (in) (L), Em (i
n) (t), consider the problem of estimating the En (')/Eo (t) time-varying curve from the observed value En (in) (L). Assuming that energy is lossless within the vocal tract, equation (3) holds true.

I!、o (’) −En(t) ” %(’)   
       (3)又、Cn、Cmを放射エネルギー
のうち各マイクに入る比率とすれば、 CnEo(L)=En(Hn)(t) +(Cn/Cm
) Em(in)(’) (51が得られる。また、/
ma/の10発声について鼻と口を覆う同筒形の一端に
配置した1個のマイクで観測し、−エネルギーを正規化
したものをNEol[)i(i=1〜10)、それらの
平均曲線をNE 01c)  とし2て次式によって を計算する。この結果をグラフに表わすと第5図のよう
になり、これにより上記の値cn/cm  を定めるこ
とができるからEn(t)/Eo(t’)をとして求め
られる。
I! ,o(') −En(t)''%(')
(3) Also, if Cn and Cm are the ratio of the radiated energy that enters each microphone, then CnEo (L) = En (Hn) (t) + (Cn/Cm
) Em(in)(') (51 is obtained. Also, /
The 10 utterances of ma/ were observed with one microphone placed at one end of the same cylinder covering the nose and mouth, and the normalized energy was NEol[)i (i = 1 to 10), their average. Assuming that the curve is NE 01c), 2 is calculated using the following equation. This result is expressed in a graph as shown in FIG. 5, and since the above value cn/cm can be determined from this, it can be obtained as En(t)/Eo(t').

ここで、En/Eoの曲線の特徴を表わすパラメータと
して次式を定義すると、 (En/’o) o −En (to)/Eo(to)
      16)△(En/ Eo)−Max(En
(’)/ Eotl −En(” )/Eo(” ) 
〕(7) となる。ただし、Maxはかぎかっこ内の最大値を意味
する。また、【0はE。が最大値の15%点を初めて越
えた時刻、t′は時刻tから例えば、19.201 I
f e C後の時刻である。式(6)はEn/Eo曲線
の左端の値を、また式(7)は曲線の最大傾斜を表わし
ている。第6図は10名の男性が孤立発声した12種の
単音節(第4図と同一音声試料)をこの2つのパラメー
タが張る平面(これを0−△平面と呼ぶ)にプロットし
たものである。(第5図では図を見やす(するため5個
の音声試料のみ′プロットした音韻があるが、他の5個
も同様の分布をしている。) 第6図では各話者側に上述の方法てCn/Cm を定め
式+61 、 +7+を計算した。この結果、12種の
単音節が(/a/、/ka/、/sa/、/la/、/
ha/、/pa/) 、 (/na/、/ma/) 、
 (/ya/、/ra/、/wa/) 。
Here, if we define the following equation as a parameter representing the characteristics of the En/Eo curve, (En/'o) o -En (to)/Eo(to)
16) △(En/Eo)-Max(En
(')/Eotl-En(”)/Eo(”)
](7) becomes. However, Max means the maximum value within the square brackets. Also, 0 is E. The time when t exceeds the 15% point of the maximum value for the first time, t' is, for example, 19.201 I
This is the time after f e C. Equation (6) represents the left end value of the En/Eo curve, and Equation (7) represents the maximum slope of the curve. Figure 6 is a plot of 12 types of monosyllables uttered in isolation by 10 men (the same speech samples as in Figure 4) on the plane defined by these two parameters (this is called the 0-△ plane). . (In order to make the diagram easier to read in Figure 5, there are phonemes plotted for only five speech samples, but the other five have a similar distribution.) In Figure 6, the above-mentioned phonemes are plotted on each speaker's side. method, we determined Cn/Cm and calculated the formulas +61 and +7+.As a result, 12 types of monosyllables (/a/, /ka/, /sa/, /la/, /
ha/, /pa/), (/na/, /ma/),
(/ya/, /ra/, /wa/).

(/N/ ’I  の4群に分類された。(Classified into 4 groups: /N/'I).

なお、第7図及び第8図にはtnoに適当な補正を施し
た時のパラメータの分布を示したもので、この補正は、
第9図に示すように、エネルギー曲線NEn  の35
%点と15%とを直線で結び、時間軸との交点をtno
とするものである。
Furthermore, Figures 7 and 8 show the distribution of parameters when appropriate correction is made to tno, and this correction is
As shown in Figure 9, 35 of the energy curve NEn
Connect the % point and 15% with a straight line, and set the intersection with the time axis as tno.
That is.

次に、摩擦音、破擦音の波形の特徴を表わすパラメータ
として雑音除去差分零交叉数(No i s erej
ected differential zero c
rossing rate)を用いた分析を説明する。
Next, as a parameter representing the characteristics of the waveforms of fricatives and affricates, we use the noise removal difference zero crossing number
ected differential zero c
The analysis using the rossing rate will be explained below.

口腔出力音声信号を(Xl)とするとき、雑音除去差分
零交叉数を次式(11)で定義する。
When the oral cavity output audio signal is (Xl), the noise removal difference zero crossing number is defined by the following equation (11).

−1) ここで、各単音節について雑音除去差分零交叉数の立上
り時刻とNEnの立上り時刻の時間差(こ注目し第10
図に示すように雑音除去差分零交叉数(N、R−D、Z
、C,R)を縦軸に式[214コ示す雑音除去差分零交
叉数とNEnの立上り時間差(Delaytime) 
 を横軸にとった平面(N−D平面)Gこ、後続付音別
に各単音節をプロットすること番こよって摩擦音、破擦
音の識別を行なうこと力≦できる。
-1) Here, for each monosyllable, the time difference between the rise time of the noise removal difference zero crossing number and the rise time of NEn (note this, the 10th
As shown in the figure, the number of noise removal differential zero crossings (N, R-D, Z
, C, R) on the vertical axis and the rise time difference (Delaytime) between the noise removal differential zero crossing number and NEn shown in the equation
By plotting each single syllable according to its subsequent consonant (N-D plane), which has G as its horizontal axis, it is possible to distinguish between fricatives and affricates.

NEQ I NEmの立上り時刻を各々’ilQ l 
’mo ’雑音除去差分零交叉数の立上りを9回を初め
て越。
NEQ I NEm rise time 'ilQ l
'mo' The rise of the noise removal difference zero crossing number is exceeded for the first time 9 times.

2“時”°]′・“57            )次
に、D−5平面・〇−△年面・N−D平面を用いて17
種の音韻/a/、/ka/、15a/、/La/。
2 “hour”°]’・“57) Next, use the D-5 plane, 〇-△ year plane, and N-D plane to calculate 17
Species phonemes /a/, /ka/, 15a/, /La/.

/na/ 、/ha/、/ma/、/ya/、/ra/
、/wa/、/pa/。
/na/, /ha/, /ma/, /ya/, /ra/
, /wa/, /pa/.

/ a/、/za/、/ga/、/cla/、/ba/
、/N/を識別するアルゴリズムを示す。
/a/, /za/, /ga/, /cla/, /ba/
, /N/.

0−△平面上では/ a/、/za/、/ga/、/d
a/。
On the 0-△ plane /a/, /za/, /ga/, /d
a/.

/b a/を扱わず、N−D平面上では/k a / 
、/ t a / 。
/b a/ is not treated, and on the N-D plane, /k a /
,/ta/.

/pa/、/ya/、/ra/、/wa/、/N/を扱
っていない。
/pa/, /ya/, /ra/, /wa/, and /N/ are not handled.

この理由はこれらの音韻が次のような分布をすることが
実験で確かめられているからである。〇−△平面上での
/a/の分布は/Sa/と同してあり、/za/ 、/
ga/ 、/da/ 、/ba/の分布は/na/に類
似しているが分布は広い。N−D平面上での/ka/、
/la/、/pa/の分布は/a/と/h a/の間に
あり、/ y a/ 、 / r a/ 、 /w a
/の分布は/a/と同じである。
The reason for this is that it has been experimentally confirmed that these phonemes have the following distribution. The distribution of /a/ on the 〇-△ plane is the same as /Sa/, /za/ , /
The distribution of ga/, /da/, and /ba/ is similar to /na/, but the distribution is wide. /ka/ on the N-D plane,
The distribution of /la/, /pa/ is between /a/ and /ha/, /ya/, /ra/, /wa
The distribution of / is the same as /a/.

従ッテ、0−△平面テ/ a/、/za/、/ga/、
/da//l) a4扱うこと、及びN−D平面で/k
a/I/La/;’/pa/、/ya/、/ra/、/
wa/を扱うことは識別結果を悪くする。又、/N/は
口腔出力が存在しないためN−D平面上にプロットする
ことができない。
Yotte, 0-△ plane Te/a/, /za/, /ga/,
/da//l) a4 handling and /k in the N-D plane
a/I/La/;'/pa/, /ya/, /ra/, /
Handling wa/ worsens the identification results. Also, /N/ cannot be plotted on the ND plane because there is no oral cavity output.

以上の理由で、各平面上では限定した音韻のみを扱う。For the above reasons, only limited phonemes are handled on each plane.

この制約を補うため以下に述べるアルゴリズムでは各平
面での識別を複数回行なう。
In order to compensate for this restriction, the algorithm described below performs identification on each plane multiple times.

第11図は識別フローチャートである。5tep1ては
〇−△平面上て/N/を分離識別する。これはO−△平
面上での/N/の分布が非常に顕著であり、最初に他の
音韻から分離しておくことが適切であることによる。5
tep 2 ではN−D平面上て−/sa/、/ a/
、/za/、(/na/、/ma/、/ga/、/da
/、/b a/)の4群を分離識別する。5tep3で
は再び0−△平面上で(/ya/、/ra/、/wa/
 )の1群を分離識別する。5tep4  てはD−5
平面上で(/a/、 /h a/ )と(’/ka/ 
、/la/ 、/pa/ )の分離を行ない、5tep
 5  では再びN−D平面上で/a/と/ha/の識
別を行なう。以上の5段階の処理によ5段階の構成をと
る理由は各平面上で他の音韻群から顕著に分離している
音韻を先に分離識別する方法を採用していることによる
。一方、後続母音が/e/、10/の場−合も原則的に
第11図のフローチャートで識別できる。しかし、後続
母音が/1/、/U/の場合には破擦音/l  i/、
/lsu/を5tep2で分離する。なお、0−△平面
上での/n〕i / 。
FIG. 11 is an identification flowchart. In step 5, /N/ is separated and identified on the 〇-△ plane. This is because the distribution of /N/ on the O-Δ plane is very prominent, and it is appropriate to first separate it from other phonemes. 5
In step 2, on the N-D plane -/sa/, /a/
, /za/, (/na/, /ma/, /ga/, /da
/, /ba/) are separated and identified. In 5tep3, on the 0-△ plane again (/ya/, /ra/, /wa/
) is separated and identified. 5tep4 Teha D-5
On the plane, (/a/, /h a/ ) and ('/ka/
, /la/, /pa/) and 5 steps.
5, discrimination between /a/ and /ha/ is performed again on the ND plane. The reason why the five-stage configuration is adopted in the above-mentioned five-stage processing is that a method is adopted in which phonemes that are significantly separated from other phoneme groups on each plane are first separated and identified. On the other hand, cases where the following vowel is /e/ or 10/ can also be identified in principle using the flowchart of FIG. 11. However, when the following vowel is /1/, /U/, the affricate /l i/,
/lsu/ is separated in 5tep2. Note that /n]i/ on the 0-△ plane.

/mu/、/yu/等の特徴が不明確であり、後続母音
か/V、/u/の場合については分後の検3′NJを要
する。
The characteristics of /mu/, /yu/, etc. are unclear, and if the following vowel is /V or /u/, a post-minute test 3'NJ is required.

なお、上記音声の認識においては、口の動きを検出する
カメラ等を用いた検出器を設け、この検出器とこの発明
の検出装置とて検出すれば、より正確に認別できる。
In the recognition of the above-mentioned speech, more accurate recognition can be achieved by providing a detector using a camera or the like that detects mouth movements and performing detection using this detector and the detection device of the present invention.

この発明は、以上のとおり、頭部に固定されるアーム先
端部に所定間隔を設けて音声再生器を2個設け、一方の
音声再生器で鼻腔出力を他方て口+r<g出力を検出す
るようにしたから、1個のマイクの入力装置に比し、よ
り正確に音声を検出てき、コンピュータの音声入力装置
の一部として非常に有効となる0
As described above, in this invention, two audio reproducers are provided at a predetermined interval at the tip of an arm fixed to the head, and one audio reproducer detects nasal cavity output and the other detects mouth+r<g output. Because of this, it can detect audio more accurately than a single microphone input device, making it very effective as part of a computer's audio input device.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の一例を示す説明図、第2図はこの発
明を利用する;■1」御ブロック図、第3図(a)〜(
力は時間とエネルギー分布とを示すグラフ、第4図はD
−8−平曲を示すグラフ、第5図は/ma /の咽頭腔
通過エネルギー曲線を示すグラフ、%6図はO−△平曲
を示すグラフ、第7図及び第8図は第4図及び第6図に
補正を施したグラフ、第9図は補正例を示すグラフ、第
10図(a)〜(e)は1゜名の男性の後続母音/2/
、/V、fi/、/e/、10/の各単音節において、
雑音除去差分零交叉数を縦軸に、式12に示す雑音除去
差分零交叉数とNEnの立上り時間差を横軸にプロット
したN−D平面を示すグラフ、第11図は音声認識の一
例を示すフローチャートである。 2・・・ヘットアーム、3m、3n・・・マイク、4・
・・支持アーム 第3図(a)       第3図(b)第3図(i)
       第3図(」)第3図忙)     第3
図(d) 第3図(9)      第3図(h)第3図(k) 
     第3図(J)時間(msec)      
        、R−間fmsec)第4図 第5図 吟同(msec) (En/Eo)。 (En/Eo)。 手続補正書(眺 1.事件の表示 昭和58年特許願第72420号 2、発明の名称 音声波検出装置 3、補正をする者 事件との関係 特許出願人 住所 高松市井口町4番地1 氏名(名称)神 内 教 博 別紙の通り 補  正  の  内  容 1、 明細書第3頁第17行目の「正規した」を「正規
化した」に補正します。 2、 同上第6頁第9行目の「観測値En(in)CL
)から」を[観測値En(in)(1) + Em(1
n)Li)から」に補正します。 3、 同上第7頁第1行目の「同筒形」を「円筒形」に
補正し捷す。 4、 同上第7頁第8行目の[En(t)/ Eo(t
’川を「En(t)/ Eo(t) j K 補正L 
4 ス。 5、 同上第9頁第5〜15行目を下記のとおり補正し
ます。 記 「去差分零交叉数を次式(8)で定義する。 ここで、各単音節について雑音除去差分零交叉数の立上
り時刻とNE、の立上り時刻の時間差に注目し第10図
に示すように雑音除去差分零交叉数(N、R,−D、Z
、C,Ro)を縦軸に式(9)に示す雑音除」 6、同上第10頁第2〜6行目を下記のとおり補正し捷
す0 記 [えた時刻Zθとすれば、式(9)は次のように定義さ
れる0 次に、D−5平面・0−△平面・N−D平面を」7、 
同上第10頁第9行目、同頁第11行目、1司頁第16
行目、第11頁第1行目及び同頁第14行目の「/a/
」を「/fa/」に補正し捷す。 8、同上第12員第7行目のr/l i/jを「/lJ
′I/」に補正し捷す。 9、同」二第13頁第14行目の「式12」を[式(9
)」に補正します。 手続補正書(自発) 昭和59年2月10日 1、事件の表示 昭1058年特許願第72420号 2、発明の名称 (旧)音声波検出装置 (新)音声波検出方法 3、補正をする者 事件との関係 特許出願人 住所 高松市井口町4番地1 氏名(名称)神 内 教 博 5゜ 昭和     年     月     日  (発送
日)別紙の通り 補正の内容 (1)  別紙のとおり明細1全文を補正しゴす。 (2)願書に添付の図面第5図i、$7図、第8図。 第9図及び第10図を全て削除し、別紙複写図面未配の
ごとく第11図を第10図と7111正し、別紙のごと
く絣らたに第5図、第7図。 第8図、第9図及び第11図を加入しま場。 (3)本願の発明の名称を「音声波検出方法」に補正し
ます。 明   細   書 1、発明の名称 音声波検出方法 2、特許請求の範囲 坤腔からの音声出力を検出すると同時に口腔からの音声
出力を検出し、両種出値に基づき発せられた音声波を決
定することを特徴とする音声波検出方法。 3、発明の詳細な説明   ゛ この発明は、人(6)の音声を検出するための音声検出
方法に関する。 コンピュータの発展に伴い、音声入力装置が提案されて
いる。この音声入力装置は予め音声波の特徴を音声記憶
部に記憶させ、新らたに入力された音声波のも徴を音声
記憶部の記憶値と比較して入力した音声を認識するもの
である。 しかしながら、従来の音声認識は鼻腔・口腔出力が亀ね
合わされた音声波でもって音素を識別認識するものであ
るため、認識率・認識時間の点で十分に満足のいけるも
のではない。 によって鼻腔に向うものと口腔に向うものに分割され、
鼻腔9口腔の形状相違などに基つく伝達特性により修飾
を受けて鼻腔と唇から出力される。 この時、鼻腔形状は変化しないか、口蓋帆は動き、口腔
形状は歯、舌などの動きにより寂形し、唇は開閉する。 したがって、声帯から発生し口腔と鼻腔に分割された声
帯振動波は、鼻孔と唇までの連路形状の違いによって樵
々の修飾を受けるため、両者の鼻孔、唇からの出力波形
は明瞭に異なるものとなる。 また、無声音発声時においても、鼻腔出力が極めて小さ
く、口腔出力のみが存在し、両者の出力波形は明瞭に異
なる。 この発明は、口腔と鼻腔から出る音声波か明瞭に異なる
波形を示すことに着目して成したものであり、音素の認
識を極めて容易にすることを目的とする。 この目的達成のため、この発明の音声波検出方法にあっ
ては、鼻腔男)らの音声出力を検出すると同時に口腔か
らの音声出力を検出し、両横出値に基づき発せられた音
声波を決定するようにしたものである。 この方法により、認識基準となるパラメータのしきい値
を予備実験によって決定し、不特定人の発声音を前記決
定したしきい値と比較することにより音声を認識する。 したがって、この発明によると、鼻腔・口腔両出力の明
瞭に異なる2つの波形に基づいてその音声を認識するよ
うにしたので、音素の認識が極めて容易となり、コンピ
ュータ処理する際には、認識率・認識時1’=」及び記
憶容量か著しく向上する。 以下、この°発明の実施例を添付図面に基ついて説明す
る。 第1図に示すように、人の頭部1に固定されるヘッドア
ーム2からは先端にマイク3 m 、 3 nを支持す
るアーム4が位置調整可能に顔の前面に延びている。マ
イク3nは音声の鼻腔出方を検出するために鼻孔に向か
い゛、マイク3mは音声の口腔出力を検出するために口
に向っている。なお、上記マイク3n、3mのいずれか
一方は位置ss 整可能に設けることが望ましい。また
、マイク3mと3n間には鼻腔出力と口腔出力とを分離
する遮蔽板5を設けて、両出力が混合することなく各マ
イク3n 、3mに入力することが望ましい。 上記各マイク3 m 、 3 nからの信号は、第2区
1に示すようにマルチプレクサ等の切換器6を芥してA
 D f 換器7に入力され、ディジタル信号に変換さ
れてコンピュータ8に入力される。コンピュータ8にお
いて両マイク3 m 、 3 nの出力に基づき、発せ
られた音声の認識処理を行なう。 この認識処理は種々の手段を取り得るか例えば以下のよ
うにして行なう。 この手段は、マイク3 +n L 3 nによって検出
して得られた音声出力のエネルギー曲i13)lNm、
Nnに基つき、下記0) 1)、 S、 (En/Eo
)。、、Δ(E二n/Eo)。 CR,DT なるパラメータを算出し、各パラメータに
より、D−5平7 、 (En/F、o)。・−Δ(E
 n 7’ J+、0)平面(0−Δ平面)、CR−D
 T平面(IN −D平[fn)を得て、この各平面に
基つき発声音を識別するものである。 D、取nとNm  の立上り時間差 S : 、p+EnとNm  の立上り時の傾斜比En
:鼻腔の通過エネルギー EO:咽頭腔の通過エネルギー (En/Eo)0 : En /、E□曲曲線開開始点
値Δ(En/Eo): En/Eo曲線の最大傾斜値C
k:雑音除去差分零交叉数 DT:雑音除去差分零交叉数とNEnの立上り時間差 つきに、上記各平面の作成及びそれに基づく音韻識別を
述べる。 1)o−5+面 第3図fa) −fIりは、音声tn/A/、カ)/k
a/、m、/ Sa/l)/la/、 +す+/na/
、 リ/ha/、 f71/ma/、 tri/ya/
、(う) / r’ a 7、 i’71 / w a
 /、 H/pa/、 fン)/N/  を マ イ 
り3m。 3nで検出して得られたエネルギー曲線N・Em、NE
nであり、観測した音声波エネルギーを各々最大値で正
規化したエネルギーの時間変化曲線である。 このエネルギー曲線において、/a/、 /h2L/て
はN、 nと、凡mが同時に立上り、発声中のN、 n
とNmは同じ変化をしている。/ka/、 /La/、
 /l)a/テはNmの立上り時に破裂気流によるピー
クが現われ、NmはNnより9く立上っている。/sa
/ては/S/の区間でRmに小さな値(矢印)が現われ
てイル。/na/、 /ma/テハNEnがNEmヨり
堅く立上り、N−が増加を始めると同時にNEnが派生
を始める。 /ya/ 、 /ra/、 /wa/ではNnとNmが
ほぼ向特に立上るか立上り時の傾斜はNnがNmより大
きい。 //N/ては口腔出力が極めて小さく、N ”Inには
室内騒音のエネルギー曲線が現われている。 以上の各音韻のエネルギー曲線の特徴を表わすパラメー
タとして次式f1+ 、 (2+で定義する遅延時間り
と傾斜比Sを算出する。 D=1   −1 no   mo         ・・・・・・(1)
但し、’no ” moはN n、N mが各々最大値
の5%点を初めて越えた時刻、[m3(ホLmoから任
怠の時間例えは、19.2m5ec後の時刻である。式
(1)はNnとNEmの立上り時間差を、式(2)はN
mの立上り時におけるNnとNmの傾斜の比を表わす。 第4図は$3図における/sa/とハ/を除<10kO
M節の2つのパラメータを算出してD−8+面上に発声
音の頭文字で例えば/la/はTでプロットしたもので
、音声試料は10名の男性が孤立発声したものである。 なお、/SiL/では/S/の区間でNEm値のばらつ
きが太きくL市0の検出が不安定となり、また、/N/
では口腔出力が極めて小さいためtmoが決定できない
という理由で除外した。 図面においては、S ) 3.0の場合、s = 3.
0の位置にプロットしている。 この図によれは/a/ 、 /ha/の遅延時1’iJ
 Dは小さく、傾斜比Sは1,0を中心に分布する。/
ka/。 /la/、/Pa/ではD ”> QてSは小さい。又
、/na/。 /ma疫はD<O、S<0である。/Y ” + / 
ra/ 、 /wa/てはDが小さく、Sが他の音韻群
より大きい。この音韻てはNEmかNEnの立上りより
ややおくれる(D<O)音声試料があるが、それらは、
NEnとNEmの概影は第3図とほぼ同じ形状であった
か、N”n曲線の最初のピークが堅く、そのピークの頂
上付近でNnの傾きを計算することとなるため、傾斜比
Sかやや小さくなったと為える(第4図矢印)。 以上により、D、5を求めることにより各音韻を数種の
グループに分類し得ることが理解できる。 11)0−Δ平面 第1図に示すように、咽頭腔9の通過エイルキーをE。 (0、鼻腔10ト0)P!:1’ 10)出カニ、r−
ルキーを各々Enfjl 、 % I)又、マイク3n
、3mが観測するエネルギーをE、(in]cl、 E
m(in]lとした11モ、ます、観測値En(in]
t) 、 Em(in]clがらEntt+ /ル、。 Ilの時間鋭化曲線を推定する。 エネルギーは声道内で無損失であるとイノに定すると式
(3)か成り立つ。 Eo[Ll = Enftl + Em(Ll    
  −−f3+又、Cn・Cmを放射エネルギーのうぢ
各マイクに入る比率とすれば、 となり、式(3iと式(4)より CnEo(Ll−En(in) (t) +(Cn/C
ITl) Errl(in )it)−−f51が得ら
れる。 ここで、Co/Cm の算出が問題にな1姿か、例えは
円筒の一端開口部に1個のマイクを配置し、他端開口部
て口及び鼻を覆ってE。を検出するとともに第1図に示
す重膜によりEm、Enを検出し、Eo=EITl+E
nとなるCn”mを算出すればよい。 Cm、On はマイク3 m 、 3 nの位置で変化
するため、固定して行ないE。+ Em’ Enは複数
回の平均値で比較するとよい。 このようにして得たCn/Cmに基つき次式(6)を得
る。 第5図に上述の発声音/a/・・・・・・における上式
(6)のEn/ E、)の時間変化曲線を示す〇このE
n/F、oの曲線の特徴を表わすパラメータとして次式
を定義する。 (En/Eo)o=En(Lo)/Eo(to)  +
’++++  i7]たたし、Maxはかきかっこ内の
最大値を意味する。また、【0はEoか最大値の15%
点を初めて越えた時刻、E′はt□  から任意の時刻
【からある時間例えは、19.2 m5e(後の時刻で
ある。式(7)はEn/J’:o  曲数の左端の値を
、また、式(8)はtill kの最大傾斜を表わして
いる。第6図は@5図に示した10名の男性が孤立発声
した12種の単音節の上記2つのパラメータを0−Δ平
面に発声音の頭文字でプロットしたものである。(第6
図では図を見やすくするため5個の晋声試料のみプロッ
トした音韻かあるが、他の5個も同核の分布をしている
。) この因によれは111Mfの重音「0が(/a/、/k
a/。 /sa/、/La/、/]1a/、/Pa/ ) 、(
/na/l/ma/)、(/ya/。 7r al、/wa/ )、(/N/)の4群に分類て
きる。 1.1′オ、と(7)平m 上テハ4a/ 、/za/
 、/ga/ 、/da/。 /h alを扱わないか、φ/の゛分布は/Sλ/と同
してあり、/za/、/ga/、/da/、/ba/ 
0) ’A布は10a/に類似しているが分布は広く分
類しにくいからである。 111)N −D平面 この平面はyS/、/z/なt−m摩擦音、7tJi乙
/lsu/などの破擦音を識別するものであり、ます、
その1つのパラメータである雑音除去差分零交叉数(N
o1se rejected diff、erenti
al zero crossingrate )につい
て述べる。 第7図に示す例えば/s ulo)口腔出力音声波形(
こおいて、ある点における口腔出力音声信号を(Xi)
とするとき、雑音除去差分零交叉数CRを次式(9)で
定義する。 $8図tal乃至山に/u/ 、/ s u/ 、/z
 u/ 、/l s u/ 、/hu/ +/nu/Q
発芦音のCRと時間の関係を示す。 つぎに、もう1つの/se yメータとして、次式+1
0)で示すCRとNnの立上り時間差D T (Del
ay time)を定義する。 ここで、phEn 、 NF、mの立上り1刻を各々t
 no 、 tmo 。 り11.音除去差分零交叉数の立上りを、その交叉数カ
イ9回を初めて越えた時刻7() とする。第8図(a
l )”i至山に樺腔1ロ腔出力工不ルギーの正規化時
1bj変化曲線Nn、Nmを示す。 第9図は、雑音除去差分零交叉数〔I−・R−J)・Z
−C・R,](CR)を縦軸に雑音除去差分零交叉数C
RとNnの立上り時間差(1)clay cime)を
117j軸番ことった公1乙曲(N−D平面)に後続母
旨別−各早春節を発声音の頭文字でプロットしたもので
ある。 この図によると、単音節/S/、4/、/z/、/h/
、(/nX7m/、、/g/、/d/、/b/) 及O
・母音に分類てきること力)確認できる。 なお、この図において、/ka/、/【al、/Pa/
、/γa/。 /ra/、/wa/、/N/を扱っていないか一/k 
al 、/ t al 。 /pa/(7)分布は/g/、/h L/(’) (’
a、+にあり、/ya/、/r2L/。 /Wa/?7)分布は/a/と同じで、分類上不都合で
あり、また、/N/は口腔出力が存在しないためN −
D平面上にプロットすることができないからである。 以上で各平面の作成方法を述べたか、つきにこれら\の
平面を使用して音韻認識したアルゴリズムの一例を示す
。 このアルゴリズムの一例は、音韻/a/、/ka/、/
sa4/【a/、/na/、/ha/、7m2L/、/
ya/l/ra/、/Wa/l/Pa/、/、/a//
I/za/、/ga/’、/da/、/ha/、/N/
を識別するものであり、第10図に示す識別フローチャ
ートによって行なう。 5tep 1  ては0−Δ平面上て//N/を分離識
別する。これは0−Δ平面上での//N/の分布が非常
に顕著であり、最初に他の音韻から分離してお(ことが
適切であることによる。 5tep 2 てはN−D平面上て7 s a/ + 
/fi/ + /z a/ +(/ma/、/na/、
/ga/、/dA/、/ba/ ) (7) 4群を分
離識別する。 5tep 3  では再び〇−Δ平面上テ(/’ja/
、/ra/。 /wa/)の1群を分離識別する。 5tep 4  ではD−5平面上で(/a/ 、/h
a/ )と(/ka/、/la/、/pa/)の分離を
行なう。 5tep 5  では再ひN −I)平面上で/a/と
/ha/c)識別を行なう。 以上の5段階の処理によって17種の音韻を9群に分類
する。このように5段階の構成をとる理由は各平面上で
他の音韻群から顕著に分離している音韻を先に分離識別
する方法を採用していることによる。一方、後続母音か
/e/ 、10/の場合も原則的に第10図のフローチ
ャートで識別する。また、後続母音が/i/、/u/の
」赦、台には破擦音/l′fi%/lsu/を5LeP
2で分離する。 この様にして多群に分類された各音韻群の中において、
従来から行なわれている周知な認識手法、例えはスペク
トルの重心周波数・ピーク周波数・容筒波数およびそれ
らの時間変化に基づく認識手法により各音韻を識別し、
最終的な判定を下す。 に示すように、エネルギー曲i、9B NEm 、 N
Enにおいて、最大値の35%点と15%点とを直線で
結ン、この直線と時間軸との交点をLno + (Lm
o)とするなどの補正をしてD−5平面ノ〇−Δ平面、
N−D平面を作成すればよい。 なお、上記音声の認識において、口の動きを検確に識別
できる。 4、図面の簡単な説明 第1図はこの発明の一例を示す説明図、第2図はこの発
明を利用する制御ブロック図、第3図ta)〜(Iりは
時間とエネルギー分布を示すグラフ、第4図は1)−5
平面を示すグラフ、第5図tal−+1りはE、/Eo
の時間変化曲線を示すグラフ、第6図はO−Δ平面を示
すグラフ、第7図は/Su/の口腔出力音声波形図、第
8図ia)乃至if)は鼻腔1口腔出力エネルギーの正
規化時間変化曲線及び口腔出力の雑音除去差分零交叉数
の時間変化曲線のグラフ、第9図(a)〜telはN−
D平面を示すグラフ、第10図は音声認識の一例を示す
フローチャート、第11肉は補正例を示すグラフである
。 3m 、 3 n・・・マイク、4・・・支持アーム。 特許出願人  神内教博 同 代理人  鎌田文二 第5図(a)       第5図(9)第8図(a)
   第8図(b)第8図−(c)第8図(d)   
第8図(e)   第8図(f)第10図 手続補正書(師) 1、事件の表示 昭和58年特許願第72420号 2、発明の名称 音声波検出方法 3、補正をする者 事件との関係 特許出願人 住所   高松市井口町4番地1 氏名(名称)  神 内 教 博 住所 〒542すぴ咬剖]詞π臼日咽で博萌芥■ヨ:日
ヨ干萱β世:5゜ 昭和     年     月     日  (発送
日)補正の内容 ■ 昭和59年2月10日付手続補正書による全文補正
明細書第2頁第4行の−「鼻腔」を「鼻孔」(IC補正
します。 2 同省第11頁第12行のr /xi十l/ j及び
「/X17」をそれぞれ「IX1十月」及びrlXi?
Jf/m補正します。 ;3 同頁第13行の[/xi−1/Jをrlxi−1
1Jに白11正し才す。
Fig. 1 is an explanatory diagram showing an example of the present invention, Fig. 2 is a block diagram of the system using this invention;
The force is a graph showing time and energy distribution, Figure 4 is D
-8- A graph showing a flat curve, Figure 5 is a graph showing the energy curve passing through the pharyngeal cavity of /ma /, %6 is a graph showing an O-△ flat curve, Figures 7 and 8 are Figure 4 Figure 6 is a corrected graph, Figure 9 is a graph showing an example of correction, and Figures 10 (a) to (e) are the following vowels /2/ for 1° male.
, /V, fi/, /e/, 10/ in each monosyllable,
A graph showing an N-D plane in which the noise removal difference zero crossing number is plotted on the vertical axis and the rise time difference between the noise removal difference zero crossing number shown in Equation 12 and NEn is plotted on the horizontal axis. FIG. 11 shows an example of speech recognition. It is a flowchart. 2... Head arm, 3m, 3n... Microphone, 4.
...Support arm Figure 3 (a) Figure 3 (b) Figure 3 (i)
Figure 3 ('') Figure 3 Busy) 3
Figure (d) Figure 3 (9) Figure 3 (h) Figure 3 (k)
Figure 3 (J) Time (msec)
, R-fmsec) (En/Eo). (En/Eo). Procedural amendment (View 1. Indication of the case 1982 Patent Application No. 72420 2, Name of the invention Audio wave detection device 3, Person making the amendment Relationship to the case Patent applicant address 4-1 Iguchicho, Takamatsu City Name ( Name) Hiroshi Jinnai Contents of the amendment as shown in the attached sheet 1. "Regularized" on page 3, line 17 of the specification is amended to "normalized". 2. Same as above, page 6, line 9. Observation value En (in) CL of the eye
) to [observation value En(in)(1) + Em(1
n)Li) to ”. 3. Correct "same cylindrical shape" in the first line of page 7 of the above to "cylindrical shape" and omit it. 4. [En(t)/Eo(t
'River 'En(t)/Eo(t) j K Correction L
4. 5. Lines 5 to 15 of page 9 of the above are amended as follows. The zero-crossover number for noise removal is defined by the following equation (8). Here, for each monosyllable, we pay attention to the time difference between the rise time of the noise-removed difference zero-crossover number and the rise time of NE, and calculate the difference as shown in Figure 10. The noise removal difference zero crossover number (N, R, -D, Z
. 9) is defined as 0 Next, the D-5 plane, 0-△ plane, and N-D plane are defined as "7,
Same as above, page 10, line 9, same page, line 11, page 1, page 16
line, page 11, line 1 and page 14, line ``/a/
" is corrected to "/fa/" and deleted. 8. Change r/l i/j in the 7th line of the 12th member to “/lJ
Correct it to 'I/' and cut it out. 9, "Formula 12" on page 13, line 14 of "Ibid." 2 is changed to [Formula (9
)”. Procedural amendment (voluntary) February 10, 1980 1. Indication of case 1988 Patent Application No. 72420 2. Title of invention (old) Sound wave detection device (new) Sound wave detection method 3. Make amendments. Patent applicant address: 4-1, Iguchi-cho, Takamatsu-shi Name: Norihiro Kannai 5゜Showa year, month, day (shipment date) Contents of the amendment (1) as attached (1) Full text of Specification 1 as attached I'll correct it. (2) Drawings 5i, 7, and 8 attached to the application. Figures 9 and 10 have all been deleted, Figure 11 has been corrected to Figure 10 as if the attached drawings were not copied, and Figures 5 and 7 have been added to the Kasuri lattice as shown in the attached sheet. Added figures 8, 9 and 11. (3) The name of the invention in the application is amended to "sound wave detection method." Description 1, Title of the invention Sound wave detection method 2, Claims Detecting the sound output from the oral cavity and simultaneously detecting the sound output from the oral cavity, and determining the emitted sound wave based on the output values of both types. An audio wave detection method characterized by: 3. Detailed Description of the Invention The present invention relates to a voice detection method for detecting the voice of a person (6). With the development of computers, voice input devices have been proposed. This voice input device stores the characteristics of voice waves in advance in a voice storage unit, and compares the characteristics of newly input voice waves with the values stored in the voice storage unit to recognize the input voice. . However, since conventional speech recognition identifies and recognizes phonemes using speech waves that are a combination of nasal and oral cavity outputs, it is not fully satisfactory in terms of recognition rate and recognition time. divided into those facing the nasal cavity and those facing the oral cavity,
Nasal cavity 9 It is output from the nasal cavity and lips after being modified by transmission characteristics based on differences in the shape of the oral cavity. At this time, the shape of the nasal cavity remains unchanged, the velum of the mouth moves, the shape of the oral cavity becomes hollow due to the movement of teeth and tongue, and the lips open and close. Therefore, the vocal cord vibration waves generated from the vocal cords and divided into the oral cavity and nasal cavity are modified by the woodcutter due to the difference in the shape of the passage from the nostrils to the lips, so the output waveforms from the nostrils and lips of the two are clearly different. Become something. Furthermore, even when producing an unvoiced sound, the nasal cavity output is extremely small, only the oral cavity output exists, and the output waveforms of both are clearly different. This invention was made by focusing on the fact that the speech waves emitted from the oral cavity and the nasal cavity exhibit clearly different waveforms, and aims to make recognition of phonemes extremely easy. In order to achieve this objective, the sound wave detection method of the present invention detects the sound output from the oral cavity at the same time as the sound output from the nasal passages, and detects the sound waves emitted based on the values of both sides. It was decided to do so. According to this method, a threshold value of a parameter serving as a recognition standard is determined through a preliminary experiment, and the voice uttered by an unspecified person is recognized by comparing it with the determined threshold value. Therefore, according to the present invention, since the speech is recognized based on two clearly different waveforms of the nasal and oral cavity outputs, phoneme recognition is extremely easy, and when computer processing is performed, the recognition rate and At the time of recognition, the memory capacity is significantly improved. Embodiments of the present invention will be described below with reference to the accompanying drawings. As shown in FIG. 1, from a head arm 2 fixed to a person's head 1, an arm 4 supporting microphones 3 m and 3 n at its tip extends in front of the face in an adjustable manner. The microphone 3n faces the nostril to detect the nasal cavity output of the sound, and the microphone 3m faces the mouth to detect the oral cavity output of the sound. Note that it is desirable that either one of the microphones 3n and 3m is provided so that its position ss can be adjusted. Further, it is desirable to provide a shielding plate 5 between the microphones 3m and 3n to separate the nasal cavity output and the oral cavity output, so that both outputs are inputted to each microphone 3n and 3m without being mixed. The signals from each of the microphones 3 m and 3 n are passed through a switch 6 such as a multiplexer and sent to A as shown in the second section 1.
The signal is input to the D f converter 7, converted into a digital signal, and input to the computer 8. The computer 8 performs recognition processing of the emitted voice based on the outputs of both microphones 3 m and 3 n. This recognition process can be performed by various means, for example as follows. This means is based on the energy curve i13)lNm of the audio output detected by the microphone 3 +n L3n,
Based on Nn, the following 0) 1), S, (En/Eo
). ,,Δ(E2n/Eo). Calculate the parameters CR, DT, and use each parameter to obtain D-5, (En/F, o).・-Δ(E
n 7' J+, 0) plane (0-Δ plane), CR-D
The T plane (IN-D plane [fn) is obtained, and vocalizations are identified based on each plane. D, rise time difference S between n and Nm: ,p+slope ratio En at the rise of En and Nm
: Energy passing through the nasal cavity EO: Energy passing through the pharyngeal cavity (En/Eo) 0 : En /, E □ Curve opening starting point value Δ (En/Eo): Maximum slope value C of the En/Eo curve
k: noise removal differential zero crossing number DT: noise removal differential zero crossing number and the rise time difference between NEn, and the creation of each of the planes and the phoneme identification based thereon will be described. 1) o-5+ side Figure 3fa) -fI is the voice tn/A/, ka)/k
a/, m, /Sa/l)/la/, +su+/na/
, ri/ha/, f71/ma/, tri/ya/
, (U) / r' a 7, i'71 / w a
/, H/pa/, fn)/N/ my
3m. Energy curve N・Em obtained by detection with 3n, NE
n, and is an energy time change curve obtained by normalizing each observed sound wave energy by its maximum value. In this energy curve, /a/, /h2L/te, N, n, and m rise simultaneously, and N, n during utterance.
and Nm have the same change. /ka/, /La/,
/l) a/te has a peak due to the bursting air flow when Nm rises, and Nm rises 9 times more than Nn. /sa
A small value (arrow) appears in Rm in the /S/ section. /na/, /ma/TEHA NEn rises more firmly than NEm, and at the same time as N- starts increasing, NEn starts deriving. For /ya/, /ra/, and /wa/, Nn and Nm rise almost in the same direction, or the slope at the time of rise is larger for Nn than for Nm. The oral output for //N/ is extremely small, and the energy curve of indoor noise appears for N''In. The delay defined by the following equation f1+, (2+) is the parameter representing the characteristics of the energy curve of each phoneme. Calculate the time period and slope ratio S. D=1 −1 no mo ......(1)
However, 'no' mo is the time when N n and N m each exceed the 5% point of the maximum value for the first time, [m3 (ho). 1) is the rise time difference between Nn and NEm, and equation (2) is N
It represents the ratio of the slopes of Nn and Nm at the rise of m. Figure 4 excludes /sa/ and ha/ in Figure $3 <10kO
The two parameters of the M clause are calculated and plotted on the D-8+ surface with the initial letter of the vocalization, for example /la/, as T. The speech samples are isolated utterances by 10 men. In addition, in /SiL/, the variation in NEm value is large in the /S/ interval, making detection of L city 0 unstable, and /N/
This case was excluded because the oral cavity output was extremely small and tmo could not be determined. In the drawing, if S ) 3.0, then s = 3.0.
It is plotted at the 0 position. According to this figure, when /a/ and /ha/ are delayed, 1'iJ
D is small, and the slope ratio S is distributed around 1 and 0. /
ka/. In /la/, /Pa/, D ”> Q and S are small. Also, /na/. /ma is D<O, S<0. /Y ” + /
For ra/ and /wa/, D is small and S is larger than other phoneme groups. There are speech samples in which this phoneme is slightly delayed (D<O) from the onset of NEm or NEn, but they are
The outlines of NEn and NEm had almost the same shape as in Figure 3, or the first peak of the N''n curve was hard, and the slope of Nn was calculated near the top of that peak, so the slope ratio S was slightly different. It can be said that it has become smaller (arrow in Figure 4). From the above, it can be understood that by finding D, 5, each phoneme can be classified into several types of groups. 11) 0-Δ plane As shown in Figure 1 Then, the air key passing through the pharyngeal cavity 9 is E. (0, nasal cavity 10 to 0) P!: 1' 10) Out crab, r-
Enfjl, % I) Also, Mike 3n
, 3m observes energy as E, (in]cl, E
11 mo with m(in]l, observation value En(in)
Estimate the time sharpening curve of Il from Em(in]cl. Eo[Ll = Eo[Ll = Enftl + Em(Ll
--f3+Also, if Cn・Cm is the ratio of radiated energy entering each microphone, then from equation (3i and equation (4)), CnEo(Ll-En(in) (t) + (Cn/C
ITl)Errl(in)it)--f51 is obtained. Here, the problem is the calculation of Co/Cm.For example, one microphone is placed in the opening at one end of a cylinder, and the opening at the other end covers the mouth and nose. At the same time, Em and En are detected by the heavy membrane shown in Fig. 1, and Eo=EITl+E
It is sufficient to calculate Cn''m which is n. Since Cm and On change depending on the positions of the microphones 3m and 3n, it is preferable to fix them and compare E.+Em'En with the average value of a plurality of times. Based on Cn/Cm obtained in this way, the following equation (6) is obtained. Figure 5 shows En/E of the above equation (6) for the vocal sound /a/... 〇This E shows the time change curve
The following equation is defined as a parameter representing the characteristics of the curve of n/F, o. (En/Eo)o=En(Lo)/Eo(to) +
'++++ i7] and Max means the maximum value inside the parentheses. Also, 0 is Eo or 15% of the maximum value
The time when E' crosses the point for the first time, E' is an arbitrary time from t In addition, Equation (8) represents the maximum slope of till k. Figure 6 shows the above two parameters of the 12 types of monosyllables uttered in isolation by the 10 men shown in Figure @5. It is plotted by the initial letter of the vocalization on the -Δ plane. (6th
In the figure, only five Jingei samples are plotted to make the diagram easier to read, but the other five samples also have the same core distribution. ) Due to this reason, the double sound of 111Mf “0 is (/a/, /k
a/. /sa/, /La/, /]1a/, /Pa/ ), (
It is classified into four groups: /na/l/ma/), (/ya/. 7r al, /wa/), and (/N/). 1.1'o, and (7) flat m upper Teha 4a/, /za/
, /ga/, /da/. /h al is not handled, or the distribution of φ/ is the same as /Sλ/, /za/, /ga/, /da/, /ba/
0) 'A cloth is similar to 10a/, but the distribution is wide and difficult to classify. 111) N-D plane This plane identifies t-m fricatives such as yS/, /z/, and affricates such as 7tJiot/lsu/.
One of its parameters is the number of zero-crossings for noise removal difference (N
o1se rejected diff, erenti
al zero crossing rate). For example, /sulo) oral cavity output audio waveform (
Here, the oral cavity output audio signal at a certain point is (Xi)
Then, the noise removal differential zero crossing number CR is defined by the following equation (9). $8 Figure tal to mountain /u/ , /s u/ , /z
u/ , /l s u/ , /hu/ +/nu/Q
It shows the relationship between the CR of the pronunciation and time. Next, as another /se y meter, use the following formula +1
The rise time difference D T (Del
ay time). Here, each rising edge of phEn, NF, and m is t.
no, tmo. 11. The rise of the sound removal difference zero crossing number is assumed to be time 7 () when the number of crossings exceeds chi9 times for the first time. Figure 8 (a
1bj change curves Nn and Nm during normalization of the output power of the birch cavity 1 are shown in Figure 9.
−C・R,] (CR) is the noise removal difference zero crossover number C on the vertical axis.
The rise time difference between R and Nn (1) clay cime) is plotted on the 117j axis number Ko 1 Otsu song (N-D plane) for each early spring festival by the following mother's meaning by the initial letter of the vocalization sound. . According to this diagram, the monosyllables /S/, 4/, /z/, /h/
, (/nX7m/, , /g/, /d/, /b/) and O
・I can confirm that it can be classified into vowels. In this figure, /ka/, /[al, /Pa/
, /γa/. Doesn't it handle /ra/, /wa/, /N/?1/k
al,/tal. /pa/(7) The distribution is /g/, /h L/(') ('
Located in a, +, /ya/, /r2L/. /Wa/? 7) The distribution is the same as /a/, which is inconvenient for classification, and /N/ has no oral output, so N −
This is because it cannot be plotted on the D plane. The method for creating each plane has been described above, and an example of an algorithm for phoneme recognition using these planes will be shown below. An example of this algorithm is the phonemes /a/, /ka/, /
sa4/[a/, /na/, /ha/, 7m2L/, /
ya/l/ra/, /Wa/l/Pa/, /, /a//
I/za/, /ga/', /da/, /ha/, /N/
This is done according to the identification flowchart shown in FIG. 5tep 1 Separate and identify //N/ on the 0-Δ plane. This is because the distribution of //N/ on the 0-Δ plane is very remarkable, and it is appropriate to first separate it from other phonemes. te7 s a/+
/fi/ + /z a/ +(/ma/, /na/,
/ga/, /dA/, /ba/) (7) Separate and identify the 4 groups. 5 step 3, again on the 〇-∆ plane Te(/'ja/
, /ra/. /wa/) is separated and identified. 5tep 4, on the D-5 plane (/a/, /h
a/ ) and (/ka/, /la/, /pa/) are separated. In step 5, /a/ and /ha/c) are again identified on the N-I) plane. The 17 types of phonemes are classified into 9 groups through the above 5-step processing. The reason for this five-stage configuration is that a method is used to first separate and identify phonemes that are significantly separated from other phoneme groups on each plane. On the other hand, the following vowels /e/ and 10/ are also identified using the flowchart shown in FIG. 10 in principle. In addition, the following vowels are /i/, /u/, and the affricate /l'fi%/lsu/ is 5LeP.
Separate by 2. Within each phonological group classified into multiple groups in this way,
Each phoneme is identified using a conventional and well-known recognition method, such as a recognition method based on the centroid frequency, peak frequency, and cylindrical wave number of the spectrum and their temporal changes.
make the final judgment. As shown in , the energy curve i, 9B NEm , N
For En, connect the 35% point and 15% point of the maximum value with a straight line, and the intersection of this straight line and the time axis with Lno + (Lm
After making corrections such as o), the D-5 plane 〇-Δ plane,
What is necessary is to create an ND plane. Note that in the voice recognition described above, mouth movements can be accurately identified. 4. Brief description of the drawings Figure 1 is an explanatory diagram showing an example of this invention, Figure 2 is a control block diagram using this invention, and Figure 3 is a graph showing time and energy distribution. , Figure 4 is 1)-5
Graph showing the plane, Figure 5 tal-+1 is E, /Eo
Figure 6 is a graph showing the O-Δ plane, Figure 7 is the oral output speech waveform of /Su/, and Figure 8 ia) to if) are the normal nasal cavity 1 oral cavity output energy. Figure 9 (a) - tel is N-
The graph showing the D plane, FIG. 10 is a flowchart showing an example of voice recognition, and the eleventh figure is a graph showing an example of correction. 3m, 3n...Microphone, 4...Support arm. Patent applicant Norihiro Jinnai Agent Bunji Kamata Figure 5 (a) Figure 5 (9) Figure 8 (a)
Figure 8(b) Figure 8-(c) Figure 8(d)
Figure 8 (e) Figure 8 (f) Figure 10 Procedural amendment (master) 1. Indication of the case 1982 Patent Application No. 72420 2. Name of the invention Sound wave detection method 3. Person making the amendment Case Relationship with Patent Applicant Address: 4-1 Iguchi-cho, Takamatsu City Name: Norihiro Kannai Address: 〒542 Spikyanai〒〒 π Usuhika de Hakumoe Akuta ■yo: Hiyo Hikaya β generation: 5゜1974 Month, Day (Delivery date) Contents of amendment ■ "Nasal cavity" in line 4 of page 2 of the full text of the amended specification based on the procedural amendment dated February 10, 1980 will be corrected to "nostril" (IC). 2 r /xi ten l/ j and "/X17" on page 11, line 12 of the same ministry, respectively, are replaced with "IX1 October" and rlXi?
Jf/m correction. ;3 Change [/xi-1/J to rlxi-1 on line 13 of the same page
White 11 is correct in 1J.

Claims (1)

【特許請求の範囲】[Claims] 頭部に固定されるアーム先端部に所定間隔を設けて音声
再生器を2個設け、一方の音声再生器で鼻腔出力を他方
で口腔出力を検出するようにしたことを特徴とする音声
波検出装置。
A sound wave detection device characterized in that two sound regenerators are provided at a predetermined interval at the tip of an arm fixed to the head, and one sound regenerator detects a nasal output and the other one detects an oral cavity output. Device.
JP7242083A 1983-04-23 1983-04-23 Voice wave detector Granted JPS59197100A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7242083A JPS59197100A (en) 1983-04-23 1983-04-23 Voice wave detector

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7242083A JPS59197100A (en) 1983-04-23 1983-04-23 Voice wave detector

Publications (2)

Publication Number Publication Date
JPS59197100A true JPS59197100A (en) 1984-11-08
JPH0223878B2 JPH0223878B2 (en) 1990-05-25

Family

ID=13488770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7242083A Granted JPS59197100A (en) 1983-04-23 1983-04-23 Voice wave detector

Country Status (1)

Country Link
JP (1) JPS59197100A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59221198A (en) * 1983-05-18 1984-12-12 スピ−チ・システムズ・インコ−ポレ−テツド Microphone unit, voice identifying device and method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5011505A (en) * 1973-05-09 1975-02-06

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5011505A (en) * 1973-05-09 1975-02-06

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59221198A (en) * 1983-05-18 1984-12-12 スピ−チ・システムズ・インコ−ポレ−テツド Microphone unit, voice identifying device and method

Also Published As

Publication number Publication date
JPH0223878B2 (en) 1990-05-25

Similar Documents

Publication Publication Date Title
Pickett et al. Time factors in perception of a double consonant
Nirgianaki Acoustic characteristics of Greek fricatives
Ives et al. Discrimination of speaker size from syllable phrases
Lofqvist et al. Lip and jaw kinematics in bilabial stop consonant production
Chodroff et al. Burst spectrum as a cue for the stop voicing contrast in American English
Tabain et al. An acoustic study of nasal consonants in three Central Australian languages
Sakran et al. A review: Automatic speech segmentation
Tabain et al. An acoustic study of multiple lateral consonants in three Central Australian languages
Mohanty Phonotactic model for spoken language identification in Indian language perspective
Signorello et al. Toward an aerodynamic model of fricative consonants
JPS59197100A (en) Voice wave detector
Kalamani et al. Review of Speech Segmentation Algorithms for Speech Recognition
Denzer-King The acoustics of uvulars in Tlingit
Demolin et al. Whispery voiced nasal stops in rwanda.
Amano et al. Predicting and classifying Japanese singleton and geminate consonants using logarithmic duration
Russell Some acoustic characteristics of word initial pulmonic and glottalic stops in Mam
Lubker et al. Electromyographic‐Cinéfluorographic Investigation of Velar Function during Speech Production
JPS60166995A (en) Voice wave detection
Przedlacka et al. Acoustic Correlates of Glottal Articulations in Southern British English.
Munoz-Luna et al. Spectral study with automatic formant extraction to improve non-native pronunciation of English vowels
Tran et al. Predicting F0 and voicing from NAM-captured whispered speech
Dersch A decision logic for speech recognition
Maddela et al. Phonetic–Acoustic Characteristics of Telugu Lateral Approximants
Bashford et al. Evoking biphone neighborhoods with verbal transformations: Illusory changes demonstrate both lexical competition and inhibition
Elfahm et al. Recognition and classification of arabic fricative consonants