JPH0114600B2 - - Google Patents

Info

Publication number
JPH0114600B2
JPH0114600B2 JP57171631A JP17163182A JPH0114600B2 JP H0114600 B2 JPH0114600 B2 JP H0114600B2 JP 57171631 A JP57171631 A JP 57171631A JP 17163182 A JP17163182 A JP 17163182A JP H0114600 B2 JPH0114600 B2 JP H0114600B2
Authority
JP
Japan
Prior art keywords
consonant
power
frequency power
interval
dip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57171631A
Other languages
Japanese (ja)
Other versions
JPS5958495A (en
Inventor
Katsuyuki Futayada
Masakatsu Hoshimi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP57171631A priority Critical patent/JPS5958495A/en
Publication of JPS5958495A publication Critical patent/JPS5958495A/en
Publication of JPH0114600B2 publication Critical patent/JPH0114600B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識における音声セグメンテーシ
ヨン法に関するものである。
DETAILED DESCRIPTION OF THE INVENTION Field of Industrial Application The present invention relates to a speech segmentation method in speech recognition.

従来例の構成とその問題点 従来研究あるいは発表されている音声自動認識
システムの動作原理としてはパタンマツチング法
が多く採用されている。この方法は認識される必
要がある全種類の単語に対して標準パターンをあ
らかじめ記憶しておき、入力される未知の入力パ
ターンと比較することによつて一致の度合(以下
類似度と呼ぶ)を計算し、最大一致が得られる標
準パターンと同一の単語であると判定するもので
ある。このパタンマツチング法では認識されるべ
き全ての単語に対して標準パターンを用意しなけ
ればならないため、発声者が変つた場合には新し
く標準パターンを入力して記憶させる必要があ
る。従つて日本全国の都市名のように数百種類以
上の単語を認識対象とするような場合、全種類の
単語を発声して登録するには膨大な時間と労力を
必要とし、また登録に要するメモリー容量も膨大
になることが予想される。さらに入力パターンと
標準パターンのパタンマツチングに要する時間も
単語数が多くなると長くなつてしまう欠点があ
る。
Configuration of conventional examples and their problems The pattern matching method is often adopted as the operating principle of automatic speech recognition systems that have been previously researched or published. This method memorizes standard patterns for all types of words that need to be recognized in advance, and compares them with unknown input patterns to calculate the degree of matching (hereinafter referred to as similarity). The word is calculated and determined to be the same word as the standard pattern that yields the maximum match. In this pattern matching method, standard patterns must be prepared for all words to be recognized, so if the speaker changes, a new standard pattern must be input and stored. Therefore, in cases where there are hundreds of types of words to be recognized, such as the names of cities across Japan, it takes a huge amount of time and effort to pronounce and register all the types of words. It is expected that the memory capacity will also be enormous. Furthermore, there is a drawback that the time required for pattern matching between the input pattern and the standard pattern increases as the number of words increases.

これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリー容量が大巾に
少なくて済みパタンマツチングに要する時間が短
くでき、辞書の内容変更も容易であるという特長
を持つている。この方法の例は「音声スペクトル
の概略形とその動特性を利用した単語音声認識シ
ステム」三輪他、日本音響学会誌34(1978)に述
べてある。
On the other hand, input speech is divided into phoneme units and recognized as combinations of phonemes (hereinafter referred to as phoneme recognition).
The method of determining similarity with a word dictionary written in phoneme units has the advantage that the memory capacity required for the word dictionary is significantly reduced, the time required for pattern matching is shortened, and the contents of the dictionary can be easily changed. I have it. An example of this method is described in ``Word speech recognition system using the outline form of the speech spectrum and its dynamic characteristics'' by Miwa et al., Journal of the Acoustical Society of Japan 34 (1978).

この方法における単語認識システムのブロツク
図を第1図に示す。まず、あらかじめ多数話者の
音声を10msの分析区間毎に音響分析部1によつ
てフイルタバンクを用いて分析し、得られたスペ
クトル情報をもとに特徴抽出部2によつて特徴パ
ラメータを求める。この特徴パラメータから/
a/,/o/等の母音や、/m/,/b/等の子
音に代表される音素毎又は音素グループ毎に標準
パターンを作成して標準パターン登録部5に登録
しておく。次に、入力された不特定話者の音声
を、同様に分析区間毎に音響分析部1によつて分
析し、特徴抽出部2によつて特徴パラメータを求
める。この特徴パラメータと標準パターン登録部
5の標準パターンを用いてセグメンテーシヨン部
3において母音と子音の区切り作業(以下、セグ
メンテーシヨンと呼ぶ)を行なう。この結果をも
とに、音素判別部4において、標準パターン登録
部5の標準パターンと照合することによつて、最
も類似度の高い標準パターンに該当する音素をそ
の区間における音素を決定する。最後に、この結
果作成した音素の時系列(以下音素系列と呼ぶ)
を単語認識部6に送り、同様に音素系列で表現さ
れた単語辞書7と最も類似度の大きい項目に該当
する単語を認識結果として出力する。
A block diagram of a word recognition system using this method is shown in FIG. First, the voices of multiple speakers are analyzed in advance by the acoustic analysis unit 1 using a filter bank for each 10ms analysis interval, and the feature parameters are determined by the feature extraction unit 2 based on the obtained spectrum information. . From this feature parameter/
A standard pattern is created for each phoneme or phoneme group, typified by vowels such as a/, /o/, and consonants such as /m/, /b/, and is registered in the standard pattern registration section 5. Next, the input speech of an unspecified speaker is similarly analyzed by the acoustic analysis section 1 for each analysis section, and the feature extraction section 2 obtains feature parameters. Using these characteristic parameters and the standard pattern of the standard pattern registration section 5, the segmentation section 3 performs a separation operation between vowels and consonants (hereinafter referred to as segmentation). Based on this result, the phoneme discriminator 4 compares the phoneme with the standard pattern in the standard pattern registration unit 5 to determine the phoneme corresponding to the standard pattern with the highest degree of similarity in that section. Finally, the time series of phonemes created as a result (hereinafter referred to as phoneme series)
is sent to the word recognition unit 6, and the word corresponding to the item having the highest degree of similarity to the word dictionary 7 similarly expressed as a phoneme sequence is output as a recognition result.

以上の全体の動作からわかるように、セグメン
テーシヨン部3においてセグメンテーシヨンを誤
つた場合にはあるべき音素を見過ごしてしまつた
り(音素の脱落)、実際には音素のないところに
別の音素が入り込んでしまう(音素の付加)こと
になる。これらの誤りを発生した場合、単語を音
素系列で表現した時に音素の脱落や付加によつて
全く関係のない他の単語に似かよつてしまうこと
によつて誤認識してしまう危険性が高くなる。
As can be seen from the overall operation described above, if the segmentation unit 3 makes a mistake in segmentation, a phoneme that should be present may be overlooked (dropped phoneme), or a different phoneme may be inserted where there is actually no phoneme. This results in the incorporation of phonemes (addition of phonemes). When these errors occur, when a word is expressed as a phoneme sequence, the omission or addition of a phoneme causes it to resemble another completely unrelated word, increasing the risk of misrecognition. .

このように、音素認識を基本に単語認識を行う
方法においてセグメンテーシヨンは最も重要な作
業であり、セグメンテーシヨンの精度によつて単
語認識システムの性能は大きく左右される。とこ
ろで従来、セグメンテーシヨンを行なうためのパ
ラメータとして、音声信号の全帯域のスペクトル
のパワー情報の時間的な動きを利用し、第2図に
示すようにパワーデイツプの存在によつてセグメ
ンテーシヨンを行なつていた。すなわち、母音部
のパワーが子音部のパワーよりも大きいことを利
用して、デイツプの大きさDが、閾値θDよりも大
きい(D>θD)部分を子音区間としていた。この
方法において、次の2つの問題点があつた。
As described above, segmentation is the most important task in a method of word recognition based on phoneme recognition, and the performance of a word recognition system is greatly influenced by the accuracy of segmentation. Conventionally, as a parameter for performing segmentation, the temporal movement of power information in the spectrum of the entire audio signal band is used, and segmentation is performed based on the presence of power dips as shown in Figure 2. I was getting used to it. That is, by utilizing the fact that the power of the vowel part is greater than the power of the consonant part, a part where the dip size D is larger than the threshold value θ D (D>θ D ) is defined as a consonant section. This method had the following two problems.

(1) 全帯域の情報ではデイツプの存在が明らかで
ない音素があり、精度が良くない。(特に/
r/,/η/,/h/,/m/,/n/など) (2) デイツプの大きさDは左右の母音のパワーと
の差で表現される。したがつて母音区間におけ
るパワーの動きが単純でない場合には、デイツ
プの大きさを直接求めることは難しい。
(1) There are phonemes for which the existence of dips is not clear in the information of all bands, and the accuracy is not good. (especially/
r/, /η/, /h/, /m/, /n/, etc.) (2) The depth D is expressed as the difference between the power of the left and right vowels. Therefore, if the power movement in the vowel interval is not simple, it is difficult to directly determine the magnitude of the dip.

発明の目的 本発明はこれらの問題点を解決するもので、単
語中のセグメンテーシヨンを精度良く行うことを
目的とする。
OBJECTS OF THE INVENTION The present invention solves these problems and aims to perform segmentation within words with high accuracy.

発明の構成 日本語は母音と子音が交互に組合わせられて単
語や文章が構成されているのが普通であり、撥音
を除く子音と他の子音が連続することはない。し
たがつて、日本語音声を認識する場合、母音と子
音を精度良く分離することができれば、認識率の
向上に大きく貢献する。本発明はセグメンテーシ
ヨンを行うために用いる情報として、音声スペク
トルの低域パワーと高域パワーとを併用し、各々
の時間的な動きによつて生ずるパワーデイツプを
使用して子音区間を精度良く検出し、単語中のセ
グメンテーシヨンの精度の向上をはかつたもので
ある。
Structure of the Invention In Japanese, words and sentences are usually composed of vowels and consonants that are alternately combined, and consonants and other consonants, except for plosives, are not consecutive. Therefore, when recognizing Japanese speech, if vowels and consonants can be separated with high accuracy, it will greatly contribute to improving the recognition rate. The present invention uses both the low-frequency power and the high-frequency power of the speech spectrum as information used for segmentation, and uses the power dips caused by the temporal movement of each to accurately detect consonant intervals. The aim is to improve the accuracy of segmentation within words.

実施例の説明 第3図は代表的な音素のスペクトルパターンを
表わしたものである。aは5母音、bは鼻音、有
声破裂音のうなりの部分、cは無声子音である。
これらの図から明らかなように、aは比較的中域
部にパワーが集まり、bは低域部に集中し、cは
高域部に集中している。これらの他に流音/r/
や鼻濁音/η/のように、スペクトルが前後の音
素に大きく影響される音素もある。これらの事項
を考慮すると、母音群aと有声子音グループbを
区別するには高域部分のパワーの大きさが有効で
あり、母音群aと無声子音グループcを区別する
には低域部分のパワーの大きさが有効であること
がわかる。
DESCRIPTION OF EMBODIMENTS FIG. 3 shows a typical spectrum pattern of a phoneme. a is a five-vowel sound, b is a nasal sound, the droning part of a voiced plosive, and c is a voiceless consonant.
As is clear from these figures, the power of a is relatively concentrated in the middle range, the power of b is concentrated in the low range, and the power of c is concentrated in the high range. In addition to these, Ryuon /r/
There are also phonemes whose spectrum is greatly influenced by the preceding and following phonemes, such as the nasal sound /η/. Taking these matters into consideration, the power in the high range is effective in distinguishing between vowel group a and voiced consonant group b, and the power in the low range is effective in distinguishing between vowel group a and voiceless consonant group c. It can be seen that the magnitude of power is effective.

以上の知見に基づき本実施例においてはセグメ
ンテーシヨン用パラメータとして、低域部分の情
報については250Hz−600Hzのバンドパスフイルタ
の出力を平滑化して求めた低域パワーを使用し、
高域部分の情報については1500Hz−4000Hzのバン
ドパスフイルタの出力を平滑化して求めた高域パ
ワーを使用している。本実施例のごとく低域パワ
ーと高域パワーを併用することにより、全域パワ
ーのみを用いた従来例に比較して、特に/
m/,/n/,/η/,/r/,/h/,/z/
に対して大きなパワーデイツプを得ることがで
き、検出精度が向上した。
Based on the above knowledge, in this example, the low frequency power obtained by smoothing the output of the 250Hz-600Hz bandpass filter is used as the segmentation parameter for the low frequency information.
For high frequency information, the high frequency power obtained by smoothing the output of a 1500Hz-4000Hz bandpass filter is used. By using both low-frequency power and high-frequency power as in this example, compared to the conventional example that uses only full-range power, the
m/, /n/, /η/, /r/, /h/, /z/
It was possible to obtain a large power dip compared to the current value, and the detection accuracy was improved.

ところでパワーデイツプの大きさの絶対値を計
算するためには、デイツプの前後の広範囲な情報
を使用しなくてはならないため、従来法では手続
きが複雑となり、検出誤りも多くなる。本実施例
では、発声機構の制約を考慮した、簡便で精度の
良いデイツプ検出法を採用した。
However, in order to calculate the absolute value of the power dip, it is necessary to use a wide range of information before and after the dip, so in the conventional method, the procedure is complicated and there are many detection errors. In this embodiment, a simple and accurate dip detection method that takes into account the limitations of the vocalization mechanism is adopted.

音声の発声は、呼気を制御する肺や気管、有声
音を発する声帯、音韻を決定する調音器管などの
筋肉の動きの複合によるものである。したがつて
音声パワーの動きは発声器管の筋肉の動きによつ
て制約を受ける。このため、音声パワーの時間的
な変化速度は、破裂音などの動きの速いもの、半
母音など緩やかなものもあるが、一定の範囲内に
納まつてしまう。したがつて、イデイツプの大き
さを、単位時間内のパワーの変化量として置きか
えても実用上は問題ない。以下このような考え方
に基いたデイツプ検出法を具体的に述べる。
Speech production is a combination of muscle movements, including the lungs and trachea, which control exhalation, the vocal cords, which produce voiced sounds, and the articulator tubes, which determine phoneme. Therefore, the movement of vocal power is constrained by the movement of the muscles of the vocal tube. For this reason, the temporal rate of change in voice power remains within a certain range, although there are fast-moving sounds such as plosives and slow-moving sounds such as semi-vowels. Therefore, there is no practical problem even if the magnitude of the ID step is replaced by the amount of change in power within a unit time. The dip detection method based on this idea will be specifically described below.

第4図はその方法を説明したものである。パワ
ー情報は対数変換されたものを用いフレームごと
に(1フレームは10msec)計算する。第iフレ
ーム(i=1〜inax、inaxは音声区間の終端フレ
ーム)における対数パワー情報をP(i)とする。
第4図aは対数パワー情報P(i)の時間的な動
きの例を母音、子音、母音という系列で図示した
ものである。この図には子音区間の大きなデイツ
プの他に、パワーの細かいゆらぎによる小さなデ
イツプが重畳している。前に述べたように細かい
デイツプは発声に必要な筋肉の動きによるもので
はないので平滑化によつて除去する。除去された
ものを第4図bに示す。平滑後のパワー情報
(i)は (i)={P(i−1)+2×P(i) +P(i+1)}/4 とする。次に平滑後のパワー情報の差分値PD
次式によつて計算し、パワー情報の時間的変化を
求める(第4図c)。
FIG. 4 explains the method. Power information is calculated for each frame (one frame is 10 msec) using logarithmically transformed power information. Let P(i) be the logarithmic power information in the i-th frame (i=1 to i nax , where i nax is the final frame of the voice section).
FIG. 4a shows an example of the temporal movement of the logarithmic power information P(i) in the series of vowels, consonants, and vowels. In this figure, in addition to large dips in the consonant interval, small dips due to small fluctuations in power are superimposed. As mentioned earlier, the fine dips are not caused by the muscle movements necessary for vocalization, so they are removed by smoothing. What has been removed is shown in Figure 4b. The power information (i) after smoothing is (i)={P(i-1)+2×P(i)+P(i+1)}/4. Next, the difference value P D of the power information after smoothing is calculated by the following equation, and the temporal change of the power information is determined (FIG. 4c).

PD(i)=(i+1)−(i−1) すなわちPDは20msecごとの変化量の時間的な
動きを表わしている。PDはパワーデイツプの下
がりの変曲線で最小値となり、立上がりの変曲点
で最大値となる。前述の理由によつて、デイツプ
の大きさはPDの最大値と最小値の間の大きさP
で置きかえる。またデイツプの持続時間は、PD
の最小値から最大値までの時間Lとする。
P D (i)=(i+1)-(i-1) That is, P D represents the temporal movement of the amount of change every 20 msec. P D reaches its minimum value at the downward inflection point of the power dip, and reaches its maximum value at the rising inflection point. For the reason mentioned above, the size of the dip is the size P between the maximum and minimum values of P D
Replace it with Also, the duration of the dip is P D
Let L be the time from the minimum value to the maximum value.

パワー情報として前に述べた低域情報(PL
と高域情報(PH)の両方を使用し、その各々に
対して第4図で説明した方法を適用すると、低域
情報によるデイツプと高域情報によるデイツプを
それぞれ求めることができる。これらのデイツプ
のうちL≦Lnaxの条件を満足するもののみ子音候
補とする。一般に子音区間は/s/や撥音を除く
と150msec(Lnax=15)以下であるので、このよ
うな条件を入れている。/s/や撥音は他の方法
で検出することができる。
Low frequency information ( PL ) mentioned earlier as power information
By using both the low-frequency information (P H ) and the high-frequency information (PH) and applying the method explained in FIG. 4 to each of them, it is possible to obtain the dip due to the low-frequency information and the dip due to the high-frequency information, respectively. Among these dips, only those that satisfy the condition L≦L nax are selected as consonant candidates. Generally, consonant intervals are 150 msec (L nax = 15) or less, excluding /s/ and pellicles, so this condition is included. /s/ and the cursive sound can be detected by other methods.

子音候補として求められた音声区間には、低域
情報(PL)のみで求められたもの、高域情報
(PH)のみで求められたものがある。またこれら
の子音候補区間には、本当の子音区間とそうでな
いもの(子音の付加)の2種類が混在している。
次に子音候補区間から子音区間と子音の付加を分
離する方法を述べる。
Among the voice segments found as consonant candidates, there are those found using only low-frequency information ( PL ) and those found only using high-frequency information ( PH ). Furthermore, these consonant candidate sections are of two types: real consonant sections and non-true consonant sections (addition of consonants).
Next, a method for separating consonant intervals and consonant additions from consonant candidate intervals will be described.

低域情報PLおよび高域情報PHで求められたデ
イツプの変化分の大きさをそれぞれpl,phとす
る。統計的に、本当の子音区間は子音の付加に比
べるとデイツプが顕著に現われるため、pl,ph
両方またはどちらか一方が大きな値となる。たと
えば音素/b/はpl,phともに大きな値とな
り、/h/はplのみ大きくなり、また/m/はph
のみ大きくなる。一方、子音の付加によるデイツ
プに対しては、pl,phともに比較的小さな値とな
る。これらの特徴を考慮して、子音と付加を精度
よく、しかも効率的に判別するためにはpl−ph
間における判別図を使用する。
Let the magnitude of the change in dip obtained from the low frequency information PL and the high frequency information PH be p l and ph , respectively. Statistically, dips appear more prominently in true consonant intervals than in consonant additions, so both or one of p l and p h takes a large value. For example, the phoneme /b/ has a large value for both p l and p h , /h/ has a large value only for p l , and /m/ has a large value for p h
only becomes larger. On the other hand, for dips due to the addition of consonants, both p l and p h have relatively small values. Taking these characteristics into consideration, a discriminant diagram in the p l -ph space is used to accurately and efficiently distinguish between consonants and additions.

第5図は判別図の例である。図において斜線部
の内側が付加、外側が子音の領域である。ただし
pl,phは整数に直して正規化してある。判別図は
セグメンテーシヨンをあらかじめ目視によつて行
なつてあるデータを多数使用して、子音として正
しく認識される確率と付加の確率の両方を考慮す
ることによつて結果が最適になるように決定した
ものである。
FIG. 5 is an example of a discriminant diagram. In the figure, the area inside the shaded area is the addition area, and the area outside the area is the consonant area. however
p l and p h are converted into integers and normalized. The discriminant diagram uses a large amount of data that has been obtained by visual inspection of segmentation in advance, and takes into account both the probability of being correctly recognized as a consonant and the probability of addition, in order to optimize the results. It has been decided.

次に判別図を使用して子音区間を決定する方法
を第6図に示した例によつて説明する。第6図a
はplのデイツプのみ現われた場合であり、大きさ
はpl=10である。これを第5図の判別図に適用す
ると、(10、0)は付加の領域であるから、子音
区間とはならない。bはpl=7、ph=8であり、
子音領域に位置する。この場合、pl,phの両方の
区間の論理和の部分を子音区間とする(音素によ
つては論理和としない場合もある)。cはphしか
存在しない区間の例であり、(0、12)は判別図
上で子音領域に位置する。この場合はphの区間を
そのまま子音区間とする。dはpl,ph両方にデイ
ツプが存在するが、判別図上で付加の領域に位置
するので、付加として処理する。
Next, a method of determining a consonant interval using a discriminant diagram will be explained using the example shown in FIG. Figure 6a
is the case when only the dip of p l appears, and the size is p l =10. When this is applied to the discriminant diagram in FIG. 5, (10, 0) is an additional area, so it is not a consonant interval. b is p l =7, p h =8,
Located in the consonant region. In this case, the logical sum of both the intervals p l and p h is taken as the consonant interval (depending on the phoneme, it may not be the logical sum). c is an example of an interval in which only ph exists, and (0, 12) is located in the consonant region on the discriminant diagram. In this case, the p h interval is directly used as the consonant interval. Although d has dips in both p l and p h , it is located in the addition region on the discriminant diagram, so it is treated as addition.

男女10名それぞれが発声した212単語を使用し
て、本実施例の評価を行なつた。この単語セツト
は、目視によつてあらかじめ子音区間にラベル付
けしてある評価用のセツトである。本実施例を適
用した時の結果とラベルを比較して、正しくセグ
メンテーシヨンが行なわれて割合によつて評価し
た。その結果(正答率)を以下に示す。
This example was evaluated using 212 words uttered by 10 men and 10 men. This word set is a set for evaluation in which consonant sections are labeled in advance by visual inspection. The results obtained when this example was applied were compared with the labels, and the percentage of correct segmentation was evaluated. The results (correct answer rate) are shown below.

/r/:94.7%、/h/:94.8%、/z/:98.7
%、 /b/:99.5%、/d/:99.7%、/η/:91.3
%、 /m/:85.7%、/n/:85.7% 一方、母音区間に誤まつて子音が付加する確率
(付加率)は6.9%である。
/r/: 94.7%, /h/: 94.8%, /z/: 98.7
%, /b/: 99.5%, /d/: 99.7%, /η/: 91.3
%, /m/: 85.7%, /n/: 85.7% On the other hand, the probability (addition rate) of a consonant being mistakenly added to a vowel interval is 6.9%.

この結果を従来の方法(全帯域スペクトルパワ
ーを使い、閾値でデイツプを検出する方法)に比
較すると、/r/,/h/,/η/で数%、/
b/,/d/で約1%向上している。また/
m/,/n/は全帯域パワーでは、デイツプの検
出ができないのに比し本実施例では検出可能であ
る。付加率は、ほぼ同じである。
Comparing this result with the conventional method (method that uses full-band spectral power and detects dips using a threshold value), it is found that /r/, /h/, /η/ has a decrease of several percent, /
There is an improvement of about 1% in b/ and /d/. Also/
Although dips cannot be detected in m/ and /n/ with full band power, they can be detected in this embodiment. The addition rate is almost the same.

このように本実施例は、従来検出が難しいとさ
れていた語中の子音(特に/r/,/η/,/
h/など)のセグメンテーシヨンを高い精度で行
なうことを可能とするものである。
In this way, this embodiment can detect consonants in words (especially /r/, /η/, /
h/, etc.) can be performed with high precision.

発明の効果 以上述べたように本発明によれば、パラメータ
として、低域パワー情報と高域パワー情報の両方
を用いることによつてセグメンテーシヨン精度が
向上する。
Effects of the Invention As described above, according to the present invention, segmentation accuracy is improved by using both low-frequency power information and high-frequency power information as parameters.

またパワーデイツプの時間的動きと持続時間を
利用することによつて、デイツプの存在を簡単に
検出することができる。
Furthermore, by utilizing the temporal movement and duration of the power dip, the presence of the dip can be easily detected.

さらに低域および高域両方のパワーデイツプの
動きの大きさを用い、それを判別図に適用するこ
とによつて、精度よく子音の存在を検出すること
ができる。
Furthermore, by using the magnitude of the movement of the power dips in both the low and high ranges and applying them to the discriminant diagram, the presence of consonants can be detected with high accuracy.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は従来の音声認識システムのブロツク
図、第2図はパワー情報を使用して子音を検出す
る従来の方法を説明する図、第3図a〜cは母音
および子音のスペクトルの例を示した図、第4図
a〜cは本発明によつてパワーデイツプを検出す
る方法を説明する図、第5図は低域パワーデイツ
プと高域パワーデイツプの各々の大きさによつて
子音と付加を判別するための判別図、第6図は子
音区間を決定する方法の一例を示した図である。
Figure 1 is a block diagram of a conventional speech recognition system, Figure 2 is a diagram explaining a conventional method of detecting consonants using power information, and Figures 3a to 3c show examples of vowel and consonant spectra. Figures 4a to 4c are diagrams illustrating a method for detecting power dips according to the present invention, and Figure 5 shows a method for determining consonants and additions based on the respective sizes of low-frequency power dips and high-frequency power dips. FIG. 6 is a diagram showing an example of a method for determining consonant intervals.

Claims (1)

【特許請求の範囲】 1 音声認識におけるセグメンテーシヨンを行う
ために用いる情報として、音声スペクトルの低域
パワーと高域パワーを併用し、前記それぞれのパ
ワーの時間的な動きによつて生ずるパワーデイツ
プを使用して子音候補区間を検出し、前記子音候
補区間のなかから子音区間を検出することを特徴
とする音声セグメンテーシヨン法。 2 低域パワー、高域パワーそれぞれの時間的な
変化率を求め、前記時間的な変化率の極大値、極
小値及びその間の時間長により子音候補を検出
し、前記子音候補について極大値と極小値間の値
をパワーデイツプの大きさと見なし、前記低域パ
ワー、高域パワーそれぞれのパワーデイツプの大
きさを二次元の判別図に適用して子音候補区間か
ら子音区間を検出することを特徴とする特許請求
の範囲第1項記載の音声セグメンテーシヨン法。
[Claims] 1. As information used for segmentation in speech recognition, the low-frequency power and high-frequency power of the voice spectrum are used together, and the power dip caused by the temporal movement of the respective powers is calculated. A speech segmentation method comprising: detecting a consonant candidate interval using the method of detecting a consonant candidate interval; and detecting a consonant interval from among the consonant candidate intervals. 2 Find the temporal change rate of each of the low-frequency power and the high-frequency power, detect consonant candidates based on the local maximum value, local minimum value, and time length of the temporal change rate, and calculate the local maximum value and local minimum value for the consonant candidate. A patent characterized in that a consonant interval is detected from a consonant candidate interval by regarding the value between the values as the magnitude of the power dip and applying the magnitude of the power dip of each of the low-frequency power and the high-frequency power to a two-dimensional discriminant diagram. A speech segmentation method according to claim 1.
JP57171631A 1982-09-29 1982-09-29 Voice segmentation Granted JPS5958495A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57171631A JPS5958495A (en) 1982-09-29 1982-09-29 Voice segmentation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57171631A JPS5958495A (en) 1982-09-29 1982-09-29 Voice segmentation

Publications (2)

Publication Number Publication Date
JPS5958495A JPS5958495A (en) 1984-04-04
JPH0114600B2 true JPH0114600B2 (en) 1989-03-13

Family

ID=15926763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57171631A Granted JPS5958495A (en) 1982-09-29 1982-09-29 Voice segmentation

Country Status (1)

Country Link
JP (1) JPS5958495A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6350900A (en) * 1986-08-21 1988-03-03 沖電気工業株式会社 Voice recognition equipment

Also Published As

Publication number Publication date
JPS5958495A (en) 1984-04-04

Similar Documents

Publication Publication Date Title
JPS6336676B2 (en)
JPH02195400A (en) Speech recognition device
JPS5972496A (en) Single sound identifier
EP0109140B1 (en) Recognition of continuous speech
JPH0114600B2 (en)
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
JPH0283595A (en) Speech recognizing method
JPH026079B2 (en)
JPS5936759B2 (en) Voice recognition method
JPH0120440B2 (en)
KR100269429B1 (en) Transient voice determining method in voice recognition
JP2744622B2 (en) Plosive consonant identification method
JPH026078B2 (en)
JPS6147999A (en) Voice recognition system
JPH0682275B2 (en) Voice recognizer
JPH08146996A (en) Speech recognition device
JPH0554678B2 (en)
JPS6363920B2 (en)
JPH07146696A (en) Automatic forming method for word template in voice recognition
JPH0316040B2 (en)
JPH0316039B2 (en)
JPS6363919B2 (en)
JPH0235500A (en) Speed recognition system
JPS61180300A (en) Voice recognition equipment
Haider A digital neural network approach to speech recognition