JP2601448B2 - Voice recognition method and apparatus - Google Patents

Voice recognition method and apparatus

Info

Publication number
JP2601448B2
JP2601448B2 JP60207131A JP20713185A JP2601448B2 JP 2601448 B2 JP2601448 B2 JP 2601448B2 JP 60207131 A JP60207131 A JP 60207131A JP 20713185 A JP20713185 A JP 20713185A JP 2601448 B2 JP2601448 B2 JP 2601448B2
Authority
JP
Japan
Prior art keywords
pattern
similarity
speech
power
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP60207131A
Other languages
Japanese (ja)
Other versions
JPS6266300A (en
Inventor
潤一郎 藤本
哲也 室井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP60207131A priority Critical patent/JP2601448B2/en
Priority to US06/908,681 priority patent/US4827519A/en
Publication of JPS6266300A publication Critical patent/JPS6266300A/en
Application granted granted Critical
Publication of JP2601448B2 publication Critical patent/JP2601448B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

技術分野 本発明は、音声認識方法及びその装置に関する。 従来技術 音声を2値化処理して特徴パターンを求め、この2値
化処理して求めた入力パターンと辞書パターンを線形マ
ッチングして認識する所謂BTSP(Binary Time−Spectru
m Pattern)方式による音声認識は本出願人において既
に種々提案されている。 しかし、このBTSP方式では音声を2値処理するために
音声の大きさを表わすエネルギーやパワーの情報が失わ
れ誤認識となることがある。例えば、子音部が急速に立
ち上る破裂音である/P/と比較的緩かに立ち上る/K/の差
が区別しにくい。そこで音声のパワー情報を通常の方法
で2値化して2値のTSP(BTSP)パターンと共に保持し
ておくことが考えられるが、この場合、BTSPとパワー部
の演算方式が異なるため、パワー部の類似性を求める専
用の演算部が必要となり、装置が複雑化し折角のBTSP方
式の高速演算性が失われてしまうことになる。 目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、特に、「1」,「0」の2値で表わされた2値化パ
ターンによる認識システムに音声のエネルギー又はパワ
ー情報を加えながらも高精度,高速認識の可能な認識方
法及びその装置を提供することを目的としてなされたも
のである。 構成 本発明は、上記目的を達成するために、(1)音声の
特徴量を抽出して、標準パターンとして保持しておき、
未知入力音声の音声パターンと照合することによって認
識結果を決定する音声認識方法において、音声のエネル
ギーまたはパワー形状を時間とパワーの大きさとを直交
する2つの軸とする2次元パターンとして表現し、各時
間における音声のエネルギーまたはパワーに対応する2
次元パターン上の位置またはその近傍と、それ以外の部
分とを「1」と「0」によって表して2次元パターン化
された音声パターンを作り、同様の手順によって作った
1つ以上のパターンを重ね合わせて加算したものを標準
パターンとし、未知入力音声も同様に2次元パターン化
し、標準パターンと重ね合わせて類似性を判別し、最大
類似の標準パターンを認識結果とすること、或いは、
(2)音声の特徴量を抽出して、標準パターンとして保
持しておき、未知入力音声の音声パターンと照合するこ
とによって認識結果を決定する音声認識装置において、
音声のエネルギーまたはパワーを検出するパワー検出部
と、音声区間を求め、該音声区間に関する部分だけのパ
ワー形状を時間とパワーの大きさとを直交する2つの軸
とする2次元パターンとして表現し、各時間における音
声のエネルギーまたはパワーに対応する2次元パターン
上の位置またはその近傍と、その以外の部分とを「1」
と「0」によって表わされる2次元パターンを作る2値
化部と、標準パターン作成時と認識時とを切り換える切
換部と、標準パターン作成時に、複数回の発声パターン
を前記2値化部により作成した2次元パターンに重ね合
わせて加算した標準パターンを作成する標準パターン作
成部と、未知の音声が入力される認識時に、未知の入力
音声を前記2値化部により作成した2次元パターンと前
記標準パターン作成部により作成された標準パターンと
を照合する重ね合わせ部と、該重ね合わせ部により重ね
合わされたパターンの類似性を判別する類似度判定部
と、該類似度判定部により判定された最大類似の標準パ
ターンを認識結果とする認識結果出力部とを具備するこ
と、更には、(3)前記(2)において、前記音声区間
が切り出された後に、パワー検出部と特徴量変換部とが
並設され、前記2次元パターンを他の特徴量により作成
した2次元パターンと合わせて用い、各々の種類のパタ
ーン間で類似度を求め、一方の類似度と他方の類似度を
作用させて最終的な類似性を判別して認識結果を決定す
ること、更には、(4)前記(2)において、前記音声
区間が切り出された後に、パワー検出部と特徴量変換部
とが並設され、前記2次元標準パターンと未知入力2次
元パワーパターンとを照合して類似性を判別するパワー
パターン照合部と、該パワーパターン照合部の結果に基
づいて類似度を計算するかどうかを判断する類似度判断
部とを有し、前記2次元パターンを他の特徴量により作
成した2次元パターンと合わせて用い、各々の種類のパ
ターン間で類似度を求める際、一方の類似度が特定の条
件を満たす時、又は満たさない時のみ他方の類似度も計
算して認識結果を決定することを特徴としたものであ
る。以下、本発明の実施例に基づいて説明する。 第1図は、本発明の一実施例を説明するための電気的
ブロック線図で、図中、1はマイク、2はパワー検出
部、3は音声区間検出部、4は2値化部、5はレジス
タ、6は加算部、7は標準パターン、8は重ね合わせ
部、9は類似度判定部、10は認識結果出力部で、まず、
マイク1から入つた音声のパワー検出し、音声区間を求
め、音声区間に関する部分だけパワーを2値化して
「1」,「0」の2値のパターンで表わす。パワー検出
は例えば音声波形の振幅の包絡を検波するなどして求め
れば良いし、音声区間の検出はパワー検出部2で求めた
パワーが一定値以上である部分として求められる。又、
2値化部は第2図(A)に示すパワー信号から(B)に
示す2値化情報の如く、音声パワーの形状が示される部
分を「1」、他を「0」で表わす。この例ではパワーの
大きさを5段階に量子化しており(B)から(A)の波
形を連想することは容易である。標準パターン作成時に
はスイッチSを
TECHNICAL FIELD The present invention relates to a speech recognition method and an apparatus thereof. 2. Description of the Related Art A so-called BTSP (Binary Time-Spectru) is used in which a speech is binarized to obtain a characteristic pattern, and the input pattern and the dictionary pattern obtained by the binarization are linearly matched and recognized.
The present applicant has already proposed various types of speech recognition using the “m Pattern” method. However, in the BTSP method, since the voice is subjected to the binary processing, information of energy and power representing the volume of the voice may be lost, resulting in erroneous recognition. For example, it is difficult to distinguish the difference between / P /, which is a plosive sound in which a consonant part rises rapidly, and / K /, which rises relatively slowly. Therefore, it is conceivable that the power information of the voice is binarized by a normal method and held together with a binary TSP (BTSP) pattern. In this case, however, since the calculation method of the BTSP and the power unit is different, the power unit A dedicated calculation unit for obtaining similarity is required, which complicates the apparatus and loses the high-speed calculation performance of the BTSP method. SUMMARY OF THE INVENTION The present invention has been made in view of the above-described circumstances, and in particular, it has been proposed to add speech energy or power information to a recognition system using a binary pattern represented by binary values of "1" and "0". However, it is an object of the present invention to provide a recognition method and a device capable of high-accuracy and high-speed recognition. Configuration According to the present invention, in order to achieve the above object, (1) a feature amount of a voice is extracted and stored as a standard pattern;
In a speech recognition method in which a recognition result is determined by collating with a speech pattern of an unknown input speech, the energy or power shape of speech is expressed as a two-dimensional pattern having two axes orthogonal to time and power magnitude. 2 corresponding to the energy or power of the sound at time
A position on the dimensional pattern or its vicinity and other parts are represented by "1" and "0" to create a two-dimensional patterned voice pattern, and one or more patterns created by the same procedure are overlapped. The sum of the standard patterns is used as a standard pattern, the unknown input voice is also converted into a two-dimensional pattern in the same manner, and the similarity is determined by superimposing the standard pattern on the unknown pattern.
(2) In a voice recognition device that extracts a feature amount of a voice and holds it as a standard pattern, and determines a recognition result by comparing the voice pattern with a voice pattern of an unknown input voice.
A power detector for detecting the energy or power of the voice, and a voice section, and expressing the power shape of only the portion related to the voice section as a two-dimensional pattern having two axes orthogonal to time and power magnitude; "1" indicates a position on or near the two-dimensional pattern corresponding to the energy or power of the sound at the time, and other parts.
And a switching unit for switching between the time of standard pattern creation and the time of recognition, and a plurality of utterance patterns created by the binarizing unit when the standard pattern is created. A standard pattern creating unit for creating a standard pattern that is superimposed on and added to the two-dimensional pattern, and a two-dimensional pattern created by the binarizing unit for an unknown input speech when the unknown speech is recognized. A superimposition unit for collating the standard pattern created by the pattern creation unit, a similarity determination unit for determining the similarity of the pattern superimposed by the superimposition unit, and a maximum similarity determined by the similarity determination unit And a recognition result output unit that uses the standard pattern of (1) as a recognition result. (3) In (2), after the voice section is cut out A power detection unit and a feature amount conversion unit are provided side by side, and the two-dimensional pattern is used together with a two-dimensional pattern created by another feature amount to determine a similarity between patterns of each type. And (4) determining a recognition result by determining the final similarity by applying the other similarity to the power detection unit after the voice section is cut out in (2). A power pattern matching unit for judging similarity by comparing the two-dimensional standard pattern with the unknown input two-dimensional power pattern; and a similarity measure based on the result of the power pattern matching unit. And a similarity determining unit that determines whether to calculate the similarity. When the two-dimensional pattern is used in combination with a two-dimensional pattern created by another feature amount, when similarity is determined between patterns of each type, One Similarity score when a particular condition is satisfied, or is obtained by said determining a recognition result by also calculated seen other similarity when not satisfied. Hereinafter, a description will be given based on examples of the present invention. FIG. 1 is an electric block diagram for explaining an embodiment of the present invention, in which 1 is a microphone, 2 is a power detector, 3 is a voice section detector, 4 is a binarizer, 5 is a register, 6 is an addition unit, 7 is a standard pattern, 8 is a superimposition unit, 9 is a similarity determination unit, and 10 is a recognition result output unit.
The power of the voice input from the microphone 1 is detected, the voice section is obtained, and only the portion related to the voice section is binarized and represented by a binary pattern of "1" and "0". The power detection may be obtained by, for example, detecting the envelope of the amplitude of the audio waveform, and the detection of the audio section is obtained as a portion where the power obtained by the power detection unit 2 is equal to or more than a certain value. or,
In the binarization unit, the portion indicating the shape of the audio power is represented by "1" and the others are represented by "0" as in the binarization information shown in FIG. 2B from the power signal shown in FIG. 2A. In this example, the magnitude of the power is quantized in five stages, and it is easy to associate the waveforms from (B) to (A). When creating a standard pattern, switch S

【標】側に倒し、一つの音声例えば/Pa/
を3回発声する。まず、1回目発声パターンをレジスタ
5に入れ、2回目のパターンと重ね合わせ加算し、再び
レジスタ5に入れる。次いで、3回目のパターンとジレ
スタ5の内容が加算されて標準パターンとして登録され
る。つまり第2図の(B),(C),(D)のパターン
の加算により標準パターン(E)が作成されることにな
り、登録すべき各音声についてこれをくり返した後認識
に入る。認識の場合、未知の音声がマイク1から入力さ
れ、標準パターン作成時と同じ過程を経て「1」、
「0」に2値化されたパターンが先に作られたいくつか
の標準パターンと照合される。照合は「1」,「0」に
2値化されたパターンと標準パターンの一つが重ね合わ
されて類似度を計算することになる。この時の2値化さ
れた未知音声の「1」,「0」パターンは第2図(B)
と同じ形をしており、両者が類似の波形なら標準パター
ン(E)と重ね合わせることによつて(B)のパターン
の「1」のエレメントは(E)の大きな値を示すエレメ
ントに重なることになる。そこで類似度として両者の重
ね合わせによつて対応づいたエレメント同士の積をとり
それらの和として定義しても良い。こうして登録されて
いる全ての標準パターンと未知の「1」,「0」パター
ンの類似度を求め、最大の類似度を得たものを認識結果
として出力する。これによつて2値化処理(1,0処理)
した中にパワー情報を加えて類似度の計算ができるよう
になつた。しかし、パワーの情報だけによつて音声を認
識することは難しい。 第3図は、上記欠点を解消した他の実施例を示す電気
的ブロック線図で、この実施例は、前記実施例で作成し
たパターンと他の特徴量により作成したパターンを合わ
せて用い、両方のパターン間で類似度を求め、一方の類
似度を他方の類似度に作用させて最終的な類似度を求め
るようにしたもので、ここでは、併用する他の方法とし
て従来技術として説明した2値のTSPを用いる方法を選
んだ。これは2値のTSPパワーパターンと共に2値化処
理されたもので、同じ演算が可能であるからであるが勿
論これ以外の方式と併用しても差し支えない。第3図に
おいては、音声区間検出部3で音声区間が切り出された
後、パワー検出部2でパワー検出がなされ、一方では同
じ信号を特徴量変換部11にて特徴量変換を行なう。特徴
量は、この実施例では、スペクトルが適している。パワ
ーとスペクトルの形状を2値化部4で「1」,「0」に
2値化する。この「1」,「0」の2値化パターンでは
スペクトルパターンとパワーパターンを結合して一つの
パターンとする方が後の演算が容易である。2値化部4
でのパターンの例は第4図の如くなり、通常のBTSPが
F、第2図(B)のパターンに相当するのがGである。
これを第1図の例と同じ手順で類似度計算して結果を引
き出せば良い。この場合、類似度判定部9ではパターン
の大きさが大きくなつたと考えれば手順は何ら変る部分
がなく、両者のパターンの和の類似度により結果を求め
ることになる。これにより、第1図の例に比べ精度は飛
躍的に向上する。この場合、パワーかスペクトルのどち
らかのパターンにウエイトを置いて他を補助的手段とし
て用いることができる。 第5図は、上述のごとき観点に立つてなされた実施例
を説明するための電気的ブロック線図で、この実施例に
よると類似度を求める際、一方の類似度が特定の条件を
満たす或いは満たさない時のみ、他方の類似度も計算し
て認識結果を決定することができる。この実施例は、第
3図に示した実施例と同様にスペクトルとパワーを結合
した第4図の如き「1」,「0」パターンを作り、これ
を何回か重ねて登録しておく。認識時には2値化部4で
できた未知入力パワーのパワー部とパワーパターン照合
部12で照合して類似性をみる。この類似性が大きく違つ
ているものはスペクトル部の類似度を計算しないと判断
部13で判断し、次の標準パターンとの照合に移る。もし
判断部13でスペクトルパターンの類似度計算をすると判
断されたものは第3図と同様にパターン間の類似度を求
めることになる。この場合の類似度はパワー部を含めて
計算しても含めずに計算しても良い。ここでの例はパタ
ーン全体のパワーの比較になつているが、これは一つの
音声パターン全体でなくパターン中のフレーム毎に行な
つても良いことは勿論である。 効果 以上の説明から明らかなように、本発明によると
「1」,「0」に2値化されたスペクトルパターンにも
パワー情報が添加され音声認識の精度を向上させること
ができる。
[Picture] Flip to the side, and one voice, for example / Pa /
Three times. First, the first utterance pattern is put into the register 5, superimposed and added with the second pattern, and put into the register 5 again. Next, the third pattern and the contents of the giresta 5 are added and registered as a standard pattern. That is, the standard pattern (E) is created by adding the patterns (B), (C), and (D) in FIG. 2, and the speech is registered after repeating this for each voice to be registered. In the case of recognition, an unknown voice is input from the microphone 1 and passes through the same process as when the standard pattern is created, and is "1",
The pattern binarized to “0” is checked against some standard patterns created earlier. In the collation, the pattern binarized into “1” and “0” and one of the standard patterns are superimposed to calculate the similarity. The binary "1" and "0" patterns of the unknown voice at this time are shown in FIG. 2 (B).
If both have similar waveforms, the element of "1" in the pattern of (B) overlaps with the element showing a large value of (E) by overlapping with the standard pattern (E). become. Therefore, as the similarity, the product of the elements corresponding to each other by superposition of the two may be taken and defined as the sum thereof. The similarity between all the registered standard patterns and the unknown “1” and “0” patterns is obtained, and the one with the highest similarity is output as a recognition result. By this, binarization processing (1,0 processing)
Then, the power information is added and the similarity can be calculated. However, it is difficult to recognize speech only based on power information. FIG. 3 is an electric block diagram showing another embodiment in which the above-mentioned disadvantages are solved. In this embodiment, the pattern created in the above embodiment and the pattern created by other feature amounts are used together. The similarity between the patterns is calculated, and one similarity is made to act on the other similarity to obtain the final similarity. In this case, another method used in combination with the conventional technique is described as 2 The method using the TSP of values was chosen. This is a result of the binarization processing performed together with the binary TSP power pattern, and the same operation is possible. However, it is needless to say that other methods may be used in combination. In FIG. 3, after a voice section is cut out by the voice section detection unit 3, power detection is performed by the power detection unit 2, and the same signal is subjected to feature value conversion by the feature value conversion unit 11. In this embodiment, a spectrum is suitable for the feature amount. The power and the shape of the spectrum are binarized by the binarization unit 4 into “1” and “0”. In the binarized pattern of “1” and “0”, the subsequent calculation is easier if the spectral pattern and the power pattern are combined into one pattern. Binarization unit 4
The example of the pattern in FIG. 4 is as shown in FIG. 4, where F is a normal BTSP and G is a pattern corresponding to the pattern in FIG. 2 (B).
The similarity may be calculated in the same procedure as in the example of FIG. 1 to derive the result. In this case, if the similarity determination unit 9 considers that the size of the pattern has increased, there is no part that changes the procedure, and the result is obtained based on the similarity of the sum of the two patterns. Thereby, the accuracy is dramatically improved as compared with the example of FIG. In this case, weights can be placed on either the power or the spectrum pattern and the others can be used as auxiliary means. FIG. 5 is an electric block diagram for explaining an embodiment based on the above viewpoint. According to this embodiment, when similarity is obtained, one of the similarities satisfies a specific condition or Only when the condition is not satisfied, the other similarity can be calculated to determine the recognition result. In this embodiment, similar to the embodiment shown in FIG. 3, "1" and "0" patterns as shown in FIG. 4 in which the spectrum and the power are combined are created and registered several times. At the time of recognition, the power part of the unknown input power generated by the binarizing unit 4 is compared with the power pattern matching unit 12 to see the similarity. If the similarity is significantly different, the determination unit 13 determines that the similarity of the spectrum part is not calculated, and the process proceeds to the collation with the next standard pattern. If the determination unit 13 determines to calculate the similarity between the spectral patterns, the similarity between the patterns is calculated as in FIG. In this case, the similarity may be calculated with or without the power part. In this example, the power of the entire pattern is compared, but it goes without saying that this may be performed for each frame in the pattern instead of for one entire audio pattern. Effects As is clear from the above description, according to the present invention, power information is added to the spectral pattern binarized to “1” and “0”, and the accuracy of speech recognition can be improved.

【図面の簡単な説明】[Brief description of the drawings]

第1図は、本発明の一実施例を説明するための電気的ブ
ロック線図、第2図は、本発明の動作説明をするための
2値化パターンを示す図、第3図は、本発明の他の実施
例を説明するための電気的ブロック線図、第4図は、2
値化パターンの例を示す図、第5図は、本発明の他の実
施例を示す電気的ブロック線図である。 1…マイク、2…パワー検出部、3…音声区間検出部、
4…2値化部、5…レジスタ、6…加算部、7…標準パ
ターン、8…重ね合わせ部、9…類似度判定部、10…認
識結果出力部、11…特徴量変換部、12…パワーパターン
照合部、13…判断部。
FIG. 1 is an electric block diagram for explaining an embodiment of the present invention, FIG. 2 is a diagram showing a binarization pattern for explaining the operation of the present invention, and FIG. FIG. 4 is an electric block diagram for explaining another embodiment of the present invention.
FIG. 5 is a diagram showing an example of a binarization pattern, and FIG. 5 is an electrical block diagram showing another embodiment of the present invention. 1 ... microphone, 2 ... power detector, 3 ... voice section detector,
4 binarization unit, 5 register, 6 addition unit, 7 standard pattern, 8 superposition unit, 9 similarity determination unit, 10 recognition result output unit, 11 feature amount conversion unit, 12 ... Power pattern collating unit, 13 ... judgment unit.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭60−19199(JP,A) 特開 昭59−222900(JP,A) 特開 昭59−205680(JP,A) 特開 昭59−186073(JP,A) 日本音響学会講演論文集(昭和58年10 月)3−1−8,P.195〜196 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-60-19199 (JP, A) JP-A-59-222900 (JP, A) JP-A-59-205680 (JP, A) JP-A-59-205680 186073 (JP, A) Proceedings of the Acoustical Society of Japan (October 1983) 3-1-8, p. 195-196

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】音声の特徴量を抽出して、標準パターンと
して保持しておき、未知入力音声の音声パターンと照合
することによって認識結果を決定する音声認識方法にお
いて、音声のエネルギーまたはパワー形状を時間とパワ
ーの大きさとを直交する2つの軸とする2次元パターン
として表現し、各時間における音声のエネルギーまたは
パワーに対応する2次元パターン上の位置またはその近
傍と、それ以外の部分とを「1」と「0」によって表し
て2次元パターン化された音声パターンを作り、同様の
手順によって作った1つ以上のパターンを重ね合わせて
加算したものを標準パターンとし、未知入力音声も同様
に2次元パターン化し、標準パターンと重ね合わせて類
似性を判別し、最大類似の標準パターンを認識結果とす
ることを特徴とする音声認識方法。
1. A speech recognition method for extracting a feature amount of a speech, storing the feature amount as a standard pattern, and determining a recognition result by comparing the feature with a speech pattern of an unknown input speech. The time and the magnitude of the power are expressed as a two-dimensional pattern having two axes orthogonal to each other, and the position on or near the two-dimensional pattern corresponding to the energy or power of the sound at each time and the other parts are represented by “ A two-dimensional pattern-formed voice pattern is represented by “1” and “0”, and one or more patterns created by the same procedure are superimposed and added as a standard pattern. It is characterized in that it is converted into a dimensional pattern, the similarity is determined by superimposing it on a standard pattern, and the maximum similar standard pattern is used as the recognition result. Speech recognition method.
【請求項2】音声の特徴量を抽出して、標準パターンと
して保持しておき、未知入力音声の音声パターンと照合
することによって認識結果を決定する音声認識装置にお
いて、音声のエネルギーまたはパワーを検出するパワー
検出部と、音声区間を求め、該音声区間に関する部分だ
けのパワー形状を時間とパワーの大きさとを直交する2
つの軸とする2次元パターンとして表現し、各時間にお
ける音声のエネルギーまたはパワーに対応する2次元パ
ターン上の位置またはその近傍と、その以外の部分とを
「1」と「0」によって表わされる2次元パターンを作
る2値化部と、標準パターン作成時と認識時とを切り換
える切換部と、標準パターン作成時に、複数回の発声パ
ターンを前記2値化部により作成した2次元パターンに
重ね合わせて加算した標準パターンを作成する標準パタ
ーン作成部と、未知の音声が入力される認識時に、未知
の入力音声を前記2値化部により作成した2次元パター
ンと前記標準パターン作成部により作成された標準パタ
ーンとを照合する重ね合わせ部と、該重ね合わせ部によ
り重ね合わされたパターンの類似性を判別する類似度判
定部と、該類似度判定部により判定された最大類似の標
準パターンを認識結果とする認識結果出力部とを具備す
ることを特徴とする音声認識装置。
2. A speech recognition apparatus for extracting a feature amount of a speech, storing the extracted feature amount as a standard pattern, and determining a recognition result by collating with a speech pattern of an unknown input speech. And a power detector that calculates a voice section and calculates the power shape of only the portion related to the voice section by orthogonalizing the time and the magnitude of the power.
The two or more axes are expressed as two-dimensional patterns, and the position on or near the two-dimensional pattern corresponding to the energy or power of the sound at each time, and other parts are expressed by “1” and “0”. A binarizing unit for creating a dimensional pattern, a switching unit for switching between a standard pattern creation time and a recognition time, and a plurality of utterance patterns superimposed on the two-dimensional pattern created by the binarizing unit when the standard pattern is created. A standard pattern creating unit for creating the added standard pattern, and a two-dimensional pattern created by the binarizing unit for the unknown input speech at the time of recognition when unknown speech is input, and a standard created by the standard pattern creating unit. A superimposition unit for collating the pattern, a similarity determination unit for determining the similarity of the pattern superimposed by the superimposition unit, and the similarity Speech recognition apparatus characterized by comprising a recognition result output unit for a recognition result a maximum similarity of the reference pattern determined by the tough.
【請求項3】前記音声区間が切り出された後に、パワー
検出部と特徴量変換部とが並設され、前記2次元パター
ンを他の特徴量により作成した2次元パターンと合わせ
て用い、各々の種類のパターン間で類似度を求め、一方
の類似度と他方の類似度を作用させて最終的な類似性を
判別して認識結果を決定することを特徴とする特許請求
の範囲第(2)項に記載の音声認識装置。
3. A power detecting section and a feature quantity converting section are arranged side by side after the speech section is cut out, and the two-dimensional pattern is used together with a two-dimensional pattern created by another feature quantity. A similarity between patterns of a kind is obtained, and a similarity is determined by applying one of the similarities to the other to determine a final similarity, thereby determining a recognition result. A speech recognition device according to the item.
【請求項4】前記音声区間が切り出された後に、パワー
検出部と特徴量変換部とが並設され、前記2次元標準パ
ターンと未知入力2次元パワーパターンとを照合して類
似性を判別するパワーパターン照合部と、該パワーパタ
ーン照合部の結果に基づいて類似度を計算するかどうか
を判断する類似度判断部とを有し、前記2次元パターン
を他の特徴量により作成した2次元パターンと合わせて
用い、各々の種類のパターン間で類似度を求める際、一
方の類似度が特定の条件を満たす時、又は満たさない時
のみ他方の類似度も計算して認識結果を決定することを
特徴とする特許請求の範囲第(2)項に記載の音声認識
装置。
4. After the speech section is cut out, a power detection section and a feature quantity conversion section are provided side by side, and the two-dimensional standard pattern is compared with an unknown input two-dimensional power pattern to determine similarity. A two-dimensional pattern having a power pattern matching unit and a similarity determining unit for determining whether to calculate similarity based on the result of the power pattern matching unit, When determining the similarity between patterns of each type, when one similarity satisfies a specific condition or only when it does not, the other similarity is calculated and the recognition result is determined. The speech recognition device according to claim 2, wherein the speech recognition device is characterized in that:
JP60207131A 1985-09-19 1985-09-19 Voice recognition method and apparatus Expired - Fee Related JP2601448B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP60207131A JP2601448B2 (en) 1985-09-19 1985-09-19 Voice recognition method and apparatus
US06/908,681 US4827519A (en) 1985-09-19 1986-09-17 Voice recognition system using voice power patterns

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60207131A JP2601448B2 (en) 1985-09-19 1985-09-19 Voice recognition method and apparatus

Publications (2)

Publication Number Publication Date
JPS6266300A JPS6266300A (en) 1987-03-25
JP2601448B2 true JP2601448B2 (en) 1997-04-16

Family

ID=16534704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60207131A Expired - Fee Related JP2601448B2 (en) 1985-09-19 1985-09-19 Voice recognition method and apparatus

Country Status (1)

Country Link
JP (1) JP2601448B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01159697A (en) * 1987-12-17 1989-06-22 Matsushita Electric Ind Co Ltd Voice recognition apparatus
JP2692382B2 (en) * 1990-12-21 1997-12-17 松下電器産業株式会社 Speech recognition method
JP2879989B2 (en) * 1991-03-22 1999-04-05 松下電器産業株式会社 Voice recognition method
JP4816699B2 (en) * 2008-09-03 2011-11-16 ソニー株式会社 Music processing method, music processing apparatus, and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6019199A (en) * 1983-07-13 1985-01-31 沖電気工業株式会社 Voice recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集(昭和58年10月)3−1−8,P.195〜196

Also Published As

Publication number Publication date
JPS6266300A (en) 1987-03-25

Similar Documents

Publication Publication Date Title
JPS58130393A (en) Voice recognition equipment
JP2601448B2 (en) Voice recognition method and apparatus
US4060695A (en) Speaker identification system using peak value envelop lines of vocal waveforms
JP2757356B2 (en) Word speech recognition method and apparatus
JP2882791B2 (en) Pattern comparison method
JP3039453B2 (en) Voice recognition device
JP2655637B2 (en) Voice pattern matching method
JPH0211919B2 (en)
JPH05210397A (en) Voice recognizing device
JPS63798B2 (en)
JP2892004B2 (en) Word speech recognition device
JPH01209499A (en) Pattern matching system
JPS6048100A (en) Voice recognition equipment
JPS62115498A (en) Voiceless plosive consonant identification system
JPS60182497A (en) Voice recognition processing system using syllable standard pattern
JPS6193499A (en) Voice pattern collation system
JPS59125800A (en) Voice recognition equipment
JPS595294A (en) Voice recognition equipment
JPH06100918B2 (en) Voice recognizer
JPS60125899A (en) Voice recognition equipment
JPS6170594A (en) Unspecified speaker voice recognition
JPH07111639B2 (en) Automatic voice standard pattern generator
JPH0142025B2 (en)
JPS6070497A (en) Voice recognition equipment
JPS61123892A (en) Voice recognition equipment

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees