JPS6048099A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS6048099A
JPS6048099A JP58156599A JP15659983A JPS6048099A JP S6048099 A JPS6048099 A JP S6048099A JP 58156599 A JP58156599 A JP 58156599A JP 15659983 A JP15659983 A JP 15659983A JP S6048099 A JPS6048099 A JP S6048099A
Authority
JP
Japan
Prior art keywords
input
standard pattern
section
standard
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58156599A
Other languages
Japanese (ja)
Inventor
相良 良二
楠原 久代
裕一 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58156599A priority Critical patent/JPS6048099A/en
Publication of JPS6048099A publication Critical patent/JPS6048099A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、予め登録しである単語および単音節の音声の
標準パターンを用いて入力音声を認識する音声認識装置
に関する。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a speech recognition device that recognizes input speech using standard patterns of pre-registered words and monosyllabic speech.

従来例の構成とその問題点 近年、人間−機械系の入力手段として音声が注目を集め
ており、各種の音声認識装置が商品化されている。この
様な音声認識装置には単語単位の認識を行なうものと、
単音節単位の認識を行なうものとがあり、特に単音節単
位の認識が可能な音声認識装置では単語数VC制限がな
いため任意の文章の入力が可能となる。この際、数字等
の様な頻繁に使用される単語も単音節と同様に認識でき
れば、文章あるいはデータの入力はさらに楽になる。
2. Description of the Related Art Structures and Problems Therein In recent years, voice has been attracting attention as an input means for human-machine systems, and various voice recognition devices have been commercialized. These speech recognition devices include those that perform word-by-word recognition, and
There are speech recognition devices that perform recognition in units of monosyllables, and in particular, speech recognition devices that are capable of recognizing units in monosyllables do not have a VC limit on the number of words, so it is possible to input any sentence. At this time, if frequently used words such as numbers can be recognized in the same way as monosyllables, inputting sentences or data will be even easier.

そこで、単語および単音節の両方を認識する音声認識装
置も商品化されている。
Therefore, speech recognition devices that recognize both words and monosyllables have also been commercialized.

以下第1図を参照しながら、単語および単音節を認識す
る従来の音声認識装置について説明する0同図において
、1は音声を電気信号に変換するマイクロフォン等から
なる入力部、2は入力手段1からの電気信号から音声の
特徴を、抽出する特徴抽出部、3は特徴抽出部2によっ
て抽出された音声の特徴をディジタル化するA/D変換
部、4はA/D変換部3によってディジタル化さ扛た音
声の特徴を入カバターンとして一時的に記憶しておく入
カバターン記憶部、5は認識対象となる複数個の単語の
音声の特徴を標準ノくターンとして予め記憶せしめてお
く単語標準ノくターン記憶部、6は認識対象となる複数
個の単音節の音声の特徴を標準パターンとして予め記憶
せしめておく単音節標準パターン記憶部、7は標準、S
ターン記憶部5゜6あるいは入カバターン記憶部4と上
記へ/D変換部3とを接続するモード切換スイッチであ
り、標準パターン記憶部5,6に音声の特徴を予め記憶
せしめる登録モードと入カッくターン記憶部4に入力音
声の特徴を記憶せしめる認識モードとを選択する手段で
ある。8は入カバターンより入力音声の長さを検出して
入カバターンを単語標準ノくターンと単音節標準パター
ンのどちらと比較するかを決定する音声長検出部、9は
音声検出部8によって制御されるゲート、1Qは入カッ
くターン記憶部4に記憶された入カバターンと単語標準
ノくターン記憶部5に記憶さnた複数個の単語標準ノく
ターンとを比較し入力音声を特定の単語と認識する単音
節認識処理部、11は入カッくターンと単音節標準パタ
ーン記憶部6に記憶された複数個の単音節標準パターン
とを比較し、入力音声を特定の単音節と認識する単音節
認識処理部、12は両認識処理部1゛0,11によって
認識された単語あるいは単音節に対応する信号を出力す
る出力部である0上記のように構成された音声認識装置
について、以下具体的に動作を説明する0 まず単語登録モード時には、モード切換スイッチTtA
側に接続し、出力部12より出力される各種の出力信号
に対応した単語を発声して入力部1に入力することによ
って、単語の登録が為される。即ち、入力された音声を
入力部1によって電気信号に変換し、この電気信号から
音声の特徴を特徴抽出部2により抽出し、この音声の特
徴をA/D変換部3によりディジタル化して、単語標準
パターン記憶部5にこのディジタル化された音声の特徴
を登録する。
A conventional speech recognition device for recognizing words and monosyllables will be explained below with reference to FIG. 3 is an A/D converter that digitizes the voice features extracted by the feature extractor 2; 4 is a digitizer that is digitized by the A/D converter 3; Reference numeral 5 denotes an input pattern storage unit that temporarily stores the characteristics of the voice that has been picked up as an input pattern, and a word standard word storage unit 5 that stores in advance the characteristics of the sounds of a plurality of words to be recognized as standard patterns. 6 is a monosyllabic standard pattern storage section in which characteristics of a plurality of monosyllabic sounds to be recognized are stored in advance as a standard pattern; 7 is a standard S;
This is a mode changeover switch that connects the turn storage section 5.6 or the input pattern storage section 4 and the above-mentioned to/D conversion section 3. It is a mode changeover switch that connects the turn storage section 5. This is means for selecting a recognition mode in which the characteristics of the input voice are stored in the turn storage section 4. Reference numeral 8 denotes a speech length detecting section which detects the length of the input speech from the input kabata turn and determines whether to compare the incoming kabata turn with a standard word turn or a standard monosyllabic pattern; 9 is controlled by the speech detecting section 8; Gate 1Q compares the input cover turn stored in the input cut turn storage unit 4 with a plurality of word standard turn turns stored in the word standard turn storage unit 5, and converts the input speech into a specific word. The monosyllabic recognition processing unit 11 compares the incoming crinkle turn with a plurality of monosyllabic standard patterns stored in the monosyllabic standard pattern storage unit 6, and recognizes the input speech as a specific monosyllable. The syllable recognition processing unit 12 is an output unit that outputs a signal corresponding to the word or monosyllable recognized by both recognition processing units 1, 11.The speech recognition device configured as described above will be described in detail below. 0 First, in the word registration mode, press the mode changeover switch TtA.
Words are registered by uttering words corresponding to various output signals outputted from the output section 12 and inputting them to the input section 1. That is, inputted speech is converted into an electrical signal by the input section 1, features of the speech are extracted from this electrical signal by the feature extraction section 2, and the features of the speech are digitized by the A/D conversion section 3 to generate words. The characteristics of this digitized voice are registered in the standard pattern storage section 5.

また単音節登録モード時には、スイッチ7をC側に接続
し、出力部12よシ出力される各種の出力信号に対応し
た単音節を発声して入力部1に入力することによって、
単語登録時と同様に単音節の登録が為される。
In addition, in the monosyllable registration mode, by connecting the switch 7 to the C side and uttering monosyllables corresponding to various output signals output from the output section 12 and inputting them to the input section 1,
Monosyllables are registered in the same way as when registering words.

次に認識モード時にはモード切換スイッチ7をB側に接
続し、両登録モード時に登録された複数個の単語あるい
は単音節の内から所望の単語あるいは単音節を入力部1
に入力すれば、両認識処理部10,11の一方によって
入カバターンに最も類似していると判定された標準パタ
ーンに対応した信号が出力部12から出力される。即ち
、入力部1に入力された音声は特徴抽出部2とへ/D変
換部3とによシディジタル化きれた特徴パターンに変換
さn、一旦入力パターン記憶部4に記憶された後5.音
声長検出部8によって入力音声長がある閾値より長いか
どうか調べられる。まず入力音声長がある値よりも長い
場合、入カバターンは音声検出部8によって制御される
ゲート9を経て単語認識処理部10に送らn、ここで奉
語標準パターン記憶部5vc記憶さnている複数個の標
準パターンと比較されて、最も類似している単語に対応
し、た信号が出力される。一方、入力音声長が閾値、1
りも短かい場合、入カバターンはゲート9を経て単音節
認識処理部11に送られ、ここで単音節標準パターン記
憶部6に記憶されている複数個の標準パターンと比較さ
れて、最も類似している卓子1節に対応した信号が出力
される。
Next, in the recognition mode, connect the mode changeover switch 7 to the B side, and input a desired word or monosyllable from among the plural words or monosyllables registered in the both registration modes to the input section 1.
, the output unit 12 outputs a signal corresponding to the standard pattern determined by one of the recognition processing units 10 and 11 to be most similar to the input cover pattern. That is, the voice input to the input section 1 is converted into a digitalized feature pattern by the feature extraction section 2 and the D/D conversion section 3, and once stored in the input pattern storage section 4, it is stored in the input pattern storage section 4. The speech length detector 8 checks whether the input speech length is longer than a certain threshold. First, if the input speech length is longer than a certain value, the input pattern is sent to the word recognition processing section 10 via the gate 9 controlled by the speech detection section 8, where it is stored in the Hogo standard pattern storage section 5vc. It is compared with a plurality of standard patterns, and a signal corresponding to the most similar word is output. On the other hand, the input audio length is the threshold, 1
If the length is also shorter, the input pattern is sent to the monosyllabic recognition processing unit 11 via the gate 9, where it is compared with a plurality of standard patterns stored in the monosyllabic standard pattern storage unit 6, and the most similar pattern is selected. A signal corresponding to the first section of the table is output.

しかし上記のように構成された音声認識装置では、単語
の認識を行なう単語認識処理部と単音節の認識を行なう
単音節認識処理部とを別個に設けて単語と単音節とを別
々に処理してやる必要があるため、装置の大型化、処理
の複雑化が避けら扛ないという欠点を有していた0しか
も、単音節か単語かを音声の長さで判定するため、1音
節から成る単語、例えば数字の2(″に”)や5(″ど
”)を単音節と判定したり、長めに発声した単音節を単
語と判定する、といった誤りを起し易いという欠点を有
していた。
However, in the speech recognition device configured as described above, a word recognition processing section for recognizing words and a monosyllable recognition processing section for recognizing monosyllables are provided separately, and words and monosyllables are processed separately. However, since it is necessary to increase the size of the device and complicate the processing, it is necessary to increase the size of the device and complicate the processing.In addition, since it is determined whether the sound is a single syllable or a word based on the length of the sound, words consisting of one syllable, For example, it has the disadvantage that it is prone to errors, such as determining the numbers 2 (``ni'') and 5 (``do'') to be monosyllables, or determining a monosyllable uttered for a long time to be a word.

発明の目的 本発明は上記欠点に鑑み、語頭に特徴を持つ単語を単語
節と同一の処理で認識することにより、装置の小型化、
処理の簡易化、誤認識の防止を図ることのできる音声認
識装置を提供することを目的とするものである。
Purpose of the Invention In view of the above-mentioned drawbacks, the present invention recognizes words with characteristics at the beginning using the same processing as word clauses, thereby reducing the size of the device.
It is an object of the present invention to provide a speech recognition device that can simplify processing and prevent erroneous recognition.

発明の構成 本発明は、互いに異なる音節を語頭に持つ単語の語頭の
特徴を標準パターンとして記憶しておく単語標準パター
ン記憶部と、入力、<ターンと比較する標準パターンを
単語標準ノ:ターン記憶部と単音節標準パターン記憶部
のどちらから受け取るかを選択するスイッチ手段と、こ
のスイッチ手段を経て送られてくる各標準ノくターンと
入カッくターンとを比較して認識を行なう認識処理手段
とを備えた音声認識装置であり、音声を入力する際に認
識対象が単語であるか単音節であるかをスイッチ手段に
よって選択することにより、単語と単音節を同一の処理
で認識でき、同時に単語と単音節との混同も避けること
のできるものである。
Structure of the Invention The present invention includes a word standard pattern storage unit that stores the characteristics of the beginnings of words having different syllables at the beginning as a standard pattern, and a word standard pattern storage unit that stores a standard pattern to be compared with input and < turn. a switch means for selecting whether to receive from the part or the monosyllabic standard pattern storage part, and a recognition processing means for comparing and recognizing each standard nok turn and the input kaku turn sent through the switch means. By selecting whether the recognition target is a word or a monosyllable using a switch when inputting speech, it is possible to recognize words and monosyllables in the same process. Confusion between words and monosyllables can also be avoided.

実施例の説明 以下、本発明の実施例について図面とともに説明する。Description of examples Embodiments of the present invention will be described below with reference to the drawings.

第2図は本発明の一実施例における音声認識装置を示す
ブロック図であり、10個の数字と68音節の認識が可
能な音声認識装置である。
FIG. 2 is a block diagram showing a speech recognition device according to an embodiment of the present invention, which is capable of recognizing 10 numbers and 68 syllables.

同図において、1は音声を電気信号に変換するマイクロ
フォン等からなる入力部、2は入力部1からの電気信号
より音声の特徴を抽出する特徴抽出部、3は特徴抽出部
によって抽出さ扛た音声の11!f徴をディジタル化す
るA/D変換部、4はA/D変換部3によってディジタ
ル化された音声の特徴を入カバターンとして一時的に記
憶しておく入カバターン記憶部、5は1Q個の数字1,
2,3゜4.6,6,7,8,9.0の音声の特徴を標
準パターンとして記憶せしめておく単語標準ノくターン
記″憶部、6は68個の単音節の音声の特徴を標準パタ
ーンとして記憶せしめておく単音節標準パターン記憶部
、了は両標準パターン記憶部6,6あるいは入カバター
ン記憶部4とA/D変換部3とを接続するモード切換ス
イッチ、11は入カッくターンと単語あふいは単音節の
いずれかの標準/くターンとを比較し認識を行なう単音
節認識処理部、12は単音節認識処理部11によって認
識された単音節あるいは数字に対応する信号を出力する
出力部、13は入カバターンを単語標準ノくターンと単
音節標準パターンのいずれと比較するかを選択するスイ
ッチである。
In the figure, 1 is an input section consisting of a microphone or the like that converts voice into an electrical signal, 2 is a feature extraction section that extracts features of the voice from the electrical signal from the input section 1, and 3 is a section that extracts the features of the voice from the electrical signal from the input section 1. Audio 11! 4 is an input cover pattern storage unit that temporarily stores the audio features digitized by the A/D converter 3 as input cover patterns; 5 is 1Q numbers; 1,
2,3゜4.6, 6, 7, 8, 9.0 is a word standard noku turn storage unit that stores the voice characteristics of 0 as standard patterns, 6 is the voice characteristic of 68 monosyllables. 1 is a monosyllabic standard pattern storage section in which the standard pattern is stored as a standard pattern, Ryo is a mode changeover switch that connects both standard pattern storage sections 6, 6 or the input cover pattern storage section 4 and the A/D conversion section 3, and 11 is an input cutout pattern storage section. 12 is a signal corresponding to the monosyllable or number recognized by the monosyllabic recognition processing unit 11. An output unit 13 is a switch for selecting whether to compare the input kabata turn with a word standard noku turn or a monosyllabic standard pattern.

以上のように構成された音声認識装置について、以下そ
の動作について第2図を参照しながら説明する。
The operation of the speech recognition apparatus configured as described above will be described below with reference to FIG. 2.

まず単語登録モード時には、モード切換スイッチ7をA
側に接続し、出力部12より出力される信号に対応した
数字を発声して入力部1に順次人力する事によって、数
字の登録が為さ扛る。即ち、入力された音声を入力部1
によって電気信号に変換し、こ、の電気信号から数−牢
の先頭の音檜の特徴、例えば1なら“イ″2なら゛二″
の特徴を特徴抽出部2より抽出し、この音節の特徴をA
/D変換部3によりディジクル化して、単語標準パター
ン記憶部5にこの数字の先頭音節の特徴全登録する。
First, when in word registration mode, press mode selector switch 7 to A.
Registering the numbers is done by connecting to the side and manually inputting the numbers corresponding to the signals outputted from the output section 12 into the input section 1 in sequence. That is, input audio is input to the input unit 1.
Convert it into an electrical signal by , and from this electrical signal, you can calculate the number - the characteristic of the sound chamber at the beginning of the prison, for example, 1 for "i" and 2 for 2.
The feature of this syllable is extracted by the feature extraction unit 2, and the feature of this syllable is defined as A.
The /D converter 3 converts the number into a digit, and registers all the features of the first syllable of this number in the word standard pattern storage 5.

また単音節登録モード時には、モード切換スイッチ7を
C側に接続し、出力部12より出力される信号に対応し
た単音節を発声して入力部1に順次入力する事によって
、単音節の登録が為される。
In addition, in the monosyllabic registration mode, by connecting the mode selector switch 7 to the C side and uttering monosyllables corresponding to the signal output from the output section 12 and sequentially inputting them to the input section 1, monosyllables can be registered. will be done.

即ち、入力された音声を入力部1によって電気信号に変
換し、この単音節の特徴を特徴抽出部2により抽出し、
この単音節の特徴をA/D変換部3によりディジタル化
して、単音節標準パターン記憶7′111eにこの単音
節の特徴を登録する。
That is, input speech is converted into an electrical signal by the input section 1, and features of this monosyllable are extracted by the feature extraction section 2,
The features of this monosyllable are digitized by the A/D converter 3 and are registered in the monosyllabic standard pattern storage 7'111e.

次に認識モード時にはモード切換スイッチ7をD側に接
続し、スイッチ13をD側に接続して単語登録モード時
に登録された10個の数字の内所望の数字を入力部1に
入力すれば、単音節認識処理部11によって入力音声に
最も類似していると判定された数字に対応した信号が出
力部12から出力され、スイッチ13をE側に接続して
単音節登録時に登録された68音節の内所望の単音節を
入力部1に入力すれば、単音節認識処理部11によって
入力音声に最も類似していると判定された単音節に対応
した信号が出力部12から出力される。即ち、まず数字
を入力する際、スイッチ13がD側に接続され、入力部
1に入力さnた音声は特徴抽出部2とA/D変換部3と
によりディジタル化された特徴パターンに変換されて入
カバターン記憶部4に一旦記憶され、単語標準パターン
記憶部5に記憶されている数字の語頭の音節から抽出さ
れた標準パターンと上記の入カバターンとが単音節認識
処理部11によって比較される。数字の語頭の音節は、
′い”(1)l”に”(2)。
Next, in the recognition mode, connect the mode changeover switch 7 to the D side, connect the switch 13 to the D side, and input a desired number from among the 10 numbers registered in the word registration mode into the input section 1. A signal corresponding to the number determined to be most similar to the input speech by the monosyllable recognition processing section 11 is output from the output section 12, and the 68 syllables registered at the time of monosyllable registration are output by connecting the switch 13 to the E side. When a desired monosyllable among the above is input to the input section 1, a signal corresponding to the monosyllable determined by the monosyllable recognition processing section 11 to be most similar to the input speech is outputted from the output section 12. That is, when first inputting numbers, the switch 13 is connected to the D side, and the voice input to the input section 1 is converted into a digital feature pattern by the feature extraction section 2 and the A/D conversion section 3. The monosyllable recognition processing unit 11 compares the standard pattern extracted from the initial syllable of the number stored in the word standard pattern storage unit 5 with the above input cover pattern, which is temporarily stored in the input cover pattern storage unit 4. . The first syllable of a number is
``I''(1)l''ni''(2).

′さ” (3) r ”よ” (4) 、 ”ご″(5
) 、 +1ろ”(6) l ”な”(7)、”は” 
(s > + ”き”(9)、″ぜ”(0)の10個で
単音節と同一の認識処理で十分認識することができ、単
音節認識処理部11で認識された数字に対応した信号が
出力部12から出力される。一方、単音節を入力す2)
際、スイッチ13はE側に接続され、単音節標準パター
ン記憶部6に記憶されている各標準パターンと上記の入
カバターンとが単音節認識処理部′11によって比較さ
扛、最も入力に類似している単音節に対応した信号が出
力される。
'sa' (3) r 'yo' (4), 'go' (5
), +1ro” (6) l “na” (7), “ha”
(s > + "ki" (9), "ze" (0) can be sufficiently recognized by the same recognition process as a monosyllable, and the number corresponding to the number recognized by the monosyllable recognition processing unit 11 A signal is output from the output unit 12. On the other hand, when a monosyllable is input 2)
At this time, the switch 13 is connected to the E side, and each standard pattern stored in the monosyllabic standard pattern storage section 6 is compared with the input pattern pattern described above by the monosyllabic recognition processing section '11. A signal corresponding to the single syllable is output.

以上のように本実施例によれば、スイッチ13を設けて
、10個の数字の語頭の音節から抽出し/こ標準パター
ンと68音節の標準パターンとを別個に単音節認識処理
部11に送ることにより、語頭に異なる音節を持つ10
個の数字と、68個のi′?節とを同一の単音節認識処
理部によって認識することができ、装置を簡単化するこ
とができる。
As described above, according to this embodiment, the switch 13 is provided to separately send the standard pattern extracted from the initial syllables of 10 numbers and the standard pattern of 68 syllables to the monosyllable recognition processing unit 11. 10 with different syllables at the beginning of the word
numbers and 68 i'? clauses can be recognized by the same monosyllable recognition processing unit, and the apparatus can be simplified.

以下本発明の第2の実施例について図面を参照しながら
説明する。
A second embodiment of the present invention will be described below with reference to the drawings.

第3図は本発明の第2の実施例を示す不特定話者用音声
認識装置のブロック図である。
FIG. 3 is a block diagram of a speaker-independent speech recognition device showing a second embodiment of the present invention.

同図において、1は入力部、2は特徴抽、出部、3はA
/D変換部、4は入カバターン記憶部、11は単音節認
識処理部、12は出力部で、以上は第2図の構成と同様
なものである。第2図の構成と異なるのは、予め1o数
字の先頭の音節から抽出した不特定話者用の標準パター
ンを記憶せしめた波字標準パターン記憶部14を設け、
予め゛てんそう”。
In the same figure, 1 is an input section, 2 is a feature extraction and output section, and 3 is an A
/D conversion section, 4 is an input cover pattern storage section, 11 is a monosyllable recognition processing section, and 12 is an output section, which is the same as the configuration shown in FIG. 2. The difference from the configuration shown in FIG. 2 is that a wavy standard pattern storage unit 14 is provided in which a standard pattern for unspecified speakers extracted from the first syllable of the 1o number is stored in advance.
``Tensou'' in advance.

″へんかんII 、 ++さくしよn 、 ++まつし
よう″。
``Henkan II, ++Sakushiyon, ++Matsusyo''.

′“とりけしu、’aかいぎょう11 、 uすペーす
″。
``Torikeshi u, 'a Kaigyo 11, u space''.

等のような文章入力装置に用いるコマンドの最初の音節
から抽出した不特定話者用の標準パターンを記憶せしめ
たコマンド標準パターン記1、ハ部15を設け、さらに
予め68個の音節から抽出した不特定話者用の標準パタ
ーンを記憶せしめた単音節標準パターン記憶部16を設
けた点と、スイッチ17を設けて入カバターンを数字、
コマンド、単音節のいずれの標準パターンと比較其るか
8択す名ようにした点である。
A command standard pattern list 1, part C 15, is provided, which stores standard patterns for unspecified speakers extracted from the first syllable of commands used in text input devices such as A monosyllabic standard pattern storage unit 16 is provided to store standard patterns for unspecified speakers, and a switch 17 is provided to change the input cover turns to numbers, numbers, etc.
The point is that we have eight choices to choose from compared to the standard patterns of commands and single syllables.

上記のように構成された第2の実施例の音声認識装置に
ついて、以下その動作を説明する。
The operation of the speech recognition device of the second embodiment configured as described above will be explained below.

捷ず、数字を入力する場合、スイッチ17をD側に接続
し、10数字の内所望のものを発声して人力部1に入力
する。この音声は特徴抽出部2とA/D変換部3とによ
りディジタル化された特徴パターン、に変換され、一旦
入力パターン記憶部4に記憶された後、単音節認識処理
部11によって数字標準パターン記憶部14の各標準パ
ターン(パい、“にII 、 ++さII 、 11よ
、′ごn 、 IIろ″。
When inputting numbers without selecting them, connect the switch 17 to the D side, speak the desired number out of the 10 numbers, and input it into the human power section 1. This voice is converted into a digitized feature pattern by the feature extraction section 2 and the A/D conversion section 3, and once stored in the input pattern storage section 4, the monosyllable recognition processing section 11 stores the numerical standard pattern. Each standard pattern in part 14 (pai, "ni II, ++sa II, 11yo, 'Go n, II Ro".

“′なu、、、++はII 、 IIさII 、 It
せ″)と比較され、最も類似した数字に対応した記号が
出力部12に、1:り出力される。
“'na u,,,++ is II, IIsaII, It
The symbol corresponding to the most similar number is output to the output section 12.

同様に、文章入力装置に用いられるコマンドを欠力する
場合、スイッチ17をE側に接続し、各コマンドの内所
望のものを発声して入力部1に入力すると、単音節認識
処理部11によってコマンド標準パターン記憶部15内
の各標準パターンと人カバターンとが比較さn、認識結
果が出力部12により出力される。即ち、入力されたコ
マンドの語頭から最初の単音節の特徴が抽出さ汎、各コ
マンドの語頭から抽出された標準パターンと比較されて
、入力と語頭の音節が最も類似したコマンドG′こ対応
する信号が出力部12により出力される。
Similarly, if you want to output a command to be used in the text input device, connect the switch 17 to the E side, utter the desired command and input it into the input unit 1, and the monosyllable recognition processing unit 11 Each standard pattern in the command standard pattern storage section 15 is compared with the human cover pattern, and the recognition result is outputted by the output section 12. That is, the features of the first monosyllable from the beginning of the input command are extracted and compared with the standard pattern extracted from the beginning of each command, and the command G′ whose initial syllable is most similar to the input is selected. A signal is output by the output section 12.

次に、単音節を入力する場合は、スイッチ17iF側に
接続し、予め単音節標準パターン記憶部16に記憶しで
ある単音節の内所望のものを発声して入力部1に入力す
ると第1の実施例と全く同様にして、最も入カバターン
に類似した単音節に対応した信号が出力部12により出
力される。
Next, when inputting a monosyllable, connect it to the switch 17iF side, utter a desired monosyllable among the monosyllables stored in the monosyllable standard pattern storage section 16 in advance, and input it to the input section 1. In exactly the same manner as in the embodiment described above, the output section 12 outputs a signal corresponding to the monosyllable most similar to the input cover turn.

以上のように本実施例によnば、スイッチ17を設けて
、10個の数字の語頭の音節から抽出した標準パターン
と、文章入力装置に用いられるコマンドの語頭の音節か
ら抽出した標準パターンと、68音節のパターンとを別
個に単音節認識処理部11に送ることにより、語頭に異
なる音節を持つ10個の数字と、語頭に異なる音節を持
つコマンドと、68個の音節とを同一の単音節認識処理
部によって認識することができ、3つの記憶部の構造も
同じにすることもでき、装置を簡単化することができる
As described above, according to the present embodiment, the switch 17 is provided, and the standard pattern extracted from the initial syllables of the words of 10 numbers and the standard pattern extracted from the initial syllables of the commands used in the text input device. , and 68 syllable patterns to the single syllable recognition processing unit 11, 10 numbers with different syllables at the beginning of words, commands with different syllables at the beginning of words, and 68 syllables can be combined into the same word. It can be recognized by a syllable recognition processing section, and the structure of the three storage sections can also be made the same, making it possible to simplify the device.

なお、第1および第2の実施例では認識対象として数字
、コマンドをあげたが、これらは互いに異なる音節を語
頭に持つ単語群ならば何でも良い。
In the first and second embodiments, numbers and commands are used as objects to be recognized, but any group of words having different syllables at the beginning may be used.

寸たA/D変換部3は特徴抽出部2の後に設けたが、実
際には特徴抽出部2の前に設けて先に電気信号をデジタ
ル化し、ディジタル化した信号から特徴を抽出しても良
いことは言うまでもない。
Although the small A/D converter 3 is installed after the feature extractor 2, it is actually installed before the feature extractor 2, digitizes the electrical signal first, and extracts the features from the digitized signal. Needless to say, it's a good thing.

発明の効果 本発明の音声認識装置・は、標準パターン記憶部を選択
するスイッチを設けて、互いに異なる音節全語頭に持つ
単語群に認識の候補を分割して絞り込むことにより、単
一の学音節認識処理のみで単1に一節と単語を認識する
ことができ、さらに単語と単音節の辞書の構造も画一化
することができ、装置の簡単化、処理の単純化を太幅V
(進めることができる。
Effects of the Invention The speech recognition device of the present invention is equipped with a switch for selecting a standard pattern storage section, and divides and narrows down recognition candidates into groups of words that have different syllables at the beginning of each word. It is possible to recognize single passages and words using only recognition processing, and the structure of the word and monosyllable dictionaries can be standardized, simplifying the device and processing.
(You can proceed.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は従来の音声認識装置のブロック図、第2図は本
発明の第1の実施例における音声認識装置のブロック図
、第3図は本発明の第2の実施例しこおける音声認識装
置のブロック図である。 13・・・・・スイッチ、14・・・・数字標準パター
ン記憶部、15・・・・・コマンド標準パターン記憶部
、16 ・・・単音節標準パターン記憶部、17 ・ 
スイッチ。
FIG. 1 is a block diagram of a conventional speech recognition device, FIG. 2 is a block diagram of a speech recognition device according to a first embodiment of the present invention, and FIG. 3 is a block diagram of a speech recognition device according to a second embodiment of the present invention. FIG. 2 is a block diagram of the device. 13...Switch, 14...Numeric standard pattern storage section, 15...Command standard pattern storage section, 16...Monosyllabic standard pattern storage section, 17.
switch.

Claims (1)

【特許請求の範囲】[Claims] 入力音声を電気信号に変換する入力手段と、上記電気信
号から語頭の単音節の特徴を抽出する特徴抽出手段と、
上記特徴抽出手段によって抽出された音声の特徴を入カ
バターンとして一時的に記憶する入カバターン記憶手段
と、予め入力する単語音声から上記特徴抽出手段によっ
て抽出された語頭の単音節の特徴を標準パターンとして
記憶しておく少なくとも1個の単語標準パターン記憶手
段と、予め入力する単音節音声から上記特徴抽出手段に
よって抽出された特徴を標準パターンとして記憶してお
く単音節標準パターン記憶手段と、上記標準パターン記
憶手段のうち一方を選択するスイッチ手段と、上記スイ
ッチ手段によって選択された上記標準パターン記憶手段
に記憶されている上記標準パターンと上記入カバターン
とを比較し、上記入カバターンを特定の上記標準パター
ンと認識する認識処理手段と、上記認識処理手段によっ
て認識された上記特定の標準パターンに対応した信号を
出力する出力手段とを備えたことを特命とする音声認識
装置。
an input means for converting input speech into an electrical signal; a feature extraction means for extracting features of a monosyllable at the beginning of a word from the electrical signal;
input cover pattern storage means for temporarily storing the voice features extracted by the feature extraction means as input cover patterns; and input cover pattern storage means for temporarily storing the voice features extracted by the feature extraction means as input cover patterns; at least one word standard pattern storage means for storing, a monosyllabic standard pattern storage means for storing as a standard pattern the features extracted by the feature extraction means from the monosyllabic speech input in advance, and the standard pattern. A switch means for selecting one of the storage means compares the standard pattern stored in the standard pattern storage means selected by the switch means with the input cover pattern, and selects the input cover pattern as a specific standard pattern. What is claimed is a speech recognition device comprising a recognition processing means for recognizing the specified standard pattern, and an output means for outputting a signal corresponding to the specific standard pattern recognized by the recognition processing means.
JP58156599A 1983-08-26 1983-08-26 Voice recognition equipment Pending JPS6048099A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58156599A JPS6048099A (en) 1983-08-26 1983-08-26 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58156599A JPS6048099A (en) 1983-08-26 1983-08-26 Voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS6048099A true JPS6048099A (en) 1985-03-15

Family

ID=15631273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58156599A Pending JPS6048099A (en) 1983-08-26 1983-08-26 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS6048099A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014066779A (en) * 2012-09-25 2014-04-17 Seiko Epson Corp Voice recognition device and method, and semiconductor integrated circuit device
WO2018043138A1 (en) * 2016-08-31 2018-03-08 ソニー株式会社 Information processing device, information processing method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014066779A (en) * 2012-09-25 2014-04-17 Seiko Epson Corp Voice recognition device and method, and semiconductor integrated circuit device
WO2018043138A1 (en) * 2016-08-31 2018-03-08 ソニー株式会社 Information processing device, information processing method, and program

Similar Documents

Publication Publication Date Title
US6058363A (en) Method and system for speaker-independent recognition of user-defined phrases
JPS6147440B2 (en)
JPH096390A (en) Voice recognition interactive processing method and processor therefor
EP1126438B1 (en) Speech recognizer and speech recognition method
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
JPS6048099A (en) Voice recognition equipment
JPH11231895A (en) Method and device speech recognition
JP2000020089A (en) Speed recognition method and apparatus therefor as well as voice control system
JPS6316766B2 (en)
KR100504982B1 (en) Surrounding-condition-adaptive voice recognition device including multiple recognition module and the method thereof
EP0177854B1 (en) Keyword recognition system using template-concatenation model
JP2000122678A (en) Controller for speech recogniging equipment
WO2020096078A1 (en) Method and device for providing voice recognition service
JP2813209B2 (en) Large vocabulary speech recognition device
JP3039453B2 (en) Voice recognition device
JPH10116093A (en) Voice recognition device
JPH04324499A (en) Speech recognition device
JPH02124600A (en) Voice recognition device
JP2008107641A (en) Voice data retrieving apparatus
JPH0313598B2 (en)
JPH0449719B2 (en)
JPH08110790A (en) Sound recognizing device
JPH0769708B2 (en) Voice search device
JP2005148764A (en) Method and device for speech recognition interaction
JPS63259689A (en) Voice recognition responder