JPH04276799A - Speech recognition system - Google Patents
Speech recognition systemInfo
- Publication number
- JPH04276799A JPH04276799A JP3062599A JP6259991A JPH04276799A JP H04276799 A JPH04276799 A JP H04276799A JP 3062599 A JP3062599 A JP 3062599A JP 6259991 A JP6259991 A JP 6259991A JP H04276799 A JPH04276799 A JP H04276799A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- section
- microphone
- feature
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 210000000988 bone and bone Anatomy 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 210000000537 nasal bone Anatomy 0.000 description 1
Abstract
Description
【0001】0001
【技術分野】本発明は、音声認識システム、より詳細に
は、音声認識システムにおける音声入力手段に関する。TECHNICAL FIELD The present invention relates to a speech recognition system, and more particularly to speech input means in a speech recognition system.
【0002】0002
【従来技術】近年になって音声認識を応用した製品が出
てくるようになってきたが、まだ、発声の仕方や周囲の
環境等にかなりの制限があり、使いにくいものが多い。
特に、周囲の環境騒音による誤認識や誤動作は大きな問
題である。例えば、オフィスで使用されるものであれば
、OA機器の作動音や人の話し声、エアコンの音などが
あり、自動車の中での使用ではエンジン音やカーステレ
オの音などがある。これらに対する対策も色々と考えら
れており、比較的効果のある方策としては、音声用マイ
クと騒音用マイクの2本を備え、音声用マイクで得られ
た音声から騒音用マイクから得られた騒音成分を差し引
いて認識を行う方法、指向性の強いマイクを用いて利用
者の音声だけを拾う方法、骨伝導マイクを用いる方法等
がある。しかしながら、いずれの方法でも処理が複雑で
あったり、マイクの位置が問題となったり、高周波成分
の音声が拾えない等の問題があり、まだ、決め手となる
ような効果的な対策はない。BACKGROUND OF THE INVENTION In recent years, products that apply voice recognition have come on the market, but there are still many restrictions on how to speak, the surrounding environment, etc., and many of them are difficult to use. In particular, erroneous recognition or malfunction due to surrounding environmental noise is a big problem. For example, when used in an office, there are sounds such as operating office equipment, people's voices, and air conditioners, and when used in a car, there are engine sounds and car stereo sounds. Various countermeasures have been considered for these problems, and a relatively effective measure is to have two microphones, one for voice and one for noise, and to use the sound obtained from the voice microphone to the noise obtained from the noise microphone. There are methods such as performing recognition by subtracting components, using a highly directional microphone to pick up only the user's voice, and using a bone conduction microphone. However, each method has problems such as complicated processing, problems with the position of the microphone, and inability to pick up high-frequency components of audio, and so far there is no definitive and effective countermeasure.
【0003】0003
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、比較的容易な処理と構成で周囲の環境騒音によ
る誤認識を低減することを目的とするものである。[Object] The present invention was made in view of the above-mentioned circumstances, and it is an object of the present invention to reduce erroneous recognition due to surrounding environmental noise with relatively easy processing and configuration.
【0004】0004
【構成】本発明は、上記目的を達成するために、(1)
マイクロフォン等の音響を電気的信号に変換する第1の
音声入力手段と、該第1の音声入力手段により入力され
た音声の特徴量を抽出する第1の特徴量抽出部と、該第
1の特徴量抽出部から抽出された特徴量から音声の区間
を検出する第1の音声区間検出部と、骨伝導型振動ピッ
クアップ等の骨伝導を利用して音声の検出を行う第2の
音声入力手段と、該第2の音声入力手段より入力された
音声の特徴量を抽出する第2の特徴量抽出部と、該第2
の特徴量抽出部から抽出された特徴量から音声の区間を
検出する第2の音声区間検出部と、予め入力された音声
の第1の特徴量抽出部から得られた特徴量より、その音
声パターン辞書を生成する手段と、該音声パターン辞書
を記憶しておく音声パターン辞書記憶部と、該音声パタ
ーン辞書と未知入力音声パターンとパターン照合を行う
パターン照合部と、パターン照合の結果を出力する結果
出力部とを具備する音声認識システムにおいて、音声入
力時に、第2の音声区間検出部において検出された音声
区間を含む第1の音声区間検出部において検出された音
声のみを発声された音声とみなして音声パターン辞書登
録及び、又は認識のためのパターン照合を行うことを特
徴としたものであり、更には、上記(1)において、(
2)第2の音声区間検出部で音声として検出されても、
第1の音声区間検出部において音声として検出されなか
った場合には該音声区間をキャンセルすること、或いは
、(3)音声入力時以外の時の第1の音声入力部より検
出される音量のレベルが所定の値以上、即ち、周囲環境
騒音が所定のレベル以上の場合、第2の区間検出部で検
出された音声区間を発声された音声とみなして音声パタ
ーン辞書登録及び、又は認識のためのパターン照合を行
うことを特徴としたものである。以下、本発明の実施例
に基いて説明する。[Structure] In order to achieve the above objects, the present invention provides (1)
a first audio input means that converts sound from a microphone or the like into an electrical signal; a first feature extractor that extracts a feature of the audio input by the first audio input means; A first voice section detection section that detects a voice section from the feature extracted from the feature extraction section; and a second voice input means that detects voice using bone conduction such as a bone conduction vibration pickup. and a second feature amount extracting unit that extracts a feature amount of the voice input from the second voice input means;
A second speech section detecting section detects a speech section from the feature amount extracted from the feature amount extracting section of means for generating a pattern dictionary; a speech pattern dictionary storage section for storing the speech pattern dictionary; a pattern matching section for performing pattern matching between the speech pattern dictionary and an unknown input speech pattern; and outputting a result of the pattern matching. In a speech recognition system having a result output section, when inputting speech, only the speech detected in the first speech section detecting section that includes the speech section detected in the second speech section detecting section is regarded as the uttered speech. It is characterized by performing speech pattern dictionary registration and/or pattern matching for recognition, and furthermore, in (1) above, (
2) Even if it is detected as voice by the second voice section detection unit,
(3) canceling the voice section if it is not detected as voice by the first voice section detecting section; or (3) the level of volume detected by the first voice input section at times other than when inputting voice; is above a predetermined value, that is, when the surrounding environment noise is above a predetermined level, the speech section detected by the second section detection section is regarded as the uttered speech and the speech pattern dictionary is registered and/or recognized. The feature is that it performs pattern matching. Hereinafter, the present invention will be explained based on examples.
【0005】図1は、本発明による音声認識システムの
一実施例を説明するためのブロック図で、図中、1aは
通常の音響信号を電気信号に変換するマイク、1bは骨
伝導型のマイクで、これらマイク1a,1bより入力さ
れた音響信号を後述するようにして特徴量を抽出してパ
ターン照合を行うものであるが、その特徴量抽出方式、
パターン照合方式等は現在種々の方式が提案されており
、本発明においては、そのいずれの方式を採用しても良
い。また、骨伝導型のマイク1bは鼻骨の部分からとる
もの、のどの部分からとるものなどあるが、いずれのタ
イプでも良い。FIG. 1 is a block diagram for explaining one embodiment of the speech recognition system according to the present invention. In the figure, 1a is a microphone that converts a normal acoustic signal into an electrical signal, and 1b is a bone conduction type microphone. Then, feature quantities are extracted from the acoustic signals inputted from the microphones 1a and 1b and pattern matching is performed as described later.The feature quantity extraction method,
Various pattern matching methods and the like are currently being proposed, and the present invention may employ any of these methods. Furthermore, there are bone conduction type microphones 1b that are taken from the nasal bone, and those that are taken from the throat, but any type may be used.
【0006】(1)まず、マイク1a,1bから入力さ
れた音声はそれぞれの特徴量抽出部2a,2bによって
特徴量が抽出される。その抽出された特徴量は、それぞ
れの区間検出部3a,3bに入力され、それぞれのアル
ゴリズムで区間検出が行われる。それぞれの区間検出部
3a,3bで検出された区間情報及び特徴量は制御部4
に入力される。制御部4では、マイク1aで検出された
区間のうちマイク1bで音声として検出された区間を正
しい音声区間として見なす(図2参照)。これにより、
利用者が発声した音声以外の音を音声と間違えてパター
ン照合を行なうことを防ぐ。又、マイク1bの区間情報
だけでは音声の高周波成分が欠落する可能性があるので
マイク1aの区間情報を用いる。(1) First, features of the voices inputted from the microphones 1a and 1b are extracted by the respective feature extractors 2a and 2b. The extracted feature amounts are input to the respective section detection units 3a and 3b, and section detection is performed using each algorithm. The section information and feature amounts detected by the respective section detection sections 3a and 3b are sent to the control section 4.
is input. The control unit 4 regards the section detected as voice by the microphone 1b as a correct voice section among the sections detected by the microphone 1a (see FIG. 2). This results in
To prevent sounds other than voices uttered by a user from being mistaken for voices and pattern matching performed. Furthermore, since there is a possibility that high frequency components of the voice may be lost if only the section information of the microphone 1b is used, the section information of the microphone 1a is used.
【0007】(2)(1)の例とは逆に音声が入力され
てないのにマイク1bの入力で音声として区間が検出さ
れる可能性がある。例えば、骨伝導マイク1bの身体に
接触しているセンサ部が利用者が身体を動かしたために
生ずる身体との摩擦によって発生する信号を音声と見な
す場合がある(図3参照)。この誤検出を防ぐため、マ
イク1bによって区間検出情報が発生しても、マイク1
aで検出されなかった場合は、音声として見なさない。(2) Contrary to the example in (1), there is a possibility that a section may be detected as voice due to input from the microphone 1b even though no voice is input. For example, the sensor section of the bone conduction microphone 1b that is in contact with the user's body may regard a signal generated by friction with the user's body as the user moves the user's body as audio (see FIG. 3). In order to prevent this false detection, even if section detection information is generated by microphone 1b, microphone 1
If it is not detected in a, it is not considered as audio.
【0008】(3)周囲の環境騒音が定常的に大きい場
合、即ち、マイク1aより入力される音声レベルが常時
区間検出のための閾値を超えている場合(図4参照)、
マイク1aによる区間検出は不可能である。従って、こ
の場合にはマイク1bによる区間検出情報のみで区間検
出を行なう。(3) When the surrounding environmental noise is constantly large, that is, when the audio level input from the microphone 1a always exceeds the threshold for detecting the section (see FIG. 4),
Section detection using the microphone 1a is impossible. Therefore, in this case, section detection is performed only using section detection information from the microphone 1b.
【0009】[0009]
【効果】以上の説明から明らかなように、本発明による
と、周囲の環境騒音が大きい場合、小さい場合、それぞ
れに対応して、正しい区間検出が可能になった。[Effects] As is clear from the above explanation, according to the present invention, it is possible to correctly detect a section depending on whether the surrounding environmental noise is large or small.
【図1】 本発明による音声認識システムの一実施例
を説明するためのブロック図である。FIG. 1 is a block diagram for explaining an embodiment of a speech recognition system according to the present invention.
【図2】 請求項1に記載の発明の一例を説明するた
めの図で、マイク1aと1bの出力レベルの一例を示す
図である。FIG. 2 is a diagram for explaining an example of the invention according to claim 1, and is a diagram showing an example of output levels of microphones 1a and 1b.
【図3】 請求項2に記載の発明の一例を説明するた
めの図で、マイク1aと1bの出力レベルの他の一例を
示す図である。FIG. 3 is a diagram for explaining an example of the invention according to claim 2, and is a diagram showing another example of the output levels of the microphones 1a and 1b.
【図4】 請求項3に記載の発明の一例を説明するた
めの図で、マイク1aと1bの出力レベルの更に他の一
例を示す図である。FIG. 4 is a diagram for explaining an example of the invention according to claim 3, and is a diagram showing still another example of the output levels of the microphones 1a and 1b.
1a,1b…マイク、2a,2b…特徴量抽出部、3a
,3b…音声区間検出部、4…制御部、5…パターン辞
書記憶部、6…パターン照合部、7…結果出力部、8…
表示部。1a, 1b...Microphone, 2a, 2b...Feature extraction unit, 3a
, 3b...Speech section detection unit, 4...Control unit, 5...Pattern dictionary storage unit, 6...Pattern matching unit, 7...Result output unit, 8...
Display section.
Claims (3)
に変換する第1の音声入力手段と、該第1の音声入力手
段により入力された音声の特徴量を抽出する第1の特徴
量抽出部と、該第1の特徴量抽出部から抽出された特徴
量から音声の区間を検出する第1の音声区間検出部と、
骨伝導型振動ピックアップ等の骨伝導を利用して音声の
検出を行う第2の音声入力手段と、該第2の音声入力手
段より入力された音声の特徴量を抽出する第2の特徴量
抽出部と、該第2の特徴量抽出部から抽出された特徴量
から音声の区間を検出する第2の音声区間検出部と、予
め入力された音声の第1の特徴量抽出部から得られた特
徴量より、その音声パターン辞書を生成する手段と、該
音声パターン辞書を記憶しておく音声パターン辞書記憶
部と、該音声パターン辞書と未知入力音声パターンとパ
ターン照合を行うパターン照合部と、パターン照合の結
果を出力する結果出力部とを具備する音声認識システム
において、音声入力時に、第2の音声区間検出部におい
て検出された音声区間を含む第1の音声区間検出部にお
いて検出された音声のみを発声された音声とみなして音
声パターン辞書登録及び、又は認識のためのパターン照
合を行うことを特徴とする音声認識システム。1. A first audio input means for converting sound from a microphone or the like into an electrical signal; and a first feature extractor for extracting a feature of the audio input by the first audio input means. , a first speech section detection section that detects a speech section from the feature extracted from the first feature extraction section;
A second voice input means that detects voice using bone conduction such as a bone conduction vibration pickup, and a second feature amount extraction that extracts a feature amount of the voice input from the second voice input means. a second speech section detection section that detects a section of speech from the feature extracted from the second feature extraction section; means for generating a speech pattern dictionary from the feature quantity; a speech pattern dictionary storage section for storing the speech pattern dictionary; a pattern matching section for pattern matching the speech pattern dictionary and an unknown input speech pattern; In a speech recognition system comprising a result output section that outputs a result of matching, only the speech detected by the first speech section detection section that includes the speech section detected by the second speech section detection section at the time of speech input. What is claimed is: 1. A speech recognition system that performs speech pattern dictionary registration and/or pattern matching for recognition by regarding speech as uttered speech.
おいて、前記第2の音声区間検出部で音声として検出さ
れても、第1の音声区間検出部において音声として検出
されなかった場合には該音声区間をキャンセルすること
を特徴とする音声認識システム。2. In the speech recognition system according to claim 1, even if the second speech section detecting section detects the speech, if the first speech section detecting section does not detect the speech as speech, the second speech section detecting section detects the speech. A speech recognition system characterized by canceling speech sections.
おいて、音声入力時以外の時、前記第1の音声入力部よ
り検出される音量のレベルが所定の値以上の場合、前記
第2の区間検出部で検出された音声区間を発声された音
声とみなして音声パターン辞書登録及び、又は認識のた
めのパターン照合を行うことを特徴とする音声認識シス
テム。3. In the speech recognition system according to claim 1, when the volume level detected from the first speech input section is equal to or higher than a predetermined value at times other than during speech input, the second section A speech recognition system characterized in that a speech section detected by a detection unit is regarded as uttered speech and registered in a speech pattern dictionary and/or pattern matching for recognition is performed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3062599A JPH04276799A (en) | 1991-03-04 | 1991-03-04 | Speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3062599A JPH04276799A (en) | 1991-03-04 | 1991-03-04 | Speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04276799A true JPH04276799A (en) | 1992-10-01 |
Family
ID=13204957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3062599A Pending JPH04276799A (en) | 1991-03-04 | 1991-03-04 | Speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04276799A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019076587A (en) * | 2017-10-26 | 2019-05-23 | 株式会社三洋物産 | Game machine |
WO2020208926A1 (en) * | 2019-04-08 | 2020-10-15 | ソニー株式会社 | Signal processing device, signal processing method, and program |
-
1991
- 1991-03-04 JP JP3062599A patent/JPH04276799A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019076587A (en) * | 2017-10-26 | 2019-05-23 | 株式会社三洋物産 | Game machine |
WO2020208926A1 (en) * | 2019-04-08 | 2020-10-15 | ソニー株式会社 | Signal processing device, signal processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3284832B2 (en) | Speech recognition dialogue processing method and speech recognition dialogue device | |
CN108305615B (en) | Object identification method and device, storage medium and terminal thereof | |
CN102483918B (en) | Voice recognition device | |
WO2021213490A1 (en) | Identity verification method and apparatus and electronic device | |
JPH04276799A (en) | Speech recognition system | |
JP2000163098A (en) | Voice recognition device | |
US20220114447A1 (en) | Adaptive tuning parameters for a classification neural network | |
JP2004318026A (en) | Security pet robot and signal processing method related to the device | |
KR100587260B1 (en) | speech recognizing system of sound apparatus | |
JPH023520B2 (en) | ||
JP3940895B2 (en) | Speech recognition apparatus and method | |
JP3008593B2 (en) | Voice recognition device | |
JPH03160499A (en) | Speech recognizing device | |
JP2975808B2 (en) | Voice recognition device | |
JPS63278100A (en) | Voice recognition equipment | |
KR20040082756A (en) | Method for Speech Detection Using Removing Noise | |
JPH02103600A (en) | Voice recognizing device | |
JPS6022193A (en) | Voice recognition equipment | |
KR19990043759A (en) | Speech recognition method using bone conduction microphone | |
KR20230106335A (en) | Apparatus and method for speech recognition | |
KR20220080950A (en) | Smart speaker security enhancement method using user location tracking and face recognition | |
CN117457023A (en) | Control method, device, storage medium and program product for non-language audio instruction | |
JP3091244B2 (en) | Noise removal device and speech recognition device | |
JP2001134275A (en) | Speech recognition device | |
CN114255753A (en) | Voice interaction instruction processing method and device and computer readable storage medium |