JP2006119377A - Voice input device and method, and program and storage medium - Google Patents
Voice input device and method, and program and storage medium Download PDFInfo
- Publication number
- JP2006119377A JP2006119377A JP2004307249A JP2004307249A JP2006119377A JP 2006119377 A JP2006119377 A JP 2006119377A JP 2004307249 A JP2004307249 A JP 2004307249A JP 2004307249 A JP2004307249 A JP 2004307249A JP 2006119377 A JP2006119377 A JP 2006119377A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice input
- signal
- input device
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、音声入力装置及び方法、並びにプログラム及び記憶媒体に関し、特に、人が音声を発するときに声帯が振動することを利用した音声入出力装置及び方法、並びにプログラム及び記憶媒体に関する。 The present invention relates to a voice input device and method, a program, and a storage medium, and more particularly, to a voice input / output device and method, and a program and a storage medium that use the vibration of a vocal cord when a person utters a voice.
従来より、電子機器等の一般的な入力手段として、キーボード、タッチパネル、マウス等が用いられているが、近年もっと簡易な入力手段が求められており、タッチパネルを用いた手書き文字認識による入力装置、音声認識を用いた入力装置等が考案されている。 Conventionally, keyboards, touch panels, mice, etc. have been used as general input means such as electronic devices, but in recent years there has been a demand for simpler input means, and input devices by handwritten character recognition using a touch panel, An input device using voice recognition has been devised.
例えば、特許文献1に開示されている音声認識を用いた入力装置は、音声による空気振動をマイク等を用いて電気信号に変換し、その信号波形をサンプリングし、サンプリングしたデータと標準パターンとを比較分析して、人が発声した音声を認識することにより、文字の入力を行う。
しかしながら、従来の音声認識装置は、人が実際にある程度の音量の音声を発しなければならず、周囲に他人がいた場合に、他人に迷惑をかけるか、又は自分が恥ずかしさを感じるという問題があり、また、周囲の騒音(ノイズ)が大きい場合は、認識率が低下するという問題があった。 However, the conventional voice recognition device has a problem that a person must actually emit a sound of a certain volume, and when there is another person around, the person is inconvenienced or he / she feels embarrassed. In addition, when the surrounding noise (noise) is large, there is a problem that the recognition rate is lowered.
本発明の目的は、低音量で明瞭でない音声でも音声入力や音声認識を行うことができる音声入力装置及び方法、並びにプログラム及び記憶媒体を提供することにある。 An object of the present invention is to provide a voice input device and method, a program, and a storage medium that can perform voice input and voice recognition even with low-volume and unclear voice.
上記の目的を達成するために、請求項1記載の音声入力装置は、人が音声を発するときの声帯の振動を検知して電気信号に変換する変換手段と、前記変換された電気信号から人が発声した音声を音声信号として認識する認識手段とを備えることを特徴とする。 In order to achieve the above object, a voice input device according to claim 1 is provided with a conversion means for detecting a vibration of a vocal cord when a person utters a sound and converting the vibration into an electric signal; Recognizing means for recognizing a voice uttered as a voice signal.
請求項3記載の音声入力方法は、人が音声を発するときの声帯の振動を検知して電気信号に変換する変換工程と、前記変換された電気信号から人が発声した音声を音声信号として認識する認識工程とを備えることを特徴とする。
The voice input method according to
請求項5記載の制御プログラムは、請求項3に記載の音声入力方法をコンピュータに実行させることを特徴とする。 According to a fifth aspect of the present invention, there is provided a control program that causes a computer to execute the voice input method according to the third aspect.
請求項6記載のコンピュータ読み取り可能な記憶媒体は、請求項5に記載の制御プログラムを記憶することを特徴とする。 A computer-readable storage medium according to a sixth aspect stores the control program according to the fifth aspect.
本発明によれば、人が音声を発するときの声帯の振動を検知して電気信号に変換し、変換された電気信号から人が発声した音声を音声信号として認識するので、周囲にいる他人に聞かれることなく、また、周囲の騒音の影響を受けずに、低音量の音声でも音声入力や音声認識を行うことができる。 According to the present invention, the vibration of the vocal cord when a person utters a voice is detected and converted into an electric signal, and the voice uttered by the person is recognized as a voice signal from the converted electric signal. Voice input and voice recognition can be performed even at low volume without being heard and without being affected by ambient noise.
以下、本発明の実施の形態を図面を参照しながら詳述する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の第1の実施の形態に係る音声入力装置の構成を概略的に示すブロック図である。 FIG. 1 is a block diagram schematically showing the configuration of the voice input device according to the first embodiment of the invention.
図1の音声入力装置において、咽喉マイク1(変換手段)は、人の声帯のある喉付近に装着され、人が音声を発したときに(周りに聞こえない程度の音声でもよい)、その音声に応じた声帯の振動を検出して、その振動を電気信号に変換する。変換された電気信号は、A/D変換部2に送られる。A/D変換部2は、咽喉マイク1から送られてきたアナログ信号をデジタル信号に変換し、そのデジタル信号を特徴抽出部3に送る。特徴抽出部3は、デジタル信号を周波数変換し、周波数領域で特徴パラメータを抽出し、発声された特徴パラメータの列として照合部4(認識手段)に送る。照合部4は、認識辞書部5に記憶された各単語の標準パターンとの比較を行い、最も近似する単語を選択する。この標準パターンで使用されるデータは、通常の音声認識で使用されるデータではなく、声帯の振動を直接検知して作成したデータである。CPU6は、認識辞書部5で選択された単語を入力文字として処理する。その処理の1例として、CPU6は、人の名前を入力してその人のデータ(例えば、営業マンが使用する携帯情報端末等においては、顧客データ等)をメモリ7より検索して表示部8に表示させる。キー入力部9は、カーソル移動及びエンターキー等で、1画面に表示しきれないデータがある場合に次の画面に行くとき、又は、顧客データを入力ときに項目を選択する場合等にカーソルキーを使用する。また、入力データ等を上記音声入力で行った後、正しく認識され確定する場合等に、エンターキーを入力して確定する。これにより、周囲にいる他人に聞かれることなく、また、周囲の騒音の影響を受けずに、低音量で明瞭でない音声でも音声入力や音声認識を行うことができる。
In the voice input device of FIG. 1, the throat microphone 1 (conversion means) is mounted near the throat where a person's vocal cord is located, and when the person utters a voice (the voice may be inaudible to the surroundings). Is detected, and the vibration is converted into an electrical signal. The converted electrical signal is sent to the A /
図2は、本発明の第2の実施の形態に係る音声入力装置の構成を概略的に示すブロック図である。 FIG. 2 is a block diagram schematically showing the configuration of the voice input device according to the second embodiment of the invention.
本実施の形態の構成は、図1の表示部8及びキー入力部9に代えて、音声データ10、音声合成部11、D/A変換部12及びスピーカー12を有する点において、図1の構成と異なり、これ以外のものは、図1の構成と基本的に同じであり、図1の構成と同じものには、同一符号を付してその重複説明を省略する。
The configuration of the present embodiment is the configuration of FIG. 1 in that it has
図2の音声入出力装置において、CPU6は、照合部4で認識された単語を、一旦メモリ107に蓄え、それと同時に、今まで入力された単語を連結して構文解析を行って、それが1つの文と認識された場合に、その文に最適化された、読み、アクセント、イントネーション、ポーズ等の音声データを音声データ部10より読み出して音声合成部11(合成手段)に送る。音声合成部11は、送られた音声データに基づいて音声波形を合成し、D/A変換部12に送る。D/A変換部12は、デジタル信号をアナログ信号に変換し、アナログ化された音声信号は、スピーカー13(出力手段)により、音声として出力される。これにより、十分な音量で音声を発声できない人や、小さい音量しか発声できない人が、十分な音量で明瞭に発声することができる。図示していないが、ボリューム等を具備すれば、音量調節も可能である。
In the voice input / output device of FIG. 2, the CPU 6 temporarily stores the words recognized by the
また、本発明の目的は、上記実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(又は記録媒体)を、システム又は装置に供給し、そのシステム又は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。 Another object of the present invention is to supply a storage medium (or recording medium) in which a program code of software for realizing the functions of the above-described embodiments is recorded to a system or apparatus, and to perform computer (or CPU or MPU) of the system or apparatus. Needless to say, this is also achieved by reading and executing the program code stored in the storage medium.
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an operating system (OS) or the like running on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, after the program code read from the storage medium is written in a memory provided in a function expansion card inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the case where the CPU or the like provided in the card or the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.
また、上記プログラムは、上述した実施の形態の機能をコンピュータで実現することができればよく、その形態は、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給されるスクリプトデータ等の形態を有するものでもよい。 The above-described program only needs to be able to realize the functions of the above-described embodiments by a computer, and the form includes forms such as object code, a program executed by an interpreter, and script data supplied to the OS. But you can.
プログラムを供給する記録媒体としては、例えば、RAM、NV−RAM、フロッピー(登録商標)ディスク、光ディスク、光磁気ディスク、CD−ROM、MO、CD−R、CD−RW、DVD(DVD−ROM、DVD−RAM、DVD−RW、DVD+RW)、磁気テープ、不揮発性のメモリカード、他のROM等の上記プログラムを記憶できるものであればよい。又は、上記プログラムは、インターネット、商用ネットワーク、若しくはローカルエリアネットワーク等に接続される不図示の他のコンピュータやデータベース等からダウンロードすることにより供給される。 As a recording medium for supplying the program, for example, RAM, NV-RAM, floppy (registered trademark) disk, optical disk, magneto-optical disk, CD-ROM, MO, CD-R, CD-RW, DVD (DVD-ROM, DVD-RAM, DVD-RW, DVD + RW), magnetic tape, non-volatile memory card, other ROM, etc. may be used as long as they can store the above programs. Alternatively, the program is supplied by downloading from another computer or database (not shown) connected to the Internet, a commercial network, a local area network, or the like.
1 咽喉マイク
2 A/D変換部
3 特徴抽出部
4 照合部
5 認識辞書部
6 CPU
7 メモリ
8 表示部
9 キー入力部
10 音声データ
11 音声合成部
12 D/A変換部
13 スピーカー
DESCRIPTION OF SYMBOLS 1 Throat microphone 2 A /
7
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004307249A JP2006119377A (en) | 2004-10-21 | 2004-10-21 | Voice input device and method, and program and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004307249A JP2006119377A (en) | 2004-10-21 | 2004-10-21 | Voice input device and method, and program and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006119377A true JP2006119377A (en) | 2006-05-11 |
Family
ID=36537319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004307249A Withdrawn JP2006119377A (en) | 2004-10-21 | 2004-10-21 | Voice input device and method, and program and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006119377A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976808A (en) * | 2016-04-18 | 2016-09-28 | 成都启英泰伦科技有限公司 | Intelligent speech recognition system and method |
CN113782038A (en) * | 2021-09-13 | 2021-12-10 | 北京声智科技有限公司 | Voice recognition method and device, electronic equipment and storage medium |
-
2004
- 2004-10-21 JP JP2004307249A patent/JP2006119377A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976808A (en) * | 2016-04-18 | 2016-09-28 | 成都启英泰伦科技有限公司 | Intelligent speech recognition system and method |
CN113782038A (en) * | 2021-09-13 | 2021-12-10 | 北京声智科技有限公司 | Voice recognition method and device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7124082B2 (en) | Phonetic speech-to-text-to-speech system and method | |
US20070088547A1 (en) | Phonetic speech-to-text-to-speech system and method | |
JP2007140200A (en) | Language learning device and program | |
JP6127422B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
JP2016521383A (en) | Method, apparatus and computer readable recording medium for improving a set of at least one semantic unit | |
US10216732B2 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
US10224021B2 (en) | Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
JP6832503B2 (en) | Information presentation method, information presentation program and information presentation system | |
JP5152588B2 (en) | Voice quality change determination device, voice quality change determination method, voice quality change determination program | |
KR20150014235A (en) | Apparatus and method for automatic interpretation | |
JP2006119377A (en) | Voice input device and method, and program and storage medium | |
JP2005031150A (en) | Apparatus and method for speech processing | |
CN115956269A (en) | Voice conversion device, voice conversion method, program, and recording medium | |
KR100620735B1 (en) | Mobile communication terminal having function of writing study and method thereof | |
JPH1097280A (en) | Speech image recognition and translation device | |
JP2006189544A (en) | Interpretation system, interpretation method, recording medium with interpretation program recorded thereon, and interpretation program | |
KR102574311B1 (en) | Apparatus, terminal and method for providing speech synthesizer service | |
JP6221253B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
WO2023210149A1 (en) | Information processing device, information processing method, and computer program | |
JPH08297673A (en) | Voice input translation system | |
JP2010060729A (en) | Reception device, reception method and reception program | |
JP2006302149A (en) | Japanese input device | |
JP2002323969A (en) | Communication supporting method, system and device using the method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060419 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060424 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080108 |