JP2003241794A - 音声認識装置及び方法 - Google Patents
音声認識装置及び方法Info
- Publication number
- JP2003241794A JP2003241794A JP2002039439A JP2002039439A JP2003241794A JP 2003241794 A JP2003241794 A JP 2003241794A JP 2002039439 A JP2002039439 A JP 2002039439A JP 2002039439 A JP2002039439 A JP 2002039439A JP 2003241794 A JP2003241794 A JP 2003241794A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- speech
- user
- holding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
による音声の誤認識又はノイズによる誤作動を防止する
音声認識装置及び方法を提供する。 【解決手段】検知部21、音声入力部22、音声保持部
23、遅延回路24、トークスイッチ25、音声検出部
26および音声認識部27により構成される。使用者に
よりトークスイッチ25が押下されると、音声検出部2
6が音声区間を検出し、音声保持部23が保持していた
音声も含めて音声検出を行なう。音声保持部23からの
出力に続いて遅延回路24により、音声保持部23が保
持している音声の長さと同一時間分の遅延された入力音
声が出力され、音声検出部26で処理され、音声認識部
27により認識される。
Description
法に関し、特に使用者の発声した音声を認識し、発声内
容をテキストに変換する、又は発声内容に応じて予め決
められた処理を行なう音声認識装置及び方法に関する。
ると、キーボード等に依らず人間の音声を認識してコン
ピュータに入力又は指示する音声認識装置が必要にな
り、多くの研究開発がなされている。斯かる技術分野に
おける従来技術は、例えば、特開昭57−697号公報
の「音声認識制御装置」、特開平4−24694号公報
の「音声入力回路」、特開平10−301592号公報
の「音声入力装置」、特開平11−15494号公報の
「音声認識装置」、特開平11−38995号公報の
「音声認識装置及びナビゲーションシステム」、特開2
000−322098号公報の「音声認識装置」、特開
2001−67091号公報の「音声認識装置」及び特
開2001−83983号公報の「音声認識装置、音声
認識のためのデータを記録した記録媒体、および、音声
認識ナビゲーション装置」等に開示されている。
やノイズの入力を防ぎ、真に必要な音声のみを認識する
方法として、PTT(Press to Talk又はPush to Tal
k)方式が使用されている。これは、使用者がトークス
イッチを押下している間だけ、音声入力手段が入力を受
け付ける方式である。
た特開平10−301592号公報には、使用者がマウ
スやキーボードに触れている間のみ音声認識を行なう技
術が開示されている。マウスやキーボードに触れている
ことが、入力を受け付ける条件としている。そのため、
使用者がマウスやキーボードに触れていない間の余計な
発声やノイズの誤入力を極力防止することが可能であ
る。
がうまく検出できない場合がある問題の対策として、例
えば上述した特開平4−24694号公報の「音声入力
回路」では遅延回路が使用されている。即ち、図3に示
す如く、マイクロフォン1、増幅器2、音声検出部3及
び遅延回路4が、音声認識装置5の前段に設けられてい
る。斯かる構成により、音声検出部3が音声を検出した
時点で、遅延回路4を通ってきた音声を音声認識装置5
に入力して認識させる技術を開示している。この遅延回
路4の遅延時間に相当する一定時間分だけ過去に遡って
音声認識を開始することになるため、音声の先頭が欠落
することによる検出(音声認識)に失敗するのを防止で
きる。
た従来技術では、次の如き幾つかの課題がある。第1
に、PTT方式では、トークスイッチが押下された時点
で初めて音声入力部が作動するため、使用者がトークス
イッチを押下すると同時又は一瞬早く発声を始めてしま
うと、音声の先頭が入力されず、誤認識を引き起こす可
能性がある。
声検出部が常に作動しているため、余計な発声や音声以
外のノイズが入力された場合に、音声検出部がそれを音
声として検出すると、誤って音声認識装置が作動してし
まう虞れがある。
みなされたものであり、音声の先頭が欠けてしまうこと
がなく、余計な発声やノイズが認識されることがなく且
つ低消費電力の音声認識装置及び方法を提供することを
目的とする。
め、本発明による音声認識装置及び方法は、次のような
特徴的な構成を採用している。
音声入力手段による入力データからノイズの推定と音声
区間の検出を行なう音声検出手段と、該音声検出手段で
検出した音声及び認識辞書を使用して認識処理を行なう
音声認識手段とを含む音声認識装置において、使用者が
押下することにより音声検出を開始するトークスイッチ
と、使用者が前記トークスイッチに指を近付けているこ
とを検知する検知手段と、該検知手段が使用者の指を検
知した時点から入力データの保持を開始する音声保持手
段と、入力された音声を一定時間分遅延させて出力する
遅延手段とを備える音声認識装置。
チの近傍又は内部に設けられ、前記トークスイッチが押
下される直前に使用者の指を検知する上記(1)の音声
認識装置。
以上のデータが入力されたとき、最近の所定時間長の入
力データのみを保持する上記(1)の音声認識装置。
が保持しているデータの時間長と実質的に同じ時間だけ
入力音声を遅延させて出力する上記(1)の音声認識装
置。
手段が保持しているデータ及び前記遅延手段からの出力
データから、音声検出を行なう上記(1)の音声認識装
置。
は、前記トークスイッチの押下により作動される上記
(1)乃至(5)の何れかの音声認識装置。
前過程を検出して入力音声信号の保持動作を開始すると
ともに所定時間だけ遅延し、前記スイッチ手段の使用者
による操作に応答して、前記保持されている入力音声信
号に引き続いて前記遅延された音声信号に基づいて音声
認識を行う音声認識方法。
質的に同じ時間とされている上記(7)の音声認識方
法。
及び方法の好適実施形態の構成及び動作を、添付図面を
参照して詳細に説明する。
の好適実施形態の構成を示すブロック図である。この音
声認識装置20は、検知部(検知手段)21、音声入力
部(音声入力手段)22、音声保持部(音声保持手段)
23、遅延回路(遅延手段)24、トークスイッチ2
5、音声検出部(音声検出手段)26及び音声認識部
(音声認識手段)27により構成される。検知部21
は、検知信号を音声入力部22及び音声保持部23に入
力する。音声入力部22の出力は、音声保持部23及び
遅延回路24に入力される。遅延回路24の出力は、音
声検出部26を介して音声認識部27に入力される。ま
た、トークスイッチ25は、遅延回路24及び音声検出
部26に接続されている。
装置20の各構成要素の21〜27の主要機能を説明す
る。検知部21は、使用者がトークスイッチ25に指を
近付けていることを検知する。音声入力部22は、音声
認識部27で認識される音声を入力する、例えばマイク
ロフォン等である。遅延回路24は、入力された音声を
一定時間だけ遅延させて出力する。音声保持部23は、
入力された音声の一定時間分を一時的に保持しておく。
音声検出部26は、ノイズの推定と音声区間の検出を行
なう。トークスイッチ25は、使用者が押下している間
は遅延回路24及び音声検出部26を作動させる。音声
認識部27は、音声検出部26により検出された音声を
認識する。
押している間だけオンになる接点スイッチ、検知部21
には赤外線を備えた赤外線センサ等が有効である。検知
部21は、トークスイッチ25の近傍又は内部に設けら
れる。好ましくは、トークスイッチ25の中央には、例
えば空洞が設けられ、検知部21はトークスイッチ25
の背後に設けられ、トークスイッチ25の中央部の空洞
を通って赤外線を放射する。そして、トークスイッチ2
5の正面に使用者の指があるときのみ検出するため、音
声検出が実行される時間を必要最低限に抑えることがで
きる。これにより、音声認識装置20の消費電力を低減
できるからである。赤外線センサには、消費電力の小さ
いタイプが好ましい。
イクとそれに接続されたA/D(アナログ・デジタル)
変換器を使用する。音声保持部24には、最新の数秒間
の音声を常時保持しておくことができるリングバッファ
等が有効である。音声検出部26には、音声信号のパワ
ーを使用して音声の有無を検出する検出回路等が有効で
ある。
を、図2のタイミングチャートを参照して説明する。図
2のタイミングチャートにおいて、(a)は検知部2
1、(b)はトークスイッチ25、(c)は音声入力部
22の音声入力信号、(d)は音声検出部26が処理す
るデータについて各区間の動作を示す。使用者がトーク
スイッチ25に指を近付けた時刻T1に、検知部21が
それを検知する。そして、音声入力部22が入力を受け
付け、音声保持部23が入力データの保持を開始する。
使用者がトークスイッチ25を押下した時刻T2に、音
声保持部23は入力データの保持を終了して遅延回路2
4及び音声検出部26が作動する。音声検出部26は、
音声保持部23に保持されていたデータに続いて、遅延
回路24からの出力データから、ノイズの推定と音声の
検出を行なう。図2において、ノイズ推定区間は、周囲
雑音を識別するためのノイズ雑音区間で、例えば、0.
5秒が割り当てられ、音声検出区間では音声保持部23
と遅延回路24からの出力信号の合成された信号の出力
される区間であり、この中に音声区間が含まれる。
イッチ25を押下するよりも、一瞬早く発声を開始して
いたとしても、発声の先頭や発声前のノイズの部分は音
声保持部23が数秒間分保持しているので、音声検出部
26は正しくノイズの推定と音声信号の検出をすること
が可能である。このようにして、音声検出部26より検
出された音声区間を音声認識部27により認識する。音
声認識部27の処理は、使用者がトークスイッチ25の
押下を終了した時刻T3、トークスイッチ25から充分
に指を離した時刻、即ち検知部21の検知が終了した時
刻T4には影響を受けない。
の好適実施形態の構成及び動作を詳述した。しかし、斯
かる実施形態は、本発明の単なる例示に過ぎず、何ら本
発明を限定するものではない。本発明の要旨を逸脱する
ことなく、特定用途に応じて種々の変形変更が可能であ
ること、当業者には容易に理解できよう。
発明の音声認識装置及び方法によると、次の如き実用上
の顕著な効果を奏する。第1に、使用者がトークスイッ
チを押下すると同時又は押下するより一瞬早く発声した
としても、音声の先頭が欠けて誤認識することがない。
その理由は、トークスイッチ及び遅延回路を備えること
により、トークスイッチを押下する直前の数秒間の音声
が保持されているためである。
とがなく、消費電力を最低限に抑えることが可能であ
る。その理由は、トークスイッチの近傍又は内部にトー
クスイッチが押下される直前のタイミングを検知する検
知部を備えていることにより、音声入力部、音声保持
部、遅延回路及び音声検出部を必要最低限のみ作動させ
るためである。
成を示すブロック図である。
するタイミングチャートである。
ク図である。
Claims (8)
- 【請求項1】音声を受け取る音声入力手段と、該音声入
力手段による入力データからノイズの推定と音声区間の
検出を行なう音声検出手段と、該音声検出手段で検出し
た音声及び認識辞書を使用して認識処理を行なう音声認
識手段とを含む音声認識装置において、 使用者が押下することにより音声検出を開始するトーク
スイッチと、使用者が前記トークスイッチに指を近付け
ていることを検知する検知手段と、該検知手段が使用者
の指を検知した時点から入力データの保持を開始する音
声保持手段と、入力された音声を一定時間分遅延させて
出力する遅延手段とを備えることを特徴とする音声認識
装置。 - 【請求項2】前記検知手段は、前記トークスイッチの近
傍又は内部に設けられ、前記トークスイッチが押下され
る直前に使用者の指を検知することを特徴とする請求項
1に記載の音声認識装置。 - 【請求項3】前記音声保持手段は、所定の時間長以上の
データが入力されたとき、最近の所定時間長の入力デー
タのみを保持することを特徴とする請求項1に記載の音
声認識装置。 - 【請求項4】前記遅延手段は、前記音声保持手段が保持
しているデータの時間長と実質的に同じ時間だけ入力音
声を遅延させて出力することを特徴とする請求項1に記
載の音声認識装置。 - 【請求項5】前記音声検出手段は、前記音声保持手段が
保持しているデータ及び前記遅延手段からの出力データ
から、音声検出を行なうことを特徴とする請求項1に記
載の音声認識装置。 - 【請求項6】前記遅延手段及び前記音声検出手段は、前
記トークスイッチの押下により作動されることを特徴と
する請求項1乃至5の何れかに記載の音声認識装置。 - 【請求項7】使用者の所定のスイッチ手段の操作前過程
を検出して入力音声信号の保持動作を開始するとともに
所定時間だけ遅延し、前記スイッチ手段の使用者による
操作に応答して、前記保持されている入力音声信号に引
き続いて前記遅延された音声信号に基づいて音声認識を
行うことを特徴とする音声認識方法。 - 【請求項8】前記遅延時間は、前記保持時間と実質的に
同じ時間とされていることを特徴とする請求項7に記載
の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002039439A JP3940895B2 (ja) | 2002-02-18 | 2002-02-18 | 音声認識装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002039439A JP3940895B2 (ja) | 2002-02-18 | 2002-02-18 | 音声認識装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003241794A true JP2003241794A (ja) | 2003-08-29 |
JP3940895B2 JP3940895B2 (ja) | 2007-07-04 |
Family
ID=27780456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002039439A Expired - Fee Related JP3940895B2 (ja) | 2002-02-18 | 2002-02-18 | 音声認識装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3940895B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006091130A (ja) * | 2004-09-21 | 2006-04-06 | Nissan Motor Co Ltd | 音声認識装置および音声認識方法 |
WO2006106272A3 (fr) * | 2005-04-07 | 2007-02-15 | France Telecom | Procede de synchronisation entre une operation de traitement de reconnaissance vocale et une action de declenchement du dit traitement |
JP2008170806A (ja) * | 2007-01-12 | 2008-07-24 | Yamaha Corp | 発音期間を特定する音信号処理装置およびプログラム |
JP2011248140A (ja) * | 2010-05-27 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
JP2016535312A (ja) * | 2013-09-03 | 2016-11-10 | アマゾン・テクノロジーズ、インコーポレイテッド | 高性能循環オーディオバッファ |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01112299A (ja) * | 1987-07-16 | 1989-04-28 | Fujitsu Ltd | 音声認識装置 |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
JPH1021254A (ja) * | 1996-06-28 | 1998-01-23 | Toshiba Corp | 音声認識機能付き情報検索装置 |
JP2000322098A (ja) * | 1999-05-13 | 2000-11-24 | Denso Corp | 音声認識装置 |
-
2002
- 2002-02-18 JP JP2002039439A patent/JP3940895B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01112299A (ja) * | 1987-07-16 | 1989-04-28 | Fujitsu Ltd | 音声認識装置 |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
JPH1021254A (ja) * | 1996-06-28 | 1998-01-23 | Toshiba Corp | 音声認識機能付き情報検索装置 |
JP2000322098A (ja) * | 1999-05-13 | 2000-11-24 | Denso Corp | 音声認識装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006091130A (ja) * | 2004-09-21 | 2006-04-06 | Nissan Motor Co Ltd | 音声認識装置および音声認識方法 |
WO2006106272A3 (fr) * | 2005-04-07 | 2007-02-15 | France Telecom | Procede de synchronisation entre une operation de traitement de reconnaissance vocale et une action de declenchement du dit traitement |
US8301442B2 (en) | 2005-04-07 | 2012-10-30 | France Telecom | Method for synchronization between a voice recognition processing operation and an action triggering said processing |
JP2008170806A (ja) * | 2007-01-12 | 2008-07-24 | Yamaha Corp | 発音期間を特定する音信号処理装置およびプログラム |
JP2011248140A (ja) * | 2010-05-27 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
JP2016535312A (ja) * | 2013-09-03 | 2016-11-10 | アマゾン・テクノロジーズ、インコーポレイテッド | 高性能循環オーディオバッファ |
Also Published As
Publication number | Publication date |
---|---|
JP3940895B2 (ja) | 2007-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10573305B2 (en) | Voice control system and method thereof | |
JP7000268B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR101422020B1 (ko) | 음성 인식 방법 및 장치 | |
US9613626B2 (en) | Audio device for recognizing key phrases and method thereof | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
CN107886944B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
US20050114132A1 (en) | Voice interactive method and system | |
US20070233471A1 (en) | Apparatus, method and computer program product for speech processing | |
US20100063820A1 (en) | Correlating video images of lip movements with audio signals to improve speech recognition | |
US20030171932A1 (en) | Speech recognition | |
US20100178956A1 (en) | Method and apparatus for mobile voice recognition training | |
EP1085500A2 (en) | Timing between commands of a voice controlled device | |
JPH10511196A (ja) | 情報処理システム | |
JP7330066B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム | |
KR910020644A (ko) | 음성잡음분리장치 | |
WO2018216180A1 (ja) | 音声認識装置および音声認識方法 | |
KR20100032140A (ko) | 대화형 음성인식방법 및 음성인식장치 | |
JP2003241794A (ja) | 音声認識装置及び方法 | |
JP2004094077A (ja) | 音声認識装置及び制御方法並びにプログラム | |
JP5375423B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP2807241B2 (ja) | 音声認識装置 | |
JP2002091489A (ja) | 音声認識装置 | |
JP3891023B2 (ja) | 通訳システム及びプログラム | |
US20210082456A1 (en) | Speech processing apparatus and translation apparatus | |
JP2019139146A (ja) | 音声認識システム、及び、音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070320 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140413 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |