JP2003241794A - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法

Info

Publication number
JP2003241794A
JP2003241794A JP2002039439A JP2002039439A JP2003241794A JP 2003241794 A JP2003241794 A JP 2003241794A JP 2002039439 A JP2002039439 A JP 2002039439A JP 2002039439 A JP2002039439 A JP 2002039439A JP 2003241794 A JP2003241794 A JP 2003241794A
Authority
JP
Japan
Prior art keywords
voice
input
speech
user
holding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002039439A
Other languages
English (en)
Other versions
JP3940895B2 (ja
Inventor
Ichiro Mori
一郎 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002039439A priority Critical patent/JP3940895B2/ja
Publication of JP2003241794A publication Critical patent/JP2003241794A/ja
Application granted granted Critical
Publication of JP3940895B2 publication Critical patent/JP3940895B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】使用者によるトークスイッチを押下タイミング
による音声の誤認識又はノイズによる誤作動を防止する
音声認識装置及び方法を提供する。 【解決手段】検知部21、音声入力部22、音声保持部
23、遅延回路24、トークスイッチ25、音声検出部
26および音声認識部27により構成される。使用者に
よりトークスイッチ25が押下されると、音声検出部2
6が音声区間を検出し、音声保持部23が保持していた
音声も含めて音声検出を行なう。音声保持部23からの
出力に続いて遅延回路24により、音声保持部23が保
持している音声の長さと同一時間分の遅延された入力音
声が出力され、音声検出部26で処理され、音声認識部
27により認識される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置及び方
法に関し、特に使用者の発声した音声を認識し、発声内
容をテキストに変換する、又は発声内容に応じて予め決
められた処理を行なう音声認識装置及び方法に関する。
【0002】
【従来の技術】コンピュータ等の情報処理技術が進歩す
ると、キーボード等に依らず人間の音声を認識してコン
ピュータに入力又は指示する音声認識装置が必要にな
り、多くの研究開発がなされている。斯かる技術分野に
おける従来技術は、例えば、特開昭57−697号公報
の「音声認識制御装置」、特開平4−24694号公報
の「音声入力回路」、特開平10−301592号公報
の「音声入力装置」、特開平11−15494号公報の
「音声認識装置」、特開平11−38995号公報の
「音声認識装置及びナビゲーションシステム」、特開2
000−322098号公報の「音声認識装置」、特開
2001−67091号公報の「音声認識装置」及び特
開2001−83983号公報の「音声認識装置、音声
認識のためのデータを記録した記録媒体、および、音声
認識ナビゲーション装置」等に開示されている。
【0003】従来、音声認識装置において、余計な発声
やノイズの入力を防ぎ、真に必要な音声のみを認識する
方法として、PTT(Press to Talk又はPush to Tal
k)方式が使用されている。これは、使用者がトークス
イッチを押下している間だけ、音声入力手段が入力を受
け付ける方式である。
【0004】これに類似した技術として、例えば上述し
た特開平10−301592号公報には、使用者がマウ
スやキーボードに触れている間のみ音声認識を行なう技
術が開示されている。マウスやキーボードに触れている
ことが、入力を受け付ける条件としている。そのため、
使用者がマウスやキーボードに触れていない間の余計な
発声やノイズの誤入力を極力防止することが可能であ
る。
【0005】一方、音声認識装置において、音声の先頭
がうまく検出できない場合がある問題の対策として、例
えば上述した特開平4−24694号公報の「音声入力
回路」では遅延回路が使用されている。即ち、図3に示
す如く、マイクロフォン1、増幅器2、音声検出部3及
び遅延回路4が、音声認識装置5の前段に設けられてい
る。斯かる構成により、音声検出部3が音声を検出した
時点で、遅延回路4を通ってきた音声を音声認識装置5
に入力して認識させる技術を開示している。この遅延回
路4の遅延時間に相当する一定時間分だけ過去に遡って
音声認識を開始することになるため、音声の先頭が欠落
することによる検出(音声認識)に失敗するのを防止で
きる。
【0006】
【発明が解決しようとする課題】しかしながら、上述し
た従来技術では、次の如き幾つかの課題がある。第1
に、PTT方式では、トークスイッチが押下された時点
で初めて音声入力部が作動するため、使用者がトークス
イッチを押下すると同時又は一瞬早く発声を始めてしま
うと、音声の先頭が入力されず、誤認識を引き起こす可
能性がある。
【0007】第2に、遅延回路を使用する方式では、音
声検出部が常に作動しているため、余計な発声や音声以
外のノイズが入力された場合に、音声検出部がそれを音
声として検出すると、誤って音声認識装置が作動してし
まう虞れがある。
【0008】
【発明の目的】本発明は、上述した従来技術の課題に鑑
みなされたものであり、音声の先頭が欠けてしまうこと
がなく、余計な発声やノイズが認識されることがなく且
つ低消費電力の音声認識装置及び方法を提供することを
目的とする。
【0009】
【課題を解決するための手段】前述の課題を解決するた
め、本発明による音声認識装置及び方法は、次のような
特徴的な構成を採用している。
【0010】(1)音声を受け取る音声入力手段と、該
音声入力手段による入力データからノイズの推定と音声
区間の検出を行なう音声検出手段と、該音声検出手段で
検出した音声及び認識辞書を使用して認識処理を行なう
音声認識手段とを含む音声認識装置において、使用者が
押下することにより音声検出を開始するトークスイッチ
と、使用者が前記トークスイッチに指を近付けているこ
とを検知する検知手段と、該検知手段が使用者の指を検
知した時点から入力データの保持を開始する音声保持手
段と、入力された音声を一定時間分遅延させて出力する
遅延手段とを備える音声認識装置。
【0011】(2)前記検知手段は、前記トークスイッ
チの近傍又は内部に設けられ、前記トークスイッチが押
下される直前に使用者の指を検知する上記(1)の音声
認識装置。
【0012】(3)前記音声保持手段は、所定の時間長
以上のデータが入力されたとき、最近の所定時間長の入
力データのみを保持する上記(1)の音声認識装置。
【0013】(4)前記遅延手段は、前記音声保持手段
が保持しているデータの時間長と実質的に同じ時間だけ
入力音声を遅延させて出力する上記(1)の音声認識装
置。
【0014】(5)前記音声検出手段は、前記音声保持
手段が保持しているデータ及び前記遅延手段からの出力
データから、音声検出を行なう上記(1)の音声認識装
置。
【0015】(6)前記遅延手段及び前記音声検出手段
は、前記トークスイッチの押下により作動される上記
(1)乃至(5)の何れかの音声認識装置。
【0016】(7)使用者の所定のスイッチ手段の操作
前過程を検出して入力音声信号の保持動作を開始すると
ともに所定時間だけ遅延し、前記スイッチ手段の使用者
による操作に応答して、前記保持されている入力音声信
号に引き続いて前記遅延された音声信号に基づいて音声
認識を行う音声認識方法。
【0017】(8)前記遅延時間は、前記保持時間と実
質的に同じ時間とされている上記(7)の音声認識方
法。
【0018】
【発明の実施の形態】以下、本発明による音声認識装置
及び方法の好適実施形態の構成及び動作を、添付図面を
参照して詳細に説明する。
【0019】先ず、図1は、本発明による音声認識装置
の好適実施形態の構成を示すブロック図である。この音
声認識装置20は、検知部(検知手段)21、音声入力
部(音声入力手段)22、音声保持部(音声保持手段)
23、遅延回路(遅延手段)24、トークスイッチ2
5、音声検出部(音声検出手段)26及び音声認識部
(音声認識手段)27により構成される。検知部21
は、検知信号を音声入力部22及び音声保持部23に入
力する。音声入力部22の出力は、音声保持部23及び
遅延回路24に入力される。遅延回路24の出力は、音
声検出部26を介して音声認識部27に入力される。ま
た、トークスイッチ25は、遅延回路24及び音声検出
部26に接続されている。
【0020】次に、図1に示す、本発明による音声認識
装置20の各構成要素の21〜27の主要機能を説明す
る。検知部21は、使用者がトークスイッチ25に指を
近付けていることを検知する。音声入力部22は、音声
認識部27で認識される音声を入力する、例えばマイク
ロフォン等である。遅延回路24は、入力された音声を
一定時間だけ遅延させて出力する。音声保持部23は、
入力された音声の一定時間分を一時的に保持しておく。
音声検出部26は、ノイズの推定と音声区間の検出を行
なう。トークスイッチ25は、使用者が押下している間
は遅延回路24及び音声検出部26を作動させる。音声
認識部27は、音声検出部26により検出された音声を
認識する。
【0021】ここで、トークスイッチ25には使用者が
押している間だけオンになる接点スイッチ、検知部21
には赤外線を備えた赤外線センサ等が有効である。検知
部21は、トークスイッチ25の近傍又は内部に設けら
れる。好ましくは、トークスイッチ25の中央には、例
えば空洞が設けられ、検知部21はトークスイッチ25
の背後に設けられ、トークスイッチ25の中央部の空洞
を通って赤外線を放射する。そして、トークスイッチ2
5の正面に使用者の指があるときのみ検出するため、音
声検出が実行される時間を必要最低限に抑えることがで
きる。これにより、音声認識装置20の消費電力を低減
できるからである。赤外線センサには、消費電力の小さ
いタイプが好ましい。
【0022】音声入力部22には、例えばコンデンサマ
イクとそれに接続されたA/D(アナログ・デジタル)
変換器を使用する。音声保持部24には、最新の数秒間
の音声を常時保持しておくことができるリングバッファ
等が有効である。音声検出部26には、音声信号のパワ
ーを使用して音声の有無を検出する検出回路等が有効で
ある。
【0023】次に、図1に示す音声認識装置20の動作
を、図2のタイミングチャートを参照して説明する。図
2のタイミングチャートにおいて、(a)は検知部2
1、(b)はトークスイッチ25、(c)は音声入力部
22の音声入力信号、(d)は音声検出部26が処理す
るデータについて各区間の動作を示す。使用者がトーク
スイッチ25に指を近付けた時刻T1に、検知部21が
それを検知する。そして、音声入力部22が入力を受け
付け、音声保持部23が入力データの保持を開始する。
使用者がトークスイッチ25を押下した時刻T2に、音
声保持部23は入力データの保持を終了して遅延回路2
4及び音声検出部26が作動する。音声検出部26は、
音声保持部23に保持されていたデータに続いて、遅延
回路24からの出力データから、ノイズの推定と音声の
検出を行なう。図2において、ノイズ推定区間は、周囲
雑音を識別するためのノイズ雑音区間で、例えば、0.
5秒が割り当てられ、音声検出区間では音声保持部23
と遅延回路24からの出力信号の合成された信号の出力
される区間であり、この中に音声区間が含まれる。
【0024】もし、図2に示す如く、使用者がトークス
イッチ25を押下するよりも、一瞬早く発声を開始して
いたとしても、発声の先頭や発声前のノイズの部分は音
声保持部23が数秒間分保持しているので、音声検出部
26は正しくノイズの推定と音声信号の検出をすること
が可能である。このようにして、音声検出部26より検
出された音声区間を音声認識部27により認識する。音
声認識部27の処理は、使用者がトークスイッチ25の
押下を終了した時刻T3、トークスイッチ25から充分
に指を離した時刻、即ち検知部21の検知が終了した時
刻T4には影響を受けない。
【0025】以上、本発明による音声認識装置及び方法
の好適実施形態の構成及び動作を詳述した。しかし、斯
かる実施形態は、本発明の単なる例示に過ぎず、何ら本
発明を限定するものではない。本発明の要旨を逸脱する
ことなく、特定用途に応じて種々の変形変更が可能であ
ること、当業者には容易に理解できよう。
【0026】
【発明の効果】以上の説明から理解されるたように、本
発明の音声認識装置及び方法によると、次の如き実用上
の顕著な効果を奏する。第1に、使用者がトークスイッ
チを押下すると同時又は押下するより一瞬早く発声した
としても、音声の先頭が欠けて誤認識することがない。
その理由は、トークスイッチ及び遅延回路を備えること
により、トークスイッチを押下する直前の数秒間の音声
が保持されているためである。
【0027】第2に、余計な発声やノイズを認識するこ
とがなく、消費電力を最低限に抑えることが可能であ
る。その理由は、トークスイッチの近傍又は内部にトー
クスイッチが押下される直前のタイミングを検知する検
知部を備えていることにより、音声入力部、音声保持
部、遅延回路及び音声検出部を必要最低限のみ作動させ
るためである。
【図面の簡単な説明】
【図1】本発明による音声認識装置の好適実施形態の構
成を示すブロック図である。
【図2】図1に示す音声認識装置の主要部の動作を説明
するタイミングチャートである。
【図3】従来の音声認識装置の1例の構成を示すブロッ
ク図である。
【符号の説明】
20 音声認識装置 21 検知部(検知手段) 22 音声入力部(音声入力手段) 23 音声保持部(音声保持手段) 24 遅延回路(遅延手段) 25 トークスイッチ 26 音声検出部(音声検出手段) 27 音声認識部(音声認識手段)

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】音声を受け取る音声入力手段と、該音声入
    力手段による入力データからノイズの推定と音声区間の
    検出を行なう音声検出手段と、該音声検出手段で検出し
    た音声及び認識辞書を使用して認識処理を行なう音声認
    識手段とを含む音声認識装置において、 使用者が押下することにより音声検出を開始するトーク
    スイッチと、使用者が前記トークスイッチに指を近付け
    ていることを検知する検知手段と、該検知手段が使用者
    の指を検知した時点から入力データの保持を開始する音
    声保持手段と、入力された音声を一定時間分遅延させて
    出力する遅延手段とを備えることを特徴とする音声認識
    装置。
  2. 【請求項2】前記検知手段は、前記トークスイッチの近
    傍又は内部に設けられ、前記トークスイッチが押下され
    る直前に使用者の指を検知することを特徴とする請求項
    1に記載の音声認識装置。
  3. 【請求項3】前記音声保持手段は、所定の時間長以上の
    データが入力されたとき、最近の所定時間長の入力デー
    タのみを保持することを特徴とする請求項1に記載の音
    声認識装置。
  4. 【請求項4】前記遅延手段は、前記音声保持手段が保持
    しているデータの時間長と実質的に同じ時間だけ入力音
    声を遅延させて出力することを特徴とする請求項1に記
    載の音声認識装置。
  5. 【請求項5】前記音声検出手段は、前記音声保持手段が
    保持しているデータ及び前記遅延手段からの出力データ
    から、音声検出を行なうことを特徴とする請求項1に記
    載の音声認識装置。
  6. 【請求項6】前記遅延手段及び前記音声検出手段は、前
    記トークスイッチの押下により作動されることを特徴と
    する請求項1乃至5の何れかに記載の音声認識装置。
  7. 【請求項7】使用者の所定のスイッチ手段の操作前過程
    を検出して入力音声信号の保持動作を開始するとともに
    所定時間だけ遅延し、前記スイッチ手段の使用者による
    操作に応答して、前記保持されている入力音声信号に引
    き続いて前記遅延された音声信号に基づいて音声認識を
    行うことを特徴とする音声認識方法。
  8. 【請求項8】前記遅延時間は、前記保持時間と実質的に
    同じ時間とされていることを特徴とする請求項7に記載
    の音声認識方法。
JP2002039439A 2002-02-18 2002-02-18 音声認識装置及び方法 Expired - Fee Related JP3940895B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002039439A JP3940895B2 (ja) 2002-02-18 2002-02-18 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002039439A JP3940895B2 (ja) 2002-02-18 2002-02-18 音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2003241794A true JP2003241794A (ja) 2003-08-29
JP3940895B2 JP3940895B2 (ja) 2007-07-04

Family

ID=27780456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002039439A Expired - Fee Related JP3940895B2 (ja) 2002-02-18 2002-02-18 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JP3940895B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006091130A (ja) * 2004-09-21 2006-04-06 Nissan Motor Co Ltd 音声認識装置および音声認識方法
WO2006106272A3 (fr) * 2005-04-07 2007-02-15 France Telecom Procede de synchronisation entre une operation de traitement de reconnaissance vocale et une action de declenchement du dit traitement
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2016535312A (ja) * 2013-09-03 2016-11-10 アマゾン・テクノロジーズ、インコーポレイテッド 高性能循環オーディオバッファ

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112299A (ja) * 1987-07-16 1989-04-28 Fujitsu Ltd 音声認識装置
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JPH1021254A (ja) * 1996-06-28 1998-01-23 Toshiba Corp 音声認識機能付き情報検索装置
JP2000322098A (ja) * 1999-05-13 2000-11-24 Denso Corp 音声認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112299A (ja) * 1987-07-16 1989-04-28 Fujitsu Ltd 音声認識装置
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JPH1021254A (ja) * 1996-06-28 1998-01-23 Toshiba Corp 音声認識機能付き情報検索装置
JP2000322098A (ja) * 1999-05-13 2000-11-24 Denso Corp 音声認識装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006091130A (ja) * 2004-09-21 2006-04-06 Nissan Motor Co Ltd 音声認識装置および音声認識方法
WO2006106272A3 (fr) * 2005-04-07 2007-02-15 France Telecom Procede de synchronisation entre une operation de traitement de reconnaissance vocale et une action de declenchement du dit traitement
US8301442B2 (en) 2005-04-07 2012-10-30 France Telecom Method for synchronization between a voice recognition processing operation and an action triggering said processing
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2016535312A (ja) * 2013-09-03 2016-11-10 アマゾン・テクノロジーズ、インコーポレイテッド 高性能循環オーディオバッファ

Also Published As

Publication number Publication date
JP3940895B2 (ja) 2007-07-04

Similar Documents

Publication Publication Date Title
US10573305B2 (en) Voice control system and method thereof
JP7000268B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR101422020B1 (ko) 음성 인식 방법 및 장치
US9613626B2 (en) Audio device for recognizing key phrases and method thereof
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
CN107886944B (zh) 一种语音识别方法、装置、设备及存储介质
US20050114132A1 (en) Voice interactive method and system
US20070233471A1 (en) Apparatus, method and computer program product for speech processing
US20100063820A1 (en) Correlating video images of lip movements with audio signals to improve speech recognition
US20030171932A1 (en) Speech recognition
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
EP1085500A2 (en) Timing between commands of a voice controlled device
JPH10511196A (ja) 情報処理システム
JP7330066B2 (ja) 音声認識装置、音声認識方法及びそのプログラム
KR910020644A (ko) 음성잡음분리장치
WO2018216180A1 (ja) 音声認識装置および音声認識方法
KR20100032140A (ko) 대화형 음성인식방법 및 음성인식장치
JP2003241794A (ja) 音声認識装置及び方法
JP2004094077A (ja) 音声認識装置及び制御方法並びにプログラム
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP2807241B2 (ja) 音声認識装置
JP2002091489A (ja) 音声認識装置
JP3891023B2 (ja) 通訳システム及びプログラム
US20210082456A1 (en) Speech processing apparatus and translation apparatus
JP2019139146A (ja) 音声認識システム、及び、音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070320

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees