JPH1039891A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH1039891A
JPH1039891A JP8208783A JP20878396A JPH1039891A JP H1039891 A JPH1039891 A JP H1039891A JP 8208783 A JP8208783 A JP 8208783A JP 20878396 A JP20878396 A JP 20878396A JP H1039891 A JPH1039891 A JP H1039891A
Authority
JP
Japan
Prior art keywords
result
duration
threshold
volume
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8208783A
Other languages
English (en)
Other versions
JP3624997B2 (ja
Inventor
Masaru Kuroda
勝 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP20878396A priority Critical patent/JP3624997B2/ja
Publication of JPH1039891A publication Critical patent/JPH1039891A/ja
Application granted granted Critical
Publication of JP3624997B2 publication Critical patent/JP3624997B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 不要な言葉を話し続けても認識結果を出力し
ないようにし、発声者に誤認識をしているかのように思
わせないようにする。 【解決手段】 入力された音声から特徴量を抽出する特
徴抽出部と、その特徴量と予め作成した標準辞書との照
合を行う照合部と、その照合結果を出力する結果出力部
とを有する。音声Aの音量が第1の音量閾値(Vt
1)を越える期間が、第1の継続時間閾値(Tth1
を越えたときは、第1の継続時間閾値(Tth1)を越
えた時刻以降(時刻t2以降)に照合結果の結果出力を
行わない。また、第1の音量閾値(Vth1)を越えな
い音量になると、継続時間を初期値に戻して照合結果の
結果出力を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置、よ
り詳細には、不要な言葉を話し続けても認識結果を出力
しないようにし、発声者に誤認識をしているかのように
思わせないようにした音声認識装置に関する。
【0002】
【従来の技術】従来の音声認識装置では、音声のパワー
情報などを使用して、認識すべき音声区間の始端と終端
を決定し、この音声区間情報に基づいて認識処理を行っ
ていた。このとき音声区間の始端は、パワー情報によっ
て容易に検出できるが、終端は、音声中の破裂性の子音
の前の無音や促音の無音とを区別するために、無音区間
が一定時間以上継続する場合に、音声入力の終了の判定
を行っている(特開昭59−119397号公報な
ど)。
【0003】なお、音声区間の検出の不具合を改善する
方法として、認識単語の継続長と類似度を基に、第2の
照合部を設けて認識率の向上を行う方法(特開平5−1
27696号公報)、音声区間の終端検出のための一定
時間以上の継続時間待ちを必要としない方法として、区
間終了時の類似度と閾値を比較して終了を判定する方法
(特開平6−43895号公報)、周囲音響特性とマイ
ク入力音響特性を比較して、同じなら結果出力しないよ
うにする方法(特開平3−160499号公報)等があ
る。
【0004】
【発明が解決しようとする課題】前記特開昭59−11
9397号公報によると、一定時間の持続により、音声
入力の終了を判定する無音持続時間は、一般に、250
〜350ms程度である。この方法によると、促音に対
応させるため無音継続時間が必要となるため、音声入力
が終了しても一定時間が経過するまで認識結果が出力で
きない。そのため、認識結果が発声終了してからなかな
か得られず、応答の遅い認識システムとなってしまう。
また、応答を速くするために、無音継続時間を短くする
と、発声が終了する前に、促音で結果が出力されて、誤
った認識結果が出力される欠点があった。
【0005】また、一般的に、ある発声をするときに、
話者は、「え〜」や「あの〜」といった認識とは無関係
な不要語を発声することがよくある。認識の対照となる
音声に対して、照合させる辞書は、音声の始端から照合
を始めるので、「え〜」や「あの〜」という発声が入る
と著しく類似度が悪くなり、誤認識の原因となる。
【0006】上記各々の欠点を解消する方法として、ワ
ードスポッティング法がある。このワードスポッティン
グ法は、音声区間検出を必要としないので、応答の速い
システムにし易い。また、不要語に対しても、発声全体
から不要語を取り除いて認識結果を出力するので、良好
な認識結果を得ることができる。しかし、ワードスポッ
ティング法にも以下のような問題がある。
【0007】図5は、従来の音声認識の一例を示す図、
図6は,ワードスポッティング法の一例を示す図で、図
5に示す従来の音声認識法においては、認識開始した
後、音声区間検出部1において音声区間検出を行い、そ
の後、照合部2において辞書との照合を行い、結果出力
部3より最も類似度の高い辞書単語を結果出力する。こ
のとき、発声者から見ると、認識開始した後、ある発声
をしたら、結果が返ってくる。更に、認識を行おうとす
ると、もう一度認識開始を行う起動をかける必要があ
る。これに対して、図6に示すワードスポッティング法
では、音声区間検出がないので逐時、照合部11におい
て辞書との照合を行う。次いで、照合部12において、
この照合結果がある閾値を越えたか否かの判定を行い、
越えた場合に結果出力部13より結果出力し、そうでな
い場合は、照合を継続する。この方法によると、結果出
力は、発声者の意志に関係なく照合を続けるために、発
声者が認識させようとする単語を発声していないとき
に、結果出力されることがある(わき出し)。例えば、
認識装置に対して発声しているのではなく、隣の人と会
話している状況などにこのようなことが起きる。
【0008】
【課題を解決するための手段】請求項1の発明は、入力
された音声から特徴量を抽出する特徴抽出部と、その特
徴量と予め作成した標準辞書との照合を行う照合部と、
その照合結果を出力する結果出力部とを有し、前記入力
された音声の第1の音量閾値を越える音量が、第1の継
続時間閾値を越えたときは、該第1の継続時間閾値を越
えた時刻以降に照合結果の結果出力を行わず、第1の音
量閾値を越えない音量になると、継続時間を初期値に戻
して照合結果の結果出力を行うことを特徴としたもので
ある。
【0009】請求項2の発明は、入力された音声から特
徴量を抽出する特徴抽出部と、その特徴量と予め作成し
た標準辞書との照合を行う照合部と、その照合結果を出
力する結果出力部とを有し、前記入力された音声の第1
の音量閾値を越える音量が、第1の継続時間閾値を越え
たときは、該第1の継続時間閾値を越えた時刻以降に照
合結果の結果出力を行わず、前記第1の音量閾値を下回
る第2の音量閾値を越えない音量になると、継続時間を
初期値に戻して照合結果の結果出力を行うことを特徴と
したものである。
【0010】請求項3の発明は、入力された音声から特
徴量を抽出する特徴抽出部と、その特徴量と予め作成し
た標準辞書との照合を行う照合部と、その照合結果を出
力する結果出力部とを有し、前記入力された音声の認識
開始からの継続時間が第1の継続時間閾値を越えたとき
は、該第1の継続時間閾値を越えた時刻以降に照合結果
の結果出力を行わず、前記第1の継続時間閾値後に第2
の音量閾値を越えない音量が第2の継続時間閾値を越え
るときに、継続時間を初期値に戻して照合結果の結果出
力を行うことを特徴としたものである。
【0011】請求項4の発明は、入力された音声から特
徴量を抽出する特徴抽出部と、その特徴量と予め作成し
た標準辞書との照合を行う照合部と、その照合結果を出
力する結果出力部とを有し、前記入力された音声の認識
開始からの継続時間が第1の継続時間閾値を越えたとき
は、該第1の継続時間閾値を越えた時刻以降に照合結果
の結果出力を行わず、前記第1の継続時間閾値後に第2
の音量閾値と該第2の音量閾値より高い第3の音量閾値
の間の音量が第3の継続時間閾値を越えるときに、継続
時間を初期値に戻して照合結果の結果出力を行うことを
特徴としたものである。
【0012】請求項5の発明は、入力された音声から特
徴量を抽出する特徴抽出部と、その特徴量と予め作成し
た標準辞書との照合を行う照合部と、その照合結果を出
力する結果出力部とを有し、前記入力された音声の認識
開始からの継続時間が第1の継続時間閾値を越えたとき
は、該第1の継続時間閾値を越えた時刻以降に照合結果
の結果出力を行わず、前記第1の継続時間閾値後に、
(1)第2の音量閾値を越えない音量が第2の継続時間
閾値を越えるときに、継続時間を初期値に戻して照合結
果の結果出力を行い、かつ、(2)前記第2の音量閾値
と該第2の音量閾値より高い第3の音量閾値の間の音量
が第3の継続時間閾値を越えるときに、継続時間を初期
値に戻して照合結果の結果出力を行うことを特徴とした
ものである。
【0013】
【発明の実施の形態】
(請求項1の発明)図1は、請求項1の発明を説明する
ための図で、全図を通して波形Aは音声パターンで、音
声認識を行う場合に、一般に、認識開始(t0)してか
ら最初の1〜2秒以内に認識コマンドを発声する。これ
により、後の音声は、認識コマンドとは無関係な会話の
ようなもので、不要語である。そこで、音量閾値(第1
の音量閾値)Vth1を音声であるかないかの判定レベ
ルとして、このVth1が時間軸方向にどれだけ継続し
たかを監視する。音声と判定した時刻t1から継続時間
閾値(第1の継続時間閾)Tth1を経過する時刻t2
でに、出力可能な照合結果が得られれば結果出力を行
う。しかし、時刻t2以降であれば、出力可能な照合結
果が得られても結果出力を行わない。時刻t2以降に
は、認識対象となる単語がないと仮定しているためであ
る。結果出力を行えるようにするには、発声者が発声を
止めて音量閾値Vth1を下回る音量にすればよい。そ
うすると、音量閾値Vth1を越えたときに、計測する
時間カウンタが初期化され、その次に、音量閾値Vth
1を越えてTth1に到るまで結果出力可能となる。
【0014】(請求項2の発明)図2は、請求項2の発
明を説明するための図で、この場合は、音量が第2の音
量閾値Vth2に低下したとき(t3)に、時間カウンタ
を初期化する。この場合は、図1の場合と異なり、発声
者が発声していると判定する音量をやや高めに設定し、
発声していないと判定する音量をやや低めに設定してい
る。こうすることで、時間カウンタが音量の頻繁な変化
で初期化されないようにする。
【0015】(請求項3の発明)図3は、請求項3の発
明を説明するための図で、この場合は、認識開始
(t0)と同時に、時間カウンタがインクリメントされ
る。この時間カウンタが第1の継続時間閾値Tth1
越える(t1)と結果出力を行わない。時間カウンタを
初期化するには、第2の音量閾値Vth2を下回る時間
が継続時間閾値(第2の継続時間)Tth2を越える
(t3)と初期化できる。このとき、第2の継続時間T
th2に到るか到らないかを計測する時間カウンタと、
第2の継続時間Tth1を計測する時間カウンタは別個
のものである。
【0016】(請求項4の発明)図4は、請求項4の発
明を説明するための図で、この場合は、図4のときのよ
うに、音量が低いレベルで継続するときに初期化するの
とは異なり、周囲環境が騒しいときに使用する。第2の
音量閾値Vth2よりも高い第3の音量閾値Vth3を設
定し、Vth2とVth3の間の音量がどれだけの時間経
過(第3の継続時間閾値Tth3)するかで時間カウン
タの初期化をするか判定している。第2の継続時間閾値
Tth2に比べて第3の継続時間閾値Tth3は、設定値
が大きい。なぜなら、Vth2は完全に音声でないと判
定できる小さめの音量に対して、Vth3は周囲環境の
変化に対応できるように大きめの音量に設定しているた
めである。つまり、Vth3は、周囲の騒音が大きくな
っても、その騒音レベルよりも大きな音量レベルに設定
しておかないと、図4の機能を果たさないからである。
そうして、このVth2とVth3の間の音量レベルが長
く続くときに初期化が行われる。また、図3,図4にお
いて、時間カウンタが初期化されたときは、認識開始と
同じ状況になることを意味する。
【0017】(請求項5の発明)請求項5の発明は、請
求項3の発明と請求項4の発明の両方を具備したもの
で、入力された音声の認識開始(t0)からの継続時間
が第1の継続時間閾値(Tth1)を越えたときは、該
第1の継続時間閾値を越えた時刻以降に照合結果の結果
出力を行わず、第2の音量閾値(Vth2)を越えない
音量が第2の継続時間閾値(Tth2)を越えるとき
に、継続時間を初期値に戻して照合結果の結果出力を行
い(図3)、かつ、前記第2の音量閾値(Vth2)と
該第2の音量閾値より高い第3の音量閾値(Vth3
の間の音量が第3の継続時間閾値(Vth3)を越える
ときに、継続時間を初期値に戻して照合結果の結果出力
を行うものである。
【0018】
【発明の効果】以上の説明から明らかなように、本発明
によると、認識が開始されてから、ある時間のみ結果出
力されるため、不要な言葉を話し続けても結果出力され
ず、誤認識をしているかのように発声者に思わせないこ
とができる。また、不要な言葉の発声を止めれば、再度
認識結果が出力されるので、発声者に不快な感情を与え
ない音声認識装置となる。
【図面の簡単な説明】
【図1】 請求項1の発明を説明するための図である。
【図2】 請求項2の発明を説明するための図である。
【図3】 請求項3の発明を説明するための図である。
【図4】 請求項4の発明を説明するための図である。
【図5】 従来の音声認識法の一例を説明するための図
である。
【図6】 ワードスポッティング法の一例を説明するた
めの図である。
【符号の説明】
1…音声区間検出部、2…照合部、3…結果出力部、1
1…照合部、12…判定部、13…結果出力部。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声から特徴量を抽出する特
    徴抽出部と、その特徴量と予め作成した標準辞書との照
    合を行う照合部と、その照合結果を出力する結果出力部
    とを有し、前記入力された音声の第1の音量閾値を越え
    る音量が、第1の継続時間閾値を越えたときは、該第1
    の継続時間閾値を越えた時刻以降に照合結果の結果出力
    を行わず、第1の音量閾値を越えない音量になると、継
    続時間を初期値に戻して照合結果の結果出力を行うこと
    を特徴とする音声認識装置。
  2. 【請求項2】 入力された音声から特徴量を抽出する特
    徴抽出部と、その特徴量と予め作成した標準辞書との照
    合を行う照合部と、その照合結果を出力する結果出力部
    とを有し、前記入力された音声の第1の音量閾値を越え
    る音量が、第1の継続時間閾値を越えたときは、該第1
    の継続時間閾値を越えた時刻以降に照合結果の結果出力
    を行わず、前記第1の音量閾値を下回る第2の音量閾値
    を越えない音量になると、継続時間を初期値に戻して照
    合結果の結果出力を行うことを特徴とする音声認識装
    置。
  3. 【請求項3】 入力された音声から特徴量を抽出する特
    徴抽出部と、その特徴量と予め作成した標準辞書との照
    合を行う照合部と、その照合結果を出力する結果出力部
    とを有し、前記入力された音声の認識開始からの継続時
    間が第1の継続時間閾値を越えたときは、該第1の継続
    時間閾値を越えた時刻以降に照合結果の結果出力を行わ
    ず、前記第1の継続時間閾値後に第2の音量閾値を越え
    ない音量が第2の継続時間閾値を越えるときに、継続時
    間を初期値に戻して照合結果の結果出力を行うことを特
    徴とする音声認識装置。
  4. 【請求項4】 入力された音声から特徴量を抽出する特
    徴抽出部と、その特徴量と予め作成した標準辞書との照
    合を行う照合部と、その照合結果を出力する結果出力部
    とを有し、前記入力された音声の認識開始からの継続時
    間が第1の継続時間閾値を越えたときは、該第1の継続
    時間閾値を越えた時刻以降に照合結果の結果出力を行わ
    ず、前記第1の継続時間閾値後に第2の音量閾値と該第
    2の音量閾値より高い第3の音量閾値の間の音量が第3
    の継続時間閾値を越えるときに、継続時間を初期値に戻
    して照合結果の結果出力を行うことを特徴とする音声認
    識装置。
  5. 【請求項5】 入力された音声から特徴量を抽出する特
    徴抽出部と、その特徴量と予め作成した標準辞書との照
    合を行う照合部と、その照合結果を出力する結果出力部
    とを有し、入力された音声の認識開始からの継続時間が
    第1の継続時間閾値を越えたときは、該第1の継続時間
    閾値を越えた時刻以降に照合結果の結果出力を行わず、
    前記第1の継続時間閾値後に第2の音量閾値を越えない
    音量が第2の継続時間閾値を越えるときに、継続時間を
    初期値に戻して照合結果の結果出力を行い、かつ、前記
    第2の音量閾値と該第2の音量閾値より高い第3の音量
    閾値の間の音量が第3の継続時間閾値を越えるときに、
    継続時間を初期値に戻して照合結果の結果出力を行うこ
    とを特徴とする音声認識装置。
JP20878396A 1996-07-19 1996-07-19 音声認識装置 Expired - Fee Related JP3624997B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20878396A JP3624997B2 (ja) 1996-07-19 1996-07-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20878396A JP3624997B2 (ja) 1996-07-19 1996-07-19 音声認識装置

Publications (2)

Publication Number Publication Date
JPH1039891A true JPH1039891A (ja) 1998-02-13
JP3624997B2 JP3624997B2 (ja) 2005-03-02

Family

ID=16562037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20878396A Expired - Fee Related JP3624997B2 (ja) 1996-07-19 1996-07-19 音声認識装置

Country Status (1)

Country Link
JP (1) JP3624997B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100785A (ja) * 1999-07-28 2001-04-13 Matsushita Electric Ind Co Ltd Av機器用音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100785A (ja) * 1999-07-28 2001-04-13 Matsushita Electric Ind Co Ltd Av機器用音声認識装置

Also Published As

Publication number Publication date
JP3624997B2 (ja) 2005-03-02

Similar Documents

Publication Publication Date Title
US11295748B2 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
JP4085130B2 (ja) 感情認識装置
Huang et al. Microsoft Windows highly intelligent speech recognizer: Whisper
US6317711B1 (en) Speech segment detection and word recognition
JP4237713B2 (ja) 音声処理装置
KR100742888B1 (ko) 음성 인식 방법
US20020091522A1 (en) System and method for hybrid voice recognition
JPH08115093A (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
JP3069531B2 (ja) 音声認識方法
Boite et al. A new approach towards keyword spotting.
JPH09166995A (ja) 音声認識装置及び音声認識方法
JP2007072331A (ja) 音声対話方法および音声対話システム
JPH11184491A (ja) 音声認識装置
Kitayama et al. Speech starter: noise-robust endpoint detection by using filled pauses.
JP2996019B2 (ja) 音声認識装置
JP3578587B2 (ja) 音声認識装置および音声認識方法
JP7096707B2 (ja) 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3624997B2 (ja) 音声認識装置
JPH08263092A (ja) 応答音声生成方法および音声対話システム
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
Kuroiwa et al. Robust speech detection method for telephone speech recognition system
JP3605011B2 (ja) 音声認識方法
JP4391031B2 (ja) 音声認識装置
KR100281582B1 (ko) 인식기 자원을 효율적으로 사용하는 음성인식 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071210

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091210

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101210

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees