JP3624997B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP3624997B2
JP3624997B2 JP20878396A JP20878396A JP3624997B2 JP 3624997 B2 JP3624997 B2 JP 3624997B2 JP 20878396 A JP20878396 A JP 20878396A JP 20878396 A JP20878396 A JP 20878396A JP 3624997 B2 JP3624997 B2 JP 3624997B2
Authority
JP
Japan
Prior art keywords
duration
collation
threshold
output
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20878396A
Other languages
English (en)
Other versions
JPH1039891A (ja
Inventor
勝 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP20878396A priority Critical patent/JP3624997B2/ja
Publication of JPH1039891A publication Critical patent/JPH1039891A/ja
Application granted granted Critical
Publication of JP3624997B2 publication Critical patent/JP3624997B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置、より詳細には、不要な言葉を話し続けても認識結果を出力しないようにし、発声者に誤認識をしているかのように思わせないようにした音声認識装置に関する。
【0002】
【従来の技術】
従来の音声認識装置では、音声のパワー情報などを使用して、認識すべき音声区間の始端と終端を決定し、この音声区間情報に基づいて認識処理を行っていた。このとき音声区間の始端は、パワー情報によって容易に検出できるが、終端は、音声中の破裂性の子音の前の無音や促音の無音とを区別するために、無音区間が一定時間以上継続する場合に、音声入力の終了の判定を行っている(特開昭59−119397号公報など)。
【0003】
なお、音声区間の検出の不具合を改善する方法として、認識単語の継続長と類似度を基に、第2の照合部を設けて認識率の向上を行う方法(特開平5−127696号公報)、音声区間の終端検出のための一定時間以上の継続時間待ちを必要としない方法として、区間終了時の類似度と閾値を比較して終了を判定する方法(特開平6−43895号公報)、周囲音響特性とマイク入力音響特性を比較して、同じなら結果出力しないようにする方法(特開平3−160499号公報)等がある。
【0004】
【発明が解決しようとする課題】
前記特開昭59−119397号公報によると、一定時間の持続により、音声入力の終了を判定する無音持続時間は、一般に、250〜350ms程度である。この方法によると、促音に対応させるため無音継続時間が必要となるため、音声入力が終了しても一定時間が経過するまで認識結果が出力できない。そのため、認識結果が発声終了してからなかなか得られず、応答の遅い認識システムとなってしまう。また、応答を速くするために、無音継続時間を短くすると、発声が終了する前に、促音で結果が出力されて、誤った認識結果が出力される欠点があった。
【0005】
また、一般的に、ある発声をするときに、話者は、「え〜」や「あの〜」といった認識とは無関係な不要語を発声することがよくある。認識の対照となる音声に対して、照合させる辞書は、音声の始端から照合を始めるので、「え〜」や「あの〜」という発声が入ると著しく類似度が悪くなり、誤認識の原因となる。
【0006】
上記各々の欠点を解消する方法として、ワードスポッティング法がある。このワードスポッティング法は、音声区間検出を必要としないので、応答の速いシステムにし易い。また、不要語に対しても、発声全体から不要語を取り除いて認識結果を出力するので、良好な認識結果を得ることができる。しかし、ワードスポッティング法にも以下のような問題がある。
【0007】
図5は、従来の音声認識の一例を示す図、図6は,ワードスポッティング法の一例を示す図で、図5に示す従来の音声認識法においては、認識開始した後、音声区間検出部1において音声区間検出を行い、その後、照合部2において辞書との照合を行い、結果出力部3より最も類似度の高い辞書単語を結果出力する。このとき、発声者から見ると、認識開始した後、ある発声をしたら、結果が返ってくる。更に、認識を行おうとすると、もう一度認識開始を行う起動をかける必要がある。これに対して、図6に示すワードスポッティング法では、音声区間検出がないので逐時、照合部11において辞書との照合を行う。次いで、照合部12において、この照合結果がある閾値を越えたか否かの判定を行い、越えた場合に結果出力部13より結果出力し、そうでない場合は、照合を継続する。この方法によると、結果出力は、発声者の意志に関係なく照合を続けるために、発声者が認識させようとする単語を発声していないときに、結果出力されることがある(わき出し)。例えば、認識装置に対して発声しているのではなく、隣の人と会話している状況などにこのようなことが起きる。
【0008】
【課題を解決するための手段】
請求項1の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、前記入力された音声の音量が第1の音量閾値を越えている継続時間を計測し、該継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該継続時間が前記第1の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第1の音量閾値を下回ったときに前記継続時間を初期値に戻すことを特徴としたものである。
【0009】
請求項2の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、前記入力された音声の音量が第1の音量閾値を越えている継続時間を計測し、該継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該継続時間が前記第1の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第1の音量閾値より小さい第2の音量閾値を下回ったときに前記継続時間を初期値に戻すことを特徴としたものである。
【0010】
請求項3の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第1の継続時間を計測し、該第1の継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該第1の継続時間が前記第1の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第1の音量閾値より小さい第2の音量閾値を下回ったときの第2の継続時間が第2の継続時間閾値を越えたときに前記第1の継続時間を初期値に戻すことを特徴としたものである。
【0011】
請求項4の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第1の継続時間を計測し、該第1の継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該第1の継続時間が前記第1の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が、第3の音量閾値と該第3の音量閾値より小さい第2の音量閾値との間における第3の継続時間が第3の継続時間閾値を越えたときに前記第1の継続時間を初期値に戻すことを特徴としたものである。
【0012】
請求項5の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第1の継続時間を計測し、該第1の継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、前記入力された音声の音量が第2の音量閾値を下回ったときの第2の継続時間が第2の継続時間閾値を越えたときに前記第1の継続時間を初期値に戻し、かつ、前記入力された音声の音量が、第3の音量閾値と該第3の音量閾値より小さい第2の音量閾値との間における第3の継続時間が第3の継続時間閾値を越えたときに前記第1の継続時間を初期値に戻すことを特徴としたものである。
【0013】
【発明の実施の形態】
(請求項1の発明)
図1は、請求項1の発明を説明するための図で、全図を通して波形Aは音声パターンで、音声認識を行う場合に、一般に、認識開始(t)してから最初の1〜2秒以内に認識コマンドを発声する。これにより、後の音声は、認識コマンドとは無関係な会話のようなもので、不要語である。そこで、音量閾値(第1の音量閾値)Vthを音声であるかないかの判定レベルとして、このVthが時間軸方向にどれだけ継続したかを監視する。音声と判定した時刻tから継続時間閾値(第1の継続時間閾)Tthを経過する時刻tまでに、出力可能な照合結果が得られれば結果出力を行う。しかし、時刻t以降であれば、出力可能な照合結果が得られても結果出力を行わない。時刻t以降には、認識対象となる単語がないと仮定しているためである。結果出力を行えるようにするには、発声者が発声を止めて音量閾値Vthを下回る音量にすればよい。そうすると、音量閾値Vthを越えたときに、計測する時間カウンタが初期化され、その次に、音量閾値Vthを越えてTthに到るまで結果出力可能となる。
【0014】
(請求項2の発明)
図2は、請求項2の発明を説明するための図で、この場合は、音量が第2の音量閾値Vthに低下したとき(t)に、時間カウンタを初期化する。この場合は、図1の場合と異なり、発声者が発声していると判定する音量をやや高めに設定し、発声していないと判定する音量をやや低めに設定している。こうすることで、時間カウンタが音量の頻繁な変化で初期化されないようにする。
【0015】
(請求項3の発明)
図3は、請求項3の発明を説明するための図で、この場合は、認識開始(t0)と同時に、時間カウンタがインクリメントされる。この時間カウンタが第1の継続時間閾値Tth1を越える(t1)と結果出力を行わない。時間カウンタを初期化するには、第2の音量閾値Vth2を下回る時間が継続時間閾値(第2の継続時間)Tth2を越える(t3)と初期化できる。このとき、第2の継続時間Tth2に到るか到らないかを計測する時間カウンタと、第の継続時間Tth1を計測する時間カウンタは別個のものである。
【0016】
(請求項4の発明)
図4は、請求項4の発明を説明するための図で、この場合は、図4のときのように、音量が低いレベルで継続するときに初期化するのとは異なり、周囲環境が騒しいときに使用する。第2の音量閾値Vthよりも高い第3の音量閾値Vthを設定し、VthとVthの間の音量がどれだけの時間経過(第3の継続時間閾値Tth)するかで時間カウンタの初期化をするか判定している。第2の継続時間閾値Tthに比べて第3の継続時間閾値Tthは、設定値が大きい。なぜなら、Vthは完全に音声でないと判定できる小さめの音量に対して、Vthは周囲環境の変化に対応できるように大きめの音量に設定しているためである。つまり、Vthは、周囲の騒音が大きくなっても、その騒音レベルよりも大きな音量レベルに設定しておかないと、図4の機能を果たさないからである。そうして、このVthとVthの間の音量レベルが長く続くときに初期化が行われる。また、図3,図4において、時間カウンタが初期化されたときは、認識開始と同じ状況になることを意味する。
【0017】
(請求項5の発明)
請求項5の発明は、請求項3の発明と請求項4の発明の両方を具備したもので、入力された音声の認識開始(t)からの継続時間が第1の継続時間閾値(Tth)を越えたときは、該第1の継続時間閾値を越えた時刻以降に照合結果の結果出力を行わず、第2の音量閾値(Vth)を越えない音量が第2の継続時間閾値(Tth)を越えるときに、継続時間を初期値に戻して照合結果の結果出力を行い(図3)、かつ、前記第2の音量閾値(Vth)と該第2の音量閾値より高い第3の音量閾値(Vth)の間の音量が第3の継続時間閾値(Vth)を越えるときに、継続時間を初期値に戻して照合結果の結果出力を行うものである。
【0018】
【発明の効果】
以上の説明から明らかなように、本発明によると、認識が開始されてから、ある時間のみ結果出力されるため、不要な言葉を話し続けても結果出力されず、誤認識をしているかのように発声者に思わせないことができる。また、不要な言葉の発声を止めれば、再度認識結果が出力されるので、発声者に不快な感情を与えない音声認識装置となる。
【図面の簡単な説明】
【図1】請求項1の発明を説明するための図である。
【図2】請求項2の発明を説明するための図である。
【図3】請求項3の発明を説明するための図である。
【図4】請求項4の発明を説明するための図である。
【図5】従来の音声認識法の一例を説明するための図である。
【図6】ワードスポッティング法の一例を説明するための図である。
【符号の説明】
1…音声区間検出部、2…照合部、3…結果出力部、11…照合部、12…判定部、13…結果出力部。

Claims (5)

  1. 入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、前記入力された音声の音量が第1の音量閾値を越えている継続時間を計測し、該継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該継続時間が前記第1の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第1の音量閾値を下回ったときに前記継続時間を初期値に戻すことを特徴とする音声認識装置。
  2. 入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、前記入力された音声の音量が第1の音量閾値を越えている継続時間を計測し、該継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該継続時間が前記第1の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第1の音量閾値より小さい第2の音量閾値を下回ったときに前記継続時間を初期値に戻すことを特徴とする音声認識装置。
  3. 入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第1の継続時間を計測し、該第1の継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該第1の継続時間が前記第1の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が第2の音量閾値を下回ったときの第2の継続時間が第2の継続時間閾値を越えたときに前記第1の継続時間を初期値に戻すことを特徴とする音声認識装置。
  4. 入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第1の継続時間を計測し、該第1の継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該第1の継続時間が前記第1の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が、第3の音量閾値と該第3の音量閾値より小さい第2の音量閾値との間における第3の継続時間が第3の継続時間閾値を越えたときに前記第1の継続時間を初期値に戻すことを特徴とする音声認識装置。
  5. 入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第1の継続時間を計測し、該第1の継続時間が第1の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、前記入力された音声の音量が第2の音量閾値を下回ったときの第2の継続時間が第2の継続時間閾値を越えたときに前記第1の継続時間を初期値に戻し、かつ、前記入力された音声の音量が、第3の音量閾値と該第3の音量閾値より小さい第2の音量閾値との間における第3の継続時間が第3の継続時間閾値を越えたときに前記第1の継続時間を初期値に戻すことを特徴とする音声認識装置。
JP20878396A 1996-07-19 1996-07-19 音声認識装置 Expired - Fee Related JP3624997B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20878396A JP3624997B2 (ja) 1996-07-19 1996-07-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20878396A JP3624997B2 (ja) 1996-07-19 1996-07-19 音声認識装置

Publications (2)

Publication Number Publication Date
JPH1039891A JPH1039891A (ja) 1998-02-13
JP3624997B2 true JP3624997B2 (ja) 2005-03-02

Family

ID=16562037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20878396A Expired - Fee Related JP3624997B2 (ja) 1996-07-19 1996-07-19 音声認識装置

Country Status (1)

Country Link
JP (1) JP3624997B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4554044B2 (ja) * 1999-07-28 2010-09-29 パナソニック株式会社 Av機器用音声認識装置

Also Published As

Publication number Publication date
JPH1039891A (ja) 1998-02-13

Similar Documents

Publication Publication Date Title
US11295748B2 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
US4829578A (en) Speech detection and recognition apparatus for use with background noise of varying levels
US6317711B1 (en) Speech segment detection and word recognition
JP4237713B2 (ja) 音声処理装置
US8731925B2 (en) Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
US20160077792A1 (en) Methods and apparatus for unsupervised wakeup
ES2286014T3 (es) Esquema de rechazo de reconocimiento de voz.
JP3069531B2 (ja) 音声認識方法
JPH09166995A (ja) 音声認識装置及び音声認識方法
Boite et al. A new approach towards keyword spotting.
JP3578587B2 (ja) 音声認識装置および音声認識方法
JP2007072331A (ja) 音声対話方法および音声対話システム
JP3624997B2 (ja) 音声認識装置
Kitayama et al. Speech starter: noise-robust endpoint detection by using filled pauses.
JPH11184491A (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
JP7096707B2 (ja) 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
JP2009025579A (ja) 音声認識装置および音声認識方法
JPH0635497A (ja) 音声入力装置
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JPH08263092A (ja) 応答音声生成方法および音声対話システム
Kuroiwa et al. Robust speech detection method for telephone speech recognition system
JP4391031B2 (ja) 音声認識装置
JP3360978B2 (ja) 音声認識装置
JP3919314B2 (ja) 話者認識装置及びその方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071210

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091210

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101210

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees