JP3624997B2

JP3624997B2 - 音声認識装置

Info

Publication number: JP3624997B2
Application number: JP20878396A
Authority: JP
Inventors: 勝黒田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-07-19
Filing date: 1996-07-19
Publication date: 2005-03-02
Anticipated expiration: 2016-07-19
Also published as: JPH1039891A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置、より詳細には、不要な言葉を話し続けても認識結果を出力しないようにし、発声者に誤認識をしているかのように思わせないようにした音声認識装置に関する。
【０００２】
【従来の技術】
従来の音声認識装置では、音声のパワー情報などを使用して、認識すべき音声区間の始端と終端を決定し、この音声区間情報に基づいて認識処理を行っていた。このとき音声区間の始端は、パワー情報によって容易に検出できるが、終端は、音声中の破裂性の子音の前の無音や促音の無音とを区別するために、無音区間が一定時間以上継続する場合に、音声入力の終了の判定を行っている（特開昭５９−１１９３９７号公報など）。
【０００３】
なお、音声区間の検出の不具合を改善する方法として、認識単語の継続長と類似度を基に、第２の照合部を設けて認識率の向上を行う方法（特開平５−１２７６９６号公報）、音声区間の終端検出のための一定時間以上の継続時間待ちを必要としない方法として、区間終了時の類似度と閾値を比較して終了を判定する方法（特開平６−４３８９５号公報）、周囲音響特性とマイク入力音響特性を比較して、同じなら結果出力しないようにする方法（特開平３−１６０４９９号公報）等がある。
【０００４】
【発明が解決しようとする課題】
前記特開昭５９−１１９３９７号公報によると、一定時間の持続により、音声入力の終了を判定する無音持続時間は、一般に、２５０〜３５０ｍｓ程度である。この方法によると、促音に対応させるため無音継続時間が必要となるため、音声入力が終了しても一定時間が経過するまで認識結果が出力できない。そのため、認識結果が発声終了してからなかなか得られず、応答の遅い認識システムとなってしまう。また、応答を速くするために、無音継続時間を短くすると、発声が終了する前に、促音で結果が出力されて、誤った認識結果が出力される欠点があった。
【０００５】
また、一般的に、ある発声をするときに、話者は、「え〜」や「あの〜」といった認識とは無関係な不要語を発声することがよくある。認識の対照となる音声に対して、照合させる辞書は、音声の始端から照合を始めるので、「え〜」や「あの〜」という発声が入ると著しく類似度が悪くなり、誤認識の原因となる。
【０００６】
上記各々の欠点を解消する方法として、ワードスポッティング法がある。このワードスポッティング法は、音声区間検出を必要としないので、応答の速いシステムにし易い。また、不要語に対しても、発声全体から不要語を取り除いて認識結果を出力するので、良好な認識結果を得ることができる。しかし、ワードスポッティング法にも以下のような問題がある。
【０００７】
図５は、従来の音声認識の一例を示す図、図６は，ワードスポッティング法の一例を示す図で、図５に示す従来の音声認識法においては、認識開始した後、音声区間検出部１において音声区間検出を行い、その後、照合部２において辞書との照合を行い、結果出力部３より最も類似度の高い辞書単語を結果出力する。このとき、発声者から見ると、認識開始した後、ある発声をしたら、結果が返ってくる。更に、認識を行おうとすると、もう一度認識開始を行う起動をかける必要がある。これに対して、図６に示すワードスポッティング法では、音声区間検出がないので逐時、照合部１１において辞書との照合を行う。次いで、照合部１２において、この照合結果がある閾値を越えたか否かの判定を行い、越えた場合に結果出力部１３より結果出力し、そうでない場合は、照合を継続する。この方法によると、結果出力は、発声者の意志に関係なく照合を続けるために、発声者が認識させようとする単語を発声していないときに、結果出力されることがある（わき出し）。例えば、認識装置に対して発声しているのではなく、隣の人と会話している状況などにこのようなことが起きる。
【０００８】
【課題を解決するための手段】
請求項１の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、前記入力された音声の音量が第１の音量閾値を越えている継続時間を計測し、該継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該継続時間が前記第１の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第１の音量閾値を下回ったときに前記継続時間を初期値に戻すことを特徴としたものである。
【０００９】
請求項２の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、前記入力された音声の音量が第１の音量閾値を越えている継続時間を計測し、該継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該継続時間が前記第１の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第１の音量閾値より小さい第２の音量閾値を下回ったときに前記継続時間を初期値に戻すことを特徴としたものである。
【００１０】
請求項３の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第１の継続時間を計測し、該第１の継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該第１の継続時間が前記第１の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第１の音量閾値より小さい第２の音量閾値を下回ったときの第２の継続時間が第２の継続時間閾値を越えたときに前記第１の継続時間を初期値に戻すことを特徴としたものである。
【００１１】
請求項４の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第１の継続時間を計測し、該第１の継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該第１の継続時間が前記第１の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が、第３の音量閾値と該第３の音量閾値より小さい第２の音量閾値との間における第３の継続時間が第３の継続時間閾値を越えたときに前記第１の継続時間を初期値に戻すことを特徴としたものである。
【００１２】
請求項５の発明は、入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第１の継続時間を計測し、該第１の継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、前記入力された音声の音量が第２の音量閾値を下回ったときの第２の継続時間が第２の継続時間閾値を越えたときに前記第１の継続時間を初期値に戻し、かつ、前記入力された音声の音量が、第３の音量閾値と該第３の音量閾値より小さい第２の音量閾値との間における第３の継続時間が第３の継続時間閾値を越えたときに前記第１の継続時間を初期値に戻すことを特徴としたものである。
【００１３】
【発明の実施の形態】
（請求項１の発明）
図１は、請求項１の発明を説明するための図で、全図を通して波形Ａは音声パターンで、音声認識を行う場合に、一般に、認識開始（ｔ_０）してから最初の１〜２秒以内に認識コマンドを発声する。これにより、後の音声は、認識コマンドとは無関係な会話のようなもので、不要語である。そこで、音量閾値（第１の音量閾値）Ｖｔｈ_１を音声であるかないかの判定レベルとして、このＶｔｈ_１が時間軸方向にどれだけ継続したかを監視する。音声と判定した時刻ｔ_１から継続時間閾値（第１の継続時間閾）Ｔｔｈ_１を経過する時刻ｔ_２までに、出力可能な照合結果が得られれば結果出力を行う。しかし、時刻ｔ_２以降であれば、出力可能な照合結果が得られても結果出力を行わない。時刻ｔ_２以降には、認識対象となる単語がないと仮定しているためである。結果出力を行えるようにするには、発声者が発声を止めて音量閾値Ｖｔｈ_１を下回る音量にすればよい。そうすると、音量閾値Ｖｔｈ_１を越えたときに、計測する時間カウンタが初期化され、その次に、音量閾値Ｖｔｈ_１を越えてＴｔｈ_１に到るまで結果出力可能となる。
【００１４】
（請求項２の発明）
図２は、請求項２の発明を説明するための図で、この場合は、音量が第２の音量閾値Ｖｔｈ_２に低下したとき（ｔ_３）に、時間カウンタを初期化する。この場合は、図１の場合と異なり、発声者が発声していると判定する音量をやや高めに設定し、発声していないと判定する音量をやや低めに設定している。こうすることで、時間カウンタが音量の頻繁な変化で初期化されないようにする。
【００１５】
（請求項３の発明）
図３は、請求項３の発明を説明するための図で、この場合は、認識開始（ｔ₀）と同時に、時間カウンタがインクリメントされる。この時間カウンタが第１の継続時間閾値Ｔｔｈ₁を越える（ｔ₁）と結果出力を行わない。時間カウンタを初期化するには、第２の音量閾値Ｖｔｈ₂を下回る時間が継続時間閾値（第２の継続時間）Ｔｔｈ₂を越える（ｔ₃）と初期化できる。このとき、第２の継続時間Ｔｔｈ₂に到るか到らないかを計測する時間カウンタと、第１の継続時間Ｔｔｈ₁を計測する時間カウンタは別個のものである。
【００１６】
（請求項４の発明）
図４は、請求項４の発明を説明するための図で、この場合は、図４のときのように、音量が低いレベルで継続するときに初期化するのとは異なり、周囲環境が騒しいときに使用する。第２の音量閾値Ｖｔｈ_２よりも高い第３の音量閾値Ｖｔｈ_３を設定し、Ｖｔｈ_２とＶｔｈ_３の間の音量がどれだけの時間経過（第３の継続時間閾値Ｔｔｈ_３）するかで時間カウンタの初期化をするか判定している。第２の継続時間閾値Ｔｔｈ_２に比べて第３の継続時間閾値Ｔｔｈ_３は、設定値が大きい。なぜなら、Ｖｔｈ_２は完全に音声でないと判定できる小さめの音量に対して、Ｖｔｈ_３は周囲環境の変化に対応できるように大きめの音量に設定しているためである。つまり、Ｖｔｈ_３は、周囲の騒音が大きくなっても、その騒音レベルよりも大きな音量レベルに設定しておかないと、図４の機能を果たさないからである。そうして、このＶｔｈ_２とＶｔｈ_３の間の音量レベルが長く続くときに初期化が行われる。また、図３，図４において、時間カウンタが初期化されたときは、認識開始と同じ状況になることを意味する。
【００１７】
（請求項５の発明）
請求項５の発明は、請求項３の発明と請求項４の発明の両方を具備したもので、入力された音声の認識開始（ｔ_０）からの継続時間が第１の継続時間閾値（Ｔｔｈ_１）を越えたときは、該第１の継続時間閾値を越えた時刻以降に照合結果の結果出力を行わず、第２の音量閾値（Ｖｔｈ_２）を越えない音量が第２の継続時間閾値（Ｔｔｈ_２）を越えるときに、継続時間を初期値に戻して照合結果の結果出力を行い（図３）、かつ、前記第２の音量閾値（Ｖｔｈ_２）と該第２の音量閾値より高い第３の音量閾値（Ｖｔｈ_３）の間の音量が第３の継続時間閾値（Ｖｔｈ_３）を越えるときに、継続時間を初期値に戻して照合結果の結果出力を行うものである。
【００１８】
【発明の効果】
以上の説明から明らかなように、本発明によると、認識が開始されてから、ある時間のみ結果出力されるため、不要な言葉を話し続けても結果出力されず、誤認識をしているかのように発声者に思わせないことができる。また、不要な言葉の発声を止めれば、再度認識結果が出力されるので、発声者に不快な感情を与えない音声認識装置となる。
【図面の簡単な説明】
【図１】請求項１の発明を説明するための図である。
【図２】請求項２の発明を説明するための図である。
【図３】請求項３の発明を説明するための図である。
【図４】請求項４の発明を説明するための図である。
【図５】従来の音声認識法の一例を説明するための図である。
【図６】ワードスポッティング法の一例を説明するための図である。
【符号の説明】
１…音声区間検出部、２…照合部、３…結果出力部、１１…照合部、１２…判定部、１３…結果出力部。

Claims

入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、前記入力された音声の音量が第１の音量閾値を越えている継続時間を計測し、該継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該継続時間が前記第１の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第１の音量閾値を下回ったときに前記継続時間を初期値に戻すことを特徴とする音声認識装置。
入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、前記入力された音声の音量が第１の音量閾値を越えている継続時間を計測し、該継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該継続時間が前記第１の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が前記第１の音量閾値より小さい第２の音量閾値を下回ったときに前記継続時間を初期値に戻すことを特徴とする音声認識装置。
入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第１の継続時間を計測し、該第１の継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該第１の継続時間が前記第１の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が第２の音量閾値を下回ったときの第２の継続時間が第２の継続時間閾値を越えたときに前記第１の継続時間を初期値に戻すことを特徴とする音声認識装置。
入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第１の継続時間を計測し、該第１の継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、該第１の継続時間が前記第１の継続時間閾値以内に前記照合部で出力可能な照合結果が得られれば該照合結果の出力を行い、前記入力された音声の音量が、第３の音量閾値と該第３の音量閾値より小さい第２の音量閾値との間における第３の継続時間が第３の継続時間閾値を越えたときに前記第１の継続時間を初期値に戻すことを特徴とする音声認識装置。
入力された音声から特徴量を抽出する特徴抽出部と、その特徴量と予め作成した標準辞書との照合を行う照合部と、その照合結果を出力する結果出力部とを有し、照合開始からの第１の継続時間を計測し、該第１の継続時間が第１の継続時間閾値以上であれば、前記照合部で出力可能な照合結果が得られても該照合結果の出力を行わず、前記入力された音声の音量が第２の音量閾値を下回ったときの第２の継続時間が第２の継続時間閾値を越えたときに前記第１の継続時間を初期値に戻し、かつ、前記入力された音声の音量が、第３の音量閾値と該第３の音量閾値より小さい第２の音量閾値との間における第３の継続時間が第３の継続時間閾値を越えたときに前記第１の継続時間を初期値に戻すことを特徴とする音声認識装置。