JP2013140226A - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP2013140226A
JP2013140226A JP2011290023A JP2011290023A JP2013140226A JP 2013140226 A JP2013140226 A JP 2013140226A JP 2011290023 A JP2011290023 A JP 2011290023A JP 2011290023 A JP2011290023 A JP 2011290023A JP 2013140226 A JP2013140226 A JP 2013140226A
Authority
JP
Japan
Prior art keywords
speaker
reply
detection
utterance
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011290023A
Other languages
English (en)
Other versions
JP5810912B2 (ja
Inventor
Nobuyuki Washio
信之 鷲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011290023A priority Critical patent/JP5810912B2/ja
Priority to US13/711,988 priority patent/US9031841B2/en
Publication of JP2013140226A publication Critical patent/JP2013140226A/ja
Application granted granted Critical
Publication of JP5810912B2 publication Critical patent/JP5810912B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】相手の発話に対する返事の検出精度を向上させること。
【解決手段】音声認識装置10は、第1の話者の音声から第1の話者の発話区間を検出するとともに、第2の話者の音声から第2の話者の発話区間を検出する。音声認識装置10は、第1の話者の発話区間における特徴量を算出する。音声認識装置10は、第1の話者の発話区間における特徴量を用いて単語検出を実行する。音声認識装置10は、検出した単語が返事である場合に、一の話者の発話区間を基準に定まる相対時間と、他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部に記憶された返事確率モデルが示す確率のうち第2の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、返事の単語スコアまたは返事の検出閾値を調整する。音声認識装置10は、調整された返事の単語スコアまたは返事の検出閾値を用いて、単語の再検出を実行する。
【選択図】図1

Description

本発明は、音声認識装置、音声認識方法及び音声認識プログラムに関する。
音声認識技術の一態様として、入力音声から辞書に登録された単語を検出するワードスポッティングが知られている。かかるワードスポッティングは、検索に用いられる単語を辞書に登録しておくことによって入力音声から当該単語が発声された箇所だけを抽出できるので、音声による情報検索にも利用できる。ところが、同一の単語を発声する音声であっても、発話や話者が変われば音声の波形は異なるので、テキストを対象として文字列を検索する場合とは違い、誤認識が生じる場合もある。
上記のワードスポッティングの他に、対話音声を対象とした音声認識技術も提案されている。一例としては、対話における話し言葉のように正確な特徴量を捉えがたい音声をより精度よく認識するために、発話区間の長さや発話区間の先頭または末尾からの時刻別に音響モデルおよび言語モデルを学習する音声認識方法が挙げられる。他の一例としては、データマイニングの精度を向上させるために、二者が会話する音声データを複数の対話状態に分割する対話状態分割装置が挙げられる。これを説明すると、対話状態分割装置は、対話音声データから各々の話者の発話区間を検出し、両者の発話区間の時間比を少なくとも2個の閾値と比較する。その上で、対話状態分割装置は、閾値比較によって一方の話者が用件を述べている状態や他方の話者が回答している状態などの状態別に対話を分割し、各状態について分析を行う。
国際公開第2008/069308号 特開2010−266522号公報
しかしながら、上記の従来技術では、以下に説明するように、相手の発話に対する返事を精度よく検出できないという問題がある。
すなわち、相手の発話に対する返事は、「はい」や「いいえ」などのように発生時間長が短く、返事以外の発話よりも入力となる情報量が少ない。このため、上記の音声認識方法や対話状態分割装置を用いたとしても、返事の検出精度にはおのずから限界がある。また、返事が検出されやすくなるように、入力音声から算出されるスコアと比較する検出閾値を下げることも考えられるが、その場合にはノイズや他の単語まで返事と認識してしまう結果、返事の検出精度が低下するという弊害が生じる。
さらに、上記の従来技術では、返事と同音の単語が返事とは異なる意味で使用された場合でも、当該単語を返事として検出してしまうおそれもある。すなわち、同じ「はい」という発声でも、相手の発話に対する返事として使用される場合と、「はい、そろそろですね」のように相手の発話内容とは関係なく、相手への注意喚起に使用される場合とがあるが、前者の返事を正確に検出することができない。
例えば、上記の音声認識方法は、話者が一人であることを前提とするものであり、音声認識の対象とする音声が対話音声であることは想定されておらず、前者および後者の判別を行うことはできない。また、上記の対話状態分割装置は、発話区間長から対話の状態を推定するものであるが、発話に含まれる単語が返事として使用されているか否かと発話区間長とは無関係であり、相手の発話に対する返事だけを検出することはできない。
開示の技術は、上記に鑑みてなされたものであって、相手の発話に対する返事の検出精度を向上させることができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
本願の開示する音声認識装置は、一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部を有する。さらに、音声認識装置は、第1の話者の音声から当該第1の話者の発話区間を検出する第1の発話区間検出部を有する。さらに、音声認識装置は、前記第1の話者とは異なる第2の話者の音声から当該第2の話者の発話区間を検出する第2の発話区間検出部を有する。さらに、音声認識装置は、前記第1の発話区間検出部によって検出された第1の話者の発話区間における特徴量を算出する特徴量算出部を有する。さらに、音声認識装置は、前記特徴量算出部によって算出された第1の話者の発話区間における特徴量を用いて単語検出を実行する第1の検出部を有する。さらに、音声認識装置は、前記第1の検出部によって検出された単語が返事である場合に、前記返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第2の発話区間検出部によって検出された第2の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整する調整部を有する。さらに、音声認識装置は、前記調整部によって調整された返事の単語スコアまたは返事の検出閾値を用いて、前記第1の検出部によって検出された単語の再検出を実行する第2の検出部を有する。
本願の開示する音声認識装置の一つの態様によれば、対話音声に含まれる返事の検出精度を向上させることができるという効果を奏する。
図1は、実施例1に係る音声認識装置の機能的構成を示すブロック図である。 図2は、発話区間の検出方法を説明するための図である。 図3は、返事確率モデルの一例を示す図である。 図4は、話者Bの発話と話者Aの返事との相対位置の一例を示す図である。 図5は、話者Bの発話と話者Aの返事との相対位置の一例を示す図である。 図6は、実施例1に係る発話区間検出処理の手順を示すフローチャートである。 図7は、実施例1に係る音声認識処理の手順を示すフローチャートである。 図8は、実施例1の効果を説明するための図である。 図9は、実施例1の効果を説明するための図である。 図10は、実施例2に係るモデル生成装置の機能的構成を示すブロック図である。 図11は、ラベリング結果A及びラベリング結果Bの一例を示す図である。 図12は、話者Aの発話区間の相対位置を算出する方法の一例を示す図である。 図13は、集計結果の一例を示す図である。 図14は、実施例2に係るモデル生成処理の手順を示すフローチャートである。 図15は、実施例3に係る音声認識プログラムを実行するコンピュータの一例について説明するための図である。
以下に、本願の開示する音声認識装置、音声認識方法及び音声認識プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
[音声認識装置]
図1は、実施例1に係る音声認識装置の機能的構成を示すブロック図である。図1に示す音声認識装置10は、話者Aおよび話者Bが対話する音声のうち話者Aが発話する音声から話者Bの発話に対する話者Aの返事を検出するものである。なお、以下では、話者Bに対する話者Aの返事を単に「返事」と記載する場合がある。
図1に示すように、音声認識装置10は、音声入力部11と、第1の発話区間検出部12aと、第2の発話区間検出部12bと、特徴量算出部13と、音響モデル記憶部14と、単語辞書記憶部15と、返事確率記憶部16とを有する。さらに、音声認識装置10は、第1の検出部17と、調整部18と、第2の検出部19とを有する。なお、音声認識装置10は、図1に示した機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや通信インタフェースなどの機能を有することとしてもよい。
音声入力部11は、第1の発話区間検出部12a及び第2の発話区間検出部12bに音声データを入力する処理部である。一態様としては、音声入力部11は、話者Aおよび話者Bの音声データを所定のシフト幅、例えば24msecずつシフトさせつつ、音声データを所定の分割幅、例えば32msecずつ分割することによって音声データをフレーム化する。その上で、音声入力部11は、話者Aの音声フレームを第1の発話区間検出部12aへ入力するとともに、話者Bの音声フレームを第2の発話区間検出部12bへ入力する。
ここで、上記の音声データには、任意の入手経路から取得されたものを使用することができる。例えば、音声認識装置10が携帯電話機やPHS(Personal Handyphone System)などの通信装置に実装される場合には、一例として、次のような入手経路から話者A及び話者Bの音声データを取得することができる。すなわち、音声入力部11は、通信装置のマイクから採取された音声データを話者Aの音声データとして用い、当該通信装置の受話音声を話者Bの音声データとして用いることができる。この場合には、話者Bの発話に対する話者Aの返事を検出することによって、例えば話者Bが話者Aに振り込め詐欺を行っているおそれがあるか否かを判別できる。
また、音声認識装置10がパーソナルコンピュータなどの情報処理装置に実装される場合には、一例として、次のような入手経路から話者A及び話者Bの音声データを取得することができる。すなわち、音声入力部11は、情報処理装置が内蔵するマイクまたは情報処理装置に接続されたマイクから採取される音声データを話者Aの音声データとして用いることができる。さらに、音声入力部11は、情報処理装置にインストールされたOS(Operating System)やアプリケーションによってガイド音声として出力される音声データを話者Bの音声データとして用いることができる。この場合には、話者Bの発話に対する話者Aの返事を検出することによって、例えばシステムまたはアプリがガイダンスする処理に対応するコマンドの実行可否を検知することができる。
この他、上記の音声データは、予め録音した音声データをハードディスク、メモリカードやUSB(Universal Serial Bus)メモリなどの外部記憶装置等から読み出して取得したものであってもよいし、ネットワークを介して取得したものであってもよい。
第1の発話区間検出部12aは、音声入力部11によって入力される話者Aの音声フレームから話者Aが発話している区間、いわゆる発話区間を検出する処理部である。一態様としては、第1の発話区間検出部12aは、各音声フレームにおける入力パワーPを用いて、背景雑音パワーPnを遂次推定しながら、背景雑音パワーPn及び所定の閾値αの加算値よりも大きい入力パワー区間を発話区間として検出する。
これを説明すると、第1の発話区間検出部12aは、音声入力部11から入力された音声フレームが最初のフレームである場合には、入力パワーPの値を背景雑音パワーPnに設定する初期化を実行する。また、第1の発話区間検出部12aは、音声入力部11から入力された音声フレームが最初のフレームでない場合には、発話区間の開始を検出済みであるか否かを判定する。このとき、第1の発話区間検出部12aは、発話区間の開始を未検出である場合には、当該音声フレームの入力パワーPが背景雑音パワーPnに閾値αを加えた加算値を超えたか否か、すなわちP>Pn+αであるか否かをさらに判定する。
ここで、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値を超えた場合には、話者Aが発話していると推定できる。よって、第1の発話区間検出部12aは、当該加算値を超えた時間を発話区間の開始位置として図示しない内部メモリに格納する。一方、第1の発話区間検出部12aは、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値未満である場合には、図示しない内部メモリに記憶された背景雑音パワーPnを入力パワーPに更新する。このように、話者Aが発話していないと推定できる場合には、背景雑音パワーPnを更新することによって雑音の変化に追従させる。
また、第1の発話区間検出部12aは、発話区間の開始を検出済みである場合には、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値よりも小さくなったか否か、すなわちP<Pn+αであるか否かを判定する。
このとき、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値よりも小さくなった場合には、話者Aの発話が終了したと推定できる。よって、第1の発話区間検出部12aは、当該加算値を下回った時間を発話区間の終了位置とし、内部メモリに記憶された開始位置から終了位置までの区間を話者Aの発話区間として出力する。その後、第1の発話区間検出部12aは、図示しない内部メモリに記憶された背景雑音パワーPnを入力パワーPに更新する。
一方、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値以上である場合には、話者Aの発話が継続していると推定できる。この場合には、第1の発話区間検出部12aは、発話区間の終了位置の確定を保留する。
図2は、発話区間の検出方法を説明するための図である。図2に示すグラフの横軸は、時間を指し、また、縦軸は音声のパワーを指す。また、図2の例では、符号Pが入力パワーを指し、符号Pnが背景雑音パワーを指す。図2の例では、時間t1になるまで入力パワーPが背景雑音パワーPn+閾値αを超えないので、入力パワーPを背景雑音パワーPnとする更新が繰り返される。そして、時間t1に至った時点で入力パワーPが背景雑音パワーPn+閾値αを超える。このため、第1の発話区間検出部12aによって時間t1が発話区間の開始位置として内部メモリに格納される。その後、時間t2になるまで入力パワーPが背景雑音パワーPn+閾値α以上であるので、発話区間の終了位置の確定が保留される。そして、時間t2に至った時点で入力パワーPが背景雑音パワーPn+閾値αを下回る。このため、時間t2が発話区間の終了位置として確定され、時間t1から時間t2までの区間が発話区間として後述の特徴量算出部13へ出力される。
なお、上記の発話区間の検出手法は、あくまで一例であり、例えば、特開平7−92989や国際公開第2009/078093号に記載の技術のように、発生区間検出精度を向上するように改良した手法を利用することとしてもかまわない。
第2の発話区間検出部12bは、音声入力部11によって入力される話者Bの音声フレームから話者Bの発話区間を検出する処理部である。かかる第2の発話区間検出部12bは、上述した第1の発話区間検出部12aと同様の処理を行った上で話者Bの発話区間を後述の調整部18へ出力する。
特徴量算出部13は、第1の発話区間検出部12aによって検出された話者Aの音声データにおける特徴量を算出する処理部である。一態様としては、特徴量算出部13は、話者Aの音声データを音響分析することによって音声フレームごとのMFCC、LPCケプストラム、パワー及びこれらの動的特徴量であるΔやΔΔ値を組み合わせたベクトルを特徴量として算出する。なお、上記のMFCCは「Mel Frequency Cepstrum Coefficient」の略称であり、また、上記のLPCは「Linear Predictive Coding」の略称である。
音響モデル記憶部14は、音響モデルを記憶する記憶部である。かかる音響モデルの一態様としては、音素に当該音素の特徴量が対応付けられたデータを採用できる。ここでは、音素単位で特徴量を記憶する場合を例示したが、音素を組み合わせた単語ごとに当該単語の特徴量を対応付けて記憶することもできる。なお、音響モデル記憶部14は、特徴量算出部13によって算出された話者Aの発話区間における特徴量と照合するために、後述の第1の検出部17によって参照される。
単語辞書記憶部15は、単語辞書を記憶する記憶部である。かかる単語辞書の一態様としては、単語ごとに当該単語が「返事」であるか否かを示す返事フラグが対応付けられたデータを採用できる。なお、単語辞書記憶部15は、話者Aの発話区間における特徴量と音響モデルとの照合結果として得られた音素の組合せに対応する単語を検索するために、後述の第1の検出部17によって算出される。
返事確率記憶部16は、返事確率モデルを記憶する記憶部である。かかる返事確率モデルの一態様としては、話者bの発話区間を基準に定まる相対時間と、話者aの発話に返事が出現する出現確率との関係を示す確率モデルが挙げられる。一例として、返事確率記憶部16は、第2の検出部19によって単語検出に用いられる検出閾値を調整するために、後述の調整部18によって参照される。なお、上記の確率モデルは、多数のサンプルから算出される統計データであり、話者a及び話者bは必ずしも話者A及び話者Bと同一人物である必要はない。
図3は、返事確率モデルの一例を示す図である。図3に示すグラフの縦軸は、返事「はい」の出現確率を指し、また、横軸は、話者bの発話区間の終了位置を原点とする相対時間(msec)を指す。図3の例では、相対時間が所定の単位、例えば50msecで分割された区間ごとに出現確率が格納されている場合を示す。図3に示す返事確率モデルは、話者bが発話を終える100msec前の時点から50msec前の時点までの期間が話者aの発話に返事が出現する確率が20%と最も高いことを表す。かかる期間をピークにして、話者bが発話を終える100msec前の時点よりも遡る場合の方が、話者bが発話を終える50msec前の時点から進む場合よりも話者aの返事の出現確率が急激に低下することがわかる。
かかる話者aの返事の出現確率は、相対時間の各区間Tに対応する実際の音声データが返事「はい」を発話しているか否かを集計した上で、その集計結果を下記の式(1)に代入することによって算出できる。なお、下記の式(1)における「P(T)」は、相対時間の区間Tにおける返事「はい」の出現確率を指す。また、「Y(T)」は、相対時間の区間Tで返事「はい」と発話していたサンプル数を指す。また、「N(T)」は、相対時間の区間Tで返事「はい」と発話していなかったサンプル数を指す。
P(T)=Y(T)/(Y(T)+N(T))×100[%]・・・(1)
第1の検出部17は、話者Aの発話区間における特徴量を用いて単語検出を行う処理部である。一態様としては、第1の検出部17は、特徴量算出部13によって算出された話者Aの発話区間の特徴量と、音響モデル記憶部14に記憶された音響モデルとを照合する。そして、第1の検出部17は、単語辞書記憶部15に記憶された単語辞書から、照合結果として得られた音素の組合せに対応する単語を検索する。その上で、第1の検出部17は、単語辞書から検索した単語のスコアを算出した上でそのスコアが検出閾値以上であるか否かを判定する。このとき、第1の検出部17は、単語辞書内に返事として登録されている単語のスコアについては、返事以外の一般単語のスコアとの比較に用いる一般単語用の検出閾値TH0よりも低い返事用の検出閾値TH1を用いて、単語の検出を実行する。そして、第1の検出部17は、単語のスコアが検出閾値TH0または検出閾値TH1以上である場合に、当該単語が検出された検出区間及びそのスコアを検出結果として後述の第2の検出部19へ出力する。このとき、第1の検出部17は、返事である単語を検出した場合には、当該返事が検出された検出区間を後述の調整部18にも出力する。
このように、一般単語用の検出閾値TH0よりも返事用の検出閾値TH1を低くすることによって話者Aの音声データに含まれる発話のうち返事である可能性を残す単語を漏らさず検出できる。かかる第1の検出部17による検出結果には、後述の第2の検出部19によって再検出が実行されるので、誤検出の単語、例えば雑音や返事とは異なる意味で使用された同音の単語などが含まれていてもかまわない。
ここで、上記の単語のスコアは、例えば、0〜100の範囲で算出され、100に近いほど特徴量と音響モデルがよくマッチングしていることを示すものとする。例えば、「はい」の場合、音素「h」、音素「a」及び音素「i」の音響モデルと話者Aの発話区間における特徴量との照合が行われ、マッチングの度合いが高い、すなわち音響モデルと入力特徴量が近い場合、スコアが100に近づくように算出される。この場合、検出閾値以上であるスコアの単語しか検出されないので、検出閾値が100に近づくほど単語が検出されにくくなる。逆に、検出閾値を低くするほど単語が検出され易くなる。
なお、単語のスコアとして、確率モデルである音響モデルの出力確率、例えば尤度や対数尤度をベースにしたり、テンプレートである音響モデルとの距離を用いたりする構成も可能である。ただし、距離の場合には、ゼロに近いほど特徴量と音響モデルがよくマッチングしていることを示し、値が大きくなるほど違いが大きいことを示すので、上記の例とは、閾値の大小関係と検出し易さの関係が逆転する。
調整部18は、後述の第2の検出部19によって用いられる再検出閾値THwを調整する処理部である。一態様としては、調整部18は、第1の検出部17によって返事である単語が検出された場合に、当該返事の検出区間の開始位置よりも前に存在する話者Bの発話区間であって返事の検出区間に最も近い話者Bの発話区間を特定する。そして、調整部18は、先に特定した話者Bの発話区間の終了位置を原点とした場合の話者Aの返事の相対位置を算出する。その上で、調整部18は、返事確率記憶部16に記憶された返事確率モデル内の出現確率のうち話者Aの返事の相対位置に該当する相対時間の区間に対応付けられた出現確率の平均値を話者Aの返事の出現確率として算出する。その後、調整部18は、話者Aの返事の出現確率に応じて後述第2の検出部19によって用いられる再検出閾値THwを調整する。
図4及び図5は、話者Bの発話と話者Aの返事との相対位置の一例を示す図である。図4の例では、話者Aの返事「はい」の区間は、先行する話者Bの発話区間の終了位置から110msec後に始まって210msec後に終了する。このため、調整部18は、110msec〜210msecまでの区間を話者Aの返事の相対位置として算出する。また、図5の例では、話者Bの発話区間の終了位置と、話者Aの返事「はい」の区間とが重複する。この場合には、話者Aの返事「はい」の相対位置は、話者Bの発話区間の終了位置から70msec遡った時点に始まって話者Bの発話区間の終了位置から30msec経過した時点に終了する。よって、調整部18は、−70msec〜30msecまでの区間を話者Aの返事の相対位置として算出する。
図4に示すように、話者Aの返事の相対位置が110msec〜210msecである場合には、図3の例では出現確率が50msec単位で記憶されているので、調整部18は、150msec及び200msecにおける出現確率を読み出す。そして、調整部18は、相対時間150msecにおける出現確率15%と、相対時間200msecにおける出現確率13%とを平均することによって話者Aの返事の出現確率Paを14%と算出する。なお、ここでは、話者Aの返事の相対位置に該当する相対時間の区間に対応付けられた出現確率を平均する場合を例示したが、返事の出現確率の算出方法はこれに限定されない。例えば、話者Aの返事の相対位置に該当する相対時間の区間に対応付けられた出現確率のうち最大値または最小値を返事の出現確率Paとして採用することとしてもよい。
その後、調整部18は、先のようにして算出した返事の出現確率Paが高いほど再検出閾値THwの値が小さくなるように調整し、また、返事の出現確率Paが低いほど再検出閾値THwの値を大きくなるように調整する。一例としては、調整部18は、返事の出現確率Paが最大値を採る場合には、第1の検出部17によって用いられる検出閾値TH1と同じ値まで再検出閾値THwを下げる。一方、調整部18は、返事の出現確率Paが所定の基準値A以下である場合には、再検出閾値THwを所定の値TH2まで上げる。このとき、調整部18は、返事の出現確率Paが最大値よりも小さい値か、あるいは基準値Aよりも大きい値を採る場合には、返事の出現確率Paと再検出閾値THwとを線形にマッピングする。これによって、調整部18は、再検出閾値THwを調整範囲内、すなわちTH1≦THw≦TH2に調整する。
例えば、図3に示したように、最大の出現確率Pmaxが20%であるとし、TH1を70、TH2を80としたとき、調整部18は、返事の出現確率Paが14%であるならば、各々の値を下記の式(2)に代入することによって再検出閾値THwを73と算出する。この場合には、話者Aの返事のスコアが73以上である場合に、後述の第2の検出部19によって返事が再検出されることになる。
THw=TH2−P/Pmax*(TH1−TH2)・・・(2)
第2の検出部19は、調整部18によって調整された再検出閾値THwを用いて、第1の検出部17によって検出された返事を再検出する処理部である。一態様としては、第2の検出部19は、第1の検出部17から受け付けた返事のスコアが調整部18によって調整された再検出閾値THw以上であるか否かを判定する。このとき、第2の検出部19は、返事のスコアが再検出閾値THw以上である場合には、当該返事の検出区間およびそのスコアを再検出結果として出力する。一方、返事のスコアが再検出閾値THw未満である場合には、第1の検出部17によって返事として検出されていた単語であって、当該単語が返事である可能性は低いと推定できる。よって、この場合には、再検出結果を出力しない。
なお、第1の発話区間検出部12a、第2の発話区間検出部12b、特徴量算出部13、第1の検出部17、調整部18及び第2の検出部19には、各種の集積回路や電子回路を採用できる。例えば、集積回路としては、ASIC(Application Specific Integrated Circuit)が挙げられる。また、電子回路としては、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などが挙げられる。
また、音響記憶部14、単語辞書記憶部15及び返事確率記憶部16には、半導体メモリ素子や記憶装置を採用できる。例えば、半導体メモリ素子としては、VRAM(Video Random Access Memory)、RAM(Random Access Memory)やフラッシュメモリ(flash memory)などが挙げられる。また、記憶装置としては、ハードディスク、光ディスクなどの記憶装置が挙げられる。
[処理の流れ]
続いて、本実施例に係る音声認識装置の処理の流れについて説明する。なお、ここでは、音声認識装置10によって実行される(1)発話区間検出処理を説明した後に、(2)音声認識処理を説明することとする。
(1)発話区間検出処理
図6は、実施例1に係る発話区間検出処理の手順を示すフローチャートである。この発話区間検出処理は、話者Aの音声フレームが第1の発話区間検出部12aへ入力された場合または話者Bの音声フレームが第2の発話区間検出部12bへ入力された場合に処理が起動される。なお、第1の発話区間検出部12a及び第2の発話区間検出部12bのいずれにおいても同様の処理が実行されるので、第1の発話区間検出部12aによって発話区間検出処理が実行される場合を例示する。
図6に示すように、音声入力部11から入力された音声フレームが最初のフレームである場合(ステップS101肯定)には、第1の発話区間検出部12aは、入力パワーPの値を背景雑音パワーPnに設定する初期化を行い(ステップS102)、処理を終了する。
また、音声入力部11から入力された音声フレームが最初のフレームでない場合(ステップS101否定)には、第1の発話区間検出部12aは、発話区間の開始を検出済みであるか否かを判定する(ステップS103)。
このとき、発話区間の開始を未検出である場合(ステップS103否定)には、第1の発話区間検出部12aは、次のような判定をさらに実行する。すなわち、第1の発話区間検出部12aは、当該音声フレームの入力パワーPが背景雑音パワーPnに閾値αを加えた加算値を超えたか否か、すなわちP>Pn+αであるか否かを判定する(ステップS104)。
ここで、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値を超えた場合(ステップS104肯定)には、話者Aが発話していると推定できる。よって、第1の発話区間検出部12aは、当該加算値を超えた時間を発話区間の開始位置として図示しない内部メモリに格納し(ステップS105)、処理を終了する。
一方、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値未満である場合(ステップS104否定)には、第1の発話区間検出部12aは、次のような処理を実行する。すなわち、第1の発話区間検出部12aは、図示しない内部メモリに記憶された背景雑音パワーPnを入力パワーPに更新し(ステップS108)、処理を終了する。
また、発話区間の開始を検出済みである場合(ステップS103肯定)には、第1の発話区間検出部12aは、次のような判定をさらに実行する。すなわち、第1の発話区間検出部12aは、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値よりも小さくなったか否か、すなわちP<Pn+αであるか否かを判定する(ステップS106)。
このとき、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値よりも小さくなった場合(ステップS106肯定)には、話者Aの発話が終了したと推定できる。よって、第1の発話区間検出部12aは、当該加算値を下回った時間を発話区間の終了位置とし、内部メモリに記憶された開始位置から終了位置までの区間を話者Aの発話区間として出力する(ステップS107)。その後、第1の発話区間検出部12aは、図示しない内部メモリに記憶された背景雑音パワーPnを入力パワーPに更新し(ステップS108)、処理を終了する。
一方、音声フレームの入力パワーPが背景雑音パワーPn及び閾値αの加算値以上である場合(ステップS106否定)には、話者Aの発話が継続していると推定できる。この場合には、第1の発話区間検出部12aは、発話区間の終了位置の確定を保留し、処理を終了する。
(2)音声認識処理
図7は、実施例1に係る音声認識処理の手順を示すフローチャートである。この処理は、第1の発話区間検出部12aによって話者Aの発話区間が検出された場合に、処理が起動される。
図7に示すように、まず、特徴量算出部13は、第1の発話区間検出部12aによって検出された話者Aの音声データにおける特徴量を算出する(ステップS201)。続いて、第1の検出部17は、一般単語用の検出閾値TH0及び返事単語用の検出閾値TH1を用いて、単語検出を実行する(ステップS202)。
このとき、第1の検出部17によって検出された単語が返事でない場合(ステップS203否定)には、第2の検出部19は、単語が検出された検出区間およびそのスコアを検出結果として出力し(ステップS208)、処理を終了する。
一方、第1の検出部17によって検出された単語が返事である場合(ステップS203肯定)には、調整部18は、次のような処理を実行する。すなわち、調整部18は、当該返事の検出区間をもとに、直前に開始された話者Bの発話区間の終了位置を原点とした場合の話者Aの返事の相対位置を算出する(ステップS204)。
続いて、調整部18は、返事確率記憶部16に記憶された返事確率モデル内の出現確率のうち話者Aの返事の相対位置に該当する相対時間の区間に対応付けられた出現確率の平均値を話者Aの返事の出現確率として算出する(ステップS205)。そして、調整部18は、話者Aの返事の出現確率に応じて第2の検出部19によって用いられる再検出閾値THwを調整する(ステップS206)。
その後、第2の検出部19は、第1の検出部17から受け付けた返事のスコアが調整部18によって調整された再検出閾値THw以上であるか否かを判定する(ステップS207)。
このとき、返事のスコアが再検出閾値THw以上である場合(ステップS207肯定)には、第2の検出部19は、当該返事の検出区間およびそのスコアを再検出結果として出力し(ステップS208)、処理を終了する。
一方、返事のスコアが再検出閾値THw未満である場合(ステップS207否定)には、第1の検出部17によって返事として検出されていた単語であって、当該単語が返事である可能性は低いと推定できる。よって、この場合には、再検出結果を出力せずに、そのまま処理を終了する。
[実施例1の効果]
上述してきたように、本実施例に係る音声認識装置10は、話者Aの音声から話者Aの発話区間を検出するとともに、話者Bの音声から話者Bの発話区間を検出する。さらに、本実施例に係る音声認識装置10は、話者Aの発話区間における特徴量を算出する。さらに、本実施例に係る音声認識装置10は、話者Aの発話区間における特徴量を用いて単語検出を行う。さらに、本実施例に係る音声認識装置10は、検出された単語が返事である場合に、返事確率モデルが示す確率のうち話者Bの発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の検出閾値を調整する。さらに、本実施例に係る音声認識装置10は、調整後の返事の検出閾値を用いて、単語の再検出を実行する。
このため、本実施例に係る音声認識装置10では、話者Bの発話区間に対する話者Aの返事の相対位置が返事の出現確率の高い位置または低い位置にあるかによって話者Aの返事を検出する場合の単語の検出閾値を調整できる。それゆえ、本実施例に係る音声認識装置10では、返事が発声されやすい場合に限って返事が検出され易く検出閾値を調整できる。さらに、本実施例に係る音声認識装置10では、話者Bの特徴量の算出および単語検出を行わずともよい。よって、本実施例に係る音声認識装置10によれば、音声認識の処理負荷を軽減しつつ、相手の発話に対する返事の検出精度を向上させることができる。
また、本実施例に係る音声認識装置10は、返事の出現確率Paが高くなるにしたがって返事の再検出閾値THwが低くなるように調整する。このため、本実施例に係る音声認識装置10では、返事が発声される可能性が高い場合に返事の再検出閾値THwを下げることができる。それゆえ、本実施例に係る音声認識装置10では、返事が他の発話よりも入力となる情報量が少なくとも、少ない情報を効果的に利用できるので、返事の検出精度を効果的に向上させることができる。
さらに、本実施例に係る音声認識装置10は、返事の出現確率Paが最大値を採る場合に、単語検出に用いられた検出閾値TH1と同じ値に返事の再検出閾値THwを調整する。このため、本実施例に係る音声認識装置10では、返事が発声される可能性が高い場合に返事の再検出閾値THwを最大限低くできる。それゆえ、本実施例に係る音声認識装置10では、返事が他の発話よりも入力となる情報量が少なくとも、少ない情報を最大限利用できるので、返事の検出精度をより効果的に向上させることができる。
また、本実施例に係る音声認識装置10は、返事の出現確率Paが低くなるにしたがって返事の再検出閾値THwが高くなるように調整する。このため、本実施例に係る音声認識装置10では、返事が発声される可能性が低い場合に返事の再検出閾値THwを上げることができる。それゆえ、本実施例に係る音声認識装置10では、雑音や返事とは異なる意味で使用された同音の単語などが返事として誤検出される事態を防止できる。
図8及び図9は、実施例1の効果を説明するための図である。これら図8及び図9では、実際の音声データで従来方式の音声認識装置と比較した結果を示す。なお、図8及び図9では、単語辞書には検出単語として返事「はい」のみが登録されており、「はい」の確率は図3に示したものであるものとする。
図8に示す例は、従来方式で基準となる検出閾値80から、「はい」を検出し易いように、78、77と下げた場合と、開示の装置によるTH1=75、TH2=80(検出閾値75〜80)、開示の装置によるTH1=75、TH2=80(検出閾値75〜80)の比較である。すなわち、開示の装置では、「はい」が出現し易い場合に検出し易くしている。従来方式では、正解数を540台にまで上げようとすると誤検出数が9となり適合率が悪化する。また、誤検出数6、8となる場合を従来方式と開示の装置とで比較すると、正解数は開示の装置の方が多い。
図9に示す例は、従来方式で基準となる検出閾値80から、「はい」の誤検出を減らすように、81に上げた場合と、開示の装置によるTH1=75、TH2=81(検出閾値75〜81)の比較である。すなわち、開示の装置では、「はい」が出現し易い場合に検出し易くしているだけでなく、「はい」が出現しにくい位置では閾値を厳しく(検出しにくく)している。実験の結果から、開示の装置では従来方式と異なり、正解数を減らすことなく誤検出数5を達成しており、その効果が確認できる。
このように、返事「はい」が出現しにくい位置では閾値を厳しくすることにより、相手の発話に対する返事ではないもの、例えば「はい、そろそろ時間ですね」というような場合の「はい」は、相手の発話から離れて確率値が低くなりやすいので、検出されにくくなる効果が期待できる。以上の実験結果から、開示の装置の効果が確認できる。
[モデル生成装置の構成]
さて、本実施例では、上記の実施例1で用いた返事確率モデルを生成するモデル生成装置について説明する。図10は、実施例2に係るモデル生成装置の機能的構成を示すブロック図である。図10に示すモデル生成装置30は、図1に示した音声認識装置10に比べて、音声入力部31と、検出部32と、モデル生成部33とを有する。なお、図10では、図1に示した音声認識装置10と同様の機能を発揮する機能部については同一の符号を付し、その説明を省略することとする。
音声入力部31は、第1の発話区間検出部12a及び第2の発話区間検出部12bに音声データを入力する処理部である。かかる音声入力部31は、図1に示した音声入力部11とは異なり、クリーン環境で採取された音声データを第1の発話区間検出部12a及び第2の発話区間検出部12bへ入力する点が異なる。ここで言う「クリーン環境」の一態様としては、屋外よりも雑音が混入しにくい屋内が挙げられる。さらには、単に屋内であるだけでなく防音設備が整った部屋であればより好ましい。なお、誤検出の割合をより抑制する観点から、音声入力部31によって第1の発話区間検出部12a及び第2の発話区間検出部12bへ入力される音声データのデータ量は多ければ多いほど好ましい。
検出部32は、特徴量算出部13によって算出された話者Aの発話区間における特徴量を用いて単語検出を行う処理部である。一態様としては、検出部32は、話者Aの発話区間の特徴量に対して返事「はい」の音声認識処理を行う。かかる音声認識処理には、図1に示した第1の検出部17と同様に、公知の音声認識技術を任意に適用できる。
なお、以下では、検出部32による返事「はい」の検出結果をラベリング結果Aと呼び、第2の発話区間検出部12bによる発話区間の検出結果をラベリング結果Bと呼ぶ場合がある。図11は、ラベリング結果A及びラベリング結果Bの一例を示す図である。図11に示すように、ラベリング結果Aには、返事「はい」が検出された場合にその検出区間の情報が付加されている。一方、ラベリング結果Bには、発話区間情報のみが付与されている。
モデル生成部33は、ラベリング結果A及びラベリング結果Bを用いて、返事確率モデルを生成する処理部である。一態様としては、モデル生成部33は、ラベリング結果A及びラベリング結果Bから、話者Aの発話区間ごとに、直前の話者Bの発話区間との相対位置に変換し、相対位置ごとに返事「有」または返事「無」の頻度情報を数え上げる。このとき、モデル生成部33は、相対時間が所定の単位、例えば50msecで分割された区間ごとに返事および非返事の頻度情報を集計する。
図12は、話者Aの発話区間の相対位置を算出する方法の一例を示す図である。図12に示すように、モデル生成部33は、話者Bの発話区間P1の終了位置である31770msecを原点とした場合の話者Aの発話区間P2の相対位置を算出する。この例では、モデル生成部33は、話者Aの発話区間P2の開始位置31995msecから話者Bの発話区間P1の終了位置である31770msecを減算するとともに、話者Aの発話区間P2の終了位置32790msecから話者Bの発話区間P1の終了位置である31770msecを減算する。これによって、話者Aの発話区間P2の相対位置が225msec〜1020msecと算出される。このとき、相対時間が50msecの区間ごとに集計されるとした場合には、モデル生成部33は、250msec〜300msec、300msec〜350msec、・・・、950msec〜1000msecの区間の返事の頻度をカウントアップする。なお、ラベリング結果Aが返事ではない場合には、非返事の頻度がカウントアップされる。
図13は、集計結果の一例を示す図である。全てのラベリング結果の集計が終了した場合には、図13に示すように、相対位置の区間別の返事「はい」の頻度情報41と、相対位置の区間別の返事「はい」ではない頻度情報42とが個別に集計される。このため、相対位置の区間Tにおける「はい」の確率をP(T)、相対位置の区間Tにおいて「はい」と発声していたサンプル数をY(T)、相対位置の区間Tにおいて「はい」と発声していいなかったサンプル数をN(T)とするとき、下記の式(3)を用いて、区間Tにおける返事の出現確率を算出できる。
P(T)=Y(T)/(Y(T)+N(T))×100[%]・・・(3)
[処理の流れ]
図14は、実施例2に係るモデル生成処理の手順を示すフローチャートである。この処理は、図示しないユーザインタフェースや外部装置を介して返事確率モデルの生成要求を受け付けた場合に処理が起動する。
図14に示すように、まず、モデル生成部33は、ラベリング結果A及びラベリング結果Bを取得する(ステップS301)。続いて、モデル生成部33は、話者Bの発話区間の終了位置を原点とした場合の話者Aの発話区間の相対位置を算出する(ステップS302)。
そして、ラベリング結果Aが返事である場合(ステップS303肯定)には、モデル生成部33は、話者Aの発話区間の相対位置が該当する相対時間の区間ごとに返事の頻度をカウントアップする(ステップS304)。
一方、ラベリング結果Aが返事でない場合(ステップS303否定)には、モデル生成部33は、話者Aの発話区間の相対位置が該当する相対時間の区間ごとに非返事の頻度をカウントアップする(ステップS305)。その後、全てのラベリング結果について集計するまで(ステップS306否定)、上記のステップS301〜ステップS305までの処理を繰り返し実行する。
そして、全てのラベリング結果について集計すると(ステップS306肯定)、モデル生成部33は、次のような処理を実行する。すなわち、モデル生成部33は、相対時間の区間ごとにカウントアップされた返事の頻度及び相対時間の区間ごとにカウントアップされた非返事の頻度を上記の式(3)に代入することによって返事確率モデルを算出し(ステップS307)、処理を終了する。
上述してきたように、本実施例に係るモデル生成装置30は、上記のステップS301〜ステップS307の処理を実行することによって図3に示した返事確率モデルを自動的に生成することができる。
なお、上記の実施例1の実験結果として示したように、音声認識で自動ラベリングする場合でも、閾値の調整により、適合率を高く自動ラベリングすることは可能である。したがって、返事「はい」の検出結果にゴミ(誤検出)が混ざる確率を低く抑えることができるので、算出された返事「はい」の確率は信頼できるものとなる。
また、ラベリングのための音声認識処理において、上記の実施例1で説明した単語検出を適用することによって検出精度の改善が見込めるので、算出された確率値を用いて、再度ラベリング、確率値の再算出を行えば、より信頼度の高い確率値が得られることが期待できる。
また、上記の実施例1のような検出処理時において、SNR(Signal-to-Noise Ratio)が良く、単語スコアも良い場合のラベリング結果を集め、モデル生成部33への入力データを追加することにより、確率情報を更新するようにしてもよい。これによって、ユーザーの個人性に適応していくことも期待できる。
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
[単語スコアの調整]
例えば、上記の実施例1では、単語のスコアと比較する閾値である再検出閾値THwを調整する場合を例示したが、開示の装置の適用範囲はこれに限定されない。例えば、開示の装置は、単語スコアSを返事の出現確率Paに応じて調整してもよい。
すなわち、開示の装置は、単語スコアの調整式「Sn=S+P/Pmax*G」を用いて、第1の検出部17によって算出された単語のスコアを補正することもできる。かかる調整式における「G」は、調整感度を指す。開示の装置は、Sn≦100となるようにクリッピングして調整後の単語スコアSnを補正してから、一般単語用の検出閾値TH0と比較するようにしても、上記の実施例1と同等の効果を得ることができる。また、開示の装置は、THwを単語wの出現確率が20%以上ならばTH0に対して−2、10%以上ならば−1というように段階的に調整したり、単語wの出現確率の分布の相対位置(時間)方向の幅を3等分して、中央の区間では、THwをTH0に対して−2、中央以外では−1というように分布の幅に合わせて閾値を設定することも可能である。
[返事の種類]
さらに、上記の実施例1では、返事である単語「はい」のみを例としてあげたが、「いいえ」、「そう」など他の単語についても、それぞれ出現確率を用意して、同様の処理を行うことができる。また、出現確率は、単語単位に用意するだけでなく、返事という1カテゴリで確率を準備・処理することもできる。
[言語の適用範囲]
さらに、上記の実施例1では、日本語を対象とする場合を例示しが、開示の装置は、日本語以外の言語においても、対話相手の発話を受けて返事を行うという構図が変わらない限り、対話相手の発話区間との相対位置と返事の出現確率の関係に偏りが生じるので、他の言語に適用したとしても同様の効果を得ることができる。例えば、英語における、対話相手の発話を受けての返事としての”Yes”、”No”、”OK”などは、日本語における「はい」、「いいえ」、「オッケー」などと同様に、対話相手の発話区間との相対位置と出現確率の関係に偏りが生じており、日本語と同様の効果が期待できる。
[適用人数]
なお、上記の実施例1では、話者Aおよび話者Bの2人が対話を行う場合について例示したが、3人以上が対話を行う場合にも、話者は相手の発話に対して返事を行う構図は変わらないので、同様に適用できる。
[分散および統合]
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、第1の発話区間検出部12a、第2の発話区間検出部12b、特徴量算出部13、第1の検出部17、調整部18または第2の検出部19を音声認識装置の外部装置としてネットワーク経由で接続するようにしてもよい。また、第1の発話区間検出部12a、第2の発話区間検出部12b、特徴量算出部13、第1の検出部17、調整部18または第2の検出部19を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の音声認識装置の機能を実現するようにしてもよい。
[音声認識プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図15を用いて、上記の実施例と同様の機能を有する音声認識プログラムを実行するコンピュータの一例について説明する。
図15は、実施例3に係る音声認識プログラムを実行するコンピュータの一例について説明するための図である。図15に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180と有する。これら110〜180の各部はバス140を介して接続される。
HDD170には、図15に示すように、上記の実施例1で示した第1の発話区間検出部12a、第2の発話区間検出部12b、特徴量算出部13、第1の検出部17、調整部18及び第2の検出部19と同様の機能を発揮する音声認識プログラム170aが予め記憶される。この音声認識プログラム170aについては、図1に示した各々の第1の発話区間検出部12a、第2の発話区間検出部12b、特徴量算出部13、第1の検出部17、調整部18及び第2の検出部19の各構成要素と同様、適宜統合又は分離しても良い。すなわち、HDD170に格納される各データは、常に全てのデータがHDD170に格納される必要はなく、処理に必要なデータのみがHDD170に格納されれば良い。
そして、CPU150が、音声認識プログラム170aをHDD170から読み出してRAM180に展開する。これによって、図15に示すように、音声認識プログラム170aは、音声認識プロセス180aとして機能する。この音声認識プロセス180aは、HDD170から読み出した各種データを適宜RAM180上の自身に割り当てられた領域に展開し、この展開した各種データに基づいて各種処理を実行する。なお、音声認識プロセス180aは、図1に示した第1の発話区間検出部12a、第2の発話区間検出部12b、特徴量算出部13、第1の検出部17、調整部18及び第2の検出部19にて実行される処理、例えば図6及び図7に示す処理を含む。また、CPU150上で仮想的に実現される各処理部は、常に全ての処理部がCPU150上で動作する必要はなく、処理に必要な処理部のみが仮想的に実現されれば良い。
なお、上記の音声認識プログラム170aについては、必ずしも最初からHDD170やROM160に記憶させておく必要はない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ100がこれらから各プログラムを取得して実行するようにしてもよい。
10 音声認識装置
11 音声入力部
12a 第1の発話区間検出部
12b 第2の発話区間検出部
13 特徴量算出部
14 音響モデル記憶部
15 単語辞書記憶部
16 返事確率記憶部
17 第1の検出部
18 調整部
19 第2の検出部

Claims (6)

  1. 一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部と、
    第1の話者の音声から当該第1の話者の発話区間を検出する第1の発話区間検出部と、
    前記第1の話者とは異なる第2の話者の音声から当該第2の話者の発話区間を検出する第2の発話区間検出部と、
    前記第1の発話区間検出部によって検出された第1の話者の発話区間における特徴量を算出する特徴量算出部と、
    前記特徴量算出部によって算出された第1の話者の発話区間における特徴量を用いて単語検出を実行する第1の検出部と、
    前記第1の検出部によって検出された単語が返事である場合に、前記返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第2の発話区間検出部によって検出された第2の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整する調整部と、
    前記調整部によって調整された返事の単語スコアまたは返事の検出閾値を用いて、前記第1の検出部によって検出された単語の再検出を実行する第2の検出部と
    を有することを特徴とする音声認識装置。
  2. 前記調整部は、前記出現確率が高くなるにしたがって前記返事の検出閾値が低くなるように調整することを特徴とする請求項1に記載の音声認識装置。
  3. 前記調整部は、前記出現確率が最大値を採る場合に、前記第1の検出部によって単語検出に用いられた検出閾値と同じ値に前記返事の検出閾値を調整することを特徴とする請求項1に記載の音声認識装置。
  4. 前記調整部は、前記出現確率が低くなるにしたがって前記返事の検出閾値が高くなるように調整することを特徴とする請求項1に記載の音声認識装置。
  5. コンピュータが、
    第1の話者の音声から当該第1の話者の発話区間を検出し、
    前記第1の話者とは異なる第2の話者の音声から当該第2の話者の発話区間を検出し、
    前記第1の話者の発話区間における特徴量を算出し、
    算出された第1の話者の発話区間における特徴量を用いて単語検出を実行し、
    検出された単語が返事である場合に、一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第2の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整し、
    調整された返事の単語スコアまたは返事の検出閾値を用いて、単語の再検出を実行する
    各処理を実行することを特徴とする音声認識方法。
  6. コンピュータに、
    第1の話者の音声から当該第1の話者の発話区間を検出し、
    前記第1の話者とは異なる第2の話者の音声から当該第2の話者の発話区間を検出し、
    前記第1の話者の発話区間における特徴量を算出し、
    算出された第1の話者の発話区間における特徴量を用いて単語検出を実行し、
    検出された単語が返事である場合に、一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第2の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整し、
    調整された返事の単語スコアまたは返事の検出閾値を用いて、単語の再検出を実行する
    各処理を実行させることを特徴とする音声認識プログラム。
JP2011290023A 2011-12-28 2011-12-28 音声認識装置、音声認識方法及び音声認識プログラム Expired - Fee Related JP5810912B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011290023A JP5810912B2 (ja) 2011-12-28 2011-12-28 音声認識装置、音声認識方法及び音声認識プログラム
US13/711,988 US9031841B2 (en) 2011-12-28 2012-12-12 Speech recognition apparatus, speech recognition method, and speech recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011290023A JP5810912B2 (ja) 2011-12-28 2011-12-28 音声認識装置、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2013140226A true JP2013140226A (ja) 2013-07-18
JP5810912B2 JP5810912B2 (ja) 2015-11-11

Family

ID=48695614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011290023A Expired - Fee Related JP5810912B2 (ja) 2011-12-28 2011-12-28 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (2)

Country Link
US (1) US9031841B2 (ja)
JP (1) JP5810912B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019078462A (ja) * 2017-10-25 2019-05-23 株式会社パロマ 加熱調理器
JP2020071675A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6335437B2 (ja) * 2013-04-26 2018-05-30 キヤノン株式会社 通信装置、通信方法およびプログラム
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10134386B2 (en) * 2015-07-21 2018-11-20 Rovi Guides, Inc. Systems and methods for identifying content corresponding to a language spoken in a household
US9818405B2 (en) * 2016-03-15 2017-11-14 SAESTEK Ses ve Iletisim Bilgisayar Tekn. San. Ve Tic. A.S. Dialog management system
US10403273B2 (en) * 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
JP2019101385A (ja) * 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US20210201937A1 (en) * 2019-12-31 2021-07-01 Texas Instruments Incorporated Adaptive detection threshold for non-stationary signals in noise
ES2953623T3 (es) * 2021-01-07 2023-11-14 Deutsche Telekom Ag Asistente de voz virtual con precisión de reconocimiento mejorada
US11996087B2 (en) 2021-04-30 2024-05-28 Comcast Cable Communications, Llc Method and apparatus for intelligent voice recognition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030765A (ja) * 2001-07-13 2003-01-31 Matsushita Electric Ind Co Ltd 浴室内人検出装置
US20110004624A1 (en) * 2009-07-02 2011-01-06 International Business Machines Corporation Method for Customer Feedback Measurement in Public Places Utilizing Speech Recognition Technology
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792989A (ja) 1993-09-22 1995-04-07 Oki Electric Ind Co Ltd 音声認識方法
US6556970B1 (en) * 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
US6427137B2 (en) * 1999-08-31 2002-07-30 Accenture Llp System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
US8706487B2 (en) 2006-12-08 2014-04-22 Nec Corporation Audio recognition apparatus and speech recognition method using acoustic models and language models
JP5229234B2 (ja) 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
JP5385677B2 (ja) 2009-05-12 2014-01-08 日本電信電話株式会社 対話状態分割装置とその方法、そのプログラムと記録媒体
JP2011215421A (ja) * 2010-03-31 2011-10-27 Toshiba Corp 音声対話装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030765A (ja) * 2001-07-13 2003-01-31 Matsushita Electric Ind Co Ltd 浴室内人検出装置
US20110004624A1 (en) * 2009-07-02 2011-01-06 International Business Machines Corporation Method for Customer Feedback Measurement in Public Places Utilizing Speech Recognition Technology
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019078462A (ja) * 2017-10-25 2019-05-23 株式会社パロマ 加熱調理器
JP6997437B2 (ja) 2017-10-25 2022-01-17 株式会社パロマ 加熱調理器
JP2020071675A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム

Also Published As

Publication number Publication date
US20130173267A1 (en) 2013-07-04
US9031841B2 (en) 2015-05-12
JP5810912B2 (ja) 2015-11-11

Similar Documents

Publication Publication Date Title
JP5810912B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
JP5810946B2 (ja) 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
KR100854044B1 (ko) 음성 인식 시스템에서의 발성 끝 검출
US9373321B2 (en) Generation of wake-up words
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
US20020087306A1 (en) Computer-implemented noise normalization method and system
US20140012578A1 (en) Speech-recognition system, storage medium, and method of speech recognition
US9293140B2 (en) Speaker-identification-assisted speech processing systems and methods
US6985859B2 (en) Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
US9378755B2 (en) Detecting a user's voice activity using dynamic probabilistic models of speech features
US8392187B2 (en) Dynamic pruning for automatic speech recognition
US20160077792A1 (en) Methods and apparatus for unsupervised wakeup
JP2019101385A (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP5549506B2 (ja) 音声認識装置及び音声認識方法
JP7191792B2 (ja) 情報処理装置、情報処理方法およびプログラム
KR20180127020A (ko) 자연어 대화체 음성 인식 방법 및 장치
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
JP5672175B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法
JP4809913B2 (ja) 音素分割装置、方法及びプログラム
JP5678732B2 (ja) 分析装置、分析プログラムおよび分析方法
JP5672155B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法
JP4391031B2 (ja) 音声認識装置
Zhang et al. An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection
JP2021196434A (ja) 発話検出プログラム、発話検出装置、及び発話検出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150831

R150 Certificate of patent or registration of utility model

Ref document number: 5810912

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees