JP2012073361A - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP2012073361A JP2012073361A JP2010217428A JP2010217428A JP2012073361A JP 2012073361 A JP2012073361 A JP 2012073361A JP 2010217428 A JP2010217428 A JP 2010217428A JP 2010217428 A JP2010217428 A JP 2010217428A JP 2012073361 A JP2012073361 A JP 2012073361A
- Authority
- JP
- Japan
- Prior art keywords
- section
- utterance
- conversation
- sections
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声認識装置1は、音声データの一部が分類される複数の区分の何れかに対応する複数の単語辞書を記憶する記憶部3と、処理部4とを有する。処理部4は、音声データから複数の会話区間を検出する会話区間検出機能11と、音声データから複数の発声区間を検出する発声区間検出機能12と、複数の発声区間のそれぞれを、複数の会話区間のうちのその発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類する区間分類機能13と、少なくとも一つの発声区間について、複数の単語辞書のうち、発声区間が分類された区分に対応する単語辞書を記憶部から取得する単語辞書選択機能14と、発声区間の少なくとも一つから、その発声区間について取得された単語辞書を用いて特定のキーワードを検出する検出機能15とを実現する。
【選択図】図2
Description
このワードスポッティングが使用する情報は、文法またはN-gramモデルといった言語情報を用いた音声認識技術が使用する情報よりも少ないので、ワードスポッティングに基づく音声認識アルゴリズムは比較的シンプルである。そのため、ワードスポッティングに基づく音声認識装置の開発コストは、言語情報を用いた音声認識装置の開発コストよりも安価であるという利点を有する。
そこで、公知技術の一例では、利用者の発話区間が文頭、文中、文末の三つの領域に分けられ、キーワードの開始位置がこれらの領域に生起する確率が、蓄積された音声データに基づいて予め統計的に学習される。そしてその確率が、キーワードに対応する項目の生起確率として設定される。そして音声認識装置は、この生起確率をキーワードの認識に利用する(例えば、特許文献1を参照)。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
発明者は、鋭意研究の結果、会話が録音された音声データでは、複数の話者が連続して発声している区間である会話区間に応じて、それぞれ特定のキーワードの出現頻度が異なるという知見を得た。
あるいは、音声入力部2は、音声認識装置1を通信ネットワークに接続するためのインターフェース回路を有してもよい。この場合、音声入力部2は、通信ネットワークに接続されたファイルサーバなどの他の機器から、その通信ネットワークを介して音声データを取得し、取得した音声データを処理部4へ出力する。
さらにまた、音声入力部2は、ユニバーサル・シリアル・バス(Universal Serial Bus、USB)といったシリアスバス規格に従ったインターフェース回路を有してもよい。この場合、音声入力部2は、例えば、ハードディスクなどの磁気記憶装置、光記憶装置あるいは半導体メモリ回路と接続され、それらの記憶装置から音声データを読み込み、その音声データを処理部4へ出力する。
また出力部5は、検出結果情報を、通信ネットワークを介して音声認識装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声認識装置1と接続するためのインターフェース回路を有する。なお、音声入力部2も通信ネットワークを介して音声データを取得する場合、音声入力部2と出力部5は一体化されていてもよい。
処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部4が有するこれらの各部は、それぞれ、別個の回路として、音声認識装置1に実装されてもよい。
本実施形態では、会話区間検出部11は、音声データ中において、所定の音量以下の区間が第1の所定時間継続する期間を会話区間の区切りとして検出する。そして会話区間検出部11は、隣接する二つの会話区間の区切りで挟まれた区間を一つの会話区間とする。なお、所定の音量は、例えば、何れの話者も発声していない状態における音量の最大値である。また第1の所定時間は、例えば、2秒〜5秒の何れか、代表的には2秒に設定される。
本実施形態では、発声区間検出部12は、会話区間検出部11から受け取った各会話区間の開始時刻と終了時刻により特定される、音声データ中の各会話区間内において、所定の音量以下の区間が第2の所定時間継続した期間を発声区間の区切りとして検出する。そして発声区間検出部12は、隣接する二つの発声区間の区切りで挟まれた区間、あるいは発声区間の区切りと会話区間の開始時刻または終了時刻で挟まれた区間を一つの発声区間とする。なお、所定の音量は、例えば、何れの話者も発声していない状態における音量の最大値である。また第2の所定時間は、上記の第1の所定時間よりも短い時間であり、例えば、0.5秒〜2秒の何れか、代表的には0.5秒に設定される。
発声区間検出部12は、検出した各発声区間に、例えば、音声データの先頭に近い方から順に識別番号を付す。そして発声区間検出部12は、各発声区間の識別番号と、各発声区間の開始時刻と終了時刻とを区間分類部13へ出力する。
また発声区間検出部12は、会話区間検出部11が会話区間を検出するよりも先に、あるいは同時に発声区間を検出してもよい。この場合、発声区間検出部12は、音声データ中において、所定の音量以下の区間が第2の所定時間継続する部分を発声区間の区切りとして検出する。そして発声区間検出部12は、隣接する二つの発声区間の区切りで挟まれた区間を一つの発声区間とする。そして発声区間検出部12は、会話区間とは無関係に、例えば、音声データの先頭から順番に各発声区間に識別番号を付す。
例えば、音声データがコンシューマとコールセンターあるいはオフィスの受付間での電話による会話を録音したものである場合、挨拶の言葉、名称など、特定のキーワードの出現頻度は会話区間に応じて異なる。例えば、最初の会話区間では、「こちらは○○です」といった、話者または話者が属する組織を紹介するメッセージが話されることが多いので、特定の名称の出現頻度が高い。また、最初の会話区間では、「おはようございます」といった挨拶の言葉の出現頻度も高い。一方、2番目以降の会話区間では、そのような特定の名称の出現頻度は最初の会話区間における出現頻度よりも低くなる。その代わりに、2番目以降の会話区間では、会話のテーマに関連する固有名詞または特定の動詞などの出現頻度が高くなる。
さらに、各会話区間中でも、会話の冒頭部分と、会話の終端部分と、その他の部分とで、それぞれ、出現頻度が高いキーワードが異なる傾向にある。例えば、冒頭部分では、「もしもし」、「お待たせいたしました」といった会話を開始する際の挨拶に関するキーワードの出現頻度が高い。一方、会話の終端部分では、「少々お待ち下さい」といった会話を中断または終了する際の挨拶に関するキーワードの出現頻度が高い。また、その他の部分、すなわち、会話の中間部分では、会話のテーマに関する固有名詞の出現頻度が高い。
さらに、区間分類部13は、各発声区間を、その発声区間が会話区間の冒頭部分、中間部分、及び終端部分の何れに属するかに応じて異なる区分に分類する。例えば、区間分類部13は、会話区間の先頭からα個以内の発声区間を、会話区間の冒頭部分に対応する区分に分類する。また区間分類部13は、会話区間の終端からβ個以内の発声区間を会話区間の終端部分に対応する区分に分類する。さらに区間分類部13は、会話区間の先頭から(α+1)個目の発声区間から会話区間の終端から(β+1)個目の発声区間までに含まれる発声区間を、会話区間の中間部分に対応する区分に分類する。したがって、各発声区間は、6通りに分類されることになる。
あるいは、区間分類部13は、各発声区間を、その発声区間が属する会話区間が時間順に最初の会話区間である場合と、最後の会話区間である場合と、その他の会話区間である場合とで、異なる区分に分類してもよい。この場合には、各発声区間は、9通りに分類されることになる。
なお、α及びβは、例えば、2に設定される。そのため、注目する会話区間に含まれる発声区間の数が4個以下の場合には、区間分類部13は、その会話区間に含まれる各発声区間を、先頭部分に対応する区分または終端部分に対応する区分の何れか一方に分類してもよい。あるいは、区間分類部13は、会話区間の先頭からα個の範囲に含まれ、かつ、会話区間の終端からβ個の範囲に含まれる発声区間を、先頭部分に対応する区分と終端部分に対応する区分の両方に属するように分類してもよい。
また、発声区間314、315は、それぞれ、区分B−aに分類され、発声区間316は区分B−bに分類され、発声区間317、318は、それぞれ、区分B−cに分類される。
区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区間分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を検出部15へ出力する。
検出部15は、発声区間を解析単位期間で分割し、解析単位期間ごとに、ケプストラム係数などの特徴量を求める。そして検出部15は、得られた特徴量を、単語辞書に含まれる各キーワードに対応する各音響モデルに入力する。そして検出部15は、キーワードごとに、音響モデルの出力として、そのキーワードである確率を得る。
検出部15は、各キーワードに対応する確率を所定の閾値と比較する。そして確率が所定の閾値以上である場合、検出部15は、その確率に対応するキーワードを検出する。なお、所定の閾値は、例えば、0.6〜0.9の何れかに設定される。
検出部15は、単語辞書を参照して、検出したキーワードのテキストを特定し、そのテキストを含む検出結果情報を出力部5へ出力する。
処理部4は、音声入力部2を介して音声データを取得する(ステップS101)。そして処理部4は、音声データを処理部4の会話区間検出部11、発声区間検出部12及び検出部15へ渡す。
会話区間検出部11は、音声データに含まれる会話区間を検出する(ステップS102)。会話区間検出部11は、検出した各会話区間に識別番号を付す。そして会話区間検出部11は、各会話区間の識別番号、開始時刻及び終了時刻を発声区間検出部12及び区間分類部13へ通知する。
また発声区間検出部12は、音声データに含まれる発声区間を検出する(ステップS103)。発声区間検出部12は、検出した各発声区間に識別番号を付す。そして発声区間検出部12は、各発声区間の識別番号、開始時刻及び終了時刻を区間分類部13へ通知する。
区間分類部13は、各発声区間を、その発声区間が属する会話区間の音声データ先頭からの順序及び会話区間中の順序に基づいて、複数の区分の何れかに分類する(ステップS104)。区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区分分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を処理部4の検出部15へ出力する。
単語辞書選択部14は、注目する発声区間が分類された区分の識別番号に基づいて、注目する発声区間に応じた単語辞書を選択する(ステップS106)。そして単語辞書選択部14は、選択した単語辞書を記憶部3から読み込む。単語辞書選択部14は、選択した単語辞書を検出部15へ出力する。
特定キーワードが検出された場合(ステップS108−Yes)、検出部15は、その検出されたキーワードのテキストを単語辞書を参照して求め、そのテキストを含む検出結果情報を出力部5へ出力する(ステップS109)。
ステップS109の後、あるいはステップS108にて特定キーワードが検出されなかった場合(ステップS108−No)、検出部15は、注目する発声区間が最後の発声区間か否か判定する(ステップS110)。
注目する発声区間が最後の発声区間でなければ(ステップS110−No)、検出部15は、現在の注目発声区間の次の発声区間を注目発声区間とする(ステップS111)。そして検出部15は、ステップS106以降の処理を繰り返す。
一方、注目する発声区間が最後の発声区間であれば(ステップS110−Yes)、検出部15は、音声認識処理を終了する。
なお、処理部4は、ステップS102の処理とステップS103の処理の順序を入れ替えてもよい。あるいは、処理部4は、ステップS102の処理とステップS103の処理を同時に行ってもよい。この場合には、上記のように、発声区間検出部12は、各会話区間の開始時刻及び終了時刻を参照せずに発声区間を検出する。
そのため、この音声認識装置は、良好な精度で特定キーワードを検出できる。
この第2の実施形態による音声認識装置は、発声区間ごとに話者を識別する。そしてこの音声認識装置は、各会話区間の順序と発声区間の順序だけでなく、会話区間における各話者の発声区間の長さの比率に応じて単語辞書を選択する。
図5において、処理部21の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第2の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部21が各発声区間について話者ごとの発声比率を算出し、発声比率が高い話者と発声比率が低い話者とで発声区間を異なる区分に分類する点で異なる。
そこで以下では、処理部21のうちの第1の実施形態による処理部4と異なる点について説明する。第2の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
話者識別部16は、発声区間ごとに、その発声区間の話者の識別番号を割り当てる。そして話者識別部16は、発声区間の識別番号とともに、その発声区間の話者の識別番号を区間分類部13及び発声比率算出部17へ通知する。
音声データが、例えば、コンシューマからコールセンターへの問い合わせについての通話を録音したものである場合、最初の会話区間など、特定の会話区間における話の内容は、ある程度パターン化されている。そのため、音声認識装置は、その特定の会話区間において、コンシューマの発声比率と、コールセンター側のオペレータの発声比率のうち、発声比率が高い方を予め推定できる。したがって、このような特定の会話区間では、発声比率によって、話者がコンシューマかオペレータかを判定できる。そこで、コンシューマの発声区間において出現頻度が高いキーワードを含むコンシューマ用単語辞書と、オペレータの発声区間において出現頻度が高いキーワードを含むオペレータ用単語辞書とが予め作成される。なお、コンシューマ用単語辞書及びオペレータ用単語辞書は、会話区間に応じて、それぞれ複数作成されてもよい。記憶部3は、コンシューマ用単語辞書とオペレータ用単語辞書とを記憶する。そして音声認識装置は、各会話区間における話者ごとの発声比率によって話者がコンシューマかオペレータかを推定できるので、その発声比率に応じてコンシューマ用単語辞書かオペレータ用単語辞書の何れかを選択できる。
例えば、会話区間に占めるコンシューマの発声比率の方がオペレータの発声比率よりも高ければ、会話の内容は、コンシューマからオペレータへの問い合わせであると推定される。このような場合、コンシューマの発声区間には、問い合わせの対象となった事項に関するキーワードが含まれる確率が高くなる。
一方、会話区間に占めるコンシューマの発声比率よりもオペレータの発声比率が高ければ、会話の内容は、オペレータからコンシューマへの回答であると推定される。このような場合、オペレータの発声区間には、回答の対象となった事項に関するキーワードが含まれる確率が高くなる。
そこで、音声認識装置は、発声比率に応じて予め作成された単語辞書を記憶しておくとともに、その発声比率に応じて単語辞書を選択することにより、各発声区間について出現頻度が高いキーワードを含む単語辞書を用いることができる。その結果、音声認識装置は、キーワードの検出精度を向上できる。
発声比率算出部17は、各会話区間について話者ごとに発声比率を求める。そして発声比率算出部17は、各会話区間の識別番号とともに、対応する会話区間における各話者の発声比率を区間分類部13へ通知する。
本実施形態では、区間分類部13は、第1の実施形態による区間分類部13と同様に、時間順に最初の会話区間に属する発声区間とその他の会話区間に属する発声区間とを別の区分に分類する。あるいは、区間分類部13は、時間順に最初の会話区間に属する発声区間と、最後の会話区間に属する発声区間と、その他の会話区間に属する発声区間とをそれぞれ別の区分に分類してもよい。
さらに区間分類部13は、各会話区間に含まれる発声区間を、発声比率が高い方の話者に対応する発声区間と発声比率が低い方の話者に対応する発声区間とを、それぞれ異なる区分に分類する。
また、会話区間302についても、話者Aの発声比率の方が話者Bの発声比率よりも高い。そこで区間分類部13は、話者Aの発声区間である発声区間315、317及び318を、2番目以降の会話区間に対応し、かつ、発声比率が高い区分に分類する。一方、区間分類部13は、話者Bの発声区間である発声区間314及び316を、2番目以降の会話区間に対応し、かつ、発声比率が低い区分に分類する。
区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区間分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を検出部15へ出力する。
検出部15は、単語辞書選択部14から受け取った単語辞書を用いてその発声区間中に含まれる特定のキーワードを検出する。
処理部21は、音声入力部2を介して音声データを取得する(ステップS201)。そして処理部21は、音声データを処理部21の会話区間検出部11、発声区間検出部12、話者識別部16及び検出部15へ渡す。
会話区間検出部11は、音声データに含まれる会話区間を検出する(ステップS202)。会話区間検出部11は、検出した各会話区間に識別番号を付す。そして会話区間検出部11は、各会話区間の識別番号、開始時刻及び終了時刻を発声区間検出部12、区間分類部13及び発声比率算出部17へ通知する。
また発声区間検出部12は、音声データに含まれる発声区間を検出する(ステップS203)。発声区間検出部12は、検出した各発声区間に識別番号を付す。そして発声区間検出部12は、各発声区間の識別番号、開始時刻及び終了時刻を区間分類部13、話者識別部16及び発声比率算出部17へ通知する。
また、発声比率算出部17は、各会話区間について、話者ごとの発声比率を算出する(ステップS205)。そして発声比率算出部17は、会話区間ごとに、各話者の発声比率を区間分類部13へ通知する。
単語辞書選択部14は、注目する発声区間が分類された区分の識別番号に基づいて、注目する発声区間に応じた単語辞書を選択する(ステップS208)。そして単語辞書選択部14は、選択した単語辞書を記憶部3から読み込む。単語辞書選択部14は、選択した単語辞書を検出部15へ出力する。
特定キーワードが検出された場合(ステップS210−Yes)、検出部15は、その検出されたキーワードのテキストを単語辞書を参照して求め、そのテキストを含む検出結果情報を出力部5へ出力する(ステップS211)。
ステップS211の後、あるいはステップS210にて特定キーワードが検出されなかった場合(ステップS210−No)、検出部15は、注目する発声区間が最後の発声区間か否か判定する(ステップS212)。
注目する発声区間が最後の発声区間でなければ(ステップS212−No)、検出部15は、現在の注目発声区間の次の発声区間を注目発声区間とする(ステップS213)。そして検出部15は、ステップS208以降の処理を繰り返す。
一方、注目する発声区間が最後の発声区間であれば(ステップS212−Yes)、検出部15は、音声認識処理を終了する。
なお、処理部21は、ステップS202の処理とステップS203の処理の順序を入れ替えてもよい。あるいは、処理部21は、ステップS202の処理とステップS203の処理を同時に行ってもよい。
図7において、処理部31の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第3の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部31が会話中断区間長区間を検出し、その会話中断区間の前後で発声区間を異なる区分に分類する点で異なる。
そこで以下では、処理部31のうちの第1の実施形態による処理部4と異なる点について説明する。第3の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
長期無音区間は、例えば、一方の話者が何らかの理由により他方の話者を待たせたり、電話を転送することにより生じる。このような長期無音区間があると、長期無音区間の前後で会話のテーマが異なることがある。そのため、長期無音区間の前の会話区間において出現頻度が高いキーワードと、長期無音区間の後の会話区間において出現頻度が高いキーワードは異なることがある。そのため、適切な単語辞書を選択するために、音声認識装置は、長期無音区間を検出することが好ましい。
本実施形態では、会話中断区間検出部18は、音声データ中において、所定の音量以下の区間が第3の所定時間継続する区間を長期無音区間として検出する。なお、所定の音量は、例えば、何れの話者も発声していない状態における音量の最大値である。また第3の所定時間は、会話区間の区切りに相当する第1の所定時間よりも長く、例えば、20秒〜1分の何れか、代表的には20秒に設定される。
あるいは、会話中断区間検出部18は、所定の音量以下の区間が第3の所定時間継続する区間のうち、最も長い区間を長期無音区間としてもよい。この場合、第3の所定時間は、例えば、10秒に設定される。
さらに、区間分類部13は、会話中断区間の直後の会話区間に属する発声区間をさらに別の区分に分類する。
また区間分類部13は、各発声区間を、会話区間の冒頭部分、中間部分、及び終端部分の何れに含まれるかによって異なる区分に分類してもよい。この場合、各発声区間は、9個の区分に分類されることになる。
なお、区間分類部13は、会話中断区間の直前の会話区間に属する発声区間をさらに別の区分に分類してもよい。この場合、各発声区間は、12個の区分に分類されることになる。
検出部15は、単語辞書選択部14から受け取った単語辞書を用いてその発声区間中に含まれる特定のキーワードを検出する。
処理部31は、音声入力部2を介して音声データを取得する(ステップS301)。そして処理部31は、音声データを処理部31の会話区間検出部11、発声区間検出部12、会話中断区間検出部18及び検出部15へ渡す。
会話区間検出部11は、音声データに含まれる会話区間を検出する(ステップS302)。会話区間検出部11は、検出した各会話区間に識別番号を付す。そして会話区間検出部11は、各会話区間の識別番号、開始時刻及び終了時刻を発声区間検出部12及び区間分類部13へ通知する。
また発声区間検出部12は、音声データに含まれる発声区間を検出する(ステップS303)。発声区間検出部12は、検出した各発声区間に識別番号を付す。そして発声区間検出部12は、各発声区間の識別番号、開始時刻及び終了時刻を区間分類部13へ通知する。
区間分類部13は、各発声区間を、その発声区間が属する会話区間の音声データ先頭からの順序、その会話区間と会話中断区間との前後関係に基づいて、複数の区分の何れかに分類する(ステップS305)。区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区分分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を処理部31の検出部15へ出力する。
なお、処理部31は、ステップS302、ステップS303及びステップS304の処理の順序を入れ替えてもよい。あるいは、処理部31は、ステップS302、ステップS303及びステップS304の各処理を同時に行ってもよい。
図10において、処理部41の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第4の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部41が発声区間の区分に応じて単語辞書を選択する代わりにキーワードごとの閾値を表す閾値表を選択する点で異なる。
そこで以下では、処理部41のうちの第1の実施形態による処理部4と異なる点及び関連する相違点について説明する。第4の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
また記憶部3は、会話の内容に共通のキーワードを含む区分ごとに閾値表を記憶する。この閾値表は、各キーワードに対する検出基準を示した検出基準表の一例である。閾値表は、単語辞書に登録された各キーワードの音響モデルを用いて検出部15により算出される、音声データ中の調査対象区間がそのキーワードである確率との比較に用いられる閾値を、キーワードのテキストとともに格納する。
閾値は、検出基準の一例であり、キーワードごとに、予め収集された音声データに基づいて求められた、各区分における出現頻度に応じて設定される。そして特定の区分において出現頻度が高いキーワードに対する閾値は、その特定の区分において出現頻度が低いキーワードよりも低く設定される。例えば、特定の区分において、出現確率が0.5以上となるキーワードに対する閾値は0.7に設定され、一方、出現確率が0.01以下となるキーワードに対する閾値は0.8に設定される。
また、特定の区分において出現しないはずのキーワードに対しては、閾値は1よりも大きい値に設定されてもよい。検出部15により音響モデルを用いて求められる確率は常に1以下となる。そのため、このように閾値を設定することで、検出部15は、特定の区分において出現しないはずのキーワードを誤って検出することを防止できる。
各閾値表は、対応する区分の識別番号とともに記憶部3に記憶される。
そして検出部15は、あるキーワードに対する確率が閾値以上となる場合、そのキーワードを検出する。そして検出部15は、検出したキーワードに対応するテキストを含む検出結果情報を出力部5へ出力する。
図11におけるステップS401〜S405のそれぞれは、図4に示された動作フローチャートにおけるステップS101〜S105に対応する。そのため、ここでは、ステップS401〜S405の処理の詳細な説明は省略する。
検出部15は、閾値表選択部19へ、注目する発声区間が分類された区分の識別番号を通知する。そして閾値表選択部19は、その区分の識別番号とともに記憶されている閾値表を、注目する発声区間に応じた閾値表として選択する(ステップS406)。そして閾値表選択部10は、選択した閾値表を記憶部3から読込み、その読み込んだ閾値表を検出部15へ渡す。
何れかのキーワードについて算出された確率が、そのキーワードに対して設定された閾値以上である場合(ステップS408−Yes)、検出部15は、そのキーワードを検出する。そして検出部15は、検出されたキーワードのテキストを単語辞書を参照して求め、そのテキストを含む検出結果情報を出力部5へ出力する(ステップS409)。なお、複数のキーワードについて算出された確率がそれぞれ閾値以上となる場合、検出部15は、それら複数のキーワード全てについて、対応するテキストを出力する。
注目する発声区間が最後の発声区間でなければ(ステップS410−No)、検出部15は、現在の注目発声区間の次の発声区間を注目発声区間とする(ステップS411)。そして検出部15は、ステップS406以降の処理を繰り返す。
一方、注目する発声区間が最後の発声区間であれば(ステップS410−Yes)、検出部15は、音声認識処理を終了する。
なお、処理部41は、ステップS402の処理とステップS403の処理の順序を入れ替えてもよい。あるいは、処理部41は、ステップS402の処理とステップS403の処理を同時に行ってもよい。
また上記の各実施形態において、検出部は、検出された複数の発声区間のうちの特定の発声区間からのみ、特定のキーワードを検出してもよい。特定の発声区間は、例えば、音声データ中の一番最初の発声区間、何れかの会話区間の中間部分に属する発声区間、何れかの会話区間の終端部分に属する発声区間、あるいは、何れかの会話区間に属する発声区間とすることができる。これにより、音声認識装置は、キーワードの検出が意図されていない発声区間から誤ってキーワードを検出することを防止できる。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
コンピュータに複数の話者の会話を録音した音声データから特定のキーワードを検出させる音声認識用コンピュータプログラムであって、
前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出し、
前記音声データから、何れかの話者が話している区間である複数の発声区間を検出し、
前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類し、
前記発声区間の少なくとも一つに対して、記憶部に記憶され、前記複数の区分のそれぞれに対応し、該区分において検出すべきキーワードを検出するための情報を含む複数の単語辞書のうち、当該発声区間が分類された区分に対応する単語辞書を前記記憶部から取得し、
前記発声区間の少なくとも一つから、当該発声区間に対して取得された単語辞書を用いて前記特定のキーワードを検出する、
ことをコンピュータに実行させるコンピュータプログラム。
2 音声入力部
3 記憶部
4、21、31、41 処理部
5 出力部
6 表示装置
11 会話区間検出部
12 発声区間検出部
13 区間分類部
14 単語辞書選択部
15 検出部
16 話者識別部
17 発声比率算出部
18 会話中断区間検出部
19 閾値表選択部
Claims (7)
- 複数の話者の会話を録音した音声データを取得する音声入力部と、
複数の単語辞書を記憶する記憶部であって、該複数の単語辞書のそれぞれは、前記音声データの一部が分類される複数の区分の何れかに対応し、かつ当該区分において検出すべきキーワードを検出するための情報を含む記憶部と、
前記音声データから特定のキーワードを検出する処理部であって、
前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、
前記音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、
前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて前記複数の区分の何れかに分類する区間分類機能と、
前記複数の発声区間のうちの少なくとも一つについて、前記複数の単語辞書のうち、当該発声区間が分類された区分に対応する単語辞書を前記記憶部から取得する単語辞書選択機能と、
前記発声区間の少なくとも一つから、当該発声区間について取得された単語辞書を用いて前記特定のキーワードを検出する検出機能と、
を実現する処理部と、
を有する音声認識装置。 - 前記区間分類機能は、前記複数の会話区間のうちの前記音声データ中の先頭の会話区間に属する発声区間と、その他の会話区間の会話区間に属する発声区間とを、前記複数の区分のうちの互いに異なる区分に分類する、請求項1に記載の音声認識装置。
- 前記区間分類機能は、前記複数の発声区間のうちの少なくとも一つを、当該発声区間が属する会話区間の冒頭部分、中間部分及び終端部分の何れに属するかに応じて前記複数の区分の何れかに分類する、請求項1または2に記載の音声認識装置。
- 前記処理部は、
前記複数の発声区間のそれぞれについて、当該発声区間で発声している話者を識別する話者識別機能と、
前記複数の会話区間のそれぞれにおいて、話者ごとに話している期間が当該会話区間に占める発声比率をそれぞれ算出する発声比率算出機能とをさらに実現し、
前記区間分類機能は、前記複数の発声区間の少なくとも一つを、当該発声区間が属する会話区間における、当該発声区間で発声している話者の発声比率が当該会話区間における他の話者の発声比率よりも高いか否かに応じて前記複数の区分の何れかに分類する、請求項1〜3の何れか一項に記載の音声認識装置。 - 前記処理部は、
前記音声データから会話が途切れた会話中断区間を検出する会話中断区間検出機能をさらに実現し、
前記区間分類機能は、前記複数の発声区間の少なくとも一つを、当該発声区間が属する会話区間と前記会話中断区間との前後関係に応じて前記複数の区分の何れかに分類する、請求項1〜4の何れか一項に記載の音声認識装置。 - 複数の話者の会話を録音した音声データを取得する音声入力部と、
検出すべきキーワードの音響モデルを格納する単語辞書と、前記音声データの一部が分類される複数の区分の何れかに対応する複数の検出基準表とを記憶する記憶部と、
前記音声データから特定のキーワードを検出する処理部であって、
前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、
前記音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、
前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて前記複数の区分の何れかに分類する区間分類機能と、
前記発声区間の少なくとも一つについて、前記複数の検出基準表のうち、当該発声区間が分類された区分に対応する検出基準表を前記記憶部から取得する検出基準選択機能と、
前記発声区間の少なくとも一つについて、前記単語辞書に格納された音響モデルを用いてキーワードに対する前記音響モデルの類似度を求め、当該類似度が前記取得された検出基準表に示された検出基準を満たす場合に当該キーワードを検出する検出機能と、
を実現する処理部と、
を有する音声認識装置。 - 複数の話者の会話を録音した音声データを取得し、
前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出し、
前記音声データから、何れかの話者が話している区間である複数の発声区間を検出し、
前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類し、
前記発声区間の少なくとも一つに対して、記憶部に記憶され、前記複数の区分のそれぞれに対応し、該区分において検出すべきキーワードを検出するための情報を含む複数の単語辞書のうち、当該発声区間が分類された区分に対応する単語辞書を前記記憶部から取得し、
前記発声区間の少なくとも一つから、当該発声区間に対して取得された単語辞書を用いて前記特定のキーワードを検出する、
ことを含む音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010217428A JP5549506B2 (ja) | 2010-09-28 | 2010-09-28 | 音声認識装置及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010217428A JP5549506B2 (ja) | 2010-09-28 | 2010-09-28 | 音声認識装置及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012073361A true JP2012073361A (ja) | 2012-04-12 |
JP5549506B2 JP5549506B2 (ja) | 2014-07-16 |
Family
ID=46169607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010217428A Active JP5549506B2 (ja) | 2010-09-28 | 2010-09-28 | 音声認識装置及び音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5549506B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015082138A (ja) * | 2013-10-21 | 2015-04-27 | 富士通株式会社 | 音声検索装置及び音声検索方法 |
KR20180127065A (ko) * | 2017-05-19 | 2018-11-28 | 네이버 주식회사 | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 |
KR102061206B1 (ko) * | 2019-05-30 | 2019-12-31 | 네이버 주식회사 | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 |
JP2020129080A (ja) * | 2019-02-08 | 2020-08-27 | 三浦 浩之 | 音声認識システム |
JP2021021749A (ja) * | 2019-07-24 | 2021-02-18 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
JP7463469B2 (ja) | 2019-05-06 | 2024-04-08 | グーグル エルエルシー | 自動通話システム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7177348B2 (ja) * | 2019-02-06 | 2022-11-24 | 日本電信電話株式会社 | 音声認識装置、音声認識方法およびプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005488A (ja) * | 1999-06-18 | 2001-01-12 | Mitsubishi Electric Corp | 音声対話システム |
JP2006003743A (ja) * | 2004-06-18 | 2006-01-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話方法及び装置 |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
WO2008117626A1 (ja) * | 2007-03-27 | 2008-10-02 | Nec Corporation | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
JP2008249761A (ja) * | 2007-03-29 | 2008-10-16 | Toshiba Corp | 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置 |
JP2009216840A (ja) * | 2008-03-07 | 2009-09-24 | Internatl Business Mach Corp <Ibm> | 2者間の対話の音声データを処理するシステム、方法およびプログラム |
-
2010
- 2010-09-28 JP JP2010217428A patent/JP5549506B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005488A (ja) * | 1999-06-18 | 2001-01-12 | Mitsubishi Electric Corp | 音声対話システム |
JP2006003743A (ja) * | 2004-06-18 | 2006-01-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話方法及び装置 |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
WO2008117626A1 (ja) * | 2007-03-27 | 2008-10-02 | Nec Corporation | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
JP2008249761A (ja) * | 2007-03-29 | 2008-10-16 | Toshiba Corp | 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置 |
JP2009216840A (ja) * | 2008-03-07 | 2009-09-24 | Internatl Business Mach Corp <Ibm> | 2者間の対話の音声データを処理するシステム、方法およびプログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015082138A (ja) * | 2013-10-21 | 2015-04-27 | 富士通株式会社 | 音声検索装置及び音声検索方法 |
KR20180127065A (ko) * | 2017-05-19 | 2018-11-28 | 네이버 주식회사 | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 |
KR101986354B1 (ko) * | 2017-05-19 | 2019-09-30 | 네이버 주식회사 | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 |
JP2020129080A (ja) * | 2019-02-08 | 2020-08-27 | 三浦 浩之 | 音声認識システム |
JP7296214B2 (ja) | 2019-02-08 | 2023-06-22 | 浩之 三浦 | 音声認識システム |
JP7463469B2 (ja) | 2019-05-06 | 2024-04-08 | グーグル エルエルシー | 自動通話システム |
KR102061206B1 (ko) * | 2019-05-30 | 2019-12-31 | 네이버 주식회사 | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 |
JP2021021749A (ja) * | 2019-07-24 | 2021-02-18 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
JP7331523B2 (ja) | 2019-07-24 | 2023-08-23 | 富士通株式会社 | 検出プログラム、検出方法、検出装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5549506B2 (ja) | 2014-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11710478B2 (en) | Pre-wakeword speech processing | |
US11875820B1 (en) | Context driven device arbitration | |
US11423904B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
JP5549506B2 (ja) | 音声認識装置及び音声認識方法 | |
US9875742B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
WO2020211354A1 (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
Li et al. | Robust endpoint detection and energy normalization for real-time speech and speaker recognition | |
JP5810946B2 (ja) | 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム | |
KR101120716B1 (ko) | 음성 특성에 기초한 전화 호출자들의 자동 식별 | |
US8930187B2 (en) | Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device | |
JP5024154B2 (ja) | 関連付け装置、関連付け方法及びコンピュータプログラム | |
JP3886024B2 (ja) | 音声認識装置及びそれを用いた情報処理装置 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
US10878812B1 (en) | Determining devices to respond to user requests | |
WO2018078885A1 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
CN113744742B (zh) | 对话场景下的角色识别方法、装置和系统 | |
JP2008139654A (ja) | 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム | |
JP5201053B2 (ja) | 合成音声判別装置、方法及びプログラム | |
JP2012168296A (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP7287006B2 (ja) | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム | |
JP2005221727A (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
JP5672155B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140402 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140422 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140505 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5549506 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |