JP2012073361A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP2012073361A
JP2012073361A JP2010217428A JP2010217428A JP2012073361A JP 2012073361 A JP2012073361 A JP 2012073361A JP 2010217428 A JP2010217428 A JP 2010217428A JP 2010217428 A JP2010217428 A JP 2010217428A JP 2012073361 A JP2012073361 A JP 2012073361A
Authority
JP
Japan
Prior art keywords
section
utterance
conversation
sections
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010217428A
Other languages
English (en)
Other versions
JP5549506B2 (ja
Inventor
Masaharu Harada
将治 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010217428A priority Critical patent/JP5549506B2/ja
Publication of JP2012073361A publication Critical patent/JP2012073361A/ja
Application granted granted Critical
Publication of JP5549506B2 publication Critical patent/JP5549506B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】会話のような比較的長い音声データから特定のキーワードを認識する精度を向上できる音声認識装置を提供する。
【解決手段】音声認識装置1は、音声データの一部が分類される複数の区分の何れかに対応する複数の単語辞書を記憶する記憶部3と、処理部4とを有する。処理部4は、音声データから複数の会話区間を検出する会話区間検出機能11と、音声データから複数の発声区間を検出する発声区間検出機能12と、複数の発声区間のそれぞれを、複数の会話区間のうちのその発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類する区間分類機能13と、少なくとも一つの発声区間について、複数の単語辞書のうち、発声区間が分類された区分に対応する単語辞書を記憶部から取得する単語辞書選択機能14と、発声区間の少なくとも一つから、その発声区間について取得された単語辞書を用いて特定のキーワードを検出する検出機能15とを実現する。
【選択図】図2

Description

本発明は、例えば、単語辞書を用いて音声データ中の特定のキーワードを認識する音声認識装置及び音声認識方法に関する。
従来より、音声データ中に含まれる特定のキーワードを認識する技術が開発されている。このような技術の一つとして、ワードスポッティングと呼ばれる技術がある。ワードスポッティングでは、認識するキーワードの音声データに関する特徴を表す音響モデルが登録された単語辞書が予め作成される。そしてワードスポッティングに基づく音声認識装置は、音声データを解析することにより、単語辞書に登録されたキーワードを認識する。
このワードスポッティングが使用する情報は、文法またはN-gramモデルといった言語情報を用いた音声認識技術が使用する情報よりも少ないので、ワードスポッティングに基づく音声認識アルゴリズムは比較的シンプルである。そのため、ワードスポッティングに基づく音声認識装置の開発コストは、言語情報を用いた音声認識装置の開発コストよりも安価であるという利点を有する。
しかしながら、ワードスポッティングに基づく音声認識装置は、文の構造、または語順といった情報を利用できない。そのため、ワードスポッティングに基づく音声認識装置は、認識精度を十分に高くできないおそれがあった。
そこで、公知技術の一例では、利用者の発話区間が文頭、文中、文末の三つの領域に分けられ、キーワードの開始位置がこれらの領域に生起する確率が、蓄積された音声データに基づいて予め統計的に学習される。そしてその確率が、キーワードに対応する項目の生起確率として設定される。そして音声認識装置は、この生起確率をキーワードの認識に利用する(例えば、特許文献1を参照)。
特開2001−5488号公報
しかしながら、音声データが、二人以上の人が互いに交互に発声するような比較的長い会話またはそのログデータである場合、音声データが分割された文頭、文中、文末の各領域内で認識対象のキーワードが出現する頻度に偏りがみられないことがある。また、認識対象のキーワードが、出現頻度が高い領域以外の領域においても出現することがある。このような場合、音声認識装置は、それらの領域ごとのキーワードの生起確率を利用しても、キーワードの認識精度を向上できないおそれがあった。
そこで本明細書は、会話のような比較的長い音声データから特定のキーワードを認識する精度を向上できる音声認識装置及び音声認識方法を提供することを目的とする。
一つの実施形態によれば、音声認識装置が提供される。この音声認識装置は、複数の話者の会話を録音した音声データを取得する音声入力部と、複数の単語辞書を記憶する記憶部であって、複数の単語辞書のそれぞれは、音声データの一部が分類される複数の区分の何れかに対応し、かつその区分において検出すべきキーワードを検出するための情報を含む記憶部と、音声データから特定のキーワードを検出する処理部とを有する。処理部は、音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、複数の発声区間のそれぞれを、複数の会話区間のうちのその発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類する区間分類機能と、複数の発声区間のうちの少なくとも一つについて、複数の単語辞書のうち、発声区間が分類された区分に対応する単語辞書を記憶部から取得する単語辞書選択機能と、発声区間の少なくとも一つから、その発声区間について取得された単語辞書を用いて特定のキーワードを検出する検出機能とを実現する。
また他の実施形態によれば、音声認識装置が提供される。この音声認識装置は、複数の話者の会話を録音した音声データを取得する音声入力部と、検出すべきキーワードの音響モデルを格納する単語辞書と、音声データの一部が分類される複数の区分の何れかに対応する複数の検出基準表とを記憶する記憶部と、音声データから特定のキーワードを検出する処理部とを有する。この処理部は、音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、複数の発声区間のそれぞれを、複数の会話区間のうちの発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類する区間分類機能と、発声区間の少なくとも一つについて、複数の検出基準表のうち、発声区間が分類された区分に対応する検出基準表を記憶部から取得する検出基準選択機能と、発声区間の少なくとも一つについて、単語辞書に格納された音響モデルを用いてキーワードに対する音響モデルの類似度を求め、その類似度が取得された検出基準表に示された検出基準を満たす場合にキーワードを検出する検出機能とを実現する。
さらに他の実施形態によれば、音声認識方法が提供される。この音声認識方法は、複数の話者の会話を録音した音声データを取得し、音声データから、複数の話者が連続して話している区間である複数の会話区間を検出し、音声データから、何れかの話者が話している区間である複数の発声区間を検出し、複数の発声区間のそれぞれを、複数の会話区間のうちのその発声区間が属する会話区間の順序に応じて互いに異なる所定のテーマに応じた複数の区分の何れかに分類し、発声区間の少なくとも一つに対して、記憶部に記憶され、複数の区分のそれぞれに対応し、かつその区分において検出すべきキーワードを検出するための情報を含む複数の単語辞書のうち、発声区間が分類された区分に対応する単語辞書を記憶部から取得し、発声区間の少なくとも一つから、発声区間に対して取得された単語辞書を用いて特定のキーワードを検出することを含む。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声認識装置及び音声認識方法は、会話のような比較的長い音声データから特定のキーワードを認識する精度を向上できる。
第1の実施形態による音声認識装置の概略構成図である。 第1の実施形態による音声認識装置が有する処理部の概略構成図である。 音声データと会話区間及び発声区間の関係の一例を示す図である。 第1の実施形態による音声認識処理の動作フローチャートを示す図である。 第2の実施形態による処理部の概略構成図である。 第2の実施形態による音声認識処理の動作フローチャートを示す図である。 第3の実施形態による処理部の概略構成図である。 音声データと会話区間、発声区間及び会話中断区間の関係の一例を示す図である。 第3の実施形態による音声認識処理の動作フローチャートを示す図である。 第4の実施形態による処理部の概略構成図である。 第4の実施形態による音声認識処理の動作フローチャートを示す図である。
以下、図を参照しつつ、様々な実施形態による音声認識装置について説明する。
発明者は、鋭意研究の結果、会話が録音された音声データでは、複数の話者が連続して発声している区間である会話区間に応じて、それぞれ特定のキーワードの出現頻度が異なるという知見を得た。
そこで、この音声認識装置は、音声データから会話区間及び発声区間をそれぞれ検出し、各発声区間を、その発声区間が属する会話区間に応じて、それぞれが会話の内容に共通のキーワードを含む複数の区分の何れかに分類する。そしてこの音声認識装置は、発声区間が分類された区分に応じて予め準備された単語辞書を用いて特定のキーワードを認識することで、そのキーワードの認識精度の向上を図る。
本実施形態において、音声データは、二人以上の話者が直接あるいは電話回線などの通信回線を通じて会話する会話音声を録音したデータである。また検出対象となる特定のキーワードは、音声認識装置が用いられる用途に応じて予め設定される。特定のキーワードは、例えば、話者の氏名、話者が属する組織の名称、特定の時間、会話のテーマに応じて会話中に出現することが想定される様々な固有名詞、あるいは特定の動詞、形容詞、副詞若しくは名詞を含む。
図1は、一つの実施形態による音声認識装置の概略構成図である。本実施形態では、音声認識装置1は、音声入力部2と、記憶部3と、処理部4と、出力部5とを有する。
音声入力部2は、音声認識処理が行われる音声データを取得する。そのために、音声入力部2は、例えば、少なくとも1本のマイクロホン(図示せず)とマイクロホンに接続されたアナログ−デジタル変換器(図示せず)とを有する。この場合、マイクロホンは、マイクロホン周囲の音を集音してアナログ音声信号を生成し、そのアナログ音声信号をアナログ−デジタル変換器へ出力する。アナログ−デジタル変換器は、アナログ音声信号をデジタル化することにより音声データを生成する。そしてアナログ−デジタル変換器は、その音声データをアナログ−デジタル変換器と接続された処理部4へ出力する。
あるいは、音声入力部2は、音声認識装置1を通信ネットワークに接続するためのインターフェース回路を有してもよい。この場合、音声入力部2は、通信ネットワークに接続されたファイルサーバなどの他の機器から、その通信ネットワークを介して音声データを取得し、取得した音声データを処理部4へ出力する。
さらにまた、音声入力部2は、ユニバーサル・シリアル・バス(Universal Serial Bus、USB)といったシリアスバス規格に従ったインターフェース回路を有してもよい。この場合、音声入力部2は、例えば、ハードディスクなどの磁気記憶装置、光記憶装置あるいは半導体メモリ回路と接続され、それらの記憶装置から音声データを読み込み、その音声データを処理部4へ出力する。
記憶部3は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部3は、処理部4で用いられる各種コンピュータプログラム及び音声認識処理に用いられる各種のデータを記憶する。さらに記憶部3は、音声入力部3を介して取得された音声データを記憶してもよい。
記憶部3に記憶される、音声認識処理に用いられるデータには、音声データ中に含まれる特定のキーワードを検出するために用いられる複数の単語辞書が含まれる。各単語辞書は、会話の内容に共通のキーワードを含む複数の区分の何れかと関連付けられる。各単語辞書は、関連付けられた区分の識別番号とともに記憶部3に記憶される。なお、各区分は会話音声中のキーワードの統計情報に基づいて決定される。単語辞書の詳細は後述する。
出力部5は、処理部4から受け取った特定のキーワードの検出結果を表す検出結果情報を、液晶ディスプレイといった表示装置6へ出力する。そのために、出力部5は、例えば、表示装置6を音声認識装置1と接続するためのビデオインターフェース回路を有する。
また出力部5は、検出結果情報を、通信ネットワークを介して音声認識装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声認識装置1と接続するためのインターフェース回路を有する。なお、音声入力部2も通信ネットワークを介して音声データを取得する場合、音声入力部2と出力部5は一体化されていてもよい。
処理部4は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部4は、音声データに含まれる特定のキーワードをワードスポッティングにより検出する。そのために、処理部4は、会話区間検出部11と、発声区間検出部12と、区間分類部13と、単語辞書選択部14と、検出部15とを有する。
処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部4が有するこれらの各部は、それぞれ、別個の回路として、音声認識装置1に実装されてもよい。
会話区間検出部11は、音声データから、複数の話者が連続的に発声する区間である会話区間を検出する。
本実施形態では、会話区間検出部11は、音声データ中において、所定の音量以下の区間が第1の所定時間継続する期間を会話区間の区切りとして検出する。そして会話区間検出部11は、隣接する二つの会話区間の区切りで挟まれた区間を一つの会話区間とする。なお、所定の音量は、例えば、何れの話者も発声していない状態における音量の最大値である。また第1の所定時間は、例えば、2秒〜5秒の何れか、代表的には2秒に設定される。
また、会話区間検出部11は、音声データ中で人の声でない所定の音声、例えば、トーン信号、電話機が発する保留音またはメロディーが第1の所定時間継続する期間を会話区間の区切りとして検出してもよい。会話区間検出部11は、このような所定の音声を検出するために、例えば、その所定の音声に相当するテンプレートと音声データとのテンプレートマッチングを行う。そして、会話区間検出部11は、テンプレートと一致する期間を会話区間の区切りとして検出する。あるいは、会話区間検出部11は、音声データを所定時間長(例えば、100m秒)の期間ごとにフーリエ変換してそれぞれ周波数成分を求める。そして会話区間検出部11は、各期間のうち、所定の音声について特徴的な1以上の周波数成分の強度が所定の閾値以上となる期間を区切り候補期間として検出する。そして会話区間検出部11は、区切り候補期間が第1の所定時間以上継続する場合、その期間を会話区間の区切りとして検出する。
会話区間検出部11は、検出した各会話区間に、例えば、音声データの先頭に近い方から順に識別番号を付す。そして会話区間検出部11は、各会話区間の識別番号と、各会話区間の開始時刻と終了時刻とを、発声区間検出部12及び区間分類部13へ出力する。
発声区間検出部12は、音声データ中で一人の話者が発声している区間である発声区間を検出する。
本実施形態では、発声区間検出部12は、会話区間検出部11から受け取った各会話区間の開始時刻と終了時刻により特定される、音声データ中の各会話区間内において、所定の音量以下の区間が第2の所定時間継続した期間を発声区間の区切りとして検出する。そして発声区間検出部12は、隣接する二つの発声区間の区切りで挟まれた区間、あるいは発声区間の区切りと会話区間の開始時刻または終了時刻で挟まれた区間を一つの発声区間とする。なお、所定の音量は、例えば、何れの話者も発声していない状態における音量の最大値である。また第2の所定時間は、上記の第1の所定時間よりも短い時間であり、例えば、0.5秒〜2秒の何れか、代表的には0.5秒に設定される。
発声区間検出部12は、検出した各発声区間に、例えば、音声データの先頭に近い方から順に識別番号を付す。そして発声区間検出部12は、各発声区間の識別番号と、各発声区間の開始時刻と終了時刻とを区間分類部13へ出力する。
なお、発声区間検出部12も、人の声でない所定の音声、例えば、トーン信号、電話機が発する保留音またはメロディーが第2の所定時間継続する部分を発声区間の区切りとして検出してもよい。
また発声区間検出部12は、会話区間検出部11が会話区間を検出するよりも先に、あるいは同時に発声区間を検出してもよい。この場合、発声区間検出部12は、音声データ中において、所定の音量以下の区間が第2の所定時間継続する部分を発声区間の区切りとして検出する。そして発声区間検出部12は、隣接する二つの発声区間の区切りで挟まれた区間を一つの発声区間とする。そして発声区間検出部12は、会話区間とは無関係に、例えば、音声データの先頭から順番に各発声区間に識別番号を付す。
区間分類部13は、各発声区間に対して適切な単語辞書が利用されるように、発声区間が属する会話区間の音声データの先頭からの順序及び会話区間内の発声区間の順序に基づいて、各発声区間を複数の区分の何れかに分類する。
例えば、音声データがコンシューマとコールセンターあるいはオフィスの受付間での電話による会話を録音したものである場合、挨拶の言葉、名称など、特定のキーワードの出現頻度は会話区間に応じて異なる。例えば、最初の会話区間では、「こちらは○○です」といった、話者または話者が属する組織を紹介するメッセージが話されることが多いので、特定の名称の出現頻度が高い。また、最初の会話区間では、「おはようございます」といった挨拶の言葉の出現頻度も高い。一方、2番目以降の会話区間では、そのような特定の名称の出現頻度は最初の会話区間における出現頻度よりも低くなる。その代わりに、2番目以降の会話区間では、会話のテーマに関連する固有名詞または特定の動詞などの出現頻度が高くなる。
さらに、各会話区間中でも、会話の冒頭部分と、会話の終端部分と、その他の部分とで、それぞれ、出現頻度が高いキーワードが異なる傾向にある。例えば、冒頭部分では、「もしもし」、「お待たせいたしました」といった会話を開始する際の挨拶に関するキーワードの出現頻度が高い。一方、会話の終端部分では、「少々お待ち下さい」といった会話を中断または終了する際の挨拶に関するキーワードの出現頻度が高い。また、その他の部分、すなわち、会話の中間部分では、会話のテーマに関する固有名詞の出現頻度が高い。
そこで、本実施形態では、区間分類部13は、各発声区間を、その発声区間が属する会話区間が時間順に最初の会話区間である場合とその他の会話区間である場合とで、異なる区分に分類する。
さらに、区間分類部13は、各発声区間を、その発声区間が会話区間の冒頭部分、中間部分、及び終端部分の何れに属するかに応じて異なる区分に分類する。例えば、区間分類部13は、会話区間の先頭からα個以内の発声区間を、会話区間の冒頭部分に対応する区分に分類する。また区間分類部13は、会話区間の終端からβ個以内の発声区間を会話区間の終端部分に対応する区分に分類する。さらに区間分類部13は、会話区間の先頭から(α+1)個目の発声区間から会話区間の終端から(β+1)個目の発声区間までに含まれる発声区間を、会話区間の中間部分に対応する区分に分類する。したがって、各発声区間は、6通りに分類されることになる。
あるいは、区間分類部13は、各発声区間を、その発声区間が属する会話区間が時間順に最初の会話区間である場合と、最後の会話区間である場合と、その他の会話区間である場合とで、異なる区分に分類してもよい。この場合には、各発声区間は、9通りに分類されることになる。
なお、α及びβは、例えば、2に設定される。そのため、注目する会話区間に含まれる発声区間の数が4個以下の場合には、区間分類部13は、その会話区間に含まれる各発声区間を、先頭部分に対応する区分または終端部分に対応する区分の何れか一方に分類してもよい。あるいは、区間分類部13は、会話区間の先頭からα個の範囲に含まれ、かつ、会話区間の終端からβ個の範囲に含まれる発声区間を、先頭部分に対応する区分と終端部分に対応する区分の両方に属するように分類してもよい。
図3は、音声データと会話区間及び発声区間の関係の一例を示す図である。図3において、横軸は時間を表す。また、α=β=2とする。一番上の線300は、音声データ全体を表す。2列目の点線301、302は、それぞれ会話区間を表す。そして下の2列の各線311〜318は、それぞれ、発声区間を表す。この例では、会話区間301に属する発声区間311〜313と会話区間302に属する発声区間314〜318は、それぞれ異なる区分に分類される。便宜上、会話区間301に属する発声区間が分類される区分を区分Aとし、会話区間302に属する発声区間が分類される区分を区分Bとする。会話区間301に含まれる発声区間311は、会話区間の先頭から2個以内なので、会話区間の冒頭部分に対応する区分に分類される。なお、以下では、便宜上、会話区間内の冒頭部分に相当する区分を'a'、中間部分に相当する区分を'b'、終端部分に相当する区分を'c'と表記する。すなわち、発声区間311は、区分A−aに分類される。一方、発声区間313は、会話区間301の終端から2個以内なので、会話区間301の終端部分に相当する区分(すなわち、区分A−c)に分類される。また、発声区間312は、会話区間の先頭及び終端の両方から2個以内に位置するので、区分A−a及び区分A−cの両方に分類される。
また、発声区間314、315は、それぞれ、区分B−aに分類され、発声区間316は区分B−bに分類され、発声区間317、318は、それぞれ、区分B−cに分類される。
区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区間分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を検出部15へ出力する。
単語辞書選択部14は、音声データ中に含まれる特定のキーワードを検出するために利用される単語辞書を、発声区間が分類された区分に応じて選択する。そのために、単語辞書選択部14は、検出部15から発声区間に関連付けられた区分の識別番号を受け取ると、その区分についての識別番号に対応する単語辞書を記憶部3から読み込む。そして単語辞書選択部14は、読み込んだ単語辞書を検出部15へ渡す。
単語辞書は、検出すべきキーワードを検出するための情報を含む。例えば、単語辞書は、そのような情報として、検出すべきキーワードごとに、対応する音響モデルと、そのキーワードの表記を表すテキストを含む。例えば、音響モデルは、隠れマルコフモデルを含む。この場合、特定のキーワードに対応する音響モデルは、そのキーワードに含まれる複数の音素のそれぞれに対応する複数の入力ノードが、そのキーワードにおける音素の時系列に沿って連結されたものとなる。そしてこの音響モデルの各入力ノードには、例えば、音声データの所定期間(この所定期間は、例えば、キーワードの時間長に対応する)を時系列的に連続する複数の解析単位期間に分割し、各解析単位期間のそれぞれから抽出された所定の特徴量が入力される。これにより、音響モデルは、その所定期間に含まれる音声信号が特定のキーワードである確率を出力する。所定の特徴量は、例えば、解析単位期間に含まれる音声データをフーリエ変換して得られるフーリエ係数の組をさらにフーリエ変換することにより得られるケプストラム係数とすることができる。なお、解析単位期間は、例えば、10ミリ秒〜100ミリ秒程度に設定される。
また本実施形態では、各単語辞書に登録されるキーワードは、区分に応じて異なり、例えば、所定の区分において統計的に出現頻度が低い(例えば、出現確率が0.001以下)キーワードは、その所定の区分に対応する単語辞書には含まれない。これにより、音声認識装置1は、各発声区間において実際には出現していないキーワードを誤って検出する可能性を低減できる。その結果として、音声認識装置1は、各発声区間において出現する可能性のあるキーワードに対して、検出する基準を緩やかに設定することができる。そのため、この音声認識装置1は、検出対象となるキーワードの認識精度を向上できる。
検出部15は、発声区間ごとに、発声区間が分類された区分の識別番号を単語辞書選択部14へ通知する。そして検出部15は、単語辞書選択部14から受け取った、その発声区間が分類された区分に応じた単語辞書を利用して、音声データから特定のキーワードを検出する。
検出部15は、発声区間を解析単位期間で分割し、解析単位期間ごとに、ケプストラム係数などの特徴量を求める。そして検出部15は、得られた特徴量を、単語辞書に含まれる各キーワードに対応する各音響モデルに入力する。そして検出部15は、キーワードごとに、音響モデルの出力として、そのキーワードである確率を得る。
検出部15は、各キーワードに対応する確率を所定の閾値と比較する。そして確率が所定の閾値以上である場合、検出部15は、その確率に対応するキーワードを検出する。なお、所定の閾値は、例えば、0.6〜0.9の何れかに設定される。
検出部15は、単語辞書を参照して、検出したキーワードのテキストを特定し、そのテキストを含む検出結果情報を出力部5へ出力する。
図4は、音声認識装置1の処理部4により実行される音声認識処理の動作フローチャートを示す。
処理部4は、音声入力部2を介して音声データを取得する(ステップS101)。そして処理部4は、音声データを処理部4の会話区間検出部11、発声区間検出部12及び検出部15へ渡す。
会話区間検出部11は、音声データに含まれる会話区間を検出する(ステップS102)。会話区間検出部11は、検出した各会話区間に識別番号を付す。そして会話区間検出部11は、各会話区間の識別番号、開始時刻及び終了時刻を発声区間検出部12及び区間分類部13へ通知する。
また発声区間検出部12は、音声データに含まれる発声区間を検出する(ステップS103)。発声区間検出部12は、検出した各発声区間に識別番号を付す。そして発声区間検出部12は、各発声区間の識別番号、開始時刻及び終了時刻を区間分類部13へ通知する。
区間分類部13は、各発声区間を、その発声区間が属する会話区間の音声データ先頭からの順序及び会話区間中の順序に基づいて、複数の区分の何れかに分類する(ステップS104)。区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区分分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を処理部4の検出部15へ出力する。
検出部15は、音声データ中の最初の発声区間を注目する発声区間として設定する(ステップS105)。そして検出部15は、注目する発声区間が分類された区分の識別番号を処理部4の単語辞書選択部14へ通知する。
単語辞書選択部14は、注目する発声区間が分類された区分の識別番号に基づいて、注目する発声区間に応じた単語辞書を選択する(ステップS106)。そして単語辞書選択部14は、選択した単語辞書を記憶部3から読み込む。単語辞書選択部14は、選択した単語辞書を検出部15へ出力する。
検出部15は、注目する発声区間の開始時刻から終了時刻までに含まれる音声データに対して、選択された単語辞書を用いて特定のキーワードの検出処理を実行する(ステップS107)。そして検出部15は、特定キーワードが検出されたか否か判定する(ステップS108)。
特定キーワードが検出された場合(ステップS108−Yes)、検出部15は、その検出されたキーワードのテキストを単語辞書を参照して求め、そのテキストを含む検出結果情報を出力部5へ出力する(ステップS109)。
ステップS109の後、あるいはステップS108にて特定キーワードが検出されなかった場合(ステップS108−No)、検出部15は、注目する発声区間が最後の発声区間か否か判定する(ステップS110)。
注目する発声区間が最後の発声区間でなければ(ステップS110−No)、検出部15は、現在の注目発声区間の次の発声区間を注目発声区間とする(ステップS111)。そして検出部15は、ステップS106以降の処理を繰り返す。
一方、注目する発声区間が最後の発声区間であれば(ステップS110−Yes)、検出部15は、音声認識処理を終了する。
なお、処理部4は、ステップS102の処理とステップS103の処理の順序を入れ替えてもよい。あるいは、処理部4は、ステップS102の処理とステップS103の処理を同時に行ってもよい。この場合には、上記のように、発声区間検出部12は、各会話区間の開始時刻及び終了時刻を参照せずに発声区間を検出する。
以上に説明してきたように、この音声認識装置は、会話を録音した音声データ中で発声区間及び会話区間を検出する。そしてこの音声認識装置は、各発声区間について特定キーワードを検出するために利用する単語辞書を、その発声区間が属する会話区間の音声データ中の順序及び会話区間内での順序に基づいて選択する。そのため、この音声認識装置は、会話中で通常交わされる言葉に含まれる、特定のキーワードの出現頻度が高い発声区間に応じた適切な単語辞書を特定キーワードを検出するために利用できる。
そのため、この音声認識装置は、良好な精度で特定キーワードを検出できる。
次に、第2の実施形態による音声認識装置について説明する。
この第2の実施形態による音声認識装置は、発声区間ごとに話者を識別する。そしてこの音声認識装置は、各会話区間の順序と発声区間の順序だけでなく、会話区間における各話者の発声区間の長さの比率に応じて単語辞書を選択する。
図5は、第2の実施形態による音声認識装置の処理部の概略構成図である。処理部21は、会話区間検出部11と、発声区間検出部12と、区間分類部13と、単語辞書選択部14と、検出部15と、話者識別部16と、発声比率算出部17とを有する。
図5において、処理部21の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第2の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部21が各発声区間について話者ごとの発声比率を算出し、発声比率が高い話者と発声比率が低い話者とで発声区間を異なる区分に分類する点で異なる。
そこで以下では、処理部21のうちの第1の実施形態による処理部4と異なる点について説明する。第2の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
本実施形態では、発声区間検出部12は、検出した各発声区間の開始時刻及び終了時刻と識別番号を、区間分類部13だけでなく話者識別部16にも通知する。また会話区間検出部11は、検出した各会話区間の開始時刻及び終了時刻と識別番号を、発声区間検出部12及び区間分類部13だけでなく、発声比率算出部17にも通知する。
話者識別部16は、発声区間ごとに話者を識別する。例えば、音声データが、電話による通話をステレオで録音したものである場合、話者識別部16は、発声区間に含まれる信号が左右何れのチャネルの信号かを判定することにより話者を識別できる。そこで、話者識別部16は、注目する発声区間の開始時刻から終了時刻までの信号の平均強度を各チャネルについて求める。そして話者識別部16は、左側のチャネルの平均強度が右側のチャネルの平均強度よりも高い場合、その発声区間の話者を第1の話者とし、一方、右側のチャネルの平均強度が左側のチャネルの平均強度よりも高い場合、その発声区間の話者を第2の話者とする。なお、左側のチャネルの平均強度と右側のチャネルの平均強度が何れも所定の閾値よりも大きい場合、両方の話者が話していると推定される。そこでこの場合、話者識別部16は、その発声区間の話者は第1及び第2の話者の両方とする。なお、所定の閾値は、例えば、誰も話していない場合の音量の最大値に設定される。
また、音声データが、複数のマイクロホンを用いて録音されている場合、話者識別部16は、各マイクロホンに到達した音の時間差に基づいて音の到来方向を推定することにより、話者を識別してもよい。例えば、話者識別部16は、注目する発声区間についての音の到来方向が複数のマイクロホンが設置された位置の中点を基準とした所定の角度範囲内に含まれるとき、その発声区間の話者を第1の話者とする。一方、注目する発声区間についての音の到来方向がその所定の角度範囲から外れるとき、その発声区間の話者を第2の話者とする。所定の角度範囲は、第1及び第2の話者の位置と、各マイクロホンの位置関係に応じて予め定められる。
話者識別部16は、発声区間ごとに、その発声区間の話者の識別番号を割り当てる。そして話者識別部16は、発声区間の識別番号とともに、その発声区間の話者の識別番号を区間分類部13及び発声比率算出部17へ通知する。
発声比率算出部17は、各会話区間について、話者ごとに、その話者が話している期間が会話区間に占める比率である発声比率を算出する。
音声データが、例えば、コンシューマからコールセンターへの問い合わせについての通話を録音したものである場合、最初の会話区間など、特定の会話区間における話の内容は、ある程度パターン化されている。そのため、音声認識装置は、その特定の会話区間において、コンシューマの発声比率と、コールセンター側のオペレータの発声比率のうち、発声比率が高い方を予め推定できる。したがって、このような特定の会話区間では、発声比率によって、話者がコンシューマかオペレータかを判定できる。そこで、コンシューマの発声区間において出現頻度が高いキーワードを含むコンシューマ用単語辞書と、オペレータの発声区間において出現頻度が高いキーワードを含むオペレータ用単語辞書とが予め作成される。なお、コンシューマ用単語辞書及びオペレータ用単語辞書は、会話区間に応じて、それぞれ複数作成されてもよい。記憶部3は、コンシューマ用単語辞書とオペレータ用単語辞書とを記憶する。そして音声認識装置は、各会話区間における話者ごとの発声比率によって話者がコンシューマかオペレータかを推定できるので、その発声比率に応じてコンシューマ用単語辞書かオペレータ用単語辞書の何れかを選択できる。
また、音声認識装置は、会話区間に占める期間が長い方の話者が会話を主導していると推定できる。さらに、特定のチャネルの音声がコンシューマによるものか、あるいはオペレータによるものかが予め分かっていることもある。このような場合、会話を主導している話者に応じて、会話の内容がある程度推定可能である。
例えば、会話区間に占めるコンシューマの発声比率の方がオペレータの発声比率よりも高ければ、会話の内容は、コンシューマからオペレータへの問い合わせであると推定される。このような場合、コンシューマの発声区間には、問い合わせの対象となった事項に関するキーワードが含まれる確率が高くなる。
一方、会話区間に占めるコンシューマの発声比率よりもオペレータの発声比率が高ければ、会話の内容は、オペレータからコンシューマへの回答であると推定される。このような場合、オペレータの発声区間には、回答の対象となった事項に関するキーワードが含まれる確率が高くなる。
そこで、音声認識装置は、発声比率に応じて予め作成された単語辞書を記憶しておくとともに、その発声比率に応じて単語辞書を選択することにより、各発声区間について出現頻度が高いキーワードを含む単語辞書を用いることができる。その結果、音声認識装置は、キーワードの検出精度を向上できる。
発声比率算出部17は、注目する会話区間の開始時刻と終了時刻の間に開始時刻または終了時刻が含まれる発声区間を、その会話区間に含まれる発声区間とする。そして発声比率算出部17は、会話区間に含まれる発声区間のうち、注目する話者の識別番号が割り当てられた発声区間の時間長の合計を算出する。そして発声比率算出部17は、注目する話者の発声区間の時間長の合計を会話区間の時間長で除することにより、その話者についての発声比率を求める。
発声比率算出部17は、各会話区間について話者ごとに発声比率を求める。そして発声比率算出部17は、各会話区間の識別番号とともに、対応する会話区間における各話者の発声比率を区間分類部13へ通知する。
区間分類部13は、会話区間ごとに、各話者の発声比率に応じて会話区間に含まれる発声区間を分類する。
本実施形態では、区間分類部13は、第1の実施形態による区間分類部13と同様に、時間順に最初の会話区間に属する発声区間とその他の会話区間に属する発声区間とを別の区分に分類する。あるいは、区間分類部13は、時間順に最初の会話区間に属する発声区間と、最後の会話区間に属する発声区間と、その他の会話区間に属する発声区間とをそれぞれ別の区分に分類してもよい。
さらに区間分類部13は、各会話区間に含まれる発声区間を、発声比率が高い方の話者に対応する発声区間と発声比率が低い方の話者に対応する発声区間とを、それぞれ異なる区分に分類する。
ここで、再度図3を参照すると、発声区間311、313、315、317及び318は、話者Aの発声区間であり、一方、発声区間312、314及び316は、話者Bの発声区間である。そして会話区間301では、話者Aの発声比率の方が、話者Bの発声比率よりも高い。そこで区間分類部13は、話者Aの発声区間である発声区間311及び313を、最初の会話区間に対応し、かつ、発声比率が高い区分に分類する。一方、区間分類部13は、話者Bの発声区間である発声区間312を、最初の会話区間に対応し、かつ、発声比率が低い区分に分類する。
また、会話区間302についても、話者Aの発声比率の方が話者Bの発声比率よりも高い。そこで区間分類部13は、話者Aの発声区間である発声区間315、317及び318を、2番目以降の会話区間に対応し、かつ、発声比率が高い区分に分類する。一方、区間分類部13は、話者Bの発声区間である発声区間314及び316を、2番目以降の会話区間に対応し、かつ、発声比率が低い区分に分類する。
なお、区間分類部13は、各会話区間に含まれる発声区間を、さらに、会話区間の冒頭部分、中間部分、及び終端部分の何れに含まれるかによって分類してもよい。
区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区間分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を検出部15へ出力する。
検出部15は、発声区間ごとに、その発声区間に関連付けられた区分の識別番号を単語辞書選択部14に通知する。単語辞書選択部14は、区分の識別番号に対応する単語辞書を記憶部3から読込み、その単語辞書を検出部15へ渡す。
検出部15は、単語辞書選択部14から受け取った単語辞書を用いてその発声区間中に含まれる特定のキーワードを検出する。
図6は、第2の実施形態による音声認識装置の処理部21により実行される音声認識処理の動作フローチャートを示す。
処理部21は、音声入力部2を介して音声データを取得する(ステップS201)。そして処理部21は、音声データを処理部21の会話区間検出部11、発声区間検出部12、話者識別部16及び検出部15へ渡す。
会話区間検出部11は、音声データに含まれる会話区間を検出する(ステップS202)。会話区間検出部11は、検出した各会話区間に識別番号を付す。そして会話区間検出部11は、各会話区間の識別番号、開始時刻及び終了時刻を発声区間検出部12、区間分類部13及び発声比率算出部17へ通知する。
また発声区間検出部12は、音声データに含まれる発声区間を検出する(ステップS203)。発声区間検出部12は、検出した各発声区間に識別番号を付す。そして発声区間検出部12は、各発声区間の識別番号、開始時刻及び終了時刻を区間分類部13、話者識別部16及び発声比率算出部17へ通知する。
話者識別部16は、各発声区間の話者を識別する(ステップS204)。そして話者識別部16は、発声区間ごとに、発声区間の識別番号とその発声区間の話者の識別番号を発声比率算出部17及び区間分類部13へ通知する。
また、発声比率算出部17は、各会話区間について、話者ごとの発声比率を算出する(ステップS205)。そして発声比率算出部17は、会話区間ごとに、各話者の発声比率を区間分類部13へ通知する。
区間分類部13は、各発声区間を、その発声区間が属する会話区間の音声データ先頭からの順序及びその発声区間に対応する発声比率に基づいて、複数の区分の何れかに分類する(ステップS206)。区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区分分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を処理部21の検出部15へ出力する。
検出部15は、音声データ中の最初の発声区間を注目する発声区間として設定する(ステップS207)。そして検出部15は、注目する発声区間が分類された区分の識別番号を処理部21の単語辞書選択部14へ通知する。
単語辞書選択部14は、注目する発声区間が分類された区分の識別番号に基づいて、注目する発声区間に応じた単語辞書を選択する(ステップS208)。そして単語辞書選択部14は、選択した単語辞書を記憶部3から読み込む。単語辞書選択部14は、選択した単語辞書を検出部15へ出力する。
検出部15は、選択された単語辞書を用いて特定のキーワードの検出処理を実行する(ステップS209)。そして検出部15は、特定キーワードが検出されたか否か判定する(ステップS210)。
特定キーワードが検出された場合(ステップS210−Yes)、検出部15は、その検出されたキーワードのテキストを単語辞書を参照して求め、そのテキストを含む検出結果情報を出力部5へ出力する(ステップS211)。
ステップS211の後、あるいはステップS210にて特定キーワードが検出されなかった場合(ステップS210−No)、検出部15は、注目する発声区間が最後の発声区間か否か判定する(ステップS212)。
注目する発声区間が最後の発声区間でなければ(ステップS212−No)、検出部15は、現在の注目発声区間の次の発声区間を注目発声区間とする(ステップS213)。そして検出部15は、ステップS208以降の処理を繰り返す。
一方、注目する発声区間が最後の発声区間であれば(ステップS212−Yes)、検出部15は、音声認識処理を終了する。
なお、処理部21は、ステップS202の処理とステップS203の処理の順序を入れ替えてもよい。あるいは、処理部21は、ステップS202の処理とステップS203の処理を同時に行ってもよい。
以上に説明してきたように、第2の実施形態による音声認識装置は、発声区間が属する会話区間の順序だけでなく、各会話区間中の話者ごとの発声比率に応じて発声区間を分類する。そのため、この音声認識装置は、各会話区間における会話の内容を発声比率により推定して適切に単語辞書を選択することができるので、キーワード検出の精度をより向上できる。
なお、変形例によれば、話者識別部は、音声データから、直接話者を識別してもよい。この場合、話者識別部は、例えば、音声データを所定長の話者解析期間ごとに分割し、話者解析期間ごとに話者を識別する。そして話者識別部は、各話者解析期間に対応する話者の識別番号を関連付ける。話者識別部は、各話者解析期間の開始時刻と話者の識別番号を発声比率算出部へ通知する。発声比率算出部は、注目する会話区間の開始時刻と終了時刻の間に開始時刻となる話者解析期間を、その会話区間に含まれる話者解析期間とする。そして発声比率算出部は、各会話区間について、それぞれ、話者ごとの話者解析期間の合計の時間長を求める。そして発声比率算出部は、話者ごとの解析期間の合計の時間長を、会話区間の時間長で除することにより、話者ごとの発声比率を求める。この場合、各発声区間が対応する話者を決定するために、区間分類部は、発声区間と重なる1以上の話者解析期間が対応する話者を、その発声区間の話者とする。
次に、第3の実施形態による音声認識装置について説明する。第3の実施形態による音声認識装置は、音声データ中で、連続した一連の会話が途切れる会話中断区間を検出する。そしてこの音声認識装置は、その会話中断区間の前後で、異なる単語辞書を用いることでキーワード検出精度の向上を図る。
図7は、第3の実施形態による音声認識装置の処理部の概略構成図である。処理部31は、会話区間検出部11と、発声区間検出部12と、区間分類部13と、単語辞書選択部14と、検出部15と、会話中断区間検出部18とを有する。
図7において、処理部31の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第3の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部31が会話中断区間長区間を検出し、その会話中断区間の前後で発声区間を異なる区分に分類する点で異なる。
そこで以下では、処理部31のうちの第1の実施形態による処理部4と異なる点について説明する。第3の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
会話中断区間検出部18は、音声データから、会話が長期間にわたって途切れる区間である長期無音区間を検出する。この長期無音区間は、会話中断区間の一例である。
長期無音区間は、例えば、一方の話者が何らかの理由により他方の話者を待たせたり、電話を転送することにより生じる。このような長期無音区間があると、長期無音区間の前後で会話のテーマが異なることがある。そのため、長期無音区間の前の会話区間において出現頻度が高いキーワードと、長期無音区間の後の会話区間において出現頻度が高いキーワードは異なることがある。そのため、適切な単語辞書を選択するために、音声認識装置は、長期無音区間を検出することが好ましい。
本実施形態では、会話中断区間検出部18は、音声データ中において、所定の音量以下の区間が第3の所定時間継続する区間を長期無音区間として検出する。なお、所定の音量は、例えば、何れの話者も発声していない状態における音量の最大値である。また第3の所定時間は、会話区間の区切りに相当する第1の所定時間よりも長く、例えば、20秒〜1分の何れか、代表的には20秒に設定される。
あるいは、会話中断区間検出部18は、所定の音量以下の区間が第3の所定時間継続する区間のうち、最も長い区間を長期無音区間としてもよい。この場合、第3の所定時間は、例えば、10秒に設定される。
なお、会話中断区間検出部18は、人の声でない所定の音声、例えば、トーン信号、電話機が発する保留音またはメロディーが第3の所定時間継続する区間を会話中断区間として検出してもよい。会話中断区間検出部18は、会話区間検出部11と同様に、例えば、その所定の音声に相当するテンプレートと音声データとのテンプレートマッチングを行うことにより、このような所定の音声を検出できる。
会話中断区間検出部18は、会話中断区間の開始時刻と終了時刻のうちの少なくとも何れか一方を、区間分類部13へ出力する。
区間分類部13は、第1の実施形態による区間分類部13と同様に、時間順に最初の会話区間に属する発声区間とその他の会話区間に属する発声区間とを別の区分に分類する。
さらに、区間分類部13は、会話中断区間の直後の会話区間に属する発声区間をさらに別の区分に分類する。
また区間分類部13は、各発声区間を、会話区間の冒頭部分、中間部分、及び終端部分の何れに含まれるかによって異なる区分に分類してもよい。この場合、各発声区間は、9個の区分に分類されることになる。
なお、区間分類部13は、会話中断区間の直前の会話区間に属する発声区間をさらに別の区分に分類してもよい。この場合、各発声区間は、12個の区分に分類されることになる。
図8は、音声データと会話区間、発声区間及び会話中断区間の関係の一例を示す図である。図8において、横軸は時間を表す。一番上の線800は、音声データ全体を表す。2列目の点線801〜804は、それぞれ会話区間を表す。そして会話区間802と会話区間803間に示された矢印は会話中断区間805を表す。また下の2列の各線は、それぞれ、発声区間を表す。この例では、最初の会話区間801に属する発声区間は、他の会話区間に属する発声区間と異なる区分に分類される。また、会話中断区間の次の会話区間803に属する発声区間も、他の会話区間に属する発声区間と異なる区分に分類される。そして会話区間802に属する発声区間と会話区間804に属する発声区間とは、同じ区分に分類される。便宜上、会話区間801の発声区間が分類される区分を区分Aとし、会話区間803の発声区間が分類される区分を区分Bとし、会話区間802及び804の発声区間が分類される区分を区分Cとする。会話区間801に含まれる発声区間811は、会話区間の先頭なので、区分Aの冒頭部分に対応する区分に分類される。なお、以下では、便宜上、会話区間内の冒頭部分に対応する区分を'a'、中間部分に対応する区分を'b'、終端部分に対応する区分を'c'と表記する。したがって、発声区間811は、区分A−aに分類される。一方、発声区間812は、会話区間の最後の発声区間なので、区分A−cに分類される。同様に、会話区間802に属する発声区間813、814、815は、それぞれ、区分C−a、区分C−b、区分C−cに分類される。さらに、会話区間803に属する発声区間816、817、818は、それぞれ、区分B−a、区分B−b、区分B−cに分類される。
区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区間分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を検出部15へ出力する。
検出部15は、発声区間ごとに、その発声区間に関連付けられた区分の識別番号を単語辞書選択部14に通知する。単語辞書選択部14は、区分の識別番号に対応する単語辞書を記憶部3から読込み、その単語辞書を検出部15へ渡す。
検出部15は、単語辞書選択部14から受け取った単語辞書を用いてその発声区間中に含まれる特定のキーワードを検出する。
図9は、第3の実施形態による音声認識装置の処理部31により実行される音声認識処理の動作フローチャートを示す。
処理部31は、音声入力部2を介して音声データを取得する(ステップS301)。そして処理部31は、音声データを処理部31の会話区間検出部11、発声区間検出部12、会話中断区間検出部18及び検出部15へ渡す。
会話区間検出部11は、音声データに含まれる会話区間を検出する(ステップS302)。会話区間検出部11は、検出した各会話区間に識別番号を付す。そして会話区間検出部11は、各会話区間の識別番号、開始時刻及び終了時刻を発声区間検出部12及び区間分類部13へ通知する。
また発声区間検出部12は、音声データに含まれる発声区間を検出する(ステップS303)。発声区間検出部12は、検出した各発声区間に識別番号を付す。そして発声区間検出部12は、各発声区間の識別番号、開始時刻及び終了時刻を区間分類部13へ通知する。
また会話中断区間検出部18は、音声データ中の会話中断区間を検出する(ステップS304)。そして会話中断区間検出部18は、会話中断区間の開始時刻又は終了時刻の少なくとも一方を区間分類部13へ通知する。
区間分類部13は、各発声区間を、その発声区間が属する会話区間の音声データ先頭からの順序、その会話区間と会話中断区間との前後関係に基づいて、複数の区分の何れかに分類する(ステップS305)。区間分類部13は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区分分類部13は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を処理部31の検出部15へ出力する。
ステップS306〜S312のそれぞれは、図4に示された動作フローチャートにおけるステップS105〜S111に対応する。そのため、ここでは、ステップS306〜S312の処理の詳細な説明は省略する。
なお、処理部31は、ステップS302、ステップS303及びステップS304の処理の順序を入れ替えてもよい。あるいは、処理部31は、ステップS302、ステップS303及びステップS304の各処理を同時に行ってもよい。
以上に説明してきたように、第3の実施形態による音声認識装置は、会話中断区間の前後で、発声区間を異なる区分に分類する。そのため、この音声認識装置は、途中で話者の一方が交代したり、会話のテーマが変わる場合でも、各発声区間について適切な単語辞書を選択できる。
次に、第4の実施形態による音声認識装置について説明する。第4の実施形態による音声認識装置は、発声区間の区分に応じて、キーワードが検出されたか否かの判定に用いられる閾値をキーワードごとに設定する。また閾値は、区分に応じて調整される。そしてこの音声認識装置は、注目する発声区間が分類された区分に応じてキーワードごとの閾値を選択することで、キーワード検出精度の向上を図る。
図10は、第4の実施形態による音声認識装置の処理部の概略構成図である。処理部41は、会話区間検出部11と、発声区間検出部12と、区間分類部13と、閾値表選択部19と、検出部15とを有する。
図10において、処理部41の各構成要素には、図2に示された第1の実施形態による処理部4の対応する構成要素の参照番号と同じ参照番号を付した。この第4の実施形態による音声認識装置は、第1の実施形態による音声認識装置と比較して、処理部41が発声区間の区分に応じて単語辞書を選択する代わりにキーワードごとの閾値を表す閾値表を選択する点で異なる。
そこで以下では、処理部41のうちの第1の実施形態による処理部4と異なる点及び関連する相違点について説明する。第4の実施形態による音声認識装置のその他の構成要素については、図1及び第1の実施形態の関連する部分の説明を参照されたい。
記憶部3は、全ての発声区間に共通の1つの単語辞書を記憶する。そのため、この実施形態では、単語辞書は、音声データ全体に対して検出しようとするキーワードを全て含む。
また記憶部3は、会話の内容に共通のキーワードを含む区分ごとに閾値表を記憶する。この閾値表は、各キーワードに対する検出基準を示した検出基準表の一例である。閾値表は、単語辞書に登録された各キーワードの音響モデルを用いて検出部15により算出される、音声データ中の調査対象区間がそのキーワードである確率との比較に用いられる閾値を、キーワードのテキストとともに格納する。
閾値は、検出基準の一例であり、キーワードごとに、予め収集された音声データに基づいて求められた、各区分における出現頻度に応じて設定される。そして特定の区分において出現頻度が高いキーワードに対する閾値は、その特定の区分において出現頻度が低いキーワードよりも低く設定される。例えば、特定の区分において、出現確率が0.5以上となるキーワードに対する閾値は0.7に設定され、一方、出現確率が0.01以下となるキーワードに対する閾値は0.8に設定される。
また、特定の区分において出現しないはずのキーワードに対しては、閾値は1よりも大きい値に設定されてもよい。検出部15により音響モデルを用いて求められる確率は常に1以下となる。そのため、このように閾値を設定することで、検出部15は、特定の区分において出現しないはずのキーワードを誤って検出することを防止できる。
各閾値表は、対応する区分の識別番号とともに記憶部3に記憶される。
検出部15は、音声認識処理を開始する際に、単語辞書を記憶部3から読み込む。また検出部15は、注目する発声区間についてキーワードの検出を開始する前に、その発声区間が分類された区分の識別番号を閾値表選択部19へ通知する。
閾値表選択部19は、検出基準選択部の一例であり、検出部15から受け取った区分の識別番号に対応する閾値表を記憶部3から読み込む。そして閾値表選択部19は、その閾値表を検出部15へ渡す。
その後、検出部15は、注目する発声区間について特定キーワードを検出する処理を実行する。そして検出部15は、単語辞書に登録された各キーワードの音響モデルを用いて、それぞれのキーワードに対する確率を算出する。なお、この確率は、キーワードに対する音響モデルの類似度の一例である。そして検出部15は、各キーワードに対する確率を、閾値表選択部19から受け取った閾値表に格納されたそのキーワードに対応する閾値と比較する。なお検出部15は、音響モデルに対応するキーワードのテキストと同じテキストと関連付けられた閾値を、そのキーワードの閾値として特定する。
そして検出部15は、あるキーワードに対する確率が閾値以上となる場合、そのキーワードを検出する。そして検出部15は、検出したキーワードに対応するテキストを含む検出結果情報を出力部5へ出力する。
図11は、第4の実施形態による音声認識装置の処理部41により実行される音声認識処理の動作フローチャートを示す。
図11におけるステップS401〜S405のそれぞれは、図4に示された動作フローチャートにおけるステップS101〜S105に対応する。そのため、ここでは、ステップS401〜S405の処理の詳細な説明は省略する。
検出部15は、閾値表選択部19へ、注目する発声区間が分類された区分の識別番号を通知する。そして閾値表選択部19は、その区分の識別番号とともに記憶されている閾値表を、注目する発声区間に応じた閾値表として選択する(ステップS406)。そして閾値表選択部10は、選択した閾値表を記憶部3から読込み、その読み込んだ閾値表を検出部15へ渡す。
検出部15は、注目する発声区間の開始時刻から終了時刻の間の音声データに基づいて、単語辞書を用いて、単語辞書に登録された各キーワードの確率をそれぞれ算出する(ステップS407)。そして検出部15は、各キーワードの確率が対応する閾値以上か否か判定する(ステップS408)。
何れかのキーワードについて算出された確率が、そのキーワードに対して設定された閾値以上である場合(ステップS408−Yes)、検出部15は、そのキーワードを検出する。そして検出部15は、検出されたキーワードのテキストを単語辞書を参照して求め、そのテキストを含む検出結果情報を出力部5へ出力する(ステップS409)。なお、複数のキーワードについて算出された確率がそれぞれ閾値以上となる場合、検出部15は、それら複数のキーワード全てについて、対応するテキストを出力する。
ステップS409の後、あるいはステップS408にて何れのキーワードについての確率も対応する閾値未満である場合(ステップS408−No)、検出部15は、注目する発声区間が最後の発声区間か否か判定する(ステップS410)。
注目する発声区間が最後の発声区間でなければ(ステップS410−No)、検出部15は、現在の注目発声区間の次の発声区間を注目発声区間とする(ステップS411)。そして検出部15は、ステップS406以降の処理を繰り返す。
一方、注目する発声区間が最後の発声区間であれば(ステップS410−Yes)、検出部15は、音声認識処理を終了する。
なお、処理部41は、ステップS402の処理とステップS403の処理の順序を入れ替えてもよい。あるいは、処理部41は、ステップS402の処理とステップS403の処理を同時に行ってもよい。
以上に説明してきたように、第4の実施形態による音声認識装置は、発声区間が分類された区分に応じて、キーワード検出に利用される閾値の値を調節する。そのため、この音声認識装置は、発声区間が分類された区分ごとに、キーワードの出現頻度に応じて閾値を最適化できる。その結果として、各発声期間において出現頻度が高いキーワードは検出され易くなり、一方、出現頻度が低いキーワードは検出され難くなる。したがって、この音声認識装置は、キーワードの検出精度を向上できる。
変形例として、処理部は、第2の実施形態と同様に、発声区間を、発声比率に応じて分類してもよい。また処理部はは、第3の実施形態と同様に、発声区間を、その発声区間が属する会話区間と会話中断区間の前後関係に応じて分類してもよい。
なお、本発明は上記の実施形態に限定されるものではない。一つの変形例によれば、検出部は、音響モデルを用いる代わりに、他の音声認識手法、例えば、動的時間伸縮法によってキーワードを検出してもよい。この場合、単語辞書には、動的時間伸縮法で用いられるパラメータが格納される。
また上記の各実施形態において、検出部は、検出された複数の発声区間のうちの特定の発声区間からのみ、特定のキーワードを検出してもよい。特定の発声区間は、例えば、音声データ中の一番最初の発声区間、何れかの会話区間の中間部分に属する発声区間、何れかの会話区間の終端部分に属する発声区間、あるいは、何れかの会話区間に属する発声区間とすることができる。これにより、音声認識装置は、キーワードの検出が意図されていない発声区間から誤ってキーワードを検出することを防止できる。
さらに他の変形例では、上記の第1、第3及び第4の実施形態における区間分類部は、会話区間中の発声区間の順序によらず、発声区間が属する会話区間の順序または会話区間と会話中断区間の前後関係によって、各発声区間を分類してもよい。
さらに、上記の各実施形態による音声認識装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
コンピュータに複数の話者の会話を録音した音声データから特定のキーワードを検出させる音声認識用コンピュータプログラムであって、
前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出し、
前記音声データから、何れかの話者が話している区間である複数の発声区間を検出し、
前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類し、
前記発声区間の少なくとも一つに対して、記憶部に記憶され、前記複数の区分のそれぞれに対応し、該区分において検出すべきキーワードを検出するための情報を含む複数の単語辞書のうち、当該発声区間が分類された区分に対応する単語辞書を前記記憶部から取得し、
前記発声区間の少なくとも一つから、当該発声区間に対して取得された単語辞書を用いて前記特定のキーワードを検出する、
ことをコンピュータに実行させるコンピュータプログラム。
1 音声認識装置
2 音声入力部
3 記憶部
4、21、31、41 処理部
5 出力部
6 表示装置
11 会話区間検出部
12 発声区間検出部
13 区間分類部
14 単語辞書選択部
15 検出部
16 話者識別部
17 発声比率算出部
18 会話中断区間検出部
19 閾値表選択部

Claims (7)

  1. 複数の話者の会話を録音した音声データを取得する音声入力部と、
    複数の単語辞書を記憶する記憶部であって、該複数の単語辞書のそれぞれは、前記音声データの一部が分類される複数の区分の何れかに対応し、かつ当該区分において検出すべきキーワードを検出するための情報を含む記憶部と、
    前記音声データから特定のキーワードを検出する処理部であって、
    前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、
    前記音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、
    前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて前記複数の区分の何れかに分類する区間分類機能と、
    前記複数の発声区間のうちの少なくとも一つについて、前記複数の単語辞書のうち、当該発声区間が分類された区分に対応する単語辞書を前記記憶部から取得する単語辞書選択機能と、
    前記発声区間の少なくとも一つから、当該発声区間について取得された単語辞書を用いて前記特定のキーワードを検出する検出機能と、
    を実現する処理部と、
    を有する音声認識装置。
  2. 前記区間分類機能は、前記複数の会話区間のうちの前記音声データ中の先頭の会話区間に属する発声区間と、その他の会話区間の会話区間に属する発声区間とを、前記複数の区分のうちの互いに異なる区分に分類する、請求項1に記載の音声認識装置。
  3. 前記区間分類機能は、前記複数の発声区間のうちの少なくとも一つを、当該発声区間が属する会話区間の冒頭部分、中間部分及び終端部分の何れに属するかに応じて前記複数の区分の何れかに分類する、請求項1または2に記載の音声認識装置。
  4. 前記処理部は、
    前記複数の発声区間のそれぞれについて、当該発声区間で発声している話者を識別する話者識別機能と、
    前記複数の会話区間のそれぞれにおいて、話者ごとに話している期間が当該会話区間に占める発声比率をそれぞれ算出する発声比率算出機能とをさらに実現し、
    前記区間分類機能は、前記複数の発声区間の少なくとも一つを、当該発声区間が属する会話区間における、当該発声区間で発声している話者の発声比率が当該会話区間における他の話者の発声比率よりも高いか否かに応じて前記複数の区分の何れかに分類する、請求項1〜3の何れか一項に記載の音声認識装置。
  5. 前記処理部は、
    前記音声データから会話が途切れた会話中断区間を検出する会話中断区間検出機能をさらに実現し、
    前記区間分類機能は、前記複数の発声区間の少なくとも一つを、当該発声区間が属する会話区間と前記会話中断区間との前後関係に応じて前記複数の区分の何れかに分類する、請求項1〜4の何れか一項に記載の音声認識装置。
  6. 複数の話者の会話を録音した音声データを取得する音声入力部と、
    検出すべきキーワードの音響モデルを格納する単語辞書と、前記音声データの一部が分類される複数の区分の何れかに対応する複数の検出基準表とを記憶する記憶部と、
    前記音声データから特定のキーワードを検出する処理部であって、
    前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、
    前記音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、
    前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて前記複数の区分の何れかに分類する区間分類機能と、
    前記発声区間の少なくとも一つについて、前記複数の検出基準表のうち、当該発声区間が分類された区分に対応する検出基準表を前記記憶部から取得する検出基準選択機能と、
    前記発声区間の少なくとも一つについて、前記単語辞書に格納された音響モデルを用いてキーワードに対する前記音響モデルの類似度を求め、当該類似度が前記取得された検出基準表に示された検出基準を満たす場合に当該キーワードを検出する検出機能と、
    を実現する処理部と、
    を有する音声認識装置。
  7. 複数の話者の会話を録音した音声データを取得し、
    前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出し、
    前記音声データから、何れかの話者が話している区間である複数の発声区間を検出し、
    前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類し、
    前記発声区間の少なくとも一つに対して、記憶部に記憶され、前記複数の区分のそれぞれに対応し、該区分において検出すべきキーワードを検出するための情報を含む複数の単語辞書のうち、当該発声区間が分類された区分に対応する単語辞書を前記記憶部から取得し、
    前記発声区間の少なくとも一つから、当該発声区間に対して取得された単語辞書を用いて前記特定のキーワードを検出する、
    ことを含む音声認識方法。
JP2010217428A 2010-09-28 2010-09-28 音声認識装置及び音声認識方法 Active JP5549506B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010217428A JP5549506B2 (ja) 2010-09-28 2010-09-28 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010217428A JP5549506B2 (ja) 2010-09-28 2010-09-28 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2012073361A true JP2012073361A (ja) 2012-04-12
JP5549506B2 JP5549506B2 (ja) 2014-07-16

Family

ID=46169607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010217428A Active JP5549506B2 (ja) 2010-09-28 2010-09-28 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP5549506B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015082138A (ja) * 2013-10-21 2015-04-27 富士通株式会社 音声検索装置及び音声検索方法
KR20180127065A (ko) * 2017-05-19 2018-11-28 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
KR102061206B1 (ko) * 2019-05-30 2019-12-31 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
JP2020129080A (ja) * 2019-02-08 2020-08-27 三浦 浩之 音声認識システム
JP2021021749A (ja) * 2019-07-24 2021-02-18 富士通株式会社 検出プログラム、検出方法、検出装置
JP7463469B2 (ja) 2019-05-06 2024-04-08 グーグル エルエルシー 自動通話システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7177348B2 (ja) * 2019-02-06 2022-11-24 日本電信電話株式会社 音声認識装置、音声認識方法およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
JP2006003743A (ja) * 2004-06-18 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 音声対話方法及び装置
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP2008249761A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
JP2009216840A (ja) * 2008-03-07 2009-09-24 Internatl Business Mach Corp <Ibm> 2者間の対話の音声データを処理するシステム、方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
JP2006003743A (ja) * 2004-06-18 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 音声対話方法及び装置
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP2008249761A (ja) * 2007-03-29 2008-10-16 Toshiba Corp 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
JP2009216840A (ja) * 2008-03-07 2009-09-24 Internatl Business Mach Corp <Ibm> 2者間の対話の音声データを処理するシステム、方法およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015082138A (ja) * 2013-10-21 2015-04-27 富士通株式会社 音声検索装置及び音声検索方法
KR20180127065A (ko) * 2017-05-19 2018-11-28 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
KR101986354B1 (ko) * 2017-05-19 2019-09-30 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
JP2020129080A (ja) * 2019-02-08 2020-08-27 三浦 浩之 音声認識システム
JP7296214B2 (ja) 2019-02-08 2023-06-22 浩之 三浦 音声認識システム
JP7463469B2 (ja) 2019-05-06 2024-04-08 グーグル エルエルシー 自動通話システム
KR102061206B1 (ko) * 2019-05-30 2019-12-31 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
JP2021021749A (ja) * 2019-07-24 2021-02-18 富士通株式会社 検出プログラム、検出方法、検出装置
JP7331523B2 (ja) 2019-07-24 2023-08-23 富士通株式会社 検出プログラム、検出方法、検出装置

Also Published As

Publication number Publication date
JP5549506B2 (ja) 2014-07-16

Similar Documents

Publication Publication Date Title
US11710478B2 (en) Pre-wakeword speech processing
US11875820B1 (en) Context driven device arbitration
US11423904B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
JP5549506B2 (ja) 音声認識装置及び音声認識方法
US9875742B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
WO2020211354A1 (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
Li et al. Robust endpoint detection and energy normalization for real-time speech and speaker recognition
JP5810946B2 (ja) 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
KR101120716B1 (ko) 음성 특성에 기초한 전화 호출자들의 자동 식별
US8930187B2 (en) Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device
JP5024154B2 (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
US10878812B1 (en) Determining devices to respond to user requests
WO2018078885A1 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
CN113744742B (zh) 对话场景下的角色识别方法、装置和系统
JP2008139654A (ja) 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム
JP5201053B2 (ja) 合成音声判別装置、方法及びプログラム
JP2012168296A (ja) 音声による抑圧状態検出装置およびプログラム
JP7287006B2 (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
JP2005221727A (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP2013235050A (ja) 情報処理装置及び方法、並びにプログラム
JP5672155B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140422

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140505

R150 Certificate of patent or registration of utility model

Ref document number: 5549506

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150