JP2012073361A

JP2012073361A - 音声認識装置及び音声認識方法

Info

Publication number: JP2012073361A
Application number: JP2010217428A
Authority: JP
Inventors: Masaharu Harada; 将治原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-09-28
Filing date: 2010-09-28
Publication date: 2012-04-12
Anticipated expiration: 2030-09-28
Also published as: JP5549506B2

Abstract

【課題】会話のような比較的長い音声データから特定のキーワードを認識する精度を向上できる音声認識装置を提供する。
【解決手段】音声認識装置１は、音声データの一部が分類される複数の区分の何れかに対応する複数の単語辞書を記憶する記憶部３と、処理部４とを有する。処理部４は、音声データから複数の会話区間を検出する会話区間検出機能１１と、音声データから複数の発声区間を検出する発声区間検出機能１２と、複数の発声区間のそれぞれを、複数の会話区間のうちのその発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類する区間分類機能１３と、少なくとも一つの発声区間について、複数の単語辞書のうち、発声区間が分類された区分に対応する単語辞書を記憶部から取得する単語辞書選択機能１４と、発声区間の少なくとも一つから、その発声区間について取得された単語辞書を用いて特定のキーワードを検出する検出機能１５とを実現する。
【選択図】図２

Description

本発明は、例えば、単語辞書を用いて音声データ中の特定のキーワードを認識する音声認識装置及び音声認識方法に関する。

従来より、音声データ中に含まれる特定のキーワードを認識する技術が開発されている。このような技術の一つとして、ワードスポッティングと呼ばれる技術がある。ワードスポッティングでは、認識するキーワードの音声データに関する特徴を表す音響モデルが登録された単語辞書が予め作成される。そしてワードスポッティングに基づく音声認識装置は、音声データを解析することにより、単語辞書に登録されたキーワードを認識する。
このワードスポッティングが使用する情報は、文法またはN-gramモデルといった言語情報を用いた音声認識技術が使用する情報よりも少ないので、ワードスポッティングに基づく音声認識アルゴリズムは比較的シンプルである。そのため、ワードスポッティングに基づく音声認識装置の開発コストは、言語情報を用いた音声認識装置の開発コストよりも安価であるという利点を有する。

しかしながら、ワードスポッティングに基づく音声認識装置は、文の構造、または語順といった情報を利用できない。そのため、ワードスポッティングに基づく音声認識装置は、認識精度を十分に高くできないおそれがあった。
そこで、公知技術の一例では、利用者の発話区間が文頭、文中、文末の三つの領域に分けられ、キーワードの開始位置がこれらの領域に生起する確率が、蓄積された音声データに基づいて予め統計的に学習される。そしてその確率が、キーワードに対応する項目の生起確率として設定される。そして音声認識装置は、この生起確率をキーワードの認識に利用する（例えば、特許文献１を参照）。

特開２００１−５４８８号公報

しかしながら、音声データが、二人以上の人が互いに交互に発声するような比較的長い会話またはそのログデータである場合、音声データが分割された文頭、文中、文末の各領域内で認識対象のキーワードが出現する頻度に偏りがみられないことがある。また、認識対象のキーワードが、出現頻度が高い領域以外の領域においても出現することがある。このような場合、音声認識装置は、それらの領域ごとのキーワードの生起確率を利用しても、キーワードの認識精度を向上できないおそれがあった。

そこで本明細書は、会話のような比較的長い音声データから特定のキーワードを認識する精度を向上できる音声認識装置及び音声認識方法を提供することを目的とする。

一つの実施形態によれば、音声認識装置が提供される。この音声認識装置は、複数の話者の会話を録音した音声データを取得する音声入力部と、複数の単語辞書を記憶する記憶部であって、複数の単語辞書のそれぞれは、音声データの一部が分類される複数の区分の何れかに対応し、かつその区分において検出すべきキーワードを検出するための情報を含む記憶部と、音声データから特定のキーワードを検出する処理部とを有する。処理部は、音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、複数の発声区間のそれぞれを、複数の会話区間のうちのその発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類する区間分類機能と、複数の発声区間のうちの少なくとも一つについて、複数の単語辞書のうち、発声区間が分類された区分に対応する単語辞書を記憶部から取得する単語辞書選択機能と、発声区間の少なくとも一つから、その発声区間について取得された単語辞書を用いて特定のキーワードを検出する検出機能とを実現する。

また他の実施形態によれば、音声認識装置が提供される。この音声認識装置は、複数の話者の会話を録音した音声データを取得する音声入力部と、検出すべきキーワードの音響モデルを格納する単語辞書と、音声データの一部が分類される複数の区分の何れかに対応する複数の検出基準表とを記憶する記憶部と、音声データから特定のキーワードを検出する処理部とを有する。この処理部は、音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、複数の発声区間のそれぞれを、複数の会話区間のうちの発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類する区間分類機能と、発声区間の少なくとも一つについて、複数の検出基準表のうち、発声区間が分類された区分に対応する検出基準表を記憶部から取得する検出基準選択機能と、発声区間の少なくとも一つについて、単語辞書に格納された音響モデルを用いてキーワードに対する音響モデルの類似度を求め、その類似度が取得された検出基準表に示された検出基準を満たす場合にキーワードを検出する検出機能とを実現する。

さらに他の実施形態によれば、音声認識方法が提供される。この音声認識方法は、複数の話者の会話を録音した音声データを取得し、音声データから、複数の話者が連続して話している区間である複数の会話区間を検出し、音声データから、何れかの話者が話している区間である複数の発声区間を検出し、複数の発声区間のそれぞれを、複数の会話区間のうちのその発声区間が属する会話区間の順序に応じて互いに異なる所定のテーマに応じた複数の区分の何れかに分類し、発声区間の少なくとも一つに対して、記憶部に記憶され、複数の区分のそれぞれに対応し、かつその区分において検出すべきキーワードを検出するための情報を含む複数の単語辞書のうち、発声区間が分類された区分に対応する単語辞書を記憶部から取得し、発声区間の少なくとも一つから、発声区間に対して取得された単語辞書を用いて特定のキーワードを検出することを含む。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された音声認識装置及び音声認識方法は、会話のような比較的長い音声データから特定のキーワードを認識する精度を向上できる。

第１の実施形態による音声認識装置の概略構成図である。第１の実施形態による音声認識装置が有する処理部の概略構成図である。音声データと会話区間及び発声区間の関係の一例を示す図である。第１の実施形態による音声認識処理の動作フローチャートを示す図である。第２の実施形態による処理部の概略構成図である。第２の実施形態による音声認識処理の動作フローチャートを示す図である。第３の実施形態による処理部の概略構成図である。音声データと会話区間、発声区間及び会話中断区間の関係の一例を示す図である。第３の実施形態による音声認識処理の動作フローチャートを示す図である。第４の実施形態による処理部の概略構成図である。第４の実施形態による音声認識処理の動作フローチャートを示す図である。

以下、図を参照しつつ、様々な実施形態による音声認識装置について説明する。
発明者は、鋭意研究の結果、会話が録音された音声データでは、複数の話者が連続して発声している区間である会話区間に応じて、それぞれ特定のキーワードの出現頻度が異なるという知見を得た。

そこで、この音声認識装置は、音声データから会話区間及び発声区間をそれぞれ検出し、各発声区間を、その発声区間が属する会話区間に応じて、それぞれが会話の内容に共通のキーワードを含む複数の区分の何れかに分類する。そしてこの音声認識装置は、発声区間が分類された区分に応じて予め準備された単語辞書を用いて特定のキーワードを認識することで、そのキーワードの認識精度の向上を図る。

本実施形態において、音声データは、二人以上の話者が直接あるいは電話回線などの通信回線を通じて会話する会話音声を録音したデータである。また検出対象となる特定のキーワードは、音声認識装置が用いられる用途に応じて予め設定される。特定のキーワードは、例えば、話者の氏名、話者が属する組織の名称、特定の時間、会話のテーマに応じて会話中に出現することが想定される様々な固有名詞、あるいは特定の動詞、形容詞、副詞若しくは名詞を含む。

図１は、一つの実施形態による音声認識装置の概略構成図である。本実施形態では、音声認識装置１は、音声入力部２と、記憶部３と、処理部４と、出力部５とを有する。

音声入力部２は、音声認識処理が行われる音声データを取得する。そのために、音声入力部２は、例えば、少なくとも１本のマイクロホン（図示せず）とマイクロホンに接続されたアナログ−デジタル変換器（図示せず）とを有する。この場合、マイクロホンは、マイクロホン周囲の音を集音してアナログ音声信号を生成し、そのアナログ音声信号をアナログ−デジタル変換器へ出力する。アナログ−デジタル変換器は、アナログ音声信号をデジタル化することにより音声データを生成する。そしてアナログ−デジタル変換器は、その音声データをアナログ−デジタル変換器と接続された処理部４へ出力する。
あるいは、音声入力部２は、音声認識装置１を通信ネットワークに接続するためのインターフェース回路を有してもよい。この場合、音声入力部２は、通信ネットワークに接続されたファイルサーバなどの他の機器から、その通信ネットワークを介して音声データを取得し、取得した音声データを処理部４へ出力する。
さらにまた、音声入力部２は、ユニバーサル・シリアル・バス(Universal Serial Bus、USB)といったシリアスバス規格に従ったインターフェース回路を有してもよい。この場合、音声入力部２は、例えば、ハードディスクなどの磁気記憶装置、光記憶装置あるいは半導体メモリ回路と接続され、それらの記憶装置から音声データを読み込み、その音声データを処理部４へ出力する。

記憶部３は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部３は、処理部４で用いられる各種コンピュータプログラム及び音声認識処理に用いられる各種のデータを記憶する。さらに記憶部３は、音声入力部３を介して取得された音声データを記憶してもよい。

記憶部３に記憶される、音声認識処理に用いられるデータには、音声データ中に含まれる特定のキーワードを検出するために用いられる複数の単語辞書が含まれる。各単語辞書は、会話の内容に共通のキーワードを含む複数の区分の何れかと関連付けられる。各単語辞書は、関連付けられた区分の識別番号とともに記憶部３に記憶される。なお、各区分は会話音声中のキーワードの統計情報に基づいて決定される。単語辞書の詳細は後述する。

出力部５は、処理部４から受け取った特定のキーワードの検出結果を表す検出結果情報を、液晶ディスプレイといった表示装置６へ出力する。そのために、出力部５は、例えば、表示装置６を音声認識装置１と接続するためのビデオインターフェース回路を有する。
また出力部５は、検出結果情報を、通信ネットワークを介して音声認識装置１と接続された他の装置へ出力してもよい。この場合、出力部５は、その通信ネットワークに音声認識装置１と接続するためのインターフェース回路を有する。なお、音声入力部２も通信ネットワークを介して音声データを取得する場合、音声入力部２と出力部５は一体化されていてもよい。

処理部４は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部４は、音声データに含まれる特定のキーワードをワードスポッティングにより検出する。そのために、処理部４は、会話区間検出部１１と、発声区間検出部１２と、区間分類部１３と、単語辞書選択部１４と、検出部１５とを有する。
処理部４が有するこれらの各部は、例えば、処理部４が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部４が有するこれらの各部は、それぞれ、別個の回路として、音声認識装置１に実装されてもよい。

会話区間検出部１１は、音声データから、複数の話者が連続的に発声する区間である会話区間を検出する。
本実施形態では、会話区間検出部１１は、音声データ中において、所定の音量以下の区間が第１の所定時間継続する期間を会話区間の区切りとして検出する。そして会話区間検出部１１は、隣接する二つの会話区間の区切りで挟まれた区間を一つの会話区間とする。なお、所定の音量は、例えば、何れの話者も発声していない状態における音量の最大値である。また第１の所定時間は、例えば、2秒〜5秒の何れか、代表的には2秒に設定される。

また、会話区間検出部１１は、音声データ中で人の声でない所定の音声、例えば、トーン信号、電話機が発する保留音またはメロディーが第１の所定時間継続する期間を会話区間の区切りとして検出してもよい。会話区間検出部１１は、このような所定の音声を検出するために、例えば、その所定の音声に相当するテンプレートと音声データとのテンプレートマッチングを行う。そして、会話区間検出部１１は、テンプレートと一致する期間を会話区間の区切りとして検出する。あるいは、会話区間検出部１１は、音声データを所定時間長（例えば、100m秒）の期間ごとにフーリエ変換してそれぞれ周波数成分を求める。そして会話区間検出部１１は、各期間のうち、所定の音声について特徴的な1以上の周波数成分の強度が所定の閾値以上となる期間を区切り候補期間として検出する。そして会話区間検出部１１は、区切り候補期間が第１の所定時間以上継続する場合、その期間を会話区間の区切りとして検出する。

会話区間検出部１１は、検出した各会話区間に、例えば、音声データの先頭に近い方から順に識別番号を付す。そして会話区間検出部１１は、各会話区間の識別番号と、各会話区間の開始時刻と終了時刻とを、発声区間検出部１２及び区間分類部１３へ出力する。

発声区間検出部１２は、音声データ中で一人の話者が発声している区間である発声区間を検出する。
本実施形態では、発声区間検出部１２は、会話区間検出部１１から受け取った各会話区間の開始時刻と終了時刻により特定される、音声データ中の各会話区間内において、所定の音量以下の区間が第２の所定時間継続した期間を発声区間の区切りとして検出する。そして発声区間検出部１２は、隣接する二つの発声区間の区切りで挟まれた区間、あるいは発声区間の区切りと会話区間の開始時刻または終了時刻で挟まれた区間を一つの発声区間とする。なお、所定の音量は、例えば、何れの話者も発声していない状態における音量の最大値である。また第２の所定時間は、上記の第１の所定時間よりも短い時間であり、例えば、0.5秒〜2秒の何れか、代表的には0.5秒に設定される。
発声区間検出部１２は、検出した各発声区間に、例えば、音声データの先頭に近い方から順に識別番号を付す。そして発声区間検出部１２は、各発声区間の識別番号と、各発声区間の開始時刻と終了時刻とを区間分類部１３へ出力する。

なお、発声区間検出部１２も、人の声でない所定の音声、例えば、トーン信号、電話機が発する保留音またはメロディーが第２の所定時間継続する部分を発声区間の区切りとして検出してもよい。
また発声区間検出部１２は、会話区間検出部１１が会話区間を検出するよりも先に、あるいは同時に発声区間を検出してもよい。この場合、発声区間検出部１２は、音声データ中において、所定の音量以下の区間が第２の所定時間継続する部分を発声区間の区切りとして検出する。そして発声区間検出部１２は、隣接する二つの発声区間の区切りで挟まれた区間を一つの発声区間とする。そして発声区間検出部１２は、会話区間とは無関係に、例えば、音声データの先頭から順番に各発声区間に識別番号を付す。

区間分類部１３は、各発声区間に対して適切な単語辞書が利用されるように、発声区間が属する会話区間の音声データの先頭からの順序及び会話区間内の発声区間の順序に基づいて、各発声区間を複数の区分の何れかに分類する。
例えば、音声データがコンシューマとコールセンターあるいはオフィスの受付間での電話による会話を録音したものである場合、挨拶の言葉、名称など、特定のキーワードの出現頻度は会話区間に応じて異なる。例えば、最初の会話区間では、「こちらは○○です」といった、話者または話者が属する組織を紹介するメッセージが話されることが多いので、特定の名称の出現頻度が高い。また、最初の会話区間では、「おはようございます」といった挨拶の言葉の出現頻度も高い。一方、２番目以降の会話区間では、そのような特定の名称の出現頻度は最初の会話区間における出現頻度よりも低くなる。その代わりに、２番目以降の会話区間では、会話のテーマに関連する固有名詞または特定の動詞などの出現頻度が高くなる。
さらに、各会話区間中でも、会話の冒頭部分と、会話の終端部分と、その他の部分とで、それぞれ、出現頻度が高いキーワードが異なる傾向にある。例えば、冒頭部分では、「もしもし」、「お待たせいたしました」といった会話を開始する際の挨拶に関するキーワードの出現頻度が高い。一方、会話の終端部分では、「少々お待ち下さい」といった会話を中断または終了する際の挨拶に関するキーワードの出現頻度が高い。また、その他の部分、すなわち、会話の中間部分では、会話のテーマに関する固有名詞の出現頻度が高い。

そこで、本実施形態では、区間分類部１３は、各発声区間を、その発声区間が属する会話区間が時間順に最初の会話区間である場合とその他の会話区間である場合とで、異なる区分に分類する。
さらに、区間分類部１３は、各発声区間を、その発声区間が会話区間の冒頭部分、中間部分、及び終端部分の何れに属するかに応じて異なる区分に分類する。例えば、区間分類部１３は、会話区間の先頭からα個以内の発声区間を、会話区間の冒頭部分に対応する区分に分類する。また区間分類部１３は、会話区間の終端からβ個以内の発声区間を会話区間の終端部分に対応する区分に分類する。さらに区間分類部１３は、会話区間の先頭から(α+1)個目の発声区間から会話区間の終端から(β+1)個目の発声区間までに含まれる発声区間を、会話区間の中間部分に対応する区分に分類する。したがって、各発声区間は、６通りに分類されることになる。
あるいは、区間分類部１３は、各発声区間を、その発声区間が属する会話区間が時間順に最初の会話区間である場合と、最後の会話区間である場合と、その他の会話区間である場合とで、異なる区分に分類してもよい。この場合には、各発声区間は、９通りに分類されることになる。
なお、α及びβは、例えば、2に設定される。そのため、注目する会話区間に含まれる発声区間の数が4個以下の場合には、区間分類部１３は、その会話区間に含まれる各発声区間を、先頭部分に対応する区分または終端部分に対応する区分の何れか一方に分類してもよい。あるいは、区間分類部１３は、会話区間の先頭からα個の範囲に含まれ、かつ、会話区間の終端からβ個の範囲に含まれる発声区間を、先頭部分に対応する区分と終端部分に対応する区分の両方に属するように分類してもよい。

図３は、音声データと会話区間及び発声区間の関係の一例を示す図である。図３において、横軸は時間を表す。また、α=β=2とする。一番上の線３００は、音声データ全体を表す。２列目の点線３０１、３０２は、それぞれ会話区間を表す。そして下の２列の各線３１１〜３１８は、それぞれ、発声区間を表す。この例では、会話区間３０１に属する発声区間３１１〜３１３と会話区間３０２に属する発声区間３１４〜３１８は、それぞれ異なる区分に分類される。便宜上、会話区間３０１に属する発声区間が分類される区分を区分Ａとし、会話区間３０２に属する発声区間が分類される区分を区分Ｂとする。会話区間３０１に含まれる発声区間３１１は、会話区間の先頭から２個以内なので、会話区間の冒頭部分に対応する区分に分類される。なお、以下では、便宜上、会話区間内の冒頭部分に相当する区分を'a'、中間部分に相当する区分を'b'、終端部分に相当する区分を'c'と表記する。すなわち、発声区間３１１は、区分Ａ−ａに分類される。一方、発声区間３１３は、会話区間３０１の終端から２個以内なので、会話区間３０１の終端部分に相当する区分（すなわち、区分Ａ−ｃ）に分類される。また、発声区間３１２は、会話区間の先頭及び終端の両方から２個以内に位置するので、区分Ａ−ａ及び区分Ａ−ｃの両方に分類される。
また、発声区間３１４、３１５は、それぞれ、区分Ｂ−ａに分類され、発声区間３１６は区分Ｂ−ｂに分類され、発声区間３１７、３１８は、それぞれ、区分Ｂ−ｃに分類される。
区間分類部１３は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区間分類部１３は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を検出部１５へ出力する。

単語辞書選択部１４は、音声データ中に含まれる特定のキーワードを検出するために利用される単語辞書を、発声区間が分類された区分に応じて選択する。そのために、単語辞書選択部１４は、検出部１５から発声区間に関連付けられた区分の識別番号を受け取ると、その区分についての識別番号に対応する単語辞書を記憶部３から読み込む。そして単語辞書選択部１４は、読み込んだ単語辞書を検出部１５へ渡す。

単語辞書は、検出すべきキーワードを検出するための情報を含む。例えば、単語辞書は、そのような情報として、検出すべきキーワードごとに、対応する音響モデルと、そのキーワードの表記を表すテキストを含む。例えば、音響モデルは、隠れマルコフモデルを含む。この場合、特定のキーワードに対応する音響モデルは、そのキーワードに含まれる複数の音素のそれぞれに対応する複数の入力ノードが、そのキーワードにおける音素の時系列に沿って連結されたものとなる。そしてこの音響モデルの各入力ノードには、例えば、音声データの所定期間（この所定期間は、例えば、キーワードの時間長に対応する）を時系列的に連続する複数の解析単位期間に分割し、各解析単位期間のそれぞれから抽出された所定の特徴量が入力される。これにより、音響モデルは、その所定期間に含まれる音声信号が特定のキーワードである確率を出力する。所定の特徴量は、例えば、解析単位期間に含まれる音声データをフーリエ変換して得られるフーリエ係数の組をさらにフーリエ変換することにより得られるケプストラム係数とすることができる。なお、解析単位期間は、例えば、10ミリ秒〜100ミリ秒程度に設定される。

また本実施形態では、各単語辞書に登録されるキーワードは、区分に応じて異なり、例えば、所定の区分において統計的に出現頻度が低い（例えば、出現確率が0.001以下）キーワードは、その所定の区分に対応する単語辞書には含まれない。これにより、音声認識装置１は、各発声区間において実際には出現していないキーワードを誤って検出する可能性を低減できる。その結果として、音声認識装置１は、各発声区間において出現する可能性のあるキーワードに対して、検出する基準を緩やかに設定することができる。そのため、この音声認識装置１は、検出対象となるキーワードの認識精度を向上できる。

検出部１５は、発声区間ごとに、発声区間が分類された区分の識別番号を単語辞書選択部１４へ通知する。そして検出部１５は、単語辞書選択部１４から受け取った、その発声区間が分類された区分に応じた単語辞書を利用して、音声データから特定のキーワードを検出する。
検出部１５は、発声区間を解析単位期間で分割し、解析単位期間ごとに、ケプストラム係数などの特徴量を求める。そして検出部１５は、得られた特徴量を、単語辞書に含まれる各キーワードに対応する各音響モデルに入力する。そして検出部１５は、キーワードごとに、音響モデルの出力として、そのキーワードである確率を得る。
検出部１５は、各キーワードに対応する確率を所定の閾値と比較する。そして確率が所定の閾値以上である場合、検出部１５は、その確率に対応するキーワードを検出する。なお、所定の閾値は、例えば、0.6〜0.9の何れかに設定される。
検出部１５は、単語辞書を参照して、検出したキーワードのテキストを特定し、そのテキストを含む検出結果情報を出力部５へ出力する。

図４は、音声認識装置１の処理部４により実行される音声認識処理の動作フローチャートを示す。
処理部４は、音声入力部２を介して音声データを取得する（ステップＳ１０１）。そして処理部４は、音声データを処理部４の会話区間検出部１１、発声区間検出部１２及び検出部１５へ渡す。
会話区間検出部１１は、音声データに含まれる会話区間を検出する（ステップＳ１０２）。会話区間検出部１１は、検出した各会話区間に識別番号を付す。そして会話区間検出部１１は、各会話区間の識別番号、開始時刻及び終了時刻を発声区間検出部１２及び区間分類部１３へ通知する。
また発声区間検出部１２は、音声データに含まれる発声区間を検出する（ステップＳ１０３）。発声区間検出部１２は、検出した各発声区間に識別番号を付す。そして発声区間検出部１２は、各発声区間の識別番号、開始時刻及び終了時刻を区間分類部１３へ通知する。
区間分類部１３は、各発声区間を、その発声区間が属する会話区間の音声データ先頭からの順序及び会話区間中の順序に基づいて、複数の区分の何れかに分類する（ステップＳ１０４）。区間分類部１３は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区分分類部１３は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を処理部４の検出部１５へ出力する。

検出部１５は、音声データ中の最初の発声区間を注目する発声区間として設定する（ステップＳ１０５）。そして検出部１５は、注目する発声区間が分類された区分の識別番号を処理部４の単語辞書選択部１４へ通知する。
単語辞書選択部１４は、注目する発声区間が分類された区分の識別番号に基づいて、注目する発声区間に応じた単語辞書を選択する（ステップＳ１０６）。そして単語辞書選択部１４は、選択した単語辞書を記憶部３から読み込む。単語辞書選択部１４は、選択した単語辞書を検出部１５へ出力する。

検出部１５は、注目する発声区間の開始時刻から終了時刻までに含まれる音声データに対して、選択された単語辞書を用いて特定のキーワードの検出処理を実行する（ステップＳ１０７）。そして検出部１５は、特定キーワードが検出されたか否か判定する（ステップＳ１０８）。
特定キーワードが検出された場合（ステップＳ１０８−Ｙｅｓ）、検出部１５は、その検出されたキーワードのテキストを単語辞書を参照して求め、そのテキストを含む検出結果情報を出力部５へ出力する（ステップＳ１０９）。
ステップＳ１０９の後、あるいはステップＳ１０８にて特定キーワードが検出されなかった場合（ステップＳ１０８−Ｎｏ）、検出部１５は、注目する発声区間が最後の発声区間か否か判定する（ステップＳ１１０）。
注目する発声区間が最後の発声区間でなければ（ステップＳ１１０−Ｎｏ）、検出部１５は、現在の注目発声区間の次の発声区間を注目発声区間とする（ステップＳ１１１）。そして検出部１５は、ステップＳ１０６以降の処理を繰り返す。
一方、注目する発声区間が最後の発声区間であれば（ステップＳ１１０−Ｙｅｓ）、検出部１５は、音声認識処理を終了する。
なお、処理部４は、ステップＳ１０２の処理とステップＳ１０３の処理の順序を入れ替えてもよい。あるいは、処理部４は、ステップＳ１０２の処理とステップＳ１０３の処理を同時に行ってもよい。この場合には、上記のように、発声区間検出部１２は、各会話区間の開始時刻及び終了時刻を参照せずに発声区間を検出する。

以上に説明してきたように、この音声認識装置は、会話を録音した音声データ中で発声区間及び会話区間を検出する。そしてこの音声認識装置は、各発声区間について特定キーワードを検出するために利用する単語辞書を、その発声区間が属する会話区間の音声データ中の順序及び会話区間内での順序に基づいて選択する。そのため、この音声認識装置は、会話中で通常交わされる言葉に含まれる、特定のキーワードの出現頻度が高い発声区間に応じた適切な単語辞書を特定キーワードを検出するために利用できる。
そのため、この音声認識装置は、良好な精度で特定キーワードを検出できる。

次に、第２の実施形態による音声認識装置について説明する。
この第２の実施形態による音声認識装置は、発声区間ごとに話者を識別する。そしてこの音声認識装置は、各会話区間の順序と発声区間の順序だけでなく、会話区間における各話者の発声区間の長さの比率に応じて単語辞書を選択する。

図５は、第２の実施形態による音声認識装置の処理部の概略構成図である。処理部２１は、会話区間検出部１１と、発声区間検出部１２と、区間分類部１３と、単語辞書選択部１４と、検出部１５と、話者識別部１６と、発声比率算出部１７とを有する。
図５において、処理部２１の各構成要素には、図２に示された第１の実施形態による処理部４の対応する構成要素の参照番号と同じ参照番号を付した。この第２の実施形態による音声認識装置は、第１の実施形態による音声認識装置と比較して、処理部２１が各発声区間について話者ごとの発声比率を算出し、発声比率が高い話者と発声比率が低い話者とで発声区間を異なる区分に分類する点で異なる。
そこで以下では、処理部２１のうちの第１の実施形態による処理部４と異なる点について説明する。第２の実施形態による音声認識装置のその他の構成要素については、図１及び第１の実施形態の関連する部分の説明を参照されたい。

本実施形態では、発声区間検出部１２は、検出した各発声区間の開始時刻及び終了時刻と識別番号を、区間分類部１３だけでなく話者識別部１６にも通知する。また会話区間検出部１１は、検出した各会話区間の開始時刻及び終了時刻と識別番号を、発声区間検出部１２及び区間分類部１３だけでなく、発声比率算出部１７にも通知する。

話者識別部１６は、発声区間ごとに話者を識別する。例えば、音声データが、電話による通話をステレオで録音したものである場合、話者識別部１６は、発声区間に含まれる信号が左右何れのチャネルの信号かを判定することにより話者を識別できる。そこで、話者識別部１６は、注目する発声区間の開始時刻から終了時刻までの信号の平均強度を各チャネルについて求める。そして話者識別部１６は、左側のチャネルの平均強度が右側のチャネルの平均強度よりも高い場合、その発声区間の話者を第１の話者とし、一方、右側のチャネルの平均強度が左側のチャネルの平均強度よりも高い場合、その発声区間の話者を第２の話者とする。なお、左側のチャネルの平均強度と右側のチャネルの平均強度が何れも所定の閾値よりも大きい場合、両方の話者が話していると推定される。そこでこの場合、話者識別部１６は、その発声区間の話者は第１及び第２の話者の両方とする。なお、所定の閾値は、例えば、誰も話していない場合の音量の最大値に設定される。

また、音声データが、複数のマイクロホンを用いて録音されている場合、話者識別部１６は、各マイクロホンに到達した音の時間差に基づいて音の到来方向を推定することにより、話者を識別してもよい。例えば、話者識別部１６は、注目する発声区間についての音の到来方向が複数のマイクロホンが設置された位置の中点を基準とした所定の角度範囲内に含まれるとき、その発声区間の話者を第１の話者とする。一方、注目する発声区間についての音の到来方向がその所定の角度範囲から外れるとき、その発声区間の話者を第２の話者とする。所定の角度範囲は、第１及び第２の話者の位置と、各マイクロホンの位置関係に応じて予め定められる。
話者識別部１６は、発声区間ごとに、その発声区間の話者の識別番号を割り当てる。そして話者識別部１６は、発声区間の識別番号とともに、その発声区間の話者の識別番号を区間分類部１３及び発声比率算出部１７へ通知する。

発声比率算出部１７は、各会話区間について、話者ごとに、その話者が話している期間が会話区間に占める比率である発声比率を算出する。
音声データが、例えば、コンシューマからコールセンターへの問い合わせについての通話を録音したものである場合、最初の会話区間など、特定の会話区間における話の内容は、ある程度パターン化されている。そのため、音声認識装置は、その特定の会話区間において、コンシューマの発声比率と、コールセンター側のオペレータの発声比率のうち、発声比率が高い方を予め推定できる。したがって、このような特定の会話区間では、発声比率によって、話者がコンシューマかオペレータかを判定できる。そこで、コンシューマの発声区間において出現頻度が高いキーワードを含むコンシューマ用単語辞書と、オペレータの発声区間において出現頻度が高いキーワードを含むオペレータ用単語辞書とが予め作成される。なお、コンシューマ用単語辞書及びオペレータ用単語辞書は、会話区間に応じて、それぞれ複数作成されてもよい。記憶部３は、コンシューマ用単語辞書とオペレータ用単語辞書とを記憶する。そして音声認識装置は、各会話区間における話者ごとの発声比率によって話者がコンシューマかオペレータかを推定できるので、その発声比率に応じてコンシューマ用単語辞書かオペレータ用単語辞書の何れかを選択できる。

また、音声認識装置は、会話区間に占める期間が長い方の話者が会話を主導していると推定できる。さらに、特定のチャネルの音声がコンシューマによるものか、あるいはオペレータによるものかが予め分かっていることもある。このような場合、会話を主導している話者に応じて、会話の内容がある程度推定可能である。
例えば、会話区間に占めるコンシューマの発声比率の方がオペレータの発声比率よりも高ければ、会話の内容は、コンシューマからオペレータへの問い合わせであると推定される。このような場合、コンシューマの発声区間には、問い合わせの対象となった事項に関するキーワードが含まれる確率が高くなる。
一方、会話区間に占めるコンシューマの発声比率よりもオペレータの発声比率が高ければ、会話の内容は、オペレータからコンシューマへの回答であると推定される。このような場合、オペレータの発声区間には、回答の対象となった事項に関するキーワードが含まれる確率が高くなる。
そこで、音声認識装置は、発声比率に応じて予め作成された単語辞書を記憶しておくとともに、その発声比率に応じて単語辞書を選択することにより、各発声区間について出現頻度が高いキーワードを含む単語辞書を用いることができる。その結果、音声認識装置は、キーワードの検出精度を向上できる。

発声比率算出部１７は、注目する会話区間の開始時刻と終了時刻の間に開始時刻または終了時刻が含まれる発声区間を、その会話区間に含まれる発声区間とする。そして発声比率算出部１７は、会話区間に含まれる発声区間のうち、注目する話者の識別番号が割り当てられた発声区間の時間長の合計を算出する。そして発声比率算出部１７は、注目する話者の発声区間の時間長の合計を会話区間の時間長で除することにより、その話者についての発声比率を求める。
発声比率算出部１７は、各会話区間について話者ごとに発声比率を求める。そして発声比率算出部１７は、各会話区間の識別番号とともに、対応する会話区間における各話者の発声比率を区間分類部１３へ通知する。

区間分類部１３は、会話区間ごとに、各話者の発声比率に応じて会話区間に含まれる発声区間を分類する。
本実施形態では、区間分類部１３は、第１の実施形態による区間分類部１３と同様に、時間順に最初の会話区間に属する発声区間とその他の会話区間に属する発声区間とを別の区分に分類する。あるいは、区間分類部１３は、時間順に最初の会話区間に属する発声区間と、最後の会話区間に属する発声区間と、その他の会話区間に属する発声区間とをそれぞれ別の区分に分類してもよい。
さらに区間分類部１３は、各会話区間に含まれる発声区間を、発声比率が高い方の話者に対応する発声区間と発声比率が低い方の話者に対応する発声区間とを、それぞれ異なる区分に分類する。

ここで、再度図３を参照すると、発声区間３１１、３１３、３１５、３１７及び３１８は、話者Ａの発声区間であり、一方、発声区間３１２、３１４及び３１６は、話者Ｂの発声区間である。そして会話区間３０１では、話者Ａの発声比率の方が、話者Ｂの発声比率よりも高い。そこで区間分類部１３は、話者Ａの発声区間である発声区間３１１及び３１３を、最初の会話区間に対応し、かつ、発声比率が高い区分に分類する。一方、区間分類部１３は、話者Ｂの発声区間である発声区間３１２を、最初の会話区間に対応し、かつ、発声比率が低い区分に分類する。
また、会話区間３０２についても、話者Ａの発声比率の方が話者Ｂの発声比率よりも高い。そこで区間分類部１３は、話者Ａの発声区間である発声区間３１５、３１７及び３１８を、２番目以降の会話区間に対応し、かつ、発声比率が高い区分に分類する。一方、区間分類部１３は、話者Ｂの発声区間である発声区間３１４及び３１６を、２番目以降の会話区間に対応し、かつ、発声比率が低い区分に分類する。

なお、区間分類部１３は、各会話区間に含まれる発声区間を、さらに、会話区間の冒頭部分、中間部分、及び終端部分の何れに含まれるかによって分類してもよい。
区間分類部１３は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区間分類部１３は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を検出部１５へ出力する。

検出部１５は、発声区間ごとに、その発声区間に関連付けられた区分の識別番号を単語辞書選択部１４に通知する。単語辞書選択部１４は、区分の識別番号に対応する単語辞書を記憶部３から読込み、その単語辞書を検出部１５へ渡す。
検出部１５は、単語辞書選択部１４から受け取った単語辞書を用いてその発声区間中に含まれる特定のキーワードを検出する。

図６は、第２の実施形態による音声認識装置の処理部２１により実行される音声認識処理の動作フローチャートを示す。
処理部２１は、音声入力部２を介して音声データを取得する（ステップＳ２０１）。そして処理部２１は、音声データを処理部２１の会話区間検出部１１、発声区間検出部１２、話者識別部１６及び検出部１５へ渡す。
会話区間検出部１１は、音声データに含まれる会話区間を検出する（ステップＳ２０２）。会話区間検出部１１は、検出した各会話区間に識別番号を付す。そして会話区間検出部１１は、各会話区間の識別番号、開始時刻及び終了時刻を発声区間検出部１２、区間分類部１３及び発声比率算出部１７へ通知する。
また発声区間検出部１２は、音声データに含まれる発声区間を検出する（ステップＳ２０３）。発声区間検出部１２は、検出した各発声区間に識別番号を付す。そして発声区間検出部１２は、各発声区間の識別番号、開始時刻及び終了時刻を区間分類部１３、話者識別部１６及び発声比率算出部１７へ通知する。

話者識別部１６は、各発声区間の話者を識別する（ステップＳ２０４）。そして話者識別部１６は、発声区間ごとに、発声区間の識別番号とその発声区間の話者の識別番号を発声比率算出部１７及び区間分類部１３へ通知する。
また、発声比率算出部１７は、各会話区間について、話者ごとの発声比率を算出する（ステップＳ２０５）。そして発声比率算出部１７は、会話区間ごとに、各話者の発声比率を区間分類部１３へ通知する。

区間分類部１３は、各発声区間を、その発声区間が属する会話区間の音声データ先頭からの順序及びその発声区間に対応する発声比率に基づいて、複数の区分の何れかに分類する（ステップＳ２０６）。区間分類部１３は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区分分類部１３は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を処理部２１の検出部１５へ出力する。

検出部１５は、音声データ中の最初の発声区間を注目する発声区間として設定する（ステップＳ２０７）。そして検出部１５は、注目する発声区間が分類された区分の識別番号を処理部２１の単語辞書選択部１４へ通知する。
単語辞書選択部１４は、注目する発声区間が分類された区分の識別番号に基づいて、注目する発声区間に応じた単語辞書を選択する（ステップＳ２０８）。そして単語辞書選択部１４は、選択した単語辞書を記憶部３から読み込む。単語辞書選択部１４は、選択した単語辞書を検出部１５へ出力する。

検出部１５は、選択された単語辞書を用いて特定のキーワードの検出処理を実行する（ステップＳ２０９）。そして検出部１５は、特定キーワードが検出されたか否か判定する（ステップＳ２１０）。
特定キーワードが検出された場合（ステップＳ２１０−Ｙｅｓ）、検出部１５は、その検出されたキーワードのテキストを単語辞書を参照して求め、そのテキストを含む検出結果情報を出力部５へ出力する（ステップＳ２１１）。
ステップＳ２１１の後、あるいはステップＳ２１０にて特定キーワードが検出されなかった場合（ステップＳ２１０−Ｎｏ）、検出部１５は、注目する発声区間が最後の発声区間か否か判定する（ステップＳ２１２）。
注目する発声区間が最後の発声区間でなければ（ステップＳ２１２−Ｎｏ）、検出部１５は、現在の注目発声区間の次の発声区間を注目発声区間とする（ステップＳ２１３）。そして検出部１５は、ステップＳ２０８以降の処理を繰り返す。
一方、注目する発声区間が最後の発声区間であれば（ステップＳ２１２−Ｙｅｓ）、検出部１５は、音声認識処理を終了する。
なお、処理部２１は、ステップＳ２０２の処理とステップＳ２０３の処理の順序を入れ替えてもよい。あるいは、処理部２１は、ステップＳ２０２の処理とステップＳ２０３の処理を同時に行ってもよい。

以上に説明してきたように、第２の実施形態による音声認識装置は、発声区間が属する会話区間の順序だけでなく、各会話区間中の話者ごとの発声比率に応じて発声区間を分類する。そのため、この音声認識装置は、各会話区間における会話の内容を発声比率により推定して適切に単語辞書を選択することができるので、キーワード検出の精度をより向上できる。

なお、変形例によれば、話者識別部は、音声データから、直接話者を識別してもよい。この場合、話者識別部は、例えば、音声データを所定長の話者解析期間ごとに分割し、話者解析期間ごとに話者を識別する。そして話者識別部は、各話者解析期間に対応する話者の識別番号を関連付ける。話者識別部は、各話者解析期間の開始時刻と話者の識別番号を発声比率算出部へ通知する。発声比率算出部は、注目する会話区間の開始時刻と終了時刻の間に開始時刻となる話者解析期間を、その会話区間に含まれる話者解析期間とする。そして発声比率算出部は、各会話区間について、それぞれ、話者ごとの話者解析期間の合計の時間長を求める。そして発声比率算出部は、話者ごとの解析期間の合計の時間長を、会話区間の時間長で除することにより、話者ごとの発声比率を求める。この場合、各発声区間が対応する話者を決定するために、区間分類部は、発声区間と重なる１以上の話者解析期間が対応する話者を、その発声区間の話者とする。

次に、第３の実施形態による音声認識装置について説明する。第３の実施形態による音声認識装置は、音声データ中で、連続した一連の会話が途切れる会話中断区間を検出する。そしてこの音声認識装置は、その会話中断区間の前後で、異なる単語辞書を用いることでキーワード検出精度の向上を図る。

図７は、第３の実施形態による音声認識装置の処理部の概略構成図である。処理部３１は、会話区間検出部１１と、発声区間検出部１２と、区間分類部１３と、単語辞書選択部１４と、検出部１５と、会話中断区間検出部１８とを有する。
図７において、処理部３１の各構成要素には、図２に示された第１の実施形態による処理部４の対応する構成要素の参照番号と同じ参照番号を付した。この第３の実施形態による音声認識装置は、第１の実施形態による音声認識装置と比較して、処理部３１が会話中断区間長区間を検出し、その会話中断区間の前後で発声区間を異なる区分に分類する点で異なる。
そこで以下では、処理部３１のうちの第１の実施形態による処理部４と異なる点について説明する。第３の実施形態による音声認識装置のその他の構成要素については、図１及び第１の実施形態の関連する部分の説明を参照されたい。

会話中断区間検出部１８は、音声データから、会話が長期間にわたって途切れる区間である長期無音区間を検出する。この長期無音区間は、会話中断区間の一例である。
長期無音区間は、例えば、一方の話者が何らかの理由により他方の話者を待たせたり、電話を転送することにより生じる。このような長期無音区間があると、長期無音区間の前後で会話のテーマが異なることがある。そのため、長期無音区間の前の会話区間において出現頻度が高いキーワードと、長期無音区間の後の会話区間において出現頻度が高いキーワードは異なることがある。そのため、適切な単語辞書を選択するために、音声認識装置は、長期無音区間を検出することが好ましい。
本実施形態では、会話中断区間検出部１８は、音声データ中において、所定の音量以下の区間が第３の所定時間継続する区間を長期無音区間として検出する。なお、所定の音量は、例えば、何れの話者も発声していない状態における音量の最大値である。また第３の所定時間は、会話区間の区切りに相当する第１の所定時間よりも長く、例えば、20秒〜1分の何れか、代表的には20秒に設定される。
あるいは、会話中断区間検出部１８は、所定の音量以下の区間が第３の所定時間継続する区間のうち、最も長い区間を長期無音区間としてもよい。この場合、第３の所定時間は、例えば、10秒に設定される。

なお、会話中断区間検出部１８は、人の声でない所定の音声、例えば、トーン信号、電話機が発する保留音またはメロディーが第３の所定時間継続する区間を会話中断区間として検出してもよい。会話中断区間検出部１８は、会話区間検出部１１と同様に、例えば、その所定の音声に相当するテンプレートと音声データとのテンプレートマッチングを行うことにより、このような所定の音声を検出できる。

会話中断区間検出部１８は、会話中断区間の開始時刻と終了時刻のうちの少なくとも何れか一方を、区間分類部１３へ出力する。

区間分類部１３は、第１の実施形態による区間分類部１３と同様に、時間順に最初の会話区間に属する発声区間とその他の会話区間に属する発声区間とを別の区分に分類する。
さらに、区間分類部１３は、会話中断区間の直後の会話区間に属する発声区間をさらに別の区分に分類する。
また区間分類部１３は、各発声区間を、会話区間の冒頭部分、中間部分、及び終端部分の何れに含まれるかによって異なる区分に分類してもよい。この場合、各発声区間は、９個の区分に分類されることになる。
なお、区間分類部１３は、会話中断区間の直前の会話区間に属する発声区間をさらに別の区分に分類してもよい。この場合、各発声区間は、１２個の区分に分類されることになる。

図８は、音声データと会話区間、発声区間及び会話中断区間の関係の一例を示す図である。図８において、横軸は時間を表す。一番上の線８００は、音声データ全体を表す。２列目の点線８０１〜８０４は、それぞれ会話区間を表す。そして会話区間８０２と会話区間８０３間に示された矢印は会話中断区間８０５を表す。また下の２列の各線は、それぞれ、発声区間を表す。この例では、最初の会話区間８０１に属する発声区間は、他の会話区間に属する発声区間と異なる区分に分類される。また、会話中断区間の次の会話区間８０３に属する発声区間も、他の会話区間に属する発声区間と異なる区分に分類される。そして会話区間８０２に属する発声区間と会話区間８０４に属する発声区間とは、同じ区分に分類される。便宜上、会話区間８０１の発声区間が分類される区分を区分Ａとし、会話区間８０３の発声区間が分類される区分を区分Ｂとし、会話区間８０２及び８０４の発声区間が分類される区分を区分Ｃとする。会話区間８０１に含まれる発声区間８１１は、会話区間の先頭なので、区分Ａの冒頭部分に対応する区分に分類される。なお、以下では、便宜上、会話区間内の冒頭部分に対応する区分を'a'、中間部分に対応する区分を'b'、終端部分に対応する区分を'c'と表記する。したがって、発声区間８１１は、区分Ａ−ａに分類される。一方、発声区間８１２は、会話区間の最後の発声区間なので、区分Ａ−ｃに分類される。同様に、会話区間８０２に属する発声区間８１３、８１４、８１５は、それぞれ、区分Ｃ−ａ、区分Ｃ−ｂ、区分Ｃ−ｃに分類される。さらに、会話区間８０３に属する発声区間８１６、８１７、８１８は、それぞれ、区分Ｂ−ａ、区分Ｂ−ｂ、区分Ｂ−ｃに分類される。

区間分類部１３は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区間分類部１３は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を検出部１５へ出力する。

図９は、第３の実施形態による音声認識装置の処理部３１により実行される音声認識処理の動作フローチャートを示す。
処理部３１は、音声入力部２を介して音声データを取得する（ステップＳ３０１）。そして処理部３１は、音声データを処理部３１の会話区間検出部１１、発声区間検出部１２、会話中断区間検出部１８及び検出部１５へ渡す。
会話区間検出部１１は、音声データに含まれる会話区間を検出する（ステップＳ３０２）。会話区間検出部１１は、検出した各会話区間に識別番号を付す。そして会話区間検出部１１は、各会話区間の識別番号、開始時刻及び終了時刻を発声区間検出部１２及び区間分類部１３へ通知する。
また発声区間検出部１２は、音声データに含まれる発声区間を検出する（ステップＳ３０３）。発声区間検出部１２は、検出した各発声区間に識別番号を付す。そして発声区間検出部１２は、各発声区間の識別番号、開始時刻及び終了時刻を区間分類部１３へ通知する。

また会話中断区間検出部１８は、音声データ中の会話中断区間を検出する（ステップＳ３０４）。そして会話中断区間検出部１８は、会話中断区間の開始時刻又は終了時刻の少なくとも一方を区間分類部１３へ通知する。
区間分類部１３は、各発声区間を、その発声区間が属する会話区間の音声データ先頭からの順序、その会話区間と会話中断区間との前後関係に基づいて、複数の区分の何れかに分類する（ステップＳ３０５）。区間分類部１３は、各発声区間の識別番号に、その発声区間が分類された区分の識別番号を関連付ける。そして区分分類部１３は、発声区間ごとに、その発声区間の開始時刻と終了時刻、発声区間の識別番号及び区分の識別番号を処理部３１の検出部１５へ出力する。

ステップＳ３０６〜Ｓ３１２のそれぞれは、図４に示された動作フローチャートにおけるステップＳ１０５〜Ｓ１１１に対応する。そのため、ここでは、ステップＳ３０６〜Ｓ３１２の処理の詳細な説明は省略する。
なお、処理部３１は、ステップＳ３０２、ステップＳ３０３及びステップＳ３０４の処理の順序を入れ替えてもよい。あるいは、処理部３１は、ステップＳ３０２、ステップＳ３０３及びステップＳ３０４の各処理を同時に行ってもよい。

以上に説明してきたように、第３の実施形態による音声認識装置は、会話中断区間の前後で、発声区間を異なる区分に分類する。そのため、この音声認識装置は、途中で話者の一方が交代したり、会話のテーマが変わる場合でも、各発声区間について適切な単語辞書を選択できる。

次に、第４の実施形態による音声認識装置について説明する。第４の実施形態による音声認識装置は、発声区間の区分に応じて、キーワードが検出されたか否かの判定に用いられる閾値をキーワードごとに設定する。また閾値は、区分に応じて調整される。そしてこの音声認識装置は、注目する発声区間が分類された区分に応じてキーワードごとの閾値を選択することで、キーワード検出精度の向上を図る。

図１０は、第４の実施形態による音声認識装置の処理部の概略構成図である。処理部４１は、会話区間検出部１１と、発声区間検出部１２と、区間分類部１３と、閾値表選択部１９と、検出部１５とを有する。
図１０において、処理部４１の各構成要素には、図２に示された第１の実施形態による処理部４の対応する構成要素の参照番号と同じ参照番号を付した。この第４の実施形態による音声認識装置は、第１の実施形態による音声認識装置と比較して、処理部４１が発声区間の区分に応じて単語辞書を選択する代わりにキーワードごとの閾値を表す閾値表を選択する点で異なる。
そこで以下では、処理部４１のうちの第１の実施形態による処理部４と異なる点及び関連する相違点について説明する。第４の実施形態による音声認識装置のその他の構成要素については、図１及び第１の実施形態の関連する部分の説明を参照されたい。

記憶部３は、全ての発声区間に共通の１つの単語辞書を記憶する。そのため、この実施形態では、単語辞書は、音声データ全体に対して検出しようとするキーワードを全て含む。
また記憶部３は、会話の内容に共通のキーワードを含む区分ごとに閾値表を記憶する。この閾値表は、各キーワードに対する検出基準を示した検出基準表の一例である。閾値表は、単語辞書に登録された各キーワードの音響モデルを用いて検出部１５により算出される、音声データ中の調査対象区間がそのキーワードである確率との比較に用いられる閾値を、キーワードのテキストとともに格納する。
閾値は、検出基準の一例であり、キーワードごとに、予め収集された音声データに基づいて求められた、各区分における出現頻度に応じて設定される。そして特定の区分において出現頻度が高いキーワードに対する閾値は、その特定の区分において出現頻度が低いキーワードよりも低く設定される。例えば、特定の区分において、出現確率が0.5以上となるキーワードに対する閾値は0.7に設定され、一方、出現確率が0.01以下となるキーワードに対する閾値は0.8に設定される。
また、特定の区分において出現しないはずのキーワードに対しては、閾値は1よりも大きい値に設定されてもよい。検出部１５により音響モデルを用いて求められる確率は常に1以下となる。そのため、このように閾値を設定することで、検出部１５は、特定の区分において出現しないはずのキーワードを誤って検出することを防止できる。
各閾値表は、対応する区分の識別番号とともに記憶部３に記憶される。

検出部１５は、音声認識処理を開始する際に、単語辞書を記憶部３から読み込む。また検出部１５は、注目する発声区間についてキーワードの検出を開始する前に、その発声区間が分類された区分の識別番号を閾値表選択部１９へ通知する。

閾値表選択部１９は、検出基準選択部の一例であり、検出部１５から受け取った区分の識別番号に対応する閾値表を記憶部３から読み込む。そして閾値表選択部１９は、その閾値表を検出部１５へ渡す。

その後、検出部１５は、注目する発声区間について特定キーワードを検出する処理を実行する。そして検出部１５は、単語辞書に登録された各キーワードの音響モデルを用いて、それぞれのキーワードに対する確率を算出する。なお、この確率は、キーワードに対する音響モデルの類似度の一例である。そして検出部１５は、各キーワードに対する確率を、閾値表選択部１９から受け取った閾値表に格納されたそのキーワードに対応する閾値と比較する。なお検出部１５は、音響モデルに対応するキーワードのテキストと同じテキストと関連付けられた閾値を、そのキーワードの閾値として特定する。
そして検出部１５は、あるキーワードに対する確率が閾値以上となる場合、そのキーワードを検出する。そして検出部１５は、検出したキーワードに対応するテキストを含む検出結果情報を出力部５へ出力する。

図１１は、第４の実施形態による音声認識装置の処理部４１により実行される音声認識処理の動作フローチャートを示す。
図１１におけるステップＳ４０１〜Ｓ４０５のそれぞれは、図４に示された動作フローチャートにおけるステップＳ１０１〜Ｓ１０５に対応する。そのため、ここでは、ステップＳ４０１〜Ｓ４０５の処理の詳細な説明は省略する。
検出部１５は、閾値表選択部１９へ、注目する発声区間が分類された区分の識別番号を通知する。そして閾値表選択部１９は、その区分の識別番号とともに記憶されている閾値表を、注目する発声区間に応じた閾値表として選択する（ステップＳ４０６）。そして閾値表選択部１０は、選択した閾値表を記憶部３から読込み、その読み込んだ閾値表を検出部１５へ渡す。

検出部１５は、注目する発声区間の開始時刻から終了時刻の間の音声データに基づいて、単語辞書を用いて、単語辞書に登録された各キーワードの確率をそれぞれ算出する（ステップＳ４０７）。そして検出部１５は、各キーワードの確率が対応する閾値以上か否か判定する（ステップＳ４０８）。
何れかのキーワードについて算出された確率が、そのキーワードに対して設定された閾値以上である場合（ステップＳ４０８−Ｙｅｓ）、検出部１５は、そのキーワードを検出する。そして検出部１５は、検出されたキーワードのテキストを単語辞書を参照して求め、そのテキストを含む検出結果情報を出力部５へ出力する（ステップＳ４０９）。なお、複数のキーワードについて算出された確率がそれぞれ閾値以上となる場合、検出部１５は、それら複数のキーワード全てについて、対応するテキストを出力する。

ステップＳ４０９の後、あるいはステップＳ４０８にて何れのキーワードについての確率も対応する閾値未満である場合（ステップＳ４０８−Ｎｏ）、検出部１５は、注目する発声区間が最後の発声区間か否か判定する（ステップＳ４１０）。
注目する発声区間が最後の発声区間でなければ（ステップＳ４１０−Ｎｏ）、検出部１５は、現在の注目発声区間の次の発声区間を注目発声区間とする（ステップＳ４１１）。そして検出部１５は、ステップＳ４０６以降の処理を繰り返す。
一方、注目する発声区間が最後の発声区間であれば（ステップＳ４１０−Ｙｅｓ）、検出部１５は、音声認識処理を終了する。
なお、処理部４１は、ステップＳ４０２の処理とステップＳ４０３の処理の順序を入れ替えてもよい。あるいは、処理部４１は、ステップＳ４０２の処理とステップＳ４０３の処理を同時に行ってもよい。

以上に説明してきたように、第４の実施形態による音声認識装置は、発声区間が分類された区分に応じて、キーワード検出に利用される閾値の値を調節する。そのため、この音声認識装置は、発声区間が分類された区分ごとに、キーワードの出現頻度に応じて閾値を最適化できる。その結果として、各発声期間において出現頻度が高いキーワードは検出され易くなり、一方、出現頻度が低いキーワードは検出され難くなる。したがって、この音声認識装置は、キーワードの検出精度を向上できる。

変形例として、処理部は、第２の実施形態と同様に、発声区間を、発声比率に応じて分類してもよい。また処理部はは、第３の実施形態と同様に、発声区間を、その発声区間が属する会話区間と会話中断区間の前後関係に応じて分類してもよい。

なお、本発明は上記の実施形態に限定されるものではない。一つの変形例によれば、検出部は、音響モデルを用いる代わりに、他の音声認識手法、例えば、動的時間伸縮法によってキーワードを検出してもよい。この場合、単語辞書には、動的時間伸縮法で用いられるパラメータが格納される。
また上記の各実施形態において、検出部は、検出された複数の発声区間のうちの特定の発声区間からのみ、特定のキーワードを検出してもよい。特定の発声区間は、例えば、音声データ中の一番最初の発声区間、何れかの会話区間の中間部分に属する発声区間、何れかの会話区間の終端部分に属する発声区間、あるいは、何れかの会話区間に属する発声区間とすることができる。これにより、音声認識装置は、キーワードの検出が意図されていない発声区間から誤ってキーワードを検出することを防止できる。

さらに他の変形例では、上記の第１、第３及び第４の実施形態における区間分類部は、会話区間中の発声区間の順序によらず、発声区間が属する会話区間の順序または会話区間と会話中断区間の前後関係によって、各発声区間を分類してもよい。

さらに、上記の各実施形態による音声認識装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
コンピュータに複数の話者の会話を録音した音声データから特定のキーワードを検出させる音声認識用コンピュータプログラムであって、
前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出し、
前記音声データから、何れかの話者が話している区間である複数の発声区間を検出し、
前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類し、
前記発声区間の少なくとも一つに対して、記憶部に記憶され、前記複数の区分のそれぞれに対応し、該区分において検出すべきキーワードを検出するための情報を含む複数の単語辞書のうち、当該発声区間が分類された区分に対応する単語辞書を前記記憶部から取得し、
前記発声区間の少なくとも一つから、当該発声区間に対して取得された単語辞書を用いて前記特定のキーワードを検出する、
ことをコンピュータに実行させるコンピュータプログラム。

１音声認識装置
２音声入力部
３記憶部
４、２１、３１、４１処理部
５出力部
６表示装置
１１会話区間検出部
１２発声区間検出部
１３区間分類部
１４単語辞書選択部
１５検出部
１６話者識別部
１７発声比率算出部
１８会話中断区間検出部
１９閾値表選択部

Claims

複数の話者の会話を録音した音声データを取得する音声入力部と、
複数の単語辞書を記憶する記憶部であって、該複数の単語辞書のそれぞれは、前記音声データの一部が分類される複数の区分の何れかに対応し、かつ当該区分において検出すべきキーワードを検出するための情報を含む記憶部と、
前記音声データから特定のキーワードを検出する処理部であって、
前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、
前記音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、
前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて前記複数の区分の何れかに分類する区間分類機能と、
前記複数の発声区間のうちの少なくとも一つについて、前記複数の単語辞書のうち、当該発声区間が分類された区分に対応する単語辞書を前記記憶部から取得する単語辞書選択機能と、
前記発声区間の少なくとも一つから、当該発声区間について取得された単語辞書を用いて前記特定のキーワードを検出する検出機能と、
を実現する処理部と、
を有する音声認識装置。
前記区間分類機能は、前記複数の会話区間のうちの前記音声データ中の先頭の会話区間に属する発声区間と、その他の会話区間の会話区間に属する発声区間とを、前記複数の区分のうちの互いに異なる区分に分類する、請求項１に記載の音声認識装置。
前記区間分類機能は、前記複数の発声区間のうちの少なくとも一つを、当該発声区間が属する会話区間の冒頭部分、中間部分及び終端部分の何れに属するかに応じて前記複数の区分の何れかに分類する、請求項１または２に記載の音声認識装置。
前記処理部は、
前記複数の発声区間のそれぞれについて、当該発声区間で発声している話者を識別する話者識別機能と、
前記複数の会話区間のそれぞれにおいて、話者ごとに話している期間が当該会話区間に占める発声比率をそれぞれ算出する発声比率算出機能とをさらに実現し、
前記区間分類機能は、前記複数の発声区間の少なくとも一つを、当該発声区間が属する会話区間における、当該発声区間で発声している話者の発声比率が当該会話区間における他の話者の発声比率よりも高いか否かに応じて前記複数の区分の何れかに分類する、請求項１〜３の何れか一項に記載の音声認識装置。
前記処理部は、
前記音声データから会話が途切れた会話中断区間を検出する会話中断区間検出機能をさらに実現し、
前記区間分類機能は、前記複数の発声区間の少なくとも一つを、当該発声区間が属する会話区間と前記会話中断区間との前後関係に応じて前記複数の区分の何れかに分類する、請求項１〜４の何れか一項に記載の音声認識装置。
複数の話者の会話を録音した音声データを取得する音声入力部と、
検出すべきキーワードの音響モデルを格納する単語辞書と、前記音声データの一部が分類される複数の区分の何れかに対応する複数の検出基準表とを記憶する記憶部と、
前記音声データから特定のキーワードを検出する処理部であって、
前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出する会話区間検出機能と、
前記音声データから、何れかの話者が話している区間である複数の発声区間を検出する発声区間検出機能と、
前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて前記複数の区分の何れかに分類する区間分類機能と、
前記発声区間の少なくとも一つについて、前記複数の検出基準表のうち、当該発声区間が分類された区分に対応する検出基準表を前記記憶部から取得する検出基準選択機能と、
前記発声区間の少なくとも一つについて、前記単語辞書に格納された音響モデルを用いてキーワードに対する前記音響モデルの類似度を求め、当該類似度が前記取得された検出基準表に示された検出基準を満たす場合に当該キーワードを検出する検出機能と、
を実現する処理部と、
を有する音声認識装置。
複数の話者の会話を録音した音声データを取得し、
前記音声データから、複数の話者が連続して話している区間である複数の会話区間を検出し、
前記音声データから、何れかの話者が話している区間である複数の発声区間を検出し、
前記複数の発声区間のそれぞれを、前記複数の会話区間のうちの当該発声区間が属する会話区間の順序に応じて複数の区分の何れかに分類し、
前記発声区間の少なくとも一つに対して、記憶部に記憶され、前記複数の区分のそれぞれに対応し、該区分において検出すべきキーワードを検出するための情報を含む複数の単語辞書のうち、当該発声区間が分類された区分に対応する単語辞書を前記記憶部から取得し、
前記発声区間の少なくとも一つから、当該発声区間に対して取得された単語辞書を用いて前記特定のキーワードを検出する、
ことを含む音声認識方法。