JP5800718B2

JP5800718B2 - 特定状況モデルデータベース作成装置とその方法と状況推定装置とプログラム

Info

Publication number: JP5800718B2
Application number: JP2012004329A
Authority: JP
Inventors: 桂右井本; 島内　末廣; 末廣島内; 羽田　陽一; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-01-12
Filing date: 2012-01-12
Publication date: 2015-10-28
Anticipated expiration: 2032-01-12
Also published as: JP2013142870A

Description

この発明は、音響信号を用いて自動的に場の状況を推定することを可能にするに特定状況モデルデータベース作成装置とその方法と、特定要素音モデルデータベース作成装置と状況推定装置と発呼適否通知装置とプログラムに関する。

遠隔地のある特定の場所（場）の状況を音響信号を用いて推定する技術が従来から検討されている。その従来の方法は、図２６に示す状況判定モデル生成装置９００を用いて場の状況推定をするためのモデル生成を行い、そのモデルを用いた図２７に示す状況推定装置９５０によって場の状況を推定する方法である（例えば非特許文献１）。

状況判定モデル生成装置９００は、特徴量抽出部９０１、状況判定モデル化処理部９０２、を備える。特徴量抽出部９０１は、例えば足音などの特定音の音響信号を入力として短時間（20msec〜100msec）毎に、その音圧レベル、音響パワー、ＭＦＣＣ特徴量、ＬＰＣ特徴量等が計算され特定音の特徴量（ベクトル）を抽出する。状況判定モデル化処理部９０２は、特徴量抽出部９０１で抽出された特徴量（ベクトル）に対してＧＭＭ（Gaussian Mixture Model）等のモデル化手法を用いて状況判定モデルを生成する。状況判定モデルは、複数の特定音に対応させて生成されてデータベース化され特定状況モデルデータベース９０３を構成する。

状況推定装置９５０は、特徴量抽出部９５１、特定状況モデルデータベース９０３、状況モデル比較部９５２、を備える。特徴量抽出部９５１は、状況判定モデル生成装置９００の特徴量抽出部９０１と同じものであり、入力される特定音の音響信号の特徴量を抽出する。状況モデル比較部９５２は、特徴量抽出部９５１が出力する特徴量と、特定状況モデルデータベース９０３に記憶された特定判定モデルを、例えば、ユークリッド距離やコサイン距離などを用いて比較し、最も近いものをその場の状況を表す音とみなして場の状況の推定結果を出力する。

Antti J. Eronen, Vesa T. Peltonen, Juha T. Tuomi, Anssi P. Klapuri, Seppo Fagerlund, Timo Sorsa, Gaetan Lorho, and Jyri Huopaniemi, "Audio-Based Content Recognition", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND, LANGUAGE PROCESSING, VOL, 14, NO.1, JANUARY 2006.

従来の音響信号を用いた状況推定装置９５０は、20msec〜100msecの短時間の音響信号を識別し、その結果を用いて場の状況推定を行う。その際、例えば、足音、ドアの開閉音、などの特定音の特徴量を一対一で対応させることで状況推定を行う。そのため、人が入室した等の単純な状況しか推定できない課題があった。例えば、複数の異なる音によって初めて特徴付けられる場（例えば料理中）の状況を推定することは困難であった。

この発明は、このような課題に鑑みてなされたものであり、複数の異なる音を含む数秒〜数十秒の長時間音響信号を用いて場の状況を推定可能にする特定状況モデルデータベース作成装置とその方法と、特定要素音モデルデータベース作成装置と状況推定装置と発呼適否通知装置とプログラムを提供することを目的とする。

この発明の特定状況モデルデータベース作成装置は、特徴量抽出部と、特定要素音モデルデータベースと、要素音モデル比較部と、要素音ヒストグラム化部と、特定状況モデル化部と、を具備する。特徴量抽出部は、ある特定の場の状況を表す複数の要素音を含む音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する。特定要素音モデルデータベースは、多数の特定要素音の特徴量を記憶する。要素音モデル比較部は、特徴量抽出部が出力する特徴量と、特定要素音モデルデータベースに記憶された特定判定モデルとを比較してユークリッド距離やコサイン距離等の距離が最も近い特定要素音モデルのラベル、またはその特定要素音モデルのラベルを音響信号列に付与したラベル付き音響信号列を出力する。要素音ヒストグラム化部は、要素音モデル比較部から出力された特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。特定状況モデル化部は、その要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて上記特定の場に対応する特定状況モデルを生成する。

また、この発明の特定要素音モデルデータベース作成装置は、上記した特定状況モデルデータベース作成装置の特定要素音モデルデータベースを作成するものであって、特徴量抽出部と、特定要素音モデル化部と、を具備する。特徴量抽出部は、特定音の音響信号列を入力として当該音響信号列を短時間のフレームに分割してフレーム毎に特徴量を抽出する。特定要素音モデル化部は、その特徴量を入力として当該特徴量に対してモデル化手法を用いて特定要素音モデルを生成する。

また、この発明の状況推定装置は、特徴量抽出部と、特定要素音モデルデータベースと、要素音モデル比較部と、要素音ヒストグラム化部と、特定状況モデルデータベースと、状況判定モデル比較部と、を具備する。特徴量抽出部は、複数の要素音を含む音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する。特定要素音モデルデータベースは、上記した特定要素音モデルデータベース作成装置で生成された特定要素音モデルを記憶する。要素音モデル比較部は、特定要素音モデルと特徴量をそれぞれ比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定してフレーム毎に要素音ラベルを付与する。要素音ヒストグラム化部は、特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。特定状況モデルデータベースは、特定状況モデルデータベース作成装置で生成された複数の特定状況モデルと状況分類モデルを記憶する。状況判定モデル比較部は、要素音ヒストグラムと、特定状況モデルまたは状況分類モデルとを比較し、最も類似するものを当該特定状況モデル又は状況分類モデルが表す状況と推定して状況推定結果を出力する。

また、この発明の発呼適否通知装置は、特徴量抽出部と、対応付け部と、発呼推薦モデル保存部と、発呼推薦状況判定部と、を具備する。特徴量抽出部は、複数の要素音を含む受話者側の音響信号列を短時間のフレームに分割し、当該フレーム毎に特徴量を抽出する。対応付け部は、特徴量と、受話者側の動作/行動情報又は動作/行動分類情報とを対応付けた対応付け情報を出力する。発呼推薦モデル保存部は、対応付け情報から特定される動作/行動情報又は当該動作/行動情報を分類した動作/行動分類情報と、通話の発生し易さの度合いとを対応付けた発呼推薦モデルを保存する。発呼推薦状況判定部は、対応付け情報を入力とし、当該対応付け情報が一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

この発明の特定状況モデルデータベース作成装置によれば、ある特定の場における複数の要素音を含む音響信号列から、特定要素音の識別を行い、その識別結果をヒストグラム化した分布から、その場を特定する特定状況モデルを生成する。よって、この特定状況モデルは、従来技術の１個の断片的な特徴量と異なり、複数の特定要素音から求められる。したがって、複数の異なる音によって初めて特徴付けられる場（例えば料理中）の状況を推定するモデルとして有効なモデルを生成することができる。

また、この発明の特定要素音モデルデータベース作成装置は、音響信号を用いた場の状況推定を実現するための特定要素音モデルを作成することができる。また、この発明の状況判定装置は、上記した特定状況モデルと特定要素音モデルとを用いて、音響信号からその場の状況を判定することができる。また、この発明の発呼適否通知装置は、受話者側の音響信号の特徴量から、受話者側の状況を判定し、送話者側に受話者側において通話が発生し易い状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を送信することができる。

この発明の特定状況モデルデータベース作成装置１００の機能構成例を示す図。特定状況モデルデータベース作成装置１００の動作フローを示す図。フレームとヒストグラムフレームとの関係を示す図。要素音ヒストグラムの例を示す図。この発明の特定状況モデルデータベース作成装置２００の機能構成例を示す図。特定状況モデルデータベース作成装置２００の動作フローを示す図。特定要素音モデルデータベース作成装置３００の機能構成例を示す図。特定要素音モデルデータベース作成装置４００の機能構成例を示す図。状況推定装置５００の機能構成例を示す図。状況推定装置５００の動作フローを示す図。この発明の発呼推薦モデル生成装置６００を組み込んだ通信システム２０００の機能構成例を示す図。通信履歴テーブルの例を示す図。この発明の発呼推薦モデル生成装置６１０を組み込んだ通信システム２０００の機能構成例を示す図。この発明の発呼推薦モデル生成装置６２０を組み込んだ通信システム２０００の機能構成例を示す図。この発明の発呼推薦モデル生成装置６３０の機能構成例を示す図。この発明の発呼推薦モデル生成装置６４０の機能構成例を示す図。この発明の発呼推薦モデル生成装置６５０の機能構成例を示す図。この発明の発呼推薦モデル生成装置６６０の機能構成例を示す図。この発明の発呼適否通知装置７００が接続された通話端末２０１０を含む通信システム２０００の機能構成例を示す図。この発明の発呼適否通知装置７１０が接続された通話端末２０１０を含む通信システム２０００の機能構成例を示す図。この発明の発呼適否通知装置７２０が接続された通話端末２０１０を含む通信システム２０００の機能構成例を示す図。この発明の発呼適否通知装置７３０の機能構成例を示す図。この発明の発呼適否通知装置７４０の機能構成例を示す図。この発明の発呼適否通知装置７５０の機能構成例を示す図。この発明の発呼適否通知装置７６０の機能構成例を示す図。従来の状況判定モデル生成装置９００の機能構成例を示す図。従来の状況判定装置９５０の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔特定状況モデルデータベース作成装置〕

図１に、この発明の特定状況モデルデータベース作成装置１００の機能構成例を示す。その動作フローを図２に示す。特定状況モデルデータベース作成装置１００は、特徴量抽出部１０と、特定要素音モデルデータベース２０と、要素音モデル比較部３０と、要素音ヒストグラム化部４０と、特定状況モデル化部５０と、を具備する。特定状況モデルデータベース作成装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

特徴量抽出部１０は、ある特定の場における複数の要素音を含む音響信号列を短時間フレームに分割し当該フレーム毎に特徴量を抽出する（ステップＳ１０）。ここで、ある特定の場における複数の要素音を含む音響信号列とは、例えば人が料理をしている状況、人が読書をしている状況などの特定の場の状況を表す音響信号列のことである。つまり、特定の場で録音した時間長が例えば５秒〜２０秒程度の音響信号である。その音響信号を、20msec〜100msecのフレームに分割し、そのフレーム毎に、例えば音圧レベル、音響パワー、ＭＦＣＣ特徴量。ＬＰＣ特徴量の特徴量を計算して、要素音の特徴量を抽出する。

要素音モデル比較部３０は、特徴量抽出部１０が出力する特徴量と、特定要素音モデルデータベース２０に記憶されている多数の特定要素音モデルとをそれぞれ比較して距離（ユークリッド距離やコサイン距離）が最も近い特定要素音モデルのラベル、または当該特定要素音モデルのラベルをフレーム単位で音響信号列に付与したラベル付き音響信号列を出力する（ステップＳ３０）。特定要素音モデルのラベル付き特徴量は、後述する特定要素音モデルデータベース作成装置３００で作成する。詳しくは後述する。

要素音ヒストグラム化部４０は、要素音モデル比較部３０から出力された特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する（ステップＳ４０）。図３に、フレームとヒストグラムフレームとの関係を示す。図３は、特定の場を、例えば「人が料理をしている状況」とした例である。ラベル付き音響信号列は、例えば20msec〜100msecの時間幅のフレーム毎に特定要素音モデルのラベルが付与された信号列である。

図３の例では、最初のフレームｆ_１が人の足音、２番目のフレームｆ_２が包丁で食材を切る音、３番目のフレームｆ_３が人の足音など、人が料理する場面での特定要素音モデルのラベルが付与されている。ヒストグラムフレームは、そのフレームをＰ個まとめたものであり、Ｐ個は例えば１００個〜１０００個とする。最初のフレームｆ_１からｆ_Ｐフレームまでが１番目のヒストグラムフレームＨ_１である。２番目のヒストグラムフレームＨ_２はフレームｆ_２からｆ_Ｐ＋１フレームから成る。ラベル付き音響信号列のフレーム長をＭとした場合、Ｍ−Ｐ＋１個のヒストグラムフレームが作成される。

要素音ヒストグラム化部４０は、ヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。図４に、要素音ヒストグラムを例示する。横軸は特定要素音モデルのラベル、縦軸は例えば、１個のヒストグラムフレーム内で各特定要素音が何回現れたかの回数や、各フレーム内における各特定要素音の尤度の、ヒストグラムフレーム内での特定要素音毎の総和等である。

特定状況モデル化部５０は、要素音ヒストグラム化部４０が出力する要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて特定の場に対応する特定状況モデルを生成する（ステップＳ５０）。モデル化手法とは、例えばＧＭＭ（Gaussian Mixture Model）を用いた場合、生成した特徴量を、ＥＭ（Expectation Maximization）アルゴリズムなどを用いて例えば式（１）に示すような混合正規分布（Mixture of Gaussian）を用いて当てはめた確率モデルｐ（ｘ）にモデル化することである。

ここで、ｘは特徴量（ベクトル）、ｋは正規分布の混合数、π_ｋは混合係数、Ｎは正規分布の確率密度関数、μ_ｋは分布の平均、Σ_ｋは分布の分散である。なお、特徴量のモデル化には、過去に観測された信号成分に依存して次の時刻の成分が選択されるという条件を用いて確率分布に算出した特徴量を当てはめるＨＭＭ（Hidden Markov Model）や、特徴量に対して各クラスタ間のマージンを最大化して分離境界を決定することによりモデル化を行うＳＶＭ（Support Vector Machine）等を用いることができる。ＧＭＭ，ＨＭＭ，ＳＶＭは周知である（例えば参考文献：奥村学、高村大也、「言語処理のための機械学習入門」コロナ社）。

例えばＧＭＭを用いて特定状況モデルを生成した場合、要素音ヒストグラム化部４０で作成されたＭ−Ｐ＋１個のヒストグラムフレームのそれぞれは、Ｎ個の特定要素音モデルのラベルを有する。

特定状況モデルはそのまま出力しても良いし、特定状況モデルデータベース６０に保存するようにしてもよい。

この前提において、特定状況モデル化部５０は、料理をしている等の特定の状況を表す、一つまたは複数の長時間音響信号から得られた複数のヒストグラムフレームから平均と分散を求める。この際、Ｒ種類の特定状況モデルを計算するとすれば、それぞれＲ個の平均と分散を計算し、その値が各々特定状況モデルとなる。

以上説明したように、この発明の特定状況モデルデータベース作成装置１００によれば、ある特定の場における複数の要素音を含む音響信号列から、特定要素音の識別を行い、その識別結果をヒストグラム化した分布から、その場を特定する特定状況モデルを生成する。この特定状況モデルは、従来技術の１個の断片的な特徴量と異なり、複数の特定要素音から求められるので、複数の異なる音によって初めて特徴付けられる場（例えば料理中）の状況を推定するモデルとして有効なものとなる。

図５に、この発明の特定状況モデルデータベース作成装置２００の機能構成例を示す。その動作フローを図６に示す。特定状況モデルデータベース作成装置２００は、上記した
特定状況モデルデータベース作成装置１００に対して、入力される音響信号列が特定の場を表す音響信号でなくても良い点、つまり不特定の場で録音した音響信号で良い点と、要素音ヒストグラム化部４０で作成した要素音ヒストグラムをその分布の形状で分類する分布クラスタリング処理部２１０と、その出力から状況分類モデルを生成する状況分類モデル化部２２０と、を備える点で異なる。特定状況モデルデータベース作成装置２００も、特定状況モデルデータベース作成装置１００と同様に、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

特定状況モデルデータベース作成装置２００は、特徴量抽出部１０と、特定要素音モデルデータベース２０と、要素音モデル比較部３０と、要素音ヒストグラム化部４０と、分布クラスタリング処理部２１０と、状況分類モデル化部２２０と、を備える。特徴量抽出部１０と特定要素音モデルデータベース２０と要素音モデル比較部３０と要素音ヒストグラム化部４０は、参照符号から明らかなように特定状況モデルデータベース作成装置１００と同じものである。

分布クラスタリング処理部２１０は、要素音ヒストグラム化部４０が作成した複数の要素音ヒストグラムを入力として、それぞれの要素音ヒストグラムを、その分布の形状で分類する（ステップＳ２１０）。つまり、Ｍ−Ｐ＋１個のヒストグラムを、その分布の形状が似ているもの同士で分類してＢ個のヒストグラムのまとまりを作成する。Ｂ個は、予め設定した「分類したい要素音の数」である。分布の形状で分類する手法には、上記した特定状況モデルを生成するのと同じ手法を用いることができる。ＧＭＭやＳＶＭ等の分類手法を用いることで、Ｍ−Ｐ＋１個のヒストグラムをＢ個のヒストグラムのまとまり（組）に分類する。この分布の形状が似ているヒストグラムのまとまりのそれぞれは、ある特定の場に対応したものとなる。

状況分類モデル化部２２０は、ヒストグラムのまとまりであるＢ個の組に対してＧＭＭやＨＭＭ、ＳＶＭ等のモデル化手法を用いてＢ種類の状況分類モデルを生成する（ステップＳ２２０）。状況分類モデルの生成方法は、上記した特定状況モデルを生成する方法と同じである。

〔特定要素音モデルデータベース作成装置〕

特定状況モデルデータベース作成装置１００と２００を構成する特定要素音モデルデータベース２０を作成する特定要素音モデルデータベース作成装置３００について説明する。
図７に、特定要素音モデルデータベース作成装置３００の機能構成例を示す。特定要素音モデルデータベース作成装置３００は、特徴量抽出部３１０と、特定要素音モデル化部３２０と、を具備する。

特徴量抽出部３１０は、特定音の音響信号列を入力として当該音響信号列を短時間フレームに分割してフレーム毎に特徴量を抽出する。特徴量としては、例えば音圧レベル、ＭＦＣＣ特徴量、ＬＰＣ特徴量等が用いられる。例えば、特定音の足音の音響信号が複数ある場合は、その全ての音響信号の特徴量（ベクトル）が計算される。足音の音響信号がｎ個あり、それぞれの音響信号がｍ個の短時間に分割可能であれば、ｎ×ｍ個の特徴量（ベクトル）が計算される。

特定要素音モデル化部３２０は、ｎ×ｍ個の特徴量（ベクトル）に対してモデル化手法を用いて１つの特定要素音モデルを生成する。モデル化手法は、上記した特定状況モデル化部５０で特定状況モデルを生成した手法と同じものを用いる。生成した特定要素音モデルは、特定要素音モデルデータベース２０に記憶される。特定要素音モデルデータベース２０は、上記したように特定状況モデルデータベース作成装置１００を構成する。特定要素音モデルデータベース作成装置３００の他の実施例を次に説明する。

図８に、特定要素音モデルデータベース作成装置４００の機能構成例を示す。特定要素音モデルデータベース作成装置４００は、特定要素音モデルデータベース作成装置３００に対して、特徴量クラスタリング部４１０と要素音分類モデル化部４２０を備える点と、入力される音響信号列に複数の要素音を含む点で異なる。

特徴量抽出部３１０は、複数の要素音を含む音響信号列を入力とする点のみが異なるだけで、他は特定要素音モデルデータベース作成装置３００のそれと同じである。特徴量クラスタリング部４１０は、特徴量抽出部３１０が出力する特徴量を分類して特徴量の組を作成する。特徴量の分類手法にはＧＭＭやＳＶＭ等の手法を用い、音響信号列をＣ個のまとまり（組）に分類する。Ｃ個は、予め設定した「分類したい特徴量の数」である。

要素音分類モデル化部４２０は、特徴量クラスタリング部４１０が出力するＣ個の特徴量の組を入力として、当該組に対してモデル化手法を用いて要素音分類モデルを生成する。モデル化手法は、上記した特定状況モデル化部５０で要素音ヒストグラムから特定状況モデルを生成した手法と同じものを用いる。

特定要素音モデルデータベース作成装置４００は、複数の要素音を含む音響信号列を、その特徴量で分類し、その分類したまとまり（組）から要素音分類モデルを生成する。

〔状況推定装置〕

図９に、この発明の状況推定装置５００の機能構成例を示す。その動作フローを図１０に示す。状況推定装置５００は、上記した特定要素音モデルデータベース作成装置３００で生成された特定要素音モデルを記憶した特定要素音モデルデータベース２０と、上記した特定状況モデルデータベース作成装置１００，２００で生成された特定状況モデルと状況分類モデルを記憶した特定状況モデルデータベース６０と、を用いて音響信号列が表す状況を推定するものである。状況推定装置５００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

状況推定装置５００は、特徴量抽出部１０と、特定要素音モデルデータベース２０と、要素音モデル比較部３０と、要素音ヒストグラム化部４０と、状況判定モデル比較部５１０と、特定状況モデルデータベース６０と、を具備する。特徴量抽出部１０は、入力される音響信号列を短時間フレームに分割し、当該フレーム毎に特徴量を抽出する（ステップＳ１０）。要素音モデル比較部３０は、特徴量抽出部１０が出力する特徴量と、特定要素音モデルデータベース２０に記憶された特定要素音モデルまたは要素音分類モデルとを比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定してフレーム毎の音響信号列に要素音ラベルを付与する（ステップＳ３０）。要素音ヒストグラム化部４０は、要素音モデル比較部３０から出力された特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する（ステップＳ４０）。ここまでの動作は、上記した特定状況モデルデータベース作成装置１００又は２００と同じである。

状況判定モデル比較部５１０は、要素音ヒストグラムと、特定状況モデルデータベース６０に記憶された特定状況モデルまたは状況分類モデルを比較し、最も近いものを当該特定状況モデルが表す状況と推定してその推定結果を出力する。ここで比較は、複数の特定状況モデルと要素音ヒストグラムのユークリッド距離やコサイン距離などを用いて行う。

場の状況の推定は、例えば、距離が最も近いモデルをその場の状況と推定する。予め定めた閾値よりも距離が近い場合には、距離が最も近いモデルをその場の状況と推定し、閾値よりも距離が近いモデルがない場合は「その他の状況」と推定すること等が考えられる。

以上説明した状況推定装置５００によれば、複数の異なる音によって初めて特徴付けられる場の状況の推定を、音響信号を用いて行うことを可能にする。また、要素音の判定モデルの生成にクラスタリング処理を導入することにより、特定音、特定状況のラベル付けが行われた音響信号を事前に用意することなく、場の状況推定を可能にする。

状況推定装置５００を構成する特定要素音モデルデータベース２０を作成する特定要素音モデルデータベース作成装置３００は、ある特定音の音響信号の特徴量（ベクトル）に対して、モデル化手法を用いて特定要素音モデルを生成するものである。以降では、その技術思想を通信の場面に適用した場合のいくつかの装置について説明する。まず、遠隔地にいる通信相手が通信可能な状況なのかを知る目的で使用する発呼推薦モデルを生成する発呼推薦モデル生成装置６００について説明する。

〔発呼推薦モデル生成装置〕

発呼推薦モデル生成装置６００は、通信システムの中で用いられ、通話が良く発生する場合の音響信号のモデル化と、通話があまり発生しない場合の音響信号のモデル化を行うものである。図１１に、発呼推薦モデル生成装置６００の機能構成例と、その発呼推薦モデル生成装置６００を一方の通信端末に接続した通信システム２０００の機能構成例を示す。

通信システム２０００は、電話回線網若しくはインターネット等のネットワーク２０２０と、そのネットワーク２０２０を挟んで一方と他方に配置される通信端末２０１０と２０３０とで構成される。通信端末２０１０を例えば受話側、通信端末２０２０を例えば送話側とする。そして、通信端末２０１０には、発呼推薦モデル生成装置６００が接続されている。通信端末２０１０は、音響・映像信号提示部２０１１と音響・映像信号取得部２０１２を有する。通信端末２０３０側の音響・映像信号提示部と取得部の表記は省略している。

発呼推薦モデル生成装置６００は、特徴量抽出部６０１と、通話履歴抽出部６０２と、発呼推薦モデル生成部６０３と、発呼推薦モデル保存部６０４と、を具備する。特徴量抽出部６０１は、一方の通信端末２０１０の音響・映像信号取得部２０１２から取得した音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する。特徴量としては、例えば、音圧レベル、音響パワー、零クロス特徴量、ＭＦＣＣ特徴量、ＬＰＣ特徴量等の何れかを用いる。抽出した特徴量は発呼推薦モデル生成部６０３に出力される。

通話履歴抽出部６０２は、通信端末２０１０からの通話履歴を随時受け取り新たな発呼/着呼が有ったことを示す発着呼信号を発呼推薦モデル生成部６０３に伝達すると共に通話履歴テーブルを作成する。図１２に、通話履歴テーブルの例を示す。通話履歴テーブルは、例えば、発信/着信時刻、通話終了時刻、通話時間、発呼/着呼、相手番号、履歴アドレス、の項目で構成される。図１２中の履歴アドレス０００２の通話終了時刻のnullは、「他方の通信端末２０３０からの着呼が有ったが一方の通話者が受話器をオフフックしなかった呼」であることを示す。また、履歴アドレス０００４のnullは、「一方の通信端末２０１０から発呼したが他方の通話者がオフフックしなかった呼」であることを示している。

発呼推薦モデル生成部６０３は、通話履歴抽出分６０２が出力する発着呼信号に応答して、当該発着呼信号の直前の音響信号の特徴量の特徴量分類を識別する。その識別は、例えば、ユークリッド距離やコサイン距離などを用いてその距離の大きさの範囲で行われる。そして、発呼推薦モデル生成部６０３は、発呼履歴モデルテーブルを作成する。表１に発呼履歴モデルテーブルの例を示す。

図１２に示した履歴アドレス０００３と０００５が例えば特徴量分類ａに、履歴アドレス０００１と０００６が特徴量分類ｄに分類されている。

発呼推薦モデル生成部６０３は、発着呼信号の直前の音響信号の特徴量を分類した後、その履歴アドレスに対応する通話履歴テーブルから、特徴量分類に対する度合い付けを行う。度合い付けは、通話が良く発生する場合には通話の発生し易さの度合いの値が大きくなり、通話があまり発生しない場合には通話の発生し易さの度合いの値が小さくなるように行う。例えば次のような度合い付けを行う。

発呼が行われた時刻における発呼を行った側は、通話が良く発生する場合とみなし、通話の発生し易さの度合いＴに１を加算する。着呼があったのにオフフックしない場合は、通話があまり発生しない場合とみなし、通話の発生し易さの度合いＴから１を減算する。また、通話が発生した場合に、その通話時間に応じてＴに０.０〜２.０の値を加算する。また、通話が発生した場合でも、その通話時間が所定の時間（例えば６０秒）以内の場合は、通話があまり発生しない場合とみなしてＴから０.５を減算する。このように通話の発生し易さの度合いＴの値を調整することで、特徴量分類を、通話が発生し易いものと、通話が発生し難いものとに分けることができる。例えばＴの値が１０以上であれば通話が良く発生する、また、−１０以下であれば通話があまり発生しないと判断することができる。そして、そのようにして分類した特徴量分類と発生度合いＴとを対応付けて発呼推薦モデルとする。発呼推薦モデルは発呼推薦モデル保存部６０４に保存される。つまり、発呼推薦モデルは、特徴量（ベクトル）と発生度合いＴとが対応付けられた表である。したがって、発呼推薦モデルを用いて受話側の音響信号の特徴量を評価することで、受話側の通話が発生し易い状況であるか否かを知ることができる。

なお、発呼推薦モデルの生成には、上記したように音響信号のみを用いても良いし、音響・映像信号取得部２０１２で取得した映像信号を利用しても良い。また、その他のセンサ（図１１に破線で示す６０５）で取得した例えば、照度情報や、温度情報、加速度情報等を用いて発呼推薦モデルを生成するようにしても良い。また、発呼推薦モデルは、通話が良く発生する場合のモデルと、あまり発生しない場合のモデルのどちらか一方のみを生成するようにしても良い。

図１３に、この発明の発呼推薦モデル生成装置６１０の機能構成例を示す。発呼推薦モデル生成装置６１０が接続された通話端末２０１０は、通信システム２０００を構成する。発呼推薦モデル生成装置６１０は、例えば、足音、ガラスの割れる音、等の特定要素音と特徴量とを事前に対応付けたモデルを用意しておき、上記した発呼推薦モデル生成装置６００の特徴量抽出部６０１で抽出した特徴量から特定要素音を特定し、特定要素音を用いて発呼推薦モデルを生成するものである。

発呼推薦モデル生成装置６１０は、発呼推薦モデル生成装置６００に対して特定要素音モデルデータベース６１１と要素音特定部６１２とを更に備える点で異なる。特定要素音モデルデータベース６１１には、特徴量抽出部６０１で得られる特徴量（ベクトル）とその特徴量が表す要素音（例えば、足音、ガラスが割れる音、音声等）が対応付けられた要素音特定モデルが保存されている。特定要素音モデルデータベース６１１の作成方法は、実施例３と同じである。

要素音特定部６１２は、特徴量抽出部６０１で抽出した特徴量を入力として、特定要素音モデルデータベース６１１に保存されている各々の特定要素音モデルとそれぞれ比較して、距離（ユークリッド距離やコサイン距離など）が最も近いものをそのフレームの要素音と特定し、その特定結果を発呼推薦モデル生成部６０３に出力する。

発呼推薦モデル生成部６０３は、発着呼信号の直前の要素音で履歴アドレスを分類し、履歴アドレスに対応する通話履歴テーブルから、要素音に対する度合い付けを行う。要素音に対する度合い付けは上記した方法と同じである。

発呼推薦モデル生成部６０３は、要素音特定部６１２が出力する特定結果と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。特定結果の要素音と発生度合いＴとが対応付けられた発呼推薦モデルは、発呼推薦モデル保存部６１３に保存される。モデル化は上記したのと同一の手法で行われる。

発呼推薦モデル生成装置６１０によれば、個々の特定結果の要素音と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。表２にその例を示す。

表２は、例えば受話側で人の声がしている時は通話が発生し易く、ドアの開閉音が発生した時は通話が発生し難いことを示している。

図１４に、この発明の発呼推薦モデル生成装置６２０の機能構成例を示す。発呼推薦モデル生成装置６２０は、一定時間の特徴量をクラスタリングし、クラスタ毎に生成されたモデルから、特徴量抽出部６０１で抽出した特徴量が属するクラスを判定し、判定した要素音のクラスを用いて発呼推薦モデルを生成するものである。

発呼推薦モデル生成装置６２０は、発呼推薦モデル生成装置６１０の特定要素音モデルデータベース６１１と要素音判定部６１２に代えて、特定要素音モデルデータベース６２１と要素音クラスタ判定部６２２を備える点で異なる。発呼推薦モデル生成装置６１０では、要素音に対応するモデルを生成するのに、例えば、足音、ガラスの割れる音などの音に対応する特徴量を事前に用意する必要があった。しかし、発生し得る全ての要素音にそれぞれ対応する特徴量を事前に用意することは困難である。

そこで、発呼推薦モデル生成装置６２０は、要素音と特徴量の対応付けを事前に用意することなくモデル生成を行うようにしたものである。特定要素音モデルデータベース６２１には、特徴量抽出部６０１で得られるであろう一定時間の特徴量（ベクトル）をＧＭＭやＨＭＭやＳＶＭ等の手法を用いて分類して作成された要素音分類モデルが保存されている。特定要素音モデルデータベース６２１の作成方法は、実施例４と同じである。

要素音クラスタ判定部６２２は、特徴量抽出部６０１から取得した特徴量（ベクトル）を、特定要素音モデルデータベース６２１に保存されている要素音分類モデルと比較し、特徴量が属する分類クラスを判定し、分類結果を発呼推薦モデル生成部６２４に出力する。

発呼推薦モデル生成部６２４は、要素音クラスタ判定部６２２が出力する分類クラスと通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同一の手法で行われる。

発呼推薦モデル生成装置６２０によれば、要素音の分類クラスと発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。

発呼推薦モデルは、通話の発生度合いＴと、他の情報とを対応付けたモデルとすることも可能である。例えば、上記した特徴量そのものに対してではなく、特徴量から推定できる動作/行動情報やその動作/行動情報を分類した動作/行動分類情報と、通話の発生度合いＴとを対応付けた発呼推薦モデルとしても良い。

図１５に、動作/行動情報と、通話の発生度合いＴとを対応付けた発呼推薦モデルを生成する発呼推薦モデル生成装置６３０の機能構成例を示す。発呼推薦モデル生成装置６３０は、上記した発呼推薦モデル生成装置６１０の構成に、動作/行動特定モデル保存部６３１と動作/行動特定部６３２を追加したものである。

発呼推薦モデル生成装置６３０は、要素音特定部６１２で特定された要素音、足音、ガラスが割れる音、等の要素音と要素音を生じる動作や行動とを対応付けたモデルを用意しておくことで、要素音を生じる動作や行動を特定し、特定した動作や行動を用いて発呼推薦モデルを生成する。

動作/行動特定モデル保存部６３１には、要素音特定部６１２が出力する特定結果と、動作/行動（例えば、料理をしている、読書している、睡眠中等）が対応付けられた動作/行動特定モデルが保存されている。動作/行動特定モデル保存部６３１の作成方法は、実施例１の特定状況モデルデータベースの作成方法と同様である。動作/行動特定モデルは、例えば、20msec〜100msecの時間幅のフレームごとの要素音特定部６１２の出力を入力とし、そのフレームをＰ個まとめたヒストグラムフレームごとに、特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成し、そのヒストグラムの形状をモデル化手法を用いてモデル化したものである。

動作/行動特定部６３２は、要素音特定部６１２が出力する特定結果をヒストグラム化し、動作/行動特定モデル保存部６３１に保存されている動作/行動特定モデルと比較し、最も類似する動作/行動分類モデルを特定することで動作/行動を特定し、動作/行動情報を発呼推薦モデル生成部６０３に出力する。

発呼推薦モデル生成部６３４は、動作/行動特定部６３２が出力する動作/行動情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われ、発呼推薦モデル保存部６３３に保存される。

発呼推薦モデル生成装置６３０によれば、動作/行動情報と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。動作/行動情報とは、例えば、「料理をしている」、「読書をしている」、等の情報であり、それぞれに発生度合いＴの値が対応付けられた発呼推薦モデルとなる。

また、上記した発呼推薦モデル生成装置６２０の構成に、更に動作/行動特定モデル保存部６３１と動作/行動特定部６３２とを追加した構成の発呼推薦モデル生成装置６４０の機能構成例も考えられる。図１６に、発呼推薦モデル生成装置６４０の機能構成例を示す。

発呼推薦モデル生成装置６４０は、要素音クラスタ判定部６２２で特定された要素音のクラスと要素音を生じる動作や行動とを対応付けたモデルを用意しておくことで、要素音を生じる動作や行動を特定し、特定した動作や行動を用いて発呼推薦モデルを生成するものである。

発呼推薦モデル生成部６３４は、動作/行動特定部６３２が出力する動作/行動情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われる。発呼推薦モデル生成装置６４０でも、動作/行動情報と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。

図１７に、上記した発呼推薦モデル生成装置６１０の構成に更に動作/行動分類モデル保存部６５１と動作/行動クラスタ判定部６５２を追加したこの発明の発呼推薦モデル生成装置６５０の機能構成例を示す。

発呼推薦モデル生成装置６５０は、要素音特定部６１２が特定した要素音が表す動作や行動のクラスを判定し、判定した動作や行動のクラスを用いて発呼推薦モデルを生成するものである。

動作/行動分類モデル保存部６５１には、要素音特定部６１２から取得した複数フレームにわたる要素音の特定結果から、ヒストグラム化処理により生成された要素音ヒストグラムと、動作/行動（例えば、料理をしている、読書している、睡眠中等）が対応付けられた動作/行動特定モデルが保存されている。動作/行動特定モデル保存部６５１の作成方法は、実施例２の特定状況モデルデータベースの作成方法と同様である。例えば20msec〜100msecの時間幅のフレームごとの要素音特定部６１２の出力を入力とし、そのフレームをＰ個まとめたヒストグラムフレームごとに、特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。そのヒストグラムの形状が似ているもの同士で分類して、Ｂ個のヒストグラムのまとまり（組）にし、このＢ個の組に対してＧＭＭやＨＭＭ、ＳＶＭ等のモデル化手法を用いてＢ種類の動作/行動特定モデルを生成する。

動作/行動クラスタ判定部６５２は、要素音特定部６１２から取得した要素音特定結果から頻度特徴量を算出し、動作/行動分類モデル保存部６５１に保存されている動作/行動分類モデルと比較し、最も類似する動作/行動分類モデルを、その特定結果が表す動作/行動分類として特定し、動作/行動分類情報を発呼推薦モデル生成部６０３に出力する。

発呼推薦モデル生成部６５４は、動作/行動特定部６５２が出力する動作/行動分類情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。動作/行動分類情報と発生度合いＴとが対応付けられた発呼推薦モデルは、発呼推薦モデル保存部６５３に保存される。

発呼推薦モデル生成装置６５０によれば、動作/行動分類情報と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。

また、上記した発呼推薦モデル生成装置６２０の構成に、更に動作/行動分類モデル保存部６５１と動作/行動クラスタ判定部６５２を追加した発呼推薦モデル生成装置６６０の機能構成例も考えられる。図１８に、発呼推薦モデル生成装置６６０の機能構成例を示す。

発呼推薦モデル生成装置６６０は、要素音クラスタ判定部６２２が判定した要素音のクラスが表す動作や行動のクラスを判定し、判定した動作や行動のクラスを用いて発呼推薦モデルを生成するものである。

発呼推薦モデル生成部６５４は、動作/行動クラスタ判定部６５２が出力する動作/行動分類情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われる。発呼推薦モデル生成装置６６０でも、動作/行動分類情報と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。

なお、実施例７〜１０に記載した発呼推薦モデル生成装置の発呼推薦モデルの生成には、音響信号のみを用いた例を説明したが、音響・映像信号取得部２０１２で取得した映像信号や、その他のセンサで取得した例えば、照度情報や、温度情報、加速度情報等を用いて発呼推薦モデルを生成するようにしても良いことは、実施例６の発呼推薦モデル生成装置６００と同じである。また、発呼推薦モデルは、通話が良く発生する場合のモデルと、あまり発生しない場合のモデルのどちらか一方のみを生成するようにしても良いことも同様である。

以上、遠隔地にいる通信相手が通信可能な状況なのかを知る目的で使用する発呼推薦モデルを生成する発呼推薦モデル生成装置について説明した。次に、発呼推薦モデル生成装置６００〜６６０を用いて、遠隔地にいる通信相手が通話可能な状態でないのにも関わらず受話者に発呼してしまう課題を解決する発呼適否通知装置について説明する。

〔発呼適否通知装置〕

図１９に、発呼適否通知装置７００を含む通信システム２０００の機能構成例を示す。通信システム２０００の機能構成は上記したものと同じである。発呼適否通知装置７００は、受話側の通信端末２０１０に接続され、発呼推薦モデル生成装置６００（実施例６）で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７００は、特徴量抽出部６０１と、発呼推薦モデル保存部６０４と、発呼推薦状況判定部７０１と、を具備する。特徴量抽出部６０１と発呼推薦モデル保存部６０４は、発呼推薦モデル生成装置６００と同じものである。

発呼推薦状況判定部７０１は、特徴量抽出部６０１が出力する音響信号列から抽出した例えば、音圧レベル、音響パワー、零クロス特徴量、ＭＦＣＣ特徴量、ＬＰＣ特徴量等の特徴量と、発呼推薦モデル保存部６０４に保存された特徴量（ベクトル）と発生度合いＴとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。発呼の適否は、上記した通話の発生度合いＴの値を、ある閾値と比較し、例えばＴの値が１０以上であれば発呼に適、又、Ｔの値が−１０以下で有れば発呼に不適、と判定する。

発呼適否通知情報は、通話端末２０１０に入力されネットワーク２０２０を介して送話側の通話端末２０３０に送信される。発呼適否通知情報を受信した送話側の通信端末２０３０は、受話者が通話可能な状況であるかを表示する。その表示はＬＥＤランプ等の点灯や、液晶パネルの表示等の図示していない発呼推薦情報表示手段によって行われる。

なお、設計的事項に関わる発呼適否通知情報の出力間隔は、例えば数秒から数分間隔で行われるものとする。また、発呼適否通知装置７００や発呼推薦情報表示手段の機能は、通話端末（２０１０，２０３０）と一体に構成するようにしても良い。また、発呼適否通知情報を通知する送話者側の通信端末を特定する方法は、この発明の要部ではないのでその説明は省略するが、事前に複数の送話者の通話端末を登録しておくことで簡単に実現することが可能である。

図２０に、発呼適否通知装置７１０を含む通信システム２０００の機能構成例を示す。発呼適否通知装置７１０は、受話側の通信端末２０１０に接続され、発呼推薦モデル生成装置６１０（実施例７）で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７１０は、特徴量抽出部６０１と、特定要素音モデル保存部６１１と、要素音特定部６１２と、発呼推薦モデル保存部６１３と、発呼推薦状況判定部７１１と、を具備する。特徴量抽出部６０１と特定要素音モデル保存部６１１と要素音特定部６１２と発呼推薦モデル保存部６１３とは、発呼推薦モデル生成装置６１０と同じものである。

発呼推薦状況判定部７１１は、要素音特定部６１２が出力する要素音と、例えば、足音、ガラスが割れる音等の音声と通話の発生度合いＴとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。これ以降の動作は、発呼適否通知装置７００と同じである。

図２１に、発呼適否通知装置７２０を含む通信システム２０００の機能構成例を示す。発呼適否通知装置７２０は、受話側の通信端末２０１０に接続され、発呼推薦モデル生成装置６２０（実施例８）で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７２０は、特徴量抽出部６０１と、特定要素音モデルデータベース６２１と、要素音クラスタ判定部６２２と、発呼推薦モデル保存部６２３と、発呼推薦状況判定部７２１と、を具備する。特徴量抽出部６０１と、特定要素音モデルデータベース６２１と、要素音クラスタ判定部６２２と、発呼推薦モデル保存部６２３とは、発呼推薦モデル生成装置６２０と同じものである。

発呼推薦状況判定部７２１は、要素音クラスタ判定部６２２が出力する分類クラスと、分類クラスと通話の発生度合いＴとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。これ以降の動作は、発呼適否通知装置７００と同じである。

発呼適否通知装置は、通話の発生度合いＴと、他の情報とを対応付けた発呼推薦モデルを用いても構成することが可能である。例えば、上記した特徴量そのものに対してではなく、特徴量から推定できる動作/行動情報やその動作/行動情報を分類した動作/行動分類情報と、通話の発生度合いＴとを対応付けた発呼推薦モデルとしても良い。

図２２に、その場合の発呼適否通知装置７３０の機能構成例を示す。発呼適否通知装置７３０は、特徴量抽出部６０１と、対応付け部７３２と、発呼推薦モデル保存部６３３と、発呼推薦状況判定部７３１と、を具備する。特徴量抽出部６０１は、複数の要素音を含む受話者側の音響信号列を短時間フレームに分割し、当該フレーム毎に特徴量を抽出する。対応付け部７３２は、特徴量と、受話者側の動作/行動情報とを対応付けた対応付け情報を出力する。発呼推薦モデル保存部６３３は、特徴量から特定される動作/行動情報と、通話の発生し易さの度合いとを対応付けた発呼推薦モデルを保存する。発呼推薦状況判定部７３１は、対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

発呼適否通知装置７３０は、発呼推薦モデル生成装置６３０（実施例９）で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７３０は、特徴量抽出部６０１と、対応付け部７３２と、発呼推薦モデル保存部６３３と、発呼推薦状況判定部７３１と、を具備する。対応付け部７３２は、特定要素音モデルデータベース６１１と要素音特定部６１２と動作/行動特定モデル保存部６３１と動作/行動特定部６３２とで構成される。この構成は、発呼推薦モデル生成装置６３０と同じである。

発呼推薦状況判定部７３１は、対応付け部７３２が出力する特徴量と受話者側の動作/行動情報とを対応付けた対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

図２３に、発呼適否通知装置７４０の機能構成例を示す。発呼適否通知装置７４０は、発呼推薦モデル生成装置６４０（実施例９）で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７４０は、特徴量抽出部６０１と、対応付け部７４２と、発呼推薦モデル保存部６３３と、発呼推薦状況判定部７４１と、を具備する。対応付け部７４２は、特定要素音モデルデータベース６２１と要素音クラスタ判定部６２２と動作/行動特定モデル保存部６３１と動作/行動特定部６３２とで構成される。この構成は、発呼推薦モデル生成装置６３０と同じである。

発呼推薦状況判定部７４１は、対応付け部７４２が出力する特徴量と動作/行動情報とを対応付けた対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

図２４に、発呼適否通知装置７５０の機能構成例を示す。発呼適否通知装置７５０は、発呼推薦モデル生成装置６５０（実施例１０）で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７５０は、特徴量抽出部６０１と、対応付け部７５２と、発呼推薦モデル保存部６５３と、発呼推薦状況判定部７５１と、を具備する。対応付け部７５２は、特定要素音モデルデータベース６１１と要素音特定部６１２と動作/行動分類モデル保存部６５１と動作/行動クラスタ特定部６５２とで構成される。この構成は、発呼推薦モデル生成装置６５０と同じである。

発呼推薦状況判定部７５１は、対応付け部７５２が出力する特徴量と動作/行動分類情報を入力として動作/行動分類情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

図２５に、発呼適否通知装置７６０の機能構成例を示す。発呼適否通知装置７６０は、発呼推薦モデル生成装置６６０（実施例１０）で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７６０は、特徴量抽出部６０１と、対応付け部７６２と、発呼推薦モデル保存部６５３と、発呼推薦状況判定部７６１と、を具備する。対応付け部７６２は、特定要素音モデルデータベース６２１と要素音クラスタ判定部６２２と動作/行動分類モデル保存部６５１と動作/行動クラスタ判定部６５２とで構成される。この構成は、発呼推薦モデル生成装置６６０と同じである。

発呼推薦状況判定部７６１は、対応付け部７６２が出力する特徴量と動作/行動分類情報とを対応付けた対応付け情報を入力として動作/行動分類情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

以上述べたようにこの発明の発呼適否通知装置７００〜７６０によれば、特徴量、要素音、分類クラス、動作/行動情報、動作/行動分類情報の何れかによって受話者側において、受話者が現在通話可能な状況にあるのか否かを判定し、判定結果（発呼適否通知情報）を送話者側に通知することができる。

上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

ある特定の場の状況を表す複数の要素音を含む音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する特徴量抽出部と、
多数の特定要素音の特定要素音モデルを記憶する特定要素音モデルデータベースと、
上記特徴量抽出部が出力する特徴量と、上記特定要素音モデルデータベースに記憶された特定要素音モデルとを比較して最も類似するモデルの上記特定要素音モデルのラベル、または上記特定要素音モデルのラベルを上記音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較部と、
上記要素音モデル比較部の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の上記特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化部と、
上記要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて上記特定の場に対応する特定状況モデルを生成する特定状況モデル化部と、
を具備する特定状況モデルデータベース作成装置。
複数の要素音を含む音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する特徴量抽出部と、
多数の特定要素音の特定要素音モデルを記憶する特定要素音モデルデータベースと、
上記特徴量抽出部が出力する特徴量と、上記特定要素音モデルデータベースに記憶された特定要素音モデルとを比較して最も類似するモデルの上記特定要素音モデルのラベル、または上記特定要素音モデルのラベルを上記音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較部と、
上記要素音モデル比較部の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の上記特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化部と、
複数の上記要素音ヒストグラムをその分布の形状で分類した要素音分類を作成する分布クラスタリング処理部と、
上記要素音分類を入力として、当該要素音分類に対してモデル化手法を用いて状況分類モデルを生成する状況分類モデル化部と、
を具備する特定状況モデルデータベース作成装置。
複数の要素音を含む音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する特徴量抽出部と、
請求項１又は２に記載した特定要素音モデルを記憶した特定要素音モデルデータベースと、
上記特定要素音モデルと上記特徴量をそれぞれ比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定して上記フレーム毎に要素音ラベルを付与する要素音モデル比較部と、
上記ラベル付き音響信号列を入力として、上記特定要素音モデルのラベルとその頻度の要素音ヒストグラムを作成する要素音ヒストグラム化部と、
請求項１又は２に記載した特定状況モデルデータベース作成装置で生成された複数の特定状況モデルと状況分類モデルとを、記憶した特定状況モデルデータベースと、
上記要素音ヒストグラムと、上記特定状況モデルまたは上記状況分類モデルとを比較し、最も類似するものを当該特定状況モデル又は状況分類モデルが表す状況と推定して状況推定結果を出力する状況判定モデル比較部と、
を具備する状況推定装置。
ある特定の場における複数の要素音を含む音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する特徴量抽出過程と、
上記特徴量抽出過程が出力する特徴量と、特定要素音モデルデータベースに記憶された多数の特定要素音の特定要素音モデルとを比較して最も類似するモデルの上記特定要素音モデルのラベル、または上記特定要素音モデルのラベルを上記音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較過程と、
上記要素音モデル比較過程の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の上記特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化過程と、
上記要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて上記特定の場に対応する特定状況モデルを生成する特定状況モデル化過程と、
を備える特定状況モデルデータベース作成方法。
複数の要素音を含む音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する特徴量抽出過程と、
上記特徴量抽出過程が出力する特徴量と、特定要素音モデルデータベースに記憶された多数の特定要素音の特定要素音モデルとを比較して最も類似するモデルの上記特定要素音モデルのラベル、または上記特定要素音モデルのラベルを上記音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較過程と、
上記要素音モデル比較過程の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の上記特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化過程と、
複数の上記要素音ヒストグラムをその分布の形状で分類した要素音分類を作成する分布クラスタリング処理過程と、
上記要素音分類を入力として、当該要素音分類に対してモデル化手法を用いて状況分類モデルを生成する状況分類モデル化過程と、
を備える特定状況モデルデータベース作成方法。
請求項１又は２に記載した特定状況モデルデータベース作成装置としてコンピュータを機能させるためのプログラム。
請求項３に記載した状況推定装置としてコンピュータを機能させるためのプログラム。