以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔特定状況モデルデータベース作成装置〕
図1に、この発明の特定状況モデルデータベース作成装置100の機能構成例を示す。その動作フローを図2に示す。特定状況モデルデータベース作成装置100は、特徴量抽出部10と、特定要素音モデルデータベース20と、要素音モデル比較部30と、要素音ヒストグラム化部40と、特定状況モデル化部50と、を具備する。特定状況モデルデータベース作成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
特徴量抽出部10は、ある特定の場における複数の要素音を含む音響信号列を短時間フレームに分割し当該フレーム毎に特徴量を抽出する(ステップS10)。ここで、ある特定の場における複数の要素音を含む音響信号列とは、例えば人が料理をしている状況、人が読書をしている状況などの特定の場の状況を表す音響信号列のことである。つまり、特定の場で録音した時間長が例えば5秒〜20秒程度の音響信号である。その音響信号を、20msec〜100msecのフレームに分割し、そのフレーム毎に、例えば音圧レベル、音響パワー、MFCC特徴量。LPC特徴量の特徴量を計算して、要素音の特徴量を抽出する。
要素音モデル比較部30は、特徴量抽出部10が出力する特徴量と、特定要素音モデルデータベース20に記憶されている多数の特定要素音モデルとをそれぞれ比較して距離(ユークリッド距離やコサイン距離)が最も近い特定要素音モデルのラベル、または当該特定要素音モデルのラベルをフレーム単位で音響信号列に付与したラベル付き音響信号列を出力する(ステップS30)。特定要素音モデルのラベル付き特徴量は、後述する特定要素音モデルデータベース作成装置300で作成する。詳しくは後述する。
要素音ヒストグラム化部40は、要素音モデル比較部30から出力された特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する(ステップS40)。図3に、フレームとヒストグラムフレームとの関係を示す。図3は、特定の場を、例えば「人が料理をしている状況」とした例である。ラベル付き音響信号列は、例えば20msec〜100msecの時間幅のフレーム毎に特定要素音モデルのラベルが付与された信号列である。
図3の例では、最初のフレームf1が人の足音、2番目のフレームf2が包丁で食材を切る音、3番目のフレームf3が人の足音など、人が料理する場面での特定要素音モデルのラベルが付与されている。ヒストグラムフレームは、そのフレームをP個まとめたものであり、P個は例えば100個〜1000個とする。最初のフレームf1からfPフレームまでが1番目のヒストグラムフレームH1である。2番目のヒストグラムフレームH2はフレームf2からfP+1フレームから成る。ラベル付き音響信号列のフレーム長をMとした場合、M−P+1個のヒストグラムフレームが作成される。
要素音ヒストグラム化部40は、ヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。図4に、要素音ヒストグラムを例示する。横軸は特定要素音モデルのラベル、縦軸は例えば、1個のヒストグラムフレーム内で各特定要素音が何回現れたかの回数や、各フレーム内における各特定要素音の尤度の、ヒストグラムフレーム内での特定要素音毎の総和等である。
特定状況モデル化部50は、要素音ヒストグラム化部40が出力する要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて特定の場に対応する特定状況モデルを生成する(ステップS50)。モデル化手法とは、例えばGMM(Gaussian Mixture Model)を用いた場合、生成した特徴量を、EM(Expectation Maximization)アルゴリズムなどを用いて例えば式(1)に示すような混合正規分布(Mixture of Gaussian)を用いて当てはめた確率モデルp(x)にモデル化することである。
ここで、xは特徴量(ベクトル)、kは正規分布の混合数、πkは混合係数、Nは正規分布の確率密度関数、μkは分布の平均、Σkは分布の分散である。なお、特徴量のモデル化には、過去に観測された信号成分に依存して次の時刻の成分が選択されるという条件を用いて確率分布に算出した特徴量を当てはめるHMM(Hidden Markov Model)や、特徴量に対して各クラスタ間のマージンを最大化して分離境界を決定することによりモデル化を行うSVM(Support Vector Machine)等を用いることができる。GMM,HMM,SVMは周知である(例えば参考文献:奥村学、高村大也、「言語処理のための機械学習入門」コロナ社)。
例えばGMMを用いて特定状況モデルを生成した場合、要素音ヒストグラム化部40で作成されたM−P+1個のヒストグラムフレームのそれぞれは、N個の特定要素音モデルのラベルを有する。
特定状況モデルはそのまま出力しても良いし、特定状況モデルデータベース60に保存するようにしてもよい。
この前提において、特定状況モデル化部50は、料理をしている等の特定の状況を表す、一つまたは複数の長時間音響信号から得られた複数のヒストグラムフレームから平均と分散を求める。この際、R種類の特定状況モデルを計算するとすれば、それぞれR個の平均と分散を計算し、その値が各々特定状況モデルとなる。
以上説明したように、この発明の特定状況モデルデータベース作成装置100によれば、ある特定の場における複数の要素音を含む音響信号列から、特定要素音の識別を行い、その識別結果をヒストグラム化した分布から、その場を特定する特定状況モデルを生成する。この特定状況モデルは、従来技術の1個の断片的な特徴量と異なり、複数の特定要素音から求められるので、複数の異なる音によって初めて特徴付けられる場(例えば料理中)の状況を推定するモデルとして有効なものとなる。
図5に、この発明の特定状況モデルデータベース作成装置200の機能構成例を示す。その動作フローを図6に示す。特定状況モデルデータベース作成装置200は、上記した
特定状況モデルデータベース作成装置100に対して、入力される音響信号列が特定の場を表す音響信号でなくても良い点、つまり不特定の場で録音した音響信号で良い点と、要素音ヒストグラム化部40で作成した要素音ヒストグラムをその分布の形状で分類する分布クラスタリング処理部210と、その出力から状況分類モデルを生成する状況分類モデル化部220と、を備える点で異なる。特定状況モデルデータベース作成装置200も、特定状況モデルデータベース作成装置100と同様に、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
特定状況モデルデータベース作成装置200は、特徴量抽出部10と、特定要素音モデルデータベース20と、要素音モデル比較部30と、要素音ヒストグラム化部40と、分布クラスタリング処理部210と、状況分類モデル化部220と、を備える。特徴量抽出部10と特定要素音モデルデータベース20と要素音モデル比較部30と要素音ヒストグラム化部40は、参照符号から明らかなように特定状況モデルデータベース作成装置100と同じものである。
分布クラスタリング処理部210は、要素音ヒストグラム化部40が作成した複数の要素音ヒストグラムを入力として、それぞれの要素音ヒストグラムを、その分布の形状で分類する(ステップS210)。つまり、M−P+1個のヒストグラムを、その分布の形状が似ているもの同士で分類してB個のヒストグラムのまとまりを作成する。B個は、予め設定した「分類したい要素音の数」である。分布の形状で分類する手法には、上記した特定状況モデルを生成するのと同じ手法を用いることができる。GMMやSVM等の分類手法を用いることで、M−P+1個のヒストグラムをB個のヒストグラムのまとまり(組)に分類する。この分布の形状が似ているヒストグラムのまとまりのそれぞれは、ある特定の場に対応したものとなる。
状況分類モデル化部220は、ヒストグラムのまとまりであるB個の組に対してGMMやHMM、SVM等のモデル化手法を用いてB種類の状況分類モデルを生成する(ステップS220)。状況分類モデルの生成方法は、上記した特定状況モデルを生成する方法と同じである。
〔特定要素音モデルデータベース作成装置〕
特定状況モデルデータベース作成装置100と200を構成する特定要素音モデルデータベース20を作成する特定要素音モデルデータベース作成装置300について説明する。
図7に、特定要素音モデルデータベース作成装置300の機能構成例を示す。特定要素音モデルデータベース作成装置300は、特徴量抽出部310と、特定要素音モデル化部320と、を具備する。
特徴量抽出部310は、特定音の音響信号列を入力として当該音響信号列を短時間フレームに分割してフレーム毎に特徴量を抽出する。特徴量としては、例えば音圧レベル、MFCC特徴量、LPC特徴量等が用いられる。例えば、特定音の足音の音響信号が複数ある場合は、その全ての音響信号の特徴量(ベクトル)が計算される。足音の音響信号がn個あり、それぞれの音響信号がm個の短時間に分割可能であれば、n×m個の特徴量(ベクトル)が計算される。
特定要素音モデル化部320は、n×m個の特徴量(ベクトル)に対してモデル化手法を用いて1つの特定要素音モデルを生成する。モデル化手法は、上記した特定状況モデル化部50で特定状況モデルを生成した手法と同じものを用いる。生成した特定要素音モデルは、特定要素音モデルデータベース20に記憶される。特定要素音モデルデータベース20は、上記したように特定状況モデルデータベース作成装置100を構成する。特定要素音モデルデータベース作成装置300の他の実施例を次に説明する。
図8に、特定要素音モデルデータベース作成装置400の機能構成例を示す。特定要素音モデルデータベース作成装置400は、特定要素音モデルデータベース作成装置300に対して、特徴量クラスタリング部410と要素音分類モデル化部420を備える点と、入力される音響信号列に複数の要素音を含む点で異なる。
特徴量抽出部310は、複数の要素音を含む音響信号列を入力とする点のみが異なるだけで、他は特定要素音モデルデータベース作成装置300のそれと同じである。特徴量クラスタリング部410は、特徴量抽出部310が出力する特徴量を分類して特徴量の組を作成する。特徴量の分類手法にはGMMやSVM等の手法を用い、音響信号列をC個のまとまり(組)に分類する。C個は、予め設定した「分類したい特徴量の数」である。
要素音分類モデル化部420は、特徴量クラスタリング部410が出力するC個の特徴量の組を入力として、当該組に対してモデル化手法を用いて要素音分類モデルを生成する。モデル化手法は、上記した特定状況モデル化部50で要素音ヒストグラムから特定状況モデルを生成した手法と同じものを用いる。
特定要素音モデルデータベース作成装置400は、複数の要素音を含む音響信号列を、その特徴量で分類し、その分類したまとまり(組)から要素音分類モデルを生成する。
〔状況推定装置〕
図9に、この発明の状況推定装置500の機能構成例を示す。その動作フローを図10に示す。状況推定装置500は、上記した特定要素音モデルデータベース作成装置300で生成された特定要素音モデルを記憶した特定要素音モデルデータベース20と、上記した特定状況モデルデータベース作成装置100,200で生成された特定状況モデルと状況分類モデルを記憶した特定状況モデルデータベース60と、を用いて音響信号列が表す状況を推定するものである。状況推定装置500は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
状況推定装置500は、特徴量抽出部10と、特定要素音モデルデータベース20と、要素音モデル比較部30と、要素音ヒストグラム化部40と、状況判定モデル比較部510と、特定状況モデルデータベース60と、を具備する。特徴量抽出部10は、入力される音響信号列を短時間フレームに分割し、当該フレーム毎に特徴量を抽出する(ステップS10)。要素音モデル比較部30は、特徴量抽出部10が出力する特徴量と、特定要素音モデルデータベース20に記憶された特定要素音モデルまたは要素音分類モデルとを比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定してフレーム毎の音響信号列に要素音ラベルを付与する(ステップS30)。要素音ヒストグラム化部40は、要素音モデル比較部30から出力された特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する(ステップS40)。ここまでの動作は、上記した特定状況モデルデータベース作成装置100又は200と同じである。
状況判定モデル比較部510は、要素音ヒストグラムと、特定状況モデルデータベース60に記憶された特定状況モデルまたは状況分類モデルを比較し、最も近いものを当該特定状況モデルが表す状況と推定してその推定結果を出力する。ここで比較は、複数の特定状況モデルと要素音ヒストグラムのユークリッド距離やコサイン距離などを用いて行う。
場の状況の推定は、例えば、距離が最も近いモデルをその場の状況と推定する。予め定めた閾値よりも距離が近い場合には、距離が最も近いモデルをその場の状況と推定し、閾値よりも距離が近いモデルがない場合は「その他の状況」と推定すること等が考えられる。
以上説明した状況推定装置500によれば、複数の異なる音によって初めて特徴付けられる場の状況の推定を、音響信号を用いて行うことを可能にする。また、要素音の判定モデルの生成にクラスタリング処理を導入することにより、特定音、特定状況のラベル付けが行われた音響信号を事前に用意することなく、場の状況推定を可能にする。
状況推定装置500を構成する特定要素音モデルデータベース20を作成する特定要素音モデルデータベース作成装置300は、ある特定音の音響信号の特徴量(ベクトル)に対して、モデル化手法を用いて特定要素音モデルを生成するものである。以降では、その技術思想を通信の場面に適用した場合のいくつかの装置について説明する。まず、遠隔地にいる通信相手が通信可能な状況なのかを知る目的で使用する発呼推薦モデルを生成する発呼推薦モデル生成装置600について説明する。
〔発呼推薦モデル生成装置〕
発呼推薦モデル生成装置600は、通信システムの中で用いられ、通話が良く発生する場合の音響信号のモデル化と、通話があまり発生しない場合の音響信号のモデル化を行うものである。図11に、発呼推薦モデル生成装置600の機能構成例と、その発呼推薦モデル生成装置600を一方の通信端末に接続した通信システム2000の機能構成例を示す。
通信システム2000は、電話回線網若しくはインターネット等のネットワーク2020と、そのネットワーク2020を挟んで一方と他方に配置される通信端末2010と2030とで構成される。通信端末2010を例えば受話側、通信端末2020を例えば送話側とする。そして、通信端末2010には、発呼推薦モデル生成装置600が接続されている。通信端末2010は、音響・映像信号提示部2011と音響・映像信号取得部2012を有する。通信端末2030側の音響・映像信号提示部と取得部の表記は省略している。
発呼推薦モデル生成装置600は、特徴量抽出部601と、通話履歴抽出部602と、発呼推薦モデル生成部603と、発呼推薦モデル保存部604と、を具備する。特徴量抽出部601は、一方の通信端末2010の音響・映像信号取得部2012から取得した音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する。特徴量としては、例えば、音圧レベル、音響パワー、零クロス特徴量、MFCC特徴量、LPC特徴量等の何れかを用いる。抽出した特徴量は発呼推薦モデル生成部603に出力される。
通話履歴抽出部602は、通信端末2010からの通話履歴を随時受け取り新たな発呼/着呼が有ったことを示す発着呼信号を発呼推薦モデル生成部603に伝達すると共に通話履歴テーブルを作成する。図12に、通話履歴テーブルの例を示す。通話履歴テーブルは、例えば、発信/着信時刻、通話終了時刻、通話時間、発呼/着呼、相手番号、履歴アドレス、の項目で構成される。図12中の履歴アドレス0002の通話終了時刻のnullは、「他方の通信端末2030からの着呼が有ったが一方の通話者が受話器をオフフックしなかった呼」であることを示す。また、履歴アドレス0004のnullは、「一方の通信端末2010から発呼したが他方の通話者がオフフックしなかった呼」であることを示している。
発呼推薦モデル生成部603は、通話履歴抽出分602が出力する発着呼信号に応答して、当該発着呼信号の直前の音響信号の特徴量の特徴量分類を識別する。その識別は、例えば、ユークリッド距離やコサイン距離などを用いてその距離の大きさの範囲で行われる。そして、発呼推薦モデル生成部603は、発呼履歴モデルテーブルを作成する。表1に発呼履歴モデルテーブルの例を示す。
図12に示した履歴アドレス0003と0005が例えば特徴量分類aに、履歴アドレス0001と0006が特徴量分類dに分類されている。
発呼推薦モデル生成部603は、発着呼信号の直前の音響信号の特徴量を分類した後、その履歴アドレスに対応する通話履歴テーブルから、特徴量分類に対する度合い付けを行う。度合い付けは、通話が良く発生する場合には通話の発生し易さの度合いの値が大きくなり、通話があまり発生しない場合には通話の発生し易さの度合いの値が小さくなるように行う。例えば次のような度合い付けを行う。
発呼が行われた時刻における発呼を行った側は、通話が良く発生する場合とみなし、通話の発生し易さの度合いTに1を加算する。着呼があったのにオフフックしない場合は、通話があまり発生しない場合とみなし、通話の発生し易さの度合いTから1を減算する。また、通話が発生した場合に、その通話時間に応じてTに0.0〜2.0の値を加算する。また、通話が発生した場合でも、その通話時間が所定の時間(例えば60秒)以内の場合は、通話があまり発生しない場合とみなしてTから0.5を減算する。このように通話の発生し易さの度合いTの値を調整することで、特徴量分類を、通話が発生し易いものと、通話が発生し難いものとに分けることができる。例えばTの値が10以上であれば通話が良く発生する、また、−10以下であれば通話があまり発生しないと判断することができる。そして、そのようにして分類した特徴量分類と発生度合いTとを対応付けて発呼推薦モデルとする。発呼推薦モデルは発呼推薦モデル保存部604に保存される。つまり、発呼推薦モデルは、特徴量(ベクトル)と発生度合いTとが対応付けられた表である。したがって、発呼推薦モデルを用いて受話側の音響信号の特徴量を評価することで、受話側の通話が発生し易い状況であるか否かを知ることができる。
なお、発呼推薦モデルの生成には、上記したように音響信号のみを用いても良いし、音響・映像信号取得部2012で取得した映像信号を利用しても良い。また、その他のセンサ(図11に破線で示す605)で取得した例えば、照度情報や、温度情報、加速度情報等を用いて発呼推薦モデルを生成するようにしても良い。また、発呼推薦モデルは、通話が良く発生する場合のモデルと、あまり発生しない場合のモデルのどちらか一方のみを生成するようにしても良い。
図13に、この発明の発呼推薦モデル生成装置610の機能構成例を示す。発呼推薦モデル生成装置610が接続された通話端末2010は、通信システム2000を構成する。発呼推薦モデル生成装置610は、例えば、足音、ガラスの割れる音、等の特定要素音と特徴量とを事前に対応付けたモデルを用意しておき、上記した発呼推薦モデル生成装置600の特徴量抽出部601で抽出した特徴量から特定要素音を特定し、特定要素音を用いて発呼推薦モデルを生成するものである。
発呼推薦モデル生成装置610は、発呼推薦モデル生成装置600に対して特定要素音モデルデータベース611と要素音特定部612とを更に備える点で異なる。特定要素音モデルデータベース611には、特徴量抽出部601で得られる特徴量(ベクトル)とその特徴量が表す要素音(例えば、足音、ガラスが割れる音、音声等)が対応付けられた要素音特定モデルが保存されている。特定要素音モデルデータベース611の作成方法は、実施例3と同じである。
要素音特定部612は、特徴量抽出部601で抽出した特徴量を入力として、特定要素音モデルデータベース611に保存されている各々の特定要素音モデルとそれぞれ比較して、距離(ユークリッド距離やコサイン距離など)が最も近いものをそのフレームの要素音と特定し、その特定結果を発呼推薦モデル生成部603に出力する。
発呼推薦モデル生成部603は、発着呼信号の直前の要素音で履歴アドレスを分類し、履歴アドレスに対応する通話履歴テーブルから、要素音に対する度合い付けを行う。要素音に対する度合い付けは上記した方法と同じである。
発呼推薦モデル生成部603は、要素音特定部612が出力する特定結果と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。特定結果の要素音と発生度合いTとが対応付けられた発呼推薦モデルは、発呼推薦モデル保存部613に保存される。モデル化は上記したのと同一の手法で行われる。
発呼推薦モデル生成装置610によれば、個々の特定結果の要素音と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。表2にその例を示す。
表2は、例えば受話側で人の声がしている時は通話が発生し易く、ドアの開閉音が発生した時は通話が発生し難いことを示している。
図14に、この発明の発呼推薦モデル生成装置620の機能構成例を示す。発呼推薦モデル生成装置620は、一定時間の特徴量をクラスタリングし、クラスタ毎に生成されたモデルから、特徴量抽出部601で抽出した特徴量が属するクラスを判定し、判定した要素音のクラスを用いて発呼推薦モデルを生成するものである。
発呼推薦モデル生成装置620は、発呼推薦モデル生成装置610の特定要素音モデルデータベース611と要素音判定部612に代えて、特定要素音モデルデータベース621と要素音クラスタ判定部622を備える点で異なる。発呼推薦モデル生成装置610では、要素音に対応するモデルを生成するのに、例えば、足音、ガラスの割れる音などの音に対応する特徴量を事前に用意する必要があった。しかし、発生し得る全ての要素音にそれぞれ対応する特徴量を事前に用意することは困難である。
そこで、発呼推薦モデル生成装置620は、要素音と特徴量の対応付けを事前に用意することなくモデル生成を行うようにしたものである。特定要素音モデルデータベース621には、特徴量抽出部601で得られるであろう一定時間の特徴量(ベクトル)をGMMやHMMやSVM等の手法を用いて分類して作成された要素音分類モデルが保存されている。特定要素音モデルデータベース621の作成方法は、実施例4と同じである。
要素音クラスタ判定部622は、特徴量抽出部601から取得した特徴量(ベクトル)を、特定要素音モデルデータベース621に保存されている要素音分類モデルと比較し、特徴量が属する分類クラスを判定し、分類結果を発呼推薦モデル生成部624に出力する。
発呼推薦モデル生成部624は、要素音クラスタ判定部622が出力する分類クラスと通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同一の手法で行われる。
発呼推薦モデル生成装置620によれば、要素音の分類クラスと発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。
発呼推薦モデルは、通話の発生度合いTと、他の情報とを対応付けたモデルとすることも可能である。例えば、上記した特徴量そのものに対してではなく、特徴量から推定できる動作/行動情報やその動作/行動情報を分類した動作/行動分類情報と、通話の発生度合いTとを対応付けた発呼推薦モデルとしても良い。
図15に、動作/行動情報と、通話の発生度合いTとを対応付けた発呼推薦モデルを生成する発呼推薦モデル生成装置630の機能構成例を示す。発呼推薦モデル生成装置630は、上記した発呼推薦モデル生成装置610の構成に、動作/行動特定モデル保存部631と動作/行動特定部632を追加したものである。
発呼推薦モデル生成装置630は、要素音特定部612で特定された要素音、足音、ガラスが割れる音、等の要素音と要素音を生じる動作や行動とを対応付けたモデルを用意しておくことで、要素音を生じる動作や行動を特定し、特定した動作や行動を用いて発呼推薦モデルを生成する。
動作/行動特定モデル保存部631には、要素音特定部612が出力する特定結果と、動作/行動(例えば、料理をしている、読書している、睡眠中等)が対応付けられた動作/行動特定モデルが保存されている。動作/行動特定モデル保存部631の作成方法は、実施例1の特定状況モデルデータベースの作成方法と同様である。動作/行動特定モデルは、例えば、20msec〜100msecの時間幅のフレームごとの要素音特定部612の出力を入力とし、そのフレームをP個まとめたヒストグラムフレームごとに、特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成し、そのヒストグラムの形状をモデル化手法を用いてモデル化したものである。
動作/行動特定部632は、要素音特定部612が出力する特定結果をヒストグラム化し、動作/行動特定モデル保存部631に保存されている動作/行動特定モデルと比較し、最も類似する動作/行動分類モデルを特定することで動作/行動を特定し、動作/行動情報を発呼推薦モデル生成部603に出力する。
発呼推薦モデル生成部634は、動作/行動特定部632が出力する動作/行動情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われ、発呼推薦モデル保存部633に保存される。
発呼推薦モデル生成装置630によれば、動作/行動情報と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。動作/行動情報とは、例えば、「料理をしている」、「読書をしている」、等の情報であり、それぞれに発生度合いTの値が対応付けられた発呼推薦モデルとなる。
また、上記した発呼推薦モデル生成装置620の構成に、更に動作/行動特定モデル保存部631と動作/行動特定部632とを追加した構成の発呼推薦モデル生成装置640の機能構成例も考えられる。図16に、発呼推薦モデル生成装置640の機能構成例を示す。
発呼推薦モデル生成装置640は、要素音クラスタ判定部622で特定された要素音のクラスと要素音を生じる動作や行動とを対応付けたモデルを用意しておくことで、要素音を生じる動作や行動を特定し、特定した動作や行動を用いて発呼推薦モデルを生成するものである。
発呼推薦モデル生成部634は、動作/行動特定部632が出力する動作/行動情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われる。発呼推薦モデル生成装置640でも、動作/行動情報と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。
図17に、上記した発呼推薦モデル生成装置610の構成に更に動作/行動分類モデル保存部651と動作/行動クラスタ判定部652を追加したこの発明の発呼推薦モデル生成装置650の機能構成例を示す。
発呼推薦モデル生成装置650は、要素音特定部612が特定した要素音が表す動作や行動のクラスを判定し、判定した動作や行動のクラスを用いて発呼推薦モデルを生成するものである。
動作/行動分類モデル保存部651には、要素音特定部612から取得した複数フレームにわたる要素音の特定結果から、ヒストグラム化処理により生成された要素音ヒストグラムと、動作/行動(例えば、料理をしている、読書している、睡眠中等)が対応付けられた動作/行動特定モデルが保存されている。動作/行動特定モデル保存部651の作成方法は、実施例2の特定状況モデルデータベースの作成方法と同様である。例えば20msec〜100msecの時間幅のフレームごとの要素音特定部612の出力を入力とし、そのフレームをP個まとめたヒストグラムフレームごとに、特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。そのヒストグラムの形状が似ているもの同士で分類して、B個のヒストグラムのまとまり(組)にし、このB個の組に対してGMMやHMM、SVM等のモデル化手法を用いてB種類の動作/行動特定モデルを生成する。
動作/行動クラスタ判定部652は、要素音特定部612から取得した要素音特定結果から頻度特徴量を算出し、動作/行動分類モデル保存部651に保存されている動作/行動分類モデルと比較し、最も類似する動作/行動分類モデルを、その特定結果が表す動作/行動分類として特定し、動作/行動分類情報を発呼推薦モデル生成部603に出力する。
発呼推薦モデル生成部654は、動作/行動特定部652が出力する動作/行動分類情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。動作/行動分類情報と発生度合いTとが対応付けられた発呼推薦モデルは、発呼推薦モデル保存部653に保存される。
発呼推薦モデル生成装置650によれば、動作/行動分類情報と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。
また、上記した発呼推薦モデル生成装置620の構成に、更に動作/行動分類モデル保存部651と動作/行動クラスタ判定部652を追加した発呼推薦モデル生成装置660の機能構成例も考えられる。図18に、発呼推薦モデル生成装置660の機能構成例を示す。
発呼推薦モデル生成装置660は、要素音クラスタ判定部622が判定した要素音のクラスが表す動作や行動のクラスを判定し、判定した動作や行動のクラスを用いて発呼推薦モデルを生成するものである。
発呼推薦モデル生成部654は、動作/行動クラスタ判定部652が出力する動作/行動分類情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われる。発呼推薦モデル生成装置660でも、動作/行動分類情報と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。
なお、実施例7〜10に記載した発呼推薦モデル生成装置の発呼推薦モデルの生成には、音響信号のみを用いた例を説明したが、音響・映像信号取得部2012で取得した映像信号や、その他のセンサで取得した例えば、照度情報や、温度情報、加速度情報等を用いて発呼推薦モデルを生成するようにしても良いことは、実施例6の発呼推薦モデル生成装置600と同じである。また、発呼推薦モデルは、通話が良く発生する場合のモデルと、あまり発生しない場合のモデルのどちらか一方のみを生成するようにしても良いことも同様である。
以上、遠隔地にいる通信相手が通信可能な状況なのかを知る目的で使用する発呼推薦モデルを生成する発呼推薦モデル生成装置について説明した。次に、発呼推薦モデル生成装置600〜660を用いて、遠隔地にいる通信相手が通話可能な状態でないのにも関わらず受話者に発呼してしまう課題を解決する発呼適否通知装置について説明する。
〔発呼適否通知装置〕
図19に、発呼適否通知装置700を含む通信システム2000の機能構成例を示す。通信システム2000の機能構成は上記したものと同じである。発呼適否通知装置700は、受話側の通信端末2010に接続され、発呼推薦モデル生成装置600(実施例6)で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置700は、特徴量抽出部601と、発呼推薦モデル保存部604と、発呼推薦状況判定部701と、を具備する。特徴量抽出部601と発呼推薦モデル保存部604は、発呼推薦モデル生成装置600と同じものである。
発呼推薦状況判定部701は、特徴量抽出部601が出力する音響信号列から抽出した例えば、音圧レベル、音響パワー、零クロス特徴量、MFCC特徴量、LPC特徴量等の特徴量と、発呼推薦モデル保存部604に保存された特徴量(ベクトル)と発生度合いTとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。発呼の適否は、上記した通話の発生度合いTの値を、ある閾値と比較し、例えばTの値が10以上であれば発呼に適、又、Tの値が−10以下で有れば発呼に不適、と判定する。
発呼適否通知情報は、通話端末2010に入力されネットワーク2020を介して送話側の通話端末2030に送信される。発呼適否通知情報を受信した送話側の通信端末2030は、受話者が通話可能な状況であるかを表示する。その表示はLEDランプ等の点灯や、液晶パネルの表示等の図示していない発呼推薦情報表示手段によって行われる。
なお、設計的事項に関わる発呼適否通知情報の出力間隔は、例えば数秒から数分間隔で行われるものとする。また、発呼適否通知装置700や発呼推薦情報表示手段の機能は、通話端末(2010,2030)と一体に構成するようにしても良い。また、発呼適否通知情報を通知する送話者側の通信端末を特定する方法は、この発明の要部ではないのでその説明は省略するが、事前に複数の送話者の通話端末を登録しておくことで簡単に実現することが可能である。
図20に、発呼適否通知装置710を含む通信システム2000の機能構成例を示す。発呼適否通知装置710は、受話側の通信端末2010に接続され、発呼推薦モデル生成装置610(実施例7)で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置710は、特徴量抽出部601と、特定要素音モデル保存部611と、要素音特定部612と、発呼推薦モデル保存部613と、発呼推薦状況判定部711と、を具備する。特徴量抽出部601と特定要素音モデル保存部611と要素音特定部612と発呼推薦モデル保存部613とは、発呼推薦モデル生成装置610と同じものである。
発呼推薦状況判定部711は、要素音特定部612が出力する要素音と、例えば、足音、ガラスが割れる音等の音声と通話の発生度合いTとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。これ以降の動作は、発呼適否通知装置700と同じである。
図21に、発呼適否通知装置720を含む通信システム2000の機能構成例を示す。発呼適否通知装置720は、受話側の通信端末2010に接続され、発呼推薦モデル生成装置620(実施例8)で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置720は、特徴量抽出部601と、特定要素音モデルデータベース621と、要素音クラスタ判定部622と、発呼推薦モデル保存部623と、発呼推薦状況判定部721と、を具備する。特徴量抽出部601と、特定要素音モデルデータベース621と、要素音クラスタ判定部622と、発呼推薦モデル保存部623とは、発呼推薦モデル生成装置620と同じものである。
発呼推薦状況判定部721は、要素音クラスタ判定部622が出力する分類クラスと、分類クラスと通話の発生度合いTとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。これ以降の動作は、発呼適否通知装置700と同じである。
発呼適否通知装置は、通話の発生度合いTと、他の情報とを対応付けた発呼推薦モデルを用いても構成することが可能である。例えば、上記した特徴量そのものに対してではなく、特徴量から推定できる動作/行動情報やその動作/行動情報を分類した動作/行動分類情報と、通話の発生度合いTとを対応付けた発呼推薦モデルとしても良い。
図22に、その場合の発呼適否通知装置730の機能構成例を示す。発呼適否通知装置730は、特徴量抽出部601と、対応付け部732と、発呼推薦モデル保存部633と、発呼推薦状況判定部731と、を具備する。特徴量抽出部601は、複数の要素音を含む受話者側の音響信号列を短時間フレームに分割し、当該フレーム毎に特徴量を抽出する。対応付け部732は、特徴量と、受話者側の動作/行動情報とを対応付けた対応付け情報を出力する。発呼推薦モデル保存部633は、特徴量から特定される動作/行動情報と、通話の発生し易さの度合いとを対応付けた発呼推薦モデルを保存する。発呼推薦状況判定部731は、対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
発呼適否通知装置730は、発呼推薦モデル生成装置630(実施例9)で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置730は、特徴量抽出部601と、対応付け部732と、発呼推薦モデル保存部633と、発呼推薦状況判定部731と、を具備する。対応付け部732は、特定要素音モデルデータベース611と要素音特定部612と動作/行動特定モデル保存部631と動作/行動特定部632とで構成される。この構成は、発呼推薦モデル生成装置630と同じである。
発呼推薦状況判定部731は、対応付け部732が出力する特徴量と受話者側の動作/行動情報とを対応付けた対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
図23に、発呼適否通知装置740の機能構成例を示す。発呼適否通知装置740は、発呼推薦モデル生成装置640(実施例9)で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置740は、特徴量抽出部601と、対応付け部742と、発呼推薦モデル保存部633と、発呼推薦状況判定部741と、を具備する。対応付け部742は、特定要素音モデルデータベース621と要素音クラスタ判定部622と動作/行動特定モデル保存部631と動作/行動特定部632とで構成される。この構成は、発呼推薦モデル生成装置630と同じである。
発呼推薦状況判定部741は、対応付け部742が出力する特徴量と動作/行動情報とを対応付けた対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
図24に、発呼適否通知装置750の機能構成例を示す。発呼適否通知装置750は、発呼推薦モデル生成装置650(実施例10)で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置750は、特徴量抽出部601と、対応付け部752と、発呼推薦モデル保存部653と、発呼推薦状況判定部751と、を具備する。対応付け部752は、特定要素音モデルデータベース611と要素音特定部612と動作/行動分類モデル保存部651と動作/行動クラスタ特定部652とで構成される。この構成は、発呼推薦モデル生成装置650と同じである。
発呼推薦状況判定部751は、対応付け部752が出力する特徴量と動作/行動分類情報を入力として動作/行動分類情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
図25に、発呼適否通知装置760の機能構成例を示す。発呼適否通知装置760は、発呼推薦モデル生成装置660(実施例10)で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置760は、特徴量抽出部601と、対応付け部762と、発呼推薦モデル保存部653と、発呼推薦状況判定部761と、を具備する。対応付け部762は、特定要素音モデルデータベース621と要素音クラスタ判定部622と動作/行動分類モデル保存部651と動作/行動クラスタ判定部652とで構成される。この構成は、発呼推薦モデル生成装置660と同じである。
発呼推薦状況判定部761は、対応付け部762が出力する特徴量と動作/行動分類情報とを対応付けた対応付け情報を入力として動作/行動分類情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
以上述べたようにこの発明の発呼適否通知装置700〜760によれば、特徴量、要素音、分類クラス、動作/行動情報、動作/行動分類情報の何れかによって受話者側において、受話者が現在通話可能な状況にあるのか否かを判定し、判定結果(発呼適否通知情報)を送話者側に通知することができる。
上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。