JP2013242465A

JP2013242465A - 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム

Info

Publication number: JP2013242465A
Application number: JP2012116377A
Authority: JP
Inventors: Keisuke Imoto; 桂右井本; Suehiro Shimauchi; 末廣島内; Naka Omuro; 仲大室; Yoichi Haneda; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-05-22
Filing date: 2012-05-22
Publication date: 2013-12-05
Anticipated expiration: 2032-05-22
Also published as: JP5777569B2

Abstract

【課題】大局的な周期性を抽出することができる音響特徴量計算技術を提供する。
【解決手段】音響特徴量計算装置１は、入力された音響信号を所定の時間長のフレームに分割するフレーム分割部１２と、Mを所定の正の整数とし、p_s(n)を各フレームの平滑化後のn番目のサンプルの大きさを表す指標とし、p_s ^-を各フレームの平滑化後のサンプルの大きさを表す指標の平均値として、次式で定義される値を計算し、その値を各フレームの時間周期性とする時間周期性計算部１３１０と、を含む。

【選択図】図１

Description

この発明は、音響信号の特徴量を抽出する技術、抽出された特徴量を用いて状況を推定する技術及び発呼の適否を通知する技術に関する。

音響信号の特徴量のひとつである時間周期性を計算する技術として、非特許文献１に記載された技術が知られている。

非特許文献１に記載された技術では、音響信号の周期を抽出し、連続する２つの周期の音響信号の相関を計算することにより、時間周期性を計算している（例えば、非特許文献１参照。）。

児島宏明，橋本泰治，佐土原健，佐宗晃，"音響的素性記述に基づく環境音認識"，日本音響学会講演論文集，２０１１年９月

しかしながら、非特許文献１に記載された技術では、例えば数十から数百ミリ秒毎の大局的な周期性を抽出することは難しい。例えば、音響信号の振幅の絶対値又は音響信号のパワーが数十から数百ミリ秒の周期で突出するという特徴を抽出することはできない。

この発明は、大局的な周期性を抽出することができる音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラムを提供することを目的とする。

この発明の一態様による音響特徴量計算装置は、入力された音響信号を所定の時間長のフレームに分割するフレーム分割部と、Mを所定の正の整数とし、p_s(n)を各上記フレームの平滑化後のn番目のサンプルの大きさを表す指標とし、p_s ^-を上記各フレームの平滑化後のサンプルの大きさを表す指標の平均値として、次式で定義される値を計算し、その値を上記各フレームの時間周期性とする時間周期性計算部と、を含む。

この発明の一態様による特定状況モデルデータベース作成装置は、複数の特定要素音の特定要素音モデルを記憶する特定要素音モデルデータベースと、音響特徴量計算装置が計算した特徴量と、特定要素音モデルデータベースに記憶された特定要素音モデルとを比較して最も類似するモデルの特定要素音モデルのラベル、または特定要素音モデルのラベルを音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較部と、要素音モデル比較部の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化部と、要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて特定の場に対応する特定状況モデルを生成する特定状況モデル化部と、を備える。

この発明の一態様による特定要素音モデルデータベース作成装置は、音響特徴量計算装置と、音響特徴量計算装置が計算した特徴量を入力として、当該特徴量に対してモデル化手法を用いて特定要素音モデルを生成する特定要素音モデル化部と、を備える。

この発明の一態様による状況推定装置は、音響特徴量計算装置と、特定要素音モデルデータベース作成装置で生成された特定要素音モデルを記憶した特定要素音モデルデータベースと、特定要素音モデルと音響特徴量計算装置が計算した特徴量をそれぞれ比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定してフレーム毎に要素音ラベルを付与する要素音モデル比較部と、ラベル付き音響信号列を入力として、特定要素音モデルのラベルとその頻度の要素音ヒストグラムを作成する要素音ヒストグラム化部と、特定状況モデルデータベース作成装置で生成された複数の特定状況モデルと状況分類モデルとを、記憶した特定状況モデルデータベースと、要素音ヒストグラムと、特定状況モデルまたは状況分類モデルとを比較し、最も類似するものを当該特定状況モデル又は状況分類モデルが表す状況と推定して状況推定結果を出力する状況判定モデル比較部と、を備える。

この発明の一態様による発呼適否通知装置は、音響特徴量計算装置と、通話の発生し易さの度合いとを対応付けた発呼推薦モデルを保存した発呼推薦モデル保存部と、音響特徴量計算装置が計算した特徴量を入力とし、当該特徴量が一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定し通話適否通知情報を、通話者側に送信する発呼推薦状況判定部と、を備える。

大局的な周期性を抽出することができる。

第一実施形態の音響特徴量計算装置１の機能ブロック図。音響特徴量計算装置１の動作フローを示す図。第二実施形態の音響特徴量計算装置１の機能ブロック図。立ち上がり特性計算部１３１の処理の例を説明するための図。調波性計算部１３９の処理の例を説明するための図。第三実施形態の音響特徴量計算装置１の機能ブロック図。第四実施形態の音響特徴量計算装置１の機能ブロック図。特定状況モデルデータベース作成装置１００の機能ブロック図。特定状況モデルデータベース作成装置１００の動作フローを示す図。フレームとヒストグラムフレームとの関係を示す図。要素音ヒストグラムの例を示す図。特定状況モデルデータベース作成装置２００の機能ブロック図。特定状況モデルデータベース作成装置２００の動作フローを示す図。特定要素音モデルデータベース作成装置３００の機能ブロック図。特定要素音モデルデータベース作成装置４００の機能ブロック図。状況推定装置５００の機能ブロック図。状況推定装置５００の動作フローを示す図。発呼推薦モデル生成装置６００を組み込んだ通信システム２０００の機能ブロック図。通信履歴テーブルの例を示す図。発呼推薦モデル生成装置６１０を組み込んだ通信システム２０００の機能ブロック図。発呼推薦モデル生成装置６２０を組み込んだ通信システム２０００の機能ブロック図。発呼推薦モデル生成装置６３０の機能ブロック図。発呼推薦モデル生成装置６４０の機能ブロック図。発呼推薦モデル生成装置６５０の機能ブロック図。発呼推薦モデル生成装置６６０の機能ブロック図。発呼適否通知装置７００が接続された通話端末２０１０を含む通信システム２０００の機能ブロック図。発呼適否通知装置７１０が接続された通話端末２０１０を含む通信システム２０００の機能ブロック図。発呼適否通知装置７２０が接続された通話端末２０１０を含む通信システム２０００の機能ブロック図。発呼適否通知装置７３０の機能ブロック図。発呼適否通知装置７４０の機能ブロック図。発呼適否通知装置７５０の機能ブロック図。発呼適否通知装置７６０の機能ブロック図。

以下、図面を参照して、この発明の実施形態を説明する。

第一実施形態から第四実施形態が音響特徴量計算装置及び方法の実施形態であり、第五実施形態から第六実施形態が特定状況モデルデータベース作成装置の実施形態であり、第七実施形態から第八実施形態が特定要素音モデルデータベース作成装置の実施形態であり、第九実施形態が状況推定装置の実施形態であり、第十実施形態から第十四実施形態が発呼推薦モデル生成装置の実施形態であり、第十五実施形態から第十九実施形態が発呼適否通知装置の実施形態である。

［第一実施形態］
第一実施形態の音響特徴量計算装置１は、図１に示すように、フレーム分割部１１、量子化部１２及び特徴量抽出部１３を例えば備える。第一実施形態の音響特徴量計算装置１の動作フローを図２に示す。

フレーム分割部１１は、入力された音響信号を所定の時間長のフレームに分割する（ステップＡ１）。所定の時間長とは、例えば約５０ミリ秒である。連続する２つのフレームは、重なっていてもよいし、重なっていなくてもよい。フレームに分割された音響信号は、特徴量抽出部１３に出力される。

図１の例では、入力された音響信号は、量子化部１２により、一定の時間間隔毎に及び一定の音圧毎に量子化された離散信号である。もちろん、量子化部１２の処理は、フレーム分割部１１の処理の後や、特徴量抽出部１３の処理の後に行われてもよい。

特徴量抽出部１３は、時間周期性計算部１３１０を備える。時間周期性計算部１３１０は、各フレームの時間周期性を計算する（ステップＡ２）。

時間周期性を計算するために、時間周期性計算部１３１０は、まず、各サンプルの値を平滑化する。

次に、時間周期性計算部１３１０は、次式により定義される値を計算し、その値を時間周期性とする。

Mは、時間周期性の度合いを計算するための周期数であり、所定の正の整数である。Nはフレーム内のサンプル番号であり、p_s(n)はフレームの平滑化後のn番目のサンプルの大きさを表す指標であり、p_s ^-はフレームの平滑化後のサンプルの大きさを表す指標の平均値である。

時間周期性計算部１３１０の処理におけるサンプルの大きさを表す指標とは、例えば、サンプルの振幅の絶対値、サンプルの振幅の絶対値の対数値、サンプルのパワー又はサンプルのパワーの対数値である。サンプルの大きさを表す指標として、対数値ではなく、サンプルの振幅の絶対値又はサンプルのパワー等の線形値を用いた場合には、際立って突出している成分のみを効率的に抽出可能である。

このように、多数の周期（Ｍに相当）にわたる時間周期性の度合いを算出することにより、大局的な周期性を抽出することができる。

［第二実施形態］
第二実施形態の音響特徴量計算装置１は、立ち上がり特性及び調波性を計算する点で第一実施形態の音響特徴量計算装置１と異なる。以下、第一実施形態と異なる部分を中心に説明し、第一実施形態と同様の部分については説明を省略する。

第二実施形態の音響特徴量計算装置１の特徴量抽出部１３は、図３に示すように、調波性計算部１３９に加えて、立ち上がり特性計算部１３１及び調波性計算部１３９を更に備える。

立ち上がり特性計算部１３１は、各フレームの立ち上がり特性を計算する。

立ち上がり特性とは、数十から数百ミリ秒毎における、音響信号の大きさを表す指標の増加の度合いを表す指標である。ここで、音響信号の大きさを表す指標とは、例えば、音響信号の振幅の絶対値、音響信号の振幅の絶対値の対数値、音響信号のパワー又は音響信号のパワーの対数値である。

立ち上がり特性を計算するために、立ち上がり特性計算部１３１は、まず、各フレームの音響信号をK個の区間に分割する。Kは、所定の正の整数である。各分割された区間が約１ミリ秒になるように、Kの値は設定される。

次に、立ち上がり特性計算部１３１は、次式で定義される値を計算し、その値が０以上の場合にはその値を各フレームの立ち上がり特定とし、その値が０未満の場合には各フレームの立ち上がり特性を０とする。計算された立ち上がり特性は、特徴量として特徴量抽出部１３から出力される。

p^- _kはフレームのk番目の区間の音響信号の大きさを表す指標の平均値であり、Δp^- _kはフレームのk番目の区間におけるp^- _kの変化率である。xを任意の文字として、xの右肩の「-」は、xの上付きバーを意味する。mは、２以上の所定の整数である。例えば、m=2である。

例えば、Δp^- _k=p^- _k-p^- _k-1である。Δp^- _k=p^- _k+1-p^- _kとしてもよい。また、最小二乗法等の近似手法を用いてp^- _kを近似した直線を求め、k番目の区間におけるその直線の傾きをΔp^- _kとしてもよい。

p^- _kを音響信号のパワーとし、Δp^- _k=p^- _k+1-p^- _kとした場合、図４に示すように、Δp^- ₂=p^- ₃- p^- ₂となる。

このように、立ち上がり特性を計算することにより、音響信号の振幅が増加を開始する時刻T_start及び音響信号の振幅が最大となる時刻T_stopを特定する必要がないため、これらの時刻T_start,T_stopを特定することが難しい場合であっても、立ち上がり特性を計算することができる。

また、増加特性を強調して抽出することが可能となっているため、従来技術では立ち上がり特性のみが抽出困難であった音響信号に対しても効果的に立ち上がり特性を抽出可能となっている。

調波性計算部１３９は、各フレームの調波性を計算する。

調波性計算部１３９は、具体的には、次式により定義される値を計算し、その値を調波性とする。

R_ff(τ)は、ラグをτとしたときのf(n)の自己相関係数である。ラグτは、１以上N以下の整数である。R_ff(τ)は、例えば以下のように定義される。

また、f(n)=δ{x(n)・x(n-1)}である。δ{x(n)・x(n-1)}は、x(n)・x(n-1)が０以下の場合には１の値を取り、x(n)・x(n-1)が０の値を取る関数である。x(n)は、フレームのn番目のサンプルの大きさを表す指標である。

時間周期性計算部１３１０の処理におけるサンプルの大きさを表す指標とは、例えば、サンプルの振幅、サンプルの振幅の対数値、サンプルのパワー又はサンプルのパワーの対数値である。

図５に例示するように、音響信号から零交差点が求まり、零交差点から、f(n)=δ{x(n)・x(n-1)}としたときのf(n)の値が求まる
なお、f(n)は、例えば次式により定義される、零交差点を中心とする所定の確率分布pdf(n)の和であってもよい。所定の確率分布とは、例えばガウス分布、二項分布、ベータ分布である。

このように、調波性を計算することにより、高周波数成分をあまり含まない音響信号についても精度良く調波性を計算することができる。

なお、第二実施形態の音響特徴量計算装置１の特徴量抽出部１３は、立ち上がり特性計算部１３１及び調波性計算部１３９の少なくとも一方のみを備えていてもよい。

［第三実施形態］
第三実施形態の音響特徴量計算装置１は、時間周期性、調波性及び立ち上がり特性以外の音響特徴量を計算する点で第一実施形態又は第二実施形態の音響特徴量計算装置１と異なる。以下、第一実施形態又は第二実施形態と異なる部分を中心に説明し、第一実施形態又は第二実施形態と同様の部分については説明を省略する。

第三実施形態の音響特徴量計算装置１の特徴量抽出部１３は、時間周期性計算部１３１０、調波性計算部１３９及び立ち上がり特性計算部１３１に加えて、突発性計算部１３２と、時間拡散性計算部１３３と、狭帯域性計算部１３４と、帯域拡散性計算部１３５と、音高特性計算部１３６と、振幅偏在性計算部１３７との少なくとも１つを更に備える。図６は、特徴量抽出部１３がこれらの部の全てを備えている場合の、第三実施形態の音響特徴量計算装置１の機能ブロック図を示している。

第三実施形態の音響特徴量計算装置１は、量子化部１１、フレーム分割部１２及び特徴量抽出部１３に加えて、ベクトル生成部１４を更に備えている。

突発性計算部１３２は、各フレームの音響信号の時間領域での集中の度合いを示す突発性を計算する。突発性は、例えば次式により定義される値である。μ^- _nはｎ番目の区間の音響エネルギー包絡の平均値であり、σ^- _nはｎ番目の区間の音響エネルギー包絡の分散値であり、

時間拡散性計算部１３３は、各フレームの音響信号の時間領域での拡散の度合いを示す時間拡散性を計算する。時間拡散性は、例えば次式により定義される値である。x_nは時間領域における計算フレーム開始位置からの距離であり、x^- _nは時間領域における音響エネルギー包絡の平均値となる位置である。

狭帯域性計算部１３４は、各フレームの音響信号の周波数領域での集中の度合いを示す狭帯域性を計算する。狭帯域性は、例えば次式により定義される値である。fは周波数であり、Fは周波数ビンの数であり、p^-(f)は周波数fの音響エネルギーの平均値であり、μ^- _fは音響エネルギー包絡の分布の平均値となる周波数であり、σ^- _fは音響エネルギー包絡の分布の分散値である。

帯域拡散性計算部１３５は、各フレームの音響信号の周波数領域での拡散の度合いを示す帯域拡散性を計算する。帯域拡散性は、例えば次式により定義される値である。

音高特性計算部１３６は、各フレームの音響信号の周波数領域でのエネルギーの偏在の度合いを示す音高特性を計算する。音高特性は、例えば次式により定義される値である。p(f)は周波数fの音響エネルギーである。

振幅偏在性計算部１３７は、各フレームの音響信号の振幅値の分布の偏在の度合いを示す振幅偏在性を計算する。振幅偏在性は、例えば次式により定義される値である。p_nは、n番目のサンプルの振幅値である。

特徴量抽出部１３で計算された特徴量は、ベクトル生成部１４でベクトル化される。特徴量抽出部１３で計算された特徴量とは、調波性及び立ち上がり特性と、更に、突発性、時間拡散性、狭帯域性、帯域拡散性、音高特性及び振幅偏在性の少なくとも１つとである。

［第四実施形態］
第四実施形態の音響特徴量計算装置１は、第一実施形態から第三実施形態の特徴量抽出部１３で計算された特徴量以外の音響特徴量を計算する点で、第一実施形態から第三実施形態の音響特徴量計算装置１と異なる。以下、第一実施形態から第三実施形態と異なる部分を中心に説明し、第一実施形態から第三実施形態と同様の部分については説明を省略する。

第四実施形態の音響特徴量計算装置１の特徴量抽出部１３は、音響特徴量計算部１３８を更に備える。図７は、特徴量抽出部１３が、第三実施形態で説明した、突発性計算部１３２、時間拡散性計算部１３３、狭帯域性計算部１３４、帯域拡散性計算部１３５、音高特性計算部１３６及び振幅偏在性計算部１３７の全てを備えている場合の、第四実施形態の音響特徴量計算装置１の機能ブロック図である。

音響特徴量計算部１３８は、MFCC(Mel-Frequency Cepstrum Coefficient)、パワースペクトル等の音響特徴量を計算する。もちろん、音響特徴量計算部１３８は、音響特徴量として、他の既存技術による音響特徴量を計算してもよい。

音響特徴量計算部１３８で計算された音響特徴量は、特徴量抽出部１３で計算された特徴量として、ベクトル生成部１４に出力される。

［第五実施形態］
第五実施形態の特定状況モデルデータベース作成装置１００は、第一実施形態から第三実施形態の音響特徴量計算装置１を用いて特定状況モデルデータベースを作成するものである。

図８に、第五実施形態の特定状況モデルデータベース作成装置１００の機能ブロック図の例を示す。その動作フローの例を図９に示す。特定状況モデルデータベース作成装置１００は、音響特徴量計算装置１と、特定要素音モデルデータベース２０と、要素音モデル比較部３０と、要素音ヒストグラム化部４０と、特定状況モデル化部５０と、を具備する。特定状況モデルデータベース作成装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音響特徴量計算装置１は、第一実施形態から第三実施形態の何れかの音響特徴量計算装置１である。音響特徴量計算装置１は、第一実施形態から第三実施形態で説明した方法により、ある特定の場における複数の要素音を含む音響信号列を短時間フレームに分割し当該フレーム毎に特徴量を抽出する（ステップＳ１０）。ステップＳ１０は、図９のステップＡ１とＡ２とに対応する。音響特徴量計算装置１で計算された特徴量は、要素音モデル比較部３０に出力される。ここで、ある特定の場における複数の要素音を含む音響信号列とは、例えば人が料理をしている状況、人が読書をしている状況などの特定の場の状況を表す音響信号列のことである。つまり、特定の場で録音した時間長が例えば５秒〜２０秒程度の音響信号である。その音響信号を、20msec〜100msecのフレームに分割し、そのフレーム毎に、特徴量を計算して、計算した特徴量を要素音の特徴量とする。

音響特徴量計算装置１が計算した特徴量、言い換えれば特徴量抽出部１３が抽出した特徴量とは、例えば、時間周期性、調波性、立ち上がり特性、突発性、時間拡散性、狭帯域性、帯域拡散性、音高特性、振幅偏在性、MFCC(Mel-Frequency Cepstrum Coefficient)、パワースペクトル等の音響特徴量である。

要素音モデル比較部３０は、音響特徴量計算装置１の特徴量抽出部１３が出力する特徴量と、特定要素音モデルデータベース２０に記憶されている複数の特定要素音モデルとをそれぞれ比較して距離（ユークリッド距離やコサイン距離）が最も近い特定要素音モデルのラベル、または当該特定要素音モデルのラベルをフレーム単位で音響信号列に付与したラベル付き音響信号列を出力する（ステップＳ３０）。特定要素音モデルのラベル付き特徴量は、後述する特定要素音モデルデータベース作成装置３００で作成する。

要素音ヒストグラム化部４０は、要素音モデル比較部３０から出力された特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する（ステップＳ４０）。図１０に、フレームとヒストグラムフレームとの関係を示す。

図１０は、特定の場を、例えば「人が料理をしている状況」とした例である。ラベル付き音響信号列は、例えば20msec〜100msecの時間幅のフレーム毎に特定要素音モデルのラベルが付与された信号列である。

図１０の例では、最初のフレームｆ_１が人の足音、２番目のフレームｆ_２が包丁で食材を切る音、３番目のフレームｆ_３が人の足音など、人が料理する場面での特定要素音モデルのラベルが付与されている。ヒストグラムフレームは、そのフレームをＰ個まとめたものであり、Ｐ個は例えば１００個〜１０００個とする。最初のフレームｆ_１からｆ_Ｐフレームまでが１番目のヒストグラムフレームＨ_１である。２番目のヒストグラムフレームＨ_２はフレームｆ_２からｆ_Ｐ＋１フレームから成る。ラベル付き音響信号列のフレーム長をＭとした場合、Ｍ−Ｐ＋１個のヒストグラムフレームが作成される。

要素音ヒストグラム化部４０は、ヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。図１１に、要素音ヒストグラムを例示する。横軸は特定要素音モデルのラベル、縦軸は例えば、１個のヒストグラムフレーム内で各特定要素音が何回現れたかの回数や、各フレーム内における各特定要素音の尤度の、ヒストグラムフレーム内での特定要素音毎の総和等である。

特定状況モデル化部５０は、要素音ヒストグラム化部４０が出力する要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて特定の場に対応する特定状況モデルを生成する（ステップＳ５０）。モデル化手法とは、例えばＧＭＭ（Gaussian Mixture Model）を用いた場合、生成した特徴量を、ＥＭ（Expectation Maximization）アルゴリズムなどを用いて例えば式（１）に示すような混合正規分布（Mixture of Gaussian）を用いて当てはめた確率モデルｐ（ｘ）にモデル化することである。

ここで、ｘは特徴量（ベクトル）、ｋは正規分布の混合数、π_ｋは混合係数、Ｎは正規分布の確率密度関数、μ_ｋは分布の平均、Σ_ｋは分布の分散である。なお、特徴量のモデル化には、過去に観測された信号成分に依存して次の時刻の成分が選択されるという条件を用いて確率分布に計算した特徴量を当てはめるＨＭＭ（Hidden Markov Model）や、特徴量に対して各クラスタ間のマージンを最大化して分離境界を決定することによりモデル化を行うＳＶＭ（Support Vector Machine）等を用いることができる。ＧＭＭ，ＨＭＭ，ＳＶＭは周知である（例えば参考文献：奥村学、高村大也、「言語処理のための機械学習入門」コロナ社）。

例えばＧＭＭを用いて特定状況モデルを生成した場合、要素音ヒストグラム化部４０で作成されたＭ−Ｐ＋１個のヒストグラムフレームのそれぞれは、Ｎ個の特定要素音モデルのラベルを有する。特定状況モデルはそのまま出力しても良いし、特定状況モデルデータベース６０に保存するようにしてもよい。

この前提において、特定状況モデル化部５０は、料理をしている等の特定の状況を表す、一つまたは複数の長時間音響信号から得られた複数のヒストグラムフレームから平均と分散を求める。この際、Ｒ種類の特定状況モデルを計算するとすれば、それぞれＲ個の平均と分散を計算し、その値が各々特定状況モデルとなる。

以上説明したように、この発明の特定状況モデルデータベース作成装置１００によれば、ある特定の場における複数の要素音を含む音響信号列から、特定要素音の識別を行い、その識別結果をヒストグラム化した分布から、その場を特定する特定状況モデルを生成する。この特定状況モデルは、従来技術の１個の断片的な特徴量と異なり、複数の特定要素音から求められるので、複数の異なる音によって初めて特徴付けられる場（例えば料理中の場）の状況を推定するモデルとして有効なものとなる。

［第六実施形態］
図１２に、第六実施形態の特定状況モデルデータベース作成装置２００の機能ブロック図の例を示す。その動作フローの例を図１３に示す。特定状況モデルデータベース作成装置２００は、上記した特定状況モデルデータベース作成装置１００に対して、入力される音響信号列が特定の場を表す音響信号でなくても良い点、つまり不特定の場で録音した音響信号で良い点と、要素音ヒストグラム化部４０で作成した要素音ヒストグラムをその分布の形状で分類する分布クラスタリング処理部２１０と、その出力から状況分類モデルを生成する状況分類モデル化部２２０と、を備える点で異なる。特定状況モデルデータベース作成装置２００も、特定状況モデルデータベース作成装置１００と同様に、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

特定状況モデルデータベース作成装置２００は、音響特徴量計算装置１と、特定要素音モデルデータベース２０と、要素音モデル比較部３０と、要素音ヒストグラム化部４０と、分布クラスタリング処理部２１０と、状況分類モデル化部２２０と、を備える。音響特徴量計算装置１と特定要素音モデルデータベース２０と要素音モデル比較部３０と要素音ヒストグラム化部４０は、参照符号から明らかなように特定状況モデルデータベース作成装置１００と同じものである。

分布クラスタリング処理部２１０は、要素音ヒストグラム化部４０が作成した複数の要素音ヒストグラムを入力として、それぞれの要素音ヒストグラムを、その分布の形状で分類する（ステップＳ２１０）。つまり、Ｍ−Ｐ＋１個のヒストグラムを、その分布の形状が似ているもの同士で分類してＢ個のヒストグラムのまとまりを作成する。Ｂ個は、予め設定した「分類したい要素音の数」である。分布の形状で分類する手法には、上記した特定状況モデルを生成するのと同じ手法を用いることができる。ＧＭＭやＳＶＭ等の分類手法を用いることで、Ｍ−Ｐ＋１個のヒストグラムをＢ個のヒストグラムのまとまり（組）に分類する。この分布の形状が似ているヒストグラムのまとまりのそれぞれは、ある特定の場に対応したものとなる。状況分類モデル化部２２０は、ヒストグラムのまとまりであるＢ個の組に対してＧＭＭやＨＭＭ、ＳＶＭ等のモデル化手法を用いてＢ種類の状況分類モデルを生成する（ステップＳ２２０）。状況分類モデルの生成方法は、上記した特定状況モデルを生成する方法と同じである。

［第七実施形態］
第七実施形態として、特定状況モデルデータベース作成装置１００と２００を構成する特定要素音モデルデータベース２０を作成する特定要素音モデルデータベース作成装置３００について説明する。

図１４に、特定要素音モデルデータベース作成装置３００の機能ブロック図を示す。特定要素音モデルデータベース作成装置３００は、音響特徴量計算装置１と、特定要素音モデル化部３２０と、を具備する。

音響特徴量計算装置１は、特定音の音響信号列を入力として当該音響信号列を短時間フレームに分割してフレーム毎に特徴量を抽出する。例えば、特定音の足音の音響信号が複数ある場合は、その全ての音響信号の特徴量（ベクトル）が計算される。足音の音響信号がｎ個あり、それぞれの音響信号がｍ個の短時間に分割可能であれば、ｎ×ｍ個の特徴量（ベクトル）が計算される。

特定要素音モデル化部３２０は、ｎ×ｍ個の特徴量（ベクトル）に対してモデル化手法を用いて１つの特定要素音モデルを生成する。モデル化手法は、上記した特定状況モデル化部５０で特定状況モデルを生成した手法と同じものを用いる。生成した特定要素音モデルは、特定要素音モデルデータベース２０に記憶される。特定要素音モデルデータベース２０は、上記したように特定状況モデルデータベース作成装置１００を構成する。特定要素音モデルデータベース作成装置３００の他の実施形態を次に説明する。

［第八実施形態］
図１５に、第八実施形態である特定要素音モデルデータベース作成装置４００の機能ブロック図を示す。特定要素音モデルデータベース作成装置４００は、特定要素音モデルデータベース作成装置３００に対して、特徴量クラスタリング部４１０と要素音分類モデル化部４２０を備える点と、入力される音響信号列に複数の要素音を含む点で異なる。

音響特徴量計算装置１は、複数の要素音を含む音響信号列を入力とする点のみが異なるだけで、他は特定要素音モデルデータベース作成装置３００のそれと同じである。特徴量クラスタリング部４１０は、音響特徴量計算装置１が出力する特徴量を分類して特徴量の組を作成する。特徴量の分類手法にはＧＭＭやＳＶＭ等の手法を用い、音響信号列をＣ個のまとまり（組）に分類する。Ｃ個は、予め設定した「分類したい特徴量の数」である。

要素音分類モデル化部４２０は、特徴量クラスタリング部４１０が出力するＣ個の特徴量の組を入力として、当該組に対してモデル化手法を用いて要素音分類モデルを生成する。モデル化手法は、上記した特定状況モデル化部５０で要素音ヒストグラムから特定状況モデルを生成した手法と同じものを用いる。

特定要素音モデルデータベース作成装置４００は、複数の要素音を含む音響信号列を、その特徴量で分類し、その分類したまとまり（組）から要素音分類モデルを生成する。

［第九実施形態］
図１６に、第九実施形態の状況推定装置５００の機能ブロック図を示す。その動作フローを図１７に示す。状況推定装置５００は、上記した特定要素音モデルデータベース作成装置３００で生成された特定要素音モデルを記憶した特定要素音モデルデータベース２０と、上記した特定状況モデルデータベース作成装置１００，２００で生成された特定状況モデルと状況分類モデルを記憶した特定状況モデルデータベース６０と、を用いて音響信号列が表す状況を推定するものである。状況推定装置５００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

状況推定装置５００は、音響特徴量計算装置１と、特定要素音モデルデータベース２０と、要素音モデル比較部３０と、要素音ヒストグラム化部４０と、状況判定モデル比較部５１０と、特定状況モデルデータベース６０と、を具備する。音響特徴量計算装置１は、入力される音響信号列を短時間フレームに分割し、当該フレーム毎に特徴量を抽出する（ステップＳ１０）。要素音モデル比較部３０は、音響特徴量計算装置１が出力する特徴量と、特定要素音モデルデータベース２０に記憶された特定要素音モデルまたは要素音分類モデルとを比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定してフレーム毎の音響信号列に要素音ラベルを付与する（ステップＳ３０）。要素音ヒストグラム化部４０は、要素音モデル比較部３０から出力された特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する（ステップＳ４０）。ここまでの動作は、上記した特定状況モデルデータベース作成装置１００又は２００と同じである。

状況判定モデル比較部５１０は、要素音ヒストグラムと、特定状況モデルデータベース６０に記憶された特定状況モデルまたは状況分類モデルを比較し、最も近いものを当該特定状況モデルが表す状況と推定してその推定結果を出力する。ここで比較は、複数の特定状況モデルと要素音ヒストグラムのユークリッド距離やコサイン距離などを用いて行う。

場の状況の推定は、例えば、距離が最も近いモデルをその場の状況と推定する。予め定めた閾値よりも距離が近い場合には、距離が最も近いモデルをその場の状況と推定し、閾値よりも距離が近いモデルがない場合は「その他の状況」と推定すること等が考えられる。

以上説明した状況推定装置５００によれば、複数の異なる音によって初めて特徴付けられる場の状況の推定を、音響信号を用いて行うことを可能にする。また、要素音の判定モデルの生成にクラスタリング処理を導入することにより、特定音、特定状況のラベル付けが行われた音響信号を事前に用意することなく、場の状況推定を可能にする。

状況推定装置５００を構成する特定要素音モデルデータベース２０を作成する特定要素音モデルデータベース作成装置３００は、ある特定音の音響信号の特徴量（ベクトル）に対して、モデル化手法を用いて特定要素音モデルを生成するものである。以降では、その技術思想を通信の場面に適用した場合のいくつかの装置について説明する。まず、遠隔地にいる通信相手が通信可能な状況なのかを知る目的で使用する発呼推薦モデルを生成する発呼推薦モデル生成装置６００について説明する。

［第十実施形態］
第十実施形態の発呼推薦モデル生成装置６００は、通信システムの中で用いられ、通話が良く発生する場合の音響信号のモデル化と、通話があまり発生しない場合の音響信号のモデル化を行うものである。図１８に、発呼推薦モデル生成装置６００の機能ブロック図と、その発呼推薦モデル生成装置６００を一方の通信端末に接続した通信システム２０００の機能ブロック図を示す。

通信システム２０００は、電話回線網若しくはインターネット等のネットワーク２０２０と、そのネットワーク２０２０を挟んで一方と他方に配置される通信端末２０１０と２０３０とで構成される。通信端末２０１０を例えば受話側、通信端末２０３０を例えば送話側とする。そして、通信端末２０１０には、発呼推薦モデル生成装置６００が接続されている。通信端末２０１０は、音響・映像信号提示部２０１１と音響・映像信号取得部２０１２を有する。通信端末２０３０側の音響・映像信号提示部と取得部の表記は省略している。

発呼推薦モデル生成装置６００は、音響特徴量計算装置１と、通話履歴抽出部６０２と、発呼推薦モデル生成部６０３と、発呼推薦モデル保存部６０４と、を具備する。音響特徴量計算装置１は、一方の通信端末２０１０の音響・映像信号取得部２０１２から取得した音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する。抽出した特徴量は発呼推薦モデル生成部６０３に出力される。

通話履歴抽出部６０２は、通信端末２０１０からの通話履歴を随時受け取り新たな発呼/着呼が有ったことを示す発着呼信号を発呼推薦モデル生成部６０３に伝達すると共に通話履歴テーブルを作成する。図１９に、通話履歴テーブルの例を示す。通話履歴テーブルは、例えば、発信/着信時刻、通話終了時刻、通話時間、発呼/着呼、相手番号、履歴アドレス、の項目で構成される。図１９中の履歴アドレス０００２の通話終了時刻のnullは、「他方の通信端末２０３０からの着呼が有ったが一方の通話者が受話器をオフフックしなかった呼」であることを示す。また、履歴アドレス０００４のnullは、「一方の通信端末２０１０から発呼したが他方の通話者がオフフックしなかった呼」であることを示している。

発呼推薦モデル生成部６０３は、通話履歴抽出分６０２が出力する発着呼信号に応答して、当該発着呼信号の直前の音響信号の特徴量の特徴量分類を識別する。その識別は、例えば、ユークリッド距離やコサイン距離などを用いてその距離の大きさの範囲で行われる。そして、発呼推薦モデル生成部６０３は、発呼履歴モデルテーブルを作成する。表１に発呼履歴モデルテーブルの例を示す。

図１９に示した履歴アドレス０００３と０００５が例えば特徴量分類ａに、履歴アドレス０００１と０００６が特徴量分類ｄに分類されている。

発呼推薦モデル生成部６０３は、発着呼信号の直前の音響信号の特徴量を分類した後、その履歴アドレスに対応する通話履歴テーブルから、特徴量分類に対する度合い付けを行う。度合い付けは、通話が良く発生する場合には通話の発生し易さの度合いの値が大きくなり、通話があまり発生しない場合には通話の発生し易さの度合いの値が小さくなるように行う。例えば次のような度合い付けを行う。

発呼が行われた時刻における発呼を行った側は、通話が良く発生する場合とみなし、通話の発生し易さの度合いＴに１を加算する。着呼があったのにオフフックしない場合は、通話があまり発生しない場合とみなし、通話の発生し易さの度合いＴから１を減算する。また、通話が発生した場合に、その通話時間に応じてＴに０.０〜２.０の値を加算する。また、通話が発生した場合でも、その通話時間が所定の時間（例えば６０秒）以内の場合は、通話があまり発生しない場合とみなしてＴから０.５を減算する。このように通話の発生し易さの度合いＴの値を調整することで、特徴量分類を、通話が発生し易いものと、通話が発生し難いものとに分けることができる。例えばＴの値が１０以上であれば通話が良く発生する、また、−１０以下であれば通話があまり発生しないと判断することができる。そして、そのようにして分類した特徴量分類と発生度合いＴとを対応付けて発呼推薦モデルとする。発呼推薦モデルは発呼推薦モデル保存部６０４に保存される。つまり、発呼推薦モデルは、特徴量（ベクトル）と発生度合いＴとが対応付けられた表である。したがって、発呼推薦モデルを用いて受話側の音響信号の特徴量を評価することで、受話側の通話が発生し易い状況であるか否かを知ることができる。

なお、発呼推薦モデルの生成には、上記したように音響信号のみを用いても良いし、音響・映像信号取得部２０１２で取得した映像信号を利用しても良い。また、その他のセンサ（図１８に破線で示す６０５）で取得した例えば、照度情報や、温度情報、加速度情報等を用いて発呼推薦モデルを生成するようにしても良い。また、発呼推薦モデルは、通話が良く発生する場合のモデルと、あまり発生しない場合のモデルのどちらか一方のみを生成するようにしても良い。

［第十一実施形態］
図２０に、第十一実施形態の発呼推薦モデル生成装置６１０の機能ブロック図を示す。発呼推薦モデル生成装置６１０が接続された通話端末２０１０は、通信システム２０００を構成する。発呼推薦モデル生成装置６１０は、例えば、足音、ガラスの割れる音、等の特定要素音と特徴量とを事前に対応付けたモデルを用意しておき、上記した発呼推薦モデル生成装置６００の音響特徴量計算装置１で抽出した特徴量から特定要素音を特定し、特定要素音を用いて発呼推薦モデルを生成するものである。

発呼推薦モデル生成装置６１０は、発呼推薦モデル生成装置６００に対して特定要素音モデルデータベース６１１と要素音特定部６１２とを更に備える点で異なる。特定要素音モデルデータベース６１１には、音響特徴量計算装置１で得られる特徴量（ベクトル）とその特徴量が表す要素音（例えば、足音、ガラスが割れる音、音声等）が対応付けられた要素音特定モデルが保存されている。特定要素音モデルデータベース６１１の作成方法は、第八実施形態と同じである。

要素音特定部６１２は、音響特徴量計算装置１で抽出した特徴量を入力として、特定要素音モデルデータベース６１１に保存されている各々の特定要素音モデルとそれぞれ比較して、距離（ユークリッド距離やコサイン距離など）が最も近いものをそのフレームの要素音と特定し、その特定結果を発呼推薦モデル生成部６０３に出力する。

発呼推薦モデル生成部６０３は、発着呼信号の直前の要素音で履歴アドレスを分類し、履歴アドレスに対応する通話履歴テーブルから、要素音に対する度合い付けを行う。要素音に対する度合い付けは上記した方法と同じである。

発呼推薦モデル生成部６０３は、要素音特定部６１２が出力する特定結果と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。特定結果の要素音と発生度合いＴとが対応付けられた発呼推薦モデルは、発呼推薦モデル保存部６１３に保存される。モデル化は上記したのと同一の手法で行われる。

発呼推薦モデル生成装置６１０によれば、個々の特定結果の要素音と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。表２にその例を示す。

表２は、例えば受話側で人の声がしている時は通話が発生し易く、ドアの開閉音が発生した時は通話が発生し難いことを示している。

［第十二実施形態］
図２１に、第十二実施形態の発呼推薦モデル生成装置６２０の機能ブロック図を示す。発呼推薦モデル生成装置６２０は、一定時間の特徴量をクラスタリングし、クラスタ毎に生成されたモデルから、音響特徴量計算装置１で抽出した特徴量が属するクラスを判定し、判定した要素音のクラスを用いて発呼推薦モデルを生成するものである。

発呼推薦モデル生成装置６２０は、発呼推薦モデル生成装置６１０の特定要素音モデルデータベース６１１と要素音判定部６１２に代えて、特定要素音モデルデータベース６２１と要素音クラスタ判定部６２２を備える点で異なる。発呼推薦モデル生成装置６１０では、要素音に対応するモデルを生成するのに、例えば、足音、ガラスの割れる音などの音に対応する特徴量を事前に用意する必要があった。しかし、発生し得る全ての要素音にそれぞれ対応する特徴量を事前に用意することは困難である。

そこで、発呼推薦モデル生成装置６２０は、要素音と特徴量の対応付けを事前に用意することなくモデル生成を行うようにしたものである。特定要素音モデルデータベース６２１には、音響特徴量計算装置１で得られるであろう一定時間の特徴量（ベクトル）をＧＭＭやＨＭＭやＳＶＭ等の手法を用いて分類して作成された要素音分類モデルが保存されている。特定要素音モデルデータベース６２１の作成方法は、第八実施形態と同じである。

要素音クラスタ判定部６２２は、音響特徴量計算装置１から取得した特徴量（ベクトル）を、特定要素音モデルデータベース６２１に保存されている要素音分類モデルと比較し、特徴量が属する分類クラスを判定し、分類結果を発呼推薦モデル生成部６２４に出力する。

発呼推薦モデル生成部６２４は、要素音クラスタ判定部６２２が出力する分類クラスと通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同一の手法で行われる。

発呼推薦モデル生成装置６２０によれば、要素音の分類クラスと発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。

［第十三実施形態］
発呼推薦モデルは、通話の発生度合いＴと、他の情報とを対応付けたモデルとすることも可能である。例えば、上記した特徴量そのものに対してではなく、特徴量から推定できる動作/行動情報やその動作/行動情報を分類した動作/行動分類情報と、通話の発生度合いＴとを対応付けた発呼推薦モデルとしても良い。

図２２に、動作/行動情報と、通話の発生度合いＴとを対応付けた発呼推薦モデルを生成する第十三実施形態の発呼推薦モデル生成装置６３０の機能ブロック図を示す。発呼推薦モデル生成装置６３０は、上記した発呼推薦モデル生成装置６１０の構成に、動作/行動特定モデル保存部６３１と動作/行動特定部６３２を追加したものである。

発呼推薦モデル生成装置６３０は、要素音特定部６１２で特定された要素音、足音、ガラスが割れる音、等の要素音と要素音を生じる動作や行動とを対応付けたモデルを用意しておくことで、要素音を生じる動作や行動を特定し、特定した動作や行動を用いて発呼推薦モデルを生成する。

動作/行動特定モデル保存部６３１には、要素音特定部６１２が出力する特定結果と、動作/行動（例えば、料理をしている、読書している、睡眠中等）が対応付けられた動作/行動特定モデルが保存されている。動作/行動特定モデル保存部６３１の作成方法は、第五実施形態の特定状況モデルデータベースの作成方法と同様である。動作/行動特定モデルは、例えば、20msec〜100msecの時間幅のフレームごとの要素音特定部６１２の出力を入力とし、そのフレームをＰ個まとめたヒストグラムフレームごとに、特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成し、そのヒストグラムの形状をモデル化手法を用いてモデル化したものである。

動作/行動特定部６３２は、要素音特定部６１２が出力する特定結果をヒストグラム化し、動作/行動特定モデル保存部６３１に保存されている動作/行動特定モデルと比較し、最も類似する動作/行動分類モデルを特定することで動作/行動を特定し、動作/行動情報を発呼推薦モデル生成部６０３に出力する。

発呼推薦モデル生成部６３４は、動作/行動特定部６３２が出力する動作/行動情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われ、発呼推薦モデル保存部６３３に保存される。

発呼推薦モデル生成装置６３０によれば、動作/行動情報と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。動作/行動情報とは、例えば、「料理をしている」、「読書をしている」、等の情報であり、それぞれに発生度合いＴの値が対応付けられた発呼推薦モデルとなる。

また、上記した発呼推薦モデル生成装置６２０の構成に、更に動作/行動特定モデル保存部６３１と動作/行動特定部６３２とを追加した構成の発呼推薦モデル生成装置６４０の機能構成例も考えられる。図２３に、発呼推薦モデル生成装置６４０の機能ブロック図を示す。

発呼推薦モデル生成装置６４０は、要素音クラスタ判定部６２２で特定された要素音のクラスと要素音を生じる動作や行動とを対応付けたモデルを用意しておくことで、要素音を生じる動作や行動を特定し、特定した動作や行動を用いて発呼推薦モデルを生成するものである。

発呼推薦モデル生成部６３４は、動作/行動特定部６３２が出力する動作/行動情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われる。発呼推薦モデル生成装置６４０でも、動作/行動情報と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。

［第十四実施形態］
図２４に、上記した発呼推薦モデル生成装置６１０の構成に更に動作/行動分類モデル保存部６５１と動作/行動クラスタ判定部６５２を追加した第十四実施形態の発呼推薦モデル生成装置６５０の機能ブロック図を示す。

発呼推薦モデル生成装置６５０は、要素音特定部６１２が特定した要素音が表す動作や行動のクラスを判定し、判定した動作や行動のクラスを用いて発呼推薦モデルを生成するものである。

動作/行動分類モデル保存部６５１には、要素音特定部６１２から取得した複数フレームにわたる要素音の特定結果から、ヒストグラム化処理により生成された要素音ヒストグラムと、動作/行動（例えば、料理をしている、読書している、睡眠中等）が対応付けられた動作/行動特定モデルが保存されている。動作/行動特定モデル保存部６５１の作成方法は、第六実施形態の特定状況モデルデータベースの作成方法と同様である。例えば20msec〜100msecの時間幅のフレームごとの要素音特定部６１２の出力を入力とし、そのフレームをＰ個まとめたヒストグラムフレームごとに、特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。そのヒストグラムの形状が似ているもの同士で分類して、Ｂ個のヒストグラムのまとまり（組）にし、このＢ個の組に対してＧＭＭやＨＭＭ、ＳＶＭ等のモデル化手法を用いてＢ種類の動作/行動特定モデルを生成する。

動作/行動クラスタ判定部６５２は、要素音特定部６１２から取得した要素音特定結果から頻度特徴量を計算し、動作/行動分類モデル保存部６５１に保存されている動作/行動分類モデルと比較し、最も類似する動作/行動分類モデルを、その特定結果が表す動作/行動分類として特定し、動作/行動分類情報を発呼推薦モデル生成部６０３に出力する。

発呼推薦モデル生成部６５４は、動作/行動特定部６５２が出力する動作/行動分類情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。動作/行動分類情報と発生度合いＴとが対応付けられた発呼推薦モデルは、発呼推薦モデル保存部６５３に保存される。

発呼推薦モデル生成装置６５０によれば、動作/行動分類情報と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。

また、上記した発呼推薦モデル生成装置６２０の構成に、更に動作/行動分類モデル保存部６５１と動作/行動クラスタ判定部６５２を追加した発呼推薦モデル生成装置６６０の機能構成例も考えられる。図２５に、発呼推薦モデル生成装置６６０の機能ブロック図を示す。

発呼推薦モデル生成装置６６０は、要素音クラスタ判定部６２２が判定した要素音のクラスが表す動作や行動のクラスを判定し、判定した動作や行動のクラスを用いて発呼推薦モデルを生成するものである。

発呼推薦モデル生成部６５４は、動作/行動クラスタ判定部６５２が出力する動作/行動分類情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われる。発呼推薦モデル生成装置６６０でも、動作/行動分類情報と発生度合いＴとが対応付けられた発呼推薦モデルを生成することができる。

なお、第十一実施形態から第十四実施形態に記載した発呼推薦モデル生成装置の発呼推薦モデルの生成には、音響信号のみを用いた例を説明したが、音響・映像信号取得部２０１２で取得した映像信号や、その他のセンサで取得した例えば、照度情報や、温度情報、加速度情報等を用いて発呼推薦モデルを生成するようにしても良いことは、第十実施形態の発呼推薦モデル生成装置６００と同じである。また、発呼推薦モデルは、通話が良く発生する場合のモデルと、あまり発生しない場合のモデルのどちらか一方のみを生成するようにしても良いことも同様である。

以上、遠隔地にいる通信相手が通信可能な状況なのかを知る目的で使用する発呼推薦モデルを生成する発呼推薦モデル生成装置について説明した。次に、発呼推薦モデル生成装置６００〜６６０を用いて、遠隔地にいる通信相手が通話可能な状態でないのにも関わらず受話者に発呼してしまう課題を解決する発呼適否通知装置について説明する。

［第十五実施形態］
図２６に、第十五実施形態の発呼適否通知装置７００を含む通信システム２０００の機能ブロック図を示す。通信システム２０００の機能構成は上記したものと同じである。発呼適否通知装置７００は、受話側の通信端末２０１０に接続され、発呼推薦モデル生成装置６００で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７００は、音響特徴量計算装置１と、発呼推薦モデル保存部６０４と、発呼推薦状況判定部７０１と、を具備する。音響特徴量計算装置１と発呼推薦モデル保存部６０４は、発呼推薦モデル生成装置６００と同じものである。

発呼推薦状況判定部７０１は、音響特徴量計算装置１が出力する音響信号列から抽出した特徴量と、発呼推薦モデル保存部６０４に保存された特徴量（ベクトル）と発生度合いＴとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。発呼の適否は、上記した通話の発生度合いＴの値を、ある閾値と比較し、例えばＴの値が１０以上であれば発呼に適、又、Ｔの値が−１０以下で有れば発呼に不適、と判定する。

発呼適否通知情報は、通話端末２０１０に入力されネットワーク２０２０を介して送話側の通話端末２０３０に送信される。発呼適否通知情報を受信した送話側の通信端末２０３０は、受話者が通話可能な状況であるかを表示する。その表示はＬＥＤランプ等の点灯や、液晶パネルの表示等の図示していない発呼推薦情報表示手段によって行われる。

なお、設計的事項に関わる発呼適否通知情報の出力間隔は、例えば数秒から数分間隔で行われるものとする。また、発呼適否通知装置７００や発呼推薦情報表示手段の機能は、通話端末（２０１０，２０３０）と一体に構成するようにしても良い。また、発呼適否通知情報を通知する送話者側の通信端末を特定する方法は、この発明の要部ではないのでその説明は省略するが、事前に複数の送話者の通話端末を登録しておくことで簡単に実現することが可能である。

［第十六実施形態］
図２７に、第十六実施形態の発呼適否通知装置７１０を含む通信システム２０００の機能ブロック図を示す。発呼適否通知装置７１０は、受話側の通信端末２０１０に接続され、発呼推薦モデル生成装置６１０で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７１０は、音響特徴量計算装置１と、特定要素音モデル保存部６１１と、要素音特定部６１２と、発呼推薦モデル保存部６１３と、発呼推薦状況判定部７１１と、を具備する。音響特徴量計算装置１と特定要素音モデル保存部６１１と要素音特定部６１２と発呼推薦モデル保存部６１３とは、発呼推薦モデル生成装置６１０と同じものである。

発呼推薦状況判定部７１１は、要素音特定部６１２が出力する要素音と、例えば、足音、ガラスが割れる音等の音声と通話の発生度合いＴとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。これ以降の動作は、発呼適否通知装置７００と同じである。

［第十七実施形態］
図２８に、第十七実施形態の発呼適否通知装置７２０を含む通信システム２０００の機能ブロック図を示す。発呼適否通知装置７２０は、受話側の通信端末２０１０に接続され、発呼推薦モデル生成装置６２０で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７２０は、音響特徴量計算装置１と、特定要素音モデルデータベース６２１と、要素音クラスタ判定部６２２と、発呼推薦モデル保存部６２３と、発呼推薦状況判定部７２１と、を具備する。音響特徴量計算装置１と、特定要素音モデルデータベース６２１と、要素音クラスタ判定部６２２と、発呼推薦モデル保存部６２３とは、発呼推薦モデル生成装置６２０と同じものである。

発呼推薦状況判定部７２１は、要素音クラスタ判定部６２２が出力する分類クラスと、分類クラスと通話の発生度合いＴとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。これ以降の動作は、発呼適否通知装置７００と同じである。

［第十八実施形態］
発呼適否通知装置は、通話の発生度合いＴと、他の情報とを対応付けた発呼推薦モデルを用いても構成することが可能である。例えば、上記した特徴量そのものに対してではなく、特徴量から推定できる動作/行動情報やその動作/行動情報を分類した動作/行動分類情報と、通話の発生度合いＴとを対応付けた発呼推薦モデルとしても良い。

図２９に、その場合の発呼適否通知装置７３０の機能ブロック図を示す。第十八実施形態の発呼適否通知装置７３０は、音響特徴量計算装置１と、対応付け部７３２と、発呼推薦モデル保存部６３３と、発呼推薦状況判定部７３１と、を具備する。音響特徴量計算装置１は、複数の要素音を含む受話者側の音響信号列を短時間フレームに分割し、当該フレーム毎に特徴量を抽出する。対応付け部７３２は、特徴量と、受話者側の動作/行動情報とを対応付けた対応付け情報を出力する。発呼推薦モデル保存部６３３は、特徴量から特定される動作/行動情報と、通話の発生し易さの度合いとを対応付けた発呼推薦モデルを保存する。発呼推薦状況判定部７３１は、対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

発呼適否通知装置７３０は、発呼推薦モデル生成装置６３０で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７３０は、音響特徴量計算装置１と、対応付け部７３２と、発呼推薦モデル保存部６３３と、発呼推薦状況判定部７３１と、を具備する。対応付け部７３２は、特定要素音モデルデータベース６１１と要素音特定部６１２と動作/行動特定モデル保存部６３１と動作/行動特定部６３２とで構成される。この構成は、発呼推薦モデル生成装置６３０と同じである。

発呼推薦状況判定部７３１は、対応付け部７３２が出力する特徴量と受話者側の動作/
行動情報とを対応付けた対応付け情報を入力として、動作/行動情報で一致する発呼推薦
モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

図３０に、発呼適否通知装置７４０の機能ブロック図を示す。発呼適否通知装置７４０は、発呼推薦モデル生成装置６４０で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７４０は、音響特徴量計算装置１と、対応付け部７４２と、発呼推薦モデル保存部６３３と、発呼推薦状況判定部７４１と、を具備する。対応付け部７４２は、特定要素音モデルデータベース６２１と要素音クラスタ判定部６２２と動作/行動特定モデル保存部６３１と動作/行動特定部６３２とで構成される。この構成は、発呼推薦モデル生成装置６３０と同じである。

発呼推薦状況判定部７４１は、対応付け部７４２が出力する特徴量と動作/行動情報と
を対応付けた対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参
照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

［第十九実施形態］
図３１に、第十九実施形態の発呼適否通知装置７５０の機能ブロック図を示す。発呼適否通知装置７５０は、発呼推薦モデル生成装置６５０で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７５０は、音響特徴量計算装置１と、対応付け部７５２と、発呼推薦モデル保存部６５３と、発呼推薦状況判定部７５１と、を具備する。対応付け部７５２は、特定要素音モデルデータベース６１１と要素音特定部６１２と動作/行動分類モデル保存部６５１と動作/行動クラスタ特定部６５２とで構成される。この構成は、発呼推薦モデル生成装置６５０と同じである。

発呼推薦状況判定部７５１は、対応付け部７５２が出力する特徴量と動作/行動分類情
報を入力として動作/行動分類情報で一致する発呼推薦モデルを参照して受話者側におい
て通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

図３２に、発呼適否通知装置７６０の機能ブロック図を示す。発呼適否通知装置７６０は、発呼推薦モデル生成装置６６０で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。

発呼適否通知装置７６０は、音響特徴量計算装置１と、対応付け部７６２と、発呼推薦モデル保存部６５３と、発呼推薦状況判定部７６１と、を具備する。対応付け部７６２は、特定要素音モデルデータベース６２１と要素音クラスタ判定部６２２と動作/行動分類モデル保存部６５１と動作/行動クラスタ判定部６５２とで構成される。この構成は、発呼推薦モデル生成装置６６０と同じである。

発呼推薦状況判定部７６１は、対応付け部７６２が出力する特徴量と動作/行動分類情
報とを対応付けた対応付け情報を入力として動作/行動分類情報で一致する発呼推薦モデ
ルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。

以上述べたようにこの発明の発呼適否通知装置７００〜７６０によれば、特徴量、要素音、分類クラス、動作/行動情報、動作/行動分類情報の何れかによって受話者側において、受話者が現在通話可能な状況にあるのか否かを判定し、判定結果（発呼適否通知情報）を送話者側に通知することができる。

上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい

Claims

入力された音響信号を所定の時間長のフレームに分割するフレーム分割部と、
Mを所定の正の整数とし、p_s(n)を各上記フレームの平滑化後のn番目のサンプルの大きさを表す指標とし、p_s ^-を上記各フレームの平滑化後のサンプルの大きさを表す指標の平均値として、次式で定義される値を計算し、その値を上記各フレームの時間周期性とする時間周期性計算部と、

を含む音響特徴量計算装置。
請求項１に記載の音響特徴量計算装置において、
各フレームの音響信号をK個の区間に分割し、p^- _kを上記各フレームのk番目の区間の音響信号の大きさを表す指標の平均値とし、Δp^- _kを上記各フレームのk番目の区間におけるp^- _kの変化率とし、mを２以上の所定の整数として、次式で定義される値を計算し、その値が０以上の場合にはその値を上記各フレームの立ち上がり特定とし、その値が０未満の場合には上記各フレームの立ち上がり特性を０とする立ち上がり特性計算部を備える特徴量抽出部と、

nを各上記フレーム内のサンプル位置とし、x(n)を上記各フレームのn番目のサンプルの大きさを表す指標とし、δ{x(n)・x(n-1)}をx(n)・x(n-1)が０以下の場合には１としx(n)・x(n-1)が０より大の場合には０とし、pdf(n)をnを変数とする所定の確率分布とし、f(n)を

又は、

とし、R_ff(τ)をラグをτとしたときのf(n)の自己相関係数として、次式で定義される値を計算し、その値を上記各フレームの調波性とする調波性計算部と、

の少なくとも一方を更に含む、
音響特徴量計算装置。
請求項１に記載の音響特徴量計算装置において、
突発性計算部は、上記各フレームの音響信号の時間領域での集中の度合いを示す突発性を計算するとし、
時間拡散性計算部は、上記各フレームの音響信号の時間領域での拡散の度合いを示す時間拡散性を計算するとし、
狭帯域性計算部は、上記各フレームの音響信号の周波数領域での集中の度合いを示す狭帯域性を計算するとし、
帯域拡散性計算部は、上記各フレームの音響信号の周波数領域での拡散の度合いを示す帯域拡散性を計算するとし、
音高特性計算部は、上記各フレームの音響信号の周波数領域でのエネルギーの偏在の度合いを示す音高特性を計算するとし、
振幅偏在性計算部は、上記各フレームの音響信号の振幅値の分布の偏在の度合いを示す振幅偏在性を計算するとし、
上記特徴量抽出部は、上記突発性計算部と、上記時間拡散性計算部と、上記狭帯域性計算部と、上記帯域拡散性計算部と、上記音高特性計算部と、上記振幅偏在性計算部との少なくとも１つを更に備える、
音響特徴量計算装置。
請求項１から３の何れかに記載の音響特徴量計算装置において、
上記時間周期性、上記立ち上がり特性、上記調波性、上記突発性、上記時間拡散性、上記帯域性計算、上記帯域拡散性、上記音高特性及び上記振幅偏在性以外の上記各フレームの音響信号の音響特徴量を計算する音響特徴量計算部を上記特徴量抽出部は更に備える、
音響特徴量計算装置。
請求項１から４の何れかに記載の音響特徴量計算装置と、
複数の特定要素音の特定要素音モデルを記憶する特定要素音モデルデータベースと、
上記音響特徴量計算装置が計算した特徴量と、上記特定要素音モデルデータベースに記憶された特定要素音モデルとを比較して最も類似するモデルの上記特定要素音モデルのラベル、または上記特定要素音モデルのラベルを上記音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較部と、
上記要素音モデル比較部の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の上記特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化部と、
上記要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて上記特定の場に対応する特定状況モデルを生成する特定状況モデル化部と、
を具備する特定状況モデルデータベース作成装置。
請求項１から４の何れかに記載の音響特徴量計算装置と、
複数の特定要素音の特定要素音モデルを記憶する特定要素音モデルデータベースと、
上記音響特徴量計算装置が計算した特徴量と、上記特定要素音モデルデータベースに記憶された特定要素音モデルとを比較して最も類似するモデルの上記特定要素音モデルのラベル、または上記特定要素音モデルのラベルを上記音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較部と、
上記要素音モデル比較部の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の上記特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化部と、
複数の上記要素音ヒストグラムをその分布の形状で分類した要素音分類を作成する分布クラスタリング処理部と、
上記要素音分類を入力として、当該要素音分類に対してモデル化手法を用いて状況分類モデルを生成する状況分類モデル化部と、
を具備する特定状況モデルデータベース作成装置。
請求項５又は６に記載した特定状況モデルデータベース作成装置の上記特定要素音モデルデータベースを作成する特定要素音モデルデータベース作成装置であって、
請求項１から４の何れかに記載の音響特徴量計算装置と、
上記音響特徴量計算装置が計算した特徴量を入力として、当該特徴量に対してモデル化手法を用いて特定要素音モデルを生成する特定要素音モデル化部と、
を具備する特定要素音モデルデータベース作成装置。
請求項５又は６に記載した特定状況モデルデータベース作成装置の上記特定要素音モデルデータベースを作成する特定要素音モデルデータベース作成装置であって、
請求項１から４の何れかに記載の音響特徴量計算装置と、
上記音響特徴量計算装置が計算した特徴量を分類して特徴量分類を作成する特徴量クラスタリング部と、
上記特徴量分類を入力として、当該特徴量分類に対してモデル化手法を用いて要素音分類モデルを生成する要素音分類モデル化部と、
を具備する特定要素音モデルデータベース作成装置。
請求項１から４の何れかに記載の音響特徴量計算装置と、
請求項７又は８に記載した特定要素音モデルデータベース作成装置で生成された特定要素音モデルを記憶した特定要素音モデルデータベースと、
上記特定要素音モデルと上記音響特徴量計算装置が計算した特徴量をそれぞれ比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定して上記フレーム毎に要素音ラベルを付与する要素音モデル比較部と、
上記ラベル付き音響信号列を入力として、上記特定要素音モデルのラベルとその頻度の要素音ヒストグラムを作成する要素音ヒストグラム化部と、
請求項５又は６に記載した特定状況モデルデータベース作成装置で生成された複数の特定状況モデルと状況分類モデルとを、記憶した特定状況モデルデータベースと、
上記要素音ヒストグラムと、上記特定状況モデルまたは上記状況分類モデルとを比較し、最も類似するものを当該特定状況モデル又は状況分類モデルが表す状況と推定して状況推定結果を出力する状況判定モデル比較部と、
を具備する状況推定装置。
請求項１から４の何れかに記載の音響特徴量計算装置と、
通話の発生し易さの度合いとを対応付けた発呼推薦モデルを保存した発呼推薦モデル保存部と、
上記音響特徴量計算装置が計算した特徴量を入力とし、当該特徴量が一致する上記発呼推薦モデルを参照して上記受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定し通話適否通知情報を、通話者側に送信する発呼推薦状況判定部と、
を具備する発呼適否通知装置。
フレーム分割部が、入力された音響信号を所定の時間長のフレームに分割するフレーム分割ステップと、
時間周期性計算部が、Mを所定の正の整数とし、p_s(n)を各上記フレームの平滑化後のn番目のサンプルの大きさを表す指標とし、p_s ^-を上記各フレームの平滑化後のサンプルの大きさを表す指標の平均値として、次式で定義される値を計算し、その値を上記各フレームの時間周期性とする時間周期性計算ステップと、

を含む音響特徴量計算方法。
請求項１から１０の何れかに記載した装置としてコンピュータを機能させるためのプログラム。