JP2013242465A - 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム - Google Patents

音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム Download PDF

Info

Publication number
JP2013242465A
JP2013242465A JP2012116377A JP2012116377A JP2013242465A JP 2013242465 A JP2013242465 A JP 2013242465A JP 2012116377 A JP2012116377 A JP 2012116377A JP 2012116377 A JP2012116377 A JP 2012116377A JP 2013242465 A JP2013242465 A JP 2013242465A
Authority
JP
Japan
Prior art keywords
element sound
model
call
specific
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012116377A
Other languages
English (en)
Other versions
JP5777569B2 (ja
Inventor
Keisuke Imoto
桂右 井本
Suehiro Shimauchi
末廣 島内
Naka Omuro
仲 大室
Yoichi Haneda
陽一 羽田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012116377A priority Critical patent/JP5777569B2/ja
Publication of JP2013242465A publication Critical patent/JP2013242465A/ja
Application granted granted Critical
Publication of JP5777569B2 publication Critical patent/JP5777569B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】大局的な周期性を抽出することができる音響特徴量計算技術を提供する。
【解決手段】音響特徴量計算装置1は、入力された音響信号を所定の時間長のフレームに分割するフレーム分割部12と、Mを所定の正の整数とし、ps(n)を各フレームの平滑化後のn番目のサンプルの大きさを表す指標とし、ps -を各フレームの平滑化後のサンプルの大きさを表す指標の平均値として、次式で定義される値を計算し、その値を各フレームの時間周期性とする時間周期性計算部1310と、を含む。

【選択図】図1

Description

この発明は、音響信号の特徴量を抽出する技術、抽出された特徴量を用いて状況を推定する技術及び発呼の適否を通知する技術に関する。
音響信号の特徴量のひとつである時間周期性を計算する技術として、非特許文献1に記載された技術が知られている。
非特許文献1に記載された技術では、音響信号の周期を抽出し、連続する2つの周期の音響信号の相関を計算することにより、時間周期性を計算している(例えば、非特許文献1参照。)。
児島宏明,橋本泰治,佐土原健,佐宗晃,"音響的素性記述に基づく環境音認識",日本音響学会講演論文集,2011年9月
しかしながら、非特許文献1に記載された技術では、例えば数十から数百ミリ秒毎の大局的な周期性を抽出することは難しい。例えば、音響信号の振幅の絶対値又は音響信号のパワーが数十から数百ミリ秒の周期で突出するという特徴を抽出することはできない。
この発明は、大局的な周期性を抽出することができる音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラムを提供することを目的とする。
この発明の一態様による音響特徴量計算装置は、入力された音響信号を所定の時間長のフレームに分割するフレーム分割部と、Mを所定の正の整数とし、ps(n)を各上記フレームの平滑化後のn番目のサンプルの大きさを表す指標とし、ps -を上記各フレームの平滑化後のサンプルの大きさを表す指標の平均値として、次式で定義される値を計算し、その値を上記各フレームの時間周期性とする時間周期性計算部と、を含む。
この発明の一態様による特定状況モデルデータベース作成装置は、複数の特定要素音の特定要素音モデルを記憶する特定要素音モデルデータベースと、音響特徴量計算装置が計算した特徴量と、特定要素音モデルデータベースに記憶された特定要素音モデルとを比較して最も類似するモデルの特定要素音モデルのラベル、または特定要素音モデルのラベルを音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較部と、要素音モデル比較部の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化部と、要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて特定の場に対応する特定状況モデルを生成する特定状況モデル化部と、を備える。
この発明の一態様による特定要素音モデルデータベース作成装置は、音響特徴量計算装置と、音響特徴量計算装置が計算した特徴量を入力として、当該特徴量に対してモデル化手法を用いて特定要素音モデルを生成する特定要素音モデル化部と、を備える。
この発明の一態様による状況推定装置は、音響特徴量計算装置と、特定要素音モデルデータベース作成装置で生成された特定要素音モデルを記憶した特定要素音モデルデータベースと、特定要素音モデルと音響特徴量計算装置が計算した特徴量をそれぞれ比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定してフレーム毎に要素音ラベルを付与する要素音モデル比較部と、ラベル付き音響信号列を入力として、特定要素音モデルのラベルとその頻度の要素音ヒストグラムを作成する要素音ヒストグラム化部と、特定状況モデルデータベース作成装置で生成された複数の特定状況モデルと状況分類モデルとを、記憶した特定状況モデルデータベースと、要素音ヒストグラムと、特定状況モデルまたは状況分類モデルとを比較し、最も類似するものを当該特定状況モデル又は状況分類モデルが表す状況と推定して状況推定結果を出力する状況判定モデル比較部と、を備える。
この発明の一態様による発呼適否通知装置は、音響特徴量計算装置と、通話の発生し易さの度合いとを対応付けた発呼推薦モデルを保存した発呼推薦モデル保存部と、音響特徴量計算装置が計算した特徴量を入力とし、当該特徴量が一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定し通話適否通知情報を、通話者側に送信する発呼推薦状況判定部と、を備える。
大局的な周期性を抽出することができる。
第一実施形態の音響特徴量計算装置1の機能ブロック図。 音響特徴量計算装置1の動作フローを示す図。 第二実施形態の音響特徴量計算装置1の機能ブロック図。 立ち上がり特性計算部131の処理の例を説明するための図。 調波性計算部139の処理の例を説明するための図。 第三実施形態の音響特徴量計算装置1の機能ブロック図。 第四実施形態の音響特徴量計算装置1の機能ブロック図。 特定状況モデルデータベース作成装置100の機能ブロック図。 特定状況モデルデータベース作成装置100の動作フローを示す図。 フレームとヒストグラムフレームとの関係を示す図。 要素音ヒストグラムの例を示す図。 特定状況モデルデータベース作成装置200の機能ブロック図。 特定状況モデルデータベース作成装置200の動作フローを示す図。 特定要素音モデルデータベース作成装置300の機能ブロック図。 特定要素音モデルデータベース作成装置400の機能ブロック図。 状況推定装置500の機能ブロック図。 状況推定装置500の動作フローを示す図。 発呼推薦モデル生成装置600を組み込んだ通信システム2000の機能ブロック図。 通信履歴テーブルの例を示す図。 発呼推薦モデル生成装置610を組み込んだ通信システム2000の機能ブロック図。 発呼推薦モデル生成装置620を組み込んだ通信システム2000の機能ブロック図。 発呼推薦モデル生成装置630の機能ブロック図。 発呼推薦モデル生成装置640の機能ブロック図。 発呼推薦モデル生成装置650の機能ブロック図。 発呼推薦モデル生成装置660の機能ブロック図。 発呼適否通知装置700が接続された通話端末2010を含む通信システム2000の機能ブロック図。 発呼適否通知装置710が接続された通話端末2010を含む通信システム2000の機能ブロック図。 発呼適否通知装置720が接続された通話端末2010を含む通信システム2000の機能ブロック図。 発呼適否通知装置730の機能ブロック図。 発呼適否通知装置740の機能ブロック図。 発呼適否通知装置750の機能ブロック図。 発呼適否通知装置760の機能ブロック図。
以下、図面を参照して、この発明の実施形態を説明する。
第一実施形態から第四実施形態が音響特徴量計算装置及び方法の実施形態であり、第五実施形態から第六実施形態が特定状況モデルデータベース作成装置の実施形態であり、第七実施形態から第八実施形態が特定要素音モデルデータベース作成装置の実施形態であり、第九実施形態が状況推定装置の実施形態であり、第十実施形態から第十四実施形態が発呼推薦モデル生成装置の実施形態であり、第十五実施形態から第十九実施形態が発呼適否通知装置の実施形態である。
[第一実施形態]
第一実施形態の音響特徴量計算装置1は、図1に示すように、フレーム分割部11、量子化部12及び特徴量抽出部13を例えば備える。第一実施形態の音響特徴量計算装置1の動作フローを図2に示す。
フレーム分割部11は、入力された音響信号を所定の時間長のフレームに分割する(ステップA1)。所定の時間長とは、例えば約50ミリ秒である。連続する2つのフレームは、重なっていてもよいし、重なっていなくてもよい。フレームに分割された音響信号は、特徴量抽出部13に出力される。
図1の例では、入力された音響信号は、量子化部12により、一定の時間間隔毎に及び一定の音圧毎に量子化された離散信号である。もちろん、量子化部12の処理は、フレーム分割部11の処理の後や、特徴量抽出部13の処理の後に行われてもよい。
特徴量抽出部13は、時間周期性計算部1310を備える。時間周期性計算部1310は、各フレームの時間周期性を計算する(ステップA2)。
時間周期性を計算するために、時間周期性計算部1310は、まず、各サンプルの値を平滑化する。
次に、時間周期性計算部1310は、次式により定義される値を計算し、その値を時間周期性とする。
Mは、時間周期性の度合いを計算するための周期数であり、所定の正の整数である。Nはフレーム内のサンプル番号であり、ps(n)はフレームの平滑化後のn番目のサンプルの大きさを表す指標であり、ps -はフレームの平滑化後のサンプルの大きさを表す指標の平均値である。
時間周期性計算部1310の処理におけるサンプルの大きさを表す指標とは、例えば、サンプルの振幅の絶対値、サンプルの振幅の絶対値の対数値、サンプルのパワー又はサンプルのパワーの対数値である。サンプルの大きさを表す指標として、対数値ではなく、サンプルの振幅の絶対値又はサンプルのパワー等の線形値を用いた場合には、際立って突出している成分のみを効率的に抽出可能である。
このように、多数の周期(Mに相当)にわたる時間周期性の度合いを算出することにより、大局的な周期性を抽出することができる。
[第二実施形態]
第二実施形態の音響特徴量計算装置1は、立ち上がり特性及び調波性を計算する点で第一実施形態の音響特徴量計算装置1と異なる。以下、第一実施形態と異なる部分を中心に説明し、第一実施形態と同様の部分については説明を省略する。
第二実施形態の音響特徴量計算装置1の特徴量抽出部13は、図3に示すように、調波性計算部139に加えて、立ち上がり特性計算部131及び調波性計算部139を更に備える。
立ち上がり特性計算部131は、各フレームの立ち上がり特性を計算する。
立ち上がり特性とは、数十から数百ミリ秒毎における、音響信号の大きさを表す指標の増加の度合いを表す指標である。ここで、音響信号の大きさを表す指標とは、例えば、音響信号の振幅の絶対値、音響信号の振幅の絶対値の対数値、音響信号のパワー又は音響信号のパワーの対数値である。
立ち上がり特性を計算するために、立ち上がり特性計算部131は、まず、各フレームの音響信号をK個の区間に分割する。Kは、所定の正の整数である。各分割された区間が約1ミリ秒になるように、Kの値は設定される。
次に、立ち上がり特性計算部131は、次式で定義される値を計算し、その値が0以上の場合にはその値を各フレームの立ち上がり特定とし、その値が0未満の場合には各フレームの立ち上がり特性を0とする。計算された立ち上がり特性は、特徴量として特徴量抽出部13から出力される。
p- kはフレームのk番目の区間の音響信号の大きさを表す指標の平均値であり、Δp- kはフレームのk番目の区間におけるp- kの変化率である。xを任意の文字として、xの右肩の「-」は、xの上付きバーを意味する。mは、2以上の所定の整数である。例えば、m=2である。
例えば、Δp- k=p- k-p- k-1である。Δp- k=p- k+1-p- kとしてもよい。また、最小二乗法等の近似手法を用いてp- kを近似した直線を求め、k番目の区間におけるその直線の傾きをΔp- kとしてもよい。
p- kを音響信号のパワーとし、Δp- k=p- k+1-p- kとした場合、図4に示すように、Δp- 2=p- 3- p- 2となる。
このように、立ち上がり特性を計算することにより、音響信号の振幅が増加を開始する時刻Tstart及び音響信号の振幅が最大となる時刻Tstopを特定する必要がないため、これらの時刻Tstart,Tstopを特定することが難しい場合であっても、立ち上がり特性を計算することができる。
また、増加特性を強調して抽出することが可能となっているため、従来技術では立ち上がり特性のみが抽出困難であった音響信号に対しても効果的に立ち上がり特性を抽出可能となっている。
調波性計算部139は、各フレームの調波性を計算する。
調波性計算部139は、具体的には、次式により定義される値を計算し、その値を調波性とする。
Rff(τ)は、ラグをτとしたときのf(n)の自己相関係数である。ラグτは、1以上N以下の整数である。Rff(τ)は、例えば以下のように定義される。
また、f(n)=δ{x(n)・x(n-1)}である。δ{x(n)・x(n-1)}は、x(n)・x(n-1)が0以下の場合には1の値を取り、x(n)・x(n-1)が0の値を取る関数である。x(n)は、フレームのn番目のサンプルの大きさを表す指標である。
時間周期性計算部1310の処理におけるサンプルの大きさを表す指標とは、例えば、サンプルの振幅、サンプルの振幅の対数値、サンプルのパワー又はサンプルのパワーの対数値である。
図5に例示するように、音響信号から零交差点が求まり、零交差点から、f(n)=δ{x(n)・x(n-1)}としたときのf(n)の値が求まる
なお、f(n)は、例えば次式により定義される、零交差点を中心とする所定の確率分布pdf(n)の和であってもよい。所定の確率分布とは、例えばガウス分布、二項分布、ベータ分布である。
このように、調波性を計算することにより、高周波数成分をあまり含まない音響信号についても精度良く調波性を計算することができる。
なお、第二実施形態の音響特徴量計算装置1の特徴量抽出部13は、立ち上がり特性計算部131及び調波性計算部139の少なくとも一方のみを備えていてもよい。
[第三実施形態]
第三実施形態の音響特徴量計算装置1は、時間周期性、調波性及び立ち上がり特性以外の音響特徴量を計算する点で第一実施形態又は第二実施形態の音響特徴量計算装置1と異なる。以下、第一実施形態又は第二実施形態と異なる部分を中心に説明し、第一実施形態又は第二実施形態と同様の部分については説明を省略する。
第三実施形態の音響特徴量計算装置1の特徴量抽出部13は、時間周期性計算部1310、調波性計算部139及び立ち上がり特性計算部131に加えて、突発性計算部132と、時間拡散性計算部133と、狭帯域性計算部134と、帯域拡散性計算部135と、音高特性計算部136と、振幅偏在性計算部137との少なくとも1つを更に備える。図6は、特徴量抽出部13がこれらの部の全てを備えている場合の、第三実施形態の音響特徴量計算装置1の機能ブロック図を示している。
第三実施形態の音響特徴量計算装置1は、量子化部11、フレーム分割部12及び特徴量抽出部13に加えて、ベクトル生成部14を更に備えている。
突発性計算部132は、各フレームの音響信号の時間領域での集中の度合いを示す突発性を計算する。突発性は、例えば次式により定義される値である。μ- nはn番目の区間の音響エネルギー包絡の平均値であり、σ- nはn番目の区間の音響エネルギー包絡の分散値であり、
時間拡散性計算部133は、各フレームの音響信号の時間領域での拡散の度合いを示す時間拡散性を計算する。時間拡散性は、例えば次式により定義される値である。xnは時間領域における計算フレーム開始位置からの距離であり、x- nは時間領域における音響エネルギー包絡の平均値となる位置である。
狭帯域性計算部134は、各フレームの音響信号の周波数領域での集中の度合いを示す狭帯域性を計算する。狭帯域性は、例えば次式により定義される値である。fは周波数であり、Fは周波数ビンの数であり、p-(f)は周波数fの音響エネルギーの平均値であり、μ- fは音響エネルギー包絡の分布の平均値となる周波数であり、σ- fは音響エネルギー包絡の分布の分散値である。
帯域拡散性計算部135は、各フレームの音響信号の周波数領域での拡散の度合いを示す帯域拡散性を計算する。帯域拡散性は、例えば次式により定義される値である。
音高特性計算部136は、各フレームの音響信号の周波数領域でのエネルギーの偏在の度合いを示す音高特性を計算する。音高特性は、例えば次式により定義される値である。p(f)は周波数fの音響エネルギーである。
振幅偏在性計算部137は、各フレームの音響信号の振幅値の分布の偏在の度合いを示す振幅偏在性を計算する。振幅偏在性は、例えば次式により定義される値である。pnは、n番目のサンプルの振幅値である。
特徴量抽出部13で計算された特徴量は、ベクトル生成部14でベクトル化される。特徴量抽出部13で計算された特徴量とは、調波性及び立ち上がり特性と、更に、突発性、時間拡散性、狭帯域性、帯域拡散性、音高特性及び振幅偏在性の少なくとも1つとである。
[第四実施形態]
第四実施形態の音響特徴量計算装置1は、第一実施形態から第三実施形態の特徴量抽出部13で計算された特徴量以外の音響特徴量を計算する点で、第一実施形態から第三実施形態の音響特徴量計算装置1と異なる。以下、第一実施形態から第三実施形態と異なる部分を中心に説明し、第一実施形態から第三実施形態と同様の部分については説明を省略する。
第四実施形態の音響特徴量計算装置1の特徴量抽出部13は、音響特徴量計算部138を更に備える。図7は、特徴量抽出部13が、第三実施形態で説明した、突発性計算部132、時間拡散性計算部133、狭帯域性計算部134、帯域拡散性計算部135、音高特性計算部136及び振幅偏在性計算部137の全てを備えている場合の、第四実施形態の音響特徴量計算装置1の機能ブロック図である。
音響特徴量計算部138は、MFCC(Mel-Frequency Cepstrum Coefficient)、パワースペクトル等の音響特徴量を計算する。もちろん、音響特徴量計算部138は、音響特徴量として、他の既存技術による音響特徴量を計算してもよい。
音響特徴量計算部138で計算された音響特徴量は、特徴量抽出部13で計算された特徴量として、ベクトル生成部14に出力される。
[第五実施形態]
第五実施形態の特定状況モデルデータベース作成装置100は、第一実施形態から第三実施形態の音響特徴量計算装置1を用いて特定状況モデルデータベースを作成するものである。
図8に、第五実施形態の特定状況モデルデータベース作成装置100の機能ブロック図の例を示す。その動作フローの例を図9に示す。特定状況モデルデータベース作成装置100は、音響特徴量計算装置1と、特定要素音モデルデータベース20と、要素音モデル比較部30と、要素音ヒストグラム化部40と、特定状況モデル化部50と、を具備する。特定状況モデルデータベース作成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音響特徴量計算装置1は、第一実施形態から第三実施形態の何れかの音響特徴量計算装置1である。音響特徴量計算装置1は、第一実施形態から第三実施形態で説明した方法により、ある特定の場における複数の要素音を含む音響信号列を短時間フレームに分割し当該フレーム毎に特徴量を抽出する(ステップS10)。ステップS10は、図9のステップA1とA2とに対応する。音響特徴量計算装置1で計算された特徴量は、要素音モデル比較部30に出力される。ここで、ある特定の場における複数の要素音を含む音響信号列とは、例えば人が料理をしている状況、人が読書をしている状況などの特定の場の状況を表す音響信号列のことである。つまり、特定の場で録音した時間長が例えば5秒〜20秒程度の音響信号である。その音響信号を、20msec〜100msecのフレームに分割し、そのフレーム毎に、特徴量を計算して、計算した特徴量を要素音の特徴量とする。
音響特徴量計算装置1が計算した特徴量、言い換えれば特徴量抽出部13が抽出した特徴量とは、例えば、時間周期性、調波性、立ち上がり特性、突発性、時間拡散性、狭帯域性、帯域拡散性、音高特性、振幅偏在性、MFCC(Mel-Frequency Cepstrum Coefficient)、パワースペクトル等の音響特徴量である。
要素音モデル比較部30は、音響特徴量計算装置1の特徴量抽出部13が出力する特徴量と、特定要素音モデルデータベース20に記憶されている複数の特定要素音モデルとをそれぞれ比較して距離(ユークリッド距離やコサイン距離)が最も近い特定要素音モデルのラベル、または当該特定要素音モデルのラベルをフレーム単位で音響信号列に付与したラベル付き音響信号列を出力する(ステップS30)。特定要素音モデルのラベル付き特徴量は、後述する特定要素音モデルデータベース作成装置300で作成する。
要素音ヒストグラム化部40は、要素音モデル比較部30から出力された特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する(ステップS40)。図10に、フレームとヒストグラムフレームとの関係を示す。
図10は、特定の場を、例えば「人が料理をしている状況」とした例である。ラベル付き音響信号列は、例えば20msec〜100msecの時間幅のフレーム毎に特定要素音モデルのラベルが付与された信号列である。
図10の例では、最初のフレームfが人の足音、2番目のフレームfが包丁で食材を切る音、3番目のフレームfが人の足音など、人が料理する場面での特定要素音モデルのラベルが付与されている。ヒストグラムフレームは、そのフレームをP個まとめたものであり、P個は例えば100個〜1000個とする。最初のフレームfからfフレームまでが1番目のヒストグラムフレームHである。2番目のヒストグラムフレームHはフレームfからfP+1フレームから成る。ラベル付き音響信号列のフレーム長をMとした場合、M−P+1個のヒストグラムフレームが作成される。
要素音ヒストグラム化部40は、ヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。図11に、要素音ヒストグラムを例示する。横軸は特定要素音モデルのラベル、縦軸は例えば、1個のヒストグラムフレーム内で各特定要素音が何回現れたかの回数や、各フレーム内における各特定要素音の尤度の、ヒストグラムフレーム内での特定要素音毎の総和等である。
特定状況モデル化部50は、要素音ヒストグラム化部40が出力する要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて特定の場に対応する特定状況モデルを生成する(ステップS50)。モデル化手法とは、例えばGMM(Gaussian Mixture Model)を用いた場合、生成した特徴量を、EM(Expectation Maximization)アルゴリズムなどを用いて例えば式(1)に示すような混合正規分布(Mixture of Gaussian)を用いて当てはめた確率モデルp(x)にモデル化することである。
ここで、xは特徴量(ベクトル)、kは正規分布の混合数、πは混合係数、Nは正規分布の確率密度関数、μは分布の平均、Σは分布の分散である。なお、特徴量のモデル化には、過去に観測された信号成分に依存して次の時刻の成分が選択されるという条件を用いて確率分布に計算した特徴量を当てはめるHMM(Hidden Markov Model)や、特徴量に対して各クラスタ間のマージンを最大化して分離境界を決定することによりモデル化を行うSVM(Support Vector Machine)等を用いることができる。GMM,HMM,SVMは周知である(例えば参考文献:奥村学、高村大也、「言語処理のための機械学習入門」コロナ社)。
例えばGMMを用いて特定状況モデルを生成した場合、要素音ヒストグラム化部40で作成されたM−P+1個のヒストグラムフレームのそれぞれは、N個の特定要素音モデルのラベルを有する。 特定状況モデルはそのまま出力しても良いし、特定状況モデルデータベース60に保存するようにしてもよい。
この前提において、特定状況モデル化部50は、料理をしている等の特定の状況を表す、一つまたは複数の長時間音響信号から得られた複数のヒストグラムフレームから平均と分散を求める。この際、R種類の特定状況モデルを計算するとすれば、それぞれR個の平均と分散を計算し、その値が各々特定状況モデルとなる。
以上説明したように、この発明の特定状況モデルデータベース作成装置100によれば、ある特定の場における複数の要素音を含む音響信号列から、特定要素音の識別を行い、その識別結果をヒストグラム化した分布から、その場を特定する特定状況モデルを生成する。この特定状況モデルは、従来技術の1個の断片的な特徴量と異なり、複数の特定要素音から求められるので、複数の異なる音によって初めて特徴付けられる場(例えば料理中の場)の状況を推定するモデルとして有効なものとなる。
[第六実施形態]
図12に、第六実施形態の特定状況モデルデータベース作成装置200の機能ブロック図の例を示す。その動作フローの例を図13に示す。特定状況モデルデータベース作成装置200は、上記した特定状況モデルデータベース作成装置100に対して、入力される音響信号列が特定の場を表す音響信号でなくても良い点、つまり不特定の場で録音した音響信号で良い点と、要素音ヒストグラム化部40で作成した要素音ヒストグラムをその分布の形状で分類する分布クラスタリング処理部210と、その出力から状況分類モデルを生成する状況分類モデル化部220と、を備える点で異なる。特定状況モデルデータベース作成装置200も、特定状況モデルデータベース作成装置100と同様に、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
特定状況モデルデータベース作成装置200は、音響特徴量計算装置1と、特定要素音モデルデータベース20と、要素音モデル比較部30と、要素音ヒストグラム化部40と、分布クラスタリング処理部210と、状況分類モデル化部220と、を備える。音響特徴量計算装置1と特定要素音モデルデータベース20と要素音モデル比較部30と要素音ヒストグラム化部40は、参照符号から明らかなように特定状況モデルデータベース作成装置100と同じものである。
分布クラスタリング処理部210は、要素音ヒストグラム化部40が作成した複数の要素音ヒストグラムを入力として、それぞれの要素音ヒストグラムを、その分布の形状で分類する(ステップS210)。つまり、M−P+1個のヒストグラムを、その分布の形状が似ているもの同士で分類してB個のヒストグラムのまとまりを作成する。B個は、予め設定した「分類したい要素音の数」である。分布の形状で分類する手法には、上記した特定状況モデルを生成するのと同じ手法を用いることができる。GMMやSVM等の分類手法を用いることで、M−P+1個のヒストグラムをB個のヒストグラムのまとまり(組)に分類する。この分布の形状が似ているヒストグラムのまとまりのそれぞれは、ある特定の場に対応したものとなる。 状況分類モデル化部220は、ヒストグラムのまとまりであるB個の組に対してGMMやHMM、SVM等のモデル化手法を用いてB種類の状況分類モデルを生成する(ステップS220)。状況分類モデルの生成方法は、上記した特定状況モデルを生成する方法と同じである。
[第七実施形態]
第七実施形態として、特定状況モデルデータベース作成装置100と200を構成する特定要素音モデルデータベース20を作成する特定要素音モデルデータベース作成装置300について説明する。
図14に、特定要素音モデルデータベース作成装置300の機能ブロック図を示す。特定要素音モデルデータベース作成装置300は、音響特徴量計算装置1と、特定要素音モデル化部320と、を具備する。
音響特徴量計算装置1は、特定音の音響信号列を入力として当該音響信号列を短時間フレームに分割してフレーム毎に特徴量を抽出する。例えば、特定音の足音の音響信号が複数ある場合は、その全ての音響信号の特徴量(ベクトル)が計算される。足音の音響信号がn個あり、それぞれの音響信号がm個の短時間に分割可能であれば、n×m個の特徴量(ベクトル)が計算される。
特定要素音モデル化部320は、n×m個の特徴量(ベクトル)に対してモデル化手法を用いて1つの特定要素音モデルを生成する。モデル化手法は、上記した特定状況モデル化部50で特定状況モデルを生成した手法と同じものを用いる。生成した特定要素音モデルは、特定要素音モデルデータベース20に記憶される。特定要素音モデルデータベース20は、上記したように特定状況モデルデータベース作成装置100を構成する。特定要素音モデルデータベース作成装置300の他の実施形態を次に説明する。
[第八実施形態]
図15に、第八実施形態である特定要素音モデルデータベース作成装置400の機能ブロック図を示す。特定要素音モデルデータベース作成装置400は、特定要素音モデルデータベース作成装置300に対して、特徴量クラスタリング部410と要素音分類モデル化部420を備える点と、入力される音響信号列に複数の要素音を含む点で異なる。
音響特徴量計算装置1は、複数の要素音を含む音響信号列を入力とする点のみが異なるだけで、他は特定要素音モデルデータベース作成装置300のそれと同じである。特徴量クラスタリング部410は、音響特徴量計算装置1が出力する特徴量を分類して特徴量の組を作成する。特徴量の分類手法にはGMMやSVM等の手法を用い、音響信号列をC個のまとまり(組)に分類する。C個は、予め設定した「分類したい特徴量の数」である。
要素音分類モデル化部420は、特徴量クラスタリング部410が出力するC個の特徴量の組を入力として、当該組に対してモデル化手法を用いて要素音分類モデルを生成する。モデル化手法は、上記した特定状況モデル化部50で要素音ヒストグラムから特定状況モデルを生成した手法と同じものを用いる。
特定要素音モデルデータベース作成装置400は、複数の要素音を含む音響信号列を、その特徴量で分類し、その分類したまとまり(組)から要素音分類モデルを生成する。
[第九実施形態]
図16に、第九実施形態の状況推定装置500の機能ブロック図を示す。その動作フローを図17に示す。状況推定装置500は、上記した特定要素音モデルデータベース作成装置300で生成された特定要素音モデルを記憶した特定要素音モデルデータベース20と、上記した特定状況モデルデータベース作成装置100,200で生成された特定状況モデルと状況分類モデルを記憶した特定状況モデルデータベース60と、を用いて音響信号列が表す状況を推定するものである。状況推定装置500は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
状況推定装置500は、音響特徴量計算装置1と、特定要素音モデルデータベース20と、要素音モデル比較部30と、要素音ヒストグラム化部40と、状況判定モデル比較部510と、特定状況モデルデータベース60と、を具備する。音響特徴量計算装置1は、入力される音響信号列を短時間フレームに分割し、当該フレーム毎に特徴量を抽出する(ステップS10)。要素音モデル比較部30は、音響特徴量計算装置1が出力する特徴量と、特定要素音モデルデータベース20に記憶された特定要素音モデルまたは要素音分類モデルとを比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定してフレーム毎の音響信号列に要素音ラベルを付与する(ステップS30)。要素音ヒストグラム化部40は、要素音モデル比較部30から出力された特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する(ステップS40)。ここまでの動作は、上記した特定状況モデルデータベース作成装置100又は200と同じである。
状況判定モデル比較部510は、要素音ヒストグラムと、特定状況モデルデータベース60に記憶された特定状況モデルまたは状況分類モデルを比較し、最も近いものを当該特定状況モデルが表す状況と推定してその推定結果を出力する。ここで比較は、複数の特定状況モデルと要素音ヒストグラムのユークリッド距離やコサイン距離などを用いて行う。
場の状況の推定は、例えば、距離が最も近いモデルをその場の状況と推定する。予め定めた閾値よりも距離が近い場合には、距離が最も近いモデルをその場の状況と推定し、閾値よりも距離が近いモデルがない場合は「その他の状況」と推定すること等が考えられる。
以上説明した状況推定装置500によれば、複数の異なる音によって初めて特徴付けられる場の状況の推定を、音響信号を用いて行うことを可能にする。また、要素音の判定モデルの生成にクラスタリング処理を導入することにより、特定音、特定状況のラベル付けが行われた音響信号を事前に用意することなく、場の状況推定を可能にする。
状況推定装置500を構成する特定要素音モデルデータベース20を作成する特定要素音モデルデータベース作成装置300は、ある特定音の音響信号の特徴量(ベクトル)に対して、モデル化手法を用いて特定要素音モデルを生成するものである。以降では、その技術思想を通信の場面に適用した場合のいくつかの装置について説明する。まず、遠隔地にいる通信相手が通信可能な状況なのかを知る目的で使用する発呼推薦モデルを生成する発呼推薦モデル生成装置600について説明する。
[第十実施形態]
第十実施形態の発呼推薦モデル生成装置600は、通信システムの中で用いられ、通話が良く発生する場合の音響信号のモデル化と、通話があまり発生しない場合の音響信号のモデル化を行うものである。図18に、発呼推薦モデル生成装置600の機能ブロック図と、その発呼推薦モデル生成装置600を一方の通信端末に接続した通信システム2000の機能ブロック図を示す。
通信システム2000は、電話回線網若しくはインターネット等のネットワーク2020と、そのネットワーク2020を挟んで一方と他方に配置される通信端末2010と2030とで構成される。通信端末2010を例えば受話側、通信端末2030を例えば送話側とする。そして、通信端末2010には、発呼推薦モデル生成装置600が接続されている。通信端末2010は、音響・映像信号提示部2011と音響・映像信号取得部2012を有する。通信端末2030側の音響・映像信号提示部と取得部の表記は省略している。
発呼推薦モデル生成装置600は、音響特徴量計算装置1と、通話履歴抽出部602と、発呼推薦モデル生成部603と、発呼推薦モデル保存部604と、を具備する。音響特徴量計算装置1は、一方の通信端末2010の音響・映像信号取得部2012から取得した音響信号列を短時間のフレームに分割し当該フレーム毎に特徴量を抽出する。抽出した特徴量は発呼推薦モデル生成部603に出力される。
通話履歴抽出部602は、通信端末2010からの通話履歴を随時受け取り新たな発呼/着呼が有ったことを示す発着呼信号を発呼推薦モデル生成部603に伝達すると共に通話履歴テーブルを作成する。図19に、通話履歴テーブルの例を示す。通話履歴テーブルは、例えば、発信/着信時刻、通話終了時刻、通話時間、発呼/着呼、相手番号、履歴アドレス、の項目で構成される。図19中の履歴アドレス0002の通話終了時刻のnullは、「他方の通信端末2030からの着呼が有ったが一方の通話者が受話器をオフフックしなかった呼」であることを示す。また、履歴アドレス0004のnullは、「一方の通信端末2010から発呼したが他方の通話者がオフフックしなかった呼」であることを示している。
発呼推薦モデル生成部603は、通話履歴抽出分602が出力する発着呼信号に応答して、当該発着呼信号の直前の音響信号の特徴量の特徴量分類を識別する。その識別は、例えば、ユークリッド距離やコサイン距離などを用いてその距離の大きさの範囲で行われる。そして、発呼推薦モデル生成部603は、発呼履歴モデルテーブルを作成する。表1に発呼履歴モデルテーブルの例を示す。
図19に示した履歴アドレス0003と0005が例えば特徴量分類aに、履歴アドレス0001と0006が特徴量分類dに分類されている。
発呼推薦モデル生成部603は、発着呼信号の直前の音響信号の特徴量を分類した後、その履歴アドレスに対応する通話履歴テーブルから、特徴量分類に対する度合い付けを行う。度合い付けは、通話が良く発生する場合には通話の発生し易さの度合いの値が大きくなり、通話があまり発生しない場合には通話の発生し易さの度合いの値が小さくなるように行う。例えば次のような度合い付けを行う。
発呼が行われた時刻における発呼を行った側は、通話が良く発生する場合とみなし、通話の発生し易さの度合いTに1を加算する。着呼があったのにオフフックしない場合は、通話があまり発生しない場合とみなし、通話の発生し易さの度合いTから1を減算する。また、通話が発生した場合に、その通話時間に応じてTに0.0〜2.0の値を加算する。また、通話が発生した場合でも、その通話時間が所定の時間(例えば60秒)以内の場合は、通話があまり発生しない場合とみなしてTから0.5を減算する。このように通話の発生し易さの度合いTの値を調整することで、特徴量分類を、通話が発生し易いものと、通話が発生し難いものとに分けることができる。例えばTの値が10以上であれば通話が良く発生する、また、−10以下であれば通話があまり発生しないと判断することができる。そして、そのようにして分類した特徴量分類と発生度合いTとを対応付けて発呼推薦モデルとする。発呼推薦モデルは発呼推薦モデル保存部604に保存される。つまり、発呼推薦モデルは、特徴量(ベクトル)と発生度合いTとが対応付けられた表である。したがって、発呼推薦モデルを用いて受話側の音響信号の特徴量を評価することで、受話側の通話が発生し易い状況であるか否かを知ることができる。
なお、発呼推薦モデルの生成には、上記したように音響信号のみを用いても良いし、音響・映像信号取得部2012で取得した映像信号を利用しても良い。また、その他のセンサ(図18に破線で示す605)で取得した例えば、照度情報や、温度情報、加速度情報等を用いて発呼推薦モデルを生成するようにしても良い。また、発呼推薦モデルは、通話が良く発生する場合のモデルと、あまり発生しない場合のモデルのどちらか一方のみを生成するようにしても良い。
[第十一実施形態]
図20に、第十一実施形態の発呼推薦モデル生成装置610の機能ブロック図を示す。発呼推薦モデル生成装置610が接続された通話端末2010は、通信システム2000を構成する。発呼推薦モデル生成装置610は、例えば、足音、ガラスの割れる音、等の特定要素音と特徴量とを事前に対応付けたモデルを用意しておき、上記した発呼推薦モデル生成装置600の音響特徴量計算装置1で抽出した特徴量から特定要素音を特定し、特定要素音を用いて発呼推薦モデルを生成するものである。
発呼推薦モデル生成装置610は、発呼推薦モデル生成装置600に対して特定要素音モデルデータベース611と要素音特定部612とを更に備える点で異なる。特定要素音モデルデータベース611には、音響特徴量計算装置1で得られる特徴量(ベクトル)とその特徴量が表す要素音(例えば、足音、ガラスが割れる音、音声等)が対応付けられた要素音特定モデルが保存されている。特定要素音モデルデータベース611の作成方法は、第八実施形態と同じである。
要素音特定部612は、音響特徴量計算装置1で抽出した特徴量を入力として、特定要素音モデルデータベース611に保存されている各々の特定要素音モデルとそれぞれ比較して、距離(ユークリッド距離やコサイン距離など)が最も近いものをそのフレームの要素音と特定し、その特定結果を発呼推薦モデル生成部603に出力する。
発呼推薦モデル生成部603は、発着呼信号の直前の要素音で履歴アドレスを分類し、履歴アドレスに対応する通話履歴テーブルから、要素音に対する度合い付けを行う。要素音に対する度合い付けは上記した方法と同じである。
発呼推薦モデル生成部603は、要素音特定部612が出力する特定結果と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。特定結果の要素音と発生度合いTとが対応付けられた発呼推薦モデルは、発呼推薦モデル保存部613に保存される。モデル化は上記したのと同一の手法で行われる。
発呼推薦モデル生成装置610によれば、個々の特定結果の要素音と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。表2にその例を示す。
表2は、例えば受話側で人の声がしている時は通話が発生し易く、ドアの開閉音が発生した時は通話が発生し難いことを示している。
[第十二実施形態]
図21に、第十二実施形態の発呼推薦モデル生成装置620の機能ブロック図を示す。発呼推薦モデル生成装置620は、一定時間の特徴量をクラスタリングし、クラスタ毎に生成されたモデルから、音響特徴量計算装置1で抽出した特徴量が属するクラスを判定し、判定した要素音のクラスを用いて発呼推薦モデルを生成するものである。
発呼推薦モデル生成装置620は、発呼推薦モデル生成装置610の特定要素音モデルデータベース611と要素音判定部612に代えて、特定要素音モデルデータベース621と要素音クラスタ判定部622を備える点で異なる。発呼推薦モデル生成装置610では、要素音に対応するモデルを生成するのに、例えば、足音、ガラスの割れる音などの音に対応する特徴量を事前に用意する必要があった。しかし、発生し得る全ての要素音にそれぞれ対応する特徴量を事前に用意することは困難である。
そこで、発呼推薦モデル生成装置620は、要素音と特徴量の対応付けを事前に用意することなくモデル生成を行うようにしたものである。特定要素音モデルデータベース621には、音響特徴量計算装置1で得られるであろう一定時間の特徴量(ベクトル)をGMMやHMMやSVM等の手法を用いて分類して作成された要素音分類モデルが保存されている。特定要素音モデルデータベース621の作成方法は、第八実施形態と同じである。
要素音クラスタ判定部622は、音響特徴量計算装置1から取得した特徴量(ベクトル)を、特定要素音モデルデータベース621に保存されている要素音分類モデルと比較し、特徴量が属する分類クラスを判定し、分類結果を発呼推薦モデル生成部624に出力する。
発呼推薦モデル生成部624は、要素音クラスタ判定部622が出力する分類クラスと通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同一の手法で行われる。
発呼推薦モデル生成装置620によれば、要素音の分類クラスと発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。
[第十三実施形態]
発呼推薦モデルは、通話の発生度合いTと、他の情報とを対応付けたモデルとすることも可能である。例えば、上記した特徴量そのものに対してではなく、特徴量から推定できる動作/行動情報やその動作/行動情報を分類した動作/行動分類情報と、通話の発生度合いTとを対応付けた発呼推薦モデルとしても良い。
図22に、動作/行動情報と、通話の発生度合いTとを対応付けた発呼推薦モデルを生成する第十三実施形態の発呼推薦モデル生成装置630の機能ブロック図を示す。発呼推薦モデル生成装置630は、上記した発呼推薦モデル生成装置610の構成に、動作/行動特定モデル保存部631と動作/行動特定部632を追加したものである。
発呼推薦モデル生成装置630は、要素音特定部612で特定された要素音、足音、ガラスが割れる音、等の要素音と要素音を生じる動作や行動とを対応付けたモデルを用意しておくことで、要素音を生じる動作や行動を特定し、特定した動作や行動を用いて発呼推薦モデルを生成する。
動作/行動特定モデル保存部631には、要素音特定部612が出力する特定結果と、動作/行動(例えば、料理をしている、読書している、睡眠中等)が対応付けられた動作/行動特定モデルが保存されている。動作/行動特定モデル保存部631の作成方法は、第五実施形態の特定状況モデルデータベースの作成方法と同様である。動作/行動特定モデルは、例えば、20msec〜100msecの時間幅のフレームごとの要素音特定部612の出力を入力とし、そのフレームをP個まとめたヒストグラムフレームごとに、特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成し、そのヒストグラムの形状をモデル化手法を用いてモデル化したものである。
動作/行動特定部632は、要素音特定部612が出力する特定結果をヒストグラム化し、動作/行動特定モデル保存部631に保存されている動作/行動特定モデルと比較し、最も類似する動作/行動分類モデルを特定することで動作/行動を特定し、動作/行動情報を発呼推薦モデル生成部603に出力する。
発呼推薦モデル生成部634は、動作/行動特定部632が出力する動作/行動情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われ、発呼推薦モデル保存部633に保存される。
発呼推薦モデル生成装置630によれば、動作/行動情報と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。動作/行動情報とは、例えば、「料理をしている」、「読書をしている」、等の情報であり、それぞれに発生度合いTの値が対応付けられた発呼推薦モデルとなる。
また、上記した発呼推薦モデル生成装置620の構成に、更に動作/行動特定モデル保存部631と動作/行動特定部632とを追加した構成の発呼推薦モデル生成装置640の機能構成例も考えられる。図23に、発呼推薦モデル生成装置640の機能ブロック図を示す。
発呼推薦モデル生成装置640は、要素音クラスタ判定部622で特定された要素音のクラスと要素音を生じる動作や行動とを対応付けたモデルを用意しておくことで、要素音を生じる動作や行動を特定し、特定した動作や行動を用いて発呼推薦モデルを生成するものである。
発呼推薦モデル生成部634は、動作/行動特定部632が出力する動作/行動情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われる。発呼推薦モデル生成装置640でも、動作/行動情報と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。
[第十四実施形態]
図24に、上記した発呼推薦モデル生成装置610の構成に更に動作/行動分類モデル保存部651と動作/行動クラスタ判定部652を追加した第十四実施形態の発呼推薦モデル生成装置650の機能ブロック図を示す。
発呼推薦モデル生成装置650は、要素音特定部612が特定した要素音が表す動作や行動のクラスを判定し、判定した動作や行動のクラスを用いて発呼推薦モデルを生成するものである。
動作/行動分類モデル保存部651には、要素音特定部612から取得した複数フレームにわたる要素音の特定結果から、ヒストグラム化処理により生成された要素音ヒストグラムと、動作/行動(例えば、料理をしている、読書している、睡眠中等)が対応付けられた動作/行動特定モデルが保存されている。動作/行動特定モデル保存部651の作成方法は、第六実施形態の特定状況モデルデータベースの作成方法と同様である。例えば20msec〜100msecの時間幅のフレームごとの要素音特定部612の出力を入力とし、そのフレームをP個まとめたヒストグラムフレームごとに、特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する。そのヒストグラムの形状が似ているもの同士で分類して、B個のヒストグラムのまとまり(組)にし、このB個の組に対してGMMやHMM、SVM等のモデル化手法を用いてB種類の動作/行動特定モデルを生成する。
動作/行動クラスタ判定部652は、要素音特定部612から取得した要素音特定結果から頻度特徴量を計算し、動作/行動分類モデル保存部651に保存されている動作/行動分類モデルと比較し、最も類似する動作/行動分類モデルを、その特定結果が表す動作/行動分類として特定し、動作/行動分類情報を発呼推薦モデル生成部603に出力する。
発呼推薦モデル生成部654は、動作/行動特定部652が出力する動作/行動分類情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。動作/行動分類情報と発生度合いTとが対応付けられた発呼推薦モデルは、発呼推薦モデル保存部653に保存される。
発呼推薦モデル生成装置650によれば、動作/行動分類情報と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。
また、上記した発呼推薦モデル生成装置620の構成に、更に動作/行動分類モデル保存部651と動作/行動クラスタ判定部652を追加した発呼推薦モデル生成装置660の機能構成例も考えられる。図25に、発呼推薦モデル生成装置660の機能ブロック図を示す。
発呼推薦モデル生成装置660は、要素音クラスタ判定部622が判定した要素音のクラスが表す動作や行動のクラスを判定し、判定した動作や行動のクラスを用いて発呼推薦モデルを生成するものである。
発呼推薦モデル生成部654は、動作/行動クラスタ判定部652が出力する動作/行動分類情報と通話履歴テーブルの履歴アドレスとを対応させて、通話が良く発生する場合と通話があまり発生しない場合の発呼推薦モデルを生成する。モデル化は上記したのと同じ手法で行われる。発呼推薦モデル生成装置660でも、動作/行動分類情報と発生度合いTとが対応付けられた発呼推薦モデルを生成することができる。
なお、第十一実施形態から第十四実施形態に記載した発呼推薦モデル生成装置の発呼推薦モデルの生成には、音響信号のみを用いた例を説明したが、音響・映像信号取得部2012で取得した映像信号や、その他のセンサで取得した例えば、照度情報や、温度情報、加速度情報等を用いて発呼推薦モデルを生成するようにしても良いことは、第十実施形態の発呼推薦モデル生成装置600と同じである。また、発呼推薦モデルは、通話が良く発生する場合のモデルと、あまり発生しない場合のモデルのどちらか一方のみを生成するようにしても良いことも同様である。
以上、遠隔地にいる通信相手が通信可能な状況なのかを知る目的で使用する発呼推薦モデルを生成する発呼推薦モデル生成装置について説明した。次に、発呼推薦モデル生成装置600〜660を用いて、遠隔地にいる通信相手が通話可能な状態でないのにも関わらず受話者に発呼してしまう課題を解決する発呼適否通知装置について説明する。
[第十五実施形態]
図26に、第十五実施形態の発呼適否通知装置700を含む通信システム2000の機能ブロック図を示す。通信システム2000の機能構成は上記したものと同じである。発呼適否通知装置700は、受話側の通信端末2010に接続され、発呼推薦モデル生成装置600で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置700は、音響特徴量計算装置1と、発呼推薦モデル保存部604と、発呼推薦状況判定部701と、を具備する。音響特徴量計算装置1と発呼推薦モデル保存部604は、発呼推薦モデル生成装置600と同じものである。
発呼推薦状況判定部701は、音響特徴量計算装置1が出力する音響信号列から抽出した特徴量と、発呼推薦モデル保存部604に保存された特徴量(ベクトル)と発生度合いTとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。発呼の適否は、上記した通話の発生度合いTの値を、ある閾値と比較し、例えばTの値が10以上であれば発呼に適、又、Tの値が−10以下で有れば発呼に不適、と判定する。
発呼適否通知情報は、通話端末2010に入力されネットワーク2020を介して送話側の通話端末2030に送信される。発呼適否通知情報を受信した送話側の通信端末2030は、受話者が通話可能な状況であるかを表示する。その表示はLEDランプ等の点灯や、液晶パネルの表示等の図示していない発呼推薦情報表示手段によって行われる。
なお、設計的事項に関わる発呼適否通知情報の出力間隔は、例えば数秒から数分間隔で行われるものとする。また、発呼適否通知装置700や発呼推薦情報表示手段の機能は、通話端末(2010,2030)と一体に構成するようにしても良い。また、発呼適否通知情報を通知する送話者側の通信端末を特定する方法は、この発明の要部ではないのでその説明は省略するが、事前に複数の送話者の通話端末を登録しておくことで簡単に実現することが可能である。
[第十六実施形態]
図27に、第十六実施形態の発呼適否通知装置710を含む通信システム2000の機能ブロック図を示す。発呼適否通知装置710は、受話側の通信端末2010に接続され、発呼推薦モデル生成装置610で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置710は、音響特徴量計算装置1と、特定要素音モデル保存部611と、要素音特定部612と、発呼推薦モデル保存部613と、発呼推薦状況判定部711と、を具備する。音響特徴量計算装置1と特定要素音モデル保存部611と要素音特定部612と発呼推薦モデル保存部613とは、発呼推薦モデル生成装置610と同じものである。
発呼推薦状況判定部711は、要素音特定部612が出力する要素音と、例えば、足音、ガラスが割れる音等の音声と通話の発生度合いTとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。これ以降の動作は、発呼適否通知装置700と同じである。
[第十七実施形態]
図28に、第十七実施形態の発呼適否通知装置720を含む通信システム2000の機能ブロック図を示す。発呼適否通知装置720は、受話側の通信端末2010に接続され、発呼推薦モデル生成装置620で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置720は、音響特徴量計算装置1と、特定要素音モデルデータベース621と、要素音クラスタ判定部622と、発呼推薦モデル保存部623と、発呼推薦状況判定部721と、を具備する。音響特徴量計算装置1と、特定要素音モデルデータベース621と、要素音クラスタ判定部622と、発呼推薦モデル保存部623とは、発呼推薦モデル生成装置620と同じものである。
発呼推薦状況判定部721は、要素音クラスタ判定部622が出力する分類クラスと、分類クラスと通話の発生度合いTとが対応付けられた発呼推薦モデルとを照合して発呼の適否を送話側に通知する発呼適否通知情報を出力する。これ以降の動作は、発呼適否通知装置700と同じである。
[第十八実施形態]
発呼適否通知装置は、通話の発生度合いTと、他の情報とを対応付けた発呼推薦モデルを用いても構成することが可能である。例えば、上記した特徴量そのものに対してではなく、特徴量から推定できる動作/行動情報やその動作/行動情報を分類した動作/行動分類情報と、通話の発生度合いTとを対応付けた発呼推薦モデルとしても良い。
図29に、その場合の発呼適否通知装置730の機能ブロック図を示す。第十八実施形態の発呼適否通知装置730は、音響特徴量計算装置1と、対応付け部732と、発呼推薦モデル保存部633と、発呼推薦状況判定部731と、を具備する。音響特徴量計算装置1は、複数の要素音を含む受話者側の音響信号列を短時間フレームに分割し、当該フレーム毎に特徴量を抽出する。対応付け部732は、特徴量と、受話者側の動作/行動情報とを対応付けた対応付け情報を出力する。発呼推薦モデル保存部633は、特徴量から特定される動作/行動情報と、通話の発生し易さの度合いとを対応付けた発呼推薦モデルを保存する。発呼推薦状況判定部731は、対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
発呼適否通知装置730は、発呼推薦モデル生成装置630で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置730は、音響特徴量計算装置1と、対応付け部732と、発呼推薦モデル保存部633と、発呼推薦状況判定部731と、を具備する。対応付け部732は、特定要素音モデルデータベース611と要素音特定部612と動作/行動特定モデル保存部631と動作/行動特定部632とで構成される。この構成は、発呼推薦モデル生成装置630と同じである。
発呼推薦状況判定部731は、対応付け部732が出力する特徴量と受話者側の動作/
行動情報とを対応付けた対応付け情報を入力として、動作/行動情報で一致する発呼推薦
モデルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
図30に、発呼適否通知装置740の機能ブロック図を示す。発呼適否通知装置740は、発呼推薦モデル生成装置640で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置740は、音響特徴量計算装置1と、対応付け部742と、発呼推薦モデル保存部633と、発呼推薦状況判定部741と、を具備する。対応付け部742は、特定要素音モデルデータベース621と要素音クラスタ判定部622と動作/行動特定モデル保存部631と動作/行動特定部632とで構成される。この構成は、発呼推薦モデル生成装置630と同じである。
発呼推薦状況判定部741は、対応付け部742が出力する特徴量と動作/行動情報と
を対応付けた対応付け情報を入力として、動作/行動情報で一致する発呼推薦モデルを参
照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
[第十九実施形態]
図31に、第十九実施形態の発呼適否通知装置750の機能ブロック図を示す。発呼適否通知装置750は、発呼推薦モデル生成装置650で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置750は、音響特徴量計算装置1と、対応付け部752と、発呼推薦モデル保存部653と、発呼推薦状況判定部751と、を具備する。対応付け部752は、特定要素音モデルデータベース611と要素音特定部612と動作/行動分類モデル保存部651と動作/行動クラスタ特定部652とで構成される。この構成は、発呼推薦モデル生成装置650と同じである。
発呼推薦状況判定部751は、対応付け部752が出力する特徴量と動作/行動分類情
報を入力として動作/行動分類情報で一致する発呼推薦モデルを参照して受話者側におい
て通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
図32に、発呼適否通知装置760の機能ブロック図を示す。発呼適否通知装置760は、発呼推薦モデル生成装置660で生成した発呼推薦モデルを用いて受話者側が現在通話可能な状況にあるのか否かを通知するものである。
発呼適否通知装置760は、音響特徴量計算装置1と、対応付け部762と、発呼推薦モデル保存部653と、発呼推薦状況判定部761と、を具備する。対応付け部762は、特定要素音モデルデータベース621と要素音クラスタ判定部622と動作/行動分類モデル保存部651と動作/行動クラスタ判定部652とで構成される。この構成は、発呼推薦モデル生成装置660と同じである。
発呼推薦状況判定部761は、対応付け部762が出力する特徴量と動作/行動分類情
報とを対応付けた対応付け情報を入力として動作/行動分類情報で一致する発呼推薦モデ
ルを参照して受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定した通話適否通知情報を、通話者側に送信する。
以上述べたようにこの発明の発呼適否通知装置700〜760によれば、特徴量、要素音、分類クラス、動作/行動情報、動作/行動分類情報の何れかによって受話者側において、受話者が現在通話可能な状況にあるのか否かを判定し、判定結果(発呼適否通知情報)を送話者側に通知することができる。
上記各装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい

Claims (12)

  1. 入力された音響信号を所定の時間長のフレームに分割するフレーム分割部と、
    Mを所定の正の整数とし、ps(n)を各上記フレームの平滑化後のn番目のサンプルの大きさを表す指標とし、ps -を上記各フレームの平滑化後のサンプルの大きさを表す指標の平均値として、次式で定義される値を計算し、その値を上記各フレームの時間周期性とする時間周期性計算部と、

    を含む音響特徴量計算装置。
  2. 請求項1に記載の音響特徴量計算装置において、
    各フレームの音響信号をK個の区間に分割し、p- kを上記各フレームのk番目の区間の音響信号の大きさを表す指標の平均値とし、Δp- kを上記各フレームのk番目の区間におけるp- kの変化率とし、mを2以上の所定の整数として、次式で定義される値を計算し、その値が0以上の場合にはその値を上記各フレームの立ち上がり特定とし、その値が0未満の場合には上記各フレームの立ち上がり特性を0とする立ち上がり特性計算部を備える特徴量抽出部と、

    nを各上記フレーム内のサンプル位置とし、x(n)を上記各フレームのn番目のサンプルの大きさを表す指標とし、δ{x(n)・x(n-1)}をx(n)・x(n-1)が0以下の場合には1としx(n)・x(n-1)が0より大の場合には0とし、pdf(n)をnを変数とする所定の確率分布とし、f(n)を

    又は、

    とし、Rff(τ)をラグをτとしたときのf(n)の自己相関係数として、次式で定義される値を計算し、その値を上記各フレームの調波性とする調波性計算部と、

    の少なくとも一方を更に含む、
    音響特徴量計算装置。
  3. 請求項1に記載の音響特徴量計算装置において、
    突発性計算部は、上記各フレームの音響信号の時間領域での集中の度合いを示す突発性を計算するとし、
    時間拡散性計算部は、上記各フレームの音響信号の時間領域での拡散の度合いを示す時間拡散性を計算するとし、
    狭帯域性計算部は、上記各フレームの音響信号の周波数領域での集中の度合いを示す狭帯域性を計算するとし、
    帯域拡散性計算部は、上記各フレームの音響信号の周波数領域での拡散の度合いを示す帯域拡散性を計算するとし、
    音高特性計算部は、上記各フレームの音響信号の周波数領域でのエネルギーの偏在の度合いを示す音高特性を計算するとし、
    振幅偏在性計算部は、上記各フレームの音響信号の振幅値の分布の偏在の度合いを示す振幅偏在性を計算するとし、
    上記特徴量抽出部は、上記突発性計算部と、上記時間拡散性計算部と、上記狭帯域性計算部と、上記帯域拡散性計算部と、上記音高特性計算部と、上記振幅偏在性計算部との少なくとも1つを更に備える、
    音響特徴量計算装置。
  4. 請求項1から3の何れかに記載の音響特徴量計算装置において、
    上記時間周期性、上記立ち上がり特性、上記調波性、上記突発性、上記時間拡散性、上記帯域性計算、上記帯域拡散性、上記音高特性及び上記振幅偏在性以外の上記各フレームの音響信号の音響特徴量を計算する音響特徴量計算部を上記特徴量抽出部は更に備える、
    音響特徴量計算装置。
  5. 請求項1から4の何れかに記載の音響特徴量計算装置と、
    複数の特定要素音の特定要素音モデルを記憶する特定要素音モデルデータベースと、
    上記音響特徴量計算装置が計算した特徴量と、上記特定要素音モデルデータベースに記憶された特定要素音モデルとを比較して最も類似するモデルの上記特定要素音モデルのラベル、または上記特定要素音モデルのラベルを上記音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較部と、
    上記要素音モデル比較部の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の上記特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化部と、
    上記要素音ヒストグラムを入力として、当該要素音ヒストグラムに対してモデル化手法を用いて上記特定の場に対応する特定状況モデルを生成する特定状況モデル化部と、
    を具備する特定状況モデルデータベース作成装置。
  6. 請求項1から4の何れかに記載の音響特徴量計算装置と、
    複数の特定要素音の特定要素音モデルを記憶する特定要素音モデルデータベースと、
    上記音響特徴量計算装置が計算した特徴量と、上記特定要素音モデルデータベースに記憶された特定要素音モデルとを比較して最も類似するモデルの上記特定要素音モデルのラベル、または上記特定要素音モデルのラベルを上記音響信号列に付与したラベル付き音響信号列を出力する要素音モデル比較部と、
    上記要素音モデル比較部の出力する特定要素音モデルのラベルまたはラベル付き音響信号列を入力として、上記フレームを所定数まとめたヒストグラムフレーム内の上記特定要素音モデルのラベルごとにその出現頻度である要素音ヒストグラムを作成する要素音ヒストグラム化部と、
    複数の上記要素音ヒストグラムをその分布の形状で分類した要素音分類を作成する分布クラスタリング処理部と、
    上記要素音分類を入力として、当該要素音分類に対してモデル化手法を用いて状況分類モデルを生成する状況分類モデル化部と、
    を具備する特定状況モデルデータベース作成装置。
  7. 請求項5又は6に記載した特定状況モデルデータベース作成装置の上記特定要素音モデルデータベースを作成する特定要素音モデルデータベース作成装置であって、
    請求項1から4の何れかに記載の音響特徴量計算装置と、
    上記音響特徴量計算装置が計算した特徴量を入力として、当該特徴量に対してモデル化手法を用いて特定要素音モデルを生成する特定要素音モデル化部と、
    を具備する特定要素音モデルデータベース作成装置。
  8. 請求項5又は6に記載した特定状況モデルデータベース作成装置の上記特定要素音モデルデータベースを作成する特定要素音モデルデータベース作成装置であって、
    請求項1から4の何れかに記載の音響特徴量計算装置と、
    上記音響特徴量計算装置が計算した特徴量を分類して特徴量分類を作成する特徴量クラスタリング部と、
    上記特徴量分類を入力として、当該特徴量分類に対してモデル化手法を用いて要素音分類モデルを生成する要素音分類モデル化部と、
    を具備する特定要素音モデルデータベース作成装置。
  9. 請求項1から4の何れかに記載の音響特徴量計算装置と、
    請求項7又は8に記載した特定要素音モデルデータベース作成装置で生成された特定要素音モデルを記憶した特定要素音モデルデータベースと、
    上記特定要素音モデルと上記音響特徴量計算装置が計算した特徴量をそれぞれ比較し、最も近いものをそれぞれの短時間音響信号の要素音と判定して上記フレーム毎に要素音ラベルを付与する要素音モデル比較部と、
    上記ラベル付き音響信号列を入力として、上記特定要素音モデルのラベルとその頻度の要素音ヒストグラムを作成する要素音ヒストグラム化部と、
    請求項5又は6に記載した特定状況モデルデータベース作成装置で生成された複数の特定状況モデルと状況分類モデルとを、記憶した特定状況モデルデータベースと、
    上記要素音ヒストグラムと、上記特定状況モデルまたは上記状況分類モデルとを比較し、最も類似するものを当該特定状況モデル又は状況分類モデルが表す状況と推定して状況推定結果を出力する状況判定モデル比較部と、
    を具備する状況推定装置。
  10. 請求項1から4の何れかに記載の音響特徴量計算装置と、
    通話の発生し易さの度合いとを対応付けた発呼推薦モデルを保存した発呼推薦モデル保存部と、
    上記音響特徴量計算装置が計算した特徴量を入力とし、当該特徴量が一致する上記発呼推薦モデルを参照して上記受話者側において通話が良く発生する状況か若しくは通話があまり発生しない状況かを判定し通話適否通知情報を、通話者側に送信する発呼推薦状況判定部と、
    を具備する発呼適否通知装置。
  11. フレーム分割部が、入力された音響信号を所定の時間長のフレームに分割するフレーム分割ステップと、
    時間周期性計算部が、Mを所定の正の整数とし、ps(n)を各上記フレームの平滑化後のn番目のサンプルの大きさを表す指標とし、ps -を上記各フレームの平滑化後のサンプルの大きさを表す指標の平均値として、次式で定義される値を計算し、その値を上記各フレームの時間周期性とする時間周期性計算ステップと、

    を含む音響特徴量計算方法。
  12. 請求項1から10の何れかに記載した装置としてコンピュータを機能させるためのプログラム。
JP2012116377A 2012-05-22 2012-05-22 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム Expired - Fee Related JP5777569B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012116377A JP5777569B2 (ja) 2012-05-22 2012-05-22 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012116377A JP5777569B2 (ja) 2012-05-22 2012-05-22 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム

Publications (2)

Publication Number Publication Date
JP2013242465A true JP2013242465A (ja) 2013-12-05
JP5777569B2 JP5777569B2 (ja) 2015-09-09

Family

ID=49843408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012116377A Expired - Fee Related JP5777569B2 (ja) 2012-05-22 2012-05-22 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム

Country Status (1)

Country Link
JP (1) JP5777569B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0689095A (ja) * 1992-09-08 1994-03-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号選択装置
JPH113091A (ja) * 1997-06-13 1999-01-06 Matsushita Electric Ind Co Ltd 音声信号の立ち上がり検出装置
JP2004240214A (ja) * 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
JP2006157672A (ja) * 2004-11-30 2006-06-15 Ntt Docomo Inc 移動機、サーバ装置、及び、発信制御方法
JP2006345269A (ja) * 2005-06-09 2006-12-21 Sony Corp 情報処理装置および方法、並びにプログラム
JP4911034B2 (ja) * 2005-10-20 2012-04-04 日本電気株式会社 音声判別システム、音声判別方法及び音声判別用プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0689095A (ja) * 1992-09-08 1994-03-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号選択装置
JPH113091A (ja) * 1997-06-13 1999-01-06 Matsushita Electric Ind Co Ltd 音声信号の立ち上がり検出装置
JP2004240214A (ja) * 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
JP2006157672A (ja) * 2004-11-30 2006-06-15 Ntt Docomo Inc 移動機、サーバ装置、及び、発信制御方法
JP2006345269A (ja) * 2005-06-09 2006-12-21 Sony Corp 情報処理装置および方法、並びにプログラム
JP4911034B2 (ja) * 2005-10-20 2012-04-04 日本電気株式会社 音声判別システム、音声判別方法及び音声判別用プログラム

Also Published As

Publication number Publication date
JP5777569B2 (ja) 2015-09-09

Similar Documents

Publication Publication Date Title
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
US11670325B2 (en) Voice activity detection using a soft decision mechanism
CN107767869B (zh) 用于提供语音服务的方法和装置
US9875739B2 (en) Speaker separation in diarization
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
US9685173B2 (en) Method for non-intrusive acoustic parameter estimation
US9870784B2 (en) Method for voicemail quality detection
JP4728868B2 (ja) 応対評価装置、その方法、プログラムおよびその記録媒体
US10559323B2 (en) Audio and video synchronizing perceptual model
CN109801646B (zh) 一种基于融合特征的语音端点检测方法和装置
JP5800718B2 (ja) 特定状況モデルデータベース作成装置とその方法と状況推定装置とプログラム
CN107680584B (zh) 用于切分音频的方法和装置
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
KR102171658B1 (ko) 크라우드전사장치 및 그 동작 방법
JP5777568B2 (ja) 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム
KR20180024256A (ko) 화자 분류 장치 및 화자 식별 장치
JP5777569B2 (ja) 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム
JP5777567B2 (ja) 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム
CN114155845A (zh) 服务确定方法、装置、电子设备及存储介质
JP5968414B2 (ja) 発呼適否通知装置とその方法と、プログラム
CN114065742B (zh) 一种文本检测方法和装置
JP2014002336A (ja) コンテンツ処理装置、コンテンツ処理方法、およびコンピュータプログラム
JP7176325B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
CN117558279A (zh) 说话人分割模型的训练方法、说话人分割方法及相关设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150707

R150 Certificate of patent or registration of utility model

Ref document number: 5777569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees