JP2005345496A

JP2005345496A - 音声処理装置、音声処理方法およびそのプログラム

Info

Publication number: JP2005345496A
Application number: JP2004161471A
Authority: JP
Inventors: Kota Hidaka; 浩太日高
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-05-31
Filing date: 2004-05-31
Publication date: 2005-12-15
Anticipated expiration: 2024-05-31
Also published as: JP4580190B2

Abstract

【課題】音声データに基づき、この音声データを含むコンテンツ中のを感情表出区間を検出することができる音声処理装置および音声処理方法を提供すること。
【解決手段】学習音声に含まれる音声特徴量、話者の感情、感情表出確率、および、平静状態確率を対応付けた符号帳１１０ＣＢを記憶する記憶手段１１０と、入力音声に含まれる音声特徴量を抽出する音声特徴量抽出手段１２０と、抽出した音声特徴量に基づいて符号帳から抽出した感情表出確率を用いて感情表出状態尤度を算出する感情表出状態尤度算出手段１３０と、感情表出状態尤度に基づいて入力音声の各音声部分に、感情表出があったか否かを判定する感情表出判定手段１５０により構成する。
【選択図】図１

Description

本発明は、人間が発声した音声を分析して人の感情の表出を検出する音声処理装置、音声処理方法及びそのプログラムに関する。

マルチメディアコンテンツの増加に伴い、短時間にコンテンツの要約を作成する技術が求められている。このコンテンツに含まれる音声データに基づいて要約する技術が例えば、特許文献１、特許文献２に示されている。特許文献１または特許文献２には、音声に加えて映像を含む場合について開示されている。
特許文献１に開示する技術は、音声データを解析して、音声のスペクトル幅、ピーク周波数、信号レベル等の音声特徴量を生成し、生成した音声特徴量が予め決められている条件を満たすか否かで重要部分を判定し、抽出するものである。例えば、観客の歓声があがったときの音声データの音声特徴量を予め取得しておき、この音声特徴量と比較し、音声特徴量が類似または近似する部分を重要部分として抽出し、抽出した重要部分をつなぎ合わせて要約を生成するものである。

特許文献２には、予め学習音声中の強調音声区間と平静音声区間からそれぞれ複数の音声特徴量の組を音声特徴量ベクトルとして抽出し、各量子化ベクトル符号に対応してその符号の強調状態での出現確率と平静状態での出現確率を格納した符号帳を作成しておき、入力音声からフレームごとに抽出した音声特徴量と対応する強調状態及び平静状態の各出現確率を符号帳から求め、それらから入力音声が強調状態か平静状態かを判定することが示されている。
特開平３−８０７８２号公報特開２００２−２３０５９８号公報特開平５−２８９６９１号公報「音響・音声工学」、古井貞煕、近代科学社、１９９２「音声符号化」、守谷健弘、電子情報通信学会、１９９８「ディジタル音声処理」、古井貞煕、東海大学出版会、１９８５「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」、嵯峨山茂樹、博士論文、１９９８ Y.Linde, A.Buzo and R.M.Gray, "An algorithm for vector Quantizer design", IEEE Trans. Commun., vol. Com-288, pp.84-95, 1980

しかし、このような従来の音声処理技術では、音声特徴量の類似性等や、コンテンツによって再現される状況（例えば、盛り上がり）等に着目して重要部分を抽出するため、音声コンテンツ中の感情の表出を検出することができないという問題があった。
本発明はこのような問題を解決するためになされたもので、コンテンツに含まれる音声データに基づき、このコンテンツ中の感情表出を検出することができる音声処理装置、音声処理方法およびそのプログラムを提供するものである。

第１の発明による音声処理方法（請求項１）及び装置（請求項１７）は、フレーム毎の音声特徴量の組に基づき音声の感情表出状態を判定する音声処理方法及び装置であり、基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか１つ以上及び／又はこれらのフレーム間差分の少なくともいずれか１つ以上を含む音声特徴量の組から成る音声特徴量ベクトルと感情表出状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳を用い、上記音声特徴量の組を量子化した上記符号帳中の対応する音声特徴量ベクトルの少なくとも１フレーム異常を含む区間の感情表出状態での出現確率を求め、上記音声特徴量ベクトルの感情表出状態での出現確率に基づいて感情表出状態となる尤度を算出し、上記感情表出状態となる尤度に基づいて上記区間が感情表出状態であるか否かを判定することを特徴とする。

この構成により、学習音声から感情表出があった部分の音声特徴量を抽出し、その音声特徴量に基づいて入力音声の感情表出を判定することができる。
第２の発明による音声処理方法（請求項６）及び装置（請求項２１）は、第１の発明において、上記符号帳には音声特徴量ベクトルと対応して平静状態での出現確率が格納されており、各フレームの上記音声特徴量の組を量子化した上記符号帳中の音声特徴量ベクトルに対応する平静状態での出現確率を求め、上記音声特徴量ベクトルの平静状態での出現確率に基づいて平静状態となる尤度を算出し、上記感情表出状態となる尤度と上記平静状態となる尤度を比較して上記区間が感情表出状態であると判定することを特徴とする。
このように平静状態尤度と比較することにより、感情表出の検出精度をより高くすることができる。

第３の発明による音声処理方法（請求項８）は、第２の発明において、前記感情表出状態尤度と前記平静状態尤度との比に基づいて、入力音声から抽出した所定の音声特徴量を含む前記入力音声の各音声部分に前記話者の感情表出があったか否かを判定する。
この構成により、感情表出の検出精度を高めることができる。また、判定の基準を音声データに応じて柔軟に調整することが可能な音声処理装置を実現することができる。

第４の発明は、第１、２又は３の発明において、前記音声特徴量が、基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか１つ以上（請求項３及び１９）あるいはそれらのフレーム間差分の少なくともいずれか１つ以上（請求項４及び１７）を含む。
この構成により、コンテンツに含まれる音声データに基づき、話者依存性の少ない感情表出の判定が可能となる。

第５の発明は、第１、２、３又は４の発明において、上記符号帳には、各コードに対応して上記感情表出状態として笑い表出状態、怒り表出状態、悲しみ表出状態の少なくとも２つの感情表出状態における音声特徴量ベクトルの出現確率が格納されており、上記少なくとも２つの感情表出状態のそれぞれについて上記音声特徴量ベクトルの出現確率に基づいてそれぞれの感情表出尤度を求め、上記少なくとも２つの感情表出状態の上記感情表出尤度に基づいてどの感情表出状態であるかを判定することを特徴とする（請求項１３及び２３）。
この構成により、複数の感情表出のどの感情であるかを検出することができる。

本発明は、学習音声から感情表出があった部分の音声特徴量を抽出し、その音声特徴量に基づいて入力音声の感情表出を判定するため、コンテンツに含まれる音声データに基づき、このコンテンツ中の感情表出区間を検出することができる。

以下、本発明の実施の形態について、図面を用いて説明する。
図１は、本発明の実施の形態に係る音声処理装置の機能構成を示すブロック図である。図１において、音声処理装置１００は、学習音声を用いて生成された符号帳であって、学習音声に含まれる音声特徴量の組から生成されたベクトル量子化された音声特徴量ベクトルとそれに対応する符号、音声を発した話者の感情、話者の感情表出があったときの音声特徴量ベクトルの出現確率である感情表出確率、および、話者の感情表出がなかったときの音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する符号帳１１０ＣＢを予め記憶する記憶手段１１０と、入力音声に含まれる音声特徴量ベクトルを抽出する音声特徴量抽出手段１２０と、音声特徴量抽出手段１２０が抽出した音声特徴量ベクトルに対応する音声特徴量ベクトルを符号帳から検出し、この符号帳から検出された音声特徴量ベクトルに対応する感情表出確率に基づいて、話者の感情表出についての尤度である感情表出状態尤度を算出する感情表出状態尤度算出手段１３０と、音声特徴量抽出手段１２０が抽出した音声特徴量ベクトルに対応する音声特徴量ベクトルを符号帳１１０ＣＢから検出し、この符号帳１１０ＣＢから検出された音声特徴量ベクトルに対応する平静状態確率に基づいて、話者の平静状態についての尤度である平静状態尤度を算出する平静状態尤度算出手段１４０と、感情表出状態尤度算出手段１３０が算出した感情表出状態尤度、および、平静状態尤度算出手段１４０が算出した平静状態尤度に基づいて、音声特徴量抽出手段１２０が入力音声から抽出した所定の音声特徴量を含む入力音声の各音声部分に、話者の感情表出があったか否かを判定する感情表出判定手段１５０とを含むように構成されている。この実施例では更に、感情表出判定手段１５０によって話者の感情表出があったと判定された音声部分に対応するコンテンツ部分を含む要約コンテンツを生成する要約コンテンツ生成手段１６０を設けた場合を示している。

図１には示してないが、音声特徴量抽出手段１２０はバッファメモリ手段を有しており、入力された音声コンテンツを一時的に格納し、そのバッファメモリ手段内の音声データを分析して音声特徴量ベクトルを抽出する。
図２は、音声処理装置１００の具体的構成の一例を示す図である。図２において、入力部２１０に外部からディジタル信号として入力された音声コンテンツは、CPU(Central Processing Unit)２３１の制御によりハードディスク２３５に一時格納される。入力部２１０には、例えば、マウス等のポインティングデバイス２１２とキーボード２１１等が接続されている。なお、音声コンテンツとしては、外部の通信ネットワークから受信されたコンテンツでもよいし、あるいはフレキシブルディスクドライブやCD(Compact Disk)、DVD(Digital Versatile Disk)等のドライブから読み出されたものを入力してもよい。ここではコンテンツは映像コンテンツであってもよく、その場合は、映像コンテンツに含まれている音声信号を入力部２１０に入力する。

表示部２２０は、例えば、液晶画面等のモニタ画面を有し、キーボード２１１あるいはポインティングデバイス２１２の操作に応じてＣＰＵ２３１から出力する情報を表示することができる。表示部２２０のモニタ画面には、入力データ、処理経過、処理結果、その他の情報が表示される。
図１における音声特徴量抽出手段１２０、感情表出状態尤度算出手段１３０、平静状態尤度算出手段１４０、感情表出判定手段１５０、および、要約コンテンツ生成手段１６０の機能は、図２においてそれぞれの処理を記述したプログラムをＣＰＵ２３１により実行することにより実現される。それらのプログラムは例えばハードディスク２３５に格納されており、実行時には必要なプログラムがＲＡＭ(Random Access Memory)２３３に読み込まれ、ＣＰＵ２３１により実行される。ハードディスク２３５にはそのほか、後述する符号帳が格納されており、また、前述の入力音声コンテンツもしくは映像コンテンツが格納される。

ＲＯＭ(Read Only Memory)にはＣＰＵ２３１を立ち上げるためのプログラム、その他のプログラムおよび制御用のパラメータ等を記憶する。ＲＡＭ２３３にはＣＰＵ２３１動作中にＣＰＵ２３１の動作に要するプログラムやデータ等が記憶される。EEPROM(Electrically Erasable Programmable Memory)２３４はプリケーションソフトや所定のデータを不揮発かつ書替可能に記憶する。
出力部２４０は、付加的機能としてＣＰＵ２３１がプログラム実行により入力音声コンテンツ中の感情表出部分を抽出し、生成した要約コンテンツを出力する機能を有し、フレキシブルディスクドライブやＤＶＤ等への記録機能をさらに含んでもよく、通信機能を有し、外部にデータを送信できるようにしてもよい。また、音声コンテンツに対応する区間の映像コンテンツを抽出し、要約コンテンツとして必要に応じて音声とともに出力してもよい。

以下、本発明の実施の形態に係る音声処理装置１００の動作について説明する。図３は、本発明の実施の形態に係る音声処理装置１００の動作を説明するためのフローチャートである。
まず、学習音声を用いて生成された符号帳であって、学習音声に含まれる所定の音声特徴量の組（パラメータの組）である音声特徴量ベクトル、音声を発した話者の感情、話者の感情表出があったとき（以下、感情表出状態という。）の音声特徴量ベクトルの出現確率である感情表出確率、および、話者の感情表出がなかったときの音声特徴量ベクトルの出現確率である平静状態確率を対応付けて保持する符号帳が予め作成され、図１の記憶手段１１０に格納されている（Ｓ３１０）。この処理は、任意の入力音声データについてこの発明に従ってコンテンツの要約を生成する処理を開始する前に行っておく。符号帳作成の詳細とともに後述するが、音声特徴量ベクトルは、特許文献２に開示されているような音声のフレームごとに検出する基本周波数、平均パワー、動的特徴量の時間変化特性の少なくともいずれか１つ以上及び／又はそれらのフレーム間差分の少なくともいずれか１つ以上のパラメータの組を含むベクトルである。

ステップＳ３２０〜Ｓ３４０は感情表出検出処理である。まず、入力音声コンテンツの全体が記憶手段１１０に取り込まれ、その取り込まれた入力音声から予め決めた複数種類の音声特徴量の組（音声特徴量ベクトル）を抽出する（Ｓ３２０）。
Ｓ３２０で入力音声の所定区間（判定区間）から抽出した一連の音声特徴量ベクトルにそれぞれ最も近い音声特徴量ベクトルを符号帳から検出し、この符号帳からその検出された音声特徴量ベクトルの、感情表出状態での出現確率を読み出し、この一連の出現確率に基づいて、話者の感情表出についての尤度である感情表出状態尤度を算出する。この感情表出状態尤度の計算は、入力音声の一連の音声特徴量ベクトルの判定区間ごと（例えば後述の音声小段落ごと、または一定区間長ごと）に行う。

同様に、入力音声から抽出した音声特徴量ベクトルの、平静状態での出現確率を符号帳から読み出し、この確率に基づいて、話者の平静状態についての尤度である平静状態尤度を上記感情表出状態尤度の算出と同じ判定区間ごとに算出する（Ｓ３３０）。
次に、ステップＳ３３０で算出した感情表出状態尤度、および平静状態尤度に基づいて、ステップＳ３２０で入力音声から抽出した所定の音声特徴量の組を含む入力音声の音声部分に、話者の感情表出があったか否かを判定区間ごとに判定する（Ｓ３４０）。
最後に、必要に応じてステップＳ３４０で話者の感情表出があったと判定された区間に対応するコンテンツ部分を全て入力音声コンテンツから抽出し、要約コンテンツとする（Ｓ３５０）。

以下に、上記の各ステップでの処理について詳細に説明する。まず、各ステップでの処理についての詳細な説明に先立ち、上記の音声特徴量の組について説明する。音声特徴量としては、音声スペクトル等の情報に比べて、雑音環境下でも安定して得られ、かつ感情表出状態か否かの判定が話者依存性の低いものを用いる。このような条件を満たす音声特徴量として、本発明の実施の形態では、基本周波数f₀、パワーｐ、動的特徴量d(t)、無声区間T_S等を抽出する。
これらの音声特徴量の抽出法は公知であり、その詳細については、例えば、非特許文献１、非特許文献２、非特許文献３等を参照されたい。

ここで、上記の動的特徴量d(t)は、以下の式(1) によって定義され、その時間変化量は発話速度の尺度となるパラメータである。

ここで、ｔは時刻、C_k(t)は時刻ｔにおけるｋ次のＬＰＣケプストラム係数、±F₀は対象とするフレーム（以下、現フレームという）の前後のフレーム数（必ずしも整数個のフレームでなくとも一定の時間区間でもよい）をいう。なお、動的特徴量d(t)としては、特許文献３に定義されたものを用いるのでもよい。
ＬＰＣケプストラム係数の次数ｋは、１からＫまでの整数のいずれかである。動的特徴量d(t)の単位時間当たりの極大点の数、または、単位時間当たりの変化率は発話速度の尺度となる。

以下では、１フレームの長さ（以下、フレーム長という）を100msとし、このフレームの開始時刻から50msずらして次のフレームを形成するものとする。また、フレーム毎に、平均基本周波数f₀'、平均パワーp'を算出するものとする。平均基本周波数f₀'及び平均パワーp'は、基本周波数f₀が信頼できるフレームについてのみ使用して算出する。例えば、基本周波数f₀の抽出の際の自己相関係数を利用してもよい。さらに、現フレームの基本周波数f₀'と、現フレームからｉフレーム前の基本周波数f₀'および現フレームからｉフレーム後の基本周波数f₀'のそれぞれと差分Δf₀'(-i)、Δf₀'(i)と、をとる。平均パワーp'についても同様に、現フレームの平均パワーp'と、現フレームからｉフレーム前の平均パワーp'および現フレームからｉフレーム後の平均パワーp'のそれぞれと差分Δp'(-i)、Δp'(i)と、をとる。

次に、これらフレーム毎の、基本周波数f₀'、基本周波数の差分Δf₀'(-i)、Δf₀'(i)、平均パワーp'、平均パワーの差分Δp'(-i)、Δp'(i)を規格化する。以下では、基本周波数f₀'、基本周波数の差分Δf₀'(-i)、Δf₀'(i)、平均パワーp'、平均パワーの差分Δp'(-i)、Δp'(i)のそれぞれを、単に、f₀'、Δf₀'(-i)、Δf₀'(i)、p'、Δp'(-i)、Δp'(i)と表し、規格化されたものを、それぞれ、f₀"、Δf₀"(-i)、Δf₀"(i)、p”、Δp"(-i)、Δp"(i)と表す。
この規格化は、例えば、f₀'、Δf₀'(-i)、Δf₀'(i)のそれぞれを、例えば、処理対象の音声データ全体の平均基本周波数で割ることによって行うのでもよいし、標準化して平均０、分散１にしてもよい。また、処理対象の音声データ全体の平均基本周波数の代わりに、後述する音声小段落や音声段落毎の平均基本周波数や、数秒や数分等の時間内での平均基本周波数等を用いるのでもよい。

同様に、p'についても、処理対象の音声データ全体の平均パワーで割り、規格化又は標準化する。また、処理対象の音声データ全体の平均パワーの代わりに、後述する音声小段落や音声段落毎の平均パワーや、数秒や数分等の時間内での平均パワー等を用いるのでもよい。ここで、上記のｉの値を、例えば、４とする。
動的特徴量（ダイナミックメジャー）のピークの本数は、以下のように算出する。まず、現フレームの開始時刻を中心に現フレームより十分長い時間幅（2T₁、ただしT₁は例えばフレーム長の１０倍程度とする）の区間を設ける。次に、この区間内における動的特徴量d(t)の時間変化の極大点を算出し、極大点の個数d_p（以下、単にd_pという）を計数する。

また、ダイナミックメジャーのピーク本数の差分値も、以下に述べるようにして算出しておく。すなわち、現フレームの開始時刻のT₂前の時刻を中心とする幅2T₁内の区間におけるd_pから、現フレームのd_pを差し引いた差成分Δd_p(-T₂)を求める。同様に、現フレームの終了時刻のT₃後の時刻を中心とする幅2T₁内の区間におけるd_pを、現フレームのd_pから差し引いた差成分Δd_p(T₃)を求める。
上記の、T₁、T₂、T₃の値は、それぞれ、フレーム長より十分長いものとし、以下では、T₁＝T₂＝T₃＝450msとする。ただし、これらの値に限られるものではない。また、フレームの前後の無声区間の長さを、それぞれ、t_SR、t_SFとする。ステップＳ３２０では、上記のf₀"、Δf₀"(-i)、Δf₀"(i)、p”、Δp"(-i)、Δp"(i）、d_p、Δd_p(-T₂)、Δd_p(T₃)等（以下、それぞれをパラメータと呼ぶ）の値をフレーム毎に抽出する。

符号帳作成の際は、上記のf₀"、Δf₀"(-i)、Δf₀"(i)、p"、Δp"(-i)、Δp"(i)、d_p、Δd_p(-T₂)、Δd_p(T₃)等のパラメータの中から選択されたパラメータの組、例えば(f₀",p",d_p)（音声特徴量ベクトル）に対応させて、感情表出確率および平静状態確率が算出され、選ばれたパラメータと感情表出確率および平静状態確率とを対応させて符号帳に記録している。符号帳には上記のパラメータの組と同じ組のパラメータが音声特徴量ベクトルとして記録されている。
ステップＳ３２０では、入力音声を対象に、上記の音声特徴量パラメータf₀"、Δf₀"(-i)、Δf₀"(i)、p”、Δp"(-i)、Δp"(i)、d_p、Δd_p(-T₂)、Δd_p(T₃)等のパラメータのうち、符号帳に記録された音声特徴量ベクトルで使用されているパラメータ、例えば前述の(f₀",p",d_p)の値をフレームごとに算出し、全音声コンテンツに渡る一連の音声特徴量ベクトルを得る。これによって、音声コンテンツの各音声特徴量ベクトルに対応する符号帳中の音声特徴量ベクトルを特定でき、感情表出確率および平静状態確率を決定できることになる。

ステップＳ３３０での処理の詳細を、図４を用いて説明する。ステップＳ３３０では、まず、ステップＳ３３１〜Ｓ３３３で、音声小段落および音声段落を抽出する。次に、ステップＳ３３４、Ｓ３３５、Ｓ３３６で、感情表出状態尤度及び平静状態尤度を算出する。この実施例では音声小段落を、感情表出状態か否かを判定する対象の単位とし、音声段落は、例えば、400ms程度またはそれ以上の無声区間ではさまれた、少なくとも１つ以上の音声小段落を含む区間であるものとする。図５に音声小段落と音声段落の関係を概念的に示す。

音声段落等の抽出には、まず、入力音声データの無声区間と有声区間を抽出する（Ｓ３３１）。有声区間であるか無声区間であるかの判定（以下、単に、有声／無声の判定という）は、周期性の有無の判定と等価であるとみなして、自己相関関数や変形相関関数のピーク値に基づいて行われることが多い。
具体的には、入力信号の短時間スペクトルからスペクトル包絡を除去し、得られた予測残差の自己相関関数（以下、変形相関関数という）を算出し、変形相関関数のピーク値が所定の閾値より大きいか否かによって有声／無声の判定を行う。また、そのようなピークが得られる相関処理の遅延時間に基づいて、ピッチ周期1/f₀の抽出を行う。

上記では、フレーム毎に各音声特徴量を音声データから抽出する場合について述べたが、音声データが、例えば、ＣＥＬＰ(Code-Excited Linear Prediction)などにより、既にフレーム毎に符号化（すなわち、分析）されており、この符号化で得られる係数または符号を用いて音声特徴量を生成するのでもよい。ＣＥＬＰによって得られる符号（以下、ＣＥＬＰ符号という）には、一般に、線形予測係数、利得係数、ピッチ周期等が含まれる。そのため、ＣＥＬＰ符号を復号して上記の音声特徴量を得ることができる。
具体的には、復号された利得係数の絶対値または二乗値をパワーとして用い、ピッチ成分の利得係数と非周期成分の利得係数との比に基づいて有声／無声の判定を行うことができる。また、復号されたピッチ周期の逆数をピッチ周波数、すなわち基本周波数として用いることができる。また、上記の式(1) で説明した動的特徴量の計算に使用するＬＰＣケプストラム係数は、ＣＥＬＰ符号を復号して得られたものを変換して求めることができる。

また、ＣＥＬＰ符号にＬＳＰ（Line Spectrum Pair）係数が含まれていれば、ＬＳＰ係数を一旦ＬＰＣケプストラム係数に変換し、変換して得られたＬＰＣケプストラム係数から求めてもよい。このように、ＣＥＬＰ符号には本発明で使用できる音声特徴量が含まれているので、ＣＥＬＰ符号を復号し、フレーム毎に必要な音声特徴量の組を取り出すことができる。
図４に戻って、有声区間の両側の無声区間の時間t_SR、t_SFがそれぞれ予め決めたt_Ｓ以上になるとき、その無声区間によって囲まれた有声区間を含む信号部分を音声小段落Ｓとして抽出する（Ｓ３３２）。以下では、この無声区間の時間t_Sの値を、例えば、t_S＝400msとする。

次に、この音声小段落Ｓ内の、好ましくは後半部の有声区間内の平均パワーｐと、この音声小段落Ｓの平均パワー値P_Sの定数β倍とを比較し、ｐ＜βP_Sであれば、その音声小段落Ｓを末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現在の末尾音声小段落までを音声段落と決定して抽出する（Ｓ３３３）。
音声小段落の抽出は、上記の有声区間を囲む無声区間の時間がt_S以上となるという条件で行う。図５に、音声小段落としてS_j-1、S_j、S_j+1を示し、以下では音声小段落S_ｊを処理対象の音声小段落とする。音声小段落S_ｊは、Q_ｊ個の有声区間から構成され、音声小段落S_ｊの平均パワーをP_jとする。

また、音声小段落S_ｊに含まれるｑ番目の有声区間V_ｑ（q＝1, 2, …, Q）の平均パワーをp_ｑと表す。音声小段落S_ｊが音声段落Ｂの末尾の音声小段落であるか否かは、音声小段落S_ｊを構成する後半部分の有声区間の平均パワーに基づいて判定する。具体的には、以下の式(2) に示す条件が満たされるか否かで判定する。

この条件を満たすとき、音声小段落S_jが音声段落Ｂの末尾音声小段落であると判定する。

ここで、αはQ_j/2以下の値をとる定数であり、βは例えば0.5〜1.5程度の値をとる定数である。これらの値は、音声段落の抽出を最適化するように、予め実験により決めておく。ただし、有声区間の平均パワーp_qは、その有声区間内の全フレームの平均パワーである。本発明の実施の形態では、例えばα＝３、β＝0.8とする。上記のようにすることによって、隣接する末尾音声小段落間の音声小段落の集合を音声段落と判定できる。あるいは、音声小段落を固定長t(s)、シフト幅S(s)と決めてもよい。例えばt(s)=S(s)=1msecの固定長、シフト幅としてもよい。音声段落についてもΔＳの無声区間で囲まれた区間としてもよい。

次に、図４に戻って感情表出状態尤度を算出する処理（Ｓ３３４、Ｓ３３５）について説明する（以下、この処理を感情表出判定処理という。）。まず、ステップＳ３１０で予め作成した符号帳に記録される音声特徴量ベクトルに合わせて、ステップＳ３２０で抽出した入力音声小段落中の音声特徴量の組をベクトル量子化し、符号列C₁, C₂, C₃, …を得る（Ｓ３３４）。
ステップＳ３３５での感情表出状態尤度の算出に先立って、図６を用いて符号帳の作成方法について説明する。まず、多数の学習用音声を被験者から採取し、感情表出があった発話と平静状態での発話とを識別できるようにラベルを付ける（Ｓ３１１）。例えば、音声が、笑っている、怒っている、悲しんでいる、とそれぞれ判断した区間にラベル付けを行う。

反対に平静状態と判定する理由を、上記の笑い、怒り、悲しみのいずれにも該当せず、発話が平静であると感じられることとする。
ステップＳ３１１で上記のラベル付けを行ったら、ラベル付けされた音声データから、ステップＳ３２０での処理と同様に予め決めたパラメータの組の音声特徴量、例えば(f₀",p",d_p)の値を音声特徴量ベクトル値としてフレームごとに抽出する（Ｓ３１２）。ラベル付けによって得られる感情表出状態または平静状態の情報と、感情表出状態または平静状態とされたラベル区間（ラベル付けされた音声区間）について得られる音声特徴量ベクトルとを用いて、ＬＢＧアルゴリズムに従って符号帳を作成する（Ｓ３１３）。

ＬＢＧアルゴリズムは公知であり、その詳細は、例えば、非特許文献５を参照されたい。
符号帳に記録されるエントリの数（以下、符号長サイズという。）は、2^m個（ｍは、１以上の整数）確保できると共に可変であり、エントリのインデックスとしてコードＣが用いられ、インデックスにはコードＣに対応したｍビットの量子化ベクトル（C＝00…0〜11…1）が用いられる。
符号帳には、この量子化ベクトル（コードＣ）に対応させて、フレーム長より十分長い所望の区間、例えば学習音声のラベル区間に得られる全音声特徴量ベクトルを使って上記ＬＢＧアルゴリズムにより決められた代表ベクトルを符号帳の音声特徴量代表ベクトルとして記録しておく。その際、各音声特徴量を、例えば、その平均値と標準偏差で規格化してもよい。以下の説明では、符号帳の音声特徴量代表ベクトルも単に音声特徴量ベクトルと呼ぶ。

入力音声データから抽出した音声特徴量のパラメータのうち、感情表出判定処理に使用するパラメータの組は、上記の符号帳作成に用いたパラメータの組と同じものである。感情表出状態または平静状態の音声小段落を特定するために、音声小段落中のコードＣ（エントリのインデックス。）に対応させて、各感情表出状態での出現確率と平静状態での出現確率をそれぞれ算出する。その際、感情を「笑い」、「怒り」、「悲しみ」などに分類しておき、それぞれの感情について上記の感情表出状態と平静状態の各出現確率を算出し、１つの符号帳に記録する。従って、符号帳には、上記のコードＣと、音声特徴量ベクトルと、感情表出状態での出現確率と平静状態での出現確率とが対応して記録されている。これらは感情の種類毎に分類して別々の符号帳に記録してもよい。

以下に、ステップＳ３３５で行う話者の感情表出についての尤度である感情表出状態尤度の算出、および、ステップＳ３３６で行う平静状態についての尤度である平静状態尤度の算出方法の一例について説明する。まず、学習音声中のラベル区間に含まれるフレームの数をｎとし、それぞれのフレームについて得られる音声特徴量の組に対応するコードが時系列でC_１, C_２, …, C_ｎとなっているものとする。

上記で説明したように、ラベル区間は、符号帳を作成する処理のステップＳ３１１で、ラベルが付けられた１つの音声区間である。このとき、ステップＳ３３５、Ｓ３３６で算出される、ラベル区間Ａの感情表出状態尤度P_Aemoおよび平静状態尤度P_Anrmは、それぞれ、以下の式(3) および式(4) に示すように表される。

ここで、P_emo(C_i｜C₁…C_i-1)は、コード列C₁, …, C_i-1の次にコードC_iが感情表出状態となる条件付出現確率、P_nrm(C_i｜C₁…C_i-1)は、同様にコード列C₁, …, C_i-1の次にコードC_iが平静状態となる条件付出現確率である。また、P_emo(C_i)は、符号帳を作成する処理において、音声が感情表出状態とラベル付けされた部分に存在した音声特徴量ベクトルに対応するコードC_iの総個数を数え、その総個数を、感情表出状態とラベル付けされた音声データの全コード数（＝フレーム数）で割算した値である。一方、P_nrm(C_i)は、コードC_iが平静状態とラベル付けされた部分に存在した個数を、平静状態とラベル付けされた音声データの全コード数で割算した値である。

以下では、各条件付出現確率をN-gram(N<i)モデルで近似し、感情表出状態尤度および平静状態尤度の計算を簡単にする。N-gramモデルは、ある時点でのある事象の出現がその直前のN-1個の事象の出現に依存すると近似するモデルである。ここで、N=3のときはtrigram、N=2のときはbigram、N=1のときはunigramとよばれる。このモデルでは、例えば、ｉ番目のフレームにコードC_iが出現する確率P(C_i)は、P(C_i)＝P(C_i｜C_i-N+1…C_i-1)とされる。
上記の式(3) および式(4) 中の各条件付出現確率P_emo(C_i｜C₁…C_i-1)、P_nrm(C_i｜C₁…C_i-1)にN-gramモデルを適用すると、各条件付出現確率は以下の式(5) および式(6) に示すように近似される。

P_emo(C_i｜C₁…C_i-1)＝P_emo(C_i｜C_i-N+1…C_i-1) (5)
P_nrm(C_i｜C₁…C_i-1)＝P_nrm(C_i｜C_i-N+1…C_i-1) (6)
上記の式(5) のP_emo(C_i｜C_i-N+1…C_i-1)および式(6) のP_nrm(C_i｜C_i-N+1…C_i-1)は、通常、符号帳から全て得られるようになっているが、一部のものについては、学習音声から得られないものもある。その場合は、他の条件付出現確率や単独出現確率から補間によって求めたものでもよい。例えば、低次（すなわち、コード列が短い）の条件付出現確率と単独出現確率等とから高次（すなわち、コード列が長い）の条件付出現確率を補間して求めることができる。

以下に、この補間の方法について説明する。以下では、上記のtrigram (N=3)、bigram (N=2)、および、unigram (N=1)を例にとり説明する。各出現確率は、trigram (N=3)では、P_emo(C_i｜C_i-2C_i-1）、P_nrm(C_i｜C_i-2C_i-1)、bigram (N=2)では、P_emo(C_i｜C_i-1)、P_nrm(C_i｜C_i-1)、そして、unigram (N=1)では、P_emo(C_i)、P_nrm(C_i)と表される。
この補間の方法では、P_emo(C_i｜C_i-2C_i-1)およびP_nrm(C_i｜C_i-2C_i-1)を、上記の感情表出状態での３つの出現確率、または、平静状態での３つの出現確率を用い、以下の式(7) および式(8) に基づいて算出する。

ここで、上記のλ_emo1、λ_emo2、λ_emo3は、trigramの感情表出状態とラベル付けされた学習データのフレーム数をｎとし、時系列でコードC₁, C₂, …, C_nが得られたとき、以下のように表される。

ただし、λ_emo1、λ_emo2、λ_emo3を求めるときの音声データは、符号帳を作成するときの音声データ以外のものとする。符号帳を作成するときの音声データと同じ音声データを用いると、λ_emo1＝1、λ_emo2＝λ_emo3＝0の自明な解となってしまうからである。同様に、λ_nrm1、λ_nrm2、λ_nrm3も求められる。

次に、trigramを用い、ラベル区間Ａのフレーム数がF_Aであり、得られたコードがC₁, C₂, …, C_FAのとき、このラベル区間Ａの感情表出状態尤度P_Aemoおよび平静状態尤度P_Anrmは、それぞれ、以下の式(9) および式(10)に示すように表される。
P_Aemo＝P_emo(C₃｜C₁C₂)…P_emo(C_FA｜C_FA-2C_FA=1) (9)
P_Anrm＝P_nrm(C₃｜C₁C₂)…P_nrm(C_FA｜C_FA-2C_FA-1) (10)
本発明の実施の形態では、上記のように補間と、感情表出状態尤度P_Aemoおよび平静状態尤度P_Anrmの算出とができるように、上記の例では、trigram (N=3)、bigram (N=2)、および、unigram (N=1)を各コードについて算出しておき、符号帳に格納しておくものとする。つまり、符号帳には、各コードに対応して、音声特徴量ベクトルと、その感情表出状態での出現確率と、平静状態での出現確率との組が格納される。

その感情表出状態での出現確率としては、各コードが過去のフレームで出現したコードと無関係に感情表出状態で出現する確率（単独出現確率）、直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが感情表出状態で出現する条件付出現確率、またはそれら両方を使用する。同様に、平静状態での出現確率、そのコードが過去のフレームで出現したコードと無関係に平静状態で出現する単独出現確率、直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが平静状態で出現する条件付出現確率、またはそれら両方を使用する。

図７に、符号帳に記録される内容の一例を示す。以下の各符号帳の作成において、学習音声から使用する平静状態のフレーム総数と、対応する感情（例えば笑い）の表出状態のフレーム総数は等しく選ばれている。この例では学習音声中の笑いのラベル区間と平静のラベル区間を分析して作成した符号帳CB-1と、怒りのラベル区間と平静のラベル区間を分析して作成した符号帳CB-2と、悲しみのラベル区間と平静のラベル区間を分析して作成した符号帳CB-3とを示している。図７に示すように、各符号帳には各コードC₁, C₂, …毎に、その音声特徴量ベクトルと、その単独出現確率が、各感情表出状態および平静状態について格納され、条件付出現確率が各感情表出状態および平静状態についてそれぞれ組として格納されている。ここで、コードC₁, C₂, C₃, …は、符号帳の各音声特徴量代表ベクトルに対応したコード（インデックス）を表し、それぞれｍビットの値"00…00"、"00…01"、"00…10"、…である。

符号帳におけるｈ番目のコードをC_hで表し、例えばC₁は第１番目のコードを表すものとする。以下では、この発明に好適な音声特徴量の組の例として、パラメータf₀"、p"、d_pを使用し、符号帳サイズ（音声特徴量ベクトルの数）が2⁵の場合の感情表出状態および平静状態での、条件付出現確率をtrigramで近似した例について説明する。
図８は、音声データの処理を説明するための模式図である。時刻ｔから始まる音声小段落のうち、第１フレームから第４フレームまでを符号i〜i+3を付して示している。フレーム長およびフレームシフトを、上記のように、それぞれ、100ms、50msとした。ここでは、フレーム番号ｉ（時刻t〜t+100）のフレームについてコードC₁が、フレーム番号i+1（時刻t+50〜t+150）のフレームについてコードC₂が、フレーム番号i+2（時刻t+100〜t+200）のフレームについてコードC₃が、そして、フレーム番号i+1（時刻t+50〜t+150）のフレームについてコードC₄が得られているものとする。すなわち、フレーム順にコードがC₁、C₂、C₃、C₄であるとする。

この場合、フレーム番号i+2以上のフレームでは、trigramが計算できる。いま、音声小段落Ｓの感情表出状態尤度をP_Semo、平静状態尤度をP_Snrmとすると、第４フレームまでの各尤度はそれぞれ、以下の式(11)および式(12)によって与えられる。
P_Semo＝P_emo(C₃｜C₁C₂)P_emo(C₄｜C₂C₃) (11)
P_Snrm＝P_nrm(C₃｜C₁C₂)P_nrm(C₄｜C₂C₃) (12)
この例では、符号帳からコードC₃、C₄の感情表出状態および平静状態の各単独出現確率を求め、コードC₂の次にコードC₃が感情表出状態および平静状態で出現する条件付出現確率を求め、さらに、コードC₃が連続するコードC₁C₂の次に感情表出状態および平静状態で出現し、コードC₄が連続するコードC₂C₃の次に感情表出状態および平静状態で出現する条件付出現確率を求めると以下のようになる。

P_emo(C₃｜C₁C₂)＝λ_emo1P_emo(C₃｜C₁C₂)+λ_emo2P_emo(C₃｜C₂)+λ_emo3P_emo(C₃)
(13)
P_emo(C₄｜C₂C₃)＝λ_emo1P_emo(C₄｜C₂C₃)+λ_emo2P_emo(C₄｜C₃)+λ_emo3P_emo(C₄)
(14)
P_nrm(C₃｜C₁C₂)＝λ_nrm1P_nrm(C₃｜C₁C₂)+λ_nrm2P_nrm(C₃｜C₂)+λ_rnm3P_nrm(C₃)
(15)
P_nrm(C₄｜C₂C₃)＝λ_nrm1P_nrm(C₄｜C₂C₃)+λ_nrm2P_nrm(C₄｜C₃)+λ_nrm3P_nrm(C₄)
（16)
上記の式(13)〜(16)を用いることによって、式(11)と(12)とで示される第３フレームまでの感情表出状態尤度P_Semoと平静状態尤度をP_Snrmが求まる。ここで、条件付出現確率P_emo(C₃｜C₁C₂)およびP_nrm(C₃｜C₁C₂)は、フレーム番号i+2以降で計算できる。

以上の説明は、第４フレームi+3までの計算についてであったが、フレーム数F_Sの音声小段落Ｓについても同様に適用できる。例えば、フレーム数F_Sの音声小段落Ｓのそれぞれのフレームから得られたコードがC₁、C₂、…、C_FAのとき、この音声小段落Ｓが感情表出状態になる尤度P_Aemoと平静状態になる尤度P_Anrmを以下の式(17)および式(18)に示すように計算する。

上記のように算出した尤度が、P_Aemo＞P_Anrm、であれば、その音声小段落Ｓの発話状態は、感情表出状態であると判定する（Ｓ３５０）。逆に、P_Aemo≦P_Anrmであれば、実質的に平静状態と判定されることになる。同様に、P_Aemo/P_Anrm＞１、であることを感情表出状態と判定するための条件とするのでもよい。また、正の重み係数Ｗに対しW^LP_Aemo＞P_Anrm、を満足することを条件とすることにより、あるいは
R_E=(logP_Aemo-logP_Anrm)/L＞W (19)
を満足することを条件とすることにより、小段落のフレーム数Ｌに応じて重み付けの影響を増減するようにしてもよい。

ステップＳ３６０で作成する要約コンテンツは、感情表出状態と判定されたコンテンツ部分の前の所定の音声小段落や音声段落を含めたものを接続して作成するのでもよい。これにより、突然、感情表出状態のコンテンツが再生され、要約されたコンテンツを閲覧者が適切に理解できないことや理解が困難になることを防止できる。要約コンテンツの抽出はコンテンツ全体に対する圧縮率が予め決めた値になった時点で停止してもよいし、あるいは、上記重み係数Ｗの値を適当に調整することにより、前コンテンツに対する要約コンテンツが予め決めた圧縮率の範囲となるようにしてもよい。

あるいは、感情表出状態出現確率P_emoの音声小段落にわたる総和ΣP_emoと平静状態出現確率P_nrmの音声小段落にわたる総和ΣP_nrmから感情表出状態尤度P_Aemoと平静状態尤度P_Anrmを次式

のように求め、P_Aemo＞P_Anrmならその音声小段落は感情表出状態であると判定し、P_Aemo≦P_Anrmであれば平静状態と判定してもよい。あるいは、これら条件付出現確率の総積あるいは条件付出現確率の総和を重み付け比較して音声小段落の発話状態を判定してもよい。

「笑い」、「怒り」、「悲しみ」の各感情表出状態判定方法においても、用いる音声特徴量については前述の方法の場合と同様であり、音声特徴量の組としては例えばパラメータ基本周波数、パワー、動的特徴量の時間変化特性の少なくとも１つ以上及び／又はこれらのフレーム間差分の少なくとも１つ以上を含むことが好ましい。出現確率も単独出現確率又はこれと条件付出現確率の組合せでもよく、更にこの組合せを用いる場合は、条件付出現確率の計算に対し線形補間法を用いることが好ましい。またこの感情表出状態判定方法においても、音声小段落又はこれよりも長い適当な区間ごとに、あるいは全体の音声信号の各音声特徴量の平均値で各音声特徴量を規格化し、あるいは標準化してフレームごとの音声特徴量の組を形成し、ベクトル量子化以後の処理を行うことが好ましい。

感情表出状態判定方法としては、例えば、音声小段落に対する「笑い」、「怒り」、「悲しみ」についての尤度P_Alau, P_Aang, P_Asadを式(17)と同様に次式

により計算し、これにより例えば「笑い」であるか、「平静」であるかを判定する場合には、前述と同様に笑いの表出尤度P_Alauと生成状態尤度P_Anrmから条件
(a1) P_Alau＞P_Anrm
(b1) W^LP_Alau＞P_Anrm、
(c1) R_L=(logP_Alau-logP_Anrm)/L＞W、
のいずれか予め決めた条件を使って、その条件を満足していれば笑いの表出状態であると判定する。「怒り」であるか「平静」であるかの判定は式(23)を使って尤度P_Aangを計算し、
(a2) P_Aang＞P_Anrm、
(b2) W^LP_Aang＞P_Anrm、
(c2) R_A=(logP_Aang-logP_Anrm)/L＞W、
のいずれか予め決めた条件を使って、その条件を満足していれば怒りの表出状態と判定する。同様に、「悲しみ」であるか「平静」であるかの判定は式(24)を使って尤度P_Asadを計算し、
(a3) P_Asad＞P_Anrm、
(b3) W^LP_Asad＞P_Anrm、
(c3) R_S=(logP_Asad-logP_Anrm)/L＞W、
のいずれか予め決めた条件を使って、その条件を満足するか判定すればよい。判定条件はこれ以外にもいろいろなものが容易に考えられる。

感情表出が「笑い」であるか、「怒り」であるか、「悲しみ」であるかを判定する場合は、例えば上記条件式(c1), (c2), (c3)による笑い尤度比R_L、怒り尤度比R_A、悲しみ尤度比R_Sを計算し、これらの尤度比を比較することにより決めることができる。
この発明の原理によれば、前述のように、音声特徴量として基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか１つ以上及び／又はこれらのフレーム間差分の少なくともいずれか１つ以上を使用すればよいが、これらの音声特徴量のうち、動的特徴量の時間変化特性を含むことことが好ましい。更に、音声特徴量として少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのフレーム間差分を使用することにより感情検出の精度を高めることができる。音声特徴量として少なくとも特に基本周波数、動的特徴量の時間変化特性は実用的な特徴量として好ましい。

以上、この発明による感情表出検出方法で使用される符号帳の作成と、その符号帳を使った感情表出の検出について詳細に説明した。以下には、この発明を使って所望の感情表出、ここでは笑い、怒り、悲しみの所望の音声区間を抽出する実施形態を示す。
第１実施形態
この実施形態は３つの感情、「笑い」、「怒り」、「悲しみ」を区別せず、何れの感情表出も「感情」として検出する場合である。
学習音声中の「笑い」の表出区間、「怒り」の表出区間、「悲しみ」の表出区間は区別せず、全て「感情」のラベリングをし、その他の区間で、平静である区間に「平静」のラベリングをして図９に示すように１つの符号帳を作成しておく。

図１０は第１実施形態による感情表出区間の検出処理手順を示す。
ステップＳ１：入力音声コンテンツから所定の音声区間Ｓを取り込む。音声区間は前述の音声小段落であってもよいし、あるいは予め決めた少なくとも１フレームを含む一定長の音声区間であってもよい。
ステップＳ２：取り込んだ音声区間を分析してフレーム毎の音声特徴量ベクトルを求め、図９の符号帳を参照して例えば式(17), (18)又は式(19), (20)により平静状態尤度P_Anrmと感情表出状態尤度P_Aemoを計算する。
ステップＳ３：残りの音声区間があるか判定し、あればステップＳ１に戻り、次の音声区間について同様の処理を行う。

ステップＳ４：全ての音声区間について感情表出状態尤度P_Aemoと平静状態尤度P_Anrmが例えば図１１に概念的に示すように求まると、W^LP_Aemo>P_Anrmを満たす区間S'を検出し、その各検出区間S'の位置（例えば検出区間の開始及び終了フレーム番号、又はコンテンツの最初から検出区間の開始時刻及び終了時刻）を記憶手段に記憶する。Ｗは予め決めた正の定数であり、Ｌは各区間Ｓ毎のフレーム数である。尚、図１１にはW^LP_Aemo, P_Anrmを連続曲線で示しているが、実際には音声区間Ｓごとの不連続な曲線である。
ステップＳ５：ステップＳ４で検出した区間S'の位置に対応する音声区間を入力音声コンテンツから感情表出区間として抽出する。

第２実施形態
この実施形態は、上記第１実施形態において検出した感情表出区間S'を、図１０のステップＳ５において更に感情表出が「笑い」、「怒り」、「悲しみ」のどれであるかを判定する。この第２実施形態は第１実施形態で使用する図９の感情表出検出用の符号帳に加えて次の符号帳を予め作成しておく。
上記「感情」のラベルがつけられた学習音声区間中の笑いの表出区間に「笑い」をラベリングし、怒りの表出区間に「怒り」をラベリングし、悲しみの表出区間に「悲しみ」をラベリングし、これら「笑い」、「怒り」、「悲しみ」がラベリングされた音声区間に基いて図１２に示す符号帳を作成する。

図１３は第２実施形態による「笑い」、「怒り」、「悲しみ」の感情表出区間を検出する処理手順を示す。ステップＳ１〜Ｓ４は図９の符号帳を使って図１０に示した第１実施形態による感情表出区間の検出処理と同じであり、これにより「笑い」、「怒り」、「悲しみ」のいずれかを含む感情表出区間Ｓ’が検出される。以降のステップＳ５〜Ｓ８により、各感情表出区間Ｓ’が「笑い」、「怒り」、「悲しみ」のどれであるかを判別する。
ステップＳ５：ステップＳ４で検出された１つの感情表出区間Ｓ’内の一連の音声特徴量ベクトルを得る。これはステップＳ１〜Ｓ３において全音声区間についての音声特徴量ベクトルが既に求められているので、その中から区間Ｓ’に対応する一連の音声特徴量ベクトルを取り出せばよい。

ステップＳ６：図１２の符号帳を参照して検出感情表出区間Ｓ’の笑い表出尤度P_Alau、怒り表出尤度P_Aang、悲しみ表出尤度P_Asadをそれぞれ計算する。
ステップＳ７：これら尤度P_Alau, P_Aang, P_Asadのうち、最大の尤度を判定し、その最大尤度の感情を表すマーク、例えば笑いはLau、怒りはAng、悲しみはSadのマークをその検出区間Ｓ’の位置に対応して記憶する。
ステップＳ８：未処理の感情表出検出区間Ｓ’が残っているか判定し、残っていればステップＳ５に戻り、次の感情表出検出区間Ｓ’について同様の処理を実行する。
ステップＳ９：全ての感情表出検出区間Ｓ’について最大尤度の判定が終了していれば、全ての感情表出検出区間Ｓ’の中からマークLau, Ang, Sadのうち、例えば利用者により指定された感情のマークの検出区間と対応する音声区間を入力の音声コンテンツから抽出する。
このように、第２実施形態に拠れば、利用者が１種類又は複数種類の感情表出を指定すれば、その指定された感情表出を音声コンテンツから抽出することができる。

第３実施形態
上述の第２実施形態では音声コンテンツからまず感情表出区間を検出し、次に各感情表出区間が「笑い」、「怒り」、「悲しみ」のいずれであるかを判定する場合を示したが、この第３実施形態では、音声コンテンツから直接「笑い」、「怒り」、「悲しみ」の任意の感情表出を検出する。符号帳は図１２に示したものを使用する。図１４は第３実施形態による感情表出区間の検出処理手順を示す。
ステップＳ１：音声区間Ｓを入力音声コンテンツから取り込む。
ステップＳ２：音声区間Ｓの一連のフレームの音声特徴量ベクトルを求め、図１２の符号帳を参照して笑い表出尤度P_Alau、怒り表出尤度P_Aang、悲しみ表出尤度P_Asadをそれぞれ計算する。

ステップＳ３：これら尤度P_Alau, P_Aang, P_Asadのうち、最大の尤度を判定し、その最大尤度の感情を表すマーク例えば笑いはLau、怒りはAng、悲しみはSadのマークをその音声区間Ｓの位置に対応して記憶する。
ステップＳ４：未処理の音声区間Ｓが残っているが判定し、残っていればステップＳ１に戻り、次の音声区間Ｓについて同様の処理を実行する。
ステップＳ５：全ての音声区間Ｓについて最大尤度の判定が終了していれば、全ての音声区間Ｓの中からマークLau, Ang, Sadのうち例えば利用者により指定されたマークの検出区間と対応する音声区間を入力音声コンテンツから抽出する。

このように、第３実施形態によっても、利用者が１種類又は複数種類の感情表出を指定すれば、その指定された感情表出を音声コンテンツから抽出することができる。この第３実施形態の場合は、第１実施形態における符号帳は使用しないので、平静状態尤度を使用しないことになる。即ち、この発明による感情表出の検出には、平静状態尤度の計算を必ずしも必要としない。

第４実施形態
この実施形態も、例えば「笑い」、「怒り」、「悲しみ」の３種類の感情表出の任意のもの（１つ又は複数）を抽出することを可能にするものであり、予め次の３つの符号帳を作成しておく（図７の例と同様である）。
(1) 学習音声中の全ての笑いの表出区間に「笑い」のラベリングをし、全ての平静状態区間に「平静」のラベリングをして笑い検出用符号帳を作成する。
(2) 学習音声中の全ての怒りの表出区間に「怒り」のラベリングをし、全ての平静状態区間に「平静」のラベリングをして怒り検出用符号帳を作成する。
(3) 学習音声中の全ての悲しみの表出区間に「悲しみ」のラベリングをし、全ての平静状態区間に「悲しみ」のラベリングをして悲しみ検出用符号帳を作成する。

図１５は第４実施形態の処理手順を示す。この実施形態においても、３種類の感情表出の任意の１つ又は複数を検出できる。
ステップＳ１：入力音声コンテンツから音声区間Ｓを取り込む。音声区間Ｓは前述のように音声小段落でもよいし、予め決めた一定長の区間でもよい。
ステップＳ２：音声区間Ｓを分析してフレーム毎の音声特徴量を求め、上記笑い検出用符号帳を参照して笑い表出尤度P_Alauとそれに対する平静状態尤度P_Anrmを求め、笑い尤度比
R_L=(logP_Alau-logP_Anrm)/L
を計算する。上記怒り検出用符号帳を参照して怒り表出尤度P_Aangとそれに対する平静状態尤度P_Anrmを求め、怒り尤度比
R_A=(logP_Aang-logP_Anrm)/L
を計算する。更に、上記悲しみ検出用符号帳を参照して悲しみ表出尤度P_Asadとそれに対する平静状態尤度P_Anrmを求め、悲しみ尤度比
R_S=(logP_Asad-logP_Anrm)/L
を計算する。計算したこれら尤度比R_L, R_A, R_Sを記憶する。

ステップＳ３：残りの音声区間Ｓがあるか判定し、あればステップＳ１に戻り次の音声区間Ｓについて同様の処理を実行する。入力音声コンテンツの全音声区間について終了していれば、利用者により指定された「笑い」、「怒り」、「悲しみ」の任意の１つ又は複数について次のステップＳ４，Ｓ５，Ｓ６のうち指定された感情に対応するものを実行する。
ステップＳ４，Ｓ５，Ｓ６：ステップＳ１，Ｓ２，Ｓ３の処理により例えば図１６に概念的に示すように、縦軸を尤度比Ｒとして笑い表出尤度比R_L、怒り表出尤度比R_A、悲しみ表出尤度比R_Sの曲線がそれぞれえられており、これらと予め決めた閾値R_thを比較し、R_thより大となる区間を検出し、それらの位置と感情マークLau, Ang, Sadを対応させて記憶する。

ステップＳ７：「笑い」、「怒り」、「悲しみ」のうち、利用者により指定されたものの検出区間を入力音声コンテンツから抽出する。
このように、この第３実施形態においても「笑い」、「怒り」、「悲しみ」の任意の感情表出を選択してコンテンツから抽出することが可能である。

第５実施形態
この実施形態は第４実施形態の変形例である。第４実施形態では感情表出区間を検出するために各感情表出状態尤度比を一定閾値Rthと比較したが、ここでは、各感情表出状態尤度を共通の平静状態尤度と比較して各感情表出区間を検出する。そのために、学習音声中の笑い表出区間、怒り表出区間、悲しみ表出区間にそれぞれ「笑い」、「怒り」、「悲しみ」をラベリングし、音声が平静となる区間に「平静」をそれぞれラベリングし、図１７に示す符号帳を作成しておく。図１７に示すように、符号帳には笑い、怒り、悲しみ、平静の各感情表出における符号の単独出現確率(unigram)、条件付出現確率(bigram, trigram)が学習音声から求められ、書き込まれている。

図１８は第５実施形態の処理手順を示す。
ステップＳ１：入力音声コンテンツから音声区間Ｓを取り込む。
ステップＳ２：音声区間Ｓを分析してフレーム毎の音声特徴量を求め、図１７の符号帳を参照して笑い表出尤度P_Alau、怒り表出尤度P_Aang、悲しみ表出尤度P_Asad、平静状態尤度P_Anrmを計算し、記憶する。
ステップＳ３：残りの音声区間があるか判定し、あればステップＳ１に戻り、次の音声区間について同様の処理を実行する。残りの音声区間がなければ、「笑い」、「怒り」、「悲しみ」のうち利用者により指定された１つ又は複数についてステップＳ４，Ｓ５，Ｓ６の対応するものを実行する。

ステップＳ４，Ｓ５，Ｓ６：ステップＳ１，Ｓ２，Ｓ３の処理が終了した段階で例えば図１９に概念的に示すように、笑い表出尤度P_Alau、怒り表出尤度P_Aang、悲しみ表出尤度P_Asad、平静状態尤度P_Anrmの曲線がえられている。ただし図１９ではフレーム数Ｌの区間の各感情表出尤度P_Alau, P_Aang, P_Asadに重みW^Lを乗算した曲線を示している。これら尤度曲線W^LP_Alau, W^LP_Aang, W^LP_Asadと曲線P_Anrmを比較し、W^LP_Alau>P_Anrm、W^LP_Aang>P_Anrm、W^LP_Asad>P_Anrmを満足し、かつP_Alau, P_Aang, P_Asadのうち最大のものの区間をそれぞれ検出し、それぞれ検出区間の位置とマークを対応させて記憶する。
ステップＳ７：「笑い」、「怒り」、「悲しみ」のうち、利用者により指定された感情の検出区間に対応する音声区間を音声コンテンツから抽出する。

第６実施形態
この実施形態では、予め学習音声中の「笑い」、「怒り」、「悲しみ」の音声区間にそれぞれ対応するラベルをつけ、「笑い」の音声区間と「怒り」の音声区間の全フレームの音声特徴量ベクトルから笑い表出についての各量子化音声特徴量ベクトルの各出現確率と、怒り表出についての量子化音声特徴量ベクトルの各出現確率を求め、図２０に示す符号帳ＣＢ−１を作成し、同様に「怒り」の音声区間と「悲しみ」の音声区間の全フレームの音声特徴量ベクトルから怒り表出についての各量子化音声特徴量ベクトルの各出現確率と、悲しみ表出についての量子化音声特徴量ベクトルの各出現確率を求め、図２０に示す符号帳ＣＢ−２を作成し、「悲しみ」の音声区間と「笑い」の音声区間の全フレームの音声特徴量ベクトルから悲しみ表出についての各量子化音声特徴量ベクトルの各出現確率と、笑い表出についての量子化音声特徴量ベクトルの各出現確率を求め、図２０に示す符号帳ＣＢ−３を作成しておく。

図２１は第６実施形態による感情表出検出処理手順を示す。
ステップＳ１〜Ｓ４は図１０の各感情を区別しない場合の処理手順と同様であり、図９の符号帳を使って全音声区間について得た感情表出状態尤度W^LP_Aemoと平静状態尤度P_Anrmの曲線からW^LP_Aemo＞P_Anrmとなる区間を感情表出区間Ｓ’として全て検出し、一時記憶する。
ステップＳ５：感情表出区間Ｓ’を取り込む。
ステップＳ６：感情表出区間Ｓ’の一連の音声特徴量ベクトルから図２０の符号帳ＣＢ−１を参照して笑い表出尤度P_Alau1と怒り表出尤度P_Aang2を求め、符号帳ＣＢ−２を参照して怒り表出尤度P_Aang1と悲しみ表出尤度P_Asad2を求め、符号帳ＣＢ−３を参照して悲しみ表出尤度P_Asad1と笑い表出尤度P_Alau2を求める。
ステップＳ７：上記尤度から笑い、怒り、悲しみについてそれぞれ２つの尤度を以下のように決める。

笑い尤度： P_LAU1＝P_Alau1/P_Aang2； P_LAU2＝P_Alau2/P_Asad1
怒り尤度： P_ANG1＝P_Aang1/P_Asad2； P_ANG2＝P_Aang2/P_Alau1
悲しみ尤度：P_SAD1＝P_Asad1/P_Alau2； P_SAD2＝P_Asad2/P_Aang1
ステップＳ８：笑い度、怒り度、悲しみ度を以下のように決める。
笑い度： LAU＝(PLAU1+PLAU2)/2
怒り度： ANG＝(PANG1+PANG2)/2
悲しみ度： SAD＝(PSAD1+PSAD2)/2

ステップＳ９：図２２に示すように、
LAU＞ANGかつLAU＞SADの区間を検出し、Lauのマークをつける。
ANG＞SADかつANG＞LAUの区間を検出し、Angのマークをつける。
SAD＞LAUかつSAD＞ANGの区間を検出し、Sadのマークをつける。
ステップＳ１０：全ての検出区間Ｓ’について処理が終了したか判定し、終了してなければステップＳ５に戻って次の感情表出検出区間Ｓ’についてステップＳ６〜Ｓ９で同様の処理を実行する。
ステップＳ１１：全ての検出区間Ｓ’について終了していれば、利用者により指定された感情のマークの区間を音声コンテンツから抽出する。あるいはユーザが希望する指定の時間長で要約を視聴したい、笑っているところだけ見たい、などの要求を満足する閾値R_th以上の区間を抽出してもよい（図２２の破線参照）。

上述の第１から第６実施形態における各感情表出状態尤度P_Alau, P_Aang, P_Asadはいずれも前記式(17)または(19)のいずれを使用して計算してもよい。
以上説明したように、本発明の実施の形態に係る音声処理装置は、学習音声から感情表出があった部分の音声特徴量を抽出し、その音声特徴量に基づいて入力音声の感情表出を判定するため、コンテンツに含まれる音声データに基づき、このコンテンツを感情面に着目して要約することができる。

また、感情表出状態尤度と平静状態尤度との比に基づいて、話者の感情表出があったか否かを判定するため、判定の基準を音声データに応じて柔軟に調整できる。
また、音声特徴量が、少なくとも、基本周波数、パワー、動的特徴量のうち、いずれか１つ以上を含み、話者依存性の少ない音声特徴量に基づいて要約コンテンツを作成するため、より正確に感情表出を検出できる。

さらに、フレーム毎に音声特徴量が記憶され、抽出されるため、時間的なむらが音声データから感情表出を検出できる。
また、本発明の実施の形態では、音声処理装置が上記のＳ３１０〜Ｓ３６０の各ステップでの処理を行う音声処理動作について説明したが、これらのステップＳ３１０〜Ｓ３６０を含む音声処理動作を実行させるための音声処理プログラムがインストールされた所定のコンピュータを用いて実施することも可能である。

本発明に係る音声処理装置および音声処理プログラムは、コンテンツに含まれる音声データに基づき感情の表出を抽出でき、従ってこのコンテンツを感情面に着目して要約し、例えばインターネット上で配信するコンテンツの要約生成などに適用できる。

本発明の実施の形態に係る音声処理装置の機能構成を示すブロック図。本発明の実施の形態に係る音声処理装置の具体的構成の一例を示す図。本発明の実施の形態に係る音声処理装置の動作を説明するためのフローチャート。ステップＳ３３０での処理の詳細を説明するためのフローチャート。音声小段落、音声段落等を説明するための概念図。ステップＳ３１０での処理の詳細を説明するためのフローチャート。符号帳の記載例を示す図。音声データの処理を説明するための模式図。第１実施形態に使用する符号帳の例を示す図。第１実施形態の処理手順を示すフローチャート。尤度の比較による感情表出区間の検出を説明するための概念図。第１実施形態で使用される符号帳の例を示す図。第２実施形態の処理手順を示すフローチャート。第３実施形態の処理手順を示すフローチャート。第４実施形態の処理手順を示すフローチャート。尤度比に基づく感情表出区間の検出を説明するための概念図。第４実施形態で使用される符号帳の例を示す図。第５実施形態の処理手順を示すフローチャート。尤度比較に基づく感情表出区間の検出を説明するための概念図。第６実施形態で使用する符号帳の例を示す図。第６実施形態の処理手順を示すフローチャート。笑い度、怒り度、悲しみどの比較による感情表出を説明すうための概念図。

符号の説明

１００音声処理装置
１１０記憶手段
１１０ＣＢ符号帳
１２０音声特徴量抽出手段
１３０感情表出状態尤度算出手段
１４０平静状態尤度算出手段
１５０感情表出判定手段
１６０要約コンテンツ生成手段
２１０入力部
２２０表示部
２３１ＣＰＵ
２３２ＲＯＭ
２３３ＲＡＭ
２３４ＥＥＰＲＯＭ
２３５ハードディスク
２４０出力部

Claims

フレーム毎の音声特徴量の組に基づき音声の感情表出状態を判定する音声処理方法であって、
(a) 基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか１つ以上及び／又はこれらのフレーム間差分の少なくともいずれか１つ以上を含む音声特徴量の組から成る音声特徴量ベクトルと感情表出状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳を用い、少なくとも１フレーム以上を含む区間の上記音声特徴量の組を量子化した上記符号帳中の対応する音声特徴量ベクトルの感情表出状態での出現確率を求めるステップと、
(b) 上記区間の上記音声特徴量ベクトルの感情表出状態での出現確率に基づいて感情表出状態となる尤度を算出するステップと、
(c) 上記感情表出状態となる尤度に基づいて上記区間が感情表出状態であるか否かを判定するステップ、
とを含むことを特徴とする音声処理方法。
請求項１記載の方法において、各上記音声特徴量ベクトルは、少なくとも動的特徴量の時間変化特性を含むことを特徴とする音声処理方法。
請求項１記載の方法において、各上記音声特徴量ベクトルは、少なくとも基本周波数、パワー、動的特徴量の時間変化特性を含むことを特徴とする音声処理方法。
請求項１記載の方法において、各上記音声特徴量ベクトルは、少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのフレーム間差分を含むことを特徴とする音声処理方法。
請求項１乃至４のいずれかに記載の方法において、上記ステップ(c) は上記感情表出状態となる尤度が所定の値より高いか否かを調べ、高ければ上記区間を感情表出状態と判定するステップであることを特徴とする音声処理方法。
請求項１乃至４のいずれかに記載の方法において、上記符号帳には音声特徴量ベクトルと対応して平静状態での出現確率が格納されており、
上記ステップ(a) は、各フレームの上記音声特徴量の組を量子化した上記符号帳中の音声特徴量ベクトルに対応する平静状態での出現確率を求めるステップを含み、
上記ステップ(b) は、上記音声特徴量ベクトルの平静状態での出現確率に基づいて平静状態となる尤度を算出するステップを含み、
上記ステップ(c) は、上記感情表出状態となる尤度と上記平静状態となる尤度を比較して上記区間が感情表出状態であると判定するステップを含むことを特徴とする音声処理方法。
請求項６記載の方法において、上記ステップ(c) は上記感情表出状態となる尤度が上記平静状態となる尤度より高いとき、感情表出状態と判定するステップであることを特徴とする音声処理方法。
請求項６記載の方法において、上記ステップ(c) は、上記感情表出状態となる尤度と上記平静状態となる尤度の比に基づいて判定するステップであることを特徴とする音声処理方法。
請求項７又は８記載の方法において、上記符号帳には更に複数種類の感情表出状態のそれぞれにおける音声特徴量ベクトルの出現確率がコードごとに格納されており、感情表出状態と判定されたとき、更に、
(d) 上記区間において上記符号帳を参照して上記複数種類の各感情表出についての音声の音声特徴量ベクトルの出現確率を求めるステップと、
(e) その出現確率に基いて上記区間における上記感情表出の尤度を求めるステップと、
(f) 上記複数種類のそれぞれの感情表出の尤度を比較し、上記区間がどの感情表出であるかを判定するステップ、
とを含むことを特徴とする音声処理方法。
請求項９記載の方法において、上記複数種類の感情表出は笑い表出、怒り表出、悲しみ表出の少なくともいずれか２つ以上であることを特徴とする音声処理方法。
請求項１乃至８のいずれかに記載の方法において、上記符号帳に各コードに対応して格納されている上記感情表出状態での出現確率は、そのコードの音声特徴量ベクトルが感情表出状態となる単独出現確率と、直前の所定数のコードの次にそのコードの音声特徴量ベクトルが感情表出状態となる条件付確率とを含み、
上記ステップ(b) は、現在のフレームの上記音声特徴量の組を量子化した音声特徴量ベクトルに対応する感情表出状態での単独出現確率と、上記条件付確率とに基づいて上記区間が感情表出状態となる尤度を求めるステップを含むことを特徴とする音声処理方法。
請求項１１記載の方法において、上記感情表出は、笑いの表出、怒りの表出及び悲しみの表出のうちの予め決めた１つであることを特徴とする音声処理方法。
請求項１乃至４のいずれかに記載の方法において、上記符号帳には、各コードに対応して上記感情表出状態として笑い表出状態、怒り表出状態、悲しみ表出状態のうちの予め決めた少なくとも２つの感情表出状態における音声特徴量ベクトルの出現確率が格納されており、上記ステップ(b) は、上記少なくとも２つの感情表出状態のそれぞれについて上記音声特徴量ベクトルの出現確率に基づいてそれぞれの感情表出尤度を求めるステップを含み、上記ステップ(c) は、上記感情表出尤度に基づいてどの感情表出状態であるかを判定するステップを含むことを特徴とする音声処理方法。
請求項１乃至４のいずれかに記載の方法において、上記符号帳には、各コードに対応して上記感情表出状態として笑い表出状態、怒り表出状態、悲しみ表出状態のうちの少なくとも２つの感情表出状態における音声特徴量ベクトルの出現確率と、平静状態における音声特徴量ベクトルの出現確率とが格納されており、上記ステップ(b) は、上記少なくとも２つの感情表出状態及び平静状態のそれぞれについて上記音声特徴量ベクトルの出現確率に基づいてそれぞれの感情表出尤度及び平静状態尤度を求めるステップを含み、上記ステップ(c) は、上記少なくとも２つの感情表出状態の上記感情表出尤度と平静状態尤度に基づいてどの感情表出状態であるかを判定するステップを含むことを特徴とする音声処理方法。
請求項１４記載の方法において、上記ステップ(c) は、上記少なくとも２つの感情表出尤度のそれぞれと上記平成状態尤度の比に基いてどの感情表出状態であるかを判定することを特徴とする音声処理方法。
請求項１４記載の方法において、上記ステップ(c) は、上記少なくとも２つの感情表出尤度のそれぞれを上記区間のフレーム数に依存する重み付けし、その重み付け尤度と上記平静状態尤度と比較してどの感情表出状態であるかを判定することを特徴とする音声処理方法。
フレームごとの音声特徴量の組に基づいて音声の感情表出状態を判定する音声処理装置であり、
基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか１つ以上及び／又はこれらのフレーム間差分の少なくともいずれか１つ以上を含む音声特徴量の組から成る音声特徴量ベクトルと感情表出状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳と、
上記音声特徴量の組を量子化した音声特徴量ベクトルの感情表出状態での出現確率に基づいて少なくとも１つ以上のフレームを含む区間が感情表出状態となる尤度を求める感情表出尤度算出手段と、
上記求めた上記感情表出状態となる尤度に基づいて上記区間が感情表出状態か否かを判定する感情表出判定手段、
とを含むことを特徴とする音声処理装置。
請求項１７記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも動的特徴量の時間変化特性を含むことを特徴とする音声処理装置。
請求項１７記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特徴とする音声処理装置。
請求項１７記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はこれらのフレーム間差分を含むことを特徴とする音声処理装置。
請求項１７乃至２０のいずれかに記載の音声処理装置において、上記感情表出判定手段は、上記感情表出状態となる尤度が所定の値より高いか否かを調べ、高ければ上記区間を感情表出状態と判定する手段であることを特徴とする音声処理装置。
請求項２１に記載の音声処理装置において、上記符号帳には各コードごとに上記音声特徴量ベクトルの平静状態での出現確率が格納されており、上記音声処理装置は更に、各フレームの上記音声特徴量の組を量子化した上記符号帳中の音声特徴量ベクトルに対応する平静状態での出現確率に基づいて上記区間が平静状態となる尤度を求める平静状態尤度算出手段を含み、上記感情表出判定手段は、上記区間が感情表出状態となる尤度と、上記平静状態となる尤度との比較に基づいて上記区間が感情表出状態であるか否かを判定することを特徴とする音声処理装置。
請求項１７乃至２１のいずれかに記載の音声処理装置において、上記符号帳には、上記感情表出状態として各コードに対応して笑い表出状態、怒り表出状態、悲しみ表出状態のうちの少なくとも２つの感情表出状態における音声特徴量ベクトルの出現確率が格納されており、上記感情表出尤度算出手段は、上記少なくとも２つの感情表出状態のそれぞれについて上記音声特徴量ベクトルの出現確率に基づいてそれぞれの感情表出尤度を求める手段を含み、上記感情表出判定手段は、上記少なくとも２つの感情表出状態の上記感情表出尤度に基づいてどの感情表出状態であるかを判定する手段を含むことを特徴とする音声処理装置。
請求項１７乃至２１のいずれかに記載の音声処理装置において、上記符号帳に各コードに対応して格納されている上記感情表出状態としての笑い表出状態、怒り表出状態、悲しみ表出状態でのそのコードに対応する音声特徴量ベクトルの出現確率は、そのコードの音声特徴量ベクトルが笑い表出状態、怒り表出状態、悲しみ表出状態のいずれかとなる単独出現確率と、直前の所定数のコードの次にそのコードの音声特徴量ベクトルが笑い表出状態、怒り表出状態、悲しみ表出状態のいずれかとなる条件付確率とを含み、
上記感情表出尤度算出手段は、上記音声特徴量の組を量子化した音声特徴量ベクトルに対応する笑い表出状態、怒り表出状態、悲しみ表出状態のいずれかでの単独出現確率と、条件付確率とに基づいて上記区間が笑い表出状態、怒り表出状態、悲しみ表出状態のいずれかとなる尤度を求める手段を含むことを特徴とする音声処理方法。
請求項１乃至１６のいずれか記載の音声処理方法をコンピュータにより実行可能なプログラム。