JP3803311B2

JP3803311B2 - 音声処理方法及びその方法を使用した装置及びそのプログラム

Info

Publication number: JP3803311B2
Application number: JP2002230598A
Authority: JP
Inventors: 浩太日▲高▼; 理水野; 信弥中嶌
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2001-08-08
Filing date: 2002-08-07
Publication date: 2006-08-02
Anticipated expiration: 2022-08-07
Also published as: JP2003316378A

Description

【０００１】
【発明の属する技術分野】
この発明は音声信号を分析して、人間が発声した内容のうち強調した部分を抽出する方法、その方法に用いる音声処理方法、それを使用した装置及びそのプログラムに関する。
【０００２】
【従来の技術】
音声信号から、その発声内容のうち発話者が重要なものとして強調している部分を抽出して、その発話内容の要約を自動的に作成することが提案されている。例えば特開平10-39890号公報では、音声信号を解析してＦＦＴスペクトルやＬＰＣケプストラムなどを音声特徴量として求め、任意の区間の音声特徴量系列と、他の区間の音声特徴量系列とのＤＰマッチングを行って、これら系列間の距離を求め、この距離が所定以下の場合、これらの両区間は音韻的に類似した区間であると抽出し、時間位置情報を加えて重要部分としている。つまり音声中の繰り返し出現する言葉は重要であることが多いという現象を利用したものである。
【０００３】
また特開2000-284793公報では、話者同士による対話音声などの音声信号からＦＦＴスペクトルやＬＰＣケプストラムなどを音声特徴量として求め、この音声特徴量を用いて音素片を認識して音素片記号系列を求め、区間どうしの音素片系列のＤＰマッチングにより、両区間の距離を求め、その距離が小さいものを、つまり音韻的に類似した区間を重要部分と抽出し、更にシソーラスを用いて、複数の話題内容を推定している。
また音声中の文や単語単位を抽出する技術として、音声中の文や単語単位の語調成分とアクセント成分とを合わせたピッチパターンが、低いピッチ周波数から始まって中ごろ前半で一番高く、後半徐々に低くなり、語尾で急激に低くなって発音がとまるという日本語によく現れる性質を活用した方法がある。例えば、板橋等、「韻律情報を考慮した音声要約の一方法」日本音響学会2000年春季研究発表会講演論文集I 239〜240などである。
【０００４】
音声信号を伴う映像情報から重要なシーンをその音声信号を利用して抽出することが特開平3−80782号公報で提案されている。これには音声信号を解析してスペクトル情報、急な立ち上がりと短時間持続する信号レベルなどの音声特徴量をとらえ、予め設定されている条件、例えば観客の歓声があがった時の音声信号の音声特徴量と比べて類似または近似する部分を抽出し、それらをつなぎ合わせることが開示されている。
【０００５】
【発明が解決しようとする課題】
特開平10−39890号公報に示すものは、ＦＦＴスペクトルやＬＰＣケプストラムなど音声特徴量が、話者に依存するため、不特定発声者の音声信号や、複数の不特定話者の会話に対応できない問題があった。また、スペクトル情報を用いているため、原稿などを使用しない、自然な話し言葉や会話への適応は難しく、複数話者の同時発話が出現する環境への実現は困難である。
特開2000−284793号公報に示すものでは、重要部分を音素片記号系列として認識しているため、特開平10−39890号公報の技術と同様に原稿などを使用しない、自然な話し言葉や会話への適応は難しく、複数話者の同時発話が出現する環境への実現は困難である。また要約音声の単語認識結果とシソーラスを用いて話題要約を試みているが、定量的な評価を行っておらず、重要な単語は出現頻度が高く継続時間が長いという仮定に基づいているが、言語的な情報を利用していないため、話題に関係のない単語が抽出されてしまう問題があった。
【０００６】
また、原稿などを使用しない、自然な話し言葉は、文法が適切でないことが多く、発話方法が話者に依存するため、意味を理解できる単位としての音声段落を、基本周波数から抽出するのは、板橋秀一等、「韻律情報を考慮した音声要約の一方法」日本音響学会2000年春季研究発表会講演論文集I 239〜240の方法では問題がある。
特開平3−80782号公報に示すものは、予め抽出する条件を設定しなければならなく、また、抽出した音声区間が短く、再構成のために切り取り、合わせた場合、その切り取った部分の前後において音声の特徴が不連続となるため聞き取りにくい問題があった。
【０００７】
この発明は、前記のような従来の技術の有する欠点に鑑みてなされたもので、予め抽出したい条件を設定することなく、また、原稿などを使用しない、自然な話し言葉や会話においても、話者に依存せず、複数話者の同時発話にも依存せず、雑音環境でも安定して、音声が強調状態であるか平静状態であるかの判定ができる音声処理方法、またその方法を利用して音声の要約区間を自動的に抽出できる音声処理方法、これらの装置及びプログラムを提供することを目的とする。
【０００８】
【課題を解決するための手段】
この発明の第１の観点によれば、フレーム毎の音声特徴量の組に基づき音声の強調状態を判定する音声処理方法は、以下のステップを含む：
(a) 基本周波数、パワー、動的特徴量の時間変化特性又はこれらのフレーム間差分を含む音声特徴量の組から成る音声特徴量ベクトルと強調状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳を用い、現フレームの上記音声特徴量の組を量子化した上記符号帳中の対応する音声特徴量ベクトルの強調状態での出現確率を求め、
(b) 上記音声特徴量ベクトルの強調状態での出現確率に基づいて強調状態となる尤度を算出し、
(c) 上記強調状態となる尤度に基づいて上記現フレームを含む区間が強調状態であるか否かを判定する。
【０００９】
この発明の第２の観点によれば、第１の観点の方法において、各上記音声特徴量ベクトルを構成する重要なパラメータの１つとして、動的特徴量の時間変化特性を含むことを特定する。
この発明の第３の観点によれば、第１の観点の方法において、各上記音声特徴量ベクトルを構成する重要なパラメータとして、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特定する。
この発明の第４の観点によれば、第１の観点の方法において、各上記音声特徴量ベクトルを構成する重要なパラメータとして、少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのいずれかのフレーム間差分を含むことを特定する。
【００１０】
この発明の第５の観点によれば、第１乃至４のいずれかの観点の方法において、上記符号帳に更に音声特徴量ベクトルと対応して平静状態での出現確率が格納されており、フレームを含む区間が平静状態となる尤度を同様にして求め、強調状態となる尤度と平静状態となる尤度を比較して上記フレームを含む区間が強調状態であるか否かを判定する。
この発明の第６の観点によれば、第５の観点の方法において、上記強調状態となる尤度が上記平静状態となる尤度より高いとき、強調状態と判定する。
この発明の第７の観点によれば、第５の観点の方法において、上記強調状態となる尤度と上記平静状態となる尤度の比に基づいて判定する。
【００１１】
この発明の第８の観点によれば、第１乃至７のいずれかの観点の方法において、現在のフレームの上記音声特徴量の組を量子化した音声特徴量ベクトルに対応する強調状態での単独出現確率と、条件付確率を乗算することにより上記現フレームを含む区間が強調状態となる尤度を求める。
この発明の第９の観点によれば、第５の観点の方法において、平静状態となる尤度を、平静状態での単独出現確率と条件付確率の積にから求める。
この発明の第１０の観点によれば、第１乃至９のいずれかの観点の方法において、フレームごとの各音声特徴量として、各音声特徴量をその平均値で規格化した音声特徴量を使用する。
【００１２】
この発明の第１１の観点によれば、第８または９の観点の方法において、上記強調状態となる単独出現確率と上記強調状態となる条件付出現確率とを線形補間して算出された条件付出現確率を用いて、強調状態となる尤度を算出する。
この発明の第１２の観点によれば、第９の観点の方法において、上記平静状態となる単独出現確率と上記平静状態となる条件付出現確率とを線形補間して算出された条件付出現確率を用いて、平静状態となる尤度を算出する。
この発明の第１３の観点によれば、第１乃至４のいずれかの観点の方法において、上記強調状態での出現確率として強調状態での初期状態確率が上記符号帳に格納され、上記音声特徴量ベクトルに対応する状態遷移ごとの出力確率と状態遷移に対応する強調状態での遷移確率からなる音響モデルを用い、音声小段落における状態遷移経路ごとの上記強調状態での初期状態確率と上記出力確率と上記遷移確率に基づく尤度を強調状態となる尤度として算出する。
【００１３】
この発明の第１４の観点によれば、第１３の観点の方法において、上記符号帳に音声特徴量ベクトルと対応して更に平静状態での初期状態確率が上記符号帳に格納されており、上記音声特徴量ベクトルと対応する状態遷移ごとの出力確率と状態遷移に対応する平静状態での遷移確率からなる上記音響モデルを用い、音声小段落における状態遷移経路ごとの平静状態での初期状態確率と出力確率と遷移確率に基づく尤度を平静状態となる尤度として算出し、第１３の観点による強調状態となる確率と上記平静状態となる確率を比較して上記音声小段落が強調状態であると判定する。
【００１４】
この発明の第１５の観点によれば、第１３または１４の観点の方法において、強調状態であると判定した音声小段落を含む音声段落を要約区間と判定する。
この発明の第１６の観点によれば、第１４の観点の方法において、上記音声小段落に含まれる１フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、音声小段落が強調状態となる尤度と平静状態となる尤度の尤度比を算出し、その尤度比を基準値と比較して強調状態であるか否かを判定し、強調状態と判定された音声小段落を含む上記音声段落を要約区間と判定する。
【００１５】
この発明の第１７の観点によれば、第１６の観点の方法による上記基準値を変更して所定の要約率の要約区間を得る。
この発明の第１８の観点によれば、第１乃至４のいずれかの観点の方法において、音声段落を判定し、強調状態と判定された音声小段落を含む音声段落を要約区間と判断する。
この発明の第１９の観点によれば、第１８の観点の方法において、音声小段落が強調状態となる確率の上記平静状態となる確率に対する確率比が基準値より大きい音声小段落を含む音声段落を仮要約区間と判定し、仮要約区間の時間の総和が略所定の要約時間に、又は上記要約率が略所定の要約率となる上記基準値に対応する上記仮要約区間を要約区間と決定する。
【００１６】
この発明の第２０の観点によれば、第１９の観点の方法において、基準値を変更して要約を繰り返すことにより所望の要約率を得る。
この発明の第２１の観点によれば、第１８の観点の方法において、音声小段落が強調状態となる確率の上記平静状態となる確率に対する確率比の降順に対応する音声小段落を含む音声段落の時間を累積して要約区間の時間の総和を算出し、上記要約区間の時間の総和が略所定の要約時間に、又は上記要約率が略所定の要約率となる要約時間が得られる音声段落を要約区間と決定する。
この発明の第２２の観点によれば、上記音声処理方法を実行させる音声処理プログラムを請求する。
【００１７】
この発明の第２３の観点による音声処理装置は、
基本周波数、パワー、動的特徴量の時間変化特性又はこれらのフレーム間差分を含む音声特徴量の組から成る音声特徴量ベクトルと強調状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳と、
フレームの上記音声特徴量の組を量子化した音声特徴量ベクトルの強調状態での出現確率に基づいて上記フレームを含む区間が強調状態となる尤度を算出する強調状態確率計算部と、
算出した上記強調状態となる尤度に基づいて上記フレームを含む区間が強調状態か否かを判定する強調状態判定部、
とを含むように構成される。
【００１８】
この発明の第２４の観点によれば、第２３の観点の音声処理装置において、各上記音声特徴量ベクトルを構成する重要なパラメータの１つとして、動的特徴量の時間変化特性を含むことを特定する。
この発明の第２５の観点によれば、第２３の観点の音声処理装置において、各上記音声特徴量ベクトルを構成する重要なパラメータとして、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特定する。
この発明の第２６の観点によれば、第２３の観点の音声処理装置において、各上記音声特徴量ベクトルを構成する重要なパラメータとして、少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのいずれかのフレーム間差分を含むことを特定する。
【００１９】
この発明の第２７の観点によれば、第２３乃至２６の観点のいずれかの音声処理装置において、上記強調状態判定手段は、上記強調状態となる確率が所定の値より高いか否かを調べ、高ければ上記フレームを含む区間を強調状態と判定する強調状態判定部を含むことを特徴とする。
この発明の第２８の観点によれば、第２７の観点の音声処理装置において、上記符号帳には各コードごとに上記音声特徴量ベクトルの平静状態での出現確率が格納されており、上記音声処理装置は更に、フレームの上記音声特徴量の組を量子化した音声特徴量ベクトルの平静状態での出現確率に基づいて上記フレームを含む区間が平静状態となる確率を求める平静状態確率計算部を含み、上記強調状態判定部は、上記フレームを含む区間が強調状態となる確率と、上記平静状態となる確率との比較に基づいて上記フレームを含む区間が強調状態であるか否かを判定する。
【００２０】
この発明の第２９の観点によれば、第２７の観点の音声処理装置は更に、
入力音声信号についてフレームごとに無声区間か否かを判定する無声区間判定部と、
上記入力音声信号についてフレームごとに有声区間か否かを判定する有声区間判定部と、
所定フレーム数以上の上記無声区間で囲まれ、上記有声区間を含む上記フレームを含む区間を音声小段落と判断する音声小段落判定部と、
上記音声小段落に含まれる上記有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい上記音声小段落を末尾とする音声小段落群を音声段落とする音声段落判定部と、
上記強調状態判定部で強調状態と判定された音声小段落を含む音声段落を要約区間と判断して取出す要約区間取出部、
とを含むように構成される。
【００２１】
この発明の第３０の観点によれば、第２９の観点の音声処理装置において、上記符号帳にはコードごとに上記音声特徴量ベクトルの平静状態での出現確率が格納されており、上記音声処理装置は更に、
各上記音声小段落内のそれぞれのフレームの音声特徴量の組を量子化した音声特徴量ベクトルの平静状態での出現確率に基づいて上記音声小段落が平静状態となる確率を求める平静状態確率計算部を含み、
上記強調状態判定部は、
上記強調状態となる確率の上記平静状態となる確率に対する確率比が基準値より大きい音声小段落を含む音声段落を仮要約区間と判定する仮要約区間仮判定部と、
仮要約区間の時間の総和、又は要約率として上記仮要約区間の時間の総和の全音声信号区間に対する比率を算出し、上記仮要約区間の時間の総和が略所定の要約時間に、又は上記要約率が略所定の要約率となる上記基準値を算出して要約区間を決定する要約区間決定部、
とを含むことを特徴とする。
【００２２】
この発明の第３１の観点によれば、第２９の観点の音声処理装置において、上記符号帳には各コードの上記音声特徴量の平静状態での出現確率が格納されており、上記音声処理装置は更に、
上記音声小段落のそれぞれのフレームの音声特徴量の組を量子化した音声特徴量ベクトルの平静状態での出現確率に基づいて上記音声小段落が平静状態となる確率を求める平静状態確率計算部を含み、
上記強調状態判定部は、
上記強調状態となる確率の上記平静状態となる確率に対する確率比を音声小段落毎に算出し、上記確率比を降順に所定の確率比まで対応する音声小段落を含む音声段落を仮要約区間と判定する仮要約区間仮判定部と、
仮要約区間の時間の総和、又は要約率として上記全音声信号区間に対する上記仮要約区間の時間の総和の比率を算出し、上記仮要約区間の時間の総和が上記所定の要約時間に、又は上記要約率が上記所定の要約率となる上記所定の確率比を算出して要約区間を決定する要約区間決定部、
とを含むことを特徴とする。
【００２３】
作用
以上述べたこの発明の構成によれば、音声特徴量の組として、基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか１つ及び／又はこれらのフレーム間差分の少なくともいずれか１つを含む音声特徴量の組を用いている。音声処理の分野ではこれらの値は一般に規格化して使用されるので発声者に依存せず、この発明ではこのような音声特徴量の組の音声特徴量ベクトルとそれが強調状態で出現する確率を対応して格納した符号帳を利用し、入力音声の音声特徴量の組を量子化し、符号帳中の対応する音声特徴量ベクトルが強調状態で出現する確率を符号帳から求め、この出現確率からその強調状態か否かを判定しているため、この点からもこの発明による強調状態の判定は話者に依存しない。また、原稿などを使用しない自然な話し言葉や会話においても精度よく強調状態を判別することができる。
また前記符号帳を利用し、フレームごとの音声特徴量ベクトルの強調状態での出現確率を求め、強調状態か否かを判定し、音声小段落が１つでも含む音声段落を要約区間としているため、原稿などを使用しない自然な話し言葉や会話においても、正しく強調状態、要約区間を判定することができる。
【００２４】
【発明の実施の形態】
以下に図面を参照してこの発明の音声強調状態判定を行う音声処理方法とともにこの方法を用いた音声強調状態要約方法を説明する。
第１実施例
図１にこの発明による音声要約方法の基本手順を示す。ステップＳ１で入力音声信号を分析して音声特徴量を抽出する。この音声特徴量の組は音声処理技術においては規格化して使用されるので後で述べるように話者に依存しない規格化したパラメータとして使用する。ステップＳ２で入力音声信号の音声小段落と、複数の音声小段落から構成される音声段落を抽出し、ステップＳ３で各音声小段落を構成するフレームが平静状態か、強調状態かの発話状態を判定し、この判定に基づきステップＳ４で要約音声を作成し、音声要約を得る。
【００２５】
以下に、この発明を、原稿などを使用しない、自然な話し言葉や会話音声の、音声要約に適応する場合の実施例を述べる。音声特徴量としては、スペクトル情報などに比べて、雑音環境下でも安定して得られ、かつ発話状態の判定が話者に依存し難いものを用いる。入力音声信号から音声特徴量として基本周波数f0、パワーｐ、音声の動的特徴量の時間変化特性ｄ、無声区間T_sを抽出する。これらの音声特徴量の抽出法は、たとえば、「音響・音声工学」（古井貞煕、近代科学社、1992）、「音声符号化」（守谷健弘、電子情報通信学会、1998）、「ディジタル音声処理」（古井貞煕、東海大学出版会、1985）、「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」（嵯峨山茂樹、博士論文、1998）などに述べられている。音声の動的特徴量の時間変化は発話速度の尺度となるパラメータであり日本国特許第2976998号に記載のものを用いてもよい。即ち、スペクトル包絡を反映するLPCスペクトラム係数の時間変化特性を求め、その時間変化をもとに発話速度係数、即ち動的特徴量が求められる。より具体的にはフレーム毎にLPCケプストラム係数C₁(t), …, C_K(t)を抽出して次式のような時点tでの動的特徴量d（ダイナミックメジャー）を求める。
【数１】

ここで、±F₀は前後の音声区間フレーム数（必ずしも整数個のフレームでなくとも一定の時間区間でもよい）、KはLPCケプストラムの次数、k = 1, 2, …,Kである。発話速度の係数として動的特徴量の変化の極大点の単位時間当たりの個数、もしくは単位時間当たりの変化率が用いられる。
実施例では例えば100msを１フレーム長とし、フレームの開始点を50msずつシフトし、１フレームごとに入力信号の平均の基本周波数f0'を求める。パワーについても同様に１フレームごとに入力信号の平均パワーp'を求める。更に現フレームのf0'とｉフレーム前のf0'と後のf0'との差分をとり、それぞれΔf0'(-i), Δf0'(i)とする。パワーについても同様に現フレームのp'とｉフレーム前後のp'との差分Δp'(-i), Δp'(i)を求める。次にこれらf0'、Δf0'(-i), Δf0'(i)、p'、Δp'(-i), Δp'(i)を規格化する。この規格化は例えばf0'、 Δf0'(-i),Δf0'(i)をそれぞれ、例えば音声波形全体の平均基本周波数で割り算することにより規格化する。あるいは後述する音声小段落、又は音声段落ごとの平均基本周波数で割り算してもよいし、あるいは数秒後と又は数分後との平均基本周波数で割り算してもよい。これら規格化された値をf0"、Δf0"(-i),Δf0"(i)と表わす。p'、Δp'(-i), Δp'(i)についても同様に、発話状態判定の対象とする音声波形全体の平均パワーで割算し、規格化する。あるいは、音声小段落、音声段落ごとの平均パワーで割算してもよい。あるいは数秒毎又は数分毎の平均パワーで割算していもよい。これら規格化された値をp"、Δp"(-i), Δp"(i)と表わす。ｉの値は例えばｉ＝４とする。
【００２６】
現フレームの例えば開始時刻の前後±T₁msの区間（幅2T₁ただし、T₁は例えばフレーム長の１０倍程度と、フレーム長より十分長く選ぶので、幅2T₁の中心点は現フレームのどの時点に選んでもよい）内の、ダイナミックメジャーのピーク本数、即ち動的特徴量の変化の極大点の個数d_pを計数する。これと、現フレームの開始時刻のT₂ms前の時刻を中心とする幅2T₁内のd_pとの差成分Δd_p(-T₂)を求める。同様に、前記±T₁ms内のd_p数と、現フレームの終了時刻からT₃ms後の時刻を中心とする幅2T₁の区間内のd_pとの差成分Δd_p(T₃)を求める。これら、T₁，T₂，T₃の値はフレーム長より十分長く、ここでは例えばT₁＝T₂＝T₃＝450msとする。フレームの前後の無声区間の長さをt_SR, T_SFとする。ステップＳ１ではこれらパラメータの各値をフレームごとに抽出する。
【００２７】
ステップＳ２における入力音声の音声小段落と、音声段落を抽出する方法の例を図２に示す。音声小段落とは発話状態判定を行う単位であり、音声段落は例えば400msec以上の無声区間ではさまれた少なくとも１つ以上の音声小段落を含む区間である。
ステップS201で、入力音声信号の無声区間と有声区間を抽出する。有声／無声の判定は、周期性／非周期性の判定と等価であるとみなして、自己相関関数や変形相関関数のピーク値で判定を行なうことが多い。入力信号の短時間スペクトルからスペクトル包絡を除去した予測残差の自己相関関数、即ち変形相関関数であり、変形相関関数のピークが所定の閾値より大きいか否かによって有声／無声の判定を行う。またそのピークを与える遅延時間によってピッチ周期1/f0（基本周波数f0）の抽出を行なう。
【００２８】
ここでは音声信号から各音声特徴量をフレーム毎に分析することについて述べたが、音声信号が例えばＣＥＬＰ(Code-Excited Linear Prediction)などにより既にフレーム毎に符号化（即ち、分析）されて得られている係数もしくは符号が表す音声特徴量を用いてもよい。ＣＥＬＰによる符号には一般に線形予測係数、利得係数、ピッチ周期等が符号化されて含まれている。従ってＣＥＬＰによる符号を復号してこれらの音声特徴量を得ることができる。例えば、復号された利得係数の絶対値もしくは二乗値をパワーとして用い、ピッチ成分の利得係数の、非周期成分の利得係数に対する比に基づいて有声／無声判定を行うことができる。復号されたピッチ周期の逆数をピッチ周波数、即ち基本周波数として用いることができる。また、式(1) で説明した動的特徴量の計算に使用するLPCケプストラムは復号して得られたLPC係数を変換して求めることができる。もちろんＣＥＬＰによる符号にLSP係数が含まれていれば、これを一旦LPC係数に変換し、それから求めてもよい。このようにＣＥＬＰによる符号にはこの発明で使用できる音声特徴量が含まれているので、ＣＥＬＰによる符号を復号し、フレーム毎の必要な音声特徴量の組を取り出し、それらの音声特徴量の組に対し以下の処理を行えばよい。
【００２９】
ステップS202で、有声区間の両側の無声区間の時間t_SR, t_SFがそれぞれ予め決めたt_s秒以上になるとき、その無声区間で囲まれた有声区間を含む部分を音声小段落Sとする。この無声区間の時間t_sは例えばt_s＝400msとする。
ステップS203で、この音声小段落内の、好ましくは後半部の、有声区間内の平均パワーｐと、その音声小段落の平均パワー値P_Sの定数β倍とを比較し、ｐ＜βP_Sであればその音声小段落を末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現に検出した末尾音声小段落までを音声段落と決定する。
図３に、有声区間、音声小段落、音声段落を模式的に示す。音声小段落を前記の、有声区間を囲む無声区間の時間がt_s秒以上の条件で、抽出する。図３では、音声小段落S_j-1，S_j，S_j+1について示している。これより、音声小段落S_jについて述べる。音声小段落S_jは、Q_j個の有声区間から構成され、その平均パワーをP_jとする。音声小段落S_jに含まれるｑ番目の有声区間V_q(q=1,2,…,Q_j)の平均パワーをp_qと表す。音声小段落S_jが音声段落Ｂの末尾の音声小段落であるか否かは、音声小段落S_jを構成する後半部分の有声区間のパワーから判定する。q=Q_j-αからQ_jまでの有声区間の平均パワーp_qの平均が音声小段落S_jの平均パワーP_jより小さい時、即ち、
【数２】

を満たす時、音声小段落S_jが音声段落Ｂの末尾音声小段落であるとする。式(2) のα，βは定数であり、αはQ_j/2以下の値であり、βは例えば0.5〜1.5程度の値である。これらの値は、音声段落の抽出を最適化するように予め実験により決める。ただし、有声区間の平均パワーp_qはその有声区間内の全フレームの平均パワーであり、またこの実施例では、α=3、β=0.8とした。このようにして末尾音声小段落を区切りとして隣接する末尾音声小段落間の音声小段落群を音声段落と判定できる。
【００３０】
図１中のステップＳ３における音声小段落発話状態判定方法の例を図４に示す。ここで、発話状態とは、話者が強調して発話している状態か、平静に発話している状態かをさす。予め作成した符号帳を使ってステップS301で入力音声小段落の音声特徴量の組をベクトル量子化する。発話状態はあとで詳述するように、前述の音声特徴量である基本周波数f0", その前後ｉフレームとの差分Δf0"(-i), Δf0"(i)、平均パワーp", その前後ｉフレームとの差分Δp"(-i), Δp"(i)、ダイナミックメジャーのピーク本数d_p, 及びその差分Δd_p(-T), Δd_p(T) などのうち、予め決めた１つ以上の音声特徴量の組を使って判定する。音声特徴量の組の例は後で詳しく述べる。符号帳には予め、各コード（インデックス）と対応して量子化された音声特徴量の組の値が音声特徴量ベクトルとして格納されており、符号帳に蓄えられた音声特徴量ベクトルの中から入力音声もしくは既に分析して得られた音声のフレーム毎の音声特徴量の組と最も近いものを特定する。その特定には、一般に入力信号の音声特徴量の組と符号帳中の音声特徴量ベクトルとの歪（距離）を最小にするものを特定する。
【００３１】
符号帳の作成
図５に、この符号帳の作成法の例を示す。多数の学習用音声を被験者から採取し、発話状態が、平静状態であるものと、強調状態であるものをそれぞれ識別できるようにラベリングする（S501）。
例えば、日本語による発話の場合、被験者の発話が強調状態にあると判断する理由として、
(a) 声が大きく、名詞や接続詞を伸ばすように発話している場合、
(b) 話し始めを伸ばして話題変更を主張、意見を要約するように声を大きくしている場合、
(c) 声を大きく高くして重要な名詞などを強調している場合、
(d) 高音であるが声はそれほど大きくない場合、
(e) 苦笑いしながら、焦りから本音をごまかすようにしている場合、
(f) 周囲に同意を求める、あるいは問いかけるように、語尾が高音にしている場合、
(g) ゆっくりと力強く、念を押すように、語尾の声が大きくしている場合、
(h) 声が大きく高く、割り込んで発話する、相手より大きな声で主張している場合、
(i) 大きな声では憚れるような本音や秘密をひそひそ発言している場合、あるいは普段、声の大きい人が重要なことを小さくボソボソ発言している場合、
を挙げることができる。この例では、平静状態とは、前記の(a)〜(i)のいずれでもなく、発話が平静であると被験者が感じたものとした。
【００３２】
尚、上述では強調状態と判定する対象を発話であるものとして説明したが、音楽でも強調状態を特定することができる。ここでは歌曲において、歌声から強調状態を特定しようとした場合に、強調と感じる理由として、
(a') 声が大きく、かつ声が高い
(b') 声が力強い
(c') 声が高く、かつアクセントが強い
(d') 声が高く、声質が変化する
(e') 声を伸長させ、かつ声が大きい
(f') 声が大きく、かつ、声が高く、アクセントが強い
(g') 声が大きく、かつ、声が高く、叫んでいる
(h') 声が高く、アクセントが変化する
(i') 声を伸長させ、かつ、声が大きく、語尾が高い
(j') 声が高く、かつ、声を伸長させる
(k') 声を伸長させ、かつ、叫び、声が高い
(l') 語尾上がり力強い
(m') ゆっくり強め
(n') 曲調が不規則
(o') 曲調が不規則、かつ、声が高い
また、音声を含まない楽器演奏のみの楽曲でも強調状態を特定することができる。その強調と感じる利用として、
(a") 強調部分全体のパワー増大
(b") 音の高低差が大きい
(c") パワーが増大する
(d") 楽器の数が変化する
(e") 曲調、テンポが変化する
等がある。これらを基に符号帳を作成しておくことにより、発話に限らず歌、器楽曲の要約も行うことができることになる。従って、請求項において使用されている用語「音声」は歌や器楽曲も含むものである。
【００３３】
平静状態と強調状態の各ラベル区間について、図１中のステップＳ１と同様に、音声特徴量を抽出し（S502）、状態判定に使用する音声特徴量の組を選択する（S503）。平静状態と強調状態のラベル区間の、前記パラメータを用いて、ＬＢＧアルゴリズムで符号帳を作成する（S504）。ＬＢＧアルゴリズムについては、例えば、（Y.Linde,A.Buzo and R.M.Gray,“An algorithm for vector quantizer design,”IEEE Trans.Commun., vol.Com-28, pp.84-95,1980）がある。符号帳サイズは2^m個（ｍは１以上の整数）に可変であり、ｍビットコードC=00...0〜C=11...1に対応した量子化ベクトルが予め決められる。この符号帳作成は音声小段落ごとの全音声特徴量、又はこれより長い適当な区間ごとの全音声特徴量、あるいは学習音声全体の音声特徴量を例えばその平均値と標準偏差で標準化処理をして2^m個の音声特徴量ベクトルを生成して用いることが好ましい。
【００３４】
図４の発話状態判定処理に戻って、ステップS301で、入力音声小段落の各フレームごとに得られる音声特徴量を符号帳作成に用いたと同じ平均値と標準偏差により標準化処理し、その標準化処理された音声特徴量をこの符号帳を用いてベクトル量子化（符号化）し、フレームごとに量子化ベクトルに対応するコードを得る。この際の入力音声信号から抽出した音声特徴量パラメータのうち、発話状態判定に使用するパラメータの組は前記の符号帳作成に用いたパラメータの組と同じものである。
強調状態が含まれる音声小段落を特定するために、音声小段落中のコードＣ（量子化音声特徴量ベクトルのインデックス）を用いて、発話状態の尤度を、平静状態と強調状態のそれぞれについて求める。このために、予め、任意のコードの出現確率を、平静状態の場合と、強調状態の場合について求めておき、この出現確率とそのコードとを組として符号帳に格納しておく。以下にこの出現確率の求め方の例を述べる。前記の符号帳作成に用いた学習音声中のラベルが与えられた１つの区間（ラベル区間）内のフレーム数をｎとし、それぞれのフレームから得られる音声特徴量ベクトルのコードが時系列でC₁，C₂，C₃，…，C_nであるとき、そのラベル区間Ａが強調状態となる確率P_Aemp、平静状態となる確率P_Anrmは次式、
【数３】

で表される。ただし、P_emp(C_i｜C₁…C_i-1)はコード列C₁…C_i-1の次にコードC_iが強調状態となる条件付確率、P_nrm(C_i｜C₁…C_i-1)は同様にC₁…C_i-1に対しコードC_iが平静状態となる確率である。またP_emp(C₁)は符号帳を使って全学習音声についてフレーム毎に音声特徴量ベクトルを量子化し、これらコード中の、音声が強調状態とラベリングされた部分に存在したコードC₁の総個数を計数し、その計数値を強調状態とラベリングされた音声データの全コード数（＝フレーム数）で割算した値であり、P_nrm(C₁)はコードC₁が平静状態とラベリングされた部分に存在した個数を平静状態とラベリングされた音声データの全コード数で割算した値である。
【００３５】
この各条件付確率の計算を簡単にするために、この例ではN-gramモデル(Ｎ＜ｉ)を用いる。N-gramモデルは、ある時点でのある事象の出現はその直前のN-1個の事象の出現に依存すると近似するモデルであり、例えばｉ番目のフレームにコードC_iが出現する確率をP(C_i)=(C_i｜C_i-N+1…C_i-1)として求める。式(3), (4) 中の各条件付確率P_emp(C_i｜C₁…C_i-1), P_nrm(C_i｜C₁…C_i-1)にN-gramモデルを適用すると次式
P_emp(C_i|C₁…C_i-1)＝P_emp(C_i|C_i-N+1…C_i-1) (5)
P_nrm(C_i|C₁…C_i-1)＝P_nrm(C_i|C_i-N+1…C_i-1) (6)
のように近似できる。このような式(3), (4) 中の条件付確率P_emp(C_i｜C₁…C_i-1), P_nrm(C_i｜C₁…C_i-1) をN-gramモデルで近似した条件付確率P_emp(C_i｜C_i-N+1…C_i-1), P_nrm(C_i｜C_i-N+1…C_i-1)をラベリングされた学習音声の量子化コード列から全て求めるが、入力音声信号の音声特徴量の量子化したコード列と対応するものが学習音声から得られていない場合もある。そのため、高次の（即ちコード列の長い）条件付確率と単独出現確率とから低次の条件付出現確率とを補間して求める。具体的には以下に定義するN=3の場合であるtrigram、N=2の場合であるbigram、N=1の場合であるunigramを用いて線形補間法を施す。即ち、
N=3(trigram)：P_emp(C_i｜C_i-2C_i-1)、P_nrm(C_i｜C_i-2C_i-1)
N=2(bigram)：P_emp(C_i｜C_i-1)、P_nrm(C_i｜C_i-1)
N=1(unigram)：P_emp(C_i)、P_nrm(C_i)
であり、これら３つの強調状態でのC_iの出現確率、また３つの平静状態でのC_iの出現確率をそれぞれ用いて次の線形補間式、

によりP_emp(C_i｜C_i-2C_i-1)、P_nrm(C_i｜C_i-2C_i-1)を得ることにする。
【００３６】
Trigramの強調状態とラベリングされた学習データのフレーム数をｎとし、時系列でコードC₁, C₂, ..., C_nが得られたとき、λ_emp1, λ_emp2, λ_emp3の再推定式は次のようになる。
【００３７】
【数４】

以下同様にしてλ_nrm1, λ_nrm2, λ_nrm3も求められる。
この例では、ラベル区間Ａのフレーム数がF_Aであり、得られたコードがC₁，C₂，…，C_FAのとき、このラベル区間Ａが強調状態となる確率P_Aemp及び平静状態となる確率P_Anrmはそれぞれ、
P_Aemp=P_emp(C₃｜C₁C₂)…P_emp(C_FA｜C_FA-2C_FA-1) (9)
P_Anrm=P_nrm(C₃｜C₁C₂)…P_nrm(C_FA｜C_FA-2C_FA-1) (10)
となる。この計算ができるように前記のtrigram, bigram, unigramを任意のコードについて求めて符号帳に格納しておく。つまり符号帳には各コードに対応して音声特徴量ベクトルと、その強調状態での出現確率と、平静状態での出現確率との組が格納される。その強調状態での出現確率としては、各コードが過去のフレームで出現したコードと無関係に強調状態で出現する確率（単独出現確率）及び／又は直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが強調状態で出現する条件付確率を使用する。平静状態での出現確率も同様に、そのコードが過去のフレームで出現したコードと無関係に平静状態で出現する単独出現確率及び／又は直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが平静状態で出現する条件付確率を使用する。
【００３８】
例えば図１２に示すように符号帳には各コードC1，C2，…ごとにその音声特徴量ベクトルと、その単独出現確率が強調状態、平静状態について、また条件付確率が強調状態、平静状態についてそれぞれ組として格納されている。ここで、コードC1, C2, C3,…は符号帳の各音声特徴量ベクトルに対応したコード（インデックス）を表し、それぞれｍビットの値"00...00", "00...01", "00...10",…である。符号帳におけるｈ番目のコードをChで表し、例えばC1は第１番目のコードを表すものとする。
この発明に適用する好ましい音声特徴量の組の例としてパラメータf0"，p"，d_pを使用し、符号帳サイズ（音声特徴量ベクトル数）が2⁵の場合の強調状態及び平静状態での、unigram及びbigramの例について説明する。図６は、unigramである。縦軸はP_emp(Ch)，P_nrm(Ch)で、横軸はコードChの値であり、各Chの値の左の棒グラフはP_emp(Ch)、右の棒グラフはP_nrm(Ch)である。この例では、コードC17のunigramは
P_emp(C17)＝0.065757
P_nrm(C17)＝0.024974
となった。図６から、任意のChについて、P_emp(Ch)とP_nrm(Ch)とに有意な差があることから、強調状態の音声特徴量の組をベクトル量子化したコードと、平静状態の音声特徴量の組をベクトル量子化したコードのunigramが互いに分離していることがわかる。図７は、bigramである。P_emp(C_i｜C_i-1)とP_nrm(C_i｜C_i-1)の値の一部を図１４〜１６に示す。ただしｉはフレーム番号に対応する時系列番号であり、各コードＣは任意のコードChを取り得る。この例では、コードCh=C27のbigramは図８に示すようになった。縦軸はP_emp(C27｜C_i-1)、P_nrm(C27｜C_i-1)で、横軸はコードCh=0, 1, …，31であり、各C_i-1の左の棒グラフはP_emp(C27｜C_i-1)、右の棒グラフはP_nrm(C27｜C_i-1)である。この例ではコードC9からコードC27に遷移する確率は、
P_emp(C27｜C9)＝0.11009
P_nrm(C27｜C9)＝0.05293
であった。図８から、任意のコードC_i-1について、P_emp(C27｜C_i-1)とP_nrm(C27｜C_i-1)間に値の有意な差があり、図１４〜１６から任意のコードC_iについても同様の結果が得られたことから、強調状態の音声特徴量の組をベクトル量子化したコードと、平静状態の音声特徴量の組をベクトル量子化したコードのbigramが互いに異なる値をとっており、分離していることがわかる。このことは、その符号帳に基づいて計算するbigramが強調状態と平静状態に対し互いに異なる確率を与えることを保証している。
【００３９】
図４中のステップS302では、入力音声小段落の全フレームのコードについてのその符号帳に格納されている前記確率から、発話状態の尤度を、平静状態と強調状態について求める。図９に実施例の模式図を示す。時刻ｔから始まる音声小段落のうち、第４フレームまでをi〜i+3で示している。前記のように、ここでは、フレーム長は100ms、フレームシフトを50msとした。フレーム番号ｉ、時刻ｔ〜t+100でコードC₁が、フレーム番号i+1、時刻t+50〜t+150でコードC₂が、フレーム番号i+2、時刻t+100〜t+200でコードC₃が、フレーム番号i+3、時刻t+150〜t+250でコードC₄が得られ、つまりフレーム順にコードがC₁，C₂，C₃，C₄であるとき、フレーム番号i+2以上のフレームでtrigramが計算できる。音声小段落Ｓが強調状態となる確率をP_Semp、平静状態となる確率をP_Snrmとすると第４フレームまでの確率はそれぞれ、
P_Semp＝P_emp(C₃｜C₁C₂)P_emp(C₄｜C₂C₃) (11)
P_Snrm＝P_nrm(C₃｜C₁C₂)P_nrm(C₄｜C₂C₃) (12)
となる。ただし、この例では、符号帳からC₃，C₄の強調状態及び平静状態の各単独出現確率を求め、またC₂の次にC₃が強調状態及び平静状態で各出現する条件付確率、更にC₃が、連続するC₁，C₂の次に、C₄が、連続するC₂，C₃の次にそれぞれ強調状態及び平静状態でそれぞれ出現する条件付確率を求めると以下のようになる。
【００４０】
P_emp(C₃｜C₁C₂)＝λ_emp1P_emp(C₃｜C₁C₂)＋λ_emp2P_emp(C₃｜C₂)＋λ_emp3P_emp(C₃) (13)
P_emp(C₄｜C₂C₃)＝λ_emp1P_emp(C₄｜C₂C₃)＋λ_emp2P_emp(C₄｜C₃)＋λ_emp3P_emp(C₄) (14)
P_nrm(C₃｜C₁C₂)＝λ_nrm1P_nrm(C₃｜C₁C₂)＋λ_nrm2P_nrm(C₃｜C₂)＋λ_nrm3P_nrm(C₃) (15)
P_nrm(C₄｜C₂C₃)＝λ_nrm1P_nrm(C₄｜C₂C₃)＋λ_nrm2P_nrm(C₄｜C₃)＋λ_nrm3P_nrm(C₄) (16)
上記式(13)〜(16)を用いて式(11)と(12)で示される第3フレームまでの強調状態となる確率P_Sempと、平静状態となる確率P_Snrmが求まる。ここで、P_emp(C₃|C₁C₂), P_nrm(C₃|C₁C₂)はフレーム番号i+2において計算できる。
【００４１】
上述は第４フレームi+3までの計算について説明したが、この例では、フレーム数F_Sの音声小段落Ｓのそれぞれのフレームから得たコードがC₁，C₂，…，C_FSのとき、この音声小段落Ｓが強調状態になる確率P_Sempと平静状態になる確率P_Snrmを次式により計算する。
P_Semp＝P_emp(C₃｜C₁C₂)…P_emp(C_FS｜C_FS-2C_FS-1) (17)
P_Snrm＝P_nrm(C₃｜C₁C₂)…P_nrm(C_FS｜C_FS-2C_FS-1) (18)
これらの確率が、P_Semp＞P_Snrmであれば、その音声小段落Ｓは強調状態、P_Semp≦P_Snrmであれば、平静状態とする。
【００４２】
図１中のステップＳ４の要約音声作成は、図４中のステップS302で強調状態と判定された音声小段落を含む音声段落を繋ぎ合わせて構成される。
この発明の方法で、企業で行われた、原稿などを使用しない、自然な話し言葉や会話による会議音声を用いて、音声要約実験を行った。この例では図６〜図８に示した場合と異なる条件で強調状態の判定、要約部分の抽出を行っている。
これより、符号帳サイズ（符号数）を256として、50msを１フレームとし、シフトを50msとし、符号帳に格納された各音声特徴量ベクトルを構成する音声特徴量の組を
[f0",Δf0"(1),Δf0"(-1),Δf0"(4),Δf0"(-4),p",Δp"(1),Δp"(-1),Δp"(4),Δp"(-4),d_p,Δd_p(T),Δd_p(-T)]
としたときの実験例について述べる。発話状態判定実験は、被験者により強調状態及び平静状態とラベルがつけられた音声区間の音声特徴量を用いた。符号帳作成に用いた、強調状態707個と平静状態807個のラベルについて、各ラベル区間の、全フレームのコードを、前記の式(9), (10)によって、発話状態を判定し、この実験をclose実験とした。close実験は、符号帳の作成に使用した音声データを用いた実験であり、open実験は符号帳の作成に使用してない音声データを用いた実験である。
【００４３】
一方、符号帳作成に用いていない、強調状態173個、平静状態193個のラベルについて、各ラベル区間の、全フレームのコードを、前記の式(9), (10)によって、発話状態を判定し、この実験をopen実験とした。
評価は再現率と適合率を用いて行った。ここで再現率は被験者が設定した正解集合に対して、この実施例の方法が判定した発話状態の正解の割合であり、適合率はこの実施例の方法が判定した発話状態の数のうち、正解した割合である。結果は、

となった。ただし、
λ_emp1＝λ_nrm1＝0.41
λ_emp2＝λ_nrm2＝0.41
λ_emp3＝λ_nrm3＝0.08
とした。
【００４４】
音声特徴量は前記のように、実施例として前後参照フレーム範囲を±ｉ(i=4)とした場合は２９個存在し、組み合わせはΣ₂₉C_n個ある。ただし、Σの範囲はｎ＝１〜２９であり、₂₉C_nは29からｎ個を取る組合せである。これより、そのうちの１８種類の音声特徴量を一組とするベクトルから成る符号帳を用いた実施例について述べる。以下では再びフレームを100ms、シフト量を50msとする。図１７に示すその１８種類の音声特徴量の組み合わせ番号と、各々の音声特徴量を示す。発話状態判定実験は、被験者が設定した強調状態と平静状態のラベル区間の音声特徴量を用いた。close実験として、符号帳作成に用いた、強調状態613個と平静状態803個のラベルについて、open実験として、符号帳作成に用いていない、強調状態171個、平静状態193個のラベルについて発話状態を判定した。符号帳サイズは128で、
λ_emp1＝λ_nrm1＝0.41
λ_emp2＝λ_nrm2＝0.41
λ_emp3＝λ_nrm3＝0.08
とした。図１０は、１８組の音声特徴量の組み合わせで実験した、close実験と、open実験の再現率を示している。縦軸は再現率、横軸はパラメータの組み合わせ番号であり、○印はclose実験、×印はopen実験である。再現率の平均と分散は、
close実験平均0.94546、分散0.00013507
open実験平均0.78788、分散0.00046283
であった。図１０には、再現率0.95と0.8にそれぞれ実線を表示した。それぞれ、close実験、open実験に対応しており、例えばclose実験の再現率で0.95以上かつ、open実験の再現率で0.8以上を得るためには、音声特徴量の組み合わせで７番、１１番、１８番のいずれも使用することができる。これらはいずれも動的特徴量の時間変化特性d_pを含んでおり、これが重要なパラメータであることがわかる。また、7番及び１１番のパラメータの組は、基本周波数、パワー、動的特徴量の時間変化特性、及びそれらのフレーム間差分を含んでいることを特徴としている。又、番号１９の組はopen実験での上記条件をわずかに満たしていないが、基本周波数f0"、パワーp"、動的特徴量の時間変化特性d_pの３つのみであり、演算処理量が少なくてすむ利点がある。
【００４５】
図１０の結果より、符号帳作成に用いていない、被験者が前記(a)〜(i)の理由で、設定した強調状態のラベルと、(a)〜(i)のいずれでもなく、発話が平静であるとした平静状態であるラベルの、発話状態を判定し（open実験）、再現率を0.8以上にすることは、音声特徴量の組み合わせを選択することで可能となることがわかる。また、このことは、使用している符号長が適正に作成されていることを示している。
これより、図１７中の１８番目の音声特徴量の組み合わせの符号帳サイズ依存性についての実験例を述べる。符号帳サイズを2, 4, 8, 16, 32, 64, 128, 256と変化させたときのclose実験とopen実験の再現率を図１１に示す。縦軸に再現率、横軸は２ⁿのｎを示し、実線曲線はclose実験を、破線曲線はopen実験を示す。ただし、
λ_emp1＝λ_nrm1＝0.41
λ_emp2＝λ_nrm2＝0.41
λ_emp3＝λ_nrm3＝0.08
とした。図１１から、符号帳サイズを増加すると、再現率が上昇することがわかり、例えば、再現率を0.8以上にすることは、符号帳サイズ（符号帳に格納されているコードの数）を選択することで可能となることがわかる。また符号帳サイズが２でも再現率が0.5以上となっている。これは条件付確率を用いているためと思われる。この発明によれば、被験者が前記(a)〜(i)の理由で、設定した強調状態と、(a)〜(i)のいずれでもなく、発話が平静であるとした平静状態の音声特徴量の組をベクトル量子化して符号帳を作成した場合、任意のコードの強調状態と平静状態の出現確率は統計的に分離するので、発話状態を判定することが可能であることがわかる。
【００４６】
この発明の方法で、原稿などを使用しない、自然な話し言葉や会話による、１時間の会議音声の要約音声を作成した。要約音声は２３の音声段落から構成され、要約音声時間は、元の音声時間の、１１％の時間であった。音声段落の評価として、被験者が２３の音声段落を聴取し、８３％が意味を理解できると判定した。作成した要約音声を評価するため、要約音声を被験者が聴取し、作成した議事録と、元の音声を聴取し、作成した議事録を比較した。再現率が８６％で、検出率が８３％であった。この発明の、音声要約方法により、原稿などを使用しない、自然な話し言葉や会話の音声要約が可能になることがわかる。
【００４７】
この発明の音声強調状態判定方法の別実施形態を説明する。この場合も前述と同様に図１中のステップＳ１と同様に入力音声信号のフレームごとの音声特徴量を抽出し、例えば図１２に示した符号帳を用い、図４を参照して説明したように、入力音声信号のフレームごとの音声特徴量の組を符号帳によりベクトル量子化（ベクトル符号化）し、得られたコードが強調状態で出現する確率と平静状態で出現する確率を符号帳にコードと対応して格納されている出現確率を用いて求めるが、ここでは各フレームのコードの出現確率を、直前の２つの連続するフレームのコード列を条件とする条件付出現確率として求め、フレームごとに発話状態の判定、即ち強調状態であるか否かの判定を行う。つまり図４のステップS303における発話状態の尤度計算において、図９に示したように音声特徴量の組がベクトル符号化された場合、フレーム番号i+2では強調状態尤度P_e(i+2)と平静状態尤度P_n(i+2)を、
P_e(i+2)＝P_emp(C₃｜C₁C₂)
P_n(i+2)＝P_nrm(C₃｜C₁C₂)
により計算する。この場合も、P_emp(C₃｜C₁C₂)を式(13) により計算し、またP_nrm(C₃｜C₁C₂)を式(15)により計算することが好ましい。このようにして求めたP_e(i+2)とP_n(i+2)とを比較し、P_e(i+2)＞P_n(i+2)であればこのフレーム番号i+2は強調状態と判定し、P_e(i+2)＞P_n(i+2)でなければ、このフレームは強調状態でないと判定する。
【００４８】
次のフレーム番号i+3においては、
P_e(i+3)＝P_emp(C₄｜C₂C₃)，
P_n(i+3)＝P_nrm(C₄｜C₂C₃)
をそれぞれ計算して、P_e(i+3)＞P_n(i+3)であればこのフレームを強調状態と判定する。以下同様に各フレームについて順次強調状態か否かを判定する。
このようにして音声小段落中の強調状態と判定されたフレームの条件付出現確率P_eの音声小段落にわたる積ΠP_eと平静状態と判定されたフレームの条件付確率P_nの音声小段落にわたる積ΠP_nを求め、ΠP_e＞ΠP_nであればその音声小段落は強調状態であると判定し、ΠP_e≦ΠP_nであれば平静状態であると判定する。あるいは、強調状態と判定されたフレームのP_eの音声小段落にわたる総和ΣP_eと平静状態と判定されたフレームのP_nの音声小段落にわたる総和ΣP_nを求め、ΣP_e＞ΣP_nならその音声小段落は強調状態であると判定し、ΣP_e≦ΣP_nであれば平静状態と判定してもよい。あるいは、これら条件付確率の総積あるいは条件付確率の総和を重み付け比較して音声小段落の発話状態を判定してもよい。
【００４９】
この音声強調状態判定方法においても、用いる音声特徴量については上記の方法の場合と同様であり、出現確率も単独出現確率又はこれと条件付確率の組合せでもよく、更にこの組合せを用いる場合は、条件付確率の計算に対し線形補間法を用いることが好ましい。またこの音声強調状態判定方法においても、音声小段落又はこれよりも長い適当な区間ごとに、あるいは全体の音声信号の各音声特徴量の平均値で各音声特徴量を規格化してフレームごとの音声特徴量の組を形成し、図４のステップS301のベクトル量子化以後の処理を行うことが好ましい。音声強調状態判定方法及び音声要約方法の何れにおいても、音声特徴量の組としてはf0"、p₀"、Δf0"(i)、Δf0"(-i)、Δp"(i)、Δp"(-i)、d_p、Δd_p(T)、Δd_p(-T)の少なくともいずれかを含む組を用いる。
【００５０】
図１３を参照してこの発明による音声強調状態判定装置及び音声要約装置の実施形態を説明する。
入力部１１に音声強調状態が判定されるべき、又は音声の要約を検出する対象とする音声信号が入力され、入力部１１には必要に応じて入力音声信号をデジタル信号に変換する機能も含まれる。ディジタル化された音声信号は必要に応じて記憶部１２に一旦格納される。音声特徴量抽出部１３で前述した音声特徴量の組がフレームごとに算出される。算出した各音声特徴量は必要に応じて、音声特徴量の平均値で規格化され、量子化部１４で各フレームの音声特徴量の組が符号帳メモリ１５を参照して量子化されコードを出力する。このコードは強調状態確率計算部１６と平静状態確率計算部１７に与えられる。符号帳メモリ１５は例えば図１２に示したようなものである。
【００５１】
強調確率計算部１６によりその量子化された音声特徴量の組のコードの強調状態での出現確率が、符号帳メモリ１５に格納されている対応する出現確率を用いて、例えば式(13)又は(14) により計算される。同様に平静確率計算部１７により、前記量子化された音声特徴量の組の平静状態での出現確率が符号帳メモリ１５に格納されている対応する音声特徴量ベクトルの出現確率を用いて、例えば式(15)又は(16)により計算される。強調確率計算部１６及び平静確率計算部１７で各フレーム毎に算出された強調状態での出現確率と平静状態での出現確率及び各フレームのコードは各フレームの番号と共に記憶部１２に格納される。強調状態判定部１８はこれら計算された強調状態での出現確率と平静状態での出現確率とを比較し、前者の方が大きければそのフレームの音声は強調状態であると判定し、そうでない場合は強調状態でないと判定する。
【００５２】
これら各部の制御は制御部１９の制御のもとに順次行われる。
音声要約装置の実施形態は、図１３中の実線ブロックで示す音声強調状態判定装置に対し、更に破線ブロックが付加されて構成される。つまり、記憶部１２に格納されている各フレームの音声特徴量が無声区間判定部２１と有声区間判定部２２に与えられ、無声区間判定部２１により各フレームごとに無声区間か否かが判定され、また有声区間判定部２２により各フレームごとに有声区間か否かが判定される。これら無声区間判定結果と有声区間判定結果は音声小段落判定部２３に入力される。
【００５３】
音声小段落判定部２３はこれら無声区間判定、有声区間判定に基づき、先の方法の実施形態で説明したように所定フレーム数以上連続する無声区間に囲まれた有声区間を含む部分を音声小段落と判定する。音声小段落判定部２３の判定結果は記憶部１２に書き込まれ、記憶部１２に格納されている音声データ列に付記され、無声区間で囲まれたフレーム群に音声小段落番号を付与する。これと共に音声小段落判定部２３の判定結果は末尾音声小段落判定部２４に入力される。
末尾音声小段落判定部２４では、例えば図３を参照して説明した手法により末尾音声小段落が検出され、末尾音声小段落判定結果が音声段落判定部２５に入力され、音声段落判定部２５により各検出末尾音声小段落の次の音声小段落の開始から、次の検出末尾音声小段落の終わりまでを音声段落と判定する。この音声段落判定結果も記憶部１２に書き込まれ、記憶部１２に記憶している音声小段落番号列に音声段落列番号を付与する。
【００５４】
音声要約装置として動作する場合、強調状態確率計算部１６及び平静確率計算部１７では記憶部１２から各音声小段落を構成する各フレームの強調確率と平静確率を読み出し、各音声小段落毎の確率が例えば式(17)及び(18)により計算される。強調状態判定部１８ではこの音声小段落ごとの確率計算値を比較して、その音声小段落が強調状態か否かを判定し、要約区間取出し部２６では音声段落中の１つの音声小段落でも強調状態と判定されたものがあればその音声小段落を含む音声段落を要約区間として取出す。各部の制御は制御部１９により行われる。
音声強調状態判定装置及び音声要約装置の何れもコンピュータによりプログラムを実行させて機能させることになる。この場合は音声強調状態判定プログラム又は音声要約プログラムを通信回線を介してインターネットから、又はＣＤ−ＲＯＭ、磁気ディスクなどからプログラムメモリ２７にダウンロードし、ＣＰＵ又はマイクロプロセッサよりなる制御部１９がそのプログラムを実行することになる。なお符号帳の内容もインターネットからプログラムと同様に通信回線を介してダウンロードさせて用いてもよい。
第２実施例
前述の第１実施例による音声強調状態判定方法、音声要約方法では、任意の音声小段落において、強調状態となる確率が平静状態となる確率より大きい音声小段落を一つでも含む音声段落は全て要約として抽出されるため、任意の要約率（圧縮率）で要約することができない不都合がある。この第２実施例では、この点を改善し、任意の要約率で元の音声の要約を自動生成することができる音声処理方法、音声処理装置及び音声処理プログラムを実現する。
【００５５】
図１８に第２実施例による音声処理方法の基本手順を示す。
ステップＳ１１で音声強調確率算出処理を実行し、音声小段落の強調確率及び平静確率を求める。
ステップＳ１２では要約条件入力ステップＳ１２を実行する。この要約条件入力ステップＳ１２では例えば利用者に要約時間又は要約率又は圧縮率のうち予め決められた少なくとも１つの入力を促す情報を提供し、要約時間又は要約率又は圧縮率を入力させる。尚、予め設定された複数の要約時間又は要約率、圧縮率の中から少なくとも一つを選択する入力方法を採ることもできる。
【００５６】
ステップＳ１３では抽出条件の変更を繰り返す動作を実行し、ステップＳ１２の要約条件入力ステップＳ１２で入力された要約時間又は要約率又は圧縮率を満たす抽出条件を決定する。
ステップＳ１４で要約抽出ステップを実行する。この要約抽出ステップＳ１４では抽出条件変更ステップＳ１３で決定した抽出条件を用いて要約として採用すべき音声段落を決定し、この採用すべき音声段落の総時間長を計算する。
ステップ１５では要約再生処理を実行し、要約抽出ステップＳ１４で抽出した音声段落列を再生する。
【００５７】
図１９は図１８に示した音声強調確率算出ステップＳ１１の詳細を示す。
ステップS101で要約対象とする音声波形列を音声小段落に分離する。
ステップS102ではステップS101で分離した音声小段落列から音声段落を抽出する。音声段落とは図３で説明したように、１つ以上の音声小段落で構成され、その部分の音声を再生した場合、大多数の受聴者が意味を理解できる単位である。ステップS101, S102による音声小段落及び音声段落の抽出は図２で説明したと同様の方法で行うことができる。
ステップS103及びステップS104でステップS101で抽出した音声小段落毎に図１２で説明した符号帳と前述した式(17), (18)等を利用して各音声小段落が強調状態となる確率（強調確率）P_Sempと、平静状態となる確率（平静確率）P_Snrmとを求める。
【００５８】
ステップS105ではステップS103及びS104において各音声小段落毎に求めた強調確率P_Sempと平静確率P_Snrmなどを各音声小段落毎に仕分けして記憶手段に音声強調確率テーブルとして格納する。
図２０に記憶手段に格納した音声強調確率テーブルの一例を示す。図２０に示すM1, M2, M3, …は音声小段落毎に求めた音声小段落強調確率P_Sempと、音声小段落平静確率P_Snrmを記録した音声小段落確率記憶部を示す。これらの小段落確率記憶部M1, M2, M3, …には各音声小段落S_jの属する音声段落番号Bと、音声小段落S_jに付された音声小段落番号ｊと、開始時刻（要約対象音声の先頭から計時した時刻）終了時刻、音声小段落強調確率、音声小段落平静確率、各音声小段落を構成するフレーム数F_S等が格納される。
【００５９】
図１８における要約条件入力ステップＳ１２で入力する条件としては要約すべきコンテンツの全長T_Cを1/X（Ｘは正の整数）の時間T_S=T_C/Xに要約することを示す要約率r=1/X、あるいは要約時間T_Sを入力する。
この要約条件の設定に対し、抽出条件変更ステップＳ１３では初期値として重み係数ＷをＷ＝１に設定し、この重み係数を要約抽出ステップＳ１４に入力する。
要約抽出ステップＳ１４は重み係数Ｗ＝１として音声強調確率テーブルから各音声小段落毎に格納されている強調確率P_Sempと平静確率P_Snrmとを比較し、
WP_Semp＞P_Snrm (19)
の関係にある音声小段落を抽出すると共に、更にこの抽出した音声小段落を一つでも含む音声段落を抽出し、抽出した音声段落列の総延長時間T_G（秒）を求める。
【００６０】
抽出した音声段落列の総延長時間T_Gと要約条件で決めた所定の要約時間T_Sとを比較する。ここでT_G≒T_S（T_Sに対するT_Gの誤差が例えば±数％程度の範囲）であれば抽出した音声段落列をそのまま要約音声として再生する。
要約条件で設定した要約時間T_Sに対するコンテンツの要約した総延長時間T_Gの誤差値が規定より大きく、その関係がT_G＞T_Sであれば抽出した音声段落列の総延長時間T_Gが、要約条件で定めた要約時間T_Sより長いと判定し、図１８に示した抽出条件変更ステップＳ１３を再実行させる。抽出条件変更ステップＳ１３では重み係数がＷ＝１で抽出した音声段落列の総延長時間T_Gが要約条件で定めた要約時間T_Sより「長い」とする判定結果を受けて強調確率P_Sempに現在値より小さい重み付け係数Ｗを乗算して重み付けを施す。重み係数Ｗとしては例えばW=1-0.001×L（Lはループ回数）で求める。
【００６１】
つまり、音声強調確率テーブルから読み出した音声段落列の全ての音声小段落で求められている強調確率P_Sempの配列に１回目のループではW=1-0.001×1で決まる重み係数W=0.999を乗算し、重み付けを施す。この重み付けされた全ての各音声小段落の強調確率WP_Sempと各音声小段落の平静確率P_Snrmとを比較し、WP_Semp＞P_Snrmの関係にある音声小段落を抽出する。
この抽出結果に従って要約抽出ステップＳ１４では抽出された音声小段落を含む音声段落を抽出し、要約音声段落列を再び求める。これと共に、この要約音声段落列の総延長時間T_Gを算出し、この総延長時間T_Gと要約条件で定められる要約時間T_Sとを比較する。比較の結果がT_G≒T_Sであれば、その音声段落列を要約音声と決定し、再生する。
【００６２】
１回目の重み付け処理の結果が依然としてT_G＞T_Sであれば抽出条件変更ステップを、２回目のループとして実行させる。このとき重み係数ＷはW=1-0.001×2で求める。全ての強調確率P_SempにW=0.998の重み付けを施す。
このように、ループの実行を繰り返す毎にこの例では重み係数Ｗの値を徐々に小さくするように抽出条件を変更していくことによりWP_Semp＞P_Snrmの条件を満たす音声小段落の数を漸次減らすことができる。これにより要約条件を満たすT_G≒T_Sの状態を検出することができる。
尚、上述では要約時間T_Gの収束条件としてT_G≒T_Sとしたが、厳密にT_G=T_Sに収束させることもできる。この場合には要約条件に例えば５秒不足している場合、あと１つの音声段落を加えると１０秒超過してしまうが、音声段落から５秒のみ再生することで利用者の要約条件に一致させることができる。また、この５秒は強調と判定された音声小段落の付近の５秒でもよいし、音声段落の先頭から５秒でもよい。
【００６３】
また、上述した初期状態でT_G＜T_Sと判定された場合は重み係数Ｗを現在値よりも小さく例えばW=1-0.001×Lとして求め、この重み係数Ｗを平静確率P_Snrmの配列に乗算し、平静確率P_Snrmに重み付けを施せばよい。また、他の方法としては初期状態でT_G＞T_Sと判定された場合に重み係数を現在値より大きくW=1+0.001×Lとし、この重み係数Ｗを平静確率P_Snrmの配列に乗算してもよい。
また、要約再生ステップＳ１５では要約抽出ステップＳ１４で抽出した音声段落列を再生するものとして説明したが、音声付の画像情報の場合、要約音声として抽出した音声段落に対応した画像情報を切り出してつなぎ合わせ、音声と共に再生することによりテレビ放送の要約、あるいは映画の要約等を行うことができる。
【００６４】
また、上述では音声強調確率テーブルに格納した各音声小段落毎に求めた強調確率又は平静確率のいずれか一方に直接重み係数Ｗを乗算して重み付けを施すことを説明したが、強調状態を精度良く検出するためには重み係数Ｗに各音声小段落を構成するフレームの数Ｆ乗してW^Fとして重み付けを行うことが望ましい。式(17)及び(18)で算出する条件付の強調確率P_Sempは各フレーム毎に求めた強調状態となる確率を音声小段落にわたって乗算して求めており、また平静状態となる確率P_Snrmも各フレーム毎に算出した平静状態となる確率を音声小段落にわたって乗算して求めている。そこで、例えば強調確率P_Sempに重み付けを施すには各フレーム毎に求めた強調状態となる確率に係数Ｗで重み付けして音声小段落にわたって乗算すればW^Fの重み付けを施したことになる。
【００６５】
この結果、フレームの数Ｆに応じて重み付けの影響が増減され、フレーム数の多い音声小段落ほど、つまり延長時間が長い音声小段落程大きい重みが付されることになる。
但し、単に強調状態を判定するための抽出条件を変更すればよいのであれば各フレーム毎に求めた強調状態となる確率の積又は平静状態となる確率の積に重み係数Ｗを乗算するだけでも抽出条件の変更を行うことができる。従って、必ずしも重み付け係数ＷをＷ^Fとする必要はない。
また、上述では抽出条件の変更手段として音声小段落毎に求めた強調確率P_Semp又は平静確率P_Snrmに重み付けを施してP_Semp＞P_Snrmを満たす音声小段落の数を変化させる方法を採ったが、他の方法として全ての音声小段落の強調確率P_Sempと平静確率P_Snrmに関してそれぞれその確率比P_Semp/P_Snrmを演算し、この確率比の降順に対応する音声小段落を含む音声段落を同一段落は一回に限定して累積して、それらの音声段落の累積時間を算出し、その時間和、即ち要約区間の時間の総和が、略所定の要約時間に合致する場合、そのときの累積音声段落の時刻順配列を要約と決定して要約音声を編成してもよい。
【００６６】
この場合、編成した要約音声の総延長時間が要約条件で設定した要約時間に対して過不足が生じた場合には、強調状態にあると判定するための確率比P_Semp/P_Snrmの判定閾値を変更すれば抽出条件を変更することができる。即ち、判定閾値を大きくすれば、強調状態と判定される音声小段落の数は減少するので要約区間として検出される音声段落数も減少し、総要約時間も短くなる。判定閾値を小さくすればその逆となる。この抽出条件変更方法を採る場合には要約条件を満たす要約音声を編成するまでの処理を簡素化することができる利点が得られる。
上述では各音声小段落毎に求める強調確率P_Sempと平静確率P_Snrmを各フレーム毎に算出した強調状態となる確率の積及び平静状態となる確率の積で算出するものとして説明したが、他の方法として各フレーム毎に強調状態となる確率を求め、それらの音声小段落内の平均値を求め、この平均値をその音声小段落の強調確率P_Semp及び平静確率P_Snrmとして用いることもできる。従って、この強調確率P_Semp及び平静確率P_Snrmの算出方法を採る場合には重み付けに用いる重み付け係数Ｗはそのまま強調確率P_Semp又は平静確率P_Snrmに乗算すればよい。
【００６７】
図２１を参照してこの第２実施例による要約率を自由に設定できる音声処理装置を説明する。この実施例では図１３に示した音声強調状態要約装置の構成に要約条件入力部３１と、音声強調確率テーブル３２と、強調小段落抽出部３３と、抽出条件変更部３４と、仮要約区間判定部３５と、この仮要約区間判定部３５の内部に要約音声の総延長時間を求める総延長時間算出部３５Ａと、この総延長時間算出部３５Ａが算出した要約音声の総延長時間が要約条件入力部３１でユーザが入力した要約時間に対し、その誤差が予め決められた値の範囲に入っているか否かを判定する要約区間決定部３５Ｂと、要約条件に合致した要約音声を保存し、再生する要約音声保存・再生部３５Ｃを設けた構成とした点を特徴とするものである。
【００６８】
入力音声から図１３で説明したように、フレーム毎に音声特徴量が求められ、この音声特徴量に従って強調確率計算部１６と平静確率計算部１７でフレーム毎に強調確率と、平静確率とを算出し、これら強調確率と平静確率を各フレームに付与したフレーム番号と共に記憶部１２に格納する。更に、このフレーム番号に音声小段落判定部で判定した音声小段落に付与した音声小段落番号ｊとその音声小段落が属する音声段落番号Ｂが付記され、各フレーム及び音声小段落にアドレスが付与される。
この実施例による音声処理装置では強調確率算出部１６と平静確率算出部１７は記憶部１２に格納している各フレームの強調確率と平静確率を読み出し、この強調確率及び平静確率から各音声小段落毎に強調確率P_Sempと平静確率P_Snrmとを求め、これら強調確率P_Sempと平静確率P_Snrmを音声強調確率テーブル３２に格納する。
【００６９】
音声強調確率テーブル３２には各種のコンテンツの音声波形の音声小段落毎に求めた強調確率と平静確率とが格納されており、いつでも利用者の要求に応じて要約を実行できる。利用者は要約条件入力部３１に要約条件を入力する。ここで言う要約条件とは要約したいコンテンツの名称と、そのコンテンツの全長時間に対する要約率ｒを指す。要約条件としてはコンテンツの全長を1/10に要約するか、或は時間で１０分に要約するなどの入力方法が考えられる。ここで例えば要約率r=1/10と入力した場合は要約時間算出部３１Ａはコンテンツの全長時間を1/10にする時間を算出し、その算出した要約時間を要約区間仮判定部３５の要約区間決定部３５Ｂに送り込む。
【００７０】
要約条件入力部３１に要約条件が入力されたことを受けて制御部１９は要約音声の生成動作を開始する。その開始の処理としては音声強調確率テーブル３２から利用者が希望したコンテンツに対して強調確率と平静確率を読み出す。読み出された強調確率と平静確率を強調小段落抽出部３３に送り込み、強調状態にあると判定される音声小段落番号を抽出する。
強調状態にある音声小段落を抽出するための条件を変更する方法としては上述した強調確率P_Sempと平静確率P_Snrmに対する相対重み付け係数Ｗを変更してWP_Semp＞P_Snrmの関係にある音声小段落を抽出し、それら音声小段落を含む音声段落により要約音声を得る方法と、重み付き確率比WP_Semp/P_Snrmを算出し、この重み係数を変更して重み付き確率比の降順に強調音声段落を含む音声段落の時間を１回に制限して累算して要約時間を得る方法とを用いることができる。
【００７１】
抽出条件の初期値としては重み付けにより抽出条件を変更する場合には重み付け係数Ｗの初期値をW=1としてもよい。また、各音声小段落毎に求めた強調確率P_Sempと平静確率P_Snrmの確率比P_Semp/P_Snrmの値に応じて強調状態と判定する場合は初期値としてその比の値が例えばP_Semp/P_Snrm≧１である場合を強調状態と判定してもよい。
この初期設定状態で強調状態と判定された音声小段落番号と開始時刻、終了時刻を表わすデータを強調小段落抽出部３３から要約区間仮判定部３５に送り込む。要約区間仮判定部３５では強調状態と判定された小段落番号を含む音声段落を記憶部１２に格納している音声段落列から検索し、抽出する。抽出した音声段落列の総延長時間を総延長時間算出部３５Ａで算出し、その総延長時間と要約条件として入力された要約時間とを要約区間決定部３５Ｂで比較する。比較結果が要約条件を満たすか否かの判定は、例えば要約総時間T_Gと入力要約時間T_Sが予め決めた許容誤差ΔTに対し、｜T_G-T_S｜≦ΔTを満足しているか否かを判定してもよいし、予め決めた１より小さい性の値δに対し0＜｜T_G-T_S｜＜δを満足しているか否かを判定してもよい。比較の結果が要約条件を満たしていれば、その音声段落列を要約音声保存・再生部３５Ｃで保存し、再生する。この再生動作は強調小段落抽出部３３で強調状態と判定された音声小段落の番号から音声段落を抽出し、その音声段落の開始時刻と終了時刻の指定により各コンテンツの音声データ或は映像データを読み出して要約音声及び要約映像データとして送出する。
【００７２】
要約区間決定部３５Ｂで要約条件を満たしていないと判定した場合は、要約区間決定部３５Ｂから抽出条件変更部３４に抽出条件の変更指令信号を出力し、抽出条件変更部３４に抽出条件の変更を行わせる。抽出条件変更部３４は抽出条件の変更を行い、その抽出条件を強調小段落抽出部３３に入力する。強調小段落抽出部３３は抽出条件変更部３４から入力された抽出条件に従って再び音声強調確率テーブル３２に格納されている各音声小段落の強調確率と平静確率との比較判定を行う。
強調小段落抽出部３３が抽出した強調音声小段落は再び要約区間仮判定部３５に送り込まれ、強調状態と判定された音声小段落を含む音声段落の抽出を行わせる。この抽出された音声段落の総延長時間を算出し、その算出結果が要約条件を満たすか否かを要約区間決定部３５Ｂで行う。この動作が要約条件を満たすまで繰り返され、要約条件が満たされた音声段落列が要約音声及び要約映像データとして記憶部１２から読み出され再生され、ユーザ端末に配信される。
【００７３】
この第２実施例による音声処理方法はコンピュータによりプログラムを実行させて実現することになる。この場合は符号帳及び処理プログラムを通信回線を介してダウンロードしたり、又はCD-ROM、磁気ディスク等の記憶媒体に格納されたプログラムをインストールして計算機内のＣＰＵ等の処理装置で本発明の方法を実行させることも可能である。
第３実施例
第１実施例で説明した図１のステップＳ３における発話状態判定処理は、図４及び１２を参照して説明したように、被験者の音声を分析して強調状態及び平静状態とラベルされた区間の各音声特徴量ベクトルについて予め求めた単独出現確率及び条件付出現確率を計算して符号帳にコードと対応して格納しておき、入力音声小段落の一連のフレームのコードから音声小段落が強調状態となる確率と平静状態となる確率を例えば式(17)及び(18)で求め、それらの大小関係により音声小段落が強調状態か平静状態かを判定したが、この第３実施例では音響モデルとして隠れマルコフモデル(HMM：Hidden Markov Model)を使用して判定を行う例を以下に説明する。
【００７４】
この実施例では、例えば予め被験者の学習用音声信号データ中の強調状態とラベル付けされた多数の区間と平静状態とラベル付けされた多数の区間から強調状態のHMMと平静状態のHMMをそれぞれ作成し、入力音声小段落の強調状態HMMに対する尤度と平静状態HMMに対する尤度を求め、その大小関係から発話状態を判定する。
HMMは一般に以下のパラメータにより構成される。
Ｓ：状態の有限集合；Ｓ＝｛S_i｝
Ｙ：観測データ集合；Ｙ＝｛y₁,..., y_t｝
Ａ：状態遷移確率の集合；Ａ＝｛a_ij｝
Ｂ：出力確率の集合；Ｂ＝｛b_j(y_t)｝
π：初期状態確率の集合；π＝｛π_i｝
図２２Ａ，２２Ｂは状態数４(i=1,2,3,4)の場合の典型的な強調状態HMMと平静状態HMMの例を示す。この発明の実施例において、例えば学習音声データ中の強調状態と平静状態のラベル区間を、予め決めた状態数４にモデル化する場合、強調状態のHMMの状態における有限集合S_emp=｛S_emmpi｝はS_emp1, S_emp2, S_emp3, S_emp4であり、平静状態のHMMの状態における有限集合S_nrm=｛S_nrmi｝はS_nrm1, S_nrm2, S_nrm3, S_nrm4である。観測データ集合Ｙの要素｛y₁…,y_t｝は強調状態と平静状態のラベル区間の量子化された音声特徴量の組である。この実施例においても音声特徴量として、基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか１つ及び／又はそれらのフレーム間差分の少なくともいずれか１つを含む音声特徴量の組を使用する。a_empijは状態S_empiからS_empjに遷移する確率を示し、b_empj(y_t)は状態S_empjに遷移してy_tを出力する出力確率を示す。初期状態確率はπ_emp(y₁)、π_nrm(y₁)となる。a_empij, a_nrmij, b_empj(y_t), b_nrmj(y_t)は学習音声からＥＭ(Expectation-Maximization)アルゴリズム、または前向き・後ろ向きアルゴリズムによって推定する。
【００７５】
以下に強調状態のHMMの設計の概要を説明する。
ステップＳ１：まず、学習音声データ中の強調状態又は平静状態とラベル付けされた全ての区間のフレームを分析して各フレームの予め決めた音声特徴量の組を求め、量子化符号帳を作る。例えば、ここでは、音声特徴量として第１実施例の実験で使用した後述する図１７に組み番号７で示す１３個のパラメータを含む音声特徴量の組を使用するものとし、量子化符号帳として、１３次元ベクトルの符号帳を１つ作成する。量子化符号帳のサイズをＭとし、各ベクトルに対応するコードをCm, (1, …, M)と表し、各コードに対応して学習により求めた音声特徴量ベクトルが格納された量子化符号帳を作成する。
ステップＳ２：学習音声データ中の強調状態と平静状態の全てのラベル区間のフレームの音声特徴量の組を量子化符号帳により量子化して、各強調ラベル区間の音声特徴量ベクトルのコード列Cm_t, t=1,…,LN、（LNは区間のフレーム数）を得る。第１実施例で述べたように、量子化符号帳の各コードCmの強調状態での出現確率P_emp(Cm)が求まり、これが初期状態確率π_emp(Cm)となる。同様に、平静状態での出現確率P_nrm(Cm)が求まり、これが初期状態確率π_nrm(Cm)となる。図２３ＡはコードCmの番号とそれに対応する初期状態確率π_emp(Cm)とπ_nrm(Cm)の関係を表として示す。
ステップＳ３：強調状態HMMの状態数は任意に決めてよい。ここでは例えば図２２Ａ、２２Ｂの場合、強調状態HMMと平静状態HMMの状態数はいずれも４とした場合を示し、強調状態のHMMは状態S_empi、状態S_emp2、状態S_emp3、状態S_emp4が、平静状態のHMMは状態S_nrm1、状態S_nrm2、状態S_nrm3、状態S_nrm4が設けられている。
【００７６】
学習音声データの強調ラベル区間の一連のフレームから得たコード列から状態の遷移回数を計算し、それに基づいてＥＭアルゴリズム及び前向き・後ろ向きアルゴリズムを使って遷移確率a_empij, a_nrmijと、出力確率b_empj(Cm), b_nrmj(Cm)を最尤推定する。これらの計算方法については例えばBaum, L.E.,"An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Function of a Markov Process", In-equalities, vol.3, pp.1-8(1972)に示されている。図２３Ｂ、２３Ｃにそれぞれの状態に対して設けられる遷移確率a_empij, a_nrmijを示し、図２４に強調状態HMMのそれぞれの状態S_empj, 及び平静状態HMM のそれぞれの状態S_nrmj, (j=1,…,4)での各コードの出力確率b_empj(Cm), b_nrmj(Cm)を表で示す。
【００７７】
これら状態遷移確率a_empij, a_nrmijとコードの出力確率b_empj(Cm), b_nrmj(Cm)はそれぞれ表として例えば図１3の装置の符号帳メモリ１５内に格納され、以下に説明する入力音声信号の発話状態の判定に使用される。なお、出力確率の表は第１及び第２実施例における符号帳に対応する。
このようにして設計した強調状態HMMと平静状態HMMを使って入力音声小段落の発話状態を以下のようにして判定することができる。
入力音声小段落の一連のフレーム(フレーム数FN)から得た音声特徴量の組の列が得られ、それぞれの音声特徴量の組を量子化符号帳により量子化してコード列｛Cm₁, Cm₂, …,Cm_FN｝を得る。このコード列を、上記強調状態HMMで状態S_emp1から開始して状態S_emp4に達する全ての取り得る遷移経路について、音声小段落が強調状態となる確率（尤度）を算出する。ある経路ｋの遷移経路について以下に説明する。図２５に、音声小段落の各フレームについて、コード列、状態、状態遷移確率、出力確率をまとめて示す。強調状態HMMでの経路ｋの状態系列Ｓ^k _empがＳ^k _emp=｛S^k _emp1, S^k _emp2, …, S^k _empFN｝であるときの強調状態となる確率P(Ｓ^k _emp)は、次式により求められる。
【数５】

全ての経路ｋについて式(20)を算出する。音声小段落が強調状態となる確率P_empHMMを例えば、最尤経路上の強調状態となる確率とすると、次式で表される。
【数６】

あるいは、全ての経路についての上記式(20)の和で次式
【数７】

として求めてもよい。
同様に、平静状態のHMMについて、経路ｋの状態系列Ｓ^k _nrmがＳ^k _nrm=｛S^k _nrm1, S^k _nrm2, …, S^k _nrmFN｝であるときの強調状態となる確率P(Ｓ^k _nrm)は次式、
【数８】

により求める。音声小段落が平静状態となる確率P_nrmHMMを最尤経路上の平静状態となる確率とする場合、次式
【数９】

で表される。あるいは、全ての経路についての上記式(22)の和で次式
【数１０】

として求めてもよい。
音声小段落について、強調状態確率P_empHMMと平静状態確率P_nrmHMMを比較し、前者が大きければ音声小段落は強調状態であると判定し、後者が大きければ音声小段落は平静状態であると判定する。あるいは、確率比P_empHMM/P_nrmHMMが予め決めた基準値より大きければ強調状態、基準値以下であれば平静状態と判定してもよい。
【００７８】
第３実施例で説明したHMMを使用した強調状態確率及び平静状態確率の計算は、音声要約を行う第２実施例で説明した図１８のステップＳ１１、詳しくは、図１９のステップS103, S104における音声強調確率算出処理に利用してもよい。即ち、式(17), (18)により確率P_Semp, P_Snrmを求める代わりに式(21), (23)又は式(21'), (23')により求めた強調状態確率P_empHMM及び平静状態確率P_nrmHMMを使用し、図２０に示した音声強調確率テーブルに格納してもよい。確率比P_empHMM/P_nrmHMMと比較する基準値の値を変化させることにより、要約率を変えることができることは第２実施例の場合と同様である。
【００７９】
【発明の効果】
以上述べたようにこの発明によれば、自然な話し言葉の音声の、音声強調状態や音声段落を抽出でき、音声小段落の発話の強調状態を判定できる。この方法を使用して、強調状態である音声小段落を含む音声段落を切り取り、合わせて再構成した音声が、元の音声の重要部分を伝える、要約音声を作成することが可能となる。しかも発話状態の判定や音声要約は話者に依存しない。
【図面の簡単な説明】
【図１】この発明による第1実施例の音声要約方法の基本手順例を示す流れ図。
【図２】図１中のステップＳ２において、入力音声から、有声区間、音声小段落、音声段落を抽出する手順の例を示す流れ図。
【図３】有声区間、音声小段落、音声段落の関係を説明するための図。
【図４】図１中のステップＳ３における入力音声小段落の発話状態を判定する手順の例を示す流れ図。
【図５】この発明において用いられる、符号帳を作成する手順の例を示す流れ図。
【図６】音声特徴量をベクトル量子化したコードのunigramの例を示す図。
【図７】音声特徴量をベクトル量子化したコードのbigramの例を示す図。
【図８】図７に示したbigramのうち、コードCh=27のbigramを示す図。
【図９】発話状態尤度計算を説明するための図。
【図１０】１８組のパラメータの組み合わせで実験した、close実験とopen実験の再現率を示す図。
【図１１】符号帳サイズを変化させたときの、close実験とopen実験の再現率を示す図。
【図１２】符号帳の記憶例を示す図。
【図１３】この発明による音声強調状態判定装置及び音声要約装置の各機能構成例を示す図。
【図１４】音声特徴量をベクトル量子化したbigramの例を示す図。
【図１５】図１４の続きを示す図。
【図１６】図１５の続きを示す図。
【図１７】実際に用いた音声特徴量のパラメータの組合せの例を示す図。
【図１８】この発明による第2実施例の音声要約方法を説明するフローチャート。
【図１９】音声強調確率テーブルの作成方法を示すフローチャート。
【図２０】音声強調確率テーブルを説明するための図。
【図２１】第２実施例の音声強調状態判定装置及び音声強調状態要約装置の構成例を示すブロック図。
【図２２】Ａは第３実施例における強調状態HMMを説明するための図、Ｂは第3実施例における平静状態HMMを説明するための図。
【図２３】Ａは各コードに対する強調状態の初期状態確率と平静状態の初期状態確率を示し、Ｂは強調状態での各遷移状態に対し設けられる状態遷移確率の表を示し、Ｃは平静状態での各遷移状態に対し設けられる状態遷移確率の表を示す図。
【図２４】強調状態の各遷移状態と平静状態の各遷移状態でのそれぞれのコードの出力確率の表を示す。
【図２５】１つの音声小段落における一連のフレームから得たコード列とそれらのコードがとる１つの状態遷移系列及びそれに従った状態遷移確率と出力確率をまとめた表を示す。

Claims

フレーム毎の音声特徴量の組に基づき音声の強調状態を判定する音声処理方法であって、
(a) 基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうちの少なくともいずれか１つを含む音声特徴量の組から成る音声特徴量ベクトルと強調状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳を用い、複数のフレームから構成される区間において、該区間内の各フレームの上記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を上記符号帳から求めるステップと、
(b) 上記区間内の各フレームの上記音声特徴量ベクトルの強調状態での出現確率を該区間内で乗算または和算し、その計算結果に基づいて、該区間が強調状態となる尤度を算出するステップと、
(c) 上記強調状態となる尤度に基づいて上記区間が強調状態であるか否かを判定するステップ、
とを含むことを特徴とする音声処理方法。
請求項１記載の方法において、各上記音声特徴量ベクトルは、少なくとも動的特徴量の時間変化特性を含むことを特徴とする音声処理方法。
請求項１記載の方法において、各上記音声特徴量ベクトルは、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特徴とする音声処理方法。
請求項１乃至３のいずれかに記載の方法において、上記符号帳には更に音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率も格納されており、
上記ステップ(a) は、更に上記区間内の各フレームの上記音声特徴量の組を量子化して求めたコードと対応する上記音声特徴量ベクトルの平静状態での出現確率も上記符号帳から求めるステップ(a1)を含み、
上記ステップ(b) は、更に上記区間内の各フレームの上記音声特徴量ベクトルの平静状態での出現確率を該区間内で乗算または和算し、その計算結果に基づいて上記区間が平静状態となる尤度も算出するステップ(b-1)を含み、
上記ステップ(c) は、上記区間が上記強調状態となる尤度と上記平静状態となる尤度を比較して上記区間が強調状態であるか否かを判定するステップであることを特徴とする音声処理方法。
請求項４記載の方法において、上記ステップ(c) は上記強調状態となる尤度が上記平静状態となる尤度より高いとき、強調状態と判定するステップであることを特徴とする音声処理方法。
請求項４記載の方法において、上記ステップ(c) は、上記強調状態となる尤度と上記平静状態となる尤度の比に基づいて判定するステップであることを特徴とする音声処理方法。
請求項１乃至３のいずれかに記載の方法において、上記符号帳に各コードに対応して格納されている上記強調状態での出現確率は、直前の所定数のコードの次にそのコードの音声特徴量ベクトルが強調状態で出現する条件付確率であり、
上記ステップ(a)における上記強調状態での出現確率とは上記区間内におけるフレームの位置で決まる、強調状態での所定の次数の条件付確率であり、
上記所定の次数とは、上記符号帳に格納されている条件付確率のうち最も高い次数である、
ことを特徴とする音声処理方法。
請求項４に記載の方法において、上記符号帳に各コードに対応して格納されている上記平静状態での出現確率は、直前の所定数のコードの次にそのコードの音声特徴量ベクトルが平静状態で出現する条件付確率であり、
上記ステップ(a1)における上記平静状態での出現確率とは、上記区間内におけるフレームの位置で決まる、平静状態での所定の次数の条件付確率であり、
上記所定の次数とは上記符号帳に格納されている条件付確率のうち最も高い次数である、
ことを特徴とする音声処理方法。
請求項１乃至８のいずれかに記載の方法において、上記ステップ(a)における上記フレームごとの各音声特徴量は、そのフレームを含む区間の各音声特徴量の平均値でそれぞれ規格化したものであり、この規格化された音声特徴量の組が上記音声特徴量の組であることを特徴とする音声処理方法。
請求項７記載の方法において、上記ステップ(a) における上記所定の次数の条件付確率が上記符号帳中に存在しない場合は、上記符号帳に格納されている、０次から上記所定の次数より１つ低い次数までの強調状態での条件付確率を線形補間して、上記所定の次数の条件付確率としたものであることを特徴とする音声処理方法。
請求項８記載の方法において、上記ステップ(a1) における上記平静状態での所定の次数の条件付確率が上記符号帳中に存在しない場合は、上記符号帳に格納されている、０次から上記所定の次数より１つ低い次数までの平静状態での条件付確率を線形補間して、上記所定の次数の条件付確率としたものであることを特徴とする音声処理方法。
請求項１乃至３のいずれかに記載の方法において、上記ステップ(a) は、更に
(a-1) フレームごとの音声信号について、無声区間か有声区間か判定するステップと、
(a-2) 所定フレーム数以上の無声区間で囲まれ、少なくとも１フレーム以上の有声区間を含む部分を音声小段落とし、その音声小段落を上記請求項１乃至３のいずれか中の上記区間と判断し、音声小段落の後半部に含まれる上記１フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定するステップ、
とを含み、
上記ステップ(c) は、上記音声小段落が強調状態であるか否かを判定することに加えて、強調状態と判定された音声小段落を含む音声段落を要約区間と判断するステップも含むことを特徴とする音声処理方法。
請求項１２に記載の方法において、上記符号帳には音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率を更に格納しており、
上記ステップ(a) は、更に上記音声小段落内の各フレームの上記音声特徴量の組を量子化して求めたコードと対応する上記音声特徴量ベクトルの平静状態での出現確率も上記符号帳から求めるステップも含み、
上記ステップ(b) は、更に上記音声小段落内の各フレームの上記平静状態での出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて上記音声小段落が平静状態となる尤度を求めるステップを含み、
上記ステップ(c) は、
(c-1) 上記音声小段落が強調状態となる尤度の上記平静状態となる尤度に対する尤度比が基準値より大きい音声小段落を含む音声段落を強調状態と判定することに加えその強調状態と判定された音声段落を仮要約区間と判定するステップと、
(c-2) 上記仮要約区間の時間の総和、又は要約率として上記仮要約区間の時間の総和の、要約対象全区間の時間に対する比率を算出するステップと、
(c-3) 上記仮要約区間の時間の総和が、略所定の時間であるか否か、又は上記仮要約区間の要約率が略所定の要約率であるか否か、を判断し、略所定の時間又は要約率である場合には、上記仮要約区間を要約区間と決定し、略所定の時間又は要約率でない場合には上記基準値を変更して上記ステップ（ c-1 ）に戻るステップと、
であることを特徴とする音声処理方法。
請求項１３に記載の方法において、上記ステップ(c-3) における上記基準値を変更する処理は、
上記仮要約区間の時間の総和が略所定の要約時間より大きい場合、又は仮要約区間の要約率が略所定の要約率より大きい場合には、上記基準値を増加させ、
上記仮要約区間の時間の総和が略所定の要約時間より小さい場合、又は仮要約区間の要約率が略所定の要約率より小さい場合には、上記基準値を減少させる処理である
ことを特徴とする音声処理方法。
請求項１２に記載の方法において、上記符号帳には音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率が更に格納されており、
上記ステップ(a) は、更に上記音声小段落内の各フレームの上記音声特徴量の組を量子化して求めたコードにより上記符号帳の音声特徴量ベクトルに対応する平静状態での出現確率を求めるステップを含み、
上記ステップ(b) は、更に上記平静状態での出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて上記音声小段落が平静状態となる尤度を算出するステップを含み、
上記ステップ(c)における要約区間の決定は、
(c-1) 上記音声小段落が強調状態となる尤度の上記平静状態となる尤度に対する尤度比を音声小段落毎に算出するステップと、
(c-2) 上記尤度比の降順に対応する音声小段落を含む音声段落の時間を累積して要約区間の時間の総和を算出し、又は上記累積した要約区間の時間の総和の要約対象全区間の時間に対する比率を算出し、上記要約区間の時間の総和が略所定の要約時間に、又は上記比率が略所定の比率になるまで、上記累積する降順における音声小段落を含む音声段落を順次増加し、その増加終了時における上記累積した各音声段落の時間と対応する各音声段落を要約区間と決定するステップと、
であることを特徴とする音声処理方法。
請求項１乃至１５のいずれかに記載の音声処理方法の各ステップをコンピュータに実行させる音声処理プログラム。
フレームごとの音声特徴量の組に基づいて音声の強調状態を判定する音声処理装置であり、
基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の６つのうちの少なくともいずれか１つを含む音声特徴量の組を量子化したコードとし、そのコードと対応する音声特徴量ベクトルの強調状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳と、
複数のフレームから構成される区間において、該区間内の各フレームの上記音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの強調状態での出現確率を上記符号帳から求め、これら出現確率を該区間内で乗算または和算し、その計算結果に基づいて上記区間が強調状態となる尤度を求める強調状態確率計算部と、
上記求めた強調状態となる尤度に基づいて上記区間が強調状態か否かを判定する強調状態判定部、
とを含むことを特徴とする音声処理装置。
請求項１７記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも動的特徴量の時間変化特性を含むことを特徴とする音声処理装置。
請求項１７記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特徴とする音声処理装置。
請求項１７乃至１９のいずれかに記載の音声処理装置において、上記強調状態判定部は、上記強調状態となる尤度が所定の値より高いか否かを調べ、高ければ上記区間を強調状態と判定する強調状態判定部であることを特徴とする音声処理装置。
請求項２０に記載の音声処理装置において、上記符号帳には更に各コードごとに上記音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率も格納されており、上記音声処理装置は更に、上記区間内の各フレームの上記音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの平静状態での出現確率を上記符号帳から求め、これら平静状態での出現確率を該区間内で乗算または和算し、その計算結果に基づいて上記区間が平静状態となる尤度を求める平静状態確率計算部を含み、上記強調状態判定部は、上記区間が強調状態となる尤度と、上記平静状態となる尤度との比較に基づいて上記区間が強調状態であるか否かを判定するものであることを特徴とする音声処理装置。
請求項２０に記載の音声処理装置は、更に、
入力音声信号についてフレームごとに無声区間か否かを判定する無声区間判定部と、
上記入力音声信号についてフレームごとに有声区間か否かを判定する有声区間判定部と、
所定フレーム数以上の上記無声区間で囲まれ、上記有声区間を含む上記フレームを含む部分の音声小段落を請求項２２中の上記区間として判断する音声小段落判定部と、
上記音声小段落に含まれる上記有声区間の後半部に含まれる１フレーム以上の平均パワーがその音声小段落内の平均パワーの定数倍より小さい上記音声小段落を末尾とする音声小段落群を音声段落とする音声段落判定部と、
上記強調状態判定部で強調状態と判定された音声小段落を含む音声段落を要約区間と判断して取出す要約区間取出部、
とを含むことを特徴とする音声処理装置。
請求項２２に記載の音声処理装置において、上記符号帳には更にコードごとに上記音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率が格納されており、上記音声処理装置は更に、
各上記音声小段落内のそれぞれのフレームの音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの平静状態での出現確率を上記符号帳から求め、これら平静状態での出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて上記音声小段落が平静状態となる尤度を求める平静状態確率計算部と、
上記強調状態となる尤度の上記平静状態となる尤度に対する尤度比が基準値より大きい音声小段落を含む音声段落を仮要約区間と判定する仮要約区間判定部と、
仮要約区間の時間の総和、又は要約率として上記仮要約区間の時間の総和の全音声信号区間に対する比率を算出し、上記仮要約区間の時間の総和が略所定の要約時間に、又は上記要約率が略所定の要約率となるように上記基準値を変更して要約区間を決定する要約区間決定部、
とを含むことを特徴とする音声処理装置。
請求項２２に記載の音声処理装置において、上記符号帳には更に各コードの上記音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率が格納されており、上記音声処理装置は更に、
上記音声小段落のそれぞれのフレームの音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの平静状態での出現確率を上記符号帳から求め、これら平静状態での出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて上記音声小段落が平静状態となる尤度を求める平静状態確率計算部と、
上記強調状態となる尤度の上記平静状態となる尤度に対する尤度比を音声小段落毎に算出し、上記尤度比を降順に所定の尤度比まで対応する音声小段落を含む音声段落を仮要約区間と判定する仮要約区間判定部と、
仮要約区間の時間の総和、又は要約率として上記全音声信号区間に対する上記仮要約区間の時間の総和の比率を算出し、上記仮要約区間の時間の総和が上記所定の要約時間に、又は上記要約率が上記所定の要約率となるまで上記所定の尤度比を低下して要約区間を決定する要約区間決定部、
とを含むことを特徴とする音声処理装置。