JP3803311B2 - 音声処理方法及びその方法を使用した装置及びそのプログラム - Google Patents

音声処理方法及びその方法を使用した装置及びそのプログラム Download PDF

Info

Publication number
JP3803311B2
JP3803311B2 JP2002230598A JP2002230598A JP3803311B2 JP 3803311 B2 JP3803311 B2 JP 3803311B2 JP 2002230598 A JP2002230598 A JP 2002230598A JP 2002230598 A JP2002230598 A JP 2002230598A JP 3803311 B2 JP3803311 B2 JP 3803311B2
Authority
JP
Japan
Prior art keywords
speech
state
paragraph
probability
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002230598A
Other languages
English (en)
Other versions
JP2003316378A (ja
Inventor
浩太 日▲高▼
理 水野
信弥 中嶌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002230598A priority Critical patent/JP3803311B2/ja
Publication of JP2003316378A publication Critical patent/JP2003316378A/ja
Application granted granted Critical
Publication of JP3803311B2 publication Critical patent/JP3803311B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は音声信号を分析して、人間が発声した内容のうち強調した部分を抽出する方法、その方法に用いる音声処理方法、それを使用した装置及びそのプログラムに関する。
【0002】
【従来の技術】
音声信号から、その発声内容のうち発話者が重要なものとして強調している部分を抽出して、その発話内容の要約を自動的に作成することが提案されている。例えば特開平10-39890号公報では、音声信号を解析してFFTスペクトルやLPCケプストラムなどを音声特徴量として求め、任意の区間の音声特徴量系列と、他の区間の音声特徴量系列とのDPマッチングを行って、これら系列間の距離を求め、この距離が所定以下の場合、これらの両区間は音韻的に類似した区間であると抽出し、時間位置情報を加えて重要部分としている。つまり音声中の繰り返し出現する言葉は重要であることが多いという現象を利用したものである。
【0003】
また特開2000-284793公報では、話者同士による対話音声などの音声信号からFFTスペクトルやLPCケプストラムなどを音声特徴量として求め、この音声特徴量を用いて音素片を認識して音素片記号系列を求め、区間どうしの音素片系列のDPマッチングにより、両区間の距離を求め、その距離が小さいものを、つまり音韻的に類似した区間を重要部分と抽出し、更にシソーラスを用いて、複数の話題内容を推定している。
また音声中の文や単語単位を抽出する技術として、音声中の文や単語単位の語調成分とアクセント成分とを合わせたピッチパターンが、低いピッチ周波数から始まって中ごろ前半で一番高く、後半徐々に低くなり、語尾で急激に低くなって発音がとまるという日本語によく現れる性質を活用した方法がある。例えば、板橋等、「韻律情報を考慮した音声要約の一方法」日本音響学会2000年春季研究発表会講演論文集I 239〜240などである。
【0004】
音声信号を伴う映像情報から重要なシーンをその音声信号を利用して抽出することが特開平3−80782号公報で提案されている。これには音声信号を解析してスペクトル情報、急な立ち上がりと短時間持続する信号レベルなどの音声特徴量をとらえ、予め設定されている条件、例えば観客の歓声があがった時の音声信号の音声特徴量と比べて類似または近似する部分を抽出し、それらをつなぎ合わせることが開示されている。
【0005】
【発明が解決しようとする課題】
特開平10−39890号公報に示すものは、FFTスペクトルやLPCケプストラムなど音声特徴量が、話者に依存するため、不特定発声者の音声信号や、複数の不特定話者の会話に対応できない問題があった。また、スペクトル情報を用いているため、原稿などを使用しない、自然な話し言葉や会話への適応は難しく、複数話者の同時発話が出現する環境への実現は困難である。
特開2000−284793号公報に示すものでは、重要部分を音素片記号系列として認識しているため、特開平10−39890号公報の技術と同様に原稿などを使用しない、自然な話し言葉や会話への適応は難しく、複数話者の同時発話が出現する環境への実現は困難である。また要約音声の単語認識結果とシソーラスを用いて話題要約を試みているが、定量的な評価を行っておらず、重要な単語は出現頻度が高く継続時間が長いという仮定に基づいているが、言語的な情報を利用していないため、話題に関係のない単語が抽出されてしまう問題があった。
【0006】
また、原稿などを使用しない、自然な話し言葉は、文法が適切でないことが多く、発話方法が話者に依存するため、意味を理解できる単位としての音声段落を、基本周波数から抽出するのは、板橋秀一等、「韻律情報を考慮した音声要約の一方法」 日本音響学会2000年春季研究発表会講演論文集I 239〜240の方法では問題がある。
特開平3−80782号公報に示すものは、予め抽出する条件を設定しなければならなく、また、抽出した音声区間が短く、再構成のために切り取り、合わせた場合、その切り取った部分の前後において音声の特徴が不連続となるため聞き取りにくい問題があった。
【0007】
この発明は、前記のような従来の技術の有する欠点に鑑みてなされたもので、予め抽出したい条件を設定することなく、また、原稿などを使用しない、自然な話し言葉や会話においても、話者に依存せず、複数話者の同時発話にも依存せず、雑音環境でも安定して、音声が強調状態であるか平静状態であるかの判定ができる音声処理方法、またその方法を利用して音声の要約区間を自動的に抽出できる音声処理方法、これらの装置及びプログラムを提供することを目的とする。
【0008】
【課題を解決するための手段】
この発明の第1の観点によれば、フレーム毎の音声特徴量の組に基づき音声の強調状態を判定する音声処理方法は、以下のステップを含む:
(a) 基本周波数、パワー、動的特徴量の時間変化特性又はこれらのフレーム間差分を含む音声特徴量の組から成る音声特徴量ベクトルと強調状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳を用い、現フレームの上記音声特徴量の組を量子化した上記符号帳中の対応する音声特徴量ベクトルの強調状態での出現確率を求め、
(b) 上記音声特徴量ベクトルの強調状態での出現確率に基づいて強調状態となる尤度を算出し、
(c) 上記強調状態となる尤度に基づいて上記現フレームを含む区間が強調状態であるか否かを判定する。
【0009】
この発明の第2の観点によれば、第1の観点の方法において、各上記音声特徴量ベクトルを構成する重要なパラメータの1つとして、動的特徴量の時間変化特性を含むことを特定する。
この発明の第3の観点によれば、第1の観点の方法において、各上記音声特徴量ベクトルを構成する重要なパラメータとして、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特定する。
この発明の第4の観点によれば、第1の観点の方法において、各上記音声特徴量ベクトルを構成する重要なパラメータとして、少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのいずれかのフレーム間差分を含むことを特定する。
【0010】
この発明の第5の観点によれば、第1乃至4のいずれかの観点の方法において、上記符号帳に更に音声特徴量ベクトルと対応して平静状態での出現確率が格納されており、フレームを含む区間が平静状態となる尤度を同様にして求め、強調状態となる尤度と平静状態となる尤度を比較して上記フレームを含む区間が強調状態であるか否かを判定する。
この発明の第6の観点によれば、第5の観点の方法において、上記強調状態となる尤度が上記平静状態となる尤度より高いとき、強調状態と判定する。
この発明の第7の観点によれば、第5の観点の方法において、上記強調状態となる尤度と上記平静状態となる尤度の比に基づいて判定する。
【0011】
この発明の第8の観点によれば、第1乃至7のいずれかの観点の方法において、現在のフレームの上記音声特徴量の組を量子化した音声特徴量ベクトルに対応する強調状態での単独出現確率と、条件付確率を乗算することにより上記現フレームを含む区間が強調状態となる尤度を求める。
この発明の第9の観点によれば、第5の観点の方法において、平静状態となる尤度を、平静状態での単独出現確率と条件付確率の積にから求める。
この発明の第10の観点によれば、第1乃至9のいずれかの観点の方法において、フレームごとの各音声特徴量として、各音声特徴量をその平均値で規格化した音声特徴量を使用する。
【0012】
この発明の第11の観点によれば、第8または9の観点の方法において、上記強調状態となる単独出現確率と上記強調状態となる条件付出現確率とを線形補間して算出された条件付出現確率を用いて、強調状態となる尤度を算出する。
この発明の第12の観点によれば、第9の観点の方法において、上記平静状態となる単独出現確率と上記平静状態となる条件付出現確率とを線形補間して算出された条件付出現確率を用いて、平静状態となる尤度を算出する。
この発明の第13の観点によれば、第1乃至4のいずれかの観点の方法において、上記強調状態での出現確率として強調状態での初期状態確率が上記符号帳に格納され、上記音声特徴量ベクトルに対応する状態遷移ごとの出力確率と状態遷移に対応する強調状態での遷移確率からなる音響モデルを用い、音声小段落における状態遷移経路ごとの上記強調状態での初期状態確率と上記出力確率と上記遷移確率に基づく尤度を強調状態となる尤度として算出する。
【0013】
この発明の第14の観点によれば、第13の観点の方法において、上記符号帳に音声特徴量ベクトルと対応して更に平静状態での初期状態確率が上記符号帳に格納されており、上記音声特徴量ベクトルと対応する状態遷移ごとの出力確率と状態遷移に対応する平静状態での遷移確率からなる上記音響モデルを用い、音声小段落における状態遷移経路ごとの平静状態での初期状態確率と出力確率と遷移確率に基づく尤度を平静状態となる尤度として算出し、第13の観点による強調状態となる確率と上記平静状態となる確率を比較して上記音声小段落が強調状態であると判定する。
【0014】
この発明の第15の観点によれば、第13または14の観点の方法において、強調状態であると判定した音声小段落を含む音声段落を要約区間と判定する。
この発明の第16の観点によれば、第14の観点の方法において、上記音声小段落に含まれる1フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定し、音声小段落が強調状態となる尤度と平静状態となる尤度の尤度比を算出し、その尤度比を基準値と比較して強調状態であるか否かを判定し、強調状態と判定された音声小段落を含む上記音声段落を要約区間と判定する。
【0015】
この発明の第17の観点によれば、第16の観点の方法による上記基準値を変更して所定の要約率の要約区間を得る。
この発明の第18の観点によれば、第1乃至4のいずれかの観点の方法において、音声段落を判定し、強調状態と判定された音声小段落を含む音声段落を要約区間と判断する。
この発明の第19の観点によれば、第18の観点の方法において、音声小段落が強調状態となる確率の上記平静状態となる確率に対する確率比が基準値より大きい音声小段落を含む音声段落を仮要約区間と判定し、仮要約区間の時間の総和が略所定の要約時間に、又は上記要約率が略所定の要約率となる上記基準値に対応する上記仮要約区間を要約区間と決定する。
【0016】
この発明の第20の観点によれば、第19の観点の方法において、基準値を変更して要約を繰り返すことにより所望の要約率を得る。
この発明の第21の観点によれば、第18の観点の方法において、音声小段落が強調状態となる確率の上記平静状態となる確率に対する確率比の降順に対応する音声小段落を含む音声段落の時間を累積して要約区間の時間の総和を算出し、上記要約区間の時間の総和が略所定の要約時間に、又は上記要約率が略所定の要約率となる要約時間が得られる音声段落を要約区間と決定する。
この発明の第22の観点によれば、上記音声処理方法を実行させる音声処理プログラムを請求する。
【0017】
この発明の第23の観点による音声処理装置は、
基本周波数、パワー、動的特徴量の時間変化特性又はこれらのフレーム間差分を含む音声特徴量の組から成る音声特徴量ベクトルと強調状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳と、
フレームの上記音声特徴量の組を量子化した音声特徴量ベクトルの強調状態での出現確率に基づいて上記フレームを含む区間が強調状態となる尤度を算出する強調状態確率計算部と、
算出した上記強調状態となる尤度に基づいて上記フレームを含む区間が強調状態か否かを判定する強調状態判定部、
とを含むように構成される。
【0018】
この発明の第24の観点によれば、第23の観点の音声処理装置において、各上記音声特徴量ベクトルを構成する重要なパラメータの1つとして、動的特徴量の時間変化特性を含むことを特定する。
この発明の第25の観点によれば、第23の観点の音声処理装置において、各上記音声特徴量ベクトルを構成する重要なパラメータとして、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特定する。
この発明の第26の観点によれば、第23の観点の音声処理装置において、各上記音声特徴量ベクトルを構成する重要なパラメータとして、少なくとも基本周波数、パワー、動的特徴量の時間変化特性又はそれらのいずれかのフレーム間差分を含むことを特定する。
【0019】
この発明の第27の観点によれば、第23乃至26の観点のいずれかの音声処理装置において、上記強調状態判定手段は、上記強調状態となる確率が所定の値より高いか否かを調べ、高ければ上記フレームを含む区間を強調状態と判定する強調状態判定部を含むことを特徴とする。
この発明の第28の観点によれば、第27の観点の音声処理装置において、上記符号帳には各コードごとに上記音声特徴量ベクトルの平静状態での出現確率が格納されており、上記音声処理装置は更に、フレームの上記音声特徴量の組を量子化した音声特徴量ベクトルの平静状態での出現確率に基づいて上記フレームを含む区間が平静状態となる確率を求める平静状態確率計算部を含み、上記強調状態判定部は、上記フレームを含む区間が強調状態となる確率と、上記平静状態となる確率との比較に基づいて上記フレームを含む区間が強調状態であるか否かを判定する。
【0020】
この発明の第29の観点によれば、第27の観点の音声処理装置は更に、
入力音声信号についてフレームごとに無声区間か否かを判定する無声区間判定部と、
上記入力音声信号についてフレームごとに有声区間か否かを判定する有声区間判定部と、
所定フレーム数以上の上記無声区間で囲まれ、上記有声区間を含む上記フレームを含む区間を音声小段落と判断する音声小段落判定部と、
上記音声小段落に含まれる上記有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい上記音声小段落を末尾とする音声小段落群を音声段落とする音声段落判定部と、
上記強調状態判定部で強調状態と判定された音声小段落を含む音声段落を要約区間と判断して取出す要約区間取出部、
とを含むように構成される。
【0021】
この発明の第30の観点によれば、第29の観点の音声処理装置において、上記符号帳にはコードごとに上記音声特徴量ベクトルの平静状態での出現確率が格納されており、上記音声処理装置は更に、
各上記音声小段落内のそれぞれのフレームの音声特徴量の組を量子化した音声特徴量ベクトルの平静状態での出現確率に基づいて上記音声小段落が平静状態となる確率を求める平静状態確率計算部を含み、
上記強調状態判定部は、
上記強調状態となる確率の上記平静状態となる確率に対する確率比が基準値より大きい音声小段落を含む音声段落を仮要約区間と判定する仮要約区間仮判定部と、
仮要約区間の時間の総和、又は要約率として上記仮要約区間の時間の総和の全音声信号区間に対する比率を算出し、上記仮要約区間の時間の総和が略所定の要約時間に、又は上記要約率が略所定の要約率となる上記基準値を算出して要約区間を決定する要約区間決定部、
とを含むことを特徴とする。
【0022】
この発明の第31の観点によれば、第29の観点の音声処理装置において、上記符号帳には各コードの上記音声特徴量の平静状態での出現確率が格納されており、上記音声処理装置は更に、
上記音声小段落のそれぞれのフレームの音声特徴量の組を量子化した音声特徴量ベクトルの平静状態での出現確率に基づいて上記音声小段落が平静状態となる確率を求める平静状態確率計算部を含み、
上記強調状態判定部は、
上記強調状態となる確率の上記平静状態となる確率に対する確率比を音声小段落毎に算出し、上記確率比を降順に所定の確率比まで対応する音声小段落を含む音声段落を仮要約区間と判定する仮要約区間仮判定部と、
仮要約区間の時間の総和、又は要約率として上記全音声信号区間に対する上記仮要約区間の時間の総和の比率を算出し、上記仮要約区間の時間の総和が上記所定の要約時間に、又は上記要約率が上記所定の要約率となる上記所定の確率比を算出して要約区間を決定する要約区間決定部、
とを含むことを特徴とする。
【0023】
作用
以上述べたこの発明の構成によれば、音声特徴量の組として、基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか1つ及び/又はこれらのフレーム間差分の少なくともいずれか1つを含む音声特徴量の組を用いている。音声処理の分野ではこれらの値は一般に規格化して使用されるので発声者に依存せず、この発明ではこのような音声特徴量の組の音声特徴量ベクトルとそれが強調状態で出現する確率を対応して格納した符号帳を利用し、入力音声の音声特徴量の組を量子化し、符号帳中の対応する音声特徴量ベクトルが強調状態で出現する確率を符号帳から求め、この出現確率からその強調状態か否かを判定しているため、この点からもこの発明による強調状態の判定は話者に依存しない。また、原稿などを使用しない自然な話し言葉や会話においても精度よく強調状態を判別することができる。
また前記符号帳を利用し、フレームごとの音声特徴量ベクトルの強調状態での出現確率を求め、強調状態か否かを判定し、音声小段落が1つでも含む音声段落を要約区間としているため、原稿などを使用しない自然な話し言葉や会話においても、正しく強調状態、要約区間を判定することができる。
【0024】
【発明の実施の形態】
以下に図面を参照してこの発明の音声強調状態判定を行う音声処理方法とともにこの方法を用いた音声強調状態要約方法を説明する。
第1実施例
図1にこの発明による音声要約方法の基本手順を示す。ステップS1で入力音声信号を分析して音声特徴量を抽出する。この音声特徴量の組は音声処理技術においては規格化して使用されるので後で述べるように話者に依存しない規格化したパラメータとして使用する。ステップS2で入力音声信号の音声小段落と、複数の音声小段落から構成される音声段落を抽出し、ステップS3で各音声小段落を構成するフレームが平静状態か、強調状態かの発話状態を判定し、この判定に基づきステップS4で要約音声を作成し、音声要約を得る。
【0025】
以下に、この発明を、原稿などを使用しない、自然な話し言葉や会話音声の、音声要約に適応する場合の実施例を述べる。音声特徴量としては、スペクトル情報などに比べて、雑音環境下でも安定して得られ、かつ発話状態の判定が話者に依存し難いものを用いる。入力音声信号から音声特徴量として基本周波数f0、パワーp、音声の動的特徴量の時間変化特性d、無声区間Tsを抽出する。これらの音声特徴量の抽出法は、たとえば、「音響・音声工学」(古井貞煕、近代科学社、1992)、「音声符号化」(守谷健弘、電子情報通信学会、1998)、「ディジタル音声処理」(古井貞煕、東海大学出版会、1985)、「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」(嵯峨山茂樹、博士論文、1998)などに述べられている。音声の動的特徴量の時間変化は発話速度の尺度となるパラメータであり日本国特許第2976998号に記載のものを用いてもよい。即ち、スペクトル包絡を反映するLPCスペクトラム係数の時間変化特性を求め、その時間変化をもとに発話速度係数、即ち動的特徴量が求められる。より具体的にはフレーム毎にLPCケプストラム係数C1(t), …, CK(t)を抽出して次式のような時点tでの動的特徴量d(ダイナミックメジャー)を求める。
【数1】
Figure 0003803311
ここで、±F0は前後の音声区間フレーム数(必ずしも整数個のフレームでなくとも一定の時間区間でもよい)、KはLPCケプストラムの次数、k = 1, 2, …,Kである。発話速度の係数として動的特徴量の変化の極大点の単位時間当たりの個数、もしくは単位時間当たりの変化率が用いられる。
実施例では例えば100msを1フレーム長とし、フレームの開始点を50msずつシフトし、1フレームごとに入力信号の平均の基本周波数f0'を求める。パワーについても同様に1フレームごとに入力信号の平均パワーp'を求める。更に現フレームのf0'とiフレーム前のf0'と後のf0'との差分をとり、それぞれΔf0'(-i), Δf0'(i)とする。パワーについても同様に現フレームのp'とiフレーム前後のp'との差分Δp'(-i), Δp'(i)を求める。次にこれらf0'、Δf0'(-i), Δf0'(i)、p'、Δp'(-i), Δp'(i)を規格化する。この規格化は例えばf0'、 Δf0'(-i),Δf0'(i)をそれぞれ、例えば音声波形全体の平均基本周波数で割り算することにより規格化する。あるいは後述する音声小段落、又は音声段落ごとの平均基本周波数で割り算してもよいし、あるいは数秒後と又は数分後との平均基本周波数で割り算してもよい。これら規格化された値をf0"、Δf0"(-i),Δf0"(i)と表わす。p'、Δp'(-i), Δp'(i)についても同様に、発話状態判定の対象とする音声波形全体の平均パワーで割算し、規格化する。あるいは、音声小段落、音声段落ごとの平均パワーで割算してもよい。あるいは数秒毎又は数分毎の平均パワーで割算していもよい。これら規格化された値をp"、Δp"(-i), Δp"(i)と表わす。iの値は例えばi=4とする。
【0026】
現フレームの例えば開始時刻の前後±T1msの区間(幅2T1ただし、T1は例えばフレーム長の10倍程度と、フレーム長より十分長く選ぶので、幅2T1の中心点は現フレームのどの時点に選んでもよい)内の、ダイナミックメジャーのピーク本数、即ち動的特徴量の変化の極大点の個数dpを計数する。これと、現フレームの開始時刻のT2ms前の時刻を中心とする幅2T1内のdpとの差成分Δdp(-T2)を求める。同様に、前記±T1ms内のdp数と、現フレームの終了時刻からT3ms後の時刻を中心とする幅2T1の区間内のdpとの差成分Δdp(T3)を求める。これら、T1,T2,T3の値はフレーム長より十分長く、ここでは例えばT1=T2=T3=450msとする。フレームの前後の無声区間の長さをtSR, TSFとする。ステップS1ではこれらパラメータの各値をフレームごとに抽出する。
【0027】
ステップS2における入力音声の音声小段落と、音声段落を抽出する方法の例を図2に示す。音声小段落とは発話状態判定を行う単位であり、音声段落は例えば400msec以上の無声区間ではさまれた少なくとも1つ以上の音声小段落を含む区間である。
ステップS201で、入力音声信号の無声区間と有声区間を抽出する。有声/無声の判定は、周期性/非周期性の判定と等価であるとみなして、自己相関関数や変形相関関数のピーク値で判定を行なうことが多い。入力信号の短時間スペクトルからスペクトル包絡を除去した予測残差の自己相関関数、即ち変形相関関数であり、変形相関関数のピークが所定の閾値より大きいか否かによって有声/無声の判定を行う。またそのピークを与える遅延時間によってピッチ周期1/f0(基本周波数f0)の抽出を行なう。
【0028】
ここでは音声信号から各音声特徴量をフレーム毎に分析することについて述べたが、音声信号が例えばCELP(Code-Excited Linear Prediction)などにより既にフレーム毎に符号化(即ち、分析)されて得られている係数もしくは符号が表す音声特徴量を用いてもよい。CELPによる符号には一般に線形予測係数、利得係数、ピッチ周期等が符号化されて含まれている。従ってCELPによる符号を復号してこれらの音声特徴量を得ることができる。例えば、復号された利得係数の絶対値もしくは二乗値をパワーとして用い、ピッチ成分の利得係数の、非周期成分の利得係数に対する比に基づいて有声/無声判定を行うことができる。復号されたピッチ周期の逆数をピッチ周波数、即ち基本周波数として用いることができる。また、式(1) で説明した動的特徴量の計算に使用するLPCケプストラムは復号して得られたLPC係数を変換して求めることができる。もちろんCELPによる符号にLSP係数が含まれていれば、これを一旦LPC係数に変換し、それから求めてもよい。このようにCELPによる符号にはこの発明で使用できる音声特徴量が含まれているので、CELPによる符号を復号し、フレーム毎の必要な音声特徴量の組を取り出し、それらの音声特徴量の組に対し以下の処理を行えばよい。
【0029】
ステップS202で、有声区間の両側の無声区間の時間tSR, tSFがそれぞれ予め決めたts秒以上になるとき、その無声区間で囲まれた有声区間を含む部分を音声小段落Sとする。この無声区間の時間tsは例えばts=400msとする。
ステップS203で、この音声小段落内の、好ましくは後半部の、有声区間内の平均パワーpと、その音声小段落の平均パワー値PS の定数β倍とを比較し、p<βPSであればその音声小段落を末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現に検出した末尾音声小段落までを音声段落と決定する。
図3に、有声区間、音声小段落、音声段落を模式的に示す。音声小段落を前記の、有声区間を囲む無声区間の時間がts秒以上の条件で、抽出する。図3では、音声小段落Sj-1,Sj,Sj+1について示している。これより、音声小段落Sjについて述べる。音声小段落Sjは、Qj個の有声区間から構成され、その平均パワーをPjとする。音声小段落Sjに含まれるq番目の有声区間Vq(q=1,2,…,Qj)の平均パワーをpqと表す。音声小段落Sjが音声段落Bの末尾の音声小段落であるか否かは、音声小段落Sjを構成する後半部分の有声区間のパワーから判定する。q=Qj-αからQjまでの有声区間の平均パワーpqの平均が音声小段落Sjの平均パワーPjより小さい時、即ち、
【数2】
Figure 0003803311
を満たす時、音声小段落Sjが音声段落Bの末尾音声小段落であるとする。式(2) のα,βは定数であり、αはQj/2以下の値であり、βは例えば0.5〜1.5程度の値である。これらの値は、音声段落の抽出を最適化するように予め実験により決める。ただし、有声区間の平均パワーpqはその有声区間内の全フレームの平均パワーであり、またこの実施例では、α=3、β=0.8とした。このようにして末尾音声小段落を区切りとして隣接する末尾音声小段落間の音声小段落群を音声段落と判定できる。
【0030】
図1中のステップS3における音声小段落発話状態判定方法の例を図4に示す。ここで、発話状態とは、話者が強調して発話している状態か、平静に発話している状態かをさす。予め作成した符号帳を使ってステップS301で入力音声小段落の音声特徴量の組をベクトル量子化する。発話状態はあとで詳述するように、前述の音声特徴量である基本周波数f0", その前後iフレームとの差分Δf0"(-i), Δf0"(i)、平均パワーp", その前後iフレームとの差分Δp"(-i), Δp"(i)、ダイナミックメジャーのピーク本数dp, 及びその差分Δdp(-T), Δdp(T) などのうち、予め決めた1つ以上の音声特徴量の組を使って判定する。音声特徴量の組の例は後で詳しく述べる。符号帳には予め、各コード(インデックス)と対応して量子化された音声特徴量の組の値が音声特徴量ベクトルとして格納されており、符号帳に蓄えられた音声特徴量ベクトルの中から入力音声もしくは既に分析して得られた音声のフレーム毎の音声特徴量の組と最も近いものを特定する。その特定には、一般に入力信号の音声特徴量の組と符号帳中の音声特徴量ベクトルとの歪(距離)を最小にするものを特定する。
【0031】
符号帳の作成
図5に、この符号帳の作成法の例を示す。多数の学習用音声を被験者から採取し、発話状態が、平静状態であるものと、強調状態であるものをそれぞれ識別できるようにラベリングする(S501)。
例えば、日本語による発話の場合、被験者の発話が強調状態にあると判断する理由として、
(a) 声が大きく、名詞や接続詞を伸ばすように発話している場合、
(b) 話し始めを伸ばして話題変更を主張、意見を要約するように声を大きくしている場合、
(c) 声を大きく高くして重要な名詞などを強調している場合、
(d) 高音であるが声はそれほど大きくない場合、
(e) 苦笑いしながら、焦りから本音をごまかすようにしている場合、
(f) 周囲に同意を求める、あるいは問いかけるように、語尾が高音にしている場合、
(g) ゆっくりと力強く、念を押すように、語尾の声が大きくしている場合、
(h) 声が大きく高く、割り込んで発話する、相手より大きな声で主張している場合、
(i) 大きな声では憚れるような本音や秘密をひそひそ発言している場合、あるいは普段、声の大きい人が重要なことを小さくボソボソ発言している場合、
を挙げることができる。この例では、平静状態とは、前記の(a)〜(i)のいずれでもなく、発話が平静であると被験者が感じたものとした。
【0032】
尚、上述では強調状態と判定する対象を発話であるものとして説明したが、音楽でも強調状態を特定することができる。ここでは歌曲において、歌声から強調状態を特定しようとした場合に、強調と感じる理由として、
(a') 声が大きく、かつ声が高い
(b') 声が力強い
(c') 声が高く、かつアクセントが強い
(d') 声が高く、声質が変化する
(e') 声を伸長させ、かつ声が大きい
(f') 声が大きく、かつ、声が高く、アクセントが強い
(g') 声が大きく、かつ、声が高く、叫んでいる
(h') 声が高く、アクセントが変化する
(i') 声を伸長させ、かつ、声が大きく、語尾が高い
(j') 声が高く、かつ、声を伸長させる
(k') 声を伸長させ、かつ、叫び、声が高い
(l') 語尾上がり力強い
(m') ゆっくり強め
(n') 曲調が不規則
(o') 曲調が不規則、かつ、声が高い
また、音声を含まない楽器演奏のみの楽曲でも強調状態を特定することができる。その強調と感じる利用として、
(a") 強調部分全体のパワー増大
(b") 音の高低差が大きい
(c") パワーが増大する
(d") 楽器の数が変化する
(e") 曲調、テンポが変化する
等がある。これらを基に符号帳を作成しておくことにより、発話に限らず歌、器楽曲の要約も行うことができることになる。従って、請求項において使用されている用語「音声」は歌や器楽曲も含むものである。
【0033】
平静状態と強調状態の各ラベル区間について、図1中のステップS1と同様に、音声特徴量を抽出し(S502)、状態判定に使用する音声特徴量の組を選択する(S503)。平静状態と強調状態のラベル区間の、前記パラメータを用いて、LBGアルゴリズムで符号帳を作成する(S504)。LBGアルゴリズムについては、例えば、(Y.Linde,A.Buzo and R.M.Gray,“An algorithm for vector quantizer design,”IEEE Trans.Commun., vol.Com-28, pp.84-95,1980)がある。符号帳サイズは2m個(mは1以上の整数)に可変であり、mビットコードC=00...0〜C=11...1に対応した量子化ベクトルが予め決められる。この符号帳作成は音声小段落ごとの全音声特徴量、又はこれより長い適当な区間ごとの全音声特徴量、あるいは学習音声全体の音声特徴量を例えばその平均値と標準偏差で標準化処理をして2m個の音声特徴量ベクトルを生成して用いることが好ましい。
【0034】
図4の発話状態判定処理に戻って、ステップS301で、入力音声小段落の各フレームごとに得られる音声特徴量を符号帳作成に用いたと同じ平均値と標準偏差により標準化処理し、その標準化処理された音声特徴量をこの符号帳を用いてベクトル量子化(符号化)し、フレームごとに量子化ベクトルに対応するコードを得る。この際の入力音声信号から抽出した音声特徴量パラメータのうち、発話状態判定に使用するパラメータの組は前記の符号帳作成に用いたパラメータの組と同じものである。
強調状態が含まれる音声小段落を特定するために、音声小段落中のコードC(量子化音声特徴量ベクトルのインデックス)を用いて、発話状態の尤度を、平静状態と強調状態のそれぞれについて求める。このために、予め、任意のコードの出現確率を、平静状態の場合と、強調状態の場合について求めておき、この出現確率とそのコードとを組として符号帳に格納しておく。以下にこの出現確率の求め方の例を述べる。前記の符号帳作成に用いた学習音声中のラベルが与えられた1つの区間(ラベル区間)内のフレーム数をnとし、それぞれのフレームから得られる音声特徴量ベクトルのコードが時系列でC1,C2,C3,…,Cnであるとき、そのラベル区間Aが強調状態となる確率PAemp、平静状態となる確率PAnrmは次式、
【数3】
Figure 0003803311
で表される。ただし、Pemp(Ci|C1…Ci-1)はコード列C1…Ci-1の次にコードCiが強調状態となる条件付確率、Pnrm(Ci|C1…Ci-1)は同様にC1…Ci-1に対しコードCiが平静状態となる確率である。またPemp(C1)は符号帳を使って全学習音声についてフレーム毎に音声特徴量ベクトルを量子化し、これらコード中の、音声が強調状態とラベリングされた部分に存在したコードC1の総個数を計数し、その計数値を強調状態とラベリングされた音声データの全コード数(=フレーム数)で割算した値であり、Pnrm(C1)はコードC1が平静状態とラベリングされた部分に存在した個数を平静状態とラベリングされた音声データの全コード数で割算した値である。
【0035】
この各条件付確率の計算を簡単にするために、この例ではN-gramモデル(N<i)を用いる。N-gramモデルは、ある時点でのある事象の出現はその直前のN-1個の事象の出現に依存すると近似するモデルであり、例えばi番目のフレームにコードCiが出現する確率をP(Ci)=(Ci|Ci-N+1…Ci-1)として求める。式(3), (4) 中の各条件付確率Pemp(Ci|C1…Ci-1), Pnrm(Ci|C1…Ci-1)にN-gramモデルを適用すると次式
Pemp(Ci|C1…Ci-1)=Pemp(Ci|Ci-N+1…Ci-1) (5)
Pnrm(Ci|C1…Ci-1)=Pnrm(Ci|Ci-N+1…Ci-1) (6)
のように近似できる。このような式(3), (4) 中の条件付確率Pemp(Ci|C1…Ci-1), Pnrm(Ci|C1…Ci-1) をN-gramモデルで近似した条件付確率Pemp(Ci|Ci-N+1…Ci-1), Pnrm(Ci|Ci-N+1…Ci-1)をラベリングされた学習音声の量子化コード列から全て求めるが、入力音声信号の音声特徴量の量子化したコード列と対応するものが学習音声から得られていない場合もある。そのため、高次の(即ちコード列の長い)条件付確率と単独出現確率とから低次の条件付出現確率とを補間して求める。具体的には以下に定義するN=3の場合であるtrigram、N=2の場合であるbigram、N=1の場合であるunigramを用いて線形補間法を施す。即ち、
N=3(trigram):Pemp(Ci|Ci-2Ci-1)、Pnrm(Ci|Ci-2Ci-1)
N=2(bigram):Pemp(Ci|Ci-1)、Pnrm(Ci|Ci-1)
N=1(unigram):Pemp(Ci)、Pnrm(Ci)
であり、これら3つの強調状態でのCiの出現確率、また3つの平静状態でのCiの出現確率をそれぞれ用いて次の線形補間式、
Figure 0003803311
によりPemp(Ci|Ci-2Ci-1)、Pnrm(Ci|Ci-2Ci-1)を得ることにする。
【0036】
Trigramの強調状態とラベリングされた学習データのフレーム数をnとし、時系列でコードC1, C2, ..., Cnが得られたとき、λemp1, λemp2, λemp3の再推定式は次のようになる。
【0037】
【数4】
Figure 0003803311
以下同様にしてλnrm1, λnrm2, λnrm3も求められる。
この例では、ラベル区間Aのフレーム数がFAであり、得られたコードがC1,C2,…,CFAのとき、このラベル区間Aが強調状態となる確率PAemp及び平静状態となる確率PAnrmはそれぞれ、
PAemp=Pemp(C3|C1C2)…Pemp(CFA|CFA-2CFA-1) (9)
PAnrm=Pnrm(C3|C1C2)…Pnrm(CFA|CFA-2CFA-1) (10)
となる。この計算ができるように前記のtrigram, bigram, unigramを任意のコードについて求めて符号帳に格納しておく。つまり符号帳には各コードに対応して音声特徴量ベクトルと、その強調状態での出現確率と、平静状態での出現確率との組が格納される。その強調状態での出現確率としては、各コードが過去のフレームで出現したコードと無関係に強調状態で出現する確率(単独出現確率)及び/又は直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが強調状態で出現する条件付確率を使用する。平静状態での出現確率も同様に、そのコードが過去のフレームで出現したコードと無関係に平静状態で出現する単独出現確率及び/又は直前の連続した所定数のフレームの取り得るコードの列の次にそのコードが平静状態で出現する条件付確率を使用する。
【0038】
例えば図12に示すように符号帳には各コードC1,C2,…ごとにその音声特徴量ベクトルと、その単独出現確率が強調状態、平静状態について、また条件付確率が強調状態、平静状態についてそれぞれ組として格納されている。ここで、コードC1, C2, C3,…は符号帳の各音声特徴量ベクトルに対応したコード(インデックス)を表し、それぞれmビットの値"00...00", "00...01", "00...10",…である。符号帳におけるh番目のコードをChで表し、例えばC1は第1番目のコードを表すものとする。
この発明に適用する好ましい音声特徴量の組の例としてパラメータf0",p",dpを使用し、符号帳サイズ(音声特徴量ベクトル数)が25の場合の強調状態及び平静状態での、unigram及びbigramの例について説明する。図6は、unigramである。縦軸はPemp(Ch),Pnrm(Ch)で、横軸はコードChの値であり、各Chの値の左の棒グラフはPemp(Ch)、右の棒グラフはPnrm(Ch)である。この例では、コードC17のunigramは
Pemp(C17)=0.065757
Pnrm(C17)=0.024974
となった。図6から、任意のChについて、Pemp(Ch)とPnrm(Ch)とに有意な差があることから、強調状態の音声特徴量の組をベクトル量子化したコードと、平静状態の音声特徴量の組をベクトル量子化したコードのunigramが互いに分離していることがわかる。図7は、bigramである。Pemp(Ci|Ci-1)とPnrm(Ci|Ci-1)の値の一部を図14〜16に示す。ただしiはフレーム番号に対応する時系列番号であり、各コードCは任意のコードChを取り得る。この例では、コードCh=C27のbigramは図8に示すようになった。縦軸はPemp(C27|Ci-1)、Pnrm(C27|Ci-1)で、横軸はコードCh=0, 1, …,31であり、各Ci-1の左の棒グラフはPemp(C27|Ci-1)、右の棒グラフはPnrm(C27|Ci-1)である。この例ではコードC9からコードC27に遷移する確率は、
Pemp(C27|C9)=0.11009
Pnrm(C27|C9)=0.05293
であった。図8から、任意のコードCi-1について、Pemp(C27|Ci-1)とPnrm(C27|Ci-1)間に値の有意な差があり、図14〜16から任意のコードCiについても同様の結果が得られたことから、強調状態の音声特徴量の組をベクトル量子化したコードと、平静状態の音声特徴量の組をベクトル量子化したコードのbigramが互いに異なる値をとっており、分離していることがわかる。このことは、その符号帳に基づいて計算するbigramが強調状態と平静状態に対し互いに異なる確率を与えることを保証している。
【0039】
図4中のステップS302では、入力音声小段落の全フレームのコードについてのその符号帳に格納されている前記確率から、発話状態の尤度を、平静状態と強調状態について求める。図9に実施例の模式図を示す。時刻tから始まる音声小段落のうち、第4フレームまでをi〜i+3で示している。前記のように、ここでは、フレーム長は100ms、フレームシフトを50msとした。フレーム番号i、時刻t〜t+100でコードC1が、フレーム番号i+1、時刻t+50〜t+150でコードC2が、フレーム番号i+2、時刻t+100〜t+200でコードC3が、フレーム番号i+3、時刻t+150〜t+250でコードC4が得られ、つまりフレーム順にコードがC1,C2,C3,C4であるとき、フレーム番号i+2以上のフレームでtrigramが計算できる。音声小段落Sが強調状態となる確率をPSemp、平静状態となる確率をPSnrmとすると第4フレームまでの確率はそれぞれ、
PSemp=Pemp(C3|C1C2)Pemp(C4|C2C3) (11)
PSnrm=Pnrm(C3|C1C2)Pnrm(C4|C2C3) (12)
となる。ただし、この例では、符号帳からC3,C4の強調状態及び平静状態の各単独出現確率を求め、またC2の次にC3が強調状態及び平静状態で各出現する条件付確率、更にC3が、連続するC1,C2の次に、C4が、連続するC2,C3の次にそれぞれ強調状態及び平静状態でそれぞれ出現する条件付確率を求めると以下のようになる。
【0040】
Pemp(C3|C1C2)=λemp1Pemp(C3|C1C2)+λemp2Pemp(C3|C2)+λemp3Pemp(C3) (13)
Pemp(C4|C2C3)=λemp1Pemp(C4|C2C3)+λemp2Pemp(C4|C3)+λemp3Pemp(C4) (14)
Pnrm(C3|C1C2)=λnrm1Pnrm(C3|C1C2)+λnrm2Pnrm(C3|C2)+λnrm3Pnrm(C3) (15)
Pnrm(C4|C2C3)=λnrm1Pnrm(C4|C2C3)+λnrm2Pnrm(C4|C3)+λnrm3Pnrm(C4) (16)
上記式(13)〜(16)を用いて式(11)と(12)で示される第3フレームまでの強調状態となる確率PSempと、平静状態となる確率PSnrmが求まる。ここで、Pemp(C3|C1C2), Pnrm(C3|C1C2)はフレーム番号i+2において計算できる。
【0041】
上述は第4フレームi+3までの計算について説明したが、この例では、フレーム数FSの音声小段落Sのそれぞれのフレームから得たコードがC1,C2,…,CFSのとき、この音声小段落Sが強調状態になる確率PSempと平静状態になる確率PSnrmを次式により計算する。
PSemp=Pemp(C3|C1C2)…Pemp(CFS|CFS-2CFS-1) (17)
PSnrm=Pnrm(C3|C1C2)…Pnrm(CFS|CFS-2CFS-1) (18)
これらの確率が、PSemp>PSnrmであれば、その音声小段落Sは強調状態、PSemp≦PSnrmであれば、平静状態とする。
【0042】
図1中のステップS4の要約音声作成は、図4中のステップS302で強調状態と判定された音声小段落を含む音声段落を繋ぎ合わせて構成される。
この発明の方法で、企業で行われた、原稿などを使用しない、自然な話し言葉や会話による会議音声を用いて、音声要約実験を行った。この例では図6〜図8に示した場合と異なる条件で強調状態の判定、要約部分の抽出を行っている。
これより、符号帳サイズ(符号数)を256として、50msを1フレームとし、シフトを50msとし、符号帳に格納された各音声特徴量ベクトルを構成する音声特徴量の組を
[f0",Δf0"(1),Δf0"(-1),Δf0"(4),Δf0"(-4),p",Δp"(1),Δp"(-1),Δp"(4),Δp"(-4),dp,Δdp(T),Δdp(-T)]
としたときの実験例について述べる。発話状態判定実験は、被験者により強調状態及び平静状態とラベルがつけられた音声区間の音声特徴量を用いた。符号帳作成に用いた、強調状態707個と平静状態807個のラベルについて、各ラベル区間の、全フレームのコードを、前記の式(9), (10)によって、発話状態を判定し、この実験をclose実験とした。close実験は、符号帳の作成に使用した音声データを用いた実験であり、open実験は符号帳の作成に使用してない音声データを用いた実験である。
【0043】
一方、符号帳作成に用いていない、強調状態173個、平静状態193個のラベルについて、各ラベル区間の、全フレームのコードを、前記の式(9), (10)によって、発話状態を判定し、この実験をopen実験とした。
評価は再現率と適合率を用いて行った。ここで再現率は被験者が設定した正解集合に対して、この実施例の方法が判定した発話状態の正解の割合であり、適合率はこの実施例の方法が判定した発話状態の数のうち、正解した割合である。結果は、
Figure 0003803311
となった。ただし、
λemp1=λnrm1=0.41
λemp2=λnrm2=0.41
λemp3=λnrm3=0.08
とした。
【0044】
音声特徴量は前記のように、実施例として前後参照フレーム範囲を±i(i=4)とした場合は29個存在し、組み合わせはΣ29Cn個ある。ただし、Σの範囲はn=1〜29であり、29Cnは29からn個を取る組合せである。これより、そのうちの18種類の音声特徴量を一組とするベクトルから成る符号帳を用いた実施例について述べる。以下では再びフレームを100ms、シフト量を50msとする。図17に示すその18種類の音声特徴量の組み合わせ番号と、各々の音声特徴量を示す。発話状態判定実験は、被験者が設定した強調状態と平静状態のラベル区間の音声特徴量を用いた。close実験として、符号帳作成に用いた、強調状態613個と平静状態803個のラベルについて、open実験として、符号帳作成に用いていない、強調状態171個、平静状態193個のラベルについて発話状態を判定した。符号帳サイズは128で、
λemp1=λnrm1=0.41
λemp2=λnrm2=0.41
λemp3=λnrm3=0.08
とした。図10は、18組の音声特徴量の組み合わせで実験した、close実験と、open実験の再現率を示している。縦軸は再現率、横軸はパラメータの組み合わせ番号であり、○印はclose実験、×印はopen実験である。再現率の平均と分散は、
close実験 平均0.94546、分散0.00013507
open実験 平均0.78788、分散0.00046283
であった。図10には、再現率0.95と0.8にそれぞれ実線を表示した。それぞれ、close実験、open実験に対応しており、例えばclose実験の再現率で0.95以上かつ、open実験の再現率で0.8以上を得るためには、音声特徴量の組み合わせで7番、11番、18番のいずれも使用することができる。これらはいずれも動的特徴量の時間変化特性dpを含んでおり、これが重要なパラメータであることがわかる。また、7番及び11番のパラメータの組は、基本周波数、パワー、動的特徴量の時間変化特性、及びそれらのフレーム間差分を含んでいることを特徴としている。又、番号19の組はopen実験での上記条件をわずかに満たしていないが、基本周波数f0"、パワーp"、動的特徴量の時間変化特性dpの3つのみであり、演算処理量が少なくてすむ利点がある。
【0045】
図10の結果より、符号帳作成に用いていない、被験者が前記(a)〜(i)の理由で、設定した強調状態のラベルと、(a)〜(i)のいずれでもなく、発話が平静であるとした平静状態であるラベルの、発話状態を判定し(open実験)、再現率を0.8以上にすることは、音声特徴量の組み合わせを選択することで可能となることがわかる。また、このことは、使用している符号長が適正に作成されていることを示している。
これより、図17中の18番目の音声特徴量の組み合わせの符号帳サイズ依存性についての実験例を述べる。符号帳サイズを2, 4, 8, 16, 32, 64, 128, 256と変化させたときのclose実験とopen実験の再現率を図11に示す。縦軸に再現率、横軸は2n のnを示し、実線曲線はclose実験を、破線曲線はopen実験を示す。ただし、
λemp1=λnrm1=0.41
λemp2=λnrm2=0.41
λemp3=λnrm3=0.08
とした。図11から、符号帳サイズを増加すると、再現率が上昇することがわかり、例えば、再現率を0.8以上にすることは、符号帳サイズ(符号帳に格納されているコードの数)を選択することで可能となることがわかる。また符号帳サイズが2でも再現率が0.5以上となっている。これは条件付確率を用いているためと思われる。この発明によれば、被験者が前記(a)〜(i)の理由で、設定した強調状態と、(a)〜(i)のいずれでもなく、発話が平静であるとした平静状態の音声特徴量の組をベクトル量子化して符号帳を作成した場合、任意のコードの強調状態と平静状態の出現確率は統計的に分離するので、発話状態を判定することが可能であることがわかる。
【0046】
この発明の方法で、原稿などを使用しない、自然な話し言葉や会話による、1時間の会議音声の要約音声を作成した。要約音声は23の音声段落から構成され、要約音声時間は、元の音声時間の、11%の時間であった。音声段落の評価として、被験者が23の音声段落を聴取し、83%が意味を理解できると判定した。作成した要約音声を評価するため、要約音声を被験者が聴取し、作成した議事録と、元の音声を聴取し、作成した議事録を比較した。再現率が86%で、検出率が83%であった。この発明の、音声要約方法により、原稿などを使用しない、自然な話し言葉や会話の音声要約が可能になることがわかる。
【0047】
この発明の音声強調状態判定方法の別実施形態を説明する。この場合も前述と同様に図1中のステップS1と同様に入力音声信号のフレームごとの音声特徴量を抽出し、例えば図12に示した符号帳を用い、図4を参照して説明したように、入力音声信号のフレームごとの音声特徴量の組を符号帳によりベクトル量子化(ベクトル符号化)し、得られたコードが強調状態で出現する確率と平静状態で出現する確率を符号帳にコードと対応して格納されている出現確率を用いて求めるが、ここでは各フレームのコードの出現確率を、直前の2つの連続するフレームのコード列を条件とする条件付出現確率として求め、フレームごとに発話状態の判定、即ち強調状態であるか否かの判定を行う。つまり図4のステップS303における発話状態の尤度計算において、図9に示したように音声特徴量の組がベクトル符号化された場合、フレーム番号i+2では強調状態尤度Pe(i+2)と平静状態尤度Pn(i+2)を、
Pe(i+2)=Pemp(C3|C1C2)
Pn(i+2)=Pnrm(C3|C1C2)
により計算する。この場合も、Pemp(C3|C1C2)を式(13) により計算し、またPnrm(C3|C1C2)を式(15)により計算することが好ましい。このようにして求めたPe(i+2)とPn(i+2)とを比較し、Pe(i+2)>Pn(i+2)であればこのフレーム番号i+2は強調状態と判定し、Pe(i+2)>Pn(i+2)でなければ、このフレームは強調状態でないと判定する。
【0048】
次のフレーム番号i+3においては、
Pe(i+3)=Pemp(C4|C2C3),
Pn(i+3)=Pnrm(C4|C2C3)
をそれぞれ計算して、Pe(i+3)>Pn(i+3)であればこのフレームを強調状態と判定する。以下同様に各フレームについて順次強調状態か否かを判定する。
このようにして音声小段落中の強調状態と判定されたフレームの条件付出現確率Peの音声小段落にわたる積ΠPeと平静状態と判定されたフレームの条件付確率Pnの音声小段落にわたる積ΠPnを求め、ΠPe>ΠPnであればその音声小段落は強調状態であると判定し、ΠPe≦ΠPnであれば平静状態であると判定する。あるいは、強調状態と判定されたフレームのPeの音声小段落にわたる総和ΣPeと平静状態と判定されたフレームのPnの音声小段落にわたる総和ΣPnを求め、ΣPe>ΣPnならその音声小段落は強調状態であると判定し、ΣPe≦ΣPnであれば平静状態と判定してもよい。あるいは、これら条件付確率の総積あるいは条件付確率の総和を重み付け比較して音声小段落の発話状態を判定してもよい。
【0049】
この音声強調状態判定方法においても、用いる音声特徴量については上記の方法の場合と同様であり、出現確率も単独出現確率又はこれと条件付確率の組合せでもよく、更にこの組合せを用いる場合は、条件付確率の計算に対し線形補間法を用いることが好ましい。またこの音声強調状態判定方法においても、音声小段落又はこれよりも長い適当な区間ごとに、あるいは全体の音声信号の各音声特徴量の平均値で各音声特徴量を規格化してフレームごとの音声特徴量の組を形成し、図4のステップS301のベクトル量子化以後の処理を行うことが好ましい。音声強調状態判定方法及び音声要約方法の何れにおいても、音声特徴量の組としてはf0"、p0"、Δf0"(i)、Δf0"(-i)、Δp"(i)、Δp"(-i)、dp、Δdp(T)、Δdp(-T)の少なくともいずれかを含む組を用いる。
【0050】
図13を参照してこの発明による音声強調状態判定装置及び音声要約装置の実施形態を説明する。
入力部11に音声強調状態が判定されるべき、又は音声の要約を検出する対象とする音声信号が入力され、入力部11には必要に応じて入力音声信号をデジタル信号に変換する機能も含まれる。ディジタル化された音声信号は必要に応じて記憶部12に一旦格納される。音声特徴量抽出部13で前述した音声特徴量の組がフレームごとに算出される。算出した各音声特徴量は必要に応じて、音声特徴量の平均値で規格化され、量子化部14で各フレームの音声特徴量の組が符号帳メモリ15を参照して量子化されコードを出力する。このコードは強調状態確率計算部16と平静状態確率計算部17に与えられる。符号帳メモリ15は例えば図12に示したようなものである。
【0051】
強調確率計算部16によりその量子化された音声特徴量の組のコードの強調状態での出現確率が、符号帳メモリ15に格納されている対応する出現確率を用いて、例えば式(13)又は(14) により計算される。同様に平静確率計算部17により、前記量子化された音声特徴量の組の平静状態での出現確率が符号帳メモリ15に格納されている対応する音声特徴量ベクトルの出現確率を用いて、例えば式(15)又は(16)により計算される。強調確率計算部16及び平静確率計算部17で各フレーム毎に算出された強調状態での出現確率と平静状態での出現確率及び各フレームのコードは各フレームの番号と共に記憶部12に格納される。強調状態判定部18はこれら計算された強調状態での出現確率と平静状態での出現確率とを比較し、前者の方が大きければそのフレームの音声は強調状態であると判定し、そうでない場合は強調状態でないと判定する。
【0052】
これら各部の制御は制御部19の制御のもとに順次行われる。
音声要約装置の実施形態は、図13中の実線ブロックで示す音声強調状態判定装置に対し、更に破線ブロックが付加されて構成される。つまり、記憶部12に格納されている各フレームの音声特徴量が無声区間判定部21と有声区間判定部22に与えられ、無声区間判定部21により各フレームごとに無声区間か否かが判定され、また有声区間判定部22により各フレームごとに有声区間か否かが判定される。これら無声区間判定結果と有声区間判定結果は音声小段落判定部23に入力される。
【0053】
音声小段落判定部23はこれら無声区間判定、有声区間判定に基づき、先の方法の実施形態で説明したように所定フレーム数以上連続する無声区間に囲まれた有声区間を含む部分を音声小段落と判定する。音声小段落判定部23の判定結果は記憶部12に書き込まれ、記憶部12に格納されている音声データ列に付記され、無声区間で囲まれたフレーム群に音声小段落番号を付与する。これと共に音声小段落判定部23の判定結果は末尾音声小段落判定部24に入力される。
末尾音声小段落判定部24では、例えば図3を参照して説明した手法により末尾音声小段落が検出され、末尾音声小段落判定結果が音声段落判定部25に入力され、音声段落判定部25により各検出末尾音声小段落の次の音声小段落の開始から、次の検出末尾音声小段落の終わりまでを音声段落と判定する。この音声段落判定結果も記憶部12に書き込まれ、記憶部12に記憶している音声小段落番号列に音声段落列番号を付与する。
【0054】
音声要約装置として動作する場合、強調状態確率計算部16及び平静確率計算部17では記憶部12から各音声小段落を構成する各フレームの強調確率と平静確率を読み出し、各音声小段落毎の確率が例えば式(17)及び(18)により計算される。強調状態判定部18ではこの音声小段落ごとの確率計算値を比較して、その音声小段落が強調状態か否かを判定し、要約区間取出し部26では音声段落中の1つの音声小段落でも強調状態と判定されたものがあればその音声小段落を含む音声段落を要約区間として取出す。各部の制御は制御部19により行われる。
音声強調状態判定装置及び音声要約装置の何れもコンピュータによりプログラムを実行させて機能させることになる。この場合は音声強調状態判定プログラム又は音声要約プログラムを通信回線を介してインターネットから、又はCD−ROM、磁気ディスクなどからプログラムメモリ27にダウンロードし、CPU又はマイクロプロセッサよりなる制御部19がそのプログラムを実行することになる。なお符号帳の内容もインターネットからプログラムと同様に通信回線を介してダウンロードさせて用いてもよい。
第2実施例
前述の第1実施例による音声強調状態判定方法、音声要約方法では、任意の音声小段落において、強調状態となる確率が平静状態となる確率より大きい音声小段落を一つでも含む音声段落は全て要約として抽出されるため、任意の要約率(圧縮率)で要約することができない不都合がある。この第2実施例では、この点を改善し、任意の要約率で元の音声の要約を自動生成することができる音声処理方法、音声処理装置及び音声処理プログラムを実現する。
【0055】
図18に第2実施例による音声処理方法の基本手順を示す。
ステップS11で音声強調確率算出処理を実行し、音声小段落の強調確率及び平静確率を求める。
ステップS12では要約条件入力ステップS12を実行する。この要約条件入力ステップS12では例えば利用者に要約時間又は要約率又は圧縮率のうち予め決められた少なくとも1つの入力を促す情報を提供し、要約時間又は要約率又は圧縮率を入力させる。尚、予め設定された複数の要約時間又は要約率、圧縮率の中から少なくとも一つを選択する入力方法を採ることもできる。
【0056】
ステップS13では抽出条件の変更を繰り返す動作を実行し、ステップS12の要約条件入力ステップS12で入力された要約時間又は要約率又は圧縮率を満たす抽出条件を決定する。
ステップS14で要約抽出ステップを実行する。この要約抽出ステップS14では抽出条件変更ステップS13で決定した抽出条件を用いて要約として採用すべき音声段落を決定し、この採用すべき音声段落の総時間長を計算する。
ステップ15では要約再生処理を実行し、要約抽出ステップS14で抽出した音声段落列を再生する。
【0057】
図19は図18に示した音声強調確率算出ステップS11の詳細を示す。
ステップS101で要約対象とする音声波形列を音声小段落に分離する。
ステップS102ではステップS101で分離した音声小段落列から音声段落を抽出する。音声段落とは図3で説明したように、1つ以上の音声小段落で構成され、その部分の音声を再生した場合、大多数の受聴者が意味を理解できる単位である。ステップS101, S102による音声小段落及び音声段落の抽出は図2で説明したと同様の方法で行うことができる。
ステップS103及びステップS104でステップS101で抽出した音声小段落毎に図12で説明した符号帳と前述した式(17), (18)等を利用して各音声小段落が強調状態となる確率(強調確率)PSempと、平静状態となる確率(平静確率)PSnrmとを求める。
【0058】
ステップS105ではステップS103及びS104において各音声小段落毎に求めた強調確率PSempと平静確率PSnrmなどを各音声小段落毎に仕分けして記憶手段に音声強調確率テーブルとして格納する。
図20に記憶手段に格納した音声強調確率テーブルの一例を示す。図20に示すM1, M2, M3, …は音声小段落毎に求めた音声小段落強調確率PSempと、音声小段落平静確率PSnrmを記録した音声小段落確率記憶部を示す。これらの小段落確率記憶部M1, M2, M3, …には各音声小段落Sjの属する音声段落番号Bと、音声小段落Sjに付された音声小段落番号jと、開始時刻(要約対象音声の先頭から計時した時刻)終了時刻、音声小段落強調確率、音声小段落平静確率、各音声小段落を構成するフレーム数FS等が格納される。
【0059】
図18における要約条件入力ステップS12で入力する条件としては要約すべきコンテンツの全長TCを1/X(Xは正の整数)の時間TS=TC/Xに要約することを示す要約率r=1/X、あるいは要約時間TSを入力する。
この要約条件の設定に対し、抽出条件変更ステップS13では初期値として重み係数WをW=1に設定し、この重み係数を要約抽出ステップS14に入力する。
要約抽出ステップS14は重み係数W=1として音声強調確率テーブルから各音声小段落毎に格納されている強調確率PSempと平静確率PSnrmとを比較し、
WPSemp>PSnrm (19)
の関係にある音声小段落を抽出すると共に、更にこの抽出した音声小段落を一つでも含む音声段落を抽出し、抽出した音声段落列の総延長時間TG(秒)を求める。
【0060】
抽出した音声段落列の総延長時間TGと要約条件で決めた所定の要約時間TSとを比較する。ここでTG≒TS(TSに対するTGの誤差が例えば±数%程度の範囲)であれば抽出した音声段落列をそのまま要約音声として再生する。
要約条件で設定した要約時間TSに対するコンテンツの要約した総延長時間TGの誤差値が規定より大きく、その関係がTG>TSであれば抽出した音声段落列の総延長時間TGが、要約条件で定めた要約時間TSより長いと判定し、図18に示した抽出条件変更ステップS13を再実行させる。抽出条件変更ステップS13では重み係数がW=1で抽出した音声段落列の総延長時間TGが要約条件で定めた要約時間TSより「長い」とする判定結果を受けて強調確率PSempに現在値より小さい重み付け係数Wを乗算して重み付けを施す。重み係数Wとしては例えばW=1-0.001×L(Lはループ回数)で求める。
【0061】
つまり、音声強調確率テーブルから読み出した音声段落列の全ての音声小段落で求められている強調確率PSempの配列に1回目のループではW=1-0.001×1で決まる重み係数W=0.999を乗算し、重み付けを施す。この重み付けされた全ての各音声小段落の強調確率WPSempと各音声小段落の平静確率PSnrmとを比較し、WPSemp>PSnrmの関係にある音声小段落を抽出する。
この抽出結果に従って要約抽出ステップS14では抽出された音声小段落を含む音声段落を抽出し、要約音声段落列を再び求める。これと共に、この要約音声段落列の総延長時間TGを算出し、この総延長時間TGと要約条件で定められる要約時間TSとを比較する。比較の結果がTG≒TSであれば、その音声段落列を要約音声と決定し、再生する。
【0062】
1回目の重み付け処理の結果が依然としてTG>TSであれば抽出条件変更ステップを、2回目のループとして実行させる。このとき重み係数WはW=1-0.001×2で求める。全ての強調確率PSempにW=0.998の重み付けを施す。
このように、ループの実行を繰り返す毎にこの例では重み係数Wの値を徐々に小さくするように抽出条件を変更していくことによりWPSemp>PSnrmの条件を満たす音声小段落の数を漸次減らすことができる。これにより要約条件を満たすTG≒TSの状態を検出することができる。
尚、上述では要約時間TGの収束条件としてTG≒TSとしたが、厳密にTG=TSに収束させることもできる。この場合には要約条件に例えば5秒不足している場合、あと1つの音声段落を加えると10秒超過してしまうが、音声段落から5秒のみ再生することで利用者の要約条件に一致させることができる。また、この5秒は強調と判定された音声小段落の付近の5秒でもよいし、音声段落の先頭から5秒でもよい。
【0063】
また、上述した初期状態でTG<TSと判定された場合は重み係数Wを現在値よりも小さく例えばW=1-0.001×Lとして求め、この重み係数Wを平静確率PSnrmの配列に乗算し、平静確率PSnrmに重み付けを施せばよい。また、他の方法としては初期状態でTG>TSと判定された場合に重み係数を現在値より大きくW=1+0.001×Lとし、この重み係数Wを平静確率PSnrmの配列に乗算してもよい。
また、要約再生ステップS15では要約抽出ステップS14で抽出した音声段落列を再生するものとして説明したが、音声付の画像情報の場合、要約音声として抽出した音声段落に対応した画像情報を切り出してつなぎ合わせ、音声と共に再生することによりテレビ放送の要約、あるいは映画の要約等を行うことができる。
【0064】
また、上述では音声強調確率テーブルに格納した各音声小段落毎に求めた強調確率又は平静確率のいずれか一方に直接重み係数Wを乗算して重み付けを施すことを説明したが、強調状態を精度良く検出するためには重み係数Wに各音声小段落を構成するフレームの数F乗してWFとして重み付けを行うことが望ましい。式(17)及び(18)で算出する条件付の強調確率PSempは各フレーム毎に求めた強調状態となる確率を音声小段落にわたって乗算して求めており、また平静状態となる確率PSnrmも各フレーム毎に算出した平静状態となる確率を音声小段落にわたって乗算して求めている。そこで、例えば強調確率PSempに重み付けを施すには各フレーム毎に求めた強調状態となる確率に係数Wで重み付けして音声小段落にわたって乗算すればWFの重み付けを施したことになる。
【0065】
この結果、フレームの数Fに応じて重み付けの影響が増減され、フレーム数の多い音声小段落ほど、つまり延長時間が長い音声小段落程大きい重みが付されることになる。
但し、単に強調状態を判定するための抽出条件を変更すればよいのであれば各フレーム毎に求めた強調状態となる確率の積又は平静状態となる確率の積に重み係数Wを乗算するだけでも抽出条件の変更を行うことができる。従って、必ずしも重み付け係数WをWFとする必要はない。
また、上述では抽出条件の変更手段として音声小段落毎に求めた強調確率PSemp又は平静確率PSnrmに重み付けを施してPSemp>PSnrmを満たす音声小段落の数を変化させる方法を採ったが、他の方法として全ての音声小段落の強調確率PSempと平静確率PSnrmに関してそれぞれその確率比PSemp/PSnrmを演算し、この確率比の降順に対応する音声小段落を含む音声段落を同一段落は一回に限定して累積して、それらの音声段落の累積時間を算出し、その時間和、即ち要約区間の時間の総和が、略所定の要約時間に合致する場合、そのときの累積音声段落の時刻順配列を要約と決定して要約音声を編成してもよい。
【0066】
この場合、編成した要約音声の総延長時間が要約条件で設定した要約時間に対して過不足が生じた場合には、強調状態にあると判定するための確率比PSemp/PSnrmの判定閾値を変更すれば抽出条件を変更することができる。即ち、判定閾値を大きくすれば、強調状態と判定される音声小段落の数は減少するので要約区間として検出される音声段落数も減少し、総要約時間も短くなる。判定閾値を小さくすればその逆となる。この抽出条件変更方法を採る場合には要約条件を満たす要約音声を編成するまでの処理を簡素化することができる利点が得られる。
上述では各音声小段落毎に求める強調確率PSempと平静確率PSnrmを各フレーム毎に算出した強調状態となる確率の積及び平静状態となる確率の積で算出するものとして説明したが、他の方法として各フレーム毎に強調状態となる確率を求め、それらの音声小段落内の平均値を求め、この平均値をその音声小段落の強調確率PSemp及び平静確率PSnrmとして用いることもできる。従って、この強調確率PSemp及び平静確率PSnrmの算出方法を採る場合には重み付けに用いる重み付け係数Wはそのまま強調確率PSemp又は平静確率PSnrmに乗算すればよい。
【0067】
図21を参照してこの第2実施例による要約率を自由に設定できる音声処理装置を説明する。この実施例では図13に示した音声強調状態要約装置の構成に要約条件入力部31と、音声強調確率テーブル32と、強調小段落抽出部33と、抽出条件変更部34と、仮要約区間判定部35と、この仮要約区間判定部35の内部に要約音声の総延長時間を求める総延長時間算出部35Aと、この総延長時間算出部35Aが算出した要約音声の総延長時間が要約条件入力部31でユーザが入力した要約時間に対し、その誤差が予め決められた値の範囲に入っているか否かを判定する要約区間決定部35Bと、要約条件に合致した要約音声を保存し、再生する要約音声保存・再生部35Cを設けた構成とした点を特徴とするものである。
【0068】
入力音声から図13で説明したように、フレーム毎に音声特徴量が求められ、この音声特徴量に従って強調確率計算部16と平静確率計算部17でフレーム毎に強調確率と、平静確率とを算出し、これら強調確率と平静確率を各フレームに付与したフレーム番号と共に記憶部12に格納する。更に、このフレーム番号に音声小段落判定部で判定した音声小段落に付与した音声小段落番号jとその音声小段落が属する音声段落番号Bが付記され、各フレーム及び音声小段落にアドレスが付与される。
この実施例による音声処理装置では強調確率算出部16と平静確率算出部17は記憶部12に格納している各フレームの強調確率と平静確率を読み出し、この強調確率及び平静確率から各音声小段落毎に強調確率PSempと平静確率PSnrmとを求め、これら強調確率PSempと平静確率PSnrmを音声強調確率テーブル32に格納する。
【0069】
音声強調確率テーブル32には各種のコンテンツの音声波形の音声小段落毎に求めた強調確率と平静確率とが格納されており、いつでも利用者の要求に応じて要約を実行できる。利用者は要約条件入力部31に要約条件を入力する。ここで言う要約条件とは要約したいコンテンツの名称と、そのコンテンツの全長時間に対する要約率rを指す。要約条件としてはコンテンツの全長を1/10に要約するか、或は時間で10分に要約するなどの入力方法が考えられる。ここで例えば要約率r=1/10と入力した場合は要約時間算出部31Aはコンテンツの全長時間を1/10にする時間を算出し、その算出した要約時間を要約区間仮判定部35の要約区間決定部35Bに送り込む。
【0070】
要約条件入力部31に要約条件が入力されたことを受けて制御部19は要約音声の生成動作を開始する。その開始の処理としては音声強調確率テーブル32から利用者が希望したコンテンツに対して強調確率と平静確率を読み出す。読み出された強調確率と平静確率を強調小段落抽出部33に送り込み、強調状態にあると判定される音声小段落番号を抽出する。
強調状態にある音声小段落を抽出するための条件を変更する方法としては上述した強調確率PSempと平静確率PSnrmに対する相対重み付け係数Wを変更してWPSemp>PSnrmの関係にある音声小段落を抽出し、それら音声小段落を含む音声段落により要約音声を得る方法と、重み付き確率比WPSemp/PSnrmを算出し、この重み係数を変更して重み付き確率比の降順に強調音声段落を含む音声段落の時間を1回に制限して累算して要約時間を得る方法とを用いることができる。
【0071】
抽出条件の初期値としては重み付けにより抽出条件を変更する場合には重み付け係数Wの初期値をW=1としてもよい。また、各音声小段落毎に求めた強調確率PSempと平静確率PSnrmの確率比PSemp/PSnrmの値に応じて強調状態と判定する場合は初期値としてその比の値が例えばPSemp/PSnrm≧1である場合を強調状態と判定してもよい。
この初期設定状態で強調状態と判定された音声小段落番号と開始時刻、終了時刻を表わすデータを強調小段落抽出部33から要約区間仮判定部35に送り込む。要約区間仮判定部35では強調状態と判定された小段落番号を含む音声段落を記憶部12に格納している音声段落列から検索し、抽出する。抽出した音声段落列の総延長時間を総延長時間算出部35Aで算出し、その総延長時間と要約条件として入力された要約時間とを要約区間決定部35Bで比較する。比較結果が要約条件を満たすか否かの判定は、例えば要約総時間TGと入力要約時間TSが予め決めた許容誤差ΔTに対し、|TG-TS|≦ΔTを満足しているか否かを判定してもよいし、予め決めた1より小さい性の値δに対し0<|TG-TS|<δを満足しているか否かを判定してもよい。比較の結果が要約条件を満たしていれば、その音声段落列を要約音声保存・再生部35Cで保存し、再生する。この再生動作は強調小段落抽出部33で強調状態と判定された音声小段落の番号から音声段落を抽出し、その音声段落の開始時刻と終了時刻の指定により各コンテンツの音声データ或は映像データを読み出して要約音声及び要約映像データとして送出する。
【0072】
要約区間決定部35Bで要約条件を満たしていないと判定した場合は、要約区間決定部35Bから抽出条件変更部34に抽出条件の変更指令信号を出力し、抽出条件変更部34に抽出条件の変更を行わせる。抽出条件変更部34は抽出条件の変更を行い、その抽出条件を強調小段落抽出部33に入力する。強調小段落抽出部33は抽出条件変更部34から入力された抽出条件に従って再び音声強調確率テーブル32に格納されている各音声小段落の強調確率と平静確率との比較判定を行う。
強調小段落抽出部33が抽出した強調音声小段落は再び要約区間仮判定部35に送り込まれ、強調状態と判定された音声小段落を含む音声段落の抽出を行わせる。この抽出された音声段落の総延長時間を算出し、その算出結果が要約条件を満たすか否かを要約区間決定部35Bで行う。この動作が要約条件を満たすまで繰り返され、要約条件が満たされた音声段落列が要約音声及び要約映像データとして記憶部12から読み出され再生され、ユーザ端末に配信される。
【0073】
この第2実施例による音声処理方法はコンピュータによりプログラムを実行させて実現することになる。この場合は符号帳及び処理プログラムを通信回線を介してダウンロードしたり、又はCD-ROM、磁気ディスク等の記憶媒体に格納されたプログラムをインストールして計算機内のCPU等の処理装置で本発明の方法を実行させることも可能である。
第3実施例
第1実施例で説明した図1のステップS3における発話状態判定処理は、図4及び12を参照して説明したように、被験者の音声を分析して強調状態及び平静状態とラベルされた区間の各音声特徴量ベクトルについて予め求めた単独出現確率及び条件付出現確率を計算して符号帳にコードと対応して格納しておき、入力音声小段落の一連のフレームのコードから音声小段落が強調状態となる確率と平静状態となる確率を例えば式(17)及び(18)で求め、それらの大小関係により音声小段落が強調状態か平静状態かを判定したが、この第3実施例では音響モデルとして隠れマルコフモデル(HMM:Hidden Markov Model)を使用して判定を行う例を以下に説明する。
【0074】
この実施例では、例えば予め被験者の学習用音声信号データ中の強調状態とラベル付けされた多数の区間と平静状態とラベル付けされた多数の区間から強調状態のHMMと平静状態のHMMをそれぞれ作成し、入力音声小段落の強調状態HMMに対する尤度と平静状態HMMに対する尤度を求め、その大小関係から発話状態を判定する。
HMMは一般に以下のパラメータにより構成される。
S:状態の有限集合;S={Si
Y:観測データ集合;Y={y1,..., yt
A:状態遷移確率の集合;A={aij
B:出力確率の集合;B={bj(yt)}
π:初期状態確率の集合;π={πi
図22A,22Bは状態数4(i=1,2,3,4)の場合の典型的な強調状態HMMと平静状態HMMの例を示す。この発明の実施例において、例えば学習音声データ中の強調状態と平静状態のラベル区間を、予め決めた状態数4にモデル化する場合、強調状態のHMMの状態における有限集合Semp={Semmpi}はSemp1, Semp2, Semp3, Semp4であり、平静状態のHMMの状態における有限集合Snrm={Snrmi}はSnrm1, Snrm2, Snrm3, Snrm4である。観測データ集合Yの要素{y1…,yt}は強調状態と平静状態のラベル区間の量子化された音声特徴量の組である。この実施例においても音声特徴量として、基本周波数、パワー、動的特徴量の時間変化特性の少なくともいずれか1つ及び/又はそれらのフレーム間差分の少なくともいずれか1つを含む音声特徴量の組を使用する。aempijは状態SempiからSempjに遷移する確率を示し、bempj(yt)は状態Sempjに遷移してytを出力する出力確率を示す。初期状態確率はπemp(y1)、πnrm(y1)となる。aempij, anrmij, bempj(yt), bnrmj(yt)は学習音声からEM(Expectation-Maximization)アルゴリズム、または前向き・後ろ向きアルゴリズムによって推定する。
【0075】
以下に強調状態のHMMの設計の概要を説明する。
ステップS1:まず、学習音声データ中の強調状態又は平静状態とラベル付けされた全ての区間のフレームを分析して各フレームの予め決めた音声特徴量の組を求め、量子化符号帳を作る。例えば、ここでは、音声特徴量として第1実施例の実験で使用した後述する図17に組み番号7で示す13個のパラメータを含む音声特徴量の組を使用するものとし、量子化符号帳として、13次元ベクトルの符号帳を1つ作成する。量子化符号帳のサイズをMとし、各ベクトルに対応するコードをCm, (1, …, M)と表し、各コードに対応して学習により求めた音声特徴量ベクトルが格納された量子化符号帳を作成する。
ステップS2:学習音声データ中の強調状態と平静状態の全てのラベル区間のフレームの音声特徴量の組を量子化符号帳により量子化して、各強調ラベル区間の音声特徴量ベクトルのコード列Cmt, t=1,…,LN、(LNは区間のフレーム数)を得る。第1実施例で述べたように、量子化符号帳の各コードCmの強調状態での出現確率Pemp(Cm)が求まり、これが初期状態確率πemp(Cm)となる。同様に、平静状態での出現確率Pnrm(Cm)が求まり、これが初期状態確率πnrm(Cm)となる。図23AはコードCmの番号とそれに対応する初期状態確率πemp(Cm)とπnrm(Cm)の関係を表として示す。
ステップS3:強調状態HMMの状態数は任意に決めてよい。ここでは例えば図22A、22Bの場合、強調状態HMMと平静状態HMMの状態数はいずれも4とした場合を示し、強調状態のHMMは状態Sempi、状態Semp2、状態Semp3、状態Semp4が、平静状態のHMMは状態Snrm1、状態Snrm2、状態Snrm3、状態Snrm4が設けられている。
【0076】
学習音声データの強調ラベル区間の一連のフレームから得たコード列から状態の遷移回数を計算し、それに基づいてEMアルゴリズム及び前向き・後ろ向きアルゴリズムを使って遷移確率aempij, anrmijと、出力確率bempj(Cm), bnrmj(Cm)を最尤推定する。これらの計算方法については例えばBaum, L.E.,"An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Function of a Markov Process", In-equalities, vol.3, pp.1-8(1972)に示されている。図23B、23Cにそれぞれの状態に対して設けられる遷移確率aempij, anrmijを示し、図24に強調状態HMMのそれぞれの状態Sempj, 及び平静状態HMM のそれぞれの状態Snrmj, (j=1,…,4)での各コードの出力確率bempj(Cm), bnrmj(Cm)を表で示す。
【0077】
これら状態遷移確率aempij, anrmijとコードの出力確率bempj(Cm), bnrmj(Cm)はそれぞれ表として例えば図13の装置の符号帳メモリ15内に格納され、以下に説明する入力音声信号の発話状態の判定に使用される。なお、出力確率の表は第1及び第2実施例における符号帳に対応する。
このようにして設計した強調状態HMMと平静状態HMMを使って入力音声小段落の発話状態を以下のようにして判定することができる。
入力音声小段落の一連のフレーム(フレーム数FN)から得た音声特徴量の組の列が得られ、それぞれの音声特徴量の組を量子化符号帳により量子化してコード列{Cm1, Cm2, …,CmFN}を得る。このコード列を、上記強調状態HMMで状態Semp1から開始して状態Semp4に達する全ての取り得る遷移経路について、音声小段落が強調状態となる確率(尤度)を算出する。ある経路kの遷移経路について以下に説明する。図25に、音声小段落の各フレームについて、コード列、状態、状態遷移確率、出力確率をまとめて示す。強調状態HMMでの経路kの状態系列Sk empがSk emp={Sk emp1, Sk emp2, …, Sk empFN}であるときの強調状態となる確率P(Sk emp)は、次式により求められる。
【数5】
Figure 0003803311
全ての経路kについて式(20)を算出する。音声小段落が強調状態となる確率PempHMMを例えば、最尤経路上の強調状態となる確率とすると、次式で表される。
【数6】
Figure 0003803311
あるいは、全ての経路についての上記式(20)の和で次式
【数7】
Figure 0003803311
として求めてもよい。
同様に、平静状態のHMMについて、経路kの状態系列Sk nrmがSk nrm={Sk nrm1, Sk nrm2, …, Sk nrmFN}であるときの強調状態となる確率P(Sk nrm)は次式、
【数8】
Figure 0003803311
により求める。音声小段落が平静状態となる確率PnrmHMMを最尤経路上の平静状態となる確率とする場合、次式
【数9】
Figure 0003803311
で表される。あるいは、全ての経路についての上記式(22)の和で次式
【数10】
Figure 0003803311
として求めてもよい。
音声小段落について、強調状態確率PempHMMと平静状態確率PnrmHMMを比較し、前者が大きければ音声小段落は強調状態であると判定し、後者が大きければ音声小段落は平静状態であると判定する。あるいは、確率比PempHMM/PnrmHMMが予め決めた基準値より大きければ強調状態、基準値以下であれば平静状態と判定してもよい。
【0078】
第3実施例で説明したHMMを使用した強調状態確率及び平静状態確率の計算は、音声要約を行う第2実施例で説明した図18のステップS11、詳しくは、図19のステップS103, S104における音声強調確率算出処理に利用してもよい。即ち、式(17), (18)により確率PSemp, PSnrmを求める代わりに式(21), (23)又は式(21'), (23')により求めた強調状態確率PempHMM及び平静状態確率PnrmHMMを使用し、図20に示した音声強調確率テーブルに格納してもよい。確率比PempHMM/PnrmHMMと比較する基準値の値を変化させることにより、要約率を変えることができることは第2実施例の場合と同様である。
【0079】
【発明の効果】
以上述べたようにこの発明によれば、自然な話し言葉の音声の、音声強調状態や音声段落を抽出でき、音声小段落の発話の強調状態を判定できる。この方法を使用して、強調状態である音声小段落を含む音声段落を切り取り、合わせて再構成した音声が、元の音声の重要部分を伝える、要約音声を作成することが可能となる。しかも発話状態の判定や音声要約は話者に依存しない。
【図面の簡単な説明】
【図1】この発明による第1実施例の音声要約方法の基本手順例を示す流れ図。
【図2】図1中のステップS2において、入力音声から、有声区間、音声小段落、音声段落を抽出する手順の例を示す流れ図。
【図3】有声区間、音声小段落、音声段落の関係を説明するための図。
【図4】図1中のステップS3における入力音声小段落の発話状態を判定する手順の例を示す流れ図。
【図5】この発明において用いられる、符号帳を作成する手順の例を示す流れ図。
【図6】音声特徴量をベクトル量子化したコードのunigramの例を示す図。
【図7】音声特徴量をベクトル量子化したコードのbigramの例を示す図。
【図8】図7に示したbigramのうち、コードCh=27のbigramを示す図。
【図9】発話状態尤度計算を説明するための図。
【図10】18組のパラメータの組み合わせで実験した、close実験とopen実験の再現率を示す図。
【図11】符号帳サイズを変化させたときの、close実験とopen実験の再現率を示す図。
【図12】符号帳の記憶例を示す図。
【図13】この発明による音声強調状態判定装置及び音声要約装置の各機能構成例を示す図。
【図14】音声特徴量をベクトル量子化したbigramの例を示す図。
【図15】図14の続きを示す図。
【図16】図15の続きを示す図。
【図17】実際に用いた音声特徴量のパラメータの組合せの例を示す図。
【図18】この発明による第2実施例の音声要約方法を説明するフローチャート。
【図19】音声強調確率テーブルの作成方法を示すフローチャート。
【図20】音声強調確率テーブルを説明するための図。
【図21】第2実施例の音声強調状態判定装置及び音声強調状態要約装置の構成例を示すブロック図。
【図22】Aは第3実施例における強調状態HMMを説明するための図、Bは第3実施例における平静状態HMMを説明するための図。
【図23】Aは各コードに対する強調状態の初期状態確率と平静状態の初期状態確率を示し、Bは強調状態での各遷移状態に対し設けられる状態遷移確率の表を示し、Cは平静状態での各遷移状態に対し設けられる状態遷移確率の表を示す図。
【図24】強調状態の各遷移状態と平静状態の各遷移状態でのそれぞれのコードの出力確率の表を示す。
【図25】1つの音声小段落における一連のフレームから得たコード列とそれらのコードがとる1つの状態遷移系列及びそれに従った状態遷移確率と出力確率をまとめた表を示す。

Claims (24)

  1. フレーム毎の音声特徴量の組に基づき音声の強調状態を判定する音声処理方法であって、
    (a) 基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうちの少なくともいずれか1つを含む音声特徴量の組から成る音声特徴量ベクトルと強調状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳を用い、複数のフレームから構成される区間において、該区間内の各フレームの上記音声特徴量の組を量子化してコードを求め、そのコードと対応する音声特徴量ベクトルの強調状態での出現確率を上記符号帳から求めるステップと、
    (b) 上記区間内の各フレームの上記音声特徴量ベクトルの強調状態での出現確率を該区間内で乗算または和算し、その計算結果に基づいて、該区間が強調状態となる尤度を算出するステップと、
    (c) 上記強調状態となる尤度に基づいて上記区間が強調状態であるか否かを判定するステップ、
    とを含むことを特徴とする音声処理方法。
  2. 請求項1記載の方法において、各上記音声特徴量ベクトルは、少なくとも動的特徴量の時間変化特性を含むことを特徴とする音声処理方法。
  3. 請求項1記載の方法において、各上記音声特徴量ベクトルは、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特徴とする音声処理方法。
  4. 請求項1乃至3のいずれかに記載の方法において、上記符号帳には更に音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率も格納されており、
    上記ステップ(a) は、更に上記区間内の各フレームの上記音声特徴量の組を量子化して求めたコードと対応する上記音声特徴量ベクトルの平静状態での出現確率も上記符号帳から求めるステップ(a1)を含み、
    上記ステップ(b) は、更に上記区間内の各フレームの上記音声特徴量ベクトルの平静状態での出現確率を該区間内で乗算または和算し、その計算結果に基づいて上記区間が平静状態となる尤度も算出するステップ(b-1)を含み、
    上記ステップ(c) は、上記区間が上記強調状態となる尤度と上記平静状態となる尤度を比較して上記区間が強調状態であるか否かを判定するステップであることを特徴とする音声処理方法。
  5. 請求項4記載の方法において、上記ステップ(c) は上記強調状態となる尤度が上記平静状態となる尤度より高いとき、強調状態と判定するステップであることを特徴とする音声処理方法。
  6. 請求項4記載の方法において、上記ステップ(c) は、上記強調状態となる尤度と上記平静状態となる尤度の比に基づいて判定するステップであることを特徴とする音声処理方法。
  7. 請求項1乃至3のいずれかに記載の方法において、上記符号帳に各コードに対応して格納されている上記強調状態での出現確率は、直前の所定数のコードの次にそのコードの音声特徴量ベクトルが強調状態で出現する条件付確率であり
    上記ステップ(a)における上記強調状態での出現確率は上記区間内におけるフレームの位置で決まる強調状態での所定の次数の条件付確率であり、
    上記所定の次数は、上記符号帳に格納されている条件付確率のうち最も高い次数である
    ことを特徴とする音声処理方法。
  8. 請求項4に記載の方法において、上記符号帳に各コードに対応して格納されている上記平静状態での出現確率は、直前の所定数のコードの次にそのコードの音声特徴量ベクトルが平静状態で出現する条件付確率であり
    上記ステップ(a1)における上記平静状態での出現確率は、上記区間内におけるフレームの位置で決まる平静状態での所定の次数の条件付確率であり、
    上記所定の次数は上記符号帳に格納されている条件付確率のうち最も高い次数である
    ことを特徴とする音声処理方法。
  9. 請求項1乃至8のいずれかに記載の方法において、上記ステップ(a)における上記フレームごとの各音声特徴量は、そのフレームを含む区間の各音声特徴量の平均値でそれぞれ規格化したものであり、この規格化された音声特徴量の組が上記音声特徴量の組であることを特徴とする音声処理方法。
  10. 請求項7記載の方法において、上記ステップ(a) における上記所定の次数の条件付確率が上記符号帳中に存在しない場合は、上記符号帳に格納されている、0次から上記所定の次数より1つ低い次数までの強調状態での条件付確率を線形補間して上記所定の次数の条件付確率としたものであることを特徴とする音声処理方法。
  11. 請求項8記載の方法において、上記ステップ(a1) における上記平静状態での所定の次数の条件付確率が上記符号帳中に存在しない場合は、上記符号帳に格納されている、0次から上記所定の次数より1つ低い次数までの平静状態での条件付確率を線形補間して上記所定の次数の条件付確率としたものであることを特徴とする音声処理方法。
  12. 請求項1乃至3のいずれかに記載の方法において、上記ステップ(a) は、更に
    (a-1) フレームごとの音声信号について、無声区間か有声区間か判定するステップと、
    (a-2) 所定フレーム数以上の無声区間で囲まれ、少なくとも1フレーム以上の有声区間を含む部分を音声小段落とし、その音声小段落を上記請求項1乃至3のいずれか中の上記区間と判断し、音声小段落の後半部に含まれる上記1フレーム以上の有声区間の平均パワーがその音声小段落内の平均パワーの定数倍より小さい音声小段落を末尾とする音声小段落群を音声段落と判定するステップ、
    とを含み、
    上記ステップ(c) は、上記音声小段落が強調状態であるか否かを判定することに加えて、強調状態と判定された音声小段落を含む音声段落を要約区間と判断するステップも含むことを特徴とする音声処理方法。
  13. 請求項12に記載の方法において、上記符号帳には音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率を更に格納しており、
    上記ステップ(a) は、更に上記音声小段落内の各フレームの上記音声特徴量の組を量子化して求めたコードと対応する上記音声特徴量ベクトルの平静状態での出現確率も上記符号帳から求めるステップも含み、
    上記ステップ(b) は、更に上記音声小段落内の各フレームの上記平静状態での出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて上記音声小段落が平静状態となる尤度を求めるステップを含み、
    上記ステップ(c) は、
    (c-1) 上記音声小段落が強調状態となる尤度の上記平静状態となる尤度に対する尤度比が基準値より大きい音声小段落を含む音声段落を強調状態と判定することに加えその強調状態と判定された音声段落を仮要約区間と判定するステップと、
    (c-2) 上記仮要約区間の時間の総和、又は要約率として上記仮要約区間の時間の総和の、要約対象全区間の時間に対する比率を算出するステップと、
    (c-3) 上記仮要約区間の時間の総和が、略所定の時間であるか否か、又は上記仮要約区間の要約率が略所定の要約率であるか否か、を判断し、略所定の時間又は要約率である場合には、上記仮要約区間を要約区間と決定し、略所定の時間又は要約率でない場合には上記基準値を変更して上記ステップ( c-1 )に戻るステップ
    であることを特徴とする音声処理方法。
  14. 請求項13に記載の方法において、上記ステップ(c-3) における上記 基準値を変更する処理は、
    上記仮要約区間の時間の総和が略所定の要約時間より大きい場合、又は仮要約区間の要約率が略所定の要約率より大きい場合には、上記基準値を増加させ
    上記仮要約区間の時間の総和が略所定の要約時間より小さい場合、又は仮要約区間の要約率が略所定の要約率より小さい場合には、上記基準値を減少させる処理である
    ことを特徴とする音声処理方法。
  15. 請求項12に記載の方法において、上記符号帳には音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率が更に格納されており、
    上記ステップ(a) は、更に上記音声小段落内の各フレームの上記音声特徴量の組を量子化して求めたコードにより上記符号帳の音声特徴量ベクトルに対応する平静状態での出現確率を求めるステップを含み、
    上記ステップ(b) は、更に上記平静状態での出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて上記音声小段落が平静状態となる尤度を算出するステップを含み、
    上記ステップ(c)における要約区間の決定は、
    (c-1) 上記音声小段落が強調状態となる尤度の上記平静状態となる尤度に対する尤度比を音声小段落毎に算出するステップと、
    (c-2) 上記尤度比の降順に対応する音声小段落を含む音声段落の時間を累積して要約区間の時間の総和を算出し、又は上記累積した要約区間の時間の総和の要約対象全区間の時間に対する比率を算出し、上記要約区間の時間の総和が略所定の要約時間に、又は上記率が略所定のなるまで上記累積する降順における音声小段落を含む音声段落を順次増加し、その増加終了時における上記累積した各音声段落の時間と対応する各音声段落を要約区間と決定するステップと、
    であることを特徴とする音声処理方法。
  16. 請求項1乃至15のいずれかに記載の音声処理方法の各ステップをコンピュータに実行させる音声処理プログラム。
  17. フレームごとの音声特徴量の組に基づいて音声の強調状態を判定する音声処理装置であり、
    基本周波数、パワー、動的特徴量の時間変化特性、基本周波数のフレーム間差分、パワーのフレーム間差分、動的特徴量の時間変化特性のフレーム間差分の6つのうちの少なくともいずれか1つを含む音声特徴量の組を量子化したコードとし、そのコードと対応する音声特徴量ベクトルの強調状態でのその音声特徴量ベクトルの出現確率がコードごとに格納された符号帳と、
    複数のフレームから構成される区間において、該区間内の各フレームの上記音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの強調状態での出現確率を上記符号帳から求め、これら出現確率を該区間内で乗算または和算し、その計算結果に基づいて上記区間が強調状態となる尤度を求める強調状態確率計算部と、
    上記求めた強調状態となる尤度に基づいて上記区間が強調状態か否かを判定する強調状態判定部、
    とを含むことを特徴とする音声処理装置。
  18. 請求項17記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも動的特徴量の時間変化特性を含むことを特徴とする音声処理装置。
  19. 請求項17記載の音声処理装置において、各上記音声特徴量ベクトルは、少なくとも基本周波数とパワーと動的特徴量の時間変化特性を含むことを特徴とする音声処理装置。
  20. 請求項17乃至19のいずれかに記載の音声処理装置において、上記強調状態判定部は、上記強調状態となる尤度が所定の値より高いか否かを調べ、高ければ上記区間を強調状態と判定する強調状態判定部であることを特徴とする音声処理装置。
  21. 請求項20に記載の音声処理装置において、上記符号帳には更に各コードごとに上記音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率も格納されており、上記音声処理装置は更に、上記区間内の各フレームの上記音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの平静状態での出現確率を上記符号帳から求め、これら平静状態での出現確率を該区間内で乗算または和算し、その計算結果に基づいて上記区間が平静状態となる尤度を求める平静状態確率計算部を含み、上記強調状態判定部は、上記区間が強調状態となる尤度と、上記平静状態となる尤度との比較に基づいて上記区間が強調状態であるか否かを判定するものであることを特徴とする音声処理装置。
  22. 請求項20に記載の音声処理装置は、更に、
    入力音声信号についてフレームごとに無声区間か否かを判定する無声区間判定部と、
    上記入力音声信号についてフレームごとに有声区間か否かを判定する有声区間判定部と、
    所定フレーム数以上の上記無声区間で囲まれ、上記有声区間を含む上記フレームを含む部分の音声小段落を請求項22中の上記区間として判断する音声小段落判定部と、
    上記音声小段落に含まれる上記有声区間の後半部に含まれる1フレーム以上の平均パワーがその音声小段落内の平均パワーの定数倍より小さい上記音声小段落を末尾とする音声小段落群を音声段落とする音声段落判定部と、
    上記強調状態判定部で強調状態と判定された音声小段落を含む音声段落を要約区間と判断して取出す要約区間取出部、
    とを含むことを特徴とする音声処理装置。
  23. 請求項22に記載の音声処理装置において、上記符号帳には更にコードごとに上記音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率が格納されており、上記音声処理装置は更に、
    各上記音声小段落内のそれぞれのフレームの音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの平静状態での出現確率を上記符号帳から求め、これら平静状態での出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて上記音声小段落が平静状態となる尤度を求める平静状態確率計算部と、
    上記強調状態となる尤度の上記平静状態となる尤度に対する尤度比が基準値より大きい音声小段落を含む音声段落を仮要約区間と判定する仮要約区間判定部と、
    仮要約区間の時間の総和、又は要約率として上記仮要約区間の時間の総和の全音声信号区間に対する比率を算出し、上記仮要約区間の時間の総和が略所定の要約時間に、又は上記要約率が略所定の要約率となるように上記基準値を変更して要約区間を決定する要約区間決定部、
    とを含むことを特徴とする音声処理装置。
  24. 請求項22に記載の音声処理装置において、上記符号帳には更に各コードの上記音声特徴量ベクトルと対応して平静状態でのその音声特徴量ベクトルの出現確率が格納されており、上記音声処理装置は更に、
    上記音声小段落のそれぞれのフレームの音声特徴量の組を量子化したコードと対応する音声特徴量ベクトルの平静状態での出現確率を上記符号帳から求め、これら平静状態での出現確率を該音声小段落内で乗算または和算し、その計算結果に基づいて上記音声小段落が平静状態となる尤度を求める平静状態確率計算部と、
    上記強調状態となる尤度の上記平静状態となる尤度に対する尤度比を音声小段落毎に算出し、上記尤度比を降順に所定の尤度比まで対応する音声小段落を含む音声段落を仮要約区間と判定する仮要約区間判定部と、
    仮要約区間の時間の総和、又は要約率として上記全音声信号区間に対する上記仮要約区間の時間の総和の比率を算出し、上記仮要約区間の時間の総和が上記所定の要約時間に、又は上記要約率が上記所定の要約率となるまで上記所定の尤度比を低下して要約区間を決定する要約区間決定部、
    とを含むことを特徴とする音声処理装置。
JP2002230598A 2001-08-08 2002-08-07 音声処理方法及びその方法を使用した装置及びそのプログラム Expired - Lifetime JP3803311B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002230598A JP3803311B2 (ja) 2001-08-08 2002-08-07 音声処理方法及びその方法を使用した装置及びそのプログラム

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2001-241278 2001-08-08
JP2001241278 2001-08-08
JP2002047597 2002-02-25
JP2002-47597 2002-02-25
JP2002230598A JP3803311B2 (ja) 2001-08-08 2002-08-07 音声処理方法及びその方法を使用した装置及びそのプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006009913A Division JP4256393B2 (ja) 2001-08-08 2006-01-18 音声処理方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2003316378A JP2003316378A (ja) 2003-11-07
JP3803311B2 true JP3803311B2 (ja) 2006-08-02

Family

ID=29553934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002230598A Expired - Lifetime JP3803311B2 (ja) 2001-08-08 2002-08-07 音声処理方法及びその方法を使用した装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP3803311B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008032787A1 (fr) 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
JP2017020793A (ja) * 2015-07-07 2017-01-26 株式会社アニモ 情報処理方法及び装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60204827T2 (de) 2001-08-08 2006-04-27 Nippon Telegraph And Telephone Corp. Anhebungsdetektion zur automatischen Sprachzusammenfassung
JP2003288096A (ja) * 2002-03-27 2003-10-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
JP2003255983A (ja) * 2002-03-05 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
JP4580190B2 (ja) * 2004-05-31 2010-11-10 日本電信電話株式会社 音声処理装置、音声処理方法およびそのプログラム
EP1791113A4 (en) 2004-07-28 2008-05-21 Nihon Funen Co Ltd DIGITAL FILTRATION PROCESS, DIGITAL FILTRATION DEVICE, DIGITAL FILTRATION PROGRAM AND RECORDING MEDIUM AND RECORDED DEVICE READ ON A COMPUTER
JP2006267465A (ja) * 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
JP4630136B2 (ja) * 2005-06-23 2011-02-09 日本電信電話株式会社 ストレス状態推定緩和装置及びそのプログラム
JP2011061263A (ja) * 2009-09-07 2011-03-24 Nippon Telegr & Teleph Corp <Ntt> ダイジェスト映像作成装置およびダイジェスト映像作成プログラム
JP5588932B2 (ja) * 2011-07-05 2014-09-10 日本電信電話株式会社 はなし言葉分析装置とその方法とプログラム
CN117854509B (zh) * 2024-03-05 2024-05-03 北京建筑大学 一种耳语说话人识别模型训练方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008032787A1 (fr) 2006-09-13 2008-03-20 Nippon Telegraph And Telephone Corporation ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
US8386257B2 (en) 2006-09-13 2013-02-26 Nippon Telegraph And Telephone Corporation Emotion detecting method, emotion detecting apparatus, emotion detecting program that implements the same method, and storage medium that stores the same program
JP2017020793A (ja) * 2015-07-07 2017-01-26 株式会社アニモ 情報処理方法及び装置

Also Published As

Publication number Publication date
JP2003316378A (ja) 2003-11-07

Similar Documents

Publication Publication Date Title
EP1288911B1 (en) Emphasis detection for automatic speech summary
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法
Loscos et al. Low-delay singing voice alignment to text
JP3803311B2 (ja) 音声処理方法及びその方法を使用した装置及びそのプログラム
CN112435654A (zh) 通过帧插入对语音数据进行数据增强
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
Paulus et al. Drum sound detection in polyphonic music with hidden markov models
JP4256393B2 (ja) 音声処理方法及びそのプログラム
Kim Singing voice analysis/synthesis
Prahallad et al. Automatic building of synthetic voices from large multi-paragraph speech databases.
JP4580190B2 (ja) 音声処理装置、音声処理方法およびそのプログラム
JP4696418B2 (ja) 情報検出装置及び方法
Schnell et al. Investigating a neural all pass warp in modern TTS applications
Lee et al. A segmental speech coder based on a concatenative TTS
Nguyen et al. Development of a Vietnamese large vocabulary continuous speech recognition system under noisy conditions
JP3803302B2 (ja) 映像要約装置
JP2003288096A (ja) コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
Abdullaeva et al. Uzbek Speech synthesis using deep learning algorithms
Jin Speech synthesis for text-based editing of audio narration
WO2004077381A1 (en) A voice playback system
JP3803306B2 (ja) 音響信号符号化方法、符号化器及びそのプログラム
JP2019219590A (ja) 音声合成装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050926

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060502

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3803311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090512

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100512

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100512

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110512

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120512

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130512

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140512

Year of fee payment: 8

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term