JP3621686B2

JP3621686B2 - データ編集方法、データ編集装置、データ編集プログラム

Info

Publication number: JP3621686B2
Application number: JP2002060728A
Authority: JP
Inventors: 浩太日▲高▼; 英俊白川; 信弥中嶌; 理水野; 治彦児島; 秀豪桑野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-03-06
Filing date: 2002-03-06
Publication date: 2005-02-16
Anticipated expiration: 2022-03-06
Also published as: JP2003255979A

Description

【０００１】
【発明の属する技術分野】
この発明は、文字、音声、映像から構成されるマルチメディア会議録を自動的に作成することに利用することができるデータ編集方法、データ編集装置及びデータ編集方法をコンピュータ上で実現するためのデータ編集プログラムに関する。
【０００２】
【従来の技術】
従来においては、マルチメディア会議録作成の方法として、会議の文字、音声、映像をディジタル化し、人手によって編集する方法があった。例えば、日本国特開平２０００−１８４０７８公報では、アナログ音声信号をディジタル信号に変換し、記録媒体に記録し、複数の音声記録装置間を接続し、信号源を共有する方法があった。
また、日本国特開平１０−２９４４９２号公報では、会議中の発言を、音声メモとして記録し、文章に起こしてテキストメモとして付加し、順次他のテキストメモとの関連付けを行って議事録を作成する方法があった。
【０００３】
また、日本国特開平１０−２９４７９８号公報では会議の出席者と、該当出席者が使用するテレビ会議端末とを対応付けし、発言内容の音声情報を音声認識し、認識された音声を文字情報に変換し、変換された文字情報を、発言毎に議事録として蓄積し、文字情報から音声情報に変換し、変換された音声情報を議事録として蓄積するマルチメディア議事録作成方法があった。
また、日本国特開平７−１２３３８４号公報では、映像、音声情報を扱う会議端末を、通信網を介して接続し、多地点間で通信会議を行う分散会議システムのマルチメディア会議録を、自席で作成、編集、承認、配布ができる装置があった。
【０００４】
また、日本国特開平７−１８２３６５号公報では、会議のデータを、動画、静止画、音声、ペン、キー等の入力手段で入力し、入力データの時間関係を解析して検索用ファイルを作成し、検索用ファイルに該当するデータを読み出し、データを表示、編集し、マルチメディア会議録を作成支援する方法があった。
【０００５】
【発明が解決しようとする課題】
音声情報を検索・編集するには、音声情報を聴取するか、音声認識しなければならない。音声聴取には、発話速度変換技術があるが、短時間で内容を理解し、検索・編集するには限界がある。日本国の特開２０００−１８４０７８公報記載のマルチメディア会議録作成方法では利用者は重要な部分を見出すまで全区間を聴取しなければならない。
日本国特開平８−１９４４９２号公報、日本国特開平７−１２３３８４号公報では、議事録作成を人手で行うことが前提なため、短時間でマルチメディア会議録を作成することは不可能である。また、自動的にマルチメディア会議録を作成するものではない。
【０００６】
会議音声を聴取せずに、内容を知るには音声認識技術を用いた方法として、例えば、日本国特開平１０−２９４７９８号公報では、発話者の音声情報を音声認識する。しかし、音声認識は、雑音環境にないことと、明瞭な音声で、複数話者の同時発話が生じないことが必要である。然し乍ら、会議音声は、空調音や資料をめくる音等の雑音環境下にある。複数話者の同時発話も頻繁に生じ、原稿等を用いない自然な話し言葉や、会話が主であるため、音声認識を用いるのは現実的ではない。
日本国特開平７−１８２３６５号公報では、会議のキーワードとして、音声認識処理、文字認識処理、形態素解析処理によってキーワードを抽出している。しかし、音声認識は前記の理由で現実的ではなく、また、文字認識や形態素解析を用いたシステムでは必ずしも所望の認識結果や構文分析がなされるわけではないので、自動的にマルチメディア会議録を作成することは不可能である。また、キーワードが会議の重要部分を伝えているかという評価が欠けており、有用なマルチメディア会議録が作成されるとは必ずしも保証されない。
【０００７】
この発明は、前記のような従来の技術の有する欠点に鑑みてなされたもので、マルチメディア会議録作成のために人手を必要とせず、雑音環境下で、原稿等を使用しない、自然な話し言葉や会議で、複数話者の同時発話が生じた場合等に問題となる、音声認識の適応が困難な、一般的な音声であっても、短時間で元の映像、あるいは音声の内容を知ることができる。あるいは利用者が希望する時間や、会議の場面（シーン）数や、発話者等で構成されるマルチメディア会議録を自動的に作成することを目的とする。
【０００８】
【課題を解決するための手段】
この発明では、チャネル又は発話者毎の音声信号の要約区間に基づくデータにチャネル情報及び発話者情報のうち少なくとも何れか一方を付加して、時刻順に記録するデータ編集方法において、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率とを対応して格納した符号帳を用い、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出し、強調状態となる確率が所定の確率よりも大きい音声信号区間を要約区間と判定するデータ編集方法を提案する。
【０００９】
この発明では更に、音声信号要約区間を音声認識してテキストに変換し、テキストを記録するデータ編集方法を提案する。
この発明では更に、音声信号と同期入力した映像信号のうち音声信号の要約区間に対応する映像信号区間を、音声信号の要約区間と対応付けて記録するデータ編集方法を提案する。
この発明では更に、音声信号の要約区間の開始時刻情報と終了時刻情報のうち少なくとも何れか一方を、音声信号の要約区間と対応付けて記録するデータ編集方法を提案する。
【００１０】
この発明では更に、音声信号の要約区間は、符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量に対応して、強調状態での出現確率及び平静状態での出現確率が格納され、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態の出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出し、平静状態での出現確率に基づいて平静状態となる確率を算出し、強調状態となる確率の平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定し、要約区間の時間の総和、又は要約率として音声信号全区間の時間の要約区間の時間の総和に対する比率を算出し、要約区間の時間の総和が略所定の要約時間に、又は要約率が略所定の要約率となる所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定するデータ編集方法を提案する。
【００１１】
この発明では更に、音声信号の要約区間は、符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量に対応して、強調状態での出現確率及び平静状態での出現確率が格納され、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出し、平静状態での出現確率に基づいて平静状態となる確率を算出し、強調状態となる確率の平静状態となる確率に対する確率比を音声信号区間毎に算出し、確率比の降順に確率比に対応する音声信号区間の時間を累積して要約区間の時間の総和を算出し、要約区間の時間の総和が略所定の要約時間に、又は要約率が略所定の要約率となる要約時間が得られる音声信号区間を各チャネル毎又は各発話者毎の要約区間と決定するデータ編集方法を提案する。
【００１２】
この発明では更に、チャネル又は発話者毎の音声信号の要約区間に前期チャネル情報及び発話者情報のうち少なくとも何れか一方を付加して、時刻順に記録するデータ編集装置において、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率とを対応して格納した符号帳と、この符号帳を用いて音声符号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、前期平静状態での出現確率に基づいて平静状態となる確率を算出する強調状態確率計算部と、強調状態となる確率の平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、要約区間の時間の総和が略所定の要約時間に、又は要約率が略所定の要約率となる所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定する要約区間決定部とを有するデータ編集装置を提案する。
【００１３】
この発明では更に、チャネル又は各発話者毎の音声信号の要約区間にチャネル情報及び発話者情報のうち少なくとも何れか一方を付加して時刻順に記録するデータ編集装置において、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率とを対応して格納した符号帳と、この符号帳を用いて、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、強調状態となる確率の平静状態となる確率に対する確率比を音声信号区間毎に算出し、確率比が所定の確率比より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、要約区間の時間の総和、又は要約率として音声信号区間の時間の要約区間の時間の総和に対する比率を算出し、要約区間の時間の総和が所定の要約時間に、又は要約率が所定の要約率となる所定の確率比を算出して各チャネル又は各発話者毎の要約区間を決定する要約区間決定部とを有するデータ編集装置を提案する。
この発明では更に、コンピュータが読み取り可能な符号で記述され、コンピュータにデータ編集方法を実行させるデータ編集プログラムを提案する。
【００１４】
作用
この発明に用いる音声要約方法は、会議音声の強調状態を判定し、その区間を重要部分として抽出することができる。そのために、この重要部分をつなげて再生すると、会議全体の要旨を伝えることが可能となる。また音声要約手段は、雑音環境下でも、原稿等を使用せず、自然な話し言葉や会話でも、複数話者の同時発話が生じた場合等に問題となる音声認識の適応が困難な、一般的な音声であっても、短時間で元の映像、あるいは音声の内容を知ることができる。そのため、前記の音声認識不可能な一般的な音声においても、マルチメディア会議録を作成することが可能となる。また、本発明の音声要約手段は音声認識のように言語情報を用いていない。そのため、予め言語間の翻訳にかかる諸データを用いなくとも多言語の音声で行われた会議においても重要部分を抽出することが可能となる。
【００１５】
ここで、発話者特定部を備え、発話者を特定する。そのため、利用者に発話者を認識させることや、特定話者だけの発話を聴取することが可能となる。また、音声認識手段とテキスト要約手段を備え、音声情報を文字情報に変換している。そのために、発話内容を文章化した際の、要旨を伝えることができる。
音声キーワード抽出手段は、会議のキーワードを抽出する。例えば変換された文字情報を形態系解析して単語に分解する。各単語の出現回数をカウントし、出現回数の最も多い単語をキーワードとする。そのために、会議終了後、キーワードを見ることで会議内容を確認することが可能となる。
【００１６】
映像インデクシング手段は、映像情報を分析して、イベントを抽出する。そのために、カット点、カメラワーク、人物認識、テロップ認識を行うことが可能となる。
前記、音声議事録作成手段、テキスト議事録作成手段、映像インデクシング手段から、会議の重要部分を伝える会議インデクシングデータベースを自動的に作成することができる。そのため、利用者の希望する聴取時間やシーン数に応じて、また希望する発話者に応じて、自動的にマルチメディア会議録を作成することが可能となる。
マルチメディア会議録は、音声だけでなく映像でも要約部分を提示する。そのため、利用者は短時間で、会議の内容を理解することが可能となる。
【００１７】
【発明の実施の形態】
ここでは、この発明のデータ編集時に用いられる音声要約方法について説明する。
図１７に先に提案した音声要約方法の実施形態の基本手順を示す。ステップＳ１で入力音声信号を分析して音声特徴量を求める。ステップＳ２で、入力音声信号の音声小段落と、複数の音声小段落から構成される音声段落を抽出する。ステップＳ３で各音声小段落を構成するフレームが平静状態か、強調状態か発話状態を判定する。この判定に基づきステップＳ４で要約音声を作成し、要約音声を得る。
【００１８】
以下に、自然な話し言葉や会話音声の、音声要約に適応する場合の実施例を述べる。音声特徴量は、スペクトル情報等に比べて、雑音環境下でも安定して得られ、かつ話者に依存し難いものを用いる。入力音声信号から音声特徴量として基本周波数（ｆ０）、パワー（ｐ）、音声の動的特徴量の時間変化特性（ｄ）、ポーズ時間長（無音区間）（ｐｓ）を抽出する。これらの音声特徴量の抽出法は、例えば、「音響・音響工学」（古井貞煕、近代科学社、１９９８）、「音声符号化」（守谷健弘、電子情報通信学会、１９９８）、「ディジタル音声処理」（古井貞煕、東海大学出版会、１９８５）、「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」（嵯峨山茂樹、博士論文、１９９８）などに述べられている。音声の動的特徴量の時間変化は発話速度の尺度となるパラメータであり特許第２９７６９９８号に記載のものを用いてもよい。即ち、動的変化量としてスペクトル包絡を反映するＬＰＣスペクトラム係数の時間変化特性を求め、その時間変化をもとに発話速度係数が求められるものである。より具体的にはフレーム毎にＬＰＣスペクトラム係数Ｃ１（ｔ）、…Ｃｋ（ｔ）を抽出して次式のような動的特徴量ｄ（ダイナミックメジャー）を求める。ｄ（ｔ）＝Σｉ＝１ｋ［Σｆ＝ｔ−ｆ０ｔ＋ｆ０［ｆ×Ｃｉ（ｔ）］／（Σｆ＝ｔ−ｆ０ｔ＋ｆ０ｆ２）２ここで、ｆ０は前後の音声区間フレーム数（必ずしも整数個のフレームでなくとも一定の時間区間でもよい）、ｋはＬＰＣスペクトラムの次数、ｉ＝１、２、…ｋである。発話速度の係数として動的特徴量の変化の極大点の単位時間当たりの個数、もしくは単位時間当たりの変化率が用いられる。
【００１９】
実施例では例えば１００ｍｓを１フレームとし、シフトを５０ｍｓとする。１フレーム毎の平均の基本周波数を求める（ｆ０´）。パワーについても同様に１フレーム毎の平均パワー（ｐ´）を求める。更に現フレームのｆ０´と±ｉフレーム前後のｆ０´との差分をとり、±Δｆ０´ｉ（Δ成分）とする。パワーについても同様に現フレームのｐ´と±ｉフレーム前後のｐ´との差分±Δｐ´ｉ（Δ成分）を求める。ｆ０´、±Δｆ０´ｉ、ｐ´、±Δｐ´ｉを規格化する。この規格化では例えばｆ０´、±Δｆ０´ｉをそれぞれ、音声波形全体の平均基本周波数で割る。これら規格化された値をｆ０″、±ｆ０″ｉと表す。ｐ´、±Δｐ´ｉについても同様に、発話状態判定の対象とする音声波形全体の平均パワーで割り、規格化する。規格化するにあたり、後述する音声小段落、または音声段落ごとの平均パワーで割ってもよい。これら規格化された値をｐ″、±Δｐ″ｉと表す。ｉの値は例えばｉ＝４とする。現フレームの前後±Ｔ１ｍｓの、区間におけるダイナミックメジャーのピーク本数、即ち動的特徴量の変化の極大点の個数をカウントする（ｄｐ）。これと、現フレームの開始時刻の、Ｔ２ｍｓ前の時刻を区間に含むフレームのｄｐとのΔ成分（−Δｄｐ）を求める。前記±Ｔ１ｍｓの区間におけるｄｐと、現フレームの終了時刻の、Ｔ３ｍｓ後の時刻を区間に含むフレームのｄｐとのΔ成分（＋Δｄｐ）を求める。これら、Ｔ１、Ｔ２、Ｔ３の値は例えばＴ１＝Ｔ２＝Ｔ３＝４５０ｍｓとする。フレームの前後の無音区間の時間長を±ｐｓとする。ステップＳ１ではこれら音声特徴パラメータの各値をフレーム毎に抽出する。
【００２０】
ステップＳ２における入力音声の音声小段落と、音声段落を抽出する方法の例を図１８に示す。ここで音声小段落を発話状態判定を行う単位とする。ステップＳ２０１で、入力音声信号の無音区間と有声区間を抽出する。無音区間は例えばフレーム毎のパワーが所定のパワー値以下であれば無音区間と判定し、有声区間は、例えばフレーム毎の相関関数が所定の相関関数値以上であれば有声区間と判定する。有声／無声の決定は、周期性／非周期性の特徴と同一視することにより、自己相関関数や変形相関関数のピーク値で行うことが多い。入力信号の短時間スペクトルからスペクトル包絡を除去した予測残差の自己相関関数が変形相関関数であり、変形相関関数のピークが所定の閾値より大きいか否かによって有声／無声の判定を行い、又そのピークを与える遅延時間によってピッチ周期１／ｆ０（基本周波数ｆ０）の抽出を行う。これらの区間の抽出法の詳細は、例えば、「ディジタル音声処理」（古井貞煕、東海大学出版会、１９８５）などに述べられている。ここでは音声信号から各音声特徴量をフレーム毎に分析することについて述べたが、既に符号化等により分析された係数もしくは符号に対応する特徴量を符号化に用いる符号帳から読み出して用いてもよい。
【００２１】
ステップＳ２０２で、有声区間を囲む無音区間の時間がそれぞれｔ秒以上になるとき、その無音区間で囲まれた有声区間を含む部分を音声小段落とする。このｔは例えばｔ＝４００ｍｓとする。ステップＳ２０３で、この音声小段落内の好ましくは後半部の、有声区間の平均パワーと、その音声小段落の平均のパワーの値ＢＡの定数β倍とを比較し、前者の方が小さい場合はその音声小段落を末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現に検出した末尾音声小段落までを音声段落として決定する。
図１９に、有声区間、音声小段落、音声段落を模式的に示す。音声小段落を前記の、有声区間を囲む無音区間の時間がｔ秒の条件で、抽出する。図１９では、音声小段落ｊ−１、ｊ、ｊ＋１について示している。ここで音声小段落ｊは、ｎ個の有声区間から構成され、平均パワーをＰｊとする。有声区間の典型的な例として、音声小段落ｊに含まれる、有声区間ｖの平均パワーはｐｖである。音声段落ｋは、音声小段落ｊと音声小段落を構成する後半部分の有声区間のパワーから抽出する。ｉ＝ｎ−αからｎまでの有声区間の平均パワーｐｉの平均が音声小段落ｊの平均パワーＰｊより小さいとき、即ち、
Σｐｉ／（α＋１）＜βＰｊ式（１）
を満たす時、音声小段落ｊが音声段落ｋの末尾音声小段落であるとする。ただし、Σはｉ＝ｎ−αからｎまでである。式（１）のα、βは定数であり、これらを操作して、音声段落を抽出する。実施例では、αは３、βは０．８とした。このようにして末尾音声小段落を区切りとして隣接する末尾音声小段落間の音声小段落群を音声段落と判定できる。
【００２２】
図１７中のステップＳ３における発話状態判定方法の例を図２０に示す。ステップＳ３０１で、入力音声小段落の音声特徴量をベクトル量子化する。このために、あらかじめ少なくとも２つの量子化音声特徴量（コード）が格納された符号帳（コードブック）を作成しておく。ここでコードブックに蓄えられた音声特徴量と入力音声もしくは既に分析して得られた音声の音声特徴量との照合をとり、コードブックの中から音声特徴量間の歪（距離）を最小にする量子化音声特徴量を特定することが常套である。
図２１に、このコードブックの作成法の例を示す。多数の学習用音声を被験者が聴取し、発話状態が平静状態であるものと、強調状態であるものをラベリングする（Ｓ５０１）。
【００２３】
例えば、被験者は強調状態とする理由として、
（ａ）声が大きく、名詞や接続詞を伸ばすように発話する
（ｂ）話し始めを伸ばして話題変更を主張、意見を集約するように声を大きくする
（ｃ）声を大きく高くして重要な名詞等を強調する時
（ｄ）高音であるが声はそれほど大きくない
（ｅ）苦笑いしながら、焦りから本音をごまかすような時
（ｆ）周囲に同意を求める、あるいは問いかけるように、語尾が高音になるとき
（ｇ）ゆっくりと力強く、念を押すように、語尾の声が大きくなる時
（ｈ）声が大きく高く、割り込んで発話するという主張、相手より大きな声で
（ｉ）大きな声では憚られるような本音や秘密を発言する場合や、普段、声の大きい人にとっての重要なことを発話するような時（例えば声が小さくボソボソ、ヒソヒソという口調）を挙げた。この例では、平静状態とは、前記の（ａ）〜（ｉ）のいずれでもなく、発話が平静であると被験者が感じたものとした。
【００２４】
平静状態と強調状態の各ラベル区間について、図１７中のステップＳ１と同様に、音声特徴量を抽出し（Ｓ５０２）、パラメータを選択する（Ｓ５０３）。平静状態と強調状態のラベル区間の、前記パラメータを用いて、ＬＢＧアルゴリズムでコードブックを作成する（Ｓ５０４）。ＬＢＧアルゴリズムについては、例えば、（Ｙ．Ｌｉｎｄｅ，Ａ．ＢｕｚｏａｎｄＲ．Ｍ．Ｇｒａｙ，“Ａｎａｌｇｏｒｉｔｈｍｆｏｒｖｅｃｔｏｒｑｕａｎｔｉｚｅｒｄｅｓｉｇｎ，”ＩＥＥＥＴｒａｎｓ．Ｃｏｍｍｕｎ．，ｖｏｌ．Ｃｏｍ−２８，ｐｐ．８４−９５，１９８０）がある。コードブックサイズは２のｎ乗個に可変である。このコードブック作成は音声小段落で又はこれより長い適当な区間毎あるいは学習音声全体の音声特徴量で規格化した音声特徴量を用いることが好ましい。
【００２５】
図２０中のステップＳ３０１で、このコードブックを用いて、入力音声小段落の音声特徴量を、各音声特徴量について規格化し、その規格化された音声特徴量をフレーム毎に照合もしくはベクトル量子化し、フレーム毎にコード（量子化された音声特徴量）を得る。この際の入力音声信号より抽出する音声特徴量は前記のコードブック作成に用いたパラメータと同じである。
強調状態が含まれる音声小段落を特定するために、音声小段落でのコードを用いて、発話状態の尤度を、平静状態と強調状態について求める。このために、あらかじめ、任意のコード（量子化音声特徴量）の出現確率を、平静状態の場合と、強調状態の場合について求めておき、この出現確率とそのコードとを組としてコードブックに格納しておく、以下にこの出現確率の求め方の例を述べる。前記のコードブック作成に用いた学習音声中のラベルが与えられた１つの区間（ラベル区間）の音声特徴量のコード（フレーム毎に得られる）が、時系列でＣｉ、Ｃｊ、Ｃｋ、…Ｃｎであるとき、ラベル区間αが強調状態となる確率をＰα（ｅ）、平静状態となる確率をＰα（ｎ）とし、
Ｐα（ｅ）＝Ｐｅｍｐ（Ｃｉ）Ｐｅｍｐ（Ｃｊ｜Ｃｉ）…Ｐｅｍｐ（Ｃｎ｜Ｃｉ…Ｃｎ−１）＝Ｐｅｍｐ（Ｃｉ）ΠＰｅｍｐ（Ｃｘ｜Ｃｉ…Ｃｘ−１）
Ｐα（ｎ）＝Ｐｎｒｍ（Ｃｉ）Ｐｎｒｍ（Ｃｊ｜Ｃｉ）…Ｐｎｒｍ（Ｃｎ｜Ｃｉ…Ｃｎ−１）＝Ｐｅｍｐ（Ｃｉ）ΠＰｎｒｍ（Ｃｘ｜Ｃｉ…Ｃｘ−１）
となる。ただし、Ｐｅｍｐ（Ｃｘ｜Ｃｉ…Ｃｘ−１）はコード列Ｃｉ…Ｃｘ−１の次にＣｘが強調状態となる条件付確率、Ｐｎｒｍ（Ｃｘ｜Ｃｉ…Ｃｘ−１）は同様にＣｉ…Ｃｘ−１に対しＣｘが平静状態となる確率である。ただし、Πはｘ＝ｉ＋１からｎまでの積である。またＰｅｍｐ（Ｃｉ）は学習音声についてフレームで量子化し、これらコード中のＣｉが強調状態とラベリングされた部分に存在した個数を計数し、その計数値を全学習音声の全コード数（フレーム数）で割り算した値であり、Ｐｎｒｍ（Ｃｉ）はＣｉが平静状態とラベリングされた部分に存在した個数を全コード数で割り算した値である。
【００２６】
このラベル区間αの各状態確率を簡単にするために、この例ではＮ−ｇｒａｍモデル（Ｎ＜ｎ）を用いて、
Ｐα（ｅ）＝Ｐｅｍｐ（Ｃｎ｜Ｃｎ−Ｎ＋１…Ｃｎ−１）
Ｐα（ｎ）＝Ｐｎｒｍ（Ｃｎ｜Ｃｎ−Ｎ＋１…Ｃｎ−１）
とする。つまりＣｎよりＮ−１個の過去のコード列Ｃｎ−Ｎ＋１…Ｃｎ−１の次にＣｎが強調状態として得られる確率をＰα（ｅ）とし、同様にＮ−ｇｒａｍの確率値をより低次のＭ−ｇｒａｍ（Ｎ≧Ｍ）の確率値と線形に補間する線形補間法を適応することが好ましい。例えばＣｎよりＮ−１個の過去のコード列Ｃｎ−Ｎ＋１…Ｃｎ−１の次にＣｎが平静状態として得られる確率をＰα（ｎ）とする。このようなＰα（ｅ）、Ｐα（ｎ）の条件付確率をラベリングされた学習音声の量子化コード列から全てを求めるが、入力音声信号の音声特徴量の量子化したコード列と対応するものが学習音声から得られていない場合もある。そのため、高次（即ちコード列の長い）の条件付確率を単独出現確率とより低次の条件付出現確率とを補間して求める。例えばＮ＝３のｔｒｉｇｒａｍ、Ｎ＝２のｂｉｇｒａｍ、Ｎ＝１のｕｎｉｇｒａｍを用いて線形補間法を施す。Ｎ−ｇｒａｍ、線形補間法、ｔｒｉｇｒａｍについては、例えば、「音声言語処理」（北研二、中村哲、永田昌明、森北出版、１９９６、２９頁）などに述べられている。即ち、
Ｎ＝３（ｔｒｉｇｒａｍ）：Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃｎ−１）、Ｐｎｒｍ（Ｃｎ｜Ｃｎ−２Ｃｎ−１）
Ｎ＝２（ｂｉｇｒａｍ）：Ｐｅｍｐ（Ｃｎ｜Ｃｎ−１）、Ｐｎｒｍ（Ｃｎ｜Ｃｎ−１）
Ｎ＝１（ｕｎｉｇｒａｍ）：Ｐｅｍｐ（Ｃｎ）、Ｐｎｒｍ（Ｃｎ）
であり、これら３つの強調状態でのＣｎの出現確率、また３つの平静状態でのＣｎの出現確率をそれぞれ用いて次式により、Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃｎ−１）、Ｐｎｒｍ（Ｃｎ｜Ｃｎ−２Ｃｎ−１）を計算することにする。

Ｔｒｉｇｒａｍの学習データをＮとしたとき、すなわち、コードが時系列でＣ１、Ｃ２、．．．ＣＮが得られたとき、λｅｍｐ１、λｅｍｐ２、λｅｍｐ３の再推定式は前出の参考文献「音声言語処理」より次のようになる。
λｅｍｐ１＝１／ＮΣ（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）／（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）））
λｅｍｐ２＝１／ＮΣ（λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）／（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）））
λｅｍｐ３＝１／ＮΣ（λｅｍｐ３Ｐｅｍｐ（Ｃｎ）／（λｅｍｐ１Ｐｅｍｐ（Ｃｎ｜Ｃｎ−２Ｃ−１）＋λｅｍｐ２Ｐｅｍｐ（Ｃｎ｜Ｃ−１）＋λｅｍｐ３Ｐｅｍｐ（Ｃｎ）））
ただし、Σはｎ＝１からＮまでの和である。以下同様にしてλｎｒｍ１、λｎｒｍ２、λｎｒｍ３も求められる。
【００２７】
この例では、ラベル区間αがフレーム数Ｎαで得たコードがＣｉ１、Ｃｉ２、…、ＣｉＮαのとき、このラベル区間αが強調状態となる確率Ｐα（ｅ）、平静状態となる確率Ｐα（ｎ）は、

となる。この計算ができるように前記のｔｒｉｇｒａｍ、ｕｎｉｇｒａｍ、ｂｉｇｒａｍを任意のコードについて求めてコードブックに格納しておく。つまりコードブックには各コードの音声特徴量とその強調状態での出現確率とこの例では平静状態での出現確率との組が格納され、その強調状態での出現確率は、その音声特徴量が過去のフレームでの音声特徴量と無関係に強調状態で出現する確率（ｕｎｉｇｒａｍ：単独出現確率と記す）のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎に、その音声特徴量が強調状態で出現する条件付確率との組合せの何れかであり、平静状態での出現確率も同様に、その音声特徴量が過去のフレームでの音声特徴量と無関係に平静状態で出現する確率（ｕｎｉｇｒａｍ：単独出現確率と記す）のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎にその音声特徴量が平静状態で出現する条件付確率と組合せの何れかである。
【００２８】
例えば図２２に示すようにコードブックには各コードＣ１、Ｃ２、…毎にその音声特徴量と、その単独出現確率が強調状態、平静状態について、また条件付確率が強調状態、平静状態についてそれぞれ組として格納されている。
図２０中のステップＳ３０２では、入力音声小段落の全フレームのコードについてのそのコードブックに格納されている前記確率から、発話状態の尤度を、平静状態と強調状態について求める。図２３に実施例の模式図を示す。時刻ｔから始まる音声小段落のうち、第４フレームまでを▲１▼〜▲４▼で示している。前記のように、ここでは、フレーム長は１００ｍｓ、フレームシフトを５０ｍｓとフレーム長の方を長くした。▲１▼フレーム番号ｆ、時刻ｔ〜ｔ＋１００でコードＣｉが、▲２▼フレーム番号ｆ＋１、時刻ｔ＋５０〜ｔ＋１５０でコードＣｊが、▲３▼フレーム番号ｆ＋２、時刻ｔ＋１００〜ｔ＋２００でコードＣｋが、▲４▼フレーム番号ｆ＋３、時刻ｔ＋１５０〜ｔ＋２５０でコードＣｌが得られ、つまりフレーム順にコードがＣｉ、Ｃｊ、Ｃｋ、Ｃｌであるとき、フレーム番号ｆ＋２以上のフレームでｔｒｉｇｒａｍが計算できる。音声小段落ｓが強調状態となる確率をＰｓ（ｅ）、平静状態となる確率をＰｓ（ｎ）とすると第４フレームまでの確率はそれぞれ、

となる。ただし、この例では、コードブックからＣｋ、Ｃｌの強調状態及び平静状態の各単独出現確率を求め、またＣｊの次にＣｋが強調状態及び平静状態で各出現する条件付確率、更にＣｋがＣｉ、Ｃｊの次に、ＣｌがＣｊ、Ｃｋの次にそれぞれ強調状態及び平静状態でそれぞれ出現する条件付確率をコードブックから求めると、以下のようになる。

上記（８）〜（１１）式を用いて（６）式と（７）式で示される第４フレームまでの強調状態となる確率Ｐｓ（ｅ）と、平静状態となる確率Ｐｓ（ｎ）が求まる。ここで、Ｐｅｍｐ（Ｃｋ｜ＣｉＣｊ）、Ｐｎｒｍ（Ｃｋ｜ＣｉＣｊ）はフレーム番号ｆ＋２において計算できる。
【００２９】
この例では、音声小段落ｓがフレーム数Ｎｓで得たコードがＣｉ１、Ｃｉ２、…、ＣｉＮｓのとき、この音声小段落ｓが強調状態になる確率Ｐｓ（ｅ）と平静状態になる確率Ｐｓ（ｎ）を次式により計算する。
Ｐｓ（ｅ）＝Ｐｅｍｐ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｅｍｐ（ＣｉＮｓ｜Ｃｉ（Ｎｓ−１）Ｃｉ（Ｎｓ−２））
Ｐｓ（ｎ）＝Ｐｎｒｍ（Ｃｉ３｜Ｃｉ１Ｃｉ２）…Ｐｎｒｍ（ＣｉＮｓ｜Ｃｉ（Ｎｓ−１）Ｃｉ（Ｎｓ−２））
この例ではこれらの確率が、Ｐｓ（ｅ）＞Ｐｓ（ｎ）であれば、その音声小段落Ｓは強調状態、Ｐｓ（ｎ）＞Ｐｓ（ｅ）であれば平静状態とする。
【００３０】
図２４は以上説明した音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法を用いた音声強調状態判定装置及び音声要約装置の実施形態を示す。
入力部１１に音声強調状態が判定されるべき、又は音声の要約が検出されるべき入力音声（入力音声信号）が入力される。入力部１１には必要に応じて入力音声信号をデジタル信号に変換する機能も含まれる。デジタル化された音声信号は必要に応じて記憶部１２に格納される。音声特徴量抽出部１３で前述した音声特徴量がフレーム毎に抽出される。抽出した音声特徴量は必要に応じて、音声特徴量の平均値で規格化され、量子化部１４で各フレームの音声特徴量がコードブック１５を参照して量子化され、量子化された音声特徴量は強調確率計算部１６と平静確率計算部１７に送り込まれる。コードブック１５は例えば図２２に示したようなものである。
【００３１】
強調確率計算部１６によりその量子化された音声特徴量の強調状態での出現確率が、コードブック１５に格納されている対応する確率を用いて、例えば式（８）又は（９）により計算される。同様に平静確率計算部１７により、前記量子化された音声特徴量の平静状態での出現確率がコードブック１５に格納されている対応する確率を用いて、例えば式（１０）又は（１１）により計算される。強調確率計算部１６及び平静確率計算部１７で各フレーム毎に算出された強調状態での出現率と平静状態での出現確率及び各フレームの音声特徴量は各フレームに付与したフレーム番号と共に記憶部１２に格納する。
【００３２】
これら各部の制御は制御部１９の制御のもとに順次行われる。
音声要約装置の実施形態は、図２４中に実線ブロックで示す構成に、破線ブロックで示される構成が付加される。つまり記憶部１２に格納されている各フレームの音声特徴量が無音区間判定部２１と有音区間判定部２２に送り込まれ、無音区間判定部２１により各フレーム毎に無音区間か否かが判定され、また有音区間判定部２２により各フレーム毎に有声区間か否かが判定される手段が加わる。これらの無音区間判定結果と有音区間判定結果が音声小段落判定部２３に入力される。音声小段落判定部２３はこれら無音区間判定、有声区間判定に基づき、先の方法の実施形態で説明したように所定フレーム数を連続する無音区間に囲まれた有声区間を含む部分が音声小段落と判定される。音声小段落判定部２３の判定結果は記憶部１２に書き込まれ、記憶部１２に格納されている音声データ列に付記され、無音区間で囲まれたフレーム群に音声小段落番号列を付与する。これと共に音声小段落判定部２３の判定結果は末尾音声小段落判定部２４に入力される。
【００３３】
末尾音声小段落判定部２４では、例えば図１９を参照して説明した手法により末尾音声小段落が検出され、末尾音声小段落判定結果が音声段落判定部２５に入力され、音声段落判定部２５により２つの末尾音声小段落間の複数の音声小段落を含む部分が音声段落と判定される。この音声段落判定結果も記憶部１２に書き込まれ、記憶部１２に記憶している音声小段落番号列に音声段落列番号を付与する。
音声要約装置として動作する場合、強調確率計算部１６及び平静確率計算部１７では記憶部１２から各音声小段落を構成する各フレームの強調確率と平静確率を読み出し、各音声小段落毎の確率が例えば式（８）及び式（１０）により計算される。強調状態判定部１８ではこの音声小段落毎の確率計算値を比較して、その音声小段落が強調状態か否かを判定し、要約区間取出し部２６では音声段落中の１つの音声小段落でも強調状態と判定されたものがあればその音声小段落を含む音声段落を取り出す。各部の制御は制御部１９により行われる。
【００３４】
以上により音声波形を音声小段落及び音声段落に分離する手段及び各音声小段落毎に強調状態となる確率及び平静状態となる確率を算出する手段が理解できよう。
以下では上述した各方法を利用したこの発明による音声処理方法、音声処理装置及び音声処理プログラムに関わる実施の形態を説明する。
図２５にこの要約率を変更することを可能とした音声処理方法の基本手順を示す。この実施例ではステップＳ１１で音声強調確率算出処理を実行し、音声小段落の強調確率及び平静確率を求める。
【００３５】
ステップＳ１２では要約条件入力ステップＳ１２を実行する。この要約条件入力ステップＳ１２では例えば利用者に要約時間又は要約率或は圧縮率の入力を促す情報を提供し、要約時間又は要約率或は要約率又は圧縮率を入力させる。尚、予め設定された複数の要約時間又は要約率、圧縮率の中から一つを選択する入力方法を採ることもできる。
ステップＳ１３では抽出条件の変更を繰り返す動作を実行し、ステップＳ１２の要約条件入力ステップＳ１２で入力された要約時間又は要約率、圧縮率を満たす抽出条件を決定する。
【００３６】
ステップＳ１４で要約抽出ステップを実行する。この要約抽出ステップＳ１４では抽出条件変更ステップＳ１３で決定した抽出条件を用いて採用すべき音声段落を決定し、この採用すべき音声段落の総延長時間を計算する。
ステップ１５では要約再生処理を実行し、要約抽出ステップＳ１４で抽出した音声段落列を再生する。
図２６は図２５に示した音声強調確率算出ステップの詳細を示す。
ステップＳ１０１で要約対象とする音声波形列を音声小段落に分離する。
ステップＳ１０２ではステップＳ１０１で分離した音声小段落列から音声段落を抽出する。音声段落とは図１９で説明したように、１つ以上の音声小段落で構成され、意味を理解できる単位である。
【００３７】
ステップＳ１０３及びステップＳ１０４でステップＳ１０１で抽出した音声小段落毎に図２２で説明したコードブックと前記した式（８）、（１０）等を利用して各音声小段落が強調状態となる確率（以下強調確率と称す）Ｐｓ（ｅ）と、平静状態となる確率（以下平静確率と称す）Ｐｓ（ｎ）とを求める。
ステップＳ１０５ではステップＳ１０３及びＳ１０４において各音声小段落毎に求めた強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）などを各音声小段落毎に仕分けして記憶手段に音声強調確率テーブルとして格納する。
図２７に記憶手段に格納した音声強調確率テーブルの一例を示す。図２７に示すＦ１、Ｆ２、Ｆ３…は音声小段落毎に求めた音声小段落強調確率Ｐｓ（ｅ）と、音声小段落平静確率Ｐｓ（ｎ）を記録した小段落確率記憶部を示す。これらの小段落確率記憶部Ｆ１、Ｆ２、Ｆ３…には各音声小段落Ｓに付された音声小段落番号ｉと、開始時刻（言語列の先頭から計時した時刻）終了時刻、音声小段落強調確率、音声小段落平静確率、各音声小段落を構成するフレーム数ｆｎ等が格納される。
【００３８】
要約条件入力ステップＳ１２で入力する条件としては要約すべきコンテンツの全長を１／Ｘ（Ｘは正の整数）の時間に要約することを示す要約率ｒ（特許請求の範囲記載の要約率ｒ＝１／Ｘを指す）、あるいは要約時間ｔを入力する。
この要約条件の設定に対し、抽出条件変更ステップＳ１３では初期値として重み係数Ｗ（請求項１記載の所定の係数の逆数を指す）をＷ＝１に設定し、この重み係数を要約抽出ステップＳ１４に入力する。
要約抽出ステップＳ１４は重み係数Ｗ＝１として音声強調確率テーブルから各音声小段落毎に格納されている強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｅ）とを比較し、
Ｗ・Ｐｓ（ｅ）＞Ｐｓ（ｎ）
の関係にある音声小段落を抽出すると共に、更にこの抽出した音声小段落を一つでも含む音声段落を抽出し、抽出した音声段落列の総延長時間ＭＴ（分）を求める。
【００３９】
抽出した音声段落列の総延長時間ＭＴ（分）と要約条件で決めた所定の要約時間ＹＴ（分）とを比較する。ここでＭＴ≒ＹＴ（ＹＴに対するＭＴの誤差が例えば±数％程度の範囲）であればそのまま採用した音声段落列を要約音声として再生する。
要約条件で設定した要約時間ＹＴに対するコンテンツの要約した総延長時間ＭＴとの誤差値が規定より大きく、その関係がＭＴ＞ＹＴであれば抽出した音声段落列の総延長時間ＭＴ（分）が、要約条件で定めた要約時間ＹＴ（分）より長いと判定し、図２５に示した抽出条件変更ステップＳ１３を再実行させる。抽出条件変更ステップＳ１３では重み係数がＷ＝１で抽出した音声段落列の総延長時間ＭＴ（分）が要約条件で定めた要約時間ＹＴ（分）より「長い」とする判定結果を受けて強調確率Ｐｓ（ｅ）に現在値より小さい重み付け係数Ｗ（請求項記載の所定の係数の場合は現在値よりも大きくする）を乗算Ｗ・Ｐｓ（ｅ）して重み付けを施す。重み係数Ｗとしては例えばＷ＝１−０．００１×Ｋ（Ｋはループ回数）で求める。
【００４０】
つまり、音声強調確率テーブルから読み出した音声段落列の全ての音声小段落で求められている強調確率Ｐｓ（ｅ）の配列に１回目のループではＷ＝１−０．００１×１で決まる重み係数Ｗ＝０．９９９を乗算し、重み付けを施す。この重み付けされた全ての各音声小段落の強調確率Ｗ・Ｐｓ（ｅ）と各音声小段落の平静確率Ｐｓ（ｎ）とを比較し、Ｗ・Ｐｓ（ｅ）＞Ｐｓ（ｎ）の関係にある音声小段落を抽出する。
この抽出結果に従って要約抽出ステップＳ１４では抽出された音声小段落を含む音声段落を抽出し、要約音声段落列を再び求める。これと共に、この要約音声段落列の総延長時間ＭＴ（分）を算出し、この総延長時間ＭＴ（分）と要約条件で定められる要約時間ＹＴ（分）とを比較する。比較の結果がＭＴ≒ＹＴであれば、その音声段落列を要約音声と決定し、再生する。
【００４１】
１回目の重み付け処理の結果が依然としてＭＴ＞ＹＴであれば抽出条件変更ステップを、２回目のループとして実行させる。このとき重み係数ＷはＷ＝１−０．００１×２で求める。全ての強調確率Ｐｓ（ｅ）にＷ＝０．９９８の重み付けを施す。
このように、ループの実行を繰り返す毎にこの例では重み係数Ｗの値を徐々に小さくするように抽出条件を変更していくことによりＷＰｓ（ｅ）＞Ｐｓ（ｎ）の条件を満たす音声小段落の数を漸次減らすことができる。これにより要約条件を満たすＭＴ≒ＹＴの状態を検出することができる。
【００４２】
尚、上述では要約時間ＭＴの収束条件としてＭＴ≒ＹＴとしたが、厳密にＭＴ＝ＹＴに収束させることもできる。この場合には要約条件に例えば５秒不足している場合、あと１つの音声段落を加えると１０秒超過してしまうが、音声段落から５秒のみ再生することで利用者の要約条件に一致させることができる。また、この５秒は強調と判定された音声小段落の付近の５秒でもよいし、音声段落の先頭から５秒でもよい。
また、上述した初期状態でＭＴ＜ＹＴと判定された場合は重み係数Ｗを現在値よりも小さく例えばＷ＝１−０．００１×Ｋとして求め、この重み係数Ｗを平静確率Ｐｓ（ｎ）の配列に乗算し、平静確率Ｐｓ（ｎ）に重み付けを施せばよい。また、他の方法としては初期状態でＭＴ＞ＹＴと判定された場合に重み係数を現在値より大きくＷ＝１＋０．００１×Ｋとし、この重み係数Ｗを平静確率Ｐｓ（ｎ）の配列に乗算してもよい。
【００４３】
また、要約再生ステップＳ１５では要約抽出ステップＳ１４で抽出した音声段落列を再生するものとして説明したが、音声付の画像情報の場合、要約音声として抽出した音声段落に対応した画像情報を切り出してつなぎ合わせ、音声と共に再生することによりテレビ放送の要約、あるいは映画の要約等を行うことができる。
また、上述では音声強調確率テーブルに格納した各音声小段落毎に求めた強調確率又は平静確率のいずれか一方に直接重み係数Ｗを乗算して重み付けを施すことを説明したが、強調状態を精度良く検出するためには重み係数Ｗに各音声小段落を構成するフレームの数Ｆ乗してＷＦとして重み付けを行うことが望ましい。
【００４４】
つまり、式（８）及び式（１０）で算出する条件付の強調確率Ｐｓ（ｅ）は各フレーム毎に求めた強調状態となる確率の積を求めている。また平静状態となる確率Ｐｓ（ｎ）も各フレーム毎に算出した平静状態となる確率の積を求めている。従って、例えば強調確率Ｐｓ（ｅ）に重み付けを施すには各フレーム毎に求めた強調状態となる確率毎に重み付け係数Ｗを乗算すれば正しい重み付けを施したことになる。この場合には音声小段落を構成するフレーム数をＦとすれば重み係数ＷはＷＦとなる。
この結果、フレームの数Ｆに応じて重み付けの影響が増減され、フレーム数の多い音声小段落ほど、つまり延長時間が長い音声小段落程大きい重みが付されることになる。
【００４５】
但し、単に強調状態を判定するための抽出条件を変更すればよいのであれば各フレーム毎に求めた強調状態となる確率の積又は平静状態となる積に重み係数Ｗを乗算するだけでも抽出条件の変更を行うことができる。従って、必ずしも重み付け係数ＷをＷＦとする必要はない。
また、上述では抽出条件の変更手段として音声小段落毎に求めた強調確率Ｐｓ（ｅ）又は平静確率Ｐｓ（ｎ）に重み付けを施してＰｓ（ｅ）＞Ｐｓ（ｎ）を満たす音声小段落の数を変化させる方法を採ったが、他の方法として全ての音声小段落の強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）に関してその確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）を演算し、この確率比の降順に対応する音声信号区間（音声小段落）を累積して要約区間の和を算出し、要約区間の時間の総和が、略所定の要約時間に合致する場合、そのときの音声信号区間を要約区間と決定して要約音声を編成する方法も考えられる。
【００４６】
この場合、編成した要約音声の総延長時間が要約条件で設定した要約時間に対して過不足が生じた場合には、強調状態にあると判定するための確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）の値を選択する閾値を変更すれば抽出条件を変更することができる。この抽出条件変更方法を採る場合には要約条件を満たす要約音声を編成するまでの処理を簡素化することができる利点が得られる。
上述では各音声小段落毎に求める強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）を各フレーム毎に算出した強調状態となる確率の積及び平静状態となる確率の積で算出するものとして説明したが、他の方法として各フレーム毎に求めた強調状態となる確率の平均値を求め、この平均値をその音声小段落の強調確率Ｐｓ（ｅ）及び平静確率Ｐｓ（ｎ）として用いることもできる。
【００４７】
図２８を用いて上述した要約率を自由に設定することができる音声処理装置の実施例を示す。この実施例では図２４に示した音声強調状態要約装置の構成に要約条件入力部３１と、音声強調確率テーブル３２と、強調小段落抽出部３３と、抽出条件変更部３４と、要約区間仮判定部３５と、この要約区間仮判定部３５の内部に要約音声の総延長時間を求める総延長時間算出部３５Ａと、この総延長時間算出部３５Ａが算出した要約音声の総延長時間が要約条件入力部３１で入力した要約時間の設定の範囲に入っているか否かを判定する要約区間決定部３５Ｂと、要約条件に合致した要約音声を保存し、再生する要約音声保存・再生部３５Ｃを設けた構成とした点を特徴とするものである。
【００４８】
入力音声は図２３で説明したように、フレーム毎に音声特徴量が求められ、この音声特徴量に従って強調確率計算部１６と平静確率計算部１７でフレーム毎に強調確率と、平静確率とを算出し、これら強調確率と平静確率を各フレームに付与したフレーム番号と共に記憶部１２に格納する。更に、このフレーム列番号に音声小段落判定部で判定した音声小段落列に付与した音声小段落列番号が付記され、各フレーム及び音声小段落にアドレスが付与される。
この発明による音声処理装置では強調確率算出部１６と平静確率算出部１７は記憶部１２に格納している各フレームの強調確率と平静確率を読み出し、この強調確率及び平静確率から各音声小段落毎に強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）とを求め、これら強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）を音声強調テーブル３２に格納する。
【００４９】
音声強調テーブル３２には各種のコンテンツの音声波形の音声小段落毎に求めた強調確率と平静確率とが格納され、いつでも利用者の要求に応じて要約が実行できる体制が整えられている。利用者は要約条件入力部３１に要約条件を入力する。ここで言う要約条件とは要約したいコンテンツの名称と、そのコンテンツの全長時間に対する要約率を指す。要約率としてはコンテンツの全長を１／１０に要約するか、或は時間で１０分に要約するなどの入力方法が考えられる。ここで例えば１／１０と入力した場合は要約時間算出部３１Ａはコンテンツの全長時間を１／１０した時間を算出し、その算出した要約時間を要約区間仮判定部３５の要約区間決定部３５Ｂに送り込む。
【００５０】
要約条件入力部３１に要約条件が入力されたことを受けて制御部１９は要約音声の生成動作を開始する。その開始の作業としては音声強調テーブル３２から利用者が希望したコンテンツの強調確率と平静確率を読み出す。読み出された強調確率と平静確率を強調小段落抽出部３３に送り込み、強調状態にあると判定される音声小段落番号を抽出する。
強調状態にある音声区間を抽出するための条件を変更する方法としては上述した強調確率Ｐｓ（ｅ）又は平静確率Ｐｓ（ｎ）に確率比の逆数となる重み付け係数Ｗを乗算しＷ・Ｐｓ（ｅ）＞Ｐｓ（ｎ）の関係にある音声小段落を抽出し、音声小段落を含む音声段落により要約音声を得る方法と、確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）を算出し、この確率比を降順に累算して要約時間を得る方法とを用いることができる。
【００５１】
抽出条件の初期値としては重み付けにより抽出条件を変更する場合には重み付け係数ＷをＷ＝１として初期値とすることが考えられる。また、各音声小段落毎に求めた強調確率Ｐｓ（ｅ）と平静確率Ｐｓ（ｎ）の確率比Ｐｓ（ｅ）／Ｐｓ（ｎ）の値に応じて強調状態と判定する場合は初期値としてその比の値が例えばＰｓ（ｅ）／Ｐｓ（ｎ）≧１である場合を強調状態と判定することが考えられる。この初期設定状態で強調状態と判定された音声小段落番号と開始時刻、終了時刻を表わすデータを強調小段落抽出部３３から要約区間仮判定部３５に送り込む。要約区間仮判定部３５では強調状態と判定した強調小段落番号を含む音声段落を記憶部１２に格納している音声段落列から検索し、抽出する。抽出した音声段落列の総延長時間を総延長時間算出部３５Ａで算出し、その総延長時間と要約条件で入力された要約時間とを要約区間決定部３５Ｂで比較する。比較の結果が要約条件を満たしていれば、その音声段落列を要約音声保存・再生部３５Ｃで保存し、再生する。この再生動作は強調小段落抽出部３３で強調状態と判定された音声小段落の番号から音声段落を抽出し、その音声段落の開始時刻と終了時刻の指定により各コンテンツの音声データ或は映像データを読み出して要約音声及び要約映像データとして送出する。
【００５２】
要約区間決定部３５Ｂで要約条件を満たしていないと判定した場合は、要約区間決定部３５Ｂから抽出条件変更部３４に抽出条件の変更指令を出力し、抽出条件変更部３４に抽出条件の変更を行わせる。抽出条件変更部３４は抽出条件の変更を行い、その抽出条件を強調小段落抽出部３３に入力する。強調小段落抽出部３３は抽出条件変更部３４から入力された抽出条件に従って再び音声強調確率テーブル３２に格納されている各音声小段落の強調確率と平静確率との比較判定を行う。
強調小段落抽出部３３の抽出結果は再び要約区間仮判定部３５に送り込まれ、強調状態と判定された音声小段落を含む音声段落の抽出を行わせる。この抽出された音声段落の総延長時間を算出し、その算出結果が要約条件を満たすか否かを要約区間決定部３５Ｂで行う。この動作が要約条件を満たすまで繰り返され、要約条件が満たされた音声段落列が要約音声及び要約映像データとして記憶部１２から読み出され再生される。
【００５３】
尚、上述では要約区間の開始時刻及び終了時刻を強調状態と判定された音声段落の開始時刻及び終了時刻で決定したが、コンテンツが映像付の場合は要約区間の開始時刻及び終了時刻の決定方法としては、上記した強調状態と判定した音声段落の開始時刻及び終了時刻の直近に存在するカット点（映像データに含まれる映像の切替り点、例えば特開平８−５２９２４号公報記載の方法で検出する）を利用して要約区間の開始時刻及び終了時刻を決定してもよい。このように映像データのカット点を要約区間の開始時刻及び終了時刻に利用した場合は要約区間の切替りが映像の切替りに同期するため、視覚上からも要約部分が明確になり視認性を高めることができる。
以上により、音声データから音声要約を行うこと及びその要約率を自由に変更できることが理解できよう。この発明はこの音声要約方法を利用して音声会議録及び映像会議録を作成することができるデータ編集方法、データ編集装置及びデータ編集プログラムを提案するものである。
【００５４】
（実施例１）
図１にこの発明の実施例１を示す。この実施例では会議の会場（官公庁、学校、研究機関、企業等）乃至はその近傍に会議サーバＳＡを設置し、この会議サーバＳＡによってこの発明によるデータ編集装置１００を構成した実施例を示す。データ編集装置１００は例えばインターネット、ＬＡＮ、電話回線、ＢＳ、ＣＳ、ＣＡＴＶ等のネットワーク１０８に接続され、ユーザ端末１０９はこのネットワーク１０８を通じてデータ編集装置１００に自由にアクセスすることができる構成とした場合を示す。更にこの実施例ではネットワーク１０８に課金部１１０を接続し、この課金部１１０によってユーザ端末１０９のデータ編集装置１００の利用に対して課金処理を施すことができる構成とした場合を示す。
データ編集装置１００は会議音声・映像入力部１０１と、会議音声・映像データベース１０２と、会議録作成部１０３とによって構成される。会議音声・映像入力部１０１には会議音声・映像情報を入力する。会議音声・映像データベース１０２では会議音声・映像入力部１０１で得た会議音声情報もしくは映像情報をデータベース化する。
会議録作成部１０３は音声議事録作成部１０４と、テキスト議事録作成部１０５と、映像インデクシング部１０６と、会議インデクシングデータベース１０７とを具備して構成される。
【００５５】
音声議事録作成部１０４は上述した音声要約方法を利用して会議の進行を編集し音声議事録を作成する。テキスト議事録作成部１０５は音声認識技術を利用してテキスト議事録を作成する。映像インデクシング部１０６は映像インデクシングを行い、会議インデクシングデータベース１０７では会議インデクシングデータベースを作成する。会議音声・映像データベース１０２ではデータベース化した会議音声・映像データと会議インデクシングデータベース１０７に格納したデータとを対応させ、マルチメディア会議録を作成する。このマルチメディア会議録をネットワーク１０８を経由してユーザ端末１０９に配信し、利用者がマルチメディア会議録を視聴する。課金部１１０はユーザ端末１０９の利用に対して課金処理を実行する。
【００５６】
会議音声・映像データベース１０２には、ディジタル化された会議映像・音声データが保存されており、これらのデータはいかなる圧縮形式でもよく、また、圧縮されていなくてもよい。
図２は音声議事録作成部１０４における音声議事録の作成手順を示す。音声議事録作成手順は、音声要約ステップＳ３０１と、音声キーワード抽出ステップＳ３０２と、発話者特定ステップＳ３０３とからなる。会議映像がある場合映像付音声議事録となる。音声要約ステップＳ３０１では、音声波形から各音声小段落の強調状態となる確率と、平静状態となる確率を求め、強調状態となる確率が大きい音声小段落を発話の強調点として抽出し、この音声小段落を含む音声段落を聴取して意味の理解できる単位として抽出し、強調状態を含む音声段落をつなぎ合わせて要約音声を作成するために必要な時間情報を得る。音声要約方法については既に説明した如くである。
【００５７】
映像付き音声、即ち音声信号と同期した映像信号も扱う場合には、音声要約区間に対応する映像信号区間を映像要約区間として記録する。時間情報即ち各音声要約区間の開始（始端）・終了（終端）時刻も対応させて記録することが好適である。
音声キーワード抽出ステップＳ３０２では、繰り返し、発話された言葉のうち、会議を象徴する単語を抽出する。キーワード抽出については、例えば、「標準パターンの任意区間によるスポッティングのためのＲｅｆｅｒｅｎｃｅＩｎｔｅｒｖａｌ−ｆｒｅｅ連続ＤＰ（ＲＩＦＣＤＰ）」（伊藤慶明、木下次郎、小島浩、関進、岡隆一、信学技報、ＳＰ９５−３４、１９９５−０６）等に示されている。
【００５８】
発話者特定ステップＳ３０３では、発話者認識、あるいは、マイク入力の情報を用いて発話者を抽出し、発話者の発話時間情報を得る。話者認識方法については、たとえば、「音響・音声工学」（古井貞煕、近代科学社、電子・情報工学入門シリーズ２、ｐ．２１１）等に示されている。音響チャネル（例えば通信回線を介す場合はアドレス）を手がかりに発話者を識別してもよい。通信回線を介す場合については実施例３（図１２）において後述する。マイク入力の情報を用いる方法については、例えば、マイクロホンアレイを使えばよい。マイクロホンアレイについては、例えば、日本国特開平５−１１１０９０号公報、日本国特開平９−１４００００号公報等に示されている。単純にはアレイを構成する各マイクロホンに対応するチャネルをもって発話者を識別できる。マイクロホン間の音声到達時間から求められる位置情報によって発話者を識別してもよい。
【００５９】
話者認識の場合、予め、会議参加者と対応づけて音声を登録しておき、マイク入力の情報を用いる場合は、会議参加者と対応づけてその位置情報を登録しておくことで、発話者名まで特定することができる。発話者名まで特定する必要が無い場合は、前記、会議参加者の音声の登録と、会議参加者の位置情報の登録は必要ない。音声議事録（映像付音声議事録）は主に音声要約ステップＳ３０１で作成する。また、音声キーワード抽出ステップＳ３０２のキーワードを発話する部分を、音声要約ステップＳ３０１で得られた結果に加えて、音声議事録（映像付音声議事録）を作成してもよい。
【００６０】
図３は、テキスト議事録作成部１０５（図１）のテキスト議事録を作成する手順を示す。テキスト議事録作成部１０５は、音声認識ステップＳ４０１と、テキスト化処理ステップＳ４０２と、記録ステップＳ４０３とを実行する。テキスト化処理については、例えば、特開平５−２３３６８９号公報等に示されている。音声認識ステップＳ４０１では各要約区間での発話内容を音声認識し、その音声認識結果を利用してテキスト化処理ステップＳ４０２でテキスト情報に変換するディクテーション処理を行う。記録ステップＳ４０３では、テキスト化処理ステップＳ４０２で得られたテキスト情報に発話者情報又は音声入力チャネル情報と時刻情報を付加して例えば、ハードディスク、メモリ、フレキシブルディスク、ＭＯ等の記録媒体に格納される。
【００６１】
図４は、その典型的な例であり、テキスト情報で示された発話内容が発話された時刻を記録している。音声認識方法については、例えば、日本国特開平８−６５８８号公報等に示されているもの以外にも使用可能である。図３に示したテキスト化処理ステップＳ４０２で、音声認識ステップＳ４０１で作成した音声認識結果をテキストに変換し、各要約区間での時間情報、即ち少なくともその開始時刻又は終了時刻のうち何れか一方を音声に対応付けて記録することにより、テキスト議事録を作成する。テキスト議事録は、前記の図４に示すように、時間情報を持っているため、この時間情報を用いて音声や映像を読み込むことにより利用者が希望する時刻や議事に対応した、音声・映像を再生して視聴させることができる。
【００６２】
図５は、図１に示した映像インデクシング部１０６の映像インデクシングを作成する手順を示す。映像インデクシング部１０６は、カット点抽出ステップＳ５０１と、人物認識ステップＳ５０２と、カメラワーク認識ステップＳ５０３と、テロップ認識ステップＳ５０４とからなる。カット点抽出ステップＳ５０１では、映像の切替りを示すカット点を抽出し、その時間情報を得る。カット点抽出については、たとえば、特許第２８３９１３２号、特開平１１−１８０２８号等に示されている方法を用いることがある。人物認識ステップＳ５０２では映像の人物を類似映像認識し、あるいは、カメラの撮影位置情報を用いて映像の人物を特定し、その時間情報を得る。類似映像認識については、例えば、日本国特開平５−２２５３４４号公報等に示されている。人物名まで特定する場合は、予め、会議参加者の映像を登録しておくか、撮影位置と人物の関係を登録しておく。特に、人物名まで同定する必要がない場合は、前記映像登録と、位置と人物の関係の登録は必要ない。
【００６３】
カメラワーク認識ステップＳ５０３では、例えば、各会議参加者を、順を追って映していく等のカメラワークを同定し、その時間情報を得る。カメラワーク認識については、例えば、特開平１１−１５９５３号、特開平１１−２５９６２６号等に示されている。テロップ認識ステップＳ５０４では、映像中に含まれるテロップの文字を認識し、テロップが出現する時間情報を得る。テロップ認識については、例えば、特開平１１−１６７５８３号、特開２０００−１８１９９４に示されている。これらの各ステップＳ５０１、Ｓ５０２、Ｓ５０３、Ｓ５０４から映像インデクシングを得る。この映像インデクシングを、前記の音声議事録（映像付音声議事録）に、例えば、カット点等の時間情報を加えてもよい。例えば、テロップが出現する時間の会議映像が、前記の音声議事録（映像付音声議事録）作成部で抽出されなかった場合においても、音声議事録（映像付音声議事録）に含んでもよい。
【００６４】
図１に示すネットワーク１０８はインターネット、ＬＡＮ、電話回線、ＢＳ、ＣＳ、ＣＡＴＶのいずれかを問わない。例えば、インターネットプロバイダー等のネットワーク仲介者が運用してもよい。また、官公庁、学校、研究機関、企業等、それらの内部でのみマルチメディア会議録を視聴するのであってもよく、その場合、課金部１１０は必ずしも存在する必要はない。
ユーザ端末１０９はパーソナルコンピュータ、情報入出力可能な家電製品、携帯電話の何れでもよい。図６に、マルチメディア会議録のユーザーインターフェースの典型的な表示例を示す。表示欄ＤＳ８０１は、表示欄ＤＳ８１１の音声議事録（映像付音声議事録）と、表示欄ＤＳ８１０のテキスト議事録を表示させるボタンである。表示欄ＤＳ８０２は会議全体の時間を示すバーである。表示欄ＤＳ８０２の白抜き四角の左端が会議開始時刻を示し、右端が会議終了時刻を示している。表示欄ＤＳ８０２の黒色の四角は、後記する表示欄ＤＳ８０３の、画面領域の左端から右端までの時間を示している。表示欄ＤＳ８０３は、会議の重要部分を示す画面であり、図２に示した音声要約ステップＳ３０１によって同定する。表示欄ＤＳ８０３のグラデーションで色づけされた部分が、会議の重要部分である。グラデーションの濃さと重要度が比例して表示されており、図６では、黒に近づくにつれ、重要度が増す例である。利用者はどこが会議の重要部分であるか目視で確認、理解でき、マウス等の機器を用いて、表示部ＤＳ８０３のグラデーション部分を選択し、再生する。利用者がグラデーション部分の前後を視聴したい場合は、マウス等の機器を用いてグラデーション部分の前後を選択し、会議音声・映像を視聴する。例えば、再生、発話速度変換、停止、早送り、巻き戻し、次のグラデーション、前のグラデーション、表示範囲の拡大、表示範囲の縮小等を選択できる小画面を出現させ、マウス等の機器を用いて実行してもよい。その際、表示欄ＤＳ８１１の画面でユーザが選択した時刻の会議音声、映像を表示してもよく、会議音声・映像再生用の画面が新しく立ち上がってもよい。また、前記の表示欄ＤＳ８０２の黒四角を見ることで、表示欄ＤＳ８０３に表示される重要領域が、全体の会議の中で、どのあたりであるのか、例えば前半、中盤、後半等を視覚的に理解する。表示欄ＤＳ８０４は、会議のキーワードであり、図２に示した音声キーワード抽出ステップＳ３０２の、キーワード抽出の結果を表示する。図６に示す例では、キーワードは３つ抽出され、「利益」、「方針」、「営業」である。利用者は、会議終了後、このキーワードを閲覧することで、会議の議題を確認する。
【００６５】
表示欄ＤＳ８０５、ＤＳ８０６、ＤＳ８０７、ＤＳ８０８、はそれぞれ映像インデクシングの結果を表示している。表示欄ＤＳ８０５はカット点を、表示欄ＤＳ８０６はテロップ認識を、表示欄ＤＳ８０７は人物認識を、表示欄ＤＳ８０８はカメラワークを表示している。表示欄ＤＳ８０５での四角は映像のカット点が出現する時刻を表示している。表示欄ＤＳ８０８のカメラワークの四角は、例えば、ズームイン、ズームアウト、パン等が生じる時刻に出現している。例えば、分かりやすくズームイン、ズームアウトの四角の色づけを変えてもよい。表示欄ＤＳ８０６の四角に対応する、テロップ認識の結果をマウス等でクリックすることで表示欄ＤＳ８１２の四角の内部に表示する。また、表示欄ＤＳ８０７の人物認識の結果も表示欄ＤＳ８１２の四角に表示する。表示欄ＤＳ８０９は、図２に示した発話者特定ステップＳ３０３の発話者特定の結果を表示している。表示欄ＤＳ８０９は、会議参加者の発話状態を可視化しており、利用者は、マウス等の機器を用いて表示欄ＤＳ８０９に表示されている四角をクリック等により、選択された発話区間である四角の左端から右端の時間の音声・映像を再生する。表示欄ＤＳ８１０はテキスト議事録であり、図３に示した音声認識ステップＳ４０１と、テキスト要約ステップＳ４０２のテキスト要約部で生成した結果を表示する。図６の例では利用者は、例えば、「時期営業方針説明」の項目をマウス等の機器を用いてクリックし、関連する部分の音声・映像の再生を行う。この音声・映像は要約部分であってもよいし、要約部分でなくてもよい。
【００６６】
表示欄ＤＳ８０５、ＤＳ８０６、ＤＳ８０７、ＤＳ８０８、ＤＳ８０９は表示欄ＤＳ８１１に対応して移動する。つまり、表示欄ＤＳ８１１は音声議事録（映像付音声議事録）で、図１に示した会議インデクシングデータベース１０７と会議音声・映像データベース１０２で作成する。例えば、利用者は３分間の音声議事録（映像付音声議事録）を再生して表示する。或は、社長と副社長の発話のみから構成される音声議事録（映像付音声議事録）のように、複数話者から構成されるものでもよい。この場合、例えば表示欄ＤＳ８０１のボタンを押した直後に、全体の音声議事録（映像付音声議事録）か、特定話者の音声議事録（映像付音声議事録）かを選択する画面が出現し、利用者が選択した後、表示欄ＤＳ８１１の画面が出現してもよい。
【００６７】
図７に、表示欄ＤＳ８０１のボタンを押した直後に出現する模式的な画面を示す。表示欄ＤＳ８０１−１で音声議事録（映像付音声議事録）の視聴を、視聴時間で設定するか選択する。例えば、図７では、表示欄ＤＳ８０１−１が選択されており、チェックされた左の丸印を表示する。選択した場合、表示欄ＤＳ８０１−２で、利用者の希望する視聴時間を入力する。図７では、１８０秒に設定している。表示欄ＤＳ８０１−３で音声議事録（映像付音声議事録）の視聴を、視聴シーンで設定するかを選択する。図７では、表示欄ＤＳ８０１−３を選択しておらず、左の丸印はチェックされていない。選択した場合は、表示欄ＤＳ８０１−４で、利用者の希望するシーン数を入力する。表示欄ＤＳ８０１−５で、特定話者で音声議事録（映像付音声議事録）を作成するか選択する。図７では、表示欄ＤＳ８０１−５を選択しており、左の丸印がチェックされている。表示欄ＤＳ８０１−６で、特定話者名を入力する。表示欄ＤＳ８０１−６の入力ボックスの数は、図６に示した表示欄ＤＳ８０９に表示した話者数と同数である。利用者が、希望する話者名を表示欄ＤＳ８０１−６で入力し、図７の例では、「人名１」、「人名２」…「人名６」から構成される音声議事録（映像付音声議事録）を作成する。前記選択を行った後、表示欄ＤＳ８０１−７の実行ボタンをマウス操作により押すと、選択に基づいて図６に示した表示欄ＤＳ８１１の音声議事録（映像付音声議事録）のインターフェースは、再生、停止、早送り、巻き戻し、一時停止、次の重要個所へ移動、前の重要個所へ移動等が可能となっている。また、発話速度変換等が行えてもよい。利用者が、音声議事録（映像付音声議事録）を視聴中に更に詳しく視聴したいと感じた場合は、例えば、マウス等の機器を用いて表示欄ＤＳ８１１（図６）の画面中をクリック等することで、後で再生する時刻を記録しておく。
【００６８】
図８は、利用者が後で表示する時刻を示す画面の例である。表示欄ＤＳ８１１−１は利用者が、表示欄ＤＳ８１１の画面をクリック等した時刻である。図８の例では、例えば、単位は秒であり、前記動作を繰り返す毎に、表示欄ＤＳ８１１−１の行数は増加する。図８は、４行に渡って時刻が記録されており、利用者が４回、表示欄ＤＳ８１１の画面をクリックする等の動作を施して時刻を指定する例である。
表示欄ＤＳ８１１−２は、利用者がマウス等の機器を用いて選択した時刻を示す。マウスを用いている場合、マウスのクリックボタン等を押すことで、表示欄ＤＳ８１１−３に示す小画面Ｓ８１１−３が出現する。図８の例では、小画面Ｓ８１１−３は、「再生」と「移動」で構成される。例えば、利用者が、表示欄ＤＳ８１１−２の時刻「２５２６．１２３秒」から再度再生することや、表示欄ＤＳ８０３（図６）の画面を「２５２６．１２３秒」付近に移動させる。移動させた場合、利用者はその前後をマウス等の機器を用いて、選択して再生することで、再度、会議内容を視聴させる。その際、表示欄ＤＳ８１１の画面で会議音声・映像を視聴してもよく、あるいは、専用の画面を新たに生成し、その画面内で表示してもよい。
【００６９】
図９に、図１に示した課金部１１０の実施例を示す。ステップＳ９Ａ０１で、利用者の、音声議事録（映像付音声議事録）視聴時間を初期化ｔ＝０とする。
ステップＳ９Ａ０２で、視聴からのマルチメディア会議録視聴依頼を受け、ステップＳ９Ａ０３で、利用者の希望する音声議事録（映像付音声議事録）視聴時間Ｔを得て、ステップＳ９Ａ０４で、会議録作成部１０３にマルチメディア会議録の配信を要求する。
ステップＳ９Ａ０５で、利用者の視聴が開始されたか監視し、開始された場合、ステップＳ９Ａ０６で、利用者の視聴時間を計測する。ステップＳ９Ａ０７で、利用者の視聴が終了したかを監視し、終了した場合、ステップＳ９Ａ０８で、視聴時間ｔを計算し、ステップＳ９Ａ０９で、視聴時間に対応する対価情報を視聴者の金融口座の残高情報から控除する課金処理を行う。
【００７０】
以下、６０分の会議を、３分間視聴する場合の実施例について述べる。実施例では、６０分間視聴した際の、利用金額を１００円とする。利用者は、全体の１／２０を視聴したので、利用料金は５円である。また、図９の例の応用例として、視聴時間にかかわらず、利用者が設定した時間Ｔ分の対価情報についての課金処理を行う課金部であってもよい。また、音声議事録（映像付音声議事録）の視聴時間でなく、図６で示したマルチメディア会議録の視聴時間に対して課金してもよい。
図１０に課金部１１０の他の実施例を示す。ステップＳ９Ｂ０１で、利用者の、音声議事録（映像付音声議事録）視聴シーンを初期化Ｐ＝０とする。前記、視聴シーンとは音声議事録（映像付音声議事録）作成のために、元の会議音声・映像から切り出した各々を意味する。
【００７１】
ステップＳ９Ｂ０２で、視聴者からの音声議事録（映像付音声議事録）視聴依頼を受け、ステップＳ９Ｂ０３で利用者の希望する視聴シーン数Ｐを得て、ステップＳ９Ｂ０４で、マルチメディア会議録作成部に音声議事録（映像付音声議事録）の配信を要求する。
ステップＳ９Ｂ０５で、利用者の視聴が開始されたか監視し、開始された場合、ステップＳ９Ｂ０６で視聴シーン数Ｐ＝１とする。
ステップＳ９Ｂ０７で利用者が視聴している音声議事録（映像付音声議事録）のシーンがｐ＝１のシーンと同じであるか監視し、次のシーンに移行していれば、ステップＳ９Ｂ０８で視聴シーンＰの数を一つ増加させる。移行していなければ、ステップＳ９Ｂ０９で利用者が視聴を終了したか監視し、視聴中であればステップＳ９Ｂ０６に戻る。
【００７２】
前記、ステップＳ９Ｂ０６、ステップＳ９Ｂ０７、ステップＳ９Ｂ０８、ステップＳ９Ｂ０９を繰り返す。ステップＳ９Ｂ０９で利用者が視聴を終了した場合、ステップＳ９Ｂ１０で視聴シーン数Ｐを計算し、ステップＳ９Ｂ１１で利用者の金融口座の残高から、シーン数Ｐに応じた対価情報を控除する処理を行う信号を発する。
以下、１００シーンから構成される会議を、１０シーンだけ視聴する場合の実施例について述べる。実施例では、１００シーン視聴した際の、利用金額を１００円とする。利用者は、全体の１／１０を視聴したので、利用料金は１０円である。また、図１０の例の応用例として、視聴シーン数にかかわらず、利用者が設定したシーン数Ｐ分の対価情報についての課金処理を行ってもよい。
【００７３】
また、その他の課金の例として、月額使用料を設定してもよく、また、通信した情報量（バイト数）に応じて課金処理を行ってもよい。
この結果から明らかな様に、従来の技術に比べて、主として音声要約技術、キーワード抽出技術、映像インデクシング技術を用いることで、音声議事録（映像付音声議事録）を作成することが可能となり、音声認識不可能な音声に対しても、マルチメディア会議録を作成することが可能となる改善があった。また、利用者の希望する時間、もしくはシーン数で音声議事録（映像付音声議事録）を視聴でき、会議終了後に利用者が会議内容を短時間で確認することが可能となる改善があった。
また、利用者が希望する話者から構成される音声議事録（映像付音声議事録）を視聴することが可能となる改善があった。また、音声議事録（映像付音声議事録）再生中にマークすることで、更に会議部分の詳細を視聴することが可能となる改善があった。また、音声要約の結果得られた会議の重要個所を可視化することで利用者はどこが重要かを目視で確認することが可能となる改善があった。また、会議の雰囲気、発言のニュアンス等を含む音声議事録（映像付音声議事録）を見ることで、実際の会議音声（映像）を視聴することができ、テキスト以外の議事録を閲覧することが可能となる改善があった。
【００７４】
また、発言者を特定することから、会議参加者の参加性を視覚的に確認することが可能とする改善があった。また、マルチメディア会議録をユーザ端末１０９との間で共有することが可能となり、会議参加者がノートを取る必要と、議事録を作成する必要がなくなる改善があった。また、マルチメディア会議録を視聴することで、会議中に聞き逃した重要個所を、会議終了後に聞くことが可能となる改善があった。また、利用者が会議に参加していない場合においても、マルチメディア会議録を閲覧することで参加した場合と同等の理解が得られる改善があった。また、マルチメディア会議録作成のために、人手による編集作業を必要としない改善があった。
【００７５】
（実施例２）
図１１に、実施例１の変形例として、実施例２を提案する。この実施例では会議サーバＳＡには会議音声・映像入力部１０１と、会議音声・映像データベース１０２のみを有し、会議録作成部１０３を外部に設けた例を示す。つまり、会議作成部１０３はネットワーク１０８を介して会議サーバＳＡと接続し、会議サーバＳＡは会議録の作成を希望する場合にのみ会議録作成部１０３に会議音声・映像情報を会議音声・映像データベース１０２から送り込み、会議録作成部１０３に会議録の作成を要求すればよい。
従って、この実施例によれば会議録作成部１０３は複数の会議サーバＳＡからの要求に対して会議録の作成を行うことができる。この結果各会議サーバＳＡに会議録作成部１０３を配備しなくて済むことが改善された。
【００７６】
（実施例３）
図１２は実施例３を示す。この実施例では会議音声・映像入力部１０１と、会議音声・映像データベース１０２と、会議録作成部１０３の３者を全てネットワーク１０８を介して接続した構成とした場合を示す。
この構成とした場合には、複数の会議音声・映像入力部１０１をネットワーク１０８を介して会議音声・映像データベース１０２に接続することができる。上記のマルチメディア会議録の作成において各地点から入力された音声や映像等を各地点のアドレスに対応づけて記録もしくは編集することにより、テレビ会議のような多地点会議に適用することができる。このように多地点会議においても、会議録作成に人手を必要とせずアドレスごとに入力情報が管理される。
【００７７】
（実施例４）
図１３に、図８の特定話者で音声議事録（映像付音声議事録）を作成する応用例としての話者毎に重み付けをすることによる音声議事録（映像付音声議事録）を作成する実施例４について述べる。ここで予め発話者毎の要約率を設定し、話者ごとに要約音声区間を定める。つまり、例えば発話者毎の音声信号をフレーム毎に分析した前記特徴量に音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率と、強調状態となる確率の平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定し、各発話者毎に仮判定した要約区間の時間の総和、又は要約率として音声信号全区間の時間と要約区間の時間の総和に対する比率を算出し、要約区間の時間の総和が略所定の要約時間に、又は要約率が略所定の要約率となる所定の係数を算出して発話者毎の要約区間を決定する。
【００７８】
また実施例４では、図１３に示すステップＳＩＶ１の重み付け部と、ステップ
ＩＶ２の音声議事録（映像付音声議事録）作成部から成る。ステップＳＩＶ２の音声議事録（映像付音声議事録）作成部は、図１に示した音声議事録作成部１０４と、映像インデクシング部１０６で生成される各議事録の生成原理と同じである。例えば、企業の役員会議の出席者が、社長、副社長、専務、常務、取締役の５人であった場合の実施例について述べる。
【００７９】
図１４に重み付けしない音声議事録（映像付音声議事録）の例を示す。例えば、役員会議が２時間あり、音声議事録（映像付音声議事録）が１９シーン、全１０分から構成されていたとする。図１４の例では、社長が３シーン、１分１０秒を占めている。重み付けをしなければ、図１４の構成で、時系列に並び替えたものを音声議事録（映像付音声議事録）として利用者は視聴する。重み付けをする場合、例えば、図１５に示す画面を用いる。ステップＳＩＶ１０１は、図２に示したステップＳ３０３の発話者特定処理で得られた発話者名を示す。ステップＳＩＶ１０２は、利用者が設定する各発話者の重み付け入力画面である。図１５の例では、社長７０％、副社長１０％、専務０％、取締役２０％としている。この場合、音声議事録（映像付）議事録の再生時間の占める割合を、社長７０％、副社長１０％、取締役２０％で構成する。典型的な例を図１６に示す。例えば、重み付けをしない音声議事録（映像付音声議事録）の再生時間が１０分であった場合、７分を社長、副社長を１分、取締役を２分で構成するように、図２に示したステップＳ３０１の音声要約処理とステップＳ３０２の音声キーワード抽出処理と図１に示した映像インデクシング部１０６の抽出条件を操作すればよい。その他の方法としては、重み付けをしない音声議事録（映像付音声議事録）での社長の再生時間１分１０秒が全体の７０％になるように副社長、取締役の抽出シーンを削減して調整し、専務、常務の抽出シーンを０にしてもよい。あるいは、抽出シーン数を基準に社長７０％、副社長１０％、取締役２０％にしてもよい。但し、上述した方法で発話者ごとに発話区間の音声信号や映像信号が区別されていることが必須である。
前記、重み付けによる音声議事録（映像付音声議事録）を含むマルチメディア会議録は、図１、図１１、図１２の何れの形態にも適用することができる。
この結果から明らかなように、従来の技術に比べて、利用者が希望する発話者から構成される音声議事録（映像付音声議事録）を視聴させることが可能になる改善があった。
【００８０】
尚、上述した実施例１では会議音声・映像入力部１０１と、会議音声・映像データベース１０２と、会議録作成部１０３の全てを会議サーブＳＡに構築した例を、また、実施例２では会議音声・映像入力部１０１と会議音声・映像データベース１０２を会議サーバＳＡに構築した例を説明したが、実施例３に示したように、これら３者は全て分離して配置することができることから、それぞれが独立した会議サーバに格納されてもよい。また、これら３者の何れか一つ又は全部をユーザ端末１０９の内部に構築することもできる。会議サーバＳＡ又はユーザ端末１０９にこれら３者の中の１つ又は全部を構築する場合、その構築はプログラムによって実現される。
つまり、以上説明したこの発明によるデータ編集方法は計算機上で本発明のデータ編集プログラムを実行して実現できる。ここで当該プログラムは通信回線を介してダウンロードしたり磁気ディスクやＣＤ−ＲＯＭ等の記録媒体からＣＰＵのような処理手段にインストールして実行される。
【００８１】
【発明の効果】
以上説明したように、音声要約技術を用いることで音声認識不可能な音声に対しても、マルチメディア会議録が作成できる効果がある。また、主として音声要約技術、キーワード抽出技術、映像インデクシング技術を用いることで、音声議事録（映像付音声議事録）を作成できる効果がある。また、利用者の希望する時間、もしくはシーン数で音声議事録（映像付音声議事録）を視聴でき、会議終了後に利用者が会議内容を短時間で確認できる利点がある。また、利用者が希望する話者から構成される音声議事録（映像付音声議事録）を視聴できる利点がある。また、音声議事録（映像付音声議事録）を視聴中に視聴者が興味を持った部分にマークを付すことで、更に会議部分の詳細を視聴できる利点がある。
【００８２】
また、音声要約の結果得られた会議の重要個所を可視化することで、利用者はどこが重要かを目視で確認できる利点がある。また、会議の雰囲気、発言のニュアンス等を含む音声議事録（映像付音声議事録）を見ることで、実際の会議音声（映像）を視聴することができ、テキスト以外の議事録を閲覧できる効果がある。また、発話者を特定することから、会議参加者の参加性を視覚的に確認できる利点がある。また、マルチメディア会議録をユーザ端末間で共有することが可能となり、会議参加者がノートを取る必要と、議事録を作成する必要が無くなる利点がある。
【００８３】
また、マルチメディア会議録を視聴することで、会議中に聞き逃した重要個所を、会議終了後に聞くことができる利点がある。また、利用者が会議に参加していない場合においても、マルチメディア会議録を閲覧することで参加した場合と同等に理解できる効果がある。
また、利用者は会議音声・映像を保存しておくデータベースを構築し、例えば、ＤＡＴや、ＤＶＤ−ＲＯＭ等の記録媒体に会議音声・映像を録音・録画して会議音声・映像データベースに保存して必要に応じて読み出すことでマルチメディア会議を視聴することが可能となり、利用者自らマルチメディア会議録を作成する必要がない。
【００８４】
また、利用者は会議音声・映像を入力し、ネットワークを介して会議サーバに送信して、例えば、テレビ会議のような多地点会議により、マルチメディア会議録作成に人手を省ける。また、利用者が希望する発話者から構成される音声議事録（映像付音声議事録）を発話者ごとの所望の再生時間比で視聴できる利点があった。
【図面の簡単な説明】
【図１】この発明の、データ編集装置の実施例１としての基本構成を示すブロック図。
【図２】図１に示す音声議事録作成部において、音声要約し、音声キーワードを抽出し、発話者を特定する手順の例を示す流れ図。
【図３】図１に示すテキスト議事録作成部において、音声認識し、テキスト化処理する手順の例を示す流れ図。
【図４】図３に示す音声認識処理において、音声認識結果を、時間情報と発話内容で記録される例を示す図。
【図５】図１に示す映像インデクシング部において、カット点抽出し、人物認識し、カメラワーク認識し、テロップ認識する手順の例を示す流れ図。
【図６】図１に示すユーザ端末において、ユーザインターフェースを模式的に示す図。
【図７】図６に示すボタンを押した直後に出現する画面を模式的に示す図。
【図８】図６に示す表示欄ＤＳ８１１をクリックする等して、後で聞きなおしたい時刻を記録しておく手順の例を示す図。
【図９】図１に示す課金部の動作を説明するための図。
【図１０】図９と同様の図。
【図１１】この発明の、データ編集装置の変形実施例を説明するためのブロック図。
【図１２】この発明の更に他の変形実施例を説明するためのブロック図。
【図１３】この発明の更に他の変形実施例を説明するための流れ図。
【図１４】図１３に示した実施例を説明するための図。
【図１５】図１３に示した実施例に重み付けを設定する様子を説明するための図。
【図１６】図１３に示した実施例に重み付けを施した結果を説明するための図。
【図１７】この発明に用いる音声要約方法の手順を説明するための流れ図。
【図１８】図１７に示した音声要約方法で用いる音声小段落抽出及び音声段落抽出方法の手順を説明するための流れ図。
【図１９】図１８で説明した音声小段落及び音声段落抽出方法を模式的に示す図。
【図２０】音声小段落の発話状態判定方法の手順を説明するための流れ図。
【図２１】音声の発話状態を判定するためのコードブックを作成する手順を説明するための流れ図。
【図２２】図２１で説明したコードブックの内部の様子を説明するための図。
【図２３】音声波形をフレーム分割し、特徴量を求める状況を模式的に示す波形図。
【図２４】音声波形から強調状態と平静状態とを判定する装置の実施例を示すブロック図。
【図２５】図２４に示した装置において要約率を自由に変化させる方法を説明するための流れ図。
【図２６】要約率を自由に変化させる場合に用いる音声強調確率テーブルの作成手順を説明するための流れ図。
【図２７】図２６で説明した手順に従って作成した音声強調確率テーブルの様子を説明するための図。
【図２８】要約率を自由に変更することができる音声要約装置の実施例を説明するためのブロック図。
【符号の説明】
１００データ編集装置
１０１会議音声・映像入力部
１０２会議音声映像データベース
１０３会議録作成部
１０４音声議事録作成部
１０５テキスト議事録作成部
１０６映像インデクシング部
１０７会議インデクシングデータベース
１０８ネットワーク
１０９ユーザ端末
１１０課金部

Claims

チャネル又は発話者毎の音声信号の要約区間に基づくデータにチャネル情報及び発話者情報のうち少なくとも何れか一方を付加して、時刻順に記録するデータ編集方法において、
少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率とを対応して格納した符号帳を用い、
前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
前記強調状態となる確率が所定の確率よりも大きい音声信号区間を前記要約区間と判定することを特徴とするデータ編集方法。
前記音声信号要約区間を音声認識してテキストに変換し、前記テキストを記録することを特徴とする、請求項１記載のデータ編集方法。
前記音声信号と同期入力した映像信号のうち前記音声信号の要約区間に対応する映像信号区間を、前記音声信号の要約区間と対応付けて記録することを特徴とする請求項１記載のデータ編集方法。
前記音声信号の要約区間の開始時刻情報と終了時刻情報のうち少なくとも何れか一方を、前記音声信号の要約区間と対応付けて記録することを特徴とする請求項３記載のデータ編集方法。
前記音声信号の要約区間は、前記符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量に対応して、強調状態での出現確率及び平静状態での出現確率とを格納し、
前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態の出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
前記平静状態での出現確率に基づいて平静状態となる確率を算出し、
前記強調状態となる確率の前記平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定し、
要約区間の時間の総和、又は要約率として前記音声信号全区間の時間の前記要約区間の時間の総和に対する比率を算出し、
前記要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる前記所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定することを特徴とする請求項１乃至４の何れかに記載のデータ編集方法。
前記音声信号の要約区間は、前記符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量に対応して、強調状態での出現確率及び平静状態での出現確率とを格納し、
前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
前記平静状態での出現確率に基づいて平静状態となる確率を算出し、
前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間毎に算出し、
前記確率比の降順に前記確率比に対応する音声信号区間の時間を累積して要約区間の時間の総和を算出し、
前記要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる要約時間が得られる音声信号区間を各チャネル毎又は各発話者毎の要約区間と決定することを特徴とする請求項１乃至４の何れかに記載のデータ編集方法。
チャネル又は発話者毎の音声信号の要約区間にチャネル情報及び発話者情報のうち少なくとも何れか一方を付加して、時刻順に記録するデータ編集装置において、
少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率とを対応して格納した符号帳と、
この符号帳を用いて音声符号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、
前期平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、
前記強調状態となる確率の前記平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、
要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる前記所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定する要約区間決定部と、
を有することを特徴とするデータ編集装置。
チャネル又は各発話者毎の音声信号の要約区間に前記チャネル情報及び発話者情報のうち少なくとも何れか一方を付加して時刻順に記録するデータ編集装置において、
少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率とを対応して格納した符号帳と、
この符号帳を用いて、前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、
前記平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、
前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間毎に算出し、前記確率比が所定の確率比より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、
要約区間の時間の総和、又は要約率として前記音声信号区間の時間の前記要約区間の時間の総和に対する比率を算出し、
前記要約区間の時間の総和が所定の要約時間に、又は前記要約率が所定の要約率となる前記所定の確率比を算出して各チャネル又は各発話者毎の要約区間を決定する要約区間決定部と、
を有することを特徴とするデータ編集装置。
コンピュータが読み取り可能な符号で記述され、コンピュータに前記請求項１乃至６記載の何れかに記載のデータ編集方法を実行させることを特徴とするデータ編集プログラム。