JP3621686B2 - データ編集方法、データ編集装置、データ編集プログラム - Google Patents

データ編集方法、データ編集装置、データ編集プログラム Download PDF

Info

Publication number
JP3621686B2
JP3621686B2 JP2002060728A JP2002060728A JP3621686B2 JP 3621686 B2 JP3621686 B2 JP 3621686B2 JP 2002060728 A JP2002060728 A JP 2002060728A JP 2002060728 A JP2002060728 A JP 2002060728A JP 3621686 B2 JP3621686 B2 JP 3621686B2
Authority
JP
Japan
Prior art keywords
probability
time
state
audio
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002060728A
Other languages
English (en)
Other versions
JP2003255979A (ja
Inventor
浩太 日▲高▼
英俊 白川
信弥 中嶌
理 水野
治彦 児島
秀豪 桑野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002060728A priority Critical patent/JP3621686B2/ja
Publication of JP2003255979A publication Critical patent/JP2003255979A/ja
Application granted granted Critical
Publication of JP3621686B2 publication Critical patent/JP3621686B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文字、音声、映像から構成されるマルチメディア会議録を自動的に作成することに利用することができるデータ編集方法、データ編集装置及びデータ編集方法をコンピュータ上で実現するためのデータ編集プログラムに関する。
【0002】
【従来の技術】
従来においては、マルチメディア会議録作成の方法として、会議の文字、音声、映像をディジタル化し、人手によって編集する方法があった。例えば、日本国特開平2000−184078公報では、アナログ音声信号をディジタル信号に変換し、記録媒体に記録し、複数の音声記録装置間を接続し、信号源を共有する方法があった。
また、日本国特開平10−294492号公報では、会議中の発言を、音声メモとして記録し、文章に起こしてテキストメモとして付加し、順次他のテキストメモとの関連付けを行って議事録を作成する方法があった。
【0003】
また、日本国特開平10−294798号公報では会議の出席者と、該当出席者が使用するテレビ会議端末とを対応付けし、発言内容の音声情報を音声認識し、認識された音声を文字情報に変換し、変換された文字情報を、発言毎に議事録として蓄積し、文字情報から音声情報に変換し、変換された音声情報を議事録として蓄積するマルチメディア議事録作成方法があった。
また、日本国特開平7−123384号公報では、映像、音声情報を扱う会議端末を、通信網を介して接続し、多地点間で通信会議を行う分散会議システムのマルチメディア会議録を、自席で作成、編集、承認、配布ができる装置があった。
【0004】
また、日本国特開平7−182365号公報では、会議のデータを、動画、静止画、音声、ペン、キー等の入力手段で入力し、入力データの時間関係を解析して検索用ファイルを作成し、検索用ファイルに該当するデータを読み出し、データを表示、編集し、マルチメディア会議録を作成支援する方法があった。
【0005】
【発明が解決しようとする課題】
音声情報を検索・編集するには、音声情報を聴取するか、音声認識しなければならない。音声聴取には、発話速度変換技術があるが、短時間で内容を理解し、検索・編集するには限界がある。日本国の特開2000−184078公報記載のマルチメディア会議録作成方法では利用者は重要な部分を見出すまで全区間を聴取しなければならない。
日本国特開平8−194492号公報、日本国特開平7−123384号公報では、議事録作成を人手で行うことが前提なため、短時間でマルチメディア会議録を作成することは不可能である。また、自動的にマルチメディア会議録を作成するものではない。
【0006】
会議音声を聴取せずに、内容を知るには音声認識技術を用いた方法として、例えば、日本国特開平10−294798号公報では、発話者の音声情報を音声認識する。しかし、音声認識は、雑音環境にないことと、明瞭な音声で、複数話者の同時発話が生じないことが必要である。然し乍ら、会議音声は、空調音や資料をめくる音等の雑音環境下にある。複数話者の同時発話も頻繁に生じ、原稿等を用いない自然な話し言葉や、会話が主であるため、音声認識を用いるのは現実的ではない。
日本国特開平7−182365号公報では、会議のキーワードとして、音声認識処理、文字認識処理、形態素解析処理によってキーワードを抽出している。しかし、音声認識は前記の理由で現実的ではなく、また、文字認識や形態素解析を用いたシステムでは必ずしも所望の認識結果や構文分析がなされるわけではないので、自動的にマルチメディア会議録を作成することは不可能である。また、キーワードが会議の重要部分を伝えているかという評価が欠けており、有用なマルチメディア会議録が作成されるとは必ずしも保証されない。
【0007】
この発明は、前記のような従来の技術の有する欠点に鑑みてなされたもので、マルチメディア会議録作成のために人手を必要とせず、雑音環境下で、原稿等を使用しない、自然な話し言葉や会議で、複数話者の同時発話が生じた場合等に問題となる、音声認識の適応が困難な、一般的な音声であっても、短時間で元の映像、あるいは音声の内容を知ることができる。あるいは利用者が希望する時間や、会議の場面(シーン)数や、発話者等で構成されるマルチメディア会議録を自動的に作成することを目的とする。
【0008】
【課題を解決するための手段】
この発明では、チャネル又は発話者毎の音声信号の要約区間に基づくデータにチャネル情報及び発話者情報のうち少なくとも何れか一方を付加して、時刻順に記録するデータ編集方法において、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率とを対応して格納した符号帳を用い、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出し、強調状態となる確率が所定の確率よりも大きい音声信号区間を要約区間と判定するデータ編集方法を提案する。
【0009】
この発明では更に、音声信号要約区間を音声認識してテキストに変換し、テキストを記録するデータ編集方法を提案する。
この発明では更に、音声信号と同期入力した映像信号のうち音声信号の要約区間に対応する映像信号区間を、音声信号の要約区間と対応付けて記録するデータ編集方法を提案する。
この発明では更に、音声信号の要約区間の開始時刻情報と終了時刻情報のうち少なくとも何れか一方を、音声信号の要約区間と対応付けて記録するデータ編集方法を提案する。
【0010】
この発明では更に、音声信号の要約区間は、符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量に対応して、強調状態での出現確率及び平静状態での出現確率が格納され、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態の出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出し、平静状態での出現確率に基づいて平静状態となる確率を算出し、強調状態となる確率の平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定し、要約区間の時間の総和、又は要約率として音声信号全区間の時間の要約区間の時間の総和に対する比率を算出し、要約区間の時間の総和が略所定の要約時間に、又は要約率が略所定の要約率となる所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定するデータ編集方法を提案する。
【0011】
この発明では更に、音声信号の要約区間は、符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量に対応して、強調状態での出現確率及び平静状態での出現確率が格納され、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出し、平静状態での出現確率に基づいて平静状態となる確率を算出し、強調状態となる確率の平静状態となる確率に対する確率比を音声信号区間毎に算出し、確率比の降順に確率比に対応する音声信号区間の時間を累積して要約区間の時間の総和を算出し、要約区間の時間の総和が略所定の要約時間に、又は要約率が略所定の要約率となる要約時間が得られる音声信号区間を各チャネル毎又は各発話者毎の要約区間と決定するデータ編集方法を提案する。
【0012】
この発明では更に、チャネル又は発話者毎の音声信号の要約区間に前期チャネル情報及び発話者情報のうち少なくとも何れか一方を付加して、時刻順に記録するデータ編集装置において、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率とを対応して格納した符号帳と、この符号帳を用いて音声符号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、前期平静状態での出現確率に基づいて平静状態となる確率を算出する強調状態確率計算部と、強調状態となる確率の平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、要約区間の時間の総和が略所定の要約時間に、又は要約率が略所定の要約率となる所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定する要約区間決定部とを有するデータ編集装置を提案する。
【0013】
この発明では更に、チャネル又は各発話者毎の音声信号の要約区間にチャネル情報及び発話者情報のうち少なくとも何れか一方を付加して時刻順に記録するデータ編集装置において、少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率とを対応して格納した符号帳と、この符号帳を用いて、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、強調状態となる確率の平静状態となる確率に対する確率比を音声信号区間毎に算出し、確率比が所定の確率比より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、要約区間の時間の総和、又は要約率として音声信号区間の時間の要約区間の時間の総和に対する比率を算出し、要約区間の時間の総和が所定の要約時間に、又は要約率が所定の要約率となる所定の確率比を算出して各チャネル又は各発話者毎の要約区間を決定する要約区間決定部とを有するデータ編集装置を提案する。
この発明では更に、コンピュータが読み取り可能な符号で記述され、コンピュータにデータ編集方法を実行させるデータ編集プログラムを提案する。
【0014】
作用
この発明に用いる音声要約方法は、会議音声の強調状態を判定し、その区間を重要部分として抽出することができる。そのために、この重要部分をつなげて再生すると、会議全体の要旨を伝えることが可能となる。また音声要約手段は、雑音環境下でも、原稿等を使用せず、自然な話し言葉や会話でも、複数話者の同時発話が生じた場合等に問題となる音声認識の適応が困難な、一般的な音声であっても、短時間で元の映像、あるいは音声の内容を知ることができる。そのため、前記の音声認識不可能な一般的な音声においても、マルチメディア会議録を作成することが可能となる。また、本発明の音声要約手段は音声認識のように言語情報を用いていない。そのため、予め言語間の翻訳にかかる諸データを用いなくとも多言語の音声で行われた会議においても重要部分を抽出することが可能となる。
【0015】
ここで、発話者特定部を備え、発話者を特定する。そのため、利用者に発話者を認識させることや、特定話者だけの発話を聴取することが可能となる。また、音声認識手段とテキスト要約手段を備え、音声情報を文字情報に変換している。そのために、発話内容を文章化した際の、要旨を伝えることができる。
音声キーワード抽出手段は、会議のキーワードを抽出する。例えば変換された文字情報を形態系解析して単語に分解する。各単語の出現回数をカウントし、出現回数の最も多い単語をキーワードとする。そのために、会議終了後、キーワードを見ることで会議内容を確認することが可能となる。
【0016】
映像インデクシング手段は、映像情報を分析して、イベントを抽出する。そのために、カット点、カメラワーク、人物認識、テロップ認識を行うことが可能となる。
前記、音声議事録作成手段、テキスト議事録作成手段、映像インデクシング手段から、会議の重要部分を伝える会議インデクシングデータベースを自動的に作成することができる。そのため、利用者の希望する聴取時間やシーン数に応じて、また希望する発話者に応じて、自動的にマルチメディア会議録を作成することが可能となる。
マルチメディア会議録は、音声だけでなく映像でも要約部分を提示する。そのため、利用者は短時間で、会議の内容を理解することが可能となる。
【0017】
【発明の実施の形態】
ここでは、この発明のデータ編集時に用いられる音声要約方法について説明する。
図17に先に提案した音声要約方法の実施形態の基本手順を示す。ステップS1で入力音声信号を分析して音声特徴量を求める。ステップS2で、入力音声信号の音声小段落と、複数の音声小段落から構成される音声段落を抽出する。ステップS3で各音声小段落を構成するフレームが平静状態か、強調状態か発話状態を判定する。この判定に基づきステップS4で要約音声を作成し、要約音声を得る。
【0018】
以下に、自然な話し言葉や会話音声の、音声要約に適応する場合の実施例を述べる。音声特徴量は、スペクトル情報等に比べて、雑音環境下でも安定して得られ、かつ話者に依存し難いものを用いる。入力音声信号から音声特徴量として基本周波数(f0)、パワー(p)、音声の動的特徴量の時間変化特性(d)、ポーズ時間長(無音区間)(ps)を抽出する。これらの音声特徴量の抽出法は、例えば、「音響・音響工学」(古井貞煕、近代科学社、1998)、「音声符号化」(守谷健弘、電子情報通信学会、1998)、「ディジタル音声処理」(古井貞煕、東海大学出版会、1985)、「複合正弦波モデルに基づく音声分析アルゴリズムに関する研究」(嵯峨山茂樹、博士論文、1998)などに述べられている。音声の動的特徴量の時間変化は発話速度の尺度となるパラメータであり特許第2976998号に記載のものを用いてもよい。即ち、動的変化量としてスペクトル包絡を反映するLPCスペクトラム係数の時間変化特性を求め、その時間変化をもとに発話速度係数が求められるものである。より具体的にはフレーム毎にLPCスペクトラム係数C1(t)、…Ck(t)を抽出して次式のような動的特徴量d(ダイナミックメジャー)を求める。d(t)=Σi=1k[Σf=t−f0t+f0[f×Ci(t)]/(Σf=t−f0t+f0f2)2ここで、f0は前後の音声区間フレーム数(必ずしも整数個のフレームでなくとも一定の時間区間でもよい)、kはLPCスペクトラムの次数、i=1、2、…kである。発話速度の係数として動的特徴量の変化の極大点の単位時間当たりの個数、もしくは単位時間当たりの変化率が用いられる。
【0019】
実施例では例えば100msを1フレームとし、シフトを50msとする。1フレーム毎の平均の基本周波数を求める(f0´)。パワーについても同様に1フレーム毎の平均パワー(p´)を求める。更に現フレームのf0´と±iフレーム前後のf0´との差分をとり、±Δf0´i(Δ成分)とする。パワーについても同様に現フレームのp´と±iフレーム前後のp´との差分±Δp´i(Δ成分)を求める。f0´、±Δf0´i、p´、±Δp´iを規格化する。この規格化では例えばf0´、±Δf0´iをそれぞれ、音声波形全体の平均基本周波数で割る。これら規格化された値をf0″、±f0″iと表す。p´、±Δp´iについても同様に、発話状態判定の対象とする音声波形全体の平均パワーで割り、規格化する。規格化するにあたり、後述する音声小段落、または音声段落ごとの平均パワーで割ってもよい。これら規格化された値をp″、±Δp″iと表す。iの値は例えばi=4とする。現フレームの前後±T1msの、区間におけるダイナミックメジャーのピーク本数、即ち動的特徴量の変化の極大点の個数をカウントする(dp)。これと、現フレームの開始時刻の、T2ms前の時刻を区間に含むフレームのdpとのΔ成分(−Δdp)を求める。前記±T1msの区間におけるdpと、現フレームの終了時刻の、T3ms後の時刻を区間に含むフレームのdpとのΔ成分(+Δdp)を求める。これら、T1、T2、T3の値は例えばT1=T2=T3=450msとする。フレームの前後の無音区間の時間長を±psとする。ステップS1ではこれら音声特徴パラメータの各値をフレーム毎に抽出する。
【0020】
ステップS2における入力音声の音声小段落と、音声段落を抽出する方法の例を図18に示す。ここで音声小段落を発話状態判定を行う単位とする。ステップS201で、入力音声信号の無音区間と有声区間を抽出する。無音区間は例えばフレーム毎のパワーが所定のパワー値以下であれば無音区間と判定し、有声区間は、例えばフレーム毎の相関関数が所定の相関関数値以上であれば有声区間と判定する。有声/無声の決定は、周期性/非周期性の特徴と同一視することにより、自己相関関数や変形相関関数のピーク値で行うことが多い。入力信号の短時間スペクトルからスペクトル包絡を除去した予測残差の自己相関関数が変形相関関数であり、変形相関関数のピークが所定の閾値より大きいか否かによって有声/無声の判定を行い、又そのピークを与える遅延時間によってピッチ周期1/f0(基本周波数f0)の抽出を行う。これらの区間の抽出法の詳細は、例えば、「ディジタル音声処理」(古井貞煕、東海大学出版会、1985)などに述べられている。ここでは音声信号から各音声特徴量をフレーム毎に分析することについて述べたが、既に符号化等により分析された係数もしくは符号に対応する特徴量を符号化に用いる符号帳から読み出して用いてもよい。
【0021】
ステップS202で、有声区間を囲む無音区間の時間がそれぞれt秒以上になるとき、その無音区間で囲まれた有声区間を含む部分を音声小段落とする。このtは例えばt=400msとする。ステップS203で、この音声小段落内の好ましくは後半部の、有声区間の平均パワーと、その音声小段落の平均のパワーの値BAの定数β倍とを比較し、前者の方が小さい場合はその音声小段落を末尾音声小段落とし、直前の末尾音声小段落後の音声小段落から現に検出した末尾音声小段落までを音声段落として決定する。
図19に、有声区間、音声小段落、音声段落を模式的に示す。音声小段落を前記の、有声区間を囲む無音区間の時間がt秒の条件で、抽出する。図19では、音声小段落j−1、j、j+1について示している。ここで音声小段落jは、n個の有声区間から構成され、平均パワーをPjとする。有声区間の典型的な例として、音声小段落jに含まれる、有声区間vの平均パワーはpvである。音声段落kは、音声小段落jと音声小段落を構成する後半部分の有声区間のパワーから抽出する。i=n−αからnまでの有声区間の平均パワーpiの平均が音声小段落jの平均パワーPjより小さいとき、即ち、
Σpi/(α+1)<βPj 式(1)
を満たす時、音声小段落jが音声段落kの末尾音声小段落であるとする。ただし、Σはi=n−αからnまでである。式(1)のα、βは定数であり、これらを操作して、音声段落を抽出する。実施例では、αは3、βは0.8とした。このようにして末尾音声小段落を区切りとして隣接する末尾音声小段落間の音声小段落群を音声段落と判定できる。
【0022】
図17中のステップS3における発話状態判定方法の例を図20に示す。ステップS301で、入力音声小段落の音声特徴量をベクトル量子化する。このために、あらかじめ少なくとも2つの量子化音声特徴量(コード)が格納された符号帳(コードブック)を作成しておく。ここでコードブックに蓄えられた音声特徴量と入力音声もしくは既に分析して得られた音声の音声特徴量との照合をとり、コードブックの中から音声特徴量間の歪(距離)を最小にする量子化音声特徴量を特定することが常套である。
図21に、このコードブックの作成法の例を示す。多数の学習用音声を被験者が聴取し、発話状態が平静状態であるものと、強調状態であるものをラベリングする(S501)。
【0023】
例えば、被験者は強調状態とする理由として、
(a)声が大きく、名詞や接続詞を伸ばすように発話する
(b)話し始めを伸ばして話題変更を主張、意見を集約するように声を大きくする
(c)声を大きく高くして重要な名詞等を強調する時
(d)高音であるが声はそれほど大きくない
(e)苦笑いしながら、焦りから本音をごまかすような時
(f)周囲に同意を求める、あるいは問いかけるように、語尾が高音になるとき
(g)ゆっくりと力強く、念を押すように、語尾の声が大きくなる時
(h)声が大きく高く、割り込んで発話するという主張、相手より大きな声で
(i)大きな声では憚られるような本音や秘密を発言する場合や、普段、声の大きい人にとっての重要なことを発話するような時(例えば声が小さくボソボソ、ヒソヒソという口調)を挙げた。この例では、平静状態とは、前記の(a)〜(i)のいずれでもなく、発話が平静であると被験者が感じたものとした。
【0024】
平静状態と強調状態の各ラベル区間について、図17中のステップS1と同様に、音声特徴量を抽出し(S502)、パラメータを選択する(S503)。平静状態と強調状態のラベル区間の、前記パラメータを用いて、LBGアルゴリズムでコードブックを作成する(S504)。LBGアルゴリズムについては、例えば、(Y.Linde,A.Buzo and R.M.Gray,“An algorithm for vector quantizer design,”IEEE Trans.Commun.,vol.Com−28,pp.84−95,1980)がある。コードブックサイズは2のn乗個に可変である。このコードブック作成は音声小段落で又はこれより長い適当な区間毎あるいは学習音声全体の音声特徴量で規格化した音声特徴量を用いることが好ましい。
【0025】
図20中のステップS301で、このコードブックを用いて、入力音声小段落の音声特徴量を、各音声特徴量について規格化し、その規格化された音声特徴量をフレーム毎に照合もしくはベクトル量子化し、フレーム毎にコード(量子化された音声特徴量)を得る。この際の入力音声信号より抽出する音声特徴量は前記のコードブック作成に用いたパラメータと同じである。
強調状態が含まれる音声小段落を特定するために、音声小段落でのコードを用いて、発話状態の尤度を、平静状態と強調状態について求める。このために、あらかじめ、任意のコード(量子化音声特徴量)の出現確率を、平静状態の場合と、強調状態の場合について求めておき、この出現確率とそのコードとを組としてコードブックに格納しておく、以下にこの出現確率の求め方の例を述べる。前記のコードブック作成に用いた学習音声中のラベルが与えられた1つの区間(ラベル区間)の音声特徴量のコード(フレーム毎に得られる)が、時系列でCi、Cj、Ck、…Cnであるとき、ラベル区間αが強調状態となる確率をPα(e)、平静状態となる確率をPα(n)とし、
Pα(e)=Pemp(Ci)Pemp(Cj|Ci)…Pemp(Cn|Ci…Cn−1)=Pemp(Ci)ΠPemp(Cx|Ci…Cx−1)
Pα(n)=Pnrm(Ci)Pnrm(Cj|Ci)…Pnrm(Cn|Ci…Cn−1)=Pemp(Ci)ΠPnrm(Cx|Ci…Cx−1)
となる。ただし、Pemp(Cx|Ci…Cx−1)はコード列Ci…Cx−1の次にCxが強調状態となる条件付確率、Pnrm(Cx|Ci…Cx−1)は同様にCi…Cx−1に対しCxが平静状態となる確率である。ただし、Πはx=i+1からnまでの積である。またPemp(Ci)は学習音声についてフレームで量子化し、これらコード中のCiが強調状態とラベリングされた部分に存在した個数を計数し、その計数値を全学習音声の全コード数(フレーム数)で割り算した値であり、Pnrm(Ci)はCiが平静状態とラベリングされた部分に存在した個数を全コード数で割り算した値である。
【0026】
このラベル区間αの各状態確率を簡単にするために、この例ではN−gramモデル(N<n)を用いて、
Pα(e)=Pemp(Cn|Cn−N+1…Cn−1)
Pα(n)=Pnrm(Cn|Cn−N+1…Cn−1)
とする。つまりCnよりN−1個の過去のコード列Cn−N+1…Cn−1の次にCnが強調状態として得られる確率をPα(e)とし、同様にN−gramの確率値をより低次のM−gram(N≧M)の確率値と線形に補間する線形補間法を適応することが好ましい。例えばCnよりN−1個の過去のコード列Cn−N+1…Cn−1の次にCnが平静状態として得られる確率をPα(n)とする。このようなPα(e)、Pα(n)の条件付確率をラベリングされた学習音声の量子化コード列から全てを求めるが、入力音声信号の音声特徴量の量子化したコード列と対応するものが学習音声から得られていない場合もある。そのため、高次(即ちコード列の長い)の条件付確率を単独出現確率とより低次の条件付出現確率とを補間して求める。例えばN=3のtrigram、N=2のbigram、N=1のunigramを用いて線形補間法を施す。N−gram、線形補間法、trigramについては、例えば、「音声言語処理」(北 研二、中村 哲、永田昌明、森北出版、1996、29頁)などに述べられている。即ち、
N=3(trigram):Pemp(Cn|Cn−2Cn−1)、Pnrm(Cn|Cn−2Cn−1)
N=2(bigram):Pemp(Cn|Cn−1)、Pnrm(Cn|Cn−1)
N=1(unigram):Pemp(Cn)、Pnrm(Cn)
であり、これら3つの強調状態でのCnの出現確率、また3つの平静状態でのCnの出現確率をそれぞれ用いて次式により、Pemp(Cn|Cn−2Cn−1)、Pnrm(Cn|Cn−2Cn−1)を計算することにする。
Figure 0003621686
Trigramの学習データをNとしたとき、すなわち、コードが時系列でC1、C2、...CNが得られたとき、λemp1、λemp2、λemp3の再推定式は前出の参考文献「音声言語処理」より次のようになる。
λemp1=1/NΣ(λemp1Pemp(Cn|Cn−2C−1)/(λemp1Pemp(Cn|Cn−2C−1)+λemp2Pemp(Cn|C−1)+λemp3Pemp(Cn)))
λemp2=1/NΣ(λemp2Pemp(Cn|C−1)/(λemp1Pemp(Cn|Cn−2C−1)+λemp2Pemp(Cn|C−1)+λemp3Pemp(Cn)))
λemp3=1/NΣ(λemp3Pemp(Cn)/(λemp1Pemp(Cn|Cn−2C−1)+λemp2Pemp(Cn|C−1)+λemp3Pemp(Cn)))
ただし、Σはn=1からNまでの和である。以下同様にしてλnrm1、λnrm2、λnrm3も求められる。
【0027】
この例では、ラベル区間αがフレーム数Nαで得たコードがCi1、Ci2、…、CiNαのとき、このラベル区間αが強調状態となる確率Pα(e)、平静状態となる確率Pα(n)は、
Figure 0003621686
となる。この計算ができるように前記のtrigram、unigram、bigramを任意のコードについて求めてコードブックに格納しておく。つまりコードブックには各コードの音声特徴量とその強調状態での出現確率とこの例では平静状態での出現確率との組が格納され、その強調状態での出現確率は、その音声特徴量が過去のフレームでの音声特徴量と無関係に強調状態で出現する確率(unigram:単独出現確率と記す)のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎に、その音声特徴量が強調状態で出現する条件付確率との組合せの何れかであり、平静状態での出現確率も同様に、その音声特徴量が過去のフレームでの音声特徴量と無関係に平静状態で出現する確率(unigram:単独出現確率と記す)のみ、又はこれと、過去のフレームでの音声特徴量から現在のフレームの音声特徴量に至るフレーム単位の音声特徴量列毎にその音声特徴量が平静状態で出現する条件付確率と組合せの何れかである。
【0028】
例えば図22に示すようにコードブックには各コードC1、C2、…毎にその音声特徴量と、その単独出現確率が強調状態、平静状態について、また条件付確率が強調状態、平静状態についてそれぞれ組として格納されている。
図20中のステップS302では、入力音声小段落の全フレームのコードについてのそのコードブックに格納されている前記確率から、発話状態の尤度を、平静状態と強調状態について求める。図23に実施例の模式図を示す。時刻tから始まる音声小段落のうち、第4フレームまでを▲1▼〜▲4▼で示している。前記のように、ここでは、フレーム長は100ms、フレームシフトを50msとフレーム長の方を長くした。▲1▼フレーム番号f、時刻t〜t+100でコードCiが、▲2▼フレーム番号f+1、時刻t+50〜t+150でコードCjが、▲3▼フレーム番号f+2、時刻t+100〜t+200でコードCkが、▲4▼フレーム番号f+3、時刻t+150〜t+250でコードClが得られ、つまりフレーム順にコードがCi、Cj、Ck、Clであるとき、フレーム番号f+2以上のフレームでtrigramが計算できる。音声小段落sが強調状態となる確率をPs(e)、平静状態となる確率をPs(n)とすると第4フレームまでの確率はそれぞれ、
Figure 0003621686
となる。ただし、この例では、コードブックからCk、Clの強調状態及び平静状態の各単独出現確率を求め、またCjの次にCkが強調状態及び平静状態で各出現する条件付確率、更にCkがCi、Cjの次に、ClがCj、Ckの次にそれぞれ強調状態及び平静状態でそれぞれ出現する条件付確率をコードブックから求めると、以下のようになる。
Figure 0003621686
上記(8)〜(11)式を用いて(6)式と(7)式で示される第4フレームまでの強調状態となる確率Ps(e)と、平静状態となる確率Ps(n)が求まる。ここで、Pemp(Ck|CiCj)、Pnrm(Ck|CiCj)はフレーム番号f+2において計算できる。
【0029】
この例では、音声小段落sがフレーム数Nsで得たコードがCi1、Ci2、…、CiNsのとき、この音声小段落sが強調状態になる確率Ps(e)と平静状態になる確率Ps(n)を次式により計算する。
Ps(e)=Pemp(Ci3|Ci1Ci2)…Pemp(CiNs|Ci(Ns−1)Ci(Ns−2))
Ps(n)=Pnrm(Ci3|Ci1Ci2)…Pnrm(CiNs|Ci(Ns−1)Ci(Ns−2))
この例ではこれらの確率が、Ps(e)>Ps(n)であれば、その音声小段落Sは強調状態、Ps(n)>Ps(e)であれば平静状態とする。
【0030】
図24は以上説明した音声小段落抽出方法、音声段落抽出方法、各音声小段落毎に強調状態となる確率及び平静状態となる確率を求める方法を用いた音声強調状態判定装置及び音声要約装置の実施形態を示す。
入力部11に音声強調状態が判定されるべき、又は音声の要約が検出されるべき入力音声(入力音声信号)が入力される。入力部11には必要に応じて入力音声信号をデジタル信号に変換する機能も含まれる。デジタル化された音声信号は必要に応じて記憶部12に格納される。音声特徴量抽出部13で前述した音声特徴量がフレーム毎に抽出される。抽出した音声特徴量は必要に応じて、音声特徴量の平均値で規格化され、量子化部14で各フレームの音声特徴量がコードブック15を参照して量子化され、量子化された音声特徴量は強調確率計算部16と平静確率計算部17に送り込まれる。コードブック15は例えば図22に示したようなものである。
【0031】
強調確率計算部16によりその量子化された音声特徴量の強調状態での出現確率が、コードブック15に格納されている対応する確率を用いて、例えば式(8)又は(9)により計算される。同様に平静確率計算部17により、前記量子化された音声特徴量の平静状態での出現確率がコードブック15に格納されている対応する確率を用いて、例えば式(10)又は(11)により計算される。強調確率計算部16及び平静確率計算部17で各フレーム毎に算出された強調状態での出現率と平静状態での出現確率及び各フレームの音声特徴量は各フレームに付与したフレーム番号と共に記憶部12に格納する。
【0032】
これら各部の制御は制御部19の制御のもとに順次行われる。
音声要約装置の実施形態は、図24中に実線ブロックで示す構成に、破線ブロックで示される構成が付加される。つまり記憶部12に格納されている各フレームの音声特徴量が無音区間判定部21と有音区間判定部22に送り込まれ、無音区間判定部21により各フレーム毎に無音区間か否かが判定され、また有音区間判定部22により各フレーム毎に有声区間か否かが判定される手段が加わる。これらの無音区間判定結果と有音区間判定結果が音声小段落判定部23に入力される。音声小段落判定部23はこれら無音区間判定、有声区間判定に基づき、先の方法の実施形態で説明したように所定フレーム数を連続する無音区間に囲まれた有声区間を含む部分が音声小段落と判定される。音声小段落判定部23の判定結果は記憶部12に書き込まれ、記憶部12に格納されている音声データ列に付記され、無音区間で囲まれたフレーム群に音声小段落番号列を付与する。これと共に音声小段落判定部23の判定結果は末尾音声小段落判定部24に入力される。
【0033】
末尾音声小段落判定部24では、例えば図19を参照して説明した手法により末尾音声小段落が検出され、末尾音声小段落判定結果が音声段落判定部25に入力され、音声段落判定部25により2つの末尾音声小段落間の複数の音声小段落を含む部分が音声段落と判定される。この音声段落判定結果も記憶部12に書き込まれ、記憶部12に記憶している音声小段落番号列に音声段落列番号を付与する。
音声要約装置として動作する場合、強調確率計算部16及び平静確率計算部17では記憶部12から各音声小段落を構成する各フレームの強調確率と平静確率を読み出し、各音声小段落毎の確率が例えば式(8)及び式(10)により計算される。強調状態判定部18ではこの音声小段落毎の確率計算値を比較して、その音声小段落が強調状態か否かを判定し、要約区間取出し部26では音声段落中の1つの音声小段落でも強調状態と判定されたものがあればその音声小段落を含む音声段落を取り出す。各部の制御は制御部19により行われる。
【0034】
以上により音声波形を音声小段落及び音声段落に分離する手段及び各音声小段落毎に強調状態となる確率及び平静状態となる確率を算出する手段が理解できよう。
以下では上述した各方法を利用したこの発明による音声処理方法、音声処理装置及び音声処理プログラムに関わる実施の形態を説明する。
図25にこの要約率を変更することを可能とした音声処理方法の基本手順を示す。この実施例ではステップS11で音声強調確率算出処理を実行し、音声小段落の強調確率及び平静確率を求める。
【0035】
ステップS12では要約条件入力ステップS12を実行する。この要約条件入力ステップS12では例えば利用者に要約時間又は要約率或は圧縮率の入力を促す情報を提供し、要約時間又は要約率或は要約率又は圧縮率を入力させる。尚、予め設定された複数の要約時間又は要約率、圧縮率の中から一つを選択する入力方法を採ることもできる。
ステップS13では抽出条件の変更を繰り返す動作を実行し、ステップS12の要約条件入力ステップS12で入力された要約時間又は要約率、圧縮率を満たす抽出条件を決定する。
【0036】
ステップS14で要約抽出ステップを実行する。この要約抽出ステップS14では抽出条件変更ステップS13で決定した抽出条件を用いて採用すべき音声段落を決定し、この採用すべき音声段落の総延長時間を計算する。
ステップ15では要約再生処理を実行し、要約抽出ステップS14で抽出した音声段落列を再生する。
図26は図25に示した音声強調確率算出ステップの詳細を示す。
ステップS101で要約対象とする音声波形列を音声小段落に分離する。
ステップS102ではステップS101で分離した音声小段落列から音声段落を抽出する。音声段落とは図19で説明したように、1つ以上の音声小段落で構成され、意味を理解できる単位である。
【0037】
ステップS103及びステップS104でステップS101で抽出した音声小段落毎に図22で説明したコードブックと前記した式(8)、(10)等を利用して各音声小段落が強調状態となる確率(以下強調確率と称す)Ps(e)と、平静状態となる確率(以下平静確率と称す)Ps(n)とを求める。
ステップS105ではステップS103及びS104において各音声小段落毎に求めた強調確率Ps(e)と平静確率Ps(n)などを各音声小段落毎に仕分けして記憶手段に音声強調確率テーブルとして格納する。
図27に記憶手段に格納した音声強調確率テーブルの一例を示す。図27に示すF1、F2、F3…は音声小段落毎に求めた音声小段落強調確率Ps(e)と、音声小段落平静確率Ps(n)を記録した小段落確率記憶部を示す。これらの小段落確率記憶部F1、F2、F3…には各音声小段落Sに付された音声小段落番号iと、開始時刻(言語列の先頭から計時した時刻)終了時刻、音声小段落強調確率、音声小段落平静確率、各音声小段落を構成するフレーム数fn等が格納される。
【0038】
要約条件入力ステップS12で入力する条件としては要約すべきコンテンツの全長を1/X(Xは正の整数)の時間に要約することを示す要約率r(特許請求の範囲記載の要約率r=1/Xを指す)、あるいは要約時間tを入力する。
この要約条件の設定に対し、抽出条件変更ステップS13では初期値として重み係数W(請求項1記載の所定の係数の逆数を指す)をW=1に設定し、この重み係数を要約抽出ステップS14に入力する。
要約抽出ステップS14は重み係数W=1として音声強調確率テーブルから各音声小段落毎に格納されている強調確率Ps(e)と平静確率Ps(e)とを比較し、
W・Ps(e)>Ps(n)
の関係にある音声小段落を抽出すると共に、更にこの抽出した音声小段落を一つでも含む音声段落を抽出し、抽出した音声段落列の総延長時間MT(分)を求める。
【0039】
抽出した音声段落列の総延長時間MT(分)と要約条件で決めた所定の要約時間YT(分)とを比較する。ここでMT≒YT(YTに対するMTの誤差が例えば±数%程度の範囲)であればそのまま採用した音声段落列を要約音声として再生する。
要約条件で設定した要約時間YTに対するコンテンツの要約した総延長時間MTとの誤差値が規定より大きく、その関係がMT>YTであれば抽出した音声段落列の総延長時間MT(分)が、要約条件で定めた要約時間YT(分)より長いと判定し、図25に示した抽出条件変更ステップS13を再実行させる。抽出条件変更ステップS13では重み係数がW=1で抽出した音声段落列の総延長時間MT(分)が要約条件で定めた要約時間YT(分)より「長い」とする判定結果を受けて強調確率Ps(e)に現在値より小さい重み付け係数W(請求項記載の所定の係数の場合は現在値よりも大きくする)を乗算W・Ps(e)して重み付けを施す。重み係数Wとしては例えばW=1−0.001×K(Kはループ回数)で求める。
【0040】
つまり、音声強調確率テーブルから読み出した音声段落列の全ての音声小段落で求められている強調確率Ps(e)の配列に1回目のループではW=1−0.001×1で決まる重み係数W=0.999を乗算し、重み付けを施す。この重み付けされた全ての各音声小段落の強調確率W・Ps(e)と各音声小段落の平静確率Ps(n)とを比較し、W・Ps(e)>Ps(n)の関係にある音声小段落を抽出する。
この抽出結果に従って要約抽出ステップS14では抽出された音声小段落を含む音声段落を抽出し、要約音声段落列を再び求める。これと共に、この要約音声段落列の総延長時間MT(分)を算出し、この総延長時間MT(分)と要約条件で定められる要約時間YT(分)とを比較する。比較の結果がMT≒YTであれば、その音声段落列を要約音声と決定し、再生する。
【0041】
1回目の重み付け処理の結果が依然としてMT>YTであれば抽出条件変更ステップを、2回目のループとして実行させる。このとき重み係数WはW=1−0.001×2で求める。全ての強調確率Ps(e)にW=0.998の重み付けを施す。
このように、ループの実行を繰り返す毎にこの例では重み係数Wの値を徐々に小さくするように抽出条件を変更していくことによりWPs(e)>Ps(n)の条件を満たす音声小段落の数を漸次減らすことができる。これにより要約条件を満たすMT≒YTの状態を検出することができる。
【0042】
尚、上述では要約時間MTの収束条件としてMT≒YTとしたが、厳密にMT=YTに収束させることもできる。この場合には要約条件に例えば5秒不足している場合、あと1つの音声段落を加えると10秒超過してしまうが、音声段落から5秒のみ再生することで利用者の要約条件に一致させることができる。また、この5秒は強調と判定された音声小段落の付近の5秒でもよいし、音声段落の先頭から5秒でもよい。
また、上述した初期状態でMT<YTと判定された場合は重み係数Wを現在値よりも小さく例えばW=1−0.001×Kとして求め、この重み係数Wを平静確率Ps(n)の配列に乗算し、平静確率Ps(n)に重み付けを施せばよい。また、他の方法としては初期状態でMT>YTと判定された場合に重み係数を現在値より大きくW=1+0.001×Kとし、この重み係数Wを平静確率Ps(n)の配列に乗算してもよい。
【0043】
また、要約再生ステップS15では要約抽出ステップS14で抽出した音声段落列を再生するものとして説明したが、音声付の画像情報の場合、要約音声として抽出した音声段落に対応した画像情報を切り出してつなぎ合わせ、音声と共に再生することによりテレビ放送の要約、あるいは映画の要約等を行うことができる。
また、上述では音声強調確率テーブルに格納した各音声小段落毎に求めた強調確率又は平静確率のいずれか一方に直接重み係数Wを乗算して重み付けを施すことを説明したが、強調状態を精度良く検出するためには重み係数Wに各音声小段落を構成するフレームの数F乗してWFとして重み付けを行うことが望ましい。
【0044】
つまり、式(8)及び式(10)で算出する条件付の強調確率Ps(e)は各フレーム毎に求めた強調状態となる確率の積を求めている。また平静状態となる確率Ps(n)も各フレーム毎に算出した平静状態となる確率の積を求めている。従って、例えば強調確率Ps(e)に重み付けを施すには各フレーム毎に求めた強調状態となる確率毎に重み付け係数Wを乗算すれば正しい重み付けを施したことになる。この場合には音声小段落を構成するフレーム数をFとすれば重み係数WはWFとなる。
この結果、フレームの数Fに応じて重み付けの影響が増減され、フレーム数の多い音声小段落ほど、つまり延長時間が長い音声小段落程大きい重みが付されることになる。
【0045】
但し、単に強調状態を判定するための抽出条件を変更すればよいのであれば各フレーム毎に求めた強調状態となる確率の積又は平静状態となる積に重み係数Wを乗算するだけでも抽出条件の変更を行うことができる。従って、必ずしも重み付け係数WをWFとする必要はない。
また、上述では抽出条件の変更手段として音声小段落毎に求めた強調確率Ps(e)又は平静確率Ps(n)に重み付けを施してPs(e)>Ps(n)を満たす音声小段落の数を変化させる方法を採ったが、他の方法として全ての音声小段落の強調確率Ps(e)と平静確率Ps(n)に関してその確率比Ps(e)/Ps(n)を演算し、この確率比の降順に対応する音声信号区間(音声小段落)を累積して要約区間の和を算出し、要約区間の時間の総和が、略所定の要約時間に合致する場合、そのときの音声信号区間を要約区間と決定して要約音声を編成する方法も考えられる。
【0046】
この場合、編成した要約音声の総延長時間が要約条件で設定した要約時間に対して過不足が生じた場合には、強調状態にあると判定するための確率比Ps(e)/Ps(n)の値を選択する閾値を変更すれば抽出条件を変更することができる。この抽出条件変更方法を採る場合には要約条件を満たす要約音声を編成するまでの処理を簡素化することができる利点が得られる。
上述では各音声小段落毎に求める強調確率Ps(e)と平静確率Ps(n)を各フレーム毎に算出した強調状態となる確率の積及び平静状態となる確率の積で算出するものとして説明したが、他の方法として各フレーム毎に求めた強調状態となる確率の平均値を求め、この平均値をその音声小段落の強調確率Ps(e)及び平静確率Ps(n)として用いることもできる。
【0047】
図28を用いて上述した要約率を自由に設定することができる音声処理装置の実施例を示す。この実施例では図24に示した音声強調状態要約装置の構成に要約条件入力部31と、音声強調確率テーブル32と、強調小段落抽出部33と、抽出条件変更部34と、要約区間仮判定部35と、この要約区間仮判定部35の内部に要約音声の総延長時間を求める総延長時間算出部35Aと、この総延長時間算出部35Aが算出した要約音声の総延長時間が要約条件入力部31で入力した要約時間の設定の範囲に入っているか否かを判定する要約区間決定部35Bと、要約条件に合致した要約音声を保存し、再生する要約音声保存・再生部35Cを設けた構成とした点を特徴とするものである。
【0048】
入力音声は図23で説明したように、フレーム毎に音声特徴量が求められ、この音声特徴量に従って強調確率計算部16と平静確率計算部17でフレーム毎に強調確率と、平静確率とを算出し、これら強調確率と平静確率を各フレームに付与したフレーム番号と共に記憶部12に格納する。更に、このフレーム列番号に音声小段落判定部で判定した音声小段落列に付与した音声小段落列番号が付記され、各フレーム及び音声小段落にアドレスが付与される。
この発明による音声処理装置では強調確率算出部16と平静確率算出部17は記憶部12に格納している各フレームの強調確率と平静確率を読み出し、この強調確率及び平静確率から各音声小段落毎に強調確率Ps(e)と平静確率Ps(n)とを求め、これら強調確率Ps(e)と平静確率Ps(n)を音声強調テーブル32に格納する。
【0049】
音声強調テーブル32には各種のコンテンツの音声波形の音声小段落毎に求めた強調確率と平静確率とが格納され、いつでも利用者の要求に応じて要約が実行できる体制が整えられている。利用者は要約条件入力部31に要約条件を入力する。ここで言う要約条件とは要約したいコンテンツの名称と、そのコンテンツの全長時間に対する要約率を指す。要約率としてはコンテンツの全長を1/10に要約するか、或は時間で10分に要約するなどの入力方法が考えられる。ここで例えば1/10と入力した場合は要約時間算出部31Aはコンテンツの全長時間を1/10した時間を算出し、その算出した要約時間を要約区間仮判定部35の要約区間決定部35Bに送り込む。
【0050】
要約条件入力部31に要約条件が入力されたことを受けて制御部19は要約音声の生成動作を開始する。その開始の作業としては音声強調テーブル32から利用者が希望したコンテンツの強調確率と平静確率を読み出す。読み出された強調確率と平静確率を強調小段落抽出部33に送り込み、強調状態にあると判定される音声小段落番号を抽出する。
強調状態にある音声区間を抽出するための条件を変更する方法としては上述した強調確率Ps(e)又は平静確率Ps(n)に確率比の逆数となる重み付け係数Wを乗算しW・Ps(e)>Ps(n)の関係にある音声小段落を抽出し、音声小段落を含む音声段落により要約音声を得る方法と、確率比Ps(e)/Ps(n)を算出し、この確率比を降順に累算して要約時間を得る方法とを用いることができる。
【0051】
抽出条件の初期値としては重み付けにより抽出条件を変更する場合には重み付け係数WをW=1として初期値とすることが考えられる。また、各音声小段落毎に求めた強調確率Ps(e)と平静確率Ps(n)の確率比Ps(e)/Ps(n)の値に応じて強調状態と判定する場合は初期値としてその比の値が例えばPs(e)/Ps(n)≧1である場合を強調状態と判定することが考えられる。この初期設定状態で強調状態と判定された音声小段落番号と開始時刻、終了時刻を表わすデータを強調小段落抽出部33から要約区間仮判定部35に送り込む。要約区間仮判定部35では強調状態と判定した強調小段落番号を含む音声段落を記憶部12に格納している音声段落列から検索し、抽出する。抽出した音声段落列の総延長時間を総延長時間算出部35Aで算出し、その総延長時間と要約条件で入力された要約時間とを要約区間決定部35Bで比較する。比較の結果が要約条件を満たしていれば、その音声段落列を要約音声保存・再生部35Cで保存し、再生する。この再生動作は強調小段落抽出部33で強調状態と判定された音声小段落の番号から音声段落を抽出し、その音声段落の開始時刻と終了時刻の指定により各コンテンツの音声データ或は映像データを読み出して要約音声及び要約映像データとして送出する。
【0052】
要約区間決定部35Bで要約条件を満たしていないと判定した場合は、要約区間決定部35Bから抽出条件変更部34に抽出条件の変更指令を出力し、抽出条件変更部34に抽出条件の変更を行わせる。抽出条件変更部34は抽出条件の変更を行い、その抽出条件を強調小段落抽出部33に入力する。強調小段落抽出部33は抽出条件変更部34から入力された抽出条件に従って再び音声強調確率テーブル32に格納されている各音声小段落の強調確率と平静確率との比較判定を行う。
強調小段落抽出部33の抽出結果は再び要約区間仮判定部35に送り込まれ、強調状態と判定された音声小段落を含む音声段落の抽出を行わせる。この抽出された音声段落の総延長時間を算出し、その算出結果が要約条件を満たすか否かを要約区間決定部35Bで行う。この動作が要約条件を満たすまで繰り返され、要約条件が満たされた音声段落列が要約音声及び要約映像データとして記憶部12から読み出され再生される。
【0053】
尚、上述では要約区間の開始時刻及び終了時刻を強調状態と判定された音声段落の開始時刻及び終了時刻で決定したが、コンテンツが映像付の場合は要約区間の開始時刻及び終了時刻の決定方法としては、上記した強調状態と判定した音声段落の開始時刻及び終了時刻の直近に存在するカット点(映像データに含まれる映像の切替り点、例えば特開平8−52924号公報記載の方法で検出する)を利用して要約区間の開始時刻及び終了時刻を決定してもよい。このように映像データのカット点を要約区間の開始時刻及び終了時刻に利用した場合は要約区間の切替りが映像の切替りに同期するため、視覚上からも要約部分が明確になり視認性を高めることができる。
以上により、音声データから音声要約を行うこと及びその要約率を自由に変更できることが理解できよう。この発明はこの音声要約方法を利用して音声会議録及び映像会議録を作成することができるデータ編集方法、データ編集装置及びデータ編集プログラムを提案するものである。
【0054】
(実施例1)
図1にこの発明の実施例1を示す。この実施例では会議の会場(官公庁、学校、研究機関、企業等)乃至はその近傍に会議サーバSAを設置し、この会議サーバSAによってこの発明によるデータ編集装置100を構成した実施例を示す。データ編集装置100は例えばインターネット、LAN、電話回線、BS、CS、CATV等のネットワーク108に接続され、ユーザ端末109はこのネットワーク108を通じてデータ編集装置100に自由にアクセスすることができる構成とした場合を示す。更にこの実施例ではネットワーク108に課金部110を接続し、この課金部110によってユーザ端末109のデータ編集装置100の利用に対して課金処理を施すことができる構成とした場合を示す。
データ編集装置100は会議音声・映像入力部101と、会議音声・映像データベース102と、会議録作成部103とによって構成される。会議音声・映像入力部101には会議音声・映像情報を入力する。会議音声・映像データベース102では会議音声・映像入力部101で得た会議音声情報もしくは映像情報をデータベース化する。
会議録作成部103は音声議事録作成部104と、テキスト議事録作成部105と、映像インデクシング部106と、会議インデクシングデータベース107とを具備して構成される。
【0055】
音声議事録作成部104は上述した音声要約方法を利用して会議の進行を編集し音声議事録を作成する。テキスト議事録作成部105は音声認識技術を利用してテキスト議事録を作成する。映像インデクシング部106は映像インデクシングを行い、会議インデクシングデータベース107では会議インデクシングデータベースを作成する。会議音声・映像データベース102ではデータベース化した会議音声・映像データと会議インデクシングデータベース107に格納したデータとを対応させ、マルチメディア会議録を作成する。このマルチメディア会議録をネットワーク108を経由してユーザ端末109に配信し、利用者がマルチメディア会議録を視聴する。課金部110はユーザ端末109の利用に対して課金処理を実行する。
【0056】
会議音声・映像データベース102には、ディジタル化された会議映像・音声データが保存されており、これらのデータはいかなる圧縮形式でもよく、また、圧縮されていなくてもよい。
図2は音声議事録作成部104における音声議事録の作成手順を示す。音声議事録作成手順は、音声要約ステップS301と、音声キーワード抽出ステップS302と、発話者特定ステップS303とからなる。会議映像がある場合映像付音声議事録となる。音声要約ステップS301では、音声波形から各音声小段落の強調状態となる確率と、平静状態となる確率を求め、強調状態となる確率が大きい音声小段落を発話の強調点として抽出し、この音声小段落を含む音声段落を聴取して意味の理解できる単位として抽出し、強調状態を含む音声段落をつなぎ合わせて要約音声を作成するために必要な時間情報を得る。音声要約方法については既に説明した如くである。
【0057】
映像付き音声、即ち音声信号と同期した映像信号も扱う場合には、音声要約区間に対応する映像信号区間を映像要約区間として記録する。時間情報即ち各音声要約区間の開始(始端)・終了(終端)時刻も対応させて記録することが好適である。
音声キーワード抽出ステップS302では、繰り返し、発話された言葉のうち、会議を象徴する単語を抽出する。キーワード抽出については、例えば、「標準パターンの任意区間によるスポッティングのためのReference Interval−free連続 DP(RIFCDP)」(伊藤 慶明、木下 次郎、小島 浩、関 進、岡 隆一、信学技報、SP95−34、1995−06)等に示されている。
【0058】
発話者特定ステップS303では、発話者認識、あるいは、マイク入力の情報を用いて発話者を抽出し、発話者の発話時間情報を得る。話者認識方法については、たとえば、「音響・音声工学」(古井 貞煕、近代科学社、電子・情報工学入門シリーズ2、p.211)等に示されている。音響チャネル(例えば通信回線を介す場合はアドレス)を手がかりに発話者を識別してもよい。通信回線を介す場合については実施例3(図12)において後述する。マイク入力の情報を用いる方法については、例えば、マイクロホンアレイを使えばよい。マイクロホンアレイについては、例えば、日本国特開平5−111090号公報、日本国特開平9−140000号公報等に示されている。単純にはアレイを構成する各マイクロホンに対応するチャネルをもって発話者を識別できる。マイクロホン間の音声到達時間から求められる位置情報によって発話者を識別してもよい。
【0059】
話者認識の場合、予め、会議参加者と対応づけて音声を登録しておき、マイク入力の情報を用いる場合は、会議参加者と対応づけてその位置情報を登録しておくことで、発話者名まで特定することができる。発話者名まで特定する必要が無い場合は、前記、会議参加者の音声の登録と、会議参加者の位置情報の登録は必要ない。音声議事録(映像付音声議事録)は主に音声要約ステップS301で作成する。また、音声キーワード抽出ステップS302のキーワードを発話する部分を、音声要約ステップS301で得られた結果に加えて、音声議事録(映像付音声議事録)を作成してもよい。
【0060】
図3は、テキスト議事録作成部105(図1)のテキスト議事録を作成する手順を示す。テキスト議事録作成部105は、音声認識ステップS401と、テキスト化処理ステップS402と、記録ステップS403とを実行する。テキスト化処理については、例えば、特開平5−233689号公報等に示されている。音声認識ステップS401では各要約区間での発話内容を音声認識し、その音声認識結果を利用してテキスト化処理ステップS402でテキスト情報に変換するディクテーション処理を行う。記録ステップS403では、テキスト化処理ステップS402で得られたテキスト情報に発話者情報又は音声入力チャネル情報と時刻情報を付加して例えば、ハードディスク、メモリ、フレキシブルディスク、MO等の記録媒体に格納される。
【0061】
図4は、その典型的な例であり、テキスト情報で示された発話内容が発話された時刻を記録している。音声認識方法については、例えば、日本国特開平8−6588号公報等に示されているもの以外にも使用可能である。図3に示したテキスト化処理ステップS402で、音声認識ステップS401で作成した音声認識結果をテキストに変換し、各要約区間での時間情報、即ち少なくともその開始時刻又は終了時刻のうち何れか一方を音声に対応付けて記録することにより、テキスト議事録を作成する。テキスト議事録は、前記の図4に示すように、時間情報を持っているため、この時間情報を用いて音声や映像を読み込むことにより利用者が希望する時刻や議事に対応した、音声・映像を再生して視聴させることができる。
【0062】
図5は、図1に示した映像インデクシング部106の映像インデクシングを作成する手順を示す。映像インデクシング部106は、カット点抽出ステップS501と、人物認識ステップS502と、カメラワーク認識ステップS503と、テロップ認識ステップS504とからなる。カット点抽出ステップS501では、映像の切替りを示すカット点を抽出し、その時間情報を得る。カット点抽出については、たとえば、特許第2839132号、特開平11−18028号等に示されている方法を用いることがある。人物認識ステップS502では映像の人物を類似映像認識し、あるいは、カメラの撮影位置情報を用いて映像の人物を特定し、その時間情報を得る。類似映像認識については、例えば、日本国特開平5−225344号公報等に示されている。人物名まで特定する場合は、予め、会議参加者の映像を登録しておくか、撮影位置と人物の関係を登録しておく。特に、人物名まで同定する必要がない場合は、前記映像登録と、位置と人物の関係の登録は必要ない。
【0063】
カメラワーク認識ステップS503では、例えば、各会議参加者を、順を追って映していく等のカメラワークを同定し、その時間情報を得る。カメラワーク認識については、例えば、特開平11−15953号、特開平11−259626号等に示されている。テロップ認識ステップS504では、映像中に含まれるテロップの文字を認識し、テロップが出現する時間情報を得る。テロップ認識については、例えば、特開平11−167583号、特開2000−181994に示されている。これらの各ステップS501、S502、S503、S504から映像インデクシングを得る。この映像インデクシングを、前記の音声議事録(映像付音声議事録)に、例えば、カット点等の時間情報を加えてもよい。例えば、テロップが出現する時間の会議映像が、前記の音声議事録(映像付音声議事録)作成部で抽出されなかった場合においても、音声議事録(映像付音声議事録)に含んでもよい。
【0064】
図1に示すネットワーク108はインターネット、LAN、電話回線、BS、CS、CATVのいずれかを問わない。例えば、インターネットプロバイダー等のネットワーク仲介者が運用してもよい。また、官公庁、学校、研究機関、企業等、それらの内部でのみマルチメディア会議録を視聴するのであってもよく、その場合、課金部110は必ずしも存在する必要はない。
ユーザ端末109はパーソナルコンピュータ、情報入出力可能な家電製品、携帯電話の何れでもよい。図6に、マルチメディア会議録のユーザーインターフェースの典型的な表示例を示す。表示欄DS801は、表示欄DS811の音声議事録(映像付音声議事録)と、表示欄DS810のテキスト議事録を表示させるボタンである。表示欄DS802は会議全体の時間を示すバーである。表示欄DS802の白抜き四角の左端が会議開始時刻を示し、右端が会議終了時刻を示している。表示欄DS802の黒色の四角は、後記する表示欄DS803の、画面領域の左端から右端までの時間を示している。表示欄DS803は、会議の重要部分を示す画面であり、図2に示した音声要約ステップS301によって同定する。表示欄DS803のグラデーションで色づけされた部分が、会議の重要部分である。グラデーションの濃さと重要度が比例して表示されており、図6では、黒に近づくにつれ、重要度が増す例である。利用者はどこが会議の重要部分であるか目視で確認、理解でき、マウス等の機器を用いて、表示部DS803のグラデーション部分を選択し、再生する。利用者がグラデーション部分の前後を視聴したい場合は、マウス等の機器を用いてグラデーション部分の前後を選択し、会議音声・映像を視聴する。例えば、再生、発話速度変換、停止、早送り、巻き戻し、次のグラデーション、前のグラデーション、表示範囲の拡大、表示範囲の縮小等を選択できる小画面を出現させ、マウス等の機器を用いて実行してもよい。その際、表示欄DS811の画面でユーザが選択した時刻の会議音声、映像を表示してもよく、会議音声・映像再生用の画面が新しく立ち上がってもよい。また、前記の表示欄DS802の黒四角を見ることで、表示欄DS803に表示される重要領域が、全体の会議の中で、どのあたりであるのか、例えば前半、中盤、後半等を視覚的に理解する。表示欄DS804は、会議のキーワードであり、図2に示した音声キーワード抽出ステップS302の、キーワード抽出の結果を表示する。図6に示す例では、キーワードは3つ抽出され、「利益」、「方針」、「営業」である。利用者は、会議終了後、このキーワードを閲覧することで、会議の議題を確認する。
【0065】
表示欄DS805、DS806、DS807、DS808、はそれぞれ映像インデクシングの結果を表示している。表示欄DS805はカット点を、表示欄DS806はテロップ認識を、表示欄DS807は人物認識を、表示欄DS808はカメラワークを表示している。表示欄DS805での四角は映像のカット点が出現する時刻を表示している。表示欄DS808のカメラワークの四角は、例えば、ズームイン、ズームアウト、パン等が生じる時刻に出現している。例えば、分かりやすくズームイン、ズームアウトの四角の色づけを変えてもよい。表示欄DS806の四角に対応する、テロップ認識の結果をマウス等でクリックすることで表示欄DS812の四角の内部に表示する。また、表示欄DS807の人物認識の結果も表示欄DS812の四角に表示する。表示欄DS809は、図2に示した発話者特定ステップS303の発話者特定の結果を表示している。表示欄DS809は、会議参加者の発話状態を可視化しており、利用者は、マウス等の機器を用いて表示欄DS809に表示されている四角をクリック等により、選択された発話区間である四角の左端から右端の時間の音声・映像を再生する。表示欄DS810はテキスト議事録であり、図3に示した音声認識ステップS401と、テキスト要約ステップS402のテキスト要約部で生成した結果を表示する。図6の例では利用者は、例えば、「時期営業方針説明」の項目をマウス等の機器を用いてクリックし、関連する部分の音声・映像の再生を行う。この音声・映像は要約部分であってもよいし、要約部分でなくてもよい。
【0066】
表示欄DS805、DS806、DS807、DS808、DS809は表示欄DS811に対応して移動する。つまり、表示欄DS811は音声議事録(映像付音声議事録)で、図1に示した会議インデクシングデータベース107と会議音声・映像データベース102で作成する。例えば、利用者は3分間の音声議事録(映像付音声議事録)を再生して表示する。或は、社長と副社長の発話のみから構成される音声議事録(映像付音声議事録)のように、複数話者から構成されるものでもよい。この場合、例えば表示欄DS801のボタンを押した直後に、全体の音声議事録(映像付音声議事録)か、特定話者の音声議事録(映像付音声議事録)かを選択する画面が出現し、利用者が選択した後、表示欄DS811の画面が出現してもよい。
【0067】
図7に、表示欄DS801のボタンを押した直後に出現する模式的な画面を示す。表示欄DS801−1で音声議事録(映像付音声議事録)の視聴を、視聴時間で設定するか選択する。例えば、図7では、表示欄DS801−1が選択されており、チェックされた左の丸印を表示する。選択した場合、表示欄DS801−2で、利用者の希望する視聴時間を入力する。図7では、180秒に設定している。表示欄DS801−3で音声議事録(映像付音声議事録)の視聴を、視聴シーンで設定するかを選択する。図7では、表示欄DS801−3を選択しておらず、左の丸印はチェックされていない。選択した場合は、表示欄DS801−4で、利用者の希望するシーン数を入力する。表示欄DS801−5で、特定話者で音声議事録(映像付音声議事録)を作成するか選択する。図7では、表示欄DS801−5を選択しており、左の丸印がチェックされている。表示欄DS801−6で、特定話者名を入力する。表示欄DS801−6の入力ボックスの数は、図6に示した表示欄DS809に表示した話者数と同数である。利用者が、希望する話者名を表示欄DS801−6で入力し、図7の例では、「人名1」、「人名2」…「人名6」から構成される音声議事録(映像付音声議事録)を作成する。前記選択を行った後、表示欄DS801−7の実行ボタンをマウス操作により押すと、選択に基づいて図6に示した表示欄DS811の音声議事録(映像付音声議事録)のインターフェースは、再生、停止、早送り、巻き戻し、一時停止、次の重要個所へ移動、前の重要個所へ移動等が可能となっている。また、発話速度変換等が行えてもよい。利用者が、音声議事録(映像付音声議事録)を視聴中に更に詳しく視聴したいと感じた場合は、例えば、マウス等の機器を用いて表示欄DS811(図6)の画面中をクリック等することで、後で再生する時刻を記録しておく。
【0068】
図8は、利用者が後で表示する時刻を示す画面の例である。表示欄DS811−1は利用者が、表示欄DS811の画面をクリック等した時刻である。図8の例では、例えば、単位は秒であり、前記動作を繰り返す毎に、表示欄DS811−1の行数は増加する。図8は、4行に渡って時刻が記録されており、利用者が4回、表示欄DS811の画面をクリックする等の動作を施して時刻を指定する例である。
表示欄DS811−2は、利用者がマウス等の機器を用いて選択した時刻を示す。マウスを用いている場合、マウスのクリックボタン等を押すことで、表示欄DS811−3に示す小画面S811−3が出現する。図8の例では、小画面S811−3は、「再生」と「移動」で構成される。例えば、利用者が、表示欄DS811−2の時刻「2526.123秒」から再度再生することや、表示欄DS803(図6)の画面を「2526.123秒」付近に移動させる。移動させた場合、利用者はその前後をマウス等の機器を用いて、選択して再生することで、再度、会議内容を視聴させる。その際、表示欄DS811の画面で会議音声・映像を視聴してもよく、あるいは、専用の画面を新たに生成し、その画面内で表示してもよい。
【0069】
図9に、図1に示した課金部110の実施例を示す。ステップS9A01で、利用者の、音声議事録(映像付音声議事録)視聴時間を初期化t=0とする。
ステップS9A02で、視聴からのマルチメディア会議録視聴依頼を受け、ステップS9A03で、利用者の希望する音声議事録(映像付音声議事録)視聴時間Tを得て、ステップS9A04で、会議録作成部103にマルチメディア会議録の配信を要求する。
ステップS9A05で、利用者の視聴が開始されたか監視し、開始された場合、ステップS9A06で、利用者の視聴時間を計測する。ステップS9A07で、利用者の視聴が終了したかを監視し、終了した場合、ステップS9A08で、視聴時間tを計算し、ステップS9A09で、視聴時間に対応する対価情報を視聴者の金融口座の残高情報から控除する課金処理を行う。
【0070】
以下、60分の会議を、3分間視聴する場合の実施例について述べる。実施例では、60分間視聴した際の、利用金額を100円とする。利用者は、全体の1/20を視聴したので、利用料金は5円である。また、図9の例の応用例として、視聴時間にかかわらず、利用者が設定した時間T分の対価情報についての課金処理を行う課金部であってもよい。また、音声議事録(映像付音声議事録)の視聴時間でなく、図6で示したマルチメディア会議録の視聴時間に対して課金してもよい。
図10に課金部110の他の実施例を示す。ステップS9B01で、利用者の、音声議事録(映像付音声議事録)視聴シーンを初期化P=0とする。前記、視聴シーンとは音声議事録(映像付音声議事録)作成のために、元の会議音声・映像から切り出した各々を意味する。
【0071】
ステップS9B02で、視聴者からの音声議事録(映像付音声議事録)視聴依頼を受け、ステップS9B03で利用者の希望する視聴シーン数Pを得て、ステップS9B04で、マルチメディア会議録作成部に音声議事録(映像付音声議事録)の配信を要求する。
ステップS9B05で、利用者の視聴が開始されたか監視し、開始された場合、ステップS9B06で視聴シーン数P=1とする。
ステップS9B07で利用者が視聴している音声議事録(映像付音声議事録)のシーンがp=1のシーンと同じであるか監視し、次のシーンに移行していれば、ステップS9B08で視聴シーンPの数を一つ増加させる。移行していなければ、ステップS9B09で利用者が視聴を終了したか監視し、視聴中であればステップS9B06に戻る。
【0072】
前記、ステップS9B06、ステップS9B07、ステップS9B08、ステップS9B09を繰り返す。ステップS9B09で利用者が視聴を終了した場合、ステップS9B10で視聴シーン数Pを計算し、ステップS9B11で利用者の金融口座の残高から、シーン数Pに応じた対価情報を控除する処理を行う信号を発する。
以下、100シーンから構成される会議を、10シーンだけ視聴する場合の実施例について述べる。実施例では、100シーン視聴した際の、利用金額を100円とする。利用者は、全体の1/10を視聴したので、利用料金は10円である。また、図10の例の応用例として、視聴シーン数にかかわらず、利用者が設定したシーン数P分の対価情報についての課金処理を行ってもよい。
【0073】
また、その他の課金の例として、月額使用料を設定してもよく、また、通信した情報量(バイト数)に応じて課金処理を行ってもよい。
この結果から明らかな様に、従来の技術に比べて、主として音声要約技術、キーワード抽出技術、映像インデクシング技術を用いることで、音声議事録(映像付音声議事録)を作成することが可能となり、音声認識不可能な音声に対しても、マルチメディア会議録を作成することが可能となる改善があった。また、利用者の希望する時間、もしくはシーン数で音声議事録(映像付音声議事録)を視聴でき、会議終了後に利用者が会議内容を短時間で確認することが可能となる改善があった。
また、利用者が希望する話者から構成される音声議事録(映像付音声議事録)を視聴することが可能となる改善があった。また、音声議事録(映像付音声議事録)再生中にマークすることで、更に会議部分の詳細を視聴することが可能となる改善があった。また、音声要約の結果得られた会議の重要個所を可視化することで利用者はどこが重要かを目視で確認することが可能となる改善があった。また、会議の雰囲気、発言のニュアンス等を含む音声議事録(映像付音声議事録)を見ることで、実際の会議音声(映像)を視聴することができ、テキスト以外の議事録を閲覧することが可能となる改善があった。
【0074】
また、発言者を特定することから、会議参加者の参加性を視覚的に確認することが可能とする改善があった。また、マルチメディア会議録をユーザ端末109との間で共有することが可能となり、会議参加者がノートを取る必要と、議事録を作成する必要がなくなる改善があった。また、マルチメディア会議録を視聴することで、会議中に聞き逃した重要個所を、会議終了後に聞くことが可能となる改善があった。また、利用者が会議に参加していない場合においても、マルチメディア会議録を閲覧することで参加した場合と同等の理解が得られる改善があった。また、マルチメディア会議録作成のために、人手による編集作業を必要としない改善があった。
【0075】
(実施例2)
図11に、実施例1の変形例として、実施例2を提案する。この実施例では会議サーバSAには会議音声・映像入力部101と、会議音声・映像データベース102のみを有し、会議録作成部103を外部に設けた例を示す。つまり、会議作成部103はネットワーク108を介して会議サーバSAと接続し、会議サーバSAは会議録の作成を希望する場合にのみ会議録作成部103に会議音声・映像情報を会議音声・映像データベース102から送り込み、会議録作成部103に会議録の作成を要求すればよい。
従って、この実施例によれば会議録作成部103は複数の会議サーバSAからの要求に対して会議録の作成を行うことができる。この結果各会議サーバSAに会議録作成部103を配備しなくて済むことが改善された。
【0076】
(実施例3)
図12は実施例3を示す。この実施例では会議音声・映像入力部101と、会議音声・映像データベース102と、会議録作成部103の3者を全てネットワーク108を介して接続した構成とした場合を示す。
この構成とした場合には、複数の会議音声・映像入力部101をネットワーク108を介して会議音声・映像データベース102に接続することができる。上記のマルチメディア会議録の作成において各地点から入力された音声や映像等を各地点のアドレスに対応づけて記録もしくは編集することにより、テレビ会議のような多地点会議に適用することができる。このように多地点会議においても、会議録作成に人手を必要とせずアドレスごとに入力情報が管理される。
【0077】
(実施例4)
図13に、図8の特定話者で音声議事録(映像付音声議事録)を作成する応用例としての話者毎に重み付けをすることによる音声議事録(映像付音声議事録)を作成する実施例4について述べる。ここで予め発話者毎の要約率を設定し、話者ごとに要約音声区間を定める。つまり、例えば発話者毎の音声信号をフレーム毎に分析した前記特徴量に音声信号をフレーム毎に分析した特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、強調状態での出現確率に基づいて強調状態となる確率と、強調状態となる確率の平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定し、各発話者毎に仮判定した要約区間の時間の総和、又は要約率として音声信号全区間の時間と要約区間の時間の総和に対する比率を算出し、要約区間の時間の総和が略所定の要約時間に、又は要約率が略所定の要約率となる所定の係数を算出して発話者毎の要約区間を決定する。
【0078】
また実施例4では、図13に示すステップSIV1の重み付け部と、ステップ
IV2の音声議事録(映像付音声議事録)作成部から成る。ステップSIV2の音声議事録(映像付音声議事録)作成部は、図1に示した音声議事録作成部104と、映像インデクシング部106で生成される各議事録の生成原理と同じである。例えば、企業の役員会議の出席者が、社長、副社長、専務、常務、取締役の5人であった場合の実施例について述べる。
【0079】
図14に重み付けしない音声議事録(映像付音声議事録)の例を示す。例えば、役員会議が2時間あり、音声議事録(映像付音声議事録)が19シーン、全10分から構成されていたとする。図14の例では、社長が3シーン、1分10秒を占めている。重み付けをしなければ、図14の構成で、時系列に並び替えたものを音声議事録(映像付音声議事録)として利用者は視聴する。重み付けをする場合、例えば、図15に示す画面を用いる。ステップSIV101は、図2に示したステップS303の発話者特定処理で得られた発話者名を示す。ステップSIV102は、利用者が設定する各発話者の重み付け入力画面である。図15の例では、社長70%、副社長10%、専務0%、取締役20%としている。この場合、音声議事録(映像付)議事録の再生時間の占める割合を、社長70%、副社長10%、取締役20%で構成する。典型的な例を図16に示す。例えば、重み付けをしない音声議事録(映像付音声議事録)の再生時間が10分であった場合、7分を社長、副社長を1分、取締役を2分で構成するように、図2に示したステップS301の音声要約処理とステップS302の音声キーワード抽出処理と図1に示した映像インデクシング部106の抽出条件を操作すればよい。その他の方法としては、重み付けをしない音声議事録(映像付音声議事録)での社長の再生時間1分10秒が全体の70%になるように副社長、取締役の抽出シーンを削減して調整し、専務、常務の抽出シーンを0にしてもよい。あるいは、抽出シーン数を基準に社長70%、副社長10%、取締役20%にしてもよい。但し、上述した方法で発話者ごとに発話区間の音声信号や映像信号が区別されていることが必須である。
前記、重み付けによる音声議事録(映像付音声議事録)を含むマルチメディア会議録は、図1、図11、図12の何れの形態にも適用することができる。
この結果から明らかなように、従来の技術に比べて、利用者が希望する発話者から構成される音声議事録(映像付音声議事録)を視聴させることが可能になる改善があった。
【0080】
尚、上述した実施例1では会議音声・映像入力部101と、会議音声・映像データベース102と、会議録作成部103の全てを会議サーブSAに構築した例を、また、実施例2では会議音声・映像入力部101と会議音声・映像データベース102を会議サーバSAに構築した例を説明したが、実施例3に示したように、これら3者は全て分離して配置することができることから、それぞれが独立した会議サーバに格納されてもよい。また、これら3者の何れか一つ又は全部をユーザ端末109の内部に構築することもできる。会議サーバSA又はユーザ端末109にこれら3者の中の1つ又は全部を構築する場合、その構築はプログラムによって実現される。
つまり、以上説明したこの発明によるデータ編集方法は計算機上で本発明のデータ編集プログラムを実行して実現できる。ここで当該プログラムは通信回線を介してダウンロードしたり磁気ディスクやCD−ROM等の記録媒体からCPUのような処理手段にインストールして実行される。
【0081】
【発明の効果】
以上説明したように、音声要約技術を用いることで音声認識不可能な音声に対しても、マルチメディア会議録が作成できる効果がある。また、主として音声要約技術、キーワード抽出技術、映像インデクシング技術を用いることで、音声議事録(映像付音声議事録)を作成できる効果がある。また、利用者の希望する時間、もしくはシーン数で音声議事録(映像付音声議事録)を視聴でき、会議終了後に利用者が会議内容を短時間で確認できる利点がある。また、利用者が希望する話者から構成される音声議事録(映像付音声議事録)を視聴できる利点がある。また、音声議事録(映像付音声議事録)を視聴中に視聴者が興味を持った部分にマークを付すことで、更に会議部分の詳細を視聴できる利点がある。
【0082】
また、音声要約の結果得られた会議の重要個所を可視化することで、利用者はどこが重要かを目視で確認できる利点がある。また、会議の雰囲気、発言のニュアンス等を含む音声議事録(映像付音声議事録)を見ることで、実際の会議音声(映像)を視聴することができ、テキスト以外の議事録を閲覧できる効果がある。また、発話者を特定することから、会議参加者の参加性を視覚的に確認できる利点がある。また、マルチメディア会議録をユーザ端末間で共有することが可能となり、会議参加者がノートを取る必要と、議事録を作成する必要が無くなる利点がある。
【0083】
また、マルチメディア会議録を視聴することで、会議中に聞き逃した重要個所を、会議終了後に聞くことができる利点がある。また、利用者が会議に参加していない場合においても、マルチメディア会議録を閲覧することで参加した場合と同等に理解できる効果がある。
また、利用者は会議音声・映像を保存しておくデータベースを構築し、例えば、DATや、DVD−ROM等の記録媒体に会議音声・映像を録音・録画して会議音声・映像データベースに保存して必要に応じて読み出すことでマルチメディア会議を視聴することが可能となり、利用者自らマルチメディア会議録を作成する必要がない。
【0084】
また、利用者は会議音声・映像を入力し、ネットワークを介して会議サーバに送信して、例えば、テレビ会議のような多地点会議により、マルチメディア会議録作成に人手を省ける。また、利用者が希望する発話者から構成される音声議事録(映像付音声議事録)を発話者ごとの所望の再生時間比で視聴できる利点があった。
【図面の簡単な説明】
【図1】この発明の、データ編集装置の実施例1としての基本構成を示すブロック図。
【図2】図1に示す音声議事録作成部において、音声要約し、音声キーワードを抽出し、発話者を特定する手順の例を示す流れ図。
【図3】図1に示すテキスト議事録作成部において、音声認識し、テキスト化処理する手順の例を示す流れ図。
【図4】図3に示す音声認識処理において、音声認識結果を、時間情報と発話内容で記録される例を示す図。
【図5】図1に示す映像インデクシング部において、カット点抽出し、人物認識し、カメラワーク認識し、テロップ認識する手順の例を示す流れ図。
【図6】図1に示すユーザ端末において、ユーザインターフェースを模式的に示す図。
【図7】図6に示すボタンを押した直後に出現する画面を模式的に示す図。
【図8】図6に示す表示欄DS811をクリックする等して、後で聞きなおしたい時刻を記録しておく手順の例を示す図。
【図9】図1に示す課金部の動作を説明するための図。
【図10】図9と同様の図。
【図11】この発明の、データ編集装置の変形実施例を説明するためのブロック図。
【図12】この発明の更に他の変形実施例を説明するためのブロック図。
【図13】この発明の更に他の変形実施例を説明するための流れ図。
【図14】図13に示した実施例を説明するための図。
【図15】図13に示した実施例に重み付けを設定する様子を説明するための図。
【図16】図13に示した実施例に重み付けを施した結果を説明するための図。
【図17】この発明に用いる音声要約方法の手順を説明するための流れ図。
【図18】図17に示した音声要約方法で用いる音声小段落抽出及び音声段落抽出方法の手順を説明するための流れ図。
【図19】図18で説明した音声小段落及び音声段落抽出方法を模式的に示す図。
【図20】音声小段落の発話状態判定方法の手順を説明するための流れ図。
【図21】音声の発話状態を判定するためのコードブックを作成する手順を説明するための流れ図。
【図22】図21で説明したコードブックの内部の様子を説明するための図。
【図23】音声波形をフレーム分割し、特徴量を求める状況を模式的に示す波形図。
【図24】音声波形から強調状態と平静状態とを判定する装置の実施例を示すブロック図。
【図25】図24に示した装置において要約率を自由に変化させる方法を説明するための流れ図。
【図26】要約率を自由に変化させる場合に用いる音声強調確率テーブルの作成手順を説明するための流れ図。
【図27】図26で説明した手順に従って作成した音声強調確率テーブルの様子を説明するための図。
【図28】要約率を自由に変更することができる音声要約装置の実施例を説明するためのブロック図。
【符号の説明】
100 データ編集装置
101 会議音声・映像入力部
102 会議音声映像データベース
103 会議録作成部
104 音声議事録作成部
105 テキスト議事録作成部
106 映像インデクシング部
107 会議インデクシングデータベース
108 ネットワーク
109 ユーザ端末
110 課金部

Claims (9)

  1. チャネル又は発話者毎の音声信号の要約区間に基づくデータにチャネル情報及び発話者情報のうち少なくとも何れか一方を付加して、時刻順に記録するデータ編集方法において、
    少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率とを対応して格納した符号帳を用い、
    前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率を求め、
    前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
    前記強調状態となる確率が所定の確率よりも大きい音声信号区間を前記要約区間と判定することを特徴とするデータ編集方法。
  2. 前記音声信号要約区間を音声認識してテキストに変換し、前記テキストを記録することを特徴とする、請求項1記載のデータ編集方法。
  3. 前記音声信号と同期入力した映像信号のうち前記音声信号の要約区間に対応する映像信号区間を、前記音声信号の要約区間と対応付けて記録することを特徴とする請求項1記載のデータ編集方法。
  4. 前記音声信号の要約区間の開始時刻情報と終了時刻情報のうち少なくとも何れか一方を、前記音声信号の要約区間と対応付けて記録することを特徴とする請求項3記載のデータ編集方法。
  5. 前記音声信号の要約区間は、前記符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量に対応して、強調状態での出現確率及び平静状態での出現確率とを格納
    前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態の出現確率を求め、
    前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
    前記平静状態での出現確率に基づいて平静状態となる確率を算出し、
    前記強調状態となる確率の前記平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定し、
    要約区間の時間の総和、又は要約率として前記音声信号全区間の時間の前記要約区間の時間の総和に対する比率を算出し、
    前記要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる前記所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定することを特徴とする請求項1乃至4の何れかに記載のデータ編集方法。
  6. 前記音声信号の要約区間は、前記符号帳が少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量に対応して、強調状態での出現確率及び平静状態での出現確率とを格納
    前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
    前記強調状態での出現確率に基づいて強調状態となる確率を算出し、
    前記平静状態での出現確率に基づいて平静状態となる確率を算出し、
    前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間毎に算出し、
    前記確率比の降順に前記確率比に対応する音声信号区間の時間を累積して要約区間の時間の総和を算出し、
    前記要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる要約時間が得られる音声信号区間を各チャネル毎又は各発話者毎の要約区間と決定することを特徴とする請求項1乃至4の何れかに記載のデータ編集方法。
  7. チャネル又は発話者毎の音声信号の要約区間にチャネル情報及び発話者情報のうち少なくとも何れか一方を付加して、時刻順に記録するデータ編集装置において、
    少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率とを対応して格納した符号帳と、
    この符号帳を用いて音声符号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
    前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、
    前期平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、
    前記強調状態となる確率の前記平静状態となる確率に対する確率比が所定の係数より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、
    要約区間の時間の総和が略所定の要約時間に、又は前記要約率が略所定の要約率となる前記所定の係数を算出して各チャネル毎又は各発話者毎の要約区間を決定する要約区間決定部と、
    を有することを特徴とするデータ編集装置。
  8. チャネル又は各発話者毎の音声信号の要約区間に前記チャネル情報及び発話者情報のうち少なくとも何れか一方を付加して時刻順に記録するデータ編集装置において、
    少なくとも基本周波数又はピッチ周期、パワー、動的特徴量の時間変化特性、又はこれらのフレーム間差分を含む特徴量と強調状態での出現確率と平静状態での出現確率とを対応して格納した符号帳と、
    この符号帳を用いて、前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
    前記音声信号をフレーム毎に分析した前記特徴量に対応する強調状態での出現確率と平静状態での出現確率を求め、
    前記強調状態での出現確率に基づいて強調状態となる確率を算出する強調状態確率計算部と、
    前記平静状態での出現確率に基づいて平静状態となる確率を算出する平静状態確率計算部と、
    前記強調状態となる確率の前記平静状態となる確率に対する確率比を音声信号区間毎に算出し、前記確率比が所定の確率比より大きい音声信号区間を要約区間と仮判定する要約区間仮判定部と、
    要約区間の時間の総和、又は要約率として前記音声信号区間の時間の前記要約区間の時間の総和に対する比率を算出し、
    前記要約区間の時間の総和が所定の要約時間に、又は前記要約率が所定の要約率となる前記所定の確率比を算出して各チャネル又は各発話者毎の要約区間を決定する要約区間決定部と、
    を有することを特徴とするデータ編集装置。
  9. コンピュータが読み取り可能な符号で記述され、コンピュータに前記請求項1乃至6記載の何れかに記載のデータ編集方法を実行させることを特徴とするデータ編集プログラム。
JP2002060728A 2002-03-06 2002-03-06 データ編集方法、データ編集装置、データ編集プログラム Expired - Lifetime JP3621686B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002060728A JP3621686B2 (ja) 2002-03-06 2002-03-06 データ編集方法、データ編集装置、データ編集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002060728A JP3621686B2 (ja) 2002-03-06 2002-03-06 データ編集方法、データ編集装置、データ編集プログラム

Publications (2)

Publication Number Publication Date
JP2003255979A JP2003255979A (ja) 2003-09-10
JP3621686B2 true JP3621686B2 (ja) 2005-02-16

Family

ID=28669986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002060728A Expired - Lifetime JP3621686B2 (ja) 2002-03-06 2002-03-06 データ編集方法、データ編集装置、データ編集プログラム

Country Status (1)

Country Link
JP (1) JP3621686B2 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005069171A1 (ja) * 2004-01-14 2005-07-28 Nec Corporation 文書対応付け装置、および文書対応付け方法
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
JP4509590B2 (ja) * 2004-02-05 2010-07-21 トッパン・フォームズ株式会社 音声認識システムおよびそのプログラム
JP4439462B2 (ja) * 2005-11-29 2010-03-24 株式会社東芝 情報提示方法、情報提示装置及び情報提示プログラム
JP4346613B2 (ja) * 2006-01-11 2009-10-21 株式会社東芝 映像要約装置及び映像要約方法
US20100031142A1 (en) * 2006-10-23 2010-02-04 Nec Corporation Content summarizing system, method, and program
JP2008172582A (ja) * 2007-01-12 2008-07-24 Ricoh Co Ltd 議事録作成再生装置
JP4984948B2 (ja) * 2007-02-15 2012-07-25 船井電機株式会社 番組記録再生装置
JP4973352B2 (ja) * 2007-07-13 2012-07-11 ヤマハ株式会社 音声処理装置およびプログラム
JP4909854B2 (ja) * 2007-09-27 2012-04-04 株式会社東芝 電子機器および表示処理方法
FR2952492B1 (fr) * 2009-11-10 2012-03-30 Alcatel Lucent Procede de diffusion d'un flux de donnees et procede d'interaction entre utilisateurs
JP2010277613A (ja) * 2010-09-14 2010-12-09 Future Vision:Kk 会議内容記録再生方法
JP5330551B2 (ja) * 2012-01-13 2013-10-30 株式会社東芝 電子機器および表示処理方法
JP5910379B2 (ja) * 2012-07-12 2016-04-27 ソニー株式会社 情報処理装置、情報処理方法、表示制御装置および表示制御方法
JP5956913B2 (ja) * 2012-11-14 2016-07-27 日本電信電話株式会社 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体
JP6095381B2 (ja) * 2013-01-25 2017-03-15 キヤノン株式会社 データ処理装置、データ処理方法及びプログラム
JP2019176375A (ja) * 2018-03-29 2019-10-10 株式会社アドバンスト・メディア 動画出力装置、動画出力方法および動画出力プログラム
JP6683231B2 (ja) * 2018-10-04 2020-04-15 ソニー株式会社 情報処理装置および情報処理方法
JP7096626B2 (ja) * 2020-10-27 2022-07-06 株式会社I’mbesideyou 情報抽出装置
JP7393000B2 (ja) * 2020-10-27 2023-12-06 Necプラットフォームズ株式会社 遠隔会議装置、システム、方法及びプログラム
CN113378576B (zh) * 2021-05-08 2023-05-26 重庆航天信息有限公司 食品安全数据挖掘方法
JP7369739B2 (ja) * 2021-06-28 2023-10-26 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画要約装置、動画要約方法、及びプログラム
JP7486812B2 (ja) 2021-09-28 2024-05-20 ミチビク株式会社 情報処理方法、情報処理装置およびプログラム
KR102397793B1 (ko) * 2022-01-20 2022-05-13 주식회사 잡앤피플연구소 채용 시스템
CN115396627A (zh) * 2022-08-24 2022-11-25 易讯科技股份有限公司 一种录屏视频会议的定位管理方法及系统

Also Published As

Publication number Publication date
JP2003255979A (ja) 2003-09-10

Similar Documents

Publication Publication Date Title
JP3621686B2 (ja) データ編集方法、データ編集装置、データ編集プログラム
US11115541B2 (en) Post-teleconference playback using non-destructive audio transport
US10334384B2 (en) Scheduling playback of audio in a virtual acoustic space
US20200127865A1 (en) Post-conference playback system having higher perceived quality than originally heard in the conference
US10522151B2 (en) Conference segmentation based on conversational dynamics
US10516782B2 (en) Conference searching and playback of search results
US10057707B2 (en) Optimized virtual scene layout for spatial meeting playback
US11076052B2 (en) Selective conference digest
EP3254279B1 (en) Conference word cloud
JP3803302B2 (ja) 映像要約装置
JP2003288096A (ja) コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
JP3803301B2 (ja) 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム
JP3754386B2 (ja) 音声着信方法、音声着信装置、音声着信プログラム
CN114242036A (zh) 角色配音方法、装置、存储介质及电子设备
JP2003255983A (ja) コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041118

R151 Written notification of patent or utility model registration

Ref document number: 3621686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071126

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101126

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101126

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111126

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111126

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term