JP4011573B2 - 会議構造把握支援方法、装置、プログラム、及び該プログラムを格納した記録媒体 - Google Patents

会議構造把握支援方法、装置、プログラム、及び該プログラムを格納した記録媒体 Download PDF

Info

Publication number
JP4011573B2
JP4011573B2 JP2004264405A JP2004264405A JP4011573B2 JP 4011573 B2 JP4011573 B2 JP 4011573B2 JP 2004264405 A JP2004264405 A JP 2004264405A JP 2004264405 A JP2004264405 A JP 2004264405A JP 4011573 B2 JP4011573 B2 JP 4011573B2
Authority
JP
Japan
Prior art keywords
conference
information
participant
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004264405A
Other languages
English (en)
Other versions
JP2006081005A (ja
Inventor
彰 中山
真道 細田
稔 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004264405A priority Critical patent/JP4011573B2/ja
Publication of JP2006081005A publication Critical patent/JP2006081005A/ja
Application granted granted Critical
Publication of JP4011573B2 publication Critical patent/JP4011573B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、遠隔地にいる参加者が通信回線等を介して会議を行う遠隔会議システム(電子会議システムともいう)に関し、特に、遠隔会議における議事録作成支援、議事進行支援、欠席者補助、途中参加者補助などを実現するために、遠隔会議における会議構造の把握を支援する会議構造把握支援方法及び装置に関する。
遠隔会議(電子会議)を録音・録画するための蓄積方法や、録音・録画された遠隔会議に対して検索を行うための方法は、古くから知られており、用いられている。
例えば、特開2000−222425号公報(特許文献1)には、蓄積された会議音声データとその音声認識結果とを記憶装置上でリンクさせて保存しておき、音声認識結果を検索することにより、リンクされた音声を再生することができる音声検索システムが開示されている。しかしながら、この技術では、会議中における特定の話題の箇所を再生したいという場合には、記憶装置に保存されたデータに対してどこからどこまでがどの話題に関するものなのか、という指定を予め行っておく必要がある。そのような指定がなされていない場合(録音しただけの会議音声データから音声認識結果が生成されている場合など)には、議事録作成や欠席者支援のためなどに会議の録音データを再生しようとしたときに、会議での所望の話題の箇所を的確に探し出すことができず、会議を効率よく再生できない。
特許第3266959号明細書(特許文献2)には、音声画像の記録と入力手段(電子ペン)などからの入力をインデックス手段として、そのインデックスから蓄積された会議中の音声・映像を検索する発明が開示されている。この発明では、電子ペンなどの入力によってインデックス情報が与えられなかった場合には、うまく会議録を構造化することができない、という問題点がある。
特開平8−317365号公報(特許文献3)には、会議発言者の音声データを、そのデータの記憶量の大きさに応じた長さで時系列的に表示する発明が開示されている。しかしながら、この発明は、会議の構造(会議における話題の切れ目などの位置)を明示できるものではない。
"Speaker Segmentation for Browsing Recorded Audio," CHI95 Proceedings, pp.212-213 (1995)(非特許文献1)も、同様に、発言構造を表示する技術を開示しているが、この技術によっても、会議の構造を明示することはできない。
特開2000−222425号公報 特許第3266959号明細書 特開平8−317365号公報 "Speaker Segmentation for Browsing Recorded Audio," CHI95 Proceedings, pp.212-213 (1995)
上述したように、会議の音声データに対して音声認識を行って文字化したり、会議中の音声データを時系列に表示したり、あるいは発言構造を明示する技術は存在するものの、会議における話題の転換などを検出して、会議の構造を明示し、議事録作成支援や欠席者支援を行うことができる技術は存在していない。音声認識技術を用い、構造化を行う技術はあるが、会議での発言のような場合には、原稿を読み上げる場合などとは異なって、発話者自体の発話のなまけ(や省略)、話速の大規模な変動があるので、会議における話し言葉の認識には相当な困難が伴うことが知られている。
そこで本発明の目的は、遠隔会議(電子会議)における、議事録作成・適切な会議データ蓄積媒体へのアクセス、会議欠席者への会議データの提供、途中参加者への補助を効率的に行うことができる、会議構造把握支援方法及び装置を提供することにある。
本発明の会議構造把握支援方法は、遠隔会議システムにおける会議構造把握支援方法であって、会議中に発生する各参加者のマルチメディア会議データを、メディア及び参加者ごとにランダムアクセス可能な時系列形式で蓄積する段階と、会議進行と同時に、会議の開始時刻から現時点までもしくは会議の終了時までのマルチメディア会議データを解析して、会議構造情報を抽出する段階と、を有する。
本発明の会議構造把握支援装置は、遠隔会議システムの会議データから会議構造情報を抽出する会議構造把握支援装置であって、会議中に発生する各参加者のマルチメディア会議データをメディア及び参加者ごとにランダムアクセス可能な時系列形式で蓄積する手段と、会議進行と同時に、会議の開始時刻から現時点までもしくは会議の終了時までのマルチメディア会議データを解析して、会議構造情報を抽出する手段と、を有する。
本発明では、マルチメディア会議データである発話情報、映像情報・共有資料を蓄積する手段と、その蓄積されたデータ及び蓄積されたデータに対する特徴量抽出結果や統計量を一覧して可視化する手段と、を設けることにより、会議欠席者や途中参加者の議事内容への理解を助け、議事内容へのアクセスを容易にすることができるようになる。
本発明は、マルチメディア会議データを可視化して表示するともに、話題の区切れを抽出してそれを示すので、議事録作成、会議検索、適切な会議データ蓄積媒体へのアクセス(閲覧)、途中参加への補助などを高速にあるいは効率よく行うことができるようになる、という効果がある。
次に、本発明の好ましい実施の形態について、図面を参照して説明する。図1は、本発明の実施の一形態の遠隔会議システム(電子会議システム)における会議構造把握支援装置の構成の概要を示す図である。
ネットワーク10には、サーバ11と複数のクライアント端末12とが接続している。サーバ11は、本発明に基づく会議構造把握支援装置として実装されている。クライアント端末12は、典型的にはパーソナルコンピュータ(PC)などによって構成されるものであり、図では、クライアントA、クライアントB、クライアントC、…が示されている。クライアント端末12は、通常は、遠隔会議の参加者ごとに設けられ、参加者が遠隔会議に参加するために使用される。クライアント端末12は、大別すると、ネットワーク10とのインタフェースとなるネットワーク管理部21と、ユーザからの入力を受け付けるユーザ入力部22と、会議の映像や音声などが入力する情報入力部23と、会議の映像や音声などを出力する情報出力部24と、を備えている。会議の閲覧のためには用いられないクライアント端末には、情報出力部24を設ける必要はない。逆に、会議の閲覧のために専ら使用されるクライアント端末であれば、情報入力部23を設ける必要はない。
クライアント端末12の内部構成が図2に示されている。典型的にはPCで構成されるクライアント端末12は、マイクロホン、ビデオカメラ、キーボード、マウスなどのポインティングデバイスを備えている。そしてユーザ入力部22には、キーボードからの入力を受け付けるキーボード入力管理部41と、マウスなどのポインティングデバイスからの入力を受け付けるマウス入力管理部42と、会議における共有資料に関する入力を受け付ける共有資料入力管理部43とが設けられている。遠隔会議の進行中には、キーボード入力部41には、チャットのデータが入力する。また、会議の閲覧中には、時間指定入力や再生指令が、キーボード入力管理部41やマウス入力管理部42に入力する。情報送信部23には、ネットワークを介して各種情報を送信するために符号化を行う符号化部44と、呼制御を行う呼制御部45と、時間管理を行う時間管理部46と、カメラ入力を受け付ける映像入力部47と、マイクロホン入力を受け付ける音声入力部48と、入力した音声における発話状態を検出するVOD(発話検出(音声アクティビティ検出))部49と、入力した画像及び音声を一時的に蓄積する画像音声一時蓄積部50と、を備えている。符号化部44には、呼制御部45及び時間管理部46からの信号が入力し、画像音声一時蓄積部50に蓄積された画像(映像)データ及び音声が入力し、さらには、ユーザ入力部22の各入力管理部41〜43で受け付けた入力情報が入力する。なお、情報受信部24には、後述するように、復号部38及び表示装置39が設けられている。
このようなクライアント端末12では、会議参加者からの映像情報及び音声情報が映像入力部47及び音声入力部48にそれぞれ入力され、会議参加者からのチャット入力、マウスによる共有資料への書込み、ポインティングなどが、ユーザ入力部22の各入力管理部41〜43に入力する。これらの入力されたそれぞれのモダリティの情報は、ネットワーク管理部21を介して、クライアント端末12から、LAN、インターネットなどのネットワーク10に送出され、サーバ11に到着する。
サーバ11には、図1に示すように、ネットワーク10とのインタフェースとなるネットワーク部31と、マルチメディア会議データを構成するそれぞれの情報を蓄積するための蓄積部32と、映像・音声・チャット入力、マウスによる共有資料への書込み情報及びポインティング情報についてはミキシングなどの処理を行って再び各クライアント端末12に配信する会議情報配信部33と、会議における話題の区切れなどの会議構造を検出して会議構造情報を生成する会議構造情報生成部34と、を備えている。本実施形態では、クライアント端末12から送信された発話検出情報をもとに、話題の区切れ等を検出し、そのような会議構造をユーザの目に見える形に表現して(会議構造情報の可視化)、会議の構造化の把握支援を行う。
以下、会議記録蓄積時のクライアント端末12及びサーバ11の動作を説明し、その後、本実施形態における会議構造可視化時における動作、サーバ11、クライアント12の動作について説明を行う。
図2に示すクライアント端末において、音声入力部48に入力したマイクロホン入力は適度に増幅されて、VOD部49に入力される。VOD部49では、音声の発話状態を監視しており、音声発話が検出されると、符号化部44に指令を送り、音声の符号化を開始する。音声の発話が行われている間だけ、符号化が行われる。発話検出の技術としては、様々なものが知られており、携帯電話などに搭載されている一般的な技術を使うことができる。映像入力部47に入力したカメラ入力も符号化部44で符号化される。
ユーザ入力部23において、マウス入力管理部42には、マウスのロータリーエンコーダの回転量及びボタンのクリックの状態が入力される。マウス入力管理部42は、ロータリーエンコーダの回転の相対量から、画面上のマウスによってポインティングされている位置をピクセル値に変換して出力する。またボタン入力は、ボタンの押すタイミングなどから、クリック・ダブルクリックなどの状態に判別されて、出力される。マウスのポインティング位置のピクセル値は、常時、符号化部44に送信され、クリック・ダブルクリックなどの情報は、イベント発生時点で符号化部44に送信されるように構成されている。
符号化部44は、時間管理部46からの時刻情報を参照して、符号化情報を符号化するとともに、時刻情報を付けて、ネットワーク符号化を行い、送信するように構成されている。ネットワーク管理部21は、符号化された情報を適当にバッファリングしてパケット化し、ネットワーク10に送出する。
一方、サーバ11では、各クライアント端末12からの音声・動画情報などをネットワーク部31で受信し、会議情報配信部33で受信した信号をミキシングし、再びネットワーク部を通じて各クライアントへ、音声・動画情報を送信する。またそれと同時に、各クライアント端末12より受信した音声・動画情報などを蓄積部32で蓄積する。会議構造情報生成部34は、クライアント端末12からの要求に応じて、蓄積部32に蓄積されている情報から会議構造情報を生成し、ネットワーク部31を介して、要求を行ったクライアント端末12にその会議構造情報を送信する。会議構造情報生成部34は、蓄積された音声・画像情報の送信も行う。
図3は、サーバ11の蓄積部32についてのブロック図である。サーバ11においては、まずネットワーク上を流れてきたパケットをネットワーク部31が受け取り、バッファ51に蓄積する。バッファ51に、復号できる量までパケットが貯まれば、ネットワーク復号部52がネットワーク符号化の復号処理を開始する。ネットワーク復号処理を経た情報は、分離部53によって、各クライアント端末12から時刻情報付きの音声情報・画像情報・マウス入力情報・キーボード入力情報などに分離される。音声情報などはリニアPCM形式やμ−law形式などで保存するとともに、VAD情報も保存されている。音声VAD情報などはひとつの会議ごとに、論理的には、図4に示すようなフォーマットで記録されている。画像情報は、MPEG4やモーションJPEGやAVI形式などの圧縮形式での保存が考えられる。
記憶制御部54は、このようにして分離された情報を、外部記憶装置(イベント情報蓄積部55、共有資料情報蓄積部56、画像蓄積部57、会議情報蓄積部58及び音声蓄積部59)に記録する。時刻情報検索部60には、時刻情報と各情報が格納されている外部記憶装置(蓄積部55〜59)上の番地が記録される。
次に、会議構造情報可視化時におけるサーバ11の動作を説明する。
図5は、会議構造情報生成部34の構成を示している。会議構造情報生成部34は、ユーザが指定した範囲の情報を、時刻情報検索部60の情報を利用して、蓄積部32から各種情報を取得し、クライアント端末12に対して音声・画像・チャット・共有資料情報のストリーミングを行うとともに、VAD情報の解析を行い、会議構造の抽出、会議構造の可視化のためのグラフィックデータの作成を行う。会議構造情報生成部34は、時刻情報検索部60からの時刻・番地対応情報を利用して蓄積部32から各種情報を取得するデータ取得部61と、取得した情報をクライアント端末12にストリーミング配信するストリーミング部12と、VOD情報(発話情報)の集計を行って会議構造の抽出を行う集計部63と、集計結果に基づいてグラフ情報を生成するグラフ情報生成部64と、グラフ情報を例えばHTML(HyperText Markup language)などで記述された文書に変換するHTML化部65と、そのHTML文書を符号化してクライアント端末12に送信する符号化部66と、を備えている。ここでストリーミングに関しては、当業者によく知られた方法、例えば、H361、T120などのプロトコルを用いる方法を用いることができる。
次に、集計部63における会議構造の抽出について説明する。集計部63は、VOD情報(発話情報)に基づいて会議構造、すなわち話題の区切れの抽出を行う。ここでは、会議の司会者・参加者のVAD情報から会議の構造の抽出を行う例について説明を行う。
一般的に会議においては、ある話題に関して会議が進行しているときにその話題の区切れに近づくにつれて、発話者の発話時間が徐々に減少し、減少し終わったところで、再び司会者が会議を盛り上げようとして発言し、その後、会議参加者の発言が再開される現象が観察されることが多い。そのようなところで、話題の転換が起きているものと考えられる。本実施形態では、そのような箇所を検出して、それを話題の区切れとして抽出する。
ここでは、Step1[秒]ごとに話題区切れの候補を算出するものとする。会議終了までの経過時間をEnd[秒]、発話量合計のための窓(ウィンドウ)サイズをWindowSize[秒]、発話量変動の算出(傾きの算出)のための窓サイズをWindowSize2[秒]、ループ変数をnとする。各参加者の発話時間をIDk(kは話者番号)とする。また、司会者の発話時間をIDmとする。
[A1]n=0とする;
[A2]n*Step1−WindowSize>End[秒]となるまで、以下のステップ[A3]〜[A5]を実行;
[A3]n*Step1−WindowSizeからn*Step1+WindowSizeまでの各参加者の発話時間を算出し、ID1[n],ID2[n],…,IDk[n]に格納する。同様に、司会者の発話時間をIDm[n]に格納する;
[A4]各参加者の発話時間の合計値を算出:Sum[n]=ID1[n]+ID2[n]+…+IDk[n];
[A5]n=n+1に更新する;
[A6]n=0とする;
[A7]n*Step1−WindowSize2>End[秒]となるまで、以下のステップ[A8]〜[A11]を実行;
[A8]発話量の合計Sumのn*Step1−WindowSize2からn*Step1+WindowSize2までの傾きa1を最小二乗法により求める;
[A9]司会者の発話量の合計IDm[n]のn*Step1−WindowSize2からn*Step1+WindowSize2までの傾きa2を最小二乗法により求める;
[A10]a1<Th1(しきい値),かつa2>Th2(しきい値)であれば、該当のn*Step1を話題区切れの候補として保存する;
[A11]n=n+1に更新する。
図6は、傾きの算出方法を図解したものである。図示白丸で示すように、参加者の発話量の合計は、時間の経過とともにばらつきながら減少している。そこで、最小二乗法を適用することにより、図示一点鎖線で示されるように、参加者の発話量の減少を示す傾きa1を求めることができる。一方、司会者の発話量に関しては、図示黒丸で示すように、比較的低い水準のまま推移していたが、時刻n*Step1以降、急増している。そこで、最小二乗法を適用することにより、図示破線で示されるように、司会者の発話量の増加を示す傾きa2を求めることができる。
図7は、上述した処理を示すフローチャートである。まず、ステップ101においてn=0とおき(上述の[A1])、ステップ102において、ID1[n],ID2[n],…,IDk[n],IDm[n]を格納し(上述の[A3])、ステップ103において、各参加者の発話時間の合計値Sum[n]を算出し、ステップ104において、nに1加算し(上述の[A5])、ステップ105において、加算後のn*Step1−WindowSizeがEndを超えているかどうかを判定し、超えていない場合には、加算後のnに基づいて同様の処理を行うためにステップ102に戻り、超えている場合にはステップ106に移行する。ステップ106では、n=0とおき(上述の[A6])、ステップ107において、傾きa1を求め(上述の[A8])、ステップ108において、傾きa2を求め(上述の[A9])、ステップ109において、a1<Th1かつa2>Th2であれば、該当のn*Step1を話題区切れの候補として保存し(上述の[A10])、ステップ110において、nに1加算し(上述の[A11])、ステップ111において、加算後のn*Step1−WindowSize2がEndを超えているかどうかを判定し、超えていない場合には、加算後のnに基づいて同様の処理を行うためにステップ107に戻り、超えている場合には処理を終了する。
以上のようにして、集計部63は、話題の区切れの候補を抽出する。この場合、参加者の発話量の変動とその傾きa1のみを用いて話題の区切れを検出するようにしてもよい。
算出された話題区切れ候補は、次に、グラフ情報生成部64において、VAD情報とともに、グラフィックイメージとして生成され、HTML化部65において、そのグラフィックイメージは、HTML文書に埋め込まれる。グラフ生成とHTML文書の生成のための方法としては、当業者に周知の方法を用いることができる。その後、クライアント端末12からの要求を契機として、生成されたHTML文書が符号化部66で符号化されて送信され、クライアント端末12側では会議構造情報を閲覧することができる。
以上のような会議構造情報生成を行ったことにより、クライアント端末12の表示画面上には、会議上の音声・動画・チャット・共有資料のみならず、会議の構造も同時に表示することができる。
次に、クライアント端末12における会議の閲覧について説明する。図2に示したクライアント端末12において、ユーザ入力部22では、ユーザからの再生時間指定、再生指令(再生・停止・早送りなど)をキーボードやマウス入力から受信し、サーバ11のネットワーク部31に送信する。また、情報受信部24では、復号部38が、サーバ11の会議構造情報生成部34より受信した情報を復号し、復号された画像情報・音声情報・共有資料情報・会議構造情報などが表示装置39の表示画面上に表示される。
図8は、蓄積された各種情報を一覧するためのブラウジングツールの一例を説明するものであり、クライアント端末12の表示装置39の表示画面上での表示例を示している。このブラウジングツール画面(会議構造可視化GUI(グラフィカルユーザインタフェース))は、会議閲覧者のクライアント端末12の表示装置39の画面上に表示されるものである。このように複数の出力を組み合わせてパーソナルコンピュータなどからなるクライアント端末の画面上に表示させる技術自体は、動画像を含むウェブページを動的に作成する方法、あるいはそのようなウェブページを表示する方法として、よく知られている。
表示画面は、顔画像表示部71、チャット表示部72、共有資料表示部73、会議構造表示部74に分かれている。顔画像表示部71は、蓄積されている顔画像を表示する。チャット表示部72では、蓄積されているチャットが、その入力が行われた時刻とともに表示されている。共有資料表示部73では、共有資料が表示されるとともに、その資料に対する書込みなども表示される。
会議構造表示部74では、各自の発話状況がVAD情報に基づいて表示され、また、その表示に重畳する形式で、話題区切れの候補が縦破線で表示される。会議構造表示部74での横軸は時間情報を表しており、菱形のマークは、現在再生している場所を表している。会議構造表示部74の最下部にはスクロールバーが表示されており、ここでタイムカーソルを操作することによって、ユーザは、会議の任意の時間を選択し会議を再生するようなことができるようになる。ユーザは、話題区切れ候補の近傍のみを再生することによって、会議の全体を聴かなくても、会議の概要を把握できるようになる。
次に、本発明の第2の実施形態について説明する。第2の実施形態の上述した第1の実施形態と同様のものであるが、集計部63での動作が異なり、話題の区切れの抽出のための処理が異なっている。
そこで、第2の実施形態における集計部63における会議構造の抽出について説明する。会議においては、ある話題に関して会議が進行しているときにその話題の区切れに近づくにつれて発話者の発話時間が徐々に減少し、減少し終わったところで、再び司会者が会議を盛り上げようとして発言し、その後、会議参加者の発言が再開される現象が観察されることが多いので、この第2の実施形態でも、そのような箇所を検出して、それを話題の区切れとして抽出する。以下の説明における変数Step1、End、WindowSize、WindowSize2、n、IDk(kは話者番号)、IDmは、第1の実施形態の場合と同様に定義されている。とする。
[B1]n=0とする;
[B2]n*Step1−WindowSize>End[秒]となるまで、以下のステップ[B3],[B4]を実行する;
[B3]n*Step1−WindowSizeからn*Step1+WindowSizeまでの各参加者の発話時間を算出し、ID1[n],ID2[n],…,IDk[n]に格納する。同様に、司会者の発話時間をIDm[n]に格納する;
[B4]n=n+1に更新に更新する;
[B5]n=0とする;
[B6]n*Step1−WindowSize2>End[秒]となるまで、以下のステップ[B7]〜[B10]を実行する;
[B7]各発話者の発話量のn*Step1−WindowSize2からn*Step1+WindowSize2までの傾きaID1,aID2,…,aIDkを最小二乗法により求める;
[B8]司会者の発話量のn*Step1−WindowSize2からn*Step1+WindowSize2までの傾きa_mを最小二乗法により求める;
[B9]aID1<Th1(しきい値),aID2<Th2(しきい値),…,aIDk<Thk(しきい値),a_m>Th_m(しきい値)であれば、該当のn*Step1を話題区切れの候補として保存する;
[B10]n=n+1に更新する。
図9は、上述した処理を示すフローチャートである。まず、ステップ121においてn=0とおき(上述の[B1])、ステップ122において、ID1[n],ID2[n],…,IDk[n],IDm[n]を格納し(上述の[B3])、ステップ123において、nに1加算し(上述の[B4])、ステップ124において、加算後のn*Step1−WindowSizeがEndを超えているかどうかを判定し、超えていない場合には、加算後のnに基づいて同様の処理を行うためにステップ122に戻り、超えている場合にはステップ125に移行する。ステップ125では、n=0とおき(上述の[B5])、ステップ126において、傾きaID1,aID2,…,aIDkを求め(上述の[B7])、ステップ127において、傾きa_mを求め(上述の[B8])、ステップ128において、aID1<Th1,aID2<Th2,…,aIDk<Thk,a_m>Th_mであれば、該当のn*Step1を話題区切れの候補として保存し(上述の[B9])、ステップ129において、nに1加算し(上述の[B10])、ステップ130において、加算後のn*Step1−WindowSize2がEndを超えているかどうかを判定し、超えていない場合には、加算後のnに基づいて同様の処理を行うためにステップ126に戻り、超えている場合には処理を終了する。
次に、本発明の第3の実施形態について説明する。第3の実施形態の上述した第1の実施形態と同様のものであるが、集計部63での動作が異なり、話題の区切れの抽出のための処理が異なっている。
そこで、第3の実施形態における集計部63における会議構造の抽出について説明する。会議においては、話題の区切れにおいて、主たる話者が交代する場合も多く観察される。第3の実施形態では、そのような箇所を検出して、それを話題の区切れとして抽出する。以下の説明における変数Step1、End、WindowSize、WindowSize2、n、IDk(kは話者番号)、IDmは、第1の実施形態の場合と同様に定義されている。とする。
[C1]n=0とする;
[C2]n*Step1−WindowSize>End[秒]となるまで、以下のステップ[C3]〜[C5]を実行する;
[C3]n*Step1−WindowSizeからn*Step1までと、n*Step1からn*Step1+WindowSizeまでの各参加者の発話時間、司会者の発話時間を算出する(それぞれ、L,Rと呼ぶ);
[C4]各参加者ごとのR−Lの値をID1[n],ID2[n],…,IDk[n]に格納し、司会者のR−Lの値をIDm[n]に格納する;
[C5]n=n+1に更新に更新する;
[C6]n=0とする;
[C7]n*Step1−WindowSize2>End[秒]となるまで、以下のステップ[C8]、[C9]を実行する;
[C8]|ID1[n]|+|ID2[n]|+…+|IDk[n]|+|IDm[n]|>Th(しきい値)であれば、該当のn*Step1を話題区切れの候補として保存する。ここで、記号||は絶対値を示している;
[C9]n=n+1に更新する。
図10は、上述した処理を示すフローチャートである。まず、ステップ141においてn=0とおき(上述の[C1])、ステップ142において、n*Step1−WindowSizeからn*Step1までと、n*Step1からn*Step1+WindowSizeまでの各参加者の発話時間、司会者の発話時間を算出し(上述[C3])、ステップ143において、ID1[n],ID2[n],…,IDk[n],IDm[n]を格納し(上述の[C4])、ステップ144において、nに1加算し(上述の[C5])、ステップ145において、加算後のn*Step1−WindowSizeがEndを超えているかどうかを判定し、超えていない場合には、加算後のnに基づいて同様の処理を行うためにステップ142に戻り、超えている場合にはステップ146に移行する。ステップ146では、n=0とおき(上述の[C6])、ステップ147において、|ID1[n]|+|ID2[n]|+…+|IDk[n]|+|IDm[n]|を求めてこれがしきい値Thを超えていれば、該当のn*Step1を話題区切れの候補として保存し(上述の[C8])、ステップ148において、nに1加算し(上述の[C9])、ステップ149において、加算後のn*Step1−WindowSize2がEndを超えているかどうかを判定し、超えていない場合には、加算後のnに基づいて同様の処理を行うためにステップ147に戻り、超えている場合には処理を終了する。
以上説明した実施形態では、本発明に基づく会議構造把握支援装置は、サーバ11に実装されている。しかしながら、会議構造把握支援装置の機能は、クライアント端末12に持たせるようにしてもよいし、あるいは、サーバやクライアント端末とは独立に設けた別の装置に持たせるようにしてもよい。
上述した本発明の会議構造把握支援装置は、それを実現するための計算機プログラムを、サーバ用コンピュータやパーソナルスーパーコンピュータなどのコンピュータに読み込ませ、そのプログラムを実行させることによっても実現できる。そのようなプログラムは、CD−ROMなどの記録媒体によって、あるいはネットワークを介して、コンピュータに読み込まれる。
本発明の実施の一形態の遠隔会議システムにおける会議構造把握支援装置の構成を示すブロック図である。 クライアント端末の構成を示すブロック図である。 サーバの蓄積部の構成を示すブロック図である。 音声VAD情報の蓄積のためのフォーマットの一例を示す図である。 サーバの会議構造情報生成部の構成を示すブロック図である。 発話量の変化の傾きを求める処理を説明する図である。 第1の実施形態での話題区切れ候補の抽出の処理を示すフローチャートである。 会議構造可視化GUIの一例を示す図である。 第2の実施形態での話題区切れ候補の抽出の処理を示すフローチャートである。 第3の実施形態での話題区切れ候補の抽出の処理を示すフローチャートである。
符号の説明
10 ネットワーク
11 サーバ
12 クライアント端末
21 ネットワーク管理部
22 ユーザ入力部
23 情報送信部
24 情報受信部
31 ネットワーク部
32 蓄積部
33 会議情報配信部
34 会議構造情報生成部

Claims (12)

  1. 遠隔会議システムにおける会議構造把握支援方法であって、
    会議中に発生する各参加者のマルチメディア会議データを、メディア及び参加者ごとにランダムアクセス可能な時系列形式で蓄積する段階と、
    会議進行と同時に、前記会議の開始時刻から現時点までもしくは前記会議の終了時までのマルチメディア会議データを解析して、会議構造情報を抽出する段階と、
    を有する会議構造把握支援方法。
  2. 前記マルチメディア会議データは発話データである、請求項1に記載の会議構造把握支援方法。
  3. 前記会議構造情報として、会議における話題の区切れの候補を提示する、請求項2に記載の会議構造把握支援方法。
  4. 各参加者の発話量を検出し、前記発話量の変動に基づいて前記話題の区切れを検出する、請求項3に記載の会議構造把握支援方法。
  5. 各参加者ごとに登録情報が設定され、前記登録情報に基づいて前記マルチメディア会議データの解析が行われる、請求項1または4に記載の会議構造把握支援方法。
  6. 前記各参加者の登録情報の種類が、“参加者”及び“司会者”である、請求項5に記載の会議構造把握支援方法。
  7. 遠隔会議システムの会議データから会議構造情報を抽出する会議構造把握支援装置であって、
    会議中に発生する各参加者のマルチメディア会議データをメディア及び参加者ごとにランダムアクセス可能な時系列形式で蓄積する手段と、
    会議進行と同時に、前記会議の開始時刻から現時点までもしくは前記会議の終了時までのマルチメディア会議データを解析して、会議構造情報を抽出する手段と、
    を有する、会議構造把握支援装置。
  8. 前記マルチメディア会議データは発話データである、請求項7に記載の会議構造把握支援装置。
  9. 各参加者の発話量を検出する手段を有し、
    前記発話量の変動に基づいて、会議における話題の区切れの候補を検出し、前記会議構造情報として、前記候補を提示する、請求項8に記載の会議構造把握支援装置。
  10. 各参加者ごとに登録情報が設定され、前記登録情報に基づいて前記マルチメディア会議データの解析が行われる、請求項7または9に記載の会議構造把握支援装置。
  11. コンピュータを、
    遠隔会議中に発生する各参加者のマルチメディア会議データをメディア及び参加者ごとにランダムアクセス可能な時系列形式で蓄積する手段、
    会議進行と同時に、前記会議の開始時刻から現時点までもしくは前記会議の終了時までのマルチメディア会議データを解析して、会議構造情報を抽出する手段、
    として機能させるプログラム。
  12. コンピュータが読み取り可能な記録媒体であって、請求項11に記載のプログラムを格納した記録媒体。
JP2004264405A 2004-09-10 2004-09-10 会議構造把握支援方法、装置、プログラム、及び該プログラムを格納した記録媒体 Expired - Fee Related JP4011573B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004264405A JP4011573B2 (ja) 2004-09-10 2004-09-10 会議構造把握支援方法、装置、プログラム、及び該プログラムを格納した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004264405A JP4011573B2 (ja) 2004-09-10 2004-09-10 会議構造把握支援方法、装置、プログラム、及び該プログラムを格納した記録媒体

Publications (2)

Publication Number Publication Date
JP2006081005A JP2006081005A (ja) 2006-03-23
JP4011573B2 true JP4011573B2 (ja) 2007-11-21

Family

ID=36160072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004264405A Expired - Fee Related JP4011573B2 (ja) 2004-09-10 2004-09-10 会議構造把握支援方法、装置、プログラム、及び該プログラムを格納した記録媒体

Country Status (1)

Country Link
JP (1) JP4011573B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5302505B2 (ja) * 2006-12-04 2013-10-02 日本電気株式会社 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム
US8908003B2 (en) * 2009-09-17 2014-12-09 Nokia Corporation Remote communication system and method
US9705936B2 (en) * 2015-04-24 2017-07-11 Mersive Technologies, Inc. System and method for interactive and real-time visualization of distributed media
JP2017167433A (ja) 2016-03-17 2017-09-21 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム

Also Published As

Publication number Publication date
JP2006081005A (ja) 2006-03-23

Similar Documents

Publication Publication Date Title
US9621854B2 (en) Recording a videoconference using separate video
US9407867B2 (en) Distributed recording or streaming of a videoconference in multiple formats
US10244291B2 (en) Authoring system for IPTV network
US8780166B2 (en) Collaborative recording of a videoconference using a recording server
US7409639B2 (en) Intelligent collaborative media
US9282289B2 (en) Systems, methods, and devices for generating a summary document of an online meeting
US9269072B2 (en) Systems, methods, and devices for facilitating navigation of previously presented screen data in an ongoing online meeting
US9065667B2 (en) Viewing data as part of a video conference
US9129258B2 (en) Systems, methods, and devices for communicating during an ongoing online meeting
US8594290B2 (en) Descriptive audio channel for use with multimedia conferencing
US8745683B1 (en) Methods, devices, and mediums associated with supplementary audio information
US8754922B2 (en) Supporting multiple videoconferencing streams in a videoconference
JP2023522092A (ja) インタラクション記録生成方法、装置、デバイス及び媒体
JP2004350134A (ja) 多地点電子会議システムにおける会議概要把握支援方法、多地点電子会議システム用サーバ、会議概要把握支援プログラム、および該プログラムを記録した記録媒体
JP2004173058A (ja) 会議情報可視化方法、装置、プログラムおよび該プログラムを記録した記録媒体
JP4011573B2 (ja) 会議構造把握支援方法、装置、プログラム、及び該プログラムを格納した記録媒体
CN111837401A (zh) 信息处理设备、信息处理设备和程序

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070905

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110914

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130914

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees