JP2013201505A - テレビ会議システム及び多地点接続装置並びにコンピュータプログラム - Google Patents

テレビ会議システム及び多地点接続装置並びにコンピュータプログラム Download PDF

Info

Publication number
JP2013201505A
JP2013201505A JP2012067303A JP2012067303A JP2013201505A JP 2013201505 A JP2013201505 A JP 2013201505A JP 2012067303 A JP2012067303 A JP 2012067303A JP 2012067303 A JP2012067303 A JP 2012067303A JP 2013201505 A JP2013201505 A JP 2013201505A
Authority
JP
Japan
Prior art keywords
information
minutes
terminal devices
character code
code string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012067303A
Other languages
English (en)
Inventor
Tomohiko Murakami
智彦 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012067303A priority Critical patent/JP2013201505A/ja
Publication of JP2013201505A publication Critical patent/JP2013201505A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】異なるメーカや異なる機種の端末装置を接続でき、音声及び字幕付き映像の議事録作成を可能にすると共に該議事録作成に際して、会議参加者(話者)の言語を特定言語に限定する必要の無いテレビ会議システムを提供すること。
【解決手段】議事録情報(映像情報及び音声情報)を、テレビ会議参加者の居室に設置した端末11〜1n(他図)の各々で採取し、この情報を基にMCU31の議事録作成部308において音声及び字幕付き映像の議事録を作成する。議事録作成に必要な音声情報の認識処理も、MCU31の音声認識部307において上記の各端末分毎にリアルタイムで行う。この音声認識結果は、字幕作成部309を介して映像情報に字幕として添付することができる。
【選択図】図3

Description

本発明はテレビ会議システム及び多地点接続装置並びにコンピュータプログラムに係る。特に、異なるメーカや異なる機種の端末装置を接続できると共に、音声及び字幕付き映像の記録も可能であり、翻訳による言語を問わないテレビ会議システム及び多地点接続装置並びにコンピュータプログラムに関する。
近年、テレビ会議システムを構築するに際して、異なるメーカや異なる機種の端末装置を接続したいとの要望が高まっている。このため、このような異種装置間の接続性を高めるための様々な試みが実施されている。しかし、既存のテレビ会議における議事録作成手段は、端末装置毎の機能に依存するものであり、前述のような、異なるメーカや異なる機種の端末装置が混在するテレビ会議システムを構築すると、現状のままでは議事録の作成ができなくなるという問題点があった。
この分野の公知技術として、例えば特許文献1には、映像と音声の通信で互いに言語の異なる人がディスクトップ会議を行うときに、言語の違いによっても円滑なコミュニケーションを図れることを意図した技術が開示されている。具体的には、会議出席者の音声を、通信システムを介して受信し、この出席者の音声信号に対応した受信者が理解できる言語の文字データを音声理解装置7に得、この文字データを受信者が理解できる言語の文字または音声で受け取るかを切換モード部で設定する。そして、この設定に応じて2つの翻訳変換処理部のいずれかにより文字データを該言語の文字データ又は音声データに翻訳し、翻訳した文字または音声データを該言語の文章又は音声に変換して受信映像と共にディスプレイに字幕表示又はエディタに記録表示する。さらには音声合成装置で合成して音声で出力する。
また、例えば特許文献2には、会議において本人が発言した内容を否認することを不可能とし、議事録の作成の効率化を図ることが可能なテレビ会議におけるマルチメディア議事録作成方法及びシステムが開示されている。具体的には、会議における発言内容を音声情報として取得して音声情報処理を行い、音声情報処理が施された情報に、デジタル透かし技術を用いて発言者の情報を埋め込んでおき、発言者の情報が埋め込まれた情報に基づいて議事録を生成する。
また、例えば特許文献3には、多地点会議システムで、会議参加者が会議中の議事録を無劣化、高画質、高音質、リアルタイム、オンデマンド形式で閲覧する技術が開示されている。また、特許文献3には、任意の会議参加者が任意の映像資料を無劣化、高画質、高音質、リアルタイム、オンデマンド形式で閲覧したり、他の会議参加者に閲覧させたりする技術が開示されている。具体的には、サーバ装置が会議端末装置から受信した会議参加者の映像及び音声を議事録として記録し、議事録の再生を要求した会議端末装置に対して送信する。また、会議サーバ装置が会議端末装置から映像資料登録指示を受けた場合に、該映像資料を記録し、映像資料の再生を要求した会議端末装置や全ての会議端末装置に対して送信する。
また、例えば特許文献4には、撮像した映像データを複数の端末の少なくとも1つに表示し、入力音声をテキストデータに変換し、これを所定の議事録に記録し、記録した議事録を複数の端末に表示可能とする技術が開示されている。具体的には、音声入力手段と、表示部とを備えた会議端末装置と、少なくとも1つの撮像手段と、前記会議端末装置が通信回線を介して複数接続された映像会議システムとしている。その構成は、記撮像手段が撮像した映像データを前記接続された複数の会議端末の少なくとも1つの会議端末装置の表示部に表示する映像表示手段と、前記音声入力手段に入力された音声をテキストデータに変換する音声変換手段とを備える。また、該変換されたテキストデータを所定の議事録フォーマットに記録する音声テキスト記録手段と、該記録された議事録フォーマットを前記接続された複数の会議端末装置の表示部に表示可能とする議事録表示手段とを備える。
また、例えば特許文献5には、実際の会議進行と同様の会議進行を可能にすると共に第三者が会議内容をリアルに体験可能な議事録の作成を実現するネットワーク会議システムが開示されている。具体的には、Web会議サーバは、クライアント端末装置から送信されるIPアドレスに基づいて発言者及び発言時刻を特定し、特定された発言者の音声がテキスト化された議事録テキストファイルを発言時刻と共に記憶する。また、ネットワーク会議の資料として使用される画像ファイル及び画像ファイルの表示時刻を記憶し、議事録テキストファイル、発言時刻、画像ファイル及び表示時刻に関連付けされた議事録要約ファイルを作成する。
また、例えば特許文献6には、特殊なアプリケーションを使用すること無く、通常のPC程度の処理パワーであっても、発話内容をリアルタイムで字幕提示すると共に、受講者の漢字の読み能力に応じてルビを付加することのできる装置等が開示されている。具体的には、話者の発話した内容に基づいてリアルタイムで入力された仮名漢字混じり文の文字コードを受信する手段と、所定の学習レベルに応じた漢字仮名辞書を用いて、受信した文字コードを所定の学習レベルでルビを付加する処理を行う手段を備える。また、付加されたルビの書式を設定する手段と、書式設定されたルビ付きの仮名漢字混じり文を字幕として出力するための手段とを備え、発話内容をリアルタイムで仮名漢字交じり文に変換すると共に、ルビを自動的に付加して提示する。
また、例えば特許文献7には、共有の画像上に、会議における発言者の音声を文字列化したものを自由に配置させることなどができ、会議参加者による会議のメモ作成を効果的に補助することができる情報処理装置が開示されている。具体的には、発言者が用いる端末装置にて、マイクで音声を入力して音声認識処理及び形態素解析を行ない、解析の結果得られる文字列を所定の条件にて抽出し、会議サーバ装置を介して他の複数の端末装置へと送信する。この他の端末装置では、受信した抽出された文字列を表示し、選択可能とすると共に、選択した文字列は、共有ドキュメントデータの画像上に重畳して表示する。
また、例えば特許文献8には、発言者の発言内容を、聞き手が容易に、且つ正確に理解することができる会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラムが開示されている。具体的には、発言者が英語で発言した音声が音声認識される。聞き手が使用するディスプレイの字幕表示領域は、上半分が訳振り領域として用いられ、下半分が原文領域として用いられる。訳振り領域には、音声認識結果である原文に、該原文を日本語に翻訳した訳文がルビ状に併記された訳振り字幕が表示される。このように、原文及び訳文の両方を表示し、しかも、原文に含まれる単語または連語に、訳文として、この単語又は連語を翻訳した語句を表示するため、聞き手が理解し易く、また、誤訳に気付き易いとしている。更に、原文領域には、まだ翻訳されていない原文を含む原文字幕が表示する。
さらに、例えば特許文献9には、会議参加者の発話を所望の1又は複数の言語にリアルタイム翻訳する多言語多地点ビデオ会議システムが開示されている。具体的には、発話を含む音声ストリームがテキストに変換され、ビデオストリームに字幕として挿入される。発話は或る言語から別の言語に翻訳され、翻訳された発話がビデオストリームに挿入され、字幕を選ぶか、若しくは音声合成エンジンによって生成された別の言語の発話に、元の音声ストリームを置き換える。種々の会議参加者は、それぞれ会議参加者により提供された所望の言語の情報に基づく同じ発話の種々の翻訳を受信する。
特開平10−136327号公報 特許第3446530号公報 特開2002−262251号公報 特開2005−295017号公報 特開2007−180828号公報 特開2008−191976号公報 特開2011−043716号公報 特開2011−182125号公報 特開2011−209731号公報
ところで、上記背景技術で述べた従来のテレビ会議システムにあっては、テレビ会議の際に自動的に議事録を作成するためには、端末装置に固有の機能を利用して議事録を作成する手段が採用されている。即ち、このような端末装置に固有の機能を利用して議事録を作成する手段の場合、上記固有機能を統合するような標準規格が規定されていない。そのため、議事録作成手段は、メーカ毎、若しくは端末装置毎の固有機能に依存する形態となり、装置構成が異なるテレビ会議システム間では互換性が無かった。このため、例えば、メーカの異なる端末装置同士を同一の会議システムの構成要素として使用する際には、議事録を作成できなくなったり、会議での発言者の情報が入手できなくなったりするなどの、様々な制限を受ける場面が発生するという問題点が有った。
なお、前述の特許文献1に開示された技術は、音声を文字に変換して字幕表示したり、テキストとしてエディタに出力したりする周知の仕事を、端末装置側で処理するものである。また、前述の特許文献2に開示された技術は、端末装置側から発信する音声にデジタル透かしを含めることで、発言者情報を特定するものであり、端末装置側で処理していて、テレビ会議では一般的に用いられないデジタル透かし機能が必要となる。そのため、他機種との接続性が低くなる。また、前述の特許文献3に開示された技術は、会議の映像、音声を、サーバ側で保存するものである。また、音声認識手段による音声の文字化(テキストデータ化)は行っていないため、文字での議事録は作成されない。
また、前述の特許文献4に開示された技術は、テレビ会議において議事録を作成するものであるが、映像データの他に議事録データの送受信インタフェースが必要になり、この点において端末装置の機能に依存し、他機種との接続性が低い。また、前述の特許文献5に開示された技術では、議事録フォーマットに記録されるテキストデータと撮像した映像データとが分離されたまま、両者は各々異なる手段に依って表示される。また、前述の特許文献6に開示された技術では、テレビ会議の発言内容等のリアルタイムで入力された仮名漢字混じり文の文字コード(サーバ等で既に音声認識された結果)を受信して字幕提示する周知の仕事を、端末装置側の機能で処理している。そのため、他機種との接続性が低い。
また、前述の特許文献7に開示された技術では、テレビ会議の発言内容を音声認識によりテキストデータに変換するが、他の映像情報との編集機能までは有していない。また、音声認識等の仕事を、端末装置側の機能で処理しているため、他機種との接続性が低い。また、前述の特許文献8に開示された技術では、テレビ会議の英語の発言を訳し、字幕として表示する周知の仕事を、端末装置側で処理しているため、他機種との接続性が低い。さらに、前述の特許文献9に開示された技術は、会議参加者の発話を所望の1又は複数の言語にリアルタイム翻訳し、字幕または音声で表示する会議用の同時翻訳システムである。
本発明は、上記従来の問題点に鑑みてなされたものであって、異なるメーカや異なる機種の端末装置を接続することを可能にしたテレビ会議システム及び多地点接続装置並びにコンピュータプログラムを提供することを目的としている。本発明他の目的は、音声及び字幕付き映像の議事録作成を可能にすると共に該議事録作成に際して、会議参加者(話者)の言語を特定言語に限定する必要の無いテレビ会議システム及び多地点接続装置並びにコンピュータプログラムを提供することにある。
上記課題を解決するために、本発明に係るテレビ会議システムは、会議に使用する複数の端末装置の各々は、多地点接続装置との双方向通信が可能な通信接続を確立する手段と、自己の設置場所において採取された映像情報及び音声情報を多地点接続装置に送信する手段と、前記多地点接続装置から議事録情報を受信する手段と、前記議事録情報を再生する手段と、前記通信接続を切断する手段と、を備え、前記多地点接続装置は、前記複数の端末装置の各々との双方向通信が可能な通信接続を確立する手段と、前記通信接続を確立した通信相手である端末装置の各々を管理する接続相手管理手段と、前記端末装置の各々から映像情報及び音声情報を受信する手段と、前記複数の端末装置の各々から受信した音声情報の各々を所定の文字コード列に変換する手段と、前記所定の文字コード列の内容を、必要に応じて所定の言語の情報に翻訳して翻訳済の文字コード列を生成する手段と、前記文字コード列に対して、前記端末装置に対応する発言者の識別名及び発言時刻を追記して議事録情報を作成する手段と、前記受信した映像情報と音声情報とを合成して議事録情報を作成する手段と、前記議事録情報に対して、必要に応じて前記文字コード列を字幕情報として付加する手段と、前記議事録情報を前記複数の端末装置の各々に送信する手段と、前記通信接続を切断する手段と、を備えたことを特徴とする。
また、本発明に係る多地点接続装置は、会議に使用する複数の端末装置の各々との双方向通信が可能な通信接続を確立する手段と、前記通信接続を確立した通信相手である端末装置の各々を管理する接続相手管理手段と、前記端末装置の各々から映像情報及び音声情報を受信する受信手段と、前記複数の端末装置の各々から受信した音声情報の各々を所定の文字コード列に変換する音声認識手段と、前記所定の文字コード列の内容を、必要に応じて所定の言語の情報に翻訳して翻訳済の文字コード列を生成する手段と、前記文字コード列に対して、前記端末装置に対応する発言者の識別名及び発言時刻を追記して議事録情報を作成する手段と、前記受信した映像情報と音声情報とを合成して議事録情報を作成する手段と、前記議事録情報に対して、必要に応じて前記文字コード列を字幕情報として付加する手段と、前記議事録情報を前記複数の端末装置の各々に送信する手段と、前記通信接続を切断する手段と、を備えたことを特徴とする。
さらに、本発明のコンピュータプログラムは、多地点接続装置の制御をコンピュータに実行させるためのコンピュータプログラムであって、会議に使用する複数の端末装置の各々との双方向通信が可能な通信接続を確立するステップと、前記通信接続を確立した通信相手である端末装置の各々を管理する接続相手管理ステップと、前記端末装置の各々から映像情報及び音声情報を受信する受信ステップと、前記複数の端末装置の各々から受信した音声情報の各々を所定の文字コード列に変換する音声認識ステップと、前記所定の文字コード列の内容を、必要に応じて所定の言語の情報に翻訳して翻訳済の文字コード列を生成するステップと、前記文字コード列に対して、前記端末装置に対応する発言者の識別名及び発言時刻を追記して議事録情報を作成するステップと、前記受信した映像情報と音声情報とを合成して議事録情報を作成するステップと、前記議事録情報に対して、必要に応じて前記文字コード列を字幕情報として付加するステップと、前記議事録情報を前記複数の端末装置の各々に送信するステップと、前記通信接続を切断するステップと、を備えたことを特徴とする。
以上説明したように、本発明のテレビ会議システムによれば、異なるメーカや異なる機種の端末装置を接続することができる。また、音声及び字幕付き映像の議事録作成を可能にすると共に該議事録作成に際して、会議参加者(話者)の言語を特定言語に限定する必要の無いテレビ会議システムを提供することができる。
本発明の実施形態に係るテレビ会議システムの全体構成を示す構成図である。 本発明の実施形態に係るテレビ会議システムで使用される端末装置の構成を示す構成図である。 本発明の実施形態に係る多地点接続装置の構成を示す構成図である。 本発明の実施形態に係るテレビ会議システムの処理手順を1例として示すフローチャート図である。
本発明のテレビ会議システムは、テレビ会議の際に、テレビ会議参加者の居室に設置した複数の端末装置から出力された音声情報等の会議情報を多地点接続装置(以下、「MCU」と略称する)で一括収集して議事録を作成するものである。より具体的には、MCUは接続する複数の端末装置の各々から収集した映像情報及び音声情報を基に、音声情報についてはテキストデータに変換する。そして、発言内容、発言者(氏名の他、愛称等の識別名であって良い)、及び発言時刻を記載した議事録を作成・記録する。また、テキストデータの議事録だけでなく、音声・映像の記録も可能であり、テキストデータを翻訳する場合には言語の制限無しで翻訳して議事録を作成すると共に、議事録内容を上記端末装置へ配信して会議映像として字幕付きで表示することも可能にしている。
以下、本発明のテレビ会議システム及び多地点接続装置並びにコンピュータプログラムについて、図面を参照して詳細に説明する。図1は、本発明の実施形態に係るテレビ会議システムの全体構成を示す構成図である。同図において、本実施形態のテレビ会議システムは、MCU31(本発明の実施形態に係る多地点接続装置)、テレビ会議参加者の居室に設置され、MCU31に接続された複数の端末装置(ここでは端末11〜1n)と、を備えて構成する。以下、本実施形態のテレビ会議システムの機能について説明する。本発明のテレビ会議システムは、議事録情報(映像情報及び音声情報)を端末11〜1nで採取し、この採取した情報を基にMCU31において音声情報及び字幕付き映像の議事録を作成する。即ち、テレビ会議に参加する全端末装置(ここでは端末11〜1n)の接続先はMCU31である。このため、上記端末装置の機能には依存しないで議事録作成の課題を解決するものである。
他地点を結ぶテレビ会議に際しては、テレビ会議参加者の居室に設置された各端末装置(ここでは端末11〜1n)は、図1に示すようにMCU31に接続する。但し、上記各端末装置同士の接続は無いものとする。図1に示す構成において、MCU31には会議に参加する全端末装置(ここでは端末11〜1n)から、映像情報と共に音声情報が送られて来る。MCU31では、この音声情報に基づく発言内容・発言者・発言時刻などの情報を取得して議事録を作成する。なお、この音声情報から、個々の具体的な発言内容を取得する際には、該音声情報に対して、MCU31が備える音声認識部307(後述)での処理を適用する。
図2は、本発明の実施形態に係るテレビ会議システムで使用される端末装置の構成を示す構成図である。同図に示す端末装置(ここでは端末11〜1n)は、映像・音声関連の処理を担う処理部として、送信部101、受信部102、及び再生部103を備える。また、接続関連の処理を担う処理部として、接続部104、切断部105、及び接続相手管理部106を備える。また、この他に図示しない制御部を備えるものとする。送信部101は、自装置で採取した映像・音声情報をMCU31(図1)に送信する。また、受信部102は、MCU31から送信されて来た映像・音声情報を受信する。さらに、再生部103は、受信部102で受信した映像・音声情報を再生する。なお、接続部104は、MCU31との間の接続を行うことによってテレビ会議が実施できるようにし、切断部105は、MCU31との間の接続を切断することによってテレビ会議を閉鎖する。また、接続相手管理部106は、MCU31との接続状態(セッション)を管理する。
図3は、本発明の実施形態に係る多地点接続装置の構成を示す構成図である。同図に示す多地点接続装置(ここではMCU31)は、映像・音声関連の処理を担う処理部として、送信部301、受信部302、及び合成部303を備える。また、接続関連の処理を担う処理部として、接続部304、切断部305、及び接続相手管理部306を備える。さらに、議事録・字幕関連の処理を担う処理部として、音声認識部307、議事録作成部308、及び字幕作成部309を備える。また、この他に図示しない制御部を備えるものとする。
送信部301は、自装置で採取した映像・音声情報を上記各端末装置(ここでは端末11〜1n)に送信する。また、受信部302は、上記各端末装置から送信されて来た映像・音声情報を受信する。なお、合成部303は、上記各端末装置(ここでは端末11〜1n)の各々から送られて来て受信部302にて受信した上記映像・音声情報を合成するものである。ここで合成した映像・音声情報は、送信部301を介して上記各端末装置(ここでは端末11〜1n)に送信する。なお、接続部304は、上記各端末装置(ここでは端末11〜1n)との間の接続を行うことによってテレビ会議が実施できるようにし、切断部305は、テレビ会議が閉鎖された際に、上記各端末装置(ここでは端末11〜1n)との間の接続を切断する。
また、接続相手管理部306は、上記各端末装置(ここでは端末11〜1n)との接続状態(セッション)を管理する。但し、接続相手管理部306による接続相手管理機能は、上記各端末装置(ここでは端末11〜1n)の、どの端末装置から、どの映像・音声情報が送られてきたかも併せて管理するものとする。音声認識部307は、並列処理構造を有し、受信部302が受信した上記各端末装置(ここでは端末11〜1n)からの音声情報の各々に対してリアルタイムでの音声認識を行い、その各々の結果をテキストデータとして取得する。また、それぞれ所定の文字コードに変換する。また、議事録作成部308は、上記の文字コードを基に、議事録を作成し、字幕作成部309は上記の文字コードを基に、字幕を作成する。このようにして作成した議事録若しくは字幕付き議事録は、リアルタイムに更新されることになるが、常時、アクセスを要求したユーザに対して、送信部301を介し、参照させることを可能にする。
この議事録の内容としては、発言者・発言内容・発言時刻などのリアルタイムに更新される情報に加え、会議開催時間など、会議全体の共通情報を含むことができる。さらに、この議事録には、議事録の内容に対応させて、発言者・発言内容に対応する上記文字コードを基にした文字情報を、上記の映像情報に併記することができる(字幕として合成することもできる)。これらの処理は、周知の映像の合成機能を利用して実現することができる。
以下、本発明の実施形態に係るテレビ会議システムの動作を説明する。各端末装置(ここでは端末11〜1n)はMCU31に接続する。上記各端末装置が接続中、この各端末装置とMCU31とは以下の(1)〜(4)項の処理を随時繰り返す。(1)各端末装置は、自己が設置されている場所で採取した映像・音声情報をMCU31に送る。(2)MCU31は、上記各端末装置から送られた映像情報と音声情報との合成を行う。(3)MCU31は、合成された映像・音声情報を上記各端末装置に送信する。(4)上記各端末装置は、MCU31から送られた映像・音声情報を再生する。(5)会議終了と共に、上記各端末装置は、MCU31との接続を切断する。
図4は、本発明の実施形態に係るテレビ会議システムの処理手順を1例として示すフローチャート図である。以下、図1〜3を参照しながら、図4に示すフローチャートを使用して、本実施形態に係るテレビ会議システムの1例としての処理手順を説明する。(ステップS1):まず、ステップS1では、MCU31の接続部304と、各端末装置(ここでは端末11〜1n)の接続部104とが、MCU31と上記各端末装置との間が互いに通信可能となるように通信接続を行う。(ステップS2):次に、ステップS2では、MCU31は、議事録の作成を準備し、議事録の作成を開始する。(ステップS3):次に、ステップS3では、MCU31は、受信部302を介して、上記各端末装置から映像情報と音声情報とを受信する。この映像・音声情報は、個々の端末装置が設置されている場所から当該端末装置によって採取されたものである。
(ステップS4):次に、ステップS4では、MCU31は、受信した上記音声情報を所定のコード規格の文字コード列に変換する。(ステップS5):次に、ステップS5では、MCU31は、上記変換で得られた文字コード列について、その所定言語への翻訳が必要か否かを検証し、上記所定言語への翻訳が必要な場合はステップS14に移る。また、上記所定言語への翻訳が不要な場合はステップS6に進む。(ステップS6):ステップS6では、MCU31は、議事録作成部308が、上記変換で得られた文字コード列の発言内容に、発言者・発言時刻を挿入し、議事録を作成する。この発言者は、話者認識手段を用いることなく、接続相手管理部306と受信部302との管理情報から議事録作成部308が判定する。
(ステップS7):ステップS7では、MCU31は、合成部303が、受信した映像情報と音声情報とを合成する。(ステップS8):ステップS8では、MCU31は、議事録作成部308が、上記作成した議事録の発言内容に字幕が必要か否かを検証し、上記字幕が必要である場合にはステップS15に移る。また、上記字幕が不要である場合にはステップS9に進む。(ステップS9):ステップS9では、MCU31は、上記議事録(即ち合成された映像・音声情報)を、上記各端末装置に送信する。(ステップS10):ステップS10では、上記各端末装置は、受信部102が上記議事録を受信し、再生部103が上記受信した議事録を再生する。
(ステップS11):ステップS11では、上記各端末装置は、テレビ会議が終了したか否かを検証し、テレビ会議か終了したと判断するとステップS12に移る。また、テレビ会議が終了していないと判断するとステップS3に戻って、上記の一連の処理を繰り返す。(ステップS12):ステップS12では、上記各端末装置の切断部105が、MCU31との通信接続を切断する。(ステップS13):ステップS13では、MCU31が、切断部305によって上記各端末装置との通信接続を切断した後、上記議事録を編集及び整形し、その後、処理を終了する。(ステップS14):ステップS14では、MCU31の議事録作成部308が、上記変換で得られた文字コード列について、その所定言語への翻訳を行い、その後、ステップS6に移る。(ステップS15):ステップS15では、MCU31の合成部303が、上記議事録に対して字幕情報の合成を行い、その後、ステップS9に移る。
この実施形態に係るテレビ会議システムによれば、議事録作成に必要な処理はMCU31にて一括して行うので、MCU31に接続する端末装置の種類や機能に依存しないで議事録を作成することができる効果が有る。また、端末装置側には議事録作成のための機能が不要となる効果が有る。より詳細には、MCU31にて発言者や発言内容をテレビ会議の映像に合成する(埋め込む)ことにより、端末装置の種類や機能に依存しないで発言者の発言内容を字幕表示することができる効果が有る。このため、端末装置としては、映像中の字幕の有無に関わらず、MCU31から送られてくる映像情報を処理するだけで良く、字幕処理のための特別な追加機能は必要が無くなる効果が得られる。
また、音声情報を文字化する際の確度を向上させることができる効果や、発言者を判別する際の判別精度を向上させることができる効果が有る。一般に、端末装置で議事録を作成する場合、テレビ会議システムの方式(MCUの有無など)にもよるが、各端末装置からの音声も合成された合成済みの音声情報に対して音声認識を行うことになる。しかし、この合成済みの音声情報は、ノイズが多く、またノイズレベルも大きいので、複数の発言者の発言が混ざるため、文字化・発言者の判別の精度が落ちる傾向が有る。
一方、本発明のテレビ会議システムの場合、MCU31にて議事録を作成する際には、各端末装置からの音声情報(よって未だ合成されていない)に対して、並列処理構造により、それぞれ音声認識を行うことができる。このようにして、認識精度が高くなり、信頼性の高い文字化が可能となる効果が得られる。また、MCU31では、接続相手管理部306を介して、どの音声情報がどの端末装置から入力されたかが認識できるため、端末装置対応の発言者の特定も可能となる効果が有る。さらに、議事録に加えて、音声・映像も交えた会議データの記録が可能となる効果が有る。即ち、これまでの各端末装置に分散した管理ではなく、中央で一括して集中管理することにより、会議データの効率的な管理が可能となる効果が有る。
なお、本発明に係るテレビ会議システムの各構成要素の処理の少なくとも一部をコンピュータ制御により実行するものとする。かつ、上記処理を、図4のフローチャートで示した手順によりコンピュータに実行せしめるプログラムは、半導体メモリを始め、CD−ROMや磁気テープなどのコンピュータ読み取り可能な記録媒体に格納して配付してもよい。そして、少なくともマイクロコンピュータ、パーソナルコンピュータ、汎用コンピュータを範疇に含むコンピュータが、上記の記録媒体から上記プログラムを読み出して、実行するものとしてもよい。
上記の実施形態の一部、又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)会議に使用する複数の端末装置の各々は、多地点接続装置との双方向通信が可能な通信接続を確立する手段と、自己の設置場所において採取された映像情報及び音声情報を多地点接続装置に送信する手段と、前記多地点接続装置から議事録情報を受信する手段と、前記議事録情報を再生する手段と、前記通信接続を切断する手段とを備え、前記多地点接続装置は、前記複数の端末装置の各々との双方向通信が可能な通信接続を確立する手段と、前記通信接続を確立した通信相手である端末装置の各々を管理する接続相手管理手段と、前記端末装置の各々から映像情報及び音声情報を受信する手段と、前記複数の端末装置の各々から受信した音声情報の各々を所定の文字コード列に変換する手段と、前記所定の文字コード列の内容を、必要に応じて所定の言語の情報に翻訳して翻訳済の文字コード列を生成する手段と、前記文字コード列に対して、前記端末装置に対応する発言者の識別名及び発言時刻を追記して議事録情報を作成する手段と、前記受信した映像情報と音声情報とを合成して議事録情報を作成する手段と、前記議事録情報に対して、必要に応じて前記文字コード列を字幕情報として付加する手段と、前記議事録情報を前記複数の端末装置の各々に送信する手段と、前記通信接続を切断する手段とを備えるテレビ会議システム。
(付記2)会議に使用する複数の端末装置の各々との双方向通信が可能な通信接続を確立する手段と、前記通信接続を確立した通信相手である端末装置の各々を管理する接続相手管理手段と、前記端末装置の各々から映像情報及び音声情報を受信する受信手段と、前記複数の端末装置の各々から受信した音声情報の各々を所定の文字コード列に変換する音声認識手段と、前記所定の文字コード列の内容を、必要に応じて所定の言語の情報に翻訳して翻訳済の文字コード列を生成する手段と、前記文字コード列に対して、前記端末装置に対応する発言者の識別名及び発言時刻を追記して議事録情報を作成する手段と、前記受信した映像情報と音声情報とを合成して議事録情報を作成する手段と、前記議事録情報に対して、必要に応じて前記文字コード列を字幕情報として付加する手段と、前記議事録情報を前記複数の端末装置の各々に送信する手段と、前記通信接続を切断する手段とを備える多地点接続装置。
(付記3)前記音声認識手段は、前記受信した音声情報の音声認識処理を並列に行うことが可能な並列処理構造を有する請求項2に記載の多地点接続装置。
(付記4)前記端末装置に対応する発言者の識別名は、前記接続相手管理手段及び前記受信手段での処理結果を参照して決定する請求項2に記載の多地点接続装置。
(付記5)多地点接続装置の制御をコンピュータに実行させるためのコンピュータプログラムであって、会議に使用する複数の端末装置の各々との双方向通信が可能な通信接続を確立するステップと、前記通信接続を確立した通信相手である端末装置の各々を管理する接続相手管理ステップと、前記端末装置の各々から映像情報及び音声情報を受信する受信ステップと、前記複数の端末装置の各々から受信した音声情報の各々を所定の文字コード列に変換する音声認識ステップと、前記所定の文字コード列の内容を、必要に応じて所定の言語の情報に翻訳して翻訳済の文字コード列を生成するステップと、前記文字コード列に対して、前記端末装置に対応する発言者の識別名及び発言時刻を追記して議事録情報を作成するステップと、前記受信した映像情報と音声情報とを合成して議事録情報を作成するステップと、前記議事録情報に対して、必要に応じて前記文字コード列を字幕情報として付加するステップと、前記議事録情報を前記複数の端末装置の各々に送信するステップと、前記通信接続を切断するステップとを備えるコンピュータプログラム。
11〜1n 端末装置
31 MCU(本発明の実施形態に係る多地点接続装置)
101 送信部
102 受信部
103 再生部
104 接続部
105 切断部
106 接続相手管理部
301 送信部
302 受信部
303 合成部
304 接続部
305 切断部
306 接続相手管理部
307 音声認識部
308 議事録作成部
309 字幕作成部

Claims (5)

  1. 会議に使用する複数の端末装置の各々は、
    多地点接続装置との双方向通信が可能な通信接続を確立する手段と、
    自己の設置場所において採取された映像情報及び音声情報を多地点接続装置に送信する手段と、
    前記多地点接続装置から議事録情報を受信する手段と、
    前記議事録情報を再生する手段と、
    前記通信接続を切断する手段と
    を備え、
    前記多地点接続装置は、
    前記複数の端末装置の各々との双方向通信が可能な通信接続を確立する手段と、
    前記通信接続を確立した通信相手である端末装置の各々を管理する接続相手管理手段と、
    前記端末装置の各々から映像情報及び音声情報を受信する手段と、
    前記複数の端末装置の各々から受信した音声情報の各々を所定の文字コード列に変換する手段と、
    前記所定の文字コード列の内容を、必要に応じて所定の言語の情報に翻訳して翻訳済の文字コード列を生成する手段と、
    前記文字コード列に対して、前記端末装置に対応する発言者の識別名及び発言時刻を追記して議事録情報を作成する手段と、
    前記受信した映像情報と音声情報とを合成して議事録情報を作成する手段と、
    前記議事録情報に対して、必要に応じて前記文字コード列を字幕情報として付加する手段と、
    前記議事録情報を前記複数の端末装置の各々に送信する手段と、
    前記通信接続を切断する手段と
    を備えるテレビ会議システム。
  2. 会議に使用する複数の端末装置の各々との双方向通信が可能な通信接続を確立する手段と、
    前記通信接続を確立した通信相手である端末装置の各々を管理する接続相手管理手段と、
    前記端末装置の各々から映像情報及び音声情報を受信する受信手段と、
    前記複数の端末装置の各々から受信した音声情報の各々を所定の文字コード列に変換する音声認識手段と、
    前記所定の文字コード列の内容を、必要に応じて所定の言語の情報に翻訳して翻訳済の文字コード列を生成する手段と、
    前記文字コード列に対して、前記端末装置に対応する発言者の識別名及び発言時刻を追記して議事録情報を作成する手段と、
    前記受信した映像情報と音声情報とを合成して議事録情報を作成する手段と、
    前記議事録情報に対して、必要に応じて前記文字コード列を字幕情報として付加する手段と、
    前記議事録情報を前記複数の端末装置の各々に送信する手段と、
    前記通信接続を切断する手段と
    を備える多地点接続装置。
  3. 前記音声認識手段は、前記受信した音声情報の音声認識処理を並列に行うことが可能な並列処理構造を有する
    請求項2に記載の多地点接続装置。
  4. 前記端末装置に対応する発言者の識別名は、前記接続相手管理手段及び前記受信手段での処理結果を参照して決定する
    請求項2に記載の多地点接続装置。
  5. 多地点接続装置の制御をコンピュータに実行させるためのコンピュータプログラムであって、
    会議に使用する複数の端末装置の各々との双方向通信が可能な通信接続を確立するステップと、
    前記通信接続を確立した通信相手である端末装置の各々を管理する接続相手管理ステップと、
    前記端末装置の各々から映像情報及び音声情報を受信する受信ステップと、
    前記複数の端末装置の各々から受信した音声情報の各々を所定の文字コード列に変換する音声認識ステップと、
    前記所定の文字コード列の内容を、必要に応じて所定の言語の情報に翻訳して翻訳済の文字コード列を生成するステップと、
    前記文字コード列に対して、前記端末装置に対応する発言者の識別名及び発言時刻を追記して議事録情報を作成するステップと、
    前記受信した映像情報と音声情報とを合成して議事録情報を作成するステップと、
    前記議事録情報に対して、必要に応じて前記文字コード列を字幕情報として付加するステップと、
    前記議事録情報を前記複数の端末装置の各々に送信するステップと、
    前記通信接続を切断するステップと
    を備えるコンピュータプログラム。
JP2012067303A 2012-03-23 2012-03-23 テレビ会議システム及び多地点接続装置並びにコンピュータプログラム Pending JP2013201505A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012067303A JP2013201505A (ja) 2012-03-23 2012-03-23 テレビ会議システム及び多地点接続装置並びにコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012067303A JP2013201505A (ja) 2012-03-23 2012-03-23 テレビ会議システム及び多地点接続装置並びにコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2013201505A true JP2013201505A (ja) 2013-10-03

Family

ID=49521412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012067303A Pending JP2013201505A (ja) 2012-03-23 2012-03-23 テレビ会議システム及び多地点接続装置並びにコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2013201505A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016136468A1 (ja) * 2015-02-23 2017-11-30 ソニー株式会社 送信装置、送信方法、受信装置、受信方法、情報処理装置および情報処理方法
CN113472743A (zh) * 2021-05-28 2021-10-01 引智科技(深圳)有限公司 一种多语种会议分享与个性化编辑方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016136468A1 (ja) * 2015-02-23 2017-11-30 ソニー株式会社 送信装置、送信方法、受信装置、受信方法、情報処理装置および情報処理方法
CN113472743A (zh) * 2021-05-28 2021-10-01 引智科技(深圳)有限公司 一种多语种会议分享与个性化编辑方法

Similar Documents

Publication Publication Date Title
US11699456B2 (en) Automated transcript generation from multi-channel audio
US9298704B2 (en) Language translation of visual and audio input
JP5564459B2 (ja) ビデオ会議に翻訳を追加するための方法及びシステム
US10885318B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
US7047191B2 (en) Method and system for providing automated captioning for AV signals
US20080275700A1 (en) Method of and System for Modifying Messages
US20200294525A1 (en) Generating visual closed caption for sign language
JP2005341015A (ja) 議事録作成支援機能を有するテレビ会議システム
JP2003345379A6 (ja) 音声映像変換装置及び方法、音声映像変換プログラム
WO2019029073A1 (zh) 传屏方法、装置、电子设备及计算机可读存储介质
CN110740283A (zh) 一种基于视频通讯的语音转文字方法
JP2016091057A (ja) 電子機器
JPH10136327A (ja) ディスクトップ会議システム
US20240233745A1 (en) Performing artificial intelligence sign language translation services in a video relay service environment
US8553855B2 (en) Conference support apparatus and conference support method
JP2013201505A (ja) テレビ会議システム及び多地点接続装置並びにコンピュータプログラム
KR102160117B1 (ko) 장애인을 위한 실시간 방송 컨텐츠 제작 시스템
JP2009122989A (ja) 翻訳装置
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
US11848026B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
JP2019176375A (ja) 動画出力装置、動画出力方法および動画出力プログラム
JPWO2014148190A1 (ja) 要約筆記支援システム、情報配信装置、端末装置、要約筆記支援方法、及びプログラム
JP2005025571A (ja) 業務支援装置、業務支援方法およびそのプログラム
KR102463283B1 (ko) 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템
US20230388730A1 (en) Method for providing audio data, and associated device, system and computer program