JP2010233045A - 会議支援装置、会議支援方法、会議システム、会議支援プログラム - Google Patents

会議支援装置、会議支援方法、会議システム、会議支援プログラム Download PDF

Info

Publication number
JP2010233045A
JP2010233045A JP2009079511A JP2009079511A JP2010233045A JP 2010233045 A JP2010233045 A JP 2010233045A JP 2009079511 A JP2009079511 A JP 2009079511A JP 2009079511 A JP2009079511 A JP 2009079511A JP 2010233045 A JP2010233045 A JP 2010233045A
Authority
JP
Japan
Prior art keywords
conference
image
participant
voice
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009079511A
Other languages
English (en)
Other versions
JP5201050B2 (ja
Inventor
Mizuho Nakamura
瑞穂 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2009079511A priority Critical patent/JP5201050B2/ja
Priority to US12/659,570 priority patent/US8560315B2/en
Publication of JP2010233045A publication Critical patent/JP2010233045A/ja
Application granted granted Critical
Publication of JP5201050B2 publication Critical patent/JP5201050B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

【課題】呼びかけを受けた会議参加者が、容易に自身が呼びかけを受けたことを認識できる会議支援装置、会議支援方法、会議システム、会議支援プログラムを提供することを目的とする。
【解決手段】MCUは、会議端末において撮影された撮影画像と、会議端末において録音された音声とを受信する。受信した撮影画像が並べられる(71、72、73)。受信した音声が音声認識され、音声に含まれる語彙を表現するテキストデータ(92、93)が作成される。作成されたテキストデータ93が、並べられた撮影画像のうち音声を発声した第一参加者(FFFFさん)86に対応付けられる。音声認識の結果に基づき、音声会話の相手方の者(第二参加者)が特定される。テキストデータの表示枠91が、第二参加者(AAAAさん)81に対応付けられる。結果作成された表示画像は、会議端末のディスプレイに表示される。
【選択図】図17

Description

本発明は、会議支援装置、会議支援方法、会議システム、会議支援プログラムに関する。より詳細には、発話内容をテキスト化して表示可能な会議支援装置、会議支援方法、会議システム、会議支援プログラムに関する。
従来のテレビ会議システムでは、テレビ会議に参加する会議参加者の撮影画像がディスプレイに表示される。また、テレビ会議に参加する会議参加者の発話した音声がスピーカから出力される。ユーザは、ディスプレイに映し出される撮影画像やスピーカから出力される音声を介し、他の拠点の会議参加者の様子を認識することができる。
他の会議参加者間で行われている会話に対して注意が及ばず、会議参加者が会話を聞き逃してしまう場合がある。これに対し、例えば特許文献1に記載のコミュニケーション把握装置では、テレビ会議における発話内容がテキスト化されてディスプレイに表示される。テキスト情報は、ディスプレイに表示された状態の会議参加者の撮影画像の其々に対応付けて表示される。従って会議参加者は、表示されたテキスト情報を参照することによって、他の会議参加者間で行われていた会話の内容を後から参照することができる。
特開2002−344915号公報
しかしながら会議参加者は、会話に対して注意が及んでいない状態で不意に呼びかけの会話を受けた場合、この呼びかけに気づかないことがある。このような場合には、上述のような装置を使用した場合であっても、表示されているテキスト情報を直ぐに参照し、会話に参加することができないという問題点があった。
本発明は上述の問題点を解決するためになされたものであり、呼びかけを受けた会議参加者が、容易に自身が呼びかけを受けたことを認識できる会議支援装置、会議支援方法、会議システム、会議支援プログラムを提供することを目的とする。
上述の問題点を解決するために、請求項1に係る発明の会議支援装置は、複数の会議端末間の通信を制御することによって、前記会議端末を使用する会議参加者間で行われるテレビ会議を支援する会議支援装置であって、前記複数の会議端末の撮影手段によって撮影された撮影画像であって、少なくとも一名の前記会議参加者が撮影された撮影画像を、前記会議端末から受信する画像受信手段と、前記複数の会議端末のうち少なくとも一の前記会議端末である第一会議端末の音声入力手段から入力される音声であって、前記第一会議端末を使用する前記会議参加者である第一参加者によって発話された音声を、前記第一会議端末から受信する音声受信手段と、前記画像受信手段によって受信された前記撮影画像、及び、前記音声受信手段によって受信された前記音声を記憶する第一記憶手段と、前記第一記憶手段に記憶された前記音声を認識する音声認識手段と、前記音声認識手段によって認識された結果に基づいて、前記音声に含まれる語彙を表現するテキストデータを作成するテキスト作成手段と、前記音声認識手段によって認識された結果に基づいて、前記音声が発話された相手方の前記会議参加者である第二参加者を特定する相手特定手段と、前記会議端末の表示手段に表示させる表示画像であって、前記第一記憶手段に記憶された前記撮影画像から構成され、前記撮影画像のうち前記第一参加者に相当する部分に、前記テキスト作成手段によって作成された前記テキストデータが対応付けられ、且つ、前記撮影画像のうち前記第一参加者、及び、前記相手特定手段によって特定された前記第二参加者のうち少なくとも一方に相当する部分に、所定の画像が対応付けられた前記表示画像を作成する画像作成手段と、前記画像作成手段によって作成された前記表示画像を前記複数の会議端末の前記表示手段に表示させるために、前記表示画像を前記複数の会議端末に送信する送信手段とを備えている。
また、請求項2に係る発明の会議支援装置は、請求項1に記載の発明の構成に加えて、前記画像作成手段は、前記テキストデータを表示させる表示枠を前記所定の画像として、前記撮影画像のうち前記第二参加者に相当する部分に対応づけることによって、前記表示画像を作成することを特徴とする。
また、請求項3に係る発明の会議支援装置は、請求項1又は2に記載の発明の構成に加えて、前記相手特定手段は、前記音声認識手段によって認識された結果が所定の語彙を含む場合に、すべての前記会議参加者を前記第二参加者として特定し、前記画像作成手段は、前記相手特定手段において、すべての前記会議参加者が前記第二参加者として特定された場合には、前記撮影画像のうちすべての前記会議参加者に相当する部分に前記所定の画像を対応付けることによって、前記表示画像を作成することを特徴とする。
また、請求項4に係る発明の会議支援装置は、請求項1乃至3のいずれかに記載の発明の構成に加えて、前記会議参加者の画像である参加者画像を、前記会議参加者を特定する属性情報に対応付けて記憶する第二記憶手段を備え、前記音声受信手段は、前記音声とともに、前記音声を発声した前記第一参加者の前記属性情報を受信し、前記画像作成手段は、前記第二記憶手段に記憶されている前記参加者画像のうち、前記音声受信手段によって受信された前記属性情報と同一の前記属性情報に対応付けられた前記参加者画像に基づいて、前記撮影画像のうち前記第一参加者に相当する部分を特定し、特定された部分に前記テキストデータを対応付けることによって前記表示画像を作成することを特徴とする。
また、請求項5に係る発明の会議支援装置は、請求項1に記載の発明の構成に加えて、前記会議参加者の画像である参加者画像を、前記会議参加者を特定する属性情報に対応付けて記憶する第二記憶手段と、前記第二記憶手段に記憶された前記参加者画像のうち、前記相手特定手段によって特定された前記第二参加者の前記属性情報に対応付けられた前記参加者画像を第二参加者画像として選択する選択手段を備え、前記画像作成手段は、前記撮影画像のうち前記第一参加者に相当する部分に前記テキストデータが対応付けられ、且つ、前記選択手段によって選択された前記第二参加者画像を前記所定の画像として、前記撮影画像のうち前記第一参加者に相当する部分に対応付けることによって、前記表示画像を作成することを特徴とする。
また、請求項6に係る発明の会議支援装置は、請求項5に記載の発明の構成に加えて、前記音声受信手段は、前記音声とともに、前記音声を発声した前記第一参加者の前記属性情報を受信し、前記画像作成手段は、前記第二記憶手段に記憶されている前記参加者画像のうち、前記音声受信手段によって受信された前記属性情報と同一の前記属性情報に対応付けられた前記参加者画像に基づいて、前記撮影画像のうち前記第一参加者に相当する部分を特定し、特定された部分に前記テキストデータを対応付け、前記選択手段によって選択された前記第二参加者画像を前記所定の画像として、前記撮影画像のうち前記第一参加者に相当する部分に対応付けることによって、前記表示画像を作成することを特徴とする。
また、請求項7に係る発明の会議支援方法は、複数の会議端末間の通信を制御することによって、前記会議端末を使用する会議参加者間で行われるテレビ会議を支援する会議支援方法であって、前記複数の会議端末の撮影手段によって撮影された撮影画像であって、少なくとも一名の前記会議参加者が撮影された撮影画像を前記会議端末から受信する画像受信ステップと、前記複数の会議端末のうち少なくとも一の前記会議端末である第一会議端末の音声入力手段から入力される音声であって、前記第一会議端末を使用する前記会議参加者である第一参加者によって発話された音声を、前記第一会議端末から受信する音声受信ステップと、前記音声受信ステップにおいて受信され、第一記憶手段に記憶された前記音声を認識する音声認識ステップと、前記音声認識ステップによって認識された結果に基づいて、前記音声に含まれる語彙を表現するテキストデータを作成するテキスト作成ステップと、前記音声認識ステップによって認識された結果に基づいて、前記音声が発話された相手方の前記会議参加者である第二参加者を特定する相手特定ステップと、前記会議端末の表示手段に表示させる表示画像であって、前記画像受信ステップにおいて受信され、前記第一記憶手段に記憶された前記撮影画像から構成され、前記撮影画像のうち前記第一参加者に相当する部分に、前記テキスト作成ステップによって作成された前記テキストデータが対応付けられ、且つ、前記撮影画像のうち前記第一参加者、及び、前記相手特定ステップによって特定された前記第二参加者のうち少なくとも一方に相当する部分に、所定の画像が対応付けられた前記表示画像を作成する画像作成ステップと、前記画像作成ステップによって作成された前記表示画像を前記複数の会議端末の前記表示手段に表示させるために、前記表示画像を前記複数の会議端末に送信する送信ステップとを備えている。
また、請求項8に係る発明の会議システムは、複数の会議端末と、前記複数の会議端末間の通信を制御する会議支援装置とを少なくとも含む会議システムであって、前記会議支援装置は、前記複数の会議端末の撮影手段によって撮影された撮影画像であって、少なくとも一名の前記会議参加者が撮影された撮影画像を前記会議端末から受信する画像受信手段と、前記複数の会議端末のうち少なくとも一の前記会議端末である第一会議端末の音声入力手段から入力される音声であって、前記第一会議端末を使用する前記会議参加者である第一参加者によって発話された音声を、前記第一会議端末から受信する音声受信手段と、前記画像受信手段によって受信された前記撮影画像、及び、前記音声受信手段によって受信された前記音声を記憶する第一記憶手段と、前記第一記憶手段に記憶された前記音声を認識する音声認識手段と、前記音声認識手段によって認識された結果に基づいて、前記音声に含まれる語彙を表現するテキストデータを作成するテキスト作成手段と、前記音声認識手段によって認識された結果に基づいて、前記音声が発話された相手方の前記会議参加者である第二参加者を特定する相手特定手段と、前記会議端末の表示手段に表示させる表示画像であって、前記第一記憶手段に記憶された前記撮影画像から構成され、前記撮影画像のうち前記第一参加者に相当する部分に、前記テキスト作成手段によって作成された前記テキストデータが対応付けられ、且つ、前記撮影画像のうち前記第一参加者、及び、前記相手特定手段によって特定された前記第二参加者のうち少なくとも一方に相当する部分に、所定の画像が対応付けられた前記表示画像を作成する画像作成手段と、前記画像作成手段によって作成された前記表示画像を前記複数の会議端末の前記表示手段に表示させるために、前記表示画像を前記複数の会議端末に送信する送信手段とを備え、前記会議端末は、前記撮影手段によって撮影された前記撮影画像を前記会議支援装置に対して送信する端末第一送信手段と、前記音声入力手段から入力された前記音声を前記会議支援装置に対して送信する端末第二送信手段と、前記端末第一送信手段によって送信された前記撮影画像、及び、前記端末第二送信手段によって送信された前記音声に基づいて、前記会議支援装置において作成される前記表示画像を受信する端末受信手段と、前記端末受信手段において受信された前記表示画像を前記表示手段に表示させる表示制御手段とを備えている。
また、請求項9に係る発明の会議支援プログラムは、請求項1乃至6のいずれかに記載の会議支援装置の各処理手段としてコンピュータを機能させる。
請求項1に係る発明の会議支援装置は、テレビ会議に参加する複数の会議参加者のうち発話した者(第一参加者)の音声が音声認識される。会議端末の表示手段に表示させる表示画像に含まれる複数の会議参加者のうち、第一参加者に相当する部分に、音声認識された結果のテキストデータが対応付けられる。第一参加者及び第二参加者のうち少なくとも一方に相当する部分に、所定の画像が対応付けられる。このようにして作成された表示画像を会議端末に送信し、会議端末の表示手段に表示させる。これによって会議参加者は、発話者の音声履歴を後から参照することができる。また会議参加者は、所定の画像が対応付けられた表示データを視認することによって、会話の相手方が誰であるかを認識できる。
また、請求項2に係る発明の会議支援装置は、請求項1に記載の発明の効果に加えて、会議参加者は、表示画像に対応付けられた表示枠を視認することによって、会話の相手方が誰であるかを認識できる。
また、請求項3に係る発明の会議支援装置は、請求項1又は2に記載の発明の効果に加えて、会議参加者は、会議参加者が他の会議参加者全員を相手方として発話していることを認識できる。
また、請求項4に係る発明の会議支援装置は、請求項1乃至3のいずれかに記載の発明の効果に加えて、第一会議端末を使用する会議参加者が複数存在する場合であっても、第一参加者を特定してテキストデータを対応付けることが可能となる。従って、第一会議端末を使用する会議参加者が複数存在する場合であっても、音声を発声した会議参加者を特定することができる。
また、請求項5に係る発明の会議支援装置は、請求項1に記載の発明の効果に加えて、会議参加者は、第一参加者の画像に対応付けられた参加者画像を視認することによって、会話の相手方が誰であるかを認識できる。
また、請求項6に係る発明の会議支援装置は、請求項5に記載の発明の効果に加えて、第一会議端末を使用する会議参加者が複数存在する場合であっても、第一参加者を特定してテキストデータを対応付けることが可能となる。従って、第一会議端末を使用する会議参加者が複数存在する場合であっても、音声を発声した会議参加者を特定することができる。
また、請求項7に係る発明の会議支援方法では、テレビ会議に参加する複数の会議参加者のうち発話した者(第一参加者)の音声が音声認識される。会議端末の表示手段に表示させる表示画像を構成する複数の会議参加者のうち、第一参加者に相当する部分に、音声認識された結果のテキストデータが対応付けられる。第一参加者及び第二参加者のうち少なくとも一方に相当する部分に、所定の画像が対応付けられる。このようにして作成された表示データを会議端末に送信し、会議端末の表示手段に表示させる。これによって、発話者の音声履歴を後から参照することができる。また第二参加者は、所定の画像が対応付けられた表示データを視認することによって、自身に対して発話されたことを認識できる。
また、請求項8に係る発明の会議システムでは、テレビ会議に参加する複数の会議参加者のうち発話した者(第一参加者)の音声が音声認識される。会議端末の表示手段に表示させる表示画像に含まれる複数の会議参加者のうち、第一参加者に相当する部分に、音声認識された結果のテキストデータが対応付けられる。第一参加者及び第二参加者のうち少なくとも一方に相当する部分に、所定の画像が対応付けられる。このようにして作成された表示画像を会議端末に送信し、会議端末の表示手段に表示させる。これによって会議参加者は、発話者の音声履歴を後から参照することができる。また第二参加者は、所定の画像が対応付けられた表示データを視認することによって、自身に対して発話されたことを認識できる。
また、請求項9に係る発明の会議支援プログラムは、請求項1乃至6のいずれかに記載の会議支援装置の各処理手段としてコンピュータを機能させることができる。
テレビ会議システム1の概要を示す模式図である。 MCU3の電気的構成を示す模式図である。 HDD61の記憶領域を示す模式図である。 ログインテーブル6111を示す模式図である。 会議端末4の電気的構成を示す模式図である。 HDD31の記憶領域を示す模式図である。 ログインテーブル3111を示す模式図である。 利用者テーブル3121を示す模式図である。 表示画像作成処理を示すフローチャートである。 表示画像作成処理を示すフローチャートである。 第一作成処理を示すフローチャートである。 第二作成処理を示すフローチャートである。 登録情報受信処理を示すフローチャートである。 ログイン処理を示すフローチャートである。 ログイン処理を示すフローチャートである。 参加者登録処理を示すフローチャートである。 ディスプレイ28に表示される表示画像の一例を示す図である。 ディスプレイ28に表示される表示画像の一例を示す図である。 変形例における第一作成処理を示す模式図である。 変形例においてディスプレイ28に表示される表示画像の一例を示す図である。
以下、本発明の一実施形態であるテレビ会議システム及びMCU(Multi point Control Unit)について、図面を参照して説明する。なおこれらの図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、それのみに限定する趣旨ではなく、単なる説明例である。
図1を参照し、MCU3を含むテレビ会議システム1の構成について説明する。図1に示すように、テレビ会議システム1は、MCU3と会議端末4〜6とを備えている。MCU3及び会議端末4〜6は、ネットワーク2を介して相互に接続される。テレビ会議システム1では、会議端末4〜6において撮影された画像(以下「撮影画像」という。)や、入力された音声のデータが、MCU3に対して送信される。MCU3では、会議端末4〜6から受信した撮影画像に基づいて、会議端末4〜6のディスプレイに表示させる画像(以下「表示画像」という。)が作成される。作成された表示画像及び音声が、MCU3から会議端末4〜6に対して送信される。会議端末4〜6では、受信した表示画像をディスプレイに表示させる。また、受信した音声をスピーカから出力させる。以上のようにしてテレビ会議が実施される。
テレビ会議への参加を希望する者は、会議端末4〜6が備えるRFIDリーダにRFIDタグを接触させることによって、テレビ会議にログインする。ログインが完了すると、例えば会議端末4が備えるカメラ34による撮影が開始される。また、会議端末4が備えるマイク35による録音が開始される。同時に、MCU3にて作成された表示画像が会議端末4〜6のディスプレイ28に表示され、他の会議端末において録音された音声がスピーカ37から出力される。テレビ会議にログインした者(以下「会議参加者」という。)は、表示画像に含まれる他の会議参加者の撮影画像や録音された音声を確認しながら、会議を行うことが可能となる。
図1に示す例では、「氏名:AAAA」(ユーザID:A0001)、「氏名:BBBB」(ユーザID:B0001)の二名が、会議端末4を使用してテレビ会議に参加している。「氏名:CCCC」(ユーザID:C0001)、「氏名:DDDD」(ユーザID:D0001)、「氏名:EEEE」(ユーザID:E0001)の三名が、会議端末5を使用してテレビ会議に参加している。会議参加者「氏名:FFFF」(ユーザID:F0001)が、会議端末6を使用してテレビ会議に参加している。
本実施の形態では、MCU3によって作成される表示画像は、会議端末4〜6にて撮影された撮影画像を少なくとも含む構成を有している。また、MCU3が受信した音声は音声認識される。認識結果に基づき、音声に含まれる語彙を表現したテキストデータが作成される。撮影画像のうち音声を発声した会議参加者(以下「第一参加者」という。)に相当する部分に、作成されたテキストデータが対応付けられる。会議参加者は、ディスプレイに表示される表示画像を視認し、表示画像中に示されるテキストデータを確認することによって、第一参加者とその発話内容とを認識できる。
加えてMCU3では、音声認識結果に基づき、会話の相手方の会議参加者(以下「第二参加者」という。)が特定される。特定された第二参加者を認識可能なように、撮影画像のうち第二参加者に相当する部分に、テキストデータの表示枠が対応付けられる。会議参加者は、ディスプレイに表示される表示画像を視認し、表示画像中に示される表示枠を確認することによって、第二参加者を特定し、会話の相手方が誰であるかを認識できる。
図2を参照し、MCU3の電気的構成について説明する。図2に示すように、MCU3は、MCU3の制御を司るコントローラとしてのCPU50が設けられている。CPU50には、BIOS等を記憶したROM51と、各種データを一時的に記憶するRAM52と、データの受け渡しの仲介を行うI/Oインタフェイス60とが接続されている。I/Oインタフェイス60には、各種記憶エリアを有するハードディスクドライブ61(以下「HDD61」という。)が接続されている。
I/Oインタフェイス60には、ネットワーク2と通信するための通信装置53と、CD−ROMドライブ54とが各々接続されている。CD−ROMドライブ54に挿入されるCD−ROM55には、MCU3のメインプログラムや、本発明の通信制御プログラム等が記憶されている。CD−ROM55の導入時には、これら各種プログラムが、CD−ROM55からHDD61にセットアップされて、後述するプログラム記憶領域616(図3参照)に記憶される。
図3を参照し、HDD61の各種記憶領域について説明する。HDD61には、ログインテーブル記憶領域611、参加者画像記憶領域612、単語辞書記憶領域613、撮影画像記憶領域614、音声記憶領域615、プログラム記憶領域616、その他の情報記憶領域617が設けられている。以下、記憶されている情報について説明する。
ログインテーブル記憶領域611には、テレビ会議にログインしている会議参加者を管理するログインテーブル6111(図4参照)が記憶される。参加者画像記憶領域612には、会議端末4〜6から受信した会議参加者の撮影画像(以下「参加者画像」という。)が記憶される。単語辞書記憶領域613には、音声認識処理の際に参照される単語辞書が記憶される。撮影画像記憶領域614には、会議端末4〜6から受信した撮影画像が記憶される。音声記憶領域615には、会議端末4〜6から受信した音声が記憶される。プログラム記憶領域616には、MCU3のメインプログラムや、会議端末4〜6と通信を行うことによってテレビ会議を実現させるための通信制御プログラム等が記憶される。その他の情報記憶領域617には、MCU3で使用されるその他の情報が記憶される。なお、MCU3がHDD61を備えていない専用機の場合は、ROM51に各種プログラムが記憶される。
図4を参照し、ログインテーブル6111について説明する。ログインテーブル6111には、テレビ会議にログインしている会議参加者に関する情報が記憶される。具体的には、ログインしている会議参加者の使用する会議端末4〜6の「端末ID」、会議参加者の「ユーザID」、会議参加者の「氏名」、及び、参加者画像の「ファイル名」が記憶される。なお、「ファイル名」に対応する参加者画像自体は、参加者画像記憶領域612に記憶される。
「ユーザID」としては、会議参加者を特定する為の属性情報が記憶される。本実施の形態では、「ユーザID」として、ログイン時に会議端末4〜6のRFIDリーダ36(図5参照)にて読み出されるRFIDタグのIDが使用される。「端末ID」は、会議端末4〜6を特定する為の識別情報が記憶される。「端末ID」としては、会議端末4〜6のMACアドレスやIPアドレス等が使用可能である。「氏名」としては、会議参加者の氏名が記憶される。「ファイル名」としては、「ユーザID」及び「氏名」にて特定される会議参加者の参加者画像のファイル名が記憶される。
ログインテーブル6111に記憶される上述の情報は、テレビ会議へのログイン時において会議端末4〜6から送信される登録情報に含まれる。MCU3では、会議端末4〜6から登録情報を受信した場合に、登録情報に含まれるユーザID、端末ID、氏名、及び参加者画像のファイル名が、ログインテーブル6111に記憶される。登録情報に含まれる参加者画像が、参加者画像記憶領域612に記憶される。詳細は後述する。
図4に示す例では、図1において会議端末4〜6を使用する会議参加者(氏名:AAAA、ユーザID:A0001)、(氏名:BBBB、ユーザID:B0001)・・・の情報が記憶されている。ファイル名「A.jpg」「B.jpg」・・・に対応する参加者画像は、参加者画像記憶領域612に記憶される。
図5を参照し、会議端末4の電気的構成について説明する。なお、会議端末4〜6は全て同じ構成であるので、ここでは会議端末4の構成についてのみ説明し、他の会議端末5、6については説明を省略する。
会議端末4には、会議端末4の制御を司るコントローラとしてのCPU20が設けられている。CPU20には、BIOS等を記憶したROM21と、各種データを一時的に記憶するRAM22と、データの受け渡しの仲介を行うI/Oインタフェイス30とが接続されている。
I/Oインタフェイス30には、ネットワーク2と通信するための通信装置25と、各種記憶エリアを有するハードディスクドライブ31(以下「HDD31」という。)と、RFIDタグの情報を読み出すことが可能なRFIDリーダ36と、会議端末4の利用者を撮影するためのカメラ34と、会議端末4の利用者の音声を取り込むためのマイク35と、音声を出力する為のスピーカ37と、マウス27と、ビデオコントローラ23と、キーコントローラ24と、CD−ROMドライブ26とが各々接続されている。ビデオコントローラ23には、ディスプレイ28が接続されている。キーコントローラ24には、キーボード29が接続されている。CD−ROMドライブ26に挿入されるCD−ROM114には、会議端末4のメインプログラムや通信制御プログラム等が記憶されている。CD−ROM114の導入時には、これら各種プログラムが、CD−ROM114からHDD31にセットアップされて、後述するプログラム記憶領域316(図6参照)に記憶される。
図6を参照し、HDD31の各種記憶領域について説明する。HDD31には、ログインテーブル記憶領域311、利用者情報記憶領域312、利用者画像記憶領域313、撮影画像記憶領域314、音声記憶領域315、プログラム記憶領域316、その他の情報記憶領域317が設けられている。以下、記憶されている情報について説明する。
ログインテーブル記憶領域311には、会議端末4を使用してテレビ会議にログインしている会議参加者を管理するログインテーブル3111(図7参照)が記憶される。利用者情報記憶領域312には、会議端末4を利用する者を管理する利用者テーブル3121(図8参照)が記憶される。利用者画像記憶領域313には、会議端末4を利用する者の撮影画像が記憶される。撮影画像記憶領域314には、会議端末4のカメラ34にて撮影された撮影画像が記憶される。音声記憶領域315には、会議端末4のマイク35を介して入力された音声が記憶される。プログラム記憶領域316には、会議端末4のメインプログラムや、MCU3と通信を行うことによって会議端末5,6との間でテレビ会議を実現させるための通信制御プログラム等が記憶される。その他の情報記憶領域317には、会議端末4で使用されるその他の情報が記憶される。なお、会議端末4がHDD31を備えていない専用機の場合は、ROM21に各種プログラムが記憶される。
図7を参照し、ログインテーブル3111について説明する。ログインテーブル3111には、会議端末4を使用してテレビ会議にログインしている会議参加者に関する情報が記憶される。具体的には、ログインしている会議参加者の「ユーザID」、会議参加者の「氏名」、テレビ会議中に撮影される撮影画像のうち、会議参加者に相当する部分の画像が位置する「配置情報」、及び、参加者画像の「ファイル名」が記憶される。なお、「ファイル名」に対応する参加者画像自体は、利用者画像記憶領域313に記憶される。
上述のうち、「ユーザID」「氏名」「ファイル名」として記憶される情報の内容は、MCU3のログインテーブル6111に記憶されている情報の内容と同一であるので、説明を省略する。会議端末4の利用者によってRFIDタグがRFIDリーダ36に近付けられ、RFIDリーダ36によってRFIDタグのIDが読み込まれた場合に、読み込まれたIDが「ユーザID」として記憶される。読み込まれた「ユーザID」に対応する「氏名」「ファイル名」が、利用者テーブル3121(図8参照)から特定され記憶される。配置情報の詳細については後述する。
図7に示す例では、図1において会議端末4を使用する会議参加者(氏名:AAAA、ユーザID:A0001)、(氏名:BBBB、ユーザID:B0001)の情報が記憶されている。配置情報として、座標情報(a,y)(b,y)が其々記憶されている。ファイル名「A.jpg」「B.jpg」・・・に対応する参加者画像は、利用者画像記憶領域313に記憶される。
図8を参照し、利用者テーブル3121について説明する。利用者テーブル3121には、会議端末4を利用してテレビ会議に参加する可能性のある全ての者(利用者)の「ユーザID」、「氏名」、及び、利用者を撮影した画像(以下「利用者画像」という。)の「ファイル名」が記憶される。なお、「ファイル名」に対応する利用者画像自体は、利用者画像記憶領域313に記憶される。「ユーザID」としては、利用者が所有するRFIDタグのIDが記憶される。「氏名」としては、利用者の氏名が記憶される。
「ユーザID」「氏名」の情報は、例えば、会議端末4の利用者によって予めキーボード29を介して入力される。「利用者画像」は、例えば「ユーザID」「氏名」が利用者によって入力された際に、カメラ34によって利用者を撮影して得られる。「ファイル名」は、得られた「利用者画像」に対して自動的に付加される。
図8に示す例では、図1にて示した会議端末4を使用してテレビ会議に参加している者(氏名:AAAA、ユーザID:A0001)、(氏名:BBBB、ユーザID:B0001)の情報の他、現在はテレビ会議に参加していないものの、会議端末4を使用して他のテレビ会議に参加する可能性のある者(氏名:XXXX、ユーザID:X0001)等が記憶されている。ファイル名「A.jpg」「B.jpg」「X.jpg」に対応する利用者画像は、利用者画像記憶領域313に記憶される。
図9〜図13を参照し、MCU3のCPU50にて実行される各種処理(表示画像作成処理、登録情報受信処理)について説明する。其々の処理は、MCU3に電源が投入された場合において、CPU50によって起動され実行される。なお上述の各処理は、所定の周期又は各処理に予め設定される優先順位に基づいて適宜スイッチングされ実行される。これによって、一方の処理が連続して実行され続けてしまい、他方の処理が実行されない状態を回避している。一方の処理が実行されている状態で他方の処理が実行される場合には、実行状態の処理は一旦中断される。そして他の処理が代わりに実行される。中断された処理は、次の実行タイミングで、中断時点から処理を再開する。
図9を参照し、表示画像作成処理について説明する。表示画像作成処理では、会議端末4〜6から受信した撮影画像及び音声に基づいて、会議端末4〜6のディスプレイ28に表示させる表示画像を作成する為の処理が実行される。
表示画像作成処理では、はじめに、ログインテーブル6111が参照され、テレビ会議に参加している会議端末4〜6が特定される(S11)。そして、特定された会議端末4〜6のうちいずれかから、撮影画像を含む通信データが受信される(S13)。次いで同一の会議端末が、音声を含む通信データを送信しているかが判断される(S15)。送信している場合(S15:YES)、音声を含む通信データが受信される。通信データには、該当する音声を発声した会議参加者のユーザIDが含まれているので、ユーザIDも併せて受信される(S17)。そしてS19に移行される。音声を含む通信データを受信していない場合(S15:NO)、そのままS19に移行する。
S19では、S13において受信された通信データに含まれる撮影画像が、送信元の会議端末の端末IDに対応付けられ、撮影画像記憶領域614に記憶される。S17において音声及びユーザIDを含む通信データを受信している場合、音声、ユーザID、及び、送信元の会議端末の端末IDが対応付けられ、音声記憶領域615に記憶される(S19)。
次いで、S11においてテレビ会議に参加していると特定された会議端末のすべてから、撮影画像を含む通信データを受信したかが判断される(S21)。撮影画像を含む通信データを受信していない会議端末が残存する場合(S21:NO)、S13に戻り、残りの会議端末から撮影画像を受信する処理が継続して実行される。
テレビ会議に参加している会議端末のすべてから撮影画像を含む通信データを受信した場合(S21:YES)、撮影画像記憶領域614に記憶された撮影画像に基づき、会議端末4〜6のディスプレイ28に表示させる表示画像が作成される。はじめに、会議端末4〜6のディスプレイ28の表示領域に収まるように、撮影画像が表示領域に並べられる(S23)。撮影画像どうしが重ならないように、其々の撮影画像の大きさが調整される。
例えば図1に示すように、合計3台(会議端末4〜6)の会議端末がテレビ会議に参加している場合には、MCU3において受信される撮影画像は三つである。この場合、ディスプレイ28の表示領域を四分割した場合の其々の領域に、撮影画像が配置される。また例えば、合計2台の会議端末がテレビ会議に参加している場合には、MCU3において受信される撮影画像は二つである。この場合、ディスプレイ28の表示領域を二分割した場合の其々の領域に、撮影画像が配置される。
次いで、音声を含む通信データを受信しているかが判断される(S25)。ログインしている会議端末のいずれからも音声を含む通信データを受信していない場合(S25:NO)、S23にて作成された表示画像が、ログインしている会議端末4〜6に対して送信される(S33)。そしてS13に戻り、上述の処理が繰り返し実行される。
音声を含む通信データを受信している場合(S25:YES)、音声記憶領域615に記憶された音声が音声認識処理によって認識される(S27)。音声認識は、従来周知の様々なアルゴリズムによって行うことが可能である。また、単語辞書記憶領域613に記憶されている単語辞書が適宜参照される。音声認識処理では、音声に含まれる語彙が特定される。次いで、音声認識処理によって特定された語彙を表現したテキストデータが作成される(S29)。
次いで、S23によって作成された表示画像を構成する撮影画像から、音声を発声した会議参加者である第一参加者に相当する部分を特定するための処理が実行される(S31)。例えば以下の処理によって第一参加者に相当する部分が特定される。
音声と併せて受信したユーザIDと、音声の送信元の会議端末の端末IDとが参照される。S23によって作成された表示画像を構成する撮影画像のうち、音声の送信元の会議端末の端末IDと同一の端末IDが対応付けられた撮影画像が選択される。また、ログインテーブル6111のうち、音声と併せて受信したユーザIDと同一のユーザIDに対応付けられた参加者画像のファイル名が特定され、特定されたファイル名の参加者画像が参加者画像記憶領域612から選択される(選択された参加者画像を「第一参加者画像」という。)。
選択された撮影画像の中に、選択された第一参加者画像に相当する画像が含まれているかが判断される。具体的には、撮影画像に含まれる人物画像のうち特に顔部分の特徴部分が抽出される。特徴部分を抽出する為の方法としては、従来周知の様々な方法が使用される。例えば、HarrisオペレータやSIFT(Scale Invariant Feature Transform)などのアルゴリズムが使用される。同様に、第一参加者画像のうち特に顔部分の特徴部分が抽出される。そして、撮影画像に含まれる人物画像に基づいて抽出された特徴点と、第一参加者画像のうち顔部分に基づいて抽出された特徴点とのマッチング処理が実施される。双方が良好に一致した場合に、判断の基となった撮影画像中の人物画像が、第一参加者に相当する部分の画像であると特定される。
図10に示すように、上述の処理の結果、第一参加者が特定された場合(S35:YES)、S23(図9参照)によって作成された表示画像を構成する撮影画像のうち、特定された人物画像に相当する部分に、S29(図9参照)にて作成されたテキストデータが対応付けられる(S37)。本実施の形態では、テキストデータを囲うように吹き出し状の表示枠(図17等参照)を設ける。特定された人物画像に、表示枠から延びる三角形部分の先端位置が重ねられる。このようにして、テキストデータと第一参加者とを対応付ける。以上のようにして、撮影画像のうち第一参加者にテキストデータが対応付けられた状態の表示画像が作成される。そしてS41に移行される。
一方、第一参加者が特定されなかった場合(S35:NO)、S23(図9参照)によって作成された表示画像を構成する撮影画像のうち、音声データの送信元の会議端末の端末IDと同一の端末IDに対応付けられている撮影画像に、S29(図9参照)にて作成されたテキストデータが挿入される(S39)。特定の会議参加者へのテキストデータの対応付けは行わない。そしてS41に移行される。
なお、本発明は上述の方法に限定されず、他の方法が使用可能である。例えばMCU3は、音声とともに、音声を発声した第一参加者が撮影画像のうちどの部分に位置しているかの情報(配置情報)を受信してもよい。そして受信した配置情報に基づいてテキストデータの対応付け位置を決定し、対応付けを行ってもよい。
なお本実施の形態では、過去において作成されたテキストデータは、会議参加者のユーザIDに対応付けられ、その他の情報記憶領域617に記憶される。テキストデータがその他の情報記憶領域617に記憶されている場合には、表示画像のうち会議参加者に相当する部分に、記憶されているテキストデータが対応付けられる。新たに作成されたテキストデータは、その他の情報記憶領域617に記憶されているテキストデータに付加され、表示される。これによって会議参加者は、会議参加者全員の音声の履歴を過去に遡って参照することができる。
次いで、音声記憶領域615に記憶されている音声が誰に対して話されているかを特定することによって、会話相手方の会議参加者である第二参加者を特定するための処理が実行される(S41〜)。具体的には、以下の方法によって実行される。
音声記憶領域615に記憶された状態の音声が参照される。音声に、無音部分が所定時間(例えば2秒)以上連続している部分が存在し、且つ、無音状態となる直前の音声の語彙が助詞以外であるかが判断される(S41)。このような条件に合致する場合、無音部分の直前の語彙に、第二参加者を特定する語彙が含まれている可能性が高いためである。
音声に上述の条件に合致する部分が存在しない場合(S41:NO)、音声は特定の会議参加者を相手方として発声されたものではないと判断される。この場合、以下特段の処理を行うことなくS13(図9参照)に戻る。そして上述の処理が繰り返し実行される。
一方、音声に上述の条件に合致する部分が存在する場合(S41:YES)、無音状態となる直前の語彙が判断される。この語彙が、ログインテーブル6111に「氏名」として記憶されている語彙と一致するかが判断される(S43)。いずれかの語彙と一致する場合(S43:YES)、対象とする音声は、一致するとされた氏名の会議参加者を相手方として、第一参加者によって発せられた音声であると判断される。相手方の会議参加者が第二参加者に相当する。第二参加者が特定された場合、第一作成処理(図11参照、後述)が実行される(S47)。
図11を参照し、第一作成処理について説明する。第一作成処理では、S37又はS39(図10参照)においてテキストデータが対応付けられた状態の表示画像を構成する撮影画像のうち、第二参加者に相当する部分が特定される。特定された部分にテキストデータの表示枠を対応付けることによって、表示画像が作成される。
図11に示すように、はじめに、S37又はS39(図10参照)においてテキストデータが対応付けられた状態の表示画像を構成する撮影画像のうち一が選択される(S61)。また、ログインテーブル6111のうち、S43において氏名が一致するとされた第二参加者のユーザIDに対応付けられているファイル名が特定される。特定されたファイル名の参加者画像が、参加者画像記憶領域612から取得される(取得された参加者画像を「第二参加者画像」という。)。
選択された撮影画像が解析され(S63)、第二参加者画像に相当する画像が撮影画像内に含まれているかが判断される(S65)。解析の方法は、例えばS31(図9参照)と同様の方法が使用可能である。第二参加者画像に相当する画像が撮影画像内に含まれていると判断された場合(S65:YES)、同一であるとされた部分の画像が、第二参加者に相当する部分の画像であると特定される。
上述の処理の結果、第二参加者に相当する部分の画像が特定された場合、第二参加者に相当すると特定された人物画像に、テキストデータを表示する為の表示枠が対応付けられる(S67)。本実施の形態では、テキストデータを囲うための吹き出し状の表示枠(図17等参照)が第二参加者に相当する部分の近傍に配置され、表示枠から延びる三角形部分の先端部分が、第二参加者に相当する部分に重ねられる。表示枠内は所定の色にて着色され、枠内にテキストデータは表示されない。このようにして、表示枠と第二参加者とを対応付ける。その後第一作成処理を終了し、表示画像作成処理(図10参照)に戻る。
上述の処理の結果、第二参加者に相当する部分の画像が特定されなかった場合(S65:NO)、上述の処理が実行されていない撮影画像が残存するかが判断される(S69)。残存する場合(S69:NO)、S61に戻り、未処理の撮影画像のうち一が選択されて上述の処理が繰り返し実行される。すべての撮影画像に対して上述の処理が実行された場合(S69:YES)、テキストデータを表示する為の表示枠を対応付けることなく第一作成処理を終了し、表示画像作成処理(図10参照)に戻る。
第一作成処理が終了した後、S67(図11参照)において表示枠が対応付けられた状態の表示画像が会議端末4〜6に対して送信される(S49)。そしてS13(図9参照)に戻り、上述の処理が繰り返し実行される。
一方、S43において、無音状態となる直前の音声の語彙がログインテーブル6111の「氏名」のうちいずれとも一致しない場合(S43:NO)、無音状態となる直前の音声の語彙が、不特定の者を相手方として話しかける場合の語彙(例えば「皆さん」など)であるかが判断される(S45)。このような場合、すべての会議参加者を相手方として、第一参加者によって発声された音声であると判断される。なお、不特定者に対する話しかけの語彙は、HDD61のその他の情報記憶領域617に予め複数記憶されている。無音状態となる直前の音声の語彙と、その他の情報記憶領域617に記憶されている不特定者に対する話しかけの語彙とが一致する場合(S45:YES)、第二作成処理(図12参照)が実行される(S51)。
図12を参照し、第二作成処理について説明する。第二作成処理では、S37又はS39(図10参照)においてテキストデータが対応付けられた状態の表示画像を構成する撮影画像のうち、すべての会議参加者が特定される。特定された部分にテキストデータの表示枠を対応付けることによって、表示画像が作成される。
図12に示すように、はじめに、S37又はS39(図10参照)においてテキストデータが対応付けられた状態の表示画像を構成する撮影画像のうち一が選択される(S71)。選択された撮影画像が解析され、選択された撮影画像に人物画像が含まれているかが判断される(S73)。人物画像を選択する方法としては、従来周知の様々な方法が使用可能である。例えば以下の方法が使用可能である。一般的な人物画像の特徴点(形、顔の色、目や鼻などの特徴)を示すパラメータを、HDD61のその他の情報記憶領域617に予め記憶する。撮影画像内の特徴部分が抽出される。特徴部分を抽出する為の方法としては、既述のHarrisオペレータやSIFTなどのアルゴリズムが使用される。その他の情報記憶領域617に記憶された特徴点と、抽出された撮影画像内の特徴点とが比較される。双方が良好に一致する場合に、撮影画像内の特徴点部分にて示される画像が、人物画像として判断される。これらの画像は、撮影画像内に含まれている会議参加者に相当する。
上述の方法によって、撮影画像内に含まれる会議参加者の画像が特定された場合(S75:YES)、特定された会議参加者の画像に、テキストデータを表示する為の表示枠が対応付けられる(S77)。表示枠の詳細及び対応付けの方法は、S67(図11参照)における表示枠及び対応付け方法と同一である。そしてS79に移行される。一方、撮影画像内に会議参加者の画像が特定されなかった場合(S75:NO)、テキストデータを表示する為の表示枠を対応付けることなくS79に移行される。
S79では、S37においてテキストデータが対応付けられた状態の表示画像を構成する撮影画像のすべてについて上述の処理が実行されたかが判断される(S79)。上述の処理が実行されていない撮影画像が残存する場合(S79:NO)、S71に戻り、未処理の撮影画像のうち一が選択されて上述の処理が繰り返し実行される。すべての撮影画像に対して上述の処理が実行された場合(S79:YES)、第二作成処理を終了し、表示画像作成処理(図10参照)に戻る。
第二作成処理が終了した後、S77(図12参照)において表示枠が対応付けられた状態の表示画像が会議端末4〜6に対して送信される(S49)。そしてS13(図9参照)に戻り、上述の処理が繰り返し実行される。
図13を参照し、登録情報受信処理について説明する。登録情報受信処理では、会議端末4〜6から登録情報を受信した場合に、登録情報の内容をログインテーブル6111及び参加者画像記憶領域612に記憶する。図13に示すように、登録情報受信処理では、はじめに、会議端末4〜6から登録情報を受信したかが判断される(S81)。受信していない場合(S81:NO)、S81に戻り、継続して登録情報の受信が監視される。
登録情報を受信した場合(S81:YES)、受信した登録情報に含まれている各種情報が、ログインテーブル6111及び参加者画像記憶領域612に記憶される(S83)。具体的には、登録情報に含まれているユーザID、端末ID、氏名、及び、参加者画像のファイル名が、ログインテーブル6111の「ユーザID」「端末ID」「氏名」「ファイル名」として其々記憶される。また、参加者画像記憶領域612に参加者画像が記憶される。そしてS81に戻り、上述の処理が繰り返し実行される。
図14〜図16を参照し、会議端末4のCPU20において実行されるログイン処理について説明する。ログイン処理では、テレビ会議にログインする為の処理が実行される。またログイン後は、カメラ34によって撮影された撮影画像や、マイク35を介して入力された音声がMCU3に対して送信される。また、MCU3から受信した表示画像をディスプレイ28に表示させる。ログイン処理は、会議端末4に電源が投入された場合において、CPU20によって起動され実行される。
図14に示すように、ログイン処理では、はじめに、RFIDリーダ36を介してRFIDタグが検出されたかが判断される(S101)。RFIDタグを検出していない状態では(S101:NO)、S101に戻り、RFIDタグの監視が継続して実行される。
テレビ会議への参加を希望する者が、所有するRFIDタグをRFIDリーダ36に接触させると、RFIDリーダ36を介してRFIDタグが検出される(S101:YES)。RFIDタグが検出された場合、同時に、RFIDタグに記憶されているユーザIDが読み出される。次いで、利用者テーブル3121が参照され、読み出されたユーザIDに対応付けられているファイル名の情報が特定される。特定されたファイル名の利用者画像が、利用者画像記憶領域313から取得される(S103)。
複数の利用者が会議端末4からテレビ会議に同時にログインする場合、他の利用者は、続けてRFIDタグをRFIDリーダ36に接触させる。このような場合(S105:YES)、S101に戻り、RFIDタグの監視が継続される。一方、ログイン作業を完了させるための操作がキーボード29を介してされた場合(S105:NO)、S107に移行される。
S107では、利用者テーブル3121が参照され、RFIDタグから読みだしたユーザIDに対応付けられている氏名が特定される。そして、RFIDタグから読み出したユーザID、特定された氏名、及びS103において取得された利用者画像が、自身の端末IDとともに登録情報としてMCU3に対して送信される(S107)。また、ユーザID、氏名、及び利用者画像のファイル名は、ログインテーブル3111に記憶される(S108)。以降、RFIDタグを接触させるログイン操作を行った利用者は、テレビ会議に参加可能となる。
次いで、ログイン操作を行いテレビ会議に参加可能となった利用者、即ち会議参加者が、カメラ34によって撮影された場合の撮影画像のうちどの部分に位置するかを認識する処理(参加者登録処理、図16参照)が実行される(S109)。
参加者登録処理について、図16を参照して説明する。参加者登録処理では、はじめに、ログインテーブル3111に記憶されている氏名の情報が順に参照される。そして参照された氏名を音声合成により音声データ化し、この氏名の会議参加者を呼び出すための音声データ(例えば「〜さん、返事をしてください。」など)を付加する。このようにして作成された音声データが、スピーカ37を介して出力される(S131)。
次いで、呼び出し音声(例えば「AAAAさん、返事をしてください。」など)に応じ、会議参加者によって発声される音声が監視される。また同時に、カメラ34によって会議参加者が撮影される。呼び出した会議参加者からの応答がマイク35を介して検出された場合(S133:YES)、応答時に撮影された会議参加者の撮影画像が画像解析される。そして、撮影画像のうち、呼び出しに対して応答した会議参加者に相当する部分の画像が特定される(S135)。特定された画像位置を示す座標情報が、ログインテーブル3111の配置情報として記憶される。そしてS137に移行される。一方、応答が検出されなかった場合(S133:NO)、特段処理を行うことなくS137に移行される。
呼び出しに対して応答した会議参加者に相当する部分の画像の特定は、例えば以下の方法によって行われる。呼び出し音声に対して応答音声を検出した場合における撮影画像が参照される。参照された撮影画像に含まれる人物画像のうち特に口部分の特徴部分が抽出される。特徴部分を抽出する為の方法としては、従来周知の様々な方法(HarrisオペレータやSIFTなど)が使用される。会議参加者が複数である場合には、口部分の特徴部分も複数抽出される。抽出された口部分の特徴部分の動きが認識される。認識された動きの程度が大きい場合に、該当する口部分を備えた者が、呼び出し音声に対して応答音声を発声した会議参加者であると特定される。撮影画像のうち特定された会議参加者に相当する部分の座標情報(例えば口部分の座標情報)が特定される。
S137では、ログインテーブル3111に記憶されている会議参加者のすべてに対して、上述の呼び出し音声が出力されたかが判断される(S137)。音声が出力されていない会議参加者が残存する場合(S137:YES)、S131に戻り、残りの会議参加者が参照され、上述の処理が繰り返し実行される。一方、すべての会議参加者に対して上述の呼び出し音声が出力された場合(S137:NO)、参加者登録処理を終了してログイン処理(図14参照)に戻る。
なお、呼び出しに対して応答した会議参加者に相当する部分を特定する方法としては、上述の方法に限定されず、他の方法であってもかまわない。例えば以下の方法によって特定してもよい。参加者登録処理が開始された場合に、カメラ34によって撮影された会議参加者の画像をディスプレイ28に表示させる。音声合成によって作成した氏名の音声に所定の音声(例えば「〜さん、自分の画像をクリックしてください。」など)が付加される。会議参加者を呼び出すための音声(例えば、「AAAAさん、自分の画像をクリックしてください。」など。)がスピーカ37を介して出力される。呼び出された会議参加者によってマウス27が操作され、画像内の特定部分が選択される。選択された部分が、撮影画像のうち呼び出された会議参加者に相当する部分の座標情報として特定される。特定された座標情報は、ログインテーブル3111の配置情報として記憶される。
また例えば、以下の方法によって特定してもよい。マイク35として、入力される音声の到来方向を特定することが可能な、指向性の高いマイクを使用する。特定の氏名の者を呼び出すための音声(例えば「AAAAさん、返事をしてください。」など。)がスピーカ37を介して出力される。呼び出し音声に対して応答音声を検出した場合、検出された音声の到来方向がマイク35によって特定される。特定された到来方向が、撮影画像のうち呼び出された会議参加者に相当する部分の配置情報として特定される。特定された配置情報は、ログインテーブル3111の配置情報として記憶される。
参加者登録処理が終了すると、ログイン処理では、図15に示すように、カメラ34によって撮影された撮影画像が取得される(S111)。取得された撮影画像は、撮影画像記憶領域314に記憶される。続いて、マイク35からの入力音声が監視される。マイク35を介して音声が入力されていない場合(S113:NO)、そのままS117に移行される。マイク35を介して音声が入力された場合(S113:YES)、入力された音声が取得される。取得された音声は、音声記憶領域315に記憶される。また、音声取得時における撮影画像に基づいて、音声を発声した第一参加者が特定される(S115)。そしてS117に移行される。
第一参加者の特定は、例えば以下の方法によって行われる。音声取得時における撮影画像が参照される。参照された撮影画像に含まれる人物画像のうち特に口部分の特徴部分が抽出される。抽出された口部分の特徴部分の動きが認識される。認識された動きの程度が大きい場合に、該当する口部分の位置を示す座標情報が特定される。ログインテーブル3111の配置情報が参照され、上述において特定された口部分の座標情報に最も近い配置情報が選択される。ログインテーブル3111のうち、選択された配置情報に対応付けられているユーザIDが、音声を発声した第一参加者のユーザIDとして特定される。特定されたユーザIDは、入力された音声に対応付けられ音声記憶領域315に記憶される。
なお本発明は上述の第一参加者の特定方法に限定されない。例えば、従来周知の話者認識技術を利用し、第一参加者を特定してもよい。
S117では、撮影画像記憶領域314に記憶された状態の撮影画像を含む通信データが、MCU3に対して送信される。また、音声記憶領域315に音声が記憶されている場合には、音声と、音声を発声した第一参加者のユーザIDとを含む通信データが、MCU3に対して送信される(S117)。
次いで、MCU3において作成され送信される表示画像を受信したかが判断される(S119)。表示画像を受信した場合(S119:YES)、受信した表示画像をディスプレイ28に表示させる(S121)。そしてS123に移行される。表示画像を受信していない場合(S119:NO)、ディスプレイ28への表示処理を行うことなくS123に移行される。
S123では、テレビ会議を終了させるための操作が会議参加者によってキーボード29やマウス27を介して行われたかが判断される(S123)。操作が行われた場合(S123:YES)テレビ会議からログアウトする為に必要な処理(MCU3への通知など)を行った後、S101(図14参照)に戻る。そして上述の処理が繰り返し実行される。
テレビ会議を終了させるための操作が行われていない場合(S123:NO)、前回MCU3に対して撮影画像や音声を送信してから所定時間(例えば1ms)が経過しているかが判断される(S125)。所定時間が経過していない場合(S125:NO)、S119に戻り、表示画像の受信監視及び表示制御、テレビ会議を終了させるための操作の有無の監視等が継続して実行される。所定時間が経過した場合(S125:YES)、S111に戻る。そして上述の処理が繰り返し実行される。これによって、所定の周期で繰り返し撮影画像及び音声がMCU3に対して送信される。
図17及び図18を参照し、S121(図15参照)において、会議端末4〜6のディスプレイ28に表示される表示画像の一例について説明する。図17では、図1にて示されるように、AAAAさん81、BBBBさん82(以上、会議端末4使用)、CCCCさん83、DDDDさん84、EEEEさん85(以上、会議端末5使用)、FFFFさん86(会議端末6使用)がテレビ会議にログインしている状態において、会議端末4のディスプレイ28に表示される表示画像の一例が示されている。表示領域を四分割した場合の左上の領域に、会議端末4において撮影された撮影画像71が表示されている。右上の領域に、会議端末5において撮影された撮影画像72が表示されている。左下の領域に、会議端末6において撮影された撮影画像73が表示されている。
表示画像には、会議参加者の其々が発声した音声の語彙を表現するテキストデータ(92、93等)が、各会議参加者に対応づけられて示されている。会議端末6において撮影された撮影画像73に含まれているFFFFさん86には、「・・・・「AAAAさん」」というテキストデータ93が対応付けられている。このテキストデータは、FFFFさん86が、AAAAさん81を相手方として音声を発声していることを示している。言い換えれば、第一参加者がFFFFさん86であることを示している。
これに対し、会議端末4において撮影された撮影画像71に含まれるAAAAさん81には、所定の色で着色された状態のテキストデータの表示枠91が対応付けられている。このテキストデータは、いずれかの会議参加者が、AAAAさん81を相手方として音声を発声していることを示している。言い換えれば、第二参加者がAAAAさん81であることを示している。
会議参加者は、会議参加者に対応付けられたテキストデータ(92、93等)を参照することによって、テレビ会議における過去の音声履歴を参照することが可能となる。また、第二参加者(AAAAさん81)に、所定の表示枠91が対応付けられる。これによって会議参加者は、スピーカ37から出力される音声が、AAAAさん81に対して発声されたものであることを容易に特定することが可能となる。
また図18に示す例では、会議端末6において撮影された撮影画像73に含まれているFFFFさん86には、「・・・・「皆さん」」というテキストデータ97が対応付けられている。このテキストデータは、FFFFさん86が、他の会議参加者全員を相手方として音声を発生していることを示している。
これに対し、テレビ会議に参加する他のすべての会議参加者(AAAAさん81、BBBBさん82、CCCCさん83、DDDDさん84、EEEEさん85)には、所定の色で着色されたテキストデータの表示枠94、98、95、99、96が対応付けられている。このテキストデータは、FFFFさん86を除く全ての会議参加者を相手方として音声を発生していることを示している。言い換えれば、「FFFF」を除くすべての会議参加者が第二参加者であることを示している。
以上のように、特定の会議参加者(FFFFさん86)によって発声された音声が、会議参加者の全てを相手方とした音声である場合には、会議参加者(AAAAさん81、BBBBさん82、CCCCさん83、DDDDさん84、EEEEさん85)に表示枠(94、95、96等)が対応付けられる。これによって、FFFFさん86から出力された音声が、他の会議参加者の全てに対して発声されたものであることを容易に特定することが可能となる。
以上説明したように、MCU3では、会議参加者の発話内容が音声認識によってテキストデータ化される。発話した会議参加者の画像にテキストデータが対応付けられる。また会話の相手方となる会議参加者(第二参加者)の画像に、テキストデータの表示枠が対応付けられる。対応付けられた状態の表示画像が会議端末4〜6に送信され、会議端末4〜6のディスプレイ28に表示される。これによって会議参加者は、発話者と音声履歴とを対応付けて認識することができる。また会議参加者は、テレビ会議における会話の相手方を容易に特定することが可能となる。
なお、本発明は上記実施の形態に限定されるものではなく、種々の変更が可能である。本実施の形態では、第二参加者の画像に表示枠を対応付けることによって、会話相手方の会議参加者を特定可能としていた。しかしながら本発明はこの方法に限定されない。以下、本発明の変形例について説明する。
本発明の変形例における第一作成処理について、図19を参照して説明する。変形例における第一作成処理では、第一参加者の画像にテキストデータを対応付けるとともに、第一参加者の画像に第二参加者の画像を対応付け、表示画像を作成する。なお、テレビ会議システム1の構成、MCU3及び会議端末4〜6の電気的構成、MCU3のCPU50において実行される登録情報受信処理、第一作成処理を除く表示画像作成処理、会議端末4〜6のCPU20において実行されるログイン処理については、上述の実施の形態と同様であるので、以下においては説明を省略している。
変形例における第一作成処理では、図19に示すように、ログインテーブル6111が参照される。そして、S43(図10参照)において特定された第二参加者のユーザIDに対応付けられているファイル名が特定される。特定されたファイル名の参加者画像である第二参加者画像が、参加者画像記憶領域612から取得される(S151)。
次いで、S37又はS39(図10参照)においてテキストデータが対応付けられた第一参加者の画像に、取得された第二参加者画像が対応付けられる(S153)。本実施の形態では、対応付けられたテキストデータの表示枠の余白部分に、第二参加者画像が配置されることによって、第一参加者の画像に第二参加者画像が対応付けられる。表示枠の余白内に第二参加者画像が収まるように、第二参加者画像の大きさが適宜変形される。そして第一作成処理を終了し、表示画像作成処理(図10参照)に戻る。
図20を参照し、変形例における第一作成処理の結果作成された表示画像が、会議端末4のディスプレイ28に表示された場合の表示態様の一例について説明する。図20に示すように、表示画像には、会議参加者の其々が発声した音声の語彙を表現するテキストデータ(101、102、103等)が各会議参加者に対応付けられて表示されている。会議端末6において撮影された撮影画像73に含まれているFFFFさん86には、「・・・・「AAAAさん」」というテキストデータ104が対応付けられている。このテキストデータは、FFFFさん86が、AAAAさん81を相手方(第二参加者)として音声を発声していることを示している。言い換えれば、第一参加者がFFFFさん86であることを示している。
また、上述のテキストデータ104の余白部分に、AAAAさん81の参加者画像105が挿入されている。この参加者画像105は、テキストデータ104がAAAAさん81を相手方として発声された音声に基づくことを示している。言い換えれば、第二参加者がAAAAさん81であることを示している。
以上説明したように、変形例では、第二参加者の画像が第一参加者に対応付けられ、表示画像が作成される。会議参加者は、第一参加者に対応付けられた第二参加者の画像を視認することによって、テキストデータが何れの会議参加者に対して発声された音声に基づくかを容易に特定することが可能となる。
なお、図9のS13の処理を行うCPU50が本発明の「画像受信手段」に相当し、S17の処理を行うCPU50が本発明の「音声受信手段」に相当する。図3の撮影画像記憶領域614、及び、音声記憶領域615を備えたHDD61が本発明の「第一記憶手段」に相当する。図9のS27の処理を行うCPU50が本発明の「音声認識手段」に相当し、S29の処理を行うCPU50が本発明の「テキスト作成手段」に相当する。図10のS35の処理を行うCPU50が本発明の「相手特定手段」に相当する。図9のS23、図10のS37、S39、S47、S51の処理を行うCPU50が本発明の「画像作成手段」に相当し、S49の処理を行うCPU50が本発明の「送信手段」に相当する。図3の参加者画像記憶領域612を備えたHDD61が本発明の「第二記憶手段」に相当する。図11のS61、及び図12のS71の処理を行うCPU50が本発明の「選択手段」に相当する。図5のカメラ34が本発明の「撮影手段」に相当し、マイク35が本発明の「音声入力手段」に相当する。図15のS117の処理を行うCPU20が本発明の「端末第一送信手段」「端末第二送信手段」に相当し、S119の処理を行うCPU20が本発明の「端末受信手段」に相当し、S121の処理を行うCPU20が本発明の「表示制御手段」に相当する。
なお、図9のS13の処理が本発明の「画像受信ステップ」に相当し、S17の処理が本発明の「音声受信ステップ」に相当する。図9のS27の処理が本発明の「音声認識ステップ」に相当し、S29の処理が本発明の「テキスト作成ステップ」に相当する。図9のS35の処理が本発明の「相手特定ステップ」に相当する。S図9の23、図10のS37、S39、S47、S51の処理が本発明の「画像作成ステップ」に相当し、S49の処理が本発明の「送信ステップ」に相当する。
なお、本発明は上記実施の形態に限定されるものではなく、種々の変更が可能である。上述の実施の形態では、第二参加者にテキストデータの表示枠を対応付けることによって、第二参加者を特定可能としていた。しかしながら本発明はこの方法に限定されない。第二参加者を特定可能であれば、他の表示態様(矢印など)を第二参加者に対応付けることによって、第二参加者を特定可能としてもかまわない。
上述の実施の形態では、第二参加者に対応付けるテキストデータの表示枠は、テキストデータを含まない構成とした。しかしながら本発明はこの構成に限定されない。テキストデータを含む表示枠であってもかまわない。また上述の実施の形態では、第二参加者に対応付けるテキストデータの表示枠は、所定の色で着色された構成であった。しかしながら本発明はこの構成に限定されない。例えば、表示枠を太くする等によって、他の表示枠と区別できるような構成としてもかまわない。
上述の変形例では、第二参加者画像を第一参加者に対応付けることによって、第一参加者及び第二参加者を特定容易としていた。しかしながら本発明はこの方法に限定されない。例えば、第二参加者が映し出されている撮影画像を第一参加者に対応付けてもよい。撮影画像に複数の会議参加者が映し出されている場合、撮影画像を解析することによって第二参加者を特定し、特定された第二参加者を識別するための表示(矢印や、第二参加者を線で囲む等)を第二参加者に付加することによって、撮影画像のうち第二参加者を特定してもよい。この方法によっても、第二参加者画像を直接第一参加者に対応付けた場合と同様の効果を奏することが可能である。
1 テレビ会議システム
3 MCU
4,5,6 会議端末
28 ディスプレイ
20、50 CPU
31、61 HDD
34 カメラ
35 マイク

Claims (9)

  1. 複数の会議端末間の通信を制御することによって、前記会議端末を使用する会議参加者間で行われるテレビ会議を支援する会議支援装置であって、
    前記複数の会議端末の撮影手段によって撮影された撮影画像であって、少なくとも一名の前記会議参加者が撮影された撮影画像を、前記会議端末から受信する画像受信手段と、
    前記複数の会議端末のうち少なくとも一の前記会議端末である第一会議端末の音声入力手段から入力される音声であって、前記第一会議端末を使用する前記会議参加者である第一参加者によって発話された音声を、前記第一会議端末から受信する音声受信手段と、
    前記画像受信手段によって受信された前記撮影画像、及び、前記音声受信手段によって受信された前記音声を記憶する第一記憶手段と、
    前記第一記憶手段に記憶された前記音声を認識する音声認識手段と、
    前記音声認識手段によって認識された結果に基づいて、前記音声に含まれる語彙を表現するテキストデータを作成するテキスト作成手段と、
    前記音声認識手段によって認識された結果に基づいて、前記音声が発話された相手方の前記会議参加者である第二参加者を特定する相手特定手段と、
    前記会議端末の表示手段に表示させる表示画像であって、前記第一記憶手段に記憶された前記撮影画像から構成され、前記撮影画像のうち前記第一参加者に相当する部分に、前記テキスト作成手段によって作成された前記テキストデータが対応付けられ、且つ、前記撮影画像のうち前記第一参加者、及び、前記相手特定手段によって特定された前記第二参加者のうち少なくとも一方に相当する部分に、所定の画像が対応付けられた前記表示画像を作成する画像作成手段と、
    前記画像作成手段によって作成された前記表示画像を前記複数の会議端末の前記表示手段に表示させるために、前記表示画像を前記複数の会議端末に送信する送信手段と
    を備えた会議支援装置。
  2. 前記画像作成手段は、
    前記テキストデータを表示させる表示枠を前記所定の画像として、前記撮影画像のうち前記第二参加者に相当する部分に対応づけることによって、前記表示画像を作成することを特徴とする請求項1に記載の会議支援装置。
  3. 前記相手特定手段は、
    前記音声認識手段によって認識された結果が所定の語彙を含む場合に、すべての前記会議参加者を前記第二参加者として特定し、
    前記画像作成手段は、
    前記相手特定手段において、すべての前記会議参加者が前記第二参加者として特定された場合には、前記撮影画像のうちすべての前記会議参加者に相当する部分に前記所定の画像を対応付けることによって、前記表示画像を作成することを特徴とする請求項1又は2に記載の会議支援装置。
  4. 前記会議参加者の画像である参加者画像を、前記会議参加者を特定する属性情報に対応付けて記憶する第二記憶手段を備え、
    前記音声受信手段は、
    前記音声とともに、前記音声を発声した前記第一参加者の前記属性情報を受信し、
    前記画像作成手段は、
    前記第二記憶手段に記憶されている前記参加者画像のうち、前記音声受信手段によって受信された前記属性情報と同一の前記属性情報に対応付けられた前記参加者画像に基づいて、前記撮影画像のうち前記第一参加者に相当する部分を特定し、特定された部分に前記テキストデータを対応付けることによって前記表示画像を作成することを特徴とする請求項1乃至3のいずれかに記載の会議支援装置。
  5. 前記会議参加者の画像である参加者画像を、前記会議参加者を特定する属性情報に対応付けて記憶する第二記憶手段と、
    前記第二記憶手段に記憶された前記参加者画像のうち、前記相手特定手段によって特定された前記第二参加者の前記属性情報に対応付けられた前記参加者画像を第二参加者画像として選択する選択手段を備え、
    前記画像作成手段は、
    前記撮影画像のうち前記第一参加者に相当する部分に前記テキストデータが対応付けられ、且つ、前記選択手段によって選択された前記第二参加者画像を前記所定の画像として、前記撮影画像のうち前記第一参加者に相当する部分に対応付けることによって、前記表示画像を作成することを特徴とする請求項1に記載の会議支援装置。
  6. 前記音声受信手段は、
    前記音声とともに、前記音声を発声した前記第一参加者の前記属性情報を受信し、
    前記画像作成手段は、
    前記第二記憶手段に記憶されている前記参加者画像のうち、前記音声受信手段によって受信された前記属性情報と同一の前記属性情報に対応付けられた前記参加者画像に基づいて、前記撮影画像のうち前記第一参加者に相当する部分を特定し、特定された部分に前記テキストデータを対応付け、前記選択手段によって選択された前記第二参加者画像を前記所定の画像として、前記撮影画像のうち前記第一参加者に相当する部分に対応付けることによって、前記表示画像を作成することを特徴とする請求項5に記載の会議支援装置。
  7. 複数の会議端末間の通信を制御することによって、前記会議端末を使用する会議参加者間で行われるテレビ会議を支援する会議支援方法であって、
    前記複数の会議端末の撮影手段によって撮影された撮影画像であって、少なくとも一名の前記会議参加者が撮影された撮影画像を前記会議端末から受信する画像受信ステップと、
    前記複数の会議端末のうち少なくとも一の前記会議端末である第一会議端末の音声入力手段から入力される音声であって、前記第一会議端末を使用する前記会議参加者である第一参加者によって発話された音声を、前記第一会議端末から受信する音声受信ステップと、
    前記音声受信ステップにおいて受信され、第一記憶手段に記憶された前記音声を認識する音声認識ステップと、
    前記音声認識ステップによって認識された結果に基づいて、前記音声に含まれる語彙を表現するテキストデータを作成するテキスト作成ステップと、
    前記音声認識ステップによって認識された結果に基づいて、前記音声が発話された相手方の前記会議参加者である第二参加者を特定する相手特定ステップと、
    前記会議端末の表示手段に表示させる表示画像であって、前記画像受信ステップにおいて受信され、前記第一記憶手段に記憶された前記撮影画像から構成され、前記撮影画像のうち前記第一参加者に相当する部分に、前記テキスト作成ステップによって作成された前記テキストデータが対応付けられ、且つ、前記撮影画像のうち前記第一参加者、及び、前記相手特定ステップによって特定された前記第二参加者のうち少なくとも一方に相当する部分に、所定の画像が対応付けられた前記表示画像を作成する画像作成ステップと、
    前記画像作成ステップによって作成された前記表示画像を前記複数の会議端末の前記表示手段に表示させるために、前記表示画像を前記複数の会議端末に送信する送信ステップと
    を備えた会議支援方法。
  8. 複数の会議端末と、前記複数の会議端末間の通信を制御する会議支援装置とを少なくとも含む会議システムであって、
    前記会議支援装置は、
    前記複数の会議端末の撮影手段によって撮影された撮影画像であって、少なくとも一名の前記会議参加者が撮影された撮影画像を前記会議端末から受信する画像受信手段と、
    前記複数の会議端末のうち少なくとも一の前記会議端末である第一会議端末の音声入力手段から入力される音声であって、前記第一会議端末を使用する前記会議参加者である第一参加者によって発話された音声を、前記第一会議端末から受信する音声受信手段と、
    前記画像受信手段によって受信された前記撮影画像、及び、前記音声受信手段によって受信された前記音声を記憶する第一記憶手段と、
    前記第一記憶手段に記憶された前記音声を認識する音声認識手段と、
    前記音声認識手段によって認識された結果に基づいて、前記音声に含まれる語彙を表現するテキストデータを作成するテキスト作成手段と、
    前記音声認識手段によって認識された結果に基づいて、前記音声が発話された相手方の前記会議参加者である第二参加者を特定する相手特定手段と、
    前記会議端末の表示手段に表示させる表示画像であって、前記第一記憶手段に記憶された前記撮影画像から構成され、前記撮影画像のうち前記第一参加者に相当する部分に、前記テキスト作成手段によって作成された前記テキストデータが対応付けられ、且つ、前記撮影画像のうち前記第一参加者、及び、前記相手特定手段によって特定された前記第二参加者のうち少なくとも一方に相当する部分に、所定の画像が対応付けられた前記表示画像を作成する画像作成手段と、
    前記画像作成手段によって作成された前記表示画像を前記複数の会議端末の前記表示手段に表示させるために、前記表示画像を前記複数の会議端末に送信する送信手段と
    を備え、
    前記会議端末は、
    前記撮影手段によって撮影された前記撮影画像を前記会議支援装置に対して送信する端末第一送信手段と、
    前記音声入力手段から入力された前記音声を前記会議支援装置に対して送信する端末第二送信手段と、
    前記端末第一送信手段によって送信された前記撮影画像、及び、前記端末第二送信手段によって送信された前記音声に基づいて、前記会議支援装置において作成される前記表示画像を受信する端末受信手段と、
    前記端末受信手段において受信された前記表示画像を前記表示手段に表示させる表示制御手段と
    を備えた会議システム。
  9. 請求項1乃至6のいずれかに記載の会議支援装置の各処理手段としてコンピュータを機能させるための会議支援プログラム。
JP2009079511A 2009-03-27 2009-03-27 会議支援装置、会議支援方法、会議システム、会議支援プログラム Expired - Fee Related JP5201050B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009079511A JP5201050B2 (ja) 2009-03-27 2009-03-27 会議支援装置、会議支援方法、会議システム、会議支援プログラム
US12/659,570 US8560315B2 (en) 2009-03-27 2010-03-12 Conference support device, conference support method, and computer-readable medium storing conference support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009079511A JP5201050B2 (ja) 2009-03-27 2009-03-27 会議支援装置、会議支援方法、会議システム、会議支援プログラム

Publications (2)

Publication Number Publication Date
JP2010233045A true JP2010233045A (ja) 2010-10-14
JP5201050B2 JP5201050B2 (ja) 2013-06-05

Family

ID=42785346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009079511A Expired - Fee Related JP5201050B2 (ja) 2009-03-27 2009-03-27 会議支援装置、会議支援方法、会議システム、会議支援プログラム

Country Status (2)

Country Link
US (1) US8560315B2 (ja)
JP (1) JP5201050B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014060552A (ja) * 2012-09-14 2014-04-03 Ricoh Co Ltd 伝送システム、伝送管理システムおよびプログラム
KR20140140916A (ko) * 2013-05-30 2014-12-10 삼성전자주식회사 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법
JP2016136746A (ja) * 2011-12-26 2016-07-28 キヤノンマーケティングジャパン株式会社 会議サーバ、会議システム、制御方法、プログラム

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9268398B2 (en) * 2009-03-31 2016-02-23 Voispot, Llc Virtual meeting place system and method
US20100271456A1 (en) * 2009-04-27 2010-10-28 Future Vision Inc. Conference details recording system
JP2012085009A (ja) 2010-10-07 2012-04-26 Sony Corp 情報処理装置および情報処理方法
CN102006453B (zh) * 2010-11-30 2013-08-07 华为终端有限公司 视频信号的辅助信息叠加方法及装置
JP5353989B2 (ja) 2011-02-28 2013-11-27 株式会社リコー 伝送管理装置、伝送端末、伝送システム、伝送管理方法、伝送端末制御方法、伝送管理プログラム及び伝送端末制御プログラム
JP5585889B2 (ja) * 2011-08-23 2014-09-10 コニカミノルタ株式会社 表示データ生成装置及び表示制御システム並びに表示制御プログラム
CN103247289A (zh) * 2012-02-01 2013-08-14 鸿富锦精密工业(深圳)有限公司 记录系统及方法、声音输入装置和语音记录装置及方法
JP5994313B2 (ja) * 2012-03-21 2016-09-21 株式会社リコー 情報提供装置、伝送システムおよびプログラム
CN103475846B (zh) * 2012-06-06 2018-09-04 腾讯科技(深圳)有限公司 一种视频通讯的方法及用于视频通讯的终端、服务器
US9379783B2 (en) * 2012-09-14 2016-06-28 Ricoh Company, Ltd. Transmission system
KR102090948B1 (ko) * 2013-05-20 2020-03-19 삼성전자주식회사 대화 기록 장치 및 그 방법
US9338199B2 (en) * 2013-07-08 2016-05-10 Cisco Technology, Inc. System and method for determination of an interaction map
KR102108893B1 (ko) * 2013-07-11 2020-05-11 엘지전자 주식회사 이동 단말기
CN104539873B (zh) * 2015-01-09 2017-09-29 京东方科技集团股份有限公司 远程会议系统和进行远程会议的方法
JP6582562B2 (ja) 2015-05-29 2019-10-02 株式会社リコー 通信端末、通信システム、通信方法、及びプログラム
US10089061B2 (en) * 2015-08-28 2018-10-02 Kabushiki Kaisha Toshiba Electronic device and method
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
CN108965783B (zh) * 2017-12-27 2020-05-26 视联动力信息技术股份有限公司 一种视频数据处理方法及视联网录播终端
CN110505431A (zh) * 2018-05-17 2019-11-26 视联动力信息技术股份有限公司 一种终端的控制方法和装置
US11271762B2 (en) * 2019-05-10 2022-03-08 Citrix Systems, Inc. Systems and methods for virtual meetings
CN110519636B (zh) * 2019-09-04 2021-12-21 腾讯科技(深圳)有限公司 语音信息播放方法、装置、计算机设备及存储介质
CN110944144B (zh) * 2019-11-27 2021-09-14 深圳明心科技有限公司 一种快速配置视讯终端接入视讯系统的方法和系统
US11178357B1 (en) * 2020-09-22 2021-11-16 Roku, Inc. Streaming a video chat from a mobile device to a display device using a rotating base
CN117640861A (zh) * 2022-08-16 2024-03-01 华为技术有限公司 一种导播控制方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177952A (ja) * 1997-12-11 1999-07-02 Nec Corp ビデオ会議装置
JP2003299051A (ja) * 2002-03-29 2003-10-17 Matsushita Electric Ind Co Ltd 情報出力装置および情報出力方法
JP2003339034A (ja) * 2002-05-17 2003-11-28 Pioneer Electronic Corp ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP2007158945A (ja) * 2005-12-07 2007-06-21 Sharp Corp 通信端末装置及び通信システム

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151619A (en) * 1996-11-26 2000-11-21 Apple Computer, Inc. Method and apparatus for maintaining configuration information of a teleconference and identification of endpoint during teleconference
US20030125954A1 (en) * 1999-09-28 2003-07-03 Bradley James Frederick System and method at a conference call bridge server for identifying speakers in a conference call
US6816468B1 (en) * 1999-12-16 2004-11-09 Nortel Networks Limited Captioning for tele-conferences
US20010054071A1 (en) * 2000-03-10 2001-12-20 Loeb Gerald E. Audio/video conference system for electronic caregiving
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
JP4182464B2 (ja) * 2001-02-09 2008-11-19 富士フイルム株式会社 ビデオ会議システム
US6853716B1 (en) * 2001-04-16 2005-02-08 Cisco Technology, Inc. System and method for identifying a participant during a conference call
US7203645B2 (en) * 2001-04-27 2007-04-10 Intel Corporation Speech recognition system loading different recognition engines for different applications
JP2002344915A (ja) 2001-05-14 2002-11-29 Nippon Telegr & Teleph Corp <Ntt> コミュニケーション把握装置、および、その方法
US20020184346A1 (en) * 2001-05-31 2002-12-05 Mani Babu V. Emergency notification and override service in a multimedia-capable network
US6744868B2 (en) * 2001-05-31 2004-06-01 Alcatel Call party profile presentation service in a multimedia-capable network
US20020188744A1 (en) * 2001-05-31 2002-12-12 Mani Babu V. Direct connect service in a multimedia-capable network
US20030025786A1 (en) * 2001-07-31 2003-02-06 Vtel Corporation Method and system for saving and applying a video address from a video conference
US8218829B2 (en) * 2001-08-20 2012-07-10 Polycom, Inc. System and method for using biometrics technology in conferencing
JP2003204282A (ja) * 2002-01-07 2003-07-18 Toshiba Corp 無線通信機能付きヘッドセット、これを用いたコミュニケーション記録システム、およびコミュニケーション制御方式を選択可能なヘッドセットシステム
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
US20030187632A1 (en) * 2002-04-02 2003-10-02 Menich Barry J. Multimedia conferencing system
US20030231746A1 (en) * 2002-06-14 2003-12-18 Hunter Karla Rae Teleconference speaker identification
CN1701287A (zh) * 2002-09-20 2005-11-23 松下电器产业株式会社 对话型装置
US7844454B2 (en) * 2003-03-18 2010-11-30 Avaya Inc. Apparatus and method for providing voice recognition for multiple speakers
US7933226B2 (en) * 2003-10-22 2011-04-26 Palo Alto Research Center Incorporated System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions
US8170191B2 (en) * 2004-08-02 2012-05-01 Polycom, Inc. Method and system for handling audio signals of conference
JP4033182B2 (ja) * 2004-09-03 2008-01-16 コニカミノルタビジネステクノロジーズ株式会社 資料配付システム、資料配付方法、およびコンピュータプログラム
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US7660851B2 (en) * 2005-07-06 2010-02-09 Microsoft Corporation Meetings near me
JP2007094544A (ja) * 2005-09-27 2007-04-12 Fuji Xerox Co Ltd 情報検索システム
US20070115388A1 (en) * 2005-10-12 2007-05-24 First Data Corporation Management of video transmission over networks
US20070083666A1 (en) * 2005-10-12 2007-04-12 First Data Corporation Bandwidth management of multimedia transmission over networks
US8483098B2 (en) * 2005-11-29 2013-07-09 Cisco Technology, Inc. Method and apparatus for conference spanning
US20070133437A1 (en) * 2005-12-13 2007-06-14 Wengrovitz Michael S System and methods for enabling applications of who-is-speaking (WIS) signals
US8125509B2 (en) * 2006-01-24 2012-02-28 Lifesize Communications, Inc. Facial recognition for a videoconference
US7979059B2 (en) * 2006-02-06 2011-07-12 Rockefeller Alfred G Exchange of voice and video between two cellular or wireless telephones
US7792263B2 (en) * 2006-02-15 2010-09-07 International Business Machines Corporation Method, system, and computer program product for displaying images of conference call participants
US7949118B1 (en) * 2006-10-19 2011-05-24 Avaya Inc. Methods and apparatus for processing a session
US8059807B2 (en) * 2007-03-20 2011-11-15 Avaya, Inc. Keyword alerting in conference calls
GB0712879D0 (en) * 2007-07-03 2007-08-08 Skype Ltd Video communication system and method
US8060366B1 (en) * 2007-07-17 2011-11-15 West Corporation System, method, and computer-readable medium for verbal control of a conference call
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
US8606574B2 (en) * 2009-03-31 2013-12-10 Nec Corporation Speech recognition processing system and speech recognition processing method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177952A (ja) * 1997-12-11 1999-07-02 Nec Corp ビデオ会議装置
JP2003299051A (ja) * 2002-03-29 2003-10-17 Matsushita Electric Ind Co Ltd 情報出力装置および情報出力方法
JP2003339034A (ja) * 2002-05-17 2003-11-28 Pioneer Electronic Corp ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
JP2004056286A (ja) * 2002-07-17 2004-02-19 Fuji Photo Film Co Ltd 画像表示方法
JP2007027990A (ja) * 2005-07-13 2007-02-01 Canon Inc 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP2007158945A (ja) * 2005-12-07 2007-06-21 Sharp Corp 通信端末装置及び通信システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016136746A (ja) * 2011-12-26 2016-07-28 キヤノンマーケティングジャパン株式会社 会議サーバ、会議システム、制御方法、プログラム
JP2014060552A (ja) * 2012-09-14 2014-04-03 Ricoh Co Ltd 伝送システム、伝送管理システムおよびプログラム
KR20140140916A (ko) * 2013-05-30 2014-12-10 삼성전자주식회사 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법
KR102078132B1 (ko) * 2013-05-30 2020-02-17 삼성전자주식회사 영상 통화 시 관심 대상을 표시하기 위한 장치 및 그 방법

Also Published As

Publication number Publication date
JP5201050B2 (ja) 2013-06-05
US8560315B2 (en) 2013-10-15
US20100250252A1 (en) 2010-09-30

Similar Documents

Publication Publication Date Title
JP5201050B2 (ja) 会議支援装置、会議支援方法、会議システム、会議支援プログラム
TWI280481B (en) A device for dialog control and a method of communication between a user and an electric apparatus
EP2180703A1 (en) Displaying dynamic caller identity during point-to-point and multipoint audio/videoconference
JP5212187B2 (ja) 通信端末装置、表示制御方法、表示制御プログラム
CN108139988A (zh) 信息处理系统和信息处理方法
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN107924372A (zh) 信息处理系统和信息处理方法
US20050131744A1 (en) Apparatus, system and method of automatically identifying participants at a videoconference who exhibit a particular expression
JP6531323B1 (ja) プログラム、情報処理装置及び情報処理方法
WO2010010736A1 (ja) 会議画像生成方法、会議システム、サーバ装置及び会議装置等
JP2018171683A (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
WO2017143951A1 (zh) 一种表情反馈方法及智能机器人
JP2003339037A (ja) ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
JP2011223369A (ja) 認知症患者用会話システム
Strauß et al. Wizard-of-Oz Data Collection for Perception and Interaction in Multi-User Environments.
JP2018186326A (ja) ロボット装置及びプログラム
US20050131697A1 (en) Speech improving apparatus, system and method
JP4095537B2 (ja) 体験表示装置、体験表示方法及び体験表示プログラム
JP6962849B2 (ja) 会議支援装置、会議支援制御方法およびプログラム
JP2017191531A (ja) コミュニケーションシステム、サーバ及びコミュニケーション方法
CN112820265A (zh) 一种语音合成模型训练方法和相关装置
US20230066829A1 (en) Server device, conference assistance system, and conference assistance method
JP2006236149A (ja) コミュニケーション装置
JP7123028B2 (ja) 情報処理システム、情報処理方法、及びプログラム
JP7000547B1 (ja) プログラム、方法、情報処理装置、システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees