JP2000125274A - Method and system to index contents of conference - Google Patents

Method and system to index contents of conference

Info

Publication number
JP2000125274A
JP2000125274A JP11219819A JP21981999A JP2000125274A JP 2000125274 A JP2000125274 A JP 2000125274A JP 11219819 A JP11219819 A JP 11219819A JP 21981999 A JP21981999 A JP 21981999A JP 2000125274 A JP2000125274 A JP 2000125274A
Authority
JP
Japan
Prior art keywords
conference
audio
participant
conference participant
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11219819A
Other languages
Japanese (ja)
Inventor
L Potts Steven
エル ポッツ スティーヴン
L Chu Peter
エル チュー ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Polycom Inc
Original Assignee
Picturetel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Picturetel Corp filed Critical Picturetel Corp
Publication of JP2000125274A publication Critical patent/JP2000125274A/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
    • H04M3/385Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords using speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/387Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using subscriber identification cards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6045Identity confirmation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2242/00Special services or facilities
    • H04M2242/30Determination of the location of a subscriber
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To obtain a method and a system that indexes contents of a conference by matching an image caught during the conference and recording of voice uttered by conference participants. SOLUTION: The method includes identification of each conference participant making a speech, acquisition of a still picture of each conference participant, and mutually relating the still picture of each conference participant to a segment of voice data recorded, that is, a segment corresponding to a voice uttered by each conference participant. This indexing system includes voice recorders 14, 32, at least one identifier denoting a position of the conference participants, a camera 24, an image storage device 34, a processor 31 that relates the still picture caught by the camera 24 to a voice recorded by the voice recorders thereby relating the still picture of the conference participant to a segment of the voice uttered by the conference participant, and a graphic user interface 45 that can easily access the stored voice and image data and data with mutual relation.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明はマルチメディアの分
野に関する。
[0001] The present invention relates to the field of multimedia.

【0002】[0002]

【従来の技術】経済的なデジタル記憶媒体とパーソナル
コンピュータで実行可能な高性能の映像/音声解凍技術
の出現によって、何千時間ものデジタル化された映像/
音声データをほとんど瞬時にランダムアクセスで記憶す
ることができる。この記憶データを利用するためには、
ユーザーがデジタル化された映像/音声データの所望の
部分を素早く見つけ出すことができるように効率良く索
引を付けなければならない。
BACKGROUND OF THE INVENTION With the advent of economical digital storage media and high performance video / audio decompression technology executable on personal computers, thousands of hours of digitized video / audio
Voice data can be stored almost instantaneously by random access. In order to use this stored data,
It must be indexed efficiently so that the user can quickly find the desired part of the digitized video / audio data.

【0003】索引付けは一般に、録画されたいく人かの
参加者による会議について“誰が”“何を”そして“い
つ”(その時)言ったかに基づいて行われる。現在使用さ
れている索引付け方法が提供するこの情報に信頼性がな
い主な理由は、ビデオパターン認識、音声認識、発言者
識別方法が、会議が行われる騒がしい、音の響く、抑制
の効かない環境では信頼性を持たない技術であるためで
ある。
[0003] Indexing is generally based on "who,""what," and "when" (at that time) said a meeting of several recorded participants. The main reason this information provided by currently used indexing methods is unreliable is that video pattern recognition, speech recognition, and speaker identification methods are noisy, noisy, and uncontrollable in meetings This is because the technology is not reliable in the environment.

【0004】また、会議参加者がいつ最初に発言を始め
たかを録画中で見つけ出す退屈な試行錯誤的方法の代わ
りになる方法を求める要望が存在する。
There is also a need for an alternative to the tedious trial-and-error method of finding in a recording when a conference participant first started speaking.

【0005】[0005]

【発明が解決しようとする課題】本発明は、会議中に捕
らえた画像を会議参加者が発する音声の録音とマッチさ
せることによって会議内容の索引付けを行うための方法
とシステムを特徴とする。
SUMMARY OF THE INVENTION The present invention features a method and system for indexing conference content by matching images captured during the conference with recordings of audio emitted by conference participants.

【0006】マイクロホン配列によって実現される信頼
性のある音源定位技術を利用して、本発明は、会議につ
いて“誰が”と“いつ”(どの人が何時に発言したか)に
関する信頼性のある情報をつくり出す。“何を”(主題)
に関する情報は不明ではあるが“誰が−いつ”情報はこ
の“何を”情報についての手書きによる注釈を大いに楽
にする。多くの検索状況において“誰が−いつ”情報だ
けで索引付けを行うのに十分である。
Utilizing the reliable sound source localization technology realized by the microphone array, the present invention provides reliable information about "who" and "when" (who spoke at what time) about the conference. Create “What” (theme)
Although information about the "who-when" information is unknown, it greatly facilitates handwritten annotations about this "what" information. In many search situations, "who-when" information alone is sufficient to index.

【0007】[0007]

【課題を解決するための手段】本発明の一つの局面では
その方法の中に、音声を出している会議参加者の識別、
会議参加者の静止画像の捕捉、会議参加者が発する音声
に対応する音声録音の音声部分のセグメントと会議参加
者の静止画像の相互関係、並びに相互関係のある静止画
像と関連する音声部分のセグメントを表す音声存在セグ
メントの生成によるタイムラインの作成が含まれる。し
たがって、タイムラインには静止画像と関連する音声部
分のセグメントを表す音声存在セグメントが含まれる。
静止画像は関連する音声部分のセグメントを生成する音
源の視覚的表現である。
SUMMARY OF THE INVENTION In one aspect of the invention, a method includes identifying a conference participant who is speaking.
Capturing a still image of a conference participant, interrelationship between a segment of the audio part of the audio recording corresponding to the sound emitted by the conference participant and the still image of the conference participant, and segment of the audio part associated with the interrelated still image And generating a timeline by generating a voice presence segment representing Therefore, the timeline includes a sound presence segment representing a segment of a sound part associated with a still image.
A still image is a visual representation of a sound source that produces the relevant audio segment.

【0008】音声録音は音声部分のセグメント部分にセ
グメント化され、会議参加者と関連付けることができ
る。会議参加者の画像はビデオカメラなどで捕捉され
る。
[0008] The audio recording is segmented into segments of the audio portion and can be associated with conference participants. The images of the conference participants are captured by a video camera or the like.

【0009】本発明のこの局面の実施例は一つ以上の以
下の特徴を含む。
[0009] Embodiments of this aspect of the invention include one or more of the following features.

【0010】音声を発する各会議参加者の静止画像は、
会議の連続ビデオ録画のセグメントとして捕らえられ、
それによって会議に参加しているすべての発言者の完全
な視覚的表示が確立される。
A still image of each conference participant who emits a voice is
Captured as a segment of a continuous video recording of a meeting,
This establishes a complete visual representation of all speakers participating in the conference.

【0011】ユーザーが素早くかつ簡単に会議の連続録
画の個々のセグメントに簡単にアクセスできるようにタ
イムラインが視覚的に示される。
The timeline is shown visually so that the user can quickly and easily access individual segments of the continuous recording of the conference.

【0012】タイムラインは、録画された会議に索引を
付けるために相互関係のある画像を用いて各発言セグメ
ントの持続時間を表すカラーラインまたはカラーバーを
含むことができる。ユーザーが入力装置(マウスなど)を
使用して、所望の録画の開始に対応するタイムラインの
適当な部分を選択したり強調したり、その部分にアクセ
スして録画の再生を開始することができるように、タイ
ムラインをグラフィックユーザーインターフェース(GU
I)として示すことができる。音声録音とビデオ録画の部
分は再生用モニターで再生することができる。
[0012] The timeline may include a color line or color bar representing the duration of each speech segment using correlated images to index the recorded conference. The user can use an input device (such as a mouse) to select or highlight the appropriate part of the timeline that corresponds to the start of the desired recording, and access that part to start playing the recording Like the timeline, the graphic user interface (GU
I). The audio and video recordings can be played back on a playback monitor.

【0013】種々のアプローチを用いて会議参加者を識
別することができる。一つの実施例では、マイクロホン
配列を利用して音声によって会議参加者を定位する。マ
イクロホン配列によって、信頼性のある音源定位技術を
用いて信頼性をもってかつ精確に空間における音源位置
と音源の存在が推定される。
[0013] A variety of approaches can be used to identify conference participants. In one embodiment, conference participants are localized by voice using a microphone array. With the microphone arrangement, the sound source position and the existence of the sound source in space are reliably and accurately estimated using a reliable sound source localization technique.

【0014】会議開始時刻からの経過時間が各音声部分
のセグメントと各静止画像と共に記憶される。索引付け
エンジンを設けて音声部分のセグメントと静止画像とを
関連させながら経過時間をマッチさせることによりタイ
ムラインを作成することができる。
The elapsed time from the meeting start time is stored together with each audio segment and each still image. A timeline can be created by providing an indexing engine and matching elapsed time while associating audio segment and still image.

【0015】このシステムを利用してたった一人の参加
者に関して会議に索引を付けることができる。この場合
タイムラインにはただ一人の参加者の画像並びに音声が
生じた時刻表示が含まれる。
The system can be used to index meetings with only one participant. In this case, the timeline includes the time display of the image and sound of only one participant.

【0016】2人以上の会議参加者が出席し識別される
アプリケーションでは、システムは、会議開始時刻から
の経過時間と、参加者を各画像と関連付けながらいつ発
言者が発言を始めたかについての各静止画像との照合と
を記憶する。音源位置の変化が確認される毎に経過時間
もまた音声録音とともに記憶される。索引付けエンジン
によって索引すなわち関連する画像と音声セグメントの
リストが作成される。この索引に基づいて、参加者が発
言したときの会議開始からの経過時間を示す、各静止画
像(すなわち各会議参加者)についてのタイムラインが次
いで作成される。このタイムラインにはまた静止画像に
現れてはいるがその特定の経過時刻には発言しなかった
他のいずれの会議参加者(発言者の近辺に座っている隣
席の人など)も示され、これによって静止画像中に存在
するすべての人の識別に役立つのみならずすべての会議
参加者が発する音声の包括的な概観が示される。タイム
ラインはリアルタイムでまたは会議終了後のいずれかに
作成してもよい。
In an application in which more than one conference participant is present and identified, the system may provide an elapse time since the conference start time and an indication of when the speaker started speaking while associating the participant with each image. The collation with the still image is stored. Each time a change in the sound source position is confirmed, the elapsed time is also stored together with the voice recording. The indexing engine creates an index, ie, a list of related image and audio segments. Based on this index, a timeline is created for each still image (ie, each conference participant), indicating the elapsed time since the conference started when the participant spoke. The timeline also shows any other meeting participants who appeared in the still image but did not speak at that particular elapsed time (e.g., a neighbor sitting near the speaker), This not only helps to identify everyone present in the still image, but also provides a comprehensive overview of the audio uttered by all conference participants. The timeline may be created either in real time or after the meeting.

【0017】ビデオカメラを利用して会議参加者の静止
画像を捕らえる実施例では、ビデオカメラを利用して会
議の連続ビデオ録画を行うこともできる。
In an embodiment in which a still image of a conference participant is captured using a video camera, continuous video recording of the conference may be performed using the video camera.

【0018】参加者(遠端参加者)が別のサイトにいる会
議についてのみならずすべての参加者が一つの部屋にい
る(近端参加者)会議にこのシステムを利用することがで
きる。
The system can be used for conferences where all participants are in one room (near-end participants), not just for conferences where the participants (far-end participants) are at different sites.

【0019】発言者は会議中動きを制限されていると仮
定して、特定の場所から音声が検出される毎に同じ人が
話しているものと仮定する。したがって、発言ソースが
以前検出した会議参加者の場所と同じであると判定され
た場合には、音声存在セグメントが以前検出した会議参
加者のタイムラインに付け加えられる。会議参加者の位
置が近端会議参加者の以前の検出位置と異なる場合に
は、新しい近端会議参加者の静止画像が記憶され新しい
タイムラインが新しい近端会議参加者用として開始され
る。
It is assumed that the speaker is restricted in motion during the meeting and that the same person is speaking each time speech is detected from a particular location. Thus, if it is determined that the utterance source is the same as the location of the previously detected conference participant, a voice presence segment is added to the previously detected conference participant's timeline. If the location of the conference participant is different from the previous detection location of the near end conference participant, a still image of the new near end conference participant is stored and a new timeline is started for the new near end conference participant.

【0020】遠端参加者を含むテレビ会議では、音源は
遠端発言ソースからの音声を伝送する近端にあるスピー
カーである。タイムラインは次いで遠端と関係付けら
れ、タイムライン作成には遠端発言ソースが存在する場
合には遠端用の音声存在セグメントの作成が含まれる。
したがって、本発明のユーザーは遠端発言セグメントを
識別しそれにアクセスすることができる。更に、遠端発
言ソースが会議に含まれる場合には、蓄積された近端マ
イクロホン配列データのブロックから蓄積された遠端ス
ピーカーデータブロックを取り去ることによって、エコ
ーを消去することができる。
In a video conference involving far-end participants, the sound source is a near-end speaker transmitting sound from a far-end speech source. The timeline is then associated with the far end, and timeline creation includes creating a voice presence segment for the far end, if a far end speech source is present.
Thus, a user of the present invention can identify and access far-end speech segments. Further, if the far-end speech source is included in the conference, the echo can be canceled by removing the accumulated far-end speaker data block from the accumulated near-end microphone array data block.

【0021】したがって、好適には、会議で表示される
ディスプレイのビデオ画像を捕らえ、そのディスプレイ
の捕捉されたビデオ画像についてタイムラインを作成す
ることが望ましい。これによって会議参加者が発する音
声並びにプレゼンテーション資料の索引付けが可能とな
る。
[0021] It is therefore desirable to capture a video image of a display displayed in a conference and create a timeline for the captured video image of the display. This allows indexing of audio and presentation materials emitted by conference participants.

【0022】[0022]

【発明の実施の態様】以下の説明はローカルすなわち近
端サイトと遠隔すなわち遠端サイトとの間でのテレビ会
議と関連するが、本発明は単一サイトの会議についても
利用することができる。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Although the following description relates to videoconferencing between a local or near-end site and a remote or far-end site, the present invention can also be used for single-site conferences.

【0023】図1を参照すると、テレビ会議索引付けシ
ステム10(破線で囲んで示す)を利用して、この特定の実
施例では、テーブル60の周りに座ってテレビ会議に携わ
っている4人の会議参加者62、64、66、68がいるテレビ
会議が録画され索引付けが行われる。通信チャネル16に
よって遠端テレビ会議システム18と接続したローカルテ
レビ会議システム20を利用して一人またはそれ以上の遠
端会議参加者(図示せず)もこの会議に参加する。通信チ
ャネル16は遠端テレビ会議システムを近端テレビ会議シ
ステム20と接続し、ソースロケータ22が解凍された遠端
音声部分を利用することができる。
Referring to FIG. 1, utilizing a videoconferencing indexing system 10 (shown in dashed lines), in this particular embodiment, four people engaged in videoconference sitting around table 60 are shown. A video conference with conference participants 62, 64, 66, 68 is recorded and indexed. One or more far-end conference participants (not shown) also participate in this conference using local video conference system 20 connected to far-end video conference system 18 by communication channel 16. The communication channel 16 connects the far-end video conferencing system with the near-end video conferencing system 20 and allows the source locator 22 to utilize the decompressed far-end audio portion.

【0024】テレビ会議索引付けシステム10にはテレビ
会議システム20、コンピュータ30及び再生システム50が
含まれる。テレビ会議システム20には遠端会議参加者の
姿や声を会議参加者62、64、66、68が見たり聞いたりで
きるようにするための表示用モニター21とスピーカー23
が含まれる。ある代替実施例では、図1に示す実施例を
利用して会議電話モードではない会合が録画され、テレ
ビ会議システム20の表示用モニター21とスピーカー23の
必要性が除かれている。システム20にはまた音声(参加
者の発言など)を捕らえるマイクロホン配列12、14、音
声を発する会議参加者の位置を判定するソースロケータ
22、連続ビデオ録画の一部としてセッティングと参加者
のビデオ画像を捕らえるためのビデオカメラ24が含まれ
る。一つの実施例では、ソースロケータ22はピクチャテ
ル社が製作販売する“ライムライト TM”と呼ばれるスタ
ンドアロンのハードウェアであり、これはモーター付き
のカメラとマイクロホン配列とが一体となったテレビ会
議用ユニットである。“ライムライトTM”ロケータ22
は、室内で拾われた音声を表す電気的信号を受信し、音
源位置パラメータを出力するソースロケータ機能を効率
良く実行するデジタル信号処理(DSP)用集積回路を有す
る。更に構造の細部と“ライムライトTM”システムの実
現については米国特許5,778,082に記載されており、そ
の内容は本明細書に参考に取り入れられている。(本発
明の他の実施例では複数のカメラとマイクロホン構成を
使用することができる)
Teleconference indexing system 10 includes a television
The conference system 20, the computer 30, and the playback system 50
included. The videoconferencing system 20 includes far-end conference participants
Meeting participants 62, 64, 66, 68 can see and hear their appearance and voice
Display monitor 21 and speakers 23
Is included. In an alternative embodiment, the embodiment shown in FIG.
Meetings that are not in conference phone mode are recorded using
Of the display monitor 21 and the speaker 23 of the video conference system 20
The need has been eliminated. System 20 also has audio (participation
Microphone array 12, 14, sound, etc.
A source locator that determines the location of a speaking participant
22, setting and participant as part of continuous video recording
Includes video camera 24 for capturing video images
You. In one embodiment, source locator 22 is
"Limelight" manufactured and sold by Le TMStar called "
Alone hardware, with motor
TV meeting with camera and microphone array
This is a discussion unit. “Lime LightTM"Locator 22
Receives an electrical signal representing the sound picked up indoors and
Efficient source locator function to output source position parameters
Has a well-performing digital signal processing (DSP) integrated circuit
You. Further structural details and "limelightTM"The fruit of the system
This is described in U.S. Patent 5,778,082,
Is incorporated herein by reference. (Original
In another embodiment of the present invention, a multiple camera and microphone configuration is used.
Can be used)

【0025】ソースロケータ22の機能を実行する代替例
を用いることができる。例えば、カメラビデオパターン
認識アルゴリズムを利用して、口の動きに基づいて音源
位置を識別することができる。本発明の別の実施例で
は、赤外線動き検出器を使用して音源位置を識別し、例
えば演壇に近づく発言者を検知することができる。
Alternatives for performing the function of source locator 22 can be used. For example, a camera video pattern recognition algorithm can be used to identify sound source locations based on mouth movements. In another embodiment of the present invention, an infrared motion detector may be used to identify sound source locations, for example, to detect speakers approaching the podium.

【0026】コンピュータ30には、マイクロホン配列1
2、14とビデオカメラ24からそれぞれ出力される音声デ
ータと映像データを記憶するための音声部分の記憶装置
32と映像部分の記憶装置34とが含まれる。コンピュータ
30にはまた以下にさらに詳しく説明する動作を行う索引
付けエンジンソフトウェアモジュール40が含まれる。
The computer 30 has a microphone array 1
Audio part storage device for storing audio data and video data output from 2, 14 and video camera 24, respectively.
32 and an image part storage device 34 are included. Computer
30 also includes an indexing engine software module 40 that performs the operations described in further detail below.

【0027】図2を参照すると、データとコンピュータ
命令を記憶し処理するために使用するコンピュータ30用
ハードウェアが示されている。特に、コンピュータ30に
はプロセッサ31、記憶装置33及びワーキング・メモリー
35が含まれ、これら全てはインターフェースバス37によ
って接続されている。記憶装置33、通常ディスク・ドラ
イブはマイクロホン配列12、14とカメラ24からそれぞれ
出力される音声データと映像データを記憶するために使
用され、したがってこの装置には音声部分の記憶装置32
と映像部分の記憶装置34とが含まれる。作動時に、索引
付けエンジンソフトウェア40が、記憶装置33からワーキ
ング・メモリー35(通常RAM)中にロードされ、索引付け
エンジンからのコンピュータ命令をプロセッサ31によっ
て処理することができるようになる。コンピュータ30は
実際の会議が行われるとき音声、映像並びに索引付け情
報データを録音・録画・記録し圧縮し、結合する中間記
憶手段として機能する。
Referring to FIG. 2, there is shown hardware for a computer 30 used to store and process data and computer instructions. In particular, computer 30 includes processor 31, storage device 33 and working memory.
35, all of which are connected by an interface bus 37. A storage device 33, usually a disk drive, is used to store the audio and video data output from the microphone arrays 12, 14 and the camera 24, respectively, and thus the device has a storage device 32 for the audio portion.
And an image part storage device 34. In operation, indexing engine software 40 is loaded from storage device 33 into working memory 35 (typically RAM) so that computer instructions from the indexing engine can be processed by processor 31. The computer 30 functions as an intermediate storage means for recording / recording / recording, compressing and combining audio, video and indexing information data when an actual conference is held.

【0028】再度図1を参照すると、再生システム50は
コンピュータ30と接続しており、この再生システムには
テレビ会議の録画を後で素早くレビューしアクセスでき
るようにする再生用ディスプレイ52と再生用サーバー54
が一緒に含まれている。
Referring again to FIG. 1, the playback system 50 is connected to the computer 30 and includes a playback display 52 and a playback server for quickly reviewing and accessing the video conference recordings later. 54
Are included together.

【0029】この作動についてのより詳細な説明を以下
に行うが、一般に、テレビ会議で生じた音声に応答して
マイクロホン配列12、14が信号を生成し、これらの信号
をソースロケータ22へ送る。次いで、ソースロケータ22
は、ビデオカメラ24と接続したポインティング・メカニ
ズム26とコンピュータ30の双方へ音源位置を表す信号を
伝送する。これらの信号はそれぞれ27と28に沿って伝送
される。ポインティング・メカニズム26には、最も一般
的な場合パンニング、チルティング、ズーミング並びに
ビデオカメラの自動焦点機能(これらの機能の下位セッ
トも使用することができる)を制御するモーターが含ま
れる。更にポインティング・メカニズム26の詳細につい
ては、本明細書に参考に取り入れられている米国特許5,
633,681に記載されている。次いでソースロケータ22か
らの信号に応答してビデオカメラ24は、ポインティング
・メカニズム26によって現在の音源である会議参加者の
方向に向けられる。ビデオカメラ24によって捕らえられ
た会議参加者の画像は、会議開始時刻からの経過時間表
示と共に映像部分の記憶装置34に映像データとして記憶
される。
A more detailed description of this operation is provided below, but generally in response to the audio generated in the video conference, the microphone arrays 12, 14 generate signals and send these signals to the source locator 22. Then, the source locator 22
Transmits a signal representing the position of the sound source to both the pointing mechanism 26 and the computer 30 connected to the video camera 24. These signals are transmitted along 27 and 28, respectively. The pointing mechanism 26 includes a motor that controls the most common cases of panning, tilting, zooming and the autofocus function of the video camera (a subset of these functions can also be used). Further details of the pointing mechanism 26 can be found in U.S. Pat.
633,681. In response to the signal from source locator 22, video camera 24 is then directed by pointing mechanism 26 toward the current participant, the conference participant. The image of the conference participant captured by the video camera 24 is stored as video data in the storage unit 34 of the video portion together with the display of the elapsed time from the conference start time.

【0030】同時に、マイクロホン配列12、14によって
拾われた音声は、やはり会議開始時刻から各新しい音声
セグメントの始めまで経過した時間と共に音声部分の記
憶装置32へ伝送され、そこに記憶される。このように、
経過時間が音声部分の記憶装置32の各音声セグメントと
共に記憶される。新しい音声セグメントは、ソースロケ
ータ22によって判定された、音源の検出位置の各々の変
化に対応する。
At the same time, the audio picked up by the microphone arrays 12, 14 is transmitted to and stored in the audio portion memory 32, again with the time elapsed from the conference start time to the beginning of each new audio segment. in this way,
The elapsed time is stored with each audio segment in the audio portion storage 32. The new audio segment corresponds to each change in the detected position of the sound source as determined by the source locator 22.

【0031】記憶要件を最少化するため、音声データと
映像データの双方はこの例示の実施例では、圧縮された
フォーマットで記憶される。更に記憶容量の最小化が必
要な場合には、発言が検出されたテレビ会議のその部分
のみが記憶され、更に必要な場合には会議参加者の静止
画像以外の映像データを記憶する必要はない。
To minimize storage requirements, both audio and video data are stored in a compressed format in this illustrative embodiment. Further, if the storage capacity needs to be minimized, only that part of the video conference in which the utterance was detected is stored, and if necessary, there is no need to store video data other than still images of the conference participants. .

【0032】図1に例示の実施例では一台のカメラを使
用しているが、2台以上のカメラを使用して会議参加者
のビデオ画像を捕らえることもできる。この2台以上の
カメラを使用するアプローチは、一人の参加者が別の参
加者のカメラの視界を遮る可能性がある場合については
特に有用である。或いは、会議の進行中示されるビュー
グラフ(viewgraph)やホワイトボードの図面などの録画
用に別個のカメラを専用に用いてもよい。
Although the embodiment illustrated in FIG. 1 uses one camera, more than one camera may be used to capture video images of conference participants. This approach of using more than one camera is particularly useful where one participant can obstruct the view of another participant's camera. Alternatively, a separate camera may be dedicated for recording, such as a viewgraph or whiteboard drawing shown during the meeting.

【0033】上述したように、音声部分の記憶装置32と
映像部分の記憶装置34は双方ともコンピュータ30の一部
であり、索引付けエンジン40と再生システム50の双方に
記憶された音声とビデオ画像を利用することができる。
後者(再生システム50)には上述したように再生用ディス
プレイ52と再生用サーバー54とが含まれる。
As mentioned above, the audio part storage 32 and the video part storage 34 are both part of the computer 30 and the audio and video images stored in both the indexing engine 40 and the playback system 50. Can be used.
The latter (reproduction system 50) includes the reproduction display 52 and the reproduction server 54 as described above.

【0034】索引付けエンジン40は、会議開始時刻から
の経過時間に基づいて、記憶された音声(セグメント)に
この記憶されたビデオ画像を関連付け、索引付け情報を
持つファイルを生成する。この索引付けエンジンはAVI
フォーマットなどのようなプロトコルを利用して圧縮さ
れた音声データと映像データに索引付けを行う。長期間
データを格納するために、音声、映像及び索引付け情報
がコンピュータ30から再生用サーバー54へ伝送され、シ
ステムのユーザーが随時アクセスできるようになる。ユ
ーザーから要求されたとき再生用サーバー54は自身のメ
モリーから音声データと映像データとを検索することが
できる。多くのユーザーがコンピュータネットワーク上
で素早く利用できるように再生用サーバー54は会議から
得られたデータを記憶する。一つの実施例では、再生用
サーバー54には複数のコンピュータにわたってマルチメ
ディアファイルのライブラリを持つ多くのコンピュータ
が含まれる。GUIディスプレイ47を備えたGUI45を用いる
ことによってユーザーは、索引付けエンジン40によって
作成された情報のみならず再生用サーバー54にもアクセ
スすることができる。次いで、再生用表示端末装置52を
用いて映像部分の記憶装置34に記憶された映像データを
表示し、音声部分の記憶装置32に記憶された音声データ
を再生する。再生用表示装置52を用いて映像データを表
示し、再生用サーバー54に記憶された音声データを再生
する。
The indexing engine 40 associates the stored video image with the stored audio (segment) based on the elapsed time from the conference start time, and generates a file having indexing information. This indexing engine is AVI
Indexing is performed on audio data and video data compressed using a protocol such as a format. For long term data storage, audio, video, and indexing information is transmitted from the computer 30 to the playback server 54 for access by the system users at any time. When requested by the user, the reproduction server 54 can retrieve audio data and video data from its own memory. The playback server 54 stores the data obtained from the conference so that many users can quickly use it on the computer network. In one embodiment, playback server 54 includes a number of computers that have a library of multimedia files across multiple computers. By using a GUI 45 with a GUI display 47, the user can access not only the information created by the indexing engine 40 but also the playback server 54. Next, the video data stored in the storage device 34 for the video portion is displayed by using the display terminal device 52 for reproduction, and the audio data stored in the storage device 32 for the audio portion is reproduced. The video data is displayed using the reproduction display device 52, and the audio data stored in the reproduction server 54 is reproduced.

【0035】或いは、索引付け用ビデオ画像の代わり
に、連続ビデオ録画の中から選択した静止画像に基づい
てアイコンが作成される。次いで、会議参加者を示すア
イコンが会議参加者が発した音声部分のセグメントと関
連付けられる。このようにしてシステムは、参加者が
“音源”であった各々の場合について、各識別された音
源とその音源を表すアイコンすなわち画像と一連の経過
時間と持続時間とを関連付けるデータベース索引を組み
立てる。以下に詳しく説明するようにこの経過時間と持
続時間を利用して、記憶された音声と映像にアクセスす
ることが可能となる。
Alternatively, instead of an indexing video image, an icon is created based on a still image selected from a continuous video recording. The icon representing the conference participant is then associated with the segment of the audio part emitted by the conference participant. Thus, for each case in which the participant was a "sound source", the system builds a database index that associates each identified sound source with an icon or image representing that sound source and a series of elapsed times and durations. As described in detail below, the elapsed time and duration can be used to access the stored audio and video.

【0036】本発明の一つの特徴は種々の音源とその位
置の識別を利用して会議内容に索引を付けることであ
る。図1に示す実施例では、音源の識別と音源位置の判
定はソースロケータ22と二つのマイクロホン配列12、14
によって行われる。各マイクロホン配列はピクチャテル
社製“ライムライトTM”の4本のマイクロホンを備えた
配列であり、この配列では、逆Tの各頂点及び“T”の二
つの直線部分の交点に1本づつマイクロホンが配置され
る。この例示の実施例では、逆T配列は12インチの高さ
と18インチの幅を持っている。このタイプの配列はChu
他による米国特許5,778,082に記載されており、その内
容は本明細書に参考に取り入れられている。
One feature of the present invention is to index conference content using the identification of various sources and their locations. In the embodiment shown in FIG. 1, sound source identification and sound source position determination are performed by a source locator 22 and two microphone arrays 12, 14.
Done by Each microphone array is an array that includes four microphones picture Tel Co. "Limelight TM", 1 present by one microphone at the intersection of two straight portions in this arrangement, each vertex and opposite T "T" Is arranged. In this exemplary embodiment, the inverted T array has a height of 12 inches and a width of 18 inches. This type of array is Chu
No. 5,778,082, which is incorporated herein by reference.

【0037】他の実施例では、空間位置を推定する様々
な構造と技術を備えた他のマイクロホン配列位置の推定
手続きとマイクロホン配列構成を利用して音源位置を定
位することができる。例えば、各会議参加者の近くにマ
イクロホンを配置し、十分に大きな信号出力を有するマ
イクロホンによってそのマイクロホンと関連する特定の
人が発言していることを示すことができる。
In another embodiment, the sound source position can be localized using other microphone array position estimation procedures and microphone array configurations having various structures and techniques for estimating a spatial position. For example, a microphone can be placed near each conference participant, and a microphone having a sufficiently large signal output can indicate that a particular person associated with the microphone is speaking.

【0038】米国特許5,778,082に記載されているよう
に、各マイクロホン配列12、14のマイクロホンの対の選
択された組み合わせの間で、大きく修正された相互相関
技術(部屋のエコーと背景騒音の低下に対する強さにつ
いて修正された)を利用して室内で発せられた音声の精
確な到達時間差時間を得ることができる。平面音波(遠
距離音場を想定)を想定すると、これらの対の時間差は
ソースロケータ22によってそれぞれの配列から得られ
る、時間差に対応する方位角へ翻訳することができる。
これらの角は3次元空間における音源位置の推定値示
す。
As described in US Pat. No. 5,778,082, a greatly modified cross-correlation technique (for reducing room echo and background noise) between selected combinations of microphone pairs in each microphone array 12,14. (Corrected for the intensity), it is possible to obtain an accurate arrival time difference time of the sound uttered indoors. Assuming a plane sound wave (assuming a far field), the time difference between these pairs can be translated by the source locator 22 to the azimuth corresponding to the time difference, obtained from each array.
These angles indicate the estimated position of the sound source in three-dimensional space.

【0039】図1に示す実施例では、音声定位配列と一
体化したマイクロホン配列によって音声は拾われ、マイ
クロホン配列は音声定位と音声ピックアップ装置双方の
二重の役割を果たすようになっている。しかし、他の実
施例では、一本のマイクロホンまたはマイクロホン配列
を録音用として利用することができ、一方で別のマイク
ロホンまたはマイクロホン配列を音声定位を行うために
使用することができる。
In the embodiment shown in FIG. 1, sound is picked up by a microphone array integrated with the sound localization array, and the microphone array plays a dual role of both the sound localization and the voice pickup device. However, in other embodiments, one microphone or microphone array can be used for recording, while another microphone or microphone array can be used for sound localization.

【0040】テレビ会議索引付けシステム10と共に使用
される二つのマイクロホン配列12、14が図示されてはい
るが、一つの配列のみが必要である。他の実施例では、
マイクロホン配列の数と構成を例えば一本のマイクロホ
ンから多数のマイクロホンへ変えてもよい。2つ以上の
配列を利用することで利点が提供される。特に、配列1
2、14の各々によって与えられる方位角と仰角は非常に
精確であり、1度の何分の一の範囲内で推定されるのに
対して、範囲の推定のほうは精確とはほど遠い。しか
し、範囲誤差は大きいもののポインティング・メカニズ
ム26でその情報を使用するには十分である。
Although two microphone arrays 12, 14 for use with videoconferencing indexing system 10 are shown, only one array is required. In another embodiment,
The number and configuration of microphone arrays may be changed, for example, from one microphone to many microphones. The advantage is provided by utilizing more than one sequence. In particular, array 1
The azimuths and elevations given by each of 2, 14 are very accurate, being estimated within a fraction of a degree, whereas range estimation is far from accurate. However, although the range error is large, the pointing mechanism 26 is sufficient to use that information.

【0041】しかし、マイクロホン配列によってさらに
広範囲の推定誤差が生じることにより単一のマイクロホ
ン配列について音源の曖昧さという問題が生じる。した
がって、図1を参照すると、マイクロホン配列12は人物6
6、68を同一人物と見るかもしれない。なぜならマイク
ロホン配列12の射程内にいる二人の間の距離の差が配列
12の範囲の誤差より小さいかもしれないからである。こ
の問題を処理するために、ソースロケータ22は人物66と
68を分離するための情報を示す第二の音源としてマイク
ロホン配列14からの音源の定位推定を利用することもで
きる。なぜなら、人物66と68とはマイクロホン配列14の
視点から見た方位角では実質的に分離しているからであ
る。
However, a further wide range of estimation errors caused by the microphone arrangement causes a problem of ambiguity of sound sources for a single microphone arrangement. Thus, referring to FIG. 1, the microphone array 12
You might see 6, 68 as the same person. Because the difference in distance between two people within range of the microphone array 12 is an array
It may be smaller than the error in the range of 12. To address this problem, source locator 22
It is also possible to use the localization estimation of the sound source from the microphone array 14 as a second sound source indicating information for separating 68. This is because the persons 66 and 68 are substantially separated from each other at the azimuth angle viewed from the viewpoint of the microphone array 14.

【0042】音源位置によって索引付けを行う代替アプ
ローチとしては、会合に索引を付けるためのパン/チル
トコマンドとプリセットのような手動カメラ位置コマン
ドを利用する方法がある。一般にこれらのコマンドは内
容の変化を示し、それによってカメラ位置の変化が音源
位置の変化を示すようになっている。
An alternative approach to indexing by sound source location is to use manual camera position commands such as pan / tilt commands and presets to index meetings. Generally, these commands indicate a change in content, such that a change in camera position indicates a change in sound source position.

【0043】図3は、テレビ会議の結果生じる、GUIディ
スプレイ47(図1)上で見たディスプレイ80の一例を図示
するものである。ディスプレイ80に含まれる以下の特徴
によって、誰が発言していたか、そしてその人がいつ発
言したかがシステム10のユーザーに対して正確に示され
る。水平軸99は録画された会議中の実際の時間を表す時
間尺度である。会議参加者の映像はディスプレイ80の垂
直軸に沿って現れる。索引付けエンジン40(図1)は、会
議開始時刻から新しい音声セグメントの始まりまでの経
過時間に基づいて会議参加者62、64、66の映像81、83、
85を映像部分の記憶装置34から選択し抽出する。これら
の映像は音声セグメントを発する会議参加者を表す。映
像81、83、85は、ビデオカメラ24によって捕らえられ、
映像部分の記憶装置34に記憶された連続ビデオ録画から
得られる単一静止フレームである。映像の画像選択の鍵
となる基準は会議開始時刻から各それぞれの音声セグメ
ントの始まりまでの経過時間である。タイムライン用と
して選択された映像は、各それぞれの音声セグメントの
始まりと同じ経過時刻に捕らえられた映像である。
FIG. 3 illustrates an example of the display 80 as seen on the GUI display 47 (FIG. 1) resulting from a video conference. The following features included in the display 80 accurately indicate to the user of the system 10 who was speaking and when that person was speaking. Horizontal axis 99 is a time scale representing the actual time during the recorded meeting. The video of the conference participant appears along the vertical axis of the display 80. The indexing engine 40 (FIG. 1) provides video 81, 83, 83 of conference participants 62, 64, 66 based on the elapsed time from the conference start time to the start of a new audio segment.
85 is selected and extracted from the storage unit 34 of the video part. These images represent conference participants emitting audio segments. Images 81, 83, 85 were captured by video camera 24,
A single still frame from a continuous video recording stored in the video portion storage 34. A key criterion for video image selection is the elapsed time from the meeting start time to the start of each respective audio segment. The video selected for the timeline is the video captured at the same elapsed time as the beginning of each respective audio segment.

【0044】ディスプレイ80には遠端会議参加者を意味
する映像87が含まれる。この画像は索引付けエンジン40
によっても選択される。この画像は、遠端カメラから得
た画像が利用できる場合には遠端会議参加者の画像であ
ってもよい。或いはこの画像は近端カメラによって捕ら
えたロゴの画像、写真などであってもよい。
The display 80 includes an image 87 representing far end conference participants. This image is an indexing engine 40
Is also selected by This image may be an image of a far-end conference participant if an image obtained from the far-end camera is available. Alternatively, the image may be a logo image, photograph, or the like captured by a near-end camera.

【0045】ディスプレイ80にはまた会議参加者の中の
一人が会議で示すデータなどを表すブロック89が含まれ
る。データ内容はテレビ会議システム20へ信号を出力す
る電子ビューグラフ表示システム(図示せず)を利用して
録画してもよい。或いは、第二のカメラを利用して従来
型のビューグラフで示されるスライドを録画することが
できる。次いで、サイズを小さくしたこのスライドはデ
ィスプレイ80の一部を形成することになる。
The display 80 also includes a block 89 representing data shown by one of the conference participants at the conference. The data content may be recorded using an electronic view graph display system (not shown) that outputs a signal to the video conference system 20. Alternatively, a slide shown in a conventional view graph can be recorded using a second camera. The reduced size slide will then form part of the display 80.

【0046】各それぞれの映像に対応する音声がいつ発
生したかを表すラインセグメントは各映像81、83、85、
87とブロック89と関連付けられる。例えば、セグメント
90、92、92'、94は図1の三人の会議参加者、例えば62、
64、66が発した音声の持続時間を表す。セグメント96は
遠端会議参加者(図1には図示せず)が発した音声を表
す。一方、セグメント97と98はデータ内容がプレゼンテ
ーション中いつ表示されたかを示し、データ内容を表示
する。セグメントは、各々の色に対して異なる意味が割
り当てられた様々な色にしてもよい。例えば、青いライ
ンで近端音源を表し、赤いラインで遠端音源を表すよう
にしてもよい。本来、映像とブロックとは、セグメント
と相まって、各会議参加者と提示されたデータブロック
を表す一連のタイムラインとを提供するものである。
The line segments indicating when the sound corresponding to each respective video is generated are represented by each video 81, 83, 85,
Associated with 87 and block 89. For example, the segment
90, 92, 92 ', 94 are the three conference participants of FIG.
64, 66 represents the duration of the sound emitted. Segment 96 represents speech uttered by a far-end conference participant (not shown in FIG. 1). Segments 97 and 98, on the other hand, indicate when the data content was displayed during the presentation and display the data content. The segments may be various colors, with different meanings assigned to each color. For example, a blue line may represent a near-end sound source, and a red line may represent a far-end sound source. By nature, video and blocks, in combination with segments, provide each conference participant and a series of timelines representing the presented data blocks.

【0047】ディスプレイ80には、それぞれの人62、6
4、66の発言内容は示されていないが、所望の場合に
は、事後にGUI45によって各発言セグメント90、92、9
2'、94にディスプレイ80上に覚え書きのような手書きに
よる注釈を行ってこの情報を満たしてもよい。
The display 80 shows each person 62, 6
Although the contents of the statements 4 and 66 are not shown, if desired, each statement segment 90, 92, 9
2 ', 94 may be annotated with handwriting on the display 80, such as a memo, to fill this information.

【0048】ユーザーは、GUI45、GUIディスプレイ47並
びに再生用ディスプレイ52を利用してディスプレイ80を
見ることができる。特にユーザーは、マウスや他の入力
装置(キーボード上のトラックボールやカーソル制御キ
ーなど)をディスプレイ80のセグメント90、92、92'、9
4、96、97、98の任意の点に合わせてクリックし、記憶
された会議ファイルのその部分にアクセスして再生や表
示を行うことができる。
The user can view the display 80 by using the GUI 45, the GUI display 47, and the reproduction display 52. In particular, the user may move a mouse or other input device (such as a trackball or cursor control keys on a keyboard) into segments 90, 92, 92 ', 9'
4, 96, 97, and 98 can be clicked at any point to access that portion of the stored conference file for playback or display.

【0049】本発明に準拠した方法100を示す流れ図を
図4に示す。図4の方法100はシステムの作動にとって一
般的なものであり広い種類の様々なマイクロホン配列構
成に適用できるものである。図1〜3を参照しながら、こ
のシステムの作動について説明する。
A flowchart illustrating a method 100 according to the present invention is shown in FIG. The method 100 of FIG. 4 is general to the operation of the system and can be applied to a wide variety of microphone arrangements. The operation of this system will be described with reference to FIGS.

【0050】作動時、音声がテレビ会議の遠端と近端の
双方から同時に得られる。テレビ会議システム20が音声
部分を受信するとき、連続する予め選択された持続時間
の間音声部分は遠端から連続的に得られる(ステップ10
1)。遠端テレビ会議システム18から受信された音声部分
はソースロケータ22へ向けられる(ステップ102)。ソー
スロケータは遠端音声信号の周波数成分を分析する。新
しいセグメントの始まりは、i) 特定の周波数成分の大
きさがその周波数の背景騒音より大きいこと、ii)特定
の周波数成分の大きさが予め決められた数の先行する時
間フレーム中で得られる同じ成分の大きさより大きいこ
とを特徴とする。発言が存在する場合には、音声部分の
セグメント(例えば、図3のセグメント96)が、遠端会議
参加者が発した音声部分に対応するタイムライン用とし
て開始される(ステップ103)。発言が遠端に存在し続
け、以前に開始した音声部分のセグメントの始まり以来
ずっと一時的中断がない場合、音声部分のセグメントは
遠端会議参加者に対応するタイムラインについて継続さ
れる。
In operation, audio is obtained simultaneously from both the far and near ends of a video conference. When the video conferencing system 20 receives the audio portion, the audio portion is continuously obtained from the far end for a continuous preselected duration (step 10).
1). The audio portion received from far-end video conferencing system 18 is directed to source locator 22 (step 102). The source locator analyzes the frequency components of the far-end audio signal. The beginning of a new segment is i) that the magnitude of a particular frequency component is greater than the background noise of that frequency, ii) the same magnitude of the particular frequency component is obtained in a predetermined number of preceding time frames. It is characterized by being larger than the size of the component. If so, a segment of the audio portion (eg, segment 96 in FIG. 3) is started for the timeline corresponding to the audio portion emitted by the far end conference participant (step 103). If the utterance continues to exist at the far end and there has been no temporary interruption since the beginning of the previously started audio segment, the audio segment is continued for the timeline corresponding to the far end conference participant.

【0051】遠端音声部分を示す予め選択された持続時
間が得られ(ステップ101)、分析される一方、システム
は同時に音声部分の連続するN秒間の持続時間をマイク
ロホン配列12、14から取得する(ステップ104)。遠端サ
イトからの音声部分が室内の音声部分の近端検出と干渉
することがあるので、マイクロホン配列を通じて受信さ
れた遠端信号は、取得した近端音声部分から遠端音声部
分のN秒間の持続時間のブロックを減らすことによって
抑圧される(ステップ105)。このようにして、“人”(音
源)としてのスピーカーによる偽りの音声定位は発生し
なくなる。エコー消去によって、同時に発言している二
人の近端参加者から結果的に生じる信号が影響を受ける
ことはない。この場合、音声ロケータは双方の参加者を
定位し、二人の内強い方を定位するか何も行わない。
While a preselected duration indicative of the far-end audio portion is obtained (step 101) and analyzed, the system simultaneously obtains a continuous N-second duration of the audio portion from the microphone array 12,14. (Step 104). Because the audio portion from the far-end site can interfere with the near-end detection of the indoor audio portion, the far-end signal received through the microphone array is It is suppressed by reducing the duration block (step 105). In this way, false sound localization by the speaker as a "person" (sound source) does not occur. Echo cancellation does not affect the resulting signals from the two near-end participants speaking simultaneously. In this case, the voice locator locates both participants and locates the stronger of the two or does nothing.

【0052】エコー消去は適応フィルタを用いてまたは
帯域毎のゲーティングを備えた帯域通過フィルタバンク
(図示せず)を使用して行ってもよい(当業者には公知の
ように、かなりの遠端エネルギーを持つこれらの帯域を
ゼロにセットして遠端背景騒音レベル近辺に遠端エネル
ギーを持つ帯域のみに処理を行うことができるようにし
て)。適応フィルタリングとエコー消去の双方を達成す
るための方法はChuの米国特許5,305,307に記載されてお
り、その内容は本明細書に参考に取り入れられている。
Echo cancellation may be performed using adaptive filters or bandpass filter banks with per-band gating.
(Not shown) (as known to those skilled in the art, these bands with significant far-end energy may be set to zero to provide far-end energy near the far-end background noise level. So that the processing can be performed only on the band that has it). A method for achieving both adaptive filtering and echo cancellation is described in Chu, US Pat. No. 5,305,307, the contents of which are incorporated herein by reference.

【0053】近端音源の発言検出と発言位置はソースロ
ケータ22とマイクロホン配列12、14を用いて決定される
(ステップ106)。発言が検出されると、ソースロケータ2
2は発言ソースの空間位置を推定する(ステップ107)。音
源位置を判定する方法についての更なる詳細については
米国特許5,778,082に記載されている。この方法には共
通音源から一対のマイクロホンに到達する信号間の時間
遅延の推定が伴う。遠端音声部分の分析との関係で説明
したように、周波数成分の大きさの方がその周波数の背
景騒音より著しく大きく、かつ、周波数成分の大きさの
方が、先行する時間フレームの予め決められた数のその
周波数について得られる周波数成分の大きさより大きけ
れば近端発言ソースが検出される。これら双方の条件を
満たすことが特定の発言ソースからの発言セグメントの
開始を意味する。ソースロケータ22によって決定される
ように、マイクロホン配列12、14で受信された信号の時
間遅延を比較することによって発言の音源位置が計算さ
れる。
The speech detection and speech position of the near-end sound source are determined using the source locator 22 and the microphone arrays 12 and 14.
(Step 106). When utterance is detected, source locator 2
2 estimates the spatial position of the utterance source (step 107). Further details on how to determine the sound source location are described in US Pat. No. 5,778,082. This method involves estimating the time delay between signals reaching a pair of microphones from a common source. As described in connection with the analysis of the far-end voice portion, the magnitude of the frequency component is significantly larger than the background noise of that frequency, and the magnitude of the frequency component is determined in advance in the preceding time frame. If the magnitude of the frequency component obtained for the given number of frequencies is larger, the near-end utterance source is detected. Satisfying both of these conditions means the start of a speech segment from a particular speech source. The source position of the utterance is calculated by comparing the time delays of the signals received at the microphone arrays 12, 14, as determined by the source locator 22.

【0054】索引付けエンジン40は、新しく引き出され
た音源位置パラメータ(ステップ107)を以前に検出した
音源のパラメータと比較する(ステップ108)。推定誤差
と発言者の小さな動きに起因して、新しい音源位置パラ
メータが同じ人について以前に推定したパラメータとわ
ずかに異なる場合がある。新しい音源と古い音源の位置
パラメータ間の差が十分に小さなものであれば、以前に
検出した音源(人)は再び聞き取れる(発言している)と仮
定され、発言者のタイムラインの発言セグメントは単に
延長されるか元に戻される(ステップ111)。
The indexing engine 40 compares the newly derived sound source location parameters (step 107) with the previously detected sound source parameters (step 108). Due to estimation errors and small movements of the speaker, the new sound source location parameters may be slightly different from those previously estimated for the same person. If the difference between the location parameters of the new and old sound sources is small enough, the previously detected sound source (people) is assumed to be audible (speaking) again and the speaker's timeline speech segment is It is simply extended or restored (step 111).

【0055】本発明の一つの特定の実施例に従う位置パ
ラメータの差の閾値は以下のようになる。
The threshold value of the difference between the positional parameters according to one particular embodiment of the invention is as follows:

【0056】1. 二つの音源の双方(以前に検出したも
の及び現在のもの)の範囲が2メートル未満の場合、パン
・アングル差が12度より大きいか、チルト角差が4度よ
り大きいか、範囲差が5メートルより大きいかのいずれ
かであれば新しい音源は聞き取れると決定される。
1. If the range of both of the two sound sources (previously detected and current) is less than 2 meters, whether the pan angle difference is greater than 12 degrees or the tilt angle difference is greater than 4 degrees If the range difference is greater than 5 meters, the new source is determined to be audible.

【0057】2. 二つの音源のいずれかの範囲が2メー
トルより大きく3.5メートル未満の場合、パン・アング
ル差が9度より大きいか、チルト角差が3度より大きい
か、範囲差が0.75メートルより大きければ、新しい音源
は聞き取れると決定される。
2. If the range of either of the two sound sources is greater than 2 meters and less than 3.5 meters, the pan / angle difference is greater than 9 degrees, the tilt angle difference is greater than 3 degrees, or the range difference is 0.75 meters. If it is, the new sound source is determined to be audible.

【0058】3. 二つの音源のいずれかの範囲が3.5メ
ートルより大きい場合、パン・アングル差が6度より大
きいか、チルト角差が2度より大きいか、範囲差が1メー
トルより大きければ、新しい音源は聞き取れると決定さ
れる。
3. If the range of either of the two sound sources is greater than 3.5 meters, if the pan / angle difference is greater than 6 degrees, the tilt angle difference is greater than 2 degrees, or the range difference is greater than 1 meter, The new sound source is determined to be audible.

【0059】本発明のこの実施例に従って、ビデオカメ
ラ24は、現在のまたは最も最近の音源で決定された位置
に応答して自動的に発言者の方へ向けられる。したがっ
て、会合中、各連続する発言者の連続ビデオ録画を行う
ことができる。ビデオ画像と音声セグメントについての
経過時間の相互の関連付けに基づいて、GUIディスプレ
イ47上に表示用の画像を提供する目的で索引付けエンジ
ン40は映像の中から静止画像を抜き出し、ユーザーが、
タイムラインと関連する人を視覚的に識別できるように
する(ステップ109)。データ記憶の新しいセグメントが
各々の新しい発言者について始められる(ステップ11
0)。
In accordance with this embodiment of the present invention, video camera 24 is automatically pointed toward the speaker in response to a location determined by the current or most recent sound source. Thus, during the meeting, a continuous video recording of each successive speaker can be made. Based on the correlation of the elapsed time for the video image and the audio segment, the indexing engine 40 extracts a still image from the video for the purpose of providing an image for display on the GUI display 47, and the user
A person associated with the timeline can be visually identified (step 109). A new segment of data storage is started for each new speaker (step 11
0).

【0060】或いは、会合終了後会合の連続ビデオ録画
をサンプルとして採り、索引付けエンジン40によって連
続記憶されたビデオ録画の中から参加者の映像81、83、
85のような静止ビデオ画像を抽出することができる。
Alternatively, after the end of the meeting, the continuous video recordings of the meeting are taken as samples, and the video images 81, 83,
Still video images such as 85 can be extracted.

【0061】時としてある人が会議中にその位置を変え
る場合がある。図4の方法によって新しい発言者として
のその人の新しい位置が処理される。しかし、ビデオパ
ターン認識及び/又は発言者の音声識別技術を利用する
ことによって、新しい発言者が移動した古い発言者の一
人であることを識別することができる。そのような明確
な識別が生じたとき、新しい発言者のタイムライン(例
えば、図3の画像と音声セグメント85と94を含む)はその
発言者の元のタイムラインと併合することができる。映
像ベースのトラッキング技術については本発明の譲受人
に譲渡された同時係属中の特許出願(シリアル番号09/79
840、1998年5月15日出願)に記載されており、その内容
は本明細書に参考に取り入れられている。この同時係属
中の出願には、カメラを自動的に位置決めするための映
像処理技術と音声処理技術との結合についての記載があ
る。
At times, a person may change his position during a meeting. The new position of the person as the new speaker is processed by the method of FIG. However, by utilizing video pattern recognition and / or the speaker's voice identification technology, it is possible to identify that the new speaker is one of the old speakers who moved. When such unambiguous identification occurs, the new speaker's timeline (eg, including the image and audio segments 85 and 94 of FIG. 3) can be merged with the speaker's original timeline. For video-based tracking technology, see the co-pending patent application assigned to the assignee of the present invention (serial number 09/79).
840, filed on May 15, 1998), the contents of which are incorporated herein by reference. This co-pending application describes the combination of video and audio processing techniques for automatically positioning a camera.

【0062】場合によっては、2人以上の会議参加者が
静止画像に現れることもある。タイムラインは、静止画
像に現れるかもしれないがその特定の経過時刻には発言
しない他のいずれの会議参加者(例えば発言者の近辺に
座っている隣席の人)でも示すことができるが、これに
よって静止画像中に存在するすべての人の識別に役立つ
だけでなくすべての会議参加者が発する音声の包括的な
概観が示される。
In some cases, two or more conference participants may appear in a still image. The timeline may be shown by any other conference participant who may appear in the still image but does not speak at that particular elapsed time (e.g., a neighbor sitting near the speaker). Provides a comprehensive overview of the audio uttered by all conference participants, as well as helping to identify everyone present in the still image.

【0063】二つのサイトが共に会議に携わっている多
重点会議のための会議データにもまた索引を付けること
ができる。この多重点構成では、各サイトでのマイクロ
ホン配列は、映像/音声/データの内容の流れを表す索引
付け情報を記憶と表示を行うためにそのサイトから中央
コンピュータへ送ることができる。
[0063] Conference data for a multipoint conference where two sites are involved in the conference together can also be indexed. In this multipoint configuration, the microphone array at each site can send indexing information representing the flow of video / audio / data content from that site to a central computer for storage and display.

【0064】以上説明した実施例についての追加、削除
及びその他の変更は本分野の当業者には明白であり、本
請求項の範囲内にあるものである。
Additions, deletions, and other modifications to the embodiments described above will be apparent to those skilled in the art and are within the scope of the claims.

【図面の簡単な説明】[Brief description of the drawings]

【図1】図1は二つのマイクロホン配列を用いるテレビ
会議実施例の概略的表示である。
FIG. 1 is a schematic representation of a video conference embodiment using two microphone arrays.

【図2】図2は図1に例示の機能のいくつかを行うコンピ
ュータのブロック図である。
FIG. 2 is a block diagram of a computer that performs some of the functions illustrated in FIG.

【図3】図3はテレビ会議中に生じるタイムラインを示
す例示ディスプレイである。
FIG. 3 is an exemplary display showing a timeline occurring during a video conference.

【図4】図4はマイクロホン配列による会議索引付け方
法のオペレーションを例示する流れ図である。
FIG. 4 is a flowchart illustrating the operation of the method of indexing a conference with a microphone array.

【符号の説明】 10 テレビ会議索引付けシステム 12 マイクロホン配列 14 マイクロホン配列 18 遠端テレビ会議システム 20 ローカルテレビ会議システム 21 ディスプレイモニター 22 ソースロケータ 23 スピーカー 24 ビデオカメラ 26 ポインティング・メカニズム 27,28 伝送ライン 30 コンピュータ 31 プロセッサ 32 音声部分の記憶装置 34 映像部分の記憶装置 40 索引付けエンジン 45 GUI 47 GUIディスプレイ 50 再生システム 52 再生表示 54 再生用サーバー 60 テーブル 62、64、66、68 会議参加者[Description of Signs] 10 Video Conference Indexing System 12 Microphone Array 14 Microphone Array 18 Far-End Video Conference System 20 Local Video Conference System 21 Display Monitor 22 Source Locator 23 Speaker 24 Video Camera 26 Pointing Mechanism 27,28 Transmission Line 30 Computer 31 Processor 32 Audio storage 34 Video storage 40 Indexing engine 45 GUI 47 GUI display 50 Playback system 52 Playback display 54 Playback server 60 Tables 62, 64, 66, 68 Conference participants

フロントページの続き (72)発明者 ピーター エル チュー アメリカ合衆国 マサチューセッツ州 02173 レキシントン ハドリー ロード 7Continued on the front page (72) Inventor Peter Elle Chu, United States of America 02173 Lexington Hadley Road 7

Claims (23)

【特許請求の範囲】[Claims] 【請求項1】 少なくとも一人の参加者からなる会議の
内容の索引付けを行う方法であって、 該会議の音声の録音を行うステップと、 音声を発する会議参加者を識別するステップと、 該識別された会議参加者の静止画像を捕らえるステップ
と、 該会議参加者の静止画像を音声録音の少なくとも1つの
音声部分のセグメント部分と相互に関連付けるステップ
であって、前記少なくとも1つのセグメントが該識別さ
れた会議参加者によって発せられた音声に対応するよう
になっている該関連付けステップと、 相互関係のある静止画像とそれに関連する少なくとも1
つの音声部分のセグメントを表す少なくとも1つの音声
存在セグメントを生成することによってタイムインを作
成するステップとを有することを特徴とする方法。
1. A method for indexing the content of a conference comprising at least one participant, comprising: recording a voice of the conference; identifying a conference participant who emits the voice; Capturing the captured still image of the conference participant; and correlating the still image of the conference participant with a segment portion of at least one audio portion of the audio recording, wherein the at least one segment is identified. Said associating step adapted to correspond to a voice uttered by the conference participant, and a correlated still image and at least one associated therewith.
Creating a time-in by generating at least one audio presence segment representing a segment of one audio portion.
【請求項2】 請求項1に記載の方法において、 表示モニタ上に該タイムラインを表示するステップと、 グラフィックユーザーインターフェース(GUI)を用いて
該モニター上に表示された該タイムラインにアクセスす
るステップとを更に有することを特徴とする前記方法。
2. The method of claim 1, wherein displaying the timeline on a display monitor and accessing the timeline displayed on the monitor using a graphic user interface (GUI). The above method, further comprising:
【請求項3】 請求の範囲2に記載の方法において、該
静止画像を捕らえるステップが会議のビデオ録画を行う
ことと、音声を発する会議参加者のビデオ画像を会議の
関連するビデオ録画のセグメントの中から捕らえること
とを含み、 GUIを用いて、該録画の音声部分と映像部分を再生モニ
ター上に再生するための特定の音声部分のセグメント部
分を選択するステップを更に有することを特徴とする前
記方法。
3. The method of claim 2, wherein the step of capturing the still image comprises performing a video recording of the conference, and converting the video image of the vocal participant to an associated video recording segment of the conference. Capturing from within, further comprising selecting, using a GUI, a segment of a particular audio portion for playing the audio and video portions of the recording on a playback monitor. Method.
【請求項4】 該静止画像の捕捉が、会議の関連する連
続ビデオ録画のセグメントの中からの、音声を発する会
議参加者のビデオ画像の捕捉を含むことを特徴とする請
求項1に記載の方法。
4. The method of claim 1, wherein the capturing of the still image comprises capturing a video image of an audible conference participant from among segments of an associated continuous video recording of the conference. Method.
【請求項5】 該静止ビデオ画像を捕捉するためのビデ
オカメラを更に有することを特徴とする請求項1に記載
の方法。
5. The method of claim 1, further comprising a video camera for capturing the still video image.
【請求項6】 会議参加者の識別が参加者の位置の識別
に基づくことを特徴とする請求項1に記載の方法。
6. The method of claim 1, wherein identifying a conference participant is based on identifying a location of the participant.
【請求項7】 会議参加者の識別がマイクロホン配列の
利用を含むことを特徴とする請求項6に記載の方法。
7. The method of claim 6, wherein identifying a conference participant includes using a microphone array.
【請求項8】 会議開始時刻からの経過時間を音声部分
のセグメントと静止画像と共に記憶し、該音声部分のセ
グメントと該静止画像とに関連して該経過時間をマッチ
させる索引付けエンジンによってタイムラインが作成さ
れるステップを更に有することを特徴とする請求項1に
記載の方法。
8. A timeline by an indexing engine that stores the elapsed time from the meeting start time together with the audio segment and the still image, and matches the elapsed time in relation to the audio segment and the still image. The method of claim 1, further comprising the step of:
【請求項9】 請求項1に記載の方法において、 複数の会議参加者を識別するステップと、 複数の会議参加者の各人の静止画像を捕らえるステップ
と、 各静止画像の捕捉時間を示す会議開始時刻からの経過時
間を記憶するステップと、 音源位置の変化が識別される毎に該音声録音と関連する
会議開始時刻からの経過時間を記憶するステップとを有
し、 タイムラインの作成が各識別された会議参加者につい
て、特定の参加者が発言していた該会議開始時刻からの
特定の経過時間の表示を含み、また該タイムラインの作
成がビデオ画像に現れ特定の経過時間に無言でいる他の
任意の会議参加者の表示を含むことを特徴とする前記方
法。
9. The method of claim 1 wherein identifying a plurality of conference participants, capturing a still image of each of the plurality of conference participants, and indicating a capture time of each still image. Storing the elapsed time from the start time; and storing the elapsed time from the conference start time associated with the audio recording each time a change in the sound source position is identified. For the identified conference participant, includes an indication of a particular elapsed time from the conference start time at which the particular participant was speaking, and the creation of the timeline appears in the video image and is silent at the particular elapsed time. Said method comprising displaying an indication of any other conference participants that are present.
【請求項10】 ある会議参加者が以前に識別され、該
参加者が発言したとき、該会議参加者の音声存在セグメ
ントが以前に検出されたタイムラインに追加されること
を特徴とする請求項9に記載の方法。
10. The conference participant according to claim 1, wherein a conference participant has been previously identified, and when said participant speaks, said conference participant's voice presence segment is added to a previously detected timeline. 9. The method according to 9.
【請求項11】 各識別された会議参加者が近端会議参
加者であることを特徴とする請求項10に記載の方法。
11. The method of claim 10, wherein each identified conference participant is a near-end conference participant.
【請求項12】 各近端会議参加者の識別が位置に基づ
くことを特徴とする請求項11に記載の方法。
12. The method of claim 11, wherein the identification of each near-end conference participant is location-based.
【請求項13】 新しい近端会議参加者の静止画像を識
別し、該新しい近端会議参加者の位置がその他の識別さ
れた近端会議参加者のそれ以前の検出位置とは異なる場
合、該新しい近端会議参加者用の新しいタイムラインを
開始することを特徴とする請求項12に記載の方法。
13. Identify a still image of the new near-end conference participant and if the location of the new near-end conference participant is different from the earlier detected locations of the other identified near-end conference participants. The method of claim 12, wherein a new timeline for a new near-end conference participant is started.
【請求項14】 音源が遠端発言ソースからの音声を伝
送する遠端スピーカーであって、タイムラインが遠端タ
イムラインであって、遠端発言ソースが存在する場合、
該遠端タイムラインが該遠端タイムラインに音声存在セ
グメントを作成することを含むことを特徴とする請求項
1に記載の方法。
14. When the sound source is a far-end speaker transmitting sound from a far-end speech source, the timeline is a far-end timeline, and the far-end speech source is present,
The method of claim 11, wherein the far-end timeline includes creating a voice presence segment on the far-end timeline.
The method according to 1.
【請求項15】 請求項14に記載の方法において、 遠端スピーカーマイクロホン配列データブロックを集積
するステップと、 近端マイクロホン配列データブロックを集積するステッ
プと、 蓄積された近端マイクロホン配列データから蓄積された
遠端スピーカーデータを減らすことによってエコー消去
を行うステップとを更に有することを特徴とする前記方
法。
15. The method of claim 14, further comprising: integrating a far-end speaker array data block; integrating a near-end microphone array data block; and storing from the stored near-end microphone array data. Performing echo cancellation by reducing the far-end speaker data.
【請求項16】 会議で示されたディスプレイのビデオ
画像を捕らえるステップと、 該ディスプレイの捕らえられたビデオ画像を表すタイム
ラインを生成するステップとを更に有することを特徴と
する請求項1に記載の方法。
16. The method of claim 1, further comprising: capturing a video image of the display shown at the conference; and generating a timeline representing the captured video image of the display. Method.
【請求項17】 該作成されたタイムラインが色分けさ
れていることを特徴とする請求項1に記載の方法。
17. The method of claim 1, wherein the created timeline is color-coded.
【請求項18】 少なくとも1人の参加者から成る会議
の内容に索引付けを行うシステムにおいて、 会議参加者が発した音声を録音する音声録音装置と、 会議参加者の位置を識別するための少なくとも1つのソ
ースロケータであって、該会議参加者の位置に対応する
信号を生成する該ソースロケータと、 カメラと、前記ソースロケータによって生成された信号
に応答して会議参加者に向けられるカメラを動かすカメ
ラ動作指示装置を含むカメラ組立部品と、 会議参加者の画像を捕らえるための画像捕捉ユニット
と、 前記画像捕捉ユニットによって捕らえられた画像を記憶
するための画像記憶装置と、 該カメラによって捕らえられた画像を該音声録音装置に
よって録音された音声に関連付け、画像と関連する音の
存在の表示を有するタイムラインを作成するためのプロ
セッサと、 記憶された音声、画像及びタイムラインにアクセス可能
なグラフィックユーザーインターフェースとを有するこ
とを特徴とする前記システム。
18. A system for indexing the content of a conference comprising at least one participant, comprising: a voice recording device for recording a voice uttered by the conference participant; Moving a source locator for generating a signal corresponding to the location of the conference participant; a camera; and a camera directed to the conference participant in response to the signal generated by the source locator. A camera assembly including a camera operation instructing device; an image capturing unit for capturing an image of a conference participant; an image storage device for storing an image captured by the image capturing unit; and an image capturing device captured by the camera. A timeline that associates an image with audio recorded by the audio recording device and has an indication of the presence of sound associated with the image. The system comprising: a processor for creating an in-line; and a graphical user interface having access to stored audio, images, and timelines.
【請求項19】 該音声ロケータが少なくとも1つのマ
イクロホン配列を利用することを特徴とする請求項18に
記載のシステム。
19. The system of claim 18, wherein said audio locator utilizes at least one microphone array.
【請求項20】 該音声ロケータが複数のマイクロホン
を使用することを特徴とする請求項18に記載のシステ
ム。
20. The system according to claim 18, wherein said audio locator uses a plurality of microphones.
【請求項21】 該音声ロケータが複数のマイクロホン
配列を有することを特徴とする請求項18に記載のシステ
ム。
21. The system of claim 18, wherein said audio locator has a plurality of microphone arrays.
【請求項22】 少なくとも1人の参加者から成る会議
内容に索引付けを行うためのシステムにおいて、 該会議の音声の録音を行う手段と、 音声を発する各会議参加者を識別する手段と、 各識別された会議参加者の静止画像を捕らえる手段と、 各識別された会議参加者の静止画像をそのような会議参
加者が発した音声に対応する音声録音の少なくとも1つ
の音声セグメント部分に関連付ける手段とを有すること
を特徴とする前記システム。
22. A system for indexing conference content comprising at least one participant, means for recording audio of the conference, means for identifying each conference participant who emits audio, Means for capturing a still image of the identified conference participant, and means for associating the still image of each identified conference participant with at least one audio segment portion of the audio recording corresponding to the sound emitted by such conference participant. The system comprising:
【請求項23】 会議の音声部分の索引付けデータベー
ス表示を行う方法において、 複数の参加者のタイムラインを作成し、各タイムライン
が相互関係のある静止画像を表す少なくとも1つの音声
存在セグメントと、少なくとも1つの関連する音声部分
のセグメントとを持つステップと、 ユーザーが所望の音声部分を表すセグメントの中の任意
のセグメントを識別することが可能なステップと、 該識別されたセグメントを再生するステップとを有する
ことを特徴とする前記方法。
23. A method for providing an indexed database display of audio portions of a conference, comprising creating a timeline of a plurality of participants, each timeline representing at least one interrelated still image; Having at least one associated audio segment; and allowing a user to identify any of the segments representing the desired audio segment; and playing the identified segment. The above method, comprising:
JP11219819A 1998-10-14 1999-08-03 Method and system to index contents of conference Pending JP2000125274A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17346298A 1998-10-14 1998-10-14
US09/173462 1998-10-14

Publications (1)

Publication Number Publication Date
JP2000125274A true JP2000125274A (en) 2000-04-28

Family

ID=22632148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11219819A Pending JP2000125274A (en) 1998-10-14 1999-08-03 Method and system to index contents of conference

Country Status (2)

Country Link
JP (1) JP2000125274A (en)
GB (1) GB2342802B (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003189273A (en) * 2001-12-20 2003-07-04 Sharp Corp Speaker identifying device and video conference system provided with speaker identifying device
JP2006129480A (en) * 2004-10-30 2006-05-18 Microsoft Corp Automatic face extraction for use in recorded meetings timelines
JP2006279737A (en) * 2005-03-30 2006-10-12 Casio Comput Co Ltd Recording apparatus, recording method, recording program, reproducing apparatus, reproducing method, reproducing program, and recording and reproducing apparatus
CN100425071C (en) * 2004-03-22 2008-10-08 富士施乐株式会社 Conference information processing apparatus, and conference information processing method and storage medium readable by computer
US7680360B2 (en) 2005-08-16 2010-03-16 Fuji Xerox Co., Ltd. Information processing system and information processing method
US7705875B2 (en) * 2004-06-11 2010-04-27 Fuji Xerox Co., Ltd. Display device, system, display method, and storage medium storing its program
US7724277B2 (en) * 2004-06-14 2010-05-25 Fuji Xerox Co., Ltd. Display apparatus, system and display method
JP2012003698A (en) * 2010-06-21 2012-01-05 Ricoh Co Ltd Conference support device, conference support method, conference support program and recording medium

Families Citing this family (155)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117157B1 (en) 1999-03-26 2006-10-03 Canon Kabushiki Kaisha Processing apparatus for determining which person in a group is speaking
GB2351627B (en) * 1999-03-26 2003-01-15 Canon Kk Image processing apparatus
GB2351628B (en) * 1999-04-14 2003-10-01 Canon Kk Image and sound processing apparatus
GB9908545D0 (en) 1999-04-14 1999-06-09 Canon Kk Image processing apparatus
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU2001283550A1 (en) * 2000-08-10 2002-02-18 Quindi Audio and video notetaker
JP4288879B2 (en) * 2001-09-14 2009-07-01 ソニー株式会社 Network information processing system and information processing method
FR2849564B1 (en) * 2002-12-31 2005-04-15 Droit In Situ METHOD AND SYSTEM FOR PRODUCING MULTIMEDIA EDITION BASED ON ORAL BENEFITS
JP4182936B2 (en) * 2004-08-31 2008-11-19 ソニー株式会社 Playback apparatus and display method
JP2007019907A (en) 2005-07-08 2007-01-25 Yamaha Corp Speech transmission system, and communication conference apparatus
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8560309B2 (en) 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (en) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Device and system for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8452037B2 (en) 2010-05-05 2013-05-28 Apple Inc. Speaker clip
CN101951492A (en) * 2010-09-15 2011-01-19 中兴通讯股份有限公司 Method and device for recording videos in video call
US8644519B2 (en) 2010-09-30 2014-02-04 Apple Inc. Electronic devices with improved audio
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
KR101760345B1 (en) * 2010-12-23 2017-07-21 삼성전자주식회사 Moving image photographing method and moving image photographing apparatus
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8811648B2 (en) 2011-03-31 2014-08-19 Apple Inc. Moving magnet audio transducer
US9007871B2 (en) 2011-04-18 2015-04-14 Apple Inc. Passive proximity detection
US9225701B2 (en) 2011-04-18 2015-12-29 Intelmate Llc Secure communication systems and methods
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20130028443A1 (en) 2011-07-28 2013-01-31 Apple Inc. Devices with enhanced audio
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8989428B2 (en) 2011-08-31 2015-03-24 Apple Inc. Acoustic systems in electronic devices
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
US8903108B2 (en) 2011-12-06 2014-12-02 Apple Inc. Near-field null and beamforming
US9020163B2 (en) 2011-12-06 2015-04-28 Apple Inc. Near-field null and beamforming
CN102572356B (en) * 2012-01-16 2014-09-03 华为技术有限公司 Conference recording method and conference system
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20130304476A1 (en) * 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
US9746916B2 (en) 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9820033B2 (en) 2012-09-28 2017-11-14 Apple Inc. Speaker assembly
US8858271B2 (en) 2012-10-18 2014-10-14 Apple Inc. Speaker interconnect
US9357299B2 (en) 2012-11-16 2016-05-31 Apple Inc. Active protection for acoustic device
US8942410B2 (en) 2012-12-31 2015-01-27 Apple Inc. Magnetically biased electromagnet for audio applications
DE212014000045U1 (en) 2013-02-07 2015-09-24 Apple Inc. Voice trigger for a digital assistant
US20140272209A1 (en) 2013-03-13 2014-09-18 Apple Inc. Textile product having reduced density
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (en) 2013-03-15 2018-12-14 苹果公司 Training at least partly voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9451354B2 (en) 2014-05-12 2016-09-20 Apple Inc. Liquid expulsion from an orifice
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9525943B2 (en) 2014-11-24 2016-12-20 Apple Inc. Mechanically actuated panel acoustic system
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US9900698B2 (en) 2015-06-30 2018-02-20 Apple Inc. Graphene composite acoustic diaphragm
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US9858948B2 (en) 2015-09-29 2018-01-02 Apple Inc. Electronic equipment with ambient noise sensing input circuitry
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
NO20160989A1 (en) * 2016-06-08 2017-12-11 Pexip AS Video Conference timeline
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. Far-field extension for digital assistant services
US11307661B2 (en) 2017-09-25 2022-04-19 Apple Inc. Electronic device with actuators for producing haptic and audio output along a device housing
US10757491B1 (en) 2018-06-11 2020-08-25 Apple Inc. Wearable interactive audio device
US10873798B1 (en) 2018-06-11 2020-12-22 Apple Inc. Detecting through-body inputs at a wearable audio device
US11334032B2 (en) 2018-08-30 2022-05-17 Apple Inc. Electronic watch with barometric vent
US11561144B1 (en) 2018-09-27 2023-01-24 Apple Inc. Wearable electronic device with fluid-based pressure sensing
JP7194292B2 (en) 2019-04-17 2022-12-21 アップル インコーポレイテッド radio localizable tag

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03162187A (en) * 1989-11-21 1991-07-12 Mitsubishi Electric Corp Video conference equipment
JPH06266632A (en) * 1993-03-12 1994-09-22 Toshiba Corp Method and device for processing information of electronic conference system
JPH10145763A (en) * 1996-11-15 1998-05-29 Mitsubishi Electric Corp Conference system
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60205151A (en) * 1984-03-29 1985-10-16 Toshiba Electric Equip Corp Sun tracking device
JP3266959B2 (en) * 1993-01-07 2002-03-18 富士ゼロックス株式会社 Electronic conference system
US5550965A (en) * 1993-12-27 1996-08-27 Lucent Technologies Inc. Method and system for operating a data processor to index primary data in real time with iconic table of contents
US5729741A (en) * 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
US5710591A (en) * 1995-06-27 1998-01-20 At&T Method and apparatus for recording and indexing an audio and multimedia conference
US5717869A (en) * 1995-11-03 1998-02-10 Xerox Corporation Computer controlled display system using a timeline to control playback of temporal data representing collaborative activities
US5786814A (en) * 1995-11-03 1998-07-28 Xerox Corporation Computer controlled display system activities using correlated graphical and timeline interfaces for controlling replay of temporal data representing collaborative activities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03162187A (en) * 1989-11-21 1991-07-12 Mitsubishi Electric Corp Video conference equipment
JPH06266632A (en) * 1993-03-12 1994-09-22 Toshiba Corp Method and device for processing information of electronic conference system
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
JPH10145763A (en) * 1996-11-15 1998-05-29 Mitsubishi Electric Corp Conference system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
太田賢、山田善大、水野忠則: "モーバイルコンピューティング環境における協調作業を支援する電子会議システム", 情報処理学会研究報告, vol. 98, no. 53, JPN6007011502, 29 May 1998 (1998-05-29), JP, pages 41 - 48, ISSN: 0001080068 *
山田善大、太田賢、水野忠則: "蓄積型モーバイル電子会議システムにおける情報抽出・参照方式", 情報処理学会研究報告, vol. 97, no. 72, JPN6008033248, 25 July 1997 (1997-07-25), pages 73 - 78, ISSN: 0001080069 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003189273A (en) * 2001-12-20 2003-07-04 Sharp Corp Speaker identifying device and video conference system provided with speaker identifying device
CN100425071C (en) * 2004-03-22 2008-10-08 富士施乐株式会社 Conference information processing apparatus, and conference information processing method and storage medium readable by computer
US7809792B2 (en) 2004-03-22 2010-10-05 Fuji Xerox Co., Ltd. Conference information processing apparatus, and conference information processing method and storage medium readable by computer
US7705875B2 (en) * 2004-06-11 2010-04-27 Fuji Xerox Co., Ltd. Display device, system, display method, and storage medium storing its program
US7724277B2 (en) * 2004-06-14 2010-05-25 Fuji Xerox Co., Ltd. Display apparatus, system and display method
JP2006129480A (en) * 2004-10-30 2006-05-18 Microsoft Corp Automatic face extraction for use in recorded meetings timelines
KR101238586B1 (en) 2004-10-30 2013-02-28 마이크로소프트 코포레이션 Automatic face extraction for use in recorded meetings timelines
JP2006279737A (en) * 2005-03-30 2006-10-12 Casio Comput Co Ltd Recording apparatus, recording method, recording program, reproducing apparatus, reproducing method, reproducing program, and recording and reproducing apparatus
JP4656395B2 (en) * 2005-03-30 2011-03-23 カシオ計算機株式会社 Recording apparatus, recording method, and recording program
US7680360B2 (en) 2005-08-16 2010-03-16 Fuji Xerox Co., Ltd. Information processing system and information processing method
JP2012003698A (en) * 2010-06-21 2012-01-05 Ricoh Co Ltd Conference support device, conference support method, conference support program and recording medium

Also Published As

Publication number Publication date
GB2342802B (en) 2003-04-16
GB2342802A (en) 2000-04-19
GB9916394D0 (en) 1999-09-15

Similar Documents

Publication Publication Date Title
JP2000125274A (en) Method and system to index contents of conference
US8111282B2 (en) System and method for distributed meetings
US10733574B2 (en) Systems and methods for logging and reviewing a meeting
US7598975B2 (en) Automatic face extraction for use in recorded meetings timelines
US7433327B2 (en) Method and system for coordinating communication devices to create an enhanced representation of an ongoing event
US9641585B2 (en) Automated video editing based on activity in video conference
Cutler et al. Distributed meetings: A meeting capture and broadcasting system
Lee et al. Portable meeting recorder
US8717402B2 (en) Satellite microphone array for video conferencing
US7113201B1 (en) Image processing apparatus
JP3143125B2 (en) System and method for recording and playing multimedia events
US7362350B2 (en) System and process for adding high frame-rate current speaker data to a low frame-rate video
JP3620855B2 (en) Method and apparatus for recording and indexing audio and multimedia conferences
US20060251382A1 (en) System and method for automatic video editing using object recognition
US7117157B1 (en) Processing apparatus for determining which person in a group is speaking
CN107820037B (en) Audio signal, image processing method, device and system
CN111193890B (en) Conference record analyzing device and method and conference record playing system
US20050243167A1 (en) System and process for adding high frame-rate current speaker data to a low frame-rate video using delta frames
JP2001256335A (en) Conference recording system
WO2002013522A2 (en) Audio and video notetaker
JP4572545B2 (en) Information processing system, information processing method, and computer program
CN114257778A (en) Teleconference system and multi-microphone voice recognition playing method
Rigoll Some Preliminary Results on Multimodal Recognition of Events in Smart Meeting Rooms

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20040817

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090331