JP2003323628A - Device and program for video identifying speaker and method of displaying video identifying speaker - Google Patents

Device and program for video identifying speaker and method of displaying video identifying speaker

Info

Publication number
JP2003323628A
JP2003323628A JP2002130344A JP2002130344A JP2003323628A JP 2003323628 A JP2003323628 A JP 2003323628A JP 2002130344 A JP2002130344 A JP 2002130344A JP 2002130344 A JP2002130344 A JP 2002130344A JP 2003323628 A JP2003323628 A JP 2003323628A
Authority
JP
Japan
Prior art keywords
data
speaker
conversation
video
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002130344A
Other languages
Japanese (ja)
Other versions
JP4077656B2 (en
Inventor
Takako Ariyasu
香子 有安
Hideki Sumiyoshi
英樹 住吉
Ichiro Yamada
一朗 山田
Masahiro Shibata
正啓 柴田
Nobuyuki Yagi
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2002130344A priority Critical patent/JP4077656B2/en
Publication of JP2003323628A publication Critical patent/JP2003323628A/en
Application granted granted Critical
Publication of JP4077656B2 publication Critical patent/JP4077656B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To provide a device for a video identifying a speaker which facilitates identification of the speaker and understanding of the contents of conversation and provides a video having a sense of presence while dispensing with large-scaled equipment when making the conversation via a network, and to provide a program for the video identifying the speaker and a method of displaying the video identifying the speaker. <P>SOLUTION: This device for the video identifying the speaker is configured of: a data inputting part 2 for inputting conversation data constituted of text data and voice data; a data analyzing/extracting part 4 for analyzing the conversation data, and for extracting identification data and structural data indicating the structural characteristics of the conversation data, and for extracting contents analytic data indicating the contents characteristics of the conversation data; a video generating/ displaying part for generating a video including the CG characters of the speaker based on the structural data, the contents analytic data, and the identification data, and for displaying the video including the CG characters along the configuration of interactive program data prepared beforehand on a display screen 7 of a terminal; and a storage part 4 for storing the respective data. <P>COPYRIGHT: (C)2004,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、ネットワークを利
用して複数の発言者がテキストデータまたは音声データ
により同期あるいは非同期で会話を行う場合に使用され
る発言者特定映像装置およびそのプログラムならびに発
言者特定映像表示方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speaker identification video apparatus and its program, and a speaker, which are used when a plurality of speakers perform a synchronous or asynchronous conversation using text data or voice data over a network. The present invention relates to a specific video display method.

【0002】[0002]

【従来の技術】従来、ネットワークに接続される端末を
利用する複数の発言者間において、同期あるいは非同期
で情報交換を行えることが知られている。例えば、この
同期あるいは非同期の情報交換(以下、単に会話とい
う)には、遠隔地にいる複数の発言者が実時間で会話し
あう遠隔地会議システム(同期した場合)や、不特定の
複数の発言者がネットワーク上に点在するサーバで開設
されている会話場所(チャットルーム)にて実時間で会
話しあうチャット(同期した場合)や、サーバに保持さ
れる電子掲示板に投稿して会話しあう電子掲示板システ
ム(非同期の場合)や、端末に備えられるメールソフト
のメーリングリストを利用して、複数人に一斉に電子メ
ールを送信し、当該複数人から返信メールを受信するこ
とで会話する電子メール(非同期の場合)等がある。
2. Description of the Related Art Conventionally, it is known that information can be exchanged synchronously or asynchronously between a plurality of speakers using terminals connected to a network. For example, in this synchronous or asynchronous information exchange (hereinafter, simply referred to as conversation), a remote conference system (when synchronized) in which a plurality of speakers at a remote place talk in real time, or a plurality of unspecified Chat can be performed in real time at the conversation places (chat rooms) established on servers scattered on the network (when synchronized), or by posting on the electronic bulletin board held on the server for conversation. Use the electronic bulletin board system (for asynchronous) and the mailing list of the mail software installed on the terminal to send emails to multiple people at once and receive reply emails from the multiple people to have conversations. (In case of asynchronous) etc.

【0003】ところが、ネットワークに接続される端末
を利用して行われている複数の発言者による会話におい
て、送受信されるデータの多くは、テキストデータや音
声データのみであった。それゆえ、会話に参加している
発言者の中で、誰が発言しているのかをスムーズに認識
しようとすると、テキストデータや音声データだけでは
情報量が少なく、認識しづらく(発言者の特定が困
難)、また、発言者の発言内容も理解しづらい場合があ
り、会話に参加している参加者にとっては、臨場感に乏
しく、集中力が欠如しがちになっていた。これらを解消
するために、当該テキストデータや音声データに映像を
付加するものが実現されている。
However, in a conversation between a plurality of speakers using a terminal connected to a network, most of the data transmitted and received are only text data and voice data. Therefore, when trying to smoothly recognize who is speaking among the speakers participating in the conversation, the amount of information is small only with text data or voice data, and it is difficult to recognize (the speaker cannot be identified. In some cases, it is difficult for the speakers to understand the content of their remarks, and the participants participating in the conversation tend to lack a sense of presence and lack of concentration. In order to solve these problems, a technique of adding video to the text data and audio data has been realized.

【0004】例えば、テキストデータや音声データに映
像が付加された状態での複数の発言者による会話とし
て、会話に参加している参加者を実際に撮像した画像で
ある実動画像と、当該参加者が発言した音声とを送受信
するテレビ会議システム、動画像を圧縮画像または静止
画を単一画像(静止画像)として送受信する簡易遠隔地
会議システム、実動画像からビデオアバターを生成し仮
想空間に配置するコミュニケーションシステムが挙げら
れる。また、複数人により会話した結果である情報(会
話情報)を共有することを主な目的とした仮想白板、会
話に参加する参加者の代理として人工知能が内蔵された
ロボットによる代理会議といった様々な従来技術が存在
する。
For example, as a conversation between a plurality of speakers in a state where a video is added to text data and voice data, a live image which is an image of a participant actually participating in the conversation, and the participation. A video conferencing system that sends and receives voices spoken by people, a simple remote conference system that sends and receives moving images as compressed images or still images as a single image (still image), creates video avatars from actual moving images, and creates them in a virtual space. The communication system to arrange is mentioned. In addition, a virtual whiteboard mainly intended to share information (conversation information) that is the result of a conversation by multiple people, a proxy conference using a robot with artificial intelligence built in as a proxy for the participants participating in the conversation, Prior art exists.

【0005】また、テキストデータや音声データに付加
される映像を表現する従来技術に関しては、会話に参加
する参加者が使用している端末において、当該端末の表
示画面に向けた視線の方向によって映像が変化する視線
一致ディスプレイ(視線一致技術に基づくもの)や、複
数の端末から入力されたテキストデータをキーワードと
して、このキーワード同士をマッチングし、このマッチ
ング結果を、テキストデータや音声データに付加される
映像に反映させるキーワードマッチングによる画像処理
などがある。
Further, regarding the conventional technique for expressing an image added to text data or voice data, in the terminal used by the participants who participate in the conversation, the image is displayed depending on the direction of the line of sight toward the display screen of the terminal. The eye-gaze matching display (which is based on eye-gaze matching technology) with varying numbers and text data input from multiple terminals are used as keywords to match the keywords, and the matching result is added to the text data and voice data. There is image processing by keyword matching that is reflected in the video.

【0006】[0006]

【発明が解決しようとする課題】しかし、従来のネット
ワークに接続される端末を利用してテキストデータまた
は音声データに映像を付加した会話のものには、以下に
示す問題点が存在した。実動画像と音声とを送受信する
テレビ会議システムや、圧縮画像と静止画像とを送受信
する簡易遠隔地会議システムは、テキストデータまたは
音声データを送受信する従来の遠隔地会議システムに比
べ、送受信するデータ容量が格段に多く、特に、テレビ
会議システムでは、実動画像として会議に参加している
参加者の画像を送受信するので、プライバシー面での問
題が発生し易いと共に、大掛かりな設備費やカメラなど
の特定器具の準備が必要となってしまうという問題があ
る。
However, the following problems have been encountered in conversations in which video is added to text data or voice data using a conventional terminal connected to a network. Video conferencing systems that transmit and receive live video and audio, and simple remote conferencing systems that transmit and receive compressed images and still images, compared to conventional remote conferencing systems that transmit and receive text or audio data. The capacity is remarkably large. Especially, in the video conferencing system, since the images of the participants participating in the conference are transmitted and received as the moving images, privacy problems are likely to occur, and large equipment costs and cameras are required. There is a problem that it is necessary to prepare the specific equipment of.

【0007】また、チャットなどの一例として、一般的
なアバタチャットなどでは、発言者が端末から入力した
テキストデータを、発言者の発言代理人である仮想空間
上のCGキャラクタを介して会話させるシステムも存在
するが、各CGキャラクタの人数に対応する画面構成、
ショットの種類、あるいは、画面切替タイミングなどの
画面状態についての考慮が全くなされていないため、会
話に参加している各発言者にとって会話に対応する画面
状態が認識し難い状態となってしまっていた。
Further, as an example of chat or the like, in general avatar chat or the like, a system in which text data input by a speaker from a terminal is conversed via a CG character in a virtual space which is the speaker's agent. There is also, but the screen configuration corresponding to the number of each CG character,
Since no consideration was given to the type of shot or the screen state such as the screen switching timing, it was difficult for the speakers participating in the conversation to recognize the screen state corresponding to the conversation. .

【0008】そのため、発言者の特定の困難さが解消さ
れず、そして前後の流れを踏まえた会話の内容を理解し
づらく、臨場感に乏しく、その結果、集中力が欠如し易
い状態となってしまうなどの問題点が存在した。
Therefore, it is difficult to identify the speaker, and it is difficult to understand the content of the conversation based on the flow before and after, so that there is little realism, and as a result, the concentration is likely to be lacked. There were problems such as being lost.

【0009】本発明は、前記問題点に鑑み創案されたも
のであり、大掛かりな設備を必要とせずに、ネットワー
クに接続される端末を利用して複数の発言者が会話を行
う場合に、その発言者の特定が容易で、また、会話の内
容が理解し易く、さらに、会話に付加された映像に臨場
感がある発言者特定映像装置およびそのプログラムなら
びに発言者特定映像表示方法を提供することを目的とす
る。
The present invention was devised in view of the above problems, and when a plurality of speakers talk using a terminal connected to a network without the need for large-scale equipment, (EN) Provided are a speaker-specific video device, a program thereof, and a speaker-specific video display method in which the speaker can be easily specified, the content of the conversation can be easily understood, and the image added to the conversation has a sense of realism. With the goal.

【0010】[0010]

【課題を解決するための手段】本発明は、前記目的を達
成するため、以下に示すような発言者特定映像装置に係
るものとした。すなわち、請求項1に記載の発言者特定
映像装置は、発言者を識別するための識別データが付加
されているテキストデータまたは音声データによりネッ
トワークに接続される端末を利用して複数の発言者が同
期あるいは非同期で会話を行う場合に、前記発言者の特
定が容易となる発言者特定映像装置であって、会話を行
うための前記テキストデータまたは前記音声データによ
る会話データを入力するデータ入力部と、このデータ入
力部に入力された会話データを解析して前記識別データ
およびその会話データの構造的な特徴を示す構造データ
を抽出すると共に、前記会話データの内容的な特徴を示
す内容解析データを抽出するデータ解析抽出部と、この
データ解析抽出部により解析して抽出された前記構造デ
ータおよび前記内容解析データならびに前記識別データ
に基づいて、前記発言者のCGキャラクタを含む映像を
生成すると共に、前記CGキャラクタを含む映像を、あ
らかじめ準備されている対話番組データの構成に沿っ
て、前記端末の表示画面上に表示させる映像生成表示部
と、前記各データを記憶するための記憶部と、を備える
構成とした。
In order to achieve the above-mentioned object, the present invention relates to a speaker specifying video device as described below. That is, the speaker identifying video device according to claim 1 uses a terminal connected to the network with text data or voice data to which identification data for identifying the speaker is added, and A speaker identification video device that facilitates identification of the speaker when a conversation is performed synchronously or asynchronously, and a data input unit for inputting conversation data by the text data or the voice data for conversation. , Analyzing the conversation data input to the data input unit to extract the identification data and the structural data indicating the structural features of the conversation data, and the content analysis data indicating the characteristic features of the conversation data. The data analysis extraction unit to be extracted, and the structural data and the content analysis data analyzed and extracted by the data analysis extraction unit. And a video including the CG character of the speaker is generated based on the identification data, and the video including the CG character is displayed on the display screen of the terminal according to the structure of the interactive program data prepared in advance. And a storage unit for storing the above-mentioned respective data.

【0011】このように構成されることにより、発言者
特定映像装置は、はじめに、データ入力部により、発言
者を識別するための識別データが付加されているテキス
トデータまたは音声データによる会話データが端末から
入力される。
With such a configuration, in the speaker specifying video device, first, the data input unit transmits the conversation data by the text data or the voice data to which the identification data for identifying the speaker is added. Input from.

【0012】識別データが付加されている会話データが
入力されると、データ解析抽出部は、その会話データを
解析して、発言者を識別するための識別データやその会
話データの構造的な特徴となる例えば、発言者の発言長
さを示す発言長さデータなどの構造データを抽出し、か
つ、会話データの内容的な特徴を示す例えば、発言者名
の引用の有無を示す発言者名引用データなどの内容解析
データを抽出して映像生成表示部に出力している。な
お、ここで使用される識別データは、送信側で付される
識別IDや、また、発言者が付加するニックネームや、
あるいは、送信側のネットワーク通信における物理的I
Dなどである。また、会話データが音声データである場
合には、あらかじめ登録されている音声データとの比較
を行うことで発言者の特定(声紋一致による発言者の特
定)を行い、この比較結果に基づいた識別データを生成
し、当該音声データに付加してもよい。
When the conversation data to which the identification data is added is input, the data analysis / extraction section analyzes the conversation data to identify the speaker and the structural characteristics of the conversation data. For example, structural data such as the statement length data indicating the statement length of the speaker is extracted, and the content characteristics of the conversation data are extracted, for example, the speaker name quote indicating whether or not the speaker name is quoted. Content analysis data such as data is extracted and output to the video generation display unit. The identification data used here is an identification ID given by the sender, a nickname added by the speaker,
Alternatively, the physical I in the sender's network communication
D and so on. When the conversation data is voice data, the speaker is identified by comparing it with the voice data registered in advance (the speaker is identified by matching the voiceprints), and the identification based on the comparison result is performed. Data may be generated and added to the audio data.

【0013】そして、映像生成表示部では、識別データ
および構造データならびに内容解析データに基づいて、
仮想空間における発言者の発言代理人としてのCGキャ
ラクタを含む映像を生成し、会話データを入力してきた
端末の表示画面に当該映像を表示させる。このとき、例
えば、TVML(TV Program Making Language)を用い
てCGキャラクタの配置および背景画を設定し、映像を
作成してもよい。そして、CGキャラクタを含む映像
は、記憶部に記憶されてあらかじめ準備された、過去の
対話番組について所定の視点から分析して統計的算出か
ら作成された対話番組データにより、画面構成、画面遷
移、画面遷移タイミングに沿って構成されることにな
る。そして、この映像生成表示部では、各CGキャラク
タに、入力された会話データに基づいて音声合成された
音声合成データが付加される。
Then, in the image generation / display section, based on the identification data, the structure data and the content analysis data,
A video including a CG character as a speaking agent of the speaker in the virtual space is generated, and the video is displayed on the display screen of the terminal that has input the conversation data. At this time, for example, the image may be created by setting the arrangement of the CG characters and the background image using TVML (TV Program Making Language). Then, the video including the CG character is stored in the storage unit and prepared in advance, and the screen configuration, screen transition, It will be configured according to the screen transition timing. Then, in this video generation / display unit, voice synthesis data obtained by performing voice synthesis based on the input conversation data is added to each CG character.

【0014】また、請求項2記載の発言者特定映像装置
は、請求項1に記載の発言者特定映像装置において、前
記データ解析抽出部は、前記構造データとして、少なく
とも、発言者の発言長さを示す発言長さデータと、発言
者の発言順の通し番号を示す通し番号データとを、解析
して抽出する会話構造解析抽出手段を備えると共に、前
記内容解析データとして、少なくとも、発言者名の引用
の有無を示す発言者名引用データと、他発言者における
発言内容の引用の有無を示す発言内容引用データと、を
解析して抽出する会話内容解析抽出手段とを備える構成
とした。
According to a second aspect of the present invention, in the speaker identification video device according to the first aspect, the data analysis / extraction section uses, as the structure data, at least the speech length of the speaker. Is provided with a conversation structure analysis and extraction unit that analyzes and extracts utterance length data indicating the utterance number and serial number data indicating the serial number in the utterance order of the utterance, and at least the citation of the utterance name is used as the content analysis data. Conversation content analysis / extraction means for analyzing and extracting speaker name citation data indicating presence / absence and utterance content citation data indicating presence / absence of utterance content by other speakers is provided.

【0015】このように構成されることにより、発言者
特定映像装置では、データ解析抽出部が、構造データの
内、少なくとも、発言者の発言長さを示す発言長さデー
タと、発言者の発言順の通し番号を示す通し番号データ
と、どの発言者が発言しているかを示す発言者データと
を、解析して抽出する。そして、内容解析抽出手段が、
内容解析データの内、少なくとも、発言者名の引用の有
無を示す発言者名引用データと、他発言者における発言
内容の引用の有無を示す発言内容引用データとを、解析
して抽出して、映像生成表示部に各データを受け渡して
いる。
With such a configuration, in the speaker-identifying video device, the data analysis / extraction section uses at least the statement length data indicating the statement length of the speaker and the statement of the speaker out of the structure data. The serial number data indicating the sequential serial numbers and the speaker data indicating which speaker is speaking are analyzed and extracted. And the content analysis and extraction means
Of the content analysis data, at least the speaker name citation data indicating whether or not the speaker name is quoted, and the utterance content citation data indicating whether or not the utterance content of another speaker is quoted are analyzed and extracted, Each data is transferred to the video generation / display section.

【0016】さらに、請求項3記載の発言者特定映像装
置は、請求項1または請求項2に記載の発言者特定映像
装置において、前記映像生成表示部は、前記CGキャラ
クタを含む映像の画面構成を決める画面構成手段と、こ
の画面構成手段の画面構成についての遷移確率および前
記発言者の発言長さデータに基づいてその画面構成を遷
移させる画面遷移手段と、この画面遷移手段の遷移タイ
ミングを決める画面遷移タイミング手段と、を備える構
成とした。
Further, the speaker specifying video device according to claim 3 is the speaker specifying video device according to claim 1 or 2, wherein the video generation / display section is a screen configuration of a video including the CG character. Deciding screen transition means, a screen transition means for transitioning the screen configuration based on the transition probability of the screen configuration of this screen structuring means and the speech length data of the speaker, and transition timing of this screen transition means And a screen transition timing means.

【0017】このように構成されることにより、発言者
特定映像装置は、対話番組データから画面構成、画面遷
移、画面遷移タイミングについて、画面構成手段、画面
遷移手段、画面遷移タイミング手段により、発言者の会
話を行うCGキャラクタを含む映像の構成を行ってい
る。
With such a configuration, the speaker-identifying video device uses the screen composing means, the screen transition means, and the screen transition timing means for the screen composition, the screen transition, and the screen transition timing from the interactive program data. A video including a CG character having a conversation is constructed.

【0018】また、請求項4記載の発言者特定映像装置
は、請求項1ないし請求項3のいずれか一項に記載の発
言者特定映像装置において、データ解析抽出部は、前記
会話データに基づいて、前記CGキャラクタの表情を変
えるための表情データを抽出する表情データ解析抽出手
段を備える構成とした。このように構成されることによ
り、データ解析部の表情データ解析抽出手段により各発
言者の発言に対応してCGキャラクタの表情を反映させ
ることができる。
The speaker-specific video device according to claim 4 is the speaker-specific video device according to any one of claims 1 to 3, wherein the data analysis / extraction section is based on the conversation data. Thus, the facial expression data analysis and extraction means for extracting facial expression data for changing the facial expression of the CG character is provided. With such a configuration, the facial expression data analysis and extraction unit of the data analysis unit can reflect the facial expression of the CG character in response to each utterance of each speaker.

【0019】そして、請求項5に記載の発言者特定映像
装置は、請求項1ないし請求項4のいずれか一項に記載
の発言者特定映像装置において、前記データ解析抽出部
は、前記会話データに基づいて、前記CGキャラクタの
配置についてカメラ視線位置を含めた八角形の頂点位置
に配置すると共に、前記内容解析データに基づいて、前
記カメラ視線位置に対面する位置に、前記CGキャラク
タの着座基準点を決定し、この着座基準点の左右に順次
残りの前記CGキャラクタの配置を決定する発言者配置
解析手段を備える構成とした。
The speaker-specific video device according to claim 5 is the speaker-specific video device according to any one of claims 1 to 4, wherein the data analysis / extraction unit is configured to perform the conversation data. Based on the above, the CG character is arranged at the apex position of the octagon including the camera line-of-sight position, and based on the content analysis data, the seating reference of the CG character is set at a position facing the camera line-of-sight position. The speaker placement analysis means for determining the points and sequentially determining the placement of the remaining CG characters to the left and right of the seating reference point is provided.

【0020】このように構成されることにより、発言者
配置解析手段によりCGキャラクタの配置がCGキャラ
クタを映像とする場合に、内容解析データに基づいて決
定されることになり、会話の中心的な役割を担うCGキ
ャラクタをカメラ視線位置に対して対面する着座基準位
置に決定し、順次、発言回数が多いなどのCGキャラク
タを着座基準位置に近い位置に配置することができる。
With such a configuration, when the speaker placement analysis means determines the placement of the CG characters based on the content analysis data when the CG characters are used as a video image, it is central to the conversation. It is possible to determine the CG character that plays a role as the seating reference position facing the camera line-of-sight position, and sequentially arrange the CG characters, such as the number of times of utterance, close to the seating reference position.

【0021】さらに、請求項6記載の発言者特定映像プ
ログラムは、発言者を識別するための識別データが付加
されているテキストデータまたは音声データによりネッ
トワークに接続される端末を利用して複数の発言者が同
期あるいは非同期で会話を行う場合に、前記発言者の特
定が容易となる発言者特定映像を生成するために、コン
ピュータを、以下の各手段により機能させるものとし
た。
Further, the speaker specifying video program according to claim 6 uses the terminal connected to the network by the text data or voice data to which the identification data for identifying the speaker is added to make a plurality of statements. The computer is caused to function by each of the following means in order to generate a speaker specifying image that makes it easy to specify the speaker when the person talks synchronously or asynchronously.

【0022】すなわち、前記各手段は、会話を行うため
の前記テキストデータまたは前記音声データによる会話
データを入力するデータ入力手段、このデータ入力手段
に入力された会話データを解析して前記識別データおよ
びその会話データの構造的な特徴を示す構造データを抽
出すると共に、前記会話データの内容的な特徴を示す内
容解析データを抽出するデータ解析抽出手段、このデー
タ解析抽出部により解析して抽出された前記構造データ
および前記内容解析データならびに前記識別データに基
づいて、前記発言者のCGキャラクタを含む映像を生成
すると共に、前記CGキャラクタを含む映像を、あらか
じめ準備されている対話番組データの構成に沿って、前
記端末の表示画面上に表示させる映像生成表示手段、で
ある。
That is, each of the means is a data input means for inputting the conversation data of the text data or the voice data for conversation, and the identification data and the identification data by analyzing the conversation data input to the data input means. Data analysis and extraction means for extracting structural data indicating the structural characteristics of the conversation data and extracting content analysis data indicating the content characteristics of the conversation data, analyzed and extracted by the data analysis and extraction unit. An image including the CG character of the speaker is generated based on the structure data, the content analysis data, and the identification data, and the image including the CG character is generated according to the configuration of the interactive program data prepared in advance. And image generation and display means for displaying on the display screen of the terminal.

【0023】このように構成されることにより、発言者
特定映像プログラムは、複数の発言者が会話を行う場合
に、入力される会話データからデータ解析抽出手段が、
構造データ、識別データならびに内容解析データを解析
して抽出し、発言者のCGキャラクタを含む映像を映像
生成表示が生成して表示できるようにしている。なお、
この発言者特定映像プログラムは、ネットワーク上の端
末あるいはサーバのどこに記憶されていても(どの位置
にあっても)構わない。
With such a configuration, in the speaker specifying video program, when a plurality of speakers have a conversation, the data analysis and extraction means extracts the input conversation data from the conversation data.
The structure data, the identification data, and the content analysis data are analyzed and extracted so that the image including the CG character of the speaker can be generated and displayed by the image generation display. In addition,
This speaker specific video program may be stored anywhere (any location) on a terminal or server on the network.

【0024】また、請求項7記載の発言者特定映像表示
方法は、発言者を識別するための識別データが付加され
ているテキストデータまたは音声データによりネットワ
ークに接続される端末を利用して複数の発言者が同期あ
るいは非同期で会話を行う場合に、前記発言者の特定が
容易となる発言者特定映像表示方法であって、会話を行
うための前記テキストデータまたは前記音声データによ
る会話データを入力するステップと、前記会話データを
解析して前記識別データおよびその会話データの構造的
な特徴を示す構造データを抽出すると共に、前記会話デ
ータの内容的な特徴を示す内容解析データを抽出するス
テップと、前記構造データおよび前記内容解析データな
らびに前記識別データに基づいて、前記発言者のCGキ
ャラクタを含む映像を生成すると共に、前記CGキャラ
クタを含む映像を、あらかじめ準備されている対話番組
データの構成に沿って、前記端末の表示画面上に表示さ
せるステップと、を含むこととした。
Further, the speaker-specific video display method according to claim 7 uses a plurality of terminals connected to the network by text data or voice data to which identification data for identifying the speaker is added. A speaker identification video display method that facilitates the identification of the speaker when the speaker performs the conversation synchronously or asynchronously, and inputs the conversation data by the text data or the voice data for conversation. A step of analyzing the conversation data to extract structural data indicating the structural characteristics of the identification data and the conversation data, and extracting content analysis data indicating the characteristic characteristics of the conversation data; Based on the structure data, the content analysis data, and the identification data, an image including the CG character of the speaker is displayed. And it generates a video including the CG character, along the interaction of program data structure that is prepared in advance, was to include a step of displaying on the display screen of the terminal.

【0025】このように構成されることにより、発言者
特定映像表示方法では、入力された会話データから、構
造的な特徴を示す構造データ、識別データと、内容を示
す内容解析データを抽出する。そして、その構造データ
および内容解析データならびに識別データに基づいて、
発言者のCGキャラクタを含む映像の構成を、あらかじ
め準備されていた対話番組データの構成に沿って表示す
ることが可能となる。
With such a configuration, in the speaker specific video display method, structural data indicating structural characteristics, identification data, and content analysis data indicating content are extracted from the input conversation data. Then, based on the structural data, content analysis data, and identification data,
It is possible to display the structure of the video including the CG character of the speaker according to the structure of the interactive program data prepared in advance.

【0026】[0026]

【発明の実施の形態】以下、発明の実施の形態について
図面を参照しながら説明する。 (発言者特定映像装置の構成)図1は発言者特定映像装
置を示すブロック図である。図1に示すように、発言者
特定映像装置1は、ネットワーク6(インターネット
等)を介して、発言者が所有する複数の端末に接続され
ており、端末の入力部8を介してテキストデータまたは
音声データの会話データを受信して、当該会話データが
入力されるデータ入力部としてのデータ送受信部2と、
このデータ送受信部2に入力される発言者からの会話デ
ータを解析して所定のデータを抽出するデータ解析抽出
部3と、このデータ解析抽出部3で解析して抽出された
各データにより発言者のCGキャラクタを生成して、端
末の表示画面である映像表示部7上に表示させる映像生
成表示部4と、各データを記憶する記憶部5とを備えて
いる。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. (Structure of Speaker Identification Video Device) FIG. 1 is a block diagram showing a speaker identification video device. As shown in FIG. 1, the speaker identification video device 1 is connected to a plurality of terminals owned by the speaker via a network 6 (Internet or the like), and text data or text data is input via an input unit 8 of the terminal. A data transmitting / receiving unit 2 as a data input unit for receiving conversation data of voice data and inputting the conversation data;
The data analysis / extraction unit 3 that analyzes the conversation data from the speaker input to the data transmission / reception unit 2 and extracts predetermined data, and the data analysis / extraction unit 3 analyzes the data and extracts each speaker. The video generation / display section 4 for generating the CG character of No. 1 and displaying it on the video display section 7 which is the display screen of the terminal, and the storage section 5 for storing each data.

【0027】なお、この実施の形態の説明では、発言者
特定映像装置1を中心機構とし、各端末を末端機構とし
た集中制御型システムとして説明しているが、各端末の
代わりに発言者特定映像装置1を複数備えた分散制御型
システムとしても差し障りはない。つまり、この場合、
発言者特定映像装置1が映像表示部7と入力部8とを備
えることになる。
In the description of this embodiment, the speaker specifying video device 1 is used as a central mechanism and each terminal is used as a centralized control system, but the speaker specifying is performed instead of each terminal. There is no problem even as a distributed control type system including a plurality of video devices 1. So in this case,
The speaker identification video device 1 includes the video display unit 7 and the input unit 8.

【0028】まず、端末について説明する。端末は、ネ
ットワーク上に接続されているPC、携帯端末(モバイ
ルコンピュータ、PDA等)、携帯電話等であって、こ
の端末は、映像表示部7と入力部8とを備えている。映
像表示部7は、発言者特定映像装置1から送信されたC
Gキャラクタを含む映像を表示するものである。入力部
8は、発言者の音声データあるいはテキストデータを会
話データとして入力するためのものであり、ここでは、
キーボードあるいは音声マイクなどを備えている。
First, the terminal will be described. The terminal is a PC, a mobile terminal (mobile computer, PDA, etc.), a mobile phone, or the like connected to the network, and this terminal includes a video display unit 7 and an input unit 8. The video display unit 7 displays the C transmitted from the speaker identification video device 1.
An image including a G character is displayed. The input unit 8 is for inputting voice data or text data of a speaker as conversation data, and here,
It is equipped with a keyboard or voice microphone.

【0029】そして、端末の入力部8から入力されたデ
ータが音声データである場合には、端末に備えられてい
る音声抽出ソフトにより入力された音声データが、どの
発言者によるものであるかについて比較手段(図示せ
ず)などが用いられて、あらかじめ記憶されている音声
データと比較された後に、識別データが作成されて、こ
の識別データが音声データに付された状態で発言者特定
映像装置1に送信する構成としても良い(例えば、特開
2001−69436)。
When the data input from the input unit 8 of the terminal is voice data, it is determined by which speaker the voice data input by the voice extraction software provided in the terminal belongs. A speaker means specific image device in which a comparison means (not shown) or the like is used, identification data is created after being compared with voice data stored in advance, and the identification data is attached to the voice data. It may be configured to transmit the data to the No. 1 (for example, JP 2001-69436 A).

【0030】次に、発言者特定映像装置1について説明
する。データ送受信部2は、端末の入力部8から送られ
てくる発言者の識別データ、会話データ(テキストデー
タ、音声データ)を受信すると共に、データ解析抽出部
3および映像生成表示部4により、発言者のCGキャラ
クタを含む映像に基づいた会話状態を示す映像データ
を、発言者あるいはネットワーク(インターネット等)
に接続されている端末装置(PC等)に送信されるよう
に構成されている。なお、ここで使用される会話データ
は、キーボードなどから入力されるテキストデータと、
音声マイクから入力される音声データである。また、こ
のデータ送受信部2で受信した会話データは、一度記憶
部5に記憶される。
Next, the speaker identification video device 1 will be described. The data transmission / reception unit 2 receives the speaker identification data and conversation data (text data, voice data) sent from the input unit 8 of the terminal, and the data analysis / extraction unit 3 and the video generation / display unit 4 make a speech. Image data showing a conversation state based on an image including the CG character of the speaker, the speaker or the network (Internet etc.)
Is configured to be transmitted to a terminal device (PC or the like) connected to. The conversation data used here is the text data input from the keyboard,
It is audio data input from the audio microphone. The conversation data received by the data transmitting / receiving unit 2 is once stored in the storage unit 5.

【0031】データ解析抽出部3は、データ送受信部2
で受信された会話データから発言者の識別データを抽出
し、会話データの構造的な特徴を示す構造データおよび
識別データについて解析して抽出する会話構造解析抽出
手段3Aと、その会話データについて内容的な特徴を示
す内容解析データについて解析して抽出する会話内容解
析抽出手段3Dと、発言者の映像上の配置を決めるため
の配置データを会話データから解析して抽出する発言者
配置解析手段3Hと、発言者のCGキャラクタのジェス
チャあるいは感情表現を付加するためのデータを会話デ
ータから解析して抽出するジェスチャ解析手段3Jとを
備えている。
The data analysis / extraction unit 3 includes the data transmission / reception unit 2
Conversation structure analysis and extraction means 3A for extracting the identification data of the speaker from the conversation data received in step S1 and analyzing and extracting the structure data and the identification data indicating the structural characteristics of the conversation data, and the conversation data in detail. Conversation content analysis and extraction means 3D for analyzing and extracting content analysis data showing various characteristics, and speaker placement analysis means 3H for analyzing and extracting placement data for determining the placement of the speaker on the image from the conversation data. , And a gesture analysis unit 3J for analyzing and extracting data for adding a gesture or emotional expression of the speaker's CG character from the conversation data.

【0032】会話構造解析抽出手段3Aは、会話データ
に付加されている識別データを分離するか、会話データ
からどの発言者が発言しているのかを解析して識別デー
タを抽出する発言者解析手段3aと、会話データから発
言者の発言順の通し番号を解析して通し番号データとし
て抽出する通し番号解析手段3bと、会話データの構造
的な特徴を示す発言者の発言長さデータを解析して抽出
する発言長さ解析手段3cとを備えている。
The conversation structure analysis and extraction unit 3A separates the identification data added to the conversation data or analyzes which speaker is speaking from the conversation data to extract the identification data. 3a, serial number analysis means 3b that analyzes serial numbers in the speaking order of the speaker from the conversation data and extracts the serial numbers as serial number data, and analyzes and extracts the speech length data of the speaker that indicates the structural characteristics of the conversation data. The speech length analyzing means 3c is provided.

【0033】発言者解析手段3aは、会話データに付随
するあるいは内在する識別データを解析して抽出するも
のである。また、ここで使用される識別データは、送信
側の端末装置のアプリケーションで付加される識別ID
や、また、発言者が会話データに付加するニックネーム
や、あるいは、送信側の端末装置の備えるシステムのネ
ットワーク通信における物理的IDなどがある。また、
会話データが音声データである場合は、あらかじめ登録
されている発言者ごとの音声データとの一致度を検出す
ることで識別番号を付して識別データとすることも可能
となる(特開2001−69436を参照)。
The speaker analysis means 3a is for analyzing and extracting identification data attached to or inherent in the conversation data. The identification data used here is the identification ID added by the application of the terminal device on the transmission side.
In addition, there is a nickname added to the conversation data by the speaker, or a physical ID in network communication of the system included in the terminal device on the transmitting side. Also,
When the conversation data is voice data, it is possible to add an identification number to make the identification data by detecting the degree of coincidence with the voice data of each speaker registered in advance (Japanese Patent Laid-Open No. 2001-2001). 69436).

【0034】通し番号解析手段3bは、通し番号データ
を会話データの時系列における蓄積経過から一定時間ご
とに発言者の発言順として、基本的には蓄積時刻の順番
に基づいて特定するものである。なお、この通し番号解
析手段3bは、通し番号データとして、発言内容から各
発言者の配置を解析して決める発言者配置解析手段3H
の配置データを考慮して決められるものであっても良
い。
The serial number analysis means 3b identifies serial number data as the speaking order of the speaker at fixed time intervals from the time series accumulation of conversation data, basically based on the order of the accumulation time. The serial number analyzing means 3b analyzes the arrangement of each speaker from the content of the statement as serial number data, and determines the speaker arrangement analyzing means 3H.
It may be determined in consideration of the arrangement data of.

【0035】発言長さ解析手段3cは、会話データが音
声データである場合、実際の発言時間を解析(測定)し
て発言長さを抽出(特定)するものであり、また、会話
データがテキストデータである場合、音声合成速度から
計算(解析)した発言者の発言長さを抽出(特定)する
ものである。
When the conversation data is voice data, the utterance length analyzing means 3c analyzes (measures) the actual utterance time to extract (specify) the utterance length, and the conversation data is text. In the case of data, the speech length of the speaker calculated (analyzed) from the speech synthesis speed is extracted (specified).

【0036】会話内容解析抽出手段3Dは、会話データ
から他の発言者の名前、ニックネーム、などの他発言者
の引用についての有無を示す発言者名引用データとして
解析して抽出する発言者名引用解析手段3dと、会話デ
ータから他発言者の発言内容についての引用の有無を示
す発言内容引用データを解析して抽出する発言内容引用
解析手段3eと、会話データから発言者のCGキャラク
タの表情を変えるための表情データを解析して抽出する
表情データ解析抽出手段3fなどを備えている。
The conversation content analysis / extraction means 3D analyzes and extracts from the conversation data the speaker name quotation data that is extracted and analyzed as the speaker name quotation data indicating the presence or absence of the quotation of another speaker such as the name and nickname of another speaker. The analysis unit 3d, the comment content quotation analysis unit 3e that analyzes and extracts the comment content quotation data that indicates whether or not the comment content of another speaker is quoted from the conversation data, and the facial expression of the CG character of the speaker from the conversation data. The facial expression data analyzing / extracting means 3f for analyzing and extracting the facial expression data for changing is provided.

【0037】発言者配置解析手段3Hは、発言者の最大
数を7人として、カメラ視線位置を含めて8角形の頂点
位置に各発言者が配置されるように、時系列に沿って並
べた会話データの中を解析して各発言者の配置位置を決
定するものである。なお、発言者が8人以上である場合
は、あらかじめ決めた司会者(会話の進行役として設定
する、例えば、はじめに発言した第一発言者)が他の発
言者の発言を代理して行うようにしている。
The speaker placement analysis unit 3H sets the maximum number of speakers to 7 and arranges them in time series so that each speaker is placed at the vertex position of the octagon including the camera line-of-sight position. The position of each speaker is determined by analyzing the conversation data. If there are eight or more speakers, a predetermined moderator (set as a facilitator of the conversation, for example, the first speaker who speaks first) should act on behalf of another speaker. I have to.

【0038】ここで、発言者配置解析手段3Hによる解
析結果に基づいて、映像生成表示部4で生成される仮想
空間上における発言者の人数に応じた配置状態を図5に
示す。図5は、2人から7人までの配置状態を平面的に
示す模式図である。なお、発言者の人数が、偶数人であ
る場合は、司会者の位置を着座基準点とした場合、この
司会者に対して右側と左側のどちらとなっても構わな
い。
Here, FIG. 5 shows an arrangement state according to the number of speakers in the virtual space generated by the image generation / display unit 4 based on the analysis result by the speaker arrangement analysis means 3H. FIG. 5: is a schematic diagram which shows the arrangement | positioning state from 2 persons to 7 persons planarly. In addition, when the number of speakers is an even number, when the position of the moderator is the seating reference point, it may be on the right side or the left side of the moderator.

【0039】そして、この発言者配置解析手段3Hで
は、発言内容から発言の中心となる発言者を司会者(第
一発言者)として、各発言者の映像上の配置を設定して
いる。この発言者配置解析手段3Hでは、各発言者の配
置を考慮する場合、その司会者の位置を基準配置とし、
時系列に沿って並べた会話データの中を調べて、次の要
素(A)〜(C)を元に発言者の配置順を決定していく。以
下、発言者を単に話者と称し、また、発言者の発言を聞
いているものまたは発言者の発言に応答しようとしてい
るものを参話者とし、発言者と参話者とをあわせて、出
演者(司会者も含む)と称することもある。
In the speaker placement analysis means 3H, the speaker who is the center of the comment is set as the moderator (first speaker) based on the content of the comment, and the position of each speaker on the image is set. In this speaker arrangement analysis means 3H, when considering the arrangement of each speaker, the position of the moderator is set as the reference arrangement,
The conversation data arranged in chronological order is examined to determine the speaker arrangement order based on the following elements (A) to (C). Hereinafter, a speaker is simply referred to as a speaker, and a speaker who listens to the speaker's remarks or tries to respond to the speaker's remark is a speaker, and the speaker and the speaker are combined, Sometimes called performers (including the moderator).

【0040】すなわち、要素(A)として、続けて発言す
る発言者同士がより近くなるように映像画面上に配置す
る。要素(B)として、発言回数が多い発言者が司会者に
より近くなるように映像画面上に配置する。要素(C)と
して、各参話者の初回の発言が早い順番に司会者に近く
なるよう映像画面上で配置する。前記した要素(A)〜(C)
を用いて、発言者配置解析手段3Hは、以下に示す所定
の算出方法により発言者の配置を設定するためのデータ
を抽出している。
That is, as the element (A), the speakers who continuously speak are arranged on the video screen so that they are closer to each other. As an element (B), a speaker who frequently speaks is arranged on the video screen so that the speaker is closer to the moderator. As an element (C), it is arranged on the video screen so that the first speech of each talker is closer to the moderator in an earlier order. Elements (A) to (C) described above
Using the above, the speaker placement analysis unit 3H extracts data for setting the speaker placement by the following predetermined calculation method.

【0041】ここでは、説明のため、発言者Aの発言
(utterance)をUi(A)(添え数字iはテキストデータを時
系列順に並べたときの順番)、Bの発言をUi(B)のように
表記する。このとき、テキストデータが「Aの発言」
「Bの発言」「Aの発言」の順になっている場合は[U1
(A),U2(B),U3(A)]として表す。
Here, for the sake of explanation, the utterance of the speaker A is Ui (A) (subscript i is the order in which the text data is arranged in chronological order), and the utterance of B is Ui (B). It is written as. At this time, the text data is "A statement"
If the order is "B's remarks" and "A's remarks", then [U1
(A), U2 (B), U3 (A)].

【0042】これらの数値を用いて表したとき、前記の
要素(A)はminiΣ(i=0k)2sin(hπ/8)(但しk=発
言者の数、h=[Ui-1(A),Ui(B)]=仮想空間上の前記八角
形の対角線を1とした場合の話者Aと話者Bの距離を計
算したもの)つまり、配置可能であるすべての配置組み
合わせに対して、出演者間の距離を時系列データに沿っ
て算出した総和が最小になる着座パターンを選び出し、
これに決定する。この総和が同じになる配置パターンが
2つ以上存在する場合については、要素(B)における決
定法を適用する。
When expressed using these numerical values, the element (A) is mini Σ (i = 0 to k) 2sin (hπ / 8) (where k = the number of speakers and h = [Ui-1 ( A), Ui (B)] = distance between speaker A and speaker B when the diagonal line of the octagon in virtual space is set to 1, that is, for all possible arrangement combinations Select the sitting pattern that minimizes the total sum of the distances between performers calculated along the time series data,
Decide on this. When there are two or more layout patterns with the same total sum, the determination method in element (B) is applied.

【0043】要素(B)によって配置を決定するために
は、時系列に並べたテキストデータの全要素に対して、
発言者毎に要素出現回数をカウントし、出現回数が多い
要素に対して着座基準点近くに配置する。参話者毎の要
素出現回数のカウントが同数である対象参話者について
は要素(C)における決定方法を適用する。
In order to determine the arrangement by the element (B), for all the elements of the text data arranged in time series,
The number of appearances of the element is counted for each speaker, and the element having a large number of appearances is placed near the seating reference point. The determination method in element (C) is applied to target speakers with the same number of element appearance counts for each participant.

【0044】要素(C)によって配置を決定するために
は、時系列に並べたテキストデータの要素を順番に調
べ、対象参話者の発言中で最も初めに要素が出現する参
話者から順に着座基準点近くから配置する。
In order to determine the arrangement by the element (C), the elements of the text data arranged in chronological order are sequentially examined, and the speaker in which the element appears first in the utterance of the target speaker is arranged in order. Place it near the seating reference point.

【0045】このように、発言者配置解析手段3Hで
は、以上で述べた手法に基づいて出演者の選抜・位置・
空間配置の決定を行なうことによって、後記する映像生
成表示手段4において、参話者の位置関係を無理のない
カメラアングルで表現することが可能となり、映像化の
際に、発言者同士を結んだ軸である会話軸を最小限設定
するだけで済み、当該会話軸を超えた不要なスイッチン
グ(ショット切替)を必要最小限に抑える事が可能とな
る。
As described above, the speaker placement analysis means 3H selects and positions the performers based on the method described above.
By determining the spatial arrangement, it becomes possible to express the positional relationship of the speakers with a reasonable camera angle in the image generation / display means 4 to be described later, and the speakers are connected to each other at the time of visualization. It is only necessary to set the conversation axis, which is an axis, to the minimum, and it is possible to suppress unnecessary switching (shot switching) beyond the conversation axis to the necessary minimum.

【0046】なお、発言者解析手段3a、発言者名引用
解析手段3d、発言内容引用解析手段3e、表情データ
解析抽出手段3f、ジェスチャ解析手段3Jは、ここで
は、形態素解析を行って、文字列マッチングあるいは文
字列テンプレートマッチングにより各データを抽出して
いる。
The speaker analysis means 3a, the speaker name quote analysis means 3d, the statement content quote analysis means 3e, the facial expression data analysis and extraction means 3f, and the gesture analysis means 3J perform morpheme analysis and character strings. Each data is extracted by matching or character string template matching.

【0047】また、ここでは、会話データについて各手
段により解析したテキストデータの結果を用いてTVM
L変換手段(図示を省略)により、あらかじめ用意され
ているCGキャラクタに対応させて映像となるように、
TVMLの台本を生成している。
Also, here, the TVM is used by using the result of the text data obtained by analyzing the conversation data by each means.
By using the L conversion means (not shown), it becomes a video corresponding to the CG character prepared in advance,
We are creating a TVML script.

【0048】例えば、識別番号Aの発言者が、会話デー
タとして発言内容を示すテキストデータに「Good
evening」というデータが受信された場合、これ
を文字列変換し、「character: talk(name=A,text=”G
ood evening”)と直し(図6参照)、これ
をTVMLプレーヤーというアプリケーションに渡し、
最終的に、図3で示すような画面を生成し、CGキャラ
クタが「Good evening」としゃべる映像と
合成音声を同時に出力するようにしている。なお、この
合成音声については、図示および詳細な説明は略してい
るが、当該発言者特定映像装置1に備えられている一般
的な音声合成装置(音声合成手段)によって、会話デー
タ(テキストデータおよび音声データ)から合成音声が
生成され、CGキャラクタの動作に同期するように付加
されている。
For example, the speaker with the identification number A adds "Good" to the text data indicating the content of the comment as conversation data.
When the data "evening" is received, it is converted to a character string and "character: talk (name = A, text =" G
fixed () and pass it to an application called TVML player,
Finally, the screen as shown in FIG. 3 is generated so that the image in which the CG character speaks "Good evening" and the synthetic voice are output at the same time. Although illustration and detailed description of this synthesized voice are omitted, conversation data (text data and text data can be generated by a general voice synthesis device (voice synthesis means) included in the speaker specific video device 1. Synthetic voice is generated from the voice data) and added so as to be synchronized with the motion of the CG character.

【0049】また、ジェスチャ解析手段3Jは、各CG
キャラクタのジェスチャの自動付加、発言の継続を促す
ジェスチャの付加、感情表現のジェスチャ再生について
TVML形式により各CGキャラクタが映像となったと
きに、そのCGキャラクタに表現あるいは表情をもたせ
た映像として反映させるデータを、会話データから解析
して抽出するためのものである。
Further, the gesture analysis means 3J uses each CG.
Automatic addition of character gestures, addition of gestures that encourage continuation of speech, and gesture reproduction of emotional expressions When each CG character becomes an image in the TVML format, it is reflected as an image with an expression or expression on the CG character. It is for analyzing and extracting data from conversation data.

【0050】<ジェスチャの自動付加>ここで、ジェス
チャ解析手段3Jによって解析された結果に基づいて、
映像生成表示部4で生成される映像について説明する。
映像生成表示部4では、ジェスチャ解析手段3Jによる
解析結果によって、生成される映像に、自動的にジェス
チャが付加される(ジェスチャの自動付加)。例えば、
ここで説明するジェスチャの自動付加は、CGキャラク
タによる討論番組をより自然に見せるために付加する演
出を行うためのものであり、ジェスチャ解析手段3Jに
より会話データから必要となる解析データ(解析結果)
が抽出されている。
<Automatic Addition of Gesture> Here, based on the result analyzed by the gesture analyzing means 3J,
An image generated by the image generation / display unit 4 will be described.
In the image generation / display unit 4, a gesture is automatically added to the generated image according to the analysis result by the gesture analysis unit 3J (automatic addition of gesture). For example,
The automatic addition of gestures described here is for performing an effect of adding a discussion program by CG characters to make it look more natural, and the analysis data (analysis result) required from the conversation data by the gesture analysis means 3J.
Has been extracted.

【0051】<発言の継続を促すジェスチャの付加>討
論番組は基本的に対面会話の形式で行われる。そこで、
映像生成表示部4により自動生成するCGキャラクタを
含む映像も、出演者が対面した状態で討論を行う形式の
番組を自動生成することとなる。
<Addition of Gesture for Encouraging Continuation of Statement> The discussion program is basically conducted in the form of face-to-face conversation. Therefore,
A video including a CG character automatically generated by the video generation / display unit 4 also automatically generates a program in a format in which a performer faces and discusses.

【0052】一般に、対面会話において発言が長い場
合、参話者は短い節の「アック」と呼ばれるものを発す
る。この「アック」とは具体的には相槌、うなずき、微
笑などによって示され、相手の発言を受け止め、話の継
続を促す動作をいう。参話者は、「アック」を発するこ
とで、発言者に対して、自分が発言者の話に耳を傾けて
いるということを示すと共に、発言者の話がまだ途中で
あることを認識していることを示す役割がある。この様
な「アック」は、話の終わりや文法的切れ目近くにおい
てその77%が発せられ、そのうち45%が、話者の発
言にかぶって行われるという統計がなされている。ま
た、30単語以上の長い会話において、「アック」はお
よそ9単語前後の主要なインターバル内に起こり、およ
そ80%が15単語内に少なくとも一回起こるという。
Generally, in a face-to-face conversation, when the utterance is long, the talker emits a short clause called “ac”. Specifically, the "ac" is an action indicated by a hammer, a nod, a smile, or the like, which accepts the speech of the other party and encourages continuation of the speech. By giving an "ac", the talker indicates to the speaker that he / she is listening to the talker and recognizes that the talker is still in the middle of the talk. Has a role to show that. It is reported that 77% of such "acs" are emitted near the end of a story or a grammatical break, and 45% of them are covered by the talk of the speaker. Also, in long conversations of 30 words or more, "ACK" occurs within a major interval of about 9 words, and about 80% occurs at least once in 15 words.

【0053】これらの統計データに基づき、ジェスチャ
解析手段3Jは、会話データを解析した場合、TVML
変換手段(図示を省略)によりTVML台本を生成する
際(漢字かな混じり文において)に、50文字以上の長
い発言においては、対話参話者にうなずかせ、対面会話
が自然な形で行われるように解析データ(解析結果)を
抽出している。ジェスチャ解析手段3Jにおいて、うな
ずくタイミングの算出は、50文字程度のテキストごと
に、話の終わり又は文法的な切れ目を会話データより検
出し、乱数でばらつきをもたせ決定したタイミングによ
ってCGキャラクタがうなずく動作を付加するように解
析データが抽出される。
On the basis of these statistical data, the gesture analysis means 3J, when analyzing the conversation data, TVML
When a TVML script is generated by a conversion means (not shown) (in a kanji-kana mixed sentence), a long talk of 50 characters or more nods the dialogue participant and the face-to-face conversation is conducted naturally. The analysis data (analysis result) is extracted as described above. In the gesture analysis means 3J, the nod timing is calculated by detecting the end of the story or the grammatical break from the conversation data for each text of about 50 characters, and giving the variation with a random number to the nod motion of the CG character. Analysis data is extracted so as to be added.

【0054】<感情表現のジェスチャ再生>また、近
年、電子メール、チャット、掲示板などのインターネッ
トメディアにおいて、独特の感情表現形式が広く用いら
れている。代表的なものを次に示す。「スマイリー」:
[:-P ]記号の組合せにより顔の表情を表現したもの
や、また、[!+]や[?+](+は0個以上の任意の個数)
記号を複数個重ねた感情表現の強調例)「なんで???
?」など、あるいは、[(文末文字の)母音+]や[文章][ー
+]語尾伸ばしによる感情表現の強調 例)「うひゃぁぁぁ
ぁ!」、さらに、(笑)(泣)などがある。
<Reproduction of Emotional Gesture> In recent years, a unique emotional expression format has been widely used in Internet media such as electronic mail, chat, and bulletin boards. Typical ones are shown below. "Smiley":
A combination of [:-P] symbols to express facial expressions, and [! +] And [? +] (+ Is an arbitrary number of 0 or more)
Example of emphasizing emotional expression by stacking multiple symbols) "Why ???
? , Or [[vowel + (at the end of sentence)] or [sentence] [ー
+] Emphasis of emotional expression by extending the ending Example) "Uhyaaaaa!", And (laughs) (crying), etc.

【0055】これらの感情表現には、発言者の感情の表
現、きつい表現を和らげる、細かなニュアンスを表現す
る、強調を表現する、といった役割があるという。そこ
で、テキストデータの中に、これらの感情表現形式(以
下、表現データという)が含まれている際に、ジェスチ
ャ解析手段3Jは、表現データを解析して抽出する。そ
の解析結果に基づいて、映像生成表示部4では、それぞ
れの表現形態について、あらかじめ設定した適当なジェ
スチャをCGキャラクタに付加させることができる。な
お、CGキャラクタの表情を変える表情データについて
も表情データ解析抽出手段3fが解析して抽出すること
で、CGキャラクタの表情も豊かにさせることもでき
る。
It is said that these emotional expressions have a role of expressing the emotions of the speaker, softening tight expressions, expressing fine nuances, and expressing emphasis. Therefore, when these emotion expression formats (hereinafter referred to as expression data) are included in the text data, the gesture analysis unit 3J analyzes and extracts the expression data. Based on the analysis result, the image generation / display unit 4 can add an appropriate preset gesture to the CG character for each expression form. Note that the facial expression data of the CG character can also be enriched by analyzing and extracting facial expression data that changes the facial expression of the CG character.

【0056】なお、CGキャラクタの表情あるいはジェ
スチャを付加する方法として、予め端末の入力部8で入
力される会話データにタグ付けがなされたデータを送受
信することで行っても構わない。このタグを付す方法と
しては、あらかじめ決められた印をテキストデータの発
言内容に付加するものとして、感情表現を表す印(この
例の場合タグで囲んでいる。)を発言時に付加し、それ
を送受信する。この方法をとる場合には、データ解析抽
出部3において、この印を検知する工程と、データ映像
生成表示部において検知したものをCGキャラクタに反
映させる工程を設けることで対応することになる。
The facial expression or gesture of the CG character may be added by transmitting and receiving the data tagged with the conversation data input in advance by the input unit 8 of the terminal. As a method of adding this tag, a predetermined mark is added to the utterance content of the text data, and a mark expressing emotional expression (in this example, it is enclosed by a tag) is added at the time of utterance, and it is added. Send and receive. When this method is adopted, the data analysis and extraction section 3 is provided with a step of detecting this mark and a step of reflecting what is detected by the data image generation and display section on the CG character.

【0057】また、会話データをXML形式でメタデー
タ化し、送受信する場合、これをデータ解析抽出部3に
おいて、既存のXMLパーサー(図示を省略)をもちい
てタグ検出を行い、このタグ情報も映像生成表示部4に
渡し、映像生成表示部4では、TVMLの機能として整
備されているキャラクタ表情生成を行うようにしてもよ
い。さらに、発言内容から文字列マッチングにより感情
表現を検出し付加する方法としても構わない。
When the conversation data is converted into metadata in XML format and transmitted / received, the data analysis / extraction section 3 detects tags using an existing XML parser (not shown), and this tag information is also imaged. It may be passed to the generation / display unit 4, and the image generation / display unit 4 may perform character facial expression generation which is provided as a function of TVML. Furthermore, a method of detecting and adding an emotional expression from the utterance content by character string matching may be used.

【0058】つぎに、映像生成表示部4について説明す
る。映像生成表示部4は、データ解析抽出部3から受け
取った各データに基づいて仮想空間上における発言者の
発言者代理人であるCGキャラクタを含む映像を、発言
者が所有する端末の映像表示部7に表示させるためのも
のである。この映像生成表示部4は、発言者の発言者代
理人であるCGキャラクタを含む映像の画面構成を決め
るための画面構成手段4aと、この画面構成手段4aの
画面構成について遷移確率および発言者の発言長さデー
タに基づいてその画面構成を遷移させる画面遷移手段4
bと、この画面遷移のタイミングを決める画面遷移タイ
ミング手段4cとを備えている。そして、この映像生成
表示部4は、過去に撮影された討論番組における実際の
対話番組に関するデータを解析してその結果を対話番組
データとして作成される映像に反映されるように構成さ
れている。
Next, the image generation / display section 4 will be described. The video generation / display unit 4 displays the video including the CG character that is the speaker agent of the speaker in the virtual space based on each data received from the data analysis / extraction unit 3 in the video display unit of the terminal owned by the speaker. It is for displaying on 7. The video generation / display unit 4 has a screen configurator 4a for determining a screen configuraton of a video including a CG character that is a speaker agent of a speaker, and a transition probability and a speaker of the screen configurator 4a. Screen transition means 4 for transitioning the screen configuration based on the statement length data
b and a screen transition timing means 4c for determining the timing of this screen transition. The video generation / display unit 4 is configured to analyze the data relating to the actual dialogue program in the debate programs photographed in the past and reflect the result in the video created as the dialogue program data.

【0059】なお、対話番組データは、記憶部5に記憶
されている。また、CGキャラクタは、あらかじめCG
により生成されているものを用いたり、あるいは、発言
者が用意したものを用いたりして、TVMLによる映像
に反映させるようにしている。
The interactive program data is stored in the storage unit 5. In addition, the CG character is previously CG
Is used, or the one prepared by the speaker is used to reflect the image on the TVML.

【0060】この対話番組データとしては、この実施の
形態では、討論番組制作時において、視聴者の視線で客
観的に討論を見ることができるような、第三者的な視点
から映像作りが行われたものの中から、さらに画面構成
の工夫により話者同士の位置関係がわかり易くされ、シ
ョットの挿入により参話者間の関係が示唆され、視聴者
の興味を引きつける、といった演出が行なわれたものが
厳選されて記憶部5に記憶されている。また、通常、こ
れらの演出は、映像を作る上で重要な要素のひとつであ
って、番組制作者の経験則に基づいて行なわれており、
この経験則が対話番組データとして映像生成表示部4に
反映できるように構成されている。
In this embodiment, as the interactive program data, a video is created from a third-party viewpoint so that the discussion can be viewed objectively from the viewer's line of sight when the discussion program is produced. From the information shown, the screen layout was further improved to make it easier to understand the positional relationship between the speakers, and the insertion of shots suggested the relationship between the speakers and the effect of attracting the viewer's interest. Are carefully selected and stored in the storage unit 5. In addition, these productions are usually one of the important factors in making a video, and are performed based on the experience of the program producer.
This empirical rule is configured so that it can be reflected in the video generation / display unit 4 as interactive program data.

【0061】具体的には、対話番組データとして、この
経験則を統計的に算出するため、実際に放送された討論
番組42討論、30時間、9000カット分を様々な角
度から分析して、この分析結果を用いて、映像化に関す
る主な演出として「画面構成」、「画面遷移(ショット
決定)」、「画面遷移タイミング(スイッチングタイミ
ング)」の規則についての統計的算出を行なったものを
画面構成手段4a、画面遷移手段4b、画面遷移タイミ
ング手段4cにより生成される映像に反映できるように
構成されている。
More specifically, in order to statistically calculate this empirical rule as the interactive program data, the actually broadcasted discussion program 42 discussions, 30 hours, 9000 cuts are analyzed from various angles, and Using the analysis results, the screen composition is obtained by statistically calculating the rules of "screen composition", "screen transition (shot determination)", and "screen transition timing (switching timing)" as the main effects related to visualization. The means 4a, the screen transition means 4b, and the screen transition timing means 4c are configured so that they can be reflected in the images generated.

【0062】なお、番組制作者の経験則を統計的に算出
する際、主観的な演出や、間違ったテキスト解釈による
演出付加を避けるため、テキストの表層的な特徴だけを
用いて効果的な演出を付与する算出方法として分析した
結果を反映させている。
When statistically calculating the rule of thumb of the program producer, in order to avoid subjective effects and addition of effects due to incorrect text interpretation, effective effects are achieved using only the surface features of the text. The result of the analysis is reflected as the calculation method for giving.

【0063】ここで、対話番組データについて説明す
る。対話番組データの構成は、複数の発言者による対話
の発言毎に、発言者のワンショット(1S)を撮る画面
構成を用いて、発言毎のワンショットを、対話の流れに
沿って順番につなぎ番組を構成していく討論番組におけ
るカメラワークの基本を参照している。このワンショッ
トは、出演者の発言を客観的立場から見ることができる
ように、ここでは、目線をはずした角度からのアングル
を用いている。
Here, the interactive program data will be described. The dialogue program data is constructed by connecting one shot for each statement in order along the flow of the dialogue using a screen configuration that takes one shot (1S) of the speaker for each statement of the dialogue by a plurality of speakers. It refers to the basics of camera work in discussion programs that compose the program. In this one-shot, the angle from the angle where the line of sight is removed is used so that the performer's remark can be seen from an objective standpoint.

【0064】また、視聴者が対話の流れをスムーズに理
解できる様に演出するためには、ワンショット以外に、
出演者の位置関係が分かり易い複数のショットを撮る必
要がある。この複数のショットには、発言者同士を直線
でつなぐ会話軸の同じ側から撮るショット(会話軸同一
ショット)や、画面上で発言者の視線方向にスペースを
あけて撮るショット(発言者視線方向ショット)などが
ある。映像生成表示部4の説明に戻る。
In addition to the one-shot, in order to direct the viewer so that the flow of the dialogue can be understood smoothly,
It is necessary to take multiple shots in which the positional relationships of the performers are easy to understand. These multiple shots include a shot taken from the same side of the conversation axis that connects the speakers with a straight line (same conversation axis), or a shot on the screen with a space in the direction of the speaker's line of sight (speaker line-of-sight direction). Shot) etc. Returning to the description of the image generation / display unit 4.

【0065】画面構成手段4aでは、これらの対話番組
データに沿って、データ解析抽出部3で抽出された画面
構成に関するデータに基づいて、CGキャラクタ毎に自
動的に画面構成が行なわれるように構成されている。
The screen constructing means 4a is constructed to automatically construct a screen for each CG character based on the data relating to the screen configuration extracted by the data analysis / extraction section 3 along with the interactive program data. Has been done.

【0066】具体的には、画面構成手段4aでは、例え
ば、構成する画面が「発言者のワンショット」であると
き、この発言者を撮影するカメラの垂直画角がθ=2ta
n−1(l/2rD)(lは画面の垂直方向、Dはカメラ
と被写体の距離rは画面の高さを1として正規化したサ
イズ(ワンショットでr=0.6))になるような画面
構成の映像を生成している。
Specifically, in the screen composing means 4a, for example, when the composed screen is "one shot of the speaker", the vertical angle of view of the camera for photographing this speaker is θ = 2ta.
n-1 (l / 2rD) (l is the vertical direction of the screen, D is the distance r between the camera and the subject, normalized to the screen height of 1 (r = 0.6 for one shot)) Video with various screen configurations is generated.

【0067】この画面構成手段4aによって施される処
理には、例えば、発言内容に参加者の名前の引用である
発言者名引用データ、他の発言者が発言した発言内容の
引用である発言内容引用データがある場合には、一例と
して、該当する発言者のいる方向の画面をあき気味にす
る(真中から20%ずらす)視線処理があり、そうでな
い場合には前発言者のいる方向の画面をあき気味にした
画面を生成する処理が挙げられる。
The processing performed by the screen structuring means 4a includes, for example, speaker name quotation data, which is a quote of a participant's name, and comment content, which is a quote of the comment content of another speaker. If there is quoted data, as an example, there is line-of-sight processing that makes the screen in the direction in which the relevant speaker is present open (shifts by 20% from the center), and if not, the screen in the direction in which the previous speaker is present. There is a process for generating a screen that reminds me of.

【0068】また、画面構成手段4aにおいて、構成す
る画面が「発言者のワンショット」以外である場合、例
えば、発言者と参話者を写す話者周辺のショットを映像
とした場合、つまり、この「参話者のショット」では、
発言内容に参話者の名前の引用である発言者名引用デー
タ、他の発言者が発言した発言内容の引用である発言内
容引用データがある場合は、該当する参話者と発言者を
含む最低人数が撮影できる最小画角に、そうでない場合
には前発言者を含む最低人数が撮影できる最小画角にし
た画面構成の映像が生成される。
Further, in the case where the screen to be constructed by the screen composing means 4a is other than "one-shot of the speaker", for example, when a shot around the speaker, which is a picture of the speaker and the speaker, is taken as an image, that is, In this "Speaker's Shot",
If the utterance content includes speaker name citation data that is a citation of the name of the talker, and utterance content citation data that is a citation of the utterance content made by another speaker, includes the relevant talker and speaker. A video having a screen configuration in which the minimum angle of view that can be captured by the minimum number of people and the minimum angle of view that can be captured by the minimum number of people including the former speaker is generated.

【0069】画面遷移手段4bは、画面構成手段4aで
構成された画面を遷移確率および発言者の発言長さデー
タに基づいて遷移させるものである。例えば、画面構成
手段4aで構成された画面が、「発言者のワンショッ
ト」であり、この「発言者のワンショット」をつないで
討論番組を構成させる場合に、一回の発言が長い時など
は、長時間の固定ショットだけでは視聴者が退屈してし
まうため、画面遷移手段4bは、視聴者の興味を引きつ
けておくために画面に動きと変化を与える事を目的とし
て、適宜その他のショットに画面構成を遷移させて行く
ものである(他のショットを挿入していくものであ
る)。
The screen transition means 4b transitions the screen constructed by the screen construction means 4a based on the transition probability and the speech length data of the speaker. For example, when the screen constructed by the screen composing means 4a is "speaker's one-shot", and this "speaker's one-shot" is connected to form a debate program, when one statement is long, etc. , The viewer gets bored with only a fixed shot for a long time. Therefore, the screen transition means 4b appropriately moves other shots for the purpose of giving movement and change to the screen in order to keep the viewer's interest. The screen configuration is transitioned to (the other shots are inserted).

【0070】この画面遷移手段4bでは、ショットの挿
入の際、不必要なショットの乱用は、視聴者の混乱を招
く恐れがあり、短いカット切り替えは、視聴者に緊張を
強いる事になるので安易に繰り返すべきではなく、ま
た、パンニングなどを使った連続的なカメラ移動は、画
面を気ぜわしいものとするので討論番組には不向きであ
ること等が考慮されて画面構成の遷移が設定されてい
る。
In this screen transition means 4b, when a shot is inserted, unnecessary abuse of the shot may cause viewer's confusion, and short cut switching causes tension to the viewer. The transition of the screen configuration is set in consideration of the fact that the continuous camera movement using panning or the like makes the screen annoying and is not suitable for discussion programs.

【0071】つまり、画面遷移手段4bでは、周囲の状
況を示すためのロングショットや、発言に対するリアク
ションを行う参話者を捉えたショットなどを適宜挿入
し、出演している発言者の相互関係を明らかにしなが
ら、視聴者の注意を促しつつ、画面に変化を与えるよう
なショットを選択する必要がある。
In other words, the screen transition means 4b appropriately inserts a long shot to show the surroundings, a shot capturing a participant who reacts to the utterance, and the like, and establishes the mutual relations between the appearing speakers. Obviously, it is necessary to select shots that will change the screen while attracting the attention of the viewer.

【0072】したがって、実際の討論番組におけるショ
ットの種類を映像中の出演者に注目して大別すると、
(1)発言者(話者)のワンショット(1S)と、
(2)発言者を含む複数人ショット(話者周辺ショッ
ト)と、(3)参話者1Sと、(4)参話者を含む複数
人ショット(参話者周辺ショット)と、(5)ドリーシ
ョットとに分けられるので、これらのことを考慮して画
面遷移手段4bでは、前記各ショット(1)〜(5)の
画面構成を遷移させるように構成されている。
Therefore, when the types of shots in the actual discussion program are roughly classified by paying attention to the performers in the video,
(1) One shot (1S) of the speaker (speaker),
(2) Shot of a plurality of people including a speaker (shot around the talker), (3) Speaker 1S, (4) Shot of a plurality of people including a talker (shot around the talker), (5) Since it is divided into dolly shots, the screen transition means 4b is configured to transition the screen configuration of each of the shots (1) to (5) in consideration of these things.

【0073】画面遷移手段4bでは、画面構成手段4a
により画面構成された画面構成データである各ショット
(1)〜(5)について、当該各ショット(1)〜
(5)の遷移確率が設定される。この遷移確率として
は、対話番組データに基づいた統計処理の結果、各ショ
ット(1)〜(5)に対して55%、16%、11%、
7%、10%(各ショットのカット数/全体のカット
数)の割合であった。なお、会話開始時に限ると、ショ
ット(1)〜(5)が各70%、19%、1%、5%、
5%と、発言者が写される遷移確率が高く、また、その
後挿入されるショットの種類については、特に直前のシ
ョットとの関係が高いことがわかった。これらの関係を
表1として示し、図2のフローチャート中に反映させて
いる。なお、表1について一列目の数値をA1〜A5で
図2の点線で囲むA1〜A5で示すように反映させてい
る。また、2列目以降は同様に、図2の点線で囲むA1
〜A5の下方の数値に反映されている。
In the screen transition means 4b, the screen construction means 4a
For each of the shots (1) to (5) that is the screen configuration data screen-configured by
The transition probability of (5) is set. The transition probabilities are 55%, 16%, 11% for each shot (1) to (5) as a result of the statistical processing based on the interactive program data.
The ratio was 7% and 10% (the number of cuts in each shot / the total number of cuts). Note that shots (1) to (5) are 70%, 19%, 1%, 5%,
It was found that the transition probability that the speaker was copied was high at 5%, and that the types of shots inserted after that were particularly high in relation to the immediately preceding shot. These relationships are shown as Table 1 and reflected in the flowchart of FIG. In Table 1, the numerical values in the first column are reflected by A1 to A5 as shown by A1 to A5 surrounded by a dotted line in FIG. Similarly, in the second and subsequent columns, A1 surrounded by a dotted line in FIG.
Reflected in the numbers below A5.

【0074】[0074]

【表1】 [Table 1]

【0075】画面遷移タイミング手段4cは画面遷移手
段4bによって設定された次のショットに画面を遷移す
るタイミングを決定するものである。この画面遷移タイ
ミング手段4cで行っているショット切替えのタイミン
グの算出方法について説明する。ショットを切り替える
タイミングを、前記各ショット(1)〜(5)に示す種
類だけに基づいて決めると、対話番組データに基づいた
統計処理の結果、例えば、発言者のワンショットの場
合、切り替えタイミングを実データで調査したところ、
標準偏差を利用した予測値である16秒±12秒に入っ
ていたものが20%にしかならなかった。これは全ての
ショットについて同様であった。そこで、ショットを切
り替えるためのタイミングを決める主な要因の洗い出し
を、実際に放送された討論番組42討論、30時間、9
000カット分から行なった。
The screen transition timing means 4c determines the timing of transition of the screen to the next shot set by the screen transition means 4b. A method of calculating the shot switching timing performed by the screen transition timing means 4c will be described. If the timing of switching shots is determined based on only the types shown in the shots (1) to (5), the switching timing is determined in the case of the one-shot of the speaker, as a result of statistical processing based on the interactive program data. After investigating with real data,
What was within the predicted value of 16 seconds ± 12 seconds using the standard deviation was only 20%. This was the same for all shots. Therefore, we identified the main factors that determine the timing for switching shots by discussing the actual discussion program 42 discussion, 30 hours, 9
It started from 000 cuts.

【0076】その結果、画面遷移タイミング手段4cに
よって画面を遷移させるタイミングは以下に記載した時
点が適切であるとした。(1Y)番組構成上の理由でス
ーパーインポーズや説明フリップが映されたとき(Su
per)、(2Y)発言中に参話者の名前が引用された
とき(名前引用)、(3Y)参話者がジェスチャを起し
たとき(ジェスチャフォローショット(ジェスチ
ャ))、(4Y)ひとつの発言が長く画面に変化をつけ
るほうが演出上望ましいとき(長い発言)、(5Y)他
の参話者の発言を引用したとき(発言引用)等である。
As a result, it is assumed that the screen transition timing means 4c causes the screen transition to be appropriate at the time points described below. (1Y) When a superimpose or explanation flip is displayed due to the program structure (Su
(per), (2Y) when the name of the talker is quoted during the remark (name quote), (3Y) when the talker makes a gesture (gesture follow shot (gesture)), (4Y) one For example, when it is desirable for the production that the utterance is long and the screen is changed (long utterance), (5Y) the utterance of another participant is quoted (utterance citation).

【0077】そして、前記(1Y)〜(5Y)までの要
因とショットの継続時間について対話番組データ(討論
番組)を対象として調査した結果を表2に表す。
Table 2 shows the results of an examination of the factors (1Y) to (5Y) and the duration of the shot with respect to the interactive program data (discussion program).

【0078】[0078]

【表2】 [Table 2]

【0079】この表2に示すように、例えば、話者1S
の場合、スーパーインポーズ(Super)が行われた
ショットの平均継続時間は25.51秒で、その標準偏
差は10.34秒であった。ショットの継続時間(遷移
タイミング)は、この表2を基準として算出した。つま
り、スーパーインポーズ(Super)が行われるよう
なショットは25.51±10.34秒の継続時間から
ランダムに決定される。このように、(1Y)〜(5
Y)までの要因とショットの継続時間(目的変数)とを
算出して画面遷移タイミングに反映させた。結果、重相
関係数0.83(予測精度70%)まで予測精度を高め
ることができたので、これら前記(1Y)〜(5Y)ま
での要因をそれぞれ以下の項目から抽出した。
As shown in Table 2, for example, the speaker 1S
In the case of, the average duration of the shots subjected to the superimposition (Super) was 25.51 seconds, and the standard deviation thereof was 10.34 seconds. The duration of the shot (transition timing) was calculated using Table 2 as a reference. That is, the shot in which the superimpose (Super) is performed is randomly determined from the duration of 25.51 ± 10.34 seconds. Thus, (1Y) to (5
The factors up to Y) and the shot duration (objective variable) were calculated and reflected in the screen transition timing. As a result, the prediction accuracy could be increased up to the multiple correlation coefficient of 0.83 (prediction accuracy of 70%), so these factors (1Y) to (5Y) were extracted from the following items.

【0080】すなわち、予測精度を高める要因を抽出す
る方法としては、(1a)各参話者の初回発言時のスー
パーインポーズ挿入および入力テキスト内に参考URL
が存在するときの説明フリップ挿入と、(1b)入力さ
れた入力テキストと発言者名のパターンマッチングによ
る要因の抽出と、(1c)自動付与されたCGキャラク
タジェスチャ(後記する)の動作タイミングと、(1
d)入力テキストの長さを標準的話速(150文字/
分)で計算して得られた発言持続時間と、(1e)入力
テキスト同士のパターンマッチングによる要因の抽出と
が挙げられる。なお、予測精度は、実際に撮影された討
論番組構成に対しての再現性の類似度を示している。
That is, as a method of extracting the factors that improve the prediction accuracy, (1a) Insert a superimpose at the time of each speaker's first speech and refer to the reference URL in the input text.
When there is a description flip insertion, (1b) extraction of a factor by pattern matching between the input text input and the speaker name, (1c) operation timing of a CG character gesture (described later) automatically assigned, (1
d) The length of the input text is standard speed (150 characters /
(1e) Extraction of factors by pattern matching between input texts. Note that the prediction accuracy indicates the degree of reproducibility similarity with respect to the configuration of the discussion program actually shot.

【0081】そして、前記(1a)〜(1e)の方法
で、前記(1Y)〜(5Y)までの要因を抽出し、得ら
れた統計値を基準に、各要因に応じた残差(各ショット
の予測残差)の分散でばらつきを持たせ、画面遷移タイ
ミング手段4cのスイッチングタイミング(画面遷移の
タイミング)を決定した。
Then, the factors (1Y) to (5Y) are extracted by the methods (1a) to (1e), and the residuals corresponding to each factor (each The switching timing (screen transition timing) of the screen transition timing means 4c is determined by providing variation in the variance of shot prediction residuals).

【0082】このように、映像生成表示手段4では、過
去の実際に放送された討論番組42討論、30時間、9
000カット分(対話番組データ)から、画像構成手段
4a、画像遷移手段4bおよび画像遷移タイミング手段
4cにより、画像構成、画像遷移、画像遷移タイミング
などが設定され、TVML形式で発言者のCGキャラタ
を含んだ映像が生成されて、端末の映像表示画部7に表
示されるように構成されている。
As described above, in the video generation / display means 4, the discussion program 42 that was actually broadcast in the past, discussion, 30 hours, 9
From 000 cuts (interactive program data), the image configuration means 4a, the image transition means 4b and the image transition timing means 4c set the image configuration, the image transition, the image transition timing, etc., and the CG character data of the speaker is set in the TVML format. The included image is generated and displayed on the image display screen section 7 of the terminal.

【0083】なお、記憶部5は、各データを記憶するた
めのものであり、例えば、ハードディスクなどのデータ
を記憶することができるものであれば、特に限定される
ものではない。
The storage unit 5 is for storing each data, and is not particularly limited as long as it can store data such as a hard disk.

【0084】つぎに、図1ないし図6を参照して図2お
よび図3ならびに図6を中心に、発言者特定映像装置1
の作用について説明する。図6は発言者特定映像装置1
における情報の全体の流れを模式的に説明する模式図で
ある。図6に示すように、発言者特定映像装置1の概略
的な流れをはじめに説明する。発言者特定映像装置1で
は、発言者が、端末の入力部8からネットワーク6およ
びデータ送受信部2(図1参照)を介して会話データ
(テキストデータ)が入力される。すると、発言者特定
映像装置1のデータ解析抽出部3では、このテキストデ
ータからTVML台本が作成される。また、このデータ
解析抽出部3では、会話構造解析抽出手段3Aによっ
て、発話順、回数、長さ等の構造データが抽出され、会
話内容解析抽出手段3Dおよびジェスチャ解析手段3J
によって、名前引用・感情表現などの内容解析データが
抽出される。
Next, with reference to FIGS. 1 to 6, with reference to FIGS. 2 and 3 and FIG.
The action of will be described. FIG. 6 is a speaker identification video device 1.
3 is a schematic diagram for schematically explaining the overall flow of information in FIG. As shown in FIG. 6, a schematic flow of the speaker identification video apparatus 1 will be described first. In the speaker identification video device 1, a speaker inputs conversation data (text data) from the input unit 8 of the terminal via the network 6 and the data transmission / reception unit 2 (see FIG. 1). Then, the data analysis / extraction unit 3 of the speaker identification video device 1 creates a TVML script from the text data. In the data analysis and extraction unit 3, the conversation structure analysis and extraction unit 3A extracts the structure data such as the utterance order, the number of times, and the length, and the conversation content analysis and extraction unit 3D and the gesture analysis unit 3J.
By this, content analysis data such as name citation and emotional expression is extracted.

【0085】そして、発言者特定映像装置1の映像生成
表示部4では、データ解析抽出部3で解析された構造デ
ータ、内容解析データおよびTVML台本により演出
(ショット・時間[遷移タイミング]・ジェスチャ)が
決定され、コントロールモジュールを介してCGキャラ
クタによる映像が対話番組として出力制御される。
Then, in the video generation / display unit 4 of the speaker-specific video apparatus 1, the structure data analyzed by the data analysis / extraction unit 3, the content analysis data, and the TVML script are used to produce an effect (shot / time [transition timing] / gesture). Is determined, and the video of the CG character is output controlled as an interactive program through the control module.

【0086】つぎに、発言者特定映像装置1による動作
について、詳しく説明する。はじめに、各発言者は、端
末の入力部8からテキストデータあるいは音声データを
会話データとして入力して、ネットワーク6を介して、
その会話データをデータ送受信部2に送信する。会話デ
ータを受信したら、データ解析抽出部3の各手段によ
り、必要なデータを解析して抽出する。このデータ解析
抽出部3では、入力された会話データ順に、抽出した識
別データと通し番号とに基づいて、出演者(発言者と参
話者)が決定(選抜)される。なお、この実施の形態で
は、最初に発言した発言者を第一発言者とし、この第一
発言者を司会者として設定している。
Next, the operation of the speaker specific video device 1 will be described in detail. First, each speaker inputs text data or voice data from the input unit 8 of the terminal as conversation data, and then, via the network 6,
The conversation data is transmitted to the data transmitting / receiving unit 2. When the conversation data is received, each unit of the data analysis / extraction unit 3 analyzes and extracts necessary data. In the data analysis and extraction unit 3, performers (speakers and speakers) are determined (selected) in the order of the input conversation data based on the extracted identification data and the serial number. In this embodiment, the first speaker is set as the first speaker, and the first speaker is set as the moderator.

【0087】つまり、従来の電子掲示板やメーリングリ
ストを利用したものなどの対話の多くは、偶発的にコミ
ュニティを形成している場合が多く、通常、参話者間で
明確な役割分担が行なわれていない。そこで、この発言
者特定映像装置1では、複数の発言者から入力された会
話データにおいて、この複数の会話データによって繰り
広げられる対話全体を方向付けるきっかけを与える役割
をもつ最初に発言をした発言者を司会者として扱うこと
にした。
That is, in many of the conventional dialogs such as those using the electronic bulletin boards and mailing lists, there are many cases in which a community is formed accidentally, and normally, clear roles are shared among the speakers. Absent. Therefore, in the speaker specifying video device 1, in the conversation data input from a plurality of speakers, the speaker who first speaks has a role of giving an opportunity to direct the entire dialogue unfolded by the plurality of conversation data. I decided to treat it as a moderator.

【0088】更に、ネットワーク上の偶発的なコミュニ
ティ内での対話の多くは、不特定多数の発言者が参話し
ている場合が多いため、この不特定多数の発言者をすべ
て一つの番組(仮想空間上)内にCGキャラクタとして
出演(出力)させてしまうと、人数が多くなり過ぎるこ
とで、視聴者(発言者)が出演者(発言者、参話者)を
識別することが困難になってしまう恐れがある。
Further, in many of the accidental dialogues on the network, in many cases, an unspecified number of speakers are speaking, so this unspecified number of speakers are all included in one program (virtual If (appearing) as CG characters appearing (in space), the number of viewers becomes too large, and it becomes difficult for the viewer (speaker) to identify the performers (speaker, talker). There is a risk that

【0089】人間が似通った性質や形状の多数のものを
同時に識別し、無理なく識別認識できる最大値は7であ
ると言われているため、このデータ解析抽出部3では、
発言者の内、出演する最大数を7人に制限することにし
た。テキストデータの中に、7人以上の発言者が存在す
る場合には、発話頻度の高い発言者上位7人を出演者と
決定する。それ以外の発言者の発話に関しては、前記し
た司会者が代理発話をし、番組を進行するものとした。
It is said that the maximum value at which a human can simultaneously identify a large number of objects having similar properties and shapes and can be identified and recognized without difficulty is 7. Therefore, in the data analysis and extraction unit 3,
We decided to limit the maximum number of speakers to 7 people. When seven or more speakers are present in the text data, the seven speakers with the highest utterance frequency are determined as performers. Regarding the utterances of speakers other than the above, the above-mentioned moderator makes an utterance on behalf of the speaker to proceed with the program.

【0090】つぎに、発言者特定映像装置1のデータ解
析抽出部3では、抽出した識別データと通し番号とに基
づいて、出演者(発言者、参話者)の空間配置位置の決
定が行われる。出演者(発言者、参話者)の空間配置を
決定する際、前記したように発言者の最大数が7人であ
るため、メインとなる映像を捉えるカメラを加え、8角
形上に配置する事が基本とされる。この場合、図5に示
すように、カメラの対向位置に司会者を配置することに
する。このように配置することで、最大人数時に等間隔
に座ることができ、且つ、少人数時に出演する発言者同
士の間隔が開きすぎて相対位置がわかりにくくなるのを
防ぐことができる。また、発言者が少人数の場合、発言
者を司会者に隣接した位置に配置することで、狭い画角
でも多くの発言者を撮る事ができる(図5参照)。
Next, the data analysis / extraction section 3 of the speaker-specific video device 1 determines the spatial arrangement positions of the performers (speakers, speakers) based on the extracted identification data and the serial numbers. . When determining the spatial arrangement of performers (speakers, speakers), the maximum number of speakers is 7 as described above, so add a camera that captures the main video and arrange them on an octagon. Things are the basis. In this case, as shown in FIG. 5, the moderator is placed at a position facing the camera. By arranging in this way, it is possible to sit at equal intervals when the maximum number of people is present, and it is possible to prevent the relative positions from becoming difficult to understand because the intervals between speakers who appear in a small number of people are too wide. Further, when the number of speakers is small, by placing the speakers at a position adjacent to the moderator, many speakers can be taken even with a narrow angle of view (see FIG. 5).

【0091】さらに、データ解析抽出部3では、出演す
る発言者の空間配置順の決定が行われる。司会者(第一
発言者)の位置を基準配置とし、時系列に沿って並べた
発話データの中を調べて、すでに説明した所定の要素
(A)、(B)、(C)を元に発言者の配置順が決定される。
Further, the data analysis / extraction section 3 determines the spatial arrangement order of speakers who appear. Using the position of the moderator (first speaker) as the standard placement, examine the utterance data arranged in chronological order, and based on the predetermined elements (A), (B), and (C) already explained. The placement order of speakers is determined.

【0092】つまり、図6に示すように、発言者の空間
配置順の決定できるように会話データから解析して必要
なデータが抽出され、映像生成表示部4を介してCGキ
ャラクタが対話番組データに沿って構成された状態(対
話番組)で表示(出力)されるものである。なお、この
実施の形態では、入力された会話テキストデータからT
V討論番組を自動生成するシステムを、発言者特定映像
装置1として、パーソナルコンピュータ上で実現した。
この図6に示すように、入力された会話データ(テキス
トデータ)から、発言者の空間的配置と、配置順を決定
し、これを基に、CGキャラクタの初期設定を表したT
VML台本が生成される。
That is, as shown in FIG. 6, necessary data is extracted from the conversation data by analyzing the conversation data so that the spatial arrangement order of the speakers can be determined, and the CG character displays the interactive program data via the video generation / display unit 4. Is displayed (output) in a state (interactive program) configured in accordance with. It should be noted that in this embodiment, T is calculated from the input conversation text data.
A system for automatically generating a V discussion program was realized on a personal computer as a speaker identification video device 1.
As shown in FIG. 6, the spatial arrangement of speakers and the arrangement order are determined from the input conversation data (text data), and based on this, the initial setting of the CG character T is displayed.
A VML script is generated.

【0093】同時に、番組内のCGキャラクタが会話内
容をしゃべるシーンを表したTVML台本が生成され
る。以上二つのTVML台本を単純に接続して1本の台
本とし、これをTVMLプレーヤーで再生することで、
適切に配置されたCGキャラクタが討論するシーンがで
きあがる。
At the same time, a TVML script showing a scene in which the CG character in the program speaks conversation contents is generated. By simply connecting the above two TVML scripts into one script and playing it back on the TVML player,
A scene is created in which the appropriately arranged CG characters discuss.

【0094】以上に対して、また、画面構成手段4a、
画面遷移手段4b、および画面遷移タイミング手段4c
によって、カメラスイッチングとCGキャラクタのジェ
スチャの付与が行われる。この実施の形態では、これら
をTVML台本に直接記述せず、TVMLプレーヤーの
外部割り込み機能を用いて、リアルタイムでカメラスイ
ッチングとジェスチャのトリガーを与えることで実現し
た。
In addition to the above, the screen forming means 4a,
Screen transition means 4b and screen transition timing means 4c
Thus, camera switching and CG character gesture are performed. In this embodiment, these are not described directly in the TVML script, but are realized by using the external interrupt function of the TVML player to give camera switching and gesture triggers in real time.

【0095】図6にTVML台本の一部分を記した。T
VMLプレーヤーはこの台本を1行ずつ読み込み、(50
行目):RabiというCGキャラクタが「Good e
vening」と話すシーンをリアルタイムで生成し、
合成音声と共に出力する。(51行目):続けてRab
iにカメラがクローズアップするシーンを生成する。
(52行目): Rabiがおじぎをするシーンを生成。
(53行目):tmp.movという動画像ファイルをフレーム0
から200まで再生するというように番組を再生してい
く。この様にTVMLはCGキャラクタのみならず、動
画、静止画、スーパーインポーズ、音声など、テレビ番
組に必要な全ての要素を記述できる言語である。発言者
特定映像装置1では、このTVML言語が用いられて出
力映像音声が生成されている。
FIG. 6 shows a part of the TVML script. T
The VML player reads this script line by line and (50
Line): The CG character Rabi is "Good e
The scene that says "vening" is generated in real time,
Output with synthetic speech. (Line 51): Rab continues
Generate a scene in which the camera closes up at i.
(Line 52): Rabi creates a bowing scene.
(53rd line): Frame 0 of moving image file called tmp.mov
The program is played back from 1 to 200. As described above, TVML is a language that can describe not only CG characters but also all elements necessary for a television program, such as moving images, still images, superimposes, and voices. In the speaker specific video device 1, the output video / audio is generated by using the TVML language.

【0096】カメラスイッチングジェネレータ(図示せ
ず)とジェスチャージェネレータ(図示せず)から入力
されたテキストデータを解析した結果に基づいて、これ
らの効果を発生し、TVMLプレーヤーにトリガーを送
信することで、望みの効果を実現する。なお、TVML
プレーヤーの外部割り込み機能とは、ある一本のTVM
L台本を再生している最中に、外部のアプリケーション
から1行のTVML台本(例:カメラクローズアップ)
をシェアードメモリ経由でTVMLプレーヤーに送信
し、割り込み動作させる機能である。
Based on the result of analyzing the text data input from the camera switching generator (not shown) and the gesture generator (not shown), these effects are generated and a trigger is transmitted to the TVML player. Achieve the desired effect. In addition, TVML
The player's external interrupt function is a TVM
While playing the L script, a line of TVML script from an external application (eg camera close-up)
Is transmitted to the TVML player via the shared memory and the interrupt operation is performed.

【0097】そして、発言者特定映像装置1では、図2
に示すように、画面構成と画面遷移および画面遷移タイ
ミングと、対話番組データの構成とに沿ってTVMLに
よる映像としてカメラスイッチング、ジェスチャが付与
された動きのある番組(映像)が生成される。
Then, in the speaker identifying video device 1, the speaker-identifying video device 1 shown in FIG.
As shown in, a moving program (video) with camera switching and gestures is generated as a video by TVML in accordance with the screen configuration, the screen transition and the screen transition timing, and the configuration of the interactive program data.

【0098】ここでは、対話番組データの遷移確率とし
て、各55%、16%、11%、7%、10%(各ショ
ットのカット数/全体のカット数)の割合を用いてい
る。さらに、発言話開始時に限ると、(1)〜(5)シ
ョットが各70%、19%、1%、5%、5%と、発言
者が写される遷移確率が高いことについても反映させる
ようにした。そして、その後挿入されるショットの種類
については、特に直前のショットとの関係が高いことに
ついても反映させている。
Here, as the transition probabilities of the interactive program data, the ratios of 55%, 16%, 11%, 7% and 10% (cut number of each shot / total cut number) are used. Furthermore, if it is limited to the start of remarks, it is also reflected that the shots (1) to (5) have a high transition probability of 70%, 19%, 1%, 5%, and 5%, respectively. I did it. The types of shots to be inserted after that are also reflected in the fact that the relationship with the immediately preceding shot is particularly high.

【0099】また、画面遷移タイミング手段4cのタイ
ミングとして、ワンショットを映像化し、平均69秒に
標準偏差10.84を乱数で加える。決定したショット
が話者周辺であった場合発話時間に発話内容文字数をs
とした時平均0.08sに標準偏差0.048sを乱数
で加える。初回発話以外で画面遷移において決定したシ
ョットが発言者のワンショットであった場合、ワンショ
ットを映像化し、平均13.25秒に標準偏差8.36
を乱数で加える。
As the timing of the screen transition timing means 4c, one shot is visualized and the standard deviation of 10.84 is added to the average of 69 seconds by a random number. When the determined shot is in the vicinity of the speaker, the utterance content character count is s
Then, a standard deviation of 0.048 s is added to the average of 0.08 s as a random number. When the shot determined in the screen transition other than the first utterance is the one shot of the speaker, the one shot is visualized and the standard deviation is 8.36 at an average of 13.25 seconds.
Is added by a random number.

【0100】同様にして、話者込み周辺ショットは平均
7.125秒に標準偏差4.51を乱数で加える。ま
た、ドリーショットは、平均15.54秒に標準偏差
8.911を乱数で加える。さらに、参話者周辺ショッ
トは平均4.96秒に標準偏差3.206を乱数で加え
る。そして、参話者ワンショットは平均4.56秒に標
準偏差2.386を乱数で加える。このようにして、画
面遷移タイミング手段4cの画面遷移タイミングとして
いる。
Similarly, for the speaker-containing peripheral shots, the standard deviation 4.51 is added to the average of 7.125 seconds by random numbers. Also, for the dolly shot, the standard deviation 8.911 is randomly added to the average of 15.54 seconds. Furthermore, for the shots around the talker, a standard deviation of 3.206 is randomly added to 4.96 seconds on average. Then, the talker one-shot randomly adds the standard deviation 2.386 to 4.56 seconds on average. In this way, the screen transition timing of the screen transition timing means 4c is set.

【0101】図2に示すように、例えば、発言開始時は
乱数により、話者の1Sと、話者を含む複数人ショット
(話者周辺ショット)と、参話者1Sと、参話者を含む
複数人ショット(参話者周辺ショット)と、ドリーショ
ットとをそれぞれ、0.70/0.19/0.01/
0.05/0.05の割合で撮影した映像を使用する。
その後の挿入ショットは前ショットにより決定した映像
を使用する。
As shown in FIG. 2, for example, at the start of a speech, a random number of the speaker 1S, a plurality of shots including the speakers (around the speaker), a speaker 1S, and a speaker 1S are selected. 0.70 / 0.19 / 0.01 / including multiple shots (shots around the talker) and dolly shots
Images taken at a ratio of 0.05 / 0.05 are used.
For the subsequent insertion shot, the video decided by the previous shot is used.

【0102】話者の1Sの後は、話者の1S、話者周辺
ショット、参話者1S、参話者周辺ショット、ドリーシ
ョットを0.11/0.32/0.35/0.15/
0.08とし、さらに、話者周辺ショットの後は話者の
1S、話者周辺ショット、参話者1S、参話者周辺ショ
ット、ドリーショットを0.85/0.04/0.08
/0.02/0.1とする。
After the speaker's 1S, the speaker's 1S, the speaker's peripheral shot, the participant's 1S, the participant's peripheral shot, and the dolly shot are 0.11 / 0.32 / 0.35 / 0.15. /
0.08, and after the shots around the speaker, 1S of the speaker, shots around the speaker, 1S of the talker, shots around the talker, and dolly shots are 0.85 / 0.04 / 0.08.
/0.02/0.1.

【0103】そして、参話者ワンショットのあとは、話
者の1S、話者周辺ショット、参話者1S、参話者周辺
ショット、ドリーショットを0.72/0.06/0.
19/0.02/0.01とし、参話者周辺ショットの
後は、話者の1S、話者周辺ショット、参話者1S、参
話者周辺ショット、ドリーショットを0.73/0.1
4/0.08/0.02/0.01とし、ドリーショッ
トの後は話者の1S、話者周辺ショット、参話者1S、
参話者周辺ショット、ドリーショットを0.73/0.
11/0.11/0.04/0.01の割合で挿入す
る。
After the participant's one shot, the speaker 1S, the speaker peripheral shot, the speaker 1S, the speaker peripheral shot, and the dolly shot are 0.72 / 0.06 / 0.
19 / 0.02 / 0.01, and after the talker's peripheral shot, the talker's 1S, the talker's peripheral shot, the talker's 1S, the talker's peripheral shot, and the dolly shot are 0.73 / 0. 1
4 / 0.08 / 0.02 / 0.01, after the dolly shot, 1S of the speaker, a shot around the speaker, 1S of the talker,
Shot around the talker and dolly shot 0.73 / 0.
Insert at a ratio of 11 / 0.11 / 0.04 / 0.01.

【0104】参話者のワンショットに決まった場合は、
内容解析データ中に名前引用、発言引用者があった場合
にはその発言者を、ない場合には前発言者を映像化す
る。同様に、参話者周辺ショットに決定した場合は、内
容解析データ中に名前引用、発言引用者があった場合に
はその発言者を、ない場合には前話者を含め、発言者が
含まれないショットを算出し映像化する。
[0104] When the one-shot of the talker is decided,
If there is a name citation or utterance quoter in the content analysis data, that speaker is visualized. If not, the previous speaker is visualized. Similarly, when a shot around the talker is decided, the name is quoted in the content analysis data, the speaker is included if there is a quoter, and if not, the speaker is included, including the previous speaker. Calculate and visualize the shots that do not exist.

【0105】なお、画面遷移タイミング手段4aでは、
具体的には、以下のようなタイミングにより画面遷移タ
イミングとしている。すなわち、各発言者の初回発話
時、画面遷移において決定したショットが発言者のワン
ショットであった場合、ワンショットを映像化し、平均
69秒に標準偏差10.84を乱数で加える。決定した
ショットが話者周辺であった場合発話時間に発話内容文
字数をsとした時平均0.08sに標準偏差0.048
sを乱数で加える。初回発話以外で画面遷移において決
定したショットが発言者のワンショットであった場合、
ワンショットを映像化し、平均13.25秒に標準偏差
8.36を乱数で加える。
In the screen transition timing means 4a,
Specifically, the screen transition timing is based on the following timing. That is, when each speaker speaks for the first time and the shot determined in the screen transition is one shot of the speaker, the one shot is visualized and the standard deviation 10.84 is added to the average 69 seconds by a random number. When the determined shot is in the vicinity of the speaker, when the number of utterance content characters is s during the utterance time, the average is 0.08s and the standard deviation is 0.048
Add s with a random number. If the shot determined in the screen transition other than the first utterance is the speaker's one shot,
Visualize one shot and add a standard deviation of 8.36 to the average of 13.25 seconds by random numbers.

【0106】同様にして、話者込み周辺ショットは平均
7.125秒に標準偏差4.51を乱数で加える。ま
た、ドリーショットは、平均15.54秒に標準偏差
8.911を乱数で加える。さらに、参話者周辺ショッ
トは平均4.96秒に標準偏差3.206を乱数で加え
る。そして、参話者ワンショットは平均4.56秒に標
準偏差2.386を乱数で加える。このようにして、画
面遷移タイミング手段4cの画面遷移タイミングとして
いる。
Similarly, for the speaker-containing peripheral shots, a standard deviation of 4.51 is added to the average of 7.125 seconds by a random number. Also, for the dolly shot, the standard deviation 8.911 is randomly added to the average of 15.54 seconds. Furthermore, for the shots around the talker, a standard deviation of 3.206 is randomly added to 4.96 seconds on average. Then, the talker one-shot randomly adds the standard deviation 2.386 to 4.56 seconds on average. In this way, the screen transition timing of the screen transition timing means 4c is set.

【0107】前記した構成により決定した画面構成、画
面遷移、画面遷移タイミング、発言内容、識別番号、C
Gキャラクタを用いて、発言通し番号順にCGキャラク
タが発言する映像を生成する。
The screen configuration, screen transition, screen transition timing, utterance content, identification number, C determined by the above-mentioned configuration
Using the G character, an image in which the CG character speaks is generated in the order of the speech serial numbers.

【0108】図3に示すように、実際に生成した映像の
一例に基づいて説明する。はじめに、発言者特定映像装
置1で扱う会話データとして電子掲示板をCGキャラク
タで示した対話番組形式として表題100が表示され
る。
As shown in FIG. 3, description will be made based on an example of an image actually generated. First, as the conversation data handled by the speaker identification video apparatus 1, the title 100 is displayed as an interactive program format in which the electronic bulletin board is represented by CG characters.

【0109】ここでは、識別番号A(第1発言者を(R
abi)ウサギのCGキャラクタとして表示)を司会者
として、会話データ「Good evening」とい
うデータが受信された場合、これを文字列変換し「char
acter: talk(name=A,text=”Good evenin
g”)と直し、これをTVMLプレーヤーというアプリ
ケーションに渡し、図3の画面を生成し、CGキャラク
タが「Good evening」としゃべる映像と合
成音声を同時に出力する。この映像に画面構成と画面切
り替えのタイミングである画面遷移タイミングを付加し
話者の特定を促進する演出を付加する。
Here, the identification number A (the first speaker is (R
abi) Displayed as a rabbit CG character) is the moderator, and when the conversation data "Good evening" is received, it is converted into a character string and converted to "char.
acter: talk (name = A, text = ”Good evenin
g ″) and pass this to an application called TVML player to generate the screen of FIG. 3, and simultaneously output a video and a synthetic voice in which the CG character speaks “Good evening”. A screen configuration and a screen transition timing, which is a screen switching timing, are added to this video to add an effect for promoting the identification of the speaker.

【0110】つぎに、今回の対話番組やメーリングリス
トなどの対話から今回は、五人の発言者が会話を行うこ
とが、画面構成手段4aにより映像全体が表示される話
者周辺ショットを示す第1映像画面101が示される。
[0110] Next, from the dialogue such as this time's dialogue program and the mailing list, five speakers can talk in this time. The first is to show a shot around the speaker in which the entire image is displayed by the screen composing means 4a. A video screen 101 is shown.

【0111】この第1映像画面101では、8角形の中
心となる位置でカメラ位置の対角線上に、今回の会話の
中心的な発言を行った発言者Aの発言者代理人であるウ
サギのCGキャラクタであるウサギキャラクタUcが司
会者となって配置されている。なお、ここでは、映像の
下枠に文字により会話内容が表示されるように映像が構
成されている。
On the first video screen 101, the rabbit CG, which is the speaker agent of the speaker A who made the main statement of this conversation, is diagonally across the camera position at the center of the octagon. A rabbit character Uc, which is a character, is arranged as a moderator. Here, the video is configured so that the conversation content is displayed by characters in the lower frame of the video.

【0112】そして、第2映像画面102に示すよう
に、はじめに、ワンショットでウサギキャラクタUcに
より挨拶などが、そのウサギキャラクタUcの映像と共
に、文字データが表示される。このとき、文字データに
見合った表情により、ウサギキャラクタUcがあたかも
文字データを話しているような表情をして所定時間で表
示される。なお、ウサギキャラクタUcのみならず、他
のCGキャラクタについて、図4に示すように、入力さ
れている表現データあるいは感情表現データによりジェ
スチャを変化させることや、また、表情について平常、
喜怒哀楽を示すように変換させることができる。
Then, as shown on the second video screen 102, first, a greeting or the like by the rabbit character Uc is displayed in one shot, and the character data is displayed together with the video of the rabbit character Uc. At this time, the rabbit character Uc is displayed for a predetermined time as if the rabbit character Uc were talking about the character data by the expression corresponding to the character data. As shown in FIG. 4, not only for the rabbit character Uc but also for other CG characters, it is possible to change the gesture according to the input expression data or emotion expression data, or to change the facial expression normally,
It can be converted to show emotions.

【0113】さらに、第3映像画面103に示すよう
に、ウサギキャラクタUcは、左隣に着席している発言
者Bの発言者代理人である少女キャララクタGcに話し
かける場合、第1映像画面101でも分かるように、全
体の構成を考えた位置取りにおいて、少女キャララクタ
Gc側を向いた状態で話を続けている。この第2映像画
面102から第3映像画面103までの画面構成および
画面遷移ならびに画面遷移タイミングについて、図2に
示すように、あらかじめ準備されている対話番組データ
の構成に沿って切り替わって表示されている。
Further, as shown in the third video screen 103, when the rabbit character Uc speaks to the girl character Lacta Gc who is the speaker agent of the speaker B who is seated on the left side, the rabbit video character Uc is also displayed on the first video screen 101. As can be seen, in the positioning considering the overall configuration, the story continues while facing the girl character Lacta Gc side. Regarding the screen configuration, the screen transition, and the screen transition timing from the second video screen 102 to the third video screen 103, as shown in FIG. 2, they are switched and displayed in accordance with the configuration of the interactive program data prepared in advance. There is.

【0114】すなわち、図2に示すように、S1のショ
ット=話者1Sが乱数を介して選択されて、S2のショ
ットにより画面構成が第2映像画面102で表示された
状態となる。そして、S3の経路を介して識別記号につ
いてS4として判断がなされる。今回は、識別番号は既
知であるため、Yesの経路から「切り替えタイミング
=69.0+標準偏差値(10.84)待ち」の時間だ
け第2映像画面102を表示し後、乱数を介してショッ
トが決定される。今回は、S5で示すように、ショット
=話者周辺として第3映像画面103が選択され、S6
の分岐にポイントで「発言時間残りあり」が判定され
る。今回の例では、「発言時間残りあり」がYesの経
路を選択して、再び、S2の「ショット」によりS5で
選択された「ショット=話者周辺」として第3映像画面
103が表示される。
That is, as shown in FIG. 2, the shot of S1 = speaker 1S is selected through a random number, and the shot of S2 causes the screen configuration to be displayed on the second video screen 102. Then, the identification symbol is judged as S4 through the route of S3. Since the identification number is already known this time, the second video screen 102 is displayed for a time of “waiting for switching timing = 69.0 + standard deviation value (10.84)” from the Yes path, and then shot through a random number. Is determined. This time, as shown in S5, the third video screen 103 is selected as shot = speaker vicinity, and S6 is selected.
In the branch of, it is judged that "there is speaking time remaining". In the present example, the route in which “there is remaining speech time” is Yes, and the third video screen 103 is displayed again as “shot = periphery of speaker” selected in S5 by “shot” in S2. .

【0115】同様に、画面構成、画面遷移、画面遷移タ
イミングについて対話番組データの構成である図2のフ
ローチャートに沿って、第4映像画面104、第5映像
画面105、各映像画面が決定されて、文字データと共
に表示される。なお、第5映像画面105では、発言時
間が残り少ないことが分かるため、図2において、S7
の経路により次映像画面が決定する。図3では、第6映
像画面として少女キャラクタGcに対するショット=参
話者1Sとして表示されている。なお、この第6映像画
面に示す少女キャラクタGcにおいても、全体の参加者
の配置を常に意識した構図となっており、ウサギキャラ
クタUcに向かって自分の意見を述べるように表示され
ている。また、各CGキャラクタは、会話の流れの中
で、うなずいたり、表情を変えたりすることも可能とな
る。
Similarly, regarding the screen configuration, the screen transition, and the screen transition timing, the fourth video screen 104, the fifth video screen 105, and the respective video screens are determined according to the flowchart of FIG. 2, which is the configuration of the interactive program data. , Displayed with character data. In addition, since it is understood that the speaking time is short on the fifth video screen 105, in FIG.
The next video screen is determined by the route of. In FIG. 3, a shot for the girl character Gc = speaker 1S is displayed as the sixth video screen. It should be noted that the girl character Gc shown on the sixth video screen also has a composition in which the arrangement of all the participants is always taken into consideration, and the girl character Gc is displayed so as to give its own opinion to the rabbit character Uc. In addition, each CG character can also nod or change his / her facial expression during the conversation.

【0116】このように、画面構成(ショット)デー
タ、画面遷移データ、および画面遷移タイミングデータ
と、対話番組データとにより出演者(発言者、参話者)
において、誰が、何について、誰に向かって話をしてい
るか等の客観的な認識が容易に行える状態で会話を行う
ことが可能となる。
As described above, performers (speakers, speakers) are composed of the screen configuration (shot) data, the screen transition data, the screen transition timing data, and the interactive program data.
In, it becomes possible to have a conversation in a state in which it is easy to objectively recognize who is talking to whom.

【0117】なお、ここでは発言者特定映像装置として
説明したが、各部の動作をコンピュータプログラム言語
として記述し、コンピュータの主制御部(CPUなど)
に展開して、記憶部5に記憶されている各データを利用
して機能するプログラムとみなすことも可能である。
Although the speaker identification video device has been described here, the operation of each unit is described as a computer program language, and the main control unit (CPU etc.) of the computer is described.
It is also possible to develop it into a program and use it as a program that functions by utilizing each data stored in the storage unit 5.

【0118】[0118]

【発明の効果】本発明は、以上説明してきたような発言
者特定映像装置、および、そのプログラムならびに、発
言者特定映像表示方法に係る構成であるため、以下に示
すような優れた効果を奏する。請求項1,請求項6,請
求項7の発明によれば、テキストデータあるいは音声デ
ータである会話データから、会話データの発言者をCG
キャラクタとして映像化することにより、従来のテキス
トデータ又は音声ファイルのみの会話データの送受信に
比べ、発言者を特定することが容易になると共に、ま
た、会話の内容が理解し易く、さらに、会話データを臨
場感がある映像とすることが可能となる。また、発言者
の識別IDと発言内容を記したテキスト(又は音声ファ
イル)以外の情報を用いていないため、様々なアプリケ
ーションに応用できる。
Since the present invention has the configuration relating to the speaker specifying video device, the program thereof, and the speaker specifying video display method as described above, the following excellent effects are obtained. . According to the inventions of claim 1, claim 6, and claim 7, the speaker of the conversation data is CG from the conversation data which is text data or voice data.
Visualization as a character makes it easier to identify the speaker and more easily understand the content of the conversation, as compared to the conventional transmission and reception of conversation data of only text data or audio files. It becomes possible to make a video with a sense of reality. Further, since no information other than the identification ID of the speaker and the text (or audio file) describing the content of the statement is used, it can be applied to various applications.

【0119】また、請求項1,請求項6,請求項7の発
明によれば、インターネットのチャット、電子会議など
の非同期通信において、発言者を直感的に理解しづらい
ケースであっても、全体の配置、画面構成などが考慮さ
れたCGキャラクタの映像により発言者を容易に理解で
きる。更に、テレビ電話会議などの映像を使用する場合
も、対話番組データが参照されることにより、カメラを
スイッチングするタイミングやサイズなどを自動的に調
整することも可能であり、応用範囲が広い。
Further, according to the inventions of claim 1, claim 6, and claim 7, in asynchronous communication such as Internet chat and electronic conference, even if it is difficult to intuitively understand the speaker, The speaker can be easily understood by the image of the CG character in consideration of the arrangement, screen configuration, and the like. Further, even when a video image of a video conference is used, it is possible to automatically adjust the timing and size of switching the camera by referring to the interactive program data, which has a wide range of applications.

【0120】さらに、実際にプログラムとして実装した
場合は、メーリングリストにおける会話データが入力さ
れて、映像と音声とからなる討論番組に変換されるの
で、「読む」「クリックする」のように能動的に楽しむ
テキストデータコンテンツを「観る」「聞く」という受
動的に楽しむテレビコンテンツに変換することができ
る。
Further, when actually implemented as a program, the conversation data in the mailing list is input and converted into a discussion program consisting of video and audio, so that it is possible to actively read, click, etc. It is possible to convert enjoyable text data contents into passively enjoyable TV contents such as "watch" and "listen".

【0121】そして、一般に複数の話者による対話デー
タをテレビ番組に変換することが可能となったことで、
様々な応用が考えられる。例えば、WEBページ内の会
話文、電子掲示板、メーリングリスト、チャット、雑誌
原稿における対話文、といった様々なメディアで展開さ
れている内容をテレビとして視聴でき、かつ、会話内容
がCGキャラクタの発言といった形式になり、より認識
し易い状態の映像にすることが可能となる。また、討論
番組における映像構成に関する分析結果、出演者の空間
配置、ジェスチャなどに関する知識を使ってCGキャラ
クタによる討論番組を生成することができ、同様に、仮
想空間上における、静止画/動画アバターによる遠隔地
会議、ロボットカメラによる自動対談番組収録などに
も、演出付加手法として応用する事ができる。
In general, since it becomes possible to convert the conversation data by a plurality of speakers into a television program,
Various applications are possible. For example, contents developed in various media such as conversation texts on WEB pages, electronic bulletin boards, mailing lists, chats, dialogue texts in magazine manuscripts can be viewed on a television, and the conversation content can be in the form of a CG character's statement. Therefore, it is possible to make the image more recognizable. Also, a discussion program by CG characters can be generated by using the analysis result of the video composition in the discussion program, knowledge about the spatial arrangement of the performers, gestures, etc. Similarly, by a still image / video avatar in the virtual space. It can also be applied as a direction addition method to remote conferences and automatic dialogue program recording by robot cameras.

【0122】請求項2の発明によれば、会話構造解析抽
出手段が、構造データとして、発言長さデータと、通し
番号データとを会話データから解析して抽出すると共
に、内容解析データとして、会話内容解析抽出手段が、
発言者名引用データと、発言内容引用データとを会話デ
ータから解析して抽出するため、対話を行うためにCG
キャラクタに自然な動作を与えることができる。
According to the second aspect of the present invention, the conversation structure analysis and extraction means analyzes and extracts the statement length data and the serial number data from the conversation data as the structure data, and the conversation content as the content analysis data. Analysis and extraction means
The speaker name citation data and the utterance content citation data are analyzed and extracted from the conversation data.
You can give the character a natural motion.

【0123】請求項3の発明によれば、前記映像生成表
示部の備える画面構成手段、画面遷移手段および画面遷
移タイミング手段と、対話番組データの構成とに沿って
生成される発言者のCGキャラクタによって、どの発言
者が誰に対して会話を行っているかを分かり易く、認識
し易い映像を提供することができる。
According to the third aspect of the present invention, the CG character of the speaker generated in accordance with the screen structuring means, the screen transition means and the screen transition timing means provided in the video generation / display section, and the configuration of the interactive program data. Thus, it is possible to provide an image in which it is easy to understand which speaker is talking to whom and which is easy to recognize.

【0124】請求項4の発明によれば、発言者のCGキ
ャラクタにさらに豊かな表情を与えることができるた
め、映像を視聴している視聴者がより自然な対話映像と
して提供することができる。
According to the invention of claim 4, since the CG character of the speaker can be given a richer expression, the viewer who is viewing the video can provide it as a more natural dialogue video.

【0125】請求項5の発明によれば、発言者配置解析
手段によりCGキャラクタの配置が内容解析データに基
づいて決定され、会話の中心的な役割を担うCGキャラ
クタをカメラ視線位置に対して対面する着座基準位置に
決定し、順次、発言回数が多いなどのCGキャラクタを
着座基準位置に近い位置に配置することができる。その
ため、発言者の選抜・位置・空間配置の決定を行なうこ
とによって、映像生成表示手段において、参話者の位置
関係を無理のないカメラアングルで表現することが可能
となり、映像化の際に、発言者同志を結んだ軸である会
話軸を最小限設定するだけで済み、当該会話軸を超えた
不要なスイッチング(ショット切替)を必要最小限に抑
える事が可能となる。
According to the fifth aspect of the invention, the speaker placement analysis means determines the placement of the CG character based on the content analysis data, and the CG character playing a central role in the conversation is faced to the camera line-of-sight position. It is possible to determine the seating reference position to be performed and sequentially arrange the CG characters, such as the number of times of utterances, at positions close to the seating reference position. Therefore, by selecting the speaker, determining the position, and arranging the space, it becomes possible to express the positional relationship of the speakers with a reasonable camera angle in the image generation / display means, and at the time of visualization, It is only necessary to set the conversation axis, which is the axis connecting the speakers, to a minimum, and it is possible to minimize unnecessary switching (shot switching) beyond the conversation axis.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明に係る発言者特定映像装置を模式的に
示すブロック図である。
FIG. 1 is a block diagram schematically showing a speaker identifying video device according to the present invention.

【図2】 本発明に係る発言者特定映像装置で用いる映
像を設定するためのフローチャートである。
FIG. 2 is a flowchart for setting an image used in the speaker identifying image device according to the present invention.

【図3】 本発明に係る発言者特定映像装置による画像
構成と画面遷移の状態を示す模式図である。
FIG. 3 is a schematic diagram showing an image configuration and a screen transition state by the speaker identifying video device according to the present invention.

【図4】 本発明に係るCGキャラクタの表情を模式的
に示す模式図である。
FIG. 4 is a schematic diagram schematically showing facial expressions of a CG character according to the present invention.

【図5】 本発明に係る発言者特定映像装置による発言
者の配置を設定する状態を平面的に示す模式図である。
FIG. 5 is a schematic plan view showing a state in which the placement of speakers is set by the speaker identifying video device according to the present invention.

【図6】 本発明に係る発言者特定映像装置の全体の流
れを模式的に説明する模式図である。
FIG. 6 is a schematic diagram schematically illustrating the overall flow of the speaker identifying video device according to the present invention.

【符号の説明】[Explanation of symbols]

1 発言者特定映像装置 2 データ送受信部(データ入力部) 3 データ解析抽出部 3A 会話構造解析抽出手段 3a 発言者解析手段 3b 通し番号解析手段 3c 発言長さ解析手段 3D 会話内容解析抽出手段 3d 発言者名引用解析手段 3e 発言内容引用解析手段 3f 表情データ解析抽出手段 3H 発言者配置解析手段 3J ジェスチャ解析手段 4 映像生成表示部 4a 画面構成手段 4b 画面遷移手段 4c 画面遷移タイミング手段 5 記憶部 6 ネットワーク 7 映像表示部(表示画面) 8 入力部 1 Speaker identification video device 2 Data transmission / reception section (data input section) 3 Data analysis and extraction section 3A Conversation structure analysis and extraction means 3a Speaker analysis means 3b Serial number analysis means 3c Speech length analysis means 3D conversation content analysis and extraction means 3d Speaker name quoting analysis means 3e Statement content citation analysis means 3f Expression data analysis and extraction means 3H Speaker placement analysis means 3J gesture analysis means 4 Video generation display section 4a Screen configuration means 4b Screen transition means 4c Screen transition timing means 5 memory 6 network 7 Video display section (display screen) 8 Input section

───────────────────────────────────────────────────── フロントページの続き (72)発明者 山田 一朗 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 柴田 正啓 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 八木 伸行 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 Fターム(参考) 5B050 AA08 BA08 BA12 CA08 EA19 EA24 FA10 5C064 AA02 AB03 AB04 AC04 AC06 AC09 AC12 AC16 AD08 AD14   ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Ichiro Yamada             1-10-11 Kinuta, Setagaya-ku, Tokyo, Japan             Broadcasting Association Broadcast Technology Institute (72) Inventor Masahiro Shibata             1-10-11 Kinuta, Setagaya-ku, Tokyo, Japan             Broadcasting Association Broadcast Technology Institute (72) Inventor Nobuyuki Yagi             1-10-11 Kinuta, Setagaya-ku, Tokyo, Japan             Broadcasting Association Broadcast Technology Institute F-term (reference) 5B050 AA08 BA08 BA12 CA08 EA19                       EA24 FA10                 5C064 AA02 AB03 AB04 AC04 AC06                       AC09 AC12 AC16 AD08 AD14

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】発言者を識別するための識別データが付加
されているテキストデータまたは音声データによりネッ
トワークに接続される端末を利用して複数の発言者が同
期あるいは非同期で会話を行う場合に、前記発言者の特
定が容易となる発言者特定映像装置であって、 会話を行うための前記テキストデータまたは前記音声デ
ータによる会話データを入力するデータ入力部と、 このデータ入力部に入力された会話データを解析して前
記識別データおよびその会話データの構造的な特徴を示
す構造データを抽出すると共に、前記会話データの内容
的な特徴を示す内容解析データを抽出するデータ解析抽
出部と、 このデータ解析抽出部により解析して抽出された前記構
造データおよび前記内容解析データならびに前記識別デ
ータに基づいて、前記発言者のCGキャラクタを含む映
像を生成すると共に、前記CGキャラクタを含む映像
を、あらかじめ準備されている対話番組データの構成に
沿って、前記端末の表示画面上に表示させる映像生成表
示部と、 前記各データを記憶するための記憶部と、を備えること
を特徴とする発言者特定映像装置。
1. When a plurality of speakers talk synchronously or asynchronously using a terminal connected to a network by text data or voice data to which identification data for identifying speakers is added, A speaker identifying video device for easily identifying a speaker, comprising: a data input unit for inputting conversation data of the text data or the voice data for conversation; and a conversation input to the data input unit. A data analysis and extraction unit for analyzing the data to extract the structural data showing the structural features of the identification data and the conversation data thereof, and the content analysis data showing the characteristic features of the conversation data; Based on the structure data and the content analysis data and the identification data that are analyzed and extracted by the analysis and extraction unit, An image generation / display unit that generates an image including the CG character of the speaker and causes the image including the CG character to be displayed on the display screen of the terminal according to the structure of the interactive program data prepared in advance. A speaker identification video device, comprising: a storage unit for storing the respective data.
【請求項2】前記データ解析抽出部は、前記構造データ
として、少なくとも、発言者の発言長さを示す発言長さ
データと、発言者の発言順の通し番号を示す通し番号デ
ータとを、解析して抽出する会話構造解析抽出手段を備
えると共に、前記内容解析データとして、少なくとも、
発言者名の引用の有無を示す発言者名引用データと、他
発言者における発言内容の引用の有無を示す発言内容引
用データと、を解析して抽出する会話内容解析抽出手段
とを備えることを特徴とする請求項1に記載の発言者特
定映像装置。
2. The data analysis and extraction unit analyzes, as the structure data, at least statement length data indicating a statement length of a speaker and serial number data indicating a serial number of a statement order of the speaker. With the conversation structure analysis and extraction means for extracting, as the content analysis data, at least,
Conversation content analysis and extraction means for analyzing and extracting speaker name citation data indicating whether or not a speaker name is quoted, and utterance content citation data indicating whether or not the utterance content of another speaker is cited. The speaker identification video apparatus according to claim 1, wherein the speaker identification video apparatus is provided.
【請求項3】前記映像生成表示部は、前記CGキャラク
タを含む映像の画面構成を決める画面構成手段と、この
画面構成手段の画面構成についての遷移確率および前記
発言者の発言長さデータに基づいてその画面構成を遷移
させる画面遷移手段と、この画面遷移手段の遷移タイミ
ングを決める画面遷移タイミング手段と、を備えること
を特徴とする請求項1または請求項2に記載の発言者特
定映像装置。
3. The image generation / display unit is based on a screen structuring unit that determines a screen configuration of an image including the CG character, a transition probability of the screen configuration of the screen structuring unit, and the speech length data of the speaker. 3. The speaker specifying video device according to claim 1, further comprising: a screen transition means for transitioning the screen configuration and a screen transition timing means for determining a transition timing of the screen transition means.
【請求項4】前記データ解析抽出部は、前記会話データ
に基づいて、前記CGキャラクタの表情を変えるための
表情データを抽出する表情データ解析抽出手段を備える
ことを特徴とする請求項1ないし請求項3のいずれか一
項に記載の発言者特定映像装置。
4. The data analysis / extraction section includes facial expression data analysis / extraction means for extracting facial expression data for changing the facial expression of the CG character based on the conversation data. Item 10. The speaker identifying video device according to any one of items 3.
【請求項5】前記データ解析抽出部は、前記会話データ
に基づいて、前記CGキャラクタの配置についてカメラ
視線位置を含めた八角形の頂点位置に配置すると共に、
前記内容解析データに基づいて、前記カメラ視線位置に
対面する位置に、前記CGキャラクタの着座基準点を決
定し、この着座基準点の左右に順次残りの前記CGキャ
ラクタの配置を決定する発言者配置解析手段を備えるこ
とを特徴とする請求項1ないし請求項4のいずれか一項
に記載の発言者特定映像装置。
5. The data analysis / extraction section arranges the CG characters at octagonal vertex positions including the camera line-of-sight position based on the conversation data, and
Based on the content analysis data, a seating reference point of the CG character is determined at a position facing the camera line-of-sight position, and a speaker placement for sequentially determining the placement of the remaining CG characters to the left and right of the seating reference point. The speaker-specific video device according to claim 1, further comprising an analyzing unit.
【請求項6】発言者を識別するための識別データが付加
されているテキストデータまたは音声データによりネッ
トワークに接続される端末を利用して複数の発言者が同
期あるいは非同期で会話を行う場合に、前記発言者の特
定が容易となる発言者特定映像を生成するために、コン
ピュータを、 会話を行うための前記テキストデータまたは前記音声デ
ータによる会話データを入力するデータ入力手段、 このデータ入力手段に入力された会話データを解析して
前記識別データおよびその会話データの構造的な特徴を
示す構造データを抽出すると共に、前記会話データの内
容的な特徴を示す内容解析データを抽出するデータ解析
抽出手段、 このデータ解析抽出部により解析して抽出された前記構
造データおよび前記内容解析データならびに前記識別デ
ータに基づいて、前記発言者のCGキャラクタを含む映
像を生成すると共に、前記CGキャラクタを含む映像
を、あらかじめ準備されている対話番組データの構成に
沿って、前記端末の表示画面上に表示させる映像生成表
示手段、 として機能させることを特徴とする発言者特定映像プロ
グラム。
6. When a plurality of speakers perform a synchronous or asynchronous conversation using a terminal connected to a network by text data or voice data to which identification data for identifying the speaker is added, Data input means for inputting conversation data based on the text data or the voice data for conducting a conversation, in order to generate a speaker identification image for easily identifying the speaker, and input to the data input means Data analysis and extraction means for analyzing the identified conversation data and extracting structural data indicating the structural characteristics of the identification data and the conversation data, and extracting content analysis data indicating the characteristic characteristics of the conversation data. The structure data and the content analysis data and the knowledge extracted by being analyzed by the data analysis and extraction unit. An image including the CG character of the speaker is generated based on the data, and the image including the CG character is displayed on the display screen of the terminal according to the structure of the interactive program data prepared in advance. A speaker identification video program characterized by causing it to function as video generation and display means.
【請求項7】発言者を識別するための識別データが付加
されているテキストデータまたは音声データによりネッ
トワークに接続される端末を利用して複数の発言者が同
期あるいは非同期で会話を行う場合に、前記発言者の特
定が容易となる発言者特定映像表示方法であって、 会話を行うための前記テキストデータまたは前記音声デ
ータによる会話データを入力するステップと、 前記会話データを解析して前記識別データおよびその会
話データの構造的な特徴を示す構造データを抽出すると
共に、前記会話データの内容的な特徴を示す内容解析デ
ータを抽出するステップと、 前記構造データおよび前記内容解析データならびに前記
識別データに基づいて、前記発言者のCGキャラクタを
含む映像を生成すると共に、前記CGキャラクタを含む
映像を、あらかじめ準備されている対話番組データの構
成に沿って、前記端末の表示画面上に表示させるステッ
プと、 を含むことを特徴とする発言者特定映像表示方法。
7. When a plurality of speakers talk synchronously or asynchronously using a terminal connected to a network by text data or voice data to which identification data for identifying speakers is added, A speaker identification video display method for easily identifying the speaker, comprising inputting conversation data according to the text data or the voice data for conversation, and analyzing the conversation data to identify the identification data. And extracting structural data indicating the structural characteristics of the conversation data, and extracting content analysis data indicating the characteristic characteristics of the conversation data, the structural data, the content analysis data, and the identification data Based on the generated CG character of the speaker, and including the CG character An image along the configuration interaction program data are prepared in advance, speaker specific image display method which comprises the steps of: displaying on the display screen of the terminal.
JP2002130344A 2002-05-02 2002-05-02 Speaker specific video device Expired - Fee Related JP4077656B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002130344A JP4077656B2 (en) 2002-05-02 2002-05-02 Speaker specific video device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002130344A JP4077656B2 (en) 2002-05-02 2002-05-02 Speaker specific video device

Publications (2)

Publication Number Publication Date
JP2003323628A true JP2003323628A (en) 2003-11-14
JP4077656B2 JP4077656B2 (en) 2008-04-16

Family

ID=29543437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002130344A Expired - Fee Related JP4077656B2 (en) 2002-05-02 2002-05-02 Speaker specific video device

Country Status (1)

Country Link
JP (1) JP4077656B2 (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287310A (en) * 2007-05-15 2008-11-27 Nippon Hoso Kyokai <Nhk> Content creation device, and content creation program
WO2009075211A1 (en) * 2007-12-10 2009-06-18 Sharp Kabushiki Kaisha Automatic utterer judgment-recording device and automatic utterer judgment-recording system
JP2010531478A (en) * 2007-04-26 2010-09-24 フォード グローバル テクノロジーズ、リミテッド ライアビリティ カンパニー Emotional advice system and method
JP2011055483A (en) * 2009-08-06 2011-03-17 Bond:Kk Program image distribution system, program image distribution method, and program
JP2011160151A (en) * 2010-01-29 2011-08-18 Toshiba Corp Electronic equipment, video reproducing system, and video reproducing method
JP2011238085A (en) * 2010-05-12 2011-11-24 Sharp Corp Image presentation system, program, and recording medium
JP2013540291A (en) * 2010-04-05 2013-10-31 サムスン エレクトロニクス カンパニー リミテッド Virtual world processing apparatus and method
JP2015518982A (en) * 2012-05-14 2015-07-06 ザ・ボーイング・カンパニーTheBoeing Company Mediating computing device and related methods for generation of semantic tags
JP2020123981A (en) * 2020-04-24 2020-08-13 株式会社バーチャルキャスト Content distribution system, content distribution method, computer program, content distribution server, and transmission path
JP2021061527A (en) * 2019-10-07 2021-04-15 シャープ株式会社 Information processing apparatus, information processing method, and information processing program
JP2022013123A (en) * 2020-07-03 2022-01-18 株式会社シーエーシー System, method, and program for executing communication via computer
JPWO2022079933A1 (en) * 2020-10-14 2022-04-21
KR20230143808A (en) * 2022-04-06 2023-10-13 네이버 주식회사 Method, computer device, and computer program to replay audio recording through visualization

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010531478A (en) * 2007-04-26 2010-09-24 フォード グローバル テクノロジーズ、リミテッド ライアビリティ カンパニー Emotional advice system and method
JP2008287310A (en) * 2007-05-15 2008-11-27 Nippon Hoso Kyokai <Nhk> Content creation device, and content creation program
WO2009075211A1 (en) * 2007-12-10 2009-06-18 Sharp Kabushiki Kaisha Automatic utterer judgment-recording device and automatic utterer judgment-recording system
JP2011055483A (en) * 2009-08-06 2011-03-17 Bond:Kk Program image distribution system, program image distribution method, and program
JP2011160151A (en) * 2010-01-29 2011-08-18 Toshiba Corp Electronic equipment, video reproducing system, and video reproducing method
JP2013540291A (en) * 2010-04-05 2013-10-31 サムスン エレクトロニクス カンパニー リミテッド Virtual world processing apparatus and method
JP2011238085A (en) * 2010-05-12 2011-11-24 Sharp Corp Image presentation system, program, and recording medium
JP2015518982A (en) * 2012-05-14 2015-07-06 ザ・ボーイング・カンパニーTheBoeing Company Mediating computing device and related methods for generation of semantic tags
JP7427408B2 (en) 2019-10-07 2024-02-05 シャープ株式会社 Information processing device, information processing method, and information processing program
JP2021061527A (en) * 2019-10-07 2021-04-15 シャープ株式会社 Information processing apparatus, information processing method, and information processing program
JP2020123981A (en) * 2020-04-24 2020-08-13 株式会社バーチャルキャスト Content distribution system, content distribution method, computer program, content distribution server, and transmission path
JP7102457B2 (en) 2020-04-24 2022-07-19 株式会社バーチャルキャスト Content distribution systems, content distribution methods, and computer programs
JP2022013123A (en) * 2020-07-03 2022-01-18 株式会社シーエーシー System, method, and program for executing communication via computer
JPWO2022079933A1 (en) * 2020-10-14 2022-04-21
WO2022079933A1 (en) * 2020-10-14 2022-04-21 住友電気工業株式会社 Communication supporting program, communication supporting method, communication supporting system, terminal device, and nonverbal expression program
JP7193015B2 (en) 2020-10-14 2022-12-20 住友電気工業株式会社 Communication support program, communication support method, communication support system, terminal device and non-verbal expression program
US11960792B2 (en) 2020-10-14 2024-04-16 Sumitomo Electric Industries, Ltd. Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program
KR20230143808A (en) * 2022-04-06 2023-10-13 네이버 주식회사 Method, computer device, and computer program to replay audio recording through visualization
KR102616058B1 (en) * 2022-04-06 2023-12-21 네이버 주식회사 Method, computer device, and computer program to replay audio recording through visualization

Also Published As

Publication number Publication date
JP4077656B2 (en) 2008-04-16

Similar Documents

Publication Publication Date Title
Hayashi Turn allocation and turn sharing
US8791977B2 (en) Method and system for presenting metadata during a videoconference
US7409639B2 (en) Intelligent collaborative media
US20140325395A1 (en) Voice link system
JP2001230801A (en) Communication system and its method, communication service server and communication terminal
JP4077656B2 (en) Speaker specific video device
WO2003058518A2 (en) Method and apparatus for an avatar user interface system
CN111870935B (en) Business data processing method and device, computer equipment and storage medium
CN112653902B (en) Speaker recognition method and device and electronic equipment
US20040107106A1 (en) Apparatus and methods for generating visual representations of speech verbalized by any of a population of personas
CN113748425A (en) Auto-completion for content expressed in video data
CN113711618B (en) Authoring comments including hyperlinks referencing typing of video content
TW201141226A (en) Virtual conversing method
CN115623133A (en) Online conference method and device, electronic equipment and readable storage medium
WO2022137547A1 (en) Communication assistance system
Gan Choreographing affective relationships across distances: Multigenerational engagement in video calls between migrant parents and their left-behind children in China
Dutt et al. Video, talk and text: How do parties communicate coherently across modalities in live videostreams?
KR20000054437A (en) video chatting treatment method
Colburn et al. Graphical enhancements for voice only conference calls
WO2024032111A1 (en) Data processing method and apparatus for online conference, and device, medium and product
WO2023074898A1 (en) Terminal, information processing method, program, and recording medium
Ariyasu et al. Visualization of text-based dialog in a virtual classroom for e-learning
US20230412766A1 (en) Information processing system, information processing method, and computer program
KR20100134022A (en) Photo realistic talking head creation, content creation, and distribution system and method
Zhou et al. Patterns of Communication in Live Streaming A comparison of China and the United States

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071024

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080201

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120208

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130208

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees