JP2005151231A - Video communication method, video communication apparatus, video creation program used for apparatus, and recording medium with program recorded thereon - Google Patents
Video communication method, video communication apparatus, video creation program used for apparatus, and recording medium with program recorded thereon Download PDFInfo
- Publication number
- JP2005151231A JP2005151231A JP2003386820A JP2003386820A JP2005151231A JP 2005151231 A JP2005151231 A JP 2005151231A JP 2003386820 A JP2003386820 A JP 2003386820A JP 2003386820 A JP2003386820 A JP 2003386820A JP 2005151231 A JP2005151231 A JP 2005151231A
- Authority
- JP
- Japan
- Prior art keywords
- video signal
- video
- communication
- partial
- facial expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
この発明は、例えばテレビジョン電話通信やテレビジョン会議通信に使用する映像通信方法及び映像通信装置と、この装置で使用される映像作成プログラム及びこのプログラムを記録する記録媒体に関する。 The present invention relates to a video communication method and a video communication apparatus used for, for example, a television telephone communication and a video conference communication, a video creation program used in the apparatus, and a recording medium for recording the program.
近年、遠隔地との通信システムとして、テレビジョン電話通信システムやテレビジョン会議通信システムが多用されるようになっている。この種の通信システムは、音声のみならず話者が互いに相手の表情を見ながら通話を行うことができるため、音声のみを使用する通信に比べて遙かに多くの情報量を伝送することができ、より効果的な通話又は会議が可能となる。 In recent years, a television telephone communication system and a video conference communication system are frequently used as a communication system with a remote place. In this type of communication system, not only voice but also speakers can talk while looking at each other's facial expressions. Therefore, much more information can be transmitted than communication using only voice. This enables a more effective call or conference.
しかし、一般にこの種の通信システムは、カメラにより撮像された話者の顔画像をそのまま送受信するように構成されている。このため、通信に先立ち話者は身だしなみを整えなければならなかったり、また伝送された顔画像から話者の感情や疲労度、緊張具合等のプライバシーに係わる情報が相手話者に知られてしまうと云った問題点があった。 However, in general, this type of communication system is configured to transmit and receive a speaker's face image captured by a camera as it is. For this reason, the speaker must be dressed before communication, and the other speaker will be informed of privacy information such as the speaker's emotions, fatigue, and tension from the transmitted face image. There was a problem called.
そこで従来では、事前に話者の平常時における表情を表す画像データを記憶しておく。そして、通信中に撮像された話者の画像データに対し画像処理を行って話者の疲労度を抽出し、抽出された疲労度に応じて、上記撮像された表情の画像データを上記事前に記憶されている平常時の表情を表す画像データに置き換えるようにした技術が提案されている(例えば特許文献1を参照)。 Therefore, conventionally, image data representing the normal expression of the speaker is stored in advance. Then, the speaker's image data captured during communication is subjected to image processing to extract the speaker's fatigue level, and the image data of the captured facial expression is stored in advance in accordance with the extracted fatigue level. There has been proposed a technique in which it is replaced with stored image data representing a normal facial expression (see, for example, Patent Document 1).
ところが上記従来の提案技術では、話者の平常時の表情を表す画像データを予め登録しておく必要がある。このため、例えば通話直前又は通話中に話者が未登録の話者に交代したり、また未登録の話者が飛び入りで参加した場合には、これらの話者について画像データの置換処理が行われず、依然として通話中の表情を表す顔画像データがそのまま伝送されてしまう。また、登録済みの話者であっても、疲労度が抽出され難い話者については、画像データの置換処理が行われずに通話中の表情を表す顔画像データがそのまま伝送されてしまう。 However, in the conventional proposed technique, it is necessary to register in advance image data representing the normal expression of the speaker. For this reason, for example, when a speaker is replaced by an unregistered speaker immediately before or during a call, or when an unregistered speaker joins in a jump, image data replacement processing is performed for these speakers. Thus, the face image data representing the expression during the call is still transmitted as it is. In addition, even for a registered speaker, for a speaker whose fatigue level is difficult to extract, face image data representing an expression during a call is transmitted as it is without performing image data replacement processing.
この発明は上記事情に着目してなされたもので、その目的とするところは、平常時の顔画像データを事前に用意しておくことなく、不特定の話者に対してもまた疲労度の程度によらず、常に最適な表情の映像信号を送信できるようにし、これにより通信中の話者のプライバシーを確実に保護することを可能にした映像通信方法及び映像通信装置と、この装置で使用される映像作成プログラム及びこのプログラムを記録する記録媒体を提供することにある。 The present invention has been made by paying attention to the above circumstances, and the purpose of the present invention is to prepare fatigue information for an unspecified speaker without preparing normal face image data in advance. Video communication method and video communication apparatus that can always transmit video signals with an optimal facial expression regardless of the degree, thereby enabling the privacy of the communicating speaker to be reliably protected, and to be used in this apparatus And a recording medium for recording the program.
上記目的を達成するためにこの発明は、通信中の非会話期間に撮像された被写体の顔を含む部位の映像信号を被写体の真顔を表す第1の映像信号として記憶する。一方、通信中の会話期間に撮像された上記被写体の顔を含む部位の第2の映像信号から、被写体の表情を表す特定部位における第1の部分映像信号を抽出し、この抽出された第1の部分映像信号と上記記憶された第1の映像信号中の上記特定部位に対応する第2の部分映像信号とを、予め設定された表情調整割合を表す情報に従い合成して第3の部分映像信号を生成する。そして、この生成された第3の部分映像信号と、上記第2の映像信号中の上記特定部位以外の部分映像信号とを合成して第3の映像信号を生成し、この生成された第3の映像信号を送信するようにしたものである。 In order to achieve the above object, the present invention stores a video signal of a part including a face of a subject imaged during a non-conversation period during communication as a first video signal representing a true face of the subject. On the other hand, a first partial video signal in a specific part representing the facial expression of the subject is extracted from the second video signal of the part including the face of the subject imaged during the conversation period during communication. And a second partial video signal corresponding to the specific part in the stored first video signal in accordance with information representing a preset facial expression adjustment ratio to synthesize a third partial video Generate a signal. Then, the generated third partial video signal and the partial video signal other than the specific part in the second video signal are synthesized to generate a third video signal, and the generated third video signal is generated. The video signal is transmitted.
したがってこの発明によれば、通信中の非会話期間において撮像された映像信号が被写体の平常時の表情を表す真顔画像として記憶され、会話中に撮像された映像信号中の表情を表す部位の信号と、上記記憶された真顔画像とが予め設定された表情調整割合に従い合成される。このため、話者は自身の平常時の表情を表す画像データを予め登録しておく必要がなくなり、これにより例えば通話直前又は通話中に話者が未登録の話者に交代したり、また未登録の話者が飛び入りで参加した場合にも、これら未登録の話者のプライバシーについても確実に保護することが可能となる。すなわち、不特定多数の話者のプライバシーを保護することが可能となる。
また、話者に関係なく予め設定された表情調整割合に従って表情の調整処理が行われる。このため、表情の疲労度に係わらずすべての話者についてその表情が最適な表情となるように調整することが可能となる。
Therefore, according to the present invention, the video signal imaged during the non-conversation period during communication is stored as a true face image representing the normal expression of the subject, and the signal of the part representing the expression in the video signal imaged during the conversation And the stored true face image are synthesized in accordance with a preset facial expression adjustment ratio. This eliminates the need for the speaker to register in advance image data representing his / her normal facial expression. This allows the speaker to change to an unregistered speaker immediately before or during a call, for example. Even when registered speakers join in, it is possible to reliably protect the privacy of these unregistered speakers. That is, it becomes possible to protect the privacy of an unspecified number of speakers.
Also, facial expression adjustment processing is performed according to a preset facial expression adjustment ratio regardless of the speaker. For this reason, it is possible to adjust the facial expression to be the optimal facial expression for all speakers regardless of the facial expression fatigue level.
またこの発明は、次のような機能を備えることも特徴とする。
第1の機能は、上記表情調整割合を表す情報を設定する際に、想定される複数の通信相手の各々に対応付けて被写体の表情調整割合を表す情報を設定し、上記第3の部分映像信号を生成する際に、通信に際し使用される通信相手の識別情報をもとに、上記設定された複数の表情調整割合を表す情報の中から通信相手に対応する表情調整割合を表す情報を選択し、この選択された表情調整割合を表す情報に従い第1の部分映像信号と第2の部分映像信号とを合成するものである。
The present invention is also characterized by having the following functions.
The first function sets information representing the facial expression adjustment ratio of the subject in association with each of a plurality of assumed communication partners when setting the information representing the facial expression adjustment ratio, and the third partial video When generating a signal, select information representing the facial expression adjustment ratio corresponding to the communication partner from the multiple facial expression adjustment ratios set above based on the identification information of the communication partner used during communication Then, the first partial video signal and the second partial video signal are synthesized in accordance with the information representing the selected facial expression adjustment ratio.
このようにすると、通信相手に応じて表情調整割合が選択され、この選択された表情報調整割合に従い会話中の表情と非会話時に記憶した真顔の表情との合成が行われる。このため、例えば通信相手が家族や気心の知れた親しい同僚等の場合には、会話中の表情の合成割合を高くすると共に真顔の合成割合を零又は低く設定することにより、話者の表情ができるだけありのまま通信相手に伝わるようにすることができる。これに対し、通信相手が商談相手や初対面の相手の場合には、会話中の表情の合成割合を低く設定すると共に真顔の合成割合を高く設定することにより、話者の表情ができるかぎり通信相手に伝わらないようにすることができる。すなわち、通信相手に応じて最適な表情の映像信号を送信することが可能となる。 In this way, the expression adjustment ratio is selected according to the communication partner, and the expression during conversation and the expression of the true face stored during non-conversation are combined according to the selected table information adjustment ratio. For this reason, for example, when the communication partner is a family member or a close colleague who knows well, the facial expression of the speaker can be reduced by increasing the composition ratio of facial expressions during conversation and setting the composite ratio of true faces to zero or low. It can be transmitted to the communication partner as much as possible. On the other hand, if the communication partner is a business partner or the first meeting partner, the communicative partner is set as much as possible by setting the compositing ratio of facial expressions during conversation low and setting the compositing ratio of true faces high. You can avoid being transmitted to. In other words, it is possible to transmit a video signal having an optimal facial expression according to the communication partner.
第2の機能は、上記第1の映像信号を記憶する際に、映像通信のためのトレーニング期間に被写体の顔を含む部位を撮像して得られる映像信号を、真顔を表す第1の映像信号として記憶するものである。
このようにすると、通信開始が開始されてから実際に会話が始まるまでの準備期間に、被写体の真顔を表す映像信号が記憶されることになる。このため、真顔の映像信号を会話が開始される前に確実に用意することが可能となる。
A second function is a first video signal representing a true face obtained by imaging a part including a face of a subject during a training period for video communication when storing the first video signal. It is something to remember as.
In this way, a video signal representing the true face of the subject is stored in a preparation period from the start of communication to the actual start of conversation. For this reason, it is possible to reliably prepare a true-face video signal before the conversation is started.
第3の機能は、上記第1の映像信号を記憶する際に、非会話期間に得られる複数の映像信号をもとに、真顔を表す第1の映像信号を生成し記憶するものである。
このようにすると、非会話期間ごとに真顔の画像が逐次学習されて修正される。このため、真顔の画像をできる限り平常時に近い最適な画像にすることが可能となる。
The third function is to generate and store a first video signal representing a true face based on a plurality of video signals obtained during a non-conversation period when storing the first video signal.
In this way, a true face image is sequentially learned and corrected every non-conversation period. For this reason, it is possible to make a true face image as close to normal as possible.
要するにこの発明では、通信中の非会話期間に撮像された被写体の顔を含む部位の映像信号を被写体の真顔を表す第1の映像信号として記憶し、通信中の会話期間に撮像された上記被写体の顔を含む部位の第2の映像信号から被写体の表情を表す特定部位における第1の部分映像信号を抽出して、この抽出された第1の部分映像信号と上記記憶された第1の映像信号中の上記特定部位に対応する第2の部分映像信号とを予め設定された表情調整割合を表す情報に従い合成し、この合成された第3の部分映像信号を背景画像と合成して送信するようにしている。
したがってこの発明によれば、平常時の顔画像データを事前に用意しておくことなく、不特定の話者に対してもまた疲労度の程度に関係なく、常に最適な表情の映像信号を送信できるようになり、これにより通信中の話者のプライバシーを確実に保護することを可能にした映像通信方法及び映像通信装置と、この装置で使用される映像作成プログラム及びこのプログラムを記録する記録媒体を提供することができる。
In short, in the present invention, the video signal of the part including the face of the subject imaged during the non-conversation period during communication is stored as the first video signal representing the true face of the subject, and the subject imaged during the communication period during communication The first partial video signal in the specific part representing the expression of the subject is extracted from the second video signal of the part including the face, and the extracted first partial video signal and the stored first video are extracted. The second partial video signal corresponding to the specific part in the signal is synthesized in accordance with information representing a preset facial expression adjustment ratio, and the synthesized third partial video signal is synthesized with the background image and transmitted. Like that.
Therefore, according to the present invention, an image signal having an optimal facial expression is always transmitted to an unspecified speaker regardless of the degree of fatigue without preparing normal facial image data in advance. Video communication method and video communication apparatus capable of reliably protecting the privacy of a communicating speaker, a video creation program used in the apparatus, and a recording medium for recording the program Can be provided.
(第1の実施形態)
図1は、この発明に係わる映像通信装置の第1の実施形態を示す要部ブロック図である。同図において、カメラ1により撮像された被写体のアナログ映像信号ASは、アナログ・ディジタル変換回路(A/D)2でディジタル映像信号BSに変換された後、フォーマット変換回路3に入力される。フォーマット変換回路3では、上記入力されたディジタル映像信号BSが、テレビジョン電話装置やテレビジョン会議装置の映像符号化回路で使用される共通中間フォーマット信号(CIF:Common Intermediate Format信号)CSに変換され、この変換された送信CIF信号CSは映像調整回路4に入力される。
(First embodiment)
FIG. 1 is a principal block diagram showing a first embodiment of a video communication apparatus according to the present invention. In the figure, an analog video signal AS of a subject imaged by the camera 1 is converted into a digital video signal BS by an analog / digital conversion circuit (A / D) 2 and then input to a
映像調整回路4では、上記入力された送信CIF信号CSに対し被写体の表情を調整するための処理が行われる。そして、この調整処理が終了した送信CIF信号DSは、映像符号化回路5で映像符号化処理されて送信映像符号化信号ESとなった後、多重分離回路6に入力される。多重分離回路6は、上記入力された送信映像符号化信号ESと、図示しない音声符号化回路で符号化された送信音声符号化信号FSとを多重化することにより、所定の伝送フォーマットの送信多重化信号GSを生成し、この生成された送信多重化信号GSを図示しない伝送路へ送信する。
The
一方、通信相手の装置から伝送路を介して送られた多重化信号GSは、多重分離回路6で受信映像符号化信号HSと受信音声符号化信号FSとに分離される。そして、このうち受信映像符号化信号HSは映像符号化回路6に入力され、また受信音声符号化信号FSは図示しない音声符号化回路に入力される。映像符号化回路6は、上記受信映像符号化信号HSを映像復号処理することにより受信CIF信号ISに変換し、この受信CIF信号ISをフォーマット逆変換回路7に入力する。
On the other hand, the multiplexed signal GS sent from the communication partner device via the transmission line is separated into the received video encoded signal HS and the received audio encoded signal FS by the demultiplexing circuit 6. Of these, the received video encoded signal HS is input to the video encoding circuit 6, and the received audio encoded signal FS is input to an audio encoding circuit (not shown). The video encoding circuit 6 converts the received video encoded signal HS into a received CIF signal IS by performing video decoding processing, and inputs the received CIF signal IS to the format
フォーマット逆変換回路7は、上記受信CIF信号ISをディジタル映像信号JSに逆変換する。この逆変換されたディジタル映像信号JSは、ディジタル・アナログ変換回路(D/A)8によりアナログ映像信号に変換された後、モニタ9に供給されて受信画像として表示される。なお、受信音声符号化信号FSは、音声符号化回路で音声復号され、さらにアナログ音声信号に変換されたのち、図示しないスピーカから拡声出力される。
The format
ところで、上記映像調整回路4は次のように構成される。図2はこの映像調整回路4の構成を示すブロック図である。すなわち、映像調整回路4は、表情抽出部41と、表情合成部42と、調整割合記憶部43と、映像合成部44とを備えている。
このうち調整割合記憶部43には、通信相手の識別情報、例えば加入電話番号やIPアドレス等の発信ID或いは受信IDに対応付けて、表情調整割合を指定する情報NSが記憶してある。
By the way, the
Among these, the adjustment ratio storage unit 43 stores information NS for designating a facial expression adjustment ratio in association with identification information of a communication partner, for example, a transmission ID or reception ID such as a subscriber telephone number or an IP address.
表情抽出部41は、送信CIF信号CSから、被写体としての話者の顔の表情を表す特定部位の部分映像信号を抽出するためのもので、図3に示すように顔領域抽出部411と、特定部位切出部412とを備えている。
このうち顔領域抽出部411は、上記送信CIF信号CSから、顔領域に対応する顔領域映像信号PSと、背景領域に対応する背景領域映像信号MSとをそれぞれ抽出する。顔領域を切り出す方法には、例えば肌色抽出法がある。肌色抽出法は、RGB値で定義されている映像信号をHSV表示系で表現し、このHSV表示系の色相(H)成分をもとに肌色の領域を抽出するものである。HSV表示系は、色相(H)成分と明度(V)成分とが独立しているため、映像の明るさに影響を受けずに肌色領域を分離抽出することが可能である。
The facial expression extraction unit 41 is for extracting a partial video signal of a specific part representing the facial expression of the speaker's face as a subject from the transmission CIF signal CS. As shown in FIG. And a specific
Among these, the face
また送信CIF信号CSには、顔領域以外にも肌色領域が存在する場合が考えられるので、上記抽出された肌色領域からさらに顔領域の大小及び縦横のアスペクト比をもとに顔領域を抽出する。一般に、映像通信で使用される被写体画像は、画像内で最も領域が大きく、かつ領域の縦横のアスペクト比が0.5倍〜2倍になる。したがって、このような条件を満足する肌色領域を特定することにより顔領域をさらに正確に抽出できる。なお、縦横のアスペクト比は、カメラの仕様や被写体の撮像条件等に応じて任意に設定することができる。
顔領域抽出部411は、以上のように抽出された顔領域に対応する映像信号PSを特定部位切出部412に、また上記抽出された顔領域以外の領域の部分映像信号を背景領域に対応する映像信号MSとして映像合成部44にそれぞれ入力する。
Further, since there may be a skin color area in addition to the face area in the transmission CIF signal CS, a face area is further extracted from the extracted skin color area based on the size and aspect ratio of the face area. . In general, a subject image used in video communication has the largest area in the image, and the aspect ratio of the area in the vertical and horizontal directions is 0.5 to 2 times. Therefore, the face region can be extracted more accurately by specifying the skin color region that satisfies such conditions. Note that the aspect ratio of the vertical and horizontal directions can be arbitrarily set according to camera specifications, subject imaging conditions, and the like.
The face
特定部位切出部412は、上記入力された顔領域の部分映像信号PSから、話者の表情を表す特定部位、例えば眉、目及び口を表す領域を抽出する。この特定部位を表す領域の抽出処理は、眉、目及び口がそれぞれ有する特徴に基づいて行われる。例えば、眉や目は肌色領域の輝度値より暗い領域であり、また口は肌色領域より赤い領域でかつ水平方向に細長いか又は楕円に近い形状をしている領域である。さらに、眉、目及び口の位置関係、例えば眉と目との上下関係、眉と目の左右対称関係、目と口の上下関係を利用することによっても、各部位の領域を抽出可能である。
The specific
また特定部位切出部412は、上記抽出された領域がどの部位に対応するものかを識別する。識別には、例えば弛緩法が利用される。弛緩法は、抽出された領域がどの部位に対応するかに曖昧さが存在する場合に、各部位の近傍の状態から、抽出された各領域がどの部位であると矛盾が生じるかを検出し、この検出値をもとに上記曖昧さを減少させる。そして、この処理を各部位の集合全体にについて並列的に反復しつつ、次第に局所的な矛盾をなくしていき、最終的に特定部位の集合全体に対して曖昧さのないラベル付けを行う。そして、以上のようにして抽出されかつ特定された各特定部位の部分映像信号LSを表情合成部42に入力する。
Further, the specific
表情合成部42は、上記調整割合記憶部43に記憶されている表情調整割合を指定する情報NSに従い、上記特定部位切出部412において抽出された、会話中の話者の表情を表す特定部位の部分映像信号LSと、予め記憶された該当話者の真顔の映像信号QSとのモーフィング処理を行う。そして、このモーフィング処理により作成された、表情が調整された顔領域の部分映像信号OSを映像合成部44に入力する。
The facial
図4は、上記表情合成部42の構成を示すブロック図である。表情合成部42は、正規化部421と、真顔情報記憶部422と、モーフィング部423とを備える。真顔情報記憶部422には、真顔の映像信号QSが記憶される。この真顔の映像信号QSとしては、話者の平常時の顔画像、例えば通信初期時に実行されるトレーニング期間において撮像された会話開始前の被写体の映像信号が使用される。
FIG. 4 is a block diagram showing a configuration of the facial
正規化部421は、モーフィング処理の前処理として、上記特定部位切出部412において抽出された特定部位の部分映像信号LSの正規化処理を行う。この正規化処理は、上記特定部位の映像信号LSにおける各部位の位置と大きさを、上記真顔の映像信号QSに含まれる上記特定部位の位置と大きさに合わせる処理である。
The
モーフィング部423は、上記正規化部421により正規化された部分映像信号RSと上記真顔の映像信号QSの特定部位の形状の座標を、調整割合記憶部43から読み出された表情調整割合NSに応じて線形補完し、これにより特定部位の新しい形状を計算する。また同様に、上記正規化部421により正規化された部分映像信号RSと上記真顔の映像信号QSの特定部位以外の肌色領域、例えば頬や額、鼻等の形状の座標を、調整割合記憶部43から読み出された表情調整割合NSに応じて線形補完し、これにより特定部位以外の肌色領域の新しい形状を計算する。これらの処理により、上記調整割合に応じた口の開きや目の開き、眉の動きが調整された顔領域の部分映像信号OSが作成される。
The morphing
映像合成部44は、上記モーフィング部423により作成された顔領域の部分映像信号OSと、前記表情検出部41により抽出された背景領域の映像信号MSとを、相互に位置合わせした上で合成し、これにより背景領域と顔領域とからなる、表情が調整された映像信号DSを作成する。
The
次に、以上のように構成された映像通信装置の動作を、映像調整回路4の動作を中心に説明する。
通信に先立ち話者又は装置の管理者は、表情調整割合を指定する情報NSを調整割合記憶部43に登録する。このとき、通信先として想定される個々の相手ごとに表情調整割合の値を決定し、この決定した値を通信相手の加入電話番号又はIPアドレスに対応付けて登録する。
Next, the operation of the video communication apparatus configured as described above will be described focusing on the operation of the
Prior to communication, the speaker or the manager of the apparatus registers information NS for designating the facial expression adjustment ratio in the adjustment ratio storage unit 43. At this time, the value of the facial expression adjustment ratio is determined for each individual partner assumed as the communication destination, and the determined value is registered in association with the subscriber telephone number or IP address of the communication partner.
この状態で、所望の通信相手との間でテレビジョン電話通信が開始されたとする。このとき映像調整回路4では、先ず映像通信を行うためのトレーニング期間において撮像された会話開始前の話者の映像信号がフォーマット変換回路3から取り込まれる。そして、この取り込まれた映像信号(CIF信号CS)が、上記話者の真顔を表す映像信号として真顔情報記憶部422に格納される。すなわち、通信開始時に行われるトレーニング期間において、話者の真顔画像が自動的に得られ記憶される。
In this state, it is assumed that videophone communication is started with a desired communication partner. At this time, in the
続いて会話が開始されると、映像調整回路4には会話期間中に撮像された映像信号がフォーマット変換回路3から入力される。この入力された映像信号(CIF信号CS)は、先ず顔領域抽出部411において顔領域の部分映像信号PSとそれ以外の背景領域の部分映像信号MSとに分離され、このうち顔領域の部分映像信号PSは特定部位切出部412に入力される。
Subsequently, when the conversation is started, the video signal captured during the conversation period is input from the
特定部位切出部412では、上記入力された顔領域の部分映像信号PSから、話者の表情を表す眉、目及び口等の特定部位の映像信号LSが抽出される。この特定部位の映像信号の抽出は、先に述べたように眉、目及び口がそれぞれ有する色彩上の特徴と相互の位置関係をもとに行われる。また、抽出された眉、目及び口の映像信号に曖昧さが存在する場合には、弛緩法により眉、目及び口の識別が行われる。
The specific
上記特定部位の映像信号LSが切り出されると、映像調整回路4では次に表情合成部42において、上記特定部位切出部412において抽出された特定部位の映像信号LSと、先に真顔情報記憶部422に記憶された真顔の映像信号QSとのモーフィング処理が以下のように行われる。
When the video signal LS of the specific part is cut out, the
すなわち、先ず正規化部421により、上記特定部位の位置と大きさを、上記真顔の映像信号QSに含まれる上記特定部位の位置と大きさに合わせるための正規化処理が行われる。続いてモーフィング部423において、上記正規化された特定部位の部分映像信号RSの形状の座標と、上記真顔の映像信号QSの特定部位の形状の座標とを、調整割合記憶部43から読み出された表情調整割合NSに応じて線形補完する処理が行われる。また同様に、上記正規化部421により正規化された特定部位以外の部位、例えば頬や額、鼻等のその他の肌色領域の形状の座標と、上記真顔の映像信号QSにおける特定部位以外の肌色領域の形状の座標とを、調整割合記憶部43から読み出された表情調整割合NSに応じて線形補完する処理が行われる。以上の線形補完処理により、特定部位の新しい形状と、特定部位以外の肌色領域の新しい形状がそれぞれ求められ、これにより上記表情調整割合NSに応じて口の開きや目の開き、眉の動きが調整された顔領域の部分映像信号OSが作成される。
That is, first, the
例えば、いま通信相手が商談相手だったとする。そうすると、この商談相手の加入電話番号又はIPアドレスをもとに調整割合記憶部43から対応する表情調整割合が読み出される。そして、この読み出された表情調整割合の値に従い、特定部位の形状と真顔の映像信号QSにおける特定部位の形状とがモーフィングされる。このとき、商談相手に対応付けて設定した表情調整割合の値が例えば“0”またはそれに近い値であれば、真顔の映像信号QSを主体として合成され、これにより表情が真顔のままほとんど変化しない顔領域の部分映像信号が作成される。 For example, suppose that the communication partner is now a business partner. Then, the corresponding facial expression adjustment ratio is read from the adjustment ratio storage unit 43 based on the telephone number or IP address of the business partner. Then, according to the value of the read facial expression adjustment ratio, the shape of the specific part and the shape of the specific part in the true face video signal QS are morphed. At this time, if the value of the facial expression adjustment ratio set in association with the business partner is, for example, “0” or a value close thereto, the video signal QS of the true face is synthesized as a main component, and thus the facial expression remains almost unchanged. A partial video signal of the face area is created.
これに対し通信相手が家族だったとする。この場合には、家族の加入電話番号又はIPアドレスをもとに調整割合記憶部43から対応する表情調整割合が読み出される。そして、この読み出された表情調整割合の値に従い、特定部位の形状と真顔の映像信号QSにおける特定部位の形状とがモーフィングされる。このとき、家族に対応付けて設定した表情調整割合の値が例えば“1”またはそれに近い値であれば、会話中に撮像された映像信号を主体として合成され、これにより会話中の表情がそのまま表現された顔領域の部分映像信号が作成される。 In contrast, the communication partner is a family. In this case, the corresponding facial expression adjustment ratio is read from the adjustment ratio storage unit 43 based on the family telephone number or IP address of the family. Then, according to the read facial expression adjustment ratio value, the shape of the specific part and the shape of the specific part in the true face video signal QS are morphed. At this time, if the value of the facial expression adjustment ratio set in association with the family is, for example, “1” or a value close thereto, the video signal captured during the conversation is synthesized as a main component, so that the facial expression during the conversation remains as it is. A partial video signal of the expressed face area is created.
また同様に、通信相手が職場の上司等であれば、この上司に対応付けて記憶されていた表示調整割合の値に従いモーフィングが行われる。例えば、職場の上司に対応付けて設定した表情調整割合の値が例えば“0.5”であれば、会話中に撮像された映像信号と真顔の映像信号とが半々の割合で合成され、これにより表情が中間的な状態に表現された顔領域の部分映像信号が作成される。 Similarly, if the communication partner is a boss or the like in the workplace, morphing is performed according to the value of the display adjustment ratio stored in association with the boss. For example, if the value of the facial expression adjustment ratio set in association with the boss of the workplace is “0.5”, for example, the video signal captured during the conversation and the video signal of the true face are combined at a ratio of half. Thus, a partial video signal of the face area in which the expression is expressed in an intermediate state is created.
次に映像調整回路4では、上記モーフィング処理により作成された顔領域の部分映像信号OSと、先に表情検出部41において分離された背景領域の部分映像信号MSとを合成する処理が行われ、これにより表情が調整された映像信号DSが得られる。この表情が調整された映像信号(送信CIF信号)DSは、映像符号化回路5で映像符号化処理された後、多重分離回路6において音声符号化信号FSと多重化され、しかるのち通信相手装置に向け図示しない伝送路へ送信される。
Next, the
以上述べたように第1の実施形態では、映像調整回路4において、会話中に撮像された話者の顔領域の画像と、通信初期時のトレーニング期間に撮像して記憶した真顔画像の顔領域の画像とを、予め設定した表情調整割合を指定する情報NSに従いモーフィング処理し、このモーフィング処理により表情が調整された映像信号を通信相手装置へ送信するようにしている。このため、会話中において、話者の感情や疲労度、緊張具合等のプライバシーに係わる情報が相手話者に知られてしまう不具合は低減される。
しかも、通信開始時に行われるトレーニング期間において、話者の真顔画像が自動的に取得されて記憶されるため、通信に先立ち予め話者の真顔画像を撮像して記憶しておく必要がなくなり、これにより不特定多数の話者にも対応可能となる。
As described above, in the first embodiment, in the
Moreover, since the speaker's true face image is automatically acquired and stored during the training period at the start of communication, it is not necessary to capture and store the speaker's true face image prior to communication. This makes it possible to handle a large number of unspecified speakers.
さらにこの実施形態では、通信相手ごとに表情調整割合を設定し、この設定された表情調整割合を通信相手の加入電話番号やIPアドレスに対応付けて調整割合記憶部43に記憶する。そして、通信相手の加入電話番号やIPアドレスをもとに、調整割合記憶部43から通信相手に対応する表情調整割合を読み出してモーフィング処理に供するようにしている。
したがって、例えば通信相手が家族等の気心の知れた相手の場合には、会話中の表情の合成割合を高くすると共に真顔の合成割合を零又は低く設定することにより、話者の表情ができるだけありのまま通信相手に伝わるようにすることができる。これに対し、通信相手が商談相手や初対面の相手の場合には、会話中の表情の合成割合を低く設定すると共に真顔の合成割合を高く設定することにより、話者の表情ができるかぎり通信相手に伝わらないようにすることができる。すなわち、通信相手に応じて最適な表情の映像信号を送信することができる。
Further, in this embodiment, a facial expression adjustment ratio is set for each communication partner, and the set facial expression adjustment ratio is stored in the adjustment ratio storage unit 43 in association with the subscriber telephone number or IP address of the communication partner. Then, the facial expression adjustment ratio corresponding to the communication partner is read out from the adjustment ratio storage unit 43 based on the subscriber telephone number and IP address of the communication partner and used for the morphing process.
Therefore, for example, when the communication partner is an energetic partner such as a family, the facial expression of the speaker remains as much as possible by increasing the synthetic ratio of facial expressions during conversation and setting the synthetic ratio of true faces to zero or low. It can be communicated to the communication partner. On the other hand, if the communication partner is a business partner or the first meeting partner, the communicative partner is set as much as possible by setting the compositing ratio of facial expressions during conversation low and setting the compositing ratio of true faces high. You can avoid being transmitted to. That is, it is possible to transmit a video signal having an optimal facial expression according to the communication partner.
(第2の実施形態)
この発明の第2の実施形態は、中央演算処理ユニット(CPU:Central Processing Unit)においてプログラムを実行することにより、被写体の顔画像に対する映像調整処理を行うようにしたものである。
(Second Embodiment)
In the second embodiment of the present invention, a video is adjusted on a face image of a subject by executing a program in a central processing unit (CPU).
図5は、この発明に係わる映像通信装置の第2の実施形態を示すブロック図である。なお、同図において前記図2と同一部分には同一符号を付して詳しい説明は省略する。
この実施形態に係わる映像通信装置は、CPU10及びメモリ11を備え、これらにより映像調整回路を構成している。メモリ11は、ハードディスク又はフラッシュメモリからなる不揮発性メモリ部と、RAMからなる揮発性メモリ部とから構成され、不揮発性メモリ部には映像調整処理プログラムが格納してある。また揮発性メモリ部には、映像調整処理に必要な情報として、表情調整割合を指定する情報NSと、真顔の映像信号(真顔画像)が記憶される。
CPU10は、上記メモリ11に記憶された映像調整処理プログラムに従い、かつ上記表情調整割合を指定する情報NS及び真顔の映像信号を使用して、会話期間中に撮像された被写体の顔画像に対し映像調整処理を実行する。
FIG. 5 is a block diagram showing a second embodiment of the video communication apparatus according to the present invention. In the figure, the same parts as those in FIG.
The video communication apparatus according to this embodiment includes a
The
次に、以上のように構成された装置の動作をCPU10の制御手順に従い説明する。図6は、その制御手順と制御内容を示すフローチャートである。
CPU10は、ステップ6aで表情調整割合の入力を監視すると共に、ステップ6bで映像信号の入力を監視している。この状態で、話者又は装置の管理者が図示しない入力装置において表情調整割合を指定する情報NSの入力操作を行うと、ステップ6aからステップ6cに移行して、上記入力された表情調整割合を指定する情報NSをメモリ11に格納する。なお、上記表情調整割合を指定する情報NSは通信相手ごとに設定され、この設定された情報NSは通信相手の識別情報、例えば加入電話番号又はIPアドレスに対応付けてメモリ11に格納される。
Next, the operation of the apparatus configured as described above will be described according to the control procedure of the
The
さて、この状態で通信が開始されて、フォーマット変換回路3から映像信号(CIF信号)CSが入力されると、CPU10はステップ6bからステップ6dに移行して、会話が行われているか否かを判定する。そして、例えば映像通信のためのトレーニング期間のように会話開始前であれば、ステップ6eに移行して、上記入力された映像信号CSを真顔画像QSとしてメモリ11に記憶する。かくして、話者の会話開始前における真顔画像が自動記憶される。
When communication is started in this state and a video signal (CIF signal) CS is input from the
一方、会話中に映像信号(CIF信号)CSが入力されると、CPU10はステップ6dからステップ6fに移行し、ここで先ず上記入力された映像信号CSから顔領域と背景領域とをそれぞれ分離抽出する。そして、抽出された顔領域及び背景領域の映像信号をメモリ11に保存する。なお、顔領域の抽出には、前記第1の実施形態で述べたように肌色抽出法と、顔領域の大小及び縦横のアスペクト比を用いた方法が使用される。
On the other hand, when a video signal (CIF signal) CS is input during a conversation, the
CPU10は、次にステップ6gにおいて、上記抽出された顔領域の映像信号から話者の表情報を表す特定部位、例えば眉、目及び口を表す領域の画像を抽出する。この特定部位を表す領域の抽出処理も、前記第1の実施形態で述べたように眉、目及び口がそれぞれ有する形状及び色彩上の特徴と、眉、目及び口相互の位置関係に基づいて行われる。また、抽出結果に曖昧さが存在する場合に弛緩法を使用して曖昧さを減少させる点についても前記第1の実施形態と同様である。
Next, in
上記特定部位の領域が抽出されると、CPU10は続いてステップ6hにより、上記抽出された特定部位の位置と大きさを、上記会話開始前に記憶した真顔画像に含まれる上記特定部位の位置と大きさに合わせるための正規化処理を行う。そして、ステップ6iにより、上記正規化された特定部位の部分映像信号の形状の座標と、上記真顔画像中の特定部位における部分映像信号の形状の座標とを、メモリ11から読み出された表情調整割合に応じて線形補完する処理を行う。また同様に、上記正規化された特定部位以外の部位、例えば頬や額、鼻等のその他の肌色領域の形状の座標と、上記真顔画像の上記特定部位以外の肌色領域の形状の座標とを、メモリ11から読み出された表情調整割合に応じて線形補完する処理を行う。かくして、予め設定した表情調整割合に応じて、会話中に撮像された顔画像と会話前に撮像して記憶した真顔画像とのモーフィング処理が行われる。
When the region of the specific part is extracted, the
上記モーフィング処理が終了するとCPU10は、続いてステップ6jにおいて、上記モーフィング処理により作成された顔領域の映像信号と、先にステップ6fにより分離された背景領域の映像信号とを合成する処理を行い、これにより表情が調整された映像信号DSを得る。そして、この表情が調整された映像信号(送信CIF信号)DSを、ステップ6kにより映像符号化回路5へ出力する。
以後、会話中に映像信号が入力されるごとに、上記ステップ6b〜ステップ6kにより顔画像の表情を調整するための一連の処理が実行される。
When the morphing process ends, in step 6j, the
Thereafter, each time a video signal is input during a conversation, a series of processes for adjusting the facial expression of the face image is performed in steps 6b to 6k.
以上述べたように第2の実施形態によれば、先に述べた第1の実施形態と同様に、会話中に撮像された話者の顔領域の画像と、通信初期時のトレーニング期間に撮像して記憶した真顔画像の顔領域の画像とを、予め設定した表情調整割合を指定する情報NSに従いモーフィング処理し、このモーフィング処理により表情が調整された映像信号を通信相手装置へ送信するようにしている。このため、会話中において、話者の感情や疲労度、緊張具合等のプライバシーに係わる情報が相手話者に知られてしまう不具合は低減される。しかも、通信開始時に行われるトレーニング期間において、話者の真顔画像が自動的に取得されて記憶されるため、通信に先立ち予め話者の真顔画像を撮像して記憶しておく必要がなくなり、これにより不特定多数の話者にも対応可能となる。 As described above, according to the second embodiment, as in the first embodiment described above, the image of the face area of the speaker captured during the conversation and the training period during the initial communication are captured. The morphing process is performed on the image of the face area of the true face image stored in accordance with information NS designating a preset facial expression adjustment ratio, and a video signal whose facial expression is adjusted by the morphing process is transmitted to the communication partner apparatus. ing. For this reason, the trouble that the other speaker is made aware of privacy-related information such as the speaker's emotions, fatigue level, and tension during conversation is reduced. Moreover, since the speaker's true face image is automatically acquired and stored during the training period at the start of communication, it is not necessary to capture and store the speaker's true face image prior to communication. This makes it possible to handle a large number of unspecified speakers.
さらに、通信相手ごとに表情調整割合を設定し、この設定された表情調整割合を通信相手の加入電話番号やIPアドレスに対応付けてメモリ11に記憶し、通信相手の加入電話番号やIPアドレスをもとに、メモリ11から通信相手に対応する表情調整割合を読み出してモーフィング処理に仕様するようにしている。したがって、通信相手の属性、例えば家族等の気心の知れた相手、商談相手や初対面の相手等に応じ、最適な表情の映像信号を送信することができる。
Further, a facial expression adjustment ratio is set for each communication partner, the set facial expression adjustment ratio is stored in the
(その他の実施形態)
前記各実施形態では、真顔の映像信号として、通信初期時に実行されるトレーニング期間において撮像された会話開始前の被写体の映像信号を記憶するようにした。しかし、それに限らず通信開始後の最初の非会話期間に得られる被写体の映像信号を記憶するようにしてもよい。また、その後の非会話期間に被写体の映像信号が得られるごとに、この得られた映像信号をもとに上記記憶されている真顔の映像信号を逐次学習して補正するようにしてもよい。このようにすると、より平常時の状態に近い被写体の真顔画像を得ることができる。なお、非会話期間の判定は、送話音声信号及び受話音声信号の有無を監視することにより可能である。
(Other embodiments)
In each of the above-described embodiments, the video signal of the subject before the start of conversation captured during the training period executed at the initial stage of communication is stored as a true face video signal. However, the present invention is not limited thereto, and the video signal of the subject obtained in the first non-conversation period after the start of communication may be stored. Further, every time a video signal of a subject is obtained in a subsequent non-conversation period, the stored true video signal may be sequentially learned and corrected based on the obtained video signal. In this way, a true face image of the subject that is closer to the normal state can be obtained. The non-conversation period can be determined by monitoring the presence / absence of a transmission voice signal and a reception voice signal.
また、前記各実施形態では通信先として想定される相手ごとに表情調整割合の値を決定し、この決定した値を相手の加入電話番号又はIPアドレスに対応付けて調整割合記憶部43に記憶するようにした。しかし、それに限らず想定される通信相手をグループ化し、このグループごとに表情調整割合の値を決定して、この決定した値を上記グループの識別番号に対応付けて調整割合記憶部43に記憶するようにしてもよい。このようにすると、例えば通信相手を、家族や親戚のグループ、職場の同僚のグループ、商談相手のグループ等に分け、これらのグループごとに表情調整割合を設定すればよいので、個々の通信相手ごとに表情調整割合を設定する場合に比べて表情調整割合の設定管理を簡単化することができる。 In each of the above embodiments, the value of the facial expression adjustment ratio is determined for each partner assumed as a communication destination, and the determined value is stored in the adjustment ratio storage unit 43 in association with the subscriber's subscriber telephone number or IP address. I did it. However, the present invention is not limited to this, and possible communication partners are grouped, a facial expression adjustment ratio value is determined for each group, and the determined value is stored in the adjustment ratio storage unit 43 in association with the identification number of the group. You may do it. In this way, for example, the communication partner can be divided into a group of family members or relatives, a group of colleagues in the workplace, a group of business partners, etc., and a facial expression adjustment ratio can be set for each group. It is possible to simplify the setting management of the facial expression adjustment ratio compared to the case where the facial expression adjustment ratio is set in
その他、映像調整処理の手順と内容、表情調整割合の設定手法、真顔画像の生成記憶手法等についても、この発明の要旨を逸脱しない範囲で種々変形して実施できることは勿論である。
要するにこの発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
In addition, the procedure and content of the video adjustment process, the facial expression adjustment ratio setting method, the true face image generation and storage method, and the like can of course be modified in various ways without departing from the scope of the present invention.
In short, the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the components without departing from the scope of the invention in the implementation stage. Moreover, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.
1…カメラ、2…アナログ・ディジタル変換回路(A/D)、3…フォーマット変換回路、4…映像調整回路、5…映像符号化回路、6…多重分離回路、7…フォーマット逆変換回路、8…ディジタル・アナログ変換回路(D/A)、9…モニタ、10…中央演算処理ユニット(CPU)、11…メモリ、41…表情抽出部、42…表情合成部、43…調整割合記憶部、44…映像合成部、411…顔領域抽出部、412…特定部位切出部、421…正規化部、422…真顔情報記憶部、423…モーフィング部。 DESCRIPTION OF SYMBOLS 1 ... Camera, 2 ... Analog-digital conversion circuit (A / D), 3 ... Format conversion circuit, 4 ... Video adjustment circuit, 5 ... Video encoding circuit, 6 ... Demultiplexing circuit, 7 ... Format reverse conversion circuit, 8 ... Digital / analog conversion circuit (D / A), 9 ... monitor, 10 ... central processing unit (CPU), 11 ... memory, 41 ... facial expression extraction unit, 42 ... facial expression synthesis unit, 43 ... adjustment ratio storage unit, 44 ... Image synthesizing unit, 411... Face area extracting unit, 412... Specific part extracting unit, 421... Normalizing unit, 422.
Claims (16)
通信中の非会話期間に前記被写体の顔を含む部位を撮像する過程と、
前記撮像された映像信号を、真顔を表す第1の映像信号として記憶する過程と、
通信中の会話期間に前記被写体の顔を含む部位を撮像して第2の映像信号を得る過程と、
前記会話期間に得られた第2の映像信号から、前記被写体の表情を表す特定部位における第1の部分映像信号を抽出する過程と、
前記抽出された第1の部分映像信号と、前記記憶された第1の映像信号中の前記特定部位に対応する第2の部分映像信号とを、前記設定された表情調整割合を表す情報に従い合成して第3の部分映像信号を生成する過程と、
前記生成された第3の部分映像信号と、前記第2の映像信号中の前記特定部位以外の部分映像信号とを合成して第3の映像信号を生成する過程と、
前記生成された第3の映像信号を送信する過程と
を具備することを特徴とする画像通信方法。 A process of setting information representing the expression adjustment ratio of the subject;
Imaging a part including the face of the subject during a non-conversational period during communication;
Storing the imaged video signal as a first video signal representing a true face;
Capturing a portion including the face of the subject during a conversation period during communication to obtain a second video signal;
Extracting a first partial video signal at a specific part representing the expression of the subject from the second video signal obtained during the conversation period;
The extracted first partial video signal and the second partial video signal corresponding to the specific part in the stored first video signal are combined according to the information representing the set facial expression adjustment ratio. And generating a third partial video signal,
Combining the generated third partial video signal and a partial video signal other than the specific part in the second video signal to generate a third video signal;
And a step of transmitting the generated third video signal.
前記第3の部分映像信号を生成する過程は、通信に際し使用される通信相手の識別情報をもとに、前記設定された複数の表情調整割合を表す情報の中から前記通信相手に対応する表情調整割合を表す情報を選択し、この選択された表情調整割合を表す情報に従い前記第1の部分映像信号と第2の部分映像信号とを合成することを特徴とする請求項1記載の映像通信方法。 The process of setting information representing the facial expression adjustment ratio sets information representing the facial expression adjustment ratio of the subject in association with each of a plurality of assumed communication partners,
In the process of generating the third partial video signal, a facial expression corresponding to the communication partner is selected from the plurality of facial expression adjustment ratios set based on identification information of the communication partner used in communication. 2. The video communication according to claim 1, wherein information representing an adjustment ratio is selected, and the first partial video signal and the second partial video signal are synthesized according to the information representing the selected facial expression adjustment ratio. Method.
通信中の非会話期間に前記被写体の顔を含む部位を撮像して得られる映像信号を、真顔を表す第1の映像信号として記憶する手段と、
通信中の会話期間に前記被写体の顔を含む部位を撮像して得られる第2の映像信号から、前記被写体の表情を表す特定部位における第1の部分映像信号を抽出する手段と、
前記抽出された第1の部分映像信号と、前記記憶された第1の映像信号中の前記特定部位に対応する第2の部分映像信号とを、前記メモリ手段に記憶された表情調整割合を表す情報に従い合成して第3の部分映像信号を生成する手段と、
前記生成された第3の部分映像信号と、前記第2の映像信号中の前記特定部位以外の部分映像信号とを合成して第3の映像信号を生成する手段と、
前記生成された第3の映像信号を送信する手段と
を具備することを特徴とする映像通信装置。 Memory means for storing information indicating the facial expression adjustment ratio of the subject;
Means for storing a video signal obtained by imaging a portion including the face of the subject during a non-conversation period during communication as a first video signal representing a true face;
Means for extracting a first partial video signal at a specific part representing the expression of the subject from a second video signal obtained by imaging a part including the face of the subject during a conversation period during communication;
The extracted first partial video signal and the second partial video signal corresponding to the specific part in the stored first video signal represent facial expression adjustment ratios stored in the memory means. Means for synthesizing according to the information to generate a third partial video signal;
Means for synthesizing the generated third partial video signal and a partial video signal other than the specific part in the second video signal to generate a third video signal;
And a means for transmitting the generated third video signal.
前記第3の部分映像信号を生成する手段は、通信に際し使用される通信相手の識別情報をもとに前記メモリ手段から前記通信相手に対応する表情調整割合を表す情報を選択的に読み出し、この読み出された表情調整割合を表す情報に従い前記第1の部分映像信号と第2の部分映像信号とを合成することを特徴とする請求項5記載の映像通信装置。 The memory means stores information representing a facial expression adjustment ratio of a subject in association with each of a plurality of possible communication partners,
The means for generating the third partial video signal selectively reads out information representing a facial expression adjustment ratio corresponding to the communication partner from the memory means based on the identification information of the communication partner used in communication. 6. The video communication apparatus according to claim 5, wherein the first partial video signal and the second partial video signal are synthesized in accordance with the information indicating the read facial expression adjustment ratio.
通信中の非会話期間に前記被写体の顔を含む部位を撮像して得られる映像信号を、真顔を表す第1の映像信号として記憶する処理と、
通信中の会話期間に前記被写体の顔を含む部位を撮像して得られる第2の映像信号から、前記被写体の表情を表す特定部位における第1の部分映像信号を抽出する処理と、
前記抽出された第1の部分映像信号と、前記記憶された第1の映像信号中の前記特定部位に対応する第2の部分映像信号とを、予め設定された表情調整割合を表す情報に従い合成して第3の部分映像信号を生成する処理と、
前記生成された第3の部分映像信号と、前記第2の映像信号中の前記特定部位以外の部分映像信号とを合成して第3の映像信号を生成し、この作成された第3の映像信号を前記送信映像信号として出力する処理と
を、前記コンピュータに実行させることを特徴とする映像作成プログラム。 A video creation program used in a video communication device for creating a transmission video signal by a computer based on a video signal obtained by imaging a subject and transmitting the created transmission video signal,
A process of storing a video signal obtained by imaging a portion including the face of the subject during a non-conversation period during communication as a first video signal representing a true face;
A process of extracting a first partial video signal at a specific part representing the expression of the subject from a second video signal obtained by imaging a part including the face of the subject during a conversation period during communication;
The extracted first partial video signal and the second partial video signal corresponding to the specific part in the stored first video signal are combined according to information representing a preset facial expression adjustment ratio. A process of generating a third partial video signal;
The generated third partial video signal and the partial video signal other than the specific part in the second video signal are combined to generate a third video signal, and the generated third video A video creation program that causes the computer to execute a process of outputting a signal as the transmission video signal.
通信中の非会話期間に前記被写体の顔を含む部位を撮像して得られる映像信号を、真顔を表す第1の映像信号として記憶する処理と、
通信中の会話期間に前記被写体の顔を含む部位を撮像して得られる第2の映像信号から、前記被写体の表情を表す特定部位における第1の部分映像信号を抽出する処理と、
前記抽出された第1の部分映像信号と、前記記憶された第1の映像信号中の前記特定部位に対応する第2の部分映像信号とを、予め設定された表情調整割合を表す情報に従い合成して第3の部分映像信号を生成する処理と、
前記生成された第3の部分映像信号と、前記第2の映像信号中の前記特定部位以外の部分映像信号とを合成して第3の映像信号を生成し、この作成された第3の映像信号を前記送信映像信号として出力する処理と
を、前記コンピュータに実行させる映像作成プログラムを記録した記録媒体。 A recording medium on which a transmission video signal is created by a computer based on a video signal obtained by imaging a subject and a video creation program used in a video communication apparatus for transmitting the created transmission video signal is recorded. ,
A process of storing a video signal obtained by imaging a portion including the face of the subject during a non-conversation period during communication as a first video signal representing a true face;
A process of extracting a first partial video signal at a specific part representing the expression of the subject from a second video signal obtained by imaging a part including the face of the subject during a conversation period during communication;
The extracted first partial video signal and the second partial video signal corresponding to the specific part in the stored first video signal are combined according to information representing a preset facial expression adjustment ratio. A process of generating a third partial video signal;
The generated third partial video signal and the partial video signal other than the specific part in the second video signal are combined to generate a third video signal, and the generated third video The recording medium which recorded the video production program which makes the said computer perform the process which outputs a signal as the said transmission video signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003386820A JP2005151231A (en) | 2003-11-17 | 2003-11-17 | Video communication method, video communication apparatus, video creation program used for apparatus, and recording medium with program recorded thereon |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003386820A JP2005151231A (en) | 2003-11-17 | 2003-11-17 | Video communication method, video communication apparatus, video creation program used for apparatus, and recording medium with program recorded thereon |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005151231A true JP2005151231A (en) | 2005-06-09 |
Family
ID=34694400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003386820A Pending JP2005151231A (en) | 2003-11-17 | 2003-11-17 | Video communication method, video communication apparatus, video creation program used for apparatus, and recording medium with program recorded thereon |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005151231A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100678208B1 (en) * | 2005-07-08 | 2007-02-02 | 삼성전자주식회사 | Method for saving and displaying image in wireless terminal |
JP2012142925A (en) * | 2010-12-16 | 2012-07-26 | Canon Inc | Image processing apparatus and image processing method |
US11182595B2 (en) * | 2019-08-08 | 2021-11-23 | Avaya Inc. | Optimizing interaction results using AI-guided manipulated video |
WO2022244146A1 (en) * | 2021-05-19 | 2022-11-24 | 日本電信電話株式会社 | Information processing device, motion transfer method, and program |
-
2003
- 2003-11-17 JP JP2003386820A patent/JP2005151231A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100678208B1 (en) * | 2005-07-08 | 2007-02-02 | 삼성전자주식회사 | Method for saving and displaying image in wireless terminal |
JP2012142925A (en) * | 2010-12-16 | 2012-07-26 | Canon Inc | Image processing apparatus and image processing method |
US8644614B2 (en) | 2010-12-16 | 2014-02-04 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
US11182595B2 (en) * | 2019-08-08 | 2021-11-23 | Avaya Inc. | Optimizing interaction results using AI-guided manipulated video |
WO2022244146A1 (en) * | 2021-05-19 | 2022-11-24 | 日本電信電話株式会社 | Information processing device, motion transfer method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200065526A1 (en) | Systems and methods for detecting modifications in a video clip | |
US9792490B2 (en) | Systems and methods for enhancement of facial expressions | |
US9414013B2 (en) | Displaying participant information in a videoconference | |
US20080235724A1 (en) | Face Annotation In Streaming Video | |
US8125509B2 (en) | Facial recognition for a videoconference | |
US8120638B2 (en) | Speech to text conversion in a videoconference | |
CN116320263A (en) | Image processing apparatus, camera apparatus, and image processing method | |
JP2007280291A (en) | Electronic camera | |
JP2005020385A (en) | Image pickup device, image recorder and image recording method | |
CN110691204B (en) | Audio and video processing method and device, electronic equipment and storage medium | |
JP2006262484A (en) | Method and apparatus for composing images during video communication | |
JP2016046705A (en) | Conference record editing apparatus, method and program for the same, conference record reproduction apparatus, and conference system | |
US20160189413A1 (en) | Image creation method, computer-readable storage medium, and image creation apparatus | |
US20180268819A1 (en) | Communication terminal, communication method, and computer program product | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
WO2021057957A1 (en) | Video call method and apparatus, computer device and storage medium | |
JP2005151231A (en) | Video communication method, video communication apparatus, video creation program used for apparatus, and recording medium with program recorded thereon | |
US20170163887A1 (en) | Image processing apparatus, image processing method, and program | |
JP2017059121A (en) | Image management device, image management method and program | |
JP2000261774A (en) | Method for segmenting and transmitting portrait | |
US20180288373A1 (en) | Treatment method for doorbell communication | |
JP2019176375A (en) | Moving image output apparatus, moving image output method, and moving image output program | |
JP2003061098A (en) | Image processor, image processing method, recording medium and program | |
JP2023072567A (en) | Live distribution system, method for live distribution, and live distribution program | |
JP2008160667A (en) | Communication conference device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060404 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081021 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090310 |