JP7442107B2 - Video playback device, video playback method, and video distribution system - Google Patents

Video playback device, video playback method, and video distribution system Download PDF

Info

Publication number
JP7442107B2
JP7442107B2 JP2022202318A JP2022202318A JP7442107B2 JP 7442107 B2 JP7442107 B2 JP 7442107B2 JP 2022202318 A JP2022202318 A JP 2022202318A JP 2022202318 A JP2022202318 A JP 2022202318A JP 7442107 B2 JP7442107 B2 JP 7442107B2
Authority
JP
Japan
Prior art keywords
posture
video
user
data
animation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022202318A
Other languages
Japanese (ja)
Other versions
JP2023036760A (en
Inventor
暁彦 白井
洋典 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GREE Inc
Original Assignee
GREE Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2020116421A external-priority patent/JP6945693B2/en
Application filed by GREE Inc filed Critical GREE Inc
Priority to JP2022202318A priority Critical patent/JP7442107B2/en
Publication of JP2023036760A publication Critical patent/JP2023036760A/en
Application granted granted Critical
Publication of JP7442107B2 publication Critical patent/JP7442107B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)

Description

本明細書における開示は、主に、動画再生装置、動画再生方法、及び動画配信システム
に関する。
The disclosure herein mainly relates to a video playback device, a video playback method, and a video distribution system.

動画を視聴する視聴ユーザがアバタを用いて当該動画に参加することができる動画配信システムが知られている。例えば、特開2012-120098号公報(特許文献1)には、配信されている動画に視聴ユーザのアバタを含めることが記載されている。 2. Description of the Related Art A video distribution system is known in which a viewing user who views a video can participate in the video using an avatar. For example, Japanese Unexamined Patent Publication No. 2012-120098 (Patent Document 1) describes including the avatar of a viewing user in a distributed video.

特開2012-120098号公報Japanese Patent Application Publication No. 2012-120098

動画を配信する動画配信サービスにおいては、視聴ユーザからのフィードバックを配信されている動画に反映することで視聴ユーザのエンゲージメントを高めることができる。例えば、上記特許文献1には、視聴ユーザからのコメントを当該視聴ユーザのアバタと関連付けて表示することが記載されている。この特許文献1のシステムでは、視聴ユーザは、コメントを投稿するという方法で配信されている動画へのフィードバックを提供しており、このフィードバックが配信されている動画に反映されている。 In a video distribution service that distributes videos, it is possible to increase the engagement of viewing users by reflecting feedback from viewing users in the videos being distributed. For example, Patent Document 1 described above describes displaying comments from a viewing user in association with the avatar of the viewing user. In the system of Patent Document 1, viewing users provide feedback to the distributed video by posting comments, and this feedback is reflected in the distributed video.

視聴ユーザからのコメントだけでなく視聴ユーザの動作に応じて動くアバタのアニメーションを配信コンテンツに含めることができれば、視聴ユーザのエンゲージメントをさらに高めることができると考えられる。しかしながら、視聴ユーザの動作に応じてアバタを動かすためには、当該視聴ユーザの動画再生装置から動画を生成する動画生成装置に対して、当該視聴ユーザの動作を示すモーションデータをリアルタイムで送信することが必要となる。アバタにユーザの動作を反映した動きを行わせるためには、当該ユーザの動作を示すモーションデータに当該ユーザのボーンの位置及び向きを示すボーンデータを含める必要がある。ボーンの位置及び向きは、3次元ベクトルで表現される。人体の動きを表現するためには、20本以上のボーンのボーンデータが必要となることもある。 If the distributed content can include an animation of an avatar that moves in response to not only comments from the viewing user but also the actions of the viewing user, it is possible to further increase the engagement of the viewing user. However, in order to move the avatar according to the actions of the viewing user, motion data indicating the actions of the viewing user must be sent in real time from the video playback device of the viewing user to a video generation device that generates the video. Is required. In order to cause the avatar to perform movements that reflect the user's actions, it is necessary to include bone data that indicates the positions and orientations of the user's bones in the motion data that indicates the user's actions. The position and orientation of bones are expressed as three-dimensional vectors. In order to express the movement of a human body, bone data for 20 or more bones may be required.

以上のように、ボーンデータのデータ量が大きいため、伝送路の帯域や輻輳の程度によっては、視聴ユーザの姿勢を示すボーンデータを含むモーションデータを遅延なく伝送することは難しい。特に、ユーザ装置からの上り回線は、コンテンツ配信に利用される下り回線よりも伝送容量が小さいため、上り回線を使ってのボーンデータの伝送には遅延が発生しやすい。その結果、視聴ユーザから送信されるボーンデータに基づいて視聴ユーザの動作をリアルタイムで反映したアバタのアニメーションを生成し、その生成したアニメーションを配信中の動画に含めることは難しい。 As described above, since the amount of bone data is large, it is difficult to transmit motion data including bone data indicating the posture of the viewing user without delay depending on the bandwidth of the transmission path and the degree of congestion. In particular, since the uplink from the user equipment has a smaller transmission capacity than the downlink used for content distribution, delays are likely to occur in the transmission of bone data using the uplink. As a result, it is difficult to generate an avatar animation that reflects the actions of the viewing user in real time based on bone data sent from the viewing user, and to include the generated animation in the video being distributed.

配信中の動画に視聴ユーザがアバタで参加する場合だけでなく、ユーザ同士が自らの動きに応じて動くアバタを介してコミュニケーションを行うシステムにおいても各ユーザのボーンデータを相手ユーザの装置に送信する必要がある。よって、ユーザ同士が自らの動きに応じて動くアバタを介してコミュニケーションを行うシステムにおいては、伝送路において遅延が発生した場合に各ユーザの動作を反映して滑らかに動くアバタのアニメーションを生成することは難しい。 The bone data of each user is sent to the other user's device not only when viewing users participate in the video being distributed as avatars, but also in systems where users communicate through avatars that move according to their own movements. There is a need. Therefore, in a system where users communicate through avatars that move according to their movements, it is necessary to generate animations of avatars that move smoothly and reflect the movements of each user when a delay occurs in the transmission path. is difficult.

本開示の目的は、上述した従来技術の問題の少なくとも一部を解決又は緩和する技術的な改善を提供することである。 It is an objective of the present disclosure to provide technical improvements that solve or alleviate at least some of the problems of the prior art described above.

本発明のより具体的な目的の一つは、従来よりも少ないデータ量の情報に基づいてユーザの姿勢に関連するアバタのアニメーションを生成できるようにすることである。 One of the more specific objectives of the present invention is to make it possible to generate an avatar animation related to the user's posture based on information with a smaller amount of data than before.

本明細書の開示の上記以外の目的は、本明細書全体を参照することにより明らかになる。本明細書に開示される発明は、上記の課題に代えて又は上記の課題に加えて、本明細書の発明を実施するための形態の記載から把握される課題を解決するものであってもよい。 Other objects of the disclosure herein will become apparent upon reference to the specification as a whole. The invention disclosed in this specification may solve the problems understood from the description of the mode for carrying out the invention in this specification, instead of or in addition to the above problems. good.

一態様による動画再生装置は、一又は複数のコンピュータプロセッサを備え、前記一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、動画配信装置から受信した動画を再生し、ユーザの姿勢の特徴を表す姿勢特徴量を含むモーションデータを前記動画配信装置に送信し、前記動画配信装置から前記姿勢特徴量に基づいて生成された前記ユーザのアバタのアニメーションを含む動画を受信し、前記姿勢特徴量に基づいて前記ユーザの姿勢を分類する分類器により前記ユーザの姿勢が予め定められた基準姿勢に属するか否かを判定し、前記モーションデータの前記動画配信装置への伝送に遅延が発生している間に、前記ユーザの姿勢が属すると判定された前記基準姿勢を識別し前記姿勢特徴量よりも少ないデータ量の基準姿勢識別データを前記動画配信装置に送信する。 A video playback device according to one aspect includes one or more computer processors, and the one or more computer processors play the video received from the video distribution device by executing computer-readable instructions, and the one or more computer processors play the video received from the video distribution device, and transmitting motion data including a posture feature amount representing a feature of the posture to the video distribution device; receiving a video including an animation of the user's avatar generated based on the posture feature amount from the video distribution device; A classifier that classifies the user's posture based on posture features determines whether the user's posture belongs to a predetermined reference posture, and there is a delay in transmitting the motion data to the video distribution device. While this is occurring, the reference posture to which the user's posture is determined to belong is identified, and reference posture identification data having a data amount smaller than the posture feature amount is transmitted to the video distribution device.

一態様による動画再生装置において、前記分類器は、前記ユーザの姿勢が前記基準姿勢と合致するか否かを、前記姿勢特徴量を変数として評価関数に基づいて判定する。 In the video playback device according to one aspect, the classifier determines whether the user's posture matches the reference posture based on an evaluation function using the posture feature amount as a variable.

一態様における動画再生装置は、前記基準姿勢を表す画像を前記ユーザに提示し、提示された前記画像に対して前記ユーザが取った姿勢を表す姿勢特徴量を教師データとして学習することにより前記分類器を作成する。 In one aspect, the video playback device presents the user with an image representing the reference posture, and learns, as training data, a posture feature amount representing the posture taken by the user with respect to the presented image. Create a vessel.

一態様における動画再生装置においては、前記ユーザのアバタについて一又は複数の登録アニメーションが登録されている。一態様における動画再生装置は、前記遅延が発生している間に前記基準姿勢識別データに基づいて特定された前記基準姿勢に対応する前記登録アニメーションを含む動画を受信する。 In one aspect of the video playback device, one or more registered animations are registered for the user's avatar. In one aspect, the video playback device receives a video including the registered animation corresponding to the reference posture specified based on the reference posture identification data while the delay is occurring.

一態様における動画再生装置は、時系列に取得された前記姿勢特徴量に基づいて前記アバタのユーザアニメーションを生成し、前記ユーザアニメーションを前記登録アニメーションとして登録し、前記ユーザアニメーションを含むサンプル動画を生成し、前記サンプル動画を構成する複数のフレームの中から選択された基準フレームの画像に基づいて前記ユーザアニメーションに対応する前記基準姿勢を決定する。 In one aspect, the video playback device generates a user animation of the avatar based on the posture feature acquired in time series, registers the user animation as the registered animation, and generates a sample video including the user animation. Then, the reference posture corresponding to the user animation is determined based on an image of a reference frame selected from a plurality of frames constituting the sample video.

一態様における動画再生装置は、所定のフレームレートに基づいて前記ユーザに関する複数の特徴点の各々において前記ユーザに関する前記姿勢特徴量を算出し、第1フレームにおいて前記複数の特徴点の各々における前記姿勢特徴量の二乗平均平方根である第1RMSを算出し、前記第1フレームよりも時系列的に後の第2フレームにおいて前記複数の特徴点の各々における前記姿勢特徴量の二乗平均平方根である第2RMSを算出し、前記第2フレームよりも時系列的に後の第3フレームにおいて前記複数の特徴点の各々における前記姿勢特徴量の二乗平均平方根である第3RMSを算出し、前記第2RMSと前記第1RMSとの差である第1RMS差の正負と前記第3RMSと前記第2RMSとの差である第2RMS差の正負とが逆転した場合に、前記第3フレームにおける前記姿勢特徴量に基づいて前記ユーザアニメーションに対応する前記基準姿勢を決定する。 In one aspect, the video playback device calculates the posture feature amount regarding the user at each of a plurality of feature points regarding the user based on a predetermined frame rate, and calculates the posture feature amount at each of the plurality of feature points in a first frame. A first RMS that is the root mean square of the feature amount is calculated, and a second RMS that is the root mean square of the posture feature amount at each of the plurality of feature points in a second frame chronologically later than the first frame. A third RMS, which is the root mean square of the posture feature at each of the plurality of feature points, is calculated in a third frame chronologically later than the second frame, and the second RMS and the third RMS are calculated. When the sign of the first RMS difference, which is the difference from the 1RMS, and the sign of the second RMS difference, which is the difference between the third RMS and the second RMS, are reversed, the user The reference posture corresponding to the animation is determined.

一態様における動画再生装置は、前記ユーザアニメーションに対する前記ユーザの動きに基づいて時系列に取得された前記姿勢特徴量を含む第1評価データと、前記ユーザアニメーションに対する前記ユーザの他の動きに基づいて時系列に取得された前記姿勢特徴量を含む第2評価データと、を比較することで前記ユーザアニメーションに対応する前記基準姿勢を決定する。 In one aspect, the video playback device includes first evaluation data including the posture feature acquired in time series based on the user's movement with respect to the user animation, and based on other movements of the user with respect to the user animation. The reference posture corresponding to the user animation is determined by comparing the second evaluation data including the posture feature amount acquired in time series.

一態様において、前記姿勢特徴量は、前記ユーザのボーンの位置及び向きを3次元ベクトルで表すボーンデータを含む。 In one aspect, the posture feature amount includes bone data that represents the position and orientation of the user's bones as a three-dimensional vector.

一態様において、前記モーションデータは、前記ユーザの顔の特徴を表す顔特徴量を含む。一態様における動画再生装置は、前記顔特徴量に基づいて前記ユーザの表情を分類する他の分類器により前記ユーザの表情が予め定められた基準表情に属するか否かを判定し、前記遅延が発生している間に、前記ユーザの表情が属すると判定された前記基準表情を識別し前記顔特徴量よりも少ないデータ量の基準表情識別データを前記動画配信装置に送
信する。
In one aspect, the motion data includes facial feature amounts representing facial features of the user. In one aspect, the video playback device determines whether the user's facial expression belongs to a predetermined reference facial expression using another classifier that classifies the user's facial expression based on the facial feature amount, and the video playback device determines whether the user's facial expression belongs to a predetermined reference facial expression, and While the expression is being generated, the reference expression to which it is determined that the user's expression belongs is identified, and reference expression identification data having a data amount smaller than the facial feature amount is transmitted to the video distribution device.

一態様において、前記基準姿勢識別データは、前記遅延が発生している間に前記モーションデータに代えて送信される。 In one aspect, the reference posture identification data is transmitted in place of the motion data while the delay occurs.

一態様において、前記モーションデータはリアルタイムで送信される。 In one aspect, the motion data is transmitted in real time.

一態様による動画配信システムは、一又は複数のコンピュータプロセッサを備え、ユーザのアバタを含む動画を前記ユーザの動画再生装置に配信する。当該一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、前記動画再生装置から伝送路を介して前記ユーザの姿勢を表す姿勢特徴量を含むモーションデータを受信し、前記姿勢特徴量に基づいて生成された前記ユーザのアバタのアニメーションを前記動画に含めて配信し、前記姿勢特徴量に基づいて前記ユーザの姿勢を分類する分類器により前記ユーザの姿勢が基準姿勢に属すると判定された場合、前記モーションデータの前記動画配信装置への伝送に遅延が発生している間に、前記基準姿勢を識別し前記姿勢特徴量よりも少ないデータ量の基準姿勢識別データを前記動画再生装置から受信し、前記基準姿勢識別データに基づいて生成された前記ユーザのアバタの登録アニメーションを前記動画に含めて配信する。 A video distribution system according to one aspect includes one or more computer processors and distributes a video including a user's avatar to the user's video playback device. The one or more computer processors execute computer-readable instructions to receive motion data including posture features representing the user's posture from the video playback device via the transmission path, and to determine the posture features. An animation of the user's avatar generated based on the amount is included in the video and distributed, and a classifier that classifies the user's posture based on the posture feature determines that the user's posture belongs to a reference posture. In this case, while there is a delay in transmitting the motion data to the video distribution device, the reference posture is identified and the reference posture identification data having a data amount smaller than the posture feature amount is transmitted to the video playback device. A registered animation of the user's avatar generated based on the reference posture identification data is included in the video and distributed.

一態様による動画再生方法は、一又は複数のコンピュータプロセッサがコンピュータ読み取り可能な命令を実行することにより実行される。当該方法は、動画配信装置から受信した動画を再生する工程と、ユーザの姿勢を表す姿勢特徴量を含むモーションデータを前記動画配信装置に送信する工程と、前記動画配信装置から前記姿勢特徴量に基づいて生成された前記ユーザのアバタのアニメーションを含む動画を受信する工程と、前記姿勢特徴量に基づいて前記ユーザの姿勢を分類する分類器により前記ユーザの姿勢が予め定められた基準姿勢に属するか否かを判定する工程と、前記モーションデータの前記動画配信装置への伝送に遅延が発生している間に、前記ユーザの姿勢が属すると判定された前記基準姿勢を識別し前記姿勢特徴量よりも少ないデータ量の基準姿勢識別データを前記動画配信装置に送信する工程と、を備える。 A video playback method according to one aspect is performed by one or more computer processors executing computer-readable instructions. The method includes a step of playing a video received from a video distribution device, a step of transmitting motion data including a posture feature representing a user's posture to the video distribution device, and a step of transmitting motion data including a posture feature representing a user's posture from the video distribution device to the posture feature. the user's posture belongs to a predetermined reference posture by a classifier that classifies the user's posture based on the posture feature amount; and identifying the reference posture to which it is determined that the posture of the user belongs and determining the posture feature amount while there is a delay in transmitting the motion data to the video distribution device. and transmitting reference posture identification data having a smaller amount of data than the video distribution device.

本発明の一態様による動画再生装置は、所定のフレームレートに基づいて前記動画再生装置のユーザに関する複数の特徴点の各々において前記ユーザに関する姿勢特徴量を算出し、第1フレームにおいて前記複数の特徴点の各々における前記姿勢特徴量の二乗平均平方根である第1RMSを算出し、前記第1フレームよりも時系列的に後の第2フレームにおいて前記複数の特徴点の各々における前記姿勢特徴量の二乗平均平方根である第2RMSを算出し、前記第2RMSと前記第1RMSとの差であるRMS差を算出し、前記RMS差が所定の閾値よりも大きい場合に動画配信装置に対して前記第2フレームにおける前記姿勢特徴量を送信し、前記動画配信装置から前記姿勢特徴量に基づいて生成された前記ユーザのアバタのアニメーションを含む動画を受信し、前記動画を再生する。 A video playback device according to one aspect of the present invention calculates a posture feature amount related to the user at each of a plurality of feature points related to the user of the video playback device based on a predetermined frame rate, and A first RMS, which is the root mean square of the posture feature at each point, is calculated, and the square of the posture feature at each of the plurality of feature points is calculated in a second frame chronologically later than the first frame. A second RMS that is the mean square root is calculated, an RMS difference that is the difference between the second RMS and the first RMS is calculated, and when the RMS difference is larger than a predetermined threshold, the second frame is sent to the video distribution device. transmitting the posture feature amount, receiving a video including an animation of the user's avatar generated based on the posture feature amount from the video distribution device, and playing the video.

本発明の一態様による動画再生装置は、所定のフレームレートに基づいて前記動画再生装置のユーザに関する複数の特徴点の各々において前記ユーザに関する姿勢特徴量を算出し、第1フレームにおいて前記複数の特徴点の各々における前記姿勢特徴量の二乗平均平方根である第1RMSを算出し、前記第1フレームよりも時系列的に後の第2フレームにおいて前記複数の特徴点の各々における前記姿勢特徴量の二乗平均平方根である第2RMSを算出し、前記第2フレームよりも時系列的に後の第3フレームにおいて前記複数の特徴点の各々における前記姿勢特徴量の二乗平均平方根である第3RMSを算出し、前記第2RMSと前記第1RMSとの差である第1RMS差の正負と前記第3RMSと前記第2RMSとの差である第2RMS差の正負とが逆転した場合に、前記第3フレームにおける前記姿勢特徴量を送信し、前記動画配信装置から前記姿勢特徴量に基づいて生成された前記ユーザのアバタのアニメーションを含む動画を受信し、前記動画を再生する。 A video playback device according to one aspect of the present invention calculates a posture feature amount related to the user at each of a plurality of feature points related to the user of the video playback device based on a predetermined frame rate, and A first RMS, which is the root mean square of the posture feature at each point, is calculated, and the square of the posture feature at each of the plurality of feature points is calculated in a second frame chronologically later than the first frame. calculating a second RMS that is the root mean square, and calculating a third RMS that is the root mean square of the posture feature amount at each of the plurality of feature points in a third frame chronologically later than the second frame; When the sign of the first RMS difference, which is the difference between the second RMS and the first RMS, and the sign of the second RMS difference, which is the difference between the third RMS and the second RMS, are reversed, the posture characteristic in the third frame and receives a video including an animation of the user's avatar generated based on the posture feature from the video distribution device, and plays the video.

実施形態によれば、従来よりも少ないデータ量の情報に基づいてユーザの姿勢に関連するアバタのアニメーションを生成できる。 According to the embodiment, it is possible to generate an avatar animation related to the user's posture based on information with a smaller amount of data than before.

一実施形態による動画配信システムを示すブロック図である。FIG. 1 is a block diagram illustrating a video distribution system according to an embodiment. 3次元骨格モデルを概念的に示す図である。FIG. 2 is a diagram conceptually showing a three-dimensional skeletal model. 図1の動画配信システムにおいて記憶される基準姿勢管理データを説明する図である。2 is a diagram illustrating reference posture management data stored in the video distribution system of FIG. 1. FIG. 開始姿勢に対応する3次元骨格モデルを概念的に示す図である。FIG. 2 is a diagram conceptually showing a three-dimensional skeletal model corresponding to a starting posture. トリガー姿勢に対応する3次元骨格モデルを概念的に示す図である。FIG. 3 is a diagram conceptually showing a three-dimensional skeletal model corresponding to a trigger posture. 図1の動画配信システムにおいて記憶されるアバタデータを説明する図である。2 is a diagram illustrating avatar data stored in the video distribution system of FIG. 1. FIG. 図1の動画配信システムにおいて記憶されるアニメーション管理データを説明する図である。2 is a diagram illustrating animation management data stored in the video distribution system of FIG. 1. FIG. 撮像画像を構成するフレームを模式的に示す図である。FIG. 3 is a diagram schematically showing frames forming a captured image. 各フレームにおける複数の特徴点における特徴量及びそのRMSの例を示す表である。It is a table showing an example of the feature amount and its RMS at a plurality of feature points in each frame. 一実施形態において動画再生装置10に表示される動画の例を示す図である。FIG. 2 is a diagram illustrating an example of a video displayed on the video playback device 10 in an embodiment. 一実施形態において動画再生装置10に表示される動画の例を示す図である。FIG. 2 is a diagram illustrating an example of a video displayed on the video playback device 10 in an embodiment. 一実施形態における動画再生方法における処理の一部の流れを示すフロー図である。FIG. 2 is a flowchart showing a part of the process in a video playback method according to an embodiment. 他の実施形態による動画配信システムを示すブロック図である。FIG. 2 is a block diagram showing a video distribution system according to another embodiment. 図11に示す動画配信システムにおいて記憶される基準表情管理データを説明する図である。12 is a diagram illustrating reference facial expression management data stored in the video distribution system shown in FIG. 11. FIG. 図11に示す動画配信システムにおいて記憶される登録表情管理データを説明する図である。12 is a diagram illustrating registered facial expression management data stored in the video distribution system shown in FIG. 11. FIG. 他の実施形態による動画配信システムを示すブロック図である。FIG. 2 is a block diagram showing a video distribution system according to another embodiment. 他の実施形態による動画配信システムを示すブロック図である。FIG. 2 is a block diagram showing a video distribution system according to another embodiment. 各フレームにおける複数の特徴点における特徴量の例を示す表である。3 is a table showing an example of feature amounts at a plurality of feature points in each frame.

以下、図面を適宜参照し、本発明の様々な実施形態を説明する。複数の図面において同一の又は類似する構成要素には同じ参照符号が付される。 Hereinafter, various embodiments of the present invention will be described with appropriate reference to the drawings. Identical or similar components in multiple drawings are provided with the same reference numerals.

図1から図6を参照して、一実施形態による動画配信システムについて説明する。図1は、一実施形態による動画配信システム1を示すブロック図である、図2、図4a、及び図4bは、3次元骨格モデルを概念的に示す図であり、図3、図5、及び図6は、動画配信システム1において記憶される情報を説明するための図である。 A video distribution system according to an embodiment will be described with reference to FIGS. 1 to 6. FIG. 1 is a block diagram showing a video distribution system 1 according to an embodiment. FIGS. 2, 4a, and 4b are diagrams conceptually showing a three-dimensional skeleton model, and FIGS. FIG. 6 is a diagram for explaining information stored in the video distribution system 1.

動画配信システム1は、動画再生装置10と、動画配信装置20と、を備える。動画再生装置10と動画配信装置20とは、ネットワーク50を介して相互に通信可能に接続されている。動画配信システム1は、ストレージ60を備えてもよい。動画再生装置10のユーザである視聴ユーザは、動画配信装置20から配信された動画を動画再生装置10により視聴することができる。動画配信システム1は、2台以上の動画再生装置を備えていてもよい。動画配信装置20から配信される動画を動画再生装置10で視聴する視聴ユーザは、自らのアバタを当該動画に表示させることができる。言い換えると、視聴ユーザは、自らのアバタを介して配信されている動画に参加することができる。視聴ユーザは、配信されている動画に自らのアバタを表示させ、そのアバタを介して動画の配信ユーザ(又は配信されている動画内のキャラクタ)や他の視聴ユーザと交流することができる。 The video distribution system 1 includes a video playback device 10 and a video distribution device 20. The video playback device 10 and the video distribution device 20 are connected to each other via a network 50 so that they can communicate with each other. The video distribution system 1 may include a storage 60. A viewing user who is a user of the video playback device 10 can view the video distributed from the video distribution device 20 using the video playback device 10 . The video distribution system 1 may include two or more video playback devices. A viewing user who views a video distributed from the video distribution device 20 using the video playback device 10 can have his or her avatar displayed on the video. In other words, viewing users can participate in the video being distributed via their own avatars. Viewing users can have their own avatars displayed on the video being distributed, and can interact with the video distribution users (or characters in the video being distributed) and other viewing users via the avatars.

まず、動画再生装置10について説明する。動画再生装置10は、スマートフォンなどの情報処理装置である。動画再生装置10は、スマートフォン以外に、携帯電話機、タブレット端末、パーソナルコンピュータ、電子書籍リーダー、ウェアラブルコンピュータ、ゲーム用コンソール、及びこれら以外の動画を再生可能な各種情報処理装置であってもよい。 First, the video playback device 10 will be explained. The video playback device 10 is an information processing device such as a smartphone. In addition to a smartphone, the video playback device 10 may be a mobile phone, a tablet terminal, a personal computer, an electronic book reader, a wearable computer, a game console, or any other information processing device capable of playing back videos.

動画再生装置10は、視聴ユーザによって動画の視聴及びそれ以外の目的のために用いられる。動画再生装置10は、コンピュータプロセッサ11、通信I/F12、各種情報を記憶するストレージ13、再生される動画を表示するディスプレイ14、及びセンサユニット15、を備える。動画配信装置10は、集音マイク等の前記以外の構成要素を備えてもよい。動画再生装置10は、動画配信装置20から配信された動画を再生する。 The video playback device 10 is used by viewing users for video viewing and other purposes. The video playback device 10 includes a computer processor 11, a communication I/F 12, a storage 13 that stores various information, a display 14 that displays the video to be played, and a sensor unit 15. The video distribution device 10 may include components other than those described above, such as a sound collecting microphone. The video playback device 10 plays back the video distributed from the video distribution device 20.

コンピュータプロセッサ11は、ストレージ13又はそれ以外のストレージからオペレーティングシステムや様々な機能を実現する様々なプログラムをメモリにロードし、ロードしたプログラムに含まれる命令を実行する演算装置である。コンピュータプロセッサ11は、例えば、CPU、MPU、DSP、GPU、これら以外の各種演算装置、又はこれらの組み合わせである。コンピュータプロセッサ11は、ASIC、PLD、FPGA、MCU等の集積回路により実現されてもよい。図1においては、コンピュータプロセッサ11が単一の構成要素として図示されているが、コンピュータプロセッサ11は複数の物理的に別体のコンピュータプロセッサの集合であってもよい。本明細書において、コンピュータプロセッサ11によって実行されるとして説明されるプログラム又は当該プログラムに含まれる命令は、単一のコンピュータプロセッサで実行されてもよいし、複数のコンピュータプロセッサにより分散して実行されてもよい。また、コンピュータプロセッサ11によって実行されるプログラム又は当該プログラムに含まれる命令は、複数の仮想コンピュータプロセッサにより実行されてもよい。コンピュータプロセッサ11により実現される機能については後述する。 The computer processor 11 is an arithmetic device that loads an operating system and various programs that implement various functions into memory from the storage 13 or other storage, and executes instructions included in the loaded programs. The computer processor 11 is, for example, a CPU, MPU, DSP, GPU, various other arithmetic devices, or a combination thereof. The computer processor 11 may be realized by an integrated circuit such as an ASIC, PLD, FPGA, or MCU. Although computer processor 11 is illustrated as a single component in FIG. 1, computer processor 11 may be a collection of multiple physically separate computer processors. In this specification, a program described as being executed by the computer processor 11 or instructions included in the program may be executed by a single computer processor, or may be executed in a distributed manner by a plurality of computer processors. Good too. Further, the program executed by the computer processor 11 or the instructions included in the program may be executed by a plurality of virtual computer processors. The functions realized by the computer processor 11 will be described later.

通信I/F12は、ハードウェア、ファームウェア、又はTCP/IPドライバやPPPドライバ等の通信用ソフトウェア又はこれらの組み合わせとして実装される。動画再生装置10は、通信I/F12を介して、他の装置とデータを送受信することができる。 The communication I/F 12 is implemented as hardware, firmware, communication software such as a TCP/IP driver or a PPP driver, or a combination thereof. The video playback device 10 can send and receive data to and from other devices via the communication I/F 12.

ストレージ13は、コンピュータプロセッサ11によりアクセスされる記憶装置である。ストレージ13は、例えば、磁気ディスク、光ディスク、半導体メモリ、又はデータを記憶可能な前記以外の各種記憶装置である。ストレージ13には、様々なプログラムが記憶され得る。ストレージ13に記憶され得るプログラム及び各種データの少なくとも一部は、動画再生装置10とは物理的に別体のストレージ(例えば、ストレージ60)に格納されてもよい。 Storage 13 is a storage device accessed by computer processor 11 . The storage 13 is, for example, a magnetic disk, an optical disk, a semiconductor memory, or various other storage devices capable of storing data. Various programs can be stored in the storage 13. At least some of the programs and various data that can be stored in the storage 13 may be stored in a storage that is physically separate from the video playback device 10 (for example, the storage 60).

ディスプレイ14は、表示パネルと、タッチパネルと、を有する。表示パネルは、液晶パネル、有機ELパネル、無機ELパネル、又はこれら以外の画像を表示可能な任意の表示パネルである。タッチパネルは、プレイヤのタッチ操作(接触操作)を検出することができるように構成されている。タッチパネルは、プレイヤのタップ、ダブルタップ、ドラッグ等の各種タッチ操作を検出することができる。タッチパネルは、静電容量式の近接センサを備え、プレイヤの非接触操作を検出可能に構成されてもよい。動画配信装置20から配信された動画は、ディスプレイ14に表示される。 Display 14 includes a display panel and a touch panel. The display panel is a liquid crystal panel, an organic EL panel, an inorganic EL panel, or any other display panel capable of displaying images. The touch panel is configured to be able to detect a touch operation (contact operation) by a player. The touch panel can detect various touch operations such as tap, double tap, and drag by the player. The touch panel may include a capacitive proximity sensor and be configured to be able to detect a non-contact operation by the player. The video distributed from the video distribution device 20 is displayed on the display 14.

センサユニット15は、動画再生装置10のユーザの姿勢を検出する一又は複数のセンシングデバイスを備える。このセンシングデバイスには、RGBカメラ、深度センサ、及びこれら以外のユーザの姿勢を検出可能なデバイスが含まれてもよい。センサユニット15は、コンピュータプロセッサを含んでもよい。センサユニット15のコンピュータプロセッサは、センシングデバイスによって取得されたデータを解析することで、ユーザの姿勢を表す3次元骨格データを生成してもよい。センサユニット15に備えられるコンピュータプロセッサは、専用ソフトウェアを実行することで3次元骨格データを生成してもよい。センサユニット15により検出されるユーザの姿勢を表す3次元骨格データは、特許請求の範囲に記載されている「姿勢特徴量」の一例である。センサユニット15は、Microsoft Corporationが提供するkinect(商標)のようにLight Coding技術を用いて3次元骨格データを生成してもよい。つまり、センサユニット15は、赤外線のランダムパターンをユーザ等の対象に照射し、その画像を解析することによって対象の深度を取得し、当該深度を解析することで3次元骨格データを生成してもよい。Light Coding技術を用いて検出されるユーザの姿勢を表す特徴量は3次元骨格データには限られず、それ以外のユーザの姿勢を表す特徴量が用いられ得る。 The sensor unit 15 includes one or more sensing devices that detect the posture of the user of the video playback device 10. This sensing device may include an RGB camera, a depth sensor, and other devices capable of detecting the posture of the user. Sensor unit 15 may include a computer processor. The computer processor of the sensor unit 15 may generate three-dimensional skeletal data representing the user's posture by analyzing the data acquired by the sensing device. A computer processor included in the sensor unit 15 may generate three-dimensional skeletal data by executing dedicated software. The three-dimensional skeleton data representing the user's posture detected by the sensor unit 15 is an example of the "posture feature amount" described in the claims. The sensor unit 15 may generate three-dimensional skeleton data using Light Coding technology such as Kinect (trademark) provided by Microsoft Corporation. In other words, the sensor unit 15 irradiates a random pattern of infrared rays onto a target such as a user, acquires the depth of the target by analyzing the image, and generates three-dimensional skeletal data by analyzing the depth. good. The feature quantity representing the user's posture detected using the Light Coding technique is not limited to three-dimensional skeleton data, and other feature quantities representing the user's posture may be used.

3次元骨格データは、人体又は人体の一部を3次元骨格モデルで表現するためのデータである。3次元骨格モデルは、人体の骨の軸線に相当する複数のボーンと各ボーンを接続する複数の関節とによって、人体又は人体の一部の骨格をモデリングする。図2を参照して3次元骨格モデルについてさらに説明する。図2は、3次元骨格モデルの概念を説明するための説明図である。図2に示されている例では、3次元骨格モデル100は、8本のボーンと、これらのボーンを接続する関節と、を含む。3次元骨格モデルのボーンは、3次元座標上の2点を結ぶ線分として表される。よって、各ボーンは、3次元空間(XYZ空間)において各ボーンに相当する有効線分を表す3次元ベクトルV1~V8で表現される。3次元骨格モデルを構成する3次元骨格モデルは、当該3次元モデルに含まれるボーンの各々を表す3次元ベクトルを含む。図2には、人体の上半身の3次元骨格モデルが示されているが、3次元骨格モデルは、人体の全部の骨格をモデリングしたものであってもよいし、人体の上半身以外の一部(例えば、腕、下半身など)をモデリングしたものであってもよい。また、図2の例では、人体の上半身を8本のボーンで表現しているが、人体の上半身は8本より多い数又は少ない数のボーンで表現されてもよい。より多い数のボーンを含む3次元骨格モデルは、指の骨を表すボーンを含んでもよい。これにより、指の動きを検出することもできる。 Three-dimensional skeletal data is data for expressing a human body or a part of the human body as a three-dimensional skeletal model. A three-dimensional skeletal model models the skeleton of a human body or a part of the human body using a plurality of bones corresponding to the axes of bones of the human body and a plurality of joints connecting each bone. The three-dimensional skeleton model will be further explained with reference to FIG. FIG. 2 is an explanatory diagram for explaining the concept of a three-dimensional skeleton model. In the example shown in FIG. 2, the three-dimensional skeleton model 100 includes eight bones and joints connecting these bones. A bone in a three-dimensional skeleton model is represented as a line segment connecting two points on three-dimensional coordinates. Therefore, each bone is represented by three-dimensional vectors V1 to V8 representing effective line segments corresponding to each bone in a three-dimensional space (XYZ space). The three-dimensional skeleton model that constitutes the three-dimensional skeleton model includes three-dimensional vectors representing each of the bones included in the three-dimensional model. Although a three-dimensional skeletal model of the upper body of a human body is shown in FIG. For example, it may be a model of an arm, lower body, etc.). Furthermore, in the example of FIG. 2, the upper half of the human body is represented by eight bones, but the upper half of the human body may be represented by more or less than eight bones. A three-dimensional skeletal model that includes a larger number of bones may include bones that represent finger bones. With this, finger movements can also be detected.

ストレージ13に記憶される情報について説明する。図示の実施形態においては、ストレージ13には、基準姿勢管理データ13a及びそれ以外の動画配信装置20が提供するサービスを利用するために必要な様々な情報が記憶される。一実施形態による動画配信システム1においては、予めユーザの基準姿勢が定められている。動画配信システム1においては、一つだけの基準姿勢が定められていてもよいし、複数の基準姿勢が定められていてもよい。この一又は複数の基準姿勢の各々は、ユーザの一連の動作を識別するために複数の姿勢のセットであってもよい。例えば、基準姿勢には、当該基準姿勢に対応付けられるユーザの一連の動作の開始時の姿勢を示す開始姿勢と、当該一連の動作において開始姿勢を取った後の特定の姿勢を示すトリガー姿勢とが含まれてもよい。開始姿勢及びトリガー姿勢の少なくとも一方は、複数であってもよい。 Information stored in the storage 13 will be explained. In the illustrated embodiment, the storage 13 stores the reference posture management data 13a and other various information necessary for using the services provided by the video distribution device 20. In the video distribution system 1 according to one embodiment, a user's reference posture is determined in advance. In the video distribution system 1, only one reference posture may be determined, or a plurality of reference postures may be determined. Each of the one or more reference postures may be a set of a plurality of postures for identifying a series of actions of the user. For example, the reference posture includes a starting posture that indicates the starting posture of a series of user movements associated with the reference posture, and a trigger posture that indicates a specific posture after the user takes the starting posture in the series of motions. may be included. At least one of the starting posture and the trigger posture may be plural.

基準姿勢管理データ13aの例が図3に示されている。図3に示されている例では、基準姿勢に開始姿勢とトリガー姿勢とが含まれている。このため、ストレージ13においては、基準姿勢を識別する基準姿勢識別データと対応付けて、当該基準姿勢に含まれる開始姿勢を示す開始姿勢データ、及び、当該基準姿勢に含まれるトリガー姿勢を示すトリガー姿勢データと、が記憶され得る。 An example of the reference posture management data 13a is shown in FIG. In the example shown in FIG. 3, the reference posture includes a starting posture and a trigger posture. Therefore, in the storage 13, start attitude data indicating a starting attitude included in the reference attitude and trigger attitude indicating a trigger attitude included in the reference attitude are associated with reference attitude identification data for identifying the reference attitude. data may be stored.

基準姿勢識別データは、例えば、基準姿勢を識別する基準姿勢IDである。基準姿勢IDは、例えば数ビットで表される識別コードである。基準姿勢IDのビット数は、動画配信システム1で使用される基準姿勢の数に応じて定めることができる。基準姿勢IDは、例えば、10ビット以下の情報量のデータで表される。基準姿勢IDは、5ビット以下、4ビット以下、3ビット以下、2ビット以下の情報量のデータで表されてもよい。したがって、基準姿勢識別データ(基準姿勢ID)は、3次元骨格データよりも大幅にデータ量が小さい。 The reference posture identification data is, for example, a reference posture ID that identifies a reference posture. The reference posture ID is, for example, an identification code expressed by several bits. The number of bits of the reference posture ID can be determined according to the number of reference postures used in the video distribution system 1. The reference posture ID is represented by, for example, data with an information amount of 10 bits or less. The reference posture ID may be represented by data with an information amount of 5 bits or less, 4 bits or less, 3 bits or less, or 2 bits or less. Therefore, the standard posture identification data (standard posture ID) has a much smaller amount of data than the three-dimensional skeleton data.

開始姿勢データは、開始姿勢を示すデータである。開始姿勢データは、例えば、開始姿勢を示す3次元骨格データである。開始姿勢の例が図4aに示されている。図示の例における開始姿勢は、右拳が右肩と同じ高さになるように右の掌を前方に突き出している姿勢である。開始姿勢データは、この開始姿勢をモデリングした3次元骨格データであってもよい。開始姿勢データは、開始姿勢における各ボーンの位置及び向きを示す3次元ベクトルデータを含んでもよい。開始姿勢を示す3次元骨格データは、図4aに模式的に示されているように8本のボーンを含んでもよい。この8本のボーンを表すベクトルT1~T8は、センサユニット15の検出データに基づいて生成される視聴ユーザの3次元骨格データに含まれるボーンのベクトルV1~V8とそれぞれ対応している。姿勢特徴量として3次元骨格データ以外のデータが用いられる場合には、開始姿勢データは、その使用される姿勢特徴量のうち開始姿勢を表すデータである。 The starting attitude data is data indicating the starting attitude. The starting posture data is, for example, three-dimensional skeleton data indicating the starting posture. An example starting position is shown in Figure 4a. The starting posture in the illustrated example is a posture in which the right palm is thrust forward so that the right fist is at the same height as the right shoulder. The starting posture data may be three-dimensional skeleton data modeling this starting posture. The starting posture data may include three-dimensional vector data indicating the position and orientation of each bone in the starting posture. The three-dimensional skeleton data indicating the starting pose may include eight bones as schematically shown in Figure 4a. The vectors T1 to T8 representing these eight bones correspond to the bone vectors V1 to V8 included in the three-dimensional skeleton data of the viewing user generated based on the detection data of the sensor unit 15, respectively. When data other than three-dimensional skeleton data is used as the posture feature, the starting posture data is data representing the starting posture among the posture features used.

トリガー姿勢データは、トリガー姿勢を示すデータである。トリガー姿勢データは、例えば、トリガー姿勢を示す3次元骨格データである。トリガー姿勢の例が図4bに示されている。図示の例におけるトリガー姿勢は、右腕を前方斜め上に突き上げた姿勢である。トリガー姿勢データは、このトリガー姿勢をモデリングした3次元骨格データであってもよい。トリガー姿勢を示す3次元骨格データは、各ボーンの位置及び向きを示す3次元ベクトルデータを含んでもよい。トリガー姿勢を示す3次元骨格データは、図4bに模式的に示されているように8本のボーンを含んでもよい。この8本のボーンのベクトルT1~T8は、センサユニット15の検出データに基づいて生成される視聴ユーザの3次元骨格データに含まれるボーンのベクトルV1~V8とそれぞれ対応している。姿勢特徴量として3次元骨格データ以外のデータが用いられる場合には、トリガー姿勢データは、その使用される姿勢特徴量のうちトリガー姿勢を表すデータである。 Trigger attitude data is data indicating a trigger attitude. The trigger posture data is, for example, three-dimensional skeleton data indicating the trigger posture. An example of a trigger position is shown in Figure 4b. The trigger posture in the illustrated example is a posture in which the right arm is thrust forward diagonally upward. The trigger posture data may be three-dimensional skeleton data modeling this trigger posture. The three-dimensional skeleton data indicating the trigger posture may include three-dimensional vector data indicating the position and orientation of each bone. The three-dimensional skeleton data indicating the trigger posture may include eight bones as schematically shown in FIG. 4b. These eight bone vectors T1 to T8 correspond to bone vectors V1 to V8 included in the viewing user's three-dimensional skeleton data generated based on the detection data of the sensor unit 15, respectively. When data other than three-dimensional skeleton data is used as the posture feature, the trigger posture data is data representing the trigger posture among the posture features used.

次に、動画配信装置20について説明する。動画配信装置20は、例えば、動画再生装置10にネットワーク50の下り回線を介して動画を配信する動画配信サーバである。動画配信装置20は、コンピュータプロセッサ21、通信I/F22、及び各種情報を記憶するストレージ23、を備える。動画配信装置20は、集音マイク等の前記以外の構成要素を備えてもよい。 Next, the video distribution device 20 will be explained. The video distribution device 20 is, for example, a video distribution server that distributes a video to the video playback device 10 via a downlink of the network 50. The video distribution device 20 includes a computer processor 21, a communication I/F 22, and a storage 23 that stores various information. The video distribution device 20 may include components other than those described above, such as a sound collection microphone.

コンピュータプロセッサ21は、ストレージ23又はそれ以外のストレージからオペレーティングシステムや様々な機能を実現する様々なプログラムをメモリにロードし、ロードしたプログラムに含まれる命令を実行する演算装置である。上述したコンピュータプロセッサ11についての説明は、可能な限りコンピュータプロセッサ21にも当てはまる。コンピュータプロセッサ21により実現される機能については後述する。 The computer processor 21 is an arithmetic device that loads an operating system and various programs that implement various functions into memory from the storage 23 or other storage, and executes instructions included in the loaded programs. The description given above regarding computer processor 11 also applies to computer processor 21 to the extent possible. The functions realized by the computer processor 21 will be described later.

通信I/F22は、ハードウェア、ファームウェア、又はTCP/IPドライバやPPPドライバ等の通信用ソフトウェア又はこれらの組み合わせとして実装される。動画配信装置20は、通信I/F22を介して、他の装置とデータを送受信することができる。 The communication I/F 22 is implemented as hardware, firmware, communication software such as a TCP/IP driver or a PPP driver, or a combination thereof. The video distribution device 20 can transmit and receive data to and from other devices via the communication I/F 22.

ストレージ23は、コンピュータプロセッサ21によりアクセスされる記憶装置である。ストレージ23は、例えば、磁気ディスク、光ディスク、半導体メモリ、又はデータを記憶可能な前記以外の各種記憶装置である。ストレージ23には、様々なプログラムが記憶され得る。ストレージ23に記憶され得るプログラム及び各種データの少なくとも一部は、動画配信装置20とは物理的に別体のストレージ(例えば、ストレージ60)に格納されてもよい。 Storage 23 is a storage device accessed by computer processor 21 . The storage 23 is, for example, a magnetic disk, an optical disk, a semiconductor memory, or various other storage devices capable of storing data. Various programs can be stored in the storage 23. At least some of the programs and various data that can be stored in the storage 23 may be stored in a storage that is physically separate from the video distribution device 20 (for example, the storage 60).

ストレージ23には、オブジェクトデータ23a、アバタデータ23b、アニメーション管理データ23c、及び前記以外の動画の生成及び配信のために必要な様々な情報が記憶され得る。 The storage 23 can store object data 23a, avatar data 23b, animation management data 23c, and various other information necessary for generating and distributing moving images other than the above.

オブジェクトデータ23aは、動画を構成する仮想空間を構築するためのアセットデータを含んでもよい。オブジェクトデータ23aは、動画を構成する仮想空間の背景を描画するためのデータ、動画に表示される各種物体を描画するためのデータ、及びこれら以外の動画に表示される各種オブジェクトを描画するためのデータが含まれる。オブジェクトデータ23aには、仮想空間におけるオブジェクトの位置を示すオブジェクト位置情報を含んでもよい。オブジェクトデータ23aには、上記以外にも、動画再生装置10の視聴ユーザからの表示要求に基づいて動画に表示されるギフトオブジェクトを示すデータが含まれ得る。ギフトオブジェクトには、エフェクトオブジェクトと、通常オブジェクトと、装飾オブジェクトと、が含まれ得る。視聴ユーザは、所望のギフトオブジェクトを購入することができる。動画に表示されるギフトオブジェクトの詳細は、特許第6446154号の明細書に記載されている。本出願の動画配信システム1においても、特許第第6446154号の明細書における記載と同様にギフトオブジェクトを動画中に表示することができる。 The object data 23a may include asset data for constructing a virtual space that constitutes a moving image. The object data 23a includes data for drawing the background of the virtual space constituting the video, data for drawing various objects displayed in the video, and data for drawing various objects displayed in the video other than these. Contains data. The object data 23a may include object position information indicating the position of the object in the virtual space. In addition to the above, the object data 23a may include data indicating a gift object to be displayed in the video based on a display request from the viewing user of the video playback device 10. Gift objects may include effect objects, normal objects, and decoration objects. Viewing users can purchase desired gift objects. Details of the gift object displayed in the video are described in the specification of Japanese Patent No. 6446154. Also in the video distribution system 1 of the present application, a gift object can be displayed in a video similarly to the description in the specification of Patent No. 6446154.

アバタデータ23bの例が図5に示されている。図5に示すように、アバタデータ23bは、動画配信システム1で視聴ユーザによって利用されるアバタのアバタ識別情報と、当該アバタを動画内に表示するためのアバタ表示情報と、を含むことができる。言い換えると、ストレージ23には、アバタのアバタ識別情報と対応付けて、当該アバタを表示するためのアバタ表示情報が記憶され得る。アバタ識別情報は、例えば、アバタを識別するアバタIDである。動画再生装置10のユーザは、動画配信システム1において自らのアバタを設定することができる。ユーザごとにアバタを管理するために、アバタIDは、ユーザを識別するユーザIDと対応付けてストレージ23に記憶されてもよい。アバタは、例えば、人間や動物を模した画像として動画内に表示される。アバタ表示情報は、アバタを動画内に表示するために用いられる情報である。アバタ情報には、例えば、頭部、ヘアスタイル、顔のパーツ(目、鼻、口など)、胴部、服、アクセサリ、アイテム、及びこれら以外のアバタを構成するパーツの画像を示すパーツ情報又はそれ以外のアバタの外観を特定するためのスキン情報が含まれる。ユーザは、好みのパーツ画像を選択することで自らのアバタを登録することができる。アバタ表示情報には、動画にアバタを2D表示するための2D表示情報と、動画にアバタを3D表示するための3D表示情報とが含まれてもよい。3D表示情報には、アバタを動画内で立体的に表示するためのパーツの画像を示すパーツ情報、アバタの3次元での動きを表現するためのボーンデータ、及びこれら以外のアバタを立体的に表示するために用いられている公知の情報を含む。 An example of the avatar data 23b is shown in FIG. As shown in FIG. 5, the avatar data 23b can include avatar identification information of the avatar used by the viewing user in the video distribution system 1, and avatar display information for displaying the avatar in the video. . In other words, the storage 23 may store avatar display information for displaying the avatar in association with the avatar identification information of the avatar. The avatar identification information is, for example, an avatar ID that identifies an avatar. A user of the video playback device 10 can set his or her own avatar in the video distribution system 1. In order to manage avatars for each user, the avatar ID may be stored in the storage 23 in association with a user ID that identifies the user. For example, an avatar is displayed in a video as an image imitating a human or an animal. Avatar display information is information used to display an avatar in a video. Avatar information includes, for example, parts information showing images of the head, hairstyle, facial parts (eyes, nose, mouth, etc.), torso, clothes, accessories, items, and other parts that make up the avatar. Contains skin information for specifying the appearance of other avatars. Users can register their own avatars by selecting their favorite part images. The avatar display information may include 2D display information for displaying the avatar in 2D in the video, and 3D display information for displaying the avatar in 3D in the video. The 3D display information includes parts information that shows images of parts to display the avatar three-dimensionally in a video, bone data to express the avatar's movement in three dimensions, and other parts that display the avatar three-dimensionally. Contains publicly known information used for display.

上述したとおり、動画配信装置20から配信される動画には、動画再生装置10のユーザのアバタのアニメーションが含まれてもよい。あるユーザのアバタのアニメーションは、後述するように、当該ユーザの姿勢を示す姿勢特徴量に基づいて、当該ユーザの姿勢や動きをリアルタイムで反映するように生成されてもよい。 As described above, the video distributed from the video distribution device 20 may include an animation of the avatar of the user of the video playback device 10. An animation of a certain user's avatar may be generated to reflect the posture and movement of the user in real time based on posture feature amounts indicating the posture of the user, as described later.

アバタのアニメーションとして、予め登録されている登録アニメーションを採用してもよい。登録アニメーションは、視聴ユーザの動きに追従するように動画の配信中にリアルタイムに生成されるのではなく、動画の配信前又はアバタのアニメーションの表示が必要になる前に予め登録又は定義されているアニメーションである。登録アニメーションを管理するためのアニメーション管理データ23cの例が図6に示されている。図示のように、アニメーション管理データ23cは、基準姿勢識別データと、登録アニメーションを識別する登録アニメーション識別データ(登録アニメーションID)と、アバタのアニメーションを特定するためのアニメーション定義データと、を有する。ストレージ23においては、基準姿勢識別データと対応付けて、登録アニメーション識別データ、及び、アニメーション定義データが記憶されている。基準姿勢識別データは、既述のとおり基準姿勢IDであってもよい。動画配信システム1において複数の基準姿勢IDが用いられている場合には、その基準姿勢IDの数に応じて複数の登録アニメーションが登録されていてもよい。この複数の登録アニメーションから選択された一つの登録アニメーションが動画に含められ得る。アニメーション定義データは、アバタのボーンの位置及び向きを示すボーンデータを時系列的に記述するデータであってもよい。 A registered animation registered in advance may be used as the avatar animation. Registered animations are not generated in real time during video distribution to follow the movements of the viewing user, but are registered or defined in advance before the video is distributed or before the avatar animation needs to be displayed. It's an animation. An example of animation management data 23c for managing registered animations is shown in FIG. As illustrated, the animation management data 23c includes reference posture identification data, registered animation identification data (registered animation ID) for identifying registered animations, and animation definition data for specifying avatar animations. In the storage 23, registered animation identification data and animation definition data are stored in association with reference posture identification data. The reference posture identification data may be the reference posture ID as described above. When a plurality of reference posture IDs are used in the video distribution system 1, a plurality of registered animations may be registered according to the number of reference posture IDs. One registered animation selected from the plurality of registered animations can be included in the video. The animation definition data may be data that describes bone data indicating the positions and orientations of the bones of the avatar in chronological order.

登録アニメーションは、視聴ユーザからの要求に基づいて生成されてもよい。以下、説明の便宜のために、視聴ユーザからの要求に基づいて登録される登録アニメーションを「ユーザアニメーション」と呼ぶ。動画再生装置10は、視聴ユーザからユーザアニメーションの登録要求がなされると、当該視聴ユーザに対して登録を希望するアニメーションに対応する動きを行うように促すことができる。動画再生装置10は、この基準姿勢を表す画像の表示に応答して視聴ユーザが取った姿勢の姿勢特徴量(例えば、3次元骨格データ)を所定時間に亘って取得する。この姿勢特徴量の取得は、姿勢データ取得部11b又はセンサユニット15により所定のサンプリング時間間隔で行われる。このようにして、視聴ユーザが登録を希望するアニメーションに対応する動きを示すアニメーション定義データが得られる。このアニメーション定義データは、アニメーション管理データ23cとして記憶されている登録アニメーションのアニメーション定義データと同じデータ形式を有していてもよい。動画再生装置10は、このようにして取得されたユーザアニメーションを定義するアニメーション定義データを動画配信装置20に送信し、このユーザアニメーションを新たな登録アニメーションとして動画配信装置20に登録する。 The registered animation may be generated based on a request from a viewing user. Hereinafter, for convenience of explanation, a registered animation registered based on a request from a viewing user will be referred to as a "user animation." When a viewing user requests registration of a user animation, the video playback device 10 can prompt the viewing user to perform a movement corresponding to the animation desired to be registered. The video playback device 10 acquires posture feature amounts (for example, three-dimensional skeleton data) of the posture taken by the viewing user over a predetermined period of time in response to the display of the image representing the reference posture. Acquisition of this posture feature amount is performed by the posture data acquisition section 11b or the sensor unit 15 at predetermined sampling time intervals. In this way, animation definition data indicating the movement corresponding to the animation that the viewing user desires to register is obtained. This animation definition data may have the same data format as the animation definition data of the registered animation stored as the animation management data 23c. The video playback device 10 transmits the animation definition data that defines the user animation thus obtained to the video distribution device 20, and registers this user animation in the video distribution device 20 as a new registered animation.

動画配信装置20は、ユーザアニメーションを定義するアニメーション定義データを受信すると、当該ユーザアニメーションをアニメーション管理データ23cの一部としてストレージ23に記憶する。具体的には、動画配信装置20は、登録が要求されているユーザアニメーションを識別する登録アニメーションIDを発行し、当該登録アニメーションIDと対応付けて動画再生装置10から受信したアニメーション定義データを記憶する。また、動画配信装置20は、登録が要求されているユーザアニメーションを動画に含めるためのトリガーとなる基準姿勢を決定するよう動画再生装置10に要求する。 When the video distribution device 20 receives animation definition data that defines a user animation, it stores the user animation in the storage 23 as part of the animation management data 23c. Specifically, the video distribution device 20 issues a registered animation ID that identifies the user animation for which registration is requested, and stores the animation definition data received from the video playback device 10 in association with the registered animation ID. . Furthermore, the video distribution device 20 requests the video playback device 10 to determine a reference posture that is a trigger for including the user animation whose registration is requested in the video.

動画再生装置10は、動画配信装置20からの要求に応じて、自らのアバタに新規に登録したユーザアニメーションに従った動きを行わせるためのトリガーとなる基準姿勢を決定する。本明細書では、新規に登録したユーザアニメーションに従ってアバタを動かすためのトリガーとなる基準姿勢を追加基準姿勢と呼ぶことがある。追加基準姿勢は、様々な手法で定められる。例えば、新規に登録したユーザアニメーションを含むサンプル動画を生成し、当該ユーザアニメーションの登録要求を行った視聴ユーザに対し、このサンプル動画に含まれる複数のフレームの中から一又は複数の候補フレームを選択させ、その選択されたフレームに含まれているアバタの画像に基づいて追加基準姿勢を決定することができる。当該視聴ユーザは、複数のフレームの中から好みのフレームを選択することができる。当該視聴ユーザは、例えば、記憶に残りやすい姿勢を取っているアバタが含まれているフレーム、特徴的な姿勢を取っているアバタが含まれているフレーム、又はこれら以外のフレームを選択することができる。当該複数のフレームの中から2つのフレームが選択された場合、その2つのフレームのうち時系列的に前にあるフレームに含まれているアバタの姿勢を開始姿勢として決定し、時系列的に後にあるフレームに含まれているアバタの姿勢をトリガー姿勢として決定してもよい。 In response to a request from the video distribution device 20, the video playback device 10 determines a reference posture that becomes a trigger for causing its own avatar to perform a movement according to the newly registered user animation. In this specification, a reference posture that serves as a trigger for moving an avatar according to a newly registered user animation may be referred to as an additional reference posture. Additional reference postures can be determined in various ways. For example, a sample video containing a newly registered user animation is generated, and the viewing user who has requested the registration of the user animation is asked to select one or more candidate frames from among the multiple frames included in this sample video. The additional reference posture can be determined based on the image of the avatar included in the selected frame. The viewing user can select a favorite frame from a plurality of frames. The viewing user may, for example, select a frame that includes an avatar in a memorable posture, a frame that includes an avatar in a characteristic posture, or a frame other than these. can. When two frames are selected from the plurality of frames, the posture of the avatar included in the chronologically earlier frame of the two frames is determined as the starting posture, and the avatar posture included in the chronologically earlier frame is determined as the starting posture, The posture of the avatar included in a certain frame may be determined as the trigger posture.

追加基準姿勢を決定する他の方法について説明する。動画再生装置10は、ユーザアニメーションの登録要求を行った視聴ユーザに対して、当該ユーザアニメーションに対応する動きを複数回行うように指示する。この指示は、音声又は画面表示により行われ得る。動画再生装置10は、この指示に対応して視聴ユーザが行った動きに対応する姿勢特徴量(例えば、3次元骨格データ)を取得する。具体的には、所定の計測期間において、所定のサンプリング間隔で、ユーザアニメーションに対応して動いている視聴ユーザの姿勢を表す3次元骨格データを取得する。これにより、計測開始から計測終了までの間ユーザアニメーションに対応する動きを行った視聴ユーザの姿勢を時系列で表す3次元骨格データのセットが2組得られる。次にこの2組の3次元骨格データのセットのうち測定開始後に同タイミングで取得された3次元骨格データ同士を比較し、この比較結果に基づいて追加基準姿勢を決定する。例えば、2組の3次元骨格データのセットのうち測定開始後に同タイミングで取得された3次元骨格データの対応するボーンのベクトルが為す角度の合計値を算出し、この角度の合計値が最も小さい3次元骨格データに対応する姿勢(2組の骨格データのうちいずれを採用しても構わない。)を追加基準姿勢とすることができる。 Another method of determining the additional reference posture will be explained. The video playback device 10 instructs the viewing user who has made the user animation registration request to perform the movement corresponding to the user animation multiple times. This instruction may be given by voice or screen display. The video playback device 10 acquires posture feature amounts (for example, three-dimensional skeleton data) corresponding to the movements performed by the viewing user in response to this instruction. Specifically, three-dimensional skeletal data representing the posture of the viewing user moving in accordance with the user animation is acquired at a predetermined sampling interval during a predetermined measurement period. As a result, two sets of three-dimensional skeleton data are obtained that represent, in time series, the postures of the viewing user who performed movements corresponding to the user animation from the start of the measurement to the end of the measurement. Next, among these two sets of three-dimensional skeleton data, three-dimensional skeleton data acquired at the same timing after the start of measurement are compared, and an additional reference posture is determined based on the comparison result. For example, the total value of the angles made by the vectors of the corresponding bones of the 3D skeleton data acquired at the same timing after the start of measurement among the two sets of 3D skeleton data is calculated, and the total value of this angle is the smallest. The posture corresponding to the three-dimensional skeleton data (whichever of the two sets of skeleton data may be adopted) can be used as the additional reference posture.

次に、動画再生装置10の機能について説明する。動画再生装置10の機能は、コンピュータプロセッサ11がプログラムに含まれるコンピュータ読み取り可能な命令を実行することにより実現される。コンピュータプロセッサ11は、プログラムに含まれるコンピュータ読み取り可能な命令を実行することにより、動画再生部11a、姿勢データ取得部11b、送信部11c、分類部11d、及び遅延監視部11eとして機能する。コンピュータプロセッサ11により実現される機能の少なくとも一部は、コンピュータプロセッサ11以外のコンピュータプロセッサにより実現されてもよい。コンピュータプロセッサ11により実現される機能の少なくとも一部は、動画配信装置20のコンピュータプロセッサ21又はそれ以外の動画配信システム1に備えられたコンピュータプロセッサにより実現されてもよい。 Next, the functions of the video playback device 10 will be explained. The functions of the video playback device 10 are realized by the computer processor 11 executing computer-readable instructions included in a program. The computer processor 11 functions as a video playback section 11a, an attitude data acquisition section 11b, a transmission section 11c, a classification section 11d, and a delay monitoring section 11e by executing computer-readable instructions included in the program. At least some of the functions implemented by computer processor 11 may be implemented by a computer processor other than computer processor 11. At least some of the functions realized by the computer processor 11 may be realized by the computer processor 21 of the video distribution device 20 or other computer processors included in the video distribution system 1.

動画再生部11aは、動画配信装置20から配信された動画を再生する。再生された動画は、ディスプレイ14に表示される。 The video playback unit 11a plays back the video distributed from the video distribution device 20. The reproduced moving image is displayed on the display 14.

姿勢データ取得部11bは、動画再生装置10を使用して動画を視聴するユーザ(「視聴ユーザ」ということもある。)の姿勢の特徴を表す姿勢特徴量を取得する。視聴ユーザの姿勢の特徴を表す姿勢特徴量は、当該視聴ユーザの姿勢を表す3次元骨格データ、つまり視聴ユーザのボーンの位置及び向きを示す3次元ベクトルデータであってもよい。姿勢データ取得部11bは、例えば、センサユニット15が検出した検出データに基づいて視聴ユーザの3次元骨格データを生成する。視聴ユーザの3次元骨格データは、所定のサンプリング時間間隔ごとに生成されてもよい。センサユニット15がプロセッサを備えており、そのセンサユニット15のプロセッサにより3次元骨格データが生成される場合には、姿勢データ取得部11bはプロセッサ11の機能として実行されなくともよい。 The posture data acquisition unit 11b acquires posture feature amounts representing the posture characteristics of a user (also referred to as a "viewing user") who views a video using the video playback device 10. The posture feature quantity representing the posture characteristics of the viewing user may be three-dimensional skeletal data representing the posture of the viewing user, that is, three-dimensional vector data indicating the position and orientation of the viewing user's bones. The posture data acquisition unit 11b generates three-dimensional skeletal data of the viewing user based on the detection data detected by the sensor unit 15, for example. The viewing user's three-dimensional skeleton data may be generated at predetermined sampling time intervals. If the sensor unit 15 includes a processor and the three-dimensional skeleton data is generated by the processor of the sensor unit 15, the posture data acquisition section 11b does not need to be executed as a function of the processor 11.

姿勢データ取得部11bにより取得される姿勢特徴量は、3次元骨格データ以外の特徴量であってもよい。例えば、上述したように、Light Coding技術を用いて赤外線のランダムパターンをユーザ等の対象に照射し、その画像を解析することによって対象の深度を取得し、当該深度を姿勢特徴量としてもよい。センサユニット15により検出される検出値及びこの検出値に基づいて算出される様々な値が姿勢特徴量として用いられ得る。 The posture feature amount acquired by the posture data acquisition unit 11b may be a feature amount other than three-dimensional skeleton data. For example, as described above, a random pattern of infrared rays may be irradiated onto a target such as a user using the Light Coding technology, and the depth of the target may be obtained by analyzing the image, and the depth may be used as the posture feature amount. A detection value detected by the sensor unit 15 and various values calculated based on this detection value can be used as the posture feature amount.

姿勢データ取得部11bは、動画再生装置10のユーザの動きを所定のフレームレートで撮像して得られる複数のフレームを含む撮像画像から次のようにして姿勢特徴量を求めても良い。具体的には、姿勢データ取得部11bは、当該撮像画像の各フレームにおいて当該ユーザに関連する複数の特徴点を抽出する。ユーザの姿勢や動きを表現するために適した位置が特徴点として抽出される。複数の特徴点を特徴点群ということもある。図7は、動画再生装置10により撮像された撮像画像を構成する複数のフレームの一つであるフレームf1を模式的に示している。図示のように、フレームf1には、撮像されたユーザの画像U1が含まれている。図7に示されているP1~P6はそれぞれ抽出された特徴点を示す。特徴点の数及び位置は、図7に示されたものには限られない。例えば、動画再生装置10のユーザの体や顔に赤外線のレーザーによってランダムドットパターンを投影し、このランダムドットパターンが投影されたユーザを赤外線領域を撮影できるカメラで撮像する場合には、このランダムドット全体が特徴点群となる。 The posture data acquisition unit 11b may obtain the posture feature amount from a captured image including a plurality of frames obtained by capturing the movement of the user of the video playback device 10 at a predetermined frame rate in the following manner. Specifically, the posture data acquisition unit 11b extracts a plurality of feature points related to the user in each frame of the captured image. Positions suitable for expressing the user's posture and movements are extracted as feature points. A plurality of feature points may also be referred to as a feature point group. FIG. 7 schematically shows a frame f1, which is one of a plurality of frames constituting a captured image captured by the video playback device 10. As illustrated, the frame f1 includes a captured image U1 of the user. P1 to P6 shown in FIG. 7 indicate extracted feature points, respectively. The number and positions of feature points are not limited to those shown in FIG. 7. For example, when a random dot pattern is projected onto the body or face of the user of the video playback device 10 using an infrared laser, and the user on whom this random dot pattern is projected is imaged with a camera capable of photographing the infrared region, the random dot pattern The whole becomes a feature point group.

姿勢データ取得部11bは、抽出された複数の特徴点の各々について姿勢特徴量(画像ベクトル)を得ることができる。特徴点P1~P6の各々における姿勢特徴量は、各特徴点の深度であってもよいし3次元座標であってもよい。姿勢特徴量として3次元座標が用いられる場合には、撮像画像内に3次元のワールド座標系が設定され、撮影画像及びワールド座標系を元にして正規化された相対量が姿勢特徴量とされる。正規化された姿勢特徴量は、例えば、0~1.0の相対量で表される。フレームf1における各特徴点P1~P6の姿勢特徴量は、フレームf1よりも時系列的に前の(例えば直前の)フレームにおいて得られた各特徴点P1~P6の姿勢特徴量とフレームf1において得られた各特徴点P1~P6の姿勢特徴量との差で表される変化量であってもよい。姿勢特徴量のフレーム間での変化量を別の姿勢特徴量として用いる場合に両者を区別する必要があるときには、あるフレームにおける姿勢特徴量を「フレーム内特徴量」と呼び、フレーム間での姿勢特徴量の変化量で表される姿勢特徴量を「フレーム間特徴量」と呼んでも良い。特に断らない限り、または、文脈上別に解される場合を除き、単に「姿勢特徴量」というときには「フレーム内特徴量」及び「フレーム間特徴量」の両方を含む。各特徴点P1~P6の姿勢特徴量は、0~1.0の範囲に正規化されてfloat配列として表現されてもよい。この場合、特徴点P1~P6の各々における姿勢特徴量が当該配列の要素となる。 The posture data acquisition unit 11b can obtain a posture feature amount (image vector) for each of the plurality of extracted feature points. The posture feature amount at each of the feature points P1 to P6 may be the depth of each feature point or three-dimensional coordinates. When three-dimensional coordinates are used as posture features, a three-dimensional world coordinate system is set in the captured image, and a relative amount normalized based on the captured image and the world coordinate system is used as the posture feature. Ru. The normalized posture feature amount is expressed as a relative amount from 0 to 1.0, for example. The posture feature amount of each feature point P1 to P6 in frame f1 is the posture feature amount of each feature point P1 to P6 obtained in a frame chronologically earlier than frame f1 (for example, immediately before) and the posture feature amount obtained in frame f1. The amount of change may be expressed as a difference from the posture feature amount of each of the feature points P1 to P6. When using the amount of change in posture feature between frames as another posture feature, and it is necessary to distinguish between the two, the posture feature in a certain frame is called an "intra-frame feature," and the posture feature between frames is called an "intra-frame feature." The posture feature amount expressed by the amount of change in the feature amount may be referred to as the "inter-frame feature amount." Unless otherwise specified or unless otherwise understood from the context, the term "posture feature" includes both "intra-frame feature" and "inter-frame feature." The posture feature amount of each feature point P1 to P6 may be normalized to a range of 0 to 1.0 and expressed as a float array. In this case, the posture feature amount at each of the feature points P1 to P6 becomes an element of the array.

送信部11cは、姿勢データ取得部11b又はセンサユニット15により取得された視聴ユーザの姿勢を表す姿勢特徴量を動画配信装置20に送信する。送信部11cは、姿勢データ取得部11b又はセンサユニット15から姿勢特徴量を受け取ると即時に動画配信装置20に送信する。言い換えると、送信部11cは、視聴ユーザの姿勢特徴量をリアルタイムに動画配信装置20に送信することができる。上記のとおり、姿勢特徴量は、所定のサンプリング時間間隔又は所定のフレームレートで取得される。これにより、姿勢特徴量は、所定のサンプリング時間間隔ごと又はフレームレートごとに生成され得る。よって、所定の時間間隔に亘って連続して取得された視聴ユーザの姿勢特徴量は、当該視聴ユーザの体の動きを時系列的にデジタルデータとして表現することができる。視聴ユーザの姿勢を表す姿勢特徴量は、当該姿勢特徴量以外のデータとともに動画配信装置20に送信されてもよい。本明細書では、視聴ユーザの姿勢や表情を表すデータまたは視聴ユーザの姿勢や表情と相関のあるデータを当該視聴ユーザの「モーションデータ」と総称することがある。視聴ユーザのモーションデータは、動画再生装置10からネットワーク50を含む伝送路を介して動画配信装置20に送信される。モーションデータは、パケット送信されてもよい。つまり、送信部11cは、モーションデータを含むパケットを動画配信装置20に対して送信してもよい。 The transmitter 11c transmits the posture feature amount representing the posture of the viewing user acquired by the posture data acquisition section 11b or the sensor unit 15 to the video distribution device 20. When the transmitter 11c receives the posture feature amount from the posture data acquisition section 11b or the sensor unit 15, it immediately transmits it to the video distribution device 20. In other words, the transmitter 11c can transmit the posture feature amount of the viewing user to the video distribution device 20 in real time. As described above, the posture feature amount is acquired at a predetermined sampling time interval or a predetermined frame rate. Thereby, the posture feature amount can be generated at each predetermined sampling time interval or at each frame rate. Therefore, the posture feature amount of the viewing user that is continuously acquired over a predetermined time interval can represent the movement of the viewing user's body in time series as digital data. The posture feature amount representing the posture of the viewing user may be transmitted to the video distribution device 20 together with data other than the posture feature amount. In this specification, data representing the posture and facial expression of the viewing user or data correlated with the posture and facial expression of the viewing user may be collectively referred to as "motion data" of the viewing user. The viewing user's motion data is transmitted from the video playback device 10 to the video distribution device 20 via a transmission path including the network 50. Motion data may be sent in packets. That is, the transmitter 11c may transmit a packet including motion data to the video distribution device 20.

一実施形態における分類部11dは、視聴ユーザの姿勢を分類する分類器により、当該視聴ユーザの姿勢特徴量(例えば、3次元骨格データ)に基づいて、当該視聴ユーザの姿勢が予め定められた基準姿勢に属するか否かを判定する。この分類器は、例えば線形分類器である。基準姿勢が開始姿勢とトリガー姿勢とを含む場合には、分類部11dは、視聴ユーザの姿勢が当該基準姿勢に属するか否か及び当該トリガー姿勢に属するか否かをそれぞれ判定することができる。分類部11dは、時刻t1において視聴ユーザの姿勢が基準姿勢のうちの開始姿勢に属するか否かを判定した後、当該時刻t1におけるユーザの姿勢が開始姿勢に属すると判定された場合には、続いて時刻t1よりも後の時刻t2における視聴ユーザの姿勢がトリガー姿勢に属するか否かを判定してもよい。 In one embodiment, the classification unit 11d uses a classifier that classifies the posture of the viewing user to determine the posture of the viewing user according to a predetermined standard based on the posture feature amount (for example, three-dimensional skeleton data) of the viewing user. Determine whether it belongs to the posture. This classifier is, for example, a linear classifier. When the reference posture includes a starting posture and a trigger posture, the classification unit 11d can determine whether the posture of the viewing user belongs to the reference posture and the trigger posture. After determining whether the viewing user's posture belongs to the starting posture of the reference postures at time t1, the classification unit 11d determines that the user's posture at the time t1 belongs to the starting posture, Subsequently, it may be determined whether the posture of the viewing user at time t2, which is after time t1, belongs to the trigger posture.

一実施形態において、分類部11dは、教師データを得るために、基準姿勢を表す画像をディスプレイ14に表示し、この基準姿勢を表す画像に従った姿勢を取るように視聴ユーザに音声や画面表示を通じて指示することができる。動画再生装置10は、この指示に対応して視聴ユーザが行った動きの姿勢特徴量を姿勢データ取得部11b又はセンサユニット15により逐次取得する。分類部11dは、基準姿勢を表す画像に応答して視聴ユーザが取った姿勢の姿勢特徴量を教師データとして学習することにより分類器を作成することができる。 In one embodiment, in order to obtain training data, the classification unit 11d displays an image representing a reference posture on the display 14, and instructs the viewing user to take a posture according to the image representing the reference posture by using a voice or a screen display. can be instructed through. The video playback device 10 sequentially acquires posture feature amounts of movements performed by the viewing user in response to this instruction using the posture data acquisition section 11b or the sensor unit 15. The classification unit 11d can create a classifier by learning, as training data, the posture feature amount of the posture taken by the viewing user in response to the image representing the reference posture.

一実施形態における分類部11dは、例えば、姿勢データ取得部11b又はセンサユニット15からの姿勢特徴量が示す視聴ユーザの姿勢が予め定められた基準姿勢と合致するか否かを、当該姿勢特徴量を変数として評価関数に基づいて判定することができる。評価関数に基づいて視聴ユーザの姿勢が基準姿勢と合致すると判定された場合には、当該視聴ユーザの姿勢は、当該基準姿勢に属する。視聴ユーザの姿勢が開始姿勢と合致するか否かは、姿勢データ取得部11b又はセンサユニット15において生成された視聴ユーザの姿勢を表す姿勢特徴量と開始姿勢を表す姿勢特徴量(開始姿勢データ)とに基づいて判定され得る。姿勢特徴量が3次元骨格データである場合には、視聴ユーザの3次元骨格データに含まれる各ボーンのベクトルV1~V8と開始姿勢データのうちベクトルV1~V8に対応する各ボーンのベクトルT1~T8とのなす角度の合計値が小さくなるほど、センサユニット15によって検出された視聴ユーザの姿勢と開始姿勢との類似度が高くなる。すなわち、視聴ユーザの姿勢を表す3次元骨格データに含まれる3次元ベクトルと基準姿勢を表す3次元骨格モデルの対応するベクトルのなす角度θの大きさと姿勢の類似度との間に負の相関関係がある。よって、この点に着目し、2つの3次元骨格モデルによって定義される角度θの大きさを正規化するための新規な評価関数fを定義する。下記式(1)に評価関数fの一例を示す。
For example, the classification unit 11d in one embodiment determines whether the posture of the viewing user indicated by the posture feature from the posture data acquisition unit 11b or the sensor unit 15 matches a predetermined reference posture. can be determined based on the evaluation function using as a variable. If it is determined that the orientation of the viewing user matches the reference orientation based on the evaluation function, the orientation of the viewing user belongs to the reference orientation. Whether the viewing user's posture matches the starting posture is determined by the posture feature amount representing the viewing user's posture generated in the posture data acquisition unit 11b or the sensor unit 15 and the posture feature amount representing the starting posture (starting posture data). It can be determined based on. When the posture feature amount is three-dimensional skeleton data, vectors V1 to V8 of each bone included in the three-dimensional skeleton data of the viewing user and vectors T1 to T1 of each bone corresponding to vectors V1 to V8 of the starting posture data. The smaller the total value of the angle with T8, the higher the similarity between the viewing user's posture detected by the sensor unit 15 and the starting posture. In other words, there is a negative correlation between the magnitude of the angle θ formed by the 3D vector included in the 3D skeleton data representing the viewing user's posture and the corresponding vector of the 3D skeleton model representing the reference posture, and the similarity of the postures. There is. Therefore, focusing on this point, a new evaluation function f is defined for normalizing the magnitude of the angle θ defined by the two three-dimensional skeleton models. An example of the evaluation function f is shown in the following formula (1).

上記式において、(Ti・Vi)は、対応するベクトルの内積を示し、(∥Ti∥∥Vi∥)は、各ベクトルの大きさの積を示し、kは、3次元骨格モデルを構成するベクトルの要素数を示す。つまり、上記式(1)に示した評価関数fによれば、2つの3次元骨格モデルの対応するベクトルのなす角度θの余弦(=cosθ)の平均値が得られることになる。ここで、2つの3次元骨格モデルの対応するベクトルが完全一致する場合(角度θ=0)は、cosθ=1になり、2つの3次元骨格モデルの対応するベクトルの方向が逆向きになる場合(角度θ=180°)は、cosθ=-1になるので、評価関数fの値の取り得る範囲は、-1≦f≦+1となる。この場合、たとえば、評価関数fの値の範囲(-1≦f≦+1)を百分率の値(0~100%)にリニアに割り当てれば、類似度を百分率で表現することができる。この所定の閾値は、例えば、90%とすることができる。2つの3次元骨格データ間の類似度の判定については、特開2013-37454号公報にも開示されている。 In the above formula, (Ti・Vi) indicates the inner product of the corresponding vectors, (∥Ti∥∥Vi∥) indicates the product of the magnitudes of each vector, and k is the vector constituting the three-dimensional skeletal model. Indicates the number of elements in That is, according to the evaluation function f shown in the above equation (1), the average value of the cosine (=cosθ) of the angle θ formed by the corresponding vectors of the two three-dimensional skeleton models is obtained. Here, if the corresponding vectors of the two 3D skeletal models completely match (angle θ = 0), cos θ = 1, and if the directions of the corresponding vectors of the two 3D skeletal models are opposite (angle θ=180°), cos θ=−1, so the possible range of the evaluation function f is −1≦f≦+1. In this case, for example, by linearly assigning the value range (-1≦f≦+1) of the evaluation function f to a percentage value (0 to 100%), the degree of similarity can be expressed as a percentage. This predetermined threshold may be, for example, 90%. The determination of the similarity between two three-dimensional skeleton data is also disclosed in Japanese Patent Application Laid-Open No. 2013-37454.

分類部11dは、上記のようにして算出した視聴ユーザの姿勢を表す姿勢特徴量と開始姿勢を表す姿勢特徴量との類似度が所定の閾値以上のときに、視聴ユーザの姿勢が開始姿勢に合致すると判定してもよい。 The classification unit 11d determines that the posture of the viewing user is the starting posture when the degree of similarity between the posture feature amount representing the posture of the viewing user calculated as described above and the posture feature amount representing the starting posture is greater than or equal to a predetermined threshold. It may be determined that they match.

分類部11dは、姿勢データ取得部11b又はセンサユニット15において視聴ユーザの姿勢特徴量が取得される都度、当該姿勢特徴量が示す視聴ユーザの姿勢が開始姿勢に属するか否かを判定してもよい。この場合、視聴ユーザの姿勢特徴量の取得のためのサンプリングレートと同じ頻度で視聴ユーザの姿勢が開始姿勢に合致するか否かの判定が行われる。 Each time the posture data acquisition section 11b or the sensor unit 15 acquires the posture feature amount of the viewing user, the classification section 11d determines whether or not the posture of the viewing user indicated by the posture feature amount belongs to the starting posture. good. In this case, it is determined whether the posture of the viewing user matches the starting posture at the same frequency as the sampling rate for acquiring the posture feature amount of the viewing user.

視聴ユーザの姿勢とトリガー姿勢とが合致するか否かも同様にして判定され得る。すなわち、分類部11dは、時刻t2における視聴ユーザの姿勢を表す姿勢特徴量とトリガー姿勢を表す姿勢特徴量との類似度を算出し、この類似度が所定の閾値以上のときに、視聴ユーザの姿勢がトリガー姿勢に合致すると判定してもよい。視聴ユーザの姿勢が開始姿勢に合致するか否かを判定するための上記の説明は、視聴ユーザの姿勢がトリガー姿勢に合致するか否かを判定するための処理にも可能な限り当てはまる。 It can be similarly determined whether the viewing user's posture and the trigger posture match. That is, the classification unit 11d calculates the degree of similarity between the posture feature amount representing the posture of the viewing user at time t2 and the posture feature amount representing the trigger posture, and when this degree of similarity is greater than or equal to a predetermined threshold, It may be determined that the posture matches the trigger posture. The above explanation for determining whether the viewing user's posture matches the starting posture also applies to the process for determining whether the viewing user's posture matches the trigger posture as much as possible.

遅延監視部11eは、送信部11cによって動画再生装置10から動画配信装置20に送信されたモーションデータの伝送遅延を監視する。例えば、遅延監視部11eは、モーションデータを含む実パケットに送信前にタイムスタンプを付加し、この送信時に付加されたタイプスタンプと、この実パケットが動画配信装置20で受信されたときに付加されるタイムスタンプと、を用いて動画再生装置10と動画配信装置20との間の伝送路における当該実パケットの伝送時間を求めることができる。遅延監視部11eは、この伝送時間が所定の基準時間以上となったとき又は当該基準時間よりも長いときに当該伝送路において遅延が発生していると判定することができる。遅延監視部11eは、伝送路において一旦遅延が発生していると判定した後に、伝送時間が所定の基準時間よりも短くなったとき又は当該所定の基準時間以下となったときに遅延が解消したと判定することができる。動画配信装置20がサーバであり、動画再生装置10がクライアントである場合には、動画再生装置10から動画配信装置20へのデータの伝送は上り回線を使用して行われる。この場合、遅延監視部11eは、動画再生装置10と動画配信装置20との間の伝送路の上り回線に遅延が発生しているか否かを監視する。遅延監視部11eは、上記のように実パケットの伝送時間を測定してもよいし、モーションデータを含まない疑似パケットを用いて伝送時間を測定してもよい。ある視聴ユーザの動画再生装置10から送信されたモーションデータの伝送に遅延が発生している間に、他の視聴ユーザの動画再生装置10から送信されたモーションデータの伝送には遅延が発生していないと判定されることも有り得る。よって、伝送路における遅延は、視聴ユーザごとに判定されてもよい。また、伝送遅延の発生の有無は、パケットに含まれるタイムスタンプに基づいて動画配信装置20において判定されてもよい。動画再生装置10は、動画配信装置20における伝送遅延の判定結果を受け取っても良い。 The delay monitoring unit 11e monitors the transmission delay of motion data transmitted from the video playback device 10 to the video distribution device 20 by the transmission unit 11c. For example, the delay monitoring unit 11e adds a timestamp to an actual packet including motion data before transmission, and the timestamp added at the time of transmission and the timestamp added when this actual packet is received by the video distribution device 20. The transmission time of the actual packet on the transmission path between the video playback device 10 and the video distribution device 20 can be determined using the time stamp. The delay monitoring unit 11e can determine that a delay has occurred in the transmission path when this transmission time is equal to or longer than a predetermined reference time or when it is longer than the reference time. After once determining that a delay has occurred in the transmission path, the delay monitoring unit 11e determines that the delay has been resolved when the transmission time becomes shorter than a predetermined reference time or becomes equal to or less than the predetermined reference time. It can be determined that When the video distribution device 20 is a server and the video playback device 10 is a client, data is transmitted from the video playback device 10 to the video distribution device 20 using an uplink. In this case, the delay monitoring unit 11e monitors whether a delay has occurred in the uplink of the transmission path between the video playback device 10 and the video distribution device 20. The delay monitoring unit 11e may measure the transmission time of an actual packet as described above, or may measure the transmission time using a pseudo packet that does not include motion data. While a delay occurs in the transmission of motion data transmitted from the video playback device 10 of a certain viewing user, a delay occurs in the transmission of motion data transmitted from the video playback device 10 of another viewing user. It is possible that it will be determined that there is no such thing. Therefore, the delay in the transmission path may be determined for each viewing user. Further, whether or not a transmission delay has occurred may be determined by the video distribution device 20 based on a time stamp included in the packet. The video playback device 10 may receive the determination result of the transmission delay in the video distribution device 20.

再び送信部11cの機能について説明する。送信部11cは、遅延監視部11eにおいて伝送路に遅延が発生していると判定された場合に、ストレージ13に記憶されている基準姿勢識別データ(基準姿勢ID)を送信することができる。基準姿勢識別データは、視聴ユーザの姿勢特徴量を含むモーションデータに代えて送信されてもよい。上記のとおり、基準姿勢識別データは、開始姿勢データ及びトリガー姿勢データを含み得る。送信部11cは、基準姿勢識別データとして、トリガー姿勢データを送信することができる。一実施形態において、分類部11dによって視聴ユーザの姿勢がトリガー姿勢に属すると判定された場合、送信部11cは、モーションデータの伝送に遅延が発生している間、基準姿勢識別データとしてトリガー姿勢を識別する基準姿勢IDを動画配信装置20に送信する。送信部11cは、分類部11dによって視聴ユーザの姿勢が開始姿勢に属すると判定された後の所定インターバル内に当該視聴ユーザの姿勢がトリガー姿勢に属すると判定された場合、送信部11cは、モーションデータの伝送に遅延が発生している間、トリガー姿勢を識別する基準姿勢IDを動画配信装置20に送信する。視聴ユーザの姿勢が開始姿勢に属すると判定された後の視聴ユーザの姿勢がトリガー姿勢にも属すると判定された場合に基準姿勢IDを送信することにより、開始姿勢又はトリガー姿勢の一方のみに属すると判定されたことに応じて基準姿勢IDを送信する場合と比べて、視聴ユーザが意図せずに基準姿勢IDを送信してしまうことを防止又は抑制できる。「モーションデータの伝送に遅延が発生している間」とは、遅延監視部11eにおいて伝送路に遅延が発生していると判定されてから遅延が解消したと判定されるまでの期間を意味してもよい。送信部11cは、開始姿勢を識別する基準姿勢IDを動画配信装置20に送信しなくともよい。 The function of the transmitter 11c will be explained again. The transmitting unit 11c can transmit the reference attitude identification data (reference attitude ID) stored in the storage 13 when the delay monitoring unit 11e determines that a delay has occurred in the transmission path. The reference posture identification data may be transmitted instead of the motion data including the posture feature amount of the viewing user. As mentioned above, the reference attitude identification data may include starting attitude data and trigger attitude data. The transmitter 11c can transmit trigger attitude data as reference attitude identification data. In one embodiment, when the classification unit 11d determines that the orientation of the viewing user belongs to the trigger orientation, the transmission unit 11c selects the trigger orientation as reference orientation identification data while a delay occurs in the transmission of motion data. The reference posture ID to be identified is transmitted to the video distribution device 20. If the viewing user's posture is determined to belong to the trigger posture within a predetermined interval after the classification section 11d determines that the viewing user's posture belongs to the starting posture, the transmitting section 11c transmits motion While a delay occurs in data transmission, a reference posture ID for identifying the trigger posture is transmitted to the video distribution device 20. By transmitting a reference posture ID when it is determined that the posture of the viewing user after the posture of the viewing user belongs to the starting posture is also determined to belong to the trigger posture, the posture of the viewing user is determined to belong to only one of the starting posture or the trigger posture. Compared to the case where the reference posture ID is transmitted in response to the determination, it is possible to prevent or suppress the viewing user from unintentionally transmitting the reference posture ID. "While a delay is occurring in the transmission of motion data" means the period from when the delay monitoring unit 11e determines that a delay has occurred in the transmission path until it is determined that the delay has been resolved. It's okay. The transmitter 11c does not need to transmit the reference posture ID for identifying the starting posture to the video distribution device 20.

次に、コンピュータプロセッサ21により実現される機能についてより具体的に説明する。コンピュータプロセッサ21は、配信プログラムに含まれるコンピュータ読み取り可能な命令を実行することにより、動画生成部21a、動画配信部21b、及びアニメーション生成部21c、として機能する。コンピュータプロセッサ21により実現される機能の少なくとも一部は、動画配信システム1のコンピュータプロセッサ21以外のコンピュータプロセッサにより実現されてもよい。コンピュータプロセッサ21により実現される機能の少なくとも一部は、例えば、動画再生装置10のコンピュータプロセッサ11又はそれ以外の動画配信システム1に備えられたコンピュータプロセッサにより実現されてもよい。 Next, the functions realized by the computer processor 21 will be explained in more detail. The computer processor 21 functions as a video generation section 21a, a video distribution section 21b, and an animation generation section 21c by executing computer-readable instructions included in the distribution program. At least some of the functions realized by the computer processor 21 may be realized by a computer processor other than the computer processor 21 of the video distribution system 1. At least a part of the functions realized by the computer processor 21 may be realized by, for example, the computer processor 11 of the video playback device 10 or a computer processor provided in the video distribution system 1 other than that.

動画配信装置20は、様々な種類の動画を配信することができる。以下では、動画配信装置20がアクターの動きに基づいて生成されるキャラクタオブジェクトのアニメーションを含む動画を配信することを想定する。 The video distribution device 20 can distribute various types of videos. In the following, it is assumed that the video distribution device 20 distributes a video including animation of a character object generated based on the movement of an actor.

動画生成部21aは、アクターに装着されたモーションセンサによって当該アクターの動きを検出する。動画生成部21aは、モーションセンサによって検出されたアクターの体の動きに同期して動くキャラクタのアニメーションを生成することができる。動画生成部21aは、アクターの顔の動きのデジタル表現であるフェイスモーションデータを取得してもよい。この場合、動画生成部21aは、アクターの顔の動きに同期して表情が変わるキャラクタのアニメーションを生成することができる。動画生成部21aは、オブジェクトデータ23aを用いて仮想空間を構築し、この仮想空間と、アクターに対応するキャラクタのアニメーションと、を含む動画を生成することができる。動画生成部21aは、生成した動画にマイクから取得したアクターの音声を合成することができる。アクターの体や表情の動きに同期して動くキャラクタのアニメーションを含む動画の生成については、特許第644615号の明細書に詳細に開示されている。 The video generation unit 21a detects the movement of the actor using a motion sensor attached to the actor. The video generation unit 21a can generate an animation of a character that moves in synchronization with the movement of the actor's body detected by the motion sensor. The video generation unit 21a may acquire face motion data that is a digital representation of the actor's facial movements. In this case, the video generation unit 21a can generate an animation of a character whose expression changes in synchronization with the movement of the actor's face. The video generation unit 21a can construct a virtual space using the object data 23a, and generate a video including this virtual space and an animation of a character corresponding to the actor. The video generation unit 21a can synthesize the generated video with the actor's voice obtained from the microphone. Generation of a moving image including animation of a character that moves in synchronization with the movements of the actor's body and facial expressions is disclosed in detail in the specification of Japanese Patent No. 644615.

動画生成部21aは、動画を視聴している視聴ユーザから当該動画へアバタを参加させるための参加要求を受け付けると、当該視聴ユーザのアバタを含むように動画を生成することができる。視聴ユーザからの参加要求には、当該視聴ユーザを特定するユーザIDが含まれていてもよい。動画生成部21aは、参加要求に含まれているユーザIDに基づいて当該視聴ユーザのアバタを識別するアバタIDを特定し、ストレージ23において当該アバタIDに対応付けて記憶されているパーツ情報に基づいて当該視聴ユーザのアバタを表すアバタオブジェクトを生成することができる。 When the video generation unit 21a receives a participation request for having an avatar participate in the video from a viewing user who is viewing the video, the video generation unit 21a can generate a video so as to include the avatar of the viewing user. The participation request from the viewing user may include a user ID that identifies the viewing user. The video generation unit 21a specifies an avatar ID that identifies the avatar of the viewing user based on the user ID included in the participation request, and based on the parts information stored in the storage 23 in association with the avatar ID. can generate an avatar object representing the avatar of the viewing user.

動画配信部21bは、動画生成部21aにおいて生成された動画を配信する。この動画は、ネットワーク50を介して動画再生装置10に配信される。受信された動画は、動画再生装置10において再生される。 The video distribution unit 21b distributes the video generated by the video generation unit 21a. This video is distributed to the video playback device 10 via the network 50. The received video is played back in the video playback device 10.

動画配信装置20から動画再生装置10aに配信され、この動画再生装置10において再生されている動画の表示例が図9aに示されている。動画再生装置10において再生される動画は、ディスプレイ14に表示され得る。図示のように、動画再生装置10において表示されている動画60は、アクターのキャラクタを表すキャラクタオブジェクト51と、キャラクタオブジェクト51が立つフロアオブジェクト54aと、ステージの後端を画定するスクリーンオブジェクト54bと、動画60を視聴している視聴ユーザのアバタを示すアバタオブジェクト56a~56jと、を含んでいる。キャラクタオブジェクト51は、アクターの体の動きに同期して仮想空間で動くことができる。動画60は、動画配信装置20から多数の動画再生装置10に配信されるため、画像60は、多数のアバタを含んでいる。図9aにおいては、10人の視聴ユーザがアバタを介して動画に参加していることが想定されている。動画に参加可能な視聴ユーザの数は、10より多くともよいし、10より少なくともよい。 A display example of a video distributed from the video distribution device 20 to the video playback device 10a and being played back in the video playback device 10 is shown in FIG. 9a. A video played on the video playback device 10 may be displayed on the display 14. As shown in the figure, the video 60 displayed on the video playback device 10 includes a character object 51 representing an actor's character, a floor object 54a on which the character object 51 stands, and a screen object 54b defining the rear end of the stage. Avatar objects 56a to 56j representing avatars of viewing users who are viewing the video 60 are included. The character object 51 can move in virtual space in synchronization with the movement of the actor's body. Since the video 60 is distributed from the video distribution device 20 to a large number of video playback devices 10, the image 60 includes a large number of avatars. In FIG. 9a, it is assumed that ten viewing users are participating in the video via avatars. The number of viewing users who can participate in the video may be more than 10, or at least less than 10.

ディスプレイ14には、動画60に重複するように、ユーザの操作を受け付けるための操作ボタンが表示されてもよい。図9aに示されている例では、ギフティングを行うためのギフトボタン61と、評価を提供するための評価ボタン62と、アバタによる動画60への参加を申請するためのアバタ参加ボタン63と、が動画60に重畳表示されている。ギフトボタン61、評価ボタン62、及びアバタ参加ボタン63は、視聴ユーザによって選択可能に表示されている。動画60には、これら以外の操作ボタンが表示されてもよい。動画60を視聴している視聴ユーザは、ギフトボタン61の選択により、動画60を配信している配信者や動画60にキャラクタ51を介して出演しているアクターに対して所望のギフトを贈ることができる。視聴ユーザは、評価ボタン62の選択により、動画60への肯定的な評価がなされたことを示す評価情報を動画配信装置20に送信することができる。様々な視聴ユーザからの評価情報を集計し、その集計結果が動画60とともに表示されてもよい。視聴ユーザは、アバタ参加ボタン63の選択により、自らのアバタを動画60に参加させることを要求する参加要求を動画配信装置20に送信することができる。 Operation buttons for accepting user operations may be displayed on the display 14 so as to overlap the video 60. In the example shown in FIG. 9a, a gift button 61 for gifting, an evaluation button 62 for providing an evaluation, and an avatar participation button 63 for applying for participation in the video 60 by the avatar. is displayed superimposed on the video 60. A gift button 61, an evaluation button 62, and an avatar participation button 63 are displayed so as to be selectable by the viewing user. In the video 60, operation buttons other than these may be displayed. A viewing user who is viewing the video 60 can send a desired gift to the distributor who is distributing the video 60 or the actor appearing in the video 60 via the character 51 by selecting the gift button 61. I can do it. By selecting the evaluation button 62, the viewing user can transmit evaluation information indicating that the video 60 has been positively evaluated to the video distribution device 20. Evaluation information from various viewing users may be aggregated, and the aggregate results may be displayed together with the video 60. By selecting the avatar participation button 63, the viewing user can send a participation request to the video distribution device 20 requesting that his or her avatar participate in the video 60.

アニメーション生成部21cは、動画60に参加している視聴者のアバタのアニメーションを生成する。一実施形態において、アニメーション生成部21cは、動画再生装置10から受信した視聴ユーザの姿勢特徴量に基づいて、当該視聴ユーザのアバタのアニメーションを生成する。時間的に連続して受信される姿勢特徴量(例えば、3次元骨格データ)は、視聴ユーザの体の動きを時系列的に表現する。よって、アニメーション生成部21cは、動画再生装置10から視聴ユーザの姿勢特徴量を連続して受信することで、当該姿勢特徴量に基づいて、当該視聴ユーザの体の動きに同期して動くアバタのアニメーションを生成することができる。動画生成部21aは、アニメーション生成部21cによってアバタのアニメーションが生成されると、当該アバタのアニメーションを含むように動画60を生成する。 The animation generation unit 21c generates an animation of avatars of viewers participating in the video 60. In one embodiment, the animation generation unit 21c generates an animation of the avatar of the viewing user based on the posture feature amount of the viewing user received from the video playback device 10. The posture feature amount (for example, three-dimensional skeleton data) that is received continuously in time represents the movement of the viewing user's body in time series. Therefore, by continuously receiving the posture feature amount of the viewing user from the video playback device 10, the animation generation unit 21c generates an avatar that moves in synchronization with the body movement of the viewing user based on the posture feature amount. Animation can be generated. When the animation of the avatar is generated by the animation generation unit 21c, the video generation unit 21a generates the video 60 to include the animation of the avatar.

動画再生装置10から動画配信装置20への上り回線の伝送路で伝送遅延が発生すると、動画配信装置20は、視聴ユーザの姿勢特徴量を時間的に連続して受信することができなくなることがある。動画再生装置10から送信される視聴ユーザの姿勢特徴量のみに基づいてアバタのアニメーションを作成しようとすると、伝送路において伝送遅延が発生した場合、視聴ユーザの動きを反映して動くアバタのアニメーションを生成することができなくなってしまうおそれがある。これに対し、一実施形態におけるアニメーション生成部21cは、視聴ユーザの姿勢特徴量のみに依存せず、動画再生装置10からの基準姿勢識別データ(例えば、基準姿勢ID)に基づいてアバタのアニメーションを生成することができる。具体的には、アニメーション生成部21cは、動画再生装置10から基準姿勢識別データを受信すると、アニメーション管理データ23cを参照することで受信した基準姿勢識別データに対応付けられている登録アニメーションを特定することができ、この特定された登録アニメーションの登録アニメーションIDに対応付けられているアニメーション定義データに基づいてアバタのアニメーションを生成することができる。既述のとおり、基準姿勢識別データは、動画再生装置10の遅延監視部11eによって姿勢特徴量を含むモーションデータの上り回線での伝送に遅延があると判定された場合に、動画再生装置10から動画配信装置20へ送信される。よって、アニメーション生成部21cは、モーションデータの伝送に遅延が発生している間に姿勢特徴量が受信できなかったとしても、その遅延が発生している間に動画再生装置10から送られてくる基準姿勢識別データに基づいてアバタのアニメーションを生成することができる。 If a transmission delay occurs in the uplink transmission path from the video playback device 10 to the video distribution device 20, the video distribution device 20 may not be able to continuously receive posture features of the viewing user in time. be. If an attempt is made to create an avatar animation based only on the posture features of the viewing user transmitted from the video playback device 10, if a transmission delay occurs in the transmission path, the animation of the avatar that moves to reflect the viewing user's movements may not be created. There is a possibility that it will not be possible to generate the data. On the other hand, the animation generation unit 21c in one embodiment generates the animation of the avatar based on the reference posture identification data (for example, the reference posture ID) from the video playback device 10, without relying only on the posture feature amount of the viewing user. can be generated. Specifically, upon receiving the reference posture identification data from the video playback device 10, the animation generation unit 21c identifies the registered animation associated with the received reference posture identification data by referring to the animation management data 23c. The avatar animation can be generated based on the animation definition data associated with the registered animation ID of the specified registered animation. As described above, the reference posture identification data is transmitted from the video playback device 10 when the delay monitoring unit 11e of the video playback device 10 determines that there is a delay in the uplink transmission of motion data including posture features. It is transmitted to the video distribution device 20. Therefore, even if the animation generation unit 21c is unable to receive the posture feature amount while there is a delay in the transmission of motion data, the animation generation unit 21c receives the posture feature amount from the video playback device 10 while the delay is occurring. Avatar animation can be generated based on reference posture identification data.

アバタのアニメーションの生成について説明する。視聴ユーザの姿勢特徴量(例えば、3次元骨格データ)に基づいて生成されるアバタのアニメーションは、視聴ユーザの動きを反映したアバタの動きを表現するものである。例えば、視聴ユーザが右手を腰に当てた位置から斜め上方に向かって持ち上げる動作を行ったと想定する。この場合、視聴ユーザの姿勢特徴量に基づいて当該視聴ユーザのアバタのアニメーションを生成する。このアニメーションを動画に含めることにより、アバタは、当該動画内で、視聴ユーザの動きと同様に右手(アバタの右手に相当するパーツ)を腰に当てた位置から斜め上方に向かって持ち上げる動作を行う。 The generation of avatar animation will be explained. The avatar animation generated based on the posture feature amount (for example, three-dimensional skeleton data) of the viewing user expresses the movement of the avatar that reflects the movement of the viewing user. For example, assume that the viewing user lifts his or her right hand diagonally upward from a position where it is placed on the waist. In this case, an animation of the avatar of the viewing user is generated based on the posture feature amount of the viewing user. By including this animation in the video, the avatar lifts its right hand (the part corresponding to the avatar's right hand) diagonally upward from the position it rests on its waist, similar to the movement of the viewing user in the video. .

他方、伝送路において遅延が発生している場合には、姿勢特徴量に基づくアバタのアニメーションの生成は中断されてもよい。例えば、伝送路において遅延が発生している場合には、送信部11cによる姿勢特徴量の送信を中断してもよく、これに応じてアニメーション生成部21cにおける姿勢特徴量に基づくアバタのアニメーションの生成も中断されてもよい。上記のように、動画配信装置20は、動画再生装置10から受信するパケットに含まれるタイムスタンプに基づいて遅延の有無を判定することができる。伝送路に遅延が発生しているときには、動画配信装置20においてデータ量が大きい姿勢特徴量を適時に受信することは困難となる。かかる場合にも姿勢特徴量に基づくアバタのアニメーションを継続すると、動画内におけるアバタの動きが不自然になってしまうおそれがある。このようなアバタの不自然な動きは、配信される動画のクオリティを劣化させるため望ましくない。伝送路において遅延が発生している場合に、姿勢特徴量に基づくアバタのアニメーションの生成を中断することにより、アバタが不自然な動きを行わないようにすることができる。姿勢特徴量に基づくアバタのアニメーションの生成を中断しても、アニメーション生成部21cは、動画再生装置10からの基準姿勢識別データに基づいてアバタの登録アニメーションIDを特定し、この特定された登録アニメーションIDに対応付けられているアニメーション定義データに基づいてアバタのアニメーションを生成することができる。伝送路において遅延が発生している間に、視聴ユーザが基準姿勢と合致する姿勢を取らなかった場合には、動画配信装置20は、基準姿勢識別データを受信しない。この場合には、アニメーション生成部21cは、当該視聴ユーザのアバタのアニメーションを生成しなくともよい。アニメーション生成部21cがアバタのアニメーションを生成しない場合には、当該アバタは動画内で静止している。別の実施形態において、伝送路において遅延が発生している間に動画配信装置20が基準姿勢識別データを受信しない場合には、アバタについて定められている基本動作に従った動きを行うように当該アバタのアニメーションを作成してもよい。アバタの基本動作とは、例えば、手を上下に揺らす、手を左右に揺らす、飛び跳ねるなどの予め定められた動作を指す。この基本動作は、複数の視聴ユーザに共通に設定されていてもよい。アバタの基本動作は、動画再生装置10からのアバタの動きに関する情報(3次元骨格データや基準姿勢識別データ)を受信しなくてもアバタによって行われ得る点で、アニメーション生成部21cにおいて生成されるアニメーションとは異なっている。 On the other hand, if a delay occurs in the transmission path, generation of the avatar animation based on the posture feature amount may be interrupted. For example, if a delay occurs in the transmission path, the transmission of the posture feature by the transmitter 11c may be interrupted, and in response, the animation generator 21c generates an avatar animation based on the posture feature. may also be interrupted. As described above, the video distribution device 20 can determine whether there is a delay based on the time stamp included in the packet received from the video playback device 10. When a delay occurs in the transmission path, it becomes difficult for the video distribution device 20 to timely receive posture feature amounts with a large amount of data. Even in such a case, if the animation of the avatar based on the posture feature is continued, the movement of the avatar in the video may become unnatural. Such unnatural movements of the avatar are undesirable because they degrade the quality of the video being distributed. When a delay occurs in the transmission path, by interrupting the generation of avatar animation based on posture features, it is possible to prevent the avatar from making unnatural movements. Even if the generation of the avatar animation based on the posture feature amount is interrupted, the animation generation unit 21c specifies the registered animation ID of the avatar based on the reference posture identification data from the video playback device 10, and generates the specified registered animation ID. An avatar animation can be generated based on the animation definition data associated with the ID. If the viewing user does not take a posture that matches the reference posture while a delay occurs in the transmission path, the video distribution device 20 does not receive the reference posture identification data. In this case, the animation generation unit 21c does not need to generate the animation of the avatar of the viewing user. When the animation generation unit 21c does not generate an animation of the avatar, the avatar remains stationary within the video. In another embodiment, if the video distribution device 20 does not receive the reference posture identification data while a delay occurs on the transmission path, the video distribution device 20 sends the video distribution device 20 an instruction to perform a movement in accordance with the basic motion determined for the avatar. You may also create an animation for your avatar. The basic movements of the avatar refer to predetermined movements such as shaking the hands up and down, shaking the hands from side to side, and jumping. This basic operation may be set in common for a plurality of viewing users. The basic movements of the avatar are generated by the animation generation unit 21c in that they can be performed by the avatar without receiving information regarding the movement of the avatar (three-dimensional skeleton data or reference posture identification data) from the video playback device 10. It's different from animation.

アニメーション生成部21cによってアバタのアニメーションが生成されると、動画生成部21aによって当該アニメーションを含む動画が生成され、このアバタのアニメーションを含む動画が動画配信部21bによって動画再生装置10に配信される。図9aに示されている動画60にアバタオブジェクト56aのアニメーションが含まれる場合には、アバタオブジェクト56aのアニメーションを含む動画60が表示される。例えば、アバタオブジェクト56aが右手を挙げるアニメーションが生成された場合には、図9bに示されているように、動画60内においてアバタオブジェクト56aが右手を挙げる動きを行う。 When the animation generation unit 21c generates the animation of the avatar, the animation generation unit 21a generates a video including the animation, and the video distribution unit 21b distributes the video including the avatar animation to the video playback device 10. When the animation 60 shown in FIG. 9a includes the animation of the avatar object 56a, the animation 60 including the animation of the avatar object 56a is displayed. For example, when an animation is generated in which the avatar object 56a raises its right hand, the avatar object 56a raises its right hand in the moving image 60, as shown in FIG. 9b.

上記のように、動画配信装置20は、登録が要求されているユーザアニメーションを動画に含めるためのトリガーとなる追加基準姿勢を決定するよう動画再生装置10に要求してもよい。追加基準姿勢の決定方法の一部の態様については既述のとおりであるが、図8をさらに参照して追加基準姿勢を決定する別の態様について説明する。以下の例では、ユーザの画像の特徴点を抽出し、その特徴点における姿勢特徴量の二乗平均平方根を利用して追加基準姿勢が決定される。まず、動画再生装置10は、ユーザアニメーションとして登録したい動きを行うようにユーザに指示し、当該指示に基づいて登録したい動きを行っているユーザを所定のフレームレートで撮像することにより複数のフレームを含む撮像画像を得る。動画再生装置10は、抽出された複数の特徴点の各々について姿勢特徴量を得る。ユーザを撮像した撮像画像の複数のフレームの各々における特徴点の抽出については、図7を参照して既に説明したので、繰り返しの説明は行わない。 As described above, the video distribution device 20 may request the video playback device 10 to determine an additional reference posture that becomes a trigger for including the user animation whose registration is requested in the video. Although some aspects of the method for determining the additional reference posture have been described above, another aspect of determining the additional reference posture will be described with further reference to FIG. 8. In the example below, a feature point of a user's image is extracted, and an additional reference posture is determined using the root mean square of the posture feature amount at the feature point. First, the video playback device 10 instructs the user to perform a movement that the user wants to register as a user animation, and based on the instruction, captures a plurality of frames by capturing an image of the user performing the movement that the user wants to register at a predetermined frame rate. Obtain a captured image containing the image. The video playback device 10 obtains posture feature amounts for each of the plurality of extracted feature points. Extraction of feature points in each of a plurality of frames of a captured image of a user has already been described with reference to FIG. 7, so a repeated explanation will not be given.

図8は、第0フレームから第23フレームまでの24フレームの各々における姿勢特徴量を含む表を示している。図8の表においては、特徴点P1~P6の各々の姿勢特徴量が、「P1」欄~「P6」欄にそれぞれ示されている。この姿勢特徴量は、0~1.0の範囲に正規化されている。動画再生装置10は、各特徴点P1~P6の姿勢特徴量の二乗平均平方根(RMS)をフレームごとに算出する。N個の特徴点P1~PNの各々における姿勢特徴量をxi(ただし、iは1~Nの値をとる。)とすると、特徴点P1~PNの姿勢特徴量のRMS(x)は以下の式で表される。
FIG. 8 shows a table including posture feature amounts for each of the 24 frames from the 0th frame to the 23rd frame. In the table of FIG. 8, the posture feature amount of each of the feature points P1 to P6 is shown in columns "P1" to "P6", respectively. This posture feature amount is normalized to a range of 0 to 1.0. The video playback device 10 calculates the root mean square (RMS) of the posture feature amount of each feature point P1 to P6 for each frame. If the posture feature at each of the N feature points P 1 to P N is x i (where i takes a value of 1 to N), then the RMS of the posture feature at the feature points P1 to P N ( ) is expressed by the following formula.

図8には、フレームごとに算出されたRMS(x)が記載されている。動画再生装置10は、RMS(x)以外に、各フレームについて、各特徴点における姿勢特徴量の平均値、及び、当該フレームのRMS(x)と前フレームのRMS(x)との差を示すRMS差を算出しても良い。動画再生装置10は、フレームごとに、RMS差の正負を示す正負フラグ、RMS差の正負が逆転したか否かを示す反転フラグを求めてもよい。例えば、第2フレームにおけるRMS差は、第2フレームにおけるRMS(x2)と第1フレームにおけるRMS(x1)との差である。正負フラグは、例えば、RMS差が正のときに「1」であり、RMS差が負のときに「0」となる。反転フラグは、例えば、RMS差の符号が逆転したときに「1」であり、RMS差の符号が逆転していない(つまり、全フレームと符号が同じ)にときに「0」となる。図8には、これらの平均値、RMS差、正負フラグ、及び反転フラグが含められている。図8においては、第4フレーム、第10フレーム、第16フレーム、第17フレーム、第19フレーム、及び第21フレームでその直前のフレームとRMS差の正負が逆転しているため、反転フラグに「1」が設定されている。第0フレームよりも先行するフレームは存在しないため、第0フレームについてはRMS差が空欄になっている。 FIG. 8 shows RMS(x) calculated for each frame. In addition to the RMS(x), the video playback device 10 indicates, for each frame, the average value of the posture feature amount at each feature point and the difference between the RMS(x) of the current frame and the RMS(x) of the previous frame. An RMS difference may also be calculated. The video playback device 10 may obtain, for each frame, a positive/negative flag indicating whether the RMS difference is positive or negative, and an inversion flag indicating whether the sign of the RMS difference has been reversed. For example, the RMS difference in the second frame is the difference between the RMS (x 2 ) in the second frame and the RMS (x 1 ) in the first frame. For example, the positive/negative flag is "1" when the RMS difference is positive, and is "0" when the RMS difference is negative. For example, the inversion flag is "1" when the sign of the RMS difference is reversed, and becomes "0" when the sign of the RMS difference is not reversed (that is, the sign is the same as that of all frames). FIG. 8 includes these average values, RMS differences, positive/negative flags, and inversion flags. In FIG. 8, the sign of the RMS difference in the 4th frame, 10th frame, 16th frame, 17th frame, 19th frame, and 21st frame is reversed from that of the immediately preceding frame, so the reversal flag is set as "1" is set. Since there is no frame preceding the 0th frame, the RMS difference for the 0th frame is blank.

反転フラグが「1」のフレームにおいては、前フレームからRMS差の符号が逆転しているから、当該フレームにおいてユーザが大きな動きを行ったと推定される。反転フラグによって検出可能な大きな動きは、例えば、手を振る、まばたきをするなど周期的な動作であることが多い。そこで、本発明の一実施形態においては、反転フラグの「1」に設定されているフレーム、すなわち姿勢特徴量のRMS差の符号が前フレームと逆転したフレームを開始フレームとし、この開始フレームからRMS差の符号が再び反転するまで(次に反転フラグが「1」になるまで)の区間について注目することが容易になる。この開始フレームにおけるユーザの姿勢を開始姿勢とすることができる。また、開始フレームの次に反転フラグが「1」に設定されているフレームをトリガーフレームとし、このトリガーフレームにおけるユーザの姿勢をトリガー姿勢とすることができる。このように、反転フラグが「1」になってから次に反転フラグが「1」になるまでの区間に着目してユーザの動作や姿勢を解析できる。図8に示されている例では、第4フレームにおいて反転フラグが初めて「1」になっており、第10フレームで反転フラグが2回目に「1」になっている。したがって、第4フレームにおけるユーザの姿勢を開始姿勢とし、第10フレームにおけるユーザの姿勢をトリガー姿勢とする周期性のある動作やそのトリガー姿勢の抽出を低い演算コストで可能にする。開始姿勢を示す開始姿勢データ及びトリガー姿勢を示すトリガー姿勢データは、二乗平均平方根誤差(RMSE:Root Mean Squared Error)や平均平方二乗誤差率(RMSPTE:Root Mean Squared Percentage Error)、または撮像画像から算出または推定することができる。 In a frame where the reversal flag is "1", the sign of the RMS difference is reversed from the previous frame, so it is estimated that the user made a large movement in that frame. Large movements that can be detected by the reversal flag are often periodic movements such as waving a hand or blinking an eye. Therefore, in an embodiment of the present invention, a frame for which the inversion flag is set to "1", that is, a frame in which the sign of the RMS difference in posture features is reversed from the previous frame, is set as the start frame, and the RMS It becomes easy to pay attention to the interval until the sign of the difference is reversed again (until the reversal flag becomes "1"). The posture of the user in this starting frame can be set as the starting posture. Further, a frame in which the reversal flag is set to "1" after the start frame can be set as a trigger frame, and the user's posture in this trigger frame can be set as the trigger posture. In this way, the user's motion and posture can be analyzed by focusing on the period from when the reversal flag becomes "1" until the next time when the reversal flag becomes "1". In the example shown in FIG. 8, the reversal flag becomes "1" for the first time in the fourth frame, and the reversal flag becomes "1" for the second time in the tenth frame. Therefore, it is possible to extract periodic motions and their trigger postures with the user's posture in the fourth frame as the starting posture and the user's posture in the tenth frame as the trigger posture at a low calculation cost. The starting attitude data indicating the starting attitude and the trigger attitude data indicating the trigger attitude are calculated from the Root Mean Squared Error (RMSE), the Root Mean Squared Percentage Error (RMSPTE), or the captured image. or can be estimated.

図8に示されている例では、第16フレームと第17フレームにおいていずれも反転フラグが「1」に設定されている。連続するフレーム間の時間間隔は極めて短いため、これらの隣接するフレームの各々におけるユーザの姿勢を開始姿勢及びトリガー姿勢とすることは適切でない可能性がある。そこで、開始フレームとトリガーフレームとの間に存在すべきフレーム数の下限である下限フレーム数が定められていてもよい。下限フレーム数は、例えば、通信パケットの圧縮、近隣フレームとの差分、及びこれら以外の要素を考慮して3フレーム以上としてもよい。開始フレームとトリガーフレームとの間の時間間隔の下限が定められても良い。開始フレームとトリガーフレームとの間の時間間隔の下限は、例えば、動作周波数、対象とするユーザの動作、及びこれら以外の要素を考慮して、1秒以上、2秒以上、3秒以上、4秒以上、5秒以上、又はこれら以外の下限としてもよい。仮に、下限フレーム数を3フレームとした場合、図8において第4フレームと第10フレームとの間には下限フレーム数を超える5フレームが存在しているから、第10フレームをトリガーフレームと扱うことができる。仮に第7フレームにおいて反転フラグが「1」に設定されたとすると、第4フレームと第7フレームとの間には下限フレーム数以下の2フレームしか存在していないから第7フレームをトリガーフレームとせずにその次に反転フラグが「1」になる第10フレームをトリガーフレームとすることができる。しかしながら、この第10フレームから次の対象フレームとなる16フレームまでのRMSPEは概ね1以下であるから、第10フレームを雑音と判定し、トリガーフレームとして処理しなくともよい。 In the example shown in FIG. 8, the reversal flag is set to "1" in both the 16th frame and the 17th frame. Since the time interval between successive frames is very short, it may not be appropriate to use the user's pose in each of these adjacent frames as the starting pose and the trigger pose. Therefore, a lower limit number of frames may be determined, which is the lower limit of the number of frames that should exist between the start frame and the trigger frame. The lower limit number of frames may be set to 3 frames or more, for example, taking into account compression of communication packets, differences with neighboring frames, and other factors. A lower limit on the time interval between the start frame and the trigger frame may be defined. The lower limit of the time interval between the start frame and the trigger frame is, for example, 1 second or more, 2 seconds or more, 3 seconds or more, 4 seconds or more, taking into account the operating frequency, the target user's behavior, and other factors. It is good also as a lower limit of 2 seconds or more, 5 seconds or more, or other than these. If the lower limit number of frames is 3 frames, there are 5 frames that exceed the lower limit frame number between the 4th frame and the 10th frame in FIG. 8, so the 10th frame can be treated as a trigger frame. I can do it. If the reversal flag is set to "1" in the 7th frame, the 7th frame is not set as the trigger frame because there are only 2 frames that are less than the minimum number of frames between the 4th frame and the 7th frame. Then, the 10th frame in which the inversion flag becomes "1" can be set as the trigger frame. However, since the RMSPE from the 10th frame to the 16th frame, which is the next target frame, is approximately 1 or less, the 10th frame may be determined to be noise and not be processed as a trigger frame.

以上のように、ユーザの特徴点における姿勢特徴量の二乗平均平方根を利用して追加基準姿勢(開始姿勢及びトリガー姿勢)を定めることにより、候補フレームやサンプル動画を提示しなくともユーザアニメーションの登録並びに当該ユーザアニメーションに対応する開始姿勢及びトリガー姿勢を決定することができる。 As described above, by determining additional reference postures (starting posture and trigger posture) using the root mean square of the posture features at the user's feature points, user animation can be registered without presenting candidate frames or sample videos. In addition, a starting posture and a trigger posture corresponding to the user animation can be determined.

次に、図10を参照して、一態様による動画再生方法に含まれる処理の一部について説明する。図10は、一実施形態における動画再生方法における処理の一部の流れを示すフロー図である。図10の動画再生方法においては、視聴ユーザが動画再生装置10により動画を再生しており、当該動画に自らのアバタを参加させていることが想定されている。つまり、視聴ユーザが視聴している動画には自らのアバタが含まれている。図10に示されている処理は、動画の視聴中に行われる姿勢特徴量及び基準姿勢識別データの動画配信装置20への送信に関する。 Next, with reference to FIG. 10, a part of the processing included in the video playback method according to one embodiment will be described. FIG. 10 is a flow diagram showing a part of the process in the video playback method in one embodiment. In the video playback method of FIG. 10, it is assumed that the viewing user is playing back the video using the video playback device 10 and has his or her avatar participating in the video. In other words, the video that the viewing user is viewing includes his or her own avatar. The process shown in FIG. 10 relates to the transmission of posture feature amounts and reference posture identification data to the video distribution device 20, which is performed while viewing a video.

まず、ステップS11において、動画を視聴している視聴ユーザの姿勢特徴量に関するデータが取得される。また、ステップS11では、取得された姿勢特徴量が即時に動画配信装置20に送信される。ステップS11においては、姿勢特徴量及び他のデータを含むモーションデータが動画配信装置20に送信されてもよい。視聴ユーザの姿勢特徴量は、当該視聴ユーザの姿勢を表す3次元骨格データであってもよい。姿勢特徴量は、所定のサンプリング時間間隔ごとに取得されてもよい。視聴ユーザの姿勢特徴量の取得は、例えば、上記の姿勢データ取得部11b又はセンサユニット15で行われる。姿勢特徴量の送信は、例えば、上記の送信部11cにより行われる。 First, in step S11, data regarding the posture feature amount of the viewing user who is viewing the video is acquired. Furthermore, in step S11, the acquired posture feature amount is immediately transmitted to the video distribution device 20. In step S11, motion data including posture features and other data may be transmitted to the video distribution device 20. The viewing user's posture feature amount may be three-dimensional skeleton data representing the posture of the viewing user. The posture feature amount may be acquired at every predetermined sampling time interval. The posture feature amount of the viewing user is acquired by, for example, the posture data acquisition section 11b or the sensor unit 15 described above. The posture feature amount is transmitted, for example, by the above-mentioned transmitter 11c.

次に、ステップS12において、ステップS11で取得された視聴ユーザの姿勢特徴量に基づいて、当該視聴ユーザの姿勢が予め定められた基準姿勢に属するか否かが判定される。この判定は、例えば、上記の分類部11dにより行われる。視聴ユーザの姿勢が基準姿勢に属しない場合には、処理はステップS11に戻り、ステップS11において姿勢特徴量の取得が引き続き行われる。視聴ユーザの姿勢が基準姿勢のいずれかに属すると判定された場合には、処理は、ステップS13に進む。 Next, in step S12, based on the posture feature amount of the viewing user acquired in step S11, it is determined whether the posture of the viewing user belongs to a predetermined reference posture. This determination is performed, for example, by the classification section 11d described above. If the viewing user's posture does not belong to the reference posture, the process returns to step S11, and acquisition of posture feature amounts is continued in step S11. If it is determined that the viewing user's posture belongs to any of the reference postures, the process proceeds to step S13.

ステップS13では、動画再生装置10と動画配信装置20との間の伝送路においてモーションデータの送信に遅延が発生しているか否かが判定される。この判定は、例えば、上記の遅延監視部11eによって行われる。伝送路において遅延が発生していないと判定された場合には、処理はステップS11に戻り、ステップS11において姿勢特徴量の取得が引き続き行われる。伝送路において遅延が発生していると判定された場合には、処理はステップS14に進む。 In step S13, it is determined whether there is a delay in the transmission of motion data on the transmission path between the video playback device 10 and the video distribution device 20. This determination is made, for example, by the delay monitoring unit 11e described above. If it is determined that no delay has occurred in the transmission path, the process returns to step S11, and acquisition of posture feature amounts is continued in step S11. If it is determined that a delay has occurred in the transmission path, the process proceeds to step S14.

ステップS14では、ステップS12において視聴ユーザの姿勢が属すると判定された基準姿勢を識別する基準姿勢識別データが動画配信装置20に送信される。基準姿勢識別データの送信は、例えば、上記の送信部11cにより行われる。ステップS12で視聴ユーザの姿勢が開始姿勢に属すると判定され、その後さらにトリガー姿勢に属すると判定された場合には、このトリガー姿勢を識別するトリガー姿勢データが送信される。 In step S14, reference posture identification data that identifies the reference posture to which the posture of the viewing user was determined to belong in step S12 is transmitted to the video distribution device 20. Transmission of the reference posture identification data is performed by, for example, the above-mentioned transmitter 11c. If it is determined in step S12 that the viewing user's posture belongs to the starting posture, and then it is further determined that the posture belongs to the trigger posture, trigger posture data identifying this trigger posture is transmitted.

以上のステップS11~ステップS14の各工程における処理と並行して、動画配信装置20から動画再生装置10に対して動画が継続して配信されている。動画の配信中には、ステップS11~ステップS14の処理が繰り返し行われる。ステップS13において伝送路において遅延が発生していないと判定されている場合には、配信される動画には視聴ユーザの姿勢特徴量に基づいて生成されたアバタのアニメーションが含められる。逆に、ステップS13において伝送路において遅延が発生していると判定された場合には、配信される動画には動画配信装置20に送信された基準姿勢識別データに基づいて特定されるアバタの登録アニメーションが含められる。 In parallel with the processing in each step from step S11 to step S14, the video is continuously distributed from the video distribution device 20 to the video playback device 10. During video distribution, the processes of steps S11 to S14 are repeated. If it is determined in step S13 that no delay has occurred in the transmission path, the video to be distributed includes an avatar animation generated based on the posture feature amount of the viewing user. Conversely, if it is determined in step S13 that a delay has occurred in the transmission path, the video to be distributed does not include the registration of the avatar specified based on the reference posture identification data transmitted to the video distribution device 20. Animation may be included.

ステップS13は、ステップS11の前又はステップS11とステップS12との間に実行されてもよい。これ以外にも、図10に示されている処理の順番は、適宜変更されてもよい。また、ステップS11~ステップS14の処理に加えて、図10に明示的に記載されていない処理が行われてもよい。 Step S13 may be executed before step S11 or between step S11 and step S12. In addition to this, the order of the processes shown in FIG. 10 may be changed as appropriate. Further, in addition to the processes in steps S11 to S14, processes not explicitly described in FIG. 10 may be performed.

次に、図11から図13を参照して、本発明の他の実施形態について説明する。図11には、本発明の他の実施形態による動画配信システム101のブロック図が示されている。動画配信システム101は、動画再生装置110及び動画配信装置120を備えている。動画配信システム101の動画再生装置110は、コンピュータプロセッサ11が顔特徴量取得部11fとして機能し、ストレージ13が基準表情管理データ13bを記憶している点で動画配信システム1の動画再生装置10と異なる。動画配信システム101の動画配信装置120は、ストレージ23が登録表情管理データ23dを記憶している点で動画配信システム1の動画配信装置20と異なっている。以下では、図11の実施形態において、図1の実施形態と異なる点を説明する。図11の実施形態において図1の実施形態と共通する事項については説明を省略する。 Next, other embodiments of the present invention will be described with reference to FIGS. 11 to 13. FIG. 11 shows a block diagram of a video distribution system 101 according to another embodiment of the present invention. The video distribution system 101 includes a video playback device 110 and a video distribution device 120. The video playback device 110 of the video distribution system 101 is different from the video playback device 10 of the video distribution system 1 in that the computer processor 11 functions as a facial feature acquisition unit 11f, and the storage 13 stores reference facial expression management data 13b. different. The video distribution device 120 of the video distribution system 101 differs from the video distribution device 20 of the video distribution system 1 in that the storage 23 stores registered facial expression management data 23d. In the following, differences between the embodiment of FIG. 11 and the embodiment of FIG. 1 will be explained. In the embodiment of FIG. 11, descriptions of matters common to the embodiment of FIG. 1 will be omitted.

顔特徴量取得部11fは、動画再生装置110を使用して動画を視聴する視聴ユーザの顔の特徴を表す顔特徴量を取得する。具体的には、顔特徴量取得部11fは、センサユニット15により取得された視聴ユーザの顔を含む画像から、例えばHOG、SIFT、SURF、又はこれら以外の公知のアルゴリズムに従って顔の特徴を表す特徴量を算出する。例えば、SIFTにより算出される顔特徴量は、128次元の特徴量として算出される。このように、顔特徴量は、姿勢データ取得部11bで取得される姿勢特徴量と同様にデータ量が大きい。 The facial feature amount acquisition unit 11f acquires facial feature amounts representing facial features of a viewing user who views a video using the video playback device 110. Specifically, the facial feature acquisition unit 11f extracts features representing facial features from the image including the viewing user's face acquired by the sensor unit 15, for example, according to HOG, SIFT, SURF, or other known algorithms. Calculate the amount. For example, the facial feature amount calculated by SIFT is calculated as a 128-dimensional feature amount. In this way, the facial feature amount has a large amount of data, similar to the posture feature amount acquired by the posture data acquisition unit 11b.

図12は、基準表情管理データの例を示している。図12に示されているように、ストレージ13には、基準表情を識別する基準表情識別データと対応付けて、当該基準表情を示す基準表情識別データが記憶されている。基準表情識別データは、例えば、基準表情を識別する基準表情IDである。基準表情IDは、例えば数ビットで表される識別コードである。基準表情IDのビット数は、動画配信システム1で使用される基準表情の数に応じて定めることができる。基準表情IDは、例えば、10ビット以下の情報量のデータで表される。基準表情IDは、5ビット以下、4ビット以下、3ビット以下、2ビット以下の情報量のデータで表されてもよい。したがって、基準表情識別データ(基準表情ID)は、顔特徴量よりも大幅にデータ量が小さい。 FIG. 12 shows an example of reference facial expression management data. As shown in FIG. 12, the storage 13 stores standard facial expression identification data indicating the standard facial expression in association with standard facial expression identifying data for identifying the standard facial expression. The standard facial expression identification data is, for example, a standard facial expression ID that identifies a standard facial expression. The reference facial expression ID is, for example, an identification code expressed by several bits. The number of bits of the standard facial expression ID can be determined according to the number of standard facial expressions used in the video distribution system 1. The reference facial expression ID is represented by, for example, data with an information amount of 10 bits or less. The reference facial expression ID may be represented by data with an information amount of 5 bits or less, 4 bits or less, 3 bits or less, or 2 bits or less. Therefore, the standard facial expression identification data (standard facial expression ID) has a much smaller amount of data than the facial feature amount.

基準表情識別データは、基準表情を示すデータである。動画配信システム1には、一又は複数の基準表情を設定し得る。基準表情は、例えば、正面を向いて目を大きく見開いた表情である。基準表情識別データは、基準表情を記述するデータであり、顔特徴量取得部11fにより算出される顔特徴量と同じデータ構造を有する。顔特徴量取得部11fにより算出される顔特徴量がSIFTアルゴリズムで算出されるSIFT特徴量である場合には、基準表情識別データは、基準表情をSIFT特徴量と同じデータ形式で記述したものである。 The standard facial expression identification data is data indicating a standard facial expression. One or more reference facial expressions can be set in the video distribution system 1. The standard facial expression is, for example, a facial expression with eyes wide open facing the front. The reference facial expression identification data is data that describes a reference facial expression, and has the same data structure as the facial feature amount calculated by the facial feature amount acquisition unit 11f. When the facial feature amount calculated by the facial feature amount acquisition unit 11f is a SIFT feature amount calculated by the SIFT algorithm, the reference facial expression identification data is the one in which the reference facial expression is described in the same data format as the SIFT feature amount. be.

分類部11dは、視聴ユーザの表情を分類する分類器により、当該視聴ユーザの顔特徴量に基づいて、当該視聴ユーザの表情が予め定められた基準表情に属するか否かを判定する。一実施形態において、分類部11dは、教師データを得るために、基準表情を表す画像をディスプレイ14に表示し、この基準表情を表す画像に従った表情をする視聴ユーザに促すことができる。コンテンツ再生装置110は、この基準表情を表す画像の表示に応答して視聴ユーザが作った表情の顔特徴量を顔特徴量取得部11fにより取得する。分類部11dは、基準表情を表す画像に対して視聴ユーザが作った表情の表情特徴量を教師データとして学習することにより分類器を作成することができる。 The classification unit 11d uses a classifier that classifies the facial expressions of the viewing user to determine whether the facial expression of the viewing user belongs to a predetermined reference facial expression based on the facial feature amount of the viewing user. In one embodiment, in order to obtain training data, the classification unit 11d can display an image representing a reference facial expression on the display 14 and prompt the viewing user to make a facial expression according to the image representing the standard facial expression. The content reproduction device 110 uses the facial feature acquisition unit 11f to acquire the facial feature amount of the facial expression made by the viewing user in response to the display of the image representing the reference facial expression. The classification unit 11d can create a classifier by learning, as training data, the facial features of the facial expressions made by the viewing user with respect to the image representing the reference facial expression.

送信部11cは、顔特徴量取得部11fにより取得された視聴ユーザの顔の特徴を表す顔特徴量を含むモーションデータを動画配信装置120に送信する。送信部11cは、遅延監視部11eにおいて伝送路においてモーションデータの伝送に遅延が発生していると判定された場合に、ストレージ13に記憶されている基準表情識別データ(基準表情ID)を動画配信装置120へ送信することができる。遅延監視部11eにおいて伝送路に遅延が発生していると判定された場合には、基準表情識別データは、顔特徴量に代えて動画配信装置120へ送信されてもよい。 The transmitting unit 11c transmits to the video distribution device 120 motion data including facial features representing facial features of the viewing user acquired by the facial feature acquiring unit 11f. The transmitting unit 11c transmits the standard facial expression identification data (standard facial expression ID) stored in the storage 13 to video distribution when the delay monitoring unit 11e determines that a delay has occurred in the transmission of motion data on the transmission path. The information may be transmitted to device 120. If the delay monitoring unit 11e determines that a delay has occurred in the transmission path, the reference facial expression identification data may be transmitted to the video distribution device 120 instead of the facial feature amount.

動画配信装置20において、アニメーション生成部21cは、動画60に参加している視聴者のアバタのアニメーションを生成する。一実施形態において、アニメーション生成部21cは、動画再生装置110から受信した視聴ユーザの顔特徴量に基づいて、当該視聴ユーザのアバタのアニメーションを生成する。アニメーション生成部21cは、動画再生装置110から視聴ユーザの顔特徴量を連続して受信することで、当該顔特徴量に基づいて、当該視聴ユーザの顔の動き(表情の変化)に同期して表情を変化させるアバタのアニメーションを生成することができる。 In the video distribution device 20, the animation generation unit 21c generates animations of avatars of viewers participating in the video 60. In one embodiment, the animation generation unit 21c generates an animation of the avatar of the viewing user based on facial feature amounts of the viewing user received from the video playback device 110. The animation generation unit 21c continuously receives facial features of the viewing user from the video playback device 110, and generates animations in synchronization with facial movements (changes in facial expression) of the viewing user based on the facial features. It is possible to generate avatar animations that change facial expressions.

一実施形態におけるアニメーション生成部21cは、登録表情管理データ23dを参照することにより、動画再生装置110からの基準表情識別データ(例えば、基準表情ID)に基づいて、表情の動きを含むアバタのアニメーションを生成することができる。図13に、図11の実施形態における登録表情管理データ23dの例が示されている。図13に示されているように、登録表情管理データ23dは、基準表情識別データ(登録表情ID)と、登録表情を識別する登録表情識別データ(登録表情ID)と、アバタの表情の動きを含むアニメーションを特定するためのアニメーション定義データと、を有する。このアニメーション定義データは、アバタの表情の動きを定義するデータである。登録表情管理データ23dに含まれるアニメーション定義データは、アバタの顔の特徴点の位置を時系列的に記述するデータであってもよい。アニメーション生成部21cは、動画再生装置110から基準表情識別データを受信すると、上記のアニメーション管理データ23dを参照することにより、受信した基準表情識別データに対応付けられている登録表情識別データを特定することができ、この特定された登録表情識別データに対応付けられているアニメーション定義データに基づいて表情の動きを含むアバタのアニメーションを生成することができる。 The animation generation unit 21c in one embodiment generates an avatar animation including facial movements based on the standard facial expression identification data (for example, standard facial expression ID) from the video playback device 110 by referring to the registered facial expression management data 23d. can be generated. FIG. 13 shows an example of registered facial expression management data 23d in the embodiment of FIG. 11. As shown in FIG. 13, the registered facial expression management data 23d includes reference facial expression identification data (registered facial expression ID), registered facial expression identification data (registered facial expression ID) that identifies registered facial expressions, and information about movements of facial expressions of the avatar. and animation definition data for specifying the included animation. This animation definition data is data that defines the movements of the avatar's facial expressions. The animation definition data included in the registered facial expression management data 23d may be data that describes the positions of the feature points of the avatar's face in time series. When receiving the standard facial expression identification data from the video playback device 110, the animation generation unit 21c identifies the registered facial expression identification data that is associated with the received standard facial expression identification data by referring to the animation management data 23d. An animation of the avatar including facial movements can be generated based on the animation definition data associated with the specified registered facial expression identification data.

次に、図14を参照して、本発明の他の実施形態について説明する。図14には、本発明の他の実施形態による動画配信システム201のブロック図が示されている。概して言えば、図1に示されている動画配信システム1においては、視聴ユーザの姿勢を表す姿勢特徴量がリアルタイムで伝送されるのに対し、図14に示されている動画配信システム201においては、視聴ユーザが特徴のある動きを行った場合にのみ当該視聴ユーザの姿勢特徴量が伝送される点で両者は異なっている。動画配信システム201は、動画再生装置210及び動画配信装置220を備えている。動画配信システム201の動画再生装置210は、コンピュータプロセッサ11が判定部11g及び送信部11hとして機能する。動画再生装置210は基準表情管理データ13bを有していなくともよく、動画配信装置220はアニメーション管理データ23cを有していなくともよい。図14の実施形態において図1の実施形態と共通する事項については説明を省略する。 Next, referring to FIG. 14, another embodiment of the present invention will be described. FIG. 14 shows a block diagram of a video distribution system 201 according to another embodiment of the present invention. Generally speaking, in the video distribution system 1 shown in FIG. 1, posture features representing the posture of the viewing user are transmitted in real time, whereas in the video distribution system 201 shown in FIG. The two differ in that the posture feature amount of the viewing user is transmitted only when the viewing user makes a characteristic movement. The video distribution system 201 includes a video playback device 210 and a video distribution device 220. In the video playback device 210 of the video distribution system 201, the computer processor 11 functions as a determination unit 11g and a transmission unit 11h. The video playback device 210 does not need to have the reference facial expression management data 13b, and the video distribution device 220 does not need to have the animation management data 23c. In the embodiment of FIG. 14, descriptions of matters common to the embodiment of FIG. 1 will be omitted.

判定部11gは、動画再生装置210のユーザが特徴的な動きを行ったか否かを判定する。具体的には、姿勢データ取得部11bにおいて所定のフレームレートで動画再生装置210のユーザの特徴点の姿勢特徴量を算出し、判定部11gは、このフレームの姿勢特徴量のRMS差に基づいて当該ユーザが特徴的な動きを行ったか否かを判定する。フレームごとの姿勢特徴量の算出及びRMS差の算出については図8を参照して説明済である。一実施形態において、判定部11gは、RMS差の正負が逆転したフレームにおいてユーザが特徴的な動きを行ったと判定する。上記のように、あるフレームにおいてRMS差の符号が前フレームと逆転している場合には、当該フレームにおいてユーザが手を振る、大きくうなずくなどの往復動を伴う特徴的な動きを行ったと推定される。例えば、姿勢データ取得部11bにおいて図8に示す24フレーム分の姿勢特徴量が算出された場合には、反転フラグに「1」が設定されている第4フレーム、第10フレーム、第16フレーム、第17フレーム、第19フレーム、及び第21フレームにおいてユーザが特徴的な動きを行ったと判定される。 The determination unit 11g determines whether the user of the video playback device 210 has made a characteristic movement. Specifically, the posture data acquisition unit 11b calculates the posture feature amount of the feature point of the user of the video playback device 210 at a predetermined frame rate, and the determination unit 11g calculates the posture feature amount based on the RMS difference of the posture feature amount of this frame. It is determined whether the user has made a characteristic movement. The calculation of the posture feature amount for each frame and the calculation of the RMS difference have already been explained with reference to FIG. 8 . In one embodiment, the determination unit 11g determines that the user performed a characteristic movement in a frame in which the sign of the RMS difference is reversed. As mentioned above, if the sign of the RMS difference in a certain frame is reversed from that of the previous frame, it is assumed that the user performed a characteristic movement involving reciprocation in that frame, such as waving his hand or nodding his head. Ru. For example, when the posture data acquisition unit 11b calculates posture feature amounts for 24 frames shown in FIG. It is determined that the user made a characteristic movement in the 17th frame, the 19th frame, and the 21st frame.

一実施形態において、判定部11gは、RMSPEが所定の閾値よりも大きいフレームにおいてユーザが大きな動きを行ったと判定する。この閾値は、例えば、1.0とすることができる。判定部11gが使用する閾値は、適宜変更可能である。図8の例においては、第4フレームから第7フレームにおいてRMSPEが閾値である1.0よりも大きくなっている。よって、判定部11gは、第4フレームから第8フレームにおいてユーザが大きな動きを行ったと判定することができる。 In one embodiment, the determination unit 11g determines that the user has made a large movement in a frame in which the RMSPE is greater than a predetermined threshold. This threshold value may be, for example, 1.0. The threshold value used by the determination unit 11g can be changed as appropriate. In the example of FIG. 8, RMSPE is larger than the threshold value of 1.0 in the fourth frame to the seventh frame. Therefore, the determination unit 11g can determine that the user made a large movement from the fourth frame to the eighth frame.

送信部11hは、判定部11gによってユーザが特徴的な動きを行ったと判定されたフレームを選択し、この選択されたフレームにおける姿勢特徴量を動画配信装置220に送信する。送信部11hにより選択されたフレームを「選択フレーム」と呼んでも良い。選択フレームは、判定部11gによってユーザが特徴的な動きを行ったと判定されたフレームだけであってもよいし、判定部11gによってユーザが特徴的な動きを行ったと判定されたフレーム及びそれに続く一又は複数のフレームであってもよい。このように、送信部11hは、選択フレームにおける姿勢特徴量を動画配信装置220に送信する一方、選択フレーム以外のフレームにおける姿勢特徴量を動画配信装置220に送信しないように構成される。 The transmitting unit 11h selects a frame in which the determining unit 11g determines that the user made a characteristic movement, and transmits the posture feature amount in the selected frame to the video distribution device 220. The frame selected by the transmitter 11h may be referred to as a "selected frame." The selected frames may be only the frames in which the determination unit 11g has determined that the user has performed a characteristic movement, or the frames in which the determination unit 11g has determined that the user has performed a characteristic movement and the frames that follow. Or it may be multiple frames. In this way, the transmitter 11h is configured to transmit the posture feature amount in the selected frame to the video distribution device 220, while not transmitting the posture feature amount in frames other than the selected frame to the video distribution device 220.

送信部11hによって送信された姿勢特徴量を受信した動画配信装置220において、アニメーション生成部21cは、受信した姿勢特徴量に基づいて、動画再生装置210のユーザのアバタのアニメーションを生成する。姿勢特徴量に基づくアバタのアニメーションの生成方法は、動画配信システム1における生成方法と同様である。動画配信システム201においては、動画再生装置210から動画配信装置220に対して姿勢特徴量が伝送されない期間がある。具体的には、選択フレーム以外のフレームにおいては姿勢特徴量は動画配信装置220に伝送されない。この姿勢特徴量が伝送されない期間において、アニメーション生成部21cは、アバタについて定められている基本動作に従った動きを行うように当該アバタのアニメーションを作成してもよい。アバタの基本動作は記述の通りであり、手を揺らす動作などの予め定められた動作である。 In the video distribution device 220 that has received the posture feature amount transmitted by the transmitter 11h, the animation generation unit 21c generates an animation of the avatar of the user of the video playback device 210 based on the received posture feature amount. The method of generating the avatar animation based on the posture feature amount is the same as the generation method in the video distribution system 1. In the video distribution system 201, there is a period in which the posture feature amount is not transmitted from the video playback device 210 to the video distribution device 220. Specifically, the posture feature amount is not transmitted to the video distribution device 220 in frames other than the selected frame. During this period in which the posture feature amount is not transmitted, the animation generation unit 21c may create an animation of the avatar so that the avatar moves in accordance with the basic motion determined for the avatar. The basic movements of the avatar are as described, and are predetermined movements such as shaking hands.

動画配信システム201においては、選択フレームにおいてのみ姿勢特徴量が動画再生装置210から動画配信装置220に伝送されるので、算出された姿勢特徴量をリアルタイムで伝送する態様よりも伝送されるデータ量を削減することができる。 In the video distribution system 201, the posture feature amount is transmitted from the video playback device 210 to the video distribution device 220 only in the selected frame. can be reduced.

次に、図15を参照して、本発明の他の実施形態について説明する。図15には、本発明の他の実施形態による動画配信システム301のブロック図が示されている。動画配信システム1においては、動画再生装置において姿勢特徴量などの動画生成に必要なデータに基づいて動画を生成する点で動画配信システム1と異なっている。具体的には、動画配信システム301は、姿勢データ取得装置310と、動画配信装置320と、動画再生装置330と、を備える。姿勢データ取得装置310と、動画配信装置320、及び動画再生装置330は、ネットワーク50を介して接続されている。動画配信システム301においては、姿勢データ取得装置310のユーザの動きに基づいて生成されるアバタのアニメーションを含む動画を動画再生装置320において生成し、この生成した動画を再生することが想定されている。つまり、姿勢データ取得装置310のユーザは、自らの動きに基づいて動くアバタを含む動画を、視聴ユーザによって使用される動画再生装置320において再生させることができる。姿勢データ取得装置310のユーザは、動画再生装置320のユーザとアバタを介して対話することができる。本実施形態に関して姿勢データ取得装置310のユーザを単に「配信ユーザ」と呼ぶことがある。図15には説明のため姿勢データ取得装置310、動画配信装置320、及び動画再生装置330が一つずつ図示されているが、動画配信システム301は、これらの装置を複数備えてもよい。 Next, referring to FIG. 15, another embodiment of the present invention will be described. FIG. 15 shows a block diagram of a video distribution system 301 according to another embodiment of the present invention. The video distribution system 1 differs from the video distribution system 1 in that a video playback device generates a video based on data necessary for video generation, such as posture feature amounts. Specifically, the video distribution system 301 includes a posture data acquisition device 310, a video distribution device 320, and a video playback device 330. Posture data acquisition device 310, video distribution device 320, and video playback device 330 are connected via network 50. In the video distribution system 301, it is assumed that the video playback device 320 generates a video including an avatar animation generated based on the movement of the user of the posture data acquisition device 310, and that the generated video is played back. . In other words, the user of the posture data acquisition device 310 can play back a video including an avatar that moves based on the user's own movements on the video playback device 320 used by the viewing user. The user of the posture data acquisition device 310 can interact with the user of the video playback device 320 via the avatar. Regarding this embodiment, the user of the posture data acquisition device 310 may be simply referred to as a "distribution user." Although FIG. 15 shows one posture data acquisition device 310, one video distribution device 320, and one video playback device 330 for explanation, the video distribution system 301 may include a plurality of these devices.

姿勢データ取得装置310は、姿勢データ取得装置310のユーザの姿勢の特徴を表す姿勢特徴量を取得する。視聴ユーザの姿勢の特徴を表す姿勢特徴量は、当該視聴ユーザの姿勢を表す3次元骨格データ、つまり視聴ユーザのボーンの位置及び向きを示す3次元ベクトルデータであってもよい。姿勢データ取得装置310は、既述のセンサユニット15を備えてもよい。姿勢データ取得装置310は、センサユニット15が検出した検出データに基づいて視聴ユーザの3次元骨格データを生成することができる。姿勢データ取得装置310は、取得された姿勢特徴量を動画配信装置320に送信する。姿勢データ取得装置310は、配信ユーザの音声を表す音声データを動画配信装置320に送信しても良い。 The posture data acquisition device 310 acquires posture feature amounts representing the posture characteristics of the user of the posture data acquisition device 310 . The posture feature quantity representing the posture characteristics of the viewing user may be three-dimensional skeletal data representing the posture of the viewing user, that is, three-dimensional vector data representing the positions and orientations of the bones of the viewing user. The posture data acquisition device 310 may include the sensor unit 15 described above. The posture data acquisition device 310 can generate three-dimensional skeletal data of the viewing user based on the detection data detected by the sensor unit 15. Posture data acquisition device 310 transmits the obtained posture feature amount to video distribution device 320. The posture data acquisition device 310 may transmit audio data representing the voice of the distribution user to the video distribution device 320.

動画配信装置320は、既述の動画配信装置20と同様にコンピュータプロセッサ21と、通信I/F22と、ストレージ23と、を備える。動画配信装置320は、コンピュータプロセッサ21によって実現される機能及びストレージ23に格納されるデータの点で動画配信装置20と異なっている。そこで、以下では、動画配信装置320のコンピュータプロセッサ21において実現される機能及びストレージ23に格納されるデータについて説明する。 The video distribution device 320 includes a computer processor 21, a communication I/F 22, and a storage 23, like the video distribution device 20 described above. The video distribution device 320 differs from the video distribution device 20 in the functions realized by the computer processor 21 and the data stored in the storage 23. Therefore, the functions realized in the computer processor 21 of the video distribution device 320 and the data stored in the storage 23 will be explained below.

図示のように、動画配信システム301のストレージ23には、オブジェクトデータ23a、アバタデータ23b、基準姿勢管理データ323a、及び前記以外の動画の生成及び配信のために必要な様々な情報が記憶され得る。オブジェクトデータ23a及びアバタデータ23bは、動画配信システム1において記憶されるオブジェクトデータ23a及びアバタデータ23bと同じであってもよい。基準姿勢管理データ323aは、動画配信システム1における基準姿勢管理データ13aと同じものであってもよい。すなわち、基準姿勢管理データ323aは、図3に示されているように、基準姿勢を識別する基準姿勢識別データと、この基準姿勢識別データと対応付けて記憶される開始姿勢データ及びトリガー姿勢データを含むことができる。 As illustrated, the storage 23 of the video distribution system 301 can store object data 23a, avatar data 23b, reference posture management data 323a, and various other information necessary for generating and distributing videos other than the above. . The object data 23a and the avatar data 23b may be the same as the object data 23a and the avatar data 23b stored in the video distribution system 1. The reference posture management data 323a may be the same as the reference posture management data 13a in the video distribution system 1. That is, as shown in FIG. 3, the reference attitude management data 323a includes reference attitude identification data that identifies a reference attitude, and start attitude data and trigger attitude data that are stored in association with this reference attitude identification data. can be included.

コンピュータプロセッサ21は、コンピュータ読み取り可能な命令を実行することにより、姿勢特徴量取得部321a、送信部321b、分類部321c、及び遅延監視部321dとして機能する。コンピュータプロセッサ21により実現される機能の少なくとも一部は、動画配信システム301のコンピュータプロセッサ21以外のコンピュータプロセッサにより実現されてもよい。 The computer processor 21 functions as a posture feature acquisition section 321a, a transmission section 321b, a classification section 321c, and a delay monitoring section 321d by executing computer-readable instructions. At least some of the functions realized by the computer processor 21 may be realized by a computer processor other than the computer processor 21 of the video distribution system 301.

姿勢特徴量取得部321aは、姿勢データ取得装置310から、姿勢データ取得装置310のユーザの姿勢を表す姿勢特徴量を取得する。 The posture feature acquisition unit 321a acquires posture features representing the posture of the user of the posture data acquisition device 310 from the posture data acquisition device 310.

送信部321bは、姿勢データ取得装置310から取得された当該姿勢データ取得装置310のユーザの姿勢を表す姿勢特徴量を動画再生装置330に送信する。送信部321bは、姿勢データ取得装置310から姿勢特徴量を受け取ると即時に動画再生装置330に送信してもよい。言い換えると、送信部321bは、配信ユーザの姿勢特徴量をリアルタイムに動画再生装置330に送信することができる。送信部321bは、この姿勢特徴量を含むパケットを動画再生装置330に対して送信してもよい。送信部321bは、姿勢特徴量に加えて、動画再生装置330における動画の生成に必要なデータを動画再生装置330に送信することができる。例えば、送信部321bは、オブジェクトデータ23a及びアバタデータ23bの少なくとも一部を動画再生装置330に送信することができる。オブジェクトデータ23a及びアバタデータ23bは、送信部321bによって動画再生装置330に送信されるのではなく、動画再生装置330に予め記憶されていてもよい。この場合、動画配信装置320から動画再生装置330へのオブジェクトデータ23a及びアバタデータ23bの送信は不要となる。また、送信部321bは、動画配信装置320が生成データ取得装置310から取得した配信ユーザの音声を表す音声データを動画再生装置330に送信しても良い。 The transmitter 321b transmits the posture feature amount representing the posture of the user of the posture data acquisition device 310 acquired from the posture data acquisition device 310 to the video playback device 330. The transmitter 321b may transmit the posture feature amount to the video playback device 330 immediately upon receiving the posture feature amount from the posture data acquisition device 310. In other words, the transmitter 321b can transmit the distribution user's posture feature amount to the video playback device 330 in real time. The transmitter 321b may transmit a packet including this posture feature amount to the video playback device 330. The transmitter 321b can transmit to the video playback device 330 data necessary for generating a video in the video playback device 330 in addition to the posture feature amount. For example, the transmitter 321b can transmit at least part of the object data 23a and the avatar data 23b to the video playback device 330. The object data 23a and the avatar data 23b may be stored in advance in the video playback device 330 instead of being transmitted to the video playback device 330 by the transmitter 321b. In this case, it is not necessary to transmit the object data 23a and avatar data 23b from the video distribution device 320 to the video playback device 330. Further, the transmitter 321b may transmit audio data representing the distribution user's voice, which the video distribution device 320 has acquired from the generated data acquisition device 310, to the video playback device 330.

分類部321cは、配信ユーザの姿勢を分類する分類器により、当該視聴ユーザの姿勢特徴量(例えば、3次元骨格データ)に基づいて、当該視聴ユーザの姿勢が予め定められた基準姿勢に属するか否かを判定する。この分類器は、例えば線形分類器である。分類部321cは、動画配信システム1の分類部11dと概ね同じ機能を実現してもよい。例えば、分類部321cは、基準姿勢が開始姿勢とトリガー姿勢とを含む場合に、配信ユーザの姿勢が当該基準姿勢に属するか否か及び当該トリガー姿勢に属するか否かをそれぞれ判定することができる。 The classification unit 321c uses a classifier that classifies the posture of the distribution user to determine whether the posture of the viewing user belongs to a predetermined reference posture based on the posture feature amount (for example, three-dimensional skeleton data) of the viewing user. Determine whether or not. This classifier is, for example, a linear classifier. The classification unit 321c may realize substantially the same function as the classification unit 11d of the video distribution system 1. For example, when the reference posture includes a starting posture and a trigger posture, the classification unit 321c can determine whether the distribution user's posture belongs to the reference posture and the trigger posture, respectively. .

遅延監視部321dは、送信部321cによって動画配信装置320から動画再生装置330に送信されたモーションデータの伝送遅延を監視する。遅延監視部321dは、動画配信システム1の遅延監視部11eと概ね同じ機能を実現しても良い。例えば、遅延監視部321dは、モーションデータを含む実パケットに送信前にタイムスタンプを付加し、この送信時に付加されたタイプスタンプと、この実パケットが動画再生装置330で受信されたときに付加されるタイムスタンプと、を用いて動画配信装置320と動画再生装置330との間の伝送路における当該実パケットの伝送時間を求めることができる。伝送遅延の発生の有無は、パケットに含まれるタイムスタンプに基づいて動画再生装置330において判定されてもよい。動画再生装置320は、動画配信装置330における伝送遅延の判定結果を受け取っても良い。 The delay monitoring unit 321d monitors the transmission delay of motion data transmitted from the video distribution device 320 to the video playback device 330 by the transmission unit 321c. The delay monitoring unit 321d may realize substantially the same function as the delay monitoring unit 11e of the video distribution system 1. For example, the delay monitoring unit 321d adds a timestamp to an actual packet including motion data before transmission, and the timestamp added at the time of transmission and the timestamp added when this actual packet is received by the video playback device 330. The transmission time of the actual packet on the transmission path between the video distribution device 320 and the video playback device 330 can be determined using the time stamp. The presence or absence of a transmission delay may be determined by the video playback device 330 based on the time stamp included in the packet. The video playback device 320 may receive the determination result of the transmission delay in the video distribution device 330.

再び送信部321bの機能について説明する。送信部321bは、遅延監視部321dにおいて伝送路に遅延が発生していると判定された場合に、ストレージ23に記憶されている基準姿勢識別データ(基準姿勢ID)を動画再生装置330に送信することができる。基準姿勢識別データは、視聴ユーザの姿勢特徴量を含むモーションデータに代えて送信されてもよい。上記のとおり、基準姿勢識別データは、開始姿勢データ及びトリガー姿勢データを含み得る。この伝送遅延が発生している場合に実行される送信部321bの機能は、伝送遅延が発生している場合に送信部11cによって実行される機能と同様である。 The function of the transmitter 321b will be explained again. The transmitter 321b transmits the reference attitude identification data (reference attitude ID) stored in the storage 23 to the video playback device 330 when the delay monitor 321d determines that a delay has occurred in the transmission path. be able to. The reference posture identification data may be transmitted instead of the motion data including the posture feature amount of the viewing user. As mentioned above, the reference attitude identification data may include starting attitude data and trigger attitude data. The function of the transmitter 321b executed when this transmission delay occurs is the same as the function executed by the transmitter 11c when a transmission delay occurs.

動画再生装置330は、既述の動画再生装置10と同様にコンピュータプロセッサ11と、通信I/F12と、ストレージ13と、を備える。動画再生装置330は、コンピュータプロセッサ11によって実現される機能及びストレージ23に格納されるデータの点で動画再生装置10と異なっている。そこで、以下では、動画再生装置330のコンピュータプロセッサ21において実現される機能及びストレージ23に格納されるデータについて説明する。 The video playback device 330 includes a computer processor 11, a communication I/F 12, and a storage 13, similar to the video playback device 10 described above. The video playback device 330 differs from the video playback device 10 in the functions realized by the computer processor 11 and the data stored in the storage 23. Therefore, the functions realized in the computer processor 21 of the video playback device 330 and the data stored in the storage 23 will be explained below.

動画再生装置330のストレージ13には、アニメーション管理データ313aが記憶される。アニメーション管理データ313aは、動画配信システム1において記憶されるアニメーション管理データ13aと同じであってもよい。例えば、アニメーション管理データ313aは、図6に示されているように、基準姿勢識別データと、登録アニメーションを識別する登録アニメーション識別データ(登録アニメーションID)と、アバタのアニメーションを特定するためのアニメーション定義データと、を有する。 Animation management data 313a is stored in the storage 13 of the video playback device 330. The animation management data 313a may be the same as the animation management data 13a stored in the video distribution system 1. For example, as shown in FIG. 6, the animation management data 313a includes reference posture identification data, registered animation identification data (registered animation ID) for identifying registered animations, and animation definitions for specifying avatar animations. has data.

コンピュータプロセッサ11は、コンピュータ読み取り可能な命令を実行することにより、アニメーション生成部331a、動画生成部331b、及び動画再生部331cとして機能する。コンピュータプロセッサ11により実現される機能の少なくとも一部は、動画配信システム301のコンピュータプロセッサ11以外のコンピュータプロセッサにより実現されてもよい。 The computer processor 11 functions as an animation generation unit 331a, a video generation unit 331b, and a video playback unit 331c by executing computer-readable instructions. At least some of the functions realized by the computer processor 11 may be realized by a computer processor other than the computer processor 11 of the video distribution system 301.

アニメーション生成部331aは、動画配信システム1のアニメーション生成部21cと概ね同じ機能を実現しても良い。例えば、アニメーション生成部331cは、姿勢データ取得装置310の配信ユーザのアバタのアニメーションを生成することができる。一実施形態において、アニメーション生成部331cは、動画配信装置320から受信した配信ユーザの姿勢特徴量及びアバタデータ23bに基づいて、当該配信ユーザのアバタのアニメーションを生成する。アニメーション生成部331cは、動画配信装置320から視聴ユーザの姿勢特徴量を連続して受信することで、当該姿勢特徴量に基づいて、当該視聴ユーザの体の動きに同期して動くアバタのアニメーションを生成することができる。 The animation generation section 331a may realize substantially the same function as the animation generation section 21c of the video distribution system 1. For example, the animation generation unit 331c can generate an animation of the avatar of the distribution user of the posture data acquisition device 310. In one embodiment, the animation generation unit 331c generates an animation of the distribution user's avatar based on the posture feature amount and avatar data 23b of the distribution user received from the video distribution device 320. The animation generation unit 331c continuously receives the posture feature amount of the viewing user from the video distribution device 320, and generates an animation of the avatar that moves in synchronization with the body movement of the viewing user based on the posture feature amount. can be generated.

動画生成部331bは、動画配信装置320から取得したオブジェクトデータ23aを用いて仮想空間を構築し、この仮想空間内でアニメーション生成部331aにて生成されたアバタが動く動画を生成することができる。この動画には、配信ユーザの音声を合成することができる。 The video generation unit 331b can construct a virtual space using the object data 23a acquired from the video distribution device 320, and generate a video in which the avatar generated by the animation generation unit 331a moves within this virtual space. This video can be synthesized with the voice of the distribution user.

動画再生部331aは、動画生成部331bにおいて生成された動画を再生する。これにより、動画再生装置330のディスプレイ14に配信ユーザのアバタのアニメーションを含む動画が表示される。 The video playback section 331a plays back the video generated by the video generation section 331b. As a result, a video including an animation of the distribution user's avatar is displayed on the display 14 of the video playback device 330.

動画配信装置320から動画再生装置330へデータを伝送する伝送路において伝送遅延が発生した場合におけるアニメーション生成部331aにより実現される処理について説明する。動画配信装置320から動画再生装置330への伝送路で伝送遅延が発生すると、配信ユーザの動きを反映して滑らかに動くアバタのアニメーションを生成することができなくなってしまうおそれがある。アニメーション生成部331aは、動画配信装置320からの基準姿勢識別データ(例えば、基準姿勢ID)に基づいてアバタのアニメーションを生成することができる。具体的には、アニメーション生成部331aは、動画再生装置10から基準姿勢識別データを受信すると、アニメーション管理データ313aを参照することで受信した基準姿勢識別データに対応付けられている登録アニメーションを特定することができ、この特定された登録アニメーションの登録アニメーションIDに対応付けられているアニメーション定義データに基づいてアバタのアニメーションを生成することができる。よって、アニメーション生成部331aは、モーションデータの伝送に遅延が発生している間に姿勢特徴量が受信できなかったとしても、その遅延が発生している間に動画配信装置320から送られてくる基準姿勢識別データに基づいてアバタのアニメーションを生成することができる。 A process implemented by the animation generation unit 331a when a transmission delay occurs in the transmission path that transmits data from the video distribution device 320 to the video playback device 330 will be described. If a transmission delay occurs in the transmission path from the video distribution device 320 to the video playback device 330, there is a risk that it will not be possible to generate an avatar animation that moves smoothly while reflecting the movements of the distribution user. The animation generation unit 331a can generate an avatar animation based on reference posture identification data (for example, reference posture ID) from the video distribution device 320. Specifically, upon receiving the reference posture identification data from the video playback device 10, the animation generation unit 331a identifies the registered animation associated with the received reference posture identification data by referring to the animation management data 313a. The avatar animation can be generated based on the animation definition data associated with the registered animation ID of the specified registered animation. Therefore, even if the animation generation unit 331a cannot receive the posture feature amount while there is a delay in the transmission of motion data, the animation generation unit 331a can receive the posture feature amount from the video distribution device 320 while the delay is occurring. An avatar animation can be generated based on the reference posture identification data.

一実施形態において、姿勢データ取得装置310が動画再生装置320の機能を実現可能に構成され、動画再生装置320が姿勢データ取得装置310の機能を実現可能に構成されてもよい。これにより、両装置のユーザ同士がアバタを介して双方向的にコミニュケーションできる。 In one embodiment, the posture data acquisition device 310 may be configured to be able to realize the functions of the video playback device 320, and the video playback device 320 may be configured to be able to realize the functions of the posture data acquisition device 310. This allows users of both devices to communicate interactively via the avatars.

次に、図16を参照して、上記の動画配信システムの変形例について説明する。上記の実施形態では、分類部11dによって視聴ユーザの姿勢が基準姿勢に属すると判定された場合に、姿勢特徴量に代えて基準姿勢を識別する基準姿勢IDを送信することで、ユーザの姿勢を表すデータのデータ量を少なくしている。図16に示す例では、基準姿勢IDに代えて、以下のようにして決定する特徴配列のインデックス(添字)を用いる。つまり、伝送遅延が発生しているときに、ユーザの姿勢を表す姿勢特徴量に代えて、特徴配列のインデックスが送信される。特徴配列のインデックスは、以下で説明するように数ビット程度のデータであり、基準姿勢IDと同様に10ビット以下の範囲の情報量で表すことができる。 Next, a modification of the above video distribution system will be described with reference to FIG. 16. In the above embodiment, when the classification unit 11d determines that the viewing user's posture belongs to the standard posture, the user's posture is determined by transmitting a standard posture ID that identifies the standard posture instead of the posture feature amount. The amount of data represented is reduced. In the example shown in FIG. 16, an index (subscript) of a feature array determined as follows is used instead of the reference posture ID. That is, when a transmission delay occurs, the index of the feature array is transmitted instead of the posture feature amount representing the user's posture. The index of the feature array is data of about several bits, as described below, and can be expressed by the amount of information in the range of 10 bits or less, similar to the reference posture ID.

動画配信システム1においては、特徴配列は、以下のようにして決定される。まず、図7及び図8を参照して説明したように、動画再生装置10は、所定のフレームレートで動画再生装置10のユーザを撮像して撮像画像を取得し、この撮像画像の各フレームにおいて当該ユーザに関連する複数の特徴点を抽出する。例えば、図7に示されているようにP1~P6の6つの特徴点が抽出される。動画再生装置10は、抽出された複数の特徴点の各々についてユーザの動きに関する画像ベクトルを得る。特徴点P1~P6の各々における画像ベクトルは、例えば、各特徴点における深度である。各特徴点P1~P6の画像ベクトルは、0~1.0の範囲に正規化されてfloat配列として表現されてもよい。このようにして取得された特徴点P1~P6の画像ベクトルを図16に示す。図16には、説明の簡略化のために10フレーム分の画像ベクトルが示されているが、実際には統計的解析に十分な量のフレームについて画像ベクトルが取得される。 In the video distribution system 1, the feature array is determined as follows. First, as described with reference to FIGS. 7 and 8, the video playback device 10 acquires a captured image by capturing a user of the video playback device 10 at a predetermined frame rate, and in each frame of this captured image, A plurality of feature points related to the user are extracted. For example, as shown in FIG. 7, six feature points P1 to P6 are extracted. The video playback device 10 obtains an image vector related to the user's movement for each of the plurality of extracted feature points. The image vector at each of the feature points P1 to P6 is, for example, the depth at each feature point. The image vector of each feature point P1 to P6 may be normalized to a range of 0 to 1.0 and expressed as a float array. The image vectors of the feature points P1 to P6 obtained in this way are shown in FIG. In FIG. 16, image vectors for 10 frames are shown to simplify the explanation, but in reality, image vectors are obtained for a sufficient number of frames for statistical analysis.

次に、特徴点P1~P6の各々について、所定区間における画像ベクトルの要素の和Σを算出する。図16の表には、第0フレーム~第25フレームの26フレーム分の区間における画像ベクトルの要素の和が「Σ」と表記されている行に示されている。次に、各特徴点P1~P6の画像ベクトルの要素の和を大きい順にソートする。図16においては、このソート結果が「RANK」と表記されている行に示されている。図16の例では、P4、P3、P6、P2、P1、P5の順にソートされる。このソート後の配列を{4,3,6,2,1,5}と表現する。 Next, for each of the feature points P1 to P6, the sum Σ of the image vector elements in a predetermined interval is calculated. In the table of FIG. 16, the sum of the elements of the image vector in the 26-frame interval from the 0th frame to the 25th frame is shown in the row labeled "Σ". Next, the sum of the elements of the image vector of each feature point P1 to P6 is sorted in descending order. In FIG. 16, this sorting result is shown in the line labeled "RANK". In the example of FIG. 16, the items are sorted in the order of P4, P3, P6, P2, P1, and P5. This sorted array is expressed as {4,3,6,2,1,5}.

動画再生装置10は、ユーザの動きに関する画像ベクトルのサンプルを学習することにより、ユーザの特徴的な姿勢又は動きを示す代表ベクトルを算出する。代表ベクトルは、例えば、ロイドアルゴリズム及びこれ以外の公知のアルゴリズムを用いて算出される。つまり、代表ベクトルは、ユーザの特徴的な姿勢を示す。よって、この代表ベクトルに基づいてユーザの姿勢を特定することができる。動画再生装置は、算出された代表ベクトルをインデックスとともに記憶する。動画再生装置10は、自装置以外で算出された代表ベクトルを取得しても良い。本実施形態では、4つの代表ベクトルA~Dが算出されており、各代表ベクトルの要素を大きい順にソートして代表ベクトルの配列を得る。代表ベクトルA~Dの各々の要素を大きい順にソートした配列はそれぞれ順に{1,3,6,2,4,5}、{4,3,6,2,1,5}{2,3,6,4,5,1}{1,2,3,4,5,6}を表されると想定する。 The video playback device 10 calculates a representative vector indicating a characteristic posture or movement of the user by learning samples of image vectors related to the user's movement. The representative vector is calculated using, for example, Lloyd's algorithm or other known algorithms. In other words, the representative vector indicates a characteristic posture of the user. Therefore, the user's posture can be specified based on this representative vector. The video playback device stores the calculated representative vector along with the index. The video playback device 10 may acquire a representative vector calculated by a device other than the device itself. In this embodiment, four representative vectors A to D are calculated, and the elements of each representative vector are sorted in ascending order to obtain an array of representative vectors. The arrays obtained by sorting the elements of representative vectors A to D in descending order are {1,3,6,2,4,5}, {4,3,6,2,1,5}{2,3, 6,4,5,1}{1,2,3,4,5,6}.

動画再生装置10は、撮像画像から得られた画像ベクトルをソートして得られた入力配列{4,3,6,2,1,5}と各代表ベクトルの配列とを比較し、入力配列{4,3,6,2,1,5}と最も近い代表ベクトルの配列を選定する。図16に示されている例では、入力配列{4,3,6,2,1,5}が4つの代表ベクトルの配列のうち代表ベクトルBの配列{4,3,6,2,1,5}と一致していることから、{4,3,6,2,1,5}が特徴配列として選定される。動画再生装置10は、このようにして選定された特徴配列のインデックスを動画配信装置20に送信する。 The video playback device 10 compares the input array {4, 3, 6, 2, 1, 5} obtained by sorting the image vectors obtained from the captured images with the array of each representative vector, and calculates the input array { 4,3,6,2,1,5}, select the closest representative vector array. In the example shown in FIG. 16, the input array {4,3,6,2,1,5} is the array of representative vector B {4,3,6,2,1, 5}, so {4,3,6,2,1,5} is selected as the feature array. The video playback device 10 transmits the index of the feature array selected in this way to the video distribution device 20.

動画配信装置20は、代表ベクトルA~Dとその配列とが対応付けられているコードブックを記憶している。動画配信装置20は、当該コードブックを参照し、動画再生装置10から取得した特徴配列に対応する代表ベクトルBに対応する姿勢を取るように上記ユーザのアバタのアニメーションを生成する。 The video distribution device 20 stores a codebook in which representative vectors A to D are associated with their arrays. The video distribution device 20 refers to the codebook and generates an animation of the user's avatar so as to take a posture corresponding to the representative vector B corresponding to the feature array acquired from the video playback device 10.

上記の例では、26フレーム分の単位区間ごとに特徴配列が動画再生装置10から動画配信装置20に送信される。この単位区間は、適宜調整可能である。 In the above example, the feature array is transmitted from the video playback device 10 to the video distribution device 20 for each unit section of 26 frames. This unit section can be adjusted as appropriate.

以上のとおり、動画配信システム1において基準姿勢IDに代えて特徴配列のインデックスを伝送し、伝送遅延時にはこの特徴配列のインデックスに基づいてアバタのアニメーションを生成することを説明した。動画配信システム301においても同様に、基準姿勢IDに代えて特徴配列を用いることができる。特徴配列は、動画配信システム101において基準表情IDに代えて用いることもできる。 As described above, it has been explained that in the video distribution system 1, an index of a feature array is transmitted in place of the reference posture ID, and an avatar animation is generated based on the index of this feature array when transmission is delayed. Similarly, in the video distribution system 301, a feature array can be used instead of the reference posture ID. The feature array can also be used in place of the reference facial expression ID in the video distribution system 101.

以上の実施形態によって奏される作用効果について説明する。上記の一態様において、伝送路において遅延が発生している間は、データ量が大きな姿勢特徴量ではなく、小さなデータ量で視聴ユーザの姿勢に関する情報を特定することができる基準姿勢識別データが動画再生装置10から動画配信装置20に対して送信される。これにより、伝送路において遅延が発生している場合に、小さなデータ量の基準姿勢識別データにより、視聴ユーザの姿勢に関する情報を動画配信装置20に伝達することができる。 The effects achieved by the above embodiment will be explained. In one aspect of the above, while a delay occurs in the transmission path, the reference posture identification data that can identify information about the viewing user's posture with a small amount of data is used in the video instead of the posture feature amount with a large amount of data. It is transmitted from the playback device 10 to the video distribution device 20. Thereby, when a delay occurs in the transmission path, information regarding the viewing user's posture can be transmitted to the video distribution device 20 using a small amount of reference posture identification data.

一態様においては、視聴ユーザのアバタに関して登録アニメーションを登録することができ、伝送路において遅延が発生している間には、基準姿勢識別データに基づいて特定される基準姿勢に対応する登録アニメーションを含む動画が配信される。これにより、動画再生装置10から動画配信装置20への伝送路における遅延のために視聴ユーザの姿勢を表す姿勢特徴量の動画配信装置20への送信が困難な場合であっても、視聴ユーザの姿勢に関連する登録アニメーションを動画に含めることができる。 In one aspect, a registered animation can be registered regarding the avatar of a viewing user, and while a delay occurs in the transmission path, a registered animation corresponding to a reference posture specified based on reference posture identification data is registered. A video containing the content will be distributed. As a result, even if it is difficult to transmit the posture feature representing the posture of the viewing user to the video distribution device 20 due to a delay in the transmission path from the video playback device 10 to the video distribution device 20, the viewing user's Registered animations related to posture can be included in the video.

上記の一態様においては、動画再生装置330において、動画配信装置320から受信した配信ユーザの姿勢特徴量に基づいて当該配信ユーザの動きに基づいて動くアバタのアニメーションが生成される。伝送路において遅延が発生している間は、姿勢特徴量ではなく基準姿勢識別データが動画配信装置320から動画再生装置310に対して送信される。これにより、伝送路において遅延が発生している場合に、配信ユーザの動きを小さなデータ量で表すことができる基準姿勢識別データにより、動画再生装置330においてアバタのアニメーションを生成することができる。 In the above aspect, the video playback device 330 generates an animation of an avatar that moves based on the movement of the distribution user based on the posture feature amount of the distribution user received from the video distribution device 320. While a delay occurs in the transmission path, reference posture identification data rather than the posture feature amount is transmitted from the video distribution device 320 to the video playback device 310. As a result, when a delay occurs in the transmission path, an animation of the avatar can be generated in the video playback device 330 using the reference posture identification data that can represent the movement of the distribution user with a small amount of data.

一態様においては、ユーザの動きに基づいて生成されるユーザアニメーションを登録アニメーションとして登録することができる。これにより、姿勢特徴量が利用できない場合におけるアバタの動きのバリエーションを増やすことができる。 In one aspect, a user animation generated based on a user's movement can be registered as a registered animation. Thereby, it is possible to increase the variation of the avatar's movement when the posture feature cannot be used.

一態様において、伝送路において遅延が発生している間は、データ量が大きな顔特徴量ではなく、小さなデータ量で視聴ユーザの姿勢に関する情報を特定することができる基準表情識別データが動画再生装置10から動画配信装置20に対して送信される。これにより、伝送路において遅延が発生している場合に、小さなデータ量の基準表情識別データにより、視聴ユーザの表情に関する情報を動画配信装置20に伝達することができる。 In one aspect, while a delay occurs in the transmission path, the video playback device uses reference facial expression identification data that can identify information about the posture of the viewing user using a small amount of data, rather than using facial features that have a large amount of data. 10 to the video distribution device 20. As a result, when a delay occurs in the transmission path, information regarding the facial expression of the viewing user can be transmitted to the video distribution device 20 using a small amount of reference facial expression identification data.

本明細書において説明された処理手順、特にフロー図を用いて説明された処理手順においては、その処理手順を構成する工程(ステップ)の一部を省略すること、その処理手順を構成する工程として明示されていない工程を追加すること、及び/又は当該工程の順序を入れ替えることが可能であり、このような省略、追加、順序の変更がなされた処理手順も本発明の趣旨を逸脱しない限り本発明の範囲に含まれる。 In the processing procedures described in this specification, particularly those explained using flowcharts, some of the steps constituting the processing procedure may be omitted, and some of the steps constituting the processing procedure may be omitted. It is possible to add steps that are not specified and/or change the order of the steps, and such omissions, additions, or changes in the order of processing procedures are also included in the present invention as long as they do not depart from the spirit of the present invention. within the scope of the invention.

以下に、本願の原出願の出願当初の特許請求の範囲に記載された発明を付記する。
[1]
一又は複数のコンピュータプロセッサを備え、
前記一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、
ユーザの姿勢の特徴を表す姿勢特徴量を含むモーションデータを動画配信装置に送信し、
前記モーションデータの前記動画配信装置への伝送に遅延が発生していない場合には、前記動画配信装置から前記姿勢特徴量に基づいた動きを行う前記ユーザのアバタを含む動画を受信し、前記モーションデータの前記動画配信装置への伝送に遅延が発生している場合には、前記ユーザについて設定された基本動作に従った動きを行う前記アバタを含む動画を受信し、
前記動画を再生する、
動画再生装置。
[2]
前記動画は、前記動画を視聴する他のユーザのアバタを含む、
[1]に記載の動画再生装置
[3]
前記他のユーザのアバタは、前記他のユーザについて設定された基本動作に従った動きを行う、
[2]に記載の動画再生装置。
[4]
前記ユーザについて設定された基本動作は、前記他のユーザについて設定された基本動作と同一である、
[3]に記載の動画再生装置。
[5]
前記姿勢特徴量は、前記ユーザのボーンの位置及び向きを3次元ベクトルで表すボーンデータを含む、
[1]から[4]のいずれかに記載の動画再生装置。
[6]
前記モーションデータはリアルタイムで送信される、
[1]から[5]のいずれかに記載の動画再生装置。
[7]
一又は複数のコンピュータプロセッサがコンピュータ読み取り可能な命令を実行することにより実行される動画再生方法であって、
ユーザの姿勢を表す姿勢特徴量を含むモーションデータを動画配信装置に送信する工程と、
前記モーションデータの前記動画配信装置への伝送に遅延が発生していない場合には、前記動画配信装置から前記姿勢特徴量に基づいた動きを行う前記ユーザのアバタを含む動画を受信し、前記モーションデータの前記動画配信装置への伝送に遅延が発生している場合には、前記ユーザについて設定された基本動作に従った動きを行う前記アバタを含む動画受信する工程と、
前記動画を再生する工程と、
を備える動画再生方法。
[8]
一又は複数のコンピュータプロセッサを備え、
前記一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、
動画配信装置からユーザの姿勢の特徴を表す姿勢特徴量を含むモーションデータを受信し、
前記モーションデータの前記動画配信装置への伝送に遅延が発生していない場合には、前記動画配信装置から前記姿勢特徴量に基づいた動きを行う前記ユーザのアバタを含む動画を生成し、前記モーションデータの前記動画配信装置への伝送に遅延が発生している場合には、前記ユーザについて設定された基本動作に従った動きを行う前記アバタを含む動画を生成し、
前記動画を再生する、
動画再生装置。
[9]
一又は複数のコンピュータプロセッサを備え、
前記一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、
複数のフレームにわたってユーザを撮像し、
前記複数のフレームの各々について前記ユーザの姿勢の特徴を表す姿勢特徴量を取得し、
前記複数のフレームに含まれる各フレームの前記姿勢特徴量に基づいて、前記複数のフレームの中から前記ユーザが特徴的な動きを行ったフレームを含む選択フレームを選択し、
前記選択フレームにおける前記姿勢特徴量を含むモーションデータを前記動画配信装置に伝送し、
前記選択フレームが前記動画配信装置へ伝送されている期間には、前記動画配信装置から前記姿勢特徴量に基づいた動きを行う前記ユーザのアバタを含む動画を受信し、前記選択フレームが前記動画配信装置へ伝送されていない期間には、前記ユーザについて設定された基本動作に従った動きを行う前記アバタを含む動画を受信し、
前記動画を再生する、
動画再生装置。
Below, the invention described in the claims of the original application of this application at the time of filing will be added.
[1]
comprising one or more computer processors;
The one or more computer processors may execute computer readable instructions to:
Sending motion data including posture features representing characteristics of the user's posture to a video distribution device,
If there is no delay in transmitting the motion data to the video distribution device, a video including an avatar of the user performing a movement based on the posture feature amount is received from the video distribution device, and the motion data is transmitted to the video distribution device. If there is a delay in transmitting data to the video distribution device, receiving a video including the avatar that moves in accordance with the basic motion set for the user;
Play the video,
Video playback device.
[2]
The video includes avatars of other users who view the video.
Video playback device according to [1] [3]
the other user's avatar moves in accordance with the basic movement set for the other user;
The video playback device according to [2].
[4]
The basic operation set for the user is the same as the basic operation set for the other user,
The video playback device according to [3].
[5]
The posture feature amount includes bone data representing the position and orientation of the user's bones as a three-dimensional vector.
The video playback device according to any one of [1] to [4].
[6]
the motion data is transmitted in real time;
The video playback device according to any one of [1] to [5].
[7]
A video playback method performed by one or more computer processors executing computer-readable instructions, the method comprising:
transmitting motion data including posture features representing the user's posture to a video distribution device;
If there is no delay in transmitting the motion data to the video distribution device, a video including an avatar of the user performing a movement based on the posture feature amount is received from the video distribution device, and the motion data is transmitted to the video distribution device. If there is a delay in transmitting data to the video distribution device, receiving a video including the avatar that moves in accordance with basic actions set for the user;
a step of playing the video;
A video playback method comprising:
[8]
comprising one or more computer processors;
The one or more computer processors may execute computer readable instructions to:
Receive motion data including posture features representing characteristics of the user's posture from the video distribution device,
If there is no delay in transmitting the motion data to the video distribution device, the video distribution device generates a video including the avatar of the user performing a movement based on the posture feature amount, and transmits the motion data to the video distribution device. If there is a delay in transmitting data to the video distribution device, generate a video including the avatar that moves in accordance with the basic actions set for the user;
Play the video,
Video playback device.
[9]
comprising one or more computer processors;
The one or more computer processors may execute computer readable instructions to:
Image the user over multiple frames,
acquiring a posture feature representing a feature of the user's posture for each of the plurality of frames;
Selecting a selected frame including a frame in which the user made a characteristic movement from among the plurality of frames based on the posture feature amount of each frame included in the plurality of frames;
transmitting motion data including the posture feature amount in the selected frame to the video distribution device;
During the period when the selected frame is being transmitted to the video distribution device, a video including the user's avatar that makes a movement based on the posture feature amount is received from the video distribution device, and the selected frame is transmitted to the video distribution device. During a period when the video is not being transmitted to the device, receiving a video including the avatar performing movements according to basic actions set for the user;
Play the video,
Video playback device.

1、101、201、301 動画配信システム
10、110、210、330 動画再生装置
11a 動画再生部
11b 姿勢データ取得部
11c 送信部
11d 分類部
11e 遅延監視部
11f 顔特徴量取得部
20、120、220、320 動画配信装置
21a 動画生成部
21b 動画配信部
21c アニメーション生成部
310 姿勢データ取得装置
1, 101, 201, 301 Video distribution system 10, 110, 210, 330 Video playback device 11a Video playback section 11b Posture data acquisition section 11c Transmission section 11d Classification section 11e Delay monitoring section 11f Facial feature amount acquisition section 20, 120, 220 , 320 Video distribution device 21a Video generation section 21b Video distribution section 21c Animation generation section 310 Posture data acquisition device

Claims (10)

一又は複数のコンピュータプロセッサと、登録アニメーションを記憶するストレージと、を備え、
前記一又は複数のコンピュータプロセッサは、コンピュータ読み取り可能な命令を実行することにより、
動画配信装置からユーザの姿勢の特徴を表す姿勢特徴量を含むモーションデータを受信し、
前記モーションデータに基づいて生成されたユーザのアバタのアニメーションを含む動画を生成し、
前記動画配信装置からの前記モーションデータの伝送中に前記姿勢特徴量が受信できない間に、前記姿勢特徴量よりもデータ量が少なく前記ユーザの姿勢が合致すると判定された基準姿勢を識別する基準姿勢識別データに基づいて前記基準姿勢に対応する前記登録アニメーションを含む動画を生成する、
動画再生装置。
comprising one or more computer processors and storage for storing registered animation;
The one or more computer processors may execute computer readable instructions to:
Receive motion data including posture features representing characteristics of the user's posture from the video distribution device,
generating a video including an animation of the user's avatar generated based on the motion data;
a reference posture that identifies a reference posture that has a smaller amount of data than the posture feature and is determined to match the user's posture while the posture feature cannot be received during transmission of the motion data from the video distribution device; generating a video including the registered animation corresponding to the reference posture based on identification data;
Video playback device.
前記姿勢特徴量は、前記ユーザのボーンの位置及び向きを3次元ベクトルで表すボーンデータを含む、
請求項1に記載の動画再生装置。
The posture feature amount includes bone data representing the position and orientation of the user's bones as a three-dimensional vector.
The video playback device according to claim 1.
前記基準姿勢識別データは、前記姿勢特徴量が受信できない間に前記モーションデータに代えて前記動画配信装置から送信される、
請求項1または2に記載の動画再生装置。
The reference posture identification data is transmitted from the video distribution device in place of the motion data while the posture feature cannot be received.
The video playback device according to claim 1 or 2.
前記モーションデータは、前記ユーザの顔の特徴を表す顔特徴量を含み、
前記一又は複数のコンピュータプロセッサは、
前記顔特徴量に基づいて前記ユーザの表情を分類する他の分類器により前記ユーザの表情が予め定められた基準表情に合致するか否かを判定し、
前記動画配信装置からの前記モーションデータの伝送中に前記顔特徴量が受信できない間に、前記顔特徴量よりもデータ量が少なく前記ユーザの表情が合致すると判定された前記基準表情を識別する基準表情識別データに基づいて前記基準表情に対応する表情の動きを含む前記アバタのアニメーションを生成する、
請求項1又は2に記載の動画再生装置。
The motion data includes facial feature amounts representing features of the user's face,
The one or more computer processors include:
determining whether the user's facial expression matches a predetermined reference facial expression using another classifier that classifies the user's facial expression based on the facial feature amount;
A criterion for identifying the reference facial expression that has a smaller data amount than the facial feature amount and is determined to match the user's facial expression while the facial feature amount cannot be received during transmission of the motion data from the video distribution device. generating an animation of the avatar including facial movements corresponding to the reference facial expression based on facial expression identification data;
The video playback device according to claim 1 or 2.
前記姿勢特徴量は、姿勢データ取得装置により取得され、前記姿勢データ取得装置から前記動画配信装置に送信される、
請求項1から4のいずれか1項に記載の動画再生装置。
The posture feature amount is acquired by a posture data acquisition device and transmitted from the posture data acquisition device to the video distribution device.
The video playback device according to any one of claims 1 to 4.
前記姿勢データ取得装置から前記動画配信装置において受信された前記モーションデータは、即時に送信される、
請求項5に記載の動画再生装置。
The motion data received by the video distribution device from the posture data acquisition device is immediately transmitted.
The video playback device according to claim 5.
前記ユーザの姿勢が前記基準姿勢と合致するか否かは、前記動画配信装置において、前記姿勢特徴量を変数として評価関数に基づいて判定される、
請求項1から6のいずれか1項に記載の動画再生装置。
Whether or not the user's posture matches the reference posture is determined in the video distribution device based on an evaluation function using the posture feature amount as a variable.
The video playback device according to any one of claims 1 to 6.
前記ユーザの姿勢が前記基準姿勢に合致するか否かの判定は、前記姿勢特徴量に基づいて前記ユーザの姿勢を分類する分類器により行われる、
請求項1から7のいずれか1項に記載の動画再生装置。
The determination of whether the user's posture matches the reference posture is performed by a classifier that classifies the user's posture based on the posture feature amount.
The video playback device according to any one of claims 1 to 7.
一又は複数のコンピュータプロセッサがコンピュータ読み取り可能な命令を実行することにより実行される動画再生方法であって、
動画配信装置からユーザの姿勢の特徴を表す姿勢特徴量を含むモーションデータを受信する工程と、
前記モーションデータに基づいて生成されたユーザのアバタのアニメーションを含む動画を生成する工程と、
前記動画配信装置からの前記モーションデータの伝送中に前記姿勢特徴量が受信できない間に、前記姿勢特徴量よりもデータ量が少なく前記ユーザの姿勢が合致すると判定された基準姿勢を識別する基準姿勢識別データに基づいて前記基準姿勢に対応する登録アニメーションを含む動画を生成する工程と、
を備える動画再生方法。
A video playback method performed by one or more computer processors executing computer-readable instructions, the method comprising:
a step of receiving motion data including posture feature amounts representing characteristics of the user's posture from the video distribution device;
generating a video including an animation of the user's avatar generated based on the motion data;
a reference posture that identifies a reference posture that has a smaller amount of data than the posture feature and is determined to match the user's posture while the posture feature cannot be received during transmission of the motion data from the video distribution device; generating a video including a registered animation corresponding to the reference posture based on identification data;
A video playback method comprising:
一又は複数のコンピュータプロセッサに
動画配信装置からユーザの姿勢の特徴を表す姿勢特徴量を含むモーションデータを受信する工程と、
前記モーションデータに基づいて生成されたユーザのアバタのアニメーションを含む動画を生成する工程と、
前記動画配信装置からの前記モーションデータの伝送中に前記姿勢特徴量が受信できない間に、前記姿勢特徴量よりもデータ量が少なく前記ユーザの姿勢が合致すると判定された基準姿勢を識別する基準姿勢識別データに基づいて前記基準姿勢に対応する登録アニメーションを含む動画を生成する工程と、
を実行させる動画再生プログラム。
a step of receiving motion data including posture feature quantities representing characteristics of the user's posture from the video distribution device to one or more computer processors;
generating a video including an animation of the user's avatar generated based on the motion data;
a reference posture that identifies a reference posture that has a smaller amount of data than the posture feature and is determined to match the user's posture while the posture feature cannot be received during transmission of the motion data from the video distribution device; generating a video including a registered animation corresponding to the reference posture based on identification data;
A video playback program that runs .
JP2022202318A 2020-07-06 2022-12-19 Video playback device, video playback method, and video distribution system Active JP7442107B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022202318A JP7442107B2 (en) 2020-07-06 2022-12-19 Video playback device, video playback method, and video distribution system

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020116421A JP6945693B2 (en) 2019-08-31 2020-07-06 Video playback device, video playback method, and video distribution system
JP2021149497A JP7198892B2 (en) 2020-07-06 2021-09-14 Video playback device, video playback method, and video distribution system
JP2022202318A JP7442107B2 (en) 2020-07-06 2022-12-19 Video playback device, video playback method, and video distribution system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021149497A Division JP7198892B2 (en) 2020-07-06 2021-09-14 Video playback device, video playback method, and video distribution system

Publications (2)

Publication Number Publication Date
JP2023036760A JP2023036760A (en) 2023-03-14
JP7442107B2 true JP7442107B2 (en) 2024-03-04

Family

ID=79168857

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021149497A Active JP7198892B2 (en) 2020-07-06 2021-09-14 Video playback device, video playback method, and video distribution system
JP2022202318A Active JP7442107B2 (en) 2020-07-06 2022-12-19 Video playback device, video playback method, and video distribution system

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021149497A Active JP7198892B2 (en) 2020-07-06 2021-09-14 Video playback device, video playback method, and video distribution system

Country Status (1)

Country Link
JP (2) JP7198892B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016475A (en) 2001-07-04 2003-01-17 Oki Electric Ind Co Ltd Information terminal device with image communication function and image distribution system
JP2008264359A (en) 2007-04-24 2008-11-06 Namco Bandai Games Inc Program, information storage medium, game machine and game system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181704A (en) 2011-03-01 2012-09-20 Sony Computer Entertainment Inc Information processor and information processing method
JP5798000B2 (en) 2011-10-21 2015-10-21 Kddi株式会社 Motion generation device, motion generation method, and motion generation program
JP6527627B1 (en) 2018-08-31 2019-06-05 株式会社バーチャルキャスト Content distribution server, content distribution system, content distribution method and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016475A (en) 2001-07-04 2003-01-17 Oki Electric Ind Co Ltd Information terminal device with image communication function and image distribution system
JP2008264359A (en) 2007-04-24 2008-11-06 Namco Bandai Games Inc Program, information storage medium, game machine and game system

Also Published As

Publication number Publication date
JP2021193822A (en) 2021-12-23
JP2023036760A (en) 2023-03-14
JP7198892B2 (en) 2023-01-04

Similar Documents

Publication Publication Date Title
US11656680B2 (en) Technique for controlling virtual image generation system using emotional states of user
JP7504968B2 (en) Avatar display device, avatar generation device and program
CN111641844B (en) Live broadcast interaction method and device, live broadcast system and electronic equipment
US11178456B2 (en) Video distribution system, video distribution method, and storage medium storing video distribution program
KR101855639B1 (en) Camera navigation for presentations
US8213680B2 (en) Proxy training data for human body tracking
CN112198959A (en) Virtual reality interaction method, device and system
KR20210032553A (en) Method and system for providing eye tracking based information about a user behavior, client device, server and computer program product
KR20120051659A (en) Auto-generating a visual representation
TWI255141B (en) Method and system for real-time interactive video
CN108875539B (en) Expression matching method, device and system and storage medium
JP7127659B2 (en) Information processing device, virtual/reality synthesis system, method for generating learned model, method for executing information processing device, program
KR20190020779A (en) Ingestion Value Processing System and Ingestion Value Processing Device
CN105209136A (en) Center of mass state vector for analyzing user motion in 3D images
CN111862348B (en) Video display method, video generation method, device, equipment and storage medium
KR20120049218A (en) Visual representation expression based on player expression
CN107930048B (en) Space somatosensory recognition motion analysis system and motion analysis method
Szwoch FEEDB: a multimodal database of facial expressions and emotions
CN117036583A (en) Video generation method, device, storage medium and computer equipment
JP7416903B2 (en) Video distribution system, video distribution method, and video distribution program
JP6563580B1 (en) Communication system and program
JP7442107B2 (en) Video playback device, video playback method, and video distribution system
JP6945693B2 (en) Video playback device, video playback method, and video distribution system
JP6731532B1 (en) Video playback device, video playback method, and video delivery system
US20230068731A1 (en) Image processing device and moving image data generation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240208

R150 Certificate of patent or registration of utility model

Ref document number: 7442107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150