JP2020060898A - Information processor and program - Google Patents
Information processor and program Download PDFInfo
- Publication number
- JP2020060898A JP2020060898A JP2018190843A JP2018190843A JP2020060898A JP 2020060898 A JP2020060898 A JP 2020060898A JP 2018190843 A JP2018190843 A JP 2018190843A JP 2018190843 A JP2018190843 A JP 2018190843A JP 2020060898 A JP2020060898 A JP 2020060898A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- voice
- time stamp
- packet
- avatar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
本発明は、情報処理装置及びプログラムに関する。 The present invention relates to an information processing device and a program.
従来から、個人の顔を撮像した画像データ等から抽出した特徴量をアバタモデルに適用して、個人の顔の表情を反映したアバタを表示させることが行われている。例えば、特許文献1には、個人の顔の表情を示すデータをモーションデータストリームから抽出する顔認識コンポーネントと、当該個人の顔の表情を示すデータに基づいて、個人の顔の表情を反映するようにキャラクタをアニメーションするレンダーコンポーネントとを備えるシステムが開示されている。当該システムにより、個人の表情が反映されたキャラクタをディスプレイに表示させることが可能となる。 Conventionally, a feature amount extracted from image data obtained by capturing an image of an individual's face is applied to an avatar model to display an avatar that reflects the facial expression of the individual's face. For example, in Patent Document 1, a facial recognition component that extracts data indicating a facial expression of an individual from a motion data stream and a facial recognition component that reflects the facial expression of an individual are reflected based on the data indicating the facial expression of the individual. And a render component for animating a character. With this system, it is possible to display a character on which a personal expression is reflected on the display.
特許文献1に記載のシステムにおいて、臨場感を向上させるために、更に個人が発する音声データをデータストリームに追加し、キャラクタを表示させながら当該音声データに基づく音声を出力させることも考えられる。しかしながら、キャラクタの動きと音声とを精度高く同期させて再生させることは困難であった。 In the system described in Patent Document 1, in order to improve the realism, it is possible to further add voice data generated by an individual to a data stream and output a voice based on the voice data while displaying a character. However, it has been difficult to accurately reproduce the movement of the character and the voice in synchronization.
そこで、本発明は、キャラクタの動きと音声とを精度高く同期させて再生することが可能な情報処理装置を提供することを目的とする。 Therefore, it is an object of the present invention to provide an information processing device capable of accurately synchronizing the motion of a character with the voice and reproducing the same.
本発明の一態様に係る情報処理装置は、アバタモデルを記憶した記憶部と、被写体の特徴量及び第1タイムスタンプを含む複数の第1パケット、並びに音声データ及び第2タイムスタンプを含む複数の第2パケットを受信する受信部と、複数の第1パケットのそれぞれから特徴量を抽出し、特徴量をアバタモデルに入力することにより得られるアバタを表示部に表示させるアバタ出力処理部と、複数の第2パケットのそれぞれから音声データを抽出し、音声データに基づいた音声を音声出力部に出力させる音声出力処理部と、を備え、アバタ出力処理部は、複数の第2パケットのそれぞれに含まれる第2タイムスタンプを取得し、第1タイムスタンプ及び第2タイムスタンプに基づいて、音声及びアバタが同期するようにアバタを表示部に表示させる、情報処理装置。 An information processing apparatus according to an aspect of the present invention includes a storage unit that stores an avatar model, a plurality of first packets that include a feature amount of a subject and a first time stamp, and a plurality of audio packets that include a second time stamp. A receiving unit that receives the second packet; an avatar output processing unit that displays the avatar obtained by extracting the feature amount from each of the plurality of first packets and inputting the feature amount into the avatar model; A voice output processing unit that extracts voice data from each of the second packets and outputs a voice based on the voice data to a voice output unit, and the avatar output processing unit is included in each of the plurality of second packets. The second avatar is acquired and the avatar is displayed on the display unit so that the voice and the avatar are synchronized based on the first time stamp and the second time stamp. Make, the information processing apparatus.
この態様によれば、キャラクタの動きと音声とを精度高く同期させて再生することが可能となる。 According to this aspect, it is possible to accurately reproduce the movement of the character and the voice in synchronization.
本発明によれば、キャラクタの動きと音声とを精度高く同期させて再生することが可能な情報処理装置を提供することができる。 According to the present invention, it is possible to provide an information processing apparatus capable of accurately reproducing a motion of a character and a voice in synchronization with each other.
添付図面を参照して、本発明の好適な実施形態について説明する。(なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。) A preferred embodiment of the present invention will be described with reference to the accompanying drawings. (Note that, in each of the drawings, those denoted by the same reference numerals have the same or similar configurations.)
[第1実施形態]
(1)構成
(1−1)アバタ操作システム1
図1は、第1実施形態に係るアバタ操作システム1の一例を示すネットワーク構成図である。
[First Embodiment]
(1) Configuration (1-1) Avatar operation system 1
FIG. 1 is a network configuration diagram showing an example of an avatar operation system 1 according to the first embodiment.
図1に示すとおり、アバタ操作システム1は、ユーザ端末2Aと、ユーザ端末2Bと、サーバ装置3とを備える。サーバ装置3は、インターネット等の通信ネットワークを介して、ユーザ端末2A及び2Bそれぞれに通信可能に接続されている。以下では、ユーザ端末2A、2B等をまとめて「ユーザ端末2」と総称する場合がある。
As shown in FIG. 1, the avatar operation system 1 includes a
アバタ操作システム1では、一のユーザ端末2が他のユーザ端末2に被写体の特徴量を送信し、当該他のユーザ端末2が受信した特徴量を所定のアバタモデルに適用することにより、他のユーザ端末2においてアバタ(キャラクタ)が出力される。以下では、被写体の特徴量を送信する装置ないし機能を「トラッカー」と称し、被写体の特徴量を受信してアバタを出力する装置ないし機能を「ビューワー」と称する場合がある。 In the avatar operation system 1, one user terminal 2 transmits the feature amount of the subject to the other user terminal 2 and the feature amount received by the other user terminal 2 is applied to a predetermined avatar model, so that another An avatar (character) is output at the user terminal 2. Hereinafter, a device or a function that transmits the feature amount of the subject may be referred to as a “tracker”, and a device or a function that receives the feature amount of the subject and outputs an avatar may be referred to as a “viewer”.
(1−2)ユーザ端末
図2は、第1実施形態に係るユーザ端末2Aの機能上の構成を示すブロック図である。以下では、ユーザ端末2Aは、トラッカー及びビューワーの双方の機能を有するものとして説明するが、ユーザ端末2Aは、トラッカー及びビューワーのいずれか一方の機能のみを有していてもよい。なお、ユーザ端末2Bも、ユーザ端末2Aと同様の構成を有するため、説明を省略する。
(1-2) User Terminal FIG. 2 is a block diagram showing a functional configuration of the
ユーザ端末2Aは、情報処理装置の一例であって、例えば、ROMやRAM等のメモリと、CPU等のプロセッサとを備えるコンピュータによって構成される。ユーザ端末2Aのメモリには、コンピュータプログラムやデータ等が格納される。コンピュータプログラムは、例えばCD−ROM等のコンピュータ読み取り可能な可搬型記録媒体からユーザ端末2Aのメモリにインストールされてもよいし、通信ネットワークを介して他の情報処理装置からダウンロードされることによりユーザ端末2Aのメモリにインストールされてもよい。ユーザ端末2Aのプロセッサは、ユーザ端末2Aのメモリに記憶されたコンピュータプログラム等に基づいて、ユーザ端末2Aの各部の動作を統括的に制御する。
The
ユーザ端末2Aは、例えば、ユーザ端末設定処理部10と、送信処理部20と、受信処理部30と、撮像部41と、音声入力部42と、表示部43と、音声出力部44とを備える。ユーザ端末設定処理部10と、送信処理部20と、受信処理部30とは、ユーザ端末2Aのメモリに記憶されたプログラム等に基づいて、ユーザ端末2Aが備えるプロセッサにより実現される機能モジュールである。撮像部41と、音声入力部42と、表示部43と、音声出力部44とは、それぞれ、ユーザ端末2Aの外部に設けられていてもよい。
The
ユーザ端末設定処理部10は、後述するように、サーバ装置3と通信を行い、ルームIDやクライアントID等に係る種々の設定処理を行う。
As will be described later, the user terminal
送信処理部20は、トラッカー機能を実現する機能モジュールの一例であって、撮像部41により生成された動画データに基づいて表情パケット(第1パケット)を生成し、当該表情パケットを他の情報処理装置に送信する。また、送信処理部20は、音声入力部42により生成された音声データに基づいて音声パケット(第2パケット)を生成し、当該音声パケットを他の情報処理装置に送信する。
The
受信処理部30は、ビューワー機能を実現する機能モジュールの一例であって、他の情報処理装置から表情パケットを受信し、当該表情パケットに基づいて表示部43にアバタを表示する。また、受信処理部30は、他の情報処理装置から音声パケットを受信し、当該音声パケットに基づいて音声出力部44に音声を出力する。
The
撮像部41は、例えば、レンズ及び撮像素子により構成され、被写体及び/又は被写体の周囲環境を撮像することにより動画データを生成する。音声入力部42は、例えば、マイクにより構成され、被写体及び/又は被写体の周囲環境が発する音声に基づいて音声データを生成する。表示部43は、例えば、液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイ等により構成され、画像表示データや動画表示データに基づいて画像や動画を表示する。音声出力部44は、例えば、スピーカ等により構成され、音声データに基づいて音声を出力する。
The
(1−2−1)送信処理部
図3は、送信処理部20の機能モジュールを示す概略構成図である。
(1-2-1) Transmission Processing Unit FIG. 3 is a schematic configuration diagram showing functional modules of the
上述したとおり、送信処理部20は、トラッカー機能を実現する機能モジュールの一例である。図3に示すとおり、送信処理部20は、例えば、表情パケット処理部21と、音声パケット処理部22と、動画データバッファ23と、音声データバッファ24とを備える。
As described above, the
表情パケット処理部21は、例えば、部分動画データ抽出部211と、特徴量抽出部212と、第1タイムスタンプ部213と、表情パケット生成部214とを備える。
The facial expression
部分動画データ抽出部211は、撮像部41により生成される動画データから、所定の第1周期毎に部分動画データを抽出する。ここで、第1周期の長さは、特に限定されないが、表情パケットの容量に応じて任意に設定してもよく、例えば、1ms、2ms、5ms等であってよい。
The partial moving image
特徴量抽出部212は、部分動画データから被写体の特徴量を抽出する。ここで、特徴量は、被写体の特徴を示す情報である。特徴量は、被写体に含まれる少なくとも一の部位の特徴量であってよく、被写体の顔に含まれる部位の特徴量であってよい。特徴量は、例えば、被写体の額、眉(右眉、左眉)、目(左目、右目)、鼻、口、耳、頭髪等の特徴量であってよい。
The feature
第1タイムスタンプ部213は、第1タイムスタンプを生成する。ここで、第1タイムスタンプは、例えば、部分動画データが部分動画データ抽出部211により抽出された時刻に応じたタイムスタンプである。第1タイムスタンプは、例えば、部分動画データの開始時刻及び終了時刻の間の任意の時刻(開始時刻及び終了時刻を含む)に応じたタイムスタンプであってもよい。
The first time stamp unit 213 generates a first time stamp. Here, the first time stamp is, for example, a time stamp corresponding to the time when the partial moving image data was extracted by the partial moving image
表情パケット生成部214は、特徴量抽出部212が抽出した特徴量と、第1タイムスタンプ部213が生成した第1タイムスタンプとを含む表情パケット(第1パケット)を生成する。また、表情パケット生成部214は、生成した表情パケットを、通信ネットワークを介して他の情報処理装置に送信する。
The facial
音声パケット処理部22は、例えば、部分音声データ抽出部221と、第2タイムスタンプ部222と、音声パケット生成部223とを備える。
The voice
部分音声データ抽出部221は、音声入力部42により生成される音声データから、所定の第2周期毎に部分音声データを抽出する。ここで、第2周期の長さは、特に限定されないが、音声パケットの容量に応じて任意に設定してもよく、例えば、30ms、60ms、100ms等であってよい。なお、第1周期の長さと、第2周期の長さは、異なるものであってよい。
The partial voice
第2タイムスタンプ部222は、第2タイムスタンプを生成する。ここで、第2タイムスタンプは、例えば、部分音声データが部分音声データ抽出部221により抽出された時刻に応じたタイムスタンプである。
The second
音声パケット生成部223は、部分音声データ抽出部221が抽出した部分音声データと、第2タイムスタンプ部222が生成した第2タイムスタンプとを含む音声パケット(第2パケット)を生成する。
The voice
(1−2−2)受信処理部
図4は、受信処理部30の機能モジュールを示す概略構成図である。
(1-2-2) Reception Processing Unit FIG. 4 is a schematic configuration diagram showing functional modules of the
上述したとおり、受信処理部30は、ビューワー機能を実現する機能モジュールの一例である。図4に示すとおり、受信処理部30は、例えば、受信部31と、音声バッファ処理部32Aと、表情バッファ処理部32Bと、アバタ出力処理部33と、アバタモデル記憶部34と、音声出力処理部35とを備える。
As described above, the
受信部31は、サーバ装置3等の他の情報処理装置からパケットを受信し、受信したパケットを例えばシーケンスID等に基づいて並べ替える。
The receiving
音声バッファ処理部32A及び表情バッファ処理部32Bは、ユーザ端末2Aのメモリ及びプロセッサの一部から構成される処理部である。音声バッファ処理部32Aは、受信部31が並べ替えた音声パケットを順次格納することによりバッファリングし、遅延した音声パケットは破棄する。表情バッファ処理部32Bは、受信部31が並べ替えた表情パケットを順次格納することによりバッファリングし、遅延した表情パケットは破棄する。
The voice
アバタ出力処理部33は、表情バッファ処理部32Bに格納された表情パケットに基づいて、所定の表情パケットから特徴量を抽出することにより再生モーションを設定し、当該再生モーションをアバタモデル記憶部34に記憶されたアバタモデルに適用することにより、アバタの表示データを生成する。このとき、アバタ出力処理部33は、音声と同期してアバタを動かすことができるように、音声出力処理部35から受信している第2タイムスタンプに基づいて再生モーションを設定する。再生モーションの設定方法については後述する。そして、アバタ出力処理部33は、当該表示データを表示部43に出力し、表示部43にアバタを表示させる。
The avatar
アバタモデル記憶部34は、ユーザ端末2Aのメモリの一部であって、アバタモデルが記憶されている。アバタモデルは、例えば特徴量抽出部212が抽出した被写体の特徴量を入力すると、当該特徴量に応じた態様のアバタを表示させるための表示データを出力する。アバタは、人間、動物、及び架空の生物等を模したキャラクタや、非生物のオブジェクト、その他任意の態様であってよい。
The avatar
音声出力処理部35は、音声バッファ処理部32Aに格納された音声パケットから音声データを抽出し、当該音声データに基づいて音声出力部44から音声を出力する。また、音声出力処理部35は、音声を出力した音声パケットからタイムスタンプを抽出し、当該タイムスタンプを表情バッファ処理部32Bにフィードバックする。
The audio
(1−2−3)パケットのデータ構造
<表情パケット>
図5Aは、表情パケットのデータ構造を示す概略構成図である。
(1-2-3) Data structure of packet <expression packet>
FIG. 5A is a schematic configuration diagram showing a data structure of a facial expression packet.
表情パケットは、通信処理にかかる負荷が少ないことから、特にタイムリーなアバタの操作が求められるアバタ操作システム1においては、UDP(User Datagram Protocol)に準拠したデータ構造を有することが好ましい。しかしながら、表情パケットは、例えば、TCP(Transport Control Protocol)等の他の任意のプロトコルに準拠したデータ構造を有していてもよい。 The facial expression packet preferably has a data structure conforming to the UDP (User Datagram Protocol) in the avatar operation system 1 which requires a particularly timely operation of the avatar because the facial expression packet has a small load on communication processing. However, the facial expression packet may have a data structure conforming to any other protocol such as TCP (Transport Control Protocol).
図5Aに示すとおり、表情パケットは、例えば、シーケンスIDと、パケットタイプと、第1タイムスタンプと、クライアントIDと、ルームIDと、データ長と、表情データとを含む。 As shown in FIG. 5A, the facial expression packet includes, for example, a sequence ID, a packet type, a first time stamp, a client ID, a room ID, a data length, and facial expression data.
シーケンスIDは、パケットを識別するための識別情報である。パケットタイプは、パケットのタイプを示す情報であり、「表情パケット」や「音声パケット」等が示される。第1タイムスタンプは、第1タイムスタンプ部213が生成した第1タイムスタンプである。クライアントIDは、初期設定処理においてサーバ装置3から提供されるデータであって、クライアントとしてのユーザ端末2Aに固有の識別情報である。ルームIDは、サーバ装置3が設定するルームを識別するための識別情報である。データ長は、パケットのデータ長を示す情報である。表情データは、特徴量抽出部212が抽出した被写体の額、眉(右眉、左眉)、目(左目、右目)、鼻、口、耳、頭髪等の特徴量を示すデータである。
The sequence ID is identification information for identifying the packet. The packet type is information indicating the type of packet, and includes “expression packet” and “voice packet”. The first time stamp is the first time stamp generated by the first time stamp unit 213. The client ID is data provided from the
<音声パケット>
図5Bは、音声パケットのデータ構造を示す概略構成図である。
<Voice packet>
FIG. 5B is a schematic configuration diagram showing a data structure of a voice packet.
音声パケットは、上述のとおり、UDPに準拠したデータ構造を有することが好ましいが、UDPに限らずとも、例えば、TCP等の他の任意のプロトコルに準拠したデータ構造を有していてもよい。 As described above, the voice packet preferably has a data structure compliant with UDP, but not limited to UDP, it may have a data structure compliant with any other protocol such as TCP.
図5Bに示すとおり、音声パケットは、例えば、シーケンスIDと、パケットタイプと、第2タイムスタンプと、クライアントIDと、ルームIDと、データ長と、音声データとを含む。シーケンスID、パケットタイプ、クライアントID、ルームID、及びデータ長については、表情パケットに含まれるものと同様であるので、説明を省略する。 As shown in FIG. 5B, the voice packet includes, for example, a sequence ID, a packet type, a second time stamp, a client ID, a room ID, a data length, and voice data. The sequence ID, the packet type, the client ID, the room ID, and the data length are the same as those included in the facial expression packet, and thus the description thereof will be omitted.
第2タイムスタンプは、第2タイムスタンプ部222が生成した第2タイムスタンプである。音声データは、部分音声データ抽出部221が抽出した部分音声データである。
The second time stamp is the second time stamp generated by the second
(1−3)サーバ装置
図6は、サーバ装置3の機能上の構成を示すブロック図である。
(1-3) Server Device FIG. 6 is a block diagram showing a functional configuration of the
サーバ装置3は、例えば、ROMやRAM等のメモリと、CPU等のプロセッサとを備えるコンピュータによって構成される。サーバ装置3のメモリには、コンピュータプログラムやデータ等が格納される。コンピュータプログラムは、例えばCD−ROM等のコンピュータ読み取り可能な可搬型記録媒体からサーバ装置3のメモリにインストールされてもよいし、通信ネットワークを介して他の情報処理装置からダウンロードされることによりサーバ装置3のメモリにインストールされてもよい。サーバ装置3のプロセッサは、サーバ装置3のメモリに記憶されたコンピュータプログラム等に基づいて、サーバ装置3の各部の動作を統括的に制御する。
The
図6に示すとおり、サーバ装置3は、例えば、サーバ装置設定処理部50と、パケット処理部60とを備える。サーバ装置設定処理部50と、パケット処理部60とは、サーバ装置3のメモリに記憶されたプログラム等に基づいて、サーバ装置3が備えるプロセッサにより実現される機能モジュールである。
As shown in FIG. 6, the
サーバ装置設定処理部50は、ユーザ端末2との間で、ルームIDやクライアントIDに係る設定処理を行う。
The server device
パケット処理部60は、ユーザ端末2から受信したパケット(表情パケット及び音声パケットを含む)を解析し、所望のユーザ端末2へ送信する。
The
(2)アバタ操作システム1の処理
(2−1)初期設定処理
図7は、初期設定処理を説明するための動作シーケンス図である。
(2) Process of avatar operation system 1 (2-1) Initial setting process FIG. 7 is an operation sequence diagram for explaining the initial setting process.
(S101)
まず、ユーザ端末2のユーザ端末設定処理部10は、サーバ装置3にルームIDリスト要求を送信する。
(S101)
First, the user terminal
(S102)
次に、サーバ装置3のサーバ装置設定処理部50は、サーバ装置3の内部又は外部のメモリからルームIDリストを取得し、これをユーザ端末2に送信する。
(S102)
Next, the server device
(S103)
次に、ユーザ端末設定処理部10は、クライアントID生成要求をサーバ装置3に送信する。このとき、ユーザ端末設定処理部10は、例えば、当該クライアントID生成要求に、ルームIDリストから選択されたルームIDを含める。
(S103)
Next, the user terminal
(S104)
次に、サーバ装置設定処理部50は、クライアントID生成要求に基づいて、クライアントIDを生成する。このとき、サーバ装置設定処理部50は、生成されたクライアントIDを、クライアントID生成要求に含まれる選択されたルームIDに紐付けてサーバ装置3の内部又は外部のメモリに格納する。
(S104)
Next, the server device
(S105)
次に、サーバ装置設定処理部50は、ユーザ端末2に、生成されたクライアントIDを送信する。
(S105)
Next, the server device
(S106)
次に、ユーザ端末設定処理部10は、サーバ装置3から受信したクライアントIDを、ユーザ端末2のメモリに格納する。以上で、初期設定処理が終了する。
(S106)
Next, the user terminal
(2−2)アバタ操作処理
図8は、アバタ操作処理を説明するための動作シーケンス図である。
(2-2) Avatar Operation Processing FIG. 8 is an operation sequence diagram for explaining the avatar operation processing.
ここで、アバタ操作処理においては、一の情報処理装置(トラッカー)が他の情報処理装置(ビューワー)に被写体の特徴量を含むデータを送信し、特徴量に応じたアバタをビューワーに表示させることによって、アバタが操作される。以下では、ユーザ端末2Aがトラッカーとして、ユーザ端末2Bがビューワーとしてそれぞれ機能する場合を例に説明する。
Here, in the avatar operation processing, one information processing device (tracker) transmits data including the feature amount of the subject to another information processing device (viewer), and causes the viewer to display the avatar corresponding to the feature amount. Operates the avatar. Hereinafter, a case where the
(S201)
まず、トラッカーであるユーザ端末2Aの送信処理部20は、パケット生成処理を行い、パケット(表情パケット又は音声パケット)を生成する。パケット生成処理の詳細は後述する。
(S201)
First, the
(S202)
次に、ユーザ端末2Aの送信処理部20は、生成したパケットを、通信ネットワークを介してサーバ装置3に送信する。
(S202)
Next, the
(S203)
次に、サーバ装置3のパケット処理部60は、ユーザ端末2Aから受信したパケットを解析して、当該パケットの送信先を特定する。具体的には、パケット処理部60は、パケットに含まれるルームID及びクライアントIDを取得し、サーバ装置3の内部又は外部のメモリに格納されたルームIDリストを参照して、パケットの送信先を特定する。
(S203)
Next, the
(S204)
次に、サーバ装置3のパケット処理部60は、パケット解析処理の結果に応じて、通信ネットワークを介して、パケットを特定された送信先に送信する。ここでは、送信先として、ビューワーであるユーザ端末2Bが特定されるものとする。
(S204)
Next, the
(S205)
次に、ビューワーであるユーザ端末2Bの受信処理部30は、サーバ装置3から受信したパケットに基づいて、出力処理を行う。出力処理の詳細は後述する。以上で、アバタ操作処理が終了する。
(S205)
Next, the
(2−2−1)パケット生成処理
以下、ユーザ端末2Aによるパケット生成処理について説明する。パケット生成処理は、表情パケットを生成する表情パケット生成処理と、音声パケットを生成する音声パケット生成処理とを含む。
(2-2-1) Packet Generation Process Hereinafter, the packet generation process by the
<表情パケット生成処理>
図9は、表情パケット生成処理を説明するための動作フロー図である。
<Expression packet generation processing>
FIG. 9 is an operation flow diagram for explaining the facial expression packet generation process.
(S301)
まず、撮像部41は、被写体を撮像することにより動画データ(時系列的に連続した複数の画像データ)を生成し、当該動画データを動画データバッファ23に格納する(バッファリングする)。
(S301)
First, the
(S302)
次に、表情パケット処理部21の部分動画データ抽出部211は、第1周期が経過したか否かを判定する。第1周期が経過していないと判定された場合は(S302;No)、処理はS301に戻る。
(S302)
Next, the partial moving image
(S303)
第1周期が経過したと判定された場合は(S302;Yes)、部分動画データ抽出部211は、動画データバッファ23に格納された動画データから一の第1周期に含まれる部分動画データを抽出する。
(S303)
When it is determined that the first period has elapsed (S302; Yes), the partial moving image
(S304)
次に、表情パケット処理部21の特徴量抽出部212は、抽出された部分動画データに基づいて、当該部分動画データに含まれる被写体の特徴量を抽出する。
(S304)
Next, the feature
(S305)
次に、表情パケット処理部21の第1タイムスタンプ部213は、抽出された部分動画データについて、当該部分動画データが部分動画データ抽出部211により抽出された時刻に応じた第1タイムスタンプを生成する。ここで、第1タイムスタンプは、例えば、当該部分動画データの開始時刻から終了時刻のうちの任意の時刻(開始時刻及び終了時刻を含む)であってもよい。
(S305)
Next, the first time stamp unit 213 of the facial expression
(S306)
次に、表情パケット処理部21の表情パケット生成部214は、特徴量抽出部212により抽出された特徴量と、第1タイムスタンプとを含む表情パケットを生成する。以上で、表情パケット生成処理が終了する。
(S306)
Next, the facial expression
<音声パケット生成処理>
図10は、音声パケット生成処理を説明するための動作フローである。
<Voice packet generation processing>
FIG. 10 is an operation flow for explaining the voice packet generation process.
(S401)
まず、音声入力部42は、被写体や被写体を取り巻く環境から発せられる音声に基づいて音声データを生成し、当該音声データを音声データバッファ24に格納する(バッファリングする)。
(S401)
First, the
(S402)
次に、音声パケット処理部22の部分音声データ抽出部221は、第2周期が経過したか否かを判定する。第2周期が経過していないと判定された場合は(S402;No)、処理はS401に戻る。
(S402)
Next, the partial voice
(S403)
第2周期が経過したと判定された場合は(S402;Yes)、部分音声データ抽出部221は、音声データバッファ24に格納された音声データから一の第2周期に含まれる部分音声データを抽出する。
(S403)
When it is determined that the second cycle has elapsed (S402; Yes), the partial audio
(S404)
次に、音声パケット処理部22の第2タイムスタンプ部222は、抽出された部分音声データについて、当該部分音声データが部分音声データ抽出部221により抽出された時刻に応じた第2タイムスタンプを生成する。ここで、第2タイムスタンプは、例えば、当該部分音声データの開始時刻から終了時刻のうちの任意の時刻(開始時刻及び終了時刻を含む)であってもよい。
(S404)
Next, the second
(S405)
次に、音声パケット処理部22の音声パケット生成部223は、部分音声データ抽出部221により抽出された部分音声データと、第2タイムスタンプとを含む音声パケットを生成する。以上で、音声パケット生成処理が終了する。
(S405)
Next, the
(2−2−2)出力処理
以下、ユーザ端末2Bによる出力処理について説明する。出力処理は、音声出力処理と、アバタ表示処理と、を含む。
(2-2-2) Output Process Hereinafter, the output process by the
<音声出力処理>
図11は、音声出力処理を説明するための動作フローである。
<Voice output processing>
FIG. 11 is an operation flow for explaining the audio output process.
(S501)
まず、ユーザ端末2Bの受信部31は、サーバ装置3から送信された音声パケットを受信する。
(S501)
First, the
(S502)
次に、受信部31は、受信した音声パケットをシーケンスIDに基づいて並べ替える。
(S502)
Next, the
(S503)
次に、音声バッファ処理部32Aは、受信部31が並べ替えた音声パケットをバッファリングする。
(S503)
Next, the voice
(S504)
次に、音声バッファ処理部32Aは、所定の待機時間が経過したが否かを判定する。ここで、所定の待機時間の長さは特に限定されないが、例えば、50msである。所定の待機時間が経過していないと判定された場合は(S604;No)、上述のS603に戻る。
(S504)
Next, the audio
(S505)
音声バッファ処理部32Aが、所定の待機時間が経過したと判定した場合(S604;Yes)、バッファリングされた音声パケットから音声データを抽出し、当該音声データを音声出力部44に出力することにより、音声を出力させる。
(S505)
When the audio
(S506)
また、音声出力処理部35は、再生した音声パケットに含まれる第2タイムスタンプを抽出し、当該第2タイムスタンプを表情バッファ処理部32Bに送信する。以上で、音声出力処理が終了する。
(S506)
Further, the audio
<アバタ表示処理>
図12は、アバタ表示処理を説明するための動作フローである。以下の動作フローにおいては、表情バッファ処理部32Bは、音声出力処理部35から断続的に第2タイムスタンプを受信しているものとする。
<Avatar display processing>
FIG. 12 is an operation flow for explaining the avatar display process. In the following operation flow, the facial expression
(S601)
まず、ユーザ端末2Bの受信部31は、サーバ装置3から送信された表情パケットを受信する。
(S601)
First, the receiving
(S602)
次に、受信部31は、受信した表情パケットをシーケンスIDに基づいて並べ替える。
(S602)
Next, the
(S603)
次に、表情バッファ処理部32Bは、受信部31が並べ替えた表情パケットをバッファリングする。このとき、受信した第2タイムスタンプよりも古い第1タイムスタンプを含む表情パケットがバッファリングされている場合は、遅延したパケットとして破棄する。
(S603)
Next, the facial expression
(S604)
次に、アバタ出力処理部33は、再生モーションを設定する。当該処理は、アバタと音声とが同期するように第1タイムスタンプ及び第2タイムスタンプに基づいて実行される。具体的には、音声を出力した時点(第2タイムスタンプが示す時点)に最も近い過去の時点の第1タイムスタンプに対応する表情データから開始し、再生時間の経過時点に最も近い将来の時点の第1タイムスタンプに対応する表情データで終了するように、再生モーションを設定する。
(S604)
Next, the avatar
(S605)
次に、アバタ出力処理部33は、再生モーションに含まれる表情データ(特徴量)をアバタモデル記憶部34に格納されたアバタモデルに入力することによりアバタに係る表示データを生成し、当該表示データを表示部43に出力することによりアバタを表示部43に表示させる。上述したとおり、アバタ出力処理部33は第1タイムスタンプ及び第2タイムスタンプに基づいて再生モーションを設定するため、アバタの音声と表情とが同期して再生される。以上で、アバタ表示処理が終了する。
(S605)
Next, the avatar
[変形例]
複数のユーザ端末が生成した各音声パケットが同一のルームIDに係る場合、各音声パケットに含まれる音声を合成して合成音声を生成するミキシング処理を実行してもよい。当該ミキシング処理は、例えば、サーバ装置3が実行してもよいし、パケットを受信するユーザ端末2が実行してもよい。サーバ装置3がミキシング処理を実行する場合、例えば、各音声パケットに含まれる音声を抽出し、各音声パケットに含まれるタイムスタンプに基づいて、音声を同期して合成する。そして、合成した音声を含む新たな音声パケットを生成し、各音声パケットに代えて当該新たな音声パケットを所望のユーザ端末2に送信してもよい。パケットを受信するユーザ端末2がミキシング処理を実行する場合、例えば、受信した各音声パケットに含まれる音声を抽出し、各音声パケットに含まれるタイムスタンプに基づいて、音声を同期して出力する。
[Modification]
When each voice packet generated by a plurality of user terminals relates to the same room ID, the voice included in each voice packet may be combined to perform a mixing process of generating a synthesized voice. The mixing process may be executed by the
上述した実施形態においては、動画データに基づく特徴量と、音声データとが、それぞれ異なるパケット(表情パケット及び音声パケット)に格納されるものとして説明した。しかしながら、ユーザ端末2は、動画データに基づく特徴量と、音声データとを単一のパケットにまとめて格納した上で、単一のタイムスタンプを生成しこれを当該単一のパケットに含めてもよい。 In the above-described embodiment, the feature amount based on the moving image data and the voice data are stored in different packets (a facial expression packet and a voice packet), respectively. However, the user terminal 2 may store the feature amount based on the moving image data and the audio data in a single packet, generate a single time stamp, and include this in the single packet. Good.
上述した実施形態においては、第2タイムスタンプよりも古い第1タイムスタンプに係る表情パケットは破棄するものとした。この点、破棄された表情パケットの前後から、アバタ動作の補完を行ってもよい。 In the above-described embodiment, the facial expression packet related to the first time stamp older than the second time stamp is discarded. In this regard, the avatar motion may be complemented before and after the discarded facial expression packet.
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。 The embodiments described above are for facilitating the understanding of the present invention and are not for limiting the interpretation of the present invention. Each element included in the embodiment and its arrangement, material, condition, shape, size and the like are not limited to the exemplified ones and can be appropriately changed. Further, the configurations shown in different embodiments can be partially replaced or combined.
1…アバタ操作システム、2、2A、2B…ユーザ端末、10…ユーザ端末設定処理部、20…送信処理部、21…表情パケット処理部、211…部分動画データ抽出部、212…特徴量抽出部、213…第1タイムスタンプ部、214…表情パケット生成部、22…音声パケット処理部、221…部分音声データ抽出部、222…第2タイムスタンプ部、223…音声パケット生成部、23…動画データバッファ、24…音声データバッファ、30…受信処理部、31…受信部、32A…音声バッファ処理部、32B…表情バッファ処理部、33…アバタ出力処理部、34…アバタモデル記憶部、35…音声出力処理部、41…撮像部、42…音声入力部、43…表示部、44…音声出力部、3…サーバ装置、50…サーバ装置設定処理部、60…パケット処理部
DESCRIPTION OF SYMBOLS 1 ... Avatar operation system, 2 2A, 2B ... User terminal, 10 ... User terminal setting processing part, 20 ... Transmission processing part, 21 ... Facial expression packet processing part, 211 ... Partial moving image data extraction part, 212 ... Feature amount extraction part 213 ... First time stamp section, 214 ... Facial expression packet generation section, 22 ... Voice packet processing section, 221 ... Partial voice data extraction section, 222 ... Second time stamp section, 223 ... Voice packet generation section, 23 ... Video data Buffer, 24 ... Voice data buffer, 30 ... Reception processing unit, 31 ... Reception unit, 32A ... Voice buffer processing unit, 32B ... Facial expression buffer processing unit, 33 ... Avata output processing unit, 34 ... Avata model storage unit, 35 ... Voice Output processing unit, 41 ... Imaging unit, 42 ... Voice input unit, 43 ... Display unit, 44 ... Voice output unit, 3 ... Server device, 50 ... Server device
Claims (7)
前記部分動画データに含まれる被写体の特徴量を抽出する特徴量抽出部と、
前記部分動画データが前記部分動画データ抽出部により抽出された時刻に応じた第1タイムスタンプを生成する第1タイムスタンプ部と、
前記特徴量及び前記第1タイムスタンプを含む第1パケットを生成しこれを送信する第1パケット生成部と、
音声入力部により生成された音声データから所定の第2周期毎に部分音声データを抽出する部分音声データ抽出部と、
前記部分音声データが前記部分音声データ抽出部により抽出された時刻に応じた第2タイムスタンプを生成する第2タイムスタンプ部と、
前記部分音声データ及び前記第2タイムスタンプを含む第2パケットを生成しこれを送信する第2パケット生成部と、
を備える情報処理装置。 A partial moving image data extraction unit that extracts partial moving image data for each predetermined first period from the moving image data generated by the imaging unit,
A feature amount extraction unit that extracts the feature amount of the subject included in the partial moving image data,
A first time stamp unit that generates a first time stamp according to the time when the partial moving image data is extracted by the partial moving image data extraction unit;
A first packet generation unit that generates a first packet including the characteristic amount and the first time stamp and transmits the first packet;
A partial voice data extraction unit for extracting partial voice data from the voice data generated by the voice input unit at every predetermined second cycle;
A second time stamp unit for generating a second time stamp according to the time when the partial audio data is extracted by the partial audio data extracting unit;
A second packet generator that generates a second packet including the partial audio data and the second time stamp, and transmits the second packet;
An information processing apparatus including.
撮像部により生成された動画データから所定の第1周期毎に部分動画データを抽出する部分動画データ抽出部と、
前記部分動画データに含まれる被写体の特徴量を抽出する特徴量抽出部と、
前記部分動画データが前記部分動画データ抽出部により抽出された時刻に応じた第1タイムスタンプを生成する第1タイムスタンプ部と、
前記特徴量及び前記第1タイムスタンプを含む第1パケットを生成しこれを送信する第1パケット生成部と、
音声入力部により生成された音声データから所定の第2周期毎に部分音声データを抽出する部分音声データ抽出部と、
前記部分音声データが前記部分音声データ抽出部により抽出された時刻に応じた第2タイムスタンプを生成する第2タイムスタンプ部と、
前記部分音声データ及び前記第2タイムスタンプを含む第2パケットを生成しこれを送信する第2パケット生成部と、
を実現させるためのプログラム。 In a computer with a storage unit,
A partial moving image data extraction unit that extracts partial moving image data for each predetermined first period from the moving image data generated by the imaging unit,
A feature amount extraction unit that extracts the feature amount of the subject included in the partial moving image data,
A first time stamp unit that generates a first time stamp according to the time when the partial moving image data is extracted by the partial moving image data extraction unit;
A first packet generation unit that generates a first packet including the characteristic amount and the first time stamp and transmits the first packet;
A partial voice data extraction unit for extracting partial voice data from the voice data generated by the voice input unit at every predetermined second cycle;
A second time stamp unit for generating a second time stamp according to the time when the partial audio data is extracted by the partial audio data extracting unit;
A second packet generator that generates a second packet including the partial audio data and the second time stamp, and transmits the second packet;
A program for realizing.
被写体の特徴量及び第1タイムスタンプを含む複数の第1パケット、並びに音声データ及び第2タイムスタンプを含む複数の第2パケットを受信する受信部と、
前記複数の第1パケットのそれぞれから前記特徴量を抽出し、前記特徴量を前記アバタモデルに入力することにより得られるアバタを表示部に表示させるアバタ出力処理部と、
前記複数の第2パケットのそれぞれから前記音声データを抽出し、前記音声データに基づいた音声を音声出力部に出力させる音声出力処理部と、を備え、
前記アバタ出力処理部は、前記複数の第2パケットのそれぞれに含まれる前記第2タイムスタンプを取得し、前記第1タイムスタンプ及び前記第2タイムスタンプに基づいて、音声及びアバタが同期するようにアバタを前記表示部に表示させる、情報処理装置。 A storage unit that stores the avatar model,
A receiving unit for receiving a plurality of first packets including a feature amount of a subject and a first time stamp, and a plurality of second packets including audio data and a second time stamp;
An avatar output processing unit that displays the avatar obtained by extracting the feature amount from each of the plurality of first packets and inputting the feature amount into the avatar model;
A voice output processing unit that extracts the voice data from each of the plurality of second packets and outputs a voice based on the voice data to a voice output unit;
The avatar output processing unit acquires the second time stamps included in each of the plurality of second packets, and synchronizes the voice and the avatar based on the first time stamp and the second time stamp. An information processing device for displaying an avatar on the display unit.
被写体の特徴量及び第1タイムスタンプを含む複数の第1パケット、並びに音声データ及び第2タイムスタンプを含む複数の第2パケットを受信する受信部と、
前記複数の第1パケットのそれぞれから前記特徴量を抽出し、前記特徴量をアバタモデルに入力することにより得られるアバタを表示部に表示させるアバタ出力処理部と、
前記複数の第2パケットのそれぞれから前記音声データを抽出し、前記音声データに基づいた音声を音声出力部に出力させる音声出力処理部と、を実現させるためのプログラムであって、
前記アバタ出力処理部は、前記複数の第2パケットのそれぞれに含まれる前記第2タイムスタンプを取得し、前記第1タイムスタンプ及び前記第2タイムスタンプに基づいて、音声及びアバタが同期するようにアバタを前記表示部に表示させる、プログラム。 In a computer with a storage unit,
A receiving unit for receiving a plurality of first packets including a feature amount of a subject and a first time stamp, and a plurality of second packets including audio data and a second time stamp;
An avatar output processing unit that displays the avatar obtained by extracting the feature amount from each of the plurality of first packets and inputting the feature amount into an avatar model;
A program for realizing the voice output processing unit that extracts the voice data from each of the plurality of second packets and outputs the voice based on the voice data to a voice output unit,
The avatar output processing unit acquires the second time stamps included in each of the plurality of second packets, and synchronizes the voice and the avatar based on the first time stamp and the second time stamp. A program for displaying an avatar on the display unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190843A JP7195861B2 (en) | 2018-10-09 | 2018-10-09 | Information processing device and program. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018190843A JP7195861B2 (en) | 2018-10-09 | 2018-10-09 | Information processing device and program. |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020060898A true JP2020060898A (en) | 2020-04-16 |
JP7195861B2 JP7195861B2 (en) | 2022-12-26 |
Family
ID=70220248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018190843A Active JP7195861B2 (en) | 2018-10-09 | 2018-10-09 | Information processing device and program. |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7195861B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022123783A1 (en) * | 2020-12-11 | 2022-06-16 | Heroes株式会社 | Customer hospitality service system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018107785A (en) * | 2016-12-26 | 2018-07-05 | 株式会社コロプラ | Method executed on computer for performing communication via virtual space, program for making computer execute the method, and information processing device |
-
2018
- 2018-10-09 JP JP2018190843A patent/JP7195861B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018107785A (en) * | 2016-12-26 | 2018-07-05 | 株式会社コロプラ | Method executed on computer for performing communication via virtual space, program for making computer execute the method, and information processing device |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022123783A1 (en) * | 2020-12-11 | 2022-06-16 | Heroes株式会社 | Customer hospitality service system |
Also Published As
Publication number | Publication date |
---|---|
JP7195861B2 (en) | 2022-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11882319B2 (en) | Virtual live video streaming method and apparatus, device, and readable storage medium | |
US10938725B2 (en) | Load balancing multimedia conferencing system, device, and methods | |
US12033241B2 (en) | Scene interaction method and apparatus, electronic device, and computer storage medium | |
US9626984B2 (en) | Instant messaging method and system, communication information processing method, terminal, and storage medium | |
US20160110922A1 (en) | Method and system for enhancing communication by using augmented reality | |
US9898850B2 (en) | Support and complement device, support and complement method, and recording medium for specifying character motion or animation | |
US20210312671A1 (en) | Method and apparatus for generating video | |
US6943794B2 (en) | Communication system and communication method using animation and server as well as terminal device used therefor | |
CN115423905A (en) | Digital human driving method, system, device and storage medium | |
CN110677685B (en) | Network live broadcast display method and device | |
EP2747464A1 (en) | Sent message playing method, system and related device | |
US11871089B2 (en) | Video modification and transmission using tokens | |
CN110401810A (en) | Processing method, device, system, electronic equipment and the storage medium of virtual screen | |
CN110415318B (en) | Image processing method and device | |
JP6688378B1 (en) | Content distribution system, distribution device, reception device, and program | |
JP2020112895A (en) | Control program of information processing apparatus, control method of information processing apparatus, and information processing apparatus | |
CN114286021B (en) | Rendering method, rendering device, server, storage medium, and program product | |
WO2022193635A1 (en) | Customer service system, method and apparatus, electronic device, and storage medium | |
JP7195861B2 (en) | Information processing device and program. | |
CN110433491A (en) | Movement sync response method, system, device and the storage medium of virtual spectators | |
CN113220130A (en) | VR experience system for party building and equipment thereof | |
US20200007306A1 (en) | Virtual reality viewing system, reproduction synchronizing method, and virtual reality viewing program | |
KR20170127354A (en) | Apparatus and method for providing video conversation using face conversion based on facial motion capture | |
CN106331591B (en) | The method for synchronously switching and device of monitored picture | |
CN115242980B (en) | Video generation method and device, video playing method and device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7195861 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |