JP2020082246A - Posture data generation device, learning tool, computer program, learning data, posture data generation method and learning model generation method - Google Patents
Posture data generation device, learning tool, computer program, learning data, posture data generation method and learning model generation method Download PDFInfo
- Publication number
- JP2020082246A JP2020082246A JP2018217480A JP2018217480A JP2020082246A JP 2020082246 A JP2020082246 A JP 2020082246A JP 2018217480 A JP2018217480 A JP 2018217480A JP 2018217480 A JP2018217480 A JP 2018217480A JP 2020082246 A JP2020082246 A JP 2020082246A
- Authority
- JP
- Japan
- Prior art keywords
- data
- learning
- time
- posture
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、姿勢データ生成装置、学習器、コンピュータプログラム、学習データ、姿勢データ生成方法及び学習モデルの生成方法に関する。 The present invention relates to a posture data generation device, a learning device, a computer program, learning data, a posture data generation method, and a learning model generation method.
近年、ロボットやアバターなどのエージェントの社会進出が進んでおり、日常生活においても、エージェントと人が接する機会が増加している。このようなエージェントの例として、プレゼンテーションを行うものがある。 In recent years, agents such as robots and avatars have advanced into society, and the opportunities for agents to come into contact with each other are increasing in daily life. An example of such an agent is to give a presentation.
特許文献1には、プレゼンテーションのように人と対面するためのアプリケーションを備え、腕の関節や頭の向きを回転させて姿勢を変更して信頼性の高いコミュニケーションを提供することができるサービスロボットが開示されている。
しかし、エージェントが、人との自然なコミュニケーションを実現するためには、自然なコミュニケーションに見えるジェスチャーを制作する必要がある。しかし、自然なジェスチャーの制作には、相当のスキルを備える制作者が必要である。また、様々な動作パターンを実現するには、予め手動でプログラムやモーションデータを制作する必要がある。このため、自然なジェスチャーの制作には、長時間の作業を要し、コストも高くなるという問題がある。 However, in order to realize natural communication with people, agents need to create gestures that look like natural communication. However, the production of natural gestures requires a creator with considerable skill. Moreover, in order to realize various operation patterns, it is necessary to manually create programs and motion data in advance. For this reason, there is a problem in that it takes a long time to produce a natural gesture and the cost becomes high.
本発明は、斯かる事情に鑑みてなされたものであり、プレゼンテーションのジェスチャーを自動的に生成することができる姿勢データ生成装置、学習器、コンピュータプログラム、学習データ、姿勢データ生成方法及び学習モデルの生成方法を提供することを目的とする。 The present invention has been made in view of the above circumstances, and includes a posture data generation device, a learning device, a computer program, learning data, a posture data generation method, and a learning model that can automatically generate a gesture of a presentation. It is intended to provide a generation method.
本発明の実施の形態に係る姿勢データ生成装置は、発話音声データと人体の姿勢データとを学習データとして用いて生成してある学習器と、発話音声データを取得する取得部と、前記取得部で取得した発話音声データ及び前記学習器に基づいて姿勢データを生成する生成部とを備える。
A posture data generation device according to an embodiment of the present invention is a learning device that is generated by using utterance voice data and posture data of a human body as learning data, an acquisition unit that acquires utterance voice data, and the acquisition unit. And a generation unit that generates posture data based on the utterance voice data acquired in
本発明の実施の形態に係る学習器は、発話音声データと人体の姿勢データとを学習データとして用いて生成してある。 The learning device according to the embodiment of the present invention is generated using utterance voice data and human posture data as learning data.
本発明の実施の形態に係る姿コンピュータプログラムは、コンピュータに、発話音声データを取得する処理と、発話音声データと人体の姿勢データとを学習データとして用いて生成してある学習器に、取得した発話音声データを入力して姿勢データを生成する処理とを実行させる。 The figure computer program according to an embodiment of the present invention is acquired by a process of acquiring utterance voice data in a computer and a learner generated using utterance voice data and human body posture data as learning data. A process of inputting utterance voice data and generating posture data is executed.
本発明の実施の形態に係る学習データは、プレゼンテーション動画から抽出された発話音声データの時系列データ及び人体の姿勢データの時系列データを有する学習データであって、前記姿勢データは、人体の複数の関節位置の3次元データを有し、前記複数の関節位置の3次元データのプレゼンテーション動画の複数フレームに亘る時系列データを再帰型ニューラルネットワークの出力ノードに与える処理と、前記プレゼンテーション動画の1フレームの間に所要回数サンプリングされた発話音声データの時系列データの前記複数フレームに亘る時系列データを前記再帰型ニューラルネットワークの入力ノードに与える処理と、前記出力ノード及び入力にノードそれぞれ与えられた前記時系列データに基づいて前記再帰型ニューラルネットワークを学習する処理とを実行するのに用いられる。 The learning data according to the embodiment of the present invention is learning data including time-series data of utterance voice data and time-series data of posture data of a human body extracted from a presentation moving image, and the posture data is a plurality of human body data. Processing for giving time-series data of the 3D data of the joint positions over a plurality of frames of the presentation moving image to the output node of the recursive neural network, and 1 frame of the presentation moving image. A process of giving time series data of the time series data of the utterance voice data sampled a required number of times to the input node of the recursive neural network, and the node given to the output node and the input, respectively. And a process of learning the recurrent neural network based on time series data.
本発明の実施の形態に係る姿勢データ生成方法は、発話音声データを取得し、発話音声データと人体の姿勢データとを学習データとして用いて生成してある学習器に、取得した発話音声データを入力して姿勢データを生成する。 A posture data generation method according to an embodiment of the present invention acquires utterance voice data, and acquires the utterance voice data in a learning device that is generated by using the utterance voice data and the posture data of the human body as learning data. Input and generate posture data.
本発明の実施の形態に係る学習モデルの生成方法は、発話音声データ及び人体の姿勢データを取得し、取得された発話音声データ及び人体の姿勢データを学習データとして用いる。 A learning model generation method according to an embodiment of the present invention acquires utterance voice data and human body posture data, and uses the acquired utterance voice data and human body posture data as learning data.
本発明によれば、プレゼンテーションのジェスチャーを自動的に生成することができる。 According to the present invention, a presentation gesture can be automatically generated.
以下、本発明の実施の形態を図面に基づいて説明する。図1は本実施の形態のジェスチャー生成装置50の構成の一例を示すブロック図である。ジェスチャー生成装置50は、装置全体を制御する制御部51、取得部52、記憶部53、処理部54及び生成部57を備える。また、処理部54は、学習器としての学習モデル55、及び補正部56を備える。制御部51は、CPU、ROM及びRAMなどで構成することができる。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing an example of the configuration of the
取得部52は、発話音声データを取得することができる。
The
図2は発話音声データの一例を示す模式図である。図2において、縦軸は波形の振幅を示し、例えば、電圧レベルで表すことができる。横軸は時間を示す。 FIG. 2 is a schematic diagram showing an example of uttered voice data. In FIG. 2, the vertical axis represents the amplitude of the waveform, which can be represented by a voltage level, for example. The horizontal axis represents time.
制御部51は、音声分析機能を備え、取得部52で取得した発話音声データから発話音声のピッチ及びエネルギーを抽出することができる。
The
図3は発話音声のピッチ及びエネルギーの時系列データの一例を示す模式図である。発話音声のピッチは、音声波形の周波数であり、音声の高低を表すことができる。発話音声のエネルギーは、音声のエネルギーであり、音声の強弱を表すことができる。なお、発話音声のピッチ及びエネルギーの時系列データを纏めて音声韻律時系列データとも称する。 FIG. 3 is a schematic diagram showing an example of time-series data of pitch and energy of speech voice. The pitch of the uttered voice is the frequency of the voice waveform and can represent the pitch of the voice. The energy of the uttered voice is the energy of the voice and can represent the strength of the voice. The time series data of the pitch and energy of the uttered voice are collectively referred to as voice prosody time series data.
なお、取得部52は、発話音声のピッチ及びエネルギーの時系列データを取得することもできる。この場合、制御部51は、発話音声のピッチ及びエネルギーを抽出する必要はない。取得部52は、例えば、外部の記憶デバイスに記憶された発話音声データ、あるいは発話音声のピッチ及びエネルギーの時系列データを読み込む機能、あるいはインターネットなどの通信ネットワークを経由して受信する機能などを備えることができる。
The
記憶部53は、取得部52で取得した発話音声データ、あるいは発話音声のピッチ及びエネルギーの時系列データを記憶することができる。また、記憶部53は、複数のキーワードと当該複数のキーワードそれぞれの意味を伝達する伝達3次元データの時系列データとを関連付けて記憶する。キーワード及び伝達3次元データの詳細は後述する。
The
処理部54は、例えば、CPU(例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど)、GPU(Graphics Processing Units)、DSP(Digital Signal Processors)、FPGA(Field-Programmable Gate Arrays)などのハードウェアを組み合わせることによって構成することができる。また、量子プロセッサを組み合わせることもできる。
The
学習モデル55は、発話音声データと人体の姿勢データとを学習データとして用いて生成してある。例えば、プレゼンテーションを行う人の発話音声データと当該人の動きを示す姿勢データとを学習データとして用いて学習モデル55を生成することができる。
The
より具体的には、学習モデル55は、図3に例示した、発話音声のピッチ及びエネルギーそれぞれの時系列データを学習データとして用いて生成してある。また、学習モデル55は、人体の複数の関節位置の3次元データの時系列データを学習データとして用いて生成してある。
More specifically, the
図4は3次元姿勢データの一例を示す模式図である。図中、符号P1からP9は、人体の上半身の関節の位置を示す。図4では、9個の関節が図示されているが、関節の数は9個に限定されない。複数の関節位置は、プレゼンテーション時に人の動きが顕著に表れる部分を含めることができればよく、図4のように、腰、腕、肩、首、頭などを含む上半身の複数の関節の位置とすることができる。3次元データは、基準とする座標系でのxyz座標とすることができる。 FIG. 4 is a schematic diagram showing an example of three-dimensional posture data. In the figure, symbols P1 to P9 indicate the positions of the joints of the upper half of the human body. Although FIG. 4 shows nine joints, the number of joints is not limited to nine. It suffices for the plurality of joint positions to include a portion in which a person's movement is remarkably displayed at the time of presentation, and as shown in FIG. 4, the plurality of joint positions of the upper body including the waist, arms, shoulders, neck, head and the like are set. be able to. The three-dimensional data can be xyz coordinates in a reference coordinate system.
これにより、学習モデル55は、人の発話と当該発話に伴う体の動きとの関係性を学習することができる。また、発話の際の話し手の意思や熱意は、音声韻律、すなわち発話音声のピッチ及びエネルギーの変化となって表れる。そこで、音声韻律時系列データを学習データとして用いることにより、学習モデル55は、意思や熱意を表現する姿勢データを出力することができる。
Thereby, the
学習モデル55は、時系列データを学習データとするものであればよく、例えば、再帰型ニューラルネットワーク(Recurrent Neural Network)とすることができるが、これに限定されない。学習モデル55は、他の機械学習を用いたものでもよい。学習モデル55の詳細は後述する。
The
生成部57は、取得した発話音声データ(より具体的には、発話音声のピッチ及びエネルギーそれぞれの時系列データ)及び学習モデル55に基づいて姿勢データを生成することができる。
The
学習モデル55は、発話音声データと人体の姿勢データとを学習データとして用いて予め生成されているので、取得した発話音声データを学習モデル55に入力すると、学習モデル55は、入力された発話音声データと関連性がある姿勢データを出力する。これにより、人の発話と当該発話に伴うジェスチャー(体の動き)を生成することができ、プレゼンテーションのジェスチャーを自動的に生成することができる。また、ジェスチャー制作のコストを低減することができる。
Since the
図5は学習モデル55の構成の一例を示す模式図である。学習モデル55は、エンコーダ551、及びデコーダ552を備える。エンコーダ551は、入力ノードに入力された発話音声データ(具体的には、発話音声のピッチ及びエネルギーの時系列データ)をエンコードする。デコーダ552は、エンコードされたデータをデコードして、人体の姿勢データ(具体的には、複数の関節位置の3次元データの時系列データ)を出力ノードから出力する。
FIG. 5 is a schematic diagram showing an example of the configuration of the
エンコーダ551、及びデコーダ552は、複数のLSTM(long Short Term Memory)と称される中間層を有する。LSTMは、記憶セル(不図示)を有し、過去の必要な時系列データを保持するとともに、次時刻のLSTMへ隠れ状態htを出力することができる。エンコーダ551及びデコーダ552は、時系列データを別の時系列データに変換することができる。図中、<EOS>は、「区切り文字」であり、デコーダ552に時系列データの生成の開始を知らせる合図として利用されるとともに終了の合図として利用される。なお、図5では、便宜上、複数のLSTM層を纏めて一つのLSTMで図示している。また、エンベディング(Embedding)層、全結合層などは省略している。
The
図6は学習モデル55による姿勢データの出力の様子の一例を示す模式図である。図6の例では、便宜上、出力ノードから3フレーム分(時点t、t+1、t+2とする)の3次元姿勢時系列データが出力されている。関節位置の数を9個とする、一つの関節当たりxyz座標の値が存在するので、1フレーム当たり27個(=9×3)のデータを有する。この場合、1フレームの間での音声韻律時系列データのサンプリング数をnとすると、時点tでの音声韻律時系列データは、(X1 、…、Xn )であり、時点t+1での音声韻律時系列データは、(Xn+1 、…、X2n )であり、時点t+2での音声韻律時系列データは、(X2n+1 、…、X3n )であある。ここで、Xは発話音声のピッチ及びエネルギーを含む物理量である。
FIG. 6 is a schematic diagram showing an example of how posture data is output by the
生成部57は、人体の複数の関節位置の3次元データの時系列データを生成することができる。これにより、生成部57は、時間の経過とともに変化する、上半身の複数の関節位置を示す姿勢データを生成することができ、プレゼンテーションのジェスチャーを自動的に生成することができる。
The
また、生成部57は、発話文章単位で人体の複数の関節位置の3次元データの時系列データを生成することができる。発話文章とは、発話の初めと終わりとで、音声と、ジェスチャーが少ない状態(基本の姿勢)となる単位である。発話文章単位で学習し、ジェスチャーを生成することにより、生成後のジェスチャーを接続した場合に、接続箇所の前後のジェスチャーの動きが急に変わることを避けることができる。
Further, the
発話文章単位内では体の動きが滑らかであっても、発話文章間では、体の動きが滑らかにならない場合があり、生成されたジェスチャーが発話文章間で不自然になる可能性がある。以下では、発話文章間のジェスチャーを滑らかにする方法について説明する。 Even if the body movement is smooth in the utterance sentence unit, the body movement may not be smooth between the utterance sentences, and the generated gesture may be unnatural between the utterance sentences. Hereinafter, a method for smoothing gestures between spoken sentences will be described.
図7は発話文章毎に生成したジェスチャーの接続方法の第1例を示す模式図である。図7に示すように、発話文章が、「月の表面にある1個のオレンジを」という発話文章単位S1と、発話文章単位S1に繋がる「観測するのと同じ位小さいのです」という発話文章単位S2とする。発話文章単位S1の音声韻律時系列データが学習モデル55に入力され、生成部57が複数のジェスチャー(複数の関節位置の3次元データの時系列データ)を生成する。図7に示すように、発話文章単位S1の最後から2番目のジェスチャーと、最後のジェスチャーをG12、G11と表す。
FIG. 7 is a schematic diagram showing a first example of a method of connecting gestures generated for each uttered sentence. As shown in Fig. 7, the utterance sentence is "one orange on the surface of the moon", and the utterance sentence "is as small as observed" connected to the utterance sentence unit S1. The unit is S2. The speech prosody time series data of the uttered sentence unit S1 is input to the
同様に、発話文章単位S2の音声韻律時系列データが学習モデル55に入力され、生成部57が複数のジェスチャー(複数の関節位置の3次元データの時系列データ)を生成する。図7に示すように、発話文章単位S2の最初のジェスチャーと、その次のジェスチャーをG21、G22と表す。
Similarly, the phonetic prosody time series data of the uttered sentence unit S2 is input to the
補正部56は、第1補正部としての機能を有し、一の発話文章単位内の3次元データであって、一の発話文章と繋がる他の発話文章単位内の3次元データと繋がる3次元データを補正する。
The
図7の例では、補正部56による補正後のジェスチャーを、接続後のジェスチャーとして図示している。図7に示すように、ジェスチャーG11の補正後のジェスチャーは、ジェスチャーG11とG21との線形補間を行って生成することができる。具体的には、ジェスチャーG11のデータに対して34%の重み付けを行い、ジェスチャーG21のデータに対して66%の重み付けを行い、重み付けしたジェスチャーG11及びG21のデータの和を、ジェスチャーG11の補正後のジェスチャーとする。
In the example of FIG. 7, the gesture corrected by the
ジェスチャーG12の補正後のジェスチャーは、ジェスチャーG12とG21との線形補間を行って生成することができる。具体的には、ジェスチャーG12のデータに対して67%の重み付けを行い、ジェスチャーG21のデータに対して33%の重み付けを行い、重み付けしたジェスチャーG12及びG21のデータの和を、ジェスチャーG12の補正後のジェスチャーとする。 The corrected gesture of the gesture G12 can be generated by linearly interpolating the gestures G12 and G21. Specifically, the data of the gesture G12 is weighted by 67%, the data of the gesture G21 is weighted by 33%, and the sum of the weighted data of the gestures G12 and G21 is corrected. Gesture.
ジェスチャーG21の補正、及びジェスチャーG22の補正も同様にして行うことができる。なお、図7の例では、ジェスチャーG12及びG11の補正と、ジェスチャーG21及びG22の補正を行っているが、これに限定されるものではなく、ジェスチャーG12及びG11、またはジェスチャーG21及びG22のいずれか一方だけを補正してもよい。また、重み付けの割合(%)は一例であって、図7の例に限定されない。 The correction of the gesture G21 and the correction of the gesture G22 can be performed in the same manner. In the example of FIG. 7, the gestures G12 and G11 are corrected and the gestures G21 and G22 are corrected. However, the present invention is not limited to this, and either the gestures G12 and G11 or the gestures G21 and G22 is performed. Only one may be corrected. Further, the weighting ratio (%) is an example, and is not limited to the example of FIG. 7.
発話文章単位内では、自然な動き、滑らかな動きを示す姿勢データを生成することができる。しかし、発話文章と次の発話文章との間では、姿勢データの時間的変化が大きくなり、不自然なジェスチャーが生成される可能性がある。そこで、図7に示すように、発話文章が繋がる箇所の姿勢データを補正することにより、発話文章間の姿勢データの変化を滑らかにして、自然なジェスチャーを生成することができる。 Within the utterance sentence unit, it is possible to generate posture data indicating natural movement and smooth movement. However, between the utterance sentence and the next utterance sentence, the temporal change of the posture data becomes large, and an unnatural gesture may be generated. Therefore, as shown in FIG. 7, by correcting the posture data of the portion where the utterance sentences are connected, the change in the posture data between the utterance sentences can be smoothed and a natural gesture can be generated.
図8は発話文章毎に生成したジェスチャーの接続方法の第2例を示す模式図である。図7の例では、発話文章単位S1内の最後の2つのジェスチャー、及び発話文章単位S2内の最初の2つのジェスチャーを補正する構成であったが、図8では、発話文章単位S1内の最後のジェスチャー、及び発話文章単位S2内の最初のジェスチャーを補正する。 FIG. 8 is a schematic diagram showing a second example of a method of connecting gestures generated for each uttered sentence. In the example of FIG. 7, the last two gestures in the utterance sentence unit S1 and the first two gestures in the utterance sentence unit S2 are corrected, but in FIG. 8, the last gesture in the utterance sentence unit S1 is corrected. And the first gesture in the uttered sentence unit S2 are corrected.
図8に示すように、ジェスチャーG11のデータに対して50%の重み付けを行い、ジェスチャーG21のデータに対して50%の重み付けを行い、重み付けしたジェスチャーG11及びG21のデータの和を、ジェスチャーG11の補正後のジェスチャーとする。ジェスチャーG21の補正も同様である。また、ジェスチャーG11又はG21のいずれか一方だけを補正してもよい。また、重み付けの割合(%)は一例であって、図8の例に限定されない。 As shown in FIG. 8, the data of the gesture G11 is weighted by 50%, the data of the gesture G21 is weighted by 50%, and the sum of the weighted data of the gestures G11 and G21 is calculated. It is the corrected gesture. The same applies to the correction of the gesture G21. Further, only one of the gestures G11 and G21 may be corrected. Further, the weighting ratio (%) is an example, and is not limited to the example of FIG. 8.
次に、単語の意味を表現するジェスチャーを用いた補正例について説明する。 Next, an example of correction using a gesture that expresses the meaning of a word will be described.
図9は本実施の形態のジェスチャー生成装置50が生成したジェスチャーの一例を示す模式図である。図9に示すジェスチャーは、発話文「銀河の中心には大きな象がいる」から抽出した音声韻律時系列データによって生成されたジェスチャーであり、便宜上、10フレーム分のジェスチャーを図示している。
FIG. 9 is a schematic diagram showing an example of a gesture generated by the
補正部56は、発話文の中に特定の単語(「キーワード」とも称する)があるか否かを判定し、キーワードがある場合、当該キーワードの発話タイミングを特定する。発話タイミングは、キーワードの発話の開始時点と終了時点とによって決定することができる。なお、発話の開始時点と発話の長さでもよい。
The
図10は生成したジェスチャーのうち置き換えるジェスチャーの時間Tの算出例を示す模式図である。図10に示すように、補正部56は、生成されたジェスチャーの中で置き換えるジェスチャーの最初の時点と最後の時点とを決定する。最初の時点は、発話時間の開始時点からt1秒前の時点とすることができる。t1は、例えば、645ミリ秒とすることができるが、これに限定されない。t1は、単語の発話に先んじて体の動きが開始する時間とすることができる。また、最後の時点は、発話時間の終了時点からt2秒後の時点とすることができる。t2は、例えば、555ミリ秒とすることができるが、これに限定されない。t2は、単語の発話終了後に体の動きが終了する時間とすることができる。
FIG. 10 is a schematic diagram showing an example of calculating the time T of a gesture to be replaced among the generated gestures. As shown in FIG. 10, the
補正部56は、置き換えるジェスチャーの時間Tを、フレームレート(各フレームが表示される時間、すなわち、fpsの逆数)で除算して、置き換えるジェスチャーのフレーム数Fを算出する。
The
図11はキーワードとジェスチャーデータとの関係の一例を示す説明図である。キーワードは、例えば、「大きい」、「小さい」、「食べる」、「笑う」、「長い」などのように、そのキーワードの意味を表現する動きに特徴があり、情報伝達を目的とする動きに関連する単語である。ジェスチャーデータは、対応するキーワードを発話する際の体の動きを表現するジェスチャーの時系列データである。例えば、人が「大きい」と発話する場合、体の動きを、g1、g2、g3、g4、g5の5つのジェスチャーで表すことができる。キーワードとジェスチャーデータとの関係は、記憶部53に記憶することができる。
FIG. 11 is an explanatory diagram showing an example of the relationship between keywords and gesture data. Keywords are characterized by the movement that expresses the meaning of the keyword, such as "big", "small", "eat", "laugh", and "long". It is a related word. The gesture data is time-series data of gestures that express the movement of the body when speaking the corresponding keyword. For example, when a person speaks "large", the body movement can be represented by five gestures g1, g2, g3, g4, and g5. The relationship between the keyword and the gesture data can be stored in the
図12は置き換えるジェスチャーのリサンプリング方法の一例を示す模式図である。図12に示すように、「大きい」というキーワードを表現するジェスチャーをg1、g2、g3、g4、g5の5つのジェスチャーとする。補正部56は、リサンプリングのサンプリング間隔Δtを算出する。サンプリング間隔Δtは、ジェスチャーをg1の開始時点からジェスチャーg5の終了時点までの時間を(F−1)で除算して求めることができる。ここで、Fは置き換えるジェスチャーのフレーム数である。図12の例では、ジェスチャーをg1の開始時点からジェスチャーg5の終了時点までの時間を3つの間隔で分けられている。
FIG. 12 is a schematic diagram showing an example of a resampling method of a replacement gesture. As shown in FIG. 12, the gestures expressing the keyword “large” are five gestures g1, g2, g3, g4, and g5. The
サンプリングされたジェスチャーは、G1、G2、G3、G4となる。ジェスチャーG1は、ジェスチャーg1をそのまま使用する。ジェスチャーG4は、ジェスチャーg5をそのまま使用する。ジェスチャーG2は、サンプリングのタイミングに応じて、ジェスチャーg2とg3とを線形補間したものを使用する。ジェスチャーG3は、サンプリングのタイミングに応じて、ジェスチャーg3とg4とを線形補間したものを使用する。これにより、サンプリングしたジェスチャーG1〜G4の変化が滑らかになり自然な動きとすることができる。 The sampled gestures are G1, G2, G3, and G4. The gesture g1 uses the gesture g1 as it is. The gesture G4 uses the gesture g5 as it is. As the gesture G2, a gesture obtained by linearly interpolating the gestures g2 and g3 is used according to the sampling timing. The gesture G3 uses a linear interpolation of the gestures g3 and g4 according to the sampling timing. As a result, the changes in the sampled gestures G1 to G4 become smooth, and a natural movement can be achieved.
図13はリサンプリングの結果の一例を示す模式図である。「大きい」を表現するジェスチャーg1、g2、g3、g4、g5が、4つのジェスチャーG1、G2、G3、G4にリサンプリングされている。 FIG. 13 is a schematic diagram showing an example of the result of resampling. Gestures g1, g2, g3, g4, and g5 expressing “large” are resampled into four gestures G1, G2, G3, and G4.
図14はキーワードに対応するジェスチャーで置き換えた後のジェスチャーの一例を示す模式図である。キーワード(図14の例では、「大きな」)の発話の開始時点よりt1秒前の時点を始点として、元のジェスチャーが4つのジェスチャーG1、G2、G3、G4で置き換えられている。なお、置き換えたジェスチャーのうちの最初のジェスチャーG1とジェスチャーG1の前のジェスチャーの変化が滑らかでない可能性もある。同様に、置き換えたジェスチャーのうち最後のジェスチャーG4とジェスチャーG4の後のジェスチャーの変化が滑らかでない可能性もある。そこで、以下のように、ジェスチャーの補間を行うことができる。 FIG. 14 is a schematic diagram showing an example of a gesture after replacement with a gesture corresponding to a keyword. The original gesture is replaced with four gestures G1, G2, G3, and G4 starting from a time point t1 seconds before the start time point of the utterance of the keyword (“large” in the example of FIG. 14). The first gesture G1 of the replaced gestures and the gesture before the gesture G1 may not be smoothly changed. Similarly, the change of the last gesture G4 of the replaced gestures and the gesture after the gesture G4 may not be smooth. Therefore, the gesture can be interpolated as follows.
図15は置き換えた後のジェスチャーの補間の一例を示す模式図である。図15の例では、置き換えたジェスチャーG1によりも前にある2つのジェスチャーを線形補間している。具体的には、ジェスチャーG1の1つ前のジェスチャーは、2つ前のジェスチャーよりもジェスチャーG1の重みを大きくすることができる。また、置き換えたジェスチャーG4によりも後ろある2つのジェスチャーを線形補間している。具体的には、ジェスチャーG4の1つ後ろのジェスチャーは、2つ後ろのジェスチャーよりもジェスチャーG4の重みを大きくすることができる。 FIG. 15 is a schematic diagram illustrating an example of gesture interpolation after replacement. In the example of FIG. 15, two gestures before the replaced gesture G1 are linearly interpolated. Specifically, the gesture before the gesture G1 can have a greater weight than the gesture before the gesture G1. In addition, the two gestures behind are also linearly interpolated by the replaced gesture G4. Specifically, the gesture one behind the gesture G4 can make the weight of the gesture G4 heavier than the gesture two behind.
上述のように、補正部56は、第2補正部としての機能を有し、生成部57で生成した3次元データの時系列データに対応する発話文章内でキーワード(例えば、「大きい」に対応する3次元データの時系列データを、当該キーワードに関連付けられた伝達3次元データの時系列データ(g1〜g5、あるいはG1〜G4など)を用いて補正することができる。伝達3次元データの時系列データは、例えば、キーワードを表現する体の動きを表す3次元データの時間的変化を示すデータである。これにより、発話文章内の単語の意味を表現する動きでジェスチャーを補正することができるので、情報伝達を伴う動きを含む自然なジェスチャーを生成することができる。
As described above, the
次に、学習モデル55の生成方法について説明する。
Next, a method of generating the
図16は本実施の形態の学習モデル生成部60の構成の一例を示すブロック図である。学習モデル生成部60は、ジェスチャー生成装置50に組み込んでもよく、あるいは別の学習用サーバに組み込んでもよい。学習モデル生成部60は、プレゼンテーション動画取得部61、発話音声データ抽出部62、フレーム画像抽出部63、ピッチ及びエネルギー抽出部64、2次元姿勢抽出部65、及び3次元姿勢推定部66を備える。
FIG. 16 is a block diagram showing an example of the configuration of the learning
プレゼンテーション動画取得部61は、プレゼンテーション動画を取得する。学習用のデータを大量に集めるため、例えば、ウェブ上で誰もが使用可能に開示されているプレゼンテーション動画を用いることができる。
The presentation moving
発話音声データ抽出部62は、プレゼンテーション動画から発話音声データを抽出する。ピッチ及びエネルギー抽出部64は、音声分析機能を備え、発話音声データから、所要のサンプリング周期で発話音声のエネルギー及びピッチを抽出することができる。ピッチ及びエネルギー抽出部64で抽出された音声韻律時系列データは、学習データとして学習モデル55の入力ノードに与えられる。
The utterance voice
フレーム画像抽出部63は、プレゼンテーション動画からフレーム単位で画像を抽出する。2次元姿勢抽出部65は、各フレームの画像から人間の顔、腕、足などの部位を特定し、特定した各部位を繋げて、複数の関節の2次元座標(2次元姿勢情報ともいう)を抽出する。
The frame
3次元姿勢推定部66は、予め2次元姿勢情報と3次元姿勢情報とを対応付けたデータベースを備えており、2次元姿勢抽出部65で抽出した2次元姿勢情報に基づいて、最も近い3次元姿勢情報を推定する。3次元姿勢情報は、複数の関節の3次元座標を含む。3次元姿勢推定部66は、図4に例示した3次元姿勢データをフレーム単位で抽出することができる。3次元姿勢推定部66で抽出した3次元姿勢時系列データは、学習データとして学習モデル55の出力ノードに与えられる。
The three-dimensional
上述のように、学習モデル55は、発話音声データから抽出された発話音声のピッチ及びエネルギーそれぞれの時系列データを学習データとして用いて生成することができる。発話音声のピッチは、音声波形の周波数であり、音声の高低を表すことができる。発話音声のエネルギーは、音声のエネルギーであり、音声の強弱を表すことができる。なお、発話音声のピッチ及びエネルギーの時系列データを纏めて音声韻律時系列データとも称する。
As described above, the
発話の際の話し手の意思や熱意は、音声韻律、すなわち発話音声のピッチ及びエネルギーの変化となって表れる。そこで、音声韻律時系列データを学習データとして用いることにより、学習モデル55は、意思や熱意を表現する姿勢データを出力することができる。
The intention and enthusiasm of the speaker at the time of utterance are expressed as voice prosody, that is, changes in pitch and energy of the uttered voice. Therefore, by using the phonetic prosody time series data as the learning data, the
学習モデル55は、人体の複数の関節位置の3次元データの時系列データを学習データとして用いて生成することができる。複数の関節位置は、プレゼンテーション時に人の動きが顕著に表れる部分を含めることができればよく、例えば、上半身の複数の関節の位置とすることができる。3次元データは、基準とする座標系でのxyz座標とすることができる。
The
プレゼンテーション動画から発話音声データ及び人体の姿勢データそれぞれを発話文章毎に抽出し、学習モデル55は、発話文章毎の発話音声データ及び人体の姿勢データを一組の学習データとして用いて生成することができる。発話文章とは、発話の初めと終わりとで、音声と、ジェスチャーが少ない状態(基本の姿勢)となる単位である。発話文章単位で学習し、ジェスチャーを生成することにより、生成後のジェスチャーを接続した場合に、接続箇所の前後のジェスチャーの動きが急に変わることを避けることができる。
The utterance voice data and the posture data of the human body are extracted from the presentation moving image for each utterance sentence, and the
プレゼンテーション動画の1フレーム毎に人体の複数の関節位置の3次元データを抽出し、学習モデル55は、抽出した3次元データの複数フレームに亘る時系列データを学習データとして用いて生成することができる。プレゼンテーション動画が、1秒当たり10フレームの画像で構成されている場合(10fps)、10フレームに亘る時系列データを学習データとして用いることにより、1秒間のジェスチャーを生成することができる。これにより、所要の時間のジェスチャーを生成することができる。
The three-dimensional data of a plurality of joint positions of the human body is extracted for each frame of the presentation moving image, and the
字幕が挿入されたプレゼンテーション動画から字幕テキスト挿入単位で発話音声データ及び人体の姿勢データそれぞれを抽出し、学習モデル55は、抽出した発話音声データ及び人体の姿勢データを一組の学習データとして用いて生成することができる。
The utterance voice data and the human body posture data are extracted in units of subtitle text insertion from the presentation video in which the subtitles are inserted, and the
図17は発話文章を学習単位で区切る基準の一例を示す模式図である。図17は字幕情報の要部を図示したものであり、字幕は複数の字幕テキストに区分され、それぞれの字幕テキストの挿入開始時点を示す開始時刻、挿入時間を示す時間長が対応付けて記録されている。例えば、プレゼンテーション動画の中で、字幕テキストText1は、時刻0.00に表示開始され、2.00秒間表示される。また、字幕テキストText2は、時刻2.00に表示開始され、1.45秒間表示される。他の字幕テキストも同様である。 FIG. 17 is a schematic diagram showing an example of criteria for dividing an uttered sentence into learning units. FIG. 17 illustrates a main part of subtitle information. A subtitle is divided into a plurality of subtitle texts, and a start time indicating an insertion start time point of each subtitle text and a time length indicating an insertion time are recorded in association with each other. ing. For example, in the presentation moving image, the subtitle text Text1 starts to be displayed at time 0.00 and is displayed for 2.00 seconds. The subtitle text Text2 is started to be displayed at time 2.00 and is displayed for 1.45 seconds. The same applies to other subtitle texts.
字幕テキスト挿入単位のデータを一組の学習データとすることにより、体の動きが滑らかな時間内の音声発話データと姿勢データとを用いて学習できるので、学習モデル55は、体の動きが滑らかな時間内での姿勢データを生成することができ、発話音声に連動した自然なジェスチャーを生成することができる。
By using the data of the subtitle text insertion unit as a set of learning data, it is possible to learn by using the voice utterance data and the posture data within the time when the body movement is smooth. Therefore, the
図18は学習モデル55の生成方法の一例を示す模式図である。図18に示すように、再帰型ニューラルネットワークの出力ノードに、人体の複数の関節位置の3次元データのプレゼンテーション動画の複数フレーム(図18の例では、発話文章単位となる3フレーム分)に亘る時系列データを与え、再帰型ニューラルネットワークの入力ノードに、当該プレゼンテーション動画の1フレームの間に所要回数(図18の例では、40回)サンプリングされた発話音声データの時系列データの当該複数フレーム(3フレーム分)に亘る時系列データを与えて、学習モデルを生成することができる。
FIG. 18 is a schematic diagram showing an example of a method of generating the
例えば、プレゼンテーション動画のフレーム数を3とし、フレームの時点をt、t+1、t+2とする。再帰型ニューラルネットワークの出力ノードには、時点t、t+1、t+2それぞれの3次元データが与えられる。発話音声データの1フレーム当たりのサンプリング数をn(図18の例では、n=40)とすると、再帰型ニューラルネットワークの入力ノードには、時点tに対応して、(X1 、…、Xn )の発話音声データの時系列データが与えられ、時点t+1に対応して、(Xn+1、…、X2n)の発話音声データの時系列データが与えられ、時点t+2に対応して、(X2n+1、…、X3n)の発話音声データの時系列データが与えられる。 For example, the number of frames of the presentation moving image is 3, and the time points of the frames are t, t+1, and t+2. The output node of the recurrent neural network is given three-dimensional data at time points t, t+1, and t+2. Assuming that the number of samples of the uttered voice data per frame is n (n=40 in the example of FIG. 18), the input node of the recursive neural network corresponds to the time point (X 1 ,..., X n ) the time-series data of the utterance voice data is given, and the time-series data of the utterance voice data of (X n+1 ,..., X 2n ) is given corresponding to the time point t+1, and corresponding to the time point t+2. , (X 2n+1 ,..., X 3n ) are given as time series data of the uttered voice data.
これにより、発話(発話の韻律)と体の動きの情報との関連性を学習することができ、発話(発話の韻律)に合わせたジェスチャーを生成することができる。 As a result, the relationship between the utterance (prosody of the utterance) and the information on the body movement can be learned, and a gesture that matches the utterance (prosody of the utterance) can be generated.
図19は本実施の形態のジェスチャー生成装置50によるジェスチャー生成の処理手順の一例を示すフローチャートである。以下では、便宜上、処理の主体を制御部51として説明する。制御部51は、発話音声データを取得し(S11)、発話文章毎に所要のサンプリング周期で発話音声のピッチ及びエネルギーを抽出する(S12)。
FIG. 19 is a flow chart showing an example of a procedure for generating a gesture by the
制御部51は、音声韻律時系列データを学習モデル55に入力し(S13)、3次元姿勢時系列データを出力する(S14)。制御部51は、一の発話文章と繋がる他の発話文章、及び当該一の発話文章の少なくとも一方の3次元姿勢データを補正する(S15)。
The
制御部51は、発話文章の中にキーワードがあるか否かを判定し(S16)、キーワードがある場合(S16でYES)、キーワードに関連付けられたジェスチャーデータを用いて、キーワードに対応する3次元姿勢データを補正し(S17)、後述のステップS18の処理を行う。
The
発話文章の中にキーワードがない場合(S16でNO)、制御部51は、処理を終了するか否かを判定し(S18)、処理を終了しない場合(S18でNO)、ステップS12以降の処理を続け、処理を終了する場合(S18でYES)、処理を終了する。
When there is no keyword in the uttered sentence (NO in S16), the
図20は学習モデル生成部60による学習モデル生成の処理手順の一例を示すフローチャートである。学習モデル生成部60は、プレゼンテーション動画を取得し(S31)、字幕テキスト挿入単位で発話音声データ及びフレーム画像を抽出する(S32)。学習モデル生成部60は、発話音声データから発話音声のピッチ及びエネルギーの時系列データ(音声韻律時系列データ)を抽出し(S33)、フレーム画像から2次元姿勢情報を抽出し、3次元姿勢情報を推定する(S34)。
FIG. 20 is a flowchart showing an example of a processing procedure of learning model generation by the learning
学習モデル生成部60は、推定した3次元姿勢情報に基づいて3次元姿勢時系列データを抽出し(S35)、音声韻律時系列データ及び3次元姿勢時系列データを学習データとして用いて学習モデル55を生成し(S36)、処理を終了する。
The learning
本実施の形態のジェスチャー生成装置50又は学習モデル生成部60は、CPU(プロセッサ)、GPU、RAM(メモリ)などを備えた汎用コンピュータを用いて実現することもできる。すなわち、図19又は図20に示すような、各処理の手順を定めたコンピュータプログラムをコンピュータに備えられたRAM(メモリ)にロードし、コンピュータプログラムをCPU(プロセッサ)で実行することにより、コンピュータ上でジェスチャー生成装置50又は学習モデル生成部60を実現することができる。コンピュータプログラムは記録媒体に記録され流通されてもよく、あるいは、ネットワークを介して、ジェスチャー生成装置50にインストールされてもよい。
The
本実施の形態によれば、発話音声に連動した自然なジェスチャーを自動的に生成することができ、ジェスチャー制作に要するコストを低減することができる。 According to the present embodiment, it is possible to automatically generate a natural gesture that is linked to a spoken voice, and reduce the cost required for gesture production.
また、本実施の形態によれば、学習モデル55の生成に用いるプレゼンテーション動画に応じて、生成するジェスチャーから受ける印象を変えることができる。例えば、使用するプレゼンテーション動画に多数の話者が含まれる場合、話者の個性が平均化され、生成されるジェスチャーも平均的なものとすることができる。逆に特定の話者のプレゼンテーション動画を用いて学習モデルを生成した場合、個性が反映させたジェスチャーを生成することができる。
Further, according to the present embodiment, the impression received from the generated gesture can be changed according to the presentation moving image used for generating the
本実施の形態の姿勢データ生成装置は、発話音声データと人体の姿勢データとを学習データとして用いて生成してある学習器と、発話音声データを取得する取得部と、前記取得部で取得した発話音声データ及び前記学習器に基づいて姿勢データを生成する生成部とを備える。 The posture data generation device of the present embodiment is obtained by the learning device that is generated by using the utterance voice data and the posture data of the human body as learning data, the acquisition unit that acquires the utterance voice data, and the acquisition unit. And a generation unit that generates posture data based on the speech data and the learning device.
本実施の形態の学習器は、発話音声データと人体の姿勢データとを学習データとして用いて生成してある。 The learning device of the present embodiment is generated by using utterance voice data and human posture data as learning data.
本実施の形態のコンピュータプログラムは、コンピュータに、発話音声データを取得する処理と、発話音声データと人体の姿勢データとを学習データとして用いて生成してある学習器に、取得した発話音声データを入力して姿勢データを生成する処理とを実行させる。 The computer program of the present embodiment, a process of acquiring utterance voice data to a computer, a learner generated by using the utterance voice data and the posture data of the human body as learning data, the acquired utterance voice data. A process of inputting and generating attitude data is executed.
本実施の形態の姿勢データ生成方法は、発話音声データを取得し、発話音声データと人体の姿勢データとを学習データとして用いて生成してある学習器に、取得した発話音声データを入力して姿勢データを生成する。 The posture data generation method of the present embodiment acquires utterance voice data, inputs the obtained utterance voice data to a learning device that is generated by using the utterance voice data and the posture data of the human body as learning data. Generate attitude data.
本実施の形態の学習モデルの生成方法は、発話音声データ及び人体の姿勢データを取得し、取得された発話音声データ及び人体の姿勢データを学習データとして用いる。 The learning model generation method of the present embodiment acquires utterance voice data and human body posture data, and uses the acquired utterance voice data and human body posture data as learning data.
学習器(学習モデル)は、発話音声データと人体の姿勢データとを学習データとして用いて生成してある。例えば、プレゼンテーションを行う人の発話音声データと当該人の動きを示す姿勢データとを学習データとして用いて学習器を生成することができる。これにより、学習器は、人の発話と当該発話に伴う体の動きとの関係性を学習することができる。学習器は、時系列データを学習データとするものであればよく、例えば、再帰型ニューラルネットワーク(Recurrent Neural Network)とすることができるが、これに限定されない。 The learning device (learning model) is generated by using the uttered voice data and the posture data of the human body as learning data. For example, it is possible to generate a learning device by using speech data of a person who gives a presentation and posture data indicating the movement of the person as learning data. Accordingly, the learning device can learn the relationship between the utterance of a person and the movement of the body accompanying the utterance. The learning device may be any device that uses time-series data as learning data, and can be, for example, a recurrent neural network (Recurrent Neural Network), but is not limited thereto.
取得部は、発話音声データを取得し、生成部は、取得した発話音声データ及び学習器に基づいて姿勢データを生成する。学習器は、発話音声データと人体の姿勢データとを学習データとして用いて予め生成されているので、取得した発話音声データを学習器に入力すると、学習器は、入力された発話音声データと関連性がある姿勢データを出力する。これにより、人の発話と当該発話に伴うジェスチャー(体の動き)を生成することができ、プレゼンテーションのジェスチャーを自動的に生成することができる。また、ジェスチャー制作のコストを低減することができる。 The acquisition unit acquires the speech voice data, and the generation unit generates the posture data based on the acquired speech voice data and the learned device. Since the learning device is generated in advance using the utterance voice data and the posture data of the human body as learning data, when the acquired utterance voice data is input to the learning device, the learning device associates with the input utterance voice data. Output posture data that has a certain property. Thereby, the utterance of the person and the gesture (movement of the body) accompanying the utterance can be generated, and the gesture of the presentation can be automatically generated. Also, the cost of gesture production can be reduced.
本実施の形態の姿勢データ生成装置において、前記生成部は、人体の複数の関節位置の3次元データの時系列データを生成する。 In the posture data generation device of the present embodiment, the generation unit generates time-series data of three-dimensional data of a plurality of joint positions of a human body.
本実施の形態の学習器は、人体の複数の関節位置の3次元データの時系列データを学習データとして用いて生成してある。 The learning device according to the present embodiment is generated using time-series data of three-dimensional data of a plurality of joint positions of the human body as learning data.
学習器は、人体の複数の関節位置の3次元データの時系列データを学習データとして用いて生成してある。複数の関節位置は、プレゼンテーション時に人の動きが顕著に表れる部分を含めることができればよく、例えば、上半身の複数の関節の位置とすることができる。3次元データは、基準とする座標系でのxyz座標とすることができる。 The learning device is generated using time-series data of three-dimensional data of a plurality of joint positions of the human body as learning data. It is sufficient that the plurality of joint positions include a portion in which a person's movement is remarkably shown at the time of presentation, and may be, for example, positions of a plurality of joints in the upper body. The three-dimensional data can be xyz coordinates in a reference coordinate system.
生成部は、人体の複数の関節位置の3次元データの時系列データを生成する。これにより、生成部は、時間の経過とともに変化する、上半身の複数の関節位置を示す姿勢データを生成することができ、プレゼンテーションのジェスチャーを自動的に生成することができる。 The generation unit generates time-series data of three-dimensional data of a plurality of joint positions of a human body. Accordingly, the generation unit can generate posture data indicating a plurality of joint positions of the upper body, which change with the passage of time, and can automatically generate a gesture for presentation.
本実施の形態の姿勢データ生成装置において、前記生成部は、発話文章単位で人体の複数の関節位置の3次元データの時系列データを生成する。 In the posture data generation device according to the present embodiment, the generation unit generates time-series data of three-dimensional data of a plurality of joint positions of a human body in units of uttered sentences.
本実施の形態の学習器は、プレゼンテーション動画から発話音声データ及び人体の姿勢データそれぞれを発話文章毎に抽出し、発話文章毎の発話音声データ及び人体の姿勢データを一組の学習データとして用いて生成してある。 The learning device of the present embodiment extracts the utterance voice data and the posture data of the human body from the presentation video for each utterance sentence, and uses the utterance voice data and the posture data of the human body for each utterance sentence as a set of learning data. Has been generated.
学習器は、プレゼンテーション動画から発話音声データ及び人体の姿勢データそれぞれを発話文章毎に抽出し、発話文章毎の発話音声データ及び人体の姿勢データを一組の学習データとして用いて生成してある。発話文章とは、発話の初めと終わりとで、音声と、ジェスチャーが少ない状態(基本の姿勢)となる単位である。発話文章単位で学習し、ジェスチャーを生成することにより、生成後のジェスチャーを接続した場合に、接続箇所の前後のジェスチャーの動きが急に変わることを避けることができる。 The learning device extracts the utterance voice data and the human body posture data for each utterance sentence from the presentation moving image, and generates the utterance voice data and the human body posture data for each utterance sentence as a set of learning data. The utterance sentence is a unit in which a voice and a gesture are few at the beginning and end of the utterance (basic posture). By learning and generating a gesture for each utterance sentence, it is possible to avoid a sudden change in the movement of the gesture before and after the connection point when the generated gesture is connected.
生成部は、発話文章単位で人体の複数の関節位置の3次元データの時系列データを生成する。これにより、体の動きが滑らかな時間内での姿勢データを生成することができ、発話音声に連動した自然なジェスチャーを生成することができる。 The generation unit generates time-series data of three-dimensional data of a plurality of joint positions of the human body in units of uttered sentences. As a result, it is possible to generate posture data within a time period in which the body movement is smooth, and it is possible to generate a natural gesture that is linked to the uttered voice.
本実施の形態の姿勢データ生成装置は、一の発話文章単位内の3次元データであって、前記一の発話文章と繋がる他の発話文章単位内の3次元データと繋がる3次元データを補正する第1補正部を備える。 The posture data generation device according to the present embodiment corrects three-dimensional data in one utterance sentence unit, which is connected to the one utterance sentence unit and three-dimensional data in another utterance sentence unit. A first correction unit is provided.
第1補正部は、一の発話文章単位内の3次元データであって、一の発話文章と繋がる他の発話文章単位内の3次元データと繋がる3次元データを補正する。発話文章単位内では、自然な動き、滑らかな動きを示す姿勢データを生成することができる。しかし、発話文章と次の発話文章との間では、姿勢データの時間的変化を大きくなり、不自然なジェスチャーが生成される可能性がある。そこて、発話文章が繋がる箇所の姿勢データを補正することにより、発話文章間の姿勢データの変化を滑らかにして、自然なジェスチャーを生成することができる。 The first correction unit corrects the three-dimensional data in one utterance sentence unit and the three-dimensional data connected to the other utterance sentence unit in another utterance sentence unit. Within the utterance sentence unit, it is possible to generate posture data indicating natural movement and smooth movement. However, between the utterance sentence and the next utterance sentence, there is a possibility that the temporal change of the posture data becomes large and an unnatural gesture is generated. Then, by correcting the posture data at the place where the utterance sentences are connected, the change in the posture data between the utterance sentences can be smoothed and a natural gesture can be generated.
本実施の形態の姿勢データ生成装置は、複数のキーワードと該複数のキーワードそれぞれの意味を伝達する伝達3次元データの時系列データとを関連付けて記憶する記憶部と、前記生成部で生成した3次元データの時系列データに対応する発話文章内で前記キーワードに対応する3次元データの時系列データを前記キーワードに関連付けられた伝達3次元データの時系列データを用いて補正する第2補正部を備える。 The posture data generation device according to the present embodiment stores a plurality of keywords and a storage unit that associates and stores time series data of transmission three-dimensional data that transmits the meaning of each of the plurality of keywords, and 3 generated by the generation unit. A second correction unit for correcting the time series data of the three-dimensional data corresponding to the keyword in the utterance sentence corresponding to the time series data of the three-dimensional data using the time series data of the transmission three-dimensional data associated with the keyword. Prepare
記憶部は、複数のキーワードと当該複数のキーワードそれぞれの意味を伝達する伝達3次元データの時系列データとを関連付けて記憶する。キーワードは、そのキーワードの意味を表現する動きに特徴がある情報伝達を目的とする動きに関連する単語であり、例えば、「大きい」、「小さい」、「食べる」、「笑う」などの単語を含む。伝達3次元データの時系列データは、例えば、キーワードを表現する体の動きを表す3次元データの時間的変化を示すデータである。 The storage unit stores a plurality of keywords and time-series data of transmission three-dimensional data that transmits the meaning of each of the plurality of keywords in association with each other. A keyword is a word related to a motion for the purpose of information transmission that is characterized by a motion that expresses the meaning of the keyword. For example, words such as “large”, “small”, “eat”, and “laugh” are used. Including. The time-series data of the transmission three-dimensional data is, for example, data indicating a temporal change of the three-dimensional data representing the movement of the body expressing the keyword.
第2補正部は、生成部で生成した3次元データの時系列データに対応する発話文章内でキーワードに対応する3次元データの時系列データを、当該キーワードに関連付けられた伝達3次元データの時系列データを用いて補正する。これにより、発話文章内の単語の意味を表現する動きでジェスチャーを補正することができるので、情報伝達を伴う動きを含む自然なジェスチャーを生成することができる。 The second correction unit sets the time-series data of the three-dimensional data corresponding to the keyword in the utterance sentence corresponding to the time-series data of the three-dimensional data generated by the generation unit to the time of the transmission three-dimensional data associated with the keyword. Correct using the series data. With this, the gesture can be corrected by the movement that expresses the meaning of the word in the spoken sentence, and thus a natural gesture including the movement accompanied by information transmission can be generated.
本実施の形態の学習器は、発話音声データから抽出された発話音声のピッチ及びエネルギーそれぞれの時系列データを学習データとして用いて生成してある。 The learning device according to the present embodiment is generated by using the time-series data of the pitch and energy of the speech voice extracted from the speech data as learning data.
学習器は、発話音声データから抽出された発話音声のピッチ及びエネルギーそれぞれの時系列データを学習データとして用いて生成してある。発話音声のピッチは、音声波形の周波数であり、音声の高低を表すことができる。発話音声のエネルギーは、音声のエネルギーであり、音声の強弱を表すことができる。なお、発話音声のピッチ及びエネルギーの時系列データを纏めて音声韻律時系列データとも称する。 The learning device is generated using the time-series data of the pitch and energy of the utterance voice extracted from the utterance voice data as learning data. The pitch of the uttered voice is the frequency of the voice waveform and can represent the pitch of the voice. The energy of the uttered voice is the energy of the voice and can represent the strength of the voice. The time series data of the pitch and energy of the uttered voice are collectively referred to as voice prosody time series data.
発話の際の話し手の意思や熱意は、音声韻律、すなわち発話音声のピッチ及びエネルギーの変化となって表れる。そこで、音声韻律時系列データを学習データとして用いることにより、学習器は、意思や熱意を表現する姿勢データを出力することができる。 The intention and enthusiasm of the speaker at the time of utterance are expressed as voice prosody, that is, changes in pitch and energy of the uttered voice. Therefore, by using the phonetic prosody time series data as the learning data, the learning device can output the posture data expressing the intention or enthusiasm.
本実施の形態の学習器は、字幕が挿入されたプレゼンテーション動画から字幕テキスト挿入単位で発話音声データ及び人体の姿勢データそれぞれを抽出し、抽出した発話音声データ及び人体の姿勢データを一組の学習データとして用いて生成してある。 The learning device of the present embodiment extracts utterance voice data and human body posture data in a subtitle text insertion unit from a presentation video in which subtitles are inserted, and learns a set of extracted utterance voice data and human body posture data. It is generated by using it as data.
学習器は、字幕が挿入されたプレゼンテーション動画から字幕テキスト挿入単位で発話音声データ及び人体の姿勢データそれぞれを抽出し、抽出した発話音声データ及び人体の姿勢データを一組の学習データとして用いて生成してある。字幕テキスト挿入単位のデータを一組の学習データとすることにより、体の動きが滑らかな時間内の音声発話データと姿勢データとにより学習できるので、学習器は、体の動きが滑らかな時間内での姿勢データを生成することができ、発話音声に連動した自然なジェスチャーを生成することができる。 The learner extracts the utterance voice data and the posture data of the human body for each subtitle text insertion unit from the presentation video in which the subtitles are inserted, and generates them by using the extracted utterance voice data and the posture data of the human body as a set of learning data. I am doing it. By using the data for each subtitle text insertion unit as a set of learning data, it is possible to learn by voice utterance data and posture data within the time when the body movement is smooth. Posture data can be generated, and a natural gesture linked to the uttered voice can be generated.
本実施の形態の学習器は、プレゼンテーション動画の1フレーム毎に人体の複数の関節位置の3次元データを抽出し、抽出した3次元データの複数フレームに亘る時系列データを学習データとして用いて生成してある。 The learning device according to the present embodiment extracts three-dimensional data of a plurality of joint positions of a human body for each frame of a presentation moving image and generates time-series data over a plurality of frames of the extracted three-dimensional data as learning data. I am doing it.
学習器は、プレゼンテーション動画の1フレーム毎に人体の複数の関節位置の3次元データを抽出し、抽出した3次元データの複数フレームに亘る時系列データを学習データとして用いて生成してある。プレゼンテーション動画が、1秒当たり10フレームの画像で構成されている場合(10fps)、10フレームに亘る時系列データを学習データとして用いることにより、1秒間のジェスチャーを生成することができる。これにより、所要の時間のジェスチャーを生成することができる。 The learning device extracts three-dimensional data of a plurality of joint positions of the human body for each frame of the presentation moving image, and uses the extracted time-series data of a plurality of frames of the three-dimensional data as learning data. When the presentation moving image is composed of images of 10 frames per second (10 fps), it is possible to generate a gesture for 1 second by using the time-series data of 10 frames as learning data. Thereby, the gesture of the required time can be generated.
本実施の形態の学習器は、再帰型ニューラルネットワークの出力ノードに与える、人体の複数の関節位置の3次元データのプレゼンテーション動画の複数フレームに亘る時系列データと、前記再帰型ニューラルネットワークの入力ノードに与える、前記プレゼンテーション動画の1フレームの間に所要回数サンプリングされた発話音声データの時系列データの前記複数フレームに亘る時系列データとを学習データとして用いて生成してある。 The learning device of the present embodiment provides time series data for a plurality of frames of a presentation moving image of three-dimensional data of a plurality of joint positions of a human body, which is given to an output node of the recurrent neural network, and an input node of the recurrent neural network. And the time-series data of the time-series data of the uttered voice data sampled a required number of times during one frame of the presentation moving image over the plurality of frames are used as learning data.
本実施の形態の学習データは、プレゼンテーション動画から抽出された発話音声データの時系列データ及び人体の姿勢データの時系列データを有する学習データであって、前記姿勢データは、人体の複数の関節位置の3次元データを有し、前記複数の関節位置の3次元データのプレゼンテーション動画の複数フレームに亘る時系列データを再帰型ニューラルネットワークの出力ノードに与える処理と、前記プレゼンテーション動画の1フレームの間に所要回数サンプリングされた発話音声データの時系列データの前記複数フレームに亘る時系列データを前記再帰型ニューラルネットワークの入力ノードに与える処理と、前記出力ノード及び入力にノードそれぞれ与えられた前記時系列データに基づいて前記再帰型ニューラルネットワークを学習する処理とを実行するのに用いられる。 The learning data of the present embodiment is learning data having time-series data of utterance voice data and time-series data of posture data of a human body extracted from a presentation moving image, and the posture data is a plurality of joint positions of a human body. Between the process of giving the output node of the recursive neural network the time-series data of the three-dimensional data of the plurality of joint positions over a plurality of frames of the presentation moving image, and one frame of the presentation moving image. A process of applying time-series data of the time-series data of the uttered voice data sampled a required number of times over the plurality of frames to an input node of the recurrent neural network, and the time-series data applied to the output node and the input node, respectively. And a process of learning the recurrent neural network based on the above.
学習器は、再帰型ニューラルネットワークの出力ノードに与える、人体の複数の関節位置の3次元データのプレゼンテーション動画の複数フレームに亘る時系列データと、再帰型ニューラルネットワークの入力ノードに与える、当該プレゼンテーション動画の1フレームの間に所要回数サンプリングされた発話音声データの時系列データの当該複数フレームに亘る時系列データとを学習データとして用いて生成してある。 The learner gives time series data over a plurality of frames of a presentation moving image of three-dimensional data of a plurality of joint positions of a human body to an output node of the recursive neural network, and the presentation moving image given to an input node of the recurrent neural network. Is generated by using the time-series data of the utterance voice data sampled the required number of times during one frame of the above as the learning data.
例えば、プレゼンテーション動画のフレーム数を3とし、フレームの時点をt、t+1、t+2とする。再帰型ニューラルネットワークの出力ノードには、時点t、t+1、t+2それぞれの3次元データが与えられる。発話音声データの1フレーム当たりのサンプリング数をnとすると、再帰型ニューラルネットワークの入力ノードには、時点tに対応して、(X1 、…、Xn )の発話音声データの時系列データが与えられ、時点t+1に対応して、(Xn+1、…、X2n)の発話音声データの時系列データが与えられ、時点t+2に対応して、(X2n+1、…、X3n)の発話音声データの時系列データが与えられる。 For example, the number of frames of the presentation moving image is 3, and the time points of the frames are t, t+1, and t+2. The output node of the recurrent neural network is given three-dimensional data at time points t, t+1, and t+2. Assuming that the number of samples of the uttered voice data per frame is n, the time-series data of the uttered voice data of (X 1 ,..., X n ) is associated with the time t at the input node of the recurrent neural network. Given, time-series data of the utterance voice data of (X n+1 ,..., X 2n ) is given corresponding to the time point t +1 , and (X 2n+1 ,..., X 3n is given corresponding to the time point t+2. ) The time-series data of the utterance voice data is given.
これにより、発話(発話の韻律)と体の動きの情報との関連性を学習することができ、発話(発話の韻律)に合わせたジェスチャーを生成することができる。 As a result, the relationship between the utterance (prosody of the utterance) and the information on the body movement can be learned, and a gesture that matches the utterance (prosody of the utterance) can be generated.
50 ジェスチャー生成装置
51 制御部
52 取得部
53 記憶部
54 処理部
55 学習モデル
551 エンコーダ
552 デコーダ
56 補正部
57 生成部
60 学習モデル生成部
61 プレゼンテーション動画取得部
62 発話音声データ抽出部
63 フレーム画像抽出部
64 ピッチ及びエネルギー抽出部
65 2次元姿勢抽出部
66 3次元姿勢推定部
50
Claims (16)
発話音声データを取得する取得部と、
前記取得部で取得した発話音声データ及び前記学習器に基づいて姿勢データを生成する生成部と
を備える姿勢データ生成装置。 A learning device generated using utterance voice data and human posture data as learning data,
An acquisition unit for acquiring utterance voice data,
A posture data generation device, comprising: a generation unit that generates posture data based on the utterance voice data acquired by the acquisition unit and the learning device.
人体の複数の関節位置の3次元データの時系列データを生成する請求項1に記載の姿勢データ生成装置。 The generator is
The posture data generation device according to claim 1, wherein time-series data of three-dimensional data of a plurality of joint positions of a human body is generated.
発話文章単位で人体の複数の関節位置の3次元データの時系列データを生成する請求項1又は請求項2に記載の姿勢データ生成装置。 The generator is
The posture data generation device according to claim 1 or 2, wherein time-series data of three-dimensional data of a plurality of joint positions of a human body is generated for each utterance sentence.
前記生成部で生成した3次元データの時系列データに対応する発話文章内で前記キーワードに対応する3次元データの時系列データを前記キーワードに関連付けられた伝達3次元データの時系列データを用いて補正する第2補正部を備える請求項3又は請求項4に記載の姿勢データ生成装置。 A storage unit that stores a plurality of keywords and time series data of transmission three-dimensional data that transmits the meaning of each of the plurality of keywords in association with each other,
Using the time-series data of the transmission three-dimensional data associated with the keyword, the time-series data of the three-dimensional data corresponding to the keyword in the utterance sentence corresponding to the time-series data of the three-dimensional data generated by the generation unit. The attitude data generation device according to claim 3 or 4, further comprising a second correction unit that corrects.
前記再帰型ニューラルネットワークの入力ノードに与える、前記プレゼンテーション動画の1フレームの間に所要回数サンプリングされた発話音声データの時系列データの前記複数フレームに亘る時系列データと
を学習データとして用いて生成してある請求項6から請求項11のいずれか一項に記載の学習器。 Time-series data for a plurality of frames of a presentation moving image of three-dimensional data of a plurality of joint positions of a human body, which is given to an output node of a recurrent neural network
The time-series data of the time-series data of the uttered voice data sampled a required number of times during one frame of the presentation moving image, which is given to the input node of the recurrent neural network, is used as learning data. The learning device according to any one of claims 6 to 11.
発話音声データを取得する処理と、
発話音声データと人体の姿勢データとを学習データとして用いて生成してある学習器に、取得した発話音声データを入力して姿勢データを生成する処理と
を実行させるコンピュータプログラム。 On the computer,
A process of acquiring speech data,
A computer program that causes a learner, which is generated by using utterance voice data and human posture data as learning data, to input the obtained utterance voice data and generate posture data.
前記姿勢データは、人体の複数の関節位置の3次元データを有し、
前記複数の関節位置の3次元データのプレゼンテーション動画の複数フレームに亘る時系列データを再帰型ニューラルネットワークの出力ノードに与える処理と、
前記プレゼンテーション動画の1フレームの間に所要回数サンプリングされた発話音声データの時系列データの前記複数フレームに亘る時系列データを前記再帰型ニューラルネットワークの入力ノードに与える処理と、
前記出力ノード及び入力にノードそれぞれ与えられた前記時系列データに基づいて前記再帰型ニューラルネットワークを学習する処理と
を実行するのに用いられる学習データ。 Learning data having time-series data of speech data extracted from a presentation video and time-series data of posture data of a human body,
The posture data has three-dimensional data of a plurality of joint positions of the human body,
A process of giving time series data over a plurality of frames of a presentation moving image of three-dimensional data of a plurality of joint positions to an output node of a recursive neural network;
A process of giving time series data of the time series data of the utterance voice data sampled a required number of times during one frame of the presentation moving image over the plurality of frames to an input node of the recursive neural network;
Learning data used for performing processing for learning the recursive neural network based on the time series data given to the output node and the input node, respectively.
発話音声データと人体の姿勢データとを学習データとして用いて生成してある学習器に、取得した発話音声データを入力して姿勢データを生成する姿勢データ生成方法。 Acquire speech data,
A posture data generation method for generating posture data by inputting the acquired voice data to a learning device that is generated by using utterance voice data and human posture data as learning data.
取得された発話音声データ及び人体の姿勢データを学習データとして用いる学習モデルの生成方法。 Acquire speech data and posture data of the human body,
A method for generating a learning model using the acquired utterance voice data and human posture data as learning data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217480A JP2020082246A (en) | 2018-11-20 | 2018-11-20 | Posture data generation device, learning tool, computer program, learning data, posture data generation method and learning model generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018217480A JP2020082246A (en) | 2018-11-20 | 2018-11-20 | Posture data generation device, learning tool, computer program, learning data, posture data generation method and learning model generation method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020082246A true JP2020082246A (en) | 2020-06-04 |
Family
ID=70909481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018217480A Pending JP2020082246A (en) | 2018-11-20 | 2018-11-20 | Posture data generation device, learning tool, computer program, learning data, posture data generation method and learning model generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020082246A (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002086378A (en) * | 2000-09-08 | 2002-03-26 | Sony Corp | System and method for teaching movement to leg type robot |
JP2006205343A (en) * | 2005-01-31 | 2006-08-10 | Advanced Telecommunication Research Institute International | Communication robot system, and robot control device |
EP2933067A1 (en) * | 2014-04-17 | 2015-10-21 | Aldebaran Robotics | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
JP2018075657A (en) * | 2016-11-08 | 2018-05-17 | 富士通株式会社 | Generating program, generation device, control program, control method, robot device and telephone call system |
JP2018129007A (en) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | Learning data generation apparatus, learning apparatus, estimation apparatus, learning data generation method, and computer program |
JP2018142280A (en) * | 2017-02-28 | 2018-09-13 | 国立大学法人東北大学 | Interaction support apparatus and interactive apparatus |
-
2018
- 2018-11-20 JP JP2018217480A patent/JP2020082246A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002086378A (en) * | 2000-09-08 | 2002-03-26 | Sony Corp | System and method for teaching movement to leg type robot |
JP2006205343A (en) * | 2005-01-31 | 2006-08-10 | Advanced Telecommunication Research Institute International | Communication robot system, and robot control device |
EP2933067A1 (en) * | 2014-04-17 | 2015-10-21 | Aldebaran Robotics | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
JP2018075657A (en) * | 2016-11-08 | 2018-05-17 | 富士通株式会社 | Generating program, generation device, control program, control method, robot device and telephone call system |
JP2018129007A (en) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | Learning data generation apparatus, learning apparatus, estimation apparatus, learning data generation method, and computer program |
JP2018142280A (en) * | 2017-02-28 | 2018-09-13 | 国立大学法人東北大学 | Interaction support apparatus and interactive apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3664474B2 (en) | Language-transparent synthesis of visual speech | |
US7136818B1 (en) | System and method of providing conversational visual prosody for talking heads | |
US7844467B1 (en) | System and method of providing conversational visual prosody for talking heads | |
US20030149569A1 (en) | Character animation | |
ITTO20000303A1 (en) | PROCEDURE FOR THE ANIMATION OF A SYNTHESIZED HUMAN FACE MODEL DRIVEN BY AN AUDIO SIGNAL. | |
KR20020022504A (en) | System and method for 3D animation authoring with motion control, facial animation, lip synchronizing and lip synchronized voice | |
CN113077537A (en) | Video generation method, storage medium and equipment | |
CN111459450A (en) | Interactive object driving method, device, equipment and storage medium | |
JP4599606B2 (en) | Head motion learning device, head motion synthesis device, and computer program for automatic head motion generation | |
JPH08235384A (en) | Sound-assisted image processing | |
Karpov et al. | Multimodal synthesizer for Russian and Czech sign languages and audio-visual speech | |
CN116912375A (en) | Facial animation generation method and device, electronic equipment and storage medium | |
JP3755503B2 (en) | Animation production system | |
JP2020082246A (en) | Posture data generation device, learning tool, computer program, learning data, posture data generation method and learning model generation method | |
CN116597857A (en) | Method, system, device and storage medium for driving image by voice | |
CN115529500A (en) | Method and device for generating dynamic image | |
JP2007299300A (en) | Animation creating device | |
EP0982684A1 (en) | Moving picture generating device and image control network learning device | |
Liu et al. | Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents | |
Kolivand et al. | Realistic lip syncing for virtual character using common viseme set | |
JPH09198522A (en) | Animation production system | |
Barve et al. | Synchronized Speech and Video Synthesis | |
JP3298076B2 (en) | Image creation device | |
Chen et al. | Text to avatar in multimodal human computer interface | |
JP2002215180A (en) | Communication device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20181217 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210928 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230307 |