JP2019057116A - Lip sink processing program, recording media and lip sink processing method - Google Patents
Lip sink processing program, recording media and lip sink processing method Download PDFInfo
- Publication number
- JP2019057116A JP2019057116A JP2017180863A JP2017180863A JP2019057116A JP 2019057116 A JP2019057116 A JP 2019057116A JP 2017180863 A JP2017180863 A JP 2017180863A JP 2017180863 A JP2017180863 A JP 2017180863A JP 2019057116 A JP2019057116 A JP 2019057116A
- Authority
- JP
- Japan
- Prior art keywords
- volume level
- application rate
- processing unit
- pattern
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
Description
本発明は、リップシンク処理プログラム、当該リップシンク処理プログラムが記録された記録媒体、及びリップシンク処理方法に関する。 The present invention relates to a lip sync processing program, a recording medium on which the lip sync processing program is recorded, and a lip sync processing method.
近年、ゲーム、テレビ番組、映画等の各種映像コンテンツ分野において、コンピュータグラフィクスによるアニメーションが利用されている。このようなアニメーションでは、登場するキャラクタの発声と口唇形状とを同期させるリップシンク技術が用いられる。 In recent years, animation by computer graphics has been used in various video content fields such as games, television programs, and movies. In such an animation, a lip sync technique for synchronizing the utterance of a character to appear and the lip shape is used.
例えば、特許文献1に記載されたゲーム装置においては、音声入力手段によって取り込んだプレーヤの音声を、音声解析手段により周波数分析して可聴周波数帯域の周波数成分ごとの音圧分布特徴から音を判別し、音声同期手段がキャラクタの口唇形状を音に応じて変更する。
For example, in the game device described in
上記従来技術では、音声を解析するために複雑な演算処理が必要となるため、処理負荷が重いという課題があった。 The above-described prior art has a problem that processing load is heavy because complicated arithmetic processing is required to analyze the voice.
本発明はこのような問題点に鑑みてなされたものであり、処理負荷を軽減することが可能なリップシンク処理プログラム、記録媒体、リップシンク処理方法を提供することを目的とする。 The present invention has been made in view of such problems, and an object thereof is to provide a lip sync processing program, a recording medium, and a lip sync processing method capable of reducing the processing load.
上記目的を達成するために、本発明のリップシンク処理プログラムは、情報処理装置を、所定の音声列に対応したオブジェクトの口形状の動作パターンを取得する動作パターン取得処理部、前記オブジェクトに発声させる音声の音量レベルを取得する音量レベル取得処理部、前記音量レベルに基づいて前記オブジェクトに適用する前記動作パターンの大きさの度合いを適用率として決定する適用率決定処理部、前記オブジェクトの発声に合わせて前記動作パターンを前記適用率に基づいた大きさで実行する動作パターン実行処理部、として機能させる。 In order to achieve the above object, a lip sync processing program according to the present invention causes an information processing apparatus to utter a motion pattern acquisition processing unit that acquires a mouth-shaped motion pattern of an object corresponding to a predetermined audio string, A volume level acquisition processing unit that acquires a volume level of sound, an application rate determination processing unit that determines, as an application rate, a degree of the size of the motion pattern to be applied to the object based on the volume level, and according to the utterance of the object The operation pattern is made to function as an operation pattern execution processing unit that executes the operation pattern with a size based on the application rate.
また、上記目的を達成するために、本発明の記録媒体は、上記リップシンク処理プログラムを記録した、情報処理装置が読み取り可能な記録媒体である。 In order to achieve the above object, a recording medium of the present invention is a recording medium readable by an information processing apparatus on which the lip sync processing program is recorded.
また、上記目的を達成するために、本発明のリップシンク処理方法は、情報処理装置によって実行されるリップシンク処理方法であって、所定の音声列に対応したオブジェクトの口形状の動作パターンを取得するステップと、前記オブジェクトに発声させる音声の音量レベルを取得するステップと、前記音量レベルに基づいて前記オブジェクトに適用する前記動作パターンの大きさの度合いを適用率として決定するステップと、前記オブジェクトの発声に合わせて前記動作パターンを前記適用率に基づいた大きさで実行するステップと、を有する。 In order to achieve the above object, a lip sync processing method according to the present invention is a lip sync processing method executed by an information processing apparatus, and acquires a mouth-shaped motion pattern of an object corresponding to a predetermined audio sequence. A step of obtaining a volume level of sound to be uttered by the object, a step of determining a degree of the size of the motion pattern to be applied to the object based on the volume level as an application rate, Executing the motion pattern in a size based on the application rate in accordance with the utterance.
本発明によれば、リップシンク処理の処理負荷を軽減することができる。 According to the present invention, the processing load of lip sync processing can be reduced.
<1.発明の背景>
まず、本発明の一実施の形態について説明する前に、発明の背景について説明する。
<1. Background of the Invention>
First, before describing an embodiment of the present invention, the background of the present invention will be described.
近年、ゲーム、シアター、ネット配信、テレビ番組、映画等の各種映像コンテンツ分野において、CG(コンピュータグラフィクス)によるアニメーションが利用されている。このようなアニメーションでは、登場するキャラクタが発声する音声と口形状とを同期させるリップシンク技術が使用されている。 In recent years, animation by CG (computer graphics) has been used in various video content fields such as games, theaters, online distribution, TV programs, movies and the like. In such an animation, a lip sync technique for synchronizing the voice uttered by the appearing character and the mouth shape is used.
一般にリップシンク技術では、キャラクタが発する音声の一音一音(例えば母音。あるいは母音と子音の組み合わせ)に対応した複数種類の口形状が予め用意されており、一音ごとに口形状を当てはめて変化させる。この場合、音を判別する必要があるため、例えば入力された音声を解析するための複雑な演算処理が必要となり、処理負荷が重くなる。また、アニメーションデータを作成する際には、例えば母音情報を手入力するといった手間が必要となり、アニメーションデータ作成の負荷が重くなる。 In general, in the lip sync technology, a plurality of types of mouth shapes corresponding to one sound (for example, a vowel or a combination of vowels and consonants) produced by a character are prepared in advance, and the mouth shape is applied to each sound. Change. In this case, since it is necessary to discriminate the sound, for example, a complicated calculation process for analyzing the input voice is required, which increases the processing load. Further, when creating animation data, for example, it is necessary to manually input vowel information, which increases the burden of creating animation data.
そこで本願発明者等は、鋭意研究を行った結果、キャラクタが発する音声を判別しなくても、所定の音声列に対応した口形状の動作パターンを用いることで、ある程度自然なリップシンク(キャラクタの発声と口形状とを同期させること)が可能であることに想到した。これにより、音声解析を不要として処理負荷を大幅に軽減できると共に、母音情報等を入力する手間が省けてアニメーションデータ作成の負荷を軽減することが可能となる。以下、この詳細について説明する。 Therefore, as a result of earnest research, the inventors of the present application have used a mouth-shaped motion pattern corresponding to a predetermined voice sequence without discriminating the voice uttered by the character. It was thought that it is possible to synchronize utterance and mouth shape. As a result, it is possible to significantly reduce the processing load by eliminating the need for voice analysis, and to reduce the burden of creating animation data by eliminating the trouble of inputting vowel information and the like. The details will be described below.
<2.ゲームシステムの全体構成>
本発明の一実施の形態について図面を参照しつつ説明する。なお、本実施形態では、本発明のリップシンク処理プログラム等をゲームに適用した場合について説明するが、適用対象をゲームに限定するものではない。
<2. Overall configuration of game system>
An embodiment of the present invention will be described with reference to the drawings. In this embodiment, the case where the lip sync processing program of the present invention is applied to a game will be described, but the application target is not limited to a game.
まず、図1を用いて、本実施形態に係るゲームシステム1の全体構成の一例について説明する。図1に示すように、ゲームシステム1は、情報処理装置3と、コントローラ5と、表示装置7を有する。コントローラ5及び表示装置7の各々は、情報処理装置3と通信可能に接続されている。なお、図1には有線により接続された場合を図示しているが、無線により接続されてもよい。
First, an example of the overall configuration of the
情報処理装置3は、例えば据え置き型のゲーム機である。但しこれに限定されるものではなく、例えば入力部や表示部等を一体に備えた携帯型のゲーム機でもよい。また、ゲーム機以外にも、例えば、サーバコンピュータ、デスクトップ型コンピュータ、ノート型コンピュータ、タブレット型コンピュータ等のように、コンピュータとして製造、販売等されているものや、携帯電話、スマートフォン、ファブレット等のように、電話機として製造、販売等されているものでもよい。
The
プレイヤは、コントローラ5を用いて各種の操作入力を行う。図1に示す例では、コントローラ5は例えば十字キー9や複数のボタン11等を有する。なお、コントローラ5は上記に代えて又は加えて、例えばジョイスティックやタッチパッド等を有してもよい。
The player performs various operation inputs using the
本実施形態では、情報処理装置3により、リップシンク処理プログラムの一例であるゲームプログラムが実行される場合について説明する。
In the present embodiment, a case where a game program which is an example of a lip sync processing program is executed by the
<3.情報処理装置の機能的構成>
次に、図2及び図3〜図7を用いて、情報処理装置3の機能的構成の一例について説明する。
<3. Functional configuration of information processing apparatus>
Next, an example of a functional configuration of the
図2に示すように、情報処理装置3は、動作パターン取得処理部13と、音量レベル取得処理部15と、適用率決定処理部17と、動作パターン実行処理部19と、リセット処理部21と、平滑化処理部23と、動作合成処理部25とを有する。
As illustrated in FIG. 2, the
動作パターン取得処理部13は、所定の音声列に対応したキャラクタ(オブジェクトの一例)の口形状の動作パターンを取得する。所定の音声列は、例えばランダムな順番で並べられた複数の母音等で構成される。なお、ランダムでなく予め定められた順番としてもよい。また、母音だけでなく母音と子音の組み合わせを含めてもよい。
The motion pattern
動作パターンは、上記音声列をキャラクタが発声する際の口形状の一連の動作であり、後述する適用率によって動作の大きさは変動するものの、キャラクタが発声する音声の内容に応じてパターンが変動されることはない。動作パターンは、口形状が閉じた状態から上記記音声列に対応した動作を開始するように生成されており、キャラクタが発声している間は上記音声列に対応した部分がリピートされる。 The movement pattern is a series of mouth-shaped movements when the character utters the above-mentioned voice sequence, and the pattern varies depending on the content of the voice uttered by the character, although the magnitude of the movement varies depending on the application rate described later. It will never be done. The motion pattern is generated so that the motion corresponding to the voice sequence is started from a state in which the mouth shape is closed, and the portion corresponding to the voice sequence is repeated while the character is speaking.
動作パターンは、キャラクタごとに1つのパターンが設定されている。例えば、キャラクタが性急な性格の場合には早口としたり、大人しい性格の場合には動作を小さめにする等、キャラクタの個性(性格や能力等)に応じて、上記音声列の内容や動作の態様を異なるように設定してもよい。なお、キャラクタごとに複数のパターンを設定してもよい。 As the motion pattern, one pattern is set for each character. For example, depending on the character's personality (personality, ability, etc.) May be set differently. A plurality of patterns may be set for each character.
なお、キャラクタの種類は、発声動作が可能な口を備えたオブジェクトであれば特に限定されるものではないが、例えば人間のキャラクタ、人間以外の動物キャラクタ、人間や動物以外の仮想的な生物キャラクタ、又は生物以外の物体等である。本実施形態では、後述の図4〜図7に示すように、オブジェクトが人間のキャラクタである場合を例にとって説明する。 The type of the character is not particularly limited as long as it is an object having a mouth capable of uttering action. For example, a human character, an animal character other than a human, a virtual biological character other than a human or an animal is used. Or an object other than a living thing. In the present embodiment, a case where the object is a human character will be described as an example as shown in FIGS.
動作パターンは、ゲームプログラムの実行によって情報処理装置3のROM103やRAM105、記録装置117等(後述の図9参照)に記録される。動作パターン取得処理部13は、それらから動作パターンを読み出して取得する。なお、動作パターンを外部のサーバ等から取得してもよい。
The operation pattern is recorded in the
音量レベル取得処理部15は、キャラクタに発声させる音声の音量レベルを取得する。音量レベルの取得は例えば所定の時間間隔で継続的に行われる。音量レベルは、音声の内容(台詞)等と共に音声情報に含まれており、ゲームプログラムの実行によって情報処理装置3のROM103やRAM105、記録装置117等に記録される。音量レベル取得処理部15は、それらから音量レベルを読み出して取得する。なお、マイク等の音声入力手段からリアルタイムに音声が入力される場合には、音量レベル取得処理部15は入力された音声の音量に基づいて音量レベルを取得する(後述の図10参照)。
The volume level
図3の上段に音声波形の一例を示す。図3において、音声波形の振幅の大きさが音量レベルに相当する。図3に示す例では、時間T1において発声が開始され(話し始め)、時間T1からT2までの間は音量が比較的大きく、時間T2からT3までの間は音量が比較的小さく、時間T3において発声が終了する(話し終わり)。 An example of a speech waveform is shown in the upper part of FIG. In FIG. 3, the amplitude of the speech waveform corresponds to the volume level. In the example shown in FIG. 3, utterance is started at time T1 (beginning of speaking), the volume is relatively high from time T1 to T2, the volume is relatively low from time T2 to T3, and at time T3. Speaking ends (end of talk).
図2に戻り、適用率決定処理部17は、音量レベルに基づいてキャラクタに適用する動作パターンの大きさの度合いを適用率として決定する。適用率は例えば0%〜100%の数値で決定され、0%の場合にはキャラクタの口形状は閉じた状態となり、数値が大きくなるにつれてキャラクタに反映される動作パターンの動作の大きさが増大され、100%で最大となる。適用率決定処理部17は、音量レベルが0(0近傍の場合も含む)である場合には適用率を0%に決定し、音量レベルが大きくなるにつれて適用率を大きくし、音量レベルが予め設定された最大値以上となった場合には適用率を100%に決定する。
Returning to FIG. 2, the application rate
なお、図3の上段に示すように、音量レベルは急激に変動する場合がある。このため、例えば音量レベルのそのままの値に応じて適用率を決定する場合、キャラクタの口形状の動作の大きさが急激に変動することとなり、不自然な動作となってしまう。 Note that, as shown in the upper part of FIG. 3, the volume level may fluctuate rapidly. For this reason, for example, when the application rate is determined in accordance with the value of the sound volume level as it is, the size of the character's mouth shape changes rapidly, resulting in an unnatural motion.
そこで本実施形態では、平滑化処理部23により音量レベルの平滑化を行う。音量レベルの平滑化処理は、音量レベルの取得間隔に合わせて音量レベルが取得される度に継続的に行われる。平滑化の手法は特に限定されるものではないが、例えばある時点で取得した音量レベルと、当該時点の前に取得した1又は複数の音量レベルとの平均値を算出し、当該時点の音量レベルとする、移動平均の手法が考えられる。なお、移動平均以外の方式を採用してもよい。上述の適用率決定処理部17は、平滑化処理部23により平滑化された音量レベルに基づいて適用率を決定する。
Therefore, in this embodiment, the smoothing
図3に適用率の一例を示す。図3に示す適用率は、上段に示す音声波形が平滑化処理部23により平滑化され、当該平滑化された音量レベルに基づいて適用率決定処理部17により決定されたものである。図3に示すように、時間T1以前では音量レベルが0のため、適用率も0となる。その後、時間T1において発声が開始されて音量レベルが急激に上昇し始めるが、音量レベルの平滑化により適用率は(急峻ではなく)なだらかに上昇し、時間T2までの間は比較的大きな値となる。その後、時間T2において音量が急激に小さくなるが、音量レベルの平滑化により適用率は(急峻ではなく)なだらかに下降し、時間T3までの間は比較的小さな値となっている。その後、時間T3において発声が終了して音量レベルが0に下降すると、適用率も0となる。
FIG. 3 shows an example of the application rate. The application rate shown in FIG. 3 is determined by the application rate
なお、上記では音量レベルを平滑化し、当該平滑化された音量レベルに応じて適用率を決定するようにしたが、例えば音量レベルを平滑化せずに適用率を決定し、当該決定した適用率について平滑化するようにしてもよい。 In the above, the volume level is smoothed and the application rate is determined according to the smoothed volume level. However, for example, the application rate is determined without smoothing the volume level, and the determined application rate is determined. May be smoothed.
図2に戻り、動作パターン実行処理部19は、キャラクタの発声に合わせて動作パターンを適用率に基づいた大きさで実行する。これにより、キャラクタが発声する音声の音量レベルのみを入力として、キャラクタの口を開閉する動きの大きさを変化させることができる。
Returning to FIG. 2, the motion pattern
図4に適用率に基づいたキャラクタの口の開閉動作の大きさの例を示す。図4に示すように、キャラクタの口の開閉動作は、適用率が大きい場合(音量レベルが大きい場合)には大きくなり、適用率が小さい場合(音量レベルが小さい場合)には小さくなる。なお、適用率の変動によって口の開閉動作の大きさは変動するものの、リピートされる動作パターンは共通であるため、適用率が変動しても口形状の一連の動き(所定の音声列に対応した動き)そのものは変化しない。 FIG. 4 shows an example of the magnitude of the opening / closing operation of the character's mouth based on the application rate. As shown in FIG. 4, the opening / closing operation of the character's mouth increases when the application rate is large (when the volume level is high), and decreases when the application rate is low (when the volume level is low). Note that although the size of the mouth opening / closing operation varies depending on the variation in the application rate, the repeated motion pattern is common, so even if the application rate varies, a series of mouth-shaped movements (corresponding to a predetermined audio sequence) The movement itself does not change.
なお、動作パターン実行処理部19により動作パターンはリピートして実行されるが、単純にリピートさせたままで適用率を変動する場合、例えば動作パターンにおいて口形状が閉じ始めたタイミングで適用率が0から上昇し始める(つまりキャラクタが話し始めたタイミングで口形状が閉じ始める)といった不自然な動作が生じる可能性がある。
The motion pattern is repeatedly executed by the motion pattern
そこで本実施形態では、リセット処理部21により、音量レベルが0(0近傍の場合も含む)から上昇し始めた際に、動作パターンが最初から実行されるように動作パターンの開始位置をリセットする。前述のように、動作パターンは口形状が閉じた状態から所定の音声列に対応した動作を開始するように生成されているので、このように音量レベルが0から上昇し始めるタイミングで動作パターンの開始位置をリセットすることにより、キャラクタの話し始め(発声の開始)のタイミングに同期させた自然な口形状の動作を表現できる。
Therefore, in the present embodiment, the
図2に戻り、動作合成処理部25は、上記動作パターン実行処理部19により実行されるキャラクタの口形状の動作パターンと、キャラクタの表情の動作とを合成する。キャラクタの表情は、キャラクタの感情等に応じて別途動作パターンが設定されている。動作合成処理部25は、この表情の動作パターンと口形状の動作パターンとを合成することで、表情による感情の表現と音声に合わせた口の開閉動作とを組み合わせることができる。
Returning to FIG. 2, the behavioral
図5〜図7に、表情と口形状の動作パターンが合成された例を示す。図5に示す例では、笑った顔に口形状の動作パターンが合成されている。図6に示す例では、泣き顔に口形状の動作パターンが合成されている。図7に示す例では、怒った顔に口形状の動作パターンが合成されている。これにより、キャラクタの表情による感情表現とリップシンクとを組み合わせることが可能となり、キャラクタのリアリティを向上できる。 FIGS. 5 to 7 show examples in which facial expressions and mouth-shaped motion patterns are combined. In the example shown in FIG. 5, a mouth-shaped motion pattern is synthesized with a laughing face. In the example shown in FIG. 6, a mouth-shaped motion pattern is synthesized with the crying face. In the example shown in FIG. 7, a mouth-shaped motion pattern is synthesized with an angry face. Thereby, it becomes possible to combine the emotion expression by the facial expression of the character and the lip sync, and the reality of the character can be improved.
なお、例えば笑った顔や怒った顔の場合には適用率を大きめに設定し、泣き顔の場合には適用率を小さめに設定する等、組み合わせる表情に応じて適用率を変化させてもよい。 Note that the application rate may be changed according to the facial expression to be combined, such as setting a higher application rate for a laughing face or an angry face and setting a lower application rate for a crying face.
なお、以上説明した各処理部における処理等は、これらの処理の分担の例に限定されるものではなく、例えば、更に少ない数の処理部(例えば1つの処理部)で処理されてもよく、また、更に細分化された処理部により処理されてもよい。また、上述した各処理部の機能は、後述するCPU101(後述の図9参照)が実行するゲームプログラムにより実装されるものであるが、例えばその一部がASICやFPGA等の専用集積回路、その他の電気回路等の実際の装置により実装されてもよい。 Note that the processing in each processing unit described above is not limited to the example of sharing of these processing, and may be processed by, for example, a smaller number of processing units (for example, one processing unit), Further, it may be processed by a further subdivided processing unit. The functions of each processing unit described above are implemented by a game program that is executed by a CPU 101 (see FIG. 9 described later), for example, a part of which is a dedicated integrated circuit such as an ASIC or FPGA, or the like. It may be implemented by an actual device such as an electric circuit.
<4.情報処理装置が実行する処理手順>
次に、図8を用いて、情報処理装置3のCPU101によって実行される処理手順の一例について説明する。
<4. Processing procedure executed by information processing apparatus>
Next, an example of a processing procedure executed by the
ステップS5では、情報処理装置3は、動作パターン取得処理部13により、所定の音声列に対応したキャラクタの口形状の動作パターンを取得する。なお、複数のキャラクタが発声する場合は、キャラクタごとに動作パターンを取得する。
In step S <b> 5, the
ステップS10では、情報処理装置3は、音量レベル取得処理部15により、キャラクタに発声させる音声の音量レベルの取得を開始する。この後、音量レベルの取得は所定の時間間隔で継続的に行われる。
In step S <b> 10, the
ステップS15では、情報処理装置3は、平滑化処理部23により、上記ステップS10で取得した音量レベルの平滑化を開始する。この後、音量レベルの平滑化処理は、音量レベルの取得間隔に合わせて音量レベルが取得される度に継続的に行われる。
In step S <b> 15, the
ステップS20では、情報処理装置3は、リセット処理部21により、音量レベルが0(0近傍の場合も含む。以下同様)から上昇し始めたか否かを判定する。音量レベルが0のままである場合には(ステップS20:NO)、ステップS25に移る。
In step S <b> 20, the
ステップS25では、情報処理装置3は、適用率決定処理部17により、適用率を0に決定する。
In step S <b> 25, the
ステップS30では、情報処理装置3は、適用率が0であるか否かを表すフラグFを、適用率が0であることを表す「0」に設定する。その後、後述のステップS55に移る。
In step S30, the
一方、上記ステップS20において、音量レベルが0から上昇した場合には(ステップS20:YES)、ステップS35に移る。 On the other hand, if the volume level has increased from 0 in step S20 (step S20: YES), the process proceeds to step S35.
ステップS35では、情報処理装置3は、リセット処理部21により、動作パターンが最初から実行されるように動作パターンの開始位置をリセットする。
In step S35, the
ステップS40では、情報処理装置3は、適用率決定処理部17により、平滑化された音量レベルに応じて適用率を決定する。
In step S <b> 40, the
ステップS45では、情報処理装置3は、適用率決定処理部17により、適用率が0に降下したか否かを判定する。これは音量レベルが0(0近傍の場合も含む)に降下したか否かを判定することと同義である。適用率が0に降下した場合には(ステップS45:YES)、上述したステップS30に移り、フラグFを「0」に設定する。一方、適用率が0となっていない場合には(ステップS45:NO)、ステップS50に移る。
In step S <b> 45, the
ステップS50では、情報処理装置3は、適用率が0であるか否かを表すフラグFを、適用率が0でないことを表す「1」に設定する。
In step S50, the
ステップS55では、情報処理装置3は、動作パターン実行処理部19により、キャラクタの発声に合わせて動作パターンを上記ステップS25又は上記ステップS40で決定した適用率に応じた大きさで実行する。
In step S55, the
ステップS60では、情報処理装置3は、動作合成処理部25により、キャラクタの表情の動作と、上記ステップS55で実行されるキャラクタの口形状の動作パターンとを合成する。
In step S60, the
ステップS65では、情報処理装置3は、上述したフラグFが、適用率が0であることを表す「0」であるか否かを判定する。フラグFが「0」でない場合には(ステップS65:NO)、先のステップS40に戻り、フラグFが「0」になるまでの間(適用率が0になるまでの間)ステップS40〜ステップS65を繰り返す。一方、フラグFが「0」である場合には(ステップS65:YES)、ステップS70に移る。
In step S65, the
ステップS70では、情報処理装置3は、例えばゲームにおけるムービーの終了やゲームの実行の終了等により、リップシンク処理を終了するか否かを判定する。リップシンク処理を終了しない場合には(ステップS70:NO)、先のステップS20に戻り、音量レベルが0から上昇するまでの間ステップS20〜ステップS30、ステップS55〜ステップS70を繰り返す。リップシンク処理を終了する場合には(ステップS70:YES)、本フローを終了する。
In step S <b> 70, the
なお、上述した処理手順は一例であって、上記手順の少なくとも一部を削除又は変更してもよいし、上記以外の手順を追加してもよい。また、上記手順の少なくとも一部の順番を変更してもよいし、複数の手順が単一の手順にまとめられてもよい。 In addition, the process procedure mentioned above is an example, Comprising: At least one part of the said procedure may be deleted or changed, and procedures other than the above may be added. In addition, the order of at least a part of the above procedure may be changed, and a plurality of procedures may be combined into a single procedure.
<5.情報処理装置のハードウェア構成>
次に、図9を用いて、上記で説明したCPU101等が実行するプログラムにより実装された各処理部を実現する情報処理装置3のハードウェア構成の一例について説明する。
<5. Hardware configuration of information processing apparatus>
Next, an example of the hardware configuration of the
図9に示すように、情報処理装置3は、例えば、CPU101と、ROM103と、RAM105と、GPU106と、例えばASIC又はFPGA等の特定の用途向けに構築された専用集積回路107と、入力装置113と、出力装置115と、記録装置117と、ドライブ119と、接続ポート121と、通信装置123を有する。これらの構成は、バス109や入出力インターフェース111等を介し相互に信号を伝達可能に接続されている。
As shown in FIG. 9, the
ゲームプログラムは、例えば、ROM103やRAM105、記録装置117等に記録しておくことができる。
For example, the game program can be recorded in the
また、ゲームプログラムは、例えば、フレキシブルディスクなどの磁気ディスク、各種のCD、MOディスク、DVD等の光ディスク、半導体メモリ等のリムーバブルな記録媒体125に、一時的又は永続的(非一時的)に記録しておくこともできる。このような記録媒体125は、いわゆるパッケージソフトウエアとして提供することもできる。この場合、これらの記録媒体125に記録されたゲームプログラムは、ドライブ119により読み出されて、入出力インターフェース111やバス109等を介し上記記録装置117に記録されてもよい。
In addition, the game program is temporarily or permanently (non-temporarily) recorded on a
また、ゲームプログラムは、例えば、ダウンロードサイト、他のコンピュータ、他の記録装置等(図示せず)に記録しておくこともできる。この場合、ゲームプログラムは、LANやインターネット等のネットワークNWを介し転送され、通信装置123がこのプログラムを受信する。そして、通信装置123が受信したプログラムは、入出力インターフェース111やバス109等を介し上記記録装置117に記録されてもよい。
In addition, the game program can be recorded on, for example, a download site, another computer, another recording device, or the like (not shown). In this case, the game program is transferred via a network NW such as a LAN or the Internet, and the
また、ゲームプログラムは、例えば、適宜の外部接続機器127に記録しておくこともできる。この場合、ゲームプログラムは、適宜の接続ポート121を介し転送され、入出力インターフェース111やバス109等を介し上記記録装置117に記録されてもよい。
Further, the game program can be recorded in an appropriate
そして、CPU101が、上記記録装置117に記録されたプログラムに従い各種の処理を実行することにより、前述の動作パターン取得処理部13や音量レベル取得処理部15等による処理が実現される。この際、CPU101は、例えば、上記記録装置117からプログラムを、直接読み出して実行してもよく、RAM105に一旦ロードした上で実行してもよい。更にCPU101は、例えば、プログラムを通信装置123やドライブ119、接続ポート121を介し受信する場合、受信したプログラムを記録装置117に記録せずに直接実行してもよい。
Then, the
また、CPU101は、必要に応じて、前述のコントローラ5を含む、例えばマウス、キーボード、マイク等(図示せず)の入力装置113から入力する信号や情報に基づいて各種の処理を行ってもよい。
Further, the
GPU106は、CPU101からの指示に応じて例えばレンダリング処理などの画像表示のための処理を行う。
The
そして、CPU101及びGPU106は、上記の処理を実行した結果を、例えば前述の表示装置7や音声出力部を含む、出力装置115から出力する。さらにCPU101及びGPU106は、必要に応じてこの処理結果を通信装置123や接続ポート121を介し送信してもよく、上記記録装置117や記録媒体125に記録させてもよい。
Then, the
<6.実施形態の効果>
本実施形態のゲームプログラムは、情報処理装置3を、所定の音声列に対応したキャラクタの口形状の動作パターンを取得する動作パターン取得処理部13、キャラクタに発声させる音声の音量レベルを取得する音量レベル取得処理部15、音量レベルに基づいてキャラクタに適用する動作パターンの大きさの度合いを適用率として決定する適用率決定処理部17、キャラクタの発声に合わせて動作パターンを適用率に基づいた大きさで実行する動作パターン実行処理部19、として機能させる。
<6. Effects of the embodiment>
The game program according to the present embodiment causes the
このように、本実施形態においては、所定の音声列に対応したキャラクタの口形状の動作パターンを予め用意しておき、キャラクタに発声させる音声の音量レベルに応じて動作の大きさを変化させつつ動作パターンを実行する。これにより、母音情報等が不要となるため、例えば音声を解析するための複雑な演算処理等が不要となり、情報処理装置3の処理負荷を大幅に軽減できる。その結果、リアルタイムな音声入力に適用し易くなるので、例えばチャット、シアター、オンライン配信等への応用も可能となる。また、CGアニメーションデータを作成する場合においても、例えば母音情報を手入力する手間が省けるので、アニメーションデータ作成の負荷を軽減できる。
As described above, in the present embodiment, a mouth-shaped motion pattern of a character corresponding to a predetermined voice sequence is prepared in advance, and the magnitude of the motion is changed according to the volume level of the voice uttered by the character. Execute the operation pattern. This eliminates the need for vowel information and the like, for example, eliminates the need for complicated arithmetic processing for analyzing speech, and the processing load on the
また、本実施形態では特に、動作パターンは、キャラクタの口形状が閉じた状態から音声列に対応した動作を開始するように生成されており、ゲームプログラムは、情報処理装置3を、音量レベルが0又は0近傍から上昇し始めた際に、動作パターンが最初から実行されるように動作パターンの開始位置をリセットするリセット処理部21、としてさらに機能させる。
In the present embodiment, in particular, the motion pattern is generated so as to start the motion corresponding to the voice sequence from the state where the mouth shape of the character is closed, and the game program causes the
これにより、例えばキャラクタが話し始めたタイミングで口形状が閉じ始める、といった不自然な動作を回避できる。したがって、キャラクタの話し始め(発声の開始)のタイミングに同期させた自然な口形状の動作を表現できる。 Thereby, for example, it is possible to avoid an unnatural motion such that the mouth shape starts to close at the timing when the character starts to speak. Therefore, it is possible to express a natural mouth-shaped motion synchronized with the timing of the character's start of speaking (start of utterance).
また、本実施形態では特に、適用率決定処理部17は、音量レベルが0又は0近傍に下降した際に適用率を0に決定する。
In the present embodiment, in particular, the application rate
これにより、キャラクタが話し終わるタイミングで口形状を閉じた状態とすることができる。したがって、キャラクタの話し終わり(発声の終了)のタイミングに同期させた自然な口形状の動作を表現できる。 Thus, the mouth shape can be closed at the timing when the character finishes speaking. Therefore, it is possible to express a natural mouth-shaped movement synchronized with the timing of the character's talking end (speech end).
また、本実施形態では特に、ゲームプログラムは、情報処理装置3を、音量レベル取得処理部15により取得された音量レベルの平滑化を行う平滑化処理部23、としてさらに機能させ、適用率決定処理部17は、平滑化処理部23により平滑化された音量レベルに基づいて適用率を決定する。
In the present embodiment, in particular, the game program causes the
例えば音量レベルのそのままの値に応じて適用率を決定する場合、音量レベルが急激に変化した場合にキャラクタの口形状の動作の大きさが急激に変動することとなり、不自然な動作となってしまう。 For example, when the application rate is determined according to the value of the volume level as it is, when the volume level changes abruptly, the size of the character's mouth shape changes abruptly, resulting in an unnatural action. End up.
本実施形態によれば、上記のように音量レベルを平滑化させた上で適用率を決定するので、音量レベルの急激な変化による不自然な動作を抑制でき、ユーザの違和感を低減できる。 According to this embodiment, since the application rate is determined after smoothing the volume level as described above, an unnatural operation due to a sudden change in the volume level can be suppressed, and the user's uncomfortable feeling can be reduced.
また、本実施形態では特に、ゲームプログラムは、情報処理装置3を、動作パターン実行処理部19により実行されるキャラクタの口形状の動作パターンと、キャラクタの表情の動作とを合成する動作合成処理部25、としてさらに機能させる。
Particularly in the present embodiment, the game program causes the
これにより、キャラクタの例えば笑顔、泣き顔、怒った顔等の表情による感情表現とリップシンクとを組み合わせることが可能となり、キャラクタのリアリティを向上できる。 As a result, it is possible to combine emotional expressions such as smiles, crying faces, angry faces, etc. of the character with lip sync, and improve the reality of the character.
<7.変形例等>
なお、本発明は、上記の実施形態に限られるものではなく、その趣旨及び技術的思想を逸脱しない範囲内で種々の変形が可能である。
<7. Modified example>
The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit and technical idea of the present invention.
上述したように、本発明は情報処理装置3の処理負荷を大幅に軽減できるので、リアルタイムな音声入力への適用が好適である。例えば、図10に示すように、情報処理装置3にマイク等の音声入力装置27を接続し、プレイヤの音声をリアルタイムに入力してゲーム等に登場するキャラクタに発声させてもよい。この場合、音量レベル取得処理部15は、音声入力装置27から入力されたプレイヤの音声の音量に基づいて音量レベルを取得する。その他の処理は上記実施形態と同様である。
As described above, the present invention can significantly reduce the processing load of the
また以上では、本発明のリップシンク処理プログラム等をゲームに適用した場合を一例として説明したが、本発明の適用対象はゲームに限定されるものではない。例えば、テレビ番組や映画等の各種映像コンテンツに適用してもよいし、チャット、3Dシアター、オンライン配信等に適用することも可能である。 In the above description, the case where the lip sync processing program of the present invention is applied to a game has been described as an example. However, the application target of the present invention is not limited to a game. For example, the present invention can be applied to various video contents such as a TV program and a movie, and can also be applied to chat, 3D theater, online distribution, and the like.
また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。その他、一々例示はしないが、上記実施形態や各変形例は、その趣旨を逸脱しない範囲内において、種々の変更が加えられて実施されるものである。 In addition to those already described above, the methods according to the above-described embodiments and modifications may be used in appropriate combination. In addition, although not illustrated one by one, the above-mentioned embodiment and each modification are implemented with various modifications within a range not departing from the gist thereof.
3 情報処理装置
13 動作パターン取得処理部
15 音量レベル取得処理部
17 適用率決定処理部
19 動作パターン実行処理部
21 リセット処理部
23 平滑化処理部
25 動作合成処理部
125 記録媒体
DESCRIPTION OF
Claims (7)
所定の音声列に対応したオブジェクトの口形状の動作パターンを取得する動作パターン取得処理部、
前記オブジェクトに発声させる音声の音量レベルを取得する音量レベル取得処理部、
前記音量レベルに基づいて前記オブジェクトに適用する前記動作パターンの大きさの度合いを適用率として決定する適用率決定処理部、
前記オブジェクトの発声に合わせて前記動作パターンを前記適用率に基づいた大きさで実行する動作パターン実行処理部、
として機能させる、リップシンク処理プログラム。 Information processing device
An action pattern acquisition processing unit for acquiring an action pattern of the mouth shape of the object corresponding to a predetermined voice sequence;
A volume level acquisition processing unit for acquiring a volume level of sound to be uttered by the object;
An application rate determination processing unit that determines, as an application rate, a degree of the size of the motion pattern to be applied to the object based on the volume level;
An action pattern execution processing unit for executing the action pattern in a size based on the application rate in accordance with the utterance of the object;
Lip sync processing program to function as
前記オブジェクトの口形状が閉じた状態から前記音声列に対応した動作を開始するように生成されており、
前記情報処理装置を、
前記音量レベルが0又は0近傍から上昇し始めた際に、前記動作パターンが最初から実行されるように前記動作パターンの開始位置をリセットするリセット処理部、
としてさらに機能させる、
請求項1に記載のリップシンク処理プログラム。 The operation pattern is
It is generated so as to start an operation corresponding to the voice sequence from a state in which the mouth shape of the object is closed,
The information processing apparatus;
A reset processing unit that resets the start position of the operation pattern so that the operation pattern is executed from the beginning when the volume level starts to increase from 0 or near 0;
To further function as,
The lip sync processing program according to claim 1.
前記音量レベルが0又は0近傍に下降した際に前記適用率を0に決定する、
請求項1又は2に記載のリップシンク処理プログラム。 The application rate determination processing unit
When the volume level drops to 0 or near 0, the application rate is determined to be 0;
The lip sync processing program according to claim 1 or 2.
前記音量レベル取得処理部により取得された前記音量レベルの平滑化を行う平滑化処理部、
としてさらに機能させ、
前記適用率決定処理部は、
前記平滑化処理部により平滑化された前記音量レベルに基づいて前記適用率を決定する、
請求項1乃至3のいずれか1項に記載のリップシンク処理プログラム。 The information processing apparatus;
A smoothing processing unit for smoothing the volume level acquired by the volume level acquisition processing unit;
Further function as
The application rate determination processing unit
Determining the application rate based on the volume level smoothed by the smoothing processing unit;
The lip sync processing program according to any one of claims 1 to 3.
前記動作パターン実行処理部により実行される前記オブジェクトの口形状の前記動作パターンと、前記オブジェクトの表情の動作とを合成する動作合成処理部、
としてさらに機能させる、
請求項1乃至4のいずれか1項に記載のリップシンク処理プログラム。 The information processing apparatus;
A behavioral synthesis processing unit that synthesizes the motion pattern of the mouth shape of the object executed by the motion pattern execution processing unit and the motion of the facial expression of the object;
To further function as,
The lip sync processing program according to any one of claims 1 to 4.
所定の音声列に対応したオブジェクトの口形状の動作パターンを取得するステップと、
前記オブジェクトに発声させる音声の音量レベルを取得するステップと、
前記音量レベルに基づいて前記オブジェクトに適用する前記動作パターンの大きさの度合いを適用率として決定するステップと、
前記オブジェクトの発声に合わせて前記動作パターンを前記適用率に基づいた大きさで実行するステップと、
を有する、リップシンク処理方法。 A lip sync processing method executed by an information processing apparatus,
Obtaining a movement pattern of the mouth shape of the object corresponding to a predetermined voice sequence;
Obtaining a volume level of sound to be uttered by the object;
Determining, as an application rate, a degree of the size of the motion pattern to be applied to the object based on the volume level;
Executing the motion pattern in a size based on the application rate according to the utterance of the object;
A lip sync processing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180863A JP7129769B2 (en) | 2017-09-21 | 2017-09-21 | LIP SYNC PROGRAM, RECORDING MEDIUM, LIP SYNC PROCESSING METHOD |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180863A JP7129769B2 (en) | 2017-09-21 | 2017-09-21 | LIP SYNC PROGRAM, RECORDING MEDIUM, LIP SYNC PROCESSING METHOD |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019057116A true JP2019057116A (en) | 2019-04-11 |
JP7129769B2 JP7129769B2 (en) | 2022-09-02 |
Family
ID=66107619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017180863A Active JP7129769B2 (en) | 2017-09-21 | 2017-09-21 | LIP SYNC PROGRAM, RECORDING MEDIUM, LIP SYNC PROCESSING METHOD |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7129769B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187931A (en) * | 1996-12-20 | 1998-07-21 | Omron Corp | Portrait transmitting and receiving device, portrait communication device and method, and portrait communication program storage medium |
JP2001195600A (en) * | 1999-10-29 | 2001-07-19 | Hitachi Kokusai Electric Inc | Video data editing method |
JP2003076312A (en) * | 2001-09-06 | 2003-03-14 | Hideo Nagaoka | Character display device |
JP2005122357A (en) * | 2003-10-15 | 2005-05-12 | Matsushita Electric Ind Co Ltd | Animation generation device and animation generation method |
JP2008241772A (en) * | 2007-03-26 | 2008-10-09 | Konami Digital Entertainment:Kk | Voice image processing device, voice image processing method, and program |
-
2017
- 2017-09-21 JP JP2017180863A patent/JP7129769B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10187931A (en) * | 1996-12-20 | 1998-07-21 | Omron Corp | Portrait transmitting and receiving device, portrait communication device and method, and portrait communication program storage medium |
JP2001195600A (en) * | 1999-10-29 | 2001-07-19 | Hitachi Kokusai Electric Inc | Video data editing method |
JP2003076312A (en) * | 2001-09-06 | 2003-03-14 | Hideo Nagaoka | Character display device |
JP2005122357A (en) * | 2003-10-15 | 2005-05-12 | Matsushita Electric Ind Co Ltd | Animation generation device and animation generation method |
JP2008241772A (en) * | 2007-03-26 | 2008-10-09 | Konami Digital Entertainment:Kk | Voice image processing device, voice image processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP7129769B2 (en) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8125485B2 (en) | Animating speech of an avatar representing a participant in a mobile communication | |
US8830244B2 (en) | Information processing device capable of displaying a character representing a user, and information processing method thereof | |
WO2014094199A1 (en) | Facial movement based avatar animation | |
KR101612199B1 (en) | Method and device for automatically playing expression on virtual image | |
JP6711044B2 (en) | Image processing device, display device, animation generation method, and program | |
KR102491773B1 (en) | Image deformation control method, device and hardware device | |
CN112652041B (en) | Virtual image generation method and device, storage medium and electronic equipment | |
CN112512649B (en) | Techniques for providing audio and video effects | |
CN115700772A (en) | Face animation generation method and device | |
CN112528936B (en) | Video sequence arrangement method, device, electronic equipment and storage medium | |
JP2020531895A (en) | Network-based learning model for natural language processing | |
CN112164407A (en) | Tone conversion method and device | |
KR20240038941A (en) | Method and system for generating avatar based on text | |
JP7129769B2 (en) | LIP SYNC PROGRAM, RECORDING MEDIUM, LIP SYNC PROCESSING METHOD | |
CN114747232A (en) | Audio scene change signaling | |
US20220328070A1 (en) | Method and Apparatus for Generating Video | |
US11461948B2 (en) | System and method for voice driven lip syncing and head reenactment | |
CN113299270B (en) | Method, device, equipment and storage medium for generating voice synthesis system | |
WO2010084830A1 (en) | Voice processing device, chat system, voice processing method, information storage medium, and program | |
JP7152908B2 (en) | Gesture control device and gesture control program | |
Leandro Parreira Duarte et al. | Coarticulation and speech synchronization in MPEG-4 based facial animation | |
US20230368794A1 (en) | Vocal recording and re-creation | |
JP7156138B2 (en) | Information processing device, light action generation method, and light action generation program | |
WO2023175704A1 (en) | Online conference system, method for controlling online conference system, and program | |
JP2023028247A (en) | Information processing system, communication method, and information processing terminal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20200327 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20200327 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210618 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220105 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220105 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220117 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220121 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20220210 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20220221 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220613 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20220722 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20220815 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20220815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220823 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7129769 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |