JP7156138B2 - Information processing device, light action generation method, and light action generation program - Google Patents
Information processing device, light action generation method, and light action generation program Download PDFInfo
- Publication number
- JP7156138B2 JP7156138B2 JP2019065702A JP2019065702A JP7156138B2 JP 7156138 B2 JP7156138 B2 JP 7156138B2 JP 2019065702 A JP2019065702 A JP 2019065702A JP 2019065702 A JP2019065702 A JP 2019065702A JP 7156138 B2 JP7156138 B2 JP 7156138B2
- Authority
- JP
- Japan
- Prior art keywords
- action
- lip
- light
- sync
- light source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本発明は、情報処理装置、光アクション生成方法、および光アクション生成プログラムに関する。 The present invention relates to an information processing device, a light action generation method, and a light action generation program.
近年、コミュニケーションやエンターテインメントなどの用途で利用されるコミュニケーション装置が開発されている。コミュニケーション装置は、例えば、関節などを動かして動作するロボット、並びに音声で視聴者とコミュニケーションを図るスマートスピーカおよびAI(Artificial Intelligence)スピーカなどを含む。 In recent years, communication devices that are used for purposes such as communication and entertainment have been developed. Communication devices include, for example, robots that operate by moving their joints, smart speakers and AI (Artificial Intelligence) speakers that communicate with viewers by voice.
コミュニケーション装置は、例えば、クリエイターが作成したアクションの定義に従って、光源を発光させたり、関節を動かしたりして動作する。例えば、クリエイターは、コミュニケーション装置の動作時に流す音楽に合わせて、光源の発光波形や関節の動きを定義することで、コミュニケーション装置を音楽に合わせて躍らせたりすることができる。 The communication device operates by, for example, emitting light from a light source or moving joints according to an action definition created by a creator. For example, the creator can make the communication device dance to the music by defining the light emission waveform of the light source and the movement of the joints in accordance with the music that is played when the communication device operates.
また、例えば、コミュニケーション装置は、発話する内容を指定する発話データに従って音声を出力し、会話をしたりする。そして、発話する音声に基づいて、光源の発光波形を生成するリップシンクと呼ばれる技術が知られている。リップシンクでは、発話される言葉に連動して人間の口の動きに模して光源を発光させることで、あたかも話しているかのように見せることができる。リップシンクにより、視聴者は、コミュニケーション装置の発話内容がより理解しやすくなる。なお、以下では、クリエイターが定義した光源の発光およびリップシンクにより生成された光源の発光を問わず、コミュニケーション装置の光源の発光によるアクションを光アクションと呼ぶことがある。 In addition, for example, the communication device outputs voice according to speech data specifying the contents of speech to have a conversation. A technique called lip-sync is also known, which generates a light emission waveform of a light source based on a voice that is spoken. With lip-syncing, by illuminating a light source that mimics the movement of a human mouth in conjunction with spoken words, it is possible to make it appear as if the person is speaking. Lip-sync makes it easier for the viewer to understand what the communication device is saying. Note that hereinafter, regardless of whether the creator-defined light source light emission or the light source light emission generated by lip-syncing, an action caused by light emission of the light source of the communication device may be referred to as a light action.
これに関し、コミュニケーション装置に関連する技術が知られている(例えば、特許文献1および特許文献2)。 In this regard, techniques related to communication devices are known (for example, Patent Literature 1 and Patent Literature 2).
しかしながら、クリエイターが作成した光アクションでの光源の発光強度の波形と、リップシンクにより生成された光アクションの光源の発光強度の波形とが類似してしまい、視聴者にとって区別がつきにくくなることがある。その結果、光源が、例えば、クリエイターが定義した光アクションで発光しているのか、それともコミュニケーション装置が発話していることを表しているのかが区別がつかないことがある。 However, the waveform of the luminescence intensity of the light source in the light action created by the creator and the luminescence intensity waveform of the light source of the light action generated by the lip sync are similar, making it difficult for the viewer to distinguish them. be. As a result, it may be indistinguishable whether the light source is e.g. emitting light with a creator-defined light action or representing the communication device speaking.
1つの側面では、本発明は、クリエイターが定義した光アクションと識別可能なリップシンクによる光アクションを生成することを目的とする。 In one aspect, the present invention aims to generate a lip-sync light action that is distinguishable from a creator-defined light action.
本発明の一つの態様の情報処理装置は、定義された発光波形で光源を発光させる定義アクションと、発話される音声に応じて光源を発光させるリップシンクアクションとを含むコンテンツの定義アクションでの発光波形の周波数成分を分析し、発光波形を代表する代表周波数成分を特定する特定部と、リップシンクアクションにおける光源の発光波形で使用する周波数を、代表周波数成分とは区別可能な周波数に調整する調整部と、を含む。 An information processing apparatus according to one aspect of the present invention emits light in a defined action of content including a defined action of emitting a light source with a defined emission waveform and a lip-sync action of causing the light source to emit light according to an uttered voice. An identification unit that analyzes the frequency components of the waveform and identifies representative frequency components that represent the light emission waveform, and an adjustment that adjusts the frequency used in the light emission waveform of the light source in the lip-sync action to a frequency that can be distinguished from the representative frequency components. including the part and
クリエイターが定義した光アクションと識別可能なリップシンクによる光アクションを生成することができる。 Creator-defined light actions and identifiable lip-sync light actions can be generated.
以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付す。 Several embodiments of the present invention will be described in detail below with reference to the drawings. In addition, the same code|symbol is attached|subjected to the element which corresponds in several drawings.
図1は、コミュニケーション装置100が実行するコンテンツの動作を時系列に例示する図である。コミュニケーション装置100は、例えば、関節などを動かして動作するロボット、並びに音声で視聴者とコミュニケーションを図るスマートスピーカおよびAIスピーカなどの視聴者と言葉を用いてコミュニケーションを図る装置を含む。図1の例では、コミュニケーション装置100としてロボットが例示されている。
FIG. 1 is a diagram illustrating, in chronological order, content operations executed by the
また、コンテンツでは、例えば、コミュニケーション装置100が実行する一連の動作が規定されている。コンテンツは、例えば、リップシンクの期間と、定義アクションの期間とを含んでよい。なお、コンテンツは、リップシンクの期間と、定義アクションの期間とを複数含んでもよい。
Also, the content defines, for example, a series of operations to be executed by the
コミュニケーション装置100は、例えば、LED(light emitting diode)などの光源101を含む。そして、リップシンクの期間では、コミュニケーション装置100は、発話する内容を示す発話データに従って音声を出力する。また、コミュニケーション装置100は、出力する音声に基づいて、リップシンクでの光源101の発光波形を生成し、生成した発光波形で光源101を発光させる。なお、リップシンクの期間における光源101の発光によるアクションを、リップシンクアクションと呼ぶことがある。
The
図2は、例示的なリップシンクにおける光源101の発光波形の生成を示す図である。例えば、図2(a)に示すように、リップシンクの期間において発話する文字列「みぎての てんじぶつを ごらん ください」があるとする。
FIG. 2 is a diagram illustrating generation of an emission waveform of
この場合に、図2(b)に示すように、音声合成の技術を用いて、文字列から音声を合成して音声波形のデータを生成することができる。音声波形データは、例えば、コミュニケーション装置100に発話させる際に再生される。
In this case, as shown in FIG. 2B, speech synthesis technology can be used to synthesize speech from a character string to generate speech waveform data. The voice waveform data is reproduced, for example, when the
また、音声波形データに基づいて、リップシンクにより光源101の発光波形を生成することができる。例えば、人間の声の周波数は約100Hz~2000Hzの範囲に分布している。一方、人間が、光の強度変化を認識できるのは0.2Hz~50Hz程度の範囲が限界であると言われている。そのため、音声波形データを直接、光源101の発光波形として用いることは難しい。リップシンクでは、視聴者にコミュニケーション装置100が話しているかのように光源101を発光させるため、人間が光の強度変化を認識し易い0.3~6Hzなどの範囲で光源101を発光させることが多い。そのため、100Hz~2000Hzの周波数範囲の人間の声の波形から、0.3~6Hzの周波数範囲などのリップシンクに適した周波数範囲の波形を生成する処理が行われる。一例では、リップシンクに適した波形は、音声波形データの包絡線を求めることで生成することができる。
Also, based on the audio waveform data, the light emission waveform of the
図2(c)は、音声波形データから得られた包絡線の波形を例示する図である。図2(c)に例示するように、100Hz~2000Hzの周波数範囲の人間の声の波形を含む音声データに基づいて、0.3~6Hzの周波数範囲の波形を生成することができる。そして、リップシンクでは、例えば、音声波形データを再生する際に、このように得られた音声波形データの波形と相関を有する波形で、光源101の強度を変化させることで、コミュニケーション装置100が話しているかのように視聴者に認識させることができる。そして、リップシンクにより、視聴者はコミュニケーション装置100の発話内容がより理解し易くなる。
FIG. 2(c) is a diagram illustrating an envelope waveform obtained from speech waveform data. As illustrated in FIG. 2(c), a waveform in a frequency range of 0.3-6 Hz can be generated based on audio data including a human voice waveform in a frequency range of 100-2000 Hz. In lip-sync, for example, when reproducing the voice waveform data, the
また、定義アクションの期間では、クリエイターが定義したアクションに従って、コミュニケーション装置100は動作する。クリエイターは、例えば、生成する定義アクションの用途などに応じて、定義アクションの開始時刻からの経過時間と対応づけて、各関節の角度や光源101の発光強度を定義してよい。例えば、音楽に合わせて踊りを踊るアクションを定義する場合、クリエイターは、コミュニケーション装置100の踊りの姿勢を時間ごとに定義し、コミュニケーション装置100を踊らせてよい。また、クリエイターは、例えば、定義するアクションにおいて光源101の発光波形を定義してもよい。例えば、クリエイターは、コミュニケーション装置100の動作時に流れる音楽、コミュニケーション装置100の動き、および、発話の内容などに合わせて、光源101の発光波形を定義してよい。
Further, during the defined action period, the
しかしながら、上述のように、クリエイターが作成した定義アクションにおける光源101の発光波形と、リップシンクによる光源101の発光波形とが類似してしまい、見ている視聴者にとって区別がつきにくくなることがある。その結果、光源が、例えば、クリエイターが定義した光アクションで発光しているのか、それともコミュニケーション装置が発話していることを表しているのかが区別がつかないことがある。
However, as described above, the light emission waveform of the
図3は、コミュニケーション装置100が連続して実行する定義アクションとリップシンクとを例示する図である。図3(a)は、時系列のコミュニケーション装置100の動作を例示している。また、図3(b)は、コミュニケーション装置100の左腕の関節角の変化を例示している。コミュニケーション装置100は、定義アクション1の期間において左腕関節の角度を水平になるように回転させた後、左腕を上下に振っている。その後、コミュニケーション装置100は、リップシンクの期間において姿勢を維持し、定義アクション2の期間においてまた左腕を上下に振っている。
FIG. 3 is a diagram illustrating defined actions and lip-syncs that are successively executed by the
また、図3(c)の発話に示すように、リップシンクの期間には、コミュニケーション装置100は、「みぎての てんじぶつを ごらん ください」と発話している。
Further, as shown in the utterance of FIG. 3(c), during the lip sync period, the
図3(d)および図3(e)は、光アクションにおける光源101の発光波形を例示している。定義アクション1の期間の光源101の発光波形と、定義アクション2の期間の光源101の発光波形は、例えば、コミュニケーション装置100のアクションを作成するクリエイターによって設定される。また、リップシンクの期間における光源101の発光波形は、例えば、図2を参照して例示したように、発話の音声波形データの波形に基づいて生成することができる。
FIGS. 3(d) and 3(e) illustrate the light emission waveform of the
ここで、例えば、定義アクション1または定義アクション2の期間における光源101の発光の周期と、リップシンクの期間における光源101の発光の周期とが、図3(d)に示すように、区別可能な程度の大きさで異なっているとする。この場合、コミュニケーション装置100の視聴者は、定義アクションの期間と、リップシンクの期間との切り替えを認識することができる。その結果、視聴者は、リップシンクの期間の光源101の発光から発話内容がより理解しやすくなる。
Here, for example, the light emission period of the
しかしながら、例えば、定義アクション1または定義アクション2の期間における光源101の発光の周期と、リップシンクの期間における光源101の発光の周期とが、図3(e)に示すように、近いとする。この場合、コミュニケーション装置100の視聴者は、定義アクションの期間と、リップシンクの期間との切り替えを認識することが難しい。その結果、視聴者は、光源101の発光が、定義アクションにおける発光なのか、それともコミュニケーション装置100が話していることを表すリップシンクによる発光なのかが区別できなくなることがある。この場合、リップシンクによる視聴者の内容の理解を促す効果が得られなかったり、或いは、場合によっては、視聴者の理解を妨げてしまったりする恐れがある。そのため、クリエイターが生成する定義アクションのおける光源101の発光と、リップシンクによる光源101の発光とを識別可能に制御する技術の提供が望まれている。以下、第1の実施形態を説明する。
However, for example, it is assumed that the light emission period of the
(第1の実施形態)
図4は、実施形態に係るリップシンクの期間の光源101のアクションを生成する生成装置400のブロック構成を例示する図である。生成装置400は、例えば、クリエイターがコンテンツや定義アクションの生成に用いるパーソナルコンピュータ(PC)、モバイルPC、タブレット端末などの情報処理装置であってよい。生成装置400は、例えば、制御部401、および記憶部402を含む。制御部401は、例えば特定部411および調整部412などとして動作してよい。生成装置400の記憶部402は、例えば、後述するコンテンツ情報700などの情報を記憶している。これらの各部の詳細及び記憶部402に格納されている情報の詳細については後述する。
(First embodiment)
FIG. 4 is a diagram illustrating a block configuration of a
また、以下で述べる実施形態では、クリエイターが定義した定義アクションにおける光源101の発光と識別可能なリップシンクによる光源101の発光波形を生成する。
Further, in the embodiment described below, a light emission waveform of the
図5は、実施形態に係るリップシンクによる光源101の発光波形の生成の流れを例示する図である。
FIG. 5 is a diagram illustrating the flow of generation of the light emission waveform of the
ステップ501(以降、ステップを“S”と記載し、例えば、S501と表記する)において生成装置400の制御部401は、リップシンクの期間における発話のデータに基づいて、光アクションを生成する。例えば、生成装置400の制御部401は、図2で述べたように、発話の音声波形データに基づいてリップシンクの発光波形を生成してよい。
In step 501 (hereinafter, the step is written as "S", for example, S501), the
S502において、生成装置400の制御部401は、同じコンテンツのリップシンク以外の期間に含まれる定義アクションで定義される光源101の発光波形の周波数を分析する。例えば、生成装置400の制御部401は、リップシンクの期間と隣接している定義アクションの発光波形に含まれる周波数成分を分析してよい。
In S502, the
S503において生成装置400の制御部401は、例えば、定義アクションの分析結果に基づいて、リップシンクの期間における光源101の発光波形を制御する。例えば、制御部401は、リップシンクの期間と隣接している定義アクションにおける光源101の発光波形の周波数成分の主な成分とは区別可能な周波数となるように、リップシンクの発光波形を調整してよい。それにより、コミュニケーション装置100の視聴者が、クリエイターの作成した定義アクションと、リップシンクの期間との切り替わりを認識できずに、混同してしまうことを抑制することができる。
In S503, the
なお、リップシンクでは、音声強弱と大まかに対応している光の強度変化が見えていれば、視聴者は発話として認識する傾向がある。そのため、一部の周波数成分を用いなくても、リップシンクの期間における光源101の発光波形を生成することが可能である。
In lip-sync, if a change in light intensity roughly corresponding to the strength of the voice is visible, the viewer tends to recognize it as an utterance. Therefore, it is possible to generate the emission waveform of the
図6は、実施形態に係るリップシンクの期間における光源101の発光波形の調整を例示する図である。図6(a)は、例えば、図2(c)で音声波形データから生成した光源101の発光波形であり、例えば、人が光の強度変化を認識し易い0.3~6Hzなどの範囲の周波数成分を含んでいる。
FIG. 6 is a diagram illustrating adjustment of the emission waveform of the
図6(b)は、図6(a)の発光波形に含まれる周波数成分のうち、高周波数成分を抑制して得られた波形である。例えば、図6(b)の発光波形は、図6(a)の発光波形をローパスフィルタに通すことで得ることができる。ここで、ローパスフィルタにより、例えば、0.5~2Hz程度の周期で変化する成分が抽出されるとする。この場合にも、例えば、音声波形データにおいて0.5~2Hz程度で変化する成分には、発話の際に生じる声の強弱に応じた成分が含まれる傾向がある。そのため、ローパスフィルタで高周波数成分を抑制して得られた発光波形で光源101の発光を制御したとしても、視聴者には、声の強弱の変化に応じて光源101の発光強度が変化しているように見える。その結果、光源101の発光で、コミュニケーション装置100が話していると視聴者に錯覚させることができる。
FIG. 6(b) shows a waveform obtained by suppressing high frequency components among the frequency components included in the light emission waveform of FIG. 6(a). For example, the emission waveform of FIG. 6(b) can be obtained by passing the emission waveform of FIG. 6(a) through a low-pass filter. Here, it is assumed that a low-pass filter extracts a component that changes with a period of about 0.5 to 2 Hz, for example. Also in this case, for example, the components that change at about 0.5 to 2 Hz in the voice waveform data tend to include components corresponding to the strength of the voice that occurs during speech. Therefore, even if the light emission of the
また、図6(c)は、図6(a)の発光波形に含まれる周波数成分のうち、低周波数成分を抑制して得られた波形である。例えば、図6(c)の発光波形は、図6(a)の発光波形をハイパスフィルタに通すことで得ることができる。ここで、ハイパスフィルタにより、例えば、2~6Hz程度の周期で変化する成分が抽出されるとする。この場合にも、例えば、音声波形データにおいて2~6Hz程度の周期で変化する成分には、音声の1文字1文字の発話の際に生じる変化の成分が含まれる傾向がある。そのため、ハイパスフィルタで低周波数成分を抑制して得られた発光波形で光源101の発光を制御したとしても、視聴者には、文字の発声に応じて光源101の発光強度が変化しているように見える。その結果、光源101の発光で、コミュニケーション装置100が話していると視聴者に錯覚させることができる。
FIG. 6(c) is a waveform obtained by suppressing low frequency components among the frequency components included in the emission waveform of FIG. 6(a). For example, the emission waveform of FIG. 6(c) can be obtained by passing the emission waveform of FIG. 6(a) through a high-pass filter. Here, it is assumed that a high-pass filter extracts a component that changes with a period of about 2 to 6 Hz, for example. In this case as well, for example, the components that change at a cycle of about 2 to 6 Hz in the voice waveform data tend to include components that change when each character of voice is uttered. Therefore, even if the light emission of the
このように、リップシンクでは、音声波形に対して相関のある波形を抽出すれば、一部の周波数成分を除いても視聴者に発話していると認識させることが可能である。そのため、クリエイターが作成した定義アクションで利用されている光源101の発光波形の周波数成分を避けてリップシンクの期間における光源101の発光波形を生成することが可能である。
In this way, with lip-sync, if a waveform that is correlated with the voice waveform is extracted, it is possible to make the viewer recognize that the speaker is speaking even if some frequency components are removed. Therefore, it is possible to generate the light emission waveform of the
また、上述のように、人間が、光の強度変化を認識できるのは0.2Hz~50Hz程度の範囲が限界であるといわれている。そして、その中でも、人間が光の強度変化を認識し易い範囲は0.3~6Hzなど、ある程度制限されている。そのため、クリエイターが定義アクションで光源101の発光に用いる周波数も、リップシンクにおいて光源101の発光に用いる周波数も、どちらも同じ0.3~6Hzなどの範囲の周波数を用いる傾向がある。
Also, as described above, it is said that the range of 0.2 Hz to 50 Hz is the limit for human beings to perceive changes in the intensity of light. Among them, the range in which humans can easily recognize changes in light intensity is limited to some extent, such as 0.3 to 6 Hz. Therefore, both the frequency used for the light emission of the
しかしながら、クリエイターは、コミュニケーション装置100の動作を定義して定義アクションを作成する場合、定義アクションの用途に合わせた周期で光源101を発光させる傾向がある。例えば、コミュニケーション装置100に案内をさせる場合、クリエイターは、車両のウィンカーの点滅の周期を参考にすることがあり、その周期に近い周期で強度変化するように光アクションを生成することがある。また、例えば、クリエイターが、コミュニケーション装置100に音楽に合わせてダンスを踊らせる定義アクションを作成する場合、音楽のテンポに合わせて光アクションにおける発光の強度変化の周期を選択する傾向がある。
However, when a creator defines an operation of the
即ち、例えば、或る用途で流すコンテンツに含まれる定義アクションをクリエイターに自由に作成させたとしても、定義アクションで利用される光源101の発光波形に含まれる周波数成分には偏りがあることが多い。そのため、クリエイターが作成した定義アクションで利用されている光源101の発光波形の周波数成分を避けてリップシンクの期間における光源101の発光波形を生成することが可能である。
That is, for example, even if creators are allowed to freely create definition actions included in content to be streamed for a certain purpose, the frequency components included in the light emission waveform of the
そして、コンテンツに含まれる定義アクションで定義される光アクションの発光の周期と識別可能な周期に、リップシンクの期間の光アクションの発光の周期を調整することで、クリエイターによる定義アクションとリップシンクとの切り替えの識別が容易になる。 Then, by adjusting the light emission cycle of the light action during the lip sync period to a cycle that can be identified from the light action light emission cycle defined by the definition action included in the content, the definition action and the lip sync by the creator are adjusted. makes it easier to identify switching.
一例として、クリエイターが、定義アクションにおいて1Hz程度のゆっくりした周期で光源101を発光させる光アクションを作成したとする。この場合に、例えば、リップシンクの期間の光源101の発光波形において2Hz未満の周波数をフィルタリングし、2Hz以上の早い周期で光源101の発光強度を制御する。それにより、例えば、定義アクションとリップシンクの期間とで、切り替わり時に発光のリズムに差が生じるため、視聴者はクリエイターが定義した定義アクションの期間と、リップシンクの期間とを識別することができる。また、別な例では、クリエイターが、定義アクションにおいて3Hz程度のはやい周期で光源101を発行させる光アクションを作成したとする。この場合に、例えば、リップシンクの期間の光源101の発光波形において2Hz以上の周波数をフィルタリングし、2Hz未満の遅い周期で光源101の発光強度を制御する。それにより、例えば、定義アクションとリップシンクの期間とで、切り替わり時に発光のリズムに差が生じるため、視聴者はクリエイターが定義した定義アクションの期間と、リップシンクの期間とを識別することができる。
As an example, assume that the creator has created a light action that causes the
従って、リップシンクの期間を、クリエイターが作成した定義アクションの期間と視聴者が混同してしまうことを抑制することができる。 Therefore, it is possible to prevent the viewer from confusing the lip-sync period with the defined action period created by the creator.
以下、実施形態に係るリップシンクの期間における光アクションの生成について更に詳細に説明する。 The generation of light actions during lip-sync according to embodiments is described in more detail below.
図7は、実施形態に係るコンテンツ情報700を例示する図である。コンテンツ情報700には、コンテンツにおけるコミュニケーション装置100の動作が規定されている。コンテンツ情報700には、例えば、時間、発話、光アクション、関節角1、関節角2を対応づけたエントリが登録されている。時間は、例えば、コンテンツにおいてエントリの動作を実行する期間を示す情報である。発話は、例えば、コミュニケーション装置100に発話させる文字列が登録されている。なお、図7の例では、エントリと対応する動作期間においてコミュニケーション装置100が発話しない場合には、発話には「なし」が登録されている。光アクションには、エントリと対応する期間における光源101の発光を指定する情報が登録されている。なお、図7の例では、エントリと対応する動作期間においてコミュニケーション装置100が光源101を発光させない場合には、光アクションに「なし」が登録されている。また、エントリと対応する動作期間においてコミュニケーション装置100の光源101の発光を、リップシンクにより制御する場合には、コンテンツ情報700のエントリの発話には「リップシンク」が登録されている。
FIG. 7 is a diagram illustrating
関節角1および関節角2は、例えば、エントリと対応する動作期間におけるコミュニケーション装置100が備えるそれぞれの関節の角度を定義する情報である。なお、コミュニケーション装置100が備える関節は、関節角1および関節角2に限定されるものではなく、更に多くの関節を含んでもよいし、別の実施形態では、コミュニケーション装置100は関節を含まなくてもよい。以下で述べる実施形態では、例えば、関節角1は、コミュニケーション装置100と向かい合ってみた場合に視聴者から見て右側の腕関節の角度であり、また、関節角2は、左側の腕関節の角度である場合を例に説明を行う。
The joint angle 1 and the joint angle 2 are, for example, information defining angles of respective joints provided in the
そして、クリエイターは、コンテンツ情報700にコミュニケーション装置100の動作を定義することで、コミュニケーション装置100に様々な動作を行わせることができる。例えば、図7のコンテンツ情報700の例では、時刻が0秒から3秒まではクリエイターが定義した定義アクションの期間である。クリエイターは0秒から3秒の期間においてコミュニケーション装置100の発話の内容、光アクション、各関節角の角度などを設定することでコミュニケーション装置100の動作を定義することができる。また、図7の例では、3秒から8秒まではリップシンクの期間であり、クリエイターは、光アクションにリップシンクと設定することで、エントリの発話の文字列に応じた音声の波形に合わせて、光源101の発光を制御することができる。
By defining actions of the
続いて、図8は、実施形態に係るリップシンクによる光アクションの生成処理の動作フローを例示する図である。例えば、コミュニケーション装置100の制御部401は、コンテンツの動作の実行指示が入力されると、図8の動作フローを開始してよい。
Next, FIG. 8 is a diagram illustrating an operation flow of light action generation processing by lip sync according to the embodiment. For example, the
S801において制御部401は、実行指示が入力されたコンテンツの動作を規定するコンテンツ情報700を読み出す。
In S801, the
S802において制御部401は、読み出したコンテンツ情報700に含まれる発話の情報を参照し、リップシンクの期間における音声波形データを取得する。例えば、制御部401は、コンテンツ情報700の発話に登録されている文字列から、その文字列を発話した音声を合成して、音声波形データを取得してよい。或いは、別の実施形態では、例えば、コンテンツ情報700には、発話の文字列の代わりに、または発話の文字列に加えて、音声波形データが登録されていてもよい。この場合、制御部401は、S802の処理において、コンテンツ情報700からリップシンクの期間における音声波形データを読み出してよい。
In S802, the
S803において制御部401は、S802で生成した音声波形データから、リップシンクの期間における光源101の発光波形を生成する。制御部401は、例えば、音声波形データの振幅に応じて光源101の発光強度の波形を生成してよい。一例では、制御部401は、音声波形データの包絡線を求めることで、光源101の発光波形を生成してよい。なお、実施形態はこれに限定されるものではない。別の実施形態では制御部401は、リップシンクで利用する所定の周波数帯域(例えば、0.3~6Hz)の成分を通過させる帯域通過フィルタで音声波形データを処理し、得られた波形の信号値に比例した光源101の発光強度を有する発光波形を生成してよい。また、更に別の実施形態では、比例ではなく指数関数を用いてもよく、或いは、発光強度が所定値を超える場合には、所定値に発光強度を制限する関数などの変換関数を用いて光源101の発光波形を生成してもよい。
In S803, the
S804において制御部401は、コンテンツ情報700に含まれるリップシンク以外の期間における光源101の発光波形の周波数成分を分析する。制御部401は、一例では、コンテンツ情報700に登録されているリップシンク以外の期間での光源101の発光波形の周波数成分をFFT(fast Fourier transform)を用いて分析してよい。なお、周波数成分の分析は、これに限定されるものではなく、その他の手法が用いられてもよい。
In S<b>804 , the
S805において制御部401は、分析結果に基づいて、リップシンク以外の期間における光源101の発光波形の周波数成分に所定の条件を満たす偏りがあるか否かを判定する。一例では、制御部401は、リップシンク以外の期間における光源101の発光波形に含まれる周波数成分が形成する帯域を特定する。そして、制御部401は、その帯域が、任意の周波数に対して±20%で表すことが可能な範囲内に収まるか(例えば、1.0Hz±0.2Hz、2.0Hz±0.4Hz等)によって周波数成分に偏りがあるか否かを判断してよい。また、制御部401は、リップシンク以外の期間での光源101の発光波形に含まれる周波数成分が形成する帯域を特定する際に、所定の強度(例えば、最大ピークの30%の強度)以上の周波数成分を抽出してから帯域を特定してもよい。
In S805, the
そして、リップシンク以外の期間における光源101の発光波形に含まれる周波数成分が形成する帯域が、任意の周波数に対して±20%で表すことが可能な範囲を超えた幅を有する場合、制御部401は、帯域に偏りがないと判定してよい。この場合、リップシンク以外の期間における光源101の発光波形に含まれる周波数成分が、光アクションで利用される0.3~6Hzなどの所定の周波数範囲において、広範に分布していることを示している。この場合、リップシンクの発光周波数を、リップシンク以外の期間の周波数と混同を避けるように設定することが難しいことがある。そのため、制御部401は、S805でNOと判定してよく、S806で、コンテンツでの利用周波数を偏らせるように修正を促す警告情報を出力し、本動作フローは終了する。
Then, when the band formed by the frequency components included in the light emission waveform of the
一方、例えば、リップシンク以外の期間における光源101の発光波形に含まれる周波数成分が形成する帯域が、任意の周波数に対して±20%で表すことが可能な範囲に収まる幅で分布しているとする。この場合、リップシンク以外の期間の光源101の発光波形に含まれる周波数成分に偏りがあり、リップシンクの期間の光アクションの周波数を、リップシンク以外の期間における光源101の発光波形に含まれる周波数成分を避けて設定することが可能である。そのため、制御部401は、S805でYESと判定してよく、フローはS807に進む。なお、S805における偏りの判定は、これに限定されるものではなく、その他の手法で実行されてもよい。例えば、偏りを判定するために用いる周波数範囲の幅は、±20%に限定されるものではなく、±5%から±50%などその他の範囲に設定されてもよい。また、偏りの判定に用いる周波数の幅は、%(パーセント)で表されなくてもよく、例えば、0.5~2.0Hzなど、所定の幅で偏りの判定が実行されてもよい。
On the other hand, for example, the band formed by the frequency components included in the light emission waveform of the
S807において制御部401は、リップシンク以外の期間における光源101の発光波形を代表する代表周波数成分を特定する。一例では、制御部401は、リップシンク以外の期間における光源101の発光波形の周波数成分のうち、最大ピークの周波数をリップシンク以外の期間における光源101の発光波形を代表する代表周波数成分として特定してよい。
In S807, the
なお、代表周波数成分の特定は、これに限定されるものではなく、その他の手法で決定されてもよい。例えば、別の実施形態では、制御部401は、リップシンク以外の期間における光源101の発光波形の周波数成分をエネルギーの高い周波数成分順にソートする。そして、制御部401は、エネルギーの値が上位30%に入る周波数成分の周波数の平均値を、代表周波数成分として特定してよい。また、平均値の算出の際には、エネルギーの値で重みづけをした重みづけ平均を用いてもよい。更に別の実施形態では、制御部401は、リップシンク以外の期間における光源101の発光波形の周波数成分をエネルギーの高い周波数成分順にソートし、エネルギーの値が上位30%に入る成分が形成する周波数帯域を代表周波数成分として特定してもよい。
Note that the identification of the representative frequency component is not limited to this, and may be determined by other methods. For example, in another embodiment, the
S808において制御部401は、代表周波数成分に基づいて、リップシンクの期間における光源101の発光波形において抑制する抑制対象の周波数成分を決定し、決定した抑制対象の周波数成分を抑制する。例えば、S807で代表周波数成分として1つの周波数を特定した場合、制御部401は、代表周波数成分のプラスおよびマイナス方向に所定の幅(例えば、±0.2Hz、代表する周波数×0.1Hzの幅など)の帯域を抑制対象の周波数成分として決定する。そして、制御部401は、リップシンクの期間における光源101の発光波形のうちで、抑制対象の周波数成分を減衰させる。また、減衰の強度は、減衰帯域において10~50%の通過利得に設定されてよい。一例では、減衰の強度は、抑制対象の周波数成分で形成される減衰帯域において30%の通過利得、および減衰帯域の中心の周波数において20%の通過利得に設定されてよい。
In step S<b>808 , the
また、例えば、代表周波数成分として、S807で周波数帯域が特定された場合には、制御部401は、代表周波数成分を抑制対象の周波数帯域とし、抑制対象の周波数帯域を50~10%の通過利得で減衰させてよい。一例では、制御部401は、抑制対象の周波数帯域を30%の通過利得で減衰させる。
Further, for example, when the frequency band is specified in S807 as the representative frequency component, the
また、減衰に用いる帯域通過フィルタは、様々な方式で実装することができる。一例では、帯域通過フィルタは、光源101の発光波形をFFTして、対象の周波数成分を減衰させた後、IFFT(inverse fast Fourier transform)により減衰後の発光波形データを取得することで実装されてよい。或いは、帯域通過フィルタは、FIR(Finite Impulse Response)フィルタ等の実空間のフィルタを用いて近似的に実装されてもよい。
Also, the bandpass filters used for attenuation can be implemented in various ways. In one example, the bandpass filter is implemented by performing an FFT on the emission waveform of the
S809において制御部401は、取得した減衰後の発光波形のデータをリップシンクの期間における光アクションのデータとして記憶部402に保存し、本動作フローは終了する。一例では、制御部401は、コンテンツ情報700の発話がリップシンクに設定されているエントリと対応づけて減衰後の発光波形データを記憶部402に保存してよい。
In S<b>809 , the
以上で述べたように、図8の動作フローによれば、制御部401は、クリエイターにより定義された定義アクションの期間における光源101の発光と区別可能に、リップシンクの期間の光アクションを生成することができる。
As described above, according to the operation flow of FIG. 8, the
(変形例1)
続いて、第1の実施形態の変形例を説明する。上述の実施形態では、例えば、S804~S807の処理で、コンテンツに含まれるリップシンク以外の期間における光アクションの周波数を用いて、偏りの判定や、抑制対象の周波数成分の決定を行っている。しかしながら、実施形態はこれに限定されるものではない。例えば、クリエイターが定義した光アクションと、リップシンクによる光アクションとの混同を防ぐには、切り替わりの前後において周波数を異ならせれば十分なことがある。そのため、変形例では、制御部401は、クリエイターが定義した光アクションのうちで、切り替わりの時点から所定期間内にある光アクションの周波数成分を用いて、偏りの判定や、抑制対象の周波数成分の決定を行う。
(Modification 1)
Next, a modified example of the first embodiment will be described. In the above-described embodiment, for example, in the processing of S804 to S807, the frequency of the light action in the period other than the lip-sync period included in the content is used to determine the bias and determine the frequency component to be suppressed. However, embodiments are not so limited. For example, different frequencies before and after a switch may be sufficient to prevent confusion between creator-defined light actions and lip-sync light actions. Therefore, in the modified example, the
図9は、実施形態に係る所定期間の光アクションに基づいて、偏りの判定や、抑制対象の周波数成分の決定を行う例を示す図である。例えば、制御部401は、図9(a)に示すように、リップシンクの前に隣接するクリエイターが定義した光アクションにおいて、リップシンクに切り替わる直前の所定期間の波形を取得する。そして、制御部401は、取得した所定期間の波形の周波数成分に基づいて、偏りの判定や、抑制対象の周波数成分の決定を行ってよい。
FIG. 9 is a diagram illustrating an example of determination of bias and determination of frequency components to be suppressed based on light actions for a predetermined period according to the embodiment. For example, as shown in FIG. 9A, the
また、制御部401は、図9(b)に示すように、リップシンクの後に隣接するクリエイターが定義した光アクションにおいて、リップシンクから切り替わった直後の所定期間の波形を取得する。そして、制御部401は、取得した所定期間の波形の周波数成分に基づいて、偏りの判定や、抑制対象の周波数成分の決定を行ってよい。
In addition, as shown in FIG. 9B, the
更には、制御部401は、例えば、図9(c)に示すように、リップシンクの前後に隣接するクリエイターが定義した光アクションと、リップシンクとの切り替わり時点から所定期間にあるクリエイターが定義した光アクションの波形を取得する。そして、制御部401は、取得した所定期間の波形の周波数成分に基づいて、偏りの判定や、抑制対象の周波数成分の決定を行ってよい。
Furthermore, for example, as shown in FIG. 9C, the
以上のように、制御部401は、上述のS804において所定期間の光源101の発光波形を取得し、周波数を分析してよい。そして、S805では、制御部401は、抽出した所定期間の光源101の発光波形の周波数成分に偏りがあるか否かを判定してよい。また、S807およびS808において制御部401は、抽出した所定期間の光源101の発光波形の周波数成分に基づいて代表周波数成分を特定し、特定した代表周波数成分から抑制対象の周波数成分を決定してよい。一例では、制御部401は、抽出した所定期間の光源101の発光波形の周波数成分のうち、最大ピークの周波数を代表周波数成分として特定してよい。
As described above, the
例えば、以上のように、切り替わりから所定期間にあるクリエイターが定義した光アクションの発光波形を用いることで、クリエイターが定義した光アクションとリップシンクによる光アクションとの混同を効率的に抑制することができる。また、クリエイターは、所定期間以外の期間において自由に光源101の発光波形を設定して光アクションを生成することができる。
For example, as described above, by using the light emission waveform of the light action defined by the creator in a predetermined period after switching, confusion between the light action defined by the creator and the light action by lip sync can be efficiently suppressed. can. In addition, the creator can freely set the light emission waveform of the
(変形例2)
続いて、第1の実施形態の別の変形例を説明する。上述のように、例えば、クリエイターが定義した光アクションと、リップシンクによる光アクションとの混同を防ぐには、切り替わりの前後において周波数を異ならせれば十分なことがある。そのため、以下の変形例では、制御部401は、S808の処理でクリエイターが定義した光アクションとリップシンクによる光アクションとの切り替わりの時点では、抑制対象の周波数成分の減衰強度を強くし、それ以外の期間では弱くするように制御する。
(Modification 2)
Next, another modified example of the first embodiment will be described. As noted above, it may be sufficient to have different frequencies before and after the switch to prevent confusion between, for example, creator-defined light actions and lip-sync light actions. Therefore, in the following modified example, the
図10は、変形例に係る抑制対象の周波数成分の抑制制御を例示する図である。図10は、縦軸にフィルタの制御強度をとり、横軸にリップシンクにおける経過時間をとったグラフである。図10に示す例では、リップシンクの開始時と終了時において、フィルタの制御強度を100%としている。 FIG. 10 is a diagram illustrating suppression control of suppression target frequency components according to the modification. FIG. 10 is a graph in which the vertical axis represents the control strength of the filter and the horizontal axis represents the elapsed time in lip sync. In the example shown in FIG. 10, the filter control strength is 100% at the start and end of lip-sync.
また、図10の例では、リップシンクの開始時からの経過時間に応じてフィルタ強度を下げており、所定時間経過後に0%としている。また、図10の例では、リップシンクの終了時から所定時間前においてフィルタ強度を0%としており、そこから終了時間までの期間でフィルタ強度を徐々に上げている。 Further, in the example of FIG. 10, the filter strength is lowered according to the elapsed time from the start of the lip-sync, and is set to 0% after the elapse of a predetermined time. In the example of FIG. 10, the filter strength is set to 0% a predetermined time before the end of the lip-sync, and the filter strength is gradually increased during the period from then until the end time.
このようなフィルタの強度の制御は、例えば、以下により実行することができる。例えば、リップシンクへの切り替わりからの経過時間をT1とする。また、リップシンクの開始から終了までにかかる発話の所要時間は、例えば、発話の文字列などから見積もることができる。そして、リップシンクの残り時間は、発話の所要時間から経過時間:T1を差し引くことで求めることができ、この残り時間をT2とする。この場合に、フィルタの制御強度は、T1およびT2のいずれかが小さな場合に強くすればよい。例えば、T1およびT2のうちの小さい方の時間をTとし、フィルタの強度の制御を行う所定時間の長さを10秒とした場合、フィルタ強度は以下の式1で設定することができる。
(10-T)/10×100[%] ・・・式1
Controlling the strength of such filters can be performed, for example, by: For example, the elapsed time from switching to lip sync is assumed to be T1. Also, the time required for speech from the start to the end of lip-sync can be estimated from, for example, the character string of the speech. The remaining time of lip-sync can be obtained by subtracting the elapsed time: T1 from the time required for speech, and this remaining time is T2. In this case, the filter control strength should be increased when either T1 or T2 is small. For example, if the smaller one of T1 and T2 is T, and the predetermined length of time for controlling the strength of the filter is 10 seconds, the filter strength can be set by Equation 1 below.
(10−T)/10×100 [%] Formula 1
この場合、Tが10秒以上ではフィルタの制御強度は0%となり、また、Tが10以下の値である場合、Tが小さくなるにつれてフィルタの制御強度を強くすることができる。なお、フィルタの制御強度:100%では、例えば、S808で抑制対象の周波数帯域を30%の通過利得に設定している場合、制御部401は、30%に対してフィルタの制御強度を100%とし、30%の通過利得でフィルタを動作させてよい。また、制御部401は、フィルタの制御強度:50%では、30%に対してフィルタの制御強度を50%とし、15%の通過利得でフィルタを動作させてよい。
In this case, when T is 10 seconds or more, the filter control strength is 0%, and when T is a value of 10 or less, the filter control strength can be increased as T becomes smaller. Note that when the filter control strength is 100%, for example, if the frequency band to be suppressed is set to a pass gain of 30% in S808, the
例えば、以上で述べたように、フィルタをかける期間や強度を制御することで、リップシンクの期間においても、フィルタの強度を弱くしている期間では発話に応じて光源101を幅広い表現で発光させることができる。
For example, as described above, by controlling the period and intensity of filtering, the
また、例えば、図9(c)で例示するように、リップシンクの前後のクリエイターの光アクションでリップシンクの期間における光源101の発光波形を制御する場合に、前と後のクリエイターの光アクションで使用している周波数が異なることもある。この場合、リップシンクの開始時に減衰させる周波数をリップシンクの前のクリエイターの光アクションから決定し、リップシンクの終了時に減衰させる周波数をリップシンクの後のクリエイターの光アクションから決定するというように、個別に決定してもよい。また、このようにリップシンクの開始時と終了時とで減衰させる周波数を個別に決定したとしても、図10で述べたように、例えば、フィルタの制御強度を0%にするなど一旦弱めることで、減衰させる周波数が変わっても視聴者の違和感を抑えることができる。
Further, for example, as illustrated in FIG. 9C, when controlling the light emission waveform of the
(第2の実施形態)
続いて、第2の実施形態を説明する。上述の実施形態では、クリエイターがコンテンツを生成する際などに、コンテンツの生成に用いるコンピュータなどの情報処理装置を生成装置400として、リップシンクにおける光アクションの生成処理が実行される場合を例示している。しかしながら、実施形態はこれに限定されるものではなく、実施形態に係るリップシンクにおける光アクションの生成処理は、その他のタイミングおよびその他の装置において実行されてもよい。一例では、実施形態に係るリップシンクにおける光アクションの生成処理は、コミュニケーション装置100において実行されてもよい。
(Second embodiment)
Next, a second embodiment will be described. In the above-described embodiment, when a creator generates content, an information processing device such as a computer used for content generation is used as the
図11は、実施形態に係るコミュニケーション装置100のブロック構成を例示する図である。コミュニケーション装置100は、例えば、制御部1101、記憶部1102、光源制御部1103、および光源101を含む。制御部1101は、例えば特定部1111および調整部1112などを含む。コミュニケーション装置100の記憶部1102は、例えば、上述のコンテンツ情報700などの情報を記憶している。光源制御部1103は、例えば、制御部1101の指示に従って、光源101の発光強度を制御する。
FIG. 11 is a diagram illustrating the block configuration of the
図12は、実施形態に係るコミュニケーション装置100の制御部1101が実行するリップシンクにおける光アクションの生成処理の動作フローを例示する図である。例えば、コミュニケーション装置100の制御部1101は、コンテンツの動作の実行指示が入力されると、図12の動作フローを開始してよい。
FIG. 12 is a diagram illustrating an operational flow of light action generation processing in lip-sync performed by the
なお、S1201からS1207の処理は、図8のS801からS804、S807、およびS808の処理とそれぞれ対応していてよい。例えば、制御部1101は、S1201からS1207において、S801からS804、S807、およびS808の処理と同様の処理を実行してよい。なお、制御部1101は、S1201においてコンテンツ情報700を記憶部1102から読み出してよい。
Note that the processing from S1201 to S1207 may correspond to the processing from S801 to S804, S807, and S808 in FIG. 8, respectively. For example, in S1201 to S1207, the
S1208において制御部1101は、S1201からS1207の処理で決定されたリップシンクの期間における光源101の発光波形を用いて、コンテンツの動作を実行し、本動作フローは終了する。
In S1208, the
以上で述べたように、実施形態に係るリップシンクの期間における光源101の発光制御は、コミュニケーション装置100において実行することもできる。
As described above, the light emission control of the
なお、コミュニケーション装置100がコンテンツの中で実行する動作は、動的に生成されることもある。例えば、コミュニケーション装置100が、センサで検出した視聴者の年齢や性別に応じて、コンテンツで実行するアクションの内容を動的に選択することがある。一例として、視聴者が小学生などの子供である場合、「今日は、小学生がたくさん来てくれたね。僕と一緒に踊ろうよ!」などのアップテンポで元気なコンテンツを流し、一方、視聴者が高齢者である場合、比較的落ち着いたコンテンツを流すといった制御を行うことがある。このように、例えば、コンテンツが動的に生成される場合にも、生成されたコンテンツに対して、制御部1101は、実施形態に係るリップシンクにおける光アクションの生成処理を実行してリップシンクの期間の光源101の発光を制御してよい。
Note that the action that the
以上において、実施形態を例示したが、実施形態はこれに限定されるものではない。例えば、上述の動作フローは例示であり、実施形態はこれに限定されるものではない。可能な場合には、動作フローは、処理の順番を変更して実行されてもよく、別に更なる処理を含んでもよく、又は、一部の処理が省略されてもよい。例えば、図8においてS805とS806の処理は、クリエイターに修正を促さない場合には、省略されてもよい。 Although the embodiment has been exemplified above, the embodiment is not limited to this. For example, the operational flow described above is an example, and embodiments are not limited thereto. If possible, the operation flow may be executed by changing the order of the processes, may include additional processes, or may omit some of the processes. For example, the processing of S805 and S806 in FIG. 8 may be omitted if the creator is not prompted to make corrections.
また、上述の実施形態では、コミュニケーション装置100がロボットである場合を例に説明を行っているが、実施形態はこれに限定されるものではない。例えば、別の実施形態では、スピーカと光源を含み、視聴者とのコミュニケーションを行うコミュニケーション装置100において、実施形態が適用されてもよい。即ち、例えば、コミュニケーション装置100は、腕などの稼働する関節を含まなくてもよく、その場合、コンテンツ情報700は、関節角の情報を含まなくてもよい。また、上述の実施形態において、光源101の発光強度の制御には、例えば、パルス幅変調が用いられてもよい。
Further, in the above-described embodiment, the case where the
なお、上述の実施形態において、図8のS801~S807までの処理では、生成装置400の制御部401は、例えば、特定部411として動作する。また、S808の処理では、生成装置400の制御部401は、例えば、調整部412として動作する。図12のS1201~S1206までの処理では、コミュニケーション装置100の制御部1101は、例えば、特定部1111として動作する。また、S1207の処理では、コミュニケーション装置100の制御部1101は、例えば、調整部1112として動作する。
Note that in the above-described embodiment, the
図13は、実施形態に係る生成装置400を実現するための例えばコンピュータなどの情報処理装置1300のハードウェア構成を例示する図である。図13の生成装置400を実現するためのハードウェア構成は、例えば、プロセッサ1301、メモリ1302、記憶装置1303、読取装置1304、通信インタフェース1306、及び入出力インタフェース1307を備える。なお、プロセッサ1301、メモリ1302、記憶装置1303、読取装置1304、通信インタフェース1306、入出力インタフェース1307は、例えば、バス1308を介して互いに接続されている。
FIG. 13 is a diagram illustrating a hardware configuration of an
プロセッサ1301は、例えば、シングルプロセッサであっても、マルチプロセッサやマルチコアであってもよい。プロセッサ1301は、メモリ1302を利用して例えば上述の図8の動作フローの手順を記述したプログラムを実行することにより、上述した制御部401の一部または全部の機能を提供する。例えば、生成装置400のプロセッサ1301は、記憶装置1303に記憶されているプログラムを読み出して実行することで、上述の特定部411および調整部412として動作してよい。
The
メモリ1302は、例えば半導体メモリであり、RAM領域及びROM領域を含んでいてよい。記憶装置1303は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、又は外部記憶装置である。なお、RAMは、Random Access Memoryの略称である。また、ROMは、Read Only Memoryの略称である。
The
読取装置1304は、プロセッサ1301の指示に従って着脱可能記憶媒体1305にアクセスする。着脱可能記憶媒体1305は、例えば、半導体デバイス(USBメモリ等)、磁気的作用により情報が入出力される媒体(磁気ディスク等)、光学的作用により情報が入出力される媒体(CD-ROM、DVD等)などにより実現される。なお、USBは、Universal Serial Busの略称である。CDは、Compact Discの略称である。DVDは、Digital Versatile Diskの略称である。上述の記憶部402は、例えばメモリ1302、記憶装置1303、及び着脱可能記憶媒体1305を含んでいる。例えば、生成装置400の記憶装置1303には、コンテンツ情報700が格納されていてよい。
通信インタフェース1306は、プロセッサ1301の指示に従ってネットワークや他の装置とデータを送受信する。入出力インタフェース1307は、例えば、入力装置及び出力装置との間のインタフェースであってよい。入力装置は、例えばユーザからの指示を受け付けるキーボードやマウスなどのデバイスである。出力装置は、例えばディスプレーなどの表示装置、及びスピーカなどの音声装置である。
また、図14は、実施形態に係るコミュニケーション装置100を実現するためのハードウェア構成を例示する図である。図14のコミュニケーション装置100を実現するためのハードウェア構成は、情報処理装置1400、音出力装置1409、光源制御回路1411、光源101、駆動制御回路1421、および駆動回路1422を含む。情報処理装置1400は、例えば、プロセッサ1401、メモリ1402、通信インタフェース1406、及び入出力インタフェース1407を備える。なお、プロセッサ1401、メモリ1402、通信インタフェース1406、入出力インタフェース1407は、例えば、バス1408を介して互いに接続されている。
Also, FIG. 14 is a diagram illustrating a hardware configuration for realizing the
プロセッサ1401は、例えば、シングルプロセッサであっても、マルチプロセッサやマルチコアであってもよい。プロセッサ1401は、メモリ1402を利用して例えば上述の図12の動作フローの手順を記述したプログラムを実行することにより、上述した制御部1101の一部または全部の機能を提供する。例えば、コミュニケーション装置100のプロセッサ1401は、メモリ1402に記憶されているプログラムを読み出して実行することで、上述の特定部1111および調整部1112として動作してよい。
The
メモリ1402は、例えば半導体メモリであり、RAM領域及びROM領域を含んでいてよい。メモリ1402は、例えば、上述の記憶部1102の一例である。例えば、コミュニケーション装置100のメモリ1402には、コンテンツ情報700が格納されていてよい。
The
通信インタフェース1406は、プロセッサ1401の指示に従ってネットワークや他の装置とデータを送受信する。入出力インタフェース1407は、例えば、入力装置及び出力装置との間のインタフェースであってよい。入出力インタフェース1407には、例えば、スピーカなどの音出力装置1409が接続されている。音出力装置1409は、例えば、プロセッサ1401の指示に従って、コンテンツ情報700の発話に登録されている文字列を発話した音声を出力してよい。また、入力装置は、例えばユーザからの指示を受け付けるボタンやタッチパネルなどのデバイスであってよい。
また、光源制御回路1411は、プロセッサ1401の指示に従って、LEDなどの光源101の発光を制御する。光源制御回路1411は、上述の光源制御部1103の一例である。駆動制御回路1421は、プロセッサ1401の指示に従って、モータなどのコミュニケーション装置100の関節を駆動する駆動回路1422を制御する。なお、図14のハードウェア構成が、ロボットではなく、スマートスピーカなどのハードウェア構成である場合には、例えば、駆動制御回路1421と、駆動回路1422とは、省略されてもよい。
Also, the light
実施形態に係る各プログラムは、例えば、下記の形態で生成装置400、およびコミュニケーション装置100に提供される。
(1)記憶装置1303、およびメモリ1402に予めインストールされている。
(2)着脱可能記憶媒体1305により提供される。
(3)プログラムサーバなどのサーバから提供される。
Each program according to the embodiment is provided to the
(1) It is pre-installed in the
(2) provided by removable storage medium 1305;
(3) provided by a server such as a program server;
なお、図13および図14を参照して述べたハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の制御部401および制御部1101の一部または全部の機能がFPGA及びSoCなどによるハードウェアとして実装されてもよい。なお、FPGAは、Field Programmable Gate Arrayの略称である。SoCは、System-on-a-chipの略称である。
Note that the hardware configuration described with reference to FIGS. 13 and 14 is an example, and the embodiment is not limited to this. For example, some or all of the functions of the
以上において、いくつかの実施形態が説明される。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態及び代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨及び範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態が実施され得ることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して又は置換して、或いは実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。 Several embodiments are described above. However, it should be understood that the embodiments are not limited to the embodiments described above, but encompass various variations and alternatives of the embodiments described above. For example, it will be appreciated that various embodiments may be embodied with varying elements without departing from the spirit and scope thereof. Also, it will be understood that various embodiments can be implemented by appropriately combining a plurality of constituent elements disclosed in the above-described embodiments. Furthermore, various embodiments can be implemented by deleting or replacing some components from all the components shown in the embodiments, or by adding some components to the components shown in the embodiments. It will be understood by those skilled in the art that
100 :コミュニケーション装置
101 :光源
400 :生成装置
401 :制御部
402 :記憶部
411 :特定部
412 :調整部
1101 :制御部
1102 :記憶部
1103 :光源制御部
1111 :特定部
1112 :調整部
1300 :情報処理装置
1301 :プロセッサ
1302 :メモリ
1303 :記憶装置
1304 :読取装置
1305 :着脱可能記憶媒体
1306 :通信インタフェース
1307 :入出力インタフェース
1308 :バス
1400 :情報処理装置
1401 :プロセッサ
1402 :メモリ
1406 :通信インタフェース
1407 :入出力インタフェース
1408 :バス
1409 :音出力装置
1411 :光源制御回路
1421 :駆動制御回路
1422 :駆動回路
100: communication device 101: light source 400: generation device 401: control unit 402: storage unit 411: identification unit 412: adjustment unit 1101: control unit 1102: storage unit 1103: light source control unit 1111: identification unit 1112: adjustment unit 1300: Information processing device 1301 : Processor 1302 : Memory 1303 : Storage device 1304 : Reading device 1305 : Removable storage medium 1306 : Communication interface 1307 : Input/output interface 1308 : Bus 1400 : Information processing device 1401 : Processor 1402 : Memory 1406 : Communication interface 1407: input/output interface 1408: bus 1409: sound output device 1411: light source control circuit 1421: drive control circuit 1422: drive circuit
Claims (11)
前記リップシンクアクションにおける前記光源の発光波形で使用する周波数を、前記代表周波数成分とは区別可能な周波数に調整する調整部と、
を含む、情報処理装置。 Analyzing the frequency components of the light emission waveform in the definition action of content including a defined action of emitting light with a defined light emission waveform and a lip-sync action of causing the light source to emit light in response to an uttered voice, an identifying unit that identifies a representative frequency component that represents an emission waveform;
an adjustment unit that adjusts the frequency used in the light emission waveform of the light source in the lip sync action to a frequency distinguishable from the representative frequency component;
An information processing device, including
前記代表周波数成分に基づいて、前記代表周波数成分を含む抑制対象の周波数成分を決定し、
前記発話される音声に応じて生成された前記光源の発光波形に含まれる周波数成分のうちで、前記抑制対象の周波数成分を減衰させて、前記リップシンクアクションにおける前記光源の発光波形を生成する、
ことを特徴とする、請求項1に記載の情報処理装置。 The adjustment unit
Based on the representative frequency component, a frequency component to be suppressed including the representative frequency component is determined;
generating a light emission waveform of the light source in the lip sync action by attenuating the frequency component to be suppressed among the frequency components included in the light emission waveform of the light source generated in response to the uttered voice;
2. The information processing apparatus according to claim 1, characterized by:
ことを特徴とする請求項2または請求項3に記載の情報処理装置。 The specifying unit emits light of the first defined action within a predetermined period from timing of switching between a first defined action executed immediately before the lip sync action and the lip sync action among the defined actions. identifying the representative frequency component based on the waveform;
4. The information processing apparatus according to claim 2, wherein:
ことを特徴とする請求項3に記載の情報処理装置。 The specifying unit emits light of the first defined action within a predetermined period from timing of switching between a first defined action executed immediately before the lip sync action and the lip sync action among the defined actions. Based on the waveform, determine whether there is a bias that satisfies the predetermined condition;
4. The information processing apparatus according to claim 3, characterized by:
ことを特徴とする請求項2から請求項4のいずれか1項に記載の情報処理装置。 The specifying unit emits light of the second defined action within a predetermined period from timing of switching between the second defined action executed immediately after the lip sync action and the lip sync action among the defined actions. identifying the representative frequency component based on the waveform;
5. The information processing apparatus according to any one of claims 2 to 4, characterized by:
ことを特徴とする請求項3に記載の情報処理装置。 The specifying unit emits light of the second defined action within a predetermined period from timing of switching between the second defined action executed immediately after the lip sync action and the lip sync action among the defined actions. Based on the waveform, determine whether there is a bias that satisfies the predetermined condition;
4. The information processing apparatus according to claim 3, characterized by:
前記リップシンクアクションにおける前記光源の発光波形で使用する周波数を、前記代表周波数成分とは区別可能な周波数に調整する、
ことを含む、情報処理装置が実行する光アクション生成方法。 Analyzing the frequency components of the light emission waveform in the definition action of content including a defined action of emitting light with a defined light emission waveform and a lip-sync action of causing the light source to emit light in response to an uttered voice, Identify a representative frequency component that represents the light emission waveform,
Adjusting the frequency used in the light emission waveform of the light source in the lip sync action to a frequency distinguishable from the representative frequency component;
A light action generation method executed by an information processing device, comprising:
前記リップシンクアクションにおける前記光源の発光波形で使用する周波数を、前記代表周波数成分とは区別可能な周波数に調整する、
処理を情報処理装置に実行させる光アクション生成プログラム。 Analyzing the frequency components of the light emission waveform in the definition action of content including a defined action of emitting light with a defined light emission waveform and a lip-sync action of causing the light source to emit light in response to an uttered voice, Identify a representative frequency component that represents the light emission waveform,
Adjusting the frequency used in the light emission waveform of the light source in the lip sync action to a frequency distinguishable from the representative frequency component;
A light action generation program that causes an information processing device to execute processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019065702A JP7156138B2 (en) | 2019-03-29 | 2019-03-29 | Information processing device, light action generation method, and light action generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019065702A JP7156138B2 (en) | 2019-03-29 | 2019-03-29 | Information processing device, light action generation method, and light action generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020166500A JP2020166500A (en) | 2020-10-08 |
JP7156138B2 true JP7156138B2 (en) | 2022-10-19 |
Family
ID=72716208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019065702A Active JP7156138B2 (en) | 2019-03-29 | 2019-03-29 | Information processing device, light action generation method, and light action generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7156138B2 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005251452A (en) | 2004-03-02 | 2005-09-15 | Japan Radio Co Ltd | Light emission control system |
JP2007061475A (en) | 2005-09-01 | 2007-03-15 | Daiichi Shokai Co Ltd | Game machine |
JP2015036912A (en) | 2013-08-14 | 2015-02-23 | 株式会社ニコン | Image reproduction device and camera |
WO2015186445A1 (en) | 2014-06-03 | 2015-12-10 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2017173547A (en) | 2016-03-23 | 2017-09-28 | カシオ計算機株式会社 | Robot control device, robot, robot control method, robot control system and program |
JP2018074410A (en) | 2016-10-31 | 2018-05-10 | シャープ株式会社 | Optical output system |
JP2018174952A (en) | 2017-04-03 | 2018-11-15 | 株式会社ユニバーサルエンターテインメント | Light emission mode setting device and game machine |
-
2019
- 2019-03-29 JP JP2019065702A patent/JP7156138B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005251452A (en) | 2004-03-02 | 2005-09-15 | Japan Radio Co Ltd | Light emission control system |
JP2007061475A (en) | 2005-09-01 | 2007-03-15 | Daiichi Shokai Co Ltd | Game machine |
JP2015036912A (en) | 2013-08-14 | 2015-02-23 | 株式会社ニコン | Image reproduction device and camera |
WO2015186445A1 (en) | 2014-06-03 | 2015-12-10 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2017173547A (en) | 2016-03-23 | 2017-09-28 | カシオ計算機株式会社 | Robot control device, robot, robot control method, robot control system and program |
JP2018074410A (en) | 2016-10-31 | 2018-05-10 | シャープ株式会社 | Optical output system |
US20190199958A1 (en) | 2016-10-31 | 2019-06-27 | Sharp Kabushiki Kaisha | Light output system |
JP2018174952A (en) | 2017-04-03 | 2018-11-15 | 株式会社ユニバーサルエンターテインメント | Light emission mode setting device and game machine |
Also Published As
Publication number | Publication date |
---|---|
JP2020166500A (en) | 2020-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10964179B2 (en) | Vibrotactile control systems and methods | |
JP6734623B2 (en) | System and method for generating haptic effects related to audio signals | |
JP4467601B2 (en) | Beat enhancement device, audio output device, electronic device, and beat output method | |
JP2012027186A (en) | Sound signal processing apparatus, sound signal processing method and program | |
TW201434600A (en) | Robot for generating body motion corresponding to sound signal | |
CN112512649B (en) | Techniques for providing audio and video effects | |
JP2017162119A (en) | Device, program and information processing method | |
KR102614038B1 (en) | Sequential activity intelligent personal assistant | |
GB2582991A (en) | Audio generation system and method | |
US20030014215A1 (en) | Method for computing sense data and device for computing sense data | |
JP7243026B2 (en) | Performance analysis method, performance analysis device and program | |
KR20220091459A (en) | Vibration control device, vibration control program and vibration control method | |
JP7347421B2 (en) | Information processing device, information processing method and program | |
KR102161237B1 (en) | Method for outputting sound and apparatus for the same | |
JP7156138B2 (en) | Information processing device, light action generation method, and light action generation program | |
JP5803172B2 (en) | Evaluation device | |
KR20220104693A (en) | Live speech detection | |
KR20120096880A (en) | Method, system and computer-readable recording medium for enabling user to play digital instrument based on his own voice | |
JP7129769B2 (en) | LIP SYNC PROGRAM, RECORDING MEDIUM, LIP SYNC PROCESSING METHOD | |
JP6198375B2 (en) | Game program and game system | |
WO2021192691A1 (en) | Information output device, information output method, and information output program | |
CN110892475A (en) | Information processing apparatus, information processing method, and program | |
WO2019229936A1 (en) | Information processing system | |
WO2020050203A1 (en) | Information processing device for data representing actions | |
US20230098809A1 (en) | Information processing apparatus, information processing system, and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7156138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |