JP6993034B1 - Content playback method and content playback system - Google Patents

Content playback method and content playback system Download PDF

Info

Publication number
JP6993034B1
JP6993034B1 JP2021082702A JP2021082702A JP6993034B1 JP 6993034 B1 JP6993034 B1 JP 6993034B1 JP 2021082702 A JP2021082702 A JP 2021082702A JP 2021082702 A JP2021082702 A JP 2021082702A JP 6993034 B1 JP6993034 B1 JP 6993034B1
Authority
JP
Japan
Prior art keywords
data
face image
image data
processing
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021082702A
Other languages
Japanese (ja)
Other versions
JP2022175923A (en
Inventor
継 河合
Original Assignee
Aiインフルエンサー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aiインフルエンサー株式会社 filed Critical Aiインフルエンサー株式会社
Priority to JP2021082702A priority Critical patent/JP6993034B1/en
Application granted granted Critical
Publication of JP6993034B1 publication Critical patent/JP6993034B1/en
Publication of JP2022175923A publication Critical patent/JP2022175923A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

【課題】ユーザの見た目をユーザの好みのキャラクターの見た目で表現すること可能となるコンテンツ再生方法、及びコンテンツ再生システムを提供する。【解決手段】キャラクターの顔を含む顔画像データと、感情を示す感情データとを取得する取得ステップと、予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得ステップにより取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成ステップとをコンピュータに実行させることを特徴とするコンテンツ再生方法。【選択図】図2PROBLEM TO BE SOLVED: To provide a content reproduction method and a content reproduction system capable of expressing a user's appearance with the appearance of a user's favorite character. SOLUTION: An acquisition step for acquiring face image data including a character's face and emotion data indicating emotion, a first input data including a reference face image data and reference emotion data acquired in advance, and The first output data including the face of the same character as the character included in the reference face image data and including the first processed face image data different from the reference face image data is used as a set of data sets. Using a plurality of training data for 1 processing, the first processing database generated by machine learning is referred to, and the face image data after the first processing for the face image data and the emotion data acquired in the acquisition step is generated. A content reproduction method characterized by causing a computer to execute a first generation step. [Selection diagram] Fig. 2

Description

本発明は、コンテンツ再生方法、及びコンテンツ再生システムに関する。 The present invention relates to a content reproduction method and a content reproduction system.

近年、動画を配信する場合において、配信者のプライバシーを保護するため、又は配信者の好みの顔や声で配信ができるように、ユーザの見た目や声をユーザの好みのキャラクターの見た目や声で表現することが可能となる技術が必要とされている。そのため、キャラクターによる会話がユーザによる会話と比べて、違和感のない会話にするための、キャラクターの音声を表現するための技術が注目されており、例えば特許文献1の情報処理システムが知られている。 In recent years, when distributing videos, the user's appearance and voice should be the appearance and voice of the user's favorite character in order to protect the privacy of the distributor or to distribute with the distributor's favorite face and voice. There is a need for technology that can be expressed. Therefore, a technique for expressing a character's voice so that a conversation by a character is more natural than a conversation by a user is attracting attention. For example, the information processing system of Patent Document 1 is known. ..

上記特許文献1に記載された技術は、プロセッサが、ユーザのクライアント端末を介して特定のキャラクターを選択する選択信号を受信すると共に、当該特定のキャラクターの発話フレーズを通信部により送信し、受信したユーザのメッセージに基づいて、特定のキャラクターの音声に変換した変換メッセージを生成する。さらに特許文献1に記載された技術は、ユーザのメッセージに対応する特定のキャラクターの発話フレーズを生成し、生成した変換メッセージおよび発話フレーズをクライアント端末に返送する。これにより、キャラクターをユーザ自身が体験できるようにすることで娯楽性をさらに高めることが可能となる情報処理システムに関する技術が特許文献1に記載されている。 In the technique described in Patent Document 1, the processor receives a selection signal for selecting a specific character via a client terminal of a user, and at the same time, transmits and receives a speech phrase of the specific character by a communication unit. Generates a converted message converted to the voice of a specific character based on the user's message. Further, the technique described in Patent Document 1 generates an utterance phrase of a specific character corresponding to a user's message, and returns the generated conversion message and the utterance phrase to the client terminal. Patent Document 1 describes a technique related to an information processing system that makes it possible to further enhance entertainment by allowing a user to experience a character by himself / herself.

特開2021-39370号公報Japanese Unexamined Patent Publication No. 2021-39370

ここで、特許文献1では、受信したユーザのメッセージに基づいて、特定のキャラクターの音声に変換した変換メッセージを生成する。しかしながら、特許文献1では、特定のキャラクターの見た目をキャラクターの変換メッセージに反映させることを想定していない。このため、特許文献1では、ユーザの好みの見た目でユーザの配信を表現することができない。従って、ユーザの見た目をユーザの好みのキャラクターの見た目で表現することが可能となる技術が望まれている。 Here, in Patent Document 1, a converted message converted into a voice of a specific character is generated based on the received message of the user. However, Patent Document 1 does not assume that the appearance of a specific character is reflected in the character conversion message. Therefore, in Patent Document 1, it is not possible to express the user's distribution with the appearance desired by the user. Therefore, there is a demand for a technique capable of expressing the user's appearance with the appearance of the user's favorite character.

そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、ユーザの見た目をユーザの好みのキャラクターの見た目で表現することが可能となるコンテンツ再生方法、及びコンテンツ再生システムを提供することにある。 Therefore, the present invention has been devised in view of the above-mentioned problems, and an object thereof is a content reproduction method capable of expressing the appearance of a user with the appearance of a character of the user's preference. And to provide a content reproduction system.

第1発明に係るコンテンツ再生方法は、キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得ステップと、予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得ステップにより取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成ステップと、前記第1生成ステップにより生成された第1処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第1処理後顔画像データの一部を変化させた第2処理後顔画像データを生成する第2生成ステップとをコンピュータに実行させ、前記第2生成ステップは、予め取得された参照用第1処理後顔画像データと、参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された第2処理用データベースを参照して、前記第1生成ステップにより生成された第1処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第2処理後顔画像データを生成することを特徴とする。 The content reproduction method according to the first invention includes an acquisition step of acquiring face image data including a character's face, emotion data indicating emotions, and text data, and previously acquired reference face image data and reference emotions. The first output data including the first input data including the data and the face of the same character as the character included in the reference face image data and including the first processed face image data different from the reference face image data. With reference to the first processing database generated by machine learning using a plurality of first processing training data having The first is based on the first generation step of generating the post-processed face image data, the first post-processed face image data generated by the first generation step , and the text data acquired by the acquisition step. A computer is made to execute a second generation step of generating a second post-processed face image data in which a part of the post-processed face image data is changed, and the second generation step is a pre-acquired first post-processing for reference. A plurality of second processing training data in which the second input data including the face image data and the reference text data and the second output data including the second processed face image data for reference are set as a set of data. Using, referring to the second processing database generated by machine learning, based on the first processed face image data generated by the first generation step and the text data acquired by the acquisition step. It is characterized in that the face image data after the second processing is generated .

発明に係るコンテンツ再生方法は、第1発明において、前記取得ステップは、声質に関する声質データを取得し、前記取得ステップにより取得した声質データと、テキストデータと、感情データとに基づいて、前記キャラクターの音声を示す音声データを生成する音声処理ステップと、前記生成ステップにより生成された処理後顔画像データと、前記音声処理ステップにより生成された音声データとに基づいて、前記キャラクターの表現を示す表現データを生成する表現生成ステップとをさらにコンピュータに実行させることを特徴とする。 The content reproduction method according to the second invention is the first invention, in which the acquisition step acquires voice quality data related to voice quality, and is based on the voice quality data, text data, and emotion data acquired by the acquisition step. , The expression of the character based on the voice processing step that generates the voice data indicating the voice of the character, the processed face image data generated by the generation step, and the voice data generated by the voice processing step. It is characterized in that a computer is further executed with an expression generation step for generating expression data indicating.

発明に係るコンテンツ再生方法は、第発明において、前記音声処理ステップは、予め取得された参照用声質データと、参照用テキストデータと、参照用感情データとを含む第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成された音声処理用データベースを参照して、前記取得ステップにより取得した声質データと、テキストデータと、感情データとに対する前記音声データを生成することを特徴とする。 The content reproduction method according to the third invention is the second invention, in which the voice processing step includes a third input data including a previously acquired reference voice quality data, reference text data, and reference emotion data. Using a plurality of voice processing learning data having a third output data including reference voice data as a set of data, the voice processing database generated by machine learning was referred to, and the data was acquired by the acquisition step. It is characterized in that the voice data for the voice quality data, the text data, and the emotion data is generated.

発明に係るコンテンツ再生方法は、第発明~第発明のいずれかにおいて、予め取得された参照用会話文データと前記参照用会話文データに対する返答データとの対応関係を示す返答モデルを参照し、ユーザが入力した会話文データに対する返答データを決定し、決定された返答データに基づく前記テキストデータを取得することを特徴とする。 The content reproduction method according to the fourth invention is a response model showing a correspondence relationship between the reference conversation text data acquired in advance and the response data to the reference conversation text data in any one of the first invention to the third invention. It is characterized in that the response data to the conversational sentence data input by the user is determined by reference, and the text data based on the determined response data is acquired.

発明に係るコンテンツ再生システムは、キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得手段と、予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得手段により取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成手段と、前記第1生成手段により生成された第1処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第1処理後顔画像データの一部を変化させた第2処理後顔画像データを生成する第2生成手段と備え、前記第2生成手段は、予め取得された参照用第1処理後顔画像データと、参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された第2処理用データベースを参照して、前記第1生成手段により生成された第1処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第2処理後顔画像データを生成することを特徴とする。 The content reproduction system according to the fifth invention is an acquisition means for acquiring face image data including a character's face, emotion data indicating emotions, and text data, and previously acquired reference face image data and reference emotions. The first output data including the first input data including the data and the face of the same character as the character included in the reference face image data and including the first processed face image data different from the reference face image data. With reference to the first processing database generated by machine learning using a plurality of first processing training data having The first generation means based on the first generation means for generating the face image data after the first processing, the first post-processing face image data generated by the first generation means , and the text data acquired by the acquisition means. The second generation means for generating the second post-processed face image data in which a part of the processed face image data is changed is provided, and the second generation means is the first post-processed face image data for reference acquired in advance. And, using a plurality of second processing training data in which the second input data including the reference text data and the second output data including the reference second post-processed facial image data are set as a set of data. With reference to the second processing database generated by machine learning, the second processing based on the first processed face image data generated by the first generation means and the text data acquired by the acquisition means. It is characterized by generating face image data after processing .

第1発明~第発明によれば、第1処理用データベースを参照して、顔画像データと感情データとに対する第1処理後顔画像データを生成する。これにより、ユーザの感情を反映した第1処理後顔画像データを生成することが可能となる。これによって、ユーザの感情が反映し、ユーザの見た目をユーザの好みのキャラクターの見た目で表現すること可能となる。また、第2処理用データベースを参照して、第1処理後顔画像データと、テキストデータとに基づいて、第2処理後顔画像データを生成する。これにより、入力されたテキストデータに適した精度の高い第2処理後顔画像データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。 According to the first to fourth inventions, the first processed facial image data for the facial image data and the emotional data is generated with reference to the first processing database. This makes it possible to generate face image data after the first processing that reflects the emotions of the user. As a result, the user's emotions are reflected, and the user's appearance can be expressed by the appearance of the user's favorite character. Further, referring to the second processing database, the second processed face image data is generated based on the first processed face image data and the text data. As a result, it is possible to generate highly accurate second-processed face image data suitable for the input text data, and it is possible to express a highly accurate character according to the conversation of the user.

特に、第発明によれば、声質データと、テキストデータと、感情データとに基づいて、音声データを生成し、処理後顔画像データと、音声データとに基づいて、表現データを生成する。これにより、ユーザの感情が反映された音声データを生成することができるため、ユーザの感情が反映できるキャラクターの表現が可能となる。 In particular, according to the second invention, voice data is generated based on voice quality data, text data, and emotion data, and expression data is generated based on processed facial image data and voice data. As a result, it is possible to generate voice data that reflects the user's emotions, so that it is possible to express a character that can reflect the user's emotions.

特に、第発明によれば、機械学習により生成された音声処理用データベースを参照して、声質データと、テキストデータと、感情データとに基づいて、音声データを生成する。これにより、ユーザの感情が反映された精度の高い音声データを生成することができるため、ユーザの感情が反映できるキャラクターの表現が可能となる。 In particular, according to the third invention, the voice data is generated based on the voice quality data, the text data, and the emotion data with reference to the voice processing database generated by machine learning. As a result, it is possible to generate highly accurate voice data that reflects the user's emotions, so that it is possible to express a character that can reflect the user's emotions.

発明によれば、返答モデルを参照し、ユーザが入力した会話文データに対する返答データを決定し、決定された返答データに基づくテキストデータを取得する。これにより、ユーザが入力した会話文データに対する返答データを自動的に取得することができるため、ユーザの会話に合わせたキャラクターの表現が可能となる。 According to the fourth invention, the response data for the conversational sentence data input by the user is determined with reference to the response model, and the text data based on the determined response data is acquired. As a result, the response data to the conversational sentence data input by the user can be automatically acquired, so that the character can be expressed according to the conversation of the user.

図1は、第1実施形態におけるコンテンツ再生システムの一例を示す模式図である。FIG. 1 is a schematic diagram showing an example of a content reproduction system according to the first embodiment. 図2は、第1実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。FIG. 2 is a schematic diagram showing an example of the operation of the content reproduction system according to the first embodiment. 図3は、第1処理用データベースの学習方法の一例を示す模式図である。FIG. 3 is a schematic diagram showing an example of a learning method of the first processing database. 図4は、第1処理用データベースの連関性の一例を示す模式図である。FIG. 4 is a schematic diagram showing an example of the linkage of the first processing database. 図5(a)は、第1実施形態におけるコンテンツ再生装置の構成の一例を示す模式図であり、図5(b)は、第1実施形態におけるコンテンツ再生装置の機能の一例を示す模式図である。FIG. 5A is a schematic diagram showing an example of the configuration of the content playback device according to the first embodiment, and FIG. 5B is a schematic diagram showing an example of the function of the content playback device according to the first embodiment. be. 図6は、第1実施形態におけるコンテンツ再生装置の動作の一例を示す図である。FIG. 6 is a diagram showing an example of the operation of the content reproduction device according to the first embodiment. 図7は、第2実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。FIG. 7 is a schematic diagram showing an example of the operation of the content reproduction system according to the second embodiment. 図8は、第2処理用データベースの学習方法の一例を示す模式図である。FIG. 8 is a schematic diagram showing an example of a learning method of the second processing database. 図9は、第2処理用データベースの連関性の一例を示す模式図である。FIG. 9 is a schematic diagram showing an example of the linkage of the second processing database. 図10は、第2実施形態におけるコンテンツ再生装置の動作の一例を示す図である。FIG. 10 is a diagram showing an example of the operation of the content reproduction device according to the second embodiment. 図11は、第3実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。FIG. 11 is a schematic diagram showing an example of the operation of the content reproduction system according to the third embodiment. 図12は、第3実施形態における第1処理用データベースの学習方法の一例を示す模式図である。FIG. 12 is a schematic diagram showing an example of a learning method of the first processing database in the third embodiment. 図13は、第3処理用データベースの連関性の一例を示す模式図である。FIG. 13 is a schematic diagram showing an example of the linkage of the third processing database. 図14は、第3実施形態におけるコンテンツ再生装置の動作の一例を示す図である。FIG. 14 is a diagram showing an example of the operation of the content reproduction device according to the third embodiment. 図15は、第4実施形態におけるコンテンツ再生装置の動作の一例を示す図である。FIG. 15 is a diagram showing an example of the operation of the content reproduction device according to the fourth embodiment. 図16は、音声処理用データベースの学習方法の一例を示す模式図である。FIG. 16 is a schematic diagram showing an example of a learning method of a voice processing database. 図17は、音声処理用データベースの連関性の一例を示す模式図である。FIG. 17 is a schematic diagram showing an example of the linkage of the speech processing database. 図18は、第5実施形態におけるコンテンツ再生装置の動作の一例を示す図である。FIG. 18 is a diagram showing an example of the operation of the content reproduction device according to the fifth embodiment. 図19は、第6実施形態におけるコンテンツ再生システムの動作の一例を示す模式図である。FIG. 19 is a schematic diagram showing an example of the operation of the content reproduction system according to the sixth embodiment. 図20は、第6実施形態における第1処理用データベースの学習方法の一例を示す模式図である。FIG. 20 is a schematic diagram showing an example of a learning method of the first processing database according to the sixth embodiment. 図21は、第6処理用データベースの連関性の一例を示す模式図である。FIG. 21 is a schematic diagram showing an example of the linkage of the sixth processing database. 図22は、第6実施形態におけるコンテンツ再生装置の動作の一例を示す図である。FIG. 22 is a diagram showing an example of the operation of the content reproduction device according to the sixth embodiment.

以下、本発明を適用した実施形態におけるコンテンツ再生システムの一例について、図面を参照しながら説明する。 Hereinafter, an example of the content reproduction system according to the embodiment to which the present invention is applied will be described with reference to the drawings.

(第1実施形態)
図を参照して、第1実施形態におけるコンテンツ再生システム100、コンテンツ再生装置1、及び学習方法の一例について説明する。図1は、本実施形態におけるコンテンツ再生システム100の一例を示す模式図である。図2は、本実施形態におけるコンテンツ再生システム100の動作の一例を示す模式図である。
(First Embodiment)
An example of the content reproduction system 100, the content reproduction device 1, and the learning method according to the first embodiment will be described with reference to the drawings. FIG. 1 is a schematic diagram showing an example of the content reproduction system 100 in the present embodiment. FIG. 2 is a schematic diagram showing an example of the operation of the content reproduction system 100 in the present embodiment.

<コンテンツ再生システム100>
コンテンツ再生システム100は、入力された任意の顔画像データと、感情データとに対し、第1処理後顔画像データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成された第1処理用データベースを参照し、顔画像データと、感情データとに対し、第1処理後顔画像データを生成する。
<Content playback system 100>
The content reproduction system 100 is used to generate the face image data after the first processing with respect to the input arbitrary face image data and the emotion data. The content reproduction system 100 refers to, for example, a first processing database generated by machine learning using learning data, and generates face image data after the first processing with respect to face image data and emotion data.

コンテンツ再生システム100は、例えば図1に示すように、コンテンツ再生装置1を備える。コンテンツ再生システム100は、例えば端末2及びサーバ3の少なくとも何れかを備えてもよい。コンテンツ再生装置1は、例えば通信網4を介して端末2やサーバ3と接続される。 The content reproduction system 100 includes, for example, a content reproduction device 1 as shown in FIG. The content reproduction system 100 may include, for example, at least one of a terminal 2 and a server 3. The content reproduction device 1 is connected to the terminal 2 and the server 3 via, for example, the communication network 4.

コンテンツ再生システム100では、例えば図2に示すように、コンテンツ再生装置1が入力データを取得する。例えばコンテンツ再生装置1は、入力データを取得する。その後、第1処理用データベースを参照し、入力データに対し、第1処理後顔画像データを生成する。 In the content reproduction system 100, for example, as shown in FIG. 2, the content reproduction device 1 acquires input data. For example, the content reproduction device 1 acquires input data. After that, the face image data after the first processing is generated with respect to the input data by referring to the database for the first processing.

顔画像データは、キャラクターの顔を含む画像データである。顔画像データは、例えばコンテンツ再生システム100によって出力される第1処理後顔画像データを生成する際に用いられる。画像データは、複数の画素の集合体を含むデータである。顔画像データは、例えば動画から抽出されたものであってもよく、動画データであってもよい。また、参照用顔画像データは、第1処理用学習データに用いられる顔画像データであり、顔画像データと同じ形式のものを用いてもよい。 The face image data is image data including the face of the character. The face image data is used, for example, when generating the face image data after the first processing output by the content reproduction system 100. The image data is data including an aggregate of a plurality of pixels. The face image data may be, for example, extracted from a moving image or may be moving image data. Further, the reference face image data is face image data used for the first processing learning data, and may be in the same format as the face image data.

顔画像データは、例えば通信網4を介して取得したものであってもよい。顔画像データは、例えば公知の撮像装置等を用いて撮像された顔画像を示す他、例えば公知の技術で生成された擬似的な顔画像を示してもよい。顔画像データは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力されてもよい。 The face image data may be acquired via, for example, the communication network 4. The face image data may show, for example, a face image captured by using a known image pickup device or the like, or may show, for example, a pseudo face image generated by a known technique. The face image data may be input by a user or the like via, for example, the content reproduction device 1.

感情データは、感情を示すデータである。感情データは、例えば、怒り、喜び、悲しみなどの感情を示すテキストデータであってもよい。また、感情データは、怒り、喜び、悲しみ等が百分率等の3段階以上の評価で示されるテキストデータ又は数値データであってもよい。 Emotion data is data showing emotions. The emotional data may be, for example, text data showing emotions such as anger, joy, and sadness. Further, the emotional data may be text data or numerical data in which anger, joy, sadness, etc. are evaluated by three or more grades such as percentage.

第1処理後顔画像データは、顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に当該顔画像データと異なる顔画像データである。第1処理後顔画像データは、例えば顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に当該顔画像データのキャラクターの顔と表情やしぐさ、向き等が異なるものであってもよい。 The face image data after the first processing is face image data that includes the face of the same character as the character included in the face image data and is different from the face image data. The face image data after the first processing may include, for example, the face of the same character as the character included in the face image data, and may have a different facial expression, gesture, orientation, etc. from the face of the character in the face image data.

なお、上述した「キャラクター」は、ユーザを模して擬似的に生成された人物又は動物、或いは実在する人物又は動物を模して擬似的に生成された人物又は動物のほか、アニメーション等のような、擬似的に生成された人物又は動物でもよい。 The above-mentioned "character" is a person or animal simulated to imitate a user, a person or animal simulated to imitate a real person or animal, or an animation or the like. It may be a pseudo-generated person or animal.

第1処理用データベースは、機械学習により生成される。第1処理用データベースとして、例えば参照用顔画像データと参照用感情データとを含む第1入力データと、第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された、第1入力データから第1出力データを生成するための学習済みモデルが用いられる。 The first processing database is generated by machine learning. As the first processing database, for example, the first input data including the reference face image data and the reference emotion data and the first output data including the first processed face image data are set as a set of data sets. A trained model for generating the first output data from the first input data, which is generated by machine learning, is used by using a plurality of training data for processing.

第1処理用データベースは、例えば図3に示すように、参照用顔画像データと参照用感情データと含むを第1入力データと、第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成される。 As shown in FIG. 3, for example, the first processing database includes the first input data including the reference face image data and the reference emotion data, and the first output data including the first processed face image data. It is generated by machine learning using a plurality of first processing training data as a set of data sets.

第1処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。第1処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。 The first processing database is generated using, for example, machine learning using a neural network as a model. The first processing database is generated by using machine learning using a neural network such as CNN (Convolution Neural Network) as a model, or any model may be used.

第1処理用データベースには、例えば参照用顔画像データと参照用感情データとを含む第1入力データと、第1処理後顔画像データを含む第1出力データとの間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。 The first processing database has a degree of association between the first input data including, for example, reference face image data and reference emotion data, and the first output data including the first processed face image data. 1 Relationship is memorized. The degree of association indicates the degree of connection between the first input data and the first output data. For example, it can be determined that the higher the degree of association, the stronger the connection of each data. The degree of association may be indicated by three values or more (three stages or more) such as percentage, or may be indicated by two values (two stages).

例えば連関性は、多対多の情報(複数の第1入力データ、対、複数の第1出力データ)の間における繋がりの度合いにより構築される。連関性は、機械学習の過程で適宜更新され、例えば複数の第1入力データ、及び複数の第1出力データに基づいて最適化された関数(分類器)を示す。なお、第1連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。 For example, the association is constructed by the degree of connection between many-to-many information (plurality of first input data, pair, plurality of first output data). The association is appropriately updated in the process of machine learning, and indicates a function (classifier) optimized based on, for example, a plurality of first input data and a plurality of first output data. The first association may have a plurality of association degrees indicating the degree of connection between the data, for example. The degree of association can correspond to a weight variable, for example, when the database is constructed with a neural network.

このため、コンテンツ再生システム100では、例えば分類器の判定した結果を全て踏まえた第1連関性を用いて、第1入力データに適した第1出力データを選択する。これにより、第1入力データが、第1出力データと同一又は類似である場合のほか、非類似である場合においても、第1入力データに適した第1出力データを定量的に選択することができる。 Therefore, in the content reproduction system 100, for example, the first output data suitable for the first input data is selected by using the first association based on all the determination results of the classifier. As a result, it is possible to quantitatively select the first output data suitable for the first input data even when the first input data is the same as or similar to the first output data or dissimilar to the first output data. can.

第1連関性は、例えば図4に示すように、複数の第1出力データと、複数の第1入力データとの間における繋がりの度合いを示してもよい。この場合、第1連関性を用いることで、複数の第1出力データ(図4では「第1処理後顔画像データA」~「第1処理後顔画像データC」)のそれぞれに対し、複数の第1入力データ(図4では「顔画像データA+感情データA」~「顔画像データC+感情データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第1連関性を介して、1つの第1出力データに対して、複数の第1入力データを紐づけることができる。これにより、第1入力データに対して多角的な第1出力データの選択を実現することができる。 The first association may indicate the degree of connection between the plurality of first output data and the plurality of first input data, for example, as shown in FIG. In this case, by using the first association, a plurality of first output data (“first processed face image data A” to “first processed face image data C” in FIG. 4) are obtained. It is possible to store the degree of relationship of the first input data (“face image data A + emotion data A” to “face image data C + emotion data C” in FIG. 4) in association with each other. Therefore, for example, a plurality of first input data can be associated with one first output data via the first association. As a result, it is possible to realize the selection of the first output data from various angles with respect to the first input data.

第1連関性は、例えば各第1出力データと、各第1入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第1入力データに含まれる「顔画像データA+感情データA」は、第1出力データに含まれる「第1処理後顔画像データA」との間の連関度AA「73%」を示し、第1出力データに含まれる「第1処理後顔画像データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。 The first association has, for example, a plurality of association degrees for associating each first output data with each first input data. The degree of association is shown in three or more steps such as percentage, 10 steps, or 5 steps, and is shown by, for example, the characteristics of the line (for example, thickness). For example, the "face image data A + emotion data A" included in the first input data indicates a degree of association AA "73%" with the "first processed face image data A" included in the first output data. , The degree of association AB “12%” with the “first processed face image data B” included in the first output data is shown. That is, the "degree of association" indicates the degree of connection between each data, and for example, the higher the degree of association, the stronger the connection of each data.

また、第1内部表象用データベースは、第1入力データと第1出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第1入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。 Further, in the first internal representation database, at least one hidden layer may be provided between the first input data and the first output data, and machine learning may be performed. The above-mentioned degree of association is set in either one or both of the first input data and the hidden layer data, and this is the weighting of each data, and the output is selected based on this. Then, when this degree of association exceeds a certain threshold value, the output may be selected.

<コンテンツ再生装置1>
次に、図5、図6を参照して、本実施形態におけるコンテンツ再生装置1の一例を説明する。図5(a)は、本実施形態におけるコンテンツ再生装置1の構成の一例を示す模式図であり、図5(b)は、本実施形態におけるコンテンツ再生装置1の機能の一例を示す模式図である。
<Content playback device 1>
Next, an example of the content reproduction device 1 in the present embodiment will be described with reference to FIGS. 5 and 6. FIG. 5A is a schematic diagram showing an example of the configuration of the content reproduction device 1 in the present embodiment, and FIG. 5B is a schematic diagram showing an example of the function of the content reproduction device 1 in the present embodiment. be.

コンテンツ再生装置1として、例えばラップトップ(ノート)PC又はデスクトップPC等の電子機器が用いられる。コンテンツ再生装置1は、例えば図5(a)に示すように、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~107とを備える。各構成101~107は、内部バス110により接続される。 As the content reproduction device 1, for example, an electronic device such as a laptop (notebook) PC or a desktop PC is used. As shown in FIG. 5A, for example, the content playback device 1 stores a housing 10, a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, and the like. A unit 104 and I / F 105 to 107 are provided. Each configuration 101 to 107 is connected by an internal bus 110.

CPU101は、コンテンツ再生装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、データベースや学習対象データ等の各種情報が記憶される。保存部104として、例えばHDD(Hard Disk Drive)のほか、SSD(Solid State Drive)等のデータ保存装置が用いられる。なお、例えばコンテンツ再生装置1は、図示しないGPU(Graphics Processing Unit)を有してもよい。 The CPU 101 controls the entire content reproduction device 1. The ROM 102 stores the operation code of the CPU 101. The RAM 103 is a work area used when the CPU 101 operates. The storage unit 104 stores various information such as a database and learning target data. As the storage unit 104, for example, in addition to an HDD (Hard Disk Drive), a data storage device such as an SSD (Solid State Drive) is used. For example, the content reproduction device 1 may have a GPU (Graphics Processing Unit) (not shown).

I/F105は、通信網4を介して、必要に応じて端末2、サーバ3、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。I/F106は、入力部108との情報の送受信を行うためのインターフェースである。入力部108として、例えばキーボードが用いられ、コンテンツ再生装置1の使用者等は、入力部108を介して、各種情報、又はコンテンツ再生装置1の制御コマンド等を入力する。I/F107は、表示部109との各種情報の送受信を行うためのインターフェースである。表示部109は、保存部104に保存された各種情報、又はコンテンツ等を表示する。表示部109として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部108と一体に設けられる。また、表示部109は、スピーカが用いられてもよい。 The I / F 105 is an interface for transmitting and receiving various information to and from the terminal 2, the server 3, the website, etc., as needed, via the communication network 4. The I / F 106 is an interface for transmitting / receiving information to / from the input unit 108. For example, a keyboard is used as the input unit 108, and the user or the like of the content reproduction device 1 inputs various information, a control command of the content reproduction device 1, or the like via the input unit 108. The I / F 107 is an interface for transmitting and receiving various information to and from the display unit 109. The display unit 109 displays various information, contents, and the like stored in the storage unit 104. A display is used as the display unit 109, and for example, in the case of a touch panel type, it is provided integrally with the input unit 108. Further, a speaker may be used for the display unit 109.

図5(b)は、コンテンツ再生装置1の機能の一例を示す模式図である。コンテンツ再生装置1は、取得部11と、処理部12と、生成部13と、出力部14と、記憶部15とを備え、例えばDB生成部16を有してもよい。なお、図5(b)、に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。 FIG. 5B is a schematic diagram showing an example of the function of the content reproduction device 1. The content reproduction device 1 includes an acquisition unit 11, a processing unit 12, a generation unit 13, an output unit 14, and a storage unit 15, and may include, for example, a DB generation unit 16. It should be noted that each function shown in FIG. 5B is realized by the CPU 101 executing a program stored in the storage unit 104 or the like using the RAM 103 as a work area, even if it is controlled by, for example, artificial intelligence. good.

<<取得部11>>
取得部11は、顔画像データと、感情データとを取得する。取得したデータは、上述した第1処理後顔画像データを生成する際に用いられる。取得部11は、例えば入力部108から入力された顔画像データと、感情データとを取得するほか、例えば通信網4を介して、端末2等から顔画像データと、感情データとを取得してもよい。また、取得部11は、予め取得された複数の顔画像データ、及び感情データの中からユーザが選択したデータを取得してもよい。
<< Acquisition unit 11 >>
The acquisition unit 11 acquires the face image data and the emotion data. The acquired data is used when generating the above-mentioned first post-processing facial image data. The acquisition unit 11 acquires, for example, the face image data and the emotion data input from the input unit 108, and also acquires the face image data and the emotion data from the terminal 2 or the like via, for example, the communication network 4. May be good. Further, the acquisition unit 11 may acquire data selected by the user from a plurality of face image data and emotion data acquired in advance.

取得部11は、例えば上述したデータベースの生成に用いられる学習データを取得してもよい。取得部11は、例えば入力部108から入力された学習データを取得するほか、例えば通信網4を介して、端末2等から学習データを取得してもよい。 The acquisition unit 11 may acquire, for example, the learning data used for generating the above-mentioned database. In addition to acquiring the learning data input from the input unit 108, for example, the acquisition unit 11 may acquire the learning data from the terminal 2 or the like via, for example, the communication network 4.

例えば、第1処理用データベースの生成に用いられる第1処理用学習データとして、過去の参照用顔画像データ及び参照用感情データが挙げられる。 For example, as the first processing learning data used for generating the first processing database, past reference face image data and reference emotion data can be mentioned.

<<処理部12>>
処理部12は、例えば第1処理用データベースを参照し、顔画像データと感情データとに対する第1処理後顔画像データを生成する。
<< Processing unit 12 >>
The processing unit 12 refers to, for example, the first processing database, and generates the face image data after the first processing for the face image data and the emotion data.

<<生成部13>>
生成部13は、処理部12で生成した顔画像データに基づき、少なくとも1つの擬似データを生成する。生成部13は、例えば処理部12で生成された第1処理後顔画像データに基づき、音声及び顔画像を含む擬似データを生成する。擬似データを生成することによって、記憶部15に記憶されていないキャラクターの表現を出力することが可能となる。生成部13は、擬似データを生成する際に、公知の技術を用いてもよい。
<< Generation unit 13 >>
The generation unit 13 generates at least one pseudo data based on the face image data generated by the processing unit 12. The generation unit 13 generates pseudo data including voice and face image based on the first processed face image data generated by the processing unit 12, for example. By generating the pseudo data, it is possible to output the expression of the character that is not stored in the storage unit 15. The generation unit 13 may use a known technique when generating pseudo data.

<<出力部14>>
出力部14は、各種データを出力する。出力部14は、例えば生成部13で生成された擬似データを出力してもよい。出力部14は、I/F107を介して表示部109に各種データを出力するほか、例えばI/F105を介して、複数の端末2等に各種データを出力する。
<< Output unit 14 >>
The output unit 14 outputs various data. The output unit 14 may output, for example, the pseudo data generated by the generation unit 13. The output unit 14 outputs various data to the display unit 109 via the I / F 107, and also outputs various data to a plurality of terminals 2 and the like via, for example, the I / F 105.

<<記憶部15>>
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取出す。記憶部15は、各構成11~14、16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
<< Memory unit 15 >>
The storage unit 15 retrieves various data such as a database stored in the storage unit 104 as needed. The storage unit 15 stores various data acquired or generated by the configurations 11 to 14 and 16 in the storage unit 104 as needed.

<<DB生成部16>>
DB生成部16は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えばニューラルネットワーク等が用いられる。
<< DB generation unit 16 >>
The DB generation unit 16 generates a database by machine learning using a plurality of learning data. For machine learning, for example, a neural network or the like is used.

<端末2>
端末2は、例えばコンテンツ再生システム100を用いたサービスのユーザ等が保有し、通信網4を介してコンテンツ再生装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。
<Terminal 2>
The terminal 2 is owned by, for example, a user of a service using the content reproduction system 100, and is connected to the content reproduction device 1 via a communication network 4. The terminal 2 may indicate, for example, an electronic device that generates a database. As the terminal 2, for example, an electronic device such as a personal computer or a tablet terminal is used. The terminal 2 may have at least some of the functions of the content reproduction device 1, for example.

<サーバ3>
サーバ3は、通信網4を介してコンテンツ再生装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じてコンテンツ再生装置1から各種データが送信される。サーバ3は、例えばコンテンツ再生装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えばコンテンツ再生装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えばコンテンツ再生装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
<Server 3>
The server 3 is connected to the content reproduction device 1 via the communication network 4. Various past data and the like are stored in the server 3, and various data are transmitted from the content reproduction device 1 as needed. The server 3 may have at least a part of the functions of the content reproduction device 1, for example, and may perform at least a part of the processing instead of the content reproduction device 1, for example. The server 3 stores, for example, at least a part of various data stored in the storage unit 104 of the content reproduction device 1, and may be used in place of the storage unit 104, for example.

<通信網4>
通信網4は、例えばコンテンツ再生装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
<Communication network 4>
The communication network 4 is, for example, an Internet network or the like to which the content reproduction device 1 is connected via a communication circuit. The communication network 4 may be configured by a so-called optical fiber communication network. Further, the communication network 4 may be realized by a known communication technology such as a wireless communication network in addition to the wired communication network.

(第1実施形態:コンテンツ再生システムの動作)
次に、本実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図6は、第1実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
(First Embodiment: Operation of content reproduction system)
Next, an example of the operation of the content reproduction system 100 in the present embodiment will be described. FIG. 6 is a diagram showing an example of the operation of the content reproduction device according to the first embodiment.

<取得ステップS110>
取得ステップS110は、ユーザ等により入力された顔画像データと感情データとを取得する。取得ステップS110では、例えば取得部11が、顔画像データと感情データとを取得する。取得部11は、例えば端末2等から顔画像データと感情データとを取得するほか、例えば記憶部15を介して、保存部104から取得してもよい。また、取得ステップS110は、例えば顔画像データとして、動画のように顔画像データと、顔画像データに紐づいた音声データを取得してもよい。
<Acquisition step S110>
The acquisition step S110 acquires the face image data and the emotion data input by the user or the like. In the acquisition step S110, for example, the acquisition unit 11 acquires the face image data and the emotion data. The acquisition unit 11 may acquire the face image data and the emotion data from, for example, the terminal 2 or the like, or may acquire the face image data and the emotion data from the storage unit 104 via, for example, the storage unit 15. Further, in the acquisition step S110, for example, as face image data, face image data such as a moving image and voice data associated with the face image data may be acquired.

<第1処理ステップS120>
第1処理ステップS120は、例えば第1処理用データベースを参照し、取得ステップS110で取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する。第1処理ステップS120では、例えば第1処理部121は、第1処理用データベースを参照し、顔画像データと感情データとに対する第1処理後顔画像データを生成する。第1処理ステップS120は、例えば記憶部15を介して、生成した第1処理後顔画像データを保存部104に保存してもよい。なお、生成した第1処理後顔画像データは、例えばサーバ3や他のコンテンツ再生装置1、又は複数のユーザ端末2に送信されてもよい。生成するデータは、ひとつの入力データに対して複数のデータを生成してもよい。これにより、ユーザの感情を反映した第1処理後顔画像データを生成することが可能となる。これによって、ユーザの感情が反映できるキャラクターの表現が可能となる。また、生成部13により、疑似的に第1処理後顔画像データを生成してもよい。また、第1処理ステップS120は、例えば処理部12に含まれる第1処理部121により、処理してもよい。
<First processing step S120>
The first processing step S120 refers to, for example, the database for the first processing, and generates the face image data after the first processing for the face image data and the emotion data acquired in the acquisition step S110. In the first processing step S120, for example, the first processing unit 121 refers to the first processing database and generates the first processed facial image data for the facial image data and the emotional data. In the first processing step S120, the generated face image data after the first processing may be stored in the storage unit 104, for example, via the storage unit 15. The generated face image data after the first processing may be transmitted to, for example, the server 3, another content reproduction device 1, or a plurality of user terminals 2. As the data to be generated, a plurality of data may be generated for one input data. This makes it possible to generate face image data after the first processing that reflects the emotions of the user. This makes it possible to express a character that can reflect the user's emotions. Further, the generation unit 13 may generate the face image data after the first processing in a pseudo manner. Further, the first processing step S120 may be processed by, for example, the first processing unit 121 included in the processing unit 12.

<出力ステップS130>
出力ステップS130では、例えば出力部14は、第1処理ステップS120により取得された第1処理後顔画像データを、表示部109や端末2等に出力する。
<Output step S130>
In the output step S130, for example, the output unit 14 outputs the face image data after the first processing acquired in the first processing step S120 to the display unit 109, the terminal 2, and the like.

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。 By performing each of the steps described above, the operation of the content reproduction system 100 in the present embodiment is completed.

(第2実施形態)
以下、本発明の第2実施形態を適応したコンテンツ再生システム100について説明する。本発明の第2実施形態は、第1処理後顔画像データとテキストデータに対する第2処理後顔画像データを生成する点で第1実施形態と異なる。また、第1実施形態と同様な構成の説明は省略する。
(Second Embodiment)
Hereinafter, the content reproduction system 100 to which the second embodiment of the present invention is applied will be described. The second embodiment of the present invention is different from the first embodiment in that the second post-processed face image data for the first post-processed face image data and the text data is generated. Further, the description of the configuration similar to that of the first embodiment will be omitted.

<コンテンツ再生システム100>
コンテンツ再生システム100は、図7に示すように、第1処理用データベースを参照して生成された顔画像データと感情データとに対する第1処理後顔画像データと、テキストデータとに対する第2処理後顔画像データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成された第2処理用データベースを参照し、第1処理後顔画像データと、テキストデータとに対する第2処理後顔画像データを生成する。かかる場合、コンテンツ再生システム100は、例えば顔画像データと感情データとに対する第1処理後顔画像データとして、顔画像データに含まれるキャラクターの目元を変化させた第1処理後顔画像データを生成し、さらに第2処理用データベースを参照し、生成した第1処理後顔画像データと、テキストデータに対する第1処理後顔画像データに含まれるキャラクターの口元を変化させた第2処理後顔画像データを生成してもよい。
<Content playback system 100>
As shown in FIG. 7, the content reproduction system 100 has, as shown in FIG. 7, after the first processing for the face image data and the emotion data generated by referring to the first processing database, and after the second processing for the text data. It is used to generate facial image data. The content reproduction system 100 refers to, for example, a second processing database generated by machine learning using learning data, and generates a second post-processing face image data for the first post-processing face image data and text data. .. In such a case, the content reproduction system 100 generates, for example, the first post-processed face image data in which the eyes of the character included in the face image data are changed as the first post-processed face image data for the face image data and the emotion data. Further, referring to the second processing database, the generated first post-processing face image data and the second post-processing face image data in which the mouth of the character included in the first post-processing face image data for the text data is changed are obtained. May be generated.

テキストデータは、例えばコンテンツ再生システム100によって生成される顔画像データを生成する際に用いられる。テキストデータは、例えばユーザが入力した会話文、又はキャラクターに話させたい会話文等であってもよい。テキストデータは、文字や文字コードによって表されるデータである。テキストデータは、例えば、モニタやプリンタなどの機器を制御するためのデータである制御文字を含む。制御文字は、例えば、改行を表す改行文字やタブ(水平タブ)などが含まれる。 The text data is used, for example, when generating face image data generated by the content reproduction system 100. The text data may be, for example, a conversational sentence input by the user, a conversational sentence that the character wants to speak, or the like. Text data is data represented by characters and character codes. The text data includes, for example, control characters that are data for controlling a device such as a monitor or a printer. The control character includes, for example, a line feed character representing a line feed and a tab (horizontal tab).

テキストデータは、例えば通信網4を介して、また、テキストデータは、音声を音声認識することによって抽出したものであってもよい。テキストデータは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力されてもよい。 The text data may be extracted via, for example, the communication network 4, and the text data may be extracted by recognizing the voice. The text data may be input by a user or the like via, for example, the content reproduction device 1.

第2処理後顔画像データは、第1処理後顔画像データの一部を変化させた顔画像データである。第2処理後顔画像データは、例えば第1処理後顔画像データに含まれるキャラクターの口等の画像データの一部を変化させたものであってもよい。 The face image data after the second processing is face image data obtained by changing a part of the face image data after the first processing. The face image data after the second processing may be, for example, a part of the image data such as the mouth of the character included in the face image data after the first processing changed.

第2処理用データベースは、例えば機械学習により生成されることが好ましいがこの限りではない。第2処理用データベースとして、例えば参照用第1処理後顔画像データと参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された、第2入力データから第2出力データを生成するための学習済みモデルが用いられる。かかる場合、第2処理用データベースの生成方法は、入力データを第2入力データ、出力を第2出力データとする点で第1処理用データベースと異なる。 The second processing database is preferably generated by machine learning, for example, but this is not the case. As the database for the second processing, for example, a set of the second input data including the first processed face image data for reference and the text data for reference and the second output data including the second processed face image data for reference. A trained model for generating the second output data from the second input data generated by machine learning is used by using a plurality of second processing training data as the data set of. In such a case, the method of generating the second processing database is different from the first processing database in that the input data is the second input data and the output is the second output data.

第2処理用データベースは、例えば図8に示すように、参照用第1処理後顔画像データと参照用感情データと含むを第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成される。 As shown in FIG. 8, for example, the second processing database includes a second input data including a reference first post-processing facial image data and a reference emotion data, and a second post-processing facial image data for reference. It is generated by machine learning using a plurality of second processing training data having two output data as a set of data.

第2処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。第2処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。 The second processing database is generated using, for example, machine learning using a neural network as a model. The second processing database is generated by using machine learning using a neural network such as CNN (Convolution Neural Network) as a model, or any model may be used.

第2処理用データベースには、例えば図9に示すように第2入力データと、第2出力データとの間における連関度を有する第2連関性が記憶される。連関度は、第2入力データと第2出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。 In the second processing database, for example, as shown in FIG. 9, a second association having a degree of association between the second input data and the second output data is stored. The degree of association indicates the degree of connection between the second input data and the second output data. For example, it can be determined that the higher the degree of association, the stronger the connection of each data. The degree of association may be indicated by three values or more (three stages or more) such as percentage, or may be indicated by two values (two stages).

(第2実施形態:コンテンツ再生システムの動作)
次に、第2実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図10は、第2実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
(Second Embodiment: Operation of content reproduction system)
Next, an example of the operation of the content reproduction system 100 in the second embodiment will be described. FIG. 10 is a diagram showing an example of the operation of the content reproduction device according to the second embodiment.

<取得ステップS210>
取得ステップS210は、ユーザ等により入力された顔画像データと感情データとテキストデータとを取得する。取得ステップS210では、例えば取得部11が、顔画像データと感情データとテキストデータとを取得する。また、取得ステップS210は、例えばテキストデータとして、動画のように顔画像データと、顔画像データに紐づいた音声データを取得して、取得した音声データを音声認識することにより取得してもよい。
<Acquisition step S210>
The acquisition step S210 acquires the face image data, the emotion data, and the text data input by the user or the like. In the acquisition step S210, for example, the acquisition unit 11 acquires face image data, emotion data, and text data. Further, in the acquisition step S210, for example, as text data, face image data such as a moving image and voice data associated with the face image data may be acquired, and the acquired voice data may be acquired by voice recognition. ..

<第2処理ステップS240>
第2処理ステップS240は、例えば第2処理用データベースを参照し、第1処理ステップS120により生成された第1処理後顔画像データと、取得ステップS210で取得したテキストデータとに対する第2処理後顔画像データを生成する。第2処理ステップS240では、例えば第2処理部122は、第2処理用データベースを参照し、第1処理後顔画像データと、テキストデータとに対する第2処理後顔画像データを生成する。かかる場合、第2処理部122は、入力された第1処理後顔画像データを公知の画像解析技術により画像解析し、第1処理後顔画像データに含まれるキャラクターの顔の一部、例えば口を判定し、判定した部分をテキストデータに合わせて変化させた第2処理後顔画像データを生成してもよい。また、第2処理ステップS240は、第2処理用データベースを用いることなく、第2処理後顔画像データを生成してもよい。これにより、入力されたテキストデータに適した第2処理後顔画像データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、生成部13により、疑似的に第2処理後顔画像データを生成してもよい。また、第2処理ステップS240は、例えば処理部12に含まれ、第1処理部121に接続される第2処理部122により、処理してもよい。
<Second processing step S240>
The second processing step S240 refers to, for example, the database for the second processing, and the second processed face with respect to the first processed face image data generated by the first processing step S120 and the text data acquired in the acquisition step S210. Generate image data. In the second processing step S240, for example, the second processing unit 122 refers to the second processing database and generates the second processed face image data for the first processed face image data and the text data. In such a case, the second processing unit 122 analyzes the input first-processed face image data by a known image analysis technique, and a part of the character's face included in the first-processed face image data, for example, the mouth. The second processed facial image data may be generated by determining the above and changing the determined portion according to the text data. Further, in the second processing step S240, the face image data after the second processing may be generated without using the database for the second processing. This makes it possible to generate face image data after the second processing suitable for the input text data, and it is possible to express a character with high accuracy according to the conversation of the user. Further, the generation unit 13 may generate pseudo second-processed face image data. Further, the second processing step S240 may be processed by the second processing unit 122 included in the processing unit 12, for example, and connected to the first processing unit 121.

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。 By performing each of the steps described above, the operation of the content reproduction system 100 in the present embodiment is completed.

(第3実施形態)
以下、本発明の第3実施形態を適応したコンテンツ再生システム100について説明する。本発明の第3実施形態は、顔画像データと感情データとテキストデータとに対する第1処理後顔画像データを生成する点で第1実施形態と異なる。また、第1実施形態と同様な構成の説明は省略する。
(Third Embodiment)
Hereinafter, the content reproduction system 100 to which the third embodiment of the present invention is applied will be described. The third embodiment of the present invention is different from the first embodiment in that the face image data after the first processing for the face image data, the emotion data, and the text data is generated. Further, the description of the configuration similar to that of the first embodiment will be omitted.

<コンテンツ再生システム100>
コンテンツ再生システム100は、図11に示すように入力された任意の顔画像データと、感情データと、テキストデータとに対し、第1処理後顔画像データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成された第1処理用データベースを参照し、顔画像データと、感情データと、テキストデータに対する第1処理後顔画像データを生成する。
<Content playback system 100>
The content reproduction system 100 is used to generate the face image data after the first processing with respect to the arbitrary face image data, the emotion data, and the text data input as shown in FIG. The content reproduction system 100 refers to, for example, a first processing database generated by machine learning using learning data, and generates face image data, emotion data, and first-processed face image data for text data.

第1処理用データベースは、機械学習により生成される。第1処理用データベースとして、例えば参照用顔画像データと参照用感情データと参照用テキストデータとを含む第1入力データと、参照用第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された、第1入力データから第1出力データを生成するための学習済みモデルが用いられる。かかる場合、第1処理用データベースの生成方法は、第1入力データに参照用テキストデータが含まれている点で第1実施形態と異なる。 The first processing database is generated by machine learning. As the first processing database, for example, the first input data including the reference face image data, the reference emotion data, and the reference text data, and the first output data including the reference first processed face image data are combined. A trained model for generating the first output data from the first input data generated by machine learning is used by using a plurality of first processing training data as a set of data sets. In such a case, the method of generating the first processing database is different from the first embodiment in that the reference text data is included in the first input data.

第1処理用データベースは、例えば図12に示すように、参照用第1処理後顔画像データと参照用感情データと参照用テキストデータとを含む第1入力データと、参照用第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成される。 As shown in FIG. 12, for example, the first processing database includes first input data including reference first post-processing face image data, reference emotion data, and reference text data, and reference first post-processing face. It is generated by machine learning using a plurality of first processing training data having the first output data including image data as a set of data sets.

第2処理用データベースは、例えば図13に示すように、ニューラルネットワークをモデルとした機械学習を用いて、生成される。第2処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。 The second processing database is generated by using machine learning using a neural network as a model, for example, as shown in FIG. The second processing database is generated by using machine learning using a neural network such as CNN (Convolution Neural Network) as a model, or any model may be used.

第1処理用データベースには、例えば第1入力データと、第1出力データとの間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。 In the first processing database, for example, the first association having a degree of association between the first input data and the first output data is stored. The degree of association indicates the degree of connection between the first input data and the first output data. For example, it can be determined that the higher the degree of association, the stronger the connection of each data. The degree of association may be indicated by three values or more (three stages or more) such as percentage, or may be indicated by two values (two stages).

(第3実施形態:コンテンツ再生システムの動作)
次に、第3実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図14は、第3実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
(Third Embodiment: Operation of content reproduction system)
Next, an example of the operation of the content reproduction system 100 in the third embodiment will be described. FIG. 14 is a diagram showing an example of the operation of the content reproduction device according to the third embodiment.

<取得ステップS310>
取得ステップS310は、ユーザ等により入力された顔画像データと感情データとテキストデータとを取得する。
<Acquisition step S310>
The acquisition step S310 acquires the face image data, the emotion data, and the text data input by the user or the like.

<第1処理ステップS320>
第1処理ステップS320は、例えば第1処理用データベースを参照し、取得ステップS310で取得した顔画像データと、感情データと、テキストデータとに対する第1処理後顔画像データを生成する。第1処理ステップS320では、例えば第1処理部121は、第1処理用データベースを参照し、顔画像データと、感情データと、テキストデータとに対する第1処理後顔画像データを生成する。これにより、入力されたテキストデータに適した第1処理後顔画像データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、生成部13により、擬似的に第1処理後顔画像データを生成してもよい。また、第1処理ステップS320は、例えば処理部12に含まれる第1処理部121により、処理してもよい。
<First processing step S320>
The first processing step S320 refers to, for example, the database for the first processing, and generates the face image data after the first processing for the face image data, the emotion data, and the text data acquired in the acquisition step S310. In the first processing step S320, for example, the first processing unit 121 refers to the first processing database and generates the face image data, the emotion data, and the post-processed face image data for the text data. This makes it possible to generate face image data after the first processing suitable for the input text data, and it is possible to express a character with high accuracy according to the conversation of the user. Further, the generation unit 13 may generate the face image data after the first processing in a pseudo manner. Further, the first processing step S320 may be processed by, for example, the first processing unit 121 included in the processing unit 12.

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。 By performing each of the steps described above, the operation of the content reproduction system 100 in the present embodiment is completed.

(第4実施形態)
以下、本発明の第4実施形態を適応したコンテンツ再生システム100について説明する。本発明の第4実施形態は、返答モデルを参照し、ユーザが入力した会話文に対する返答を決定し、決定された返答に基づくテキストデータを取得する点で第3実施形態と異なる。また、第3実施形態と同様な構成の説明は省略する。
(Fourth Embodiment)
Hereinafter, the content reproduction system 100 to which the fourth embodiment of the present invention is applied will be described. The fourth embodiment of the present invention is different from the third embodiment in that it refers to a response model, determines a response to a conversational sentence input by the user, and acquires text data based on the determined response. Further, the description of the configuration similar to that of the third embodiment will be omitted.

<コンテンツ再生システム100>
コンテンツ再生システム100は、返答モデルを参照し、ユーザが入力した会話文に対する返答を決定し、決定された返答に基づくテキストデータを取得する。その後、コンテンツ再生システム100は、入力された任意の顔画像データと、感情データと、テキストデータとに対し、第1処理後顔画像データを生成する。コンテンツ再生システム100は、予め取得された参照用会話文と前記参照用会話文に対する返答との対応関係を示す返答モデルを参照し、ユーザが入力した会話文に対する返答を決定し、決定された返答に基づくテキストデータを取得する。
<Content playback system 100>
The content reproduction system 100 refers to the response model, determines a response to the conversational sentence input by the user, and acquires text data based on the determined response. After that, the content reproduction system 100 generates the face image data after the first processing for the input arbitrary face image data, the emotion data, and the text data. The content reproduction system 100 refers to a response model showing a correspondence relationship between a reference conversation sentence acquired in advance and a response to the reference conversation sentence, determines a response to the conversation sentence input by the user, and determines the determined response. Get text data based on.

返答モデルは、例えば表1のようにユーザが入力した会話文に対する返答が一義的に決定されるテーブルであってもよい。かかる場合、例えばユーザが「ただいま」という会話文を入力した場合、「おかえり」という会話文が返答として決定される。また、返答モデルは、ユーザが入力した日本語の会話文を英語に翻訳した会話文を返答として決定してもよい。また、返答モデルは機械学習により生成されてもよい。かかる場合、返答モデルは、参照用会話文を入力、参照用会話文に対する返答を出力とした複数の学習データを用いて機械学習により生成される。

Figure 0006993034000002
The response model may be a table in which the response to the conversational sentence input by the user is uniquely determined, for example, as shown in Table 1. In such a case, for example, when the user inputs the conversational sentence "I'm home", the conversational sentence "Welcome back" is determined as a reply. Further, the response model may determine a conversational sentence obtained by translating a Japanese conversational sentence input by the user into English as a response. The response model may also be generated by machine learning. In such a case, the response model is generated by machine learning using a plurality of learning data in which the reference conversation sentence is input and the response to the reference conversation sentence is output.
Figure 0006993034000002

(第4実施形態:コンテンツ再生システムの動作)
次に、第4実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図15は、第4実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
(Fourth Embodiment: Operation of content reproduction system)
Next, an example of the operation of the content reproduction system 100 in the fourth embodiment will be described. FIG. 15 is a diagram showing an example of the operation of the content reproduction device according to the fourth embodiment.

<取得ステップS410>
取得ステップS410は、ユーザ等により入力された顔画像データと感情データとテキストデータとを取得する。
<Acquisition step S410>
The acquisition step S410 acquires the face image data, the emotion data, and the text data input by the user or the like.

<返答処理ステップS440>
返答処理ステップS440は、例えば返答モデルを参照し、取得ステップS410で取得したテキストデータに対する返答テキストデータを生成する。これにより、入力されたテキストデータに適した返答に基づくテキストデータを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、返答処理ステップS440は、例えば処理部12に含まれる返答処理部123により、処理してもよい。
<Response processing step S440>
The response processing step S440 refers to, for example, the response model, and generates the response text data for the text data acquired in the acquisition step S410. This makes it possible to generate text data based on a response suitable for the input text data, and it is possible to express a character with high accuracy according to the conversation of the user. Further, the response processing step S440 may be processed by, for example, the response processing unit 123 included in the processing unit 12.

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。 By performing each of the steps described above, the operation of the content reproduction system 100 in the present embodiment is completed.

(第5実施形態)
以下、本発明の第5実施形態を適応したコンテンツ再生システム100について説明する。本発明の第5実施形態は、音質データと感情データとテキストデータとに対する音声データを生成し、処理後顔画像データと音声データとに対する表現データを生成する点で第3実施形態と異なる。また、第3実施形態と同様な構成の説明は省略する。
(Fifth Embodiment)
Hereinafter, the content reproduction system 100 to which the fifth embodiment of the present invention is applied will be described. The fifth embodiment of the present invention is different from the third embodiment in that voice data for sound quality data, emotion data, and text data is generated, and expression data for processed facial image data and voice data is generated. Further, the description of the configuration similar to that of the third embodiment will be omitted.

<コンテンツ再生システム100>
コンテンツ再生システム100は、顔画像データと、感情データとテキストデータと声質に関する声質データを取得し、テキストデータと、感情データと、音質データとに基づいて、キャラクターの音声を示す音声データを生成する。その後、コンテンツ再生システム100は、生成された処理後顔画像データと、生成された音声データとに基づいて、キャラクターの表現を示す表現データを生成する。
<Content playback system 100>
The content reproduction system 100 acquires face image data, emotion data, text data, and voice quality data related to voice quality, and generates voice data indicating the voice of the character based on the text data, emotion data, and sound quality data. .. After that, the content reproduction system 100 generates expression data indicating the expression of the character based on the generated processed face image data and the generated voice data.

また、コンテンツ再生システム100は、予め取得された参照用声質データと、参照用テキストデータと、参照用感情データとを含む第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成された音声処理用データベースを参照して、取得した声質データと、テキストデータと、感情データとに基づいて、音声データを生成してもよい。 Further, the content reproduction system 100 includes a third input data including a reference voice quality data acquired in advance, a reference text data, a reference emotion data, and a third output data including a reference voice data. Using a plurality of voice processing training data as a set of data sets, referring to the voice processing database generated by machine learning, voice data based on the acquired voice quality data, text data, and emotion data. May be generated.

音質データは音質を示すデータである。音質データは、例えば音の響きの特徴である音響特徴量を示すデータである。音響特徴量は、例えば、基本周波数、スペクトル包絡、非周期性指標、スペクトログラム、音声の大きさ、ケプストラム、単語の発音、イントネーション、音波の時間遅れ、音声の時間による増減の変化等を示したものである。音質データは、例えばコンテンツ再生装置1等を介して、ユーザ等により入力されてもよい。 Sound quality data is data indicating sound quality. The sound quality data is, for example, data showing an acoustic feature amount which is a feature of sound resonance. The acoustic feature quantity indicates, for example, fundamental frequency, spectral inclusion, aperiodicity index, spectrogram, voice size, cepstrum, word pronunciation, intonation, sound wave time delay, change in increase / decrease with time of voice, etc. Is. The sound quality data may be input by a user or the like via, for example, the content reproduction device 1.

音声データは、音声を符号化したものである。音声の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調(PCM)方式に基づくものと、音声の波の疎密を1bitで表現して一定の間隔で標本化するパルス密度変調(PDM)方式に基づくものなどがある。 The voice data is a coded voice. For example, the coding of voice is based on the pulse code modulation (PCM) method, which is represented as a bit string of a length determined by the number of quantization bits, sampling frequency, and time, and the density of voice waves is expressed in 1 bit. Some are based on the pulse density modulation (PDM) method, which samples at regular intervals.

音声データは、例えば動画データから抽出された音声に基づいたものであってもよい。音声データは、例えば公知の収音装置等を用いて収音された音声のデータを示すほか、例えば公知の技術で生成された擬似的な音声を示してもよい。 The audio data may be based on audio extracted from moving image data, for example. As the voice data, for example, the data of the voice collected by using a known sound collecting device or the like may be shown, or, for example, a pseudo voice generated by a known technique may be shown.

表現データは、キャラクターを含む画像、及びキャラクターの音声によって構成されるキャラクターの表現を示すデータである。表現は、例えば映像的表現、音声的表現、身体的表現等がある。映像的表現は、視覚に働きかける表現であり、身振りや表情等がある。音声的表現は、聴覚に働きかける表現であり、言葉や発言、歌等がある。身体的表現は、触覚に働きかける表現であり、ボディタッチなどがある。表現データは、擬似的に生成された擬似データを含んでいてもよい。また、表現データはキャラクターを含む動画でもよい。 The expression data is data showing the expression of the character composed of the image including the character and the voice of the character. Expressions include, for example, visual expressions, audio expressions, physical expressions, and the like. The visual expression is an expression that works on the visual sense, and includes gestures and facial expressions. Speech expressions are expressions that work on hearing, and include words, remarks, songs, and the like. Physical expressions are expressions that work on the sense of touch, such as body touch. The representation data may include pseudo data generated in a pseudo manner. Further, the expression data may be a moving image including a character.

音声処理用データベースは、機械学習により生成される。音声処理用データベースとして、例えば参照用音質データと参照用感情データと参照用テキストデータとを含む第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする第3処理用学習データを複数用いて、機械学習により生成された、第3入力データから第3出力データを生成するための学習済みモデルが用いられる。かかる場合、音声処理用データベースの生成方法は、入力データを第3入力データ、出力を第3出力データとする点で第1処理用データベースと異なる。 The speech processing database is generated by machine learning. As a database for voice processing, for example, a third input data including reference sound quality data, reference emotion data, and reference text data, and a third output data including reference voice data are used as a set of data sets. A trained model for generating the third output data from the third input data generated by machine learning is used by using a plurality of training data for processing. In such a case, the method of generating the voice processing database is different from the first processing database in that the input data is the third input data and the output is the third output data.

音声処理用データベースは、例えば図16に示すように、参照用音質データと参照用感情データと参照用テキストデータとを含むを第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成される。 As shown in FIG. 16, for example, the voice processing database has a third input data including reference sound quality data, reference emotion data, and reference text data, and a third output data including reference voice data. It is generated by machine learning using a plurality of learning data for voice processing as a set of data sets.

音声処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。音声処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。 The speech processing database is generated using machine learning modeled on, for example, a neural network. The speech processing database is generated by using machine learning using a neural network such as CNN (Convolution Neural Network) as a model, or any model may be used.

音声処理用データベースには、例えば図17に示すように、第3入力データと、第3出力データとの間における連関度を有する第3連関性が記憶される。連関度は、第3入力データと第3出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。 As shown in FIG. 17, for example, the voice processing database stores a third association having a degree of association between the third input data and the third output data. The degree of association indicates the degree of connection between the third input data and the third output data. For example, it can be determined that the higher the degree of association, the stronger the connection of each data. The degree of association may be indicated by three values or more (three stages or more) such as percentage, or may be indicated by two values (two stages).

(第5実施形態:コンテンツ再生システムの動作)
次に、第5実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図18は、第5実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
(Fifth Embodiment: Operation of content reproduction system)
Next, an example of the operation of the content reproduction system 100 in the fifth embodiment will be described. FIG. 18 is a diagram showing an example of the operation of the content reproduction device according to the fifth embodiment.

<取得ステップS510>
取得ステップS510は、ユーザ等により入力された顔画像データと感情データとテキストデータと音質データとを取得する。
<Acquisition step S510>
The acquisition step S510 acquires the face image data, the emotion data, the text data, and the sound quality data input by the user or the like.

<音声処理ステップS550>
音声処理ステップS550は、例えば音声処理用データベースを参照し、取得ステップS310で取得した音質データと、感情データと、テキストデータとに対する音声データを生成する。音声処理ステップS550では、例えば音声処理部124は、音声処理用データベースを参照し、音質データと、感情データと、テキストデータとに対する音声データを生成する。これにより、入力された音質データと、感情データと、テキストデータとに適した音声データを生成することが可能となり、ユーザの会話に合わせた精度の高いキャラクターの表現が可能となる。また、音声処理ステップS550は、例えば処理部12に含まれる音声処理部124により、処理してもよい。
<Voice processing step S550>
The voice processing step S550 refers to, for example, a voice processing database, and generates voice data for the sound quality data, emotion data, and text data acquired in the acquisition step S310. In the voice processing step S550, for example, the voice processing unit 124 refers to the voice processing database and generates voice data for the sound quality data, the emotion data, and the text data. This makes it possible to generate voice data suitable for the input sound quality data, emotion data, and text data, and it is possible to express a character with high accuracy according to the user's conversation. Further, the voice processing step S550 may be processed by, for example, the voice processing unit 124 included in the processing unit 12.

<表現生成ステップS560>
表現生成ステップS560は、生成された音声データと処理後顔画像データとに基づいて表現データを生成する。処理後顔画像データは、例えば第1処理後顔画像データ、又は第2処理後顔画像データを含む。また、表現生成ステップS560は、例えば生成部13により、処理してもよい。
<Expression generation step S560>
The expression generation step S560 generates expression data based on the generated voice data and the processed face image data. The processed face image data includes, for example, the first post-processed face image data or the second post-processed face image data. Further, the expression generation step S560 may be processed by, for example, the generation unit 13.

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。 By performing each of the steps described above, the operation of the content reproduction system 100 in the present embodiment is completed.

(第6実施形態)
以下、本発明の第6実施形態を適応したコンテンツ再生システム100について説明する。本発明の第6実施形態は、顔画像データとテキストデータに対する第1処理後顔画像データを生成する点で第1実施形態と異なる。また、第1実施形態と同様な構成の説明は省略する。
(Sixth Embodiment)
Hereinafter, the content reproduction system 100 to which the sixth embodiment of the present invention is applied will be described. The sixth embodiment of the present invention is different from the first embodiment in that the face image data after the first processing for the face image data and the text data are generated. Further, the description of the configuration similar to that of the first embodiment will be omitted.

<コンテンツ再生システム100>
コンテンツ再生システム100は、図19に示すように、第1処理用データベースを参照して生成された顔画像データとテキストデータとに対する第1処理後顔画像データを生成するために用いられる。コンテンツ再生システム100は、例えば学習データを用いた機械学習により生成された第1処理用データベースを参照し、顔画像データと、テキストデータとに対する第1処理後顔画像データを生成する。
<Content playback system 100>
As shown in FIG. 19, the content reproduction system 100 is used to generate the face image data after the first processing for the face image data and the text data generated by referring to the database for the first processing. The content reproduction system 100 refers to, for example, a first processing database generated by machine learning using learning data, and generates face image data and first processed face image data for text data.

第1処理用データベースは、例えば機械学習により生成される。第1処理用データベースとして、例えば参照用顔画像データと参照用テキストデータとを含む第1入力データと、参照用第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された、第1入力データから第1出力データを生成するための学習済みモデルが用いられる。かかる場合、第1処理用データベースの生成方法は、入力データに顔画像データとテキストデータが含まれる点で第1実施形態における第1処理用データベースと異なる。 The first processing database is generated by machine learning, for example. As the first processing database, for example, the first input data including the reference face image data and the reference text data and the first output data including the reference first processed face image data are combined with a set of data sets. A trained model for generating the first output data from the first input data generated by machine learning is used by using a plurality of the training data for the first processing. In such a case, the method for generating the first processing database is different from the first processing database in the first embodiment in that the input data includes face image data and text data.

第1処理用データベースは、例えば図20に示すように、参照用顔画像データと参照用テキストデータと含むを第1入力データと、参照用第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成される。 As shown in FIG. 20, for example, the first processing database includes first input data including reference face image data and reference text data, and first output data including reference first processed face image data. Is generated by machine learning using a plurality of first processing training data having the above as a set of data sets.

第1処理用データベースは、例えばニューラルネットワークをモデルとした機械学習を用いて、生成される。第1処理用データベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。 The first processing database is generated using, for example, machine learning using a neural network as a model. The first processing database is generated by using machine learning using a neural network such as CNN (Convolution Neural Network) as a model, or any model may be used.

第1処理用データベースには、例えば図21に示すように第1入力データと、第1出力データとの間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。 In the first processing database, for example, as shown in FIG. 21, the first association having a degree of association between the first input data and the first output data is stored. The degree of association indicates the degree of connection between the first input data and the first output data. For example, it can be determined that the higher the degree of association, the stronger the connection of each data. The degree of association may be indicated by three values or more (three stages or more) such as percentage, or may be indicated by two values (two stages).

(第6実施形態:コンテンツ再生システムの動作)
次に、第6実施形態におけるコンテンツ再生システム100の動作の一例について説明する。図22は、第2実施形態におけるコンテンツ再生装置の動作の一例を示す図である。
(Sixth Embodiment: Operation of content reproduction system)
Next, an example of the operation of the content reproduction system 100 in the sixth embodiment will be described. FIG. 22 is a diagram showing an example of the operation of the content reproduction device according to the second embodiment.

<取得ステップS610>
取得ステップS610は、ユーザ等により入力された顔画像データとテキストデータとを取得する。取得ステップS610では、例えば取得部11が、顔画像データとテキストデータとを取得する。また、取得ステップS610は、例えば、動画のように顔画像データと、顔画像データに紐づいた音声データを取得して、取得した音声データを音声認識することによりテキストデータを取得してもよい。
<Acquisition step S610>
The acquisition step S610 acquires the face image data and the text data input by the user or the like. In the acquisition step S610, for example, the acquisition unit 11 acquires the face image data and the text data. Further, the acquisition step S610 may acquire text data by acquiring face image data and voice data associated with the face image data as in a moving image and recognizing the acquired voice data by voice. ..

<第1処理ステップS620>
第1処理ステップS620は、例えば第1処理用データベースを参照し、取得ステップS610で取得した顔画像データと、テキストデータとに対する第1処理後顔画像データを生成する。第1処理ステップS620では、例えば第1処理部121は、第1処理用データベースを参照し、顔画像データと、テキストデータとに対する第1処理後顔画像データを生成する。これにより、入力されたテキストデータに適した第1処理後顔画像データを生成することが可能となり、ユーザの会話に合わせたキャラクターの表現が可能となる。また、生成部13により、擬似的に第1処理後顔画像データを生成してもよい。また、第1処理ステップS620は、例えば処理部12に含まれる第1処理部121により、処理してもよい。
<First processing step S620>
The first processing step S620 refers to, for example, the database for the first processing, and generates the face image data after the first processing for the face image data acquired in the acquisition step S610 and the text data. In the first processing step S620, for example, the first processing unit 121 refers to the first processing database and generates the face image data and the first processed face image data for the text data. This makes it possible to generate face image data after the first processing suitable for the input text data, and it is possible to express a character according to the conversation of the user. Further, the generation unit 13 may generate the face image data after the first processing in a pseudo manner. Further, the first processing step S620 may be processed by, for example, the first processing unit 121 included in the processing unit 12.

上述した各ステップを行うことで、本実施形態におけるコンテンツ再生システム100の動作が完了する。 By performing each of the steps described above, the operation of the content reproduction system 100 in the present embodiment is completed.

本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. These embodiments and variations thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.

1 :コンテンツ再生装置
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
13 :生成部
14 :出力部
15 :記憶部
16 :DB生成部
100 :コンテンツ再生システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
121 :第1処理部
122 :第2処理部
123 :返答処理部
124 :音声処理部
S110 :取得ステップ
S120 :第1処理ステップ
S130 :出力ステップ
S210 :取得ステップ
S220 :第1処理ステップ
S230 :出力ステップ
S240 :第2処理ステップ
S310 :取得ステップ
S320 :第1処理ステップ
S330 :出力ステップ
S410 :取得ステップ
S420 :第1処理ステップ
S430 :出力ステップ
S440 :返答処理ステップ
S510 :取得ステップ
S520 :第1処理ステップ
S530 :出力ステップ
S550 :音声処理ステップ
S560 :表現生成ステップ
S610 :取得ステップ
S620 :第1処理ステップ
S630 :出力ステップ
1: Content playback device 2: Terminal 3: Server 4: Communication network 10: Housing 11: Acquisition unit 12: Processing unit 13: Generation unit 14: Output unit 15: Storage unit 16: DB generation unit 100: Content playback system 101 : CPU
102: ROM
103: RAM
104: Storage unit 105: I / F
106: I / F
107: I / F
108: Input unit 109: Display unit 110: Internal bus 121: First processing unit 122: Second processing unit 123: Response processing unit 124: Voice processing unit S110: Acquisition step S120: First processing step S130: Output step S210: Acquisition step S220: First processing step S230: Output step S240: Second processing step S310: Acquisition step S320: First processing step S330: Output step S410: Acquisition step S420: First processing step S430: Output step S440: Response processing Step S510: Acquisition step S520: First processing step S530: Output step S550: Speech processing step S560: Expression generation step S610: Acquisition step S620: First processing step S630: Output step

Claims (5)

キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得ステップと、
予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得ステップにより取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成ステップと
前記第1生成ステップにより生成された第1処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第1処理後顔画像データの一部を変化させた第2処理後顔画像データを生成する第2生成ステップと
コンピュータに実行させ
前記第2生成ステップは、予め取得された参照用第1処理後顔画像データと、参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された第2処理用データベースを参照して、前記第1生成ステップにより生成された第1処理後顔画像データと、前記取得ステップにより取得したテキストデータとに基づいて、前記第2処理後顔画像データを生成すること
を特徴とするコンテンツ再生方法。
An acquisition step for acquiring face image data including a character's face, emotion data indicating emotions, and text data ,
The first input data including the reference face image data and the reference emotion data acquired in advance includes the face of the same character as the character included in the reference face image data, and is different from the reference face image data. The above-mentioned The first generation step of generating the face image data after the first processing for the face image data and the emotion data acquired by the acquisition step, and
After the second processing, a part of the post-processed face image data is changed based on the post-processed face image data generated by the first generation step and the text data acquired by the acquisition step. Let the computer perform the second generation step to generate the face image data ,
In the second generation step, the second input data including the first post-processed face image data for reference and the text data for reference acquired in advance, and the second output data including the second post-processed face image data for reference are included. With reference to the second processing database generated by machine learning using a plurality of second processing training data having To generate the face image data after the second processing based on the image data and the text data acquired in the acquisition step.
A content playback method characterized by.
前記取得ステップは、声質に関する声質データを取得し、
前記取得ステップにより取得した声質データと、テキストデータと、感情データとに基づいて、前記キャラクターの音声を示す音声データを生成する音声処理ステップと、
前記第2生成ステップにより生成された第2処理後顔画像データと、前記音声処理ステップにより生成された音声データとに基づいて、前記キャラクターの表現を示す表現データを生成する表現生成ステップとをさらにコンピュータに実行させること
を特徴とする請求項に記載のコンテンツ再生方法。
The acquisition step acquires voice quality data regarding voice quality and obtains voice quality data.
A voice processing step that generates voice data indicating the voice of the character based on the voice quality data, the text data, and the emotion data acquired in the acquisition step.
Further, an expression generation step for generating expression data indicating the expression of the character based on the second processed face image data generated by the second generation step and the voice data generated by the voice processing step. The content reproduction method according to claim 1 , wherein the data is executed by a computer.
前記音声処理ステップは、予め取得された参照用声質データと、参照用テキストデータと、参照用感情データとを含む第3入力データと、参照用音声データを含む第3出力データとを一組のデータセットとする音声処理用学習データを複数用いて、機械学習により生成された音声処理用データベースを参照して、前記取得ステップにより取得した声質データと、テキストデータと、感情データとに対する前記音声データを生成すること
を特徴とする請求項に記載のコンテンツ再生方法。
The voice processing step includes a set of a third input data including a reference voice quality data acquired in advance, a reference text data, a reference emotion data, and a third output data including the reference voice data. Using a plurality of voice processing training data as a data set, referring to the voice processing database generated by machine learning, the voice data acquired in the acquisition step, the text data, and the voice data for the emotion data. The content reproduction method according to claim 2 , wherein the data is generated.
前記取得ステップは、予め取得された参照用会話文データと前記参照用会話文データに対する返答データとの対応関係を示す返答モデルを参照し、ユーザが入力した会話文データに対する返答データを決定し、決定された返答データに基づく前記テキストデータを取得すること
を特徴とする請求項1~3の何れか1項に記載のコンテンツ再生方法。
The acquisition step refers to a response model showing a correspondence relationship between the reference conversation data acquired in advance and the response data for the reference conversation data, determines the response data for the conversation data input by the user, and determines the response data. The content reproduction method according to any one of claims 1 to 3, wherein the text data based on the determined response data is acquired.
キャラクターの顔を含む顔画像データと、感情を示す感情データと、テキストデータとを取得する取得手段と、
予め取得された参照用顔画像データと参照用感情データとを含む第1入力データと、前記参照用顔画像データに含まれるキャラクターと同一のキャラクターの顔を含むと共に前記参照用顔画像データと異なる第1処理後顔画像データを含む第1出力データとを一組のデータセットとする第1処理用学習データを複数用いて、機械学習により生成された第1処理用データベースを参照して、前記取得手段により取得した顔画像データと感情データとに対する第1処理後顔画像データを生成する第1生成手段と
前記第1生成手段により生成された第1処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第1処理後顔画像データの一部を変化させた第2処理後顔画像データを生成する第2生成手段と
備え、
前記第2生成手段は、予め取得された参照用第1処理後顔画像データと、参照用テキストデータとを含む第2入力データと、参照用第2処理後顔画像データを含む第2出力データとを一組のデータセットとする第2処理用学習データを複数用いて、機械学習により生成された第2処理用データベースを参照して、前記第1生成手段により生成された第1処理後顔画像データと、前記取得手段により取得したテキストデータとに基づいて、前記第2処理後顔画像データを生成すること
を特徴とするコンテンツ再生システム。
An acquisition method for acquiring face image data including a character's face, emotion data indicating emotions, and text data ,
The first input data including the reference face image data and the reference emotion data acquired in advance includes the face of the same character as the character included in the reference face image data, and is different from the reference face image data. The above-mentioned The first generation means for generating the face image data after the first processing for the face image data and the emotion data acquired by the acquisition means , and the first generation means .
After the second processing, a part of the post-processed face image data is changed based on the post-processed face image data generated by the first generation means and the text data acquired by the acquisition means. With a second generation means to generate face image data
Prepare,
The second generation means includes second input data including a pre-acquired first post-processed face image data for reference, text data for reference, and second output data including second post-processed face image data for reference. The first post-processing face generated by the first generation means with reference to the second processing database generated by machine learning using a plurality of second processing training data having To generate the face image data after the second processing based on the image data and the text data acquired by the acquisition means.
A content playback system featuring.
JP2021082702A 2021-05-14 2021-05-14 Content playback method and content playback system Active JP6993034B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021082702A JP6993034B1 (en) 2021-05-14 2021-05-14 Content playback method and content playback system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021082702A JP6993034B1 (en) 2021-05-14 2021-05-14 Content playback method and content playback system

Publications (2)

Publication Number Publication Date
JP6993034B1 true JP6993034B1 (en) 2022-01-13
JP2022175923A JP2022175923A (en) 2022-11-25

Family

ID=80213770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021082702A Active JP6993034B1 (en) 2021-05-14 2021-05-14 Content playback method and content playback system

Country Status (1)

Country Link
JP (1) JP6993034B1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001357413A (en) 2000-06-13 2001-12-26 Minolta Co Ltd Animation conversation system and server to be used for it
JP2003202885A (en) 2001-12-28 2003-07-18 Canon Electronics Inc Information processor and information processing method
JP2003248837A (en) 2001-11-12 2003-09-05 Mega Chips Corp Device and system for image generation, device and system for sound generation, server for image generation, program, and recording medium
JP2007183421A (en) 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd Speech synthesizer apparatus
JP2010531478A (en) 2007-04-26 2010-09-24 フォード グローバル テクノロジーズ、リミテッド ライアビリティ カンパニー Emotional advice system and method
WO2018168427A1 (en) 2017-03-13 2018-09-20 ソニー株式会社 Learning device, learning method, speech synthesizer, and speech synthesis method
JP2020184100A (en) 2019-04-26 2020-11-12 株式会社スクウェア・エニックス Information processing program, information processing apparatus, information processing method and learned model generation method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001357413A (en) 2000-06-13 2001-12-26 Minolta Co Ltd Animation conversation system and server to be used for it
JP2003248837A (en) 2001-11-12 2003-09-05 Mega Chips Corp Device and system for image generation, device and system for sound generation, server for image generation, program, and recording medium
JP2003202885A (en) 2001-12-28 2003-07-18 Canon Electronics Inc Information processor and information processing method
JP2007183421A (en) 2006-01-06 2007-07-19 Matsushita Electric Ind Co Ltd Speech synthesizer apparatus
JP2010531478A (en) 2007-04-26 2010-09-24 フォード グローバル テクノロジーズ、リミテッド ライアビリティ カンパニー Emotional advice system and method
WO2018168427A1 (en) 2017-03-13 2018-09-20 ソニー株式会社 Learning device, learning method, speech synthesizer, and speech synthesis method
JP2020184100A (en) 2019-04-26 2020-11-12 株式会社スクウェア・エニックス Information processing program, information processing apparatus, information processing method and learned model generation method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
k17trpsynth’s blog,音声認識と合成についてのまとめ,[online],2018年01月30日,https://k17trpsynth.hatenablog.com/entry/2018/01/30/191338,[検索日:2021-08-20]

Also Published As

Publication number Publication date
JP2022175923A (en) 2022-11-25

Similar Documents

Publication Publication Date Title
KR102582291B1 (en) Emotion information-based voice synthesis method and device
US20210249013A1 (en) Method and Apparatus to Provide Comprehensive Smart Assistant Services
US9916825B2 (en) Method and system for text-to-speech synthesis
WO2020073944A1 (en) Speech synthesis method and device
TWI454955B (en) An image-based instant message system and method for providing emotions expression
CN111785246B (en) Virtual character voice processing method and device and computer equipment
US20220180872A1 (en) Electronic apparatus and method for controlling thereof
EP3151239A1 (en) Method and system for text-to-speech synthesis
JP7242736B2 (en) Information processing device, information processing method, and information processing program
WO2020145353A1 (en) Computer program, server device, terminal device, and speech signal processing method
TWI470620B (en) Method and system for text to speech conversion
CN114038484A (en) Voice data processing method and device, computer equipment and storage medium
JP6347938B2 (en) Utterance key word extraction device, key word extraction system using the device, method and program thereof
CN110781327B (en) Image searching method and device, terminal equipment and storage medium
JP6993034B1 (en) Content playback method and content playback system
CN110781329A (en) Image searching method and device, terminal equipment and storage medium
JP6222465B2 (en) Animation generating apparatus, animation generating method and program
KR20200082232A (en) Apparatus for analysis of emotion between users, interactive agent system using the same, terminal apparatus for analysis of emotion between users and method of the same
US11749270B2 (en) Output apparatus, output method and non-transitory computer-readable recording medium
JP2014109998A (en) Interactive apparatus and computer interactive method
JP7055529B1 (en) Meaning judgment program and meaning judgment system
JP6930781B1 (en) Learning method and content playback device
JP2020204683A (en) Electronic publication audio-visual system, audio-visual electronic publication creation program, and program for user terminal
CN111971670A (en) Generating responses in a conversation
JP7230085B2 (en) Method and device, electronic device, storage medium and computer program for processing sound

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210519

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211202

R150 Certificate of patent or registration of utility model

Ref document number: 6993034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150