JP6796762B1 - Virtual person dialogue system, video generation method, video generation program - Google Patents
Virtual person dialogue system, video generation method, video generation program Download PDFInfo
- Publication number
- JP6796762B1 JP6796762B1 JP2019215306A JP2019215306A JP6796762B1 JP 6796762 B1 JP6796762 B1 JP 6796762B1 JP 2019215306 A JP2019215306 A JP 2019215306A JP 2019215306 A JP2019215306 A JP 2019215306A JP 6796762 B1 JP6796762 B1 JP 6796762B1
- Authority
- JP
- Japan
- Prior art keywords
- virtual person
- video
- person
- model
- personality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 14
- 238000012545 processing Methods 0.000 claims abstract description 60
- 239000000284 extract Substances 0.000 claims abstract description 22
- 238000003780 insertion Methods 0.000 claims abstract description 10
- 230000037431 insertion Effects 0.000 claims abstract description 10
- 230000004044 response Effects 0.000 claims description 29
- 238000012937 correction Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 208000025967 Dissociative Identity disease Diseases 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 7
- 238000013500 data storage Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000003702 image correction Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000009966 trimming Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
【課題】 簡易な構成で仮想人物の発話映像を生成できる。【解決手段】 人が動作する映像モデルを複数種類記憶する映像モデルデータベース21と、映像モデルデータベース内のデータから、仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択部315と、登録される情報ソースから、生成する仮想人物の顔データを抽出する映像処理部31と、顔データを使用映像モデルに統合する顔挿入部316と、情報ソースから音声を抽出し、仮想人物の声を生成する音声処理部32と、顔データが統合された使用映像モデルと、生成された仮想人物の声と、に基づいて、仮想人物が発話する映像を生成する映像表示処理部41と、を備える、仮想人物対話システム1。【選択図】図1PROBLEM TO BE SOLVED: To generate an utterance video of a virtual person with a simple configuration. SOLUTION: A video model database 21 for storing a plurality of types of video models in which a person operates, a video model selection unit 315 for selecting a video model to be used for generating a virtual person from data in the video model database, and registration. The video processing unit 31 that extracts the face data of the virtual person to be generated from the information source to be generated, the face insertion unit 316 that integrates the face data into the video model used, and the voice of the virtual person by extracting the voice from the information source. It includes a sound processing unit 32 to generate, a video model used in which face data is integrated, and a video display processing unit 41 to generate a video spoken by the virtual person based on the generated voice of the virtual person. , Virtual person dialogue system 1. [Selection diagram] Fig. 1
Description
本発明は、仮想人物対話システム、仮想人物対話システムによる映像生成方法および仮想人物対話システムの映像生成プログラムに関する。 The present invention relates to a virtual person dialogue system, a video generation method by the virtual person dialogue system, and a video generation program of the virtual person dialogue system.
特許文献1には、指定された特定の顔画像データと、補正処理に利用された顔画像データとに基づいて、顔認識データ用メモリに記憶すべき顔画像データを補正し、正面以外の角度や方向の画像でも個人の顔の顔検出を行う撮像装置が開示されている。
In
特許文献2には、あらかじめ作成されている会話テンプレートの中から、入力された文に対応する文を選択し、選択された文を仮想エージェントのエージェント情報に基づいて加工して応答文を生成する、会話文生成装置が開示されている。 In Patent Document 2, a sentence corresponding to the input sentence is selected from the conversation templates created in advance, and the selected sentence is processed based on the agent information of the virtual agent to generate a response sentence. , A conversational sentence generator is disclosed.
故人や有名人等、実際にはそこに存在しない特定の仮想人物の動画を生成し、現実味のある対話を実現するためには、映像、音声、性格の特性等、仮想人物に関する膨大な情報が必要である。また、これらの情報を統合して仮想人物を生成するには、コンピュータグラフィックス等を用いて映像を生成するため、大規模な設備やコンテンツを購入する必要があり、個人レベルで使用するのは困難であった。そこで、簡易な構成で仮想人物の発話映像を生成できるシステムが必要とされている。 In order to generate a video of a specific virtual person who does not actually exist, such as a deceased person or a celebrity, and to realize a realistic dialogue, a huge amount of information about the virtual person such as video, audio, and personality traits is required. Is. In addition, in order to integrate this information and generate a virtual person, it is necessary to purchase large-scale equipment and contents because video is generated using computer graphics etc., so it is not necessary to use it at the individual level. It was difficult. Therefore, there is a need for a system that can generate an utterance video of a virtual person with a simple configuration.
本発明は、簡易な構成で仮想人物の発話映像を生成することを目的の1つとする。 One of the objects of the present invention is to generate an utterance video of a virtual person with a simple configuration.
上記目的を達成するため、本発明の一の観点に係る仮想人物対話システムは、人が動作する映像モデルを複数種類記憶する映像モデルデータベースと、前記映像モデルデータベース内のデータから、仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択部と、登録される情報ソースから、前記仮想人物の顔データを抽出する映像処理部と、前記顔データを前記使用映像モデルに統合する顔挿入部と、前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理部と、前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理部と、を備える。 In order to achieve the above object, the virtual person dialogue system according to one aspect of the present invention generates a virtual person from a video model database that stores a plurality of types of video models in which a person operates and data in the video model database. A video model selection unit that selects the video model to be used, a video processing unit that extracts the face data of the virtual person from the registered information source, and a face insertion unit that integrates the face data into the video model to be used. Based on the voice processing unit that extracts voice from the information source and generates the voice of the virtual person, the video model used in which the face data is integrated, and the generated voice of the virtual person. , A video display processing unit that generates a video spoken by the virtual person.
人物の性格モデルを複数記憶する性格モデルデータベースと、前記仮想人物の性格に関する質問を提示し、前記質問に対する回答に基づいて、前記仮想人物の生成に使用する使用性格モデルを前記性格モデルデータベース内のデータから選択する性格モデル選択部と、前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理部と、をさらに備えるものとしてもよい。 A personality model database that stores a plurality of personality models of a person and a question about the personality of the virtual person are presented, and based on the answer to the question, a personality model used to generate the virtual person is stored in the personality model database. A personality model selection unit that selects from data and a dialogue processing unit that generates a message spoken by the virtual person based on the usage personality model may be further provided.
前記性格モデル選択部は、前記仮想人物が作成した記録に基づいて前記使用性格モデルを選択するものとしてもよい。 The personality model selection unit may select the personality model based on the record created by the virtual person.
前記仮想人物への質問が入力される入力部と、前記仮想人物の返答を出力する出力部と、をさらに備え、前記対話処理部は、前記質問に対する返答を生成し、前記出力部から前記返答を出力させるものとしてもよい。 An input unit for inputting a question to the virtual person and an output unit for outputting the response of the virtual person are further provided, the dialogue processing unit generates a response to the question, and the output unit outputs the response. May be output.
前記メッセージに対する評価に基づいて前記使用性格モデルを補正する性格モデル補正部をさらに備えるものとしてもよい。 A personality model correction unit that corrects the personality model based on the evaluation of the message may be further provided.
上記目的を達成するため、本発明の別の観点に係る映像生成方法は、人が動作する映像モデルを複数種類記憶する映像モデルデータベースを備える仮想人物対話システムにより、仮想人物の映像を生成する方法であって、
前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択ステップと、登録される情報ソースから、生成する仮想人物の顔データを抽出する映像処理ステップと、前記顔データを前記使用映像モデルに統合する顔挿入ステップと、前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理ステップと、前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理ステップと、を含む。
In order to achieve the above object, a video generation method according to another aspect of the present invention is a method of generating a video of a virtual person by a virtual person dialogue system including a video model database that stores a plurality of types of video models in which a person operates. And
A video model selection step of selecting a video model to be used for generating the virtual person from the data in the video model database, and a video processing step of extracting face data of the virtual person to be generated from the registered information source. , A face insertion step that integrates the face data into the used video model, a voice processing step that extracts voice from the information source and generates a voice of the virtual person, and the used video model in which the face data is integrated. And a video display processing step of generating a video spoken by the virtual person based on the generated voice of the virtual person.
上記目的を達成するため、本発明のさらに別の観点に係る映像生成プログラムは、人が動作する映像モデルを複数種類記憶する映像モデルデータベースを備える仮想人物対話システムにより、仮想人物の映像を生成するコンピュータプログラムであって、前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択命令と、登録される情報ソースから、生成する仮想人物の顔データを抽出する映像処理命令と、前記顔データを前記使用映像モデルに統合する顔挿入命令と、前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理命令と、前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理命令と、をコンピュータに実行させる。
なお、コンピュータプログラムは、インターネット等のネットワークを介したダウンロードによって提供したり、CD−ROMなどのコンピュータ読取可能な各種の記録媒体に記録して提供したりすることができる。
In order to achieve the above object, the video generation program according to still another aspect of the present invention generates a video of a virtual person by a virtual person dialogue system including a video model database that stores a plurality of types of video models in which a person operates. A computer program that selects a video model to be used to generate the virtual person from the data in the video model database, and a face data of the virtual person to be generated from the registered information source. The video processing command to be extracted, the face insertion command to integrate the face data into the video model used, the voice processing command to extract the voice from the information source and generate the voice of the virtual person, and the face data are integrated. A computer is made to execute a video display processing command for generating a video spoken by the virtual person based on the generated video model used and the generated voice of the virtual person.
The computer program can be provided by downloading via a network such as the Internet, or can be recorded and provided on various computer-readable recording media such as a CD-ROM.
本発明によれば、簡易な構成で仮想人物の発話映像を生成できる。 According to the present invention, it is possible to generate an utterance video of a virtual person with a simple configuration.
以下、本発明にかかる仮想人物対話システム、映像生成方法、および映像生成プログラムの実施の形態について、図面を参照しながら説明する。 Hereinafter, the virtual person dialogue system, the image generation method, and the embodiment of the image generation program according to the present invention will be described with reference to the drawings.
●仮想人物対話システムの概要
仮想人物対話システムは、実際にはそこにいない特定の仮想人物の動画、声を再生し、また発話内容を自動生成することで、ユーザが仮想人物との対話を疑似的に行うことができるシステムである。仮想人物の生成対象となる人物(以下、「対象人物」ともいう。)は、故人や有名人、戦争体験者等の語り手等、場所や時間の制限により話す機会が無い又は限られる人物が想定されるが、どのような人物であってもよい。仮想人物は、ユーザから登録される、対象人物に関する情報および後述するモデルデータに基づいて生成される。仮想人物は、ユーザ端末10(図1参照)上において再生され、あたかも実際に存在しているかのように、動作し、発話し、ユーザに話しかけたり、ユーザからの質問に答えたりする。
● Overview of the virtual person dialogue system The virtual person dialogue system simulates the user's dialogue with the virtual person by playing the video and voice of a specific virtual person who is not actually there and automatically generating the utterance content. It is a system that can be done in a targeted manner. The person to be generated as a virtual person (hereinafter, also referred to as "target person") is assumed to be a person who has no or limited opportunity to speak due to restrictions on place and time, such as a deceased person, a celebrity, a narrator such as a war-experienced person, etc. However, it can be any person. The virtual person is generated based on the information about the target person registered by the user and the model data described later. The virtual person is played on the user terminal 10 (see FIG. 1) and operates, speaks, speaks to the user, and answers questions from the user as if it actually exists.
図1に示すように、ユーザUは、ユーザ端末10を介して、仮想人物対話システムの一部又は全部の構成を備えるクラウドコンピュータCと通信を行うことで、仮想人物Kと対話を行う。ユーザUがユーザ端末10を介してクラウドコンピュータCにログインすると(ステップs1)、クラウドコンピュータCから仮想人物Kの映像が送信される(ステップs2)。ユーザUが仮想人物Kに話しかけると(ステップs3)、クラウドコンピュータCは、入力されたメッセージの内容を解析し、あらかじめ決定されている仮想人物Kの性格に基づいて返答を生成し、ユーザ端末10上で映像と共に再生させる(ステップs4)。
As shown in FIG. 1, the user U interacts with the virtual person K by communicating with the cloud computer C having a part or the whole configuration of the virtual person dialogue system via the
図2に示すように、本発明にかかる仮想人物対話システム1(以下、「本システム1」ともいう。)は、記憶装置20と、仮想人物生成装置30と、動画生成装置40と、がネットワークNWを介して接続されて構成されている。本システム1は、顧客が有するユーザ端末10とネットワークNWで接続され、相互に情報の送受信が可能である。
As shown in FIG. 2, in the virtual person dialogue system 1 (hereinafter, also referred to as “the
ユーザ端末10、記憶装置20、仮想人物生成装置30および動画生成装置40の相互の接続は、それぞれ無線であっても有線であってもよい。なお、記憶装置20、仮想人物生成装置30および動画生成装置40は、1個の装置で構成されていてもよい。また、記憶装置20、仮想人物生成装置30および動画生成装置40の機能の一部又は全部がクラウドコンピュータC上に実現されていてもよい。
The connection between the
ユーザ端末10は、仮想人物と対話するユーザが使用するコンピュータであり、入力部11、出力部12、表示部13、情報ソース登録部14、および通信処理部19を備える。ユーザ端末10は、例えばパーソナルコンピュータである。また、ユーザ端末10は、スマートホンやタブレットであってもよい。本システム1に接続されるユーザ端末10は、単数であっても複数であってもよい。
The
入力部11は、ユーザから仮想人物へのメッセージを入力する機能部であり、キーボード、タッチパネルディスプレイおよびマイクロホン等により構成される。 The input unit 11 is a functional unit for inputting a message from the user to the virtual person, and is composed of a keyboard, a touch panel display, a microphone, and the like.
出力部12は、仮想人物のメッセージが出力される機能部である。出力部12は、メッセージを文字表示するディスプレイ、又はメッセージを音声出力するスピーカ等により構成される。 The output unit 12 is a functional unit that outputs a message of a virtual person. The output unit 12 includes a display that displays a message in characters, a speaker that outputs a message by voice, and the like.
ユーザ端末10の表示部13は、液晶画面等の平面的な再生機器の他、ヘッドマウントディスプレイ型のVR表示装置や、ホログラム(立体映像)表示装置等の、仮想人物の像を立体的に再生する機器であってもよい。ユーザ端末10が仮想人物の像を立体的に再生する装置である構成によれば、仮想人物との対話をより現実感のあるものとすることができる。また、表示部13は、複数のユーザが同時に1個の仮想人物の像を視認可能な投影装置であってもよい。
The display unit 13 of the
表示部13は、本システム1独自のUIにより表示されてもよいし、本システム1がSKYPE(登録商標)等既存のチャットツールと連動して、仮想人物からのメッセージや動画が既存のツールに表示されてもよい。この構成によれば、実際の人物とチャットをしているような感覚を得ることができ、仮想人物との対話を現実感のあるものとすることができる。
The display unit 13 may be displayed by the UI unique to the
情報ソース登録部14は、対象人物に関する情報、すなわち対象人物の情報ソースを取得する機能部である。情報ソースは、例えば対象人物が含まれる動画、静止画および音源、ならびに対象人物が作成した日記等の記録文書、趣味嗜好を表す文書、SNS等の文字データを含む。また、情報ソースは、衣服等の所有物に関する情報を含む。情報ソースは、ユーザにより登録される他、インターネットを通じて取得してもよい。取得される情報ソースは、仮想人物生成装置30に送信される。 The information source registration unit 14 is a functional unit that acquires information about the target person, that is, an information source of the target person. The information source includes, for example, moving images including the target person, still images and sound sources, recorded documents such as a diary created by the target person, documents expressing hobbies and tastes, and character data such as SNS. Information sources also include information about property such as clothing. The information source may be registered by the user or acquired through the Internet. The acquired information source is transmitted to the virtual person generation device 30.
通信処理部19は、ネットワークNWを介して本システム1と情報の授受を行う機能部であり、通信の形式は任意である。
The communication processing unit 19 is a functional unit that exchanges information with the
ユーザがユーザ端末10を通じて対象人物の情報を登録すると、仮想人物生成装置30は、当該情報を処理して、仮想人物の映像や声、性格等を決定づける。決定された仮想人物のデータは記憶装置20に格納され、動画生成装置40により適宜呼び出される。動画生成装置40は、仮想人物データに基づいて仮想人物の映像、声、メッセージを含む動画を生成し、ユーザ端末10上に表示させる。
When the user registers the information of the target person through the
●記憶装置の構成
記憶装置20は、情報処理を実行するためのCPU(Central Processing Unit)などの演算装置、RAM(Random Access Memory)やROM(Read Only Memory)などの記憶装置を備え、これによりソフトウェア資源として少なくとも、映像モデルDB21、性格モデルDB22、仮想人物データ記憶部23、および通信処理部29を有する。なお、本明細書において「DB」は「データベース」の略である。
● Configuration of storage device The storage device 20 includes an arithmetic unit such as a CPU (Central Processing Unit) for executing information processing, and a storage device such as RAM (Random Access Memory) and ROM (Read Only Memory). As software resources, it has at least a video model DB 21, a personality model DB 22, a virtual person data storage unit 23, and a communication processing unit 29. In this specification, "DB" is an abbreviation for "database".
映像モデルDB21は、人が動作する映像モデルを複数種類記憶する記憶部である。映像モデルは、仮想人物の像を生成するために用いられる、映像のテンプレートである。映像モデルは、特に胴体の形や動作を構成するデータである。また、映像モデルは、後述する顔データを統合して、統合した顔データを胴体の像と共に動作させるように構成されている。 The video model DB 21 is a storage unit that stores a plurality of types of video models in which a person operates. A video model is a video template used to generate an image of a virtual person. The video model is data that constitutes the shape and movement of the body in particular. Further, the video model is configured to integrate the face data described later and operate the integrated face data together with the image of the body.
映像モデルには、身長、体重、年齢等に応じて、体格が異なる複数種類の人物の外観が含まれている。映像モデルには、各人物が着用して再生可能な、複数種類の服装が含まれている。さらに、映像モデルは、各外観の人物が動作する様々なデータを含んでおり、例えば、うなずく、腕を組む、手を挙げる、といった、対話の際によく行われる動作のデータが含まれている。映像モデルは、実際の人物を撮影した映像であってもよいし、CGでモデリングした映像であってもよく、両方が含まれていてもよい。 The video model includes the appearances of a plurality of types of people having different physiques according to their height, weight, age, and the like. The video model includes multiple types of clothing that each person can wear and play. In addition, the video model contains various data on the movements of people of each appearance, including data on movements that are common during dialogue, such as nodding, crossing arms, and raising hands. .. The video model may be a video of an actual person, a video modeled by CG, or both may be included.
性格モデルDB22は、人物の性格モデルが複数種類記憶されている記憶部である。性格モデルは、例えば、質問に対する回答の特性を含み、ポジティブな内容であるかネガティブな内容であるかといった回答の方針、および回答に表れる喜怒哀楽等を決定づける。また、性格モデルは、ユーザからの質問に対する回答に限らず、季節や時間帯等に応じたメッセージの特性であってもよい。性格モデルDB22には、各性格モデルに即した、あらかじめ想定される質問に対する返答が合わせて記憶されていてもよい。この構成によれば、定型的な質問に対して、性格モデルに応じた返答を生成する計算処理負担が軽減できる。 The personality model DB 22 is a storage unit in which a plurality of types of personality models of a person are stored. The personality model, for example, includes the characteristics of the answer to the question, determines the policy of the answer such as whether the content is positive or negative, and the emotions and emotions that appear in the answer. Further, the personality model is not limited to the answer to the question from the user, and may be the characteristic of the message according to the season, the time zone, and the like. In the personality model DB 22, the answers to the questions assumed in advance according to each personality model may be stored together. According to this configuration, it is possible to reduce the computational load of generating a response according to the personality model for a standard question.
仮想人物データ記憶部23は、仮想人物ごとに決定された映像モデル、性格モデル、および声の情報を格納する記憶部である。また、仮想人物データ記憶部23は、仮想人物が知っている情報、例えば対象人物のエピソードや、体験談等の情報が格納されている。仮想人物データは、仮想人物生成装置30により決定され、格納される。また、仮想人物データは、仮想人物の動画の再生時に、動画生成装置40により呼び出される。 The virtual person data storage unit 23 is a storage unit that stores video model, personality model, and voice information determined for each virtual person. Further, the virtual person data storage unit 23 stores information known to the virtual person, for example, information such as an episode of the target person and an experience story. The virtual person data is determined and stored by the virtual person generation device 30. Further, the virtual person data is called by the moving image generation device 40 when playing back the moving image of the virtual person.
●仮想人物生成装置の構成
仮想人物生成装置30は、情報処理を実行するためのCPU(Central Processing Unit)などの演算装置、RAM(Random Access Memory)やROM(Read Only Memory)などの記憶装置を備え、これによりソフトウェア資源として少なくとも、映像処理部31、音声処理部32、性格処理部33および通信処理部39を備える。
● Configuration of virtual person generation device The virtual person generation device 30 includes arithmetic units such as a CPU (Central Processing Unit) for executing information processing, and storage devices such as RAM (Random Access Memory) and ROM (Read Only Memory). As a result, at least a video processing unit 31, a voice processing unit 32, a character processing unit 33, and a communication processing unit 39 are provided as software resources.
映像処理部31は、対象人物のデータから、仮想人物の生成に用いる外観データを抽出する機能部である。外観データは、対象人物の顔、体、髪型、服装などを含むデータである。また、映像処理部31は、仮想人物の生成に使用する映像モデルを選択し、仮想人物の映像に使用する映像データを決定する。なお、映像処理部31は、ユーザ端末10の情報ソース登録部14を介して登録される情報ソースの他、インターネット上から取得される情報ソースに基づいて、仮想人物の外観データを抽出してもよい。また、映像処理部31は、複数のユーザ端末10から登録される情報ソースに基づいて、1個の仮想人物の生成に用いる外観データを抽出してもよい。有名人など、多くのユーザが共通の仮想人物と対話する場合、各ユーザが1個の仮想人物の情報ソースを登録する。この構成によれば、より多くの情報ソースに基づいて仮想人物を生成することができ、より現実感のある対話が可能となる。
The video processing unit 31 is a functional unit that extracts appearance data used for generating a virtual person from the data of the target person. Appearance data is data including the face, body, hairstyle, clothes, etc. of the target person. Further, the video processing unit 31 selects a video model to be used for generating a virtual person, and determines video data to be used for the video of the virtual person. The video processing unit 31 may extract appearance data of a virtual person based on an information source acquired from the Internet in addition to an information source registered via the information source registration unit 14 of the
映像処理部31は、動画取得部311、静止画取得部312、トリミング部313、画像補正部314、映像モデル選択部315および顔挿入部316を有する。 The video processing unit 31 includes a moving image acquisition unit 311, a still image acquisition unit 312, a trimming unit 313, an image correction unit 314, a video model selection unit 315, and a face insertion unit 316.
動画取得部311は、動画データを取得する機能部である。動画取得部311は、ユーザ端末10に登録される情報ソースに含まれる動画を取得する。また、動画取得部311は、ユーザ端末10を通じてユーザに動画の撮影を促すこともできる。ユーザ端末10を通じて動画が撮影可能な状況として、例えば、対象人物がユーザの身近な人物であり、仮想人物を別のユーザ端末10に表示させる場合や、対象人物が亡くなった後にも対話可能とするために仮想人物を生成しておく場合などが考えられる。この場合、動画取得部311は、ユーザに動画を撮影させるためのチュートリアルをユーザ端末10に表示させてもよい。
The moving image acquisition unit 311 is a functional unit that acquires moving image data. The moving image acquisition unit 311 acquires the moving image included in the information source registered in the
静止画取得部312は、静止画データを取得する機能部である。静止画取得部312は、ユーザ端末10に登録される情報ソースに含まれる静止画を取得する。また、静止画取得部312は、ユーザ端末10を通じてユーザに静止画の撮影を促すこともできる。この場合、静止画取得部312は、ユーザに静止画、すなわち写真を撮影させるためのチュートリアルをユーザ端末10に表示させてもよい。また、静止画取得部312は、動画データを静止画に変換し、取得する。静止画取得部312は、対象人物の様々な角度の画像や、様々な表情の画像を抽出し、静止画に変換する。
The still image acquisition unit 312 is a functional unit that acquires still image data. The still image acquisition unit 312 acquires a still image included in the information source registered in the
トリミング部313は、静止画から対象人物のデータをトリミングして抽出する機能部である。トリミング部313は、顔認識機能を備え、対象人物の顔のみを自動で抽出可能であってもよい。 The trimming unit 313 is a functional unit that trims and extracts data of a target person from a still image. The trimming unit 313 may have a face recognition function and can automatically extract only the face of the target person.
画像補正部314は、抽出された画像の色調補正や、解像度補正を行い、抽出した画像の質を均一化する。また、画像補正部314は、抽出された画像が鮮明か否かを判別し、不鮮明な画像を抽出されたデータ群から除外してもよい。また、画像補正部314は、所定以下の解像度の画像を抽出されたデータ群から除外してもよい。 The image correction unit 314 performs color tone correction and resolution correction of the extracted image to make the quality of the extracted image uniform. Further, the image correction unit 314 may determine whether or not the extracted image is clear, and may exclude the unclear image from the extracted data group. Further, the image correction unit 314 may exclude an image having a resolution equal to or lower than a predetermined value from the extracted data group.
映像モデル選択部315は、仮想人物の生成に使用する使用映像モデルを映像モデルDB21内のデータから選択する機能部である。映像モデル選択部315は、動画取得部311により取得される外観データに基づいて、対象人物に最も類似する映像モデルを選択してもよいし、ユーザ端末10に映像モデルを複数提示し、ユーザに使用する映像モデルを選択させてもよい。この構成によれば、仮想人物が動いている様子が表れている情報ソースを十分登録しなくても、映像モデルにより仮想人物の動画を構成することができる。
The video model selection unit 315 is a functional unit that selects a video model to be used for generating a virtual person from the data in the video model DB 21. The video model selection unit 315 may select a video model most similar to the target person based on the appearance data acquired by the video acquisition unit 311, or present a plurality of video models to the
また、映像モデル選択部315は、生成する仮想人物の服装を、外観データに基づいて決定してもよいし、情報ソースに含まれる所有物情報に基づいて決定してもよい。また、映像モデル選択部315は、映像モデルDB21から、仮想人物の服装を選択してもよい。すなわち、対象人物がその服装をしている情報ソースがあれば、当該情報ソースに基づいて仮想人物の映像を生成することができるし、対象人物の情報ソースがなくても、所有物情報に基づいて仮想人物の映像を生成可能である。また、映像モデルDB21から服装のデータを選択することもできるので、対象人物の服装に関するデータが不足していても、仮想人物の生成を簡便に行うことができる。なお、映像モデル選択部315は複数種類の服装をしている仮想人物の映像を構成しておき、時期や時間帯、又はユーザの選択に基づいて服装が変更可能になっていてもよい。 Further, the video model selection unit 315 may determine the clothes of the virtual person to be generated based on the appearance data or the possession information included in the information source. Further, the video model selection unit 315 may select the clothes of the virtual person from the video model DB 21. That is, if there is an information source in which the target person is dressed, the image of the virtual person can be generated based on the information source, and even if there is no information source of the target person, it is based on the property information. It is possible to generate an image of a virtual person. Further, since the clothes data can be selected from the video model DB 21, the virtual person can be easily generated even if the data related to the clothes of the target person is insufficient. The video model selection unit 315 may configure images of a virtual person wearing a plurality of types of clothes, and the clothes may be changed based on the time, time zone, or user's selection.
映像モデル選択部315は、生成する仮想人物の髪型を、外観データに基づいて決定してもよいし、映像モデルDB21から、仮想人物の髪型を選択してもよい。さらに、映像モデル選択部315は、複数種類の髪型をしている仮想人物の映像を構成しておき、髪型が変更可能になっていてもよい。 The video model selection unit 315 may determine the hairstyle of the virtual person to be generated based on the appearance data, or may select the hairstyle of the virtual person from the video model DB 21. Further, the image model selection unit 315 may configure an image of a virtual person having a plurality of types of hairstyles so that the hairstyle can be changed.
なお、ここまでの説明において、映像処理部31は対象人物自身の情報ソースに基づいて仮想人物のデータを抽出することを想定して説明したが、対象人物に似ている人物の動画や静止画を新たに撮影し、仮想人物の生成に用いてもよい。また、髪型や服装など、似ている人物の外観データを部分的に使用して、仮想人物の生成に用いてもよい。すなわち、外観データのうち仮想人物の生成に用いる要素を、ユーザが選択可能になっていてもよい。 In the explanation so far, the video processing unit 31 has been described on the assumption that the data of the virtual person is extracted based on the information source of the target person itself, but a moving image or a still image of a person similar to the target person has been described. May be newly photographed and used to generate a virtual person. In addition, appearance data of similar persons such as hairstyles and clothes may be partially used to generate a virtual person. That is, the user may be able to select the element of the appearance data used for generating the virtual person.
顔挿入部316は、動画取得部311、静止画取得部312、トリミング部313および画像補正部314により抽出された顔データを使用映像モデルに統合する機能部である。顔挿入部316により、使用映像モデルで構成される胴体に、顔データが統合され、仮想人物の全身像が構成される。 The face insertion unit 316 is a functional unit that integrates the face data extracted by the moving image acquisition unit 311, the still image acquisition unit 312, the trimming unit 313, and the image correction unit 314 into the video model to be used. The face insertion unit 316 integrates face data into the body composed of the video model used, and forms a full-body image of a virtual person.
音声処理部32は、仮想人物の話す声を人工的に生成する機能部である。音声処理部32は、音声抽出部321と音声生成部322とを備える。 The voice processing unit 32 is a functional unit that artificially generates a voice spoken by a virtual person. The voice processing unit 32 includes a voice extraction unit 321 and a voice generation unit 322.
音声抽出部321は、情報ソースから対象人物の音声を抽出する機能部である。音声抽出部321は、例えば情報ソースに含まれる複数種類の声のうち、最も長時間含まれている人物の声を対象人物の声と同定してもよい。 The voice extraction unit 321 is a functional unit that extracts the voice of the target person from the information source. For example, the voice extraction unit 321 may identify the voice of the person who has been included for the longest time as the voice of the target person among the plurality of types of voices included in the information source.
音声生成部322は、音声抽出部321により抽出された音声に基づいて、仮想人物の声を生成する機能部である。音声生成部322は、対象人物の音声をトリミングし、仮想人物の声として再生可能な状態に編集してもよい。また、音声生成部322は、あらかじめ用意された音声データの中から、対象人物の声に似た声を選んで仮想人物の声として決定することもできる。さらに、音声生成部322は、対象人物の音声に類似する人工音声を生成してもよい。なお、仮想人物からのメッセージをテキストで表示する場合は、音声の生成はなくてもよい。 The voice generation unit 322 is a functional unit that generates the voice of a virtual person based on the voice extracted by the voice extraction unit 321. The voice generation unit 322 may trim the voice of the target person and edit it so that it can be reproduced as the voice of a virtual person. Further, the voice generation unit 322 can also select a voice similar to the voice of the target person from the voice data prepared in advance and determine it as the voice of the virtual person. Further, the voice generation unit 322 may generate an artificial voice similar to the voice of the target person. When displaying a message from a virtual person as text, it is not necessary to generate voice.
性格処理部33は、仮想人物の性格モデルを決定する機能部である。性格処理部33は、テキストデータ登録部331、性格モデル選択部332、および性格モデル補正部333を備える。 The personality processing unit 33 is a functional unit that determines a personality model of a virtual person. The personality processing unit 33 includes a text data registration unit 331, a personality model selection unit 332, and a personality model correction unit 333.
テキストデータ登録部331は、情報ソースからテキストデータを抽出し、仮想人物データ記憶部23に格納する機能部である。テキストデータ登録部331は、対象人物のブログやSNS等の電子的なテキストデータを抽出し、所定のルールに従って仮想人物データ記憶部23に格納する。また、テキストデータ登録部331は、対象人物による手書きの文書、例えば日記等を読み込み、テキストデータに変換して仮想人物データ記憶部23に格納してもよい。さらに、テキストデータ登録部331は、音声や動画データに含まれる対象人物の声をテキストデータに変換し、仮想人物データ記憶部23に格納してもよい。 The text data registration unit 331 is a functional unit that extracts text data from an information source and stores it in the virtual person data storage unit 23. The text data registration unit 331 extracts electronic text data such as a blog or SNS of the target person, and stores it in the virtual person data storage unit 23 according to a predetermined rule. Further, the text data registration unit 331 may read a handwritten document by the target person, for example, a diary, etc., convert it into text data, and store it in the virtual person data storage unit 23. Further, the text data registration unit 331 may convert the voice of the target person included in the voice or moving image data into text data and store it in the virtual person data storage unit 23.
性格モデル選択部332は、仮想人物の生成に使用する性格モデル(以下、「使用性格モデル」ともいう。)を性格モデルDB22から選択する機能部である。性格モデル選択部332は、ユーザ端末10を通じて仮想人物の性格に関する質問を提示する。ユーザ端末10から質問に対する回答が入力されると、当該回答に基づいて、仮想人物の生成に使用する使用性格モデルを性格モデルDB22内のデータから選択する。
The personality model selection unit 332 is a functional unit that selects a personality model (hereinafter, also referred to as a “usable personality model”) used for generating a virtual person from the personality model DB 22. The personality model selection unit 332 presents a question regarding the personality of the virtual person through the
性格に関する質問は、複数提示されてもよい。また、入力される回答と次の質問とが紐づけられるチャートに沿って、質問が提示されてもよい。ユーザが質問に答えていくことで、あらかじめ用意された性格の基本分類に基づいて、仮想人物の基本的な性格付けが行われる。性格付けを、対象人物の実際の会話の情報から行うものとすると、膨大な量の会話の情報が必要である。本システム1によれば、性格に関する質問の回答に基づいてあらかじめ用意された性格のいずれかに分類することができるので、情報が不足していても簡易な構成で仮想人物の性格を決定することができる。
Multiple personality questions may be asked. In addition, the question may be presented along a chart in which the input answer and the next question are linked. When the user answers the question, the basic personality of the virtual person is performed based on the basic classification of the personality prepared in advance. Assuming that the personality is based on the information of the actual conversation of the target person, a huge amount of information on the conversation is required. According to this
なお、仮想人物の性格モデルは、ユーザからの質問のタイプに応じたシナリオパターンごとに定められていてもよい。シナリオパターンは、例えば日常会話、又は悩みごとの相談等である。一部のシナリオパターンに関して性格モデルが決定されれば、当該シナリオパターンに即した対話が可能に構成されていてもよい。この構成によれば、必要なシナリオパターンに関する性格モデルのみを決定すれば対話できるので、簡便である。 The personality model of the virtual person may be defined for each scenario pattern according to the type of question from the user. The scenario pattern is, for example, daily conversation or consultation for each problem. If the personality model is determined for some scenario patterns, it may be configured to enable dialogue according to the scenario patterns. According to this configuration, it is convenient because it is possible to have a dialogue by determining only the personality model related to the necessary scenario pattern.
性格モデル補正部333は、性格モデル選択部332が選択した使用性格モデルを補正する機能部である。性格モデル補正部333は、ユーザ端末10から、仮想人物が行った返答に対する評価を受信し、当該評価に基づいて使用性格モデルを補正する。例えば、ユーザは、返答に対し、対象人物の返答として適切な内容であったか否かを評価として入力する。また、返答とともになされる仮想人物の動作に対して評価をしてもよい。性格モデル補正部333は、AI等により自動学習を行い、性格モデルを補正する。この構成によれば、仮想人物の性格をより対象人物に近いものに補正することができる。なお、1個の仮想人物に対して複数のユーザ端末10が同時又は別の時点で対話を行う場合において、複数のユーザ端末10からの評価を1個の仮想人物の性格モデルの補正に使用してもよい。この構成によれば、仮想人物の性格モデルに多くのフィードバックを与えることができるため、仮想人物の性格モデルを対象人物の性格により近づけ、対話精度を上げることができる。
The personality model correction unit 333 is a functional unit that corrects the personality model selected by the personality model selection unit 332. The personality model correction unit 333 receives an evaluation for the response made by the virtual person from the
また、性格モデル補正部333は、ユーザからの評価ではなく、仮想人物からのメッセージに対するユーザの返答に基づいて、当該メッセージが適していたか否かを判定し、性格モデルを補正してもよい。性格モデル補正部333は、ユーザの返答内容をテキストデータに変換して解析してもよいし、ユーザの声色から満足度を類推してもよい。 Further, the personality model correction unit 333 may determine whether or not the message is suitable based on the user's response to the message from the virtual person instead of the evaluation from the user, and correct the personality model. The personality model correction unit 333 may convert the response content of the user into text data and analyze it, or may infer the satisfaction level from the voice of the user.
通信処理部39は、ユーザ端末10、記憶装置20、および動画生成装置40と、ネットワークNWを通じて相互に通信する機能部である。
The communication processing unit 39 is a functional unit that communicates with the
●動画生成装置の構成
動画生成装置40は、仮想人物生成装置30により生成された仮想人物の動画を、ユーザ端末10上に表示させる装置である。動画生成装置40は、映像表示処理部41、対話処理部42、通信処理部49を備える。
● Configuration of Movie Generation Device The movie generation device 40 is a device that displays a movie of a virtual person generated by the virtual person generation device 30 on the
映像表示処理部41は、仮想人物が発話する発話映像を生成する機能部である。映像表示処理部41は、外観データから抽出された顔データをモデリング処理し、発話に合わせて動作させる。 The video display processing unit 41 is a functional unit that generates an utterance video spoken by a virtual person. The video display processing unit 41 models the face data extracted from the appearance data and operates it according to the utterance.
対話処理部42は、使用性格モデルに基づいて、仮想人物が発話するメッセージを生成する機能部である。メッセージの内容は、ユーザからの質問に対する返答であってもよいし、日付、季節、又は時間帯、もしくはインターネット上の天気予報やニュース等の外部情報に応じて生成される言葉であってもよい。また、ユーザへの返答にあたって、使用性格モデルに加えて、日付、季節、又は時間帯、もしくはインターネット上の天気予報やニュース等の外部情報に基づいて返答を生成してもよい。対話処理部42は、最適な回答をAIにより決定する。 The dialogue processing unit 42 is a functional unit that generates a message uttered by a virtual person based on a usage personality model. The content of the message may be a response to a question from the user, or may be a word generated according to the date, season, or time zone, or external information such as weather forecast or news on the Internet. .. Further, in replying to the user, in addition to the usage personality model, the reply may be generated based on the date, season, or time zone, or external information such as weather forecast and news on the Internet. The dialogue processing unit 42 determines the optimum answer by AI.
対話処理部42で生成されるメッセージは、音声処理部32で生成される声により発話され、映像表示処理部41で生成される発話映像と共にユーザ端末10で再生される。仮想人物の声は、音声抽出部321から抽出した対象人物の台詞を再生してもよい。また、あらかじめ決定した似た声の音源データに基づいて再生してもよい。さらに、人工の音声を生成し、再生してもよい。
The message generated by the dialogue processing unit 42 is uttered by the voice generated by the voice processing unit 32, and is reproduced on the
通信処理部49は、ユーザ端末10、記憶装置20、および仮想人物生成装置30と、ネットワークNWを通じて相互に通信する機能部である。
The
●使用映像モデルを決定する流れ
図3を用いて、仮想人物生成装置30が使用映像モデルを決定する流れを説明する。同図に示すように、まず、ユーザ端末10から対象人物の情報ソースが登録され、仮想人物生成装置30に送信される(ステップS11)。次いで、仮想人物生成装置30は、情報ソースから外観データを抽出する(ステップS12)。外観データのうち、動画を静止画に変換する(ステップS13)。次いで、登録された静止画および動画から変換された静止画に対し、対象人物の画像をトリミングし、画像の色調および解像度を補正する(ステップS14)。トリミングおよび画像の補正は、順不同である。なお、このとき、補正してもデータの品質が所定以下である場合は、当該画像を後の工程に使用しないことを決定してもよい。
● Flow of determining the video model to be used The flow of determining the video model to be used by the virtual person generation device 30 will be described with reference to FIG. As shown in the figure, first, the information source of the target person is registered from the
次いで、仮想人物生成装置30は、トリミングおよび画像補正が施された画像を記憶装置20の仮想人物データ記憶部23に格納する(ステップS15)。仮想人物生成装置30は、格納される画像のうち主に体格に関する情報に基づいて、映像モデルDB21に格納されている映像モデルを参照し(ステップS16)、対象人物の外観に最も類似する映像モデルを選択し、ユーザ端末10に表示させる(ステップS17)。なお、このとき、映像モデルの候補がユーザ端末10に複数表示され、ユーザ端末10により使用映像モデルを選択可能にしてもよい。また、提示される映像モデルとは異なる映像モデルをユーザ端末10により選択可能になっていてもよい。
Next, the virtual person generation device 30 stores the trimmed and image-corrected image in the virtual person data storage unit 23 of the storage device 20 (step S15). The virtual person generation device 30 refers to the video model stored in the video model DB 21 based mainly on the information about the physique of the stored images (step S16), and the video model most similar to the appearance of the target person. Is selected and displayed on the user terminal 10 (step S17). At this time, a plurality of video model candidates may be displayed on the
次いで、ユーザ端末10は、使用映像モデルが有するパーツを個別に変更する入力を受け付ける(ステップS18)。パーツは、輪郭や、目、鼻又は口等の各このとき、仮想モデルの髪型や服装についての選択が入力されてもよい。使用映像モデルのパーツが適宜変更され、仮想人物の使用映像モデルが確定すると、当該使用映像モデルに、外観データから抽出された顔データを統合する(ステップS19)。次いで、顔データが統合された使用映像モデルを、記憶装置20の仮想人物データ記憶部23に格納する(ステップS20)。
Next, the
●仮想人物の声を生成する流れ
図4を用いて、仮想人物生成装置30が仮想人物の声を生成する流れを説明する。まず、ユーザ端末10から情報ソースが登録されると(ステップS21)、仮想人物生成装置30は、当該情報ソースから対象人物の音声データを抽出する(ステップS22)。仮想人物生成装置30は、当該音声データに基づいて、仮想人物の声を生成する。
● Flow of generating a voice of a virtual person The flow of generating a voice of a virtual person by the virtual person generating device 30 will be described with reference to FIG. First, when the information source is registered from the user terminal 10 (step S21), the virtual person generation device 30 extracts the voice data of the target person from the information source (step S22). The virtual person generation device 30 generates a voice of a virtual person based on the voice data.
●仮想人物の性格モデルを決定する流れ
図5を用いて、仮想人物生成装置30が仮想人物の性格モデルを決定する流れを説明する。ユーザ端末10から情報ソースが登録されると(ステップS31)、仮想人物生成装置30は、当該情報ソースからブログやSNSなどのテキストデータを抽出する(ステップS32)。また、このとき、手書きの日記等の画像データを抽出し、テキストデータに変換する。さらに、音源データを抽出し、対象人物の声をテキストデータに変換する。抽出されたテキストデータは、所定のルールに基づいて仮想人物データ記憶部23に格納される(ステップS33)。
● Flow of determining the personality model of a virtual person The flow of determining the personality model of a virtual person by the virtual person generator 30 will be described with reference to FIG. When the information source is registered from the user terminal 10 (step S31), the virtual person generation device 30 extracts text data such as a blog or SNS from the information source (step S32). At this time, image data such as a handwritten diary is extracted and converted into text data. Furthermore, the sound source data is extracted and the voice of the target person is converted into text data. The extracted text data is stored in the virtual person data storage unit 23 based on a predetermined rule (step S33).
次いで、仮想人物生成装置30は、対象人物の性格に関する質問を、ユーザ端末10に表示させる(ステップS34)。このとき、質問の内容は登録される情報ソースに基づいて決定されてもよい。また、登録したいシナリオパターンをユーザに選択させ、シナリオパターンに応じた質問を表示させてもよい。ユーザ端末10は、質問に対する回答の入力を受け付ける(ステップS35)。なおこのとき、1度に複数の質問が表示されてもよいし、ステップS34およびステップS35を繰り返してもよい。
Next, the virtual person generation device 30 causes the
仮想人物生成装置30は、性格に関する質問への回答に基づいて、性格モデルDB22に格納されている性格モデルを参照し(ステップS36)、使用性格モデルを決定する(ステップS37)。次いで、決定した使用性格モデルを仮想人物データ記憶部23に格納する(ステップS38)。 The virtual person generation device 30 refers to the personality model stored in the personality model DB 22 (step S36) based on the answer to the question about the personality, and determines the personality model to be used (step S37). Next, the determined usage personality model is stored in the virtual person data storage unit 23 (step S38).
●仮想人物と対話する流れ
図6を用いて、ユーザが仮想人物対話システムを用いて仮想人物と対話する流れを説明する。ユーザ端末10にIDおよびパスワードが入力されると(ステップS41)、仮想人物生成装置30により認証され(ステップS42)、IDに紐づけられている仮想人物との対話が可能となる。このとき、仮想人物からチャットの着信がある、電話がかかってくる、メールが届く、といった演出がなされてもよい。次いで、記憶装置20の仮想人物データ記憶部23から、対話する仮想人物のデータが呼び出され、動画生成装置40により参照可能な状態となる(ステップS43)。すなわち、ユーザ端末10上に仮想人物の像が表示される。仮想人物は、表示された時点で発話してもよく、動作をしてもよい。
● Flow of interacting with a virtual person With reference to FIG. 6, a flow of a user interacting with a virtual person using a virtual person dialogue system will be described. When the ID and password are input to the user terminal 10 (step S41), the virtual person generation device 30 authenticates the user terminal 10 (step S42), and the user can interact with the virtual person associated with the ID. At this time, an effect such as an incoming chat from a virtual person, an incoming call, or an e-mail may be made. Next, the virtual person data storage unit 23 of the storage device 20 calls up the data of the virtual person to interact with, and the video generation device 40 is in a state of being able to refer to the data (step S43). That is, an image of a virtual person is displayed on the
ユーザ端末10から仮想人物への質問が入力されると(ステップS44)、動画生成装置40は、仮想人物のデータに基づいて、仮想人物が返答する動画を生成する。 When a question to the virtual person is input from the user terminal 10 (step S44), the moving image generation device 40 generates a moving image in which the virtual person responds based on the data of the virtual person.
具体的には、まず、動画生成装置40は、仮想人物の性格モデルに基づいて、質問に対する返答テキストを生成する(ステップS45)。また、動画生成装置40は、当該返答テキストを仮想人物の声で再生する返答音声を生成する(ステップS46)。返答音声は、記憶されている対象人物の音源データでもよいし、人工的に生成した人工音声であってもよい。さらに、動画生成装置40は、返答音声を再生する際に再生される返答映像を生成する(ステップS47)。生成される返答音声および返答映像は、返答する動画としてユーザ端末10に送信される(ステップS48)。なお、返答音声および返答映像は、統合されて1個のデータファイルとしてユーザ端末10に送信されてもよいし、それぞれのデータファイルがユーザ端末10に送信されてもよい。次いで、ユーザ端末10上に、仮想人物の動画が表示される(ステップS49)。すなわち、ユーザからの質問に対し仮想人物が返答し、仮想人物との対話が成立する。ステップS44からステップS49までの工程は、複数回繰り返されてよい。この構成により、仮想人物との自然な対話が可能である。
Specifically, first, the moving image generation device 40 generates a response text to the question based on the personality model of the virtual person (step S45). In addition, the moving image generation device 40 generates a response voice that reproduces the response text in the voice of a virtual person (step S46). The response voice may be stored sound source data of the target person, or may be artificially generated artificial voice. Further, the moving image generation device 40 generates a response video to be reproduced when the response voice is reproduced (step S47). The generated response voice and response video are transmitted to the
なお、図6においては、ステップS44に示すユーザ端末10への質問の入力を契機に仮想人物の動画が生成される流れを説明したが、所定の日付や時間になったことに基づいて仮想人物の動画が生成され、ユーザ端末10に表示される構成であってもよい。また、インターネット上等からの外部情報に基づいて動画が生成されてもよいし、仮想人物対話システム1の管理者からの指令に基づいて、動画が生成されてもよい。動画が生成されると直ちにユーザ端末10に表示される構成であってもよいし、動画をあらかじめ生成しておき、ユーザからの質問、日付、時間、外部情報又は指令等を契機にユーザ端末10に表示させてもよい。
In addition, in FIG. 6, the flow of generating the moving image of the virtual person triggered by the input of the question to the
ステップS49に次いで、ユーザ端末10から動画に対する評価が入力されると(ステップS50)、仮想人物生成装置30は性格モデルを補正し、記憶装置20の仮想人物データ記憶部23に記憶する(ステップS51)。 When the evaluation for the moving image is input from the user terminal 10 (step S50) after step S49, the virtual person generation device 30 corrects the personality model and stores it in the virtual person data storage unit 23 of the storage device 20 (step S51). ).
このように、本発明にかかる仮想人物対話システムによれば、簡易な構成で仮想人物の発話映像を生成できる。 As described above, according to the virtual person dialogue system according to the present invention, it is possible to generate an utterance video of a virtual person with a simple configuration.
1 仮想人物生成システム
10 ユーザ端末
20 記憶装置
21 映像モデルDB
30 仮想人物生成装置
31 映像処理部
40 動画生成装置
41 映像表示処理部
1 Virtual
30 Virtual person generation device 31 Video processing unit 40 Video generation device 41 Video display processing unit
Claims (6)
前記映像モデルデータベース内のデータから、仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択部と、
登録される情報ソースから、前記仮想人物の顔データを抽出する映像処理部と、
前記顔データを前記使用映像モデルに統合する顔挿入部と、
前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理部と、
前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理部と、
人物の性格モデルを複数記憶する性格モデルデータベースと、
前記仮想人物の生成対象となる人物が作成した記録に基づいて、前記仮想人物の生成に使用する使用性格モデルを、前記性格モデルデータベース内のデータから選択する性格モデル選択部と、
前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理部と、
を備える、
仮想人物対話システム。
A video model database that stores multiple types of video models in which people operate,
From the data in the video model database, a video model selection unit that selects the video model to be used to generate a virtual person, and
A video processing unit that extracts the face data of the virtual person from the registered information source,
A face insertion unit that integrates the face data into the video model used,
A voice processing unit that extracts voice from the information source and generates the voice of the virtual person,
A video display processing unit that generates a video spoken by the virtual person based on the used video model in which the face data is integrated and the generated voice of the virtual person.
A personality model database that stores multiple personality models of a person,
A personality model selection unit that selects a personality model to be used for generating the virtual person from data in the personality model database based on a record created by the person to be generated of the virtual person.
An interactive processing unit that generates a message spoken by the virtual person based on the usage personality model, and
To prepare
Virtual person dialogue system.
請求項1記載の仮想人物対話システム。
The personality model selection unit presents a question regarding the personality of the virtual person, and selects a personality model to be used for generating the virtual person from the data in the personality model database based on the answer to the question.
The virtual person dialogue system according to claim 1.
前記対話処理部は、前記質問に対する返答を生成し、前記出力部から前記返答を出力させる、
請求項1又は2のいずれかに記載の仮想人物対話システム。
An input unit for inputting a question to the virtual person and an output unit for outputting the response of the virtual person are further provided.
The dialogue processing unit generates a response to the question, and outputs the response from the output unit.
The virtual person dialogue system according to claim 1 or 2 .
請求項1乃至3のいずれかに記載の仮想人物対話システム。
A personality model correction unit that corrects the usage personality model based on the evaluation of the message is further provided.
The virtual person dialogue system according to any one of claims 1 to 3 .
前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択ステップと、
登録される情報ソースから、生成する前記仮想人物の顔データを抽出する映像処理ステップと、
前記顔データを前記使用映像モデルに統合する顔挿入ステップと、
前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理ステップと、
前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理ステップと、
前記仮想人物の生成対象となる人物が作成した記録に基づいて、前記仮想人物の生成に使用する使用性格モデルを、前記性格モデルデータベース内のデータから選択する性格モデル選択ステップと、
前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理ステップと、
を含む、
映像生成方法。
It is a method of generating a video of a virtual person by a virtual person dialogue system including a video model database that stores a plurality of types of video models in which a person operates and a personality model database that stores a plurality of personality models of a person.
A video model selection step for selecting a video model to be used for generating the virtual person from the data in the video model database, and
A video processing step that extracts the face data of the virtual person to be generated from the registered information source, and
A face insertion step that integrates the face data into the video model used,
A voice processing step that extracts voice from the information source and generates the voice of the virtual person,
A video display processing step for generating a video spoken by the virtual person based on the used video model in which the face data is integrated and the generated voice of the virtual person.
A personality model selection step of selecting a personality model to be used for generating the virtual person from data in the personality model database based on a record created by the person to be generated of the virtual person.
An interactive processing step that generates a message spoken by the virtual person based on the usage personality model, and
including,
Video generation method.
前記映像モデルデータベース内のデータから、前記仮想人物の生成に使用する使用映像モデルを選択する映像モデル選択命令と、
登録される情報ソースから、生成する前記仮想人物の顔データを抽出する映像処理命令と、
前記顔データを前記使用映像モデルに統合する顔挿入命令と、
前記情報ソースから音声を抽出し、前記仮想人物の声を生成する音声処理命令と、
前記顔データが統合された前記使用映像モデルと、生成された前記仮想人物の声と、に基づいて、前記仮想人物が発話する映像を生成する映像表示処理命令と、
前記仮想人物の生成対象となる人物が作成した記録に基づいて、前記仮想人物の生成に使用する使用性格モデルを、前記性格モデルデータベース内のデータから選択する性格モデル選択命令と、
前記使用性格モデルに基づいて、前記仮想人物が発話するメッセージを生成する対話処理命令と、
をコンピュータに実行させる、
映像生成プログラム。
A computer program that generates a virtual person's image by a virtual person dialogue system including a video model database that stores a plurality of types of video models in which a person operates and a character model database that stores a plurality of person's personality models.
A video model selection command for selecting a video model to be used for generating the virtual person from the data in the video model database, and
A video processing command that extracts the face data of the virtual person to be generated from the registered information source,
A face insertion command that integrates the face data into the video model used, and
A voice processing instruction that extracts voice from the information source and generates the voice of the virtual person,
A video display processing command that generates a video spoken by the virtual person based on the used video model in which the face data is integrated and the generated voice of the virtual person.
A personality model selection command that selects a personality model to be used for generating the virtual person from data in the personality model database based on a record created by the person to be generated of the virtual person.
An interactive processing instruction that generates a message spoken by the virtual person based on the usage personality model.
Let the computer run
Video generation program.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019215306A JP6796762B1 (en) | 2019-11-28 | 2019-11-28 | Virtual person dialogue system, video generation method, video generation program |
JP2020179082A JP7496128B2 (en) | 2019-11-28 | 2020-10-26 | Virtual person dialogue system, image generation method, and image generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019215306A JP6796762B1 (en) | 2019-11-28 | 2019-11-28 | Virtual person dialogue system, video generation method, video generation program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020179082A Division JP7496128B2 (en) | 2019-11-28 | 2020-10-26 | Virtual person dialogue system, image generation method, and image generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6796762B1 true JP6796762B1 (en) | 2020-12-09 |
JP2021086415A JP2021086415A (en) | 2021-06-03 |
Family
ID=73646856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019215306A Active JP6796762B1 (en) | 2019-11-28 | 2019-11-28 | Virtual person dialogue system, video generation method, video generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6796762B1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436602A (en) * | 2021-06-18 | 2021-09-24 | 深圳市火乐科技发展有限公司 | Virtual image voice interaction method and device, projection equipment and computer medium |
CN113674184A (en) * | 2021-07-19 | 2021-11-19 | 清华大学 | Virtual speaker limb gesture generation method, device, equipment and storage medium |
CN113808281A (en) * | 2021-08-23 | 2021-12-17 | 桂林未来鹏创软件有限公司 | Method, system, device and storage medium for generating virtual sprite image of automobile |
WO2022223029A1 (en) * | 2021-04-22 | 2022-10-27 | 北京字节跳动网络技术有限公司 | Avatar interaction method, apparatus, and device |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259446A (en) * | 1998-03-12 | 1999-09-24 | Aqueous Reserch:Kk | Agent device |
JP2001357413A (en) * | 2000-06-13 | 2001-12-26 | Minolta Co Ltd | Animation conversation system and server to be used for it |
JP2005071182A (en) * | 2003-08-26 | 2005-03-17 | Matsushita Electric Works Ltd | Three-dimensional animation creation support apparatus |
JP2007279776A (en) * | 2004-07-23 | 2007-10-25 | Matsushita Electric Ind Co Ltd | Cg character agent device |
JP4798431B2 (en) * | 2005-11-11 | 2011-10-19 | 株式会社ケンウッド | Agent device, in-vehicle navigation device with agent function, agent output method |
JP5525268B2 (en) * | 2010-01-19 | 2014-06-18 | Kddi株式会社 | Personality estimation device and program |
US11159462B2 (en) * | 2016-01-28 | 2021-10-26 | Sony Corporation | Communication system and communication control method |
-
2019
- 2019-11-28 JP JP2019215306A patent/JP6796762B1/en active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022223029A1 (en) * | 2021-04-22 | 2022-10-27 | 北京字节跳动网络技术有限公司 | Avatar interaction method, apparatus, and device |
CN113436602A (en) * | 2021-06-18 | 2021-09-24 | 深圳市火乐科技发展有限公司 | Virtual image voice interaction method and device, projection equipment and computer medium |
CN113674184A (en) * | 2021-07-19 | 2021-11-19 | 清华大学 | Virtual speaker limb gesture generation method, device, equipment and storage medium |
CN113808281A (en) * | 2021-08-23 | 2021-12-17 | 桂林未来鹏创软件有限公司 | Method, system, device and storage medium for generating virtual sprite image of automobile |
CN113808281B (en) * | 2021-08-23 | 2024-02-27 | 桂林未来鹏创软件有限公司 | Method, system, device and storage medium for generating virtual fairy image of automobile |
Also Published As
Publication number | Publication date |
---|---|
JP2021086415A (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6796762B1 (en) | Virtual person dialogue system, video generation method, video generation program | |
US20220150285A1 (en) | Communication assistance system, communication assistance method, communication assistance program, and image control program | |
US20160134840A1 (en) | Avatar-Mediated Telepresence Systems with Enhanced Filtering | |
CN110418095B (en) | Virtual scene processing method and device, electronic equipment and storage medium | |
CN112927712A (en) | Video generation method and device and electronic equipment | |
CN111145282A (en) | Virtual image synthesis method and device, electronic equipment and storage medium | |
US11341619B2 (en) | Method to provide a video with a computer-modified visual of a desired face of a person | |
KR20220127471A (en) | Device, Method and program for providing psychological counseling using VR | |
CN109446303A (en) | Robot interactive method, apparatus, computer equipment and readable storage medium storing program for executing | |
CN110794964A (en) | Interaction method and device for virtual robot, electronic equipment and storage medium | |
CN112669846A (en) | Interactive system, method, device, electronic equipment and storage medium | |
CN115499613A (en) | Video call method and device, electronic equipment and storage medium | |
US20220328070A1 (en) | Method and Apparatus for Generating Video | |
CN117523088A (en) | Personalized three-dimensional digital human holographic interaction forming system and method | |
CN117135331A (en) | Method and system for generating 3D digital human video | |
WO2022193635A1 (en) | Customer service system, method and apparatus, electronic device, and storage medium | |
US20220165024A1 (en) | Transforming static two-dimensional images into immersive computer-generated content | |
CN117271749A (en) | Creation method and computer for non-player characters in meta-universe scene | |
JP7496128B2 (en) | Virtual person dialogue system, image generation method, and image generation program | |
JP2003108502A (en) | Physical media communication system | |
KR102605178B1 (en) | Device, method and computer program for generating voice data based on family relationship | |
KR20230072199A (en) | Emotion object generating apparatus and system including the apparatus, and control method thereof | |
CN114461772A (en) | Digital human interaction system, method and device thereof, and computer readable storage medium | |
CN111696182A (en) | Virtual anchor generation system, method and storage medium | |
JP2005038160A (en) | Image generation apparatus, image generating method, and computer readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191224 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20191224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200622 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200701 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201027 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6796762 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |