JP2024005023A - プログラム、方法、情報処理装置 - Google Patents

プログラム、方法、情報処理装置 Download PDF

Info

Publication number
JP2024005023A
JP2024005023A JP2022104993A JP2022104993A JP2024005023A JP 2024005023 A JP2024005023 A JP 2024005023A JP 2022104993 A JP2022104993 A JP 2022104993A JP 2022104993 A JP2022104993 A JP 2022104993A JP 2024005023 A JP2024005023 A JP 2024005023A
Authority
JP
Japan
Prior art keywords
user
avatar
degree
setting
performer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022104993A
Other languages
English (en)
Other versions
JP7204984B1 (ja
Inventor
鉄平 倉橋
Teppei Kurahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cover Corp
Original Assignee
Cover Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cover Corp filed Critical Cover Corp
Priority to JP2022104993A priority Critical patent/JP7204984B1/ja
Priority to JP2022211425A priority patent/JP2024006906A/ja
Application granted granted Critical
Publication of JP7204984B1 publication Critical patent/JP7204984B1/ja
Publication of JP2024005023A publication Critical patent/JP2024005023A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】アバターの顔の部位の態様の変化をより一層自然に見せる技術を提供する。【解決手段】プロセッサを備えるコンピュータによって実行されるプログラムであって、プログラムは、プロセッサに、演者の顔の部位であって、1または複数の顔の部位の動きをセンシングするステップと、センシングした1または複数の顔の部位の動きに基づいて、演者に対応するアバターの1または複数の顔の部位の態様を変化させるステップと、アバターの1または複数の顔の部位の態様を、センシングされた結果に追随させる度合いの設定を受け付けるステップと、を実行させ、変化させるステップにおいて、度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化させる、プログラム。【選択図】図11

Description

本開示は、プログラム、方法、情報処理装置に関する。
ユーザの表情等をアバターにリアルタイムに反映させる技術が知られている。
特許文献1には、人の声の第1フォルマントと第2フォルマントの周波数の組み合わせから、日本語のどの母音(あいうえお)が発生されているのかを推定し、各母音に対応する口の形にアバターの口の形を変化させる技術が記載されている。
特開2016-126500号公報
特許文献1の技術では、マイクロフォンから取得した音声に基づいて、日本語のどの母音を発生しているのかを推定し、アバターの口の形と大きさを決定し変化させる技術が開示されている。
しかしながら、特許文献1の技術では、あくまで音声に基づいてアバターの口の形を変化させるに留まり、例えば、アバターの顔の部位のうち、口以外の部位の態様を変化させる際には、ユーザの音声からでは十分に変化の度合いを反映できず、アバターが不自然な動きになり、視聴者に違和感を与えてしまう恐れがある。
そのため、アバターの顔の部位の態様の変化をより一層自然に見せる技術が必要とされている。
一実施形態によると、プロセッサを備えるコンピュータによって実行されるプログラムであって、プログラムは、プロセッサに、演者の顔の部位であって、1または複数の顔の部位の動きをセンシングするステップと、センシングした1または複数の顔の部位の動きに基づいて、演者に対応するアバターの1または複数の顔の部位の態様を変化させるステップと、アバターの1または複数の顔の部位の態様を、センシングされた結果に追随させる度合いの設定を受け付けるステップと、を実行させ、変化させるステップにおいて、度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化させる、プログラムが提供される。
本開示によれば、アバターの顔の部位の態様の変化をより一層自然に見せる技術を提供することができる。
システム1全体の構成を示すブロック図である。 端末装置10の機能的な構成を示す図である。 サーバ20の機能的な構成を示す図である。 サーバ20の記憶部に記憶されているユーザ情報データベース(DB)、アバター情報DB、ウェアラブルデバイス情報DBのデータ構造である。 ユーザの発話の音声スペクトルを取得し、取得した音声スペクトルに基づいて、ユーザに対応したアバターの口の態様を演者の発話に応じて変化させる際の一連の処理を表すフローチャートである。 ユーザが自身の母音の音声スペクトルをシステム1に登録する際の画面例である。 ユーザがアバターの口、または顔の部位の態様の変化の程度の設定を行う際の画面例を示す。 ユーザの発話から、ユーザの1または複数の感情の候補を推定し、当該推定したユーザの1または複数の感情に基づいて、アバターの態様を変化させる画面例を示す。 ユーザが人間とは異なる属性のアバターに対し、音声スペクトル等に基づいて各種設定を行う画面例を示す。 ユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングし、センシングした1または複数の顔の部位の動きに基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させる際の一連の処理を表すフローチャートである。 ユーザの1または複数の顔の部位の動きをセンシングし、当該センシングした1または複数の顔の部位の動きに基づいて、対応するアバターの1または複数の顔の部位の態様を変化させる際の画面例を示す。 ユーザの1または複数の感情を候補を推定し、ユーザから選択された感情に基づいて、対応するアバターの1または複数の顔の部位の態様を変化させる際の画面例を示す。 ユーザの1または複数の顔の部位のうち、関連づけられている部位の少なくとも1つのセンシング結果が取得できない場合のアバターの態様の変化の程度の度合いを設定する際の画面例を示す。 ユーザが眼鏡等のウェアラブルデバイスを装着している際に、アバターの態様の変化の程度の度合いを補正する際の画面例を示す。 ユーザの口の動きがセンシングできない場合に、発話の変化の程度に基づいて、アバターの口の態様を変化させる際の画面例を示す。 アバターの1または複数の顔の部位のうち、予め関連付けられている部位同士で、度合いの設定の差異が所定の閾値を超過した場合に、所定の通知をユーザに提示する際の画面例を示す。 所定の通知をユーザに提示する際、度合いの差を、所定の範囲内に設定した場合の少なくとも1または複数の顔の部位が変化する様子をユーザに提示する際の画面例を示す。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
<第1の実施の形態>
<概要>
以下の実施形態では、アバターを操作する演者であるユーザの音声スペクトルに基づいて、アバターの口の態様を変化させる技術について説明する。
ここで、本開示にかかる技術を実現する際において適宜使用される装置等に関しては限定されず、ユーザの所持しているスマートフォン、タブレット端末などの端末装置の場合もあれば、据え置き型のPC(Personal Computer)より提示されることもある。
マイク等の集音装置を介して取得したユーザの音声に基づいて、アバターの口の動きを制御する技術が知られている。しかし、当該システムでは、ユーザの実際の口の動きと、アバターの動きが正確に同期せず、視聴者に違和感をあたえてしまうおそれがある。
そこで、システム1では、アバターの口の態様の変化をより一層自然に見せる技術を提供する。
システム1は、例えば、動画配信サイト等において、ユーザ(演者)の動きをトラッキングしたアバターを利用するライブストリーミング配信等の場面において使用され得る。例えば、システム1は、ユーザが使用する端末装置(PC等)に備わっているカメラ(撮像装置)を介して、ユーザの動きなどをトラッキングしてアバターの動きに反映する。また、システム1は、同じくユーザの端末装置に備えられているマイク(集音装置)を介して、演者の発話の音声スペクトルを取得し、取得した音声スペクトルに基づいて、演者に対応したアバターの口の態様を演者の発話に応じて変化させる。
このとき、システム1は、演者に対応したアバター及び演者の音声を視聴者に提示し、アバターの口の態様を演者の発話に応じて変化させる程度の設定を、演者の発話の変化よりも低い程度とすることが可能に受け付ける。システム1は、当該処理を実行することで、アバターの口の態様を、演者の発話に応じて変化させることがあり得る。
これにより、アバターの口の態様の変化をより一層自然に見せることができる。
<1 システム全体の構成図>
図1は、第1の実施の形態におけるシステム1の全体の構成を表している。
図1に示すように、システム1は、複数の端末装置(図1では端末装置10Aおよび端末装置10Bを示している。以下、総称して「端末装置10」ということもある。また、さらに複数の端末装置10C等が構成に含まれていてもよい。)と、サーバ20とを含む。端末装置10とサーバ20とは、ネットワーク80を介して通信接続する。
端末装置10は、各ユーザが操作する装置である。端末装置10は、移動体通信システムに対応したスマートフォン、タブレット等の携帯端末などにより実現される。この他に、端末装置10は、例えば据え置き型のPC(Personal Computer)、ラップトップPC等であるとしてもよい。図1に端末装置10Bとして示すように、端末装置10は、通信IF(Interface)12と、入力装置13と、出力装置14と、メモリ15と、記憶部16と、プロセッサ19とを備える。サーバ20は、通信IF22と、入出力IF23と、メモリ25と、ストレージ26と、プロセッサ29とを備える。
端末装置10は、ネットワーク80を介してサーバ20と通信可能に接続される。端末装置10は、5G、LTE(Long Term Evolution)などの通信規格に対応した無線基地局81、IEEE(Institute of Electrical and Electronics Engineers)802.11などの無線LAN(Local Area Network)規格に対応した無線LANルータ82等の通信機器と通信することによりネットワーク80に接続される。
通信IF12は、端末装置10が外部の装置と通信するため、信号を入出力するためのインタフェースである。入力装置13は、ユーザからの入力操作を受け付けるための入力装置(例えば、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等)である。出力装置14は、ユーザに対し情報を提示するための出力装置(ディスプレイ、スピーカ等)である。メモリ15は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。記憶部16は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。プロセッサ19は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
サーバ20は、ユーザがアバターを利用したライブストリーミング等を行う際に設定する情報等を管理する。サーバ20は、例えば、ユーザの情報、アバターの情報、ユーザが着用しているウェアラブルデバイスの情報等を記憶する。
通信IF22は、サーバ20が外部の装置と通信するため、信号を入出力するためのインタフェースである。入出力IF23は、ユーザからの入力操作を受け付けるための入力装置、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。メモリ25は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。ストレージ26は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。プロセッサ29は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。
本実施形態において、各装置(端末装置、サーバ等)を情報処理装置として把握することもできる。すなわち、各装置の集合体を1つの「情報処理装置」として把握することができ、システム1を複数の装置の集合体として形成してもよい。1つ又は複数のハードウェアに対して本実施形態に係るシステム1を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び/又はシステム1に求められる仕様等に鑑みて適宜決定することができる。
<1.1 端末装置10の構成>
図2は、実施の形態1のシステム1を構成する端末装置10のブロック図である。図2に示すように、端末装置10は、複数のアンテナ(アンテナ111、アンテナ112)と、各アンテナに対応する無線通信部(第1無線通信部121、第2無線通信部122)と、操作受付部130(タッチ・センシティブ・デバイス1301およびディスプレイ1302を含む)と、音声処理部140と、マイク141と、スピーカ142と、位置情報センサ150と、カメラ160と、モーションセンサ170と、記憶部180と、制御部190と、を含む。端末装置10は、図2では特に図示していない機能及び構成(例えば、電力を保持するためのバッテリ、バッテリから各回路への電力の供給を制御する電力供給回路など)も有している。図2に示すように、端末装置10に含まれる各ブロックは、バス等により電気的に接続される。
アンテナ111は、端末装置10が発する信号を電波として放射する。また、アンテナ111は、空間から電波を受信して受信信号を第1無線通信部121へ与える。
アンテナ112は、端末装置10が発する信号を電波として放射する。また、アンテナ112は、空間から電波を受信して受信信号を第2無線通信部122へ与える。
第1無線通信部121は、端末装置10が他の無線機器と通信するため、アンテナ111を介して信号を送受信するための変復調処理などを行う。第2無線通信部122は、端末装置10が他の無線機器と通信するため、アンテナ112を介して信号を送受信するための変復調処理などを行う。第1無線通信部121と第2無線通信部122とは、チューナー、RSSI(Received Signal Strength Indicator)算出回路、CRC(Cyclic Redundancy Check)算出回路、高周波回路などを含む通信モジュールである。第1無線通信部121と第2無線通信部122とは、端末装置10が送受信する無線信号の変復調、および周波数変換を行い、受信信号を制御部190へ与える。
操作受付部130は、ユーザの入力操作を受け付けるための機構を有する。具体的には、操作受付部130は、タッチスクリーンとして構成され、タッチ・センシティブ・デバイス1301と、ディスプレイ1302とを含む。タッチ・センシティブ・デバイス1301は、端末装置10のユーザの入力操作を受け付ける。タッチ・センシティブ・デバイス1301は、例えば静電容量方式のタッチパネルを用いることによって、タッチパネルに対するユーザの接触位置を検出する。タッチ・センシティブ・デバイス1301は、タッチパネルにより検出したユーザの接触位置を示す信号を入力操作として制御部190へ出力する。また、端末装置10は、物理的に入力可能なキーボード(図示せず)を備え、当該キーボードを介して、ユーザの入力操作を受け付けてもよい。
ディスプレイ1302は、制御部190の制御に応じて、画像、動画、テキストなどのデータを表示する。ディスプレイ1302は、例えばLCD(Liquid Crystal Display)、または有機EL(Electro-Luminescence)ディスプレイによって実現される。
音声処理部140は、音声信号の変復調を行う。音声処理部140は、マイク141から与えられる信号を変調して、変調後の信号を制御部190へ与える。また、音声処理部140は、音声信号をスピーカ142へ与える。音声処理部140は、例えば音声処理用のプロセッサによって実現される。マイク141は、音声入力を受け付けて、当該音声入力に対応する音声信号を音声処理部140へ与える。スピーカ142は、音声処理部140から与えられる音声信号を音声に変換して当該音声を端末装置10の外部へ出力する。
位置情報センサ150は、端末装置10の位置を検出するセンサであり、例えばGPS(Global Positioning System)モジュールである。GPSモジュールは、衛星測位システムで用いられる受信装置である。衛星測位システムでは、少なくとも3個または4個の衛星からの信号を受信し、受信した信号に基づいて、GPSモジュールが搭載される端末装置10の現在位置を検出する。位置情報センサ150は、情報機器間の近距離通信システムで用いられる通信規格に基づく送受信装置であるとしてもよい。具体的には、位置情報センサ150は、Bluetooth(登録商標)モジュールなど2.4GHz帯を使用して、Bluetooth(登録商標)モジュールを搭載した他の情報機器からのビーコン信号を受信する。
カメラ160は、受光素子により光を受光して、撮影画像として出力するためのデバイスである。カメラ160は、例えば、カメラ160から撮影対象までの距離を検出できる深度カメラである。
また、カメラ160は、端末装置10を使用するユーザの身体の動きを取得する。具体的には、例えば、カメラ160は、ユーザの口の動き、顔の各部位(目、眉等)の動きを取得する。当該動きの取得は、既存のあらゆる技術を利用してよい。
モーションセンサ170は、ジャイロセンサ、加速度センサ等により構成され、端末装置10の傾きを検出する。
記憶部180は、例えばフラッシュメモリ等により構成され、端末装置10が使用するデータおよびプログラムを記憶する。ある局面において、記憶部180は、ユーザ情報1801、アバター情報1802、ウェアラブルデバイス情報1803等を記憶する。当該情報は、端末装置10の記憶部180に保持される他、後述するサーバの記憶部202にデータベースとして記憶されたものを、ネットワーク80を介して取得してもよい。
ユーザ情報1801は、ユーザを識別するID、ユーザ名、ユーザに対応するアバターの情報等の情報である。ここで、ユーザとは、マイク141、またはカメラ160を介して取得した情報に基づいてアバターを動かす演者を示す。ユーザ情報に含まれる情報の詳細は、後述する。
アバター情報1802は、ユーザに対応するアバターに関する各種情報である。アバター情報1802は、例えば、対応するユーザ、ユーザが普段使用する設定等の情報を保持しており、ユーザがライブストリーミング等の配信において、スムーズにアバターを操作するために参照される情報である。アバター情報に含まれる情報の詳細は、後述する。
ユーザが普段使用する設定は、例えば、アバターの態様の変化の度合いの基本設定、普段の配信でデフォルトとして表示させる感情、ユーザのセンシング感度等、アバターを使用して配信する際にユーザが調整可能なパラメータ、条件である。
ウェアラブルデバイス情報1803は、ユーザが配信時に着用しているウェアラブルデバイスに関する各種情報である。各種情報は、例えば、下記を含む。
・ウェアラブルデバイスの種類
・ウェアラブルデバイスのサイズ
・ウェアラブルデバイスの透過率
・電子的な情報取得の可否
ウェアラブルデバイス情報1803は、例えば、ユーザが着用している眼鏡、スマートグラス等のアイウェア、ヘッドマウントディスプレイ(HMD)等の各種器具、デバイスに関する各種情報を保持する。ウェアラブルデバイス情報1803に含まれる情報の詳細は、後述する。
制御部190は、記憶部180に記憶されるプログラムを読み込んで、プログラムに含まれる命令を実行することにより、端末装置10の動作を制御する。制御部190は、例えばアプリケーションプロセッサである。制御部190は、プログラムに従って動作することにより、入力操作受付部1901と、送受信部1902と、データ処理部1903と、報知制御部1904としての機能を発揮する。
入力操作受付部1901は、タッチ・センシティブ・デバイス131等の入力装置に対するユーザの入力操作を受け付ける処理を行う。入力操作受付部1901は、タッチ・センシティブ・デバイス1301に対してユーザが指などを接触させた座標の情報に基づき、ユーザの操作がフリック操作であるか、タップ操作であるか、ドラッグ(スワイプ)操作であるか等の操作の種別を判定する。
送受信部1902は、端末装置10が、サーバ20等の外部の装置と、通信プロトコルに従ってデータを送受信するための処理を行う。
データ処理部1903は、端末装置10が入力を受け付けたデータに対し、プログラムに従って演算を行い、演算結果をメモリ等に出力する処理を行う。
データ処理部1903は、カメラ160により取得されたユーザの口などの動きを受け付け、各種処理を実行させるための処理を制御する。例えば、データ処理部1903は、カメラ160により取得したユーザの口の動きに基づいて、ユーザと対応するアバターの口の動きを制御する処理を実行させる。
報知制御部1904は、表示画像をディスプレイ132に表示させる処理、音声をスピーカ142に出力させる処理、振動をカメラ160に発生させる処理を行う。
<1.2 サーバ20の機能的な構成>
図3は、サーバ20の機能的な構成を示す図である。図3に示すように、サーバ20は、通信部201と、記憶部202と、制御部203としての機能を発揮する。
通信部201は、サーバ20が外部の装置と通信するための処理を行う。
記憶部202は、サーバ20が使用するデータ及びプログラムを記憶する。記憶部202は、ユーザ情報データベース2021と、アバター情報データベース2022と、ウェアラブルデバイス情報データベース2023等を記憶する。
ユーザ情報データベース2021は、アバターを操作する演者に関する各種情報を保持するためのデータベースである。当該データベースが保持する各レコードの詳細は後述する。
アバター情報データベース2022は、ユーザが操作するアバターに関する各種情報を保持するためのデータベースである。詳細は後述する。
ウェアラブルデバイス情報データベース2023は、アバターを操作するユーザが装着しているアイウェアに関する各種情報を保持するためのデータベースである。詳細は後述する。
制御部203は、例えばプロセッサ29により構成され、このプロセッサ29がプログラムに従って処理を行うことにより、各種モジュールとして受信制御モジュール2031、送信制御モジュール2032、ユーザ情報取得モジュール2033、アバター情報取得モジュール2034、音声スペクトル取得モジュール2035、アバター変化モジュール2036、アバター提示モジュール2037、設定受付モジュール2038、ウェアラブルデバイス情報取得モジュール2039、変化補正モジュール2040等に示す機能を発揮する。
受信制御モジュール2031は、サーバ20が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。
送信制御モジュール2032は、サーバ20が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。
ユーザ情報取得モジュール2033は、アバターを操作する演者であるユーザの各種情報を取得する処理を制御する。各種情報は、例えば、下記を含む。
・ユーザの氏名、識別ID
・ユーザに対応するアバターの情報
・ユーザが着用しているデバイス(眼鏡等)
具体的には、例えば、ユーザ情報取得モジュール2033は、ユーザが利用する端末装置10の記憶部180からユーザ情報1801を参照することにより、当該情報を取得しても良い。また、ユーザ情報取得モジュール2033は、後述するサーバ20の記憶部202に保持されているユーザ情報データベース2021を参照することにより当該情報を取得してもよい。他にも、ユーザ情報取得モジュール2033は、ユーザから直接ユーザに関する各種情報の入力を受け付けることで、当該情報を取得してもよい。
アバター情報取得モジュール2034は、ユーザが操作するアバターの各種情報を取得する。各種情報は、例えば、下記を含む。
・アバターを識別するIDの情報
・アバターの属性(人間、人間以外等)の情報
・対応するユーザがデフォルトで設定している口、顔、またはそれ以外の身体の部位の態様の情報
・アバターごとに個別に設定されている、口、顔、またはそれ以外の身体の部位の専用の設定
具体的には、例えば、アバター情報取得モジュール2034は、各ユーザに紐づけられたアバターの情報を、アバター情報1802、またはユーザ情報データベース2021を参照することで取得してもよい。
また、ある局面において、サーバ20は、ユーザからアバターの口、顔、またはそれ以外の身体の部位の態様の変化の度合いに対する設定の入力を受け付け、当該設定をデフォルトとして再設定する操作を受け付けると、アバター情報1802等に保持しているアバター情報を更新する処理を行ってもよい。これにより、ユーザは、適宜アバターの態様の変化の度合いのうち、よく使用する設定をデフォルトとして設定でき、アバターの操作を容易に行うことができる。
なお、アバターの情報は、各ユーザに対して1つでなくともよい。例えば、ユーザに対し予め複数のアバターの情報が紐づけられていてもよいし、追加でユーザに紐づけされてもよい。
また、ある局面において、アバターIDは、下記の情報を包含していてもよい。
・アバターの外観に関する情報(性別、瞳の色、髪型、口、顔の部位、またはそれ以外の身体の部位の大きさ、髪の色、肌の色等)
・アバターの口、顔、またはそれ以外の身体の部位の態様に関する情報(変化する態様の種類の多寡、変化する態様の変化量の多寡等)
ここで、サーバ20は、上記アバター情報を、コンテンツの種類と紐づけて記憶してもよい。具体的には、例えば、サーバ20は、ユーザがライブ配信等で提供するコンテンツの種類(雑談、歌、演技等)と、口、顔、その他の身体の部位に対する態様の変化の度合いの設定を紐づけておき、ユーザがどのコンテンツを提供するかを選択する操作を受け付けると、当該コンテンツに対応する設定をアバターに反映させてもよい。
これにより、ユーザは、視聴者に提供するコンテンツに合わせて、アバターの態様を適切に変化させることができるため、視聴者に没入感を与えることができる。
また、サーバ20は、ユーザから使用するアバターの選択を受け付けたのち、態様の変化の度合いの設定を自動で反映させるのではなく、ユーザからの選択を受けつけ、同時にユーザに所定の通知(ダイアログ等)を提示してもよい。例えば、サーバ20は、ユーザが使用するアバターを選択後、アバター毎に設定されている専用の設定ではなく、通常使用する汎用的な設定を選択した際「通常設定で問題ないか否か」等の通知を提示してもよい。
これにより、ユーザは、間違った設定を反映させてライブ配信をすることを防ぐことができ、視聴者の没入感を削ぐことを防止することができる。
また、サーバ20は、上記態様の変化の度合いの設定を、ライブ配信中に受け付け反映させてもよい。具体的には、例えば、サーバ20は、ユーザからライブ配信中に態様の変化の度合いの設定の変更を受け付けると、設定の変更を受け付けた後、所定の時間経過後に取得したユーザの音声スペクトル、またはユーザのセンシング結果に基づいてアバターの態様を変化させる際、変更後の設定に基づいてアバターの態様を変化させる処理を実行してもよい。
これにより、ユーザは、ライブ配信中に適宜態様の変化の設定を変更し反映させることができるため、ライブ配信中に提供するコンテンツを切り替えても、ユーザに違和感なくアバターの態様の変化を見せることができる。
音声スペクトル取得モジュール2035は、ユーザの発話の音声スペクトルを取得する処理を制御する。具体的には、例えば、音声スペクトル取得モジュール2035は、マイク141を介して取得したユーザが発話した音声から、音声スペクトルを取得する処理を制御する。例えば、音声スペクトル取得モジュール2035は、マイク141を介して、ユーザの音声を取得し、当該音声に含まれる音声スペクトルを取得する。例えば、音声スペクトル取得モジュール2035は、マイク141から取得した音声をフーリエ変換し、音声に含まれる音声スペクトルの情報を取得してもよい。このとき、音声スペクトルを取得する演算は、フーリエ変換に限られず、既存のあらゆる方法であってもよい。
また、ある局面において、音声スペクトル取得モジュール2035は、ユーザの音声から母音の音声スペクトルの情報を取得してもよい。例えば、音声スペクトル取得モジュール2035は、予めユーザから入力する母音の設定を受け付けておき、その後、ユーザからの発声を、マイク141を介して受け付けることで、受け付けた母音の設定と取得した音声スペクトルとを関連付けて記憶する。
また、ある局面において、音声スペクトル取得モジュール2035は、子音に起因する音声の情報である「t」、「c」、「h」、「k」、「m」、「r」、「s」、「n」、「w」等の音を取得し、当該記憶した母音の情報と組み合わせることで、ユーザが発話した言葉を推定してもよい。
これにより、システム1では、ユーザの音声スペクトルのうち、母音に関する音声スペクトルを別に特徴付けして記憶することができるため、アバターの口の態様の動きをより正確に変化させることができる。
アバター変化モジュール2036は、取得した音声スペクトルに基づいて、演者に対応したアバターの口の態様を演者の発話に応じて変化させる処理を制御する。具体的には、例えば、アバター変化モジュール2036は、音声スペクトル取得モジュール2035が取得したユーザの音声スペクトルから、ユーザが発話した言葉を推定し、当該推定した言葉に応じてアバターの口の態様を変化させる。例えば、アバター変化モジュール2036は、ユーザの音声スペクトルからユーザが発話した母音の情報を推定し、当該母音にあわせて口の態様を変化させる。例えば、アバター変化モジュール2036は、音声スペクトル取得モジュール2035が取得したユーザの音声スペクトルが「あ」である場合に、アバターの口の態様を「あ」に対応した形に変化させる。
アバター提示モジュール2037は、演者に対応したアバター及びユーザの音声を視聴者に提示する処理を制御する。具体的には、例えば、アバター提示モジュール2037は、ユーザに対応するアバターの映像と、ユーザの音声とを、視聴者が使用する端末装置10のディスプレイ1302及びスピーカ142に送信し当該視聴者に提示する。このとき、視聴者は一人とは限らず、複数の視聴者の端末装置10にアバター及び音声とを提示してもよい。
設定受付モジュール2038は、アバターの口の態様をユーザの発話に応じて変化させる程度の設定を、ユーザの発話の変化よりも低い程度とすることが可能に受け付ける処理を制御する。具体的には、例えば、設定受付モジュール2038は、ユーザから、アバターの口の態様を変化させる程度の設定として、ユーザの発話をアバターの口の態様に反映させる時間間隔の設定を受け付ける。例えば、設定受付モジュール2038は、下記を含む設定を受け付けてもよい。
・アバターの口の態様がユーザの音声スペクトルから推定される発話の音声に対応した態様に変化するまでの所要時間の設定
・一定期間内にユーザの発話に基づいてアバターの動作を変更・更新する頻度(例えば、1秒間の更新数)の設定
ここで、ユーザの発話の変化について定義する。ユーザの発話の変化は、例えば、ユーザの発話の速度であり、下記に基づいて算出されてもよい。
・ユーザが発話した母音が変化する時間間隔(例えば、母音が「あ」から「い」に変化する際の時間間隔)
このとき、サーバ20は、子音に由来する音(c、k等)を同時に取得し、同一の母音を連続して取得した場合でも、別の単語を発話しているとして発話の速度を推定してもよい。
・所定期間内に発せられる母音の数
このとき、設定受付モジュール2038は、当該設定を、ユーザの発話の変化から推定されるアバターの変化の程度よりも低い程度とすることが可能に受け付けてもよい。例えば、設定受付モジュール2038は、予めユーザの音声スペクトルから推定された発話(母音)に対応するように口の態様を変化させる際の所要時間を受け付けておいてもよい。サーバ20は、受け付けた所要時間に基づいて、ユーザの音声スペクトルから、ユーザが母音を発話した時間の情報を取得し、予め設定された所要時間との比率を算出し、態様の変化量に乗算し、アバターの口の態様の変化量を算出する。サーバ20は、取得した発話時間と、変化量とに基づき、口の態様を変化させる。例えば、ユーザが所要時間「1秒」でアバターの口が「あ」の態様に変化する設定を入力したとする。例えば、完全に「あ」の態様になるときを「100」とし、「1秒」で「100」になるように設定する。
このとき、サーバ20は、1秒で態様が変化する際の度合い(口の変化量、速度)についても、ユーザから受けてつけておいてもよい。(すなわち、1秒間で口の態様が変化するうち、最初の0.5秒と残りの0.5秒とで態様の変化量に差分を設定してもよい)
サーバ20は、ユーザが1秒間「あ」の音を発声した場合には、上記の変化量の設定等に基づき、1秒かけてアバターの口の態様を「あ」の態様に変化させる。しかし、ユーザが「あ」の発声を「0.5秒」しかしなかった場合には、サーバ20は、アバターの口の態様の変化量を「50」まで変化させる処理を行ってもよい。
また、サーバ20は、ユーザが連続して発話した場合(例えば、「あいうえお」と発話)には、それぞれの母音の発話時間を取得し、上記処理を行ってもよい。つまり、サーバ20は、それぞれの母音の発話時間から、それぞれの母音に対応したアバターの口の態様の変化量を算出し、アバターの口の態様を変化させてもよい。例えば、各母音に対応したアバターの口の態様に変化するまでの所要時間を「1秒」とし、「あ」を「0.2秒」、「い」を「0.3」秒発話していた場合、「あ」に対応した変化量は「20」であり、「い」に対応した変化量は「30」である。また、ユーザが所要時間よりも長い時間発話した場合には、サーバ20は、アバターの口の態様を、所用時間後もその状態を維持してもよい。
これにより、ユーザは、「あ」の音声を発声した場合に即時的にアバターを口の態様が「あ」になるのではなく、自身の発話時間に応じて徐々にアバターの口の態様を変化させることができる。また、所用時間を設定し、当該時間に満たない発話の場合に、口の態様の変化量を乗算して変化させることで、ユーザが軽く発話した際でもアバターの口の態様が大きく変化する(例えば、30程度の口の開きでもアバターの口の態様は100として変化する)ことを防ぐことができる。これにより、ユーザは、視聴者にユーザの発話とアバターの口の態様の変化とに生じる違和感を与えることを防ぐことができるため、より視聴者に没入感を与えることができる。
ある局面において、サーバ20は、ユーザから取得した音声スペクトルの大きさ、高さ等の情報等に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、サーバ20は、ユーザの音声スペクトルの周波数(Hz)、音圧(dB)の情報を取得し、当該情報が所定の閾値を超過した場合等に、アバターの口の態様を変化させてもよい。例えば、サーバ20は、所用時間「1秒」でアバターの口の態様を変化させる設定を受け付けており、ユーザの発話時間が「1秒」であったとする。このとき、サーバ20は、ユーザが「0.8秒」の時点で閾値を越す音圧で発声したことを検知した場合には、アバターの口の態様を、通常よりも大きく変化(大きく口を開けた態様にする)させてもよい。このとき、サーバ20は、口だけでなく、顔の部位、身体の部位についても同様の設定を反映させてもよい。
これにより、ユーザは、急に大声を上げた場合でも、アバターの口の態様に反映させることができ、より自然なアバターの動きを視聴者に見せることができる。
他にも、設定受付モジュール2038は、ユーザの発話から推定される発話の速度から推定されるアバターの動作の更新頻度よりも低い値になるよう、アバターの口の態様の変化の程度の設定を受け付けてもよい。
その後、サーバ20は設定受付モジュール2038により設定した情報をアバター変化モジュール2036に送信し、アバターの口の態様を、設定に応じて変化させ、その後、アバター提示モジュール2037により視聴者にアバター及びユーザの音声を提示する。
これにより、ユーザは、母音の変化よりゆるやかにアバターの口の態様を変化させることで、より自身の発話に合わせて滑らかにアバターの口の態様を変化させることができる。これにより、ユーザは、アバターの口の態様が繊細に動きすぎて不自然な動きにすることを防ぐことができるため、視聴者により自然な口の動きを提示することができ、視聴者の没入感を高めることができる。
ウェアラブルデバイス情報取得モジュール2039は、ユーザが着用しているウェアラブルデバイスの情報を取得する処理を制御する。具体的には、例えば、ウェアラブルデバイス情報取得モジュール2039は、ユーザの情報を取得すると、後述するウェアラブルデバイス情報データベース2023を参照し、ユーザが着用しているウェアラブルデバイスの情報を取得する。サーバ20は、取得したウェアラブルデバイスの情報を、変化補正モジュール2040に送信する。
変化補正モジュール2040は、ウェアラブルデバイス情報取得モジュール2039が取得したウェアラブルデバイスの情報に基づいて、アバターに反映させる態様の変化の度合いの設定を補正する処理を制御する。具体的には、例えば、変化補正モジュール2040は、ウェアラブルデバイス情報取得モジュール2039が取得したウェアラブルデバイスの情報から、ユーザの顔の部位のうち、ウェアラブルデバイスに覆われている、遮蔽されている部位の態様の変化の度合いの設定を補正する。サーバ20は、ユーザの顔の所定の部位(口、目、眉、鼻等)のセンシング結果を取得し、当該センシング結果と、ユーザから受け付けた設定(センシング結果を反映させる度合い、パラメータの設定等)とを反映させ、アバターの態様を変化させる。このとき、例えば、変化補正モジュール2040は、ユーザが眼鏡を着用している場合、当該情報に基づいて、ユーザに対応するアバターの目の態様の変化の度合いをユーザから受け付けた時、予め設定されている補正値に基づいて補正して反映する、補正とは、例えば、ウェアラブルデバイスごとにユーザの顔の部位のセンシングの精度が低下する場合、当該低下率(あるいは減衰率)を予め設定しておき、当該設定に基づいて、センシング、トラッキング時のアバターへの動きの反映の度合いを補正する処理を示す。
これにより、ユーザは、眼鏡等を着用していても、アバターの態様の変化を自然に視聴者に提示することができる。
他にも、変化補正モジュール2040は、アバター情報取得モジュール2034が取得したアバターの属性に応じて、アバターの態様の変化の度合いを補正してもよい。
具体的には、例えば、変化補正モジュール2040は、ユーザが操作するアバターが人間、または人間とは態様の変化の様子が異なる人間以外のいずれかであるかの情報を取得し、当該情報に基づいて、アバターの態様の変化の程度を補正する処理を実行してもよい。例えば、ユーザが操作するアバターの属性が「竜」である場合には、目、口等の動きが、人間とは異なる挙動を示す可能性がある。その場合、変化補正モジュール2040は、当該「竜」の属性に基づいて、口角の変化量、眼球の変化量等を、アバターに沿った形に補正してもよい。
これにより、ユーザは、人間とは異なるアバターを操作していても、自身の発話、顔のセンシング結果に基づいて、より自然な動きを視聴者に提示することができる。
なお、本開示における実施形態において、上記構成は必須ではない。すなわち、端末装置10がサーバ20の役割を担い、サーバ20の制御部203を構成する各種モジュールと同じ処理を実行してもよい。また、端末装置10は、ネットワーク80を介さずとも、端末装置10に備えられたマイク141、カメラ160等を介して取得した情報をもとに、本発明において開示される各種機能を実施してもよい。
<2 データ構造>
図4は、サーバ20が記憶するユーザ情報データベース2021、アバター情報データベース2022、ウェアラブルデバイス情報データベース2023のデータ構造を示す図である。
図4に示すように、ユーザ情報データベース2021は、項目「ID」と、項目「対応アバター」と、項目「使用デバイス」と、項目「専用プリセット(口)」と、項目「専用プリセット(顔)」と、項目「基本設定」と、項目「よく使う感情」と、項目「備考」等を含む。
項目「ID」は、アバターを操作する演者であるユーザそれぞれを識別する情報である。
項目「対応アバター」は、各ユーザに対応するアバターそれぞれを識別する情報である。
項目「使用デバイス」は、各ユーザが着用しているデバイス、例えば、ユーザが着用しているウェアラブルデバイスそれぞれを識別する情報である。
項目「専用プリセット(口)」は、各ユーザがアバターを操作する際の、アバターの口の態様を変化させる程度の度合いについて、ユーザ毎に予め設定された条件を示す情報である。具体的には、例えば、ユーザが操作するアバターが所定の状況下(例えば、口の態様を大きく変化させる等)になった際に、アバターに応じて個別に設定された各種条件を示す。プリセットに含まれる情報は、例えば、口角の高さ、唇の形等の情報が含まれていて良い。サーバ20は、ユーザから当該プリセットの選択を受け付けることで、アバターに当該設定を反映させ、視聴者に提示してもよい。
これにより、ユーザは、自身に対応するアバターに特有の口の態様の変化を即座に反映させ、視聴者に提示することができるため、より自然にアバターが動く様子を視聴者に見せることができる。
項目「専用プリセット(顔)」は、各ユーザがアバターを操作する際の、アバターの顔の部位の態様を変化させる程度の度合いについて、ユーザ毎に予め設定された条件を示す情報である。具体的には、例えば、ユーザが操作するアバターが所定の状況下(例えば、アバターの表情を大きく変化させる等)になった際に、アバターに応じて個別に設定された各種条件を示す。プリセットに含まれる情報は、例えば、眉の向き、目の形、瞳孔の大きさ、頬の紅潮、発話又はユーザの表情のセンシング等の情報が含まれていて良い。サーバ20は、ユーザから当該プリセットの選択を受け付けることで、アバターに当該設定を反映させ、視聴者に提示してもよい。
例えば、ユーザが人間以外の属性のアバター(モンスター、無機物、ロボット等)を使用しているとする。その場合、アバターの各種部位(口、顔、身体)の態様の変化は、ユーザの音声スペクトル、センシング結果とは完全に一致しない可能性がある。そのため、サーバ20は、上記に例示した専用プリセット(口)、または専用プリセット(顔)の設定をユーザから受け付けてよい。これにより、ユーザは、ライブ配信等の際に当該プリセットを選択することで、あらゆるアバターを使用した時でも、違和感なくユーザの音声スペクトル、センシング結果をアバターの態様の変化に反映させることができる。
また、サーバ20は、他にも、ユーザが提供するコンテンツの種類に応じた専用のプリセットの設定を受け付けてもよい。例えば、ユーザが歌を配信する際の設定として、普段雑談する際よりも大きくアバターの口、顔の部位、身体の部位を変化させる設定などを受け付けていてもよい。
これにより、ユーザは、自身に対応するアバターに特有の顔の態様の変化を即座に反映させ、視聴者に提示することができるため、より自然にアバターが動く様子を視聴者に見せることができる。
項目「基本設定」は、ユーザが通常使用する変化の程度の度合いの設定を示す。具体的には、例えば、アバターを操作するユーザが普段の配信、ライブ配信・ライブストリーミングにおいて、口、顔、その他身体の部位の態様を変化させる際に、通常(汎用的に)使用する変化の程度の度合いの条件を示す。例えば、条件は、ユーザのセンシング結果に追随させる度合いの程度等を含んでもよい。センシング結果に追随させる度合いとは、例えば、センシング結果を直接アバターの態様の変化に反映させた際を100とした感度の度合い、ユーザの顔の変化量と比較したアバターの態様の変化量、センシング結果から推定されるアバターの単位時間あたりの変化量に対してアバターの動きに反映させる変化量の程度等を含む。
これにより、ユーザは、配信のたびに変化の程度の度合いを設定することなく、簡易に配信を始めることができる。
このとき、サーバ20は、基本設定と専用プリセットとを組み合わせて、コンテンツに応じた設定として受け付けてもよい。具体的には、例えば、コンテンツに応じたアバターの設定を下記に例示する。
・ASMR(Autonomous Sensory Meridian Response)モード(ささやきモード)
口は専用プリセット(感度を低めにし、小声感を出す)を使用しつつ、表情については基本設定を使用する。または、専用の表情の設定を併用する。
・アクションゲーム配信モード
口は専用プリセット(感度を高めにし、オーバーリアクションになるようにする)を使用しつつ、表情についても感度を高めにする。
・ホラーゲーム配信モード
口は専用プリセット(感度を低めにし、検出する周波数の閾値を低く設定する)を使用しつつ、表情も同様の感度設定を行う。または、専用の設定を使用する。
・雑談モード(基本設定を使用)
また、ある局面において、サーバ20は、上記モードの切り替えについて、ユーザに切り替えボタンを提示し、当該ボタンのユーザからの押下操作を受け付けることにより、アバターにモードに基づいて態様の変化の度合いの設定を反映させてもよい。
このとき、サーバ20は、切り替えボタンを、視聴者には見えず、かつユーザには視認可能な状態でユーザに提示してもよい。また、サーバ20は、当該切り替えボタンの配置をユーザの操作により変更してもよい。
これにより、ユーザは、視聴者に提供するコンテンツに応じて、プリセットを使い分けることができ、より幅広い表現が可能となる。
また、サーバ20は、仮想空間上の背景に関する情報を紐づけて記憶していてもよく、モードの切り替えに応答して、背景を変化させてもよい。他にも、サーバ20は、下記に例示する所定のオブジェクトを紐づけて記憶しておき、モードの切り替えに応答して当該オブジェクトを仮想空間上に表示してもよい。
・音楽ライブ配信時のマイク、楽器などの機材オブジェクト
・ゲーム配信時のゲーム機器のオブジェクト
・汎用的なオブジェクト(観葉植物、部屋の家具など)
これにより、サーバ20は、モードの切り替え時の読み込み処理を軽減でき、遅延などが生じ視聴者に違和感を与えることを防ぐことができる。
上記設定は、基本設定等と組み合わせて使用されてもよい。組み合わせは、ユーザから任意の設定を受け付けてよく、ユーザ毎に専用の組み合わせとして、記憶部に保持してもよい。また、サーバ20は、複数のプリセットにおいて、使用頻度の情報を取得してもよい。サーバ20は、当該使用頻度の情報に基づいて、ユーザに対し、使用頻度の高いプリセットを「よく使う設定」、または「基本設定」として保持するかの通知を提示してもよい。サーバ20は、ユーザから「よく使う設定」等に設定する旨の指示を受け付けると、当該プリセットを「よく使う設定」として記憶部に保持してもよい。
項目「よく使う感情」は、ユーザがアバターを操作する際に、よく使用する感情の設定を示す。具体的には、例えば、ユーザが配信中に「喜び」の感情をよく使用する場合、サーバ20は、当該感情に基づいたアバターの態様の変化の条件を予めデータベース内に保持していてもよい。このとき、態様の変化の条件は、口の態様の変化の程度の度合い、「喜び」の感情を表現する際に動作する顔の各種部位の変化量、センシング結果に追随させる度合いの程度、等を含む。
サーバ20は、当該保持している感情の設定の選択をユーザから受け付けると、当該感情に基づいてアバターの態様を変化させ、視聴者に提示してもよい。
これにより、ユーザは、普段の配信で使用する感情に応じたアバターの態様の変化を即座に設定することができ、簡易に配信を行うことができる。
項目「備考」は、ユーザの情報に特記事項などがある場合に保持される情報である。
図4に示すように、アバター情報データベース2022は、項目「ID」と、項目「対応ユーザ」と、項目「属性」と、項目「関連付け部位」と、項目「特殊部位の有無」と、項目「特殊部位の動作設定」と、項目「標準変化速度」と、項目「よく使う感情」と、項目「備考」等を含む。
項目「ID」は、配信に使用され、視聴者に提示されるアバターそれぞれを識別する情報である。
項目「対応ユーザ」は、アバターを対応するユーザを識別する情報である。
項目「属性」は、アバター毎に設定されている属性を識別する情報である。具体的には、属性は、例えば、アバターが人間、または人間とは態様の変化の様子が異なる人間以外のいずれかであるかを特定する情報を示す。
属性は、例えば、下記の情報を含む
・人間
・人間とは異なる生物(動物、植物等)
・空想上の生物(竜、天使、悪魔等)
・機械
・不定形の存在(ファンタジーにおけるスライム、ゴースト等)
ある局面において、当該レコードは下位概念の情報として、定義された属性に特有の情報を保持していてもよい。具体的には、例えば、属性が「無機物」である場合には、「目が存在しない」といった下位概念を保持していてもよく、属性が「仮想生物」である場合には、「目が複数ある」等の情報を保持していてもよい。サーバ20は、当該属性の情報に基づいて、アバターの態様の変化の程度の度合いを補正するための情報を保持していてもよい。
これにより、ユーザは、人間以外のアバターを操作する際にも、適切に口、顔の態様を変化させることができる。
項目「関連付け部位」は、アバターの1または複数の顔の部位のうち、関連付けられた部位に関する情報である。具体的には、関連付け部位は、例えば、アバターの顔の部位のうち「眉」同士が関連付けられている場合等に当該情報を保持してもよい。サーバ20は、当該関連付けられた部位同士に対し、同一の態様の変化の程度の設定を受け付けてもよい。
これにより、ユーザは、関連付けられている部位に対し、個別に態様の変化の程度の設定をすることがないため、態様の変化の程度の設定の手間を軽減することができる。
項目「特殊部位の有無」は、アバターに特殊部位があるか否かを識別するための情報である。具体的には、例えば、サーバ20は、アバターの属性が人間以外である場合に、「角」、「尻尾」等の部位が存在する場合に、当該情報を保持していてもよい。ここで、特殊部位は、アバターの身体に属している必要はなく、アバターの周囲に浮遊しているオブジェクト等であってもよい。
特殊部位は、上記に限られない。例えば、アバターとは異なる生物等のオブジェクトが周囲に配置されていてもよい。
項目「特殊部位の動作設定」は、アバターの特殊部位を動作させる設定に関する情報である。具体的には、例えば、サーバ20は、アバターに特殊部位(例えば、「角」、「尻尾」等)が存在する場合に、当該部位がどのような条件をトリガーとして動作するかの情報をこのレコードに保持していてもよい。例えば、特殊部位「角」を持つアバターにおいて、「目全体の動きと連動」となっている場合、サーバ20は、ユーザが設定した目の態様の変化の程度の設定を、当該角に反映し、態様を変化させてもよい。
また、ある局面において、サーバ20は、特殊部位ごとにユーザからの態様の変化の程度の設定を受け付けてもよい。例えば、特殊部位として、アバターの身体に接続されているものではなく、アバターの周囲に浮遊しているオブジェクトの態様が変化する場合等に、サーバ20は、当該オブジェクトそれぞれに対し、ユーザからの設定の入力を受け付けてもよい。ただし、サーバ20は、当該オブジェクトについても、アバターの部位(口、顔等)の設定を反映し態様を変化させてもよい。
また、サーバ20は、特殊部位が、アバターとは異なる生物等のオブジェクトであり、アバターの周囲に存在している場合に、当該オブジェクトが有する部位(例えば、目、口等)が、ユーザの音声スペクトル、またはセンシング結果に基づいて態様を変化させる度合いの程度の設定を受け付けてもよい。例えば、サーバ20は、当該オブジェクトの目の変化量を、アバターの変化量に所定の割合乗算して設定してもよいし、オブジェクトの部位ごとにユーザからの設定を受け付けてもよい。
これにより、ユーザは、人間以外のアバターを操作する場合でも、そのアバターの特性に合った操作を行うことができる。
項目「備考」は、アバターの情報に特記事項などがある場合に保持される情報である。
図4に示すように、ウェアラブルデバイス情報データベース2023は、項目「ID」と、項目「種類」と、項目「検出精度」と、項目「補正量」と、項目「備考」と、を含む。
項目「ID」は、ユーザが着用しているウェアラブルデバイスそれぞれを識別する情報である。
項目「種類」は、ユーザが着用しているウェアラブルデバイスの種類を示す情報である。ユーザが着用しているウェアラブルデバイスは特に限定されず、眼鏡等のアイウェア、HMD等の頭部を覆うデバイスでもよい。
項目「検出精度」は、ユーザがウェアラブルデバイスを装着している際の、ユーザの目、または顔の動きのセンシングの検出精度を示す。具体的には、例えば、サーバ20は、ユーザが着用しているウェアラブルデバイスそれぞれに対し、センシングの検出精度をスコアリングし、当該情報を保持してもよい。例えば、透過率が高く、裸眼とほぼ変わらない眼鏡をユーザが着用している場合には、検出精度「〇」として情報を保持しておいてもよい。このとき、サーバ20が保持するスコアは「〇」等の記号ではなく、透過率などを基準とした「100」等の数値でもよいし、「A」、「良」等の表記でも良く、限定されない。
項目「補正量」は、ウェアラブルデバイスごとに設定された、アバターの変化の程度の補正量を示す。具体的には、例えば、サーバ20は、前述の検出精度の値に基づいて、アバターの態様の変化の程度の補正量を設定する。例えば、ユーザが眼鏡を着用している場合には、その透過率等に基づいて所定の倍率を変化の程度に乗算する処理を実行してもよい。
ある局面において、サーバ20は、ユーザがHMD等のデバイスを着用しており、検出精度は低い場合でも、当該デバイスからユーザの目、または顔のセンシング結果が取得できる場合には、特に補正の処理を実行しないこととしてもよい。
サーバ20が保持するウェアラブルデバイスの情報は、他にも、マスク、眼帯等の情報であってもよい。その場合、サーバ20は、マスク、眼帯などで遮蔽されている部位について、センシング結果に基づいた態様の変化ではなく、ユーザの発話、または遮蔽されていない他の部位の設定を反映する等により、当該部位の動きをアバターに反映させてもよい。
これにより、ユーザは、配信時の自身の姿を気にすることなく、配信に臨むことができる。
項目「備考」は、ウェアラブルデバイスの情報に特記事項等がある場合に保持される情報である。
<3 動作>
以下、システム1が、ユーザの発話の音声スペクトルを取得し、取得した音声スペクトルに基づいて、ユーザに対応したアバターの口の態様を演者の発話に応じて変化させる際の一連の処理について説明する。
図5は、ユーザの発話の音声スペクトルを取得し、取得した音声スペクトルに基づいて、ユーザに対応したアバターの口の態様を演者の発話に応じて変化させる際の一連の処理を表すフローチャートである。なお、本フローチャートでは、ユーザが使用する端末装置10の制御部190が一連の処理を実行する例を開示するが、これに限られない。すなわち、一部の情報を端末装置10がサーバ20に送信し、当該処理をサーバ20で実行してもよいし、サーバ20が一連の全ての処理を実行してもよい。
ステップS501において、端末装置10の制御部190は、アバターを操作する演者であるユーザの発話の音声スペクトルを取得する。具体的には、例えば、端末装置10の制御部190は、サーバ20の音声スペクトル取得モジュール2035と同様に、マイク141を介して取得したユーザが発話した音声から、音声スペクトルを取得する処理を制御する。例えば、制御部190は、マイク141を介して、ユーザの音声を取得し、当該音声に含まれる音声スペクトルを取得する。例えば、制御部190は、マイク141から取得した音声をフーリエ変換し、音声に含まれる音声スペクトルの情報を取得してもよい。このとき、音声スペクトルを取得する演算は、フーリエ変換に限られず、既存のあらゆる方法であってもよい。
また、ある局面において、制御部190は、ユーザの音声から母音の音声スペクトルの情報を取得してもよい。例えば、制御部190は、予めユーザから入力する母音の設定を受け付けておき、その後、ユーザからの発声を、マイク141を介して受け付けることで、受け付けた母音の設定と取得した音声スペクトルとを関連付けて記憶する。
また、ある局面において、音声スペクトル取得モジュール2035は、子音に起因する音声の情報である「t」、「c」、「h」、「k」、「m」、「r」、「s」、「n」、「w」等の音を取得し、当該記憶した母音の情報と組み合わせることで、ユーザが発話した言葉を推定してもよい。
これにより、システム1では、ユーザの音声スペクトルのうち、母音に関する音声スペクトルを別に特徴付けして記憶することができるため、アバターの口の態様の動きをより正確に変化させることができる。
ステップS502において、端末装置10の制御部190は、取得した音声スペクトルに基づいて、ユーザに対応したアバターの口の態様をユーザの発話に応じて変化させる。具体的には、例えば、端末装置10の制御部190は、サーバ20のアバター変化モジュール2036と同様に、取得したユーザの音声スペクトルから、ユーザが発話した言葉を推定し、当該推定した言葉に応じてアバターの口の態様を変化させる。例えば、制御部190は、取得したユーザの音声スペクトルが「あ」である場合に、アバターの口の態様を「あ」に対応した形に変化させる。
ステップS503において、端末装置10の制御部190は、ユーザに対応したアバター及びユーザの音声を視聴者に提示する。具体的には、例えば、端末装置10の制御部190は、サーバ20のアバター提示モジュール2037と同様に、ユーザに対応するアバターの映像と、ユーザの音声とを、視聴者が使用する端末装置10のディスプレイ1302及びスピーカ142に送信し当該視聴者に提示する。このとき、視聴者は一人とは限らず、複数の視聴者の端末装置10にアバター及び音声とを提示してもよい。
ステップS504において、端末装置10の制御部190は、アバターの口の態様を演者の発話に応じて変化させる程度の設定を、ユーザの発話の変化よりも低い程度とすることが可能に受け付ける。具体的には、例えば、端末装置10の制御部190は、サーバ20の設定受付モジュール2038と同様に、下記を含む設定を受け付けてもよい。
・一定期間内にユーザの発話に基づいてアバターの動作を変更・更新する頻度(例えば、1秒間の更新数)の設定
ここで、ユーザの発話の変化について定義する。ユーザの発話の変化は、例えば、ユーザの発話の速度であり、下記に基づいて算出されてもよい。
・ユーザが発話した母音が変化する時間間隔(例えば、母音が「あ」から「い」に変化する際の時間間隔)
このとき、制御部190は、子音に由来する音(c、k等)を同時に取得し、同一の母音を連続して取得した場合でも、別の単語を発話しているとして発話の速度を推定してもよい。
・所定期間内に発せられる母音の数
また、このとき、制御部190は、当該設定を、ユーザの発話の変化から推定されるアバターの変化の程度よりも低い程度とすることが可能に受け付けてもよい。例えば、制御部190は、予めユーザの音声スペクトルから推定された発話(母音)に対応するように口の態様を変化させる際の所要時間を受け付けておいてもよい。制御部190は、受け付けた所要時間に基づいて、ユーザの音声スペクトルから、ユーザが母音を発話した時間の情報を取得し、予め設定された所要時間との比率を算出し、態様の変化量に乗算し、アバターの口の態様の変化量を算出する。制御部190は、取得した発話時間と、変化量とに基づき、口の態様を変化させる。例えば、ユーザが所要時間「1秒」でアバターの口が「あ」の態様に変化する設定を入力したとする。例えば、完全に「あ」の態様になるときを「100」とし、「1秒」で「100」になるように設定する。
このとき、制御部190は、1秒で態様が変化する際の度合い(口の変化量、速度)についても、ユーザから受けてつけておいてもよい。(すなわち、1秒間で口の態様が変化するうち、最初の0.5秒と残りの0.5秒とで態様の変化量に差分を設定してもよい)
制御部190は、ユーザが1秒間「あ」の音を発声した場合には、上記の変化量の設定等に基づき、1秒かけてアバターの口の態様を「あ」の態様に変化させる。しかし、ユーザが「あ」の発声を「0.5秒」しかしなかった場合には、制御部190は、アバターの口の態様の変化量を「50」まで変化させる処理を行ってもよい。
また、制御部190は、ユーザが連続して発話した場合(例えば、「あいうえお」と発話)には、それぞれの母音の発話時間を取得し、上記処理を行ってもよい。つまり、制御部190は、それぞれの母音の発話時間から、それぞれの母音に対応したアバターの口の態様の変化量を算出し、アバターの口の態様を変化させてもよい。例えば、各母音に対応したアバターの口の態様に変化するまでの所要時間を「1秒」とし、「あ」を「0.2秒」、「い」を「0.3」秒発話していた場合、「あ」に対応した変化量は「20」であり、「い」に対応した変化量は「30」である。また、ユーザが所要時間よりも長い時間発話した場合には、制御部190は、アバターの口の態様を所用時間後もその状態を維持してもよい。
これにより、ユーザは、「あ」の音声を発声した場合に即時的にアバターを口の態様が「あ」になるのではなく、自身の発話時間に応じて徐々にアバターの口の態様を変化させることができる。また、所用時間を設定し、当該時間に満たない発話の場合に、口の態様の変化量を乗算して変化させることで、ユーザが軽く発話した際でもアバターの口の態様が大きく変化する(例えば、30程度の口の開きでもアバターの口の態様は100として変化する)ことを防ぐことができる。これにより、ユーザは、視聴者にユーザの発話とアバターの口の態様の変化とに生じる違和感を与えることを防ぐことができるため、より視聴者に没入感を与えることができる。
ある局面において、制御部190は、ユーザから取得した音声スペクトルの大きさ、高さ等の情報等に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザの音声スペクトルの周波数(Hz)、音圧(dB)の情報を取得し、当該情報が所定の閾値を超過した場合等に、アバターの口の態様を変化させてもよい。例えば、制御部190は、所用時間「1秒」でアバターの口の態様を変化させる設定を受け付けており、ユーザの発話時間が「1秒」であったとする。このとき、制御部190は、ユーザが「0.8秒」の時点で閾値を越す音圧で発声したことを検知した場合には、アバターの口の態様を、通常よりも大きく変化(大きく口を開けた態様にする)させてもよい。このとき、制御部190は、口だけでなく、顔の部位、身体の部位についても同様の設定を反映させてもよい。
これにより、ユーザは、急に大声を上げた場合でも、アバターの口の態様に反映させることができ、より自然なアバターの動きを視聴者に見せることができる。
他にも、制御部190は、ユーザの発話から推定される発話の速度から推定されるアバターの動作の更新頻度よりも低い値になるよう、アバターの口の態様の変化の程度の設定を受け付けてもよい。
例えば、制御部190は、ユーザの発話を一定の時間間隔で区切り、その時間間隔の最初と最後の母音に対応した口の態様にアバターを変化させる。例えば、制御部190は、1秒間で「あいうえお」と変化した場合、このうち「あいうえお」の初めの「あ」のタイミングの口の形状、および「お」の口の態様をアバターに反映させることとしてもよい。
他にも制御部190は、ユーザの発話をバッファとして一時メモリに保持する場合、「あ」から「お」へと、一定の時間間隔(例えば1秒間)をかけて変化させてもよい。また、制御部190は、ユーザの母音が変化する際に経過した時間よりも遅くアバターの口の態様が変化するように設定を受け付けてもよい。例えば、サーバ20は、ユーザの母音が「あ」から「う」に変化し、変化に1秒を要した際、アバターの口の態様が「あ」から「う」に変化するのに1.5秒の時間を要してもよい。また、このとき、サーバ20は、態様の変化を補完する処理を実行してもよい。すなわち、サーバ20は、アバターの態様を「あ」から即座に「う」に変化させるのではなく、「あ」と「う」の中間となる口の形を経由しながら口の態様を変化させてよい。
これにより、ユーザは、単語ごとに即座にアバターの口が切り替わるのではなく、実際の人の口の動きに近い態様でアバターの口の態様を変化させることができるため、視聴者がアバターを視聴する際の違和感を低減することができる。
このとき、制御部190は、ユーザから、程度の設定を、ユーザの発話速度よりも低く設定することが可能に受け付けてもよい。具体的には、例えば、制御部190は、ユーザから受け付けた発話の音声スペクトルから、ユーザの発話の速度を算出してもよい。その後、制御部190は、当該算出したユーザの発話の速度から、ユーザから受け付け可能なアバターの態様の単位時間あたりの変化量の上限値を設定することで、ユーザから程度の設定を、ユーザの発話速度よりも低く設定するように受け付ける。
これにより、ユーザは、自身の発話の変化よりも遅くアバターの変化の程度を設定でき、より滑らかにアバターの態様を変化させることができる。
ステップS505において、端末装置10の制御部190は、アバターの口の態様を、設定に応じて変化させる。具体的には、例えば、端末装置10の制御部190は、ステップS604において設定した情報に基づいて、アバターの口の態様を、設定に応じて変化させ、その後、視聴者にアバター及びユーザの音声を提示する。
これにより、ユーザは、より自身の発話に合わせて滑らかにアバターの口の態様を変化させることができ、視聴者により自然な口の動きを提示することができる。
ある局面において、端末装置10の制御部190は、アバターの口の態様を変化させる際、音声スペクトルの強弱、または高低からなる群の少なくとも1つに基づいて前記口の態様を変化させてもよい。
具体的には、例えば、制御部190は、音声スペクトルの下記のパラメータを分析することで、強弱および高低を判定する。
・音声スペクトルの強弱のパラメータ:デジベル(dB)
・音声スペクトルの高低のパラメータ:ヘルツ(Hz)
例えば、制御部190は、基準となる音声スペクトルのデシベルよりも大きい音声スペクトルを取得した際に、アバターの口の態様を、基準時の口の態様の変化よりも大きく変化させてもよい。
これにより、ユーザは、繊細な音声の変化に基づいて、アバターの態様を変化させることができ、視聴者に違和感を与えることを低減することができる。
ある局面において、端末装置10の制御部190は、音声スペクトルを検出する周波数の範囲の設定を受け付け、設定される範囲の音声スペクトルを検出したことに応答して、程度の第1の設定に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、制御部190は、ステップS604において、ユーザから、音声スペクトルを検出する周波数の範囲として、上限、下限の値の設定を受け付ける。制御部190は、マイク141を介して取得したユーザの発話の音声スペクトルを解析し、音声スペクトルの周波数が当該範囲内にあるか否かを判定する。周波数が範囲内にある場合に、制御部190は、ステップS605において、程度の第1の設定、すなわち、ユーザにより予め設定されている、アバターの態様の変化の程度の設定に基づいて、アバターの態様を変化させてもよい。
また、ある局面において、端末装置10の制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、予め定められた程度の設定であって第1の設定とは異なる第2の設定に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザから受け付けた、音声スペクトルを検出する周波数の範囲外の周波数を検出した時、通常の設定(第1の設定)とは異なる設定(第2の設定)に基づいてアバターの態様を変化させてもよい。例えば、ユーザが通常使用する周波数の範囲外の音声(例えば、極端な金切声等)を発話した場合、音声スペクトルは検出の範囲外となる。その場合、制御部190は、ユーザから受け付けた変化の設定(第1の設定)ではなく、検出範囲外にのみ適用される設定(第2の設定)を適用し、アバターの態様を変化させてもよい。
これにより、ユーザは、通常とは異なる動作、発話を行っても、それに応じたアバターの態様の変化をすることができ、視聴者に、より没入感を与えることができる。
ある局面において、制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、口以外の顔の部位、身体の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、アバターに下記のような動作をさせてもよい。
・顔の部位(眉、目尻、目頭、口角等)の態様を変化させる
・身体の部位(腕、手、肩等)の態様を変化させる
このほかにも、制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、視聴者が視聴する画面上に、所定のオブジェクトを表示してもよい。
これにより、制御部190は、例えば、ユーザが急に大声を上げる、金切声を上げる等した際に、顔の部位、身体の部位の態様の変化、オブジェクトの表示等により、よりユーザの感情を視聴者に伝えることができる。
ある局面において、端末装置10の制御部190は、ユーザの1または複数の感情の候補を推定し、推定したユーザの1または複数の感情の候補をユーザに提示してもよい。また、その後、制御部190は、ユーザから、1または複数の感情の候補のうち、1つの感情を選択するための入力操作を受け付け、ユーザから感情の選択を受け付けた場合に、選択された感情に基づいて、アバターの口の態様を変化させる処理を実行してもよい。具体的には、例えば、制御部190は、ユーザから取得した音声スペクトルを分析し、ユーザが発話した時の感情の候補を推定する。
このとき、感情の候補は、例えば、下記を含む。
・怒り、激昂
・喜び、楽しみ
・驚き、恐怖
・悲しみ、嘆き
・平穏、安らぎ
ここで、音声スペクトルから感情の候補を推定する処理について例示する。例えば、制御部190は、ユーザから予め感情に対応した音声スペクトルの情報を受け付け、記憶部180等に記憶しておくことで、ユーザの音声スペクトルとユーザの感情とを関連付けておいてよい。その後、制御部190は、ユーザから音声スペクトルを取得すると、当該取得した音声スペクトルと波形の類似している音声スペクトルと関連付けられた感情の候補を推定する。波形が類似している、とは、例えば、複数の音声スペクトルの波形同士の類似度を判定し、波形が所定の割合一致している、あるいは複数の音声スペクトルの波形同士が所定の割合乖離している(例えば、±10%の範囲等で一致している)ことを示す。
ある局面において、音声スペクトルからユーザの感情の候補を推定する方法として、学習済みモデルを利用してもよい。例えば、端末装置10は、複数のユーザの音声スペクトルと、当該ユーザに対応する感情とを関連付けた学習済みモデルを記憶部180に保持していてもよい。その後、端末装置10の制御部190は、ユーザから音声スペクトルの入力を受け付けると、学習済みモデルに基づいて、当該ユーザの音声スペクトルに対応する感情の候補を推定し、ユーザに提示してもよい。
制御部190は、当該推定した感情の候補をユーザに提示し、ユーザからの選択を受け付けてもよい。また、制御部190は、感情毎の口の態様の変化の程度の設定を予め受け付けており、当該ユーザから感情の選択を受け付けると、対応する感情の設定に基づいてアバターの口の態様を変化させる。
これにより、ユーザは、発話から推定される感情に基づいてアバターの態様を変化させることができる。
このとき、制御部190は、ユーザの感情を推定できない場合は、ユーザが予め設定した条件に基づいて口の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザから取得した音声スペクトルから、ユーザの感情の候補が推定できない、すなわち、類似した音声スペクトルが推定できない場合には、予めユーザが設定した条件に基づいてアバターの口の態様を変化させてもよい。
例えば、制御部190は、ユーザから正確に音声スペクトルが取得できない場合、取得した音声スペクトルに類似する感情の候補が推定できない場合等に、ユーザから「平穏」の口の対応の設定を受け付けていると、アバターの口の態様を、「平穏」の感情に基づいた態様に変化させる。
これにより、ユーザは、感情が推定できない場合でも、アバターを予め設定した態様に変化させることができるため、視聴者への違和感を抑えることができる。
また、ある局面において、制御部190は、推定された感情に基づいて、アバターの口とは異なる身体の部位を動作させてもよい。具体的には、例えば、制御部190は、アバターの口とは異なる身体の部位として、肩、腕、手等の部位を動作させてもよい。他にも、制御部190は、アバターの口とは異なる身体の部位として、特殊部位(例えば、アバターが人間以外の場合、羽、尻尾、周囲に浮遊するオブジェクト等)を動作させてもよい。例えば、制御部190は、ユーザから取得した音声スペクトルから推定された感情が「怒り」等であった場合、アバターの腕を振り上げる動作をしてもよい。
また、このとき、制御部190は、取得した音声スペクトルから推定した感情ではなく、ユーザに感情の候補を提示し、ユーザから選択された感情に基づいて、アバターの口とは異なる身体の部位を動作させてもよい。
この他にも、制御部190は、取得した音声スペクトルから推定される感情に基づいて、態様を変化させるアバターの口とは異なる1または複数の身体の部位の候補をユーザに提示し、ユーザからの態様を変化させる部位の選択を受け付けることに応答して、当該部位の態様を変化させてもよい、
これにより、ユーザは、自身の音声スペクトルから推定された感情に基づいて、アバターの口以外の部位も動作させることができ、より視聴者に没入感を与えることができる。
ある局面において、端末装置10の制御部190は、ユーザの発話速度が、ユーザにより設定されている口の態様の変化の程度から推定される発話速度よりも、所定の速度乖離した場合には、ユーザにより設定された程度の設定ではなく、発話速度に基づいて口の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザの発話から発話速度を算出する。発話速度の算出方法は、例えば、制御部190は、ユーザから取得した音声スペクトルからユーザが単位時間あたりの単語数を算出することで、発話速度の値として定義してもよい。また、制御部190は、ユーザにより設定されている口の態様の変化の程度から、単位時間当たりの発話数を算出し、アバターの口の態様の変化の程度から推定されるユーザの発話速度を算出する。その後、制御部190は、当該ユーザの発話から算出した発話速度と、アバターの口の態様の変化の程度から推定される発話速度との間で、所定の速度乖離した場合には、ユーザにより設定された程度の設定ではなく、ユーザの発話から算出された発話速度に基づいて口の態様を変化させてもよい。
これにより、ユーザは、自身の発話速度が、あまりにもアバターの口の態様の変化の程度から推定される発話速度よりも乖離する場合には、発話速度に基づいてアバターの口の態様を変化させることができる。そのため、視聴者に違和感を与えることを低減することができる。
ある局面において、端末装置10の制御部190は、ユーザからアバターの属性を受け付け、当該属性に基づいて、アバターの口の態様の変化量を補正してもよい。具体的には、例えば、制御部190は、アバターの属性として、人間、または人間とは口の態様の変化の様子が異なる人間以外のいずれかの情報を受け付け、当該属性に基づいて、口の態様の変化量を補正してもよい。例えば、制御部190は、サーバ20の変化補正モジュール2040と同様に、ユーザが操作するアバターが人間、または人間とは態様の変化の様子が異なる人間以外のいずれかであるかの情報を取得し、当該情報に基づいて、アバターの態様の変化の程度を補正する処理を実行してもよい。例えば、ユーザが操作するアバターの属性が「竜」である場合には、目、口等の動きが、人間とは異なる挙動を示す可能性がある。その場合、制御部190は、当該「竜」の属性に基づいて、口角の変化量、眼球の変化量等を、アバターに沿った形に補正してもよい。
これにより、ユーザは、人間とは異なるアバターを操作していても、自身の発話、顔のセンシング結果に基づいて、より自然な動きを視聴者に提示することができる。
<4 画面例>
図6~図9は、本発明において開示される、システム1を利用し、アバターを操作する演者であるユーザがアバターを操作する際の各種画面例を示す図である。
図6は、ユーザが自身の母音の音声スペクトルをシステム1に登録する際の画面例である。
図6において、端末装置10の制御部190は、ディスプレイ1302に、設定画面601、アバター602等を表示する。
設定画面601は、ユーザから各母音に対応した音声スペクトルの情報を取得し関連付ける際にユーザに表示される設定画面である。例えば、端末装置10の制御部190は、ユーザの音声スペクトルと関連付ける母音として「A」「I」「U」「E」「O」「N」の6文字の設定画面を当該画面に表示する。その際、制御部190は、現在ユーザの音声スペクトルと関連付けている母音の情報を、当該画面の上部に表示していてもよい。
また、制御部190は、設定画面601の下部に、ユーザが使用しているマイク141の情報を表示してもよい。制御部190は、ユーザが使用するマイク141の種類により周波数特性が異なる場合には、使用されるマイク141毎にユーザの音声スペクトルと母音の情報とを関連付けてもよい。
アバター602は、ユーザの発話に応じて口の態様を変化させる対象となるアバターである。制御部190は、ユーザから取得した音声スペクトルに応答させて、当該アバター602の口の態様を変化させる。例えば、制御部190は、ユーザが「あ(A)」の母音を発声すると、当該発声が、母音の「あ(A)」として保持されている音声スペクトルと合致するかを判定する。その後、ユーザの発声が「あ(A)」である場合に、制御部190は、アバター602の口の態様を「あ(A)」の形に変化させる。
これにより、ユーザは、母音ごとに正確にアバターの口の態様を変化させることができる。
図7は、ユーザがアバターの口、または顔の部位の態様の変化の程度の設定を行う際の画面例を示す。
図7において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面701、ユーザ映像702、設定画面703、アバター704等を表示する。
情報表示画面701は、ユーザから取得した音声スペクトルの周波数、および検出可能な音声スペクトルの範囲、検出範囲外となった場合の態様の設定等を表示する画面である。他にも、端末装置10は、ユーザの発話から算出されるユーザの発話の速度、ユーザが設定可能な態様の変化の程度。ユーザの顔のセンシング結果等を当該画面に表示し、ユーザが設定可能な各種条件を視覚的に表示してもよい。
ユーザ映像702は、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。端末装置10の制御部190は、ユーザが端末装置10の前で何かしらの発声を行うことで、端末装置10に備えられているカメラ160およびマイク141により、ユーザ自身の映像と、ユーザの発話の音声スペクトル等の情報を、ユーザ映像702および情報表示画面701に表示する。
設定画面703は、ユーザがアバターの態様の変化の程度を設定するための画面である。端末装置10の制御部190は、例えば、下記の設定をユーザに提示し、入力を受け付ける。
・口の切り替え速さ
口の切り替え速さは、ユーザから取得した音声スペクトルに対し、どの程度の時間で最大の大きさ(100)に到達するかの所要時間に関する情報である。
・目の動き:上方向の最大値
・目の動き:下方向の最大値
・目の動き:横方向の最大値
・目の動き:感度(端末のセンシング感度)
感度とは、ユーザの目等をセンシングした際に、アバターに反映させる感度のことを示す。具体的には、例えば、感度は、ユーザが真正面を向いている際の目等の位置の座標を「0」とした時に、左右方向に目等を移動させた際に、アバターの目等を実際の目等の移動量に対しどの程度反映させるかを設定するパラメータである。このとき、感度は、100の時に比例関数であり、0に近づくほど下に凸の関数であってもよい。つまり、感度100の場合は、ユーザの目の動きとアバターの目の動きは完全に同期しており、感度が50等の場合には、ユーザの目等が中心からあまり動かない場合にはアバターの目等の動きはユーザの目の移動距離よりも小さく反映され、目尻などに目が移動した場合には、アバターの目等の動きはユーザの目の移動距離よりも大きく反映される。これにより、ユーザがあまり目を動かさない場合に、アバターの目が即時的に反映され「ギョロギョロ」と動くことを防ぐことができる。
また、上記感度の設定は、目に限られない。目以外の顔の部位、身体の部位についても、同様の設定を受け付けてもよい。
このとき、端末装置10の制御部190は、ユーザから受け付け可能な変化の程度の設定として、ユーザの発話の変化よりも低い程度で受け付けてよい。例えば、制御部190は、ユーザの発話から推定さえるアバターの変化の度合い(オブジェクトの変化量、オブジェクトの変化速度)よりも低くなるよう、ユーザから当該設定を受け付けてもよい。このとき、制御部190は、ユーザが設定可能範囲にない数値等を設定しようとした場合には、所定のアラートを表示しても良いし、設定画面がスライダ式などの場合には、予めその数値にならないようにロックしていてもよい。
これにより、ユーザは、自身の発話の変化よりもアバターを緩やかに動かすことで、視聴者に与えるアバターの変化の度合いを滑らかにすることができ、より視聴者に没入感を与えることができる。
アバター704は、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。端末装置10の制御部190は、ユーザから設定画面703の設定を受け付けると、ユーザ映像702とアバター704とを同期させてユーザに表示させてもよい。
これにより、ユーザは、自身の設定によりアバターの態様を変化させる際に、事前に違和感などを確認することができる。
図8は、ユーザの発話から、ユーザの1または複数の感情の候補を推定し、当該推定したユーザの1または複数の感情に基づいて、アバターの態様を変化させる画面例を示す。
図8において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面801、ユーザ映像802、アバター803等を表示する。
情報表示画面801は、図7における、情報表示画面701と同様に、ユーザから取得した音声スペクトルの周波数等を表示する画面であり、図8においては、音声スペクトルから推定した1または複数の感情の候補、およびユーザがアバターの態様に反映させる感情の設定の候補を提示してもよい。
制御部190は、当該提示された設定の候補に対するユーザからの選択を受け付けることで、アバターの態様の変化、例えば、アバターの口の態様、口以外の顔の部位の態様を変化させてもよい。
ユーザ映像802は、図7におけるユーザ映像702と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。
アバター803は、図7におけるアバター704と同様に、ユーザから受け付けた感情の設定に基づいて態様を変化させるアバターである。端末装置10の制御部190は、ユーザから受け付けた感情の設定に基づいて、アバターの態様(例えば、口)を変化させユーザに表示する。このとき、制御部190は、アバターの口の態様に限らず、アバターの他の部位の態様を変化、または動作させてもよい。例えば、制御部190は、ユーザから選択を受け付けた感情が「怒り」である場合に、アバターの口の態様を「怒り」の感情に基づいて変化させ、かつ、アバターの他の部位として、顔の眉、目尻等の部位の態様を変化させてもよい。他にも、制御部190は、アバターの身体の部位(例えば、腕を振り上げる動作をさせるなど)を当該感情に基づいて動作させてもよい。他にも、制御部190は、当該感情に基づいて、アバターを表示させる画面に感情に対応した所定のオブジェクトなどを表示させてもよい。
これにより、ユーザは、発話から推定される感情に基づいて、アバターに様々な変化、動作をさせることができるため、視聴者により没入感を与えることができる。
また、ある局面において、制御部190は、ユーザ情報1801またはユーザ情報データベース2021を参照し、ユーザがよく使う感情の情報を取得し、アバターに反映する感情の候補として提示してもよい。
これにより、ユーザは、発話に関係なく、演出等でアバターの態様を変化させようとしている時でも、簡易にアバターの態様を変化させることができる。
図9は、ユーザが人間とは異なる属性のアバターに対し、音声スペクトル等に基づいて各種設定を行う画面例を示す。
図9において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面901、ユーザ映像902、設定画面903、アバター904等を表示する。
情報表示画面901は、図7、図8における情報表示画面701、801と同様に、ユーザから取得した音声スペクトルの周波数、および検出可能な音声スペクトルの範囲、検出範囲外となった場合の態様の設定等を表示する画面である。このとき、制御部190は、情報表示画面901において、ユーザと対応するアバターの属性に関する情報を表示してもよい。例えば、制御部190は、ユーザ情報1801またはユーザ情報データベース2021を参照し、ユーザと対応するアバターの情報を取得することで、当該画面にアバターの属性に関する情報を表示してもよい。
ユーザ映像902は、図7、図8におけるユーザ映像702、802と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。
設定画面903は、図7における設定画面703と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。図9において、制御部190は、設定画面703においてユーザに提示した画面の他に、アバターの属性に基づいて推奨される設定のサジェスト等を表示してもよい。具体的には、例えば、制御部190は、アバター情報1802、またはアバター情報データベース2022等を参照し、アバターによる態様の変化の度合いの補正量に関する情報を取得し、通常の人間のアバターの態様を変化させる際の基本的な設定に、当該補正結果を乗算した設定を、ユーザに提示してもよい。
これにより、ユーザは、自身のアバターが人間とは異なる属性である場合にも、違和感のない態様の変化の設定を行うことができる。
また、ある局面において、制御部190は、アバターに特殊部位が存在する場合に、ユーザに対し、当該部位の態様の変化の度合いを設定するための画面を表示してもよい。制御部190は、例えば、他の部位の設定と同期する場合には、当該他のアバターの部位の変化の設定を反映してもよいし、ユーザに対し、別途詳細に態様の変化の度合いを設定する画面を提示してもよい。
これにより、ユーザは、自身のアバターに特殊な部位が存在する場合でも、自由に態様の変化の度合いを設定することができ、視聴者により没入感を与えることができる。
アバター904は、図7、図8におけるアバター704、803と同様に、ユーザから受け付けた感情の設定に基づいて態様を変化させるアバターである。図9において、制御部190は。アバター904にアバターの特殊部位等を同時に表示していてもよい。
これにより、ユーザは、アバターに特殊部位が存在する場合でも、その態様の変化を確認しながら視聴者に配信を行うことができる。
<第2の実施形態>
これまでは、ユーザの発話の音声スペクトルから、アバターの口の態様を変化させる一連の処理について説明した。
第2の実施形態に係る発明では、ユーザの発話の音声スペクトル以外にも、ユーザのセンシング結果に基づいて、アバターの態様、例えば、1または複数の顔の部位の態様を変化させることができる。以下、当該一連の処理について説明する。なお、第1の実施形態と共通の構成を持つ部分(例えば、端末装置10、サーバ20等)についての説明は省略し、第2の実施形態に特有の構成、処理についてのみ説明する。
<5 第2の実施形態における動作>
以下、システム1が、ユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングし、センシングした1または複数の顔の部位の動きに基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させる際の一連の処理について説明する。
図10は、ユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングし、センシングした1または複数の顔の部位の動きに基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させる際の一連の処理を表すフローチャートである。なお、本フローチャートにおいても、ユーザが使用する端末装置10の制御部190が一連の処理を実行する例を開示するが、これに限られない。すなわち、一部の情報を端末装置10がサーバ20に送信し、当該処理をサーバ20で実行してもよいし、サーバ20が一連の全ての処理を実行してもよい。
ステップS1001において、端末装置10の制御部190は、ユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングする。具体的には、例えば、端末装置10の制御部190は、ユーザが端末装置10に備えられたカメラ160の前で顔を動作させた際のユーザの1または複数の顔の部位をセンシングする。このとき、制御部190が行うセンシングの方法は、既存のあらゆる技術であってよい。例えば、制御部190は、カメラ160にセンシング機能を備えさせてユーザの顔の部位をセンシングしても良いし、モーションセンサ170によりユーザの顔の部位をセンシングしても良い。
このとき、端末装置10の制御部190は、ユーザの1または複数の顔の部位として、ユーザの眉、瞼、目頭、目尻、眼球、瞳孔、口からなる群の少なくとも1つをセンシングする。しかし、当該部位は限定されず、他の顔の部位(頬、額等)であってもよい。
ステップS1002において、端末装置10の制御部190は、センシングした1または複数の顔の部位の動きに基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させる。具体的には、例えば、制御部190は、ユーザの1または複数の顔の部位と、アバターの1または複数の顔の部位を予め対応付けておく。その後、制御部190は、センシングにより取得したユーザの1または複数の顔の部位と対応するアバターの顔の部位の態様を、当該センシング結果に基づいて変化させる。例えば、制御部190は、ユーザの目とアバターの目とを対応付けていた場合、ユーザの目のセンシング結果に基づいて、アバターの目の態様を変化させる。
ステップS1003において、端末装置10の制御部190は、アバターの1または複数の顔の部位の態様を、センシングされた結果に追随させる度合いの設定を受け付け、度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化させる。具体的には、例えば、制御部190は、ユーザのセンシング結果に追随させる度合いとして、下記を含む条件の設定を受け付ける。
・アバターの態様の変化量(例えば、目等の開閉の変化量等)
これにより、ユーザは、自身のセンシング結果にアバターの態様の変化を追随させる度合いを細かく調整でき、動きの違和感を視聴者に与えることを防ぐことができる。
第2の実施形態において、制御部190は、第1の実施形態における、アバターの口の態様の変化の度合いの設定と同様に、アバターの顔の部位、顔以外の身体の部位の態様の変化の度合いについても、ユーザからの設定を受け付けてもよい。すなわち、制御部190は、予めユーザから、ユーザが各種母音に対応する口の態様、各種顔、身体の部位をセンシングにより取得しておいてもよい。制御部190は、ユーザのセンシング結果から、予め取得していたユーザの口、顔の部位、身体の部位の変化との差異を特定し、予め取得しておいたセンシング結果との比率を算出し、態様の変化量に乗算することで、アバターの口、顔の部位、身体の部位の態様の変化量を算出してもよい。制御部190は、算出した変化量に基づき、アバターの口、顔の部位、身体の部位の態様を変化させてもよい。例えば、ユーザが口、眉を一部しか動かさない(予め100の位置を設定しておき、センシング結果から、50の位置までしかユーザが口、眉等を動かしていない)等の場合には、アバターの口、眉等も50までしか動かさない等の処理を行ってよい。
これにより、ユーザは、自身のセンシング結果に応じて徐々にアバターの態様を変化させることができ、自然な動きを視聴者に見せることができる。これにより、ユーザは、視聴者にユーザの動作とアバターの態様の変化とに生じる違和感を与えることを防ぐことができるため、より視聴者に没入感を与えることができる。
ある局面において、制御部190は、アバターの1または複数の顔の部位のうち、関連付けられた所定の部位同士について、同一の設定を受け付けてもよい。具体的には、制御部190は、ユーザから、アバターの1または複数の顔の部位のうち、例えば、下記の部位同士を関連付ける設定を受け付け、当該部位同士に対して度合いの設定に関する同一の設定を受け付けてもよい。
・眉、目等の顔の部位のうち対になっている部位
・眉と目のように連動して動作する部位
・顔の部位と顔以外の身体の部位(肩、腕、足、首等)
他にも、制御部190は、後述するアバターの属性によって、顔の部位と顔以外の特殊部位とを関連付ける設定を受け付けてもよい。
これにより、ユーザは、複数の顔の部位のうち、対になっている部位、連動して動作する部位などに対し、個別に度合いを設定することがなく、簡易にアバターの態様を変化させ配信することができる。
ある局面において、端末装置10の制御部190は、ユーザに対し、センシングされた結果に追随させる度合いの設定の1または複数の候補を提示し、ユーザから1または複数の度合いの設定の候補の選択を受け付けてもよい。また、その後、制御部190は、選択を受け付けた度合いの設定に基づいて、アバターの1または複数の顔の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザのセンシング結果を取得した際に、ユーザからセンシング結果に追随させる度合いの設定を受け付けるのではなく、追随の程度を1または複数の候補(プリセット)として提示してもよい。このとき、候補の提示方法として、制御部190は、予めユーザから使用する追随の程度の1または複数の候補の情報を受け付けておき、当該情報に基づいて候補を提示してもよい。
これにより、ユーザは、センシング結果に基づいてアバターの顔の部位の態様を変化させる際、逐一追随の程度を設定せずともよく、より配信を簡易に行うことができる。
また、ある局面において、端末装置10の制御部190は、ユーザからアバターの属性を受け付け、当該属性に基づいて、度合いを補正してもよい。ここで、制御部190は、属性として、人間、または人間とは1または複数の顔の部位の態様の変化の様子が異なる人間以外のいずれかの情報を受け付け、当該属性に基づいて度合いを補正してもよい。例えば、制御部190は、サーバ20の変化補正モジュール2040と同様に、ユーザが操作するアバターが人間、または人間とは態様の変化の様子が異なる人間以外のいずれかであるかの情報を取得し、当該情報に基づいて、アバターの態様の変化の程度を補正する処理を実行してもよい。例えば、ユーザが操作するアバターの属性が「竜」である場合には、目、口等の動きが、人間とは異なる挙動を示す可能性がある。その場合、制御部190は、当該「竜」の属性に基づいて、口角の変化量、眼球の変化量等を、アバターに沿った形に補正してもよい。
これにより、ユーザは、人間とは異なるアバターを操作していても、自身の発話、顔のセンシング結果に基づいて、より自然な動きを視聴者に提示することができる。
他にも、ある局面において、端末装置10の制御部190は、ユーザの音声スペクトルを取得し、取得した音声スペクトルから、ユーザの発話の変化の程度の情報を取得してもよい。その後、制御部190は、度合いの設定を、ユーザの発話の変化の程度に関連付けられた範囲で設定可能に受け付け、当該度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、マイク141等を介し、ユーザの発話から音声スペクトルを取得し、ユーザの発話の変化の程度として、下記の情報を取得してもよい。
・ユーザが単位時間に発話した単語の量(発話の速度)
・ユーザの音声の大小の変化
・ユーザの音声の高低の変化
例えば、制御部190は、下記のような処理を実行することで、ユーザの発話の変化から推定されるアバターの変化の程度よりも低くアバターの態様を変化させる。
・ユーザから取得した音声スペクトルにおける母音の変化にかかわらず、一定の時間間隔で、口の動きをアバターに反映させる
制御部190は、当該取得した発話の変化の程度の情報に基づいて、センシング結果に追随する度合いの程度の設定可能な範囲を特定する。例えば、制御部190は、上記取得した発話の変化の程度から前述の変化量等が、当該発話の変化の程度を超えないようにユーザからの度合いの設定を受け付けることとしてもよい。
これにより、ユーザは、センシング結果だけでなく、音声スペクトルの情報に基づいてアバターの顔の態様を変化させることができ、より自然な動きでアバターを視聴者に見せることができる。
このとき、制御部190は、音声スペクトルを検出する周波数の範囲の設定を受け付け、当該設定される範囲の音声スペクトルを検出したことに応答して、度合いの第1の設定に基づいて、アバターの1または複数の顔の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザの発話から音声スペクトルを取得する際、検出可能な範囲の設定をユーザから受け付けていてもよい。制御部190は、ユーザから取得した音声スペクトルが当該周波数の範囲内にある場合には、上述したユーザから受け付けた度合いの設定に基づいてアバターの顔の態様を変化させてもよい。
また、制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、予め定められた度合いの設定であって、第1の度合いの設定とは異なる第2の度合いの設定に基づいて、アバターの1または複数の顔の部位の態様を変化させてもよい。このとき、第2の度合いの設定は、例えば、ユーザが極端に高い周波数の声(金切声等)を発した場合等に、ユーザから受け付けた度合い(第1の度合い)の設定ではなく、予め設定されていた、当該周波数に対応した度合い(第2の度合い)を反映してアバターの顔の態様を変化させてもよい。
これにより、ユーザは、通常発声しない周波数の発声を行った場合でも、アバターの顔の態様を変化させることができ、視聴者により没入感を与えることができる。
また、ある局面において、端末装置10の制御部190は、ユーザの口の動きがセンシングできない場合には、ユーザの発話の変化の程度に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、制御部190は、下記のような場合に、前述したように、ユーザのセンシング結果ではなく、ユーザの発話の音声スペクトルから、アバターの口の態様を変化させてもよい。
・ユーザが口にマスク等を着用しており、口の動きをセンシングできない場合
・端末装置10のセンシング機能のエラーにより口の動きをセンシングできない場合
・外部環境により口の動きをセンシングできない場合
これにより、ユーザは、例えば、マスクを着用して配信しなければならない時などでも、アバターの口の態様を自身の発話に合わせて変化させることができる。
ある局面において、端末装置10の制御部190は、ユーザの1または複数の感情の候補を推定し、推定したユーザの1または複数の感情の候補をユーザに提示してもよい。その後、制御部190は、ユーザから、1または複数の感情の候補のうち、1つの感情を選択するための入力操作を受け付け、選択された感情に基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザから予め、ユーザの感情に応じた顔の部位のセンシング結果を取得して関連付けておいてもよい。その後、制御部190は、カメラ160等を介してユーザの顔のセンシングを行い、当該関連付けた感情に含まれる顔のセンシング結果と全て、または一部が合致するかを判定する。その後、制御部190は、当該判定結果に基づいて、ユーザの感情の候補を提示し、ユーザからの選択を受け付け、当該選択された感情に基づいて、アバターの顔の態様を変化させてもよい。
また、このとき、ユーザの感情を推定できない場合、制御部190は、ユーザが予め設定した設定に基づいて1または複数の顔の部位の態様を変化させてもよい。
例えば、制御部190は、ユーザの顔の部位のセンシングが正確に行えない場合、センシング結果に類似する感情の候補が推定できない場合等に、ユーザから「平穏」の口の対応の設定を受け付けていると、アバターの口の態様を、「平穏」の感情に基づいた態様に変化させる。
これにより、ユーザは、センシングが正確に行えない場合でも、感情の候補を選択することで、アバターの態様の変化にユーザの感情を反映させることができる。
また、ある局面において、端末装置10の制御部190は、ユーザの1または複数の顔の部位のうち、関連づけられている部位の少なくとも1つのセンシング結果が取得できない場合、センシング結果が取得できた部位の度合いを、関連付けられている、当該部位に適用してもよい。具体的には、例えば、制御部190は、ユーザが眼帯等を着用しており、片目のセンシングが困難、または不可能である場合、センシング結果を取得したもう一方の目の変化の度合いを反映させてもよい。これにより、ユーザは、眼帯などを着用している場合でも、ユーザに対応するアバターはその影響を受けずに態様を変化させることができる。
さらに、ある局面において、端末装置10の制御部190は、ユーザが装着しているウェアラブルデバイスの情報を取得し、取得したウェアラブルデバイスの情報に基づいて、度合いの設定を補正してもよい。また、制御部190は、度合いの設定を補正する際、ユーザから、補正の度合いを調整するための入力操作を受け付けてもよい。具体的には、例えば、制御部190は、ウェアラブルデバイス情報1803、またはウェアラブルデバイス情報データベース2023を参照し、ユーザが着用しているウェアラブルデバイスの情報を取得する。その後、制御部190は、前述のサーバ20における変化補正モジュール2040と同様の処理を実行し、度合いの設定を補正してもよい。
ある局面において、端末装置10の制御部190は、アバターの1または複数の顔の部位のうち、予め関連付けられている部位同士で、度合いの設定の差異が所定の閾値を超過した場合に、所定の通知をユーザに提示してもよい。具体的には、制御部190は、アバターの1または複数の顔の部位のうち、例えば、眉等の対になっている部位を関連付け、当該部位同士で、変化の度合いが所定の差異を超えないように度合いの数値を受け付け可能に設定する。その後、制御部190は、ユーザから当該部位の変化の度合いの入力を受け付ける際に、当該閾値を超過する数値の入力を受け付けた場合に、ユーザに対しアラート等の通知を提示してもよい。
これにより、ユーザは、関連付けて態様を変化させる部位に対し、極端に変化の度合いに差が生じた状態で態様を変化させることを防ぐことができる。
また、制御部190は、当該設定を対になる部位以外にも、頬と眉等、連動して変化する部位(特殊部位等も含んでいてもよい)に対して設定しても良い。
このとき、制御部190は、所定の通知をユーザに提示する際、度合いの差が所定の閾値を超過した部位を異なる態様で当該数値とともにユーザに提示してもよい。具体的には、例えば、制御部190は、ユーザから目の態様の変化の程度の度合いの入力を受け付けた際、両方の目の変化の程度の度合いが大きすぎる(例えば、片目の変化量が大きすぎる等)場合に、目を異なる態様(例えば、異なる色の態様)でユーザに通知と共に提示してもよい。このとき、制御部190が提示する異なる態様は、色、ポップアップ通知、該当する部位の形状を変化させるなど、限定されない。
さらに、制御部190は、所定の通知をユーザに提示する際、度合いの差を、所定の範囲内に設定した場合の少なくとも1または複数の顔の部位が変化する様子をユーザに提示してもよい。例えば、制御部190は、上述した通知を表示する画面とは異なる画面上に、度合いの差が適正範囲(視聴者に違和感を与えない範囲)である場合のアバターの態様の変化の様子を表示してもよい。
これにより、ユーザは、自身が設定した態様の変化の程度の度合いが所定の閾値を超過した場合に、適切な数値に設定した場合の態様の変化の様子とともに確認することができる。
また、ある局面において、端末装置10の制御部190は、度合いの設定を受け付けた1または複数の顔の部位と関連する部位の度合いを、予め定められた値に設定してもよい。また、制御部190は、アバターの1または複数の部位ごとに、予め定められた範囲内で度合いの設定を受け付けてもよい。具体的には、例えば、制御部190は、アバターの1または複数の顔の部位と関連する部位として、下記の部位を関連付け、ユーザから度合いの設定を受け付けてもよい。
・角、尻尾、羽等、アバターが人間以外であった場合に備えている特殊部位
・アバターの顔とは異なる身体の部位(腕、肩、足など)
これにより、ユーザは、アバターが人間以外、また、無機物などであった場合にも、自身のセンシング結果に追随して態様を変化させることができる。
<6 第2の実施形態における画面例>
図11~図17は、第2の実施形態において開示される、ユーザのセンシング結果に基づいてアバターの態様を変化させる際の各種画面例を示す図である。
図11は、ユーザの1または複数の顔の部位の動きをセンシングし、当該センシングした1または複数の顔の部位の動きに基づいて、対応するアバターの1または複数の顔の部位の態様を変化させる際の画面例を示す。
図11において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1101、ユーザ映像1102、設定画面1103、アバター1104等を表示する。
情報表示画面1101は、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このとき、端末装置10の制御部190は、下記の選択をユーザから受け付けてもよい。
・ユーザの顔の部位のうち、センシングを実行する部位の選択
・センシングした部位のうち、関連付ける部位の選択
・変化の度合いの候補の選択
これにより、ユーザは、場合によりセンシング箇所を減らすこともでき、配信時の負荷を減らすことができる。
ユーザ映像1102は、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。端末装置10の制御部190は、端末装置10に備えられているカメラ160により、ユーザ自身の映像を、ユーザ映像1102に表示する。
設定画面1103は、ユーザがアバターの態様の変化の程度を設定するための画面である。端末装置10の制御部190は、例えば、下記の設定をユーザに提示し、入力を受け付ける。
・口の切り替え速さ
・目の動き:上方向の最大値
・目の動き:下方向の最大値
・目の動き:横方向の最大値
・目の動き:感度
このとき、端末装置10の制御部190は、アバターの1または複数の顔の部位の態様を、センシングされた結果に追随させる度合いの設定として、演者の発話の変化の程度に関連付けられた範囲で設定可能に受け付けてよい。例えば、制御部190は、ユーザの発話から推定さえるアバターの変化の度合い(オブジェクトの変化量、オブジェクトの変化速度)よりも低くなるよう、ユーザから当該設定を受け付けてもよい。このとき、制御部190は、ユーザが設定可能範囲にない数値等を設定しようとした場合には、所定のアラートを表示しても良いし、設定画面がスライダ式などの場合には、予めその数値にならないようにロックしていてもよい。
これにより、ユーザは、自身の発話の変化よりもアバターを緩やかに動かすことで、視聴者に与えるアバターの変化の度合いを滑らかにすることができ、より視聴者に没入感を与えることができる。
アバター1104は、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。端末装置10の制御部190は、ユーザから設定画面1103の設定を受け付けると、ユーザ映像1102とアバター1104とを同期させてユーザに表示させてもよい。
これにより、ユーザは、自身の設定によりアバターの態様を変化させる際に、事前に違和感などを確認することができる。
図12は、ユーザの1または複数の感情を候補を推定し、ユーザから選択された感情に基づいて、対応するアバターの1または複数の顔の部位の態様を変化させる際の画面例を示す。
図12において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1201、ユーザ映像1202、設定画面1203、アバター1204等を表示する。
情報表示画面1201は、図11における情報表示画面と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このほか、制御部190は、当該画面に、センシング結果から特定されるユーザの1または複数の感情の候補の情報を表示してもよい。
制御部190は、ユーザから感情の候補の選択を受け付けると、当該感情に対応したアバターの態様の変化の程度の度合いを反映させる。
例えば、制御部190は、ユーザから予め、ユーザの感情に応じた顔の部位のセンシング結果を取得して関連付けておいてもよい。その後、制御部190は、カメラ160等を介してユーザの顔のセンシングを行い、当該関連付けた感情に含まれる顔のセンシング結果と全て、または一部が合致するかを判定する。その後、制御部190は、当該判定結果に基づいて、ユーザの感情の候補を提示し、ユーザからの選択を受け付け、当該選択された感情に基づいて、アバターの顔の態様を変化させてもよい。
また、このとき、ユーザの感情を推定できない場合、制御部190は、ユーザが予め設定した設定に基づいて1または複数の顔の部位の態様を変化させてもよい。
これにより、ユーザは、センシングが正確に行えない場合でも、感情の候補を選択することで、アバターの態様の変化にユーザの感情を反映させることができる。
ユーザ映像1202は、図11におけるユーザ映像1102と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。
設定画面1203は、図11における設定画面1103と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。
アバター1204は、図11におけるアバター1104と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。
図13は、ユーザの1または複数の顔の部位のうち、関連づけられている部位の少なくとも1つのセンシング結果が取得できない場合のアバターの態様の変化の程度の度合いを設定する際の画面例を示す。
図13において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1351、ユーザ映像1352、設定画面1353、アバター1354等を表示する。
情報表示画面1351は、図12における情報表示画面1201と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このほか、制御部190は、当該画面に、ユーザが着用しており、ユーザの顔の一部を遮蔽する備品、装着具等の情報を表示してもよい。
例えば、制御部190は、ユーザが眼帯等を着用しており、片目のセンシングが困難、または不可能である場合、センシング結果を取得したもう一方の目の変化の度合いを反映させてもよい。これにより、ユーザは、眼帯などを着用している場合でも、ユーザに対応するアバターはその影響を受けずに態様を変化させることができる。
ユーザ映像1352は、図12におけるユーザ映像1202と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。
設定画面1353は、図12における設定画面1203と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。
アバター1354は、図12におけるアバター1204と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。
図14は、ユーザが眼鏡等のウェアラブルデバイスを装着している際に、アバターの態様の変化の程度の度合いを補正する際の画面例を示す。
図14において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1401、ユーザ映像1402、設定画面1403、アバター1404等を表示する。
情報表示画面1401は、図13における情報表示画面1351と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このほか、制御部190は、当該画面に、ユーザが着用しているウェアラブルデバイスの情報、ウェアラブルデバイスごとの変化の度合いの補正量の情報等を表示してもよい。
例えば、制御部190は、ウェアラブルデバイス情報1803、またはウェアラブルデバイス情報データベース2023を参照し、ユーザが着用しているウェアラブルデバイスの情報を取得する。その後、制御部190は、前述のサーバ20における変化補正モジュール2040と同様の処理を実行し、度合いの設定を補正してもよい。
ユーザ映像1402は、図13におけるユーザ映像1352と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。
設定画面1403は、図13における設定画面1353と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。
アバター1404は、図13におけるアバター1354と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。
図15は、ユーザの口の動きがセンシングできない場合に、発話の変化の程度に基づいて、アバターの口の態様を変化させる際の画面例を示す。
図15において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1501、ユーザ映像1502、設定画面1503、アバター1504等を表示する。
情報表示画面1501は、図14における情報表示画面1401と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このほか、制御部190は、当該画面に、ユーザが着用しているマスク等の情報、ユーザの発話から取得した音声スペクトルの情報等を表示してもよい。
例えば、制御部190は、ユーザが口にマスク等を着用しており、口の動きをセンシングできない場合には、前述したように、ユーザのセンシング結果ではなく、ユーザの発話の音声スペクトルから、アバターの口の態様を変化させてもよい。
これにより、ユーザは、例えば、マスクを着用して配信しなければならない時などでも、アバターの口の態様を自身の発話に合わせて変化させることができる。
ユーザ映像1502は、図14におけるユーザ映像1402と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。
設定画面1503は、図14における設定画面1403と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。
アバター1504は、図14におけるアバター1404と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。
図16は、アバターの1または複数の顔の部位のうち、予め関連付けられている部位同士で、度合いの設定の差異が所定の閾値を超過した場合に、所定の通知をユーザに提示する際の画面例を示す。
図16において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1601、ユーザ映像1602、設定画面1603、アバター1604等を表示する。
情報表示画面1601は、図15における情報表示画面1501と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。
ユーザ映像1602は、図15におけるユーザ映像1502と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。
設定画面1603は、図15における設定画面1503と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。制御部190は、このとき、当該画面において、例えば、ユーザから顔の部位の態様の変化の程度の度合いの入力を受け付けた際、対になる、または関連する部位(両目等)の変化の程度の度合いが大きすぎる(例えば、片目の変化量が大きすぎる等)場合に、当該箇所が異常な設定値であることと、推奨される設定について表示してもよい。
アバター1604は、図15におけるアバター1504と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。制御部190は、上述の設定画面1503において、ユーザから顔の態様の変化の程度の度合いの入力を受け付けた際、対になる、または関連する部位の変化の程度の度合いが大きすぎる場合に、当該部位を異なる態様(例えば、異なる色の態様)でユーザに通知と共に提示してもよい。このとき、制御部190が提示する異なる態様は、色、ポップアップ通知、該当する部位の形状を変化させるなど、限定されない。
これにより、ユーザは、アバターの顔の部位の態様を変化させるための設定を行う際、異常値を入力した場合でも視覚的に判断することができ、視聴者に違和感を与えることを防ぐことができる。
図17は、所定の通知をユーザに提示する際、度合いの差を、所定の範囲内に設定した場合の少なくとも1または複数の顔の部位が変化する様子をユーザに提示する際の画面例を示す。
図17において、端末装置10の制御部190は、ディスプレイ1302に、設定画面1701、アバター1702、設定プレビュー画面1703、アバタープレビュー画面1704等を表示する。
設定画面1603は、図15における設定画面1503と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。制御部190は、このとき、当該画面において、例えば、ユーザから顔の部位の態様の変化の程度の度合いの入力を受け付けた際、対になる、または関連する部位(両目等)の変化の程度の度合いが大きすぎる(例えば、片目の変化量が大きすぎる等)場合に、当該箇所が異常な設定値であることと、推奨される設定について表示してもよい。
設定プレビュー画面1703は、設定画面1701において、アバターの顔の部位等において、対になる、関連する部位同士で変化の程度の度合いに異常値があった場合に、推奨される設定を表示する画面である。端末装置10の制御部190は、設定プレビュー画面1703に、設定画面1701に入力された設定とは異なる設定の態様の変化の程度の度合いを表示する。このとき、制御部190は、数値、またはオブジェクトなどを、設定画面1701において表示されている態様とは異なる態様で表示してもよい。(例えば、異なる色、大きさ、図形等)
アバタープレビュー画面1704は、設定プレビュー画面1703において推奨される設定を反映させたアバターを表示する画面である。例えば、端末装置10の制御部190は、上述した通知を表示する画面とは異なる画面上に、度合いの差が適正範囲(視聴者に違和感を与えない範囲)である場合のアバターの態様の変化の様子を表示してもよい。
これにより、ユーザは、自身が設定した態様の変化の程度の度合いが所定の閾値を超過した場合に、適切な数値に設定した場合の態様の変化の様子とともに確認することができる。
<7 変形例>
本実施形態の変形例について説明する。すなわち、以下のような態様を採用してもよい。
(1)情報処理装置であって、このプログラムが予めインストールされていてもよいし、事後的にインストールされてもよいし、このようなプログラムを外部の非一時的な記憶媒体に記憶させてもよいし、クラウドコンピューティングで動作させてもよい。
(2)方法であって、コンピュータを情報処理装置として機能させ、当該情報処理装置に、このプログラムが予めインストールされていてもよいし、事後的にインストールされてもよいし、このようなプログラムを外部の非一時的な記憶媒体に記憶させてもよいし、クラウドコンピューティングで動作させてもよい。
<6 付記>
以上の各実施形態で説明した事項を以下に付記する。
(付記1)
プロセッサ29を備えるコンピュータ20によって実行されるプログラムであって、プログラムは、プロセッサ29に、演者の顔の部位であって、1または複数の顔の部位の動きをセンシングするステップ(S1001)と、センシングした1または複数の顔の部位の動きに基づいて、演者に対応するアバターの1または複数の顔の部位の態様を変化させるステップ(S1002)と、アバターの1または複数の顔の部位の態様を、センシングされた結果に追随させる度合いの設定を受け付けるステップ(S1003)と、を実行させ、変化させるステップ(S1002)において、度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化させる、プログラム。
(付記2)
センシングするステップ(S1001)において、1または複数の顔の部位として、演者の眉、瞼、目頭、目尻、眼球、瞳孔、口からなる群の少なくとも1つをセンシングする、付記1に記載のプログラム。
(付記3)
設定を受け付けるステップ(S1003)において、アバターの1または複数の顔の部位のうち、関連付けられた所定の部位同士について、同一の設定を受け付ける、付記1または2に記載のプログラム。
(付記4)
プログラムは、プロセッサ29に、さらに、演者に対し、センシングされた結果に追随させる度合いの設定の1または複数の候補を提示するステップと、演者から1または複数の度合いの設定の候補の選択を受け付けるステップと、を実行させ、変化させるステップにおいて、選択を受け付けた度合いの設定に基づいて、アバターの1または複数の顔の部位の態様を変化させる、付記1から3のいずれかに記載のプログラム。
(付記5)
プログラムは、プロセッサ29に、さらに、演者の音声スペクトルを取得するステップと、取得した音声スペクトルから、演者の発話の変化の程度の情報を取得するステップと、を実行させ、度合いの設定を受け付けるステップにおいて、度合いの設定を、演者の発話の変化の程度に関連付けられた範囲で設定可能に受け付け、変化させるステップにおいて、度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化させる、付記1から4のいずれかに記載のプログラム。
(付記6)
設定を受け付けるステップ(S1003)において、音声スペクトルを検出する周波数の範囲の設定を受け付けており、
変化させるステップ(S1002)において、設定される範囲の音声スペクトルを検出したことに応答して、度合いの第1の設定に基づいて、アバターの1または複数の顔の部位の態様を変化させる、付記5に記載のプログラム。
(付記7)
変化させるステップ(S1002)において、設定される範囲外の音声スペクトルを検出したことに応答して、予め定められた度合いの設定であって、第1の度合いの設定とは異なる第2の度合いの設定に基づいて、アバターの1または複数の顔の部位の態様を変化させる、付記6に記載のプログラム。
(付記8)
センシングするステップ(S1001)において、演者の口の動きがセンシングできない場合には、変化させるステップ(S1002)において、発話の変化の程度に基づいて、アバターの口の態様を変化させる、付記5に記載のプログラム。
(付記9)
設定を受け付けるステップ(S1003)において、演者からアバターの属性を受け付け、当該属性に基づいて、度合いを補正する、付記1から8のいずれかに記載のプログラム。
(付記10)
設定を受け付けるステップ(S1003)において、属性として、人間、または人間とは1または複数の顔の部位の態様の変化の様子が異なる人間以外のいずれかの情報を受け付け、当該属性に基づいて度合いを補正する、付記9に記載のプログラム。
(付記11)
プログラムは、プロセッサ29に、さらに、演者の1または複数の感情の候補を推定するステップと、推定した演者の1または複数の感情の候補を演者に提示するステップと、演者から、演者の1または複数の感情の候補のうち、1つの感情を選択するための入力操作を受け付けるステップと、を実行させ、変化させるステップ(S1002)において、演者から選択された感情に基づいて、演者に対応するアバターの1または複数の顔の部位の態様を変化させる、付記1から10のいずれかに記載のプログラム。
(付記12)
推定するステップにおいて、演者の感情を推定できない場合、変化させるステップ(S 1002)において、演者が予め設定した設定に基づいて1または複数の顔の部位の態様を変化させる、付記11に記載のプログラム。
(付記13)
プログラムは、プロセッサ29に、さらに、演者の1または複数の顔の部位のうち、関連づけられている部位の少なくとも1つセンシング結果が取得できない場合、センシング結果が取得できた部位の度合いを、関連付けられている、当該部位に適用するステップを実行させる、付記1から12のいずれかに記載のプログラム。
(付記14)
プログラムは、プロセッサ29に、さらに、演者が装着しているウェアラブルデバイスの情報を取得するステップと、当該取得したウェアラブルデバイスの情報に基づいて、度合いの設定を補正するステップと、を実行させる、付記1から13のいずれかに記載のプログラム。
(付記15)
度合いの設定を補正するステップにおいて、演者から、補正の度合いを調整するための入力操作を受け付ける、付記14に記載のプログラム。
(付記16)
プログラムは、プロセッサに、さらに、アバターの1または複数の顔の部位のうち、予め関連付けられている部位同士で、度合いの設定の差異が所定の閾値を超過した場合に、所定の通知を演者に提示するステップを実行させる、付記1から15のいずれかに記載のプログラム。
(付記17)
設定を受け付けるステップ(S1003)において、度合いの設定を受け付けた1または複数の顔の部位と関連する部位の度合いを、予め定められた値に設定する、付記1から16のいずれかに記載のプログラム。
(付記18)
所定の通知を演者に提示するステップにおいて、度合いの差が所定の閾値を超過した部位を異なる態様で当該数値とともに演者に提示する、付記16に記載のプログラム。
(付記19)
所定の通知を演者に提示するステップにおいて、プログラムは、度合いの差を、所定の範囲内に設定した場合の少なくとも1または複数の顔の部位が変化する様子を演者に提示する、付記18に記載のプログラム。
(付記20)
設定を受け付けるステップ(S1003)において、アバターの1または複数の部位ごとに、予め定められた範囲内で度合いの設定を受け付ける、付記1から19のいずれかに記載のプログラム。
(付記21)
プロセッサ29を備えるコンピュータ20によって実行される方法であって、方法は、プロセッサ29が、演者の顔の部位であって、1または複数の顔の部位の動きをセンシングするステップ(S 1001)と、センシングした1または複数の顔の部位の動きに基づいて、演者に対応するアバターの1または複数の顔の部位の態様を変化させるステップ(S1002)と、アバターの1または複数の顔の部位の態様を、センシングされた結果に追随させる度合いの設定を受け付けるステップ(S1003)と、を実行し、変化させるステップ(S1002)において、度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化する、方法。
(付記22)
制御部203を備える情報処理装置20であって、制御部203が、演者の顔の部位であって、1または複数の顔の部位の動きをセンシングするステップ(S1001)と、センシングした1または複数の顔の部位の動きに基づいて、演者に対応するアバターの1または複数の顔の部位の態様を変化させるステップ(S1002)と、アバターの1または複数の顔の部位の態様を、センシングされた結果に追随させる度合いの設定を受け付けるステップ(S1003)と、を実行し、変化させるステップ(S1002)において、度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化する、情報処理装置20。
10 端末装置、12 通信インタフェース、13 入力装置、14 出力装置、15 メモリ、16 記憶部、19 プロセッサ、20 サーバ、22 通信インタフェース、23 入出力インタフェース、25 メモリ、26 ストレージ、29 プロセッサ、80 ネットワーク、1801 ユーザ情報、1802 アバター情報、1803 ウェアラブルデバイス情報、1901 入力操作受付部、1902 送受信部、1903 データ処理部、1904 報知制御部、1302 ディスプレイ、140 音声処理部、141 マイク、142 スピーカ、150 位置情報センサ、160 カメラ、170 モーションセンサ、2021 ユーザ情報データベース、2022 アバター情報データベース、2023 ウェアラブルデバイス情報データベース、2031 受信制御モジュール、2032 送信制御モジュール、2033 ユーザ情報取得モジュール、2034 アバター情報取得モジュール、2035 音声スペクトル取得モジュール、2036 アバター変化モジュール、2037 アバター提示モジュール、2038 設定受付モジュール、2039 ウェアラブルデバイス情報取得モジュール、2040 変化補正モジュール。

Claims (22)

  1. プロセッサを備えるコンピュータによって実行されるプログラムであって、前記プログラムは、前記プロセッサに、
    演者の顔の部位であって、1または複数の顔の部位の動きをセンシングするステップと、
    前記センシングした前記1または複数の顔の部位の動きに基づいて、前記演者に対応するアバターの1または複数の顔の部位の態様を変化させるステップと、
    前記アバターの前記1または複数の顔の部位の態様を、前記センシングされた結果に追随させる度合いの設定を受け付けるステップと、を実行させ、
    前記変化させるステップにおいて、前記度合いの設定に従って、前記アバターの1または複数の顔の部位の態様を変化させる、プログラム。
  2. 前記センシングするステップにおいて、前記1または複数の顔の部位として、前記演者の眉、瞼、目頭、目尻、眼球、瞳孔、口からなる群の少なくとも1つをセンシングする、請求項1に記載のプログラム。
  3. 前記設定を受け付けるステップにおいて、前記アバターの前記1または複数の顔の部位のうち、関連付けられた所定の部位同士について、同一の設定を受け付ける、請求項1に記載のプログラム。
  4. 前記プログラムは、前記プロセッサに、さらに、前記演者に対し、前記センシングされた結果に追随させる度合いの設定の1または複数の候補を提示するステップと、
    前記演者から前記1または複数の前記度合いの設定の候補の選択を受け付けるステップと、を実行させ、
    前記変化させるステップにおいて、前記選択を受け付けた度合いの設定に基づいて、前記アバターの1または複数の顔の部位の態様を変化させる、請求項1に記載のプログラム。
  5. 前記プログラムは、前記プロセッサに、さらに、前記演者の音声スペクトルを取得するステップと、
    前記取得した音声スペクトルから、前記演者の発話の変化の程度の情報を取得するステップと、を実行させ、
    前記度合いの設定を受け付けるステップにおいて、前記度合いの設定を、前記演者の発話の変化の程度に関連付けられた範囲で設定可能に受け付け、
    前記変化させるステップにおいて、前記度合いの設定に従って、前記アバターの1または複数の顔の部位の態様を変化させる、請求項1に記載のプログラム。
  6. 前記設定を受け付けるステップにおいて、前記音声スペクトルを検出する周波数の範囲の設定を受け付けており、
    前記変化させるステップにおいて、前記設定される範囲の音声スペクトルを検出したことに応答して、前記度合いの第1の設定に基づいて、前記アバターの1または複数の顔の部位の態様を変化させる、請求項5に記載のプログラム。
  7. 前記変化させるステップにおいて、前記設定される範囲外の音声スペクトルを検出したことに応答して、予め定められた前記度合いの設定であって、前記度合いの第1の設定とは異なる度合いの第2の設定に基づいて、前記アバターの1または複数の顔の部位の態様を変化させる、請求項6に記載のプログラム。
  8. 前記センシングするステップにおいて、前記演者の口の動きがセンシングできない場合には、前記変化させるステップにおいて、前記発話の変化の程度に基づいて、前記アバターの口の態様を変化させる、請求項5に記載のプログラム。
  9. 前記設定を受け付けるステップにおいて、
    前記演者から前記アバターの属性を受け付け、当該属性に基づいて、前記度合いを補正する、請求項1に記載のプログラム。
  10. 前記設定を受け付けるステップにおいて、前記属性として、人間、または人間とは1または複数の顔の部位の態様の変化の様子が異なる人間以外のいずれかの情報を受け付け、当該属性に基づいて前記度合いを補正する、請求項9に記載のプログラム。
  11. 前記プログラムは、前記プロセッサに、さらに、前記演者の1または複数の感情の候補を推定するステップと、
    前記推定した前記演者の1または複数の感情の候補を前記演者に提示するステップと、前記演者から、前記演者の1または複数の感情の候補のうち、1つの感情を選択するための入力操作を受け付けるステップと、を実行させ、
    前記変化させるステップにおいて、前記演者から選択された前記感情に基づいて、前記演者に対応するアバターの1または複数の顔の部位の態様を変化させる、請求項1に記載のプログラム。
  12. 前記推定するステップにおいて、前記演者の感情を推定できない場合、前記変化させるステップにおいて、前記演者が予め設定した設定に基づいて前記1または複数の顔の部位の態様を変化させる、請求項11に記載のプログラム。
  13. 前記プログラムは、前記プロセッサに、さらに、前記演者の1または複数の顔の部位のうち、関連づけられている部位の少なくとも1つセンシング結果が取得できない場合、センシング結果が取得できた部位の前記度合いを、前記関連付けられている、当該部位に適用するステップを実行させる、請求項1に記載のプログラム。
  14. 前記プログラムは、前記プロセッサに、さらに、前記演者が装着しているウェアラブルデバイスの情報を取得するステップと、
    当該取得した前記ウェアラブルデバイスの情報に基づいて、前記度合いの設定を補正するステップと、を実行させる、請求項1に記載のプログラム。
  15. 前記度合いの設定を補正するステップにおいて、前記演者から、補正の度合いを調整するための入力操作を受け付ける、請求項14に記載のプログラム。
  16. 前記プログラムは、前記プロセッサに、さらに、前記アバターの1または複数の顔の部位のうち、予め関連付けられている部位同士で、前記度合いの設定の差異が所定の閾値を超過した場合に、所定の通知を前記演者に提示するステップを実行させる、請求項1に記載のプログラム。
  17. 前記設定を受け付けるステップにおいて、前記度合いの設定を受け付けた前記1または複数の顔の部位と関連する部位の度合いを、予め定められた値に設定する、請求項1に記載のプログラム。
  18. 前記所定の通知を前記演者に提示するステップにおいて、前記度合いの差が前記所定の閾値を超過した部位を異なる態様で当該数値とともに前記演者に提示する、請求項16に記載のプログラム。
  19. 前記所定の通知を前記演者に提示するステップにおいて、前記プログラムは、前記度合いの差を、前記所定の範囲内に設定した場合の前記少なくとも1または複数の顔の部位が変化する様子を前記演者に提示する、請求項18に記載のプログラム。
  20. 前記設定を受け付けるステップにおいて、前記アバターの1または複数の部位ごとに、予め定められた範囲内で前記度合いの設定を受け付ける、請求項1に記載のプログラム。
  21. プロセッサを備えるコンピュータによって実行される方法であって、前記方法は、前記プロセッサが、
    演者の顔の部位であって、1または複数の顔の部位の動きをセンシングするステップと、
    前記センシングした前記1または複数の顔の部位の動きに基づいて、前記演者に対応するアバターの1または複数の顔の部位の態様を変化させるステップと、
    前記アバターの前記1または複数の顔の部位の態様を、前記センシングされた結果に追随させる度合いの設定を受け付けるステップと、を実行し、
    前記変化させるステップにおいて、前記度合いの設定に従って、前記アバターの1または複数の顔の部位の態様を変化する、方法。
  22. 制御部を備える情報処理装置であって、前記制御部が、
    演者の顔の部位であって、1または複数の顔の部位の動きをセンシングするステップと、
    前記センシングした前記1または複数の顔の部位の動きに基づいて、前記演者に対応するアバターの1または複数の顔の部位の態様を変化させるステップと、
    前記アバターの前記1または複数の顔の部位の態様を、前記センシングされた結果に追随させる度合いの設定を受け付けるステップと、を実行し、
    前記変化させるステップにおいて、前記度合いの設定に従って、前記アバターの1または複数の顔の部位の態様を変化する、情報処理装置。
JP2022104993A 2022-06-29 2022-06-29 プログラム、方法、情報処理装置 Active JP7204984B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022104993A JP7204984B1 (ja) 2022-06-29 2022-06-29 プログラム、方法、情報処理装置
JP2022211425A JP2024006906A (ja) 2022-06-29 2022-12-28 プログラム、方法、情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022104993A JP7204984B1 (ja) 2022-06-29 2022-06-29 プログラム、方法、情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022211425A Division JP2024006906A (ja) 2022-06-29 2022-12-28 プログラム、方法、情報処理装置

Publications (2)

Publication Number Publication Date
JP7204984B1 JP7204984B1 (ja) 2023-01-16
JP2024005023A true JP2024005023A (ja) 2024-01-17

Family

ID=84901090

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022104993A Active JP7204984B1 (ja) 2022-06-29 2022-06-29 プログラム、方法、情報処理装置
JP2022211425A Pending JP2024006906A (ja) 2022-06-29 2022-12-28 プログラム、方法、情報処理装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022211425A Pending JP2024006906A (ja) 2022-06-29 2022-12-28 プログラム、方法、情報処理装置

Country Status (1)

Country Link
JP (2) JP7204984B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7422910B1 (ja) 2023-02-20 2024-01-26 Kddi株式会社 情報処理装置、情報処理方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018532216A (ja) * 2015-09-07 2018-11-01 ソニー インタラクティブ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー 画像正則化及びリターゲティングシステム
JP2021170168A (ja) * 2020-04-14 2021-10-28 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置、及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018532216A (ja) * 2015-09-07 2018-11-01 ソニー インタラクティブ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー 画像正則化及びリターゲティングシステム
JP2021170168A (ja) * 2020-04-14 2021-10-28 グリー株式会社 コンピュータプログラム、サーバ装置、端末装置、及び方法

Also Published As

Publication number Publication date
JP2024006906A (ja) 2024-01-17
JP7204984B1 (ja) 2023-01-16

Similar Documents

Publication Publication Date Title
CN108886532B (zh) 用于操作个人代理的装置和方法
US20180366121A1 (en) Communication device, communication robot and computer-readable storage medium
US11829524B2 (en) Moving content between a virtual display and an extended reality environment
CN112379812A (zh) 仿真3d数字人交互方法、装置、电子设备及存储介质
CN109819167B (zh) 一种图像处理方法、装置和移动终端
US20230023653A1 (en) Computer program, server, terminal, and method
CN109119080A (zh) 声音识别方法、装置、穿戴式设备及存储介质
JP2024006906A (ja) プログラム、方法、情報処理装置
JP2024063117A (ja) コンピュータプログラム、サーバ装置、端末装置、及び方法
US20220122333A1 (en) Information processing apparatus, information processing method, and program
US11853472B2 (en) Modify audio based on physiological observations
JP7194371B1 (ja) プログラム、方法、情報処理装置
US11301615B2 (en) Information processing device using recognition difficulty score and information processing method
JP7339420B1 (ja) プログラム、方法、情報処理装置
CN115620728A (zh) 音频处理方法、装置、存储介质及智能眼镜
JP2022033220A (ja) コンピュータプログラム、サーバ装置、端末装置、及び方法
US20240038228A1 (en) Power-Sensitive Control of Virtual Agents
KR20200019486A (ko) 전자 장치, 그 제어 방법 및 전자 시스템
US20240071363A1 (en) Electronic device and method of controlling text-to-speech (tts) rate
KR20200092207A (ko) 전자 장치 및 이를 이용한 감정 정보에 대응하는 그래픽 오브젝트를 제공하는 방법
CN116959452A (zh) 合成音频的可视化调整方法、装置、设备、介质及产品
CN118092630A (zh) 可穿戴设备、面部图像重建方法及装置、存储介质
CN116364051A (zh) 生成音频的方法、设备和存储介质
CN117980865A (zh) 提供多模态的可穿戴设备及其操作方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220629

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221228

R150 Certificate of patent or registration of utility model

Ref document number: 7204984

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350