JP2024088118A

JP2024088118A - コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラム

Info

Publication number: JP2024088118A
Application number: JP2022203135A
Authority: JP
Inventors: 平田　憲子; Noriko Hiraka; 徳樹沼田; Yoshiki Numata; 健一宮田; Kenichi Miyata; 優勝亦; Masaru Katsumata; 祐介渡邊; Yusuke Watanabe
Original assignee: Hokkaido University NUC; Toppan Holdings Inc
Current assignee: Hokkaido University NUC; Toppan Holdings Inc
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2024-07-02

Abstract

【課題】医療説明における聞き手の利便性を向上させること。
【解決手段】コンテンツ生成システムは、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、前記合成音声による読み上げ速度を調整する調整部と、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、前記字幕テキストと、前記調整された前記合成音声と前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、を備える。
【選択図】図１

Description

本発明は、コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラムに関する。

従来、ユーザを表すキャラクターなどをアバターとして用いて、ユーザ間のコミュニケーションを行うための技術が各種提案されている。

例えば、下記特許文献１には、自立的で動きのあるキャラクターをアバターとして用いて、ユーザ間における文書に関するコミュニケーションを促進する技術が開示されている。当該技術では、予めユーザの音声を録音した音声データを用意しておき、当該音声データが再生された際にアバターの表情が変化するよう定義しておくことで、当該音声データと対応するテキストをアバターが読み上げているように見せることができる。これにより、例えば、話し手であるユーザ本人の代わりにアバターにプレゼンテーションを行わせることができる。

特開平１１－３１２１６０号公報

しかしながら、上記特許文献１の技術のように、話し手のアバターと話し手の音声データを単に用いるだけでは、話し手の本人らしさやイントネーションを正しく表現できず、プレゼンテーションの聞き手に違和感を与えてしまう。医療説明では、患者の身体に関わる極めて重要な説明であったり、専門用語が多かったりと、説明者である医師などの医療関係者と聞き手である患者や患者の家族などとの信頼関係が大切であり、また、聞き手が理解しやすいプレゼンテーションが求められる。このように、医療説明において聞き手の利便性が十分でないということがあった。

上述の課題を鑑み、本発明の目的は、医療説明における聞き手の利便性を向上させることが可能なコンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラムを提供することにある。

上述の課題を解決するために、本発明の一態様に係るコンテンツ生成システムは、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、前記合成音声による読み上げ速度を調整する調整部と、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、を備えるコンテンツ生成システムである。

本発明の一態様に係るコンテンツ生成装置は、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、前記合成音声による読み上げ速度を調整する調整部と、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、を備えるコンテンツ生成装置である。

本発明の一態様に係るユーザ端末は、読み上げ対象である医療説明用テキストを示すテキストデータが取得され、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声が生成され、前記合成音声による読み上げ速度が調整され、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストが生成され、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータが医療説明用合成コンテンツとして生成された前記医療説明用合成コンテンツを表示する表示部、を備える、ユーザ端末である。

本発明の一態様に係るユーザ端末は、読み上げ対象である医療説明用テキストを示すテキストデータを出力することでコンテンツ生成装置に医療説明用合成コンテンツを生成させる出力部、を備え、前記医療説明用合成コンテンツは、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声が生成され、前記合成音声による読み上げ速度が調整され、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストが生成され、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータとして生成される、ユーザ端末である。

本発明の一態様に係るコンテンツ生成方法は、コンピュータが、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得過程と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成過程と、前記合成音声による読み上げ速度を調整する調整過程と、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成過程と、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成過程と、を有するコンテンツ生成方法である。

本発明の一態様に係るプログラムは、コンピュータに、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得ステップと、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成ステップと、前記合成音声による読み上げ速度を調整する調整ステップと、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成ステップと、前記字幕テキストと、前記調整された前記合成音声と前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成ステップと、を実行させるためのプログラムである。

本発明によれば、医療説明における聞き手の利便性を向上させることができる。

本実施形態に係るコンテンツ生成システムの構成の一例を示す図である。本実施形態に係る合成コンテンツの表示画面例を示す図である。本実施形態に係る合成コンテンツの他の表示画面例を示す図である。本実施形態に係る合成コンテンツの他の表示画面例を示す図である。本実施形態に係る音声生成モデルの生成における処理の流れの一例を示すフローチャートである。本実施形態に係る画像生成モデルの生成における処理の流れの一例を示すフローチャートである。本実施形態に係る合成動画の生成における処理の流れの一例を示すフローチャートである。

以下、図面を参照しながら本発明の実施形態について詳しく説明する。

＜１．コンテンツ生成システムの構成＞
図１を参照して、本実施形態に係るコンテンツ生成システムの構成について説明する。図１は、本実施形態に係るコンテンツ生成システムの構成の一例を示す図である。
図１に示すように、コンテンツ生成システムＳＹＳは、ユーザ端末１０と、コンテンツ生成装置２０と、を備える。ユーザ端末１０と、コンテンツ生成装置２０とは、ネットワークＮＷを介して、通信可能に接続されている。なお、ユーザ端末１０と、コンテンツ生成装置２０とは、それぞれ有線通信又は無線通信のいずれによって接続されてもよい。

（１）コンテンツ生成システムＳＹＳ
コンテンツ生成システムＳＹＳは、ユーザのデジタルクローンがユーザの代わりに医療に関する説明を行う医療説明用コンテンツを生成し、当該医療説明用コンテンツを再生するシステムである。コンテンツは、例えば、画像コンテンツ、ＷＥＢコンテンツ、３Ｄ（３次元）コンテンツ、３Ｄホログラムコンテンツなどである。画像コンテンツは、静止画や動画（映像）などの画像によってデジタルクローンを表示するコンテンツである。ＷＥＢコンテンツは、ＷＥＢのブラウザ上で表示される３Ｄ空間内にデジタルクローンを表示するコンテンツである。３Ｄコンテンツは、３Ｄのデジタルクローンに話をさせるコンテンツである。３Ｄホログラムは、３Ｄホログラムを使ってデジタルクローンを投影するコンテンツである。

デジタルクローンは、ユーザのデジタル化された複製である。デジタルクローンは、ユーザ本人の画像（以下、「本人画像」とも称される）によって表され、ユーザ本人の音声（以下、「本人音声」とも称される）によって資料のテキストを読み上げる。

コンテンツ生成システムＳＹＳは、ユーザの音声、ユーザの画像、資料の画像などを合成することでコンテンツを生成する。合成によって生成されたコンテンツは、以下では「合成コンテンツ」とも称される。合成コンテンツは、画像コンテンツ、ＷＥＢコンテンツ、３Ｄコンテンツ、３Ｄホログラムコンテンツなどのうち、ユーザが利用するコンテンツに応じた合成によって生成される。
以下では、ユーザが利用するコンテンツが画像コンテンツであり、コンテンツ生成システムＳＹＳがユーザの音声、ユーザの画像、資料の画像などを合成し、デジタルクローンが資料の説明を行う動画（以下、「合成動画」とも称される）を合成コンテンツとして生成する一例について説明する。

コンテンツ生成システムＳＹＳは、資料のデータに基づき、コンテンツを生成する。資料のデータは、読み上げ対象である第１のテキストを示すデータ（以下、「テキストデータ」とも称される）を少なくとも含むデータである。本実施形態では、読み上げ対象である第１のテキストは、医療説明用テキストである。医療説明は、医療分野における説明であり、例えば、治療、副作用、治療効果の説明などである。

コンテンツ生成システムＳＹＳは、テキストデータに基づき、第１のテキストがユーザの本人音声で読み上げられる音声（以下、「合成音声」とも称される）を生成する。コンテンツ生成システムＳＹＳは、機械学習によって学習した学習済みモデル、およびテキストデータのジャンルに応じた音声ライブラリを用いて合成音声を生成する。合成音声を生成する学習済みモデルは、ユーザが学習対象である第２のテキスト（学習用テキストともいう）を読み上げた際の音声に基づいてユーザの音声による第２のテキストの読み上げ方を学習したモデル（以下、「音声生成モデル」とも称される）である。

学習対象となるユーザの読み上げ方は、例えば、ユーザに特有のイントネーション、アクセント、読み上げ速度などである。音声ライブラリは、ジャンルごとの専門用語などのイントネーション、読み方などが定義されるライブラリである。ジャンルは、テキストデータごとに予め設定される。例えば、ジャンルは、各診療科、各治療部位、各治療手段などである。
音声生成モデルは、テキストデータが入力されると、当該テキストデータが示す第１のテキストをユーザの本人音声かつ、音声ライブラリで定義される専門用語の読み方、イントネーション及び、ユーザに特有のイントネーション、アクセントで読み上げる合成音声を生成して出力することができる。

これにより、コンテンツ生成システムＳＹＳは、テキストデータを音声生成モデルに入力することで、当該テキストデータが示す第１のテキストがユーザの本人音声で読み上げられる合成音声を取得することができる。また、専門用語のイントネーションや読み方を考慮した合成音声を取得することができるため、合成音声が聞き手に与える違和感を低減することできる。

また、コンテンツ生成システムＳＹＳは、ユーザの本人画像に基づき、デジタルクローン用の本人画像（以下、「合成用本人画像」とも称される）を生成する。合成用本人画像は、静止画又は動画（映像）のいずれであってもよい。合成用本人画像は、例えば、１５秒から３０秒程度の動画が好適である。
コンテンツ生成システムＳＹＳは、機械学習によって学習した学習済みモデルを用いて合成用本人画像を生成する。合成用本人画像を生成する学習済みモデルは、ユーザの本人画像に基づいてユーザの動作を学習したモデル（以下、「画像生成モデル」とも称される）である。

学習対象となるユーザの動作は、例えば、ユーザの顔の動きやジェスチャーである。ユーザの顔の動きは、例えば、読み上げに応じた口元の動きや瞬きなどの表情の変化である。ジェスチャーは、例えば、読み上げに応じた頭の動きや身振り手振りである。
画像生成モデルは、ユーザの音声（例えば合成音声）が入力されると、当該音声に応じてユーザの動作が変化する合成用本人画像を生成して出力することができる。

これにより、コンテンツ生成システムＳＹＳは、テキストデータに基づき生成された合成音声を画像生成モデルに入力することで、当該合成音声に応じて動作が変化する本人画像を、合成用本人画像として取得することができる。

そして、コンテンツ生成システムＳＹＳは、生成した合成音声と合成用本人画像を合成することで、ユーザのデジタルクローンを表すデータ（以下、「クローンデータ」とも称される）を生成する。
クローンデータでは、読み上げ対象である第１のテキストがユーザの本人音声によって読み上げられ、当該第１のテキストの内容に応じてユーザが動作を行っているように本人画像が変化する。例えば、本人画像は、読み上げられている第１のテキスト（出力されている本人音声）に合わせてユーザの口元やユーザの表情が変化したり、ユーザが頭を動かしたり身振り手振りを行っているように変化したりする。

このように、ユーザ本人の音声に合わせてユーザ本人の画像が変化することで、音声と画像との間に生じるズレが低減し、聞き手に与える違和感を低減することできる。

クローンデータは、画像コンテンツ、ＷＥＢコンテンツ、３Ｄコンテンツ、３Ｄホログラムコンテンツなどのうち、ユーザが利用するコンテンツに応じたデータ形式で生成される。
以下では、ユーザが利用するコンテンツが画像コンテンツであり、ユーザのデジタルクローンを表す動画（以下、「クローン動画」とも称される）をクローンデータとして生成する例について説明する。

また、コンテンツ生成システムＳＹＳは、医療説明用のテキストデータに基づき、字幕として表示されるテキストのデータ（以下、「字幕テキスト」とも称される）を生成する。そして、コンテンツ生成システムＳＹＳは、クローン動画と字幕テキストを合成することで、ユーザのデジタルクローンが資料の内容を説明している動画を医療説明用合成動画として生成する。合成動画は、コンテンツ生成システムＳＹＳで生成されるコンテンツの一例である。

ここで、合成動画には、付随情報が含まれる。付随情報は、例えば、字幕テキストに含まれる専門用語に対する注釈テキストである。注釈テキストは、患者や患者の家族などの聞き手が合成動画を再生しているときに、表示される字幕テキスト中の専門用語（単語ともいう）を選択することにより、表示される。注釈テキストは、テキストデータのジャンルごとのテキストライブラリに基づいて生成される。テキストライブラリは、専門用語などの用語ごとの、説明、補足説明などが定義されるライブラリである。

合成動画では、表示されている資料の内容に応じて、ユーザのデジタルクローンが第１のテキストの読み上げを行う。また、合成動画では、表示される字幕テキストにおいて患者や患者の家族などの聞き手が理解し難い専門用語などを注釈テキストにより提示する。
これにより、ユーザのデジタルクローンがユーザの代わりに資料の説明を行っているように見せることができる。

なお、コンテンツ生成システムＳＹＳは、医療説明用テキストデータとともに医療説明用表示データを取得し、取得した医療説明用表示データに基づき、合成音声と対応して表示される画像（以下、「表示画像」とも称される）を生成してもよい。医療説明用表示データは、例えば、イラスト、図表、静止画、動画などのテキストデータの内容の補足などに用いられるデータである。

（２）ユーザ端末１０
ユーザ端末１０は、ユーザによって利用される端末装置である。ユーザ端末１０は、入力装置（マウス、キーボード、タッチパネルなど）、出力装置（ディスプレイ、スピーカなど）、中央処理装置などを備える。ユーザ端末１０は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、タブレットなどのような端末であればいずれを用いるようにしてもよい。

ユーザは、ユーザ端末１０を操作して、音声生成モデル及び画像生成モデルの生成（学習）に必要な情報と、合成動画の生成に必要な情報をコンテンツ生成装置２０へアップロードする。
音声生成モデルの生成に必要な情報は、学習対象である第２のテキストをユーザが読み上げた音声（以下、「学習用音声」とも称される）である。学習用音声は、例えば、ユーザに２００個程の第２のテキストを実際に読み上げてもらうことで生成される。画像生成モデルの生成に必要な情報は、学習用のユーザの本人画像（以下、「学習用本人画像」とも称される）である。学習用本人画像は、静止画又は動画（映像）のいずれであってもよいが、画像生成モデルは、動画の方がユーザの動作の変化をより精度高く学習することができる。

合成動画の生成に必要な情報は、テキストデータである。コンテンツ生成装置２０は、アップロードされたテキストデータに基づき、音声生成モデルと画像生成モデルを用いて合成動画を生成する。
ユーザは、ユーザ端末１０を操作して、コンテンツ生成装置２０から合成動画を再生することで、自身の代わりにデジタルクローンに説明を行わせることができる。合成動画の再生は、ダウンロードして再生してもよいし、ストリーミング再生であってもよい。

なお、以下の説明では、コンテンツ生成装置２０に各種情報をアップロードする端末と、合成動画を再生する端末とのいずれもユーザ端末１０として説明するが、コンテンツ生成装置２０に各種情報をアップロードする端末（説明者用端末）と、合成動画を再生する端末（聞き手用端末）とは同一の端末であってもよいし、別の端末であってもよい。

（３）コンテンツ生成装置２０
コンテンツ生成装置２０は、合成動画（コンテンツの一例）を生成する装置である。コンテンツ生成装置２０は、入力装置（マウス、キーボード、タッチパネルなど）、出力装置（ディスプレイ、スピーカなど）、中央処理装置などを備える。コンテンツ生成装置２０は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）によって実現されるサーバ装置である。

コンテンツ生成装置２０は、ユーザ端末１０からアップロードされる各種情報に基づき、音声生成モデル、画像生成モデル、及び合成動画の生成を行う。
具体的に、コンテンツ生成装置２０は、ユーザ端末１０からアップロードされた学習用音声に基づき、音声生成モデルを生成する。また、コンテンツ生成装置２０は、ユーザ端末１０からアップロードされた学習用本人画像に基づき、画像生成モデルを生成する。

また、コンテンツ生成装置２０は、ユーザ端末１０からアップロードされたテキストデータに基づき、字幕テキストを生成する。
また、コンテンツ生成装置２０は、ユーザ端末１０からアップロードされたテキストデータを音声生成モデルに入力して合成音声を生成し、生成した合成音声を画像生成モデルに入力して合成用本人画像を生成し、生成した合成音声と合成用本人画像を合成してクローン動画を生成する。そして、コンテンツ生成装置２０は、生成した字幕テキストとクローン動画を合成して合成動画を生成する。

なお、本実施形態では、コンテンツ生成システムＳＹＳがユーザ端末１０と、コンテンツ生成装置２０（サーバ）とで構成される一例について説明するが、かかる例に限定されない。例えば、コンテンツ生成システムＳＹＳは、ユーザが直接操作可能なコンテンツ生成装置２０のみで構成されてもよい。即ち、コンテンツ生成装置２０がユーザ端末１０としての役割も担ってよい。この場合、ユーザは、端末をネットワークＮＷに接続することなく合成コンテンツを生成して利用することができる。

＜２．コンテンツ生成装置の機能構成＞
以上、本実施形態に係るコンテンツ生成システムＳＹＳの構成について説明した。続いて、図１を参照して、本実施形態に係るコンテンツ生成装置２０の機能構成について説明する。
図１に示すように、コンテンツ生成装置２０は、通信部２１０と、入力部２２０と、記憶部２３０と、制御部２４０と、出力部２５０と、を備える。

（１）通信部２１０
通信部２１０は、各種情報の送受信を行う機能を有する。例えば、通信部２１０は、ネットワークＮＷを介して、ユーザ端末１０と通信を行う。通信部２１０は、ユーザ端末１０との通信において、音声生成モデルの生成に必要な情報である学習用音声を受信する。また、通信部２１０は、ユーザ端末１０との通信において、画像生成モデルの生成に必要な情報である学習用本人画像を受信する。また、通信部２１０は、ユーザ端末１０との通信において、合成動画の生成に必要な情報であるテキストデータを受信する。また、通信部２１０は、ユーザ端末１０との通信において、合成動画を送信する。

（２）入力部２２０
入力部２２０は、入力を受け付ける機能を有する。入力部２２０は、例えば、コンテンツ生成装置２０がハードウェアとして備えるマウス、キーボード、タッチパネルなどの入力装置によって入力された情報の入力を受け付ける。

（３）記憶部２３０
記憶部２３０は、各種情報を記憶する機能を有する。記憶部２３０は、コンテンツ生成装置２０がハードウェアとして備える記憶媒体、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリ、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓｒｅａｄ／ｗｒｉｔｅＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、又はこれらの記憶媒体の任意の組み合わせによって構成される。

図１に示すように、記憶部２３０は、音声生成モデル２３１と、画像生成モデル２３２、専門用語音声ライブラリ２３３と、専門用語テキストライブラリ２３４と、再生速度ライブラリ２３５と、を記憶する。
また、記憶部２３０は、通信部２１０がユーザ端末１０から受信した学習用音声、学習用本人画像、テキストデータなどを記憶してもよい。また、記憶部２３０は、コンテンツ生成装置２０にて生成された字幕テキスト、合成音声、合成用本人画像、クローン動画、合成動画などを記憶してもよい。

（４）制御部２４０
制御部２４０は、コンテンツ生成装置２０の動作全般を制御する機能を有する。制御部２４０は、例えば、コンテンツ生成装置２０がハードウェアとして備えるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）にプログラムを実行させることによって実現される。
図１に示すように、制御部２４０は、取得部２４１と、学習部２４２と、分割部２４３と、生成部２４４と、合成部２４５と、調整部２４６と、注釈設定部２４７と、確認部２４８と、出力処理部２４９と、を備える。生成部２４４は、字幕生成部２４４１と、音声生成部２４４２、画像生成部２４４３と、を備える。調整部２４６は、再生時間決定部２４６１と、再生速度調整部２４６２と、を備える。確認部２４８は、視聴状況確認部２４８１と、再生状況確認部２４８２と、を備える。

（４－１）取得部２４１
取得部２４１は、各種情報を取得する機能を有する。例えば、取得部２４１は、通信部２１０がユーザ端末１０から受信した学習用音声や学習用本人画像などの学習用データ、及びテキストデータを取得する。

（４－２）学習部２４２
学習部２４２は、学習済みモデルを生成する機能を有する。例えば、学習部２４２は、取得部２４１によって取得された学習用データを用いた機械学習によって学習済みモデルを生成する。

具体的に、学習部２４２は、取得部２４１によって取得された学習用音声を教師データとして用いて、ユーザの音声によるテキストの読み上げ方を機械学習する。当該機械学習により、学習部２４２は、テキストデータが入力された場合に当該テキストデータが示す第１のテキストをユーザの本人音声で読み上げる合成音声を生成して出力することが可能な音声生成モデル２３１を生成する。
本実施形態では、学習部２４２は、テキストとその読み上げ方を事前に学習した既存の学習済みモデルに対して、学習用音声（教師データ）を転移学習させることで、本人オリジナルの音声生成モデル２３１を生成する。

なお、音声生成モデル２３１を生成するための既存の学習済みモデルは、記憶部２３０に予め記憶されている。また、音声生成モデル２３１を生成するための既存の学習済みモデルは、一般的なイントネーションやアクセントを示すライブラリを有しており、一般的なイントネーションやアクセントについては再現できる。また、音声生成モデル２３１を生成するための既存の学習済みモデルは、専門用語のイントネーションやアクセントを示す専門用語音声ライブラリを有しており、専門用語のイントネーションやアクセントについても再現できる。

既存の学習済みモデルが複数用意されている場合、学習部２４２は、１つの学習済みモデルに対して１人のユーザの学習用音声のみを学習させることで、複数のユーザの本人オリジナルの音声生成モデル２３１を生成することができる。また、ジャンルごとに既存の学習済みモデルが用意されている場合、学習部２４２は、各ジャンルの学習済みモデルにユーザの学習用音声を転移学習させることで、ジャンルごとに本人オリジナルの音声生成モデル２３１を生成することができる。
学習部２４２は、生成した音声生成モデル２３１を記憶部２３０に書き込んで、記憶させる。

また、学習部２４２は、取得部２４１によって取得された学習用本人画像を用いて、ユーザの動作を機械学習する。当該機械学習により、学習部２４２は、合成音声が入力された場合に当該音声に応じてユーザの動作が変化する合成用本人画像を生成して出力することが可能な画像生成モデル２３２を学習済みモデルとして生成する。

本実施形態では、学習部２４２は、人の動作の変化を事前に学習した既存の学習済みモデルに対して、学習用本人画像（教師データ）を転移学習させることで、本人オリジナルの画像生成モデル２３２を生成する。なお、画像生成モデル２３２を生成するための既存の学習済みモデルは、記憶部２３０に予め記憶されている。また、画像生成モデル２３２を生成するための既存の学習済みモデルは、例えば、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を用いて、予め音声と同期した口の動きを学習したモデルである。

既存の学習済みモデルが複数用意されている場合、学習部２４２は、１つの学習済みモデルに対して１人のユーザの学習用本人画像のみを学習させることで、複数のユーザの本人オリジナルの画像生成モデル２３２を生成することができる。
学習部２４２は、生成した画像生成モデル２３２を記憶部２３０に書き込んで、記憶させる。

（４－３）分割部２４３
分割部２４３は、第１のテキスト（テキストデータ）を分割する機能を有する。例えば、分割部２４３は、第１のテキストの分割箇所を示す入力に基づき、第１のテキストを複数に分割する。分割箇所を示す入力は、例えば、改行、段落などである。分割部２４３は、第１のテキストを改行ごとに複数の文章に分割する。分割部２４３が第１のテキストを分割することで、第１のテキストは、分割された文章単位で読み上げられる。これにより、分割された１つの文章が読み上げられる度に音声が途切れるため、第１のテキストの読み上げに間を持たせることができる。

（４－４）字幕生成部２４４１
字幕生成部２４４１は、字幕テキストを生成する機能を有する。例えば、字幕生成部２４４１は、取得部２４１によって取得されたテキストデータに基づき、字幕テキストを生成する。具体的に、字幕生成部２４４１は、分割部２４３によって分割された文章単位で字幕テキストを生成する。

（４－５）音声生成部２４４２
音声生成部２４４２は、合成音声を生成する機能を有する。例えば、音声生成部２４４２は、ユーザの本人オリジナルの音声生成モデル２３１および専門用語音声ライブラリ２３３を用いて、取得部２４１によって取得されたテキストデータが示す第１のテキストがユーザの音声で読み上げられる合成音声を生成する。
音声生成部２４４２は、分割部２４３によって分割されたテキストデータ（文章）ごとに合成音声を生成する。これにより、生成された複数の合成音声の１つが読み上げられる度に音声が途切れるため、テキストデータが示す第１のテキストの読み上げに間を持たせることができる。

（４－６）画像生成部２４４３
画像生成部２４４３は、ユーザの本人オリジナルの画像生成モデル２３２を用いて、テキストデータに基づいて生成された合成音声に応じてユーザの動作が変化する合成用本人画像を生成する。
例えば、画像生成部２４４３は、合成音声による読み上げに応じてユーザの顔の動きが変化する合成用本人画像を生成する。具体的に、画像生成部２４４３は、合成音声による読み上げに応じてユーザの口元の動きや表情が変化する合成用本人画像を生成する。
また、画像生成部２４４３は、合成音声による読み上げに応じてユーザがジェスチャーを行っているように変化する合成用本人画像を生成してもよい。具体的に、画像生成部２４４３は、合成音声による読み上げに応じてユーザが頭を動かしたり、ユーザが身振り手振りを行ったりする合成用本人画像を生成する。

このようにして、画像生成部２４４３は、ユーザがテキストを読み上げる際やプレゼンテーションを行う際のユーザ本人の動きを再現した合成用本人画像を生成する。これにより、クローン動画のクローンは、より自然にユーザ本人らしい動きをしながらテキストの読み上げを行うことができる。

（４－７）合成部２４５
合成部２４５は、各種の合成を行う機能を有する。例えば、合成部２４５は、音声生成部２４４２によって生成された合成音声と、画像生成部２４４３によって生成されたユーザの本人画像と、を少なくとも合成して合成動画を生成する。具体的に、合成部２４５は、音声生成部２４４２によって生成された合成音声と、画像生成部２４４３によって生成された合成用本人画像と、を合成してクローン動画を合成動画として生成する。また、合成部２４５は、クローン動画と字幕テキストを合成して合成動画を生成する。

（４－８）再生時間決定部２４６１
再生時間決定部２４６１は、合成動画の再生時間を決定する機能を有する。例えば、再生時間決定部２４６１は、第１のテキストの文字数に基づき、合成動画の再生時間を決定する。
（４－９）再生速度調整部２４６２
再生速度調整部２４６２は、合成動画の再生速度（読み上げ速度）を調整する機能を有する。例えば、再生速度調整部２４６２は、合成部２４５によって合成された合成動画と、記憶部２３０が記憶する再生速度ライブラリと、を用いて、再生速度ライブラリによって示されるテキストデータのジャンルに応じた再生速度となるように合成動画の再生速度のパラメータを調整する。具体的には、再生速度調整部２４６２は、再生時間決定部２４６１によって決定された合成動画の再生時間を、テキストデータのジャンルに応じた再生速度のパラメータに応じて調整する。

なお、再生速度調整部２４６２は、難しい専門用語や安全性に関する説明などの重要な説明部分において、例えば、再生速度が遅くなるように再生速度を調整してもよい。この場合、専門用語や医療用説明テキストに出現するキーワードごとの再生速度のパラメータを予め再生速度ライブラリに設定しておけばよい。
また、再生速度は、テキストデータのジャンルや専門用語に応じて再生速度ライブラリに基づいて調整されることに代えて、あるいは加えて、テキストデータやテキストデータの一部ごとにユーザが個別に速度を設定可能であってもよい。

（４－１０）注釈設定部２４７
注釈設定部２４７は、記憶部２３０が記憶する専門用語テキストライブラリ２３４を用いて、再生速度調整部２４６２によって再生速度が調整された合成動画に含まれる字幕テキスト中の専門用語ごとに注釈テキストを生成する。生成された注釈テキストは、合成動画に付随する付随情報に含まれる。

（４－１１）視聴状況確認部２４８１
視聴状況確認部２４８１は、合成動画を視聴（再生）した視聴ログを、通信部２１０を介してユーザ端末１０から取得する。視聴状況確認部２４８１は、取得した視聴ログを参照して、患者や患者の家族などの聞き手が合成動画を視聴したか否かを判定する。具体的には、視聴状況確認部２４８１は、視聴ログに含まれるユーザ端末１０の表示装置側に設けられたカメラによって撮影された画像の視線に基づいて、患者や患者の家族などの聞き手が合成動画を視聴したか否かを判定する。視聴状況確認部２４８１は、判定結果を、テキストデータをアップロードしたユーザ端末１０に送信する。

なお、視聴状況確認部２４８１は、視聴ログに加えて、あるいは代えて、患者や患者の家族などの聞き手が説明を受けた旨の確認書や医療行為に対する同意書などに対する署名を聞き手から取得してもよい。この場合、視聴状況確認部２４８１は、取得した署名を、通信部２１０を介して、テキストデータをアップロードしたユーザ端末１０に送信すればよい。

（４－１２）再生状況確認部２４８２
再生状況確認部２４８２は、合成動画を視聴（再生）した再生ログを、通信部２１０を介してユーザ端末１０から取得する。再生状況確認部２４８２は、取得した再生ログを、テキストデータをアップロードしたユーザ端末１０に送信する。再生ログには、患者や患者の家族などの聞き手が合成動画を視聴した際の再生、一時停止、早送り、繰り返し視聴回数、再生速度、注釈テキストを参照した用語リストが含まれる。

このようにすることで、ユーザは、再生状況確認部２４８２が取得した再生ログを確認することにより聞き手が理解し難い合成動画中の箇所や用語や、説明スピードが適切か、などの情報を収集することができる。また、再生ログに基づいて合成動画を更新したり、新たな合成動画を生したりすることができるため、合成動画の品質を向上させることができる。また、聞き手にとって分かりやすい医療説明用合成コンテンツを生成することができる。

（４－１３）出力処理部２４９
出力処理部２４９は、各種の出力を制御する機能を有する。例えば、出力処理部２４９は、付随情報を含む合成動画をユーザ端末１０へ送信する。また、出力処理部２４９は、付随情報を含む合成動画を再生し、再生されている映像及び音声をユーザ端末１０へ送信し、ユーザ端末１０に出力させてもよい。また、出力処理部２４９は、視聴状況確認部２４８１による判定結果を、ユーザ端末１０に送信する。また、出力処理部２４９は、再生状況確認部２４８２は、取得した再生ログをユーザ端末１０に送信する。

（５）出力部２５０
出力部２５０は、各種情報を出力する機能を有する。出力部２５０は、例えば、コンテンツ生成装置２０がハードウェアとして備えるディスプレイやタッチパネルなどの表示装置、スピーカなどの音声出力装置によって実現される。出力部２５０は、出力処理部２４９からの入力に応じて、例えば画面や音声などを出力する。

＜３．表示画面例＞
次いで、コンテンツ生成装置２０が生成した合成動画をユーザ端末１０に表示したときの表示画面例について、図２から図４を参照して説明する。
図２から図４は、本実施形態に係る合成コンテンツの表示画面例を示す図である。
ユーザ端末１０は、コンテンツ生成装置２０が生成した合成動画（合成コンテンツ）を表示部に表示する。
図２に示すように、ユーザ端末１０の表示部には、合成動画に含まれるクローン動画が表示される。例えば、領域Ａ１には、ユーザのデジタルクローンＤｒが表示され、入力されたテキストデータに基づく合成音声によりデジタルクローンＤｒが患者や患者の家族などの聞き手に対してテキストデータが示す内容についての医療説明を行う。領域Ａ１は、ユーザ端末１０の表示部における上部に位置する領域である。

また、ユーザ端末１０の表示部には、合成動画に含まれる字幕テキストが表示される。例えば、領域Ａ２において、字幕テキストは、「これから、今回の手術で使用する麻酔についてご説明します。」「わからないことがあれば、麻酔科医に診察時に質問することもできますので、ご安心ください。」と表示される。領域Ａ２は、ユーザ端末１０の表示部における領域Ａ１の下部に位置する領域である。なお、字幕テキストは、クローン動画による音声に同調してハイライトされてもよい。

また、ユーザ端末１０の表示部には、合成動画の再生、一時停止、停止などの各種操作子が操作ボタンとして表示される。例えば、領域Ａ４には、合成動画の再生を指示する操作子としての再生ボタンＢＰｌと、一時停止を指示する操作子としての一時停止ボタンＢＰａと、停止を指示する操作子としての停止ボタンＢＳとが表示される。領域Ａ４は、ユーザ端末１０の表示部における領域Ａ１の下部に位置する領域である。

また、端末の表示部には、合成動画の再生状況を示すステータスバーが表示される。例えば、ユーザ端末１０の表示部における領域Ａ１と領域Ａ２と間の領域には、ステータスバーＰＢが表示される。ステータスバーＰＢ上には、合成動画の再生時間に対する現在の再生位置を表すマーカＰＭが表示される。マーカＰＭは、例えばステータスバーＰＢにおける合成動画の再生開始位置ＰＳから時間経過とともにステータスバーＰＢ上の位置Ｐ１を経て、合成動画の再生終了位置ＰＥまで移動する。例えば、患者や患者の家族などの聞き手がマーカＰＭをタップして再生終了位置ＰＥ方向にマーカＰＭを移動させると、合成動画を早送りすることが可能である。また、患者や患者の家族などの聞き手がマーカＰＭをタップして再生開始位置ＰＳ方向にマーカＰＭを移動させると、合成動画を早戻しすることが可能である。

図２に示す表示画面例は、例えば、合成動画の再生開始位置ＰＳからステータスバーＰＢ上の位置Ｐ１までマーカＰＭが移動しているときに再生される。図２に示す表示画面例の後には、図３に示す表示画面例が表示される。図３に示す表示画面例は、ステータスバーＰＢ上の位置Ｐ１からステータスバーＰＢ上の位置Ｐ２までマーカＰＭが移動しているときに再生される。

図３に示す例では、合成動画の進行とともに、字幕テキストが更新されて表示される。例えば、領域Ａ２には、「硬膜外麻酔は、横向きになってもらい、背中に痛み止めの注射をした後、細い針を硬膜外腔という背骨の中にある空間まで入れ、その針を通してさらに細い管を入れます。」と表示される。
なお、合成動画のタイトルや、合成動画の説明に応じたタイトルなどを、合成動画とともに表示してもよい。例えば、図示する例では、領域Ａ１における上部に位置する領域Ｔに、合成動画の説明に応じたタイトル「硬膜外麻酔」と表示される。

図３に示す表示画面例の後には、図４に示す表示画面例が表示される。図４に示す表示画面例は、ステータスバーＰＢ上の位置Ｐ２からステータスバーＰＢ上の位置Ｐ３までマーカＰＭが移動しているときに再生される。

図４に示す例では、図２、図３に示す表示画面例において領域Ａ１に表示されていたデジタルクローンＤｒが領域Ａ１１に縮小表示される。領域Ａ１１は、領域Ａ１における上部に位置する領域である。また、領域Ａ１２には、デジタルクローンＤｒによる説明の進行に応じて説明を補足する資料、例えばイラストが表示される。領域Ａ１２は、領域Ａ１における下部に位置する領域である。また、領域Ａ１２は、領域Ａ１１におけるデジタルクローンＤｒを患者や患者の家族などの聞き手が視認可能な領域Ａ１における領域である。
ここで、領域Ａ１２に表示される資料は、テキストデータとともに入力される表示データに基づいて表示画像を生成し、生成した表示画像をクローン動画および字幕テキストと合成することにより合成動画に含めることが可能である。例えば、表示画像は、画像生成部２４４３によって生成される。

また、図４に示す例では、領域Ａ２において表示される字幕テキスト「硬膜外麻酔は、横向きになってもらい、背中に痛み止めの注射をした後、細針を硬膜外腔という背骨の中にある空間まで入れ、その針を通してさらに細い管を入れます。」のうち、例えば、専門用語、あるいは補足説明が必要な用語（単語）に注釈テキストが設定されていることを表す下線Ｗが表示される。例えば、患者や患者の家族などの聞き手が、下線Ｗが付された用語「硬膜外腔」に足してタップ操作することにより、領域Ａ３に注釈テキストＰＷが表示される。領域Ａ３は、例えば、ユーザ端末１０の表示部における領域Ａ２よりも下部に位置する領域であって、ユーザ端末１０の表示部における領域Ａ４よりも上部に位置する領域である。

なお、注釈テキストは、合成動画の進行に応じて表示されてもよい。すなわち、注釈テキストは、デジタルクローンＤｒによる説明の進行に応じて患者や患者の家族などの聞き手による操作不要で領域Ａ３に、例えばポップアップ表示されてもよい。

＜４．処理の流れ＞
以上、本実施形態に係るコンテンツ生成装置２０の機能構成について説明した。続いて、図５から図７を参照して、本実施形態に係るコンテンツ生成装置２０が行う処理の流れについて説明する。

（１）音声生成モデルの生成処理
図５を参照して、コンテンツ生成装置２０による音声生成モデル２３１の生成処理について説明する。
図５は、本実施形態に係る音声生成モデル２３１の生成における処理の流れの一例を示すフローチャートである。コンテンツ生成装置２０は、合成動画の生成を行うために、予め音声生成モデル２３１を生成し、用意しておく。

ステップＳ１０１において、コンテンツ生成装置２０の取得部２４１は、学習用音声を取得する。具体的に、取得部２４１は、コンテンツ生成装置２０の通信部２１０を介してユーザ端末１０から学習用音声を取得する。次いで、コンテンツ生成装置２０は、ステップＳ１０２の処理を実行する。

ステップＳ１０２において、コンテンツ生成装置２０の学習部２４２は、音声生成モデル２３１を生成する。具体的に、学習部２４２は、学習対象である第２のテキストとその読み上げ方を事前に学習した既存の学習済みモデルに対して、取得部２４１が取得した学習用音声（教師データ）を転移学習させることで、ユーザの本人オリジナルの音声生成モデル２３１を生成する。なお、音声生成モデル２３１を生成するための既存の学習済みモデルは、コンテンツ生成装置２０の記憶部２３０に予め記憶されている。次いで、コンテンツ生成装置２０は、ステップＳ１０３の処理を実行する。

ステップＳ１０３において、学習部２４２は、生成した音声生成モデル２３１を記憶部２３０に記憶させる。そして、コンテンツ生成装置２０は、図５に係る音声生成モデルの生成における処理を終了する。

（２）画像生成モデルの生成処理
図６を参照して、コンテンツ生成装置２０による画像生成モデル２３２の生成処理について説明する。
図６は、本実施形態に係る画像生成モデル２３２の生成における処理の流れの一例を示すフローチャートである。コンテンツ生成装置２０は、合成動画の生成を行うために、予め画像生成モデル２３２を生成し、用意しておく。

ステップＳ２０１において、取得部２４１は、学習用本人画像を取得する。具体的に、取得部２４１は、通信部２１０を介してユーザ端末１０から学習用本人画像を取得する。次いで、コンテンツ生成装置２０は、ステップＳ２０２の処理を実行する。

ステップＳ２０２において、学習部２４２は、画像生成モデル２３２を生成する。具体的に、学習部２４２は、人の動作の変化を事前に学習した既存の学習済みモデルに対して、取得部２４１が取得した学習用本人画像（教師データ）を転移学習させることで、ユーザの本人オリジナルの画像生成モデル２３２を生成する。なお、画像生成モデル２３２を生成するための既存の学習済みモデルは、コンテンツ生成装置２０の記憶部２３０に予め記憶されている。次いで、コンテンツ生成装置２０は、ステップＳ２０３の処理を実行する。

ステップＳ２０３において、学習部２４２は、生成した画像生成モデル２３２を記憶部２３０に記憶させる。そして、コンテンツ生成装置２０は、図６に係る画像生成モデルの生成における処理を終了する。

（３）合成動画の生成処理
図７を参照して、コンテンツ生成装置２０による合成動画の生成処理について説明する。
図７は、本実施形態に係る合成動画の生成における処理の流れの一例を示すフローチャートである。

ステップＳ３０１において、取得部２４１は、テキストデータを取得する。具体的に、取得部２４１は、通信部２１０を介してユーザ端末１０からテキストデータを取得する。当該テキストデータは、上述した第１のテキストデータである。次いで、コンテンツ生成装置２０は、ステップＳ３０２の処理を実行する。

ステップＳ３０２において、コンテンツ生成装置２０の分割部２４３は、分割処理を行う。具体的に、分割部２４３は、取得部２４１が取得した第１のテキストデータが示す第１のテキストを段落ごとに分割することで、１つの第１のテキストを複数の文章に分割する。次いで、コンテンツ生成装置２０は、ステップＳ３０３の処理を実行する。

ステップＳ３０３において、コンテンツ生成装置２０の字幕生成部２４４１は、字幕テキストを生成する。具体的に、字幕生成部２４４１は、分割された第１のテキスト単位で字幕テキストを生成する。次いで、コンテンツ生成装置２０は、ステップＳ３０４の処理を実行する。

ステップＳ３０４において、コンテンツ生成装置２０の音声生成部２４４２は、合成音声を生成する。具体的に、音声生成部２４４２は、記憶部２３０に記憶されている音声生成モデル２３１に対して、分割部２４３によって分割された複数の文章を１つずつ入力する。これにより、音声生成モデル２３１によって合成音声が生成される。そして、音声生成部２４４２は、音声生成モデル２３１から出力される合成音声を取得する。次いで、コンテンツ生成装置２０は、ステップＳ３０５の処理を実行する。

ステップＳ３０５において、画像生成部２４４３は、合成用本人画像を生成する。具体的に、画像生成部２４４３は、記憶部２３０に記憶されている画像生成モデル２３２に対して、分割部２４３によって分割された複数の文章を１つずつ入力する。これにより、画像生成モデル２３２によって合成用本人画像が生成される。そして、画像生成部２４４３は、画像生成モデル２３２から出力される合成用本人画像を取得する。次いで、コンテンツ生成装置２０は、ステップＳ３０６の処理を実行する。

ステップＳ３０６において、コンテンツ生成装置２０の合成部２４５は、クローン動画を生成する。具体的に、合成部２４５は、音声生成部２４４２によって生成された合成音声ごとに、画像生成部２４４３によって生成された合成用本人画像を合成し、クローン動画を生成する。次いで、コンテンツ生成装置２０は、ステップＳ３０７の処理を実行する。

ステップＳ３０７において、合成部２４５は、合成動画を生成する。具体的に、合成部２４５は、合成したクローン動画と、字幕生成部２４４１によって生成された字幕テキストと、をさらに合成し、合成動画を生成する。次いで、コンテンツ生成装置２０は、ステップＳ３０８の処理を実行する。

ステップＳ３０８において、コンテンツ生成装置２０の再生時間決定部２４６１は、合成動画の再生時間を決定する。具体的に、再生時間決定部２４６１は、第１のテキストの文字数、分割された第１のテキストの間などに基づき、合成動画の再生時間を決定する。次いで、コンテンツ生成装置２０は、ステップＳ３０９の処理を実行する。

ステップＳ３０９において、コンテンツ生成装置２０の再生速度調整部２４６２は、合成動画の再生速度を決定する。具体的に、再生速度調整部２４６２は、記憶部２３０に記憶されている再生速度ライブラリによって定義される再生速度を参照して、テキストデータのジャンルに応じた再生速度となるように合成動画の再生速度のパラメータを調整する。次いで、コンテンツ生成装置２０は、ステップＳ３１０の処理を実行する。

ステップＳ３１０において、コンテンツ生成装置２０の注釈設定部２４７は、注釈テキストを生成する。具体的に、注釈設定部２４７は、記憶部２３０に記憶された専門用語テキストライブラリ２３４を用いて、再生速度調整部２４６２によって再生速度が調整された合成動画に含まれる字幕テキスト中の専門用語ごとに注釈テキストを生成する。次いで、コンテンツ生成装置２０は、ステップＳ３１１の処理を実行する。

ステップＳ３１１において、コンテンツ生成装置２０の視聴状況確認部２４８１は、患者や患者の家族などの聞き手が合成動画を視聴したか否かを判定する。具体的に、視聴状況確認部２４８１は、通信部２１０を介してユーザ端末１０から合成動画を視聴（再生）した視聴ログを取得する。視聴状況確認部２４８１は、視聴ログに含まれるユーザ端末１０の表示装置側に設けられたカメラによって撮影された画像の視線に基づいて、合成動画を視聴したか否かを判定する。視聴状況確認部２４８１は、判定結果を、テキストデータをアップロードしたユーザ端末１０に送信する。次いで、コンテンツ生成装置２０は、ステップＳ３１２の処理を実行する。

ステップＳ３１２において、コンテンツ生成装置２０の再生状況確認部２４８２は、再生ログを取得する。具体的に、再生状況確認部２４８２は、通信部２１０を介してユーザ端末１０から合成動画を視聴（再生）した再生ログを取得する。再生状況確認部２４８２は、取得した再生ログを、テキストデータをアップロードしたユーザ端末１０に送信する。そして、コンテンツ生成装置２０は、図７に係る合成動画の生成における処理を終了する。

なお、コンテンツ生成装置２０は、ステップＳ３１１およびステップＳ３１２の処理を行わなくてもよいし、ステップＳ３１１およびステップＳ３１２の処理を合成動画の視聴状況の確認における処理として、別のタイミングで実行してもよい。

以上説明したように、本実施形態に係るコンテンツ生成システムＳＹＳは、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部２４１と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記第１のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部２４４２と、合成音声による読み上げ速度を調整する再生速度調整部２４６２と、テキストデータが示す医療説明用テキストに基づき字幕テキストを生成する字幕生成部２４４１と、字幕テキストと、調整された合成音声と、ユーザの本人画像とを合成してユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部２４５と、を備える。

かかる構成により、生成された医療説明用合成コンテンツを再生すると、読み上げ対象であるテキストデータが示す医療説明用テキストがユーザ本人の音声かつユーザ本人らしい読み上げ方で読み上げられる。また、専門用語を正しいイントネーションやアクセントで読み上げることができる。また、テキストデータに適した読み上げ速度で読み上げることができる。よって、本実施形態に係るコンテンツ生成装置２０は、医療説明用テキストの読み上げにおいて聞き手に与える違和感を低減させることができる。また、字幕テキストも表示されるため、聴覚だけでなく視覚でも医療説明の内容を確認することができるため、医療説明における患者や患者の家族などの利き手の利便性を向上させることができる。

＜５．変形例＞
以上、本発明の実施形態について説明した。続いて、本発明の実施形態の変形例について説明する。なお、以下に説明する各変形例は、単独で本発明の実施形態に適用されてもよいし、組み合わせで本発明の実施形態に適用されてもよい。また、各変形例は、本発明の実施形態で説明した構成に代えて適用されてもよいし、本発明の実施形態で説明した構成に対して追加的に適用されてもよい。

例えば、音声生成部２４４２は、パラメータを調整することによって、合成音声でユーザの感情を表現してもよい。音声生成部２４４２は、テキストデータの内容に応じて、例えば喜びが８割、驚きが２割のようにパラメータを設定する。なお、感情の種類は、喜びと驚き以外にも悲しみや怒りなど様々な感情が組み合わせられてよい。これにより、音声生成部２４４２は、ユーザ本人らしい読み上げ方に加え、テキストデータの内容に応じた多様な感情も表現可能な合成音声を生成することができるようになる。

また、上述の実施形態では、コンテンツ生成システムＳＹＳがユーザ端末１０（クライアント）とコンテンツ生成装置２０（サーバ）とで構成される例について説明したが、かかる例に限定されない。例えば、コンテンツ生成システムＳＹＳは、ユーザが直接操作可能なコンテンツ生成装置２０のみで構成されてもよい。即ち、コンテンツ生成装置２０がユーザ端末１０としての役割も担ってよい。この場合、ユーザは、端末をネットワークＮＷに接続することなく合成コンテンツを生成して利用することができる。

また、コンテンツ生成装置２０の機能は、複数の装置によって実現されてもよい。例えば、音声生成モデル２３１や画像生成モデル２３２を生成するための機能は他の装置によって実現されてもよい。この場合、コンテンツ生成装置２０は、他の装置によって生成された音声生成モデル２３１と画像生成モデル２３２を記憶部２３０に記憶することで、上述の実施形態と同様にして合成コンテンツを生成することができる。

なお、上述した実施形態および変形例におけるコンテンツ生成装置２０の一部又は全部をコンピュータで実現するようにしてもよい。このコンピュータには、量子コンピュータも含まれる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。

また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

ＳＹＳコンテンツ生成システム
１０ユーザ端末
２０コンテンツ生成装置
２１０通信部
２２０入力部
２３０記憶部
２３１音声生成モデル
２３２画像生成モデル
２３３専門用語音声ライブラリ
２３４専門用語テキストライブラリ
２３５再生速度ライブラリ
２４０制御部
２４１取得部
２４２学習部
２４３分割部
２４４生成部
２４４１字幕生成部
２４４２音声生成部
２４４３画像生成部
２４５合成部
２４６調整部
２４６１再生時間決定部
２４６２再生速度調整部
２４７注釈設定部
２４８確認部
２４８１視聴状況確認部
２４８２再生状況確認部
２４９出力処理部
２５０出力部

Claims

読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、
ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、
前記合成音声による読み上げ速度を調整する調整部と、
前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、
前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、
を備えるコンテンツ生成システム。
前記字幕テキストに含まれる用語に応じた注釈テキストを生成する注釈生成部と、
前記ユーザが選択した用語に応じた注釈テキストを提示する提示部と、
をさらに備え、
前記合成部は、前記注釈テキストも合成して前記ユーザのデジタルクローンを表す前記クローンデータ前記医療説明用合成コンテンツとして生成する、
請求項１に記載のコンテンツ生成システム。
前記医療説明用合成コンテンツに対する前記ユーザの視聴ログを取得する視聴ログ取得部、
をさらに備える、
請求項２に記載のコンテンツ生成システム。
前記テキストデータの内容と対応して表示される医療説明用表示データに基づき、前記合成音声と対応して表示される表示画像を生成する画像生成部、
をさらに備え、
前記取得部は、前記医療説明用表示データをさらに取得し、
前記合成部は、前記表示画像も合成して前記ユーザのデジタルクローンを表す前記クローンデータを前記医療説明用合成コンテンツとして生成する、
請求項１から請求項３のいずれか一項に記載のコンテンツ生成システム。
読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、
ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、
前記合成音声による読み上げ速度を調整する調整部と、
前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、
前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、
を備えるコンテンツ生成装置。
読み上げ対象である医療説明用テキストを示すテキストデータが取得され、
ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声が生成され、
前記合成音声による読み上げ速度が調整され、
前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストが生成され、
前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータが医療説明用合成コンテンツとして生成された前記医療説明用合成コンテンツを表示する表示部、
を備える、ユーザ端末。
読み上げ対象である医療説明用テキストを示すテキストデータを出力することでコンテンツ生成装置に医療説明用合成コンテンツを生成させる出力部、
を備え、
前記医療説明用合成コンテンツは、
ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声が生成され、
前記合成音声による読み上げ速度が調整され、
前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストが生成され、
前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータとして生成される、
ユーザ端末。
コンピュータが、
読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得過程と、
ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成過程と、
前記合成音声による読み上げ速度を調整する調整過程と、
前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成過程と、
前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成過程と、
を有するコンテンツ生成方法。
コンピュータに、
読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得ステップと、
ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成ステップと、
前記合成音声による読み上げ速度を調整する調整ステップと、
前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成ステップと、
前記字幕テキストと、前記調整された前記合成音声と前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成ステップと、
を実行させるためのプログラム。