JP2024088118A - コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラム - Google Patents

コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラム Download PDF

Info

Publication number
JP2024088118A
JP2024088118A JP2022203135A JP2022203135A JP2024088118A JP 2024088118 A JP2024088118 A JP 2024088118A JP 2022203135 A JP2022203135 A JP 2022203135A JP 2022203135 A JP2022203135 A JP 2022203135A JP 2024088118 A JP2024088118 A JP 2024088118A
Authority
JP
Japan
Prior art keywords
text
voice
user
medical
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022203135A
Other languages
English (en)
Inventor
平田 憲子
Noriko Hiraka
徳樹 沼田
Yoshiki Numata
健一 宮田
Kenichi Miyata
優 勝亦
Masaru Katsumata
祐介 渡邊
Yusuke Watanabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hokkaido University NUC
Toppan Holdings Inc
Original Assignee
Hokkaido University NUC
Toppan Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hokkaido University NUC, Toppan Holdings Inc filed Critical Hokkaido University NUC
Priority to JP2022203135A priority Critical patent/JP2024088118A/ja
Publication of JP2024088118A publication Critical patent/JP2024088118A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】医療説明における聞き手の利便性を向上させること。【解決手段】コンテンツ生成システムは、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、前記合成音声による読み上げ速度を調整する調整部と、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、前記字幕テキストと、前記調整された前記合成音声と前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、を備える。【選択図】図1

Description

本発明は、コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラムに関する。
従来、ユーザを表すキャラクターなどをアバターとして用いて、ユーザ間のコミュニケーションを行うための技術が各種提案されている。
例えば、下記特許文献1には、自立的で動きのあるキャラクターをアバターとして用いて、ユーザ間における文書に関するコミュニケーションを促進する技術が開示されている。当該技術では、予めユーザの音声を録音した音声データを用意しておき、当該音声データが再生された際にアバターの表情が変化するよう定義しておくことで、当該音声データと対応するテキストをアバターが読み上げているように見せることができる。これにより、例えば、話し手であるユーザ本人の代わりにアバターにプレゼンテーションを行わせることができる。
特開平11-312160号公報
しかしながら、上記特許文献1の技術のように、話し手のアバターと話し手の音声データを単に用いるだけでは、話し手の本人らしさやイントネーションを正しく表現できず、プレゼンテーションの聞き手に違和感を与えてしまう。医療説明では、患者の身体に関わる極めて重要な説明であったり、専門用語が多かったりと、説明者である医師などの医療関係者と聞き手である患者や患者の家族などとの信頼関係が大切であり、また、聞き手が理解しやすいプレゼンテーションが求められる。このように、医療説明において聞き手の利便性が十分でないということがあった。
上述の課題を鑑み、本発明の目的は、医療説明における聞き手の利便性を向上させることが可能なコンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラムを提供することにある。
上述の課題を解決するために、本発明の一態様に係るコンテンツ生成システムは、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、前記合成音声による読み上げ速度を調整する調整部と、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、を備えるコンテンツ生成システムである。
本発明の一態様に係るコンテンツ生成装置は、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、前記合成音声による読み上げ速度を調整する調整部と、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、を備えるコンテンツ生成装置である。
本発明の一態様に係るユーザ端末は、読み上げ対象である医療説明用テキストを示すテキストデータが取得され、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声が生成され、前記合成音声による読み上げ速度が調整され、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストが生成され、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータが医療説明用合成コンテンツとして生成された前記医療説明用合成コンテンツを表示する表示部、を備える、ユーザ端末である。
本発明の一態様に係るユーザ端末は、読み上げ対象である医療説明用テキストを示すテキストデータを出力することでコンテンツ生成装置に医療説明用合成コンテンツを生成させる出力部、を備え、前記医療説明用合成コンテンツは、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声が生成され、前記合成音声による読み上げ速度が調整され、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストが生成され、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータとして生成される、ユーザ端末である。
本発明の一態様に係るコンテンツ生成方法は、コンピュータが、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得過程と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成過程と、前記合成音声による読み上げ速度を調整する調整過程と、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成過程と、前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成過程と、を有するコンテンツ生成方法である。
本発明の一態様に係るプログラムは、コンピュータに、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得ステップと、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成ステップと、前記合成音声による読み上げ速度を調整する調整ステップと、前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成ステップと、前記字幕テキストと、前記調整された前記合成音声と前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成ステップと、を実行させるためのプログラムである。
本発明によれば、医療説明における聞き手の利便性を向上させることができる。
本実施形態に係るコンテンツ生成システムの構成の一例を示す図である。 本実施形態に係る合成コンテンツの表示画面例を示す図である。 本実施形態に係る合成コンテンツの他の表示画面例を示す図である。 本実施形態に係る合成コンテンツの他の表示画面例を示す図である。 本実施形態に係る音声生成モデルの生成における処理の流れの一例を示すフローチャートである。 本実施形態に係る画像生成モデルの生成における処理の流れの一例を示すフローチャートである。 本実施形態に係る合成動画の生成における処理の流れの一例を示すフローチャートである。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
<1.コンテンツ生成システムの構成>
図1を参照して、本実施形態に係るコンテンツ生成システムの構成について説明する。図1は、本実施形態に係るコンテンツ生成システムの構成の一例を示す図である。
図1に示すように、コンテンツ生成システムSYSは、ユーザ端末10と、コンテンツ生成装置20と、を備える。ユーザ端末10と、コンテンツ生成装置20とは、ネットワークNWを介して、通信可能に接続されている。なお、ユーザ端末10と、コンテンツ生成装置20とは、それぞれ有線通信又は無線通信のいずれによって接続されてもよい。
(1)コンテンツ生成システムSYS
コンテンツ生成システムSYSは、ユーザのデジタルクローンがユーザの代わりに医療に関する説明を行う医療説明用コンテンツを生成し、当該医療説明用コンテンツを再生するシステムである。コンテンツは、例えば、画像コンテンツ、WEBコンテンツ、3D(3次元)コンテンツ、3Dホログラムコンテンツなどである。画像コンテンツは、静止画や動画(映像)などの画像によってデジタルクローンを表示するコンテンツである。WEBコンテンツは、WEBのブラウザ上で表示される3D空間内にデジタルクローンを表示するコンテンツである。3Dコンテンツは、3Dのデジタルクローンに話をさせるコンテンツである。3Dホログラムは、3Dホログラムを使ってデジタルクローンを投影するコンテンツである。
デジタルクローンは、ユーザのデジタル化された複製である。デジタルクローンは、ユーザ本人の画像(以下、「本人画像」とも称される)によって表され、ユーザ本人の音声(以下、「本人音声」とも称される)によって資料のテキストを読み上げる。
コンテンツ生成システムSYSは、ユーザの音声、ユーザの画像、資料の画像などを合成することでコンテンツを生成する。合成によって生成されたコンテンツは、以下では「合成コンテンツ」とも称される。合成コンテンツは、画像コンテンツ、WEBコンテンツ、3Dコンテンツ、3Dホログラムコンテンツなどのうち、ユーザが利用するコンテンツに応じた合成によって生成される。
以下では、ユーザが利用するコンテンツが画像コンテンツであり、コンテンツ生成システムSYSがユーザの音声、ユーザの画像、資料の画像などを合成し、デジタルクローンが資料の説明を行う動画(以下、「合成動画」とも称される)を合成コンテンツとして生成する一例について説明する。
コンテンツ生成システムSYSは、資料のデータに基づき、コンテンツを生成する。資料のデータは、読み上げ対象である第1のテキストを示すデータ(以下、「テキストデータ」とも称される)を少なくとも含むデータである。本実施形態では、読み上げ対象である第1のテキストは、医療説明用テキストである。医療説明は、医療分野における説明であり、例えば、治療、副作用、治療効果の説明などである。
コンテンツ生成システムSYSは、テキストデータに基づき、第1のテキストがユーザの本人音声で読み上げられる音声(以下、「合成音声」とも称される)を生成する。コンテンツ生成システムSYSは、機械学習によって学習した学習済みモデル、およびテキストデータのジャンルに応じた音声ライブラリを用いて合成音声を生成する。合成音声を生成する学習済みモデルは、ユーザが学習対象である第2のテキスト(学習用テキストともいう)を読み上げた際の音声に基づいてユーザの音声による第2のテキストの読み上げ方を学習したモデル(以下、「音声生成モデル」とも称される)である。
学習対象となるユーザの読み上げ方は、例えば、ユーザに特有のイントネーション、アクセント、読み上げ速度などである。音声ライブラリは、ジャンルごとの専門用語などのイントネーション、読み方などが定義されるライブラリである。ジャンルは、テキストデータごとに予め設定される。例えば、ジャンルは、各診療科、各治療部位、各治療手段などである。
音声生成モデルは、テキストデータが入力されると、当該テキストデータが示す第1のテキストをユーザの本人音声かつ、音声ライブラリで定義される専門用語の読み方、イントネーション及び、ユーザに特有のイントネーション、アクセントで読み上げる合成音声を生成して出力することができる。
これにより、コンテンツ生成システムSYSは、テキストデータを音声生成モデルに入力することで、当該テキストデータが示す第1のテキストがユーザの本人音声で読み上げられる合成音声を取得することができる。また、専門用語のイントネーションや読み方を考慮した合成音声を取得することができるため、合成音声が聞き手に与える違和感を低減することできる。
また、コンテンツ生成システムSYSは、ユーザの本人画像に基づき、デジタルクローン用の本人画像(以下、「合成用本人画像」とも称される)を生成する。合成用本人画像は、静止画又は動画(映像)のいずれであってもよい。合成用本人画像は、例えば、15秒から30秒程度の動画が好適である。
コンテンツ生成システムSYSは、機械学習によって学習した学習済みモデルを用いて合成用本人画像を生成する。合成用本人画像を生成する学習済みモデルは、ユーザの本人画像に基づいてユーザの動作を学習したモデル(以下、「画像生成モデル」とも称される)である。
学習対象となるユーザの動作は、例えば、ユーザの顔の動きやジェスチャーである。ユーザの顔の動きは、例えば、読み上げに応じた口元の動きや瞬きなどの表情の変化である。ジェスチャーは、例えば、読み上げに応じた頭の動きや身振り手振りである。
画像生成モデルは、ユーザの音声(例えば合成音声)が入力されると、当該音声に応じてユーザの動作が変化する合成用本人画像を生成して出力することができる。
これにより、コンテンツ生成システムSYSは、テキストデータに基づき生成された合成音声を画像生成モデルに入力することで、当該合成音声に応じて動作が変化する本人画像を、合成用本人画像として取得することができる。
そして、コンテンツ生成システムSYSは、生成した合成音声と合成用本人画像を合成することで、ユーザのデジタルクローンを表すデータ(以下、「クローンデータ」とも称される)を生成する。
クローンデータでは、読み上げ対象である第1のテキストがユーザの本人音声によって読み上げられ、当該第1のテキストの内容に応じてユーザが動作を行っているように本人画像が変化する。例えば、本人画像は、読み上げられている第1のテキスト(出力されている本人音声)に合わせてユーザの口元やユーザの表情が変化したり、ユーザが頭を動かしたり身振り手振りを行っているように変化したりする。
このように、ユーザ本人の音声に合わせてユーザ本人の画像が変化することで、音声と画像との間に生じるズレが低減し、聞き手に与える違和感を低減することできる。
クローンデータは、画像コンテンツ、WEBコンテンツ、3Dコンテンツ、3Dホログラムコンテンツなどのうち、ユーザが利用するコンテンツに応じたデータ形式で生成される。
以下では、ユーザが利用するコンテンツが画像コンテンツであり、ユーザのデジタルクローンを表す動画(以下、「クローン動画」とも称される)をクローンデータとして生成する例について説明する。
また、コンテンツ生成システムSYSは、医療説明用のテキストデータに基づき、字幕として表示されるテキストのデータ(以下、「字幕テキスト」とも称される)を生成する。そして、コンテンツ生成システムSYSは、クローン動画と字幕テキストを合成することで、ユーザのデジタルクローンが資料の内容を説明している動画を医療説明用合成動画として生成する。合成動画は、コンテンツ生成システムSYSで生成されるコンテンツの一例である。
ここで、合成動画には、付随情報が含まれる。付随情報は、例えば、字幕テキストに含まれる専門用語に対する注釈テキストである。注釈テキストは、患者や患者の家族などの聞き手が合成動画を再生しているときに、表示される字幕テキスト中の専門用語(単語ともいう)を選択することにより、表示される。注釈テキストは、テキストデータのジャンルごとのテキストライブラリに基づいて生成される。テキストライブラリは、専門用語などの用語ごとの、説明、補足説明などが定義されるライブラリである。
合成動画では、表示されている資料の内容に応じて、ユーザのデジタルクローンが第1のテキストの読み上げを行う。また、合成動画では、表示される字幕テキストにおいて患者や患者の家族などの聞き手が理解し難い専門用語などを注釈テキストにより提示する。
これにより、ユーザのデジタルクローンがユーザの代わりに資料の説明を行っているように見せることができる。
なお、コンテンツ生成システムSYSは、医療説明用テキストデータとともに医療説明用表示データを取得し、取得した医療説明用表示データに基づき、合成音声と対応して表示される画像(以下、「表示画像」とも称される)を生成してもよい。医療説明用表示データは、例えば、イラスト、図表、静止画、動画などのテキストデータの内容の補足などに用いられるデータである。
(2)ユーザ端末10
ユーザ端末10は、ユーザによって利用される端末装置である。ユーザ端末10は、入力装置(マウス、キーボード、タッチパネルなど)、出力装置(ディスプレイ、スピーカなど)、中央処理装置などを備える。ユーザ端末10は、例えば、PC(Personal Computer)、スマートフォン、タブレットなどのような端末であればいずれを用いるようにしてもよい。
ユーザは、ユーザ端末10を操作して、音声生成モデル及び画像生成モデルの生成(学習)に必要な情報と、合成動画の生成に必要な情報をコンテンツ生成装置20へアップロードする。
音声生成モデルの生成に必要な情報は、学習対象である第2のテキストをユーザが読み上げた音声(以下、「学習用音声」とも称される)である。学習用音声は、例えば、ユーザに200個程の第2のテキストを実際に読み上げてもらうことで生成される。画像生成モデルの生成に必要な情報は、学習用のユーザの本人画像(以下、「学習用本人画像」とも称される)である。学習用本人画像は、静止画又は動画(映像)のいずれであってもよいが、画像生成モデルは、動画の方がユーザの動作の変化をより精度高く学習することができる。
合成動画の生成に必要な情報は、テキストデータである。コンテンツ生成装置20は、アップロードされたテキストデータに基づき、音声生成モデルと画像生成モデルを用いて合成動画を生成する。
ユーザは、ユーザ端末10を操作して、コンテンツ生成装置20から合成動画を再生することで、自身の代わりにデジタルクローンに説明を行わせることができる。合成動画の再生は、ダウンロードして再生してもよいし、ストリーミング再生であってもよい。
なお、以下の説明では、コンテンツ生成装置20に各種情報をアップロードする端末と、合成動画を再生する端末とのいずれもユーザ端末10として説明するが、コンテンツ生成装置20に各種情報をアップロードする端末(説明者用端末)と、合成動画を再生する端末(聞き手用端末)とは同一の端末であってもよいし、別の端末であってもよい。
(3)コンテンツ生成装置20
コンテンツ生成装置20は、合成動画(コンテンツの一例)を生成する装置である。コンテンツ生成装置20は、入力装置(マウス、キーボード、タッチパネルなど)、出力装置(ディスプレイ、スピーカなど)、中央処理装置などを備える。コンテンツ生成装置20は、例えば、PC(Personal Computer)によって実現されるサーバ装置である。
コンテンツ生成装置20は、ユーザ端末10からアップロードされる各種情報に基づき、音声生成モデル、画像生成モデル、及び合成動画の生成を行う。
具体的に、コンテンツ生成装置20は、ユーザ端末10からアップロードされた学習用音声に基づき、音声生成モデルを生成する。また、コンテンツ生成装置20は、ユーザ端末10からアップロードされた学習用本人画像に基づき、画像生成モデルを生成する。
また、コンテンツ生成装置20は、ユーザ端末10からアップロードされたテキストデータに基づき、字幕テキストを生成する。
また、コンテンツ生成装置20は、ユーザ端末10からアップロードされたテキストデータを音声生成モデルに入力して合成音声を生成し、生成した合成音声を画像生成モデルに入力して合成用本人画像を生成し、生成した合成音声と合成用本人画像を合成してクローン動画を生成する。そして、コンテンツ生成装置20は、生成した字幕テキストとクローン動画を合成して合成動画を生成する。
なお、本実施形態では、コンテンツ生成システムSYSがユーザ端末10と、コンテンツ生成装置20(サーバ)とで構成される一例について説明するが、かかる例に限定されない。例えば、コンテンツ生成システムSYSは、ユーザが直接操作可能なコンテンツ生成装置20のみで構成されてもよい。即ち、コンテンツ生成装置20がユーザ端末10としての役割も担ってよい。この場合、ユーザは、端末をネットワークNWに接続することなく合成コンテンツを生成して利用することができる。
<2.コンテンツ生成装置の機能構成>
以上、本実施形態に係るコンテンツ生成システムSYSの構成について説明した。続いて、図1を参照して、本実施形態に係るコンテンツ生成装置20の機能構成について説明する。
図1に示すように、コンテンツ生成装置20は、通信部210と、入力部220と、記憶部230と、制御部240と、出力部250と、を備える。
(1)通信部210
通信部210は、各種情報の送受信を行う機能を有する。例えば、通信部210は、ネットワークNWを介して、ユーザ端末10と通信を行う。通信部210は、ユーザ端末10との通信において、音声生成モデルの生成に必要な情報である学習用音声を受信する。また、通信部210は、ユーザ端末10との通信において、画像生成モデルの生成に必要な情報である学習用本人画像を受信する。また、通信部210は、ユーザ端末10との通信において、合成動画の生成に必要な情報であるテキストデータを受信する。また、通信部210は、ユーザ端末10との通信において、合成動画を送信する。
(2)入力部220
入力部220は、入力を受け付ける機能を有する。入力部220は、例えば、コンテンツ生成装置20がハードウェアとして備えるマウス、キーボード、タッチパネルなどの入力装置によって入力された情報の入力を受け付ける。
(3)記憶部230
記憶部230は、各種情報を記憶する機能を有する。記憶部230は、コンテンツ生成装置20がハードウェアとして備える記憶媒体、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、又はこれらの記憶媒体の任意の組み合わせによって構成される。
図1に示すように、記憶部230は、音声生成モデル231と、画像生成モデル232、専門用語音声ライブラリ233と、専門用語テキストライブラリ234と、再生速度ライブラリ235と、を記憶する。
また、記憶部230は、通信部210がユーザ端末10から受信した学習用音声、学習用本人画像、テキストデータなどを記憶してもよい。また、記憶部230は、コンテンツ生成装置20にて生成された字幕テキスト、合成音声、合成用本人画像、クローン動画、合成動画などを記憶してもよい。
(4)制御部240
制御部240は、コンテンツ生成装置20の動作全般を制御する機能を有する。制御部240は、例えば、コンテンツ生成装置20がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。
図1に示すように、制御部240は、取得部241と、学習部242と、分割部243と、生成部244と、合成部245と、調整部246と、注釈設定部247と、確認部248と、出力処理部249と、を備える。生成部244は、字幕生成部2441と、音声生成部2442、画像生成部2443と、を備える。調整部246は、再生時間決定部2461と、再生速度調整部2462と、を備える。確認部248は、視聴状況確認部2481と、再生状況確認部2482と、を備える。
(4-1)取得部241
取得部241は、各種情報を取得する機能を有する。例えば、取得部241は、通信部210がユーザ端末10から受信した学習用音声や学習用本人画像などの学習用データ、及びテキストデータを取得する。
(4-2)学習部242
学習部242は、学習済みモデルを生成する機能を有する。例えば、学習部242は、取得部241によって取得された学習用データを用いた機械学習によって学習済みモデルを生成する。
具体的に、学習部242は、取得部241によって取得された学習用音声を教師データとして用いて、ユーザの音声によるテキストの読み上げ方を機械学習する。当該機械学習により、学習部242は、テキストデータが入力された場合に当該テキストデータが示す第1のテキストをユーザの本人音声で読み上げる合成音声を生成して出力することが可能な音声生成モデル231を生成する。
本実施形態では、学習部242は、テキストとその読み上げ方を事前に学習した既存の学習済みモデルに対して、学習用音声(教師データ)を転移学習させることで、本人オリジナルの音声生成モデル231を生成する。
なお、音声生成モデル231を生成するための既存の学習済みモデルは、記憶部230に予め記憶されている。また、音声生成モデル231を生成するための既存の学習済みモデルは、一般的なイントネーションやアクセントを示すライブラリを有しており、一般的なイントネーションやアクセントについては再現できる。また、音声生成モデル231を生成するための既存の学習済みモデルは、専門用語のイントネーションやアクセントを示す専門用語音声ライブラリを有しており、専門用語のイントネーションやアクセントについても再現できる。
既存の学習済みモデルが複数用意されている場合、学習部242は、1つの学習済みモデルに対して1人のユーザの学習用音声のみを学習させることで、複数のユーザの本人オリジナルの音声生成モデル231を生成することができる。また、ジャンルごとに既存の学習済みモデルが用意されている場合、学習部242は、各ジャンルの学習済みモデルにユーザの学習用音声を転移学習させることで、ジャンルごとに本人オリジナルの音声生成モデル231を生成することができる。
学習部242は、生成した音声生成モデル231を記憶部230に書き込んで、記憶させる。
また、学習部242は、取得部241によって取得された学習用本人画像を用いて、ユーザの動作を機械学習する。当該機械学習により、学習部242は、合成音声が入力された場合に当該音声に応じてユーザの動作が変化する合成用本人画像を生成して出力することが可能な画像生成モデル232を学習済みモデルとして生成する。
本実施形態では、学習部242は、人の動作の変化を事前に学習した既存の学習済みモデルに対して、学習用本人画像(教師データ)を転移学習させることで、本人オリジナルの画像生成モデル232を生成する。なお、画像生成モデル232を生成するための既存の学習済みモデルは、記憶部230に予め記憶されている。また、画像生成モデル232を生成するための既存の学習済みモデルは、例えば、GAN(Generative Adversarial Network)を用いて、予め音声と同期した口の動きを学習したモデルである。
既存の学習済みモデルが複数用意されている場合、学習部242は、1つの学習済みモデルに対して1人のユーザの学習用本人画像のみを学習させることで、複数のユーザの本人オリジナルの画像生成モデル232を生成することができる。
学習部242は、生成した画像生成モデル232を記憶部230に書き込んで、記憶させる。
(4-3)分割部243
分割部243は、第1のテキスト(テキストデータ)を分割する機能を有する。例えば、分割部243は、第1のテキストの分割箇所を示す入力に基づき、第1のテキストを複数に分割する。分割箇所を示す入力は、例えば、改行、段落などである。分割部243は、第1のテキストを改行ごとに複数の文章に分割する。分割部243が第1のテキストを分割することで、第1のテキストは、分割された文章単位で読み上げられる。これにより、分割された1つの文章が読み上げられる度に音声が途切れるため、第1のテキストの読み上げに間を持たせることができる。
(4-4)字幕生成部2441
字幕生成部2441は、字幕テキストを生成する機能を有する。例えば、字幕生成部2441は、取得部241によって取得されたテキストデータに基づき、字幕テキストを生成する。具体的に、字幕生成部2441は、分割部243によって分割された文章単位で字幕テキストを生成する。
(4-5)音声生成部2442
音声生成部2442は、合成音声を生成する機能を有する。例えば、音声生成部2442は、ユーザの本人オリジナルの音声生成モデル231および専門用語音声ライブラリ233を用いて、取得部241によって取得されたテキストデータが示す第1のテキストがユーザの音声で読み上げられる合成音声を生成する。
音声生成部2442は、分割部243によって分割されたテキストデータ(文章)ごとに合成音声を生成する。これにより、生成された複数の合成音声の1つが読み上げられる度に音声が途切れるため、テキストデータが示す第1のテキストの読み上げに間を持たせることができる。
(4-6)画像生成部2443
画像生成部2443は、ユーザの本人オリジナルの画像生成モデル232を用いて、テキストデータに基づいて生成された合成音声に応じてユーザの動作が変化する合成用本人画像を生成する。
例えば、画像生成部2443は、合成音声による読み上げに応じてユーザの顔の動きが変化する合成用本人画像を生成する。具体的に、画像生成部2443は、合成音声による読み上げに応じてユーザの口元の動きや表情が変化する合成用本人画像を生成する。
また、画像生成部2443は、合成音声による読み上げに応じてユーザがジェスチャーを行っているように変化する合成用本人画像を生成してもよい。具体的に、画像生成部2443は、合成音声による読み上げに応じてユーザが頭を動かしたり、ユーザが身振り手振りを行ったりする合成用本人画像を生成する。
このようにして、画像生成部2443は、ユーザがテキストを読み上げる際やプレゼンテーションを行う際のユーザ本人の動きを再現した合成用本人画像を生成する。これにより、クローン動画のクローンは、より自然にユーザ本人らしい動きをしながらテキストの読み上げを行うことができる。
(4-7)合成部245
合成部245は、各種の合成を行う機能を有する。例えば、合成部245は、音声生成部2442によって生成された合成音声と、画像生成部2443によって生成されたユーザの本人画像と、を少なくとも合成して合成動画を生成する。具体的に、合成部245は、音声生成部2442によって生成された合成音声と、画像生成部2443によって生成された合成用本人画像と、を合成してクローン動画を合成動画として生成する。また、合成部245は、クローン動画と字幕テキストを合成して合成動画を生成する。
(4-8)再生時間決定部2461
再生時間決定部2461は、合成動画の再生時間を決定する機能を有する。例えば、再生時間決定部2461は、第1のテキストの文字数に基づき、合成動画の再生時間を決定する。
(4-9)再生速度調整部2462
再生速度調整部2462は、合成動画の再生速度(読み上げ速度)を調整する機能を有する。例えば、再生速度調整部2462は、合成部245によって合成された合成動画と、記憶部230が記憶する再生速度ライブラリと、を用いて、再生速度ライブラリによって示されるテキストデータのジャンルに応じた再生速度となるように合成動画の再生速度のパラメータを調整する。具体的には、再生速度調整部2462は、再生時間決定部2461によって決定された合成動画の再生時間を、テキストデータのジャンルに応じた再生速度のパラメータに応じて調整する。
なお、再生速度調整部2462は、難しい専門用語や安全性に関する説明などの重要な説明部分において、例えば、再生速度が遅くなるように再生速度を調整してもよい。この場合、専門用語や医療用説明テキストに出現するキーワードごとの再生速度のパラメータを予め再生速度ライブラリに設定しておけばよい。
また、再生速度は、テキストデータのジャンルや専門用語に応じて再生速度ライブラリに基づいて調整されることに代えて、あるいは加えて、テキストデータやテキストデータの一部ごとにユーザが個別に速度を設定可能であってもよい。
(4-10)注釈設定部247
注釈設定部247は、記憶部230が記憶する専門用語テキストライブラリ234を用いて、再生速度調整部2462によって再生速度が調整された合成動画に含まれる字幕テキスト中の専門用語ごとに注釈テキストを生成する。生成された注釈テキストは、合成動画に付随する付随情報に含まれる。
(4-11)視聴状況確認部2481
視聴状況確認部2481は、合成動画を視聴(再生)した視聴ログを、通信部210を介してユーザ端末10から取得する。視聴状況確認部2481は、取得した視聴ログを参照して、患者や患者の家族などの聞き手が合成動画を視聴したか否かを判定する。具体的には、視聴状況確認部2481は、視聴ログに含まれるユーザ端末10の表示装置側に設けられたカメラによって撮影された画像の視線に基づいて、患者や患者の家族などの聞き手が合成動画を視聴したか否かを判定する。視聴状況確認部2481は、判定結果を、テキストデータをアップロードしたユーザ端末10に送信する。
なお、視聴状況確認部2481は、視聴ログに加えて、あるいは代えて、患者や患者の家族などの聞き手が説明を受けた旨の確認書や医療行為に対する同意書などに対する署名を聞き手から取得してもよい。この場合、視聴状況確認部2481は、取得した署名を、通信部210を介して、テキストデータをアップロードしたユーザ端末10に送信すればよい。
(4-12)再生状況確認部2482
再生状況確認部2482は、合成動画を視聴(再生)した再生ログを、通信部210を介してユーザ端末10から取得する。再生状況確認部2482は、取得した再生ログを、テキストデータをアップロードしたユーザ端末10に送信する。再生ログには、患者や患者の家族などの聞き手が合成動画を視聴した際の再生、一時停止、早送り、繰り返し視聴回数、再生速度、注釈テキストを参照した用語リストが含まれる。
このようにすることで、ユーザは、再生状況確認部2482が取得した再生ログを確認することにより聞き手が理解し難い合成動画中の箇所や用語や、説明スピードが適切か、などの情報を収集することができる。また、再生ログに基づいて合成動画を更新したり、新たな合成動画を生したりすることができるため、合成動画の品質を向上させることができる。また、聞き手にとって分かりやすい医療説明用合成コンテンツを生成することができる。
(4-13)出力処理部249
出力処理部249は、各種の出力を制御する機能を有する。例えば、出力処理部249は、付随情報を含む合成動画をユーザ端末10へ送信する。また、出力処理部249は、付随情報を含む合成動画を再生し、再生されている映像及び音声をユーザ端末10へ送信し、ユーザ端末10に出力させてもよい。また、出力処理部249は、視聴状況確認部2481による判定結果を、ユーザ端末10に送信する。また、出力処理部249は、再生状況確認部2482は、取得した再生ログをユーザ端末10に送信する。
(5)出力部250
出力部250は、各種情報を出力する機能を有する。出力部250は、例えば、コンテンツ生成装置20がハードウェアとして備えるディスプレイやタッチパネルなどの表示装置、スピーカなどの音声出力装置によって実現される。出力部250は、出力処理部249からの入力に応じて、例えば画面や音声などを出力する。
<3.表示画面例>
次いで、コンテンツ生成装置20が生成した合成動画をユーザ端末10に表示したときの表示画面例について、図2から図4を参照して説明する。
図2から図4は、本実施形態に係る合成コンテンツの表示画面例を示す図である。
ユーザ端末10は、コンテンツ生成装置20が生成した合成動画(合成コンテンツ)を表示部に表示する。
図2に示すように、ユーザ端末10の表示部には、合成動画に含まれるクローン動画が表示される。例えば、領域A1には、ユーザのデジタルクローンDrが表示され、入力されたテキストデータに基づく合成音声によりデジタルクローンDrが患者や患者の家族などの聞き手に対してテキストデータが示す内容についての医療説明を行う。領域A1は、ユーザ端末10の表示部における上部に位置する領域である。
また、ユーザ端末10の表示部には、合成動画に含まれる字幕テキストが表示される。例えば、領域A2において、字幕テキストは、「これから、今回の手術で使用する麻酔についてご説明します。」「わからないことがあれば、麻酔科医に診察時に質問することもできますので、ご安心ください。」と表示される。領域A2は、ユーザ端末10の表示部における領域A1の下部に位置する領域である。なお、字幕テキストは、クローン動画による音声に同調してハイライトされてもよい。
また、ユーザ端末10の表示部には、合成動画の再生、一時停止、停止などの各種操作子が操作ボタンとして表示される。例えば、領域A4には、合成動画の再生を指示する操作子としての再生ボタンBPlと、一時停止を指示する操作子としての一時停止ボタンBPaと、停止を指示する操作子としての停止ボタンBSとが表示される。領域A4は、ユーザ端末10の表示部における領域A1の下部に位置する領域である。
また、端末の表示部には、合成動画の再生状況を示すステータスバーが表示される。例えば、ユーザ端末10の表示部における領域A1と領域A2と間の領域には、ステータスバーPBが表示される。ステータスバーPB上には、合成動画の再生時間に対する現在の再生位置を表すマーカPMが表示される。マーカPMは、例えばステータスバーPBにおける合成動画の再生開始位置PSから時間経過とともにステータスバーPB上の位置P1を経て、合成動画の再生終了位置PEまで移動する。例えば、患者や患者の家族などの聞き手がマーカPMをタップして再生終了位置PE方向にマーカPMを移動させると、合成動画を早送りすることが可能である。また、患者や患者の家族などの聞き手がマーカPMをタップして再生開始位置PS方向にマーカPMを移動させると、合成動画を早戻しすることが可能である。
図2に示す表示画面例は、例えば、合成動画の再生開始位置PSからステータスバーPB上の位置P1までマーカPMが移動しているときに再生される。図2に示す表示画面例の後には、図3に示す表示画面例が表示される。図3に示す表示画面例は、ステータスバーPB上の位置P1からステータスバーPB上の位置P2までマーカPMが移動しているときに再生される。
図3に示す例では、合成動画の進行とともに、字幕テキストが更新されて表示される。例えば、領域A2には、「硬膜外麻酔は、横向きになってもらい、背中に痛み止めの注射をした後、細い針を硬膜外腔という背骨の中にある空間まで入れ、その針を通してさらに細い管を入れます。」と表示される。
なお、合成動画のタイトルや、合成動画の説明に応じたタイトルなどを、合成動画とともに表示してもよい。例えば、図示する例では、領域A1における上部に位置する領域Tに、合成動画の説明に応じたタイトル「硬膜外麻酔」と表示される。
図3に示す表示画面例の後には、図4に示す表示画面例が表示される。図4に示す表示画面例は、ステータスバーPB上の位置P2からステータスバーPB上の位置P3までマーカPMが移動しているときに再生される。
図4に示す例では、図2、図3に示す表示画面例において領域A1に表示されていたデジタルクローンDrが領域A11に縮小表示される。領域A11は、領域A1における上部に位置する領域である。また、領域A12には、デジタルクローンDrによる説明の進行に応じて説明を補足する資料、例えばイラストが表示される。領域A12は、領域A1における下部に位置する領域である。また、領域A12は、領域A11におけるデジタルクローンDrを患者や患者の家族などの聞き手が視認可能な領域A1における領域である。
ここで、領域A12に表示される資料は、テキストデータとともに入力される表示データに基づいて表示画像を生成し、生成した表示画像をクローン動画および字幕テキストと合成することにより合成動画に含めることが可能である。例えば、表示画像は、画像生成部2443によって生成される。
また、図4に示す例では、領域A2において表示される字幕テキスト「硬膜外麻酔は、横向きになってもらい、背中に痛み止めの注射をした後、細針を硬膜外腔という背骨の中にある空間まで入れ、その針を通してさらに細い管を入れます。」のうち、例えば、専門用語、あるいは補足説明が必要な用語(単語)に注釈テキストが設定されていることを表す下線Wが表示される。例えば、患者や患者の家族などの聞き手が、下線Wが付された用語「硬膜外腔」に足してタップ操作することにより、領域A3に注釈テキストPWが表示される。領域A3は、例えば、ユーザ端末10の表示部における領域A2よりも下部に位置する領域であって、ユーザ端末10の表示部における領域A4よりも上部に位置する領域である。
なお、注釈テキストは、合成動画の進行に応じて表示されてもよい。すなわち、注釈テキストは、デジタルクローンDrによる説明の進行に応じて患者や患者の家族などの聞き手による操作不要で領域A3に、例えばポップアップ表示されてもよい。
<4.処理の流れ>
以上、本実施形態に係るコンテンツ生成装置20の機能構成について説明した。続いて、図5から図7を参照して、本実施形態に係るコンテンツ生成装置20が行う処理の流れについて説明する。
(1)音声生成モデルの生成処理
図5を参照して、コンテンツ生成装置20による音声生成モデル231の生成処理について説明する。
図5は、本実施形態に係る音声生成モデル231の生成における処理の流れの一例を示すフローチャートである。コンテンツ生成装置20は、合成動画の生成を行うために、予め音声生成モデル231を生成し、用意しておく。
ステップS101において、コンテンツ生成装置20の取得部241は、学習用音声を取得する。具体的に、取得部241は、コンテンツ生成装置20の通信部210を介してユーザ端末10から学習用音声を取得する。次いで、コンテンツ生成装置20は、ステップS102の処理を実行する。
ステップS102において、コンテンツ生成装置20の学習部242は、音声生成モデル231を生成する。具体的に、学習部242は、学習対象である第2のテキストとその読み上げ方を事前に学習した既存の学習済みモデルに対して、取得部241が取得した学習用音声(教師データ)を転移学習させることで、ユーザの本人オリジナルの音声生成モデル231を生成する。なお、音声生成モデル231を生成するための既存の学習済みモデルは、コンテンツ生成装置20の記憶部230に予め記憶されている。次いで、コンテンツ生成装置20は、ステップS103の処理を実行する。
ステップS103において、学習部242は、生成した音声生成モデル231を記憶部230に記憶させる。そして、コンテンツ生成装置20は、図5に係る音声生成モデルの生成における処理を終了する。
(2)画像生成モデルの生成処理
図6を参照して、コンテンツ生成装置20による画像生成モデル232の生成処理について説明する。
図6は、本実施形態に係る画像生成モデル232の生成における処理の流れの一例を示すフローチャートである。コンテンツ生成装置20は、合成動画の生成を行うために、予め画像生成モデル232を生成し、用意しておく。
ステップS201において、取得部241は、学習用本人画像を取得する。具体的に、取得部241は、通信部210を介してユーザ端末10から学習用本人画像を取得する。次いで、コンテンツ生成装置20は、ステップS202の処理を実行する。
ステップS202において、学習部242は、画像生成モデル232を生成する。具体的に、学習部242は、人の動作の変化を事前に学習した既存の学習済みモデルに対して、取得部241が取得した学習用本人画像(教師データ)を転移学習させることで、ユーザの本人オリジナルの画像生成モデル232を生成する。なお、画像生成モデル232を生成するための既存の学習済みモデルは、コンテンツ生成装置20の記憶部230に予め記憶されている。次いで、コンテンツ生成装置20は、ステップS203の処理を実行する。
ステップS203において、学習部242は、生成した画像生成モデル232を記憶部230に記憶させる。そして、コンテンツ生成装置20は、図6に係る画像生成モデルの生成における処理を終了する。
(3)合成動画の生成処理
図7を参照して、コンテンツ生成装置20による合成動画の生成処理について説明する。
図7は、本実施形態に係る合成動画の生成における処理の流れの一例を示すフローチャートである。
ステップS301において、取得部241は、テキストデータを取得する。具体的に、取得部241は、通信部210を介してユーザ端末10からテキストデータを取得する。当該テキストデータは、上述した第1のテキストデータである。次いで、コンテンツ生成装置20は、ステップS302の処理を実行する。
ステップS302において、コンテンツ生成装置20の分割部243は、分割処理を行う。具体的に、分割部243は、取得部241が取得した第1のテキストデータが示す第1のテキストを段落ごとに分割することで、1つの第1のテキストを複数の文章に分割する。次いで、コンテンツ生成装置20は、ステップS303の処理を実行する。
ステップS303において、コンテンツ生成装置20の字幕生成部2441は、字幕テキストを生成する。具体的に、字幕生成部2441は、分割された第1のテキスト単位で字幕テキストを生成する。次いで、コンテンツ生成装置20は、ステップS304の処理を実行する。
ステップS304において、コンテンツ生成装置20の音声生成部2442は、合成音声を生成する。具体的に、音声生成部2442は、記憶部230に記憶されている音声生成モデル231に対して、分割部243によって分割された複数の文章を1つずつ入力する。これにより、音声生成モデル231によって合成音声が生成される。そして、音声生成部2442は、音声生成モデル231から出力される合成音声を取得する。次いで、コンテンツ生成装置20は、ステップS305の処理を実行する。
ステップS305において、画像生成部2443は、合成用本人画像を生成する。具体的に、画像生成部2443は、記憶部230に記憶されている画像生成モデル232に対して、分割部243によって分割された複数の文章を1つずつ入力する。これにより、画像生成モデル232によって合成用本人画像が生成される。そして、画像生成部2443は、画像生成モデル232から出力される合成用本人画像を取得する。次いで、コンテンツ生成装置20は、ステップS306の処理を実行する。
ステップS306において、コンテンツ生成装置20の合成部245は、クローン動画を生成する。具体的に、合成部245は、音声生成部2442によって生成された合成音声ごとに、画像生成部2443によって生成された合成用本人画像を合成し、クローン動画を生成する。次いで、コンテンツ生成装置20は、ステップS307の処理を実行する。
ステップS307において、合成部245は、合成動画を生成する。具体的に、合成部245は、合成したクローン動画と、字幕生成部2441によって生成された字幕テキストと、をさらに合成し、合成動画を生成する。次いで、コンテンツ生成装置20は、ステップS308の処理を実行する。
ステップS308において、コンテンツ生成装置20の再生時間決定部2461は、合成動画の再生時間を決定する。具体的に、再生時間決定部2461は、第1のテキストの文字数、分割された第1のテキストの間などに基づき、合成動画の再生時間を決定する。次いで、コンテンツ生成装置20は、ステップS309の処理を実行する。
ステップS309において、コンテンツ生成装置20の再生速度調整部2462は、合成動画の再生速度を決定する。具体的に、再生速度調整部2462は、記憶部230に記憶されている再生速度ライブラリによって定義される再生速度を参照して、テキストデータのジャンルに応じた再生速度となるように合成動画の再生速度のパラメータを調整する。次いで、コンテンツ生成装置20は、ステップS310の処理を実行する。
ステップS310において、コンテンツ生成装置20の注釈設定部247は、注釈テキストを生成する。具体的に、注釈設定部247は、記憶部230に記憶された専門用語テキストライブラリ234を用いて、再生速度調整部2462によって再生速度が調整された合成動画に含まれる字幕テキスト中の専門用語ごとに注釈テキストを生成する。次いで、コンテンツ生成装置20は、ステップS311の処理を実行する。
ステップS311において、コンテンツ生成装置20の視聴状況確認部2481は、患者や患者の家族などの聞き手が合成動画を視聴したか否かを判定する。具体的に、視聴状況確認部2481は、通信部210を介してユーザ端末10から合成動画を視聴(再生)した視聴ログを取得する。視聴状況確認部2481は、視聴ログに含まれるユーザ端末10の表示装置側に設けられたカメラによって撮影された画像の視線に基づいて、合成動画を視聴したか否かを判定する。視聴状況確認部2481は、判定結果を、テキストデータをアップロードしたユーザ端末10に送信する。次いで、コンテンツ生成装置20は、ステップS312の処理を実行する。
ステップS312において、コンテンツ生成装置20の再生状況確認部2482は、再生ログを取得する。具体的に、再生状況確認部2482は、通信部210を介してユーザ端末10から合成動画を視聴(再生)した再生ログを取得する。再生状況確認部2482は、取得した再生ログを、テキストデータをアップロードしたユーザ端末10に送信する。そして、コンテンツ生成装置20は、図7に係る合成動画の生成における処理を終了する。
なお、コンテンツ生成装置20は、ステップS311およびステップS312の処理を行わなくてもよいし、ステップS311およびステップS312の処理を合成動画の視聴状況の確認における処理として、別のタイミングで実行してもよい。
以上説明したように、本実施形態に係るコンテンツ生成システムSYSは、読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部241と、ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記第1のテキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部2442と、合成音声による読み上げ速度を調整する再生速度調整部2462と、テキストデータが示す医療説明用テキストに基づき字幕テキストを生成する字幕生成部2441と、字幕テキストと、調整された合成音声と、ユーザの本人画像とを合成してユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部245と、を備える。
かかる構成により、生成された医療説明用合成コンテンツを再生すると、読み上げ対象であるテキストデータが示す医療説明用テキストがユーザ本人の音声かつユーザ本人らしい読み上げ方で読み上げられる。また、専門用語を正しいイントネーションやアクセントで読み上げることができる。また、テキストデータに適した読み上げ速度で読み上げることができる。よって、本実施形態に係るコンテンツ生成装置20は、医療説明用テキストの読み上げにおいて聞き手に与える違和感を低減させることができる。また、字幕テキストも表示されるため、聴覚だけでなく視覚でも医療説明の内容を確認することができるため、医療説明における患者や患者の家族などの利き手の利便性を向上させることができる。
<5.変形例>
以上、本発明の実施形態について説明した。続いて、本発明の実施形態の変形例について説明する。なお、以下に説明する各変形例は、単独で本発明の実施形態に適用されてもよいし、組み合わせで本発明の実施形態に適用されてもよい。また、各変形例は、本発明の実施形態で説明した構成に代えて適用されてもよいし、本発明の実施形態で説明した構成に対して追加的に適用されてもよい。
例えば、音声生成部2442は、パラメータを調整することによって、合成音声でユーザの感情を表現してもよい。音声生成部2442は、テキストデータの内容に応じて、例えば喜びが8割、驚きが2割のようにパラメータを設定する。なお、感情の種類は、喜びと驚き以外にも悲しみや怒りなど様々な感情が組み合わせられてよい。これにより、音声生成部2442は、ユーザ本人らしい読み上げ方に加え、テキストデータの内容に応じた多様な感情も表現可能な合成音声を生成することができるようになる。
また、上述の実施形態では、コンテンツ生成システムSYSがユーザ端末10(クライアント)とコンテンツ生成装置20(サーバ)とで構成される例について説明したが、かかる例に限定されない。例えば、コンテンツ生成システムSYSは、ユーザが直接操作可能なコンテンツ生成装置20のみで構成されてもよい。即ち、コンテンツ生成装置20がユーザ端末10としての役割も担ってよい。この場合、ユーザは、端末をネットワークNWに接続することなく合成コンテンツを生成して利用することができる。
また、コンテンツ生成装置20の機能は、複数の装置によって実現されてもよい。例えば、音声生成モデル231や画像生成モデル232を生成するための機能は他の装置によって実現されてもよい。この場合、コンテンツ生成装置20は、他の装置によって生成された音声生成モデル231と画像生成モデル232を記憶部230に記憶することで、上述の実施形態と同様にして合成コンテンツを生成することができる。
なお、上述した実施形態および変形例におけるコンテンツ生成装置20の一部又は全部をコンピュータで実現するようにしてもよい。このコンピュータには、量子コンピュータも含まれる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
SYS コンテンツ生成システム
10 ユーザ端末
20 コンテンツ生成装置
210 通信部
220 入力部
230 記憶部
231 音声生成モデル
232 画像生成モデル
233 専門用語音声ライブラリ
234 専門用語テキストライブラリ
235 再生速度ライブラリ
240 制御部
241 取得部
242 学習部
243 分割部
244 生成部
2441 字幕生成部
2442 音声生成部
2443 画像生成部
245 合成部
246 調整部
2461 再生時間決定部
2462 再生速度調整部
247 注釈設定部
248 確認部
2481 視聴状況確認部
2482 再生状況確認部
249 出力処理部
250 出力部

Claims (9)

  1. 読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、
    ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、
    前記合成音声による読み上げ速度を調整する調整部と、
    前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、
    前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、
    を備えるコンテンツ生成システム。
  2. 前記字幕テキストに含まれる用語に応じた注釈テキストを生成する注釈生成部と、
    前記ユーザが選択した用語に応じた注釈テキストを提示する提示部と、
    をさらに備え、
    前記合成部は、前記注釈テキストも合成して前記ユーザのデジタルクローンを表す前記クローンデータ前記医療説明用合成コンテンツとして生成する、
    請求項1に記載のコンテンツ生成システム。
  3. 前記医療説明用合成コンテンツに対する前記ユーザの視聴ログを取得する視聴ログ取得部、
    をさらに備える、
    請求項2に記載のコンテンツ生成システム。
  4. 前記テキストデータの内容と対応して表示される医療説明用表示データに基づき、前記合成音声と対応して表示される表示画像 を生成する画像生成部、
    をさらに備え、
    前記取得部は、前記医療説明用表示データをさらに取得し、
    前記合成部は、前記表示画像も合成して前記ユーザのデジタルクローンを表す前記クローンデータを前記医療説明用合成コンテンツとして生成する、
    請求項1から請求項3のいずれか一項に記載のコンテンツ生成システム。
  5. 読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得部と、
    ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成部と、
    前記合成音声による読み上げ速度を調整する調整部と、
    前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成部と、
    前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成部と、
    を備えるコンテンツ生成装置。
  6. 読み上げ対象である医療説明用テキストを示すテキストデータが取得され、
    ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声が生成され、
    前記合成音声による読み上げ速度が調整され、
    前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストが生成され、
    前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータが医療説明用合成コンテンツとして生成された前記医療説明用合成コンテンツを表示する表示部、
    を備える、ユーザ端末。
  7. 読み上げ対象である医療説明用テキストを示すテキストデータを出力することでコンテンツ生成装置に医療説明用合成コンテンツを生成させる出力部、
    を備え、
    前記医療説明用合成コンテンツは、
    ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声が生成され、
    前記合成音声による読み上げ速度が調整され、
    前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストが生成され、
    前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータとして生成される、
    ユーザ端末。
  8. コンピュータが、
    読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得過程と、
    ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成過程と、
    前記合成音声による読み上げ速度を調整する調整過程と、
    前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成過程と、
    前記字幕テキストと、前記調整された前記合成音声と、前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成過程と、
    を有するコンテンツ生成方法。
  9. コンピュータに、
    読み上げ対象である医療説明用テキストを示すテキストデータを取得する取得ステップと、
    ユーザが学習用テキストを読み上げた際の音声に基づいて学習された音声生成モデルと、前記医療説明用テキストのジャンルに応じた音声ライブラリとを用いて、前記テキストデータが示す前記医療説明用テキストが前記ユーザの音声で読み上げられる合成音声を生成する音声生成ステップと、
    前記合成音声による読み上げ速度を調整する調整ステップと、
    前記テキストデータが示す前記医療説明用テキストに基づき字幕テキストを生成する字幕生成ステップと、
    前記字幕テキストと、前記調整された前記合成音声と前記ユーザの本人画像とを合成して前記ユーザのデジタルクローンを表すクローンデータを医療説明用合成コンテンツとして生成する合成ステップと、
    を実行させるためのプログラム。
JP2022203135A 2022-12-20 2022-12-20 コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラム Pending JP2024088118A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022203135A JP2024088118A (ja) 2022-12-20 2022-12-20 コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022203135A JP2024088118A (ja) 2022-12-20 2022-12-20 コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2024088118A true JP2024088118A (ja) 2024-07-02

Family

ID=91672581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022203135A Pending JP2024088118A (ja) 2022-12-20 2022-12-20 コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2024088118A (ja)

Similar Documents

Publication Publication Date Title
US6633741B1 (en) Recap, summary, and auxiliary information generation for electronic books
ES2728708T3 (es) Sistema y procedimiento de diálogo audiovisual
US8359202B2 (en) Character models for document narration
US8370151B2 (en) Systems and methods for multiple voice document narration
US20120276504A1 (en) Talking Teacher Visualization for Language Learning
KR101492359B1 (ko) 입력 지원 장치, 입력 지원 방법 및 기록 매체
CN109118562A (zh) 虚拟形象的讲解视频制作方法、装置以及终端
US20220150287A1 (en) System and method for an interactive digitally rendered avatar of a subject person
US20240303892A1 (en) Content generation device, content generation method, and program
US11514924B2 (en) Dynamic creation and insertion of content
Bicevskis et al. Visual-tactile integration in speech perception: Evidence for modality neutral speech primitives
Edgar Culturally speaking: The rhetoric of voice and identity in a mediated culture
JP2024088118A (ja) コンテンツ生成システム、コンテンツ生成装置、ユーザ端末、コンテンツ生成方法、及びプログラム
Duarte et al. Multimedia accessibility
Sabin You're On!
KR20150131287A (ko) 요약 필기 지원 시스템, 정보 배신 장치, 단말 장치, 요약 필기 지원 방법, 및 컴퓨터 판독가능 기록 매체
WO2023167212A1 (ja) コンピュータプログラム、情報処理方法及び情報処理装置
JP3578961B2 (ja) 音声合成方法及び装置
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
O’Bryan Where words fail: Storying audio-visual data
Sánchez-Mompeán The Prosody of Dubbed Speech
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
Sánchez-Mompeán et al. Dubbing and Prosody at the Interface
Schiel et al. Wizard-of-Oz recordings
Schneider Development and validation of a concept for layered audio descriptions