JP7385289B2

JP7385289B2 - プログラム及び情報処理装置

Info

Publication number: JP7385289B2
Application number: JP2021127660A
Authority: JP
Inventors: 彩乃森川
Original assignee: 株式会社フロンティアチャンネル
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2023-11-22
Anticipated expiration: 2041-08-03
Also published as: JP2023022665A

Description

本発明は、プログラム及び情報処理装置に関する。

近年、映像制作または映像編集に用いられるエフェクト技術が知られている。例えば特許文献１には、人物の身体の動作を示す動作情報に基づいて、当該身体が映された映像データのうち、当該身体に対する背景の映像データに追加されるエフェクトを編集する情報処理装置が開示されている。

特開２０２０－０９５６３４号公報

しかしながら、特許文献１に係る発明は、エフェクトによる効果が十分でないという問題がある。

一つの側面では、エフェクトによる効果を高めることが可能となるプログラム等を提供することにある。

一つの側面に係るプログラムは、被写体を含む映像データを取得し、取得した映像データを第１表示欄及び第２表示欄に同時に表示し、前記映像データに基づいて前記被写体の感情を特定し、特定した感情に応じて、画像のエフェクト及び音声のエフェクトを複数取得し、取得した各画像のエフェクト及び各音声のエフェクトの選択を受け付けるための第１選択用オブジェクトを複数表示し、表示した第１選択用オブジェクトを通じて、前記映像データに追加すべき画像のエフェクト及び音声のエフェクトの選択を受け付け、前記第２表示欄に、受け付けた画像のエフェクトを前記映像データに重畳して表示し、前記映像データに含まれている音声データに基づき、前記映像データに重畳するテロップを取得し、前記第１表示欄及び前記第２表示欄に、取得したテロップを前記映像データに重畳して表示し、特定した感情に基づき、前記テロップを装飾するための装飾のエフェクトを複数取得し、取得した各装飾のエフェクトの選択を受け付けるための第２選択用オブジェクトを複数表示し、表示した第２選択用オブジェクトを通じて、前記テロップを装飾すべき装飾のエフェクトの選択を受け付け、前記第２表示欄に、受け付けた装飾のエフェクトで装飾された前記テロップを、前記映像データに重畳して表示する処理をコンピュータに実行させる。

一つの側面では、エフェクトによる効果を高めることが可能となる。

コンピュータの構成例を示すブロック図である。映像データＤＢ及びエフェクトＤＢのレコードレイアウトの一例を示す説明図である。訓練データＤＢ及びエフェクト設定結果ＤＢのレコードレイアウトの一例を示す説明図である。感情特定モデルを用いる感情特定処理の概要を説明する説明図である。映像データに追加すべきエフェクトを出力する際の処理手順を示すフローチャートである。感情特定モデルを用いる感情特定処理のサブルーチンの処理手順を示すフローチャートである。音声データの特徴量に基づく感情特定処理のサブルーチンの処理手順を示すフローチャートである。エフェクトの表示画面の一例を示す説明図である。変形例１のエフェクトＤＢのレコードレイアウトの一例を示す説明図である。実施形態２のコンピュータの構成例を示すブロック図である。実施形態２の訓練データＤＢ及びエフェクト設定結果ＤＢのレコードレイアウトの一例を示す説明図である。映像データにテロップを重畳して表示する際の処理手順を示すフローチャートである。テキスト化によるテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。音声データの特徴量に基づくテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。テロップ特定モデルを用いるテロップ特定処理の概要を説明する説明図である。テロップ特定モデルを用いるテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。エフェクトで装飾されたテロップを映像データに重畳して表示する際の処理手順を示すフローチャートである。テロップの表示画面の一例を示す説明図である。映像データに対するエフェクトの設定画面の一例を示す説明図である。映像データに対するテロップの設定画面の一例を示す説明図である。映像データに対してエフェクトを設定する際の処理手順を示すフローチャートである。映像データに対してテロップを設定する際の処理手順を示すフローチャートである。無音部分以外の映像データを連結して出力する際の処理手順を示すフローチャートである。

以下、本発明をその実施形態を示す図面に基づいて詳述する。

（実施形態１）
実施形態１は、映像データに追加すべきエフェクトを出力する形態に関する。エフェクトは、映像データに合成可能なフィルタ、スタンプ、絵文字、フラッシュ、アニメーション等のイメージオブジェクトで構成されたコンテンツ、または、映像データに合成可能なサウンドコンテンツ等である。

本実施形態では、情報処理装置１を含む。情報処理装置１は、種々の情報に対する処理、記憶及び送受信を行う情報処理装置である。情報処理装置１は、例えばサーバ装置、パーソナルコンピュータまたは汎用のタブレットＰＣ（パソコン）等である。

本実施形態において、情報処理装置１は、パーソナルコンピュータであるものとし、以下では簡潔のためコンピュータ１と読み替える。本実施形態に係るコンピュータ１は、被写体を含む映像データを取得し、取得した映像データに基づいて被写体の感情を特定する。コンピュータ１は、特定した感情に応じて、当該感情を表すエフェクトを取得する。コンピュータ１は、取得したエフェクトを映像データに重畳して表示する。

図１は、コンピュータ１の構成例を示すブロック図である。コンピュータ１は、制御部１１、記憶部１２、通信部１３、入力部１４、表示部１５、読取部１６及び大容量記憶部１７を含む。各構成はバスＢで接続されている。

制御部１１はＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、ＤＳＰ（Digital Signal Processor）、または量子プロセッサ等の演算処理装置を含む。制御部１１は、記憶部１２に記憶された制御プログラム１Ｐを読み出して実行することにより、コンピュータ１に係る種々の情報処理、制御処理等を行う。

なお、制御プログラム１Ｐは、単一のコンピュータ上で、または１つのサイトにおいて配置されるか、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。なお、図１では制御部１１を単一のプロセッサであるものとして説明するが、マルチプロセッサであっても良い。

記憶部１２はＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ素子を含み、制御部１１が処理を実行するために必要な制御プログラム１Ｐ又はデータ等を記憶している。また、記憶部１２は、制御部１１が演算処理を実行するために必要なデータ等を一時的に記憶する。通信部１３は通信に関する処理を行うための通信モジュールである。

入力部１４は、マウス、キーボード、タッチパネル、ボタン等の入力デバイスであり、受け付けた操作情報を制御部１１へ出力する。表示部１５は、液晶ディスプレイ又は有機ＥＬ（electroluminescence）ディスプレイ等であり、制御部１１の指示に従い各種情報を表示する。

読取部１６は、ＣＤ（Compact Disc）－ＲＯＭ又はＤＶＤ（Digital Versatile Disc）－ＲＯＭを含む可搬型記憶媒体１ａを読み取る。制御部１１が読取部１６を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、大容量記憶部１７に記憶しても良い。また、ネットワークＮ等を介して他のコンピュータから制御部１１が制御プログラム１Ｐをダウンロードし、大容量記憶部１７に記憶しても良い。さらにまた、半導体メモリ１ｂから、制御部１１が制御プログラム１Ｐを読み込んでも良い。

大容量記憶部１７は、例えばＨＤＤ（Hard disk drive:ハードディスク）、ＳＳＤ(Solid State Drive:ソリッドステートドライブ)等の記録媒体を備える。大容量記憶部１７は、感情特定モデル（第１学習モデル）１７１、映像データＤＢ（database）１７２、エフェクトＤＢ１７３、訓練データＤＢ１７４及びエフェクト設定結果ＤＢ１７５を含む。

感情特定モデル１７１は、映像データに基づいて該映像データに含まれる被写体の感情を特定（推定）する特定器であり、機械学習により生成された学習済みモデルである。映像データＤＢ１７２は、映像データを記憶している。エフェクトＤＢ１７３は、感情の種類に基づいて分類されたエフェクトを記憶している。訓練データＤＢ１７４は、感情特定モデル１７１を構築（生成）するための訓練データを記憶している。エフェクト設定結果ＤＢ１７５は、映像データに対するエフェクトの設定結果を記憶している。

なお、本実施形態において記憶部１２及び大容量記憶部１７は一体の記憶装置として構成されていても良い。また、大容量記憶部１７は複数の記憶装置により構成されていても良い。更にまた、大容量記憶部１７はコンピュータ１に接続された外部記憶装置であっても良い。

コンピュータ１は、種々の情報処理及び制御処理等をコンピュータ単体で実行しても良いし、複数のコンピュータで分散して実行しても良いし、仮想マシンで分散して実行しても良い。なお、コンピュータ１に係る種々の情報処理及び制御処理等が、通信環境を有するサーバ装置等で実行されても良い。

図２は、映像データＤＢ１７２及びエフェクトＤＢ１７３のレコードレイアウトの一例を示す説明図である。
映像データＤＢ１７２は、映像ＩＤ列及び映像データ列を含む。映像ＩＤ列は、各映像データを識別するために、一意に特定される映像データのＩＤを記憶している。映像データ列は、映像データを記憶している。

エフェクトＤＢ１７３は、エフェクトＩＤ列、感情種類列、エフェクト列及びエフェクト種類列を含む。エフェクトＩＤ列は、各エフェクトのデータを識別するために、一意に特定されるエフェクトのデータのＩＤを記憶している。感情種類列は、感情の種類を記憶している。感情の種類は、例えば怒り、喜び、中立（無表情）、恐怖、悲しみ、驚き等を含む。なお、上述の感情のほかに、感情の種類には、ポジティブ、ネガティブ、肯定的、否定的、作為的、困惑度合等の感情が含まれても良い。

エフェクト列は、エフェクトのデータを記憶している。エフェクト種類列は、エフェクトの種類を記憶している。エフェクトの種類は、例えば効果音、ＢＧＭ（background music）、レンズフレアまたはモーショングラフィックス等を含む。

図３は、訓練データＤＢ１７４及びエフェクト設定結果ＤＢ１７５のレコードレイアウトの一例を示す説明図である。
訓練データＤＢ１７４は、入力データ列及び出力データ列を含む。入力データ列は、映像データを記憶している。出力データ列は、感情の種類を記憶している。

エフェクト設定結果ＤＢ１７５は、映像ＩＤ列、種別列及び設定結果列を含む。映像ＩＤ列は、映像データを特定する映像ＩＤを記憶している。種別列は、データの種別（画像または音声）を記憶している。設定結果列は、映像データに対するエフェクトの設定結果を記憶している。画像におけるエフェクトの設定結果は、例えばフレーム番号、感情の種類及びエフェクトＩＤを含む。音声におけるエフェクトの設定結果は、例えば時間、感情の種類及びエフェクトＩＤを含む。

なお、上述した各ＤＢの記憶形態は一例であり、データ間の関係が維持されていれば、他の記憶形態であっても良い。

続いて、映像データに追加すべきエフェクトを出力する処理を説明する。コンピュータ１は、被写体を含む映像データを映像データＤＢ１７２から取得する。コンピュータ１は、取得した映像データに基づいて、該映像データに含まれる被写体の感情を特定する。具体的には、コンピュータ１は、取得した映像データを感情特定モデル１７１に入力し、該映像データに含まれる被写体の感情を特定した特定結果を出力する。なお、感情特定モデル１７１を用いる感情特定処理に関しては後述する。

コンピュータ１は、特定した感情に応じて、エフェクトＤＢ１７３から該当するエフェクトのデータを取得する。コンピュータ１は、取得したエフェクトのデータを映像データに重畳して表示する。

図４は、感情特定モデル１７１を用いる感情特定処理の概要を説明する説明図である。感情特定モデル１７１は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。感情特定モデル１７１は、被写体を含む映像データが入力された場合に、該被写体の感情を特定した特定結果を出力する学習モデルである。

本実施形態の感情特定モデル１７１は、畳み込み層を有するＤＮＮ（Deep Neural Network(s)）を用いて感情の特定（推定）処理を行う。感情特定モデル１７１は、映像データの入力を受け付ける入力層と、映像データに含まれる被写体の感情を特定した特定結果を出力する出力層と、映像データに含まれるフレーム画像（フレームごとの静止画像）及び音声データの特徴量を抽出する中間層とを有する。音声データの特徴量は、発話におけるピッチ、話速（発話速度またはテンポ）または抑揚等の特性を示すデータである。

入力層は、映像データの入力を受け付ける複数のニューロンを有し、入力された映像データを中間層に受け渡す。中間層は複数のニューロンを有し、映像データに含まれるフレーム画像及び音声データの特徴量を抽出して出力層に受け渡す。中間層は、入力層から入力された映像データを複数の中間層（例えば全結合層）を通し、各層のユニットをつなぐ活性化関数として、例えば、シグモイド関数、tanh関数、ReLu（Rectified Linear Unit）関数を用いることで、有効な特徴量を獲得する。出力層は、例えばシグモイド関数またはソフトマックス関数を含み、中間層から出力された特徴量に基づいて、推定された各種の感情の確率値を出力する。

コンピュータ１は、訓練データＤＢ１７４に記憶されている訓練データを用いて学習を行う。訓練データＤＢ１７４の各レコードがそれぞれ訓練データである。出力データ列の値が出力層から出力されるべき正解データ（感情の種類）である。入力データ列の映像データが入力データである。コンピュータ１は、映像データを入力層に入力し、中間層での演算処理を経て、推定された各種の感情に当たる確率値を出力層から取得する。確率値は、例えば０より大きく、１未満の値である。

コンピュータ１は、出力層から出力された感情の確率値を、訓練データにおける正解値（出力データ列の値）と比較し、出力層からの出力値が正解値に近づくように、中間層での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み（結合係数）等である。パラメータの最適化の方法は特に限定されないが、例えばコンピュータ１は誤差逆伝播法を用いて各種パラメータの最適化を行う。

コンピュータ１は、訓練データＤＢ１７４に記憶してある各レコードについて上記の処理を行い、感情特定モデル１７１の学習を行う。これにより、映像データに含まれる被写体の感情を特定可能なモデルを構築することができる。なお、他のコンピュータ（図示せず）により上述の学習処理を行い、感情特定モデル１７１をデプロイしても良い。この場合、コンピュータ１は、デプロイされた感情特定モデル１７１を取得してインストールする。なお、感情特定モデル１７１を構築せずに、機械学習モデルを使ったＷＥＢＡＰＩ（Application Programming Interface）を利用することにより、感情を特定しても良い。

コンピュータ１は映像データを取得した場合、取得した映像データを感情特定モデル１７１に入力する。コンピュータ１は、感情特定モデル１７１の中間層にて映像データに含まれるフレーム画像及び音声データの特徴量を抽出する演算処理を行う。コンピュータ１は、抽出した特徴量を感情特定モデル１７１の出力層に入力して、当該映像データに含まれる被写体の感情を特定した特定結果を出力する。

図示のように、映像データに対し、「怒り」、「喜び」、「中立」、「恐怖」、「悲しみ」、「驚き」それぞれの確率値が、「０．０３」、「０．８４」、「０．０３」、「０．０４」、「０．０２」、「０．０４」である特定結果が出力される。

また、所定閾値を利用して特定結果を出力しても良い。例えばコンピュータ１は、「喜び」の確率値（０．８４）が所定閾値（例えば、０．８０）以上であると判定した場合、「喜び」を特定結果として出力する。なお、上述した閾値を利用せず、感情特定モデル１７１が推定した各種の感情の確率値から、最も高い確率値に対応する感情を特定結果として出力しても良い。

なお、本実施形態では、映像データに含まれるフレーム画像及び音声データに基づいて感情特定モデル１７１を構築した例を説明したが、これに限るものではない。例えば、映像データに含まれるフレーム画像または音声データのどちらか一方のみに基づいて感情特定モデル１７１を構築しても良い。

なお、感情特定モデル１７１は、ＤＮＮに限られず、ロジスティック回帰、ＳＶＭ（Support Vector Machine）、ｋ－ＮＮ（k-Nearest Neighbor algorithm）、決定木、単純ベイズ分類器、またはランダムフォレストといった他のモデルによって実現されて良い。

なお、既存の感情認識ソフトウェアを用いて感情を特定しても良い。感情認識ソフトウェアとしてはMicrosoft（登録商標）社のFace API、Affectiva（登録商標）社のAffdex（登録商標）等が挙げられる。

なお、上述したディープラーニング等で学習したモデルを用いた感情特定処理に限るものではない。以下では、映像データに含まれる音声データの特徴量に基づき、感情を特定する処理を説明する。

コンピュータ１は、被写体を含む映像データを映像データＤＢ１７２から取得し、取得した映像データに含まれる音声データを抽出する。コンピュータ１は、抽出した音声データから、該被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出する。

ピッチは、音声の高低を示す音高である。ピッチ周波数に基づいて、発話時の感情によっても敏感に変化することが検出される。ピッチ周波数の取得処理に関しては、例えばコンピュータ１は、音声データ（音声信号）を周波数スペクトルに変換し、変換した周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める。コンピュータ１は、求めた自己相関波形における複数の極値の出現順番と複数の極値の出現位置を示すずらし周波数量である出現周波数との分布を回帰分析し、回帰直線の傾きに基づいてピッチ周波数を求める。

コンピュータ１は、求めたピッチ周波数の周期、ピッチ周波数の揺らぎ周期、立ち上がり時間、維持時間、または立下がり時間等に基づいて感情を特定する。例えば、ピッチ周波数の周期の時間変化に基づく感情特定処理の例を説明する。中立（無感情）では、音声の後半でのピッチ周期が増大する傾向があるが、感情を含む場合に比べて変化は大きくない特徴がある。音声データに感情（例えば、怒り）が含まれる場合、ピッチ周期が時間とともに減少し、音声がしだいに高音化する特徴がある。コンピュータ１は、求めたピッチ周波数の周期の時間変化から、喜び、中立または怒り等の感情を特定する。

話速は、例えば所定時間内に話者が発した単語数により表される。話速は、感情（例えば、怒り）の表現度合いによって変化される。感情の表現度合いが強くなる場合、話速は速くなる。逆に、感情を抑える場合、または、気分が落ち着いている場合、話速は遅くなる。コンピュータ１は、例えば音声信号のスペクトル変化量の時間的な変化パターンにより、話速に基づく特徴量を音声データから抽出する。なお、上述した話速の抽出手法のほかに、音声認識に基づいて話速を抽出する公知手法等が利用されても良い。

コンピュータ１は、抽出した話速に基づいて感情を特定する。例えばコンピュータ１は、抽出した話速と所定の話速の閾値とを比較する。コンピュータ１は、話速が速い傾向にある場合、「怒り」または「喜び」感情を特定しても良い。または、コンピュータ１は、話速が遅い傾向にある場合、「悲しみ」感情を特定しても良い。

抑揚（イントネーション）は、音声データの各単位内の強度変化パターンを表す。音声データの単位は、例えば、音声に含まれる文章を構成する単語または節である。コンピュータ１は、音声データの強さの変化に基づいて、当該音声データの抑揚を抽出する。

例えばコンピュータ１は、音声データを複数の単位に分割し、各単位内における強さの変化、または、単位間における強さの変化を、当該音声データの抑揚として抽出する。コンピュータ１は、抽出した抑揚に基づいて喜怒哀楽等の感情を特定する。例えば、悲しみに基づく抑揚が、平均的な基本周波数が極端に低くならず、起伏が少なく平坦になる。コンピュータ１は、各単位内における強さの変化が少ないと判定した場合、「悲しみ」感情を特定しても良い。

このように、コンピュータ１は、音声データから得られた、被写体の発話におけるピッチ、話速及び抑揚の少なくとも一つを含む、音声データの特徴量または当該特徴量の変化量に基づいて感情を特定することができる。

なお、ピッチ、話速または抑揚のほかには、周波数スペクトル、音声強度またはフォルマント周波等に基づいて感情を特定しても良い。例えば、周波数スペクトルが取得された場合、周波数成分に基づいて感情を特定しても良い。音声スペクトルは、音声データをＤＦＴ（デジタルフーリエ変換）分析することで得られる。普通、おだやかな話し方では、音声波形は正弦波に近く、あまり高調波成分がない。しかし、怒鳴り等の強い感情を表すときには、三角波に近くなり、高調波成分が多く含まれるようになる。すなわち、被写体の感情を特定できる音声データの特徴量であれば、任意の種類の特徴量を利用することが可能であり、特に限定されるわけではない。

なお、上述した音声データの特徴量に基づく感情特定処理のほかには、音声用の感情特定モデルを用いて、被写体の感情を特定しても良い。音声用の感情特定モデルは、映像データに含まれる音声データが入力された場合に、当該映像データに含まれる被写体の感情を特定した特定結果を出力する学習モデルである。

なお、感情特定処理に関しては、上述した感情特定モデル１７１を用いる特定処理手段、及び音声データの特徴量に基づく特定処理手段に限るものではない。例えば、コンピュータ１は、映像データに含まれる音声データをテキスト化する。コンピュータ１は、テキスト化したテキストデータから、特に感情が表現された単語を抽出する。コンピュータ１は、抽出した単語に基づいて感情特定処理を行っても良い。

図５は、映像データに追加すべきエフェクトを出力する際の処理手順を示すフローチャートである。コンピュータ１の制御部１１は、被写体を含む映像データを大容量記憶部１７の映像データＤＢ１７２から取得する（ステップＳ１０１）。制御部１１は、取得した映像データに基づいて、感情を特定する処理のサブルーチンを実行する（ステップＳ１０２）。なお、感情特定処理のサブルーチンに関しては後述する。

制御部１１は、特定した感情に応じて、大容量記憶部１７のエフェクトＤＢ１７３から該当するエフェクトのデータを取得する（ステップＳ１０３）。例えば、特定された感情が「喜び」である場合、コンピュータ１は「効果音」であるエフェクトの種類の指定を受け付けたときに、「喜び」及び「効果音」に対応するエフェクトのデータをエフェクトＤＢ１７３から抽出する。なお、複数のエフェクトのデータが抽出された場合、例えば制御部１１は、複数のエフェクトのデータから、ユーザによるエフェクトのデータの選択を受け付けても良い。

制御部１１は、特定した感情と、取得したエフェクトのデータとを対応付けて、大容量記憶部１７のエフェクト設定結果ＤＢ１７５に記憶する（ステップＳ１０４）。具体的には、制御部１１は映像ＩＤに対応付けて、画像におけるエフェクトの設定結果（フレーム番号、感情の種類及びエフェクトＩＤ）、及び音声におけるエフェクトの設定結果（時間、感情の種類及びエフェクトＩＤ）をエフェクト設定結果ＤＢ１７５に記憶する。制御部１１は表示部１５を介して、取得したエフェクトのデータを映像データに重畳して表示し（ステップＳ１０５）、処理を終了する。

図６は、感情特定モデル１７１を用いる感情特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ１の制御部１１は、ステップＳ１０１の処理で取得された映像データを感情特定モデル１７１に入力する（ステップＳ０１）。制御部１１は、該映像データに含まれる被写体の感情を特定した特定結果を感情特定モデル１７１から出力する（ステップＳ０２）。制御部１１は、感情特定処理のサブルーチンを終了してリターンする。

図７は、音声データの特徴量に基づく感情特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ１の制御部１１は、ステップＳ１０１の処理で取得された映像データに含まれる音声データを抽出する（ステップＳ１１）。制御部１１は、取得した音声データから、映像データに含まれる被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出する（ステップＳ１２）。

ピッチの抽出について、例えば制御部１１は、音声データを周波数スペクトルに変換し、変換した周波数スペクトルに基づいてピッチ（ピッチ周波数）を抽出する。話速の抽出について、例えば制御部１１は、音声信号の時間的なパワーパターンに基づいて、話速を音声データから抽出する。抑揚の抽出について、例えば制御部１１は、音声データの強さの変化に基づいて抑揚を抽出する。なお、ピッチ、話速または抑揚の抽出処理に関しては、上述した処理に限定されず、各種の公知技術を用いることができる。

制御部１１は、音声データから抽出されたピッチ、話速及び抑揚の少なくとも一つを含む、音声特徴量または当該特徴量の変化量に基づいて感情を特定する（ステップＳ１３）。制御部１１は、感情特定処理のサブルーチンを終了してリターンする。

図８は、エフェクトの表示画面の一例を示す説明図である。該画面は、エフェクトなし映像表示欄１１ａ、及びエフェクトあり映像表示欄１１ｂを含む。エフェクトなし映像表示欄１１ａは、エフェクトを追加していない映像データ（原映像データ）を表示する表示欄である。エフェクトあり映像表示欄１１ｂは、エフェクトを追加した映像データを表示する表示欄である。

コンピュータ１は、被写体を含む映像データを映像データＤＢ１７２から取得する。コンピュータ１は、取得した映像データに基づいて、感情特定モデル１７１を用いる特定処理手段、または音声データの特徴量に基づく特定処理手段を用いて感情を特定する。図示のように、特定された感情が「怒り」である。

コンピュータ１は、特定した感情に応じて、エフェクトＤＢ１７３から該当するエフェクトのデータを取得する。具体的には、コンピュータ１は、特定した「怒り」感情に対応するエフェクトのデータをエフェクトＤＢ１７３から取得する。なお、複数のエフェクトのデータが取得された場合、例えばコンピュータ１は、エフェクトのデータを選択可能なコンボボックス（図示なし）を生成して画面に表示する。コンピュータ１は、生成したコンボボックスを通じて、複数のエフェクトのデータから、ユーザによるエフェクトのデータの選択を受け付けても良い。

コンピュータ１は、原映像データをエフェクトなし映像表示欄１１ａに表示する。コンピュータ１は、エフェクトあり映像表示欄１１ｂに、取得したエフェクトのデータを映像データに重畳して表示する。図示のように、「怒り」感情に対応するエフェクトのデータを映像データに重畳して表示する。

本実施形態によると、被写体を含む映像データに基づいて、感情特定モデル１７１を用いて該被写体の感情を特定することが可能となる。

本実施形態によると、映像データに含まれる音声データの特徴量に基づいて、該映像データに含まれる被写体の感情を特定することが可能となる。

本実施形態によると、特定された感情に応じて、映像データに追加すべきエフェクトを出力することが可能となる。

本実施形態によると、映像データに適切なエフェクトを自動追加することにより、映像制作または映像編集の作業効率化を実現することが可能となる。

＜変形例１＞
上述した処理では、特定された感情に応じてエフェクトのデータを取得したが、これに限るものではない。本変形例では、音声データの特徴量に基づいてエフェクトのデータを直接取得する処理を説明する。

図９は、変形例１のエフェクトＤＢ１７３のレコードレイアウトの一例を示す説明図である。なお、図２と重複する内容については同一の符号を付して説明を省略する。エフェクトＤＢ１７３は、ピッチ周波数列、話速列及び抑揚列を含む。ピッチ周波数列は、ピッチ周波数を記憶している。話速列は、発話速度（例えば、遅い、普通または早い）を記憶している。抑揚列は、発話における抑揚の有無を記憶している。

コンピュータ１は、被写体を含む映像データを映像データＤＢ１７２から取得し、取得した映像データに含まれる音声データを抽出する。コンピュータ１は、抽出した音声データから、該被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出する。なお、特徴量の抽出処理に関しては、実施形態１での抽出処理と同様であるため、説明を省略する。

コンピュータ１は、エフェクトの種類（例えば、効果音）の指定を受け付ける。コンピュータ１は、抽出した音声データの特徴量と、受け付けたエフェクトの種類とに基づいて、エフェクトＤＢ１７３から該当するエフェクトのデータを取得する。具体的には、コンピュータ１は、受け付けたエフェクトの種類に応じて、ピッチ周波数、話速または抑揚に対応するエフェクトのデータをエフェクトＤＢ１７３から取得する。コンピュータ１は、取得したエフェクトのデータを映像データに重畳して表示する。

本変形例によると、映像データに含まれる音声データの特徴量に基づいて、当該映像データに追加すべきエフェクトのデータを取得することが可能となる。

（実施形態２）
実施形態２は、映像データに含まれる音声データに基づいてテロップを取得し、取得したテロップを当該映像データに重畳して表示する形態に関する。なお、実施形態１と重複する内容については説明を省略する。

テロップは、映像、動画または静止画等の元画像に対して重畳、挿入または合成される、文字情報、記号情報、図形情報、音声情報もしくは画像情報、またはこれらの結合の情報である。テロップは、例えばテレビ画面上に表示される地震もしくは警報等の緊急情報、選挙結果もしくはニュース等の速報、番組出演者のコメント、状況説明、インタビューの会話、または音楽番組で流れる歌詞等である。

図１０は、実施形態２のコンピュータ１の構成例を示すブロック図である。なお、図１と重複する内容については同一の符号を付して説明を省略する。大容量記憶部１７には、テロップ特定モデル（第２学習モデル）１７６が記憶されている。テロップ特定モデル１７６は、音声データに基づいてテロップを特定（推定）する特定器であり、機械学習により生成された学習済みモデルである。

図１１は、実施形態２の訓練データＤＢ１７４及びエフェクト設定結果ＤＢ１７５のレコードレイアウトの一例を示す説明図である。訓練データＤＢ１７４は、テロップ特定モデル１７６を構築するための訓練データを記憶している。入力データ列は、映像データに含まれる音声データを記憶している。出力データ列は、テロップのデータを記憶している。

エフェクト設定結果ＤＢ１７５のレコードレイアウトは、図３と同様であるため、説明を省略する。本実施形態でのエフェクト設定結果ＤＢ１７５には、テロップを装飾したエフェクトの設定結果が記憶される。

コンピュータ１は、映像データに重畳するテロップを取得する。具体的には、コンピュータ１は、映像データに含まれる音声データからテキスト化されたテキストデータに基づいて、テロップを取得する。または、コンピュータ１は、映像データに含まれる音声データの特徴量に基づいて、テロップを取得する。更にまた、コンピュータ１は、映像データに含まれる音声データを入力した場合に、当該映像データに重畳するテロップを特定するよう学習済みのテロップ特定モデル１７６を用いて、テロップを取得する。なお、上述したテロップの取得処理に限らず、例えば、予め登録されたキーワードに基づいてテロップを取得しても良い。具体的には、コンピュータ１は、音声データからテキスト化されたテキストデータを取得する。コンピュータ１は、取得したテキストデータから、予め登録されたキーワード（例えば、「本当」、「やばい」、「うそー」等のキーワード）と一致したテキストをテロップとして抽出しても良い。コンピュータ１は、取得したテロップを映像データに重畳して表示する。

図１２は、映像データにテロップを重畳して表示する際の処理手順を示すフローチャートである。コンピュータ１の制御部１１は、被写体を含む映像データを大容量記憶部１７の映像データＤＢ１７２から取得する（ステップＳ１１１）。制御部１１は、取得した映像データに含まれる音声データを抽出する（ステップＳ１１２）。

制御部１１は、抽出した音声データに基づいて、テロップを特定する処理のサブルーチンを実行する（ステップＳ１１３）。なお、テロップ特定処理のサブルーチンに関しては後述する。制御部１１は表示部１５を介して、特定したテロップのデータを映像データに重畳して表示し（ステップＳ１１４）、処理を終了する。

図１３は、テキスト化によるテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ１の制御部１１は、ステップＳ１１２の処理で抽出された音声データを取得する（ステップＳ２１）。制御部１１は、取得した音声データに対して音声認識処理を行い、当該音声データをテキスト化する（ステップＳ２２）。制御部１１は、テキスト化したテキストデータの一部を、映像データに重畳するテロップとして取得し（ステップＳ２３）、テロップ特定処理のサブルーチンを終了してリターンする。

例えば制御部１１は、テキスト化したテキストデータを形態素解析にかけ、構文解析の最小単位となるトークンを取り出す。制御部１１は、トークンから「に」、「から」、「これ」、「さん」等のあまり意味としては重要でないワード（ストップワード）または助詞等の特定品詞を削除する。制御部１１は、トークンを元にＴＦ－ＩＤＦ（Term Frequency－Inverse Document Frequency）スコア単語の重要度を評価する指標から特徴語となるトークンを抽出する。制御部１１は、抽出したトークンに基づいて、単語類似度判定からセンテンスのセグメンテーションを行い、各セグメントから重要文をテロップとして抽出（取得）する。

なお、上述したテロップの取得処理に限るものではない。例えば制御部１１は、テロップの設定入力を受け付けても良い。具体的には、制御部１１は、テキスト化したテキストデータを表示部１５により画面に表示する。制御部１１は、ユーザが入力可能なテロップ設定欄等を通じて、テロップの設定を入力部１４により受け付ける。制御部１１は、受け付けたテロップを取得する。

図１４は、音声データの特徴量に基づくテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ１の制御部１１は、ステップＳ１１２の処理で抽出された音声データを取得する（ステップＳ３１）。制御部１１は、取得した音声データから、映像データに含まれる被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出する（ステップＳ３２）。

制御部１１は、抽出した音声データの特徴量に基づいてテロップを取得し（ステップＳ３３）、テロップ特定処理のサブルーチンを終了してリターンする。例えば制御部１１は、話速に基づく特徴量を抽出した場合、話速に基づいて感情の表現度合いを判定する。制御部１１は、感情（例えば、驚き）の表現度合いが強くなる部分の音声データを音声データから抽出する。なお、感情は、単一の感情または複数の感情（例えば、驚き及び恐怖）であっても良い。制御部１１は、抽出した当該部分の音声データをテキスト化し、テキスト化したテキストデータをテロップとして取得しても良い。

または、制御部１１は、音声データの抑揚に基づく特徴量を抽出した場合、抽出した抑揚に基づいてテロップを取得しても良い。具体的には、制御部１１は、強さの変化が多い部分の音声データを音声データから抽出する。制御部１１は、抽出した当該部分の音声データをテキスト化し、テキスト化したテキストデータをテロップとして取得する。

続いて、テロップ特定モデル１７６を用いてテロップを特定する処理を説明する。
図１５は、テロップ特定モデル１７６を用いるテロップ特定処理の概要を説明する説明図である。テロップ特定モデル１７６は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。テロップ特定モデル１７６は、映像データに含まれる音声データが入力された場合に、該映像データに重畳するテロップを特定（推定）した特定結果を出力する学習モデルである。

本実施の形態に係るテロップ特定モデル１７６は、例えばＢＥＲＴ（Bidirectional Encoder Representations from Transformers）モデルを用いてテロップの特定処理を行う。テロップ特定モデル１７６は、複数のニューロンが相互に結合したニューラルネットワークの構造をなしている。テロップ特定モデル１７６は、一又は複数のデータの入力を受け付ける入力層と、入力層にて受け付けられたデータに対して演算処理を行う中間層と、中間層の演算結果を集約して一又は複数の値を出力する出力層とを備えている。

テロップ特定モデル１７６は、予め学習処理がなされた学習済みのモデルである。学習処理は、予め与えられた多数の訓練データを用いて、ニューラルネットワークを構成する各ニューロンの係数及び閾値等に適切な値を設定する処理である。本実施の形態に係るテロップ特定モデル１７６は、訓練データＤＢ１７４に記憶されている訓練データを用いて処理が行われる。

なお、他のコンピュータ（図示せず）により上述の学習処理を行い、テロップ特定モデル１７６をデプロイしても良い。この場合、コンピュータ１は、デプロイされたテロップ特定モデル１７６を取得してインストールする。なお、テロップ特定モデル１７６を構築せずに、機械学習モデルを使ったＷＥＢＡＰＩを利用することにより、テロップを特定しても良い。

コンピュータ１は映像データを取得した場合、取得した映像データに含まれる音声データを抽出する。コンピュータ１は、抽出した音声データをテロップ特定モデル１７６に入力し、音声データをテキスト化する。そして、コンピュータ１は、テキスト化されたテキストデータから推定された単一または複数のテロップを出力する。なお、ＢＥＲＴモデルは、既存の技術であるため、詳細な説明を省略する。

図示のように、コンピュータ１は、テロップ特定モデル１７６に音声データを入力し、「負けたくないので頑張ります」、「どこに行きましょう」及び「ずっと後悔しています」三つのテロップを出力する。

なお、テロップ特定モデル１７６は、ＢＥＲＴに限らず、例えばUniversal Sentence Encoder、ＲＮＮ（Recurrent Neural Network）、ＬＳＴＭ（Long Short-Term Memory）、ロジスティック回帰、ＳＶＭ、ｋ－ＮＮ、決定木、単純ベイズ分類器、またはランダムフォレストといった他のモデルによって実現されて良い。

図１６は、テロップ特定モデル１７６を用いるテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ１の制御部１１は、ステップＳ１１２の処理で抽出された音声データを取得する（ステップＳ４１）。制御部１１は、取得した音声データをテロップ特定モデル１７６に入力する（ステップＳ４２）。制御部１１は、映像データに重畳するテロップを特定した特定結果をテロップ特定モデル１７６から出力する（ステップＳ４３）。制御部１１は、テロップ特定処理のサブルーチンを終了してリターンする。

続いて、テロップを装飾したエフェクトを決定する処理を説明する。コンピュータ１は、実施形態１での感情特定処理により特定された感情に基づき、テロップを装飾したエフェクトを決定する。

例えば、コンピュータ１は「喜び」感情に応じて、テロップが下から跳ねるようなポップエフェクト、または、光が左から右に走っているような効果を持たせるエフェクトをエフェクトＤＢ１７３から取得しても良い。または、コンピュータ１は「恐怖」感情に応じて、明滅させる演出効果を有するエフェクトをエフェクトＤＢ１７３から取得しても良い。このように、被写体の感情に応じて、映像データに合った効果的なエフェクトを追加することができる。

図１７は、エフェクトで装飾されたテロップを映像データに重畳して表示する際の処理手順を示すフローチャートである。コンピュータ１の制御部１１は、被写体を含む映像データを大容量記憶部１７の映像データＤＢ１７２から取得する（ステップＳ１２１）。制御部１１は、取得した映像データに基づき、感情を特定する処理のサブルーチンを実行する（ステップＳ１２２）。なお、感情特定処理のサブルーチンに関しては、実施形態１と同様であるため、説明を省略する。

制御部１１は、取得した映像データに含まれる音声データを抽出する（ステップＳ１２３）。制御部１１は、抽出した音声データに基づいて、上述したテロップ特定処理のサブルーチンを実行する（ステップＳ１２４）。制御部１１は、特定した感情の種類に基づいて、大容量記憶部１７のエフェクトＤＢ１７３から該当するエフェクトのデータを取得する（ステップＳ１２５）。制御部１１は、取得したエフェクトのデータを用いてテロップの装飾処理を行う（ステップＳ１２６）。例えば制御部１１は、エフェクトのデータとテロップのデータとを結合して新たなテロップのデータを生成しても良い。

制御部１１は、特定したテロップと、取得したエフェクトのデータとを対応付けて、大容量記憶部１７のエフェクト設定結果ＤＢ１７５に記憶する（ステップＳ１２７）。具体的には、制御部１１は、映像ＩＤに対応付けて、テロップを装飾したエフェクトの設定結果（時間、テロップ及びエフェクトＩＤ）をエフェクト設定結果ＤＢ１７５に記憶する。制御部１１は表示部１５を介して、装飾したテロップのデータを映像データに重畳して表示し（ステップＳ１２８）、処理を終了する。

図１８は、テロップの表示画面の一例を示す説明図である。該画面は、映像表示欄１２ａ及びテロップ表示欄１２ｂを含む。映像表示欄１２ａは、映像データを表示する表示欄である。テロップ表示欄１２ｂは、テロップを表示する表示欄である。

コンピュータ１は、被写体を含む映像データを映像データＤＢ１７２から取得する。コンピュータ１は、取得した映像データに基づき、感情特定モデル１７１を用いて被写体の感情を特定する。図示のように、特定された感情が「喜び」である。コンピュータ１は、取得した映像データに含まれる音声データ基づいて、映像データに重畳するテロップを特定する。図示のように、特定されたテロップが「負けたくないので頑張ります」である。

コンピュータ１は、特定した感情の種類に基づいて、エフェクトＤＢ１７３から該当するエフェクトのデータを取得する。例えばコンピュータ１は、明滅させる演出効果を有するエフェクトのデータを取得する。コンピュータ１は、取得したエフェクトのデータを用いてテロップの装飾処理を行い、装飾したテロップのデータを映像データに重畳して表示する。

図示のように、コンピュータ１は、映像データを映像表示欄１２ａに表示し、特定したテロップをテロップ表示欄１２ｂに表示する。左側のテロップ表示欄１２ｂには、エフェクトで装飾されていないテロップが表示される。右側のテロップ表示欄１２ｂには、エフェクトで装飾されたテロップが表示される。

本実施形態によると、映像データに含まれている音声データをテキスト化することにより、当該映像データに重畳するテロップを取得することが可能となる。

本実施形態によると、映像データに含まれている音声データの特徴量に基づき、当該映像データに重畳するテロップを取得することが可能となる。

本実施形態によると、テロップ特定モデル１７６を用いて、映像データに重畳するテロップを取得することが可能となる。

本実施形態によると、被写体の感情に応じて、テロップを装飾したエフェクトを決定することが可能となる。

本実施形態によると、エフェクトで装飾されたテロップを映像データに重畳して表示することが可能となる。

（実施形態３）
実施形態３は、映像データに対してエフェクトまたはテロップの設定処理を行う形態に関する。なお、実施形態１～２と重複する内容については説明を省略する。

図１９は、映像データに対するエフェクトの設定画面の一例を示す説明図である。該画面は、切り替えタブ１３ａ、エフェクトなし映像表示欄１３ｂ、エフェクトあり映像表示欄１３ｃ、画像エフェクト設定欄１３ｄ、音声エフェクト設定欄１３ｅ、保存ボタン１３ｆ、エフェクトなし映像再生欄１３ｇ及びエフェクトあり映像再生欄１３ｈを含む。

切り替えタブ１３ａは、時間帯ごとに映像データを切り替えて表示するためのタブである。切り替えタブ１３ａは、特定された感情に対応する時間帯に基づいて生成される。例えば、０～１５秒の間に特定された感情（例えば、怒り）が同一である場合、当該時間帯に基づいてタブを生成する。なお、切り替えタブ１３ａは、所定の時間帯（例えば、１秒）ごとに生成されても良い。

エフェクトなし映像表示欄１３ｂは、エフェクトを追加していない映像データを表示する表示欄である。エフェクトあり映像表示欄１３ｃは、エフェクトを追加した映像データを表示する表示欄である。画像エフェクト設定欄１３ｄは、映像データに追加する画像のエフェクトを設定する設定欄である。音声エフェクト設定欄１３ｅは、映像データに追加する音声のエフェクトを設定する設定欄である。保存ボタン１３ｆは、映像データに追加されたエフェクトを保存するボタンである。

エフェクトなし映像再生欄１３ｇは、映像データの現在の再生位置を示すシークバー（seek bar）、再生ボタン、早送りボタン及び早戻しボタンを含む。コンピュータ１は、エフェクトなし映像再生欄１３ｇにより再生、早送りまたは早戻しの操作を受け付けた場合、エフェクトを追加していない映像データに対して再生、早送りまたは早戻し処理を行う。エフェクトあり映像再生欄１３ｈの構成は、エフェクトなし映像再生欄１３ｇの構成と同様であるため、説明を省略する。コンピュータ１は、エフェクトあり映像再生欄１３ｈにより再生、早送りまたは早戻しの操作を受け付けた場合、エフェクトを追加した映像データに対して再生、早送りまたは早戻し処理を行う。

コンピュータ１は、被写体を含む映像データを映像データＤＢ１７２から取得する。コンピュータ１は、取得した映像データに基づいて、感情特定モデル１７１を用いて被写体の感情を特定する。コンピュータ１は、切り替えタブ１３ａのタッチ（クリック）操作を受け付けた場合、指定された時間帯の画面に切り替える。コンピュータ１は、指定された時間帯に対応する映像データをエフェクトなし映像表示欄１３ｂに表示する。

コンピュータ１は、指定された時間帯の映像データに対応する感情を特定結果から取得する。コンピュータ１は、取得した感情に応じて、エフェクトＤＢ１７３から該当するすべての画像のエフェクトのデータ及び音声のエフェクトのデータを取得する。なお、例えば、エフェクトＤＢ１７３からエフェクトＩＤの順に所定数量（例えば、６個）の画像のエフェクトのデータ及び音声のエフェクトのデータを取得しても良い。

コンピュータ１は、取得した画像のエフェクトのデータの数量に応じて、画像エフェクト設定欄１３ｄに画像のエフェクトを設定するためのボタンを複数生成する。また、画像エフェクト設定欄１３ｄには、画像のエフェクトを設定していないボタンが設けられる。図示のように、画像エフェクト設定欄１３ｄには、画像エフェクトボタン１３ｄ１、画像エフェクトボタン１３ｄ２、画像エフェクトボタン１３ｄ３、及び画像エフェクト設定なしボタン１３ｄ４が生成される。

コンピュータ１は、例えば画像エフェクトボタン１３ｄ１のタッチ操作を受け付けた場合、画像エフェクトボタン１３ｄ１に対応する画像のエフェクトのデータを取得する。コンピュータ１は、エフェクトあり映像表示欄１３ｃに、取得した画像のエフェクトのデータを映像データに重畳して表示する。コンピュータ１は、例えば画像エフェクト設定なしボタン１３ｄ４のタッチ操作を受け付けた場合、映像データに重畳して表示されたエフェクトのデータを映像データから削除する。

また、複数のエフェクトのデータを映像データに重畳して表示することができる。例えばコンピュータ１は、画像エフェクトボタン１３ｄ１及び画像エフェクトボタン１３ｄ２のタッチ操作それぞれを受け付けた場合、画像エフェクトボタン１３ｄ１及び画像エフェクトボタン１３ｄ２それぞれに対応する画像のエフェクトのデータを取得する。コンピュータ１は、エフェクトあり映像表示欄１３ｃに、取得した二つの画像のエフェクトのデータを映像データに同時に重畳して表示する。

なお、最初はディフォルトのエフェクトが画像エフェクト設定欄１３ｄに表示されても良い。または、ユーザ毎によく使われるエフェクト、若しくはユーザが前回使用したエフェクトが画像エフェクト設定欄１３ｄに表示されても良い。

コンピュータ１は、取得した音声のエフェクトのデータの数量に応じて、音声エフェクト設定欄１３ｅに音声のエフェクトを設定するためのボタンを複数生成する。また、音声エフェクト設定欄１３ｅには、音声のエフェクトを設定していないボタンが設けられる。図示のように、音声エフェクト設定欄１３ｅには、音声エフェクトボタン１３ｅ１、音声エフェクトボタン１３ｅ２、音声エフェクトボタン１３ｅ３、及び音声エフェクト設定なしボタン１３ｅ４が生成される。なお、音声のエフェクトの設定処理については、画像のエフェクトの設定処理と同様であるため、説明を省略する。

コンピュータ１は、保存ボタン１３ｆのタッチ操作を受け付けた場合、映像ＩＤに対応付けて、画像におけるエフェクトの設定結果（フレーム番号、感情の種類及びエフェクトＩＤ）、及び音声におけるエフェクトの設定結果（時間、感情の種類及びエフェクトＩＤ）をエフェクト設定結果ＤＢ１７５に記憶する。

図２０は、映像データに対するテロップの設定画面の一例を示す説明図である。なお、図１９と重複する内容については同一の符号を付して説明を省略する。該画面は、テロップ表示欄１４ａ、テロップエフェクト設定欄１４ｂ、エフェクトなし映像再生欄１４ｃ及びエフェクトあり映像再生欄１４ｄを含む。テロップ表示欄１４ａは、映像データに追加したテロップを表示する表示欄である。テロップエフェクト設定欄１４ｂは、テロップを装飾したエフェクトを設定する設定欄である。

エフェクトなし映像再生欄１４ｃは、映像データの現在の再生位置を示すシークバー、再生ボタン、早送りボタン及び早戻しボタンを含む。コンピュータ１は、エフェクトなし映像再生欄１４ｃにより再生、早送りまたは早戻しの操作を受け付けた場合、エフェクトで装飾されていないテロップを重畳した映像データに対し、再生、早送りまたは早戻し処理を行う。エフェクトあり映像再生欄１４ｄの構成は、エフェクトなし映像再生欄１４ｃの構成と同様であるため、説明を省略する。コンピュータ１は、エフェクトあり映像再生欄１４ｄにより再生、早送りまたは早戻しの操作を受け付けた場合、エフェクトで装飾されたテロップを重畳した映像データに対し、再生、早送りまたは早戻し処理を行う。

コンピュータ１は、被写体を含む映像データを映像データＤＢ１７２から取得する。コンピュータ１は、取得した映像データに基づき、感情特定モデル１７１を用いて被写体の感情を特定する。コンピュータ１は、取得した映像データに含まれる音声データを抽出する。コンピュータ１は、抽出した音声データに基づいて、テロップ特定モデル１７６を用いるテロップを特定する。コンピュータ１は、特定したテロップをテロップ表示欄１４ａに表示する。図示のように、特定された「負けたくないので頑張ります」がテロップ表示欄１４ａに表示される。

コンピュータ１は特定した感情に応じて、エフェクトＤＢ１７３から該当するエフェクトのデータを複数取得する。コンピュータ１は、取得したエフェクトのデータの数量に応じて、テロップエフェクト設定欄１４ｂに、テロップのエフェクトを設定するためのボタンを複数生成する。また、テロップエフェクト設定欄１４ｂには、テロップのエフェクトを設定していないボタンが設けられる。なお、テロップエフェクト設定欄１４ｂに関しては、図１９の画像エフェクト設定欄１３ｄまたは音声エフェクト設定欄１３ｅと同様であるため、説明を省略する。

コンピュータ１は、保存ボタン１３ｆのタッチ操作を受け付けた場合、映像ＩＤに対応付けて、テロップにおける設定結果（時間、テロップ及びエフェクトＩＤ）をエフェクト設定結果ＤＢ１７５に記憶する。

図２１は、映像データに対してエフェクトを設定する際の処理手順を示すフローチャートである。コンピュータ１の制御部１１は、被写体を含む映像データを映像データＤＢ１７２から取得する（ステップＳ１３１）。制御部１１は、取得した映像データに基づいて、感情を特定する処理のサブルーチンを実行する（ステップＳ１３２）。制御部１１は、特定した感情に応じて、大容量記憶部１７のエフェクトＤＢ１７３から該当する複数のエフェクトのデータを取得する（ステップＳ１３３）。エフェクトのデータは、画像のエフェクトのデータ及び音声のエフェクトのデータを含む。

制御部１１は、取得したエフェクトのデータの数量に応じて、エフェクトを設定するためのボタンを複数生成する（ステップＳ１３４）。具体的には、制御部１１は、取得した画像のエフェクトのデータの数量に応じて、画像のエフェクトを設定するためのボタンを複数生成する。制御部１１は、取得した音声のエフェクトのデータの数量に応じて、音声のエフェクトを設定するためのボタンを複数生成する。

制御部１１は、生成したエフェクトのボタンを通じて、ユーザによるエフェクトの選択を入力部１４により受け付ける（ステップＳ１３５）。なお、単一または複数のエフェクトを選択することができる。制御部１１は表示部１５を介して、受け付けたエフェクトのデータを映像データに重畳して表示する（ステップＳ１３６）。

制御部１１は、エフェクトの設定結果の記憶指示を入力部１４により受け付ける（ステップＳ１３７）。制御部１１は映像ＩＤに対応付けて、エフェクトの設定結果を大容量記憶部１７のエフェクト設定結果ＤＢ１７５に記憶する（ステップＳ１３８）。具体的には、制御部１１は映像ＩＤに対応付けて、画像におけるエフェクトの設定結果（フレーム番号、感情の種類及びエフェクトＩＤ）、及び音声におけるエフェクトの設定結果（時間、感情の種類及びエフェクトＩＤ）をエフェクト設定結果ＤＢ１７５に記憶する。制御部１１は、処理を終了する。

図２２は、映像データに対してテロップを設定する際の処理手順を示すフローチャートである。なお、図１７と重複する内容については同一の符号を付して説明を省略する。コンピュータ１の制御部１１は、ステップＳ１２４の処理を実行した後に、特定した感情に応じて、大容量記憶部１７のエフェクトＤＢ１７３から該当する複数のエフェクトのデータを取得する（ステップＳ１４１）。

制御部１１は、取得したエフェクトのデータの数量に応じて、テロップのエフェクトを設定するためのボタンを複数生成する（ステップＳ１４２）。制御部１１は、生成したエフェクトのボタンを通じて、ユーザによるエフェクトの選択を入力部１４により受け付ける（ステップＳ１４３）。制御部１１は、受け付けたエフェクトのデータを用いてテロップの装飾処理を行う（ステップＳ１４４）。制御部１１は表示部１５を介して、エフェクトで装飾されたテロップのデータを映像データに重畳して表示する（ステップＳ１４５）。

制御部１１は、エフェクトの設定結果の記憶指示を入力部１４により受け付ける（ステップＳ１４６）。制御部１１は映像ＩＤに対応付けて、エフェクトの設定結果（時間、テロップ及びエフェクトＩＤ）を大容量記憶部１７のエフェクト設定結果ＤＢ１７５に記憶し（ステップＳ１４７）、処理を終了する。

本実施形態によると、映像データに対し、適切なエフェクトを設定（追加）することが可能となる。

本実施形態によると、映像データに対し、適切なテロップ及び当該テロップを装飾したエフェクトを設定することが可能となる。

（実施形態４）
実施形態４は、映像データから無音部分のデータを検出し、検出した無音部分のデータ以外の映像データを連結して出力する形態に関する。なお、実施形態１～３と重複する内容については説明を省略する。

図２３は、無音部分以外の映像データを連結して出力する際の処理手順を示すフローチャートである。コンピュータ１の制御部１１は、映像データを大容量記憶部１７の映像データＤＢ１７２から取得する（ステップＳ１３１）。制御部１１は、取得した映像データから無音部分のデータを検出する（ステップＳ１３２）。

例えば制御部１１は、音声の波形を解析し、波形の特に変化のないポイントを無音部分として検出しても良い。または、制御部１１は音声データの音量レベルに基づいて無音部分のデータを検出しても良い。具体的には、制御部１１は、取得した映像データに含まれる音声データの音量レベルを検出する。制御部１１は、検出した音量レベルが所定の閾値以下である期間が、所定の時間の間継続した場合に、無音部分のデータとして検出する。すなわち、無音検出等の周知の技術を用いて、無音部分のデータを検出することができる。

制御部１１は、検出した無音部分のデータをカット（削除）し、無音部分のデータ以外の映像データを連結する（ステップＳ１３３）。制御部１１は、連結した映像データを大容量記憶部１７の映像データＤＢ１７２に記憶し（ステップＳ１３４）、処理を終了する。具体的には、制御部１１は、連結した映像データに対して映像ＩＤを割り振って、割り振った映像ＩＤに対応付けて当該映像データを一つのレコードとして映像データＤＢ１７２に記憶する。

そして、上述した処理から得られた映像データを用いて、実施形態１でのエフェクト特定処理または実施形態２でのテロップ特定処理と同様に、映像データに追加すべきエフェクトまたはテロップを特定することができる。特定されたエフェクトまたはテロップが映像データに重畳して表示される。

本実施形態によると、無音部分のデータ以外の映像データを連結して出力することが可能となる。

本実施形態によると、映像データから無音部分のデータを自動的にカットすることにより、映像データの編集時間を節約することが可能となる。

なお、実施形態１～４では、映像データを映像データＤＢ１７２に記憶した例を説明したが、これに限るものではない。例えば、映像データを記憶したデータベース装置（ＤＢサーバ）を備え、ユーザ端末側でユーザにより映像データをデータベース装置にアップロードしても良い。この場合、コンピュータ１は、映像データをデータベース装置から取得し、取得した映像データに基づいてエフェクトまたはテロップを特定する。なお、データベース装置のほか、例えばコンピュータ１は、映像データを提供したプラットフォームから映像データを取得しても良い。

今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１情報処理装置（コンピュータ）
１１制御部
１２記憶部
１３通信部
１４入力部
１５表示部
１６読取部
１７大容量記憶部
１７１感情特定モデル（第１学習モデル）
１７２映像データＤＢ
１７３エフェクトＤＢ
１７４訓練データＤＢ
１７５エフェクト設定結果ＤＢ
１７６テロップ特定モデル（第２学習モデル）
１ａ可搬型記憶媒体
１ｂ半導体メモリ
１Ｐ制御プログラム

Claims

被写体を含む映像データを取得し、
取得した映像データを第１表示欄及び第２表示欄に同時に表示し、
前記映像データに基づいて前記被写体の感情を特定し、
特定した感情に応じて、画像のエフェクト及び音声のエフェクトを複数取得し、
取得した各画像のエフェクト及び各音声のエフェクトの選択を受け付けるための第１選択用オブジェクトを複数表示し、
表示した第１選択用オブジェクトを通じて、前記映像データに追加すべき画像のエフェクト及び音声のエフェクトの選択を受け付け、
前記第２表示欄に、受け付けた画像のエフェクトを前記映像データに重畳して表示し、
前記映像データに含まれている音声データに基づき、前記映像データに重畳するテロップを取得し、
前記第１表示欄及び前記第２表示欄に、取得したテロップを前記映像データに重畳して表示し、
特定した感情に基づき、前記テロップを装飾するための装飾のエフェクトを複数取得し、
取得した各装飾のエフェクトの選択を受け付けるための第２選択用オブジェクトを複数表示し、
表示した第２選択用オブジェクトを通じて、前記テロップを装飾すべき装飾のエフェクトの選択を受け付け、
前記第２表示欄に、受け付けた装飾のエフェクトで装飾された前記テロップを、前記映像データに重畳して表示する
処理をコンピュータに実行させるプログラム。
前記映像データを入力した場合に、前記映像データに含まれる被写体の感情を特定するよう学習済みの第１学習モデルに、取得した映像データを入力して、前記被写体の感情を特定した特定結果を出力する
処理を実行させる請求項１に記載のプログラム。
前記映像データに含まれる音声データから、前記被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出し、
抽出した前記特徴量に基づいて、前記被写体の感情を特定する
処理を実行させる請求項１に記載のプログラム。
感情の種類に基づいて設けられたエフェクトデータベースから、前記感情を表すエフェクトを取得する
処理を実行させる請求項１に記載のプログラム。
前記エフェクトを前記映像データに重畳して表示する
処理を実行させる請求項１から４のいずれか一つに記載のプログラム。
前記映像データに含まれている音声データをテキスト化し、
テキスト化したテキストデータの一部を、前記映像データに重畳するテロップとして取得し、
取得したテロップを前記映像データに重畳して表示する
処理を実行させる請求項１から５のいずれか一つに記載のプログラム。
前記映像データに含まれている音声データの特徴量に基づき、前記映像データに重畳するテロップを取得し、
取得したテロップを前記映像データに重畳して表示する
処理を実行させる請求項１から５のいずれか一つに記載のプログラム。
前記映像データに含まれている音声データを入力した場合に、前記映像データに重畳するテロップを特定するよう学習済みの第２学習モデルに、取得した前記音声データを入力して、前記テロップを特定した特定結果を出力し、
出力した特定結果に含まれるテロップを前記映像データに重畳して表示する
処理を実行させる請求項１から５のいずれか一つに記載のプログラム。
特定した感情に基づき、前記テロップを装飾したエフェクトを決定し、
決定したエフェクトで装飾されたテロップを前記映像データに重畳して表示する
処理を実行させる請求項６から８のいずれか一つに記載のプログラム。
前記映像データから無音部分のデータを検出し、
検出した無音部分のデータ以外の映像データを連結して出力する
処理を実行させる請求項１から９のいずれか一つに記載のプログラム。
制御部を備える情報処理装置であって、
前記制御部は、
被写体を含む映像データを取得し、
取得した映像データを第１表示欄及び第２表示欄に同時に表示し、
前記映像データに基づいて前記被写体の感情を特定し、
特定した感情に応じて、画像のエフェクト及び音声のエフェクトを複数取得し、
取得した各画像のエフェクト及び各音声のエフェクトの選択を受け付けるための第１選択用オブジェクトを複数表示し、
表示した第１選択用オブジェクトを通じて、前記映像データに追加すべき画像のエフェクト及び音声のエフェクトの選択を受け付け、
前記第２表示欄に、受け付けた画像のエフェクトを前記映像データに重畳して表示し、
前記映像データに含まれている音声データに基づき、前記映像データに重畳するテロップを取得し、
前記第１表示欄及び前記第２表示欄に、取得したテロップを前記映像データに重畳して表示し、
特定した感情に基づき、前記テロップを装飾するための装飾のエフェクトを複数取得し、
取得した各装飾のエフェクトの選択を受け付けるための第２選択用オブジェクトを複数表示し、
表示した第２選択用オブジェクトを通じて、前記テロップを装飾すべき装飾のエフェクトの選択を受け付け、
前記第２表示欄に、受け付けた装飾のエフェクトで装飾された前記テロップを、前記映像データに重畳して表示する
情報処理装置。