JP7385289B2 - プログラム及び情報処理装置 - Google Patents

プログラム及び情報処理装置 Download PDF

Info

Publication number
JP7385289B2
JP7385289B2 JP2021127660A JP2021127660A JP7385289B2 JP 7385289 B2 JP7385289 B2 JP 7385289B2 JP 2021127660 A JP2021127660 A JP 2021127660A JP 2021127660 A JP2021127660 A JP 2021127660A JP 7385289 B2 JP7385289 B2 JP 7385289B2
Authority
JP
Japan
Prior art keywords
video data
effect
telop
data
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021127660A
Other languages
English (en)
Other versions
JP2023022665A (ja
Inventor
彩乃 森川
Original Assignee
株式会社フロンティアチャンネル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社フロンティアチャンネル filed Critical 株式会社フロンティアチャンネル
Priority to JP2021127660A priority Critical patent/JP7385289B2/ja
Publication of JP2023022665A publication Critical patent/JP2023022665A/ja
Application granted granted Critical
Publication of JP7385289B2 publication Critical patent/JP7385289B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、プログラム及び情報処理装置に関する。
近年、映像制作または映像編集に用いられるエフェクト技術が知られている。例えば特許文献1には、人物の身体の動作を示す動作情報に基づいて、当該身体が映された映像データのうち、当該身体に対する背景の映像データに追加されるエフェクトを編集する情報処理装置が開示されている。
特開2020-095634号公報
しかしながら、特許文献1に係る発明は、エフェクトによる効果が十分でないという問題がある。
一つの側面では、エフェクトによる効果を高めることが可能となるプログラム等を提供することにある。
一つの側面に係るプログラムは、被写体を含む映像データを取得し、取得した映像データを第1表示欄及び第2表示欄に同時に表示し、前記映像データに基づいて前記被写体の感情を特定し、特定した感情に応じて、画像のエフェクト及び音声のエフェクトを複数取得し、取得した各画像のエフェクト及び各音声のエフェクトの選択を受け付けるための第1選択用オブジェクトを複数表示し、表示した第1選択用オブジェクトを通じて、前記映像データに追加すべき画像のエフェクト及び音声のエフェクトの選択を受け付け、前記第2表示欄に、受け付けた画像のエフェクトを前記映像データに重畳して表示し、前記映像データに含まれている音声データに基づき、前記映像データに重畳するテロップを取得し、前記第1表示欄及び前記第2表示欄に、取得したテロップを前記映像データに重畳して表示し、特定した感情に基づき、前記テロップを装飾するための装飾のエフェクトを複数取得し、取得した各装飾のエフェクトの選択を受け付けるための第2選択用オブジェクトを複数表示し、表示した第2選択用オブジェクトを通じて、前記テロップを装飾すべき装飾のエフェクトの選択を受け付け、前記第2表示欄に、受け付けた装飾のエフェクトで装飾された前記テロップを、前記映像データに重畳して表示する処理をコンピュータに実行させる。
一つの側面では、エフェクトによる効果を高めることが可能となる。
コンピュータの構成例を示すブロック図である。 映像データDB及びエフェクトDBのレコードレイアウトの一例を示す説明図である。 訓練データDB及びエフェクト設定結果DBのレコードレイアウトの一例を示す説明図である。 感情特定モデルを用いる感情特定処理の概要を説明する説明図である。 映像データに追加すべきエフェクトを出力する際の処理手順を示すフローチャートである。 感情特定モデルを用いる感情特定処理のサブルーチンの処理手順を示すフローチャートである。 音声データの特徴量に基づく感情特定処理のサブルーチンの処理手順を示すフローチャートである。 エフェクトの表示画面の一例を示す説明図である。 変形例1のエフェクトDBのレコードレイアウトの一例を示す説明図である。 実施形態2のコンピュータの構成例を示すブロック図である。 実施形態2の訓練データDB及びエフェクト設定結果DBのレコードレイアウトの一例を示す説明図である。 映像データにテロップを重畳して表示する際の処理手順を示すフローチャートである。 テキスト化によるテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。 音声データの特徴量に基づくテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。 テロップ特定モデルを用いるテロップ特定処理の概要を説明する説明図である。 テロップ特定モデルを用いるテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。 エフェクトで装飾されたテロップを映像データに重畳して表示する際の処理手順を示すフローチャートである。 テロップの表示画面の一例を示す説明図である。 映像データに対するエフェクトの設定画面の一例を示す説明図である。 映像データに対するテロップの設定画面の一例を示す説明図である。 映像データに対してエフェクトを設定する際の処理手順を示すフローチャートである。 映像データに対してテロップを設定する際の処理手順を示すフローチャートである。 無音部分以外の映像データを連結して出力する際の処理手順を示すフローチャートである。
以下、本発明をその実施形態を示す図面に基づいて詳述する。
(実施形態1)
実施形態1は、映像データに追加すべきエフェクトを出力する形態に関する。エフェクトは、映像データに合成可能なフィルタ、スタンプ、絵文字、フラッシュ、アニメーション等のイメージオブジェクトで構成されたコンテンツ、または、映像データに合成可能なサウンドコンテンツ等である。
本実施形態では、情報処理装置1を含む。情報処理装置1は、種々の情報に対する処理、記憶及び送受信を行う情報処理装置である。情報処理装置1は、例えばサーバ装置、パーソナルコンピュータまたは汎用のタブレットPC(パソコン)等である。
本実施形態において、情報処理装置1は、パーソナルコンピュータであるものとし、以下では簡潔のためコンピュータ1と読み替える。本実施形態に係るコンピュータ1は、被写体を含む映像データを取得し、取得した映像データに基づいて被写体の感情を特定する。コンピュータ1は、特定した感情に応じて、当該感情を表すエフェクトを取得する。コンピュータ1は、取得したエフェクトを映像データに重畳して表示する。
図1は、コンピュータ1の構成例を示すブロック図である。コンピュータ1は、制御部11、記憶部12、通信部13、入力部14、表示部15、読取部16及び大容量記憶部17を含む。各構成はバスBで接続されている。
制御部11はCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、DSP(Digital Signal Processor)、または量子プロセッサ等の演算処理装置を含む。制御部11は、記憶部12に記憶された制御プログラム1Pを読み出して実行することにより、コンピュータ1に係る種々の情報処理、制御処理等を行う。
なお、制御プログラム1Pは、単一のコンピュータ上で、または1つのサイトにおいて配置されるか、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。なお、図1では制御部11を単一のプロセッサであるものとして説明するが、マルチプロセッサであっても良い。
記憶部12はRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ素子を含み、制御部11が処理を実行するために必要な制御プログラム1P又はデータ等を記憶している。また、記憶部12は、制御部11が演算処理を実行するために必要なデータ等を一時的に記憶する。通信部13は通信に関する処理を行うための通信モジュールである。
入力部14は、マウス、キーボード、タッチパネル、ボタン等の入力デバイスであり、受け付けた操作情報を制御部11へ出力する。表示部15は、液晶ディスプレイ又は有機EL(electroluminescence)ディスプレイ等であり、制御部11の指示に従い各種情報を表示する。
読取部16は、CD(Compact Disc)-ROM又はDVD(Digital Versatile Disc)-ROMを含む可搬型記憶媒体1aを読み取る。制御部11が読取部16を介して、制御プログラム1Pを可搬型記憶媒体1aより読み取り、大容量記憶部17に記憶しても良い。また、ネットワークN等を介して他のコンピュータから制御部11が制御プログラム1Pをダウンロードし、大容量記憶部17に記憶しても良い。さらにまた、半導体メモリ1bから、制御部11が制御プログラム1Pを読み込んでも良い。
大容量記憶部17は、例えばHDD(Hard disk drive:ハードディスク)、SSD(Solid State Drive:ソリッドステートドライブ)等の記録媒体を備える。大容量記憶部17は、感情特定モデル(第1学習モデル)171、映像データDB(database)172、エフェクトDB173、訓練データDB174及びエフェクト設定結果DB175を含む。
感情特定モデル171は、映像データに基づいて該映像データに含まれる被写体の感情を特定(推定)する特定器であり、機械学習により生成された学習済みモデルである。映像データDB172は、映像データを記憶している。エフェクトDB173は、感情の種類に基づいて分類されたエフェクトを記憶している。訓練データDB174は、感情特定モデル171を構築(生成)するための訓練データを記憶している。エフェクト設定結果DB175は、映像データに対するエフェクトの設定結果を記憶している。
なお、本実施形態において記憶部12及び大容量記憶部17は一体の記憶装置として構成されていても良い。また、大容量記憶部17は複数の記憶装置により構成されていても良い。更にまた、大容量記憶部17はコンピュータ1に接続された外部記憶装置であっても良い。
コンピュータ1は、種々の情報処理及び制御処理等をコンピュータ単体で実行しても良いし、複数のコンピュータで分散して実行しても良いし、仮想マシンで分散して実行しても良い。なお、コンピュータ1に係る種々の情報処理及び制御処理等が、通信環境を有するサーバ装置等で実行されても良い。
図2は、映像データDB172及びエフェクトDB173のレコードレイアウトの一例を示す説明図である。
映像データDB172は、映像ID列及び映像データ列を含む。映像ID列は、各映像データを識別するために、一意に特定される映像データのIDを記憶している。映像データ列は、映像データを記憶している。
エフェクトDB173は、エフェクトID列、感情種類列、エフェクト列及びエフェクト種類列を含む。エフェクトID列は、各エフェクトのデータを識別するために、一意に特定されるエフェクトのデータのIDを記憶している。感情種類列は、感情の種類を記憶している。感情の種類は、例えば怒り、喜び、中立(無表情)、恐怖、悲しみ、驚き等を含む。なお、上述の感情のほかに、感情の種類には、ポジティブ、ネガティブ、肯定的、否定的、作為的、困惑度合等の感情が含まれても良い。
エフェクト列は、エフェクトのデータを記憶している。エフェクト種類列は、エフェクトの種類を記憶している。エフェクトの種類は、例えば効果音、BGM(background music)、レンズフレアまたはモーショングラフィックス等を含む。
図3は、訓練データDB174及びエフェクト設定結果DB175のレコードレイアウトの一例を示す説明図である。
訓練データDB174は、入力データ列及び出力データ列を含む。入力データ列は、映像データを記憶している。出力データ列は、感情の種類を記憶している。
エフェクト設定結果DB175は、映像ID列、種別列及び設定結果列を含む。映像ID列は、映像データを特定する映像IDを記憶している。種別列は、データの種別(画像または音声)を記憶している。設定結果列は、映像データに対するエフェクトの設定結果を記憶している。画像におけるエフェクトの設定結果は、例えばフレーム番号、感情の種類及びエフェクトIDを含む。音声におけるエフェクトの設定結果は、例えば時間、感情の種類及びエフェクトIDを含む。
なお、上述した各DBの記憶形態は一例であり、データ間の関係が維持されていれば、他の記憶形態であっても良い。
続いて、映像データに追加すべきエフェクトを出力する処理を説明する。コンピュータ1は、被写体を含む映像データを映像データDB172から取得する。コンピュータ1は、取得した映像データに基づいて、該映像データに含まれる被写体の感情を特定する。具体的には、コンピュータ1は、取得した映像データを感情特定モデル171に入力し、該映像データに含まれる被写体の感情を特定した特定結果を出力する。なお、感情特定モデル171を用いる感情特定処理に関しては後述する。
コンピュータ1は、特定した感情に応じて、エフェクトDB173から該当するエフェクトのデータを取得する。コンピュータ1は、取得したエフェクトのデータを映像データに重畳して表示する。
図4は、感情特定モデル171を用いる感情特定処理の概要を説明する説明図である。感情特定モデル171は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。感情特定モデル171は、被写体を含む映像データが入力された場合に、該被写体の感情を特定した特定結果を出力する学習モデルである。
本実施形態の感情特定モデル171は、畳み込み層を有するDNN(Deep Neural Network(s))を用いて感情の特定(推定)処理を行う。感情特定モデル171は、映像データの入力を受け付ける入力層と、映像データに含まれる被写体の感情を特定した特定結果を出力する出力層と、映像データに含まれるフレーム画像(フレームごとの静止画像)及び音声データの特徴量を抽出する中間層とを有する。音声データの特徴量は、発話におけるピッチ、話速(発話速度またはテンポ)または抑揚等の特性を示すデータである。
入力層は、映像データの入力を受け付ける複数のニューロンを有し、入力された映像データを中間層に受け渡す。中間層は複数のニューロンを有し、映像データに含まれるフレーム画像及び音声データの特徴量を抽出して出力層に受け渡す。中間層は、入力層から入力された映像データを複数の中間層(例えば全結合層)を通し、各層のユニットをつなぐ活性化関数として、例えば、シグモイド関数、tanh関数、ReLu(Rectified Linear Unit)関数を用いることで、有効な特徴量を獲得する。出力層は、例えばシグモイド関数またはソフトマックス関数を含み、中間層から出力された特徴量に基づいて、推定された各種の感情の確率値を出力する。
コンピュータ1は、訓練データDB174に記憶されている訓練データを用いて学習を行う。訓練データDB174の各レコードがそれぞれ訓練データである。出力データ列の値が出力層から出力されるべき正解データ(感情の種類)である。入力データ列の映像データが入力データである。コンピュータ1は、映像データを入力層に入力し、中間層での演算処理を経て、推定された各種の感情に当たる確率値を出力層から取得する。確率値は、例えば0より大きく、1未満の値である。
コンピュータ1は、出力層から出力された感情の確率値を、訓練データにおける正解値(出力データ列の値)と比較し、出力層からの出力値が正解値に近づくように、中間層での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み(結合係数)等である。パラメータの最適化の方法は特に限定されないが、例えばコンピュータ1は誤差逆伝播法を用いて各種パラメータの最適化を行う。
コンピュータ1は、訓練データDB174に記憶してある各レコードについて上記の処理を行い、感情特定モデル171の学習を行う。これにより、映像データに含まれる被写体の感情を特定可能なモデルを構築することができる。なお、他のコンピュータ(図示せず)により上述の学習処理を行い、感情特定モデル171をデプロイしても良い。この場合、コンピュータ1は、デプロイされた感情特定モデル171を取得してインストールする。なお、感情特定モデル171を構築せずに、機械学習モデルを使ったWEB API(Application Programming Interface)を利用することにより、感情を特定しても良い。
コンピュータ1は映像データを取得した場合、取得した映像データを感情特定モデル171に入力する。コンピュータ1は、感情特定モデル171の中間層にて映像データに含まれるフレーム画像及び音声データの特徴量を抽出する演算処理を行う。コンピュータ1は、抽出した特徴量を感情特定モデル171の出力層に入力して、当該映像データに含まれる被写体の感情を特定した特定結果を出力する。
図示のように、映像データに対し、「怒り」、「喜び」、「中立」、「恐怖」、「悲しみ」、「驚き」それぞれの確率値が、「0.03」、「0.84」、「0.03」、「0.04」、「0.02」、「0.04」である特定結果が出力される。
また、所定閾値を利用して特定結果を出力しても良い。例えばコンピュータ1は、「喜び」の確率値(0.84)が所定閾値(例えば、0.80)以上であると判定した場合、「喜び」を特定結果として出力する。なお、上述した閾値を利用せず、感情特定モデル171が推定した各種の感情の確率値から、最も高い確率値に対応する感情を特定結果として出力しても良い。
なお、本実施形態では、映像データに含まれるフレーム画像及び音声データに基づいて感情特定モデル171を構築した例を説明したが、これに限るものではない。例えば、映像データに含まれるフレーム画像または音声データのどちらか一方のみに基づいて感情特定モデル171を構築しても良い。
なお、感情特定モデル171は、DNNに限られず、ロジスティック回帰、SVM(Support Vector Machine)、k-NN(k-Nearest Neighbor algorithm)、決定木、単純ベイズ分類器、またはランダムフォレストといった他のモデルによって実現されて良い。
なお、既存の感情認識ソフトウェアを用いて感情を特定しても良い。感情認識ソフトウェアとしてはMicrosoft(登録商標)社のFace API、Affectiva(登録商標)社のAffdex(登録商標)等が挙げられる。
なお、上述したディープラーニング等で学習したモデルを用いた感情特定処理に限るものではない。以下では、映像データに含まれる音声データの特徴量に基づき、感情を特定する処理を説明する。
コンピュータ1は、被写体を含む映像データを映像データDB172から取得し、取得した映像データに含まれる音声データを抽出する。コンピュータ1は、抽出した音声データから、該被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出する。
ピッチは、音声の高低を示す音高である。ピッチ周波数に基づいて、発話時の感情によっても敏感に変化することが検出される。ピッチ周波数の取得処理に関しては、例えばコンピュータ1は、音声データ(音声信号)を周波数スペクトルに変換し、変換した周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める。コンピュータ1は、求めた自己相関波形における複数の極値の出現順番と複数の極値の出現位置を示すずらし周波数量である出現周波数との分布を回帰分析し、回帰直線の傾きに基づいてピッチ周波数を求める。
コンピュータ1は、求めたピッチ周波数の周期、ピッチ周波数の揺らぎ周期、立ち上がり時間、維持時間、または立下がり時間等に基づいて感情を特定する。例えば、ピッチ周波数の周期の時間変化に基づく感情特定処理の例を説明する。中立(無感情)では、音声の後半でのピッチ周期が増大する傾向があるが、感情を含む場合に比べて変化は大きくない特徴がある。音声データに感情(例えば、怒り)が含まれる場合、ピッチ周期が時間とともに減少し、音声がしだいに高音化する特徴がある。コンピュータ1は、求めたピッチ周波数の周期の時間変化から、喜び、中立または怒り等の感情を特定する。
話速は、例えば所定時間内に話者が発した単語数により表される。話速は、感情(例えば、怒り)の表現度合いによって変化される。感情の表現度合いが強くなる場合、話速は速くなる。逆に、感情を抑える場合、または、気分が落ち着いている場合、話速は遅くなる。コンピュータ1は、例えば音声信号のスペクトル変化量の時間的な変化パターンにより、話速に基づく特徴量を音声データから抽出する。なお、上述した話速の抽出手法のほかに、音声認識に基づいて話速を抽出する公知手法等が利用されても良い。
コンピュータ1は、抽出した話速に基づいて感情を特定する。例えばコンピュータ1は、抽出した話速と所定の話速の閾値とを比較する。コンピュータ1は、話速が速い傾向にある場合、「怒り」または「喜び」感情を特定しても良い。または、コンピュータ1は、話速が遅い傾向にある場合、「悲しみ」感情を特定しても良い。
抑揚(イントネーション)は、音声データの各単位内の強度変化パターンを表す。音声データの単位は、例えば、音声に含まれる文章を構成する単語または節である。コンピュータ1は、音声データの強さの変化に基づいて、当該音声データの抑揚を抽出する。
例えばコンピュータ1は、音声データを複数の単位に分割し、各単位内における強さの変化、または、単位間における強さの変化を、当該音声データの抑揚として抽出する。コンピュータ1は、抽出した抑揚に基づいて喜怒哀楽等の感情を特定する。例えば、悲しみに基づく抑揚が、平均的な基本周波数が極端に低くならず、起伏が少なく平坦になる。コンピュータ1は、各単位内における強さの変化が少ないと判定した場合、「悲しみ」感情を特定しても良い。
このように、コンピュータ1は、音声データから得られた、被写体の発話におけるピッチ、話速及び抑揚の少なくとも一つを含む、音声データの特徴量または当該特徴量の変化量に基づいて感情を特定することができる。
なお、ピッチ、話速または抑揚のほかには、周波数スペクトル、音声強度またはフォルマント周波等に基づいて感情を特定しても良い。例えば、周波数スペクトルが取得された場合、周波数成分に基づいて感情を特定しても良い。音声スペクトルは、音声データをDFT(デジタルフーリエ変換)分析することで得られる。普通、おだやかな話し方では、音声波形は正弦波に近く、あまり高調波成分がない。しかし、怒鳴り等の強い感情を表すときには、三角波に近くなり、高調波成分が多く含まれるようになる。すなわち、被写体の感情を特定できる音声データの特徴量であれば、任意の種類の特徴量を利用することが可能であり、特に限定されるわけではない。
なお、上述した音声データの特徴量に基づく感情特定処理のほかには、音声用の感情特定モデルを用いて、被写体の感情を特定しても良い。音声用の感情特定モデルは、映像データに含まれる音声データが入力された場合に、当該映像データに含まれる被写体の感情を特定した特定結果を出力する学習モデルである。
なお、感情特定処理に関しては、上述した感情特定モデル171を用いる特定処理手段、及び音声データの特徴量に基づく特定処理手段に限るものではない。例えば、コンピュータ1は、映像データに含まれる音声データをテキスト化する。コンピュータ1は、テキスト化したテキストデータから、特に感情が表現された単語を抽出する。コンピュータ1は、抽出した単語に基づいて感情特定処理を行っても良い。
図5は、映像データに追加すべきエフェクトを出力する際の処理手順を示すフローチャートである。コンピュータ1の制御部11は、被写体を含む映像データを大容量記憶部17の映像データDB172から取得する(ステップS101)。制御部11は、取得した映像データに基づいて、感情を特定する処理のサブルーチンを実行する(ステップS102)。なお、感情特定処理のサブルーチンに関しては後述する。
制御部11は、特定した感情に応じて、大容量記憶部17のエフェクトDB173から該当するエフェクトのデータを取得する(ステップS103)。例えば、特定された感情が「喜び」である場合、コンピュータ1は「効果音」であるエフェクトの種類の指定を受け付けたときに、「喜び」及び「効果音」に対応するエフェクトのデータをエフェクトDB173から抽出する。なお、複数のエフェクトのデータが抽出された場合、例えば制御部11は、複数のエフェクトのデータから、ユーザによるエフェクトのデータの選択を受け付けても良い。
制御部11は、特定した感情と、取得したエフェクトのデータとを対応付けて、大容量記憶部17のエフェクト設定結果DB175に記憶する(ステップS104)。具体的には、制御部11は映像IDに対応付けて、画像におけるエフェクトの設定結果(フレーム番号、感情の種類及びエフェクトID)、及び音声におけるエフェクトの設定結果(時間、感情の種類及びエフェクトID)をエフェクト設定結果DB175に記憶する。制御部11は表示部15を介して、取得したエフェクトのデータを映像データに重畳して表示し(ステップS105)、処理を終了する。
図6は、感情特定モデル171を用いる感情特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ1の制御部11は、ステップS101の処理で取得された映像データを感情特定モデル171に入力する(ステップS01)。制御部11は、該映像データに含まれる被写体の感情を特定した特定結果を感情特定モデル171から出力する(ステップS02)。制御部11は、感情特定処理のサブルーチンを終了してリターンする。
図7は、音声データの特徴量に基づく感情特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ1の制御部11は、ステップS101の処理で取得された映像データに含まれる音声データを抽出する(ステップS11)。制御部11は、取得した音声データから、映像データに含まれる被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出する(ステップS12)。
ピッチの抽出について、例えば制御部11は、音声データを周波数スペクトルに変換し、変換した周波数スペクトルに基づいてピッチ(ピッチ周波数)を抽出する。話速の抽出について、例えば制御部11は、音声信号の時間的なパワーパターンに基づいて、話速を音声データから抽出する。抑揚の抽出について、例えば制御部11は、音声データの強さの変化に基づいて抑揚を抽出する。なお、ピッチ、話速または抑揚の抽出処理に関しては、上述した処理に限定されず、各種の公知技術を用いることができる。
制御部11は、音声データから抽出されたピッチ、話速及び抑揚の少なくとも一つを含む、音声特徴量または当該特徴量の変化量に基づいて感情を特定する(ステップS13)。制御部11は、感情特定処理のサブルーチンを終了してリターンする。
図8は、エフェクトの表示画面の一例を示す説明図である。該画面は、エフェクトなし映像表示欄11a、及びエフェクトあり映像表示欄11bを含む。エフェクトなし映像表示欄11aは、エフェクトを追加していない映像データ(原映像データ)を表示する表示欄である。エフェクトあり映像表示欄11bは、エフェクトを追加した映像データを表示する表示欄である。
コンピュータ1は、被写体を含む映像データを映像データDB172から取得する。コンピュータ1は、取得した映像データに基づいて、感情特定モデル171を用いる特定処理手段、または音声データの特徴量に基づく特定処理手段を用いて感情を特定する。図示のように、特定された感情が「怒り」である。
コンピュータ1は、特定した感情に応じて、エフェクトDB173から該当するエフェクトのデータを取得する。具体的には、コンピュータ1は、特定した「怒り」感情に対応するエフェクトのデータをエフェクトDB173から取得する。なお、複数のエフェクトのデータが取得された場合、例えばコンピュータ1は、エフェクトのデータを選択可能なコンボボックス(図示なし)を生成して画面に表示する。コンピュータ1は、生成したコンボボックスを通じて、複数のエフェクトのデータから、ユーザによるエフェクトのデータの選択を受け付けても良い。
コンピュータ1は、原映像データをエフェクトなし映像表示欄11aに表示する。コンピュータ1は、エフェクトあり映像表示欄11bに、取得したエフェクトのデータを映像データに重畳して表示する。図示のように、「怒り」感情に対応するエフェクトのデータを映像データに重畳して表示する。
本実施形態によると、被写体を含む映像データに基づいて、感情特定モデル171を用いて該被写体の感情を特定することが可能となる。
本実施形態によると、映像データに含まれる音声データの特徴量に基づいて、該映像データに含まれる被写体の感情を特定することが可能となる。
本実施形態によると、特定された感情に応じて、映像データに追加すべきエフェクトを出力することが可能となる。
本実施形態によると、映像データに適切なエフェクトを自動追加することにより、映像制作または映像編集の作業効率化を実現することが可能となる。
<変形例1>
上述した処理では、特定された感情に応じてエフェクトのデータを取得したが、これに限るものではない。本変形例では、音声データの特徴量に基づいてエフェクトのデータを直接取得する処理を説明する。
図9は、変形例1のエフェクトDB173のレコードレイアウトの一例を示す説明図である。なお、図2と重複する内容については同一の符号を付して説明を省略する。エフェクトDB173は、ピッチ周波数列、話速列及び抑揚列を含む。ピッチ周波数列は、ピッチ周波数を記憶している。話速列は、発話速度(例えば、遅い、普通または早い)を記憶している。抑揚列は、発話における抑揚の有無を記憶している。
コンピュータ1は、被写体を含む映像データを映像データDB172から取得し、取得した映像データに含まれる音声データを抽出する。コンピュータ1は、抽出した音声データから、該被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出する。なお、特徴量の抽出処理に関しては、実施形態1での抽出処理と同様であるため、説明を省略する。
コンピュータ1は、エフェクトの種類(例えば、効果音)の指定を受け付ける。コンピュータ1は、抽出した音声データの特徴量と、受け付けたエフェクトの種類とに基づいて、エフェクトDB173から該当するエフェクトのデータを取得する。具体的には、コンピュータ1は、受け付けたエフェクトの種類に応じて、ピッチ周波数、話速または抑揚に対応するエフェクトのデータをエフェクトDB173から取得する。コンピュータ1は、取得したエフェクトのデータを映像データに重畳して表示する。
本変形例によると、映像データに含まれる音声データの特徴量に基づいて、当該映像データに追加すべきエフェクトのデータを取得することが可能となる。
(実施形態2)
実施形態2は、映像データに含まれる音声データに基づいてテロップを取得し、取得したテロップを当該映像データに重畳して表示する形態に関する。なお、実施形態1と重複する内容については説明を省略する。
テロップは、映像、動画または静止画等の元画像に対して重畳、挿入または合成される、文字情報、記号情報、図形情報、音声情報もしくは画像情報、またはこれらの結合の情報である。テロップは、例えばテレビ画面上に表示される地震もしくは警報等の緊急情報、選挙結果もしくはニュース等の速報、番組出演者のコメント、状況説明、インタビューの会話、または音楽番組で流れる歌詞等である。
図10は、実施形態2のコンピュータ1の構成例を示すブロック図である。なお、図1と重複する内容については同一の符号を付して説明を省略する。大容量記憶部17には、テロップ特定モデル(第2学習モデル)176が記憶されている。テロップ特定モデル176は、音声データに基づいてテロップを特定(推定)する特定器であり、機械学習により生成された学習済みモデルである。
図11は、実施形態2の訓練データDB174及びエフェクト設定結果DB175のレコードレイアウトの一例を示す説明図である。訓練データDB174は、テロップ特定モデル176を構築するための訓練データを記憶している。入力データ列は、映像データに含まれる音声データを記憶している。出力データ列は、テロップのデータを記憶している。
エフェクト設定結果DB175のレコードレイアウトは、図3と同様であるため、説明を省略する。本実施形態でのエフェクト設定結果DB175には、テロップを装飾したエフェクトの設定結果が記憶される。
コンピュータ1は、映像データに重畳するテロップを取得する。具体的には、コンピュータ1は、映像データに含まれる音声データからテキスト化されたテキストデータに基づいて、テロップを取得する。または、コンピュータ1は、映像データに含まれる音声データの特徴量に基づいて、テロップを取得する。更にまた、コンピュータ1は、映像データに含まれる音声データを入力した場合に、当該映像データに重畳するテロップを特定するよう学習済みのテロップ特定モデル176を用いて、テロップを取得する。なお、上述したテロップの取得処理に限らず、例えば、予め登録されたキーワードに基づいてテロップを取得しても良い。具体的には、コンピュータ1は、音声データからテキスト化されたテキストデータを取得する。コンピュータ1は、取得したテキストデータから、予め登録されたキーワード(例えば、「本当」、「やばい」、「うそー」等のキーワード)と一致したテキストをテロップとして抽出しても良い。コンピュータ1は、取得したテロップを映像データに重畳して表示する。
図12は、映像データにテロップを重畳して表示する際の処理手順を示すフローチャートである。コンピュータ1の制御部11は、被写体を含む映像データを大容量記憶部17の映像データDB172から取得する(ステップS111)。制御部11は、取得した映像データに含まれる音声データを抽出する(ステップS112)。
制御部11は、抽出した音声データに基づいて、テロップを特定する処理のサブルーチンを実行する(ステップS113)。なお、テロップ特定処理のサブルーチンに関しては後述する。制御部11は表示部15を介して、特定したテロップのデータを映像データに重畳して表示し(ステップS114)、処理を終了する。
図13は、テキスト化によるテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ1の制御部11は、ステップS112の処理で抽出された音声データを取得する(ステップS21)。制御部11は、取得した音声データに対して音声認識処理を行い、当該音声データをテキスト化する(ステップS22)。制御部11は、テキスト化したテキストデータの一部を、映像データに重畳するテロップとして取得し(ステップS23)、テロップ特定処理のサブルーチンを終了してリターンする。
例えば制御部11は、テキスト化したテキストデータを形態素解析にかけ、構文解析の最小単位となるトークンを取り出す。制御部11は、トークンから「に」、「から」、「これ」、「さん」等のあまり意味としては重要でないワード(ストップワード)または助詞等の特定品詞を削除する。制御部11は、トークンを元にTF-IDF(Term Frequency-Inverse Document Frequency)スコア単語の重要度を評価する指標から特徴語となるトークンを抽出する。制御部11は、抽出したトークンに基づいて、単語類似度判定からセンテンスのセグメンテーションを行い、各セグメントから重要文をテロップとして抽出(取得)する。
なお、上述したテロップの取得処理に限るものではない。例えば制御部11は、テロップの設定入力を受け付けても良い。具体的には、制御部11は、テキスト化したテキストデータを表示部15により画面に表示する。制御部11は、ユーザが入力可能なテロップ設定欄等を通じて、テロップの設定を入力部14により受け付ける。制御部11は、受け付けたテロップを取得する。
図14は、音声データの特徴量に基づくテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ1の制御部11は、ステップS112の処理で抽出された音声データを取得する(ステップS31)。制御部11は、取得した音声データから、映像データに含まれる被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出する(ステップS32)。
制御部11は、抽出した音声データの特徴量に基づいてテロップを取得し(ステップS33)、テロップ特定処理のサブルーチンを終了してリターンする。例えば制御部11は、話速に基づく特徴量を抽出した場合、話速に基づいて感情の表現度合いを判定する。制御部11は、感情(例えば、驚き)の表現度合いが強くなる部分の音声データを音声データから抽出する。なお、感情は、単一の感情または複数の感情(例えば、驚き及び恐怖)であっても良い。制御部11は、抽出した当該部分の音声データをテキスト化し、テキスト化したテキストデータをテロップとして取得しても良い。
または、制御部11は、音声データの抑揚に基づく特徴量を抽出した場合、抽出した抑揚に基づいてテロップを取得しても良い。具体的には、制御部11は、強さの変化が多い部分の音声データを音声データから抽出する。制御部11は、抽出した当該部分の音声データをテキスト化し、テキスト化したテキストデータをテロップとして取得する。
続いて、テロップ特定モデル176を用いてテロップを特定する処理を説明する。
図15は、テロップ特定モデル176を用いるテロップ特定処理の概要を説明する説明図である。テロップ特定モデル176は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。テロップ特定モデル176は、映像データに含まれる音声データが入力された場合に、該映像データに重畳するテロップを特定(推定)した特定結果を出力する学習モデルである。
本実施の形態に係るテロップ特定モデル176は、例えばBERT(Bidirectional Encoder Representations from Transformers)モデルを用いてテロップの特定処理を行う。テロップ特定モデル176は、複数のニューロンが相互に結合したニューラルネットワークの構造をなしている。テロップ特定モデル176は、一又は複数のデータの入力を受け付ける入力層と、入力層にて受け付けられたデータに対して演算処理を行う中間層と、中間層の演算結果を集約して一又は複数の値を出力する出力層とを備えている。
テロップ特定モデル176は、予め学習処理がなされた学習済みのモデルである。学習処理は、予め与えられた多数の訓練データを用いて、ニューラルネットワークを構成する各ニューロンの係数及び閾値等に適切な値を設定する処理である。本実施の形態に係るテロップ特定モデル176は、訓練データDB174に記憶されている訓練データを用いて処理が行われる。
なお、他のコンピュータ(図示せず)により上述の学習処理を行い、テロップ特定モデル176をデプロイしても良い。この場合、コンピュータ1は、デプロイされたテロップ特定モデル176を取得してインストールする。なお、テロップ特定モデル176を構築せずに、機械学習モデルを使ったWEB APIを利用することにより、テロップを特定しても良い。
コンピュータ1は映像データを取得した場合、取得した映像データに含まれる音声データを抽出する。コンピュータ1は、抽出した音声データをテロップ特定モデル176に入力し、音声データをテキスト化する。そして、コンピュータ1は、テキスト化されたテキストデータから推定された単一または複数のテロップを出力する。なお、BERTモデルは、既存の技術であるため、詳細な説明を省略する。
図示のように、コンピュータ1は、テロップ特定モデル176に音声データを入力し、「負けたくないので頑張ります」、「どこに行きましょう」及び「ずっと後悔しています」三つのテロップを出力する。
なお、テロップ特定モデル176は、BERTに限らず、例えばUniversal Sentence Encoder、RNN(Recurrent Neural Network)、LSTM(Long Short-Term Memory)、ロジスティック回帰、SVM、k-NN、決定木、単純ベイズ分類器、またはランダムフォレストといった他のモデルによって実現されて良い。
図16は、テロップ特定モデル176を用いるテロップ特定処理のサブルーチンの処理手順を示すフローチャートである。コンピュータ1の制御部11は、ステップS112の処理で抽出された音声データを取得する(ステップS41)。制御部11は、取得した音声データをテロップ特定モデル176に入力する(ステップS42)。制御部11は、映像データに重畳するテロップを特定した特定結果をテロップ特定モデル176から出力する(ステップS43)。制御部11は、テロップ特定処理のサブルーチンを終了してリターンする。
続いて、テロップを装飾したエフェクトを決定する処理を説明する。コンピュータ1は、実施形態1での感情特定処理により特定された感情に基づき、テロップを装飾したエフェクトを決定する。
例えば、コンピュータ1は「喜び」感情に応じて、テロップが下から跳ねるようなポップエフェクト、または、光が左から右に走っているような効果を持たせるエフェクトをエフェクトDB173から取得しても良い。または、コンピュータ1は「恐怖」感情に応じて、明滅させる演出効果を有するエフェクトをエフェクトDB173から取得しても良い。このように、被写体の感情に応じて、映像データに合った効果的なエフェクトを追加することができる。
図17は、エフェクトで装飾されたテロップを映像データに重畳して表示する際の処理手順を示すフローチャートである。コンピュータ1の制御部11は、被写体を含む映像データを大容量記憶部17の映像データDB172から取得する(ステップS121)。制御部11は、取得した映像データに基づき、感情を特定する処理のサブルーチンを実行する(ステップS122)。なお、感情特定処理のサブルーチンに関しては、実施形態1と同様であるため、説明を省略する。
制御部11は、取得した映像データに含まれる音声データを抽出する(ステップS123)。制御部11は、抽出した音声データに基づいて、上述したテロップ特定処理のサブルーチンを実行する(ステップS124)。制御部11は、特定した感情の種類に基づいて、大容量記憶部17のエフェクトDB173から該当するエフェクトのデータを取得する(ステップS125)。制御部11は、取得したエフェクトのデータを用いてテロップの装飾処理を行う(ステップS126)。例えば制御部11は、エフェクトのデータとテロップのデータとを結合して新たなテロップのデータを生成しても良い。
制御部11は、特定したテロップと、取得したエフェクトのデータとを対応付けて、大容量記憶部17のエフェクト設定結果DB175に記憶する(ステップS127)。具体的には、制御部11は、映像IDに対応付けて、テロップを装飾したエフェクトの設定結果(時間、テロップ及びエフェクトID)をエフェクト設定結果DB175に記憶する。制御部11は表示部15を介して、装飾したテロップのデータを映像データに重畳して表示し(ステップS128)、処理を終了する。
図18は、テロップの表示画面の一例を示す説明図である。該画面は、映像表示欄12a及びテロップ表示欄12bを含む。映像表示欄12aは、映像データを表示する表示欄である。テロップ表示欄12bは、テロップを表示する表示欄である。
コンピュータ1は、被写体を含む映像データを映像データDB172から取得する。コンピュータ1は、取得した映像データに基づき、感情特定モデル171を用いて被写体の感情を特定する。図示のように、特定された感情が「喜び」である。コンピュータ1は、取得した映像データに含まれる音声データ基づいて、映像データに重畳するテロップを特定する。図示のように、特定されたテロップが「負けたくないので頑張ります」である。
コンピュータ1は、特定した感情の種類に基づいて、エフェクトDB173から該当するエフェクトのデータを取得する。例えばコンピュータ1は、明滅させる演出効果を有するエフェクトのデータを取得する。コンピュータ1は、取得したエフェクトのデータを用いてテロップの装飾処理を行い、装飾したテロップのデータを映像データに重畳して表示する。
図示のように、コンピュータ1は、映像データを映像表示欄12aに表示し、特定したテロップをテロップ表示欄12bに表示する。左側のテロップ表示欄12bには、エフェクトで装飾されていないテロップが表示される。右側のテロップ表示欄12bには、エフェクトで装飾されたテロップが表示される。
本実施形態によると、映像データに含まれている音声データをテキスト化することにより、当該映像データに重畳するテロップを取得することが可能となる。
本実施形態によると、映像データに含まれている音声データの特徴量に基づき、当該映像データに重畳するテロップを取得することが可能となる。
本実施形態によると、テロップ特定モデル176を用いて、映像データに重畳するテロップを取得することが可能となる。
本実施形態によると、被写体の感情に応じて、テロップを装飾したエフェクトを決定することが可能となる。
本実施形態によると、エフェクトで装飾されたテロップを映像データに重畳して表示することが可能となる。
(実施形態3)
実施形態3は、映像データに対してエフェクトまたはテロップの設定処理を行う形態に関する。なお、実施形態1~2と重複する内容については説明を省略する。
図19は、映像データに対するエフェクトの設定画面の一例を示す説明図である。該画面は、切り替えタブ13a、エフェクトなし映像表示欄13b、エフェクトあり映像表示欄13c、画像エフェクト設定欄13d、音声エフェクト設定欄13e、保存ボタン13f、エフェクトなし映像再生欄13g及びエフェクトあり映像再生欄13hを含む。
切り替えタブ13aは、時間帯ごとに映像データを切り替えて表示するためのタブである。切り替えタブ13aは、特定された感情に対応する時間帯に基づいて生成される。例えば、0~15秒の間に特定された感情(例えば、怒り)が同一である場合、当該時間帯に基づいてタブを生成する。なお、切り替えタブ13aは、所定の時間帯(例えば、1秒)ごとに生成されても良い。
エフェクトなし映像表示欄13bは、エフェクトを追加していない映像データを表示する表示欄である。エフェクトあり映像表示欄13cは、エフェクトを追加した映像データを表示する表示欄である。画像エフェクト設定欄13dは、映像データに追加する画像のエフェクトを設定する設定欄である。音声エフェクト設定欄13eは、映像データに追加する音声のエフェクトを設定する設定欄である。保存ボタン13fは、映像データに追加されたエフェクトを保存するボタンである。
エフェクトなし映像再生欄13gは、映像データの現在の再生位置を示すシークバー(seek bar)、再生ボタン、早送りボタン及び早戻しボタンを含む。コンピュータ1は、エフェクトなし映像再生欄13gにより再生、早送りまたは早戻しの操作を受け付けた場合、エフェクトを追加していない映像データに対して再生、早送りまたは早戻し処理を行う。エフェクトあり映像再生欄13hの構成は、エフェクトなし映像再生欄13gの構成と同様であるため、説明を省略する。コンピュータ1は、エフェクトあり映像再生欄13hにより再生、早送りまたは早戻しの操作を受け付けた場合、エフェクトを追加した映像データに対して再生、早送りまたは早戻し処理を行う。
コンピュータ1は、被写体を含む映像データを映像データDB172から取得する。コンピュータ1は、取得した映像データに基づいて、感情特定モデル171を用いて被写体の感情を特定する。コンピュータ1は、切り替えタブ13aのタッチ(クリック)操作を受け付けた場合、指定された時間帯の画面に切り替える。コンピュータ1は、指定された時間帯に対応する映像データをエフェクトなし映像表示欄13bに表示する。
コンピュータ1は、指定された時間帯の映像データに対応する感情を特定結果から取得する。コンピュータ1は、取得した感情に応じて、エフェクトDB173から該当するすべての画像のエフェクトのデータ及び音声のエフェクトのデータを取得する。なお、例えば、エフェクトDB173からエフェクトIDの順に所定数量(例えば、6個)の画像のエフェクトのデータ及び音声のエフェクトのデータを取得しても良い。
コンピュータ1は、取得した画像のエフェクトのデータの数量に応じて、画像エフェクト設定欄13dに画像のエフェクトを設定するためのボタンを複数生成する。また、画像エフェクト設定欄13dには、画像のエフェクトを設定していないボタンが設けられる。図示のように、画像エフェクト設定欄13dには、画像エフェクトボタン13d1、画像エフェクトボタン13d2、画像エフェクトボタン13d3、及び画像エフェクト設定なしボタン13d4が生成される。
コンピュータ1は、例えば画像エフェクトボタン13d1のタッチ操作を受け付けた場合、画像エフェクトボタン13d1に対応する画像のエフェクトのデータを取得する。コンピュータ1は、エフェクトあり映像表示欄13cに、取得した画像のエフェクトのデータを映像データに重畳して表示する。コンピュータ1は、例えば画像エフェクト設定なしボタン13d4のタッチ操作を受け付けた場合、映像データに重畳して表示されたエフェクトのデータを映像データから削除する。
また、複数のエフェクトのデータを映像データに重畳して表示することができる。例えばコンピュータ1は、画像エフェクトボタン13d1及び画像エフェクトボタン13d2のタッチ操作それぞれを受け付けた場合、画像エフェクトボタン13d1及び画像エフェクトボタン13d2それぞれに対応する画像のエフェクトのデータを取得する。コンピュータ1は、エフェクトあり映像表示欄13cに、取得した二つの画像のエフェクトのデータを映像データに同時に重畳して表示する。
なお、最初はディフォルトのエフェクトが画像エフェクト設定欄13dに表示されても良い。または、ユーザ毎によく使われるエフェクト、若しくはユーザが前回使用したエフェクトが画像エフェクト設定欄13dに表示されても良い。
コンピュータ1は、取得した音声のエフェクトのデータの数量に応じて、音声エフェクト設定欄13eに音声のエフェクトを設定するためのボタンを複数生成する。また、音声エフェクト設定欄13eには、音声のエフェクトを設定していないボタンが設けられる。図示のように、音声エフェクト設定欄13eには、音声エフェクトボタン13e1、音声エフェクトボタン13e2、音声エフェクトボタン13e3、及び音声エフェクト設定なしボタン13e4が生成される。なお、音声のエフェクトの設定処理については、画像のエフェクトの設定処理と同様であるため、説明を省略する。
コンピュータ1は、保存ボタン13fのタッチ操作を受け付けた場合、映像IDに対応付けて、画像におけるエフェクトの設定結果(フレーム番号、感情の種類及びエフェクトID)、及び音声におけるエフェクトの設定結果(時間、感情の種類及びエフェクトID)をエフェクト設定結果DB175に記憶する。
図20は、映像データに対するテロップの設定画面の一例を示す説明図である。なお、図19と重複する内容については同一の符号を付して説明を省略する。該画面は、テロップ表示欄14a、テロップエフェクト設定欄14b、エフェクトなし映像再生欄14c及びエフェクトあり映像再生欄14dを含む。テロップ表示欄14aは、映像データに追加したテロップを表示する表示欄である。テロップエフェクト設定欄14bは、テロップを装飾したエフェクトを設定する設定欄である。
エフェクトなし映像再生欄14cは、映像データの現在の再生位置を示すシークバー、再生ボタン、早送りボタン及び早戻しボタンを含む。コンピュータ1は、エフェクトなし映像再生欄14cにより再生、早送りまたは早戻しの操作を受け付けた場合、エフェクトで装飾されていないテロップを重畳した映像データに対し、再生、早送りまたは早戻し処理を行う。エフェクトあり映像再生欄14dの構成は、エフェクトなし映像再生欄14cの構成と同様であるため、説明を省略する。コンピュータ1は、エフェクトあり映像再生欄14dにより再生、早送りまたは早戻しの操作を受け付けた場合、エフェクトで装飾されたテロップを重畳した映像データに対し、再生、早送りまたは早戻し処理を行う。
コンピュータ1は、被写体を含む映像データを映像データDB172から取得する。コンピュータ1は、取得した映像データに基づき、感情特定モデル171を用いて被写体の感情を特定する。コンピュータ1は、取得した映像データに含まれる音声データを抽出する。コンピュータ1は、抽出した音声データに基づいて、テロップ特定モデル176を用いるテロップを特定する。コンピュータ1は、特定したテロップをテロップ表示欄14aに表示する。図示のように、特定された「負けたくないので頑張ります」がテロップ表示欄14aに表示される。
コンピュータ1は特定した感情に応じて、エフェクトDB173から該当するエフェクトのデータを複数取得する。コンピュータ1は、取得したエフェクトのデータの数量に応じて、テロップエフェクト設定欄14bに、テロップのエフェクトを設定するためのボタンを複数生成する。また、テロップエフェクト設定欄14bには、テロップのエフェクトを設定していないボタンが設けられる。なお、テロップエフェクト設定欄14bに関しては、図19の画像エフェクト設定欄13dまたは音声エフェクト設定欄13eと同様であるため、説明を省略する。
コンピュータ1は、保存ボタン13fのタッチ操作を受け付けた場合、映像IDに対応付けて、テロップにおける設定結果(時間、テロップ及びエフェクトID)をエフェクト設定結果DB175に記憶する。
図21は、映像データに対してエフェクトを設定する際の処理手順を示すフローチャートである。コンピュータ1の制御部11は、被写体を含む映像データを映像データDB172から取得する(ステップS131)。制御部11は、取得した映像データに基づいて、感情を特定する処理のサブルーチンを実行する(ステップS132)。制御部11は、特定した感情に応じて、大容量記憶部17のエフェクトDB173から該当する複数のエフェクトのデータを取得する(ステップS133)。エフェクトのデータは、画像のエフェクトのデータ及び音声のエフェクトのデータを含む。
制御部11は、取得したエフェクトのデータの数量に応じて、エフェクトを設定するためのボタンを複数生成する(ステップS134)。具体的には、制御部11は、取得した画像のエフェクトのデータの数量に応じて、画像のエフェクトを設定するためのボタンを複数生成する。制御部11は、取得した音声のエフェクトのデータの数量に応じて、音声のエフェクトを設定するためのボタンを複数生成する。
制御部11は、生成したエフェクトのボタンを通じて、ユーザによるエフェクトの選択を入力部14により受け付ける(ステップS135)。なお、単一または複数のエフェクトを選択することができる。制御部11は表示部15を介して、受け付けたエフェクトのデータを映像データに重畳して表示する(ステップS136)。
制御部11は、エフェクトの設定結果の記憶指示を入力部14により受け付ける(ステップS137)。制御部11は映像IDに対応付けて、エフェクトの設定結果を大容量記憶部17のエフェクト設定結果DB175に記憶する(ステップS138)。具体的には、制御部11は映像IDに対応付けて、画像におけるエフェクトの設定結果(フレーム番号、感情の種類及びエフェクトID)、及び音声におけるエフェクトの設定結果(時間、感情の種類及びエフェクトID)をエフェクト設定結果DB175に記憶する。制御部11は、処理を終了する。
図22は、映像データに対してテロップを設定する際の処理手順を示すフローチャートである。なお、図17と重複する内容については同一の符号を付して説明を省略する。コンピュータ1の制御部11は、ステップS124の処理を実行した後に、特定した感情に応じて、大容量記憶部17のエフェクトDB173から該当する複数のエフェクトのデータを取得する(ステップS141)。
制御部11は、取得したエフェクトのデータの数量に応じて、テロップのエフェクトを設定するためのボタンを複数生成する(ステップS142)。制御部11は、生成したエフェクトのボタンを通じて、ユーザによるエフェクトの選択を入力部14により受け付ける(ステップS143)。制御部11は、受け付けたエフェクトのデータを用いてテロップの装飾処理を行う(ステップS144)。制御部11は表示部15を介して、エフェクトで装飾されたテロップのデータを映像データに重畳して表示する(ステップS145)。
制御部11は、エフェクトの設定結果の記憶指示を入力部14により受け付ける(ステップS146)。制御部11は映像IDに対応付けて、エフェクトの設定結果(時間、テロップ及びエフェクトID)を大容量記憶部17のエフェクト設定結果DB175に記憶し(ステップS147)、処理を終了する。
本実施形態によると、映像データに対し、適切なエフェクトを設定(追加)することが可能となる。
本実施形態によると、映像データに対し、適切なテロップ及び当該テロップを装飾したエフェクトを設定することが可能となる。
(実施形態4)
実施形態4は、映像データから無音部分のデータを検出し、検出した無音部分のデータ以外の映像データを連結して出力する形態に関する。なお、実施形態1~3と重複する内容については説明を省略する。
図23は、無音部分以外の映像データを連結して出力する際の処理手順を示すフローチャートである。コンピュータ1の制御部11は、映像データを大容量記憶部17の映像データDB172から取得する(ステップS131)。制御部11は、取得した映像データから無音部分のデータを検出する(ステップS132)。
例えば制御部11は、音声の波形を解析し、波形の特に変化のないポイントを無音部分として検出しても良い。または、制御部11は音声データの音量レベルに基づいて無音部分のデータを検出しても良い。具体的には、制御部11は、取得した映像データに含まれる音声データの音量レベルを検出する。制御部11は、検出した音量レベルが所定の閾値以下である期間が、所定の時間の間継続した場合に、無音部分のデータとして検出する。すなわち、無音検出等の周知の技術を用いて、無音部分のデータを検出することができる。
制御部11は、検出した無音部分のデータをカット(削除)し、無音部分のデータ以外の映像データを連結する(ステップS133)。制御部11は、連結した映像データを大容量記憶部17の映像データDB172に記憶し(ステップS134)、処理を終了する。具体的には、制御部11は、連結した映像データに対して映像IDを割り振って、割り振った映像IDに対応付けて当該映像データを一つのレコードとして映像データDB172に記憶する。
そして、上述した処理から得られた映像データを用いて、実施形態1でのエフェクト特定処理または実施形態2でのテロップ特定処理と同様に、映像データに追加すべきエフェクトまたはテロップを特定することができる。特定されたエフェクトまたはテロップが映像データに重畳して表示される。
本実施形態によると、無音部分のデータ以外の映像データを連結して出力することが可能となる。
本実施形態によると、映像データから無音部分のデータを自動的にカットすることにより、映像データの編集時間を節約することが可能となる。
なお、実施形態1~4では、映像データを映像データDB172に記憶した例を説明したが、これに限るものではない。例えば、映像データを記憶したデータベース装置(DBサーバ)を備え、ユーザ端末側でユーザにより映像データをデータベース装置にアップロードしても良い。この場合、コンピュータ1は、映像データをデータベース装置から取得し、取得した映像データに基づいてエフェクトまたはテロップを特定する。なお、データベース装置のほか、例えばコンピュータ1は、映像データを提供したプラットフォームから映像データを取得しても良い。
今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 情報処理装置(コンピュータ)
11 制御部
12 記憶部
13 通信部
14 入力部
15 表示部
16 読取部
17 大容量記憶部
171 感情特定モデル(第1学習モデル)
172 映像データDB
173 エフェクトDB
174 訓練データDB
175 エフェクト設定結果DB
176 テロップ特定モデル(第2学習モデル)
1a 可搬型記憶媒体
1b 半導体メモリ
1P 制御プログラム

Claims (11)

  1. 被写体を含む映像データを取得し、
    取得した映像データを第1表示欄及び第2表示欄に同時に表示し、
    前記映像データに基づいて前記被写体の感情を特定し、
    特定した感情に応じて、画像のエフェクト及び音声のエフェクトを複数取得し、
    取得した各画像のエフェクト及び各音声のエフェクトの選択を受け付けるための第1選択用オブジェクトを複数表示し、
    表示した第1選択用オブジェクトを通じて、前記映像データに追加すべき画像のエフェクト及び音声のエフェクトの選択を受け付け、
    前記第2表示欄に、受け付けた画像のエフェクトを前記映像データに重畳して表示し、
    前記映像データに含まれている音声データに基づき、前記映像データに重畳するテロップを取得し、
    前記第1表示欄及び前記第2表示欄に、取得したテロップを前記映像データに重畳して表示し、
    特定した感情に基づき、前記テロップを装飾するための装飾のエフェクトを複数取得し、
    取得した各装飾のエフェクトの選択を受け付けるための第2選択用オブジェクトを複数表示し、
    表示した第2選択用オブジェクトを通じて、前記テロップを装飾すべき装飾のエフェクトの選択を受け付け、
    前記第2表示欄に、受け付けた装飾のエフェクトで装飾された前記テロップを、前記映像データに重畳して表示する
    処理をコンピュータに実行させるプログラム。
  2. 前記映像データを入力した場合に、前記映像データに含まれる被写体の感情を特定するよう学習済みの第1学習モデルに、取得した映像データを入力して、前記被写体の感情を特定した特定結果を出力する
    処理を実行させる請求項1に記載のプログラム。
  3. 前記映像データに含まれる音声データから、前記被写体の発話におけるピッチ、話速または抑揚に基づく特徴量を抽出し、
    抽出した前記特徴量に基づいて、前記被写体の感情を特定する
    処理を実行させる請求項1に記載のプログラム。
  4. 感情の種類に基づいて設けられたエフェクトデータベースから、前記感情を表すエフェクトを取得する
    処理を実行させる請求項1に記載のプログラム。
  5. 前記エフェクトを前記映像データに重畳して表示する
    処理を実行させる請求項1から4のいずれか一つに記載のプログラム。
  6. 前記映像データに含まれている音声データをテキスト化し、
    テキスト化したテキストデータの一部を、前記映像データに重畳するテロップとして取得し、
    取得したテロップを前記映像データに重畳して表示する
    処理を実行させる請求項1から5のいずれか一つに記載のプログラム。
  7. 前記映像データに含まれている音声データの特徴量に基づき、前記映像データに重畳するテロップを取得し、
    取得したテロップを前記映像データに重畳して表示する
    処理を実行させる請求項1から5のいずれか一つに記載のプログラム。
  8. 前記映像データに含まれている音声データを入力した場合に、前記映像データに重畳するテロップを特定するよう学習済みの第2学習モデルに、取得した前記音声データを入力して、前記テロップを特定した特定結果を出力し、
    出力した特定結果に含まれるテロップを前記映像データに重畳して表示する
    処理を実行させる請求項1から5のいずれか一つに記載のプログラム。
  9. 特定した感情に基づき、前記テロップを装飾したエフェクトを決定し、
    決定したエフェクトで装飾されたテロップを前記映像データに重畳して表示する
    処理を実行させる請求項6から8のいずれか一つに記載のプログラム。
  10. 前記映像データから無音部分のデータを検出し、
    検出した無音部分のデータ以外の映像データを連結して出力する
    処理を実行させる請求項1から9のいずれか一つに記載のプログラム。
  11. 制御部を備える情報処理装置であって、
    前記制御部は、
    被写体を含む映像データを取得し、
    取得した映像データを第1表示欄及び第2表示欄に同時に表示し、
    前記映像データに基づいて前記被写体の感情を特定し、
    特定した感情に応じて、画像のエフェクト及び音声のエフェクトを複数取得し、
    取得した各画像のエフェクト及び各音声のエフェクトの選択を受け付けるための第1選択用オブジェクトを複数表示し、
    表示した第1選択用オブジェクトを通じて、前記映像データに追加すべき画像のエフェクト及び音声のエフェクトの選択を受け付け、
    前記第2表示欄に、受け付けた画像のエフェクトを前記映像データに重畳して表示し、
    前記映像データに含まれている音声データに基づき、前記映像データに重畳するテロップを取得し、
    前記第1表示欄及び前記第2表示欄に、取得したテロップを前記映像データに重畳して表示し、
    特定した感情に基づき、前記テロップを装飾するための装飾のエフェクトを複数取得し、
    取得した各装飾のエフェクトの選択を受け付けるための第2選択用オブジェクトを複数表示し、
    表示した第2選択用オブジェクトを通じて、前記テロップを装飾すべき装飾のエフェクトの選択を受け付け、
    前記第2表示欄に、受け付けた装飾のエフェクトで装飾された前記テロップを、前記映像データに重畳して表示する
    情報処理装置。
JP2021127660A 2021-08-03 2021-08-03 プログラム及び情報処理装置 Active JP7385289B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021127660A JP7385289B2 (ja) 2021-08-03 2021-08-03 プログラム及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021127660A JP7385289B2 (ja) 2021-08-03 2021-08-03 プログラム及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2023022665A JP2023022665A (ja) 2023-02-15
JP7385289B2 true JP7385289B2 (ja) 2023-11-22

Family

ID=85201719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021127660A Active JP7385289B2 (ja) 2021-08-03 2021-08-03 プログラム及び情報処理装置

Country Status (1)

Country Link
JP (1) JP7385289B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005142818A (ja) 2003-11-06 2005-06-02 Nippon Telegr & Teleph Corp <Ntt> ビデオメール通信方法/プログラム/端末装置
JP2007193824A (ja) 2000-04-13 2007-08-02 Fujifilm Corp 画像処理方法
US20070268312A1 (en) 2006-05-07 2007-11-22 Sony Computer Entertainment Inc. Methods and systems for processing an interchange of real time effects during video communication
JP2010011409A (ja) 2008-06-30 2010-01-14 Nippon Telegr & Teleph Corp <Ntt> 映像ダイジェスト装置及び映像編集プログラム
JP2019075124A (ja) 2017-10-18 2019-05-16 ネイバー コーポレーションNAVER Corporation カメラエフェクトを提供する方法およびシステム
WO2019230225A1 (ja) 2018-05-29 2019-12-05 ソニー株式会社 画像処理装置、画像処理方法、プログラム
JP2020181022A (ja) 2019-04-23 2020-11-05 コニカミノルタ株式会社 会議支援装置、会議支援システム、および会議支援プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193824A (ja) 2000-04-13 2007-08-02 Fujifilm Corp 画像処理方法
JP2005142818A (ja) 2003-11-06 2005-06-02 Nippon Telegr & Teleph Corp <Ntt> ビデオメール通信方法/プログラム/端末装置
US20070268312A1 (en) 2006-05-07 2007-11-22 Sony Computer Entertainment Inc. Methods and systems for processing an interchange of real time effects during video communication
JP2010011409A (ja) 2008-06-30 2010-01-14 Nippon Telegr & Teleph Corp <Ntt> 映像ダイジェスト装置及び映像編集プログラム
JP2019075124A (ja) 2017-10-18 2019-05-16 ネイバー コーポレーションNAVER Corporation カメラエフェクトを提供する方法およびシステム
WO2019230225A1 (ja) 2018-05-29 2019-12-05 ソニー株式会社 画像処理装置、画像処理方法、プログラム
JP2020181022A (ja) 2019-04-23 2020-11-05 コニカミノルタ株式会社 会議支援装置、会議支援システム、および会議支援プログラム

Also Published As

Publication number Publication date
JP2023022665A (ja) 2023-02-15

Similar Documents

Publication Publication Date Title
EP3803846B1 (en) Autonomous generation of melody
KR102222451B1 (ko) 텍스트 기반 사용자심리상태예측 및 콘텐츠추천 장치 및 그 방법
Weninger et al. On the acoustics of emotion in audio: what speech, music, and sound have in common
KR100446627B1 (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
WO2007043679A1 (ja) 情報処理装置およびプログラム
US11881209B2 (en) Electronic device and control method
KR102529262B1 (ko) 전자 장치 및 제어 방법
US11842721B2 (en) Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
CN112799630A (zh) 使用网络可寻址设备创建电影化的讲故事体验
WO2022242706A1 (zh) 基于多模态的反应式响应生成
JP7385289B2 (ja) プログラム及び情報処理装置
CN115618298A (zh) 基于多模态模型5g有害消息分析方法、装置和存储介质
WO2020121638A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
Rönnberg Classification of heavy metal subgenres with machine learning
KR102585031B1 (ko) 실시간 외국어 발음 평가시스템 및 방법
EP3846164B1 (en) Method and apparatus for processing voice, electronic device, storage medium, and computer program product
Kher Music Composer Recognition from MIDI Representation using Deep Learning and N-gram Based Methods
US11966663B1 (en) Speech processing and multi-modal widgets
JP2019021285A (ja) 情報処理システム、情報処理方法及びプログラム
Gurrala et al. Multilayer tag extraction for music recommendation systems
Rajan et al. Distance Metric Learnt Kernel-Based Music Classification Using Timbral Descriptors
Taj et al. Urdu Speech Emotion Recognition: A Systematic Literature Review
Jansson Musical source separation with deep learning and large-scale datasets
Gowriprasad et al. Structural Segmentation and Labelling of Tabla Solo Performances
Kokate et al. An Algorithmic Approach to Audio Processing and Emotion Mapping

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231102

R150 Certificate of patent or registration of utility model

Ref document number: 7385289

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150