JP6669952B1 - 動画のためのタグ付け装置、方法、およびプログラム - Google Patents

動画のためのタグ付け装置、方法、およびプログラム Download PDF

Info

Publication number
JP6669952B1
JP6669952B1 JP2018212076A JP2018212076A JP6669952B1 JP 6669952 B1 JP6669952 B1 JP 6669952B1 JP 2018212076 A JP2018212076 A JP 2018212076A JP 2018212076 A JP2018212076 A JP 2018212076A JP 6669952 B1 JP6669952 B1 JP 6669952B1
Authority
JP
Japan
Prior art keywords
tag
text information
moving image
unit
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018212076A
Other languages
English (en)
Other versions
JP2020079982A (ja
Inventor
泰隆 谷口
泰隆 谷口
山田 剛
剛 山田
吉村 俊司
俊司 吉村
淳 江尻
淳 江尻
Original Assignee
株式会社日本経済新聞社
株式会社テレビ東京ホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日本経済新聞社, 株式会社テレビ東京ホールディングス filed Critical 株式会社日本経済新聞社
Priority to JP2018212076A priority Critical patent/JP6669952B1/ja
Application granted granted Critical
Publication of JP6669952B1 publication Critical patent/JP6669952B1/ja
Publication of JP2020079982A publication Critical patent/JP2020079982A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】 動画のためのタグ付けを自動的に行うことが可能なタグ付け装置、方法、およびプログラムを提供すること。【解決手段】 タグ付け装置10は、動画ファイルを音声認識してテキスト情報へ変換する音声認識部12と、動画ファイルを画像解析し、動画ファイルにおけるシーンの切り替わりを判定する画像解析部13と、テキスト情報における時間的な切れ目と、テキスト情報における内容的な切れ目と、シーンの切り替わりとに基づいて、動画ファイルを複数のシーンに分割するシーン分割部17と、テキスト情報から、予め定められた規則に従って、タグを抽出するタグ抽出部18と、抽出されたタグを、複数のシーンのうち、対応するシーンに付与するタグ付与部19とを備える。【選択図】図1

Description

本発明は、例えばニュースやビジネス番組のような動画のためのタグ付け装置、方法、およびプログラムに関する。
動画配信サービスを提供したり、映像のアーカイブを管理するために、動画コンテンツのタグ付けは非常に重要である。
タグ付けを行うことで動画コンテンツの検索性が高まり、サービス分類も容易となる。
再表2016−051620号公報
しかしながら、タグ付け作業は、現在、特許文献1で開示されているように、人手を介してなされており、相当の労力を伴うため、運用者には敬遠されがちである。
そこで、手間も労力もかけずに、動画から自動的にタグ付けを行う装置、方法、およびプログラムの実現が望まれている。
本発明はこのような事情に鑑みてなされたものであり、動画のためのタグ付けを自動的に行うことが可能なタグ付け装置、方法、およびプログラムを提供することを目的とする。
上記目的を達成するための本発明の第1の観点のタグ付け装置は、動画ファイルを音声認識してテキスト情報へ変換する音声認識部と、動画ファイルを画像解析し、動画ファイルの映像において話者が正面を向いたとき、映像において話者が変わったとき、および、映像が切り替わったときを、動画ファイルにおけるシーンの切り替わりとして判定する画像解析部と、テキスト情報における時間的な切れ目と、テキスト情報における所定の接続詞によって決定される、テキスト情報における内容的な切れ目と、シーンの切り替わりとに基づいて、動画ファイルを複数のシーンに分割するシーン分割部と、テキスト情報から、予め定められた規則に従って、タグを抽出するタグ抽出部と、抽出されたタグを、複数のシーンのうち、対応するシーンに付与するタグ付与部とを備えたタグ付け装置である。
本発明の第2の観点のタグ付け装置は、第1の観点のタグ付け装置において、動画ファイルにおいて表示されるテロップを認識し、テロップのテキスト情報を取得するテロップ認識部をさらに備え、シーン分割部はさらに、テロップ認識部によってテロップが認識されたことに基づいて、動画ファイルを複数のシーンに分割し、タグ抽出部はさらに、テロップのテキスト情報から、予め定められた規則に従って、タグを抽出する。
本発明の第3の観点のタグ付け装置は、第2の観点のタグ付け装置において、動画ファイルに登場する人物の顔を認識する顔認識部と、顔認識部によって顔を認識された人物のパーソナル情報を示すテキスト情報を取得するパーソナル情報取得部とをさらに備え、シーン分割部はさらに、顔認識部によって顔が認識されたことに基づいて、動画ファイルを複数のシーンに分割し、タグ抽出部はさらに、パーソナル情報取得部によって取得されたテキスト情報から、予め定められた規則に従って、タグを抽出する。
本発明の第4の観点のタグ付け装置は、第3の観点のタグ付け装置において、シーン分割部は、テキスト情報における時間的な切れ目と、テキスト情報における内容的な切れ目と、シーンの切り替わりと、テロップが認識されたタイミングと、パーソナル情報取得部によってテキスト情報が取得されたタイミングとに基づく機械学習モデルを作成し、機械学習モデルを用いて、動画ファイルを前記複数のシーンに分割する。
本発明の第5の観点のタグ付け装置は、第1の観点のタグ付け装置において、時間的な切れ目は、動画ファイルにおいて、音声の途切れが、予め決定されたしきい値を超えた場合に対応する。
本発明の第の観点のタグ付け装置は、第1乃至の観点のうち何れかのタグ付け装置において、タグ付与部によって、対応するシーンに付与されたタグを、指定された分類別に表示画面から表示させる表示制御部をさらに備えている。
本発明の第の観点のタグ付け装置は、第の観点のタグ付け装置において、指定された分類は、会社コード、企業名、組織名、人名、テーマ情報、業界情報、およびジャンルのうちの少なくとも何れかを含む。
本発明の第の観点のタグ付け装置は、第1乃至の観点のうち何れかのタグ付け装置において、タグ付与部によって、対応するシーンに付与されたタグの削除、および、対応するシーンへの任意のタグの付与のうちの少なくとも何れかを、ユーザ指示に従って行う変更部をさらに備えている。
本発明の第の観点のタグ付け装置は、第1乃至の観点のうち何れかのタグ付け装置において、シーン分割部によって分割されたシーンの分割位置を、ユーザ指示に従って変更する変更部をさらに備えている。
本発明の第10の観点は、プロセッサによって実施されるタグ付け方法であって、プロセッサが、動画ファイルを音声認識してテキスト情報へ変換し、プロセッサが、動画ファイルを画像解析し、動画ファイルの映像において話者が正面を向いたとき、映像において話者が変わったとき、および、映像が切り替わったときを、動画ファイルにおけるシーンの切り替わりとして判定し、プロセッサが、テキスト情報における時間的な切れ目と、テキスト情報における内容的な切れ目と、テキスト情報における所定の接続詞によって決定される、シーンの切り替わりとに基づいて、動画ファイルを複数のシーンに分割し、プロセッサが、テキスト情報から、予め定められた規則に従って、タグを抽出し、プロセッサが、抽出されたタグを、複数のシーンのうち、対応するシーンに付与する、タグ付け方法である。
本発明の第11の観点は、動画ファイルを音声認識してテキスト情報へ変換する機能、動画ファイルを画像解析し、動画ファイルの映像において話者が正面を向いたとき、映像において話者が変わったとき、および、映像が切り替わったときを、動画ファイルにおけるシーンの切り替わりを判定する機能、テキスト情報における時間的な切れ目と、テキスト情報における所定の接続詞によって決定される、テキスト情報における内容的な切れ目と、シーンの切り替わりとに基づいて、動画ファイルを複数のシーンに分割する機能、テキスト情報から、予め定められた規則に従って、タグを抽出する機能、抽出されたタグを、複数のシーンのうち、対応するシーンに付与する機能をプロセッサに実現させるためのプログラムである。
本発明のタグ付け装置、方法、およびプログラムによれば、動画のためのタグ付けを自動的に行うことが可能となる。
本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置の構成例を示すブロック図である。 音声認識部によって動画ファイルから変換されたテキスト情報を例示するテキスト情報リストである。 Web環境で実現された実施例1のタグ付け装置の一例を示す概要構成図である。 実施例1のタグ付け装置の動作例を示すフローチャートである。 動画ファイルのアップロード時におけるユーザ端末における表示例を示す概念図である。 複数のシーンのサムネイルおよびテキスト情報の、ユーザ端末からの表示例を示す模式図である。 図6における映像表示ウィンドウおよびサムネイル表示ウィンドウを含む部位の拡大図である。 タグ情報データベースに書き込まれたタグ情報を例示する図である。 シーンと、シーンに付与されたタグの、ユーザ端末からの表示例を示す模式図である。 タグ情報データベースに書き込まれたログの閲覧画面の一例を示す図である。 Web環境で実現された実施例2のタグ付け装置の一例を示す概要構成図である。 ユーザ端末から動画配信プラットフォームへ動画ファイルをアップロードするための操作画面の一例を示す模式図である。 ユーザ端末におけるタグの表示例を示す模式図である。
以下に、本発明を実施するための最良の形態について図面を参照しながら説明する。
図1は、本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置の構成例を示すブロック図である。
本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置10は、動画ファイル受付部11と、音声認識部12と、画像解析部13と、テロップ認識部14と、顔認識部15と、パーソナル情報取得部16と、シーン分割部17と、タグ抽出部18と、タグ付与部19と、表示制御部20と、変更部21と、表示画面22と、記憶部23とを備えている。
記憶部23は、例えばSSD(Solid State Drive)や、ハードディスクドライブによって実現される。なお、記憶部23はデータを記憶することが可能であればよく、他の記憶媒体を使用することもできる。記憶部23は、後述する辞書データ23a、タグ情報データベース23b、パーソナル情報データベース23cを記憶している。
表示画面22は、例えばディスプレイによって実現することができる。
一方、動画ファイル受付部11、音声認識部12、画像解析部13、テロップ認識部14、顔認識部15、パーソナル情報取得部16、シーン分割部17、タグ抽出部18、タグ付与部19、表示制御部20、および変更部21は、図示しないプロセッサによって実現される。
動画ファイル受付部11は、タグ付けしたい動画ファイルを、ネットワークを介して、あるいは記録媒体によって受け取り、音声認識部12、画像解析部13、テロップ認識部14、顔認識部15へ出力する。
音声認識部12は、動画ファイル受付部11から出力された動画ファイルを、音声認識技術を用いて音声認識し、テキスト情報へ変換する。
画像解析部13は、動画ファイル受付部11から出力された動画ファイルを画像解析し、動画ファイルにおけるシーンの切り替わりを判定する。
テロップ認識部14は、動画ファイル受付部11から出力された動画ファイルにおいて表示されるテロップを認識し、テロップのテキスト情報、掲載位置(座標軸)、色目、およびフォント等を取得する。
顔認識部15は、動画ファイル受付部11から出力された動画ファイルに登場する人物の顔を認識し、認識結果である顔認識情報を、パーソナル情報取得部16へ出力する。
パーソナル情報データベース23cは、顔認識情報に対応するパーソナル情報(例えば、氏名、性別、人種、身長等)を、テキスト形式で蓄積したデータベースである。
パーソナル情報取得部16は、顔認識部15から出力された顔認識情報に対応するパーソナル情報(例えば、氏名、性別、人種、身長等)を、パーソナル情報データベース23cからテキスト情報の形式で取得する。そして、パーソナル情報に含まれる氏名を、後述する図2に示すテキスト情報リストrの話者名r6に書き込む。
シーン分割部17は、音声認識部12によって変換されたテキスト情報における時間的な切れ目、音声認識部12によって変換されたテキスト情報における内容的な切れ目、画像解析部13によって判定されたシーンの切り替わり、テロップ認識部14によってテロップが認識されたタイミング、顔認識部15によって顔が認識されたタイミング等に基づいて、動画ファイルを複数のシーンに分割する。
以下に、時間的な切れ目について、図2を用いて具体的に説明する。
図2は、音声認識部によって動画ファイルから変換されたテキスト情報を例示するテキスト情報リストである。
テキスト情報リストrは、テキスト番号r1、開始時間r2、終了時間r3、持続時間r4、テキスト情報r5、話者名r6からなる項目を備えている。
テキスト番号r1は、話者によって話されたスピーチの塊ごとに連番で振られる番号である。スピーチの塊は、必ずしも句点で終了する厳密な文とは限らず、音声認識部12によって認識される塊である。
開始時間r2は、動画ファイルにおける各スピーチの塊の開始時間を示す。
終了時間r3は、動画ファイルにおける各スピーチの塊の終了時間を示す。
持続時間r4は、各スピーチの塊の時間長さを示しており、終了時間r3から開始時間r2を減じた時間に等しい。
テキスト情報r5は、各スピーチの塊の音声から変換されたテキストを示す。
話者名r6は、各スピーチの塊の話者を示す。各スピーチの塊の話者は、前述したように、パーソナル情報取得部16によって書き込まれる。
音声認識部12は、テキスト情報リストrを用いて、各スピーチの塊間の時間的な切れ目を判定することができる。例えば、図2を用いて説明すると、テキスト番号r1=「0」のスピーチの塊の終了時間r3が「0:00:04」であり、次のテキストであるテキスト番号r1=「1」のスピーチの塊の開始時間r2が「0:00:08」であることから、テキスト番号r1=「0」のスピーチの塊が終了してから、テキスト番号r1=「1」のスピーチの塊が開始するまでに、4秒のポーズがあったことが分かる。
シーン分割部17は、このポーズがしきい時間を超えた場合、テキスト情報間に時間的な切れ目があると判定する。例えば、しきい時間を3秒とした場合、シーン分割部17は、テキスト情報間のポーズが、3秒よりも長い場合、テキスト情報間に時間的な切れ目があると判定する。例えば、図2に例示されるテキスト番号r1=「0」のテキスト情報と、テキスト番号r1=「1」のテキスト情報との間には、4秒のポーズがあるので、時間的な切れ目があると判定される。
次に、内容的な切れ目について説明する。内容的な切れ目とは、例えば、話題の切り替わるポイントに相当する。したがって、テキスト情報r5の文頭に、「さて」、「しかし」、「ところで」、「次に」のような接続詞がある場合、シーン分割部17は、内容が切り替わったと判定する。
次に、画像解析部13によって判定されるシーンの切り替わりについて説明する。
例えば、画像解析部13は、スタジオ映像から中継映像へ切り替わった場合や、逆に、中継映像からスタジオ映像へ切り替わった場合を、シーンの切り替わりと判定することができる。また、動画ファイルの映像において、話者が正面を向いたときを、シーンの切り替わりと判定することができる。さらに、動画ファイルの映像において、話者が変わったときを、シーンの切り替わりと判定することができる。さらにまた、動画ファイルにおいて、例えば、キャスターのバストアップ映像への切り替えがなされたときを、シーンの切り替わりと判定することもできる。ここで、シーンは、カメラの切り替わりであるカットの意味を持つカットの集合であるシーンも含む。例えば、天気予報コーナの間など、人の向きや映像が頻繁に切り替わってもシーンは「天気予報」となる。一方、例えばまったく「カット」が変わらなくても話している話題が変われば「シーン」は変わったと判定する。
なお、シーン分割部17は、動画ファイルを複数のシーンに分割する際、音声認識部12によって変換されたテキスト情報における時間的な切れ目、音声認識部12によって変換されたテキスト情報における内容的な切れ目、画像解析部13によって判定されたシーンの切り替わり、テロップ認識部14によってテロップが認識されたタイミング、顔認識部15によって顔が認識されたタイミング等を、それぞれ個別に考慮するのではなく、複合的に考慮してもよい。このような複合的な考慮を実施するために、例えば、テキスト情報における時間的な切れ目、テキスト情報における内容的な切れ目、シーンの切り替わり、テロップが認識されたタイミング、パーソナル情報取得部16によってテキスト情報が取得されたタイミング等に基づく機械学習モデルを作成し、この機械学習モデルを用いて、シーンを分割することもできる。
変更部21は、シーン分割部17によって分割されたシーンの分割位置を、ユーザ指示に従って変更することができる。
タグ抽出部18はさらに、音声認識部12によって変換されたテキスト情報、テロップ認識部14によって取得されたテロップのテキスト情報、掲載位置(座標軸)、色目、およびフォント、パーソナル情報取得部18によってテキスト情報から、予め定められた規則に従って、記憶部23に記憶された辞書データ23aを用いて、タグを抽出する。辞書データ23aは、例えば、経済、政治、スポーツ、文化、社会、海外情報等といったカテゴリ別に設けられていてもよい。
予め定められた規則は、テキスト情報からタグを抽出することに限らず、抽出したタグに関連する情報も、タグとして出力せよというものである。これを可能とするために、例えば、経済に関する辞書データ23aであれば、会社に関する会社コード、証券コード、企業名、組織名、人名、テーマ、場所、地域、業界、業種、ジャンル等を蓄積する。
これによって、タグ抽出部18は、例えば、テキスト情報から、タグとして企業名を抽出すると、経済に関する辞書データ23aを参照することによって、抽出された企業名に対応する会社コード、証券コード、業界、業種、ジャンル等も、タグとして抽出することができる。
タグ付与部19は、タグ抽出部18によって抽出されたタグを、対応するシーンに付与する。
タグ付与部19はさらに、タグと、タグに付されたシーンとの対応付けを示すタグ情報を、タグ情報データベース23bに書き込む。
表示制御部20は、タグ情報データベース23bに書き込まれたタグ情報に基づいて、シーンに付与されたタグを、該シーンのサムネイルとともに、あるいは、該シーンを再生しながら、表示画面22から表示させることができる。
変更部21は、タグ付与部19によって何れかのシーンに付与されたタグの削除や、何れかのシーンへの任意のタグの付与を、ユーザ指示に従って行う。また、前述したように、シーン分割部17によって分割されたシーンの分割位置を、ユーザ指示に従って変更することができる。変更部21は、これら変更処理の結果に応じて、タグ情報データベース23b内のタグ情報を更新する。
タグ情報データベース23bに書き込まれたタグ情報は、対応するシーンとともに、記録媒体に記録され、あるいは、ネットワークを介して、提供されることも可能である。
(実施例1)
上述したタグ付け装置10を、Web環境で実現した例を、実施例1として説明する。
図3は、Web環境で実現された実施例1のタグ付け装置の一例を示す概要構成図である。
タグ付け装置100は、処理サーバ110、音声認識エンジン120、および言語解析エンジン130を備えている。ユーザは、ユーザ端末140を介して処理サーバ110を操作することができる。
ユーザ端末140は、インターネット等の通信ネットワークを介して処理サーバ110と通信可能に接続されており、ユーザ端末140のディスプレイが、タグ付け装置10における表示画面22を実現することができる。
処理サーバ110は、ユーザ端末140、音声認識エンジン120、言語解析エンジン130および記憶部23と通信可能に接続されており、タグ付け装置10における動画ファイル受付部11、画像解析部13、顔認識部15、パーソナル情報取得部16、シーン分割部17、タグ抽出部18、タグ付与部19、表示制御部20、および変更部21を実現する。
音声認識エンジン120は、処理サーバ110と通信可能に接続されており、タグ付け装置10における音声認識部12を実現する。なお、図3では、処理サーバ110と音声認識エンジン120とは、通信ネットワークとしてインターネット150を介して通信可能に接続されている構成が例示されているが、通信ネットワークはインターネット150に限定されず、LANやVPN等であってもよい。
言語解析エンジン130は、インターネット等の通信ネットワークを介して処理サーバ110と通信可能に接続されており、タグ付け装置10におけるテロップ認識部14を実現するとともに、記憶部23にも通信可能に接続されている。
次に、タグ付け装置100の動作例について説明する。
図4は、実施例1のタグ付け装置の動作例を示すフローチャートである。
まず、ユーザがユーザ端末140から、例えばMP4ファイルのような動画ファイルを、処理サーバ110へアップロードする(S1)。
図5は、動画ファイルのアップロード時におけるユーザ端末における表示例を示す概念図である。
ユーザ端末140から処理サーバ110へ動画ファイルをアップロードする際には、ユーザ端末140の表示画面から、図5左側に示すような動画ファイルアップロードウィンドウGが表示される。
ユーザは、動画ファイルアップロードウィンドウGにおける表示に従って、動画ファイルを選択したり、オプションを設定することができる。すなわち、ユーザは、動画ファイル選択入力欄G1に表示されたファイル選択ボタンG12をマウス等によって指定することによって、アップロードする動画ファイルを選択することができる。また、辞書データ選択入力欄G2に表示されたファイル選択ボタンG22をマウス等によって指定することによって、タグ抽出のために使用される辞書データ23aを選択することができる。また、話者振り分け設定入力欄G3によって、動画ファイルを複数のシーンに分割する際に、話者に応じて分割するか否かを設定することができる。
また、ユーザは、動画ファイルにタイトルを付けたい場合、タイトル入力欄G4からタイトルを入力することができる。また、動画ファイルにコメントを加えたい場合、コメント入力欄G5からコメントを入力することができる。さらに、ユーザは、分割解析入力欄G6を「有効にする」と設定し、さらに、分割時間入力欄G61から分割時間(例えば、「5分」)を入力することによって、動画ファイルからシーンaを一定時間毎に分割するインタバルを設定することができる。
これら設定がなされた後、ユーザは、送信ボタンG8を、マウス等により選択することによって、指定した動画ファイルを、処理サーバ110へアップロードすることができる。一方、ユーザは、戻るボタンG7を、マウス等により選択すると、1つ前の画面へ戻ることができる。
動画ファイルのアップロードが完了すると、ユーザ端末140の表示画面に、図5右側に示すように、アップロード日時表示欄H1、アップロードユーザ表示欄H2、解析条件表示欄H3、およびファイル名表示欄H4を含むアプロード一覧ウィンドウHが表示される。
処理サーバ110は、アップロードされた動画ファイルを、音声認識エンジン120へ出力する(S2)。音声認識エンジン120は、処理サーバ110から出力された動画ファイルを、音声認識技術を用いて音声認識し、テキスト情報へ変換し、このテキスト情報を、処理サーバ110へ返す(S3)。
処理サーバ110はまた、動画ファイルを、画像解析し、動画ファイルにおけるシーンの切り替わりを判定する(S4)。
処理サーバ110はさらに、動画ファイルに人物が登場する場合(S5:Yes)、この人物の顔を認識し、認識結果として、顔認識情報を取得する(S6)。
その後、処理サーバ110は、顔認識情報に対応するパーソナル情報(例えば、氏名、性別、人種、身長等)を、パーソナル情報データベース23cからテキスト情報の形式で取得する(S7)。
なお、動画ファイルに人物が登場しない場合(S5:No)、ステップS6、S7の処理はバイパスされる。
処理サーバ110はまた、動画ファイルを、言語解析エンジン130へ出力する(S8)。
言語解析エンジン130は、処理サーバ110から出力された動画ファイルに、テロップが表示されている場合(S9:Yes)、このテロップを認識し、テロップのテキスト情報を取得し、取得したテキスト情報を処理サーバ110へ返す(S10)。
一方、処理サーバ110から出力された動画ファイルに、テロップが表示されていない場合(S9:No)、ステップS10の処理はバイパスされる。
その後、処理サーバ110は、ステップS3において音声認識エンジン120から返されたテキスト情報における時間的な切れ目および内容的な切れ目、ステップS4において判定されたシーンの切り替わり、ステップS7において取得されたパーソナル情報に関するテキスト情報、ステップS10において取得されたテロップのテキスト情報等に基づいて、例えば、前述したように機械学習モデルを用いて、動画ファイルを複数のシーンに分割する(S11)。
その後、処理サーバ110は、ステップS3において音声認識エンジン120から返されたテキスト情報、ステップS7において取得されたパーソナル情報に関するテキスト情報、ステップS10において取得されたテロップのテキスト情報から、予め定められた規則に従って、記憶部23に記憶された辞書データ23aを用いて、タグを抽出する(S12)。処理サーバ110はさらに、抽出されたタグに関連する情報も、タグとして出力することができる。
その後、処理サーバ110は、抽出されたタグを、ステップS11で分割された複数のシーンのうち、対応するシーンに付与する(S13)。
処理サーバ110はさらに、タグと、タグが付与されたシーンとの対応付けを示すタグ情報を生成し、タグ情報データベース23bに書き込む(S14)。
ユーザは、タグ情報データベース23bに書き込まれたタグ情報に基づいて、シーンに付与されたタグを、ユーザ端末140から、該シーンのサムネイルとともに、あるいは、該シーンを再生しながら表示画面22から表示させることができる(S15)。
図6は、複数のシーンのサムネイルおよびテキスト情報のユーザ端末からの表示例を示す模式図である。
上述したタグ付け処理の結果は、図6に例示するように、ユーザ端末140の表示画面から表示される。
サムネイル表示ウィンドウSには、処理サーバ110によって動画ファイルから分割されたシーンa1〜a7のサムネイルが表示される。
サムネイル表示ウィンドウSにおける各シーンa1〜a7の上部には、動画ファイルにおける各シーンa1〜a7の開始時間r2が表示される。また、サムネイル表示ウィンドウSにおける各シーンa1〜a7の下部には、各話者の登場時間を示すバーチャートも表示される。
テキスト表示ウィンドウXには、テキスト情報r5が表示される。
サムネイル表示ウィンドウSに表示される各シーンa1〜a5のサムネイルを、マウスのクリック等によって選択すると、映像表示ウィンドウMから、選択されたサムネイルに対応するシーンa(シーンa1〜a7のうちの何れか)の映像が表示されるとともに、映像表示ウィンドウMの下に配置されたテキスト表示ウィンドウYから、対応するシーンaのテキスト情報r5が表示される。
ユーザは、映像表示ウィンドウMから各シーンaの映像を表示させることによって、その内容を確認し、各シーンa1〜a7が、適切に分割されていることを確認することができる。
そして、分割位置が適切ではないシーンaに対しては、ユーザは、ユーザ端末140から処理サーバ110へユーザ指示を出力することによって、該シーンの分割位置を変更することができる。この分割位置変更処理を、図7を用いて具体的に説明する。
図7は、図6における映像表示ウィンドウおよびサムネイル表示ウィンドウを含む部位の拡大図である。
シーンa1〜a7の分割位置の変更は、ユーザが、ユーザ端末140を操作することによって、図7に示されるように、サムネイル表示ウィンドウSにおける分割開始位置設定矢印Z1によって開始位置を設定し、分割終了位置設定矢印Z2によって終了位置を設定することによって行われる。
図8は、タグ情報データベースに書き込まれたタグ情報を例示する図である。
図8に例示するタグ情報Iは、見出しI1、テキスト情報r5、開始時間r2、終了時間r3、記事IDI5、全タグI6、会社コードI7、証券コードI8、会社I9、組織I10、人I11、場所I12、地域I13、その他I14、業種I15、およびジャンルI16から構成される。
見出しI1は、処理サーバ110によって分割されたシーンに対して、ユーザによって任意に与えられる。
テキスト情報r5は、音声認識エンジン120によって動画ファイルから変換されたテキスト情報である。
開始時間r2は、動画ファイルにおけるシーンの開始時間を示す。
終了時間r3は、動画ファイルにおけるシーンの終了時間を示す。
記事IDI5は、シーン毎に一意に付与される識別情報である。
全タグI6は、テキスト情報r5から抽出されたすべてのタグを示す。
会社I9は、全タグI6に含まれる会社名を示す。
会社コードI7は、会社I9に対応する会社コード番号を示す。
証券コードI8は、会社I9に対応する証券コード番号を示す。
すなわち、会社コードI7および証券コードI8は、会社I9に関連する情報として抽出されたタグである。
一方、組織I10は、全タグI6に含まれる組織の名前を、人I11は、全タグI6に含まれる人の名前を、場所I12は、全タグI6に含まれる場所の名称を、地域I13は、全タグI6に含まれる地域の名称を示す。このように、組織I10、人I11、場所I12、地域I13は、全タグI6から抽出され、分類される。
その他I14は、全タグI6のうち、会社コードI7、証券コードI8、会社I9、組織I10、人I11、場所I12、地域I13の何れにも該当しないタグである。
業種I15およびジャンルI16は、全タグI6から類推される業種およびジャンルを表すタグである。このように、処理サーバ110はさらに、抽出されたタグから類推される情報をもタグとして出力することができる。そして、この場合、図8に示すように、類推された情報もタグとして含むタグ情報を生成することができる。
ユーザ端末140では、処理サーバ110から出力されたタグ情報Iに基づいて、シーンに付与されたタグを、例えばI7〜I13、I15、I16のような分類別に、シーンのサムネイルとともに、あるいは、シーンの映像を再生しながら表示することができる。
図9は、シーンと、シーンに付与されたの、ユーザ端末からの表示例を示す模式図である。
図9に例示されるように、ユーザ端末140から、映像表示ウィンドウMとタグ表示ウィンドウKとが表示されると、映像表示ウィンドウMからは、シーンaの映像が表示され、タグ表示ウィンドウKからは、表示されているシーンaに対応する全タグI6および分類されたタグ(I7〜I13、I15、I16)が表示される。
なお、図9では、タグとして、会社コードI7、会社I9、組織I10、人I11が例示されているが、マウス等によってスクロールバーRを上下に移動させることによって、図8に示すタグ(I6〜I16)のうちの任意のタグを表示させることができる。
図10は、タグ情報データベースに書き込まれたログ情報の閲覧画面の一例を示す図である。
図10に例示する閲覧画面では、図5に示すタイトル入力欄G4で入力された動画ファイルのタイトルL毎に、シーン番号E、開始時間r2、シーン画像m、全タグI6、会社コードI7、証券コードI8、会社I9、組織I10、人I11、場所I12、地域I13、その他I14といった各タグが表形式で表示される。
ユーザは、図10のように表示された結果を参照し、タグを削除したり、追加付与したり、シーンa1〜anの分割位置を変更するか否かを決定することができる。そして、タグを削除したり、追加付与したり、シーンa1〜anの分割位置を変更する場合(S16:Yes)、必要なユーザ指示を、ユーザ端末140から入力し、処理サーバ110へ出力することができる(S17)。
処理サーバ110は、ユーザ端末140から出力されたユーザ指示に応じて、タグの削除、追加、シーンの分割位置の変更といった変更処理を実施し(S18)、これら変更処理の結果に応じて、タグ情報データベース23b内のタグ情報Iを更新する(S19)。
一方、ステップS16において、変更処理がなされない場合(S16:No)、ステップS17、S18、S19の処理はバイパスされる。
タグ情報データベース23bに書き込まれたログ情報Iの内容は、図10のように、ユーザ端末140から表示され、ユーザによって確認される。
また、タグ情報データベース23bに書き込まれたログ情報Iは、例えば、インターネットのような通信ネットワークを介して、CSV、TXT、VTT、JSONファイル等の形式で提供されることが可能である。
(実施例2)
実施例1で説明したタグ付け装置の変形例を、実施例2として説明する。
図11は、Web環境で実現された実施例2のタグ付け装置の一例を示す概要構成図である。
図11に示すタグ付け装置105は、図3に示すタグ付け装置100の変形例であるので、図3と同じ部位については、同じ符号を付して重複説明を避け、以下では、実施例1と異なる点について説明する。
図11に示すタグ付け装置105は、図3に示すタグ付け装置100に、動画配信プラットフォーム160と、動画配信プラットフォーム160を操作するためのユーザ端末142とを追加した構成をしている。
ユーザ端末142は、インターネット等の通信ネットワークを介して動画配信プラットフォーム160と通信可能に接続されている。
動画配信プラットフォーム160は、ユーザ端末142および処理サーバ110とインターネット等の通信ネットワークを介して通信可能に接続されている。
タグ付け装置105では、タグ付け装置100と同様に、ユーザ端末140から、例えばMP4ファイルのような動画ファイルを、処理サーバ110へアップロードできる(S1)ことに加えて、ユーザ端末142からも、例えばMP4ファイルのような動画ファイルを、動画配信プラットフォーム160を経由して、処理サーバ110へアップロードできる。
なお、動画配信プラットフォーム160から処理サーバ110へ動画ファイルをアップロードする場合、動画配信プラットフォーム160から処理サーバ110へ動画ファイルを直接的にアップロードするのではなく、APIによって動画ファイルを音声ファイルに分離し、分離された音声ファイルを、処理サーバ110へアップロードするようにしてもよい。これによって、ファイルサイズの大きな動画ファイルを、動画配信プラットフォーム160から処理サーバ110へアップロードしないので、送信負荷を低減することができる。
図12は、ユーザ端末から動画配信プラットフォームへ動画ファイルをアップロードするための操作画面の一例を示す模式図である。
ユーザ端末142から動画配信プラットフォーム160へ動画ファイルをアップロードする場合には、ユーザ端末142に、図12に例示されるようなアップロード用操作画面が表示される。
ユーザ端末142を操作するユーザは、図12に例示されるようなアップロード用操作画面の指示に従って、マウス等により動画ファイルのファイル名またはアイコンをドラッグエリアDにドラッグすることによって、動画配信プラットフォーム160へアップロードする動画ファイルを指定することができる。
動画配信プラットフォーム160は、ユーザ端末142から動画ファイルをアップロードされると、この動画ファイルを受信し、前述したように、APIによって動画ファイルを音声ファイルに分離し、分離した各音声ファイルを、処理サーバ110へアップロードする。
その後は、実施例1で説明したように、処理サーバ110、音声認識エンジン120、および言語解析エンジン130が動作し、ステップS2〜S11の処理が行われることによって、処理サーバ110において、タグが抽出され(S12)、対応するシーンに付与される(S13)とともに、タグ情報が生成され、タグ情報データベース23bに書き込まれる(S14)。
生成されたタグ情報は、処理サーバ110から動画配信プラットフォーム160へも出力される。
これによって、シーンに付与されたタグは、図13に示すように、ユーザ端末140からのみならず、ユーザ端末142から表示することもできる(S15)。
図13は、ユーザ端末におけるタグの表示例を示す模式図である。
その後は、実施例1のステップS16〜S19で説明したように、ユーザは、ユーザ端末140から、必要なユーザ指示を入力することによって、タグの削除、追加付与、および分割位置の変更を行うことができる。
以上のように、動画配信プラットフォーム160のような他のシステムと連携したタグ付け装置105を構築することもできる。
上述したように、本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置によれば、動画のためのタグ付けを、自動的に行うことが可能となる。
特に、本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置は、動画ファイルを複数のシーンに分割するタイミングを、音声認識によって変換されたテキスト情報における時間的な切れ目および内容的な切れ目、シーンの切り替わり、テロップに関するテキスト情報、パーソナル情報に関するテキスト情報等を複合的に考慮することによって決定している。
したがって、動画ファイルから、複数のシーンが、適切なタイミングで、すなわち、内容的にまとまりのある単位毎に分割される。そして、このように適切に分割された各シーンのそれぞれに対して、タグが付与されるので、ユーザは、付与されたタグを参照することによって、シーンの内容を的確に把握できるようになる。
このように、各シーンに適切なタグが付与されることによって、映像のアーカイブの管理もより容易になる。さらには、動画コンテンツの検索性も向上し、サービス分類をより容易に行うことも可能となる。
以上、本発明を実施するための最良の形態について、添付図面を参照しながら説明したが、本発明はかかる構成に限定されない。特許請求の範囲の発明された技術的思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の技術的範囲に属するものと了解される。
本発明のタグ付け装置、方法、およびプログラムは、ニュース等のような番組の動画ファイルの管理のために好適に利用することができるが、番組の動画ファイルのみならず、会議や講演会等の動画ファイルの管理のためにも、利用することが可能である。
10、100、105・・タグ付け装置、
11・・動画ファイル受付部、
12・・音声認識部、
13・・画像解析部、
14・・テロップ認識部、
15・・顔認識部、
16・・パーソナル情報取得部、
17・・シーン分割部、
18・・タグ抽出部、
19・・タグ付与部、
20・・表示制御部、
21・・変更部、
22・・表示画面、
23・・記憶部、
23a・・辞書データ、
23b・・タグ情報データベース、
23c・・パーソナル情報データベース、
110・・処理サーバ、
120・・音声認識エンジン、
130・・言語解析エンジン、
140、142・・ユーザ端末、
150・・インターネット、
160・・動画配信プラットフォーム。

Claims (11)

  1. 動画ファイルを音声認識してテキスト情報へ変換する音声認識部と、
    前記動画ファイルを画像解析し、前記動画ファイルの映像において話者が正面を向いたとき、前記映像において話者が変わったとき、および、前記映像が切り替わったときを、前記動画ファイルにおけるシーンの切り替わりとして判定する画像解析部と、
    前記テキスト情報における時間的な切れ目と、前記テキスト情報における所定の接続詞によって決定される、前記テキスト情報における内容的な切れ目と、前記シーンの切り替わりとに基づいて、前記動画ファイルを複数のシーンに分割するシーン分割部と、
    前記テキスト情報から、予め定められた規則に従って、タグを抽出するタグ抽出部と、
    前記抽出されたタグを、前記複数のシーンのうち、対応するシーンに付与するタグ付与部と、
    を備えたタグ付け装置。
  2. 前記動画ファイルにおいて表示されるテロップを認識し、前記テロップのテキスト情報を取得するテロップ認識部をさらに備え、
    前記シーン分割部はさらに、前記テロップ認識部によってテロップが認識されたことに基づいて、前記動画ファイルを複数のシーンに分割し、
    前記タグ抽出部はさらに、前記テロップのテキスト情報から、予め定められた規則に従って、タグを抽出する、請求項1に記載のタグ付け装置。
  3. 前記動画ファイルに登場する人物の顔を認識する顔認識部と、
    前記顔認識部によって顔を認識された人物のパーソナル情報を示すテキスト情報を取得するパーソナル情報取得部とをさらに備え、
    前記シーン分割部はさらに、前記顔認識部によって顔が認識されたことに基づいて、前記動画ファイルを複数のシーンに分割し、
    前記タグ抽出部はさらに、前記パーソナル情報取得部によって取得されたテキスト情報から、予め定められた規則に従って、タグを抽出する、請求項2に記載のタグ付け装置。
  4. 前記シーン分割部は、前記テキスト情報における時間的な切れ目と、前記テキスト情報における内容的な切れ目と、前記シーンの切り替わりと、前記テロップが認識されたタイミングと、前記パーソナル情報取得部によってテキスト情報が取得されたタイミングとに基づく機械学習モデルを作成し、前記機械学習モデルを用いて、前記動画ファイルを前記複数のシーンに分割する、請求項3に記載のタグ付け装置。
  5. 前記時間的な切れ目は、前記動画ファイルにおいて、音声の途切れが、予め決定されたしきい値を超えた場合に対応する、請求項1に記載のタグ付け装置。
  6. 前記タグ付与部によって、前記対応するシーンに付与されたタグを、指定された分類別に表示画面から表示させる表示制御部をさらに備えた、請求項1乃至のうち何れか1項に記載のタグ付け装置。
  7. 前記指定された分類は、会社コード、企業名、組織名、人名、テーマ情報、業界情報、およびジャンルのうちの少なくとも何れかを含む、請求項に記載のタグ付け装置。
  8. 前記タグ付与部によって、前記対応するシーンに付与されたタグの削除、および、前記対応するシーンへの任意のタグの付与のうちの少なくとも何れかを、ユーザ指示に従って行う変更部をさらに備えた、請求項1乃至のうち何れか1項に記載のタグ付け装置。
  9. 前記シーン分割部によって分割されたシーンの分割位置を、ユーザ指示に従って変更する変更部をさらに備えた、請求項1乃至のうち何れか1項に記載のタグ付け装置。
  10. プロセッサによって実施されるタグ付け方法であって、
    前記プロセッサが、動画ファイルを音声認識してテキスト情報へ変換し、
    前記プロセッサが、前記動画ファイルを画像解析し、前記動画ファイルの映像において話者が正面を向いたとき、前記映像において話者が変わったとき、および、前記映像が切り替わったときを、前記動画ファイルにおけるシーンの切り替わりとして判定し、
    前記プロセッサが、前記テキスト情報における時間的な切れ目と、前記テキスト情報における所定の接続詞によって決定される、前記テキスト情報における内容的な切れ目と、前記シーンの切り替わりとに基づいて、前記動画ファイルを複数のシーンに分割し、
    前記プロセッサが、前記テキスト情報から、予め定められた規則に従って、タグを抽出し、
    前記プロセッサが、前記抽出されたタグを、前記複数のシーンのうち、対応するシーンに付与する、タグ付け方法。
  11. 動画ファイルを音声認識してテキスト情報へ変換する機能、
    前記動画ファイルを画像解析し、前記動画ファイルの映像において話者が正面を向いたとき、前記映像において話者が変わったとき、および、前記映像が切り替わったときを、前記動画ファイルにおけるシーンの切り替わりとして判定する機能、
    前記テキスト情報における時間的な切れ目と、前記テキスト情報における内容的な切れ目と、前記テキスト情報における所定の接続詞によって決定される、前記シーンの切り替わりとに基づいて、前記動画ファイルを複数のシーンに分割する機能、
    前記テキスト情報から、予め定められた規則に従って、タグを抽出する機能、
    前記抽出されたタグを、前記複数のシーンのうち、対応するシーンに付与する機能、
    をプロセッサに実現させるためのプログラム。
JP2018212076A 2018-11-12 2018-11-12 動画のためのタグ付け装置、方法、およびプログラム Active JP6669952B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018212076A JP6669952B1 (ja) 2018-11-12 2018-11-12 動画のためのタグ付け装置、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018212076A JP6669952B1 (ja) 2018-11-12 2018-11-12 動画のためのタグ付け装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP6669952B1 true JP6669952B1 (ja) 2020-03-18
JP2020079982A JP2020079982A (ja) 2020-05-28

Family

ID=70000711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018212076A Active JP6669952B1 (ja) 2018-11-12 2018-11-12 動画のためのタグ付け装置、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6669952B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613212A (zh) * 2020-05-13 2020-09-01 携程旅游信息技术(上海)有限公司 语音识别方法、系统、电子设备和存储介质
CN113225618A (zh) * 2021-05-06 2021-08-06 阿里巴巴新加坡控股有限公司 一种视频剪辑方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102242953B1 (ko) * 2020-07-14 2021-04-21 주식회사 포레스팅 주문형 콘텐츠 제작 방법, 서버 및 프로그램
JP7257010B2 (ja) * 2021-03-11 2023-04-13 株式会社アドバンスト・メディア 検索支援サーバ、検索支援方法及びコンピュータプログラム
JP7297266B2 (ja) * 2021-03-11 2023-06-26 株式会社アドバンスト・メディア 検索支援サーバ、検索支援方法及びコンピュータプログラム
US20240013801A1 (en) * 2022-07-07 2024-01-11 Getac Technology Corporation Audio content searching in multi-media

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4973188B2 (ja) * 2004-09-01 2012-07-11 日本電気株式会社 映像分類装置、映像分類プログラム、映像検索装置、および映像検索プログラム
JP4389964B2 (ja) * 2007-05-15 2009-12-24 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP5135024B2 (ja) * 2008-03-27 2013-01-30 株式会社東芝 コンテンツのシーン出現を通知する装置、方法およびプログラム
JP5370170B2 (ja) * 2009-01-15 2013-12-18 株式会社Jvcケンウッド 要約映像生成装置および要約映像生成方法
JP5106455B2 (ja) * 2009-03-18 2012-12-26 株式会社東芝 コンテンツ推薦装置及びコンテンツ推薦方法
JP6389296B1 (ja) * 2017-03-29 2018-09-12 西日本電信電話株式会社 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613212A (zh) * 2020-05-13 2020-09-01 携程旅游信息技术(上海)有限公司 语音识别方法、系统、电子设备和存储介质
CN111613212B (zh) * 2020-05-13 2023-10-31 携程旅游信息技术(上海)有限公司 语音识别方法、系统、电子设备和存储介质
CN113225618A (zh) * 2021-05-06 2021-08-06 阿里巴巴新加坡控股有限公司 一种视频剪辑方法及装置

Also Published As

Publication number Publication date
JP2020079982A (ja) 2020-05-28

Similar Documents

Publication Publication Date Title
JP6669952B1 (ja) 動画のためのタグ付け装置、方法、およびプログラム
KR102028198B1 (ko) 동영상 장면과 메타데이터 저작 방법
US10192583B2 (en) Video editing using contextual data and content discovery using clusters
CN103702039B (zh) 图像编辑装置和图像编辑方法
CN101150699B (zh) 信息处理装置和信息处理方法
EP3326379A1 (en) Media production system with scheduling feature
US20170168697A1 (en) Systems and methods for playing videos
JP2007148904A (ja) 情報提示方法、情報提示装置及び情報提示プログラム
US20110179003A1 (en) System for Sharing Emotion Data and Method of Sharing Emotion Data Using the Same
US20160142773A1 (en) Information processing apparatus, information processing method, and information processing program
JP2004362452A (ja) コンテンツ連動型コメント表示方法、コメント表示システム、サーバ装置、コメント表示装置及びコメント表示プログラム
US8028312B2 (en) Information processing apparatus and content registration method, and program
JP2007020195A (ja) 映像の検索方法および装置
JP2002108892A (ja) データ管理システム、データ管理方法、及び、記録媒体
CN113918522A (zh) 一种文件生成方法、装置及电子设备
KR102261221B1 (ko) 영상정보 획득 시스템 및 영상정보 표시 방법
CN113259708A (zh) 基于短视频介绍商品的方法、计算机设备和介质
JP2005341182A (ja) 料理レシピ編集提示システム
JP2009022018A (ja) 映像の検索方法および装置
JP2003224791A (ja) 映像の検索方法および装置
US20230260549A1 (en) Information processing apparatus, information processing method, and program
JP3931890B2 (ja) 映像の検索方法および装置
KR101647442B1 (ko) 비주얼 컨텐츠 제작 시스템, 방법 및 컴퓨터 판독 가능한 기록 매체
CN111818369B (zh) 多帐号之个人化人工智能电视界面显示方法及其系统
JP5074818B2 (ja) 会議記録管理装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181220

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190325

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200207

R150 Certificate of patent or registration of utility model

Ref document number: 6669952

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250