JP6669952B1

JP6669952B1 - 動画のためのタグ付け装置、方法、およびプログラム

Info

Publication number: JP6669952B1
Application number: JP2018212076A
Authority: JP
Inventors: 泰隆谷口; 山田　剛; 剛山田; 吉村　俊司; 俊司吉村; 淳江尻
Original assignee: 株式会社日本経済新聞社; 株式会社テレビ東京ホールディングス
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2020-03-18
Anticipated expiration: 2038-11-12
Also published as: JP2020079982A

Abstract

【課題】動画のためのタグ付けを自動的に行うことが可能なタグ付け装置、方法、およびプログラムを提供すること。【解決手段】タグ付け装置１０は、動画ファイルを音声認識してテキスト情報へ変換する音声認識部１２と、動画ファイルを画像解析し、動画ファイルにおけるシーンの切り替わりを判定する画像解析部１３と、テキスト情報における時間的な切れ目と、テキスト情報における内容的な切れ目と、シーンの切り替わりとに基づいて、動画ファイルを複数のシーンに分割するシーン分割部１７と、テキスト情報から、予め定められた規則に従って、タグを抽出するタグ抽出部１８と、抽出されたタグを、複数のシーンのうち、対応するシーンに付与するタグ付与部１９とを備える。【選択図】図１

Description

本発明は、例えばニュースやビジネス番組のような動画のためのタグ付け装置、方法、およびプログラムに関する。

動画配信サービスを提供したり、映像のアーカイブを管理するために、動画コンテンツのタグ付けは非常に重要である。

タグ付けを行うことで動画コンテンツの検索性が高まり、サービス分類も容易となる。

再表２０１６−０５１６２０号公報

しかしながら、タグ付け作業は、現在、特許文献１で開示されているように、人手を介してなされており、相当の労力を伴うため、運用者には敬遠されがちである。

そこで、手間も労力もかけずに、動画から自動的にタグ付けを行う装置、方法、およびプログラムの実現が望まれている。

本発明はこのような事情に鑑みてなされたものであり、動画のためのタグ付けを自動的に行うことが可能なタグ付け装置、方法、およびプログラムを提供することを目的とする。

上記目的を達成するための本発明の第１の観点のタグ付け装置は、動画ファイルを音声認識してテキスト情報へ変換する音声認識部と、動画ファイルを画像解析し、動画ファイルの映像において話者が正面を向いたとき、映像において話者が変わったとき、および、映像が切り替わったときを、動画ファイルにおけるシーンの切り替わりとして判定する画像解析部と、テキスト情報における時間的な切れ目と、テキスト情報における所定の接続詞によって決定される、テキスト情報における内容的な切れ目と、シーンの切り替わりとに基づいて、動画ファイルを複数のシーンに分割するシーン分割部と、テキスト情報から、予め定められた規則に従って、タグを抽出するタグ抽出部と、抽出されたタグを、複数のシーンのうち、対応するシーンに付与するタグ付与部とを備えたタグ付け装置である。

本発明の第２の観点のタグ付け装置は、第１の観点のタグ付け装置において、動画ファイルにおいて表示されるテロップを認識し、テロップのテキスト情報を取得するテロップ認識部をさらに備え、シーン分割部はさらに、テロップ認識部によってテロップが認識されたことに基づいて、動画ファイルを複数のシーンに分割し、タグ抽出部はさらに、テロップのテキスト情報から、予め定められた規則に従って、タグを抽出する。

本発明の第３の観点のタグ付け装置は、第２の観点のタグ付け装置において、動画ファイルに登場する人物の顔を認識する顔認識部と、顔認識部によって顔を認識された人物のパーソナル情報を示すテキスト情報を取得するパーソナル情報取得部とをさらに備え、シーン分割部はさらに、顔認識部によって顔が認識されたことに基づいて、動画ファイルを複数のシーンに分割し、タグ抽出部はさらに、パーソナル情報取得部によって取得されたテキスト情報から、予め定められた規則に従って、タグを抽出する。

本発明の第４の観点のタグ付け装置は、第３の観点のタグ付け装置において、シーン分割部は、テキスト情報における時間的な切れ目と、テキスト情報における内容的な切れ目と、シーンの切り替わりと、テロップが認識されたタイミングと、パーソナル情報取得部によってテキスト情報が取得されたタイミングとに基づく機械学習モデルを作成し、機械学習モデルを用いて、動画ファイルを前記複数のシーンに分割する。

本発明の第５の観点のタグ付け装置は、第１の観点のタグ付け装置において、時間的な切れ目は、動画ファイルにおいて、音声の途切れが、予め決定されたしきい値を超えた場合に対応する。

本発明の第６の観点のタグ付け装置は、第１乃至５の観点のうち何れかのタグ付け装置において、タグ付与部によって、対応するシーンに付与されたタグを、指定された分類別に表示画面から表示させる表示制御部をさらに備えている。

本発明の第７の観点のタグ付け装置は、第６の観点のタグ付け装置において、指定された分類は、会社コード、企業名、組織名、人名、テーマ情報、業界情報、およびジャンルのうちの少なくとも何れかを含む。

本発明の第８の観点のタグ付け装置は、第１乃至７の観点のうち何れかのタグ付け装置において、タグ付与部によって、対応するシーンに付与されたタグの削除、および、対応するシーンへの任意のタグの付与のうちの少なくとも何れかを、ユーザ指示に従って行う変更部をさらに備えている。

本発明の第９の観点のタグ付け装置は、第１乃至７の観点のうち何れかのタグ付け装置において、シーン分割部によって分割されたシーンの分割位置を、ユーザ指示に従って変更する変更部をさらに備えている。

本発明の第１０の観点は、プロセッサによって実施されるタグ付け方法であって、プロセッサが、動画ファイルを音声認識してテキスト情報へ変換し、プロセッサが、動画ファイルを画像解析し、動画ファイルの映像において話者が正面を向いたとき、映像において話者が変わったとき、および、映像が切り替わったときを、動画ファイルにおけるシーンの切り替わりとして判定し、プロセッサが、テキスト情報における時間的な切れ目と、テキスト情報における内容的な切れ目と、テキスト情報における所定の接続詞によって決定される、シーンの切り替わりとに基づいて、動画ファイルを複数のシーンに分割し、プロセッサが、テキスト情報から、予め定められた規則に従って、タグを抽出し、プロセッサが、抽出されたタグを、複数のシーンのうち、対応するシーンに付与する、タグ付け方法である。

本発明の第１１の観点は、動画ファイルを音声認識してテキスト情報へ変換する機能、動画ファイルを画像解析し、動画ファイルの映像において話者が正面を向いたとき、映像において話者が変わったとき、および、映像が切り替わったときを、動画ファイルにおけるシーンの切り替わりを判定する機能、テキスト情報における時間的な切れ目と、テキスト情報における所定の接続詞によって決定される、テキスト情報における内容的な切れ目と、シーンの切り替わりとに基づいて、動画ファイルを複数のシーンに分割する機能、テキスト情報から、予め定められた規則に従って、タグを抽出する機能、抽出されたタグを、複数のシーンのうち、対応するシーンに付与する機能をプロセッサに実現させるためのプログラムである。

本発明のタグ付け装置、方法、およびプログラムによれば、動画のためのタグ付けを自動的に行うことが可能となる。

本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置の構成例を示すブロック図である。音声認識部によって動画ファイルから変換されたテキスト情報を例示するテキスト情報リストである。Ｗｅｂ環境で実現された実施例１のタグ付け装置の一例を示す概要構成図である。実施例１のタグ付け装置の動作例を示すフローチャートである。動画ファイルのアップロード時におけるユーザ端末における表示例を示す概念図である。複数のシーンのサムネイルおよびテキスト情報の、ユーザ端末からの表示例を示す模式図である。図６における映像表示ウィンドウおよびサムネイル表示ウィンドウを含む部位の拡大図である。タグ情報データベースに書き込まれたタグ情報を例示する図である。シーンと、シーンに付与されたタグの、ユーザ端末からの表示例を示す模式図である。タグ情報データベースに書き込まれたログの閲覧画面の一例を示す図である。Ｗｅｂ環境で実現された実施例２のタグ付け装置の一例を示す概要構成図である。ユーザ端末から動画配信プラットフォームへ動画ファイルをアップロードするための操作画面の一例を示す模式図である。ユーザ端末におけるタグの表示例を示す模式図である。

以下に、本発明を実施するための最良の形態について図面を参照しながら説明する。

図１は、本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置の構成例を示すブロック図である。

本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置１０は、動画ファイル受付部１１と、音声認識部１２と、画像解析部１３と、テロップ認識部１４と、顔認識部１５と、パーソナル情報取得部１６と、シーン分割部１７と、タグ抽出部１８と、タグ付与部１９と、表示制御部２０と、変更部２１と、表示画面２２と、記憶部２３とを備えている。

記憶部２３は、例えばＳＳＤ（Solid State Drive）や、ハードディスクドライブによって実現される。なお、記憶部２３はデータを記憶することが可能であればよく、他の記憶媒体を使用することもできる。記憶部２３は、後述する辞書データ２３ａ、タグ情報データベース２３ｂ、パーソナル情報データベース２３ｃを記憶している。

表示画面２２は、例えばディスプレイによって実現することができる。

一方、動画ファイル受付部１１、音声認識部１２、画像解析部１３、テロップ認識部１４、顔認識部１５、パーソナル情報取得部１６、シーン分割部１７、タグ抽出部１８、タグ付与部１９、表示制御部２０、および変更部２１は、図示しないプロセッサによって実現される。

動画ファイル受付部１１は、タグ付けしたい動画ファイルを、ネットワークを介して、あるいは記録媒体によって受け取り、音声認識部１２、画像解析部１３、テロップ認識部１４、顔認識部１５へ出力する。

音声認識部１２は、動画ファイル受付部１１から出力された動画ファイルを、音声認識技術を用いて音声認識し、テキスト情報へ変換する。

画像解析部１３は、動画ファイル受付部１１から出力された動画ファイルを画像解析し、動画ファイルにおけるシーンの切り替わりを判定する。

テロップ認識部１４は、動画ファイル受付部１１から出力された動画ファイルにおいて表示されるテロップを認識し、テロップのテキスト情報、掲載位置（座標軸）、色目、およびフォント等を取得する。

顔認識部１５は、動画ファイル受付部１１から出力された動画ファイルに登場する人物の顔を認識し、認識結果である顔認識情報を、パーソナル情報取得部１６へ出力する。

パーソナル情報データベース２３ｃは、顔認識情報に対応するパーソナル情報（例えば、氏名、性別、人種、身長等）を、テキスト形式で蓄積したデータベースである。

パーソナル情報取得部１６は、顔認識部１５から出力された顔認識情報に対応するパーソナル情報（例えば、氏名、性別、人種、身長等）を、パーソナル情報データベース２３ｃからテキスト情報の形式で取得する。そして、パーソナル情報に含まれる氏名を、後述する図２に示すテキスト情報リストｒの話者名ｒ６に書き込む。

シーン分割部１７は、音声認識部１２によって変換されたテキスト情報における時間的な切れ目、音声認識部１２によって変換されたテキスト情報における内容的な切れ目、画像解析部１３によって判定されたシーンの切り替わり、テロップ認識部１４によってテロップが認識されたタイミング、顔認識部１５によって顔が認識されたタイミング等に基づいて、動画ファイルを複数のシーンに分割する。

以下に、時間的な切れ目について、図２を用いて具体的に説明する。

図２は、音声認識部によって動画ファイルから変換されたテキスト情報を例示するテキスト情報リストである。

テキスト情報リストｒは、テキスト番号ｒ１、開始時間ｒ２、終了時間ｒ３、持続時間ｒ４、テキスト情報ｒ５、話者名ｒ６からなる項目を備えている。

テキスト番号ｒ１は、話者によって話されたスピーチの塊ごとに連番で振られる番号である。スピーチの塊は、必ずしも句点で終了する厳密な文とは限らず、音声認識部１２によって認識される塊である。

開始時間ｒ２は、動画ファイルにおける各スピーチの塊の開始時間を示す。

終了時間ｒ３は、動画ファイルにおける各スピーチの塊の終了時間を示す。

持続時間ｒ４は、各スピーチの塊の時間長さを示しており、終了時間ｒ３から開始時間ｒ２を減じた時間に等しい。

テキスト情報ｒ５は、各スピーチの塊の音声から変換されたテキストを示す。

話者名ｒ６は、各スピーチの塊の話者を示す。各スピーチの塊の話者は、前述したように、パーソナル情報取得部１６によって書き込まれる。

音声認識部１２は、テキスト情報リストｒを用いて、各スピーチの塊間の時間的な切れ目を判定することができる。例えば、図２を用いて説明すると、テキスト番号ｒ１＝「０」のスピーチの塊の終了時間ｒ３が「０：００：０４」であり、次のテキストであるテキスト番号ｒ１＝「１」のスピーチの塊の開始時間ｒ２が「０：００：０８」であることから、テキスト番号ｒ１＝「０」のスピーチの塊が終了してから、テキスト番号ｒ１＝「１」のスピーチの塊が開始するまでに、４秒のポーズがあったことが分かる。

シーン分割部１７は、このポーズがしきい時間を超えた場合、テキスト情報間に時間的な切れ目があると判定する。例えば、しきい時間を３秒とした場合、シーン分割部１７は、テキスト情報間のポーズが、３秒よりも長い場合、テキスト情報間に時間的な切れ目があると判定する。例えば、図２に例示されるテキスト番号ｒ１＝「０」のテキスト情報と、テキスト番号ｒ１＝「１」のテキスト情報との間には、４秒のポーズがあるので、時間的な切れ目があると判定される。

次に、内容的な切れ目について説明する。内容的な切れ目とは、例えば、話題の切り替わるポイントに相当する。したがって、テキスト情報ｒ５の文頭に、「さて」、「しかし」、「ところで」、「次に」のような接続詞がある場合、シーン分割部１７は、内容が切り替わったと判定する。

次に、画像解析部１３によって判定されるシーンの切り替わりについて説明する。

例えば、画像解析部１３は、スタジオ映像から中継映像へ切り替わった場合や、逆に、中継映像からスタジオ映像へ切り替わった場合を、シーンの切り替わりと判定することができる。また、動画ファイルの映像において、話者が正面を向いたときを、シーンの切り替わりと判定することができる。さらに、動画ファイルの映像において、話者が変わったときを、シーンの切り替わりと判定することができる。さらにまた、動画ファイルにおいて、例えば、キャスターのバストアップ映像への切り替えがなされたときを、シーンの切り替わりと判定することもできる。ここで、シーンは、カメラの切り替わりであるカットの意味を持つカットの集合であるシーンも含む。例えば、天気予報コーナの間など、人の向きや映像が頻繁に切り替わってもシーンは「天気予報」となる。一方、例えばまったく「カット」が変わらなくても話している話題が変われば「シーン」は変わったと判定する。

なお、シーン分割部１７は、動画ファイルを複数のシーンに分割する際、音声認識部１２によって変換されたテキスト情報における時間的な切れ目、音声認識部１２によって変換されたテキスト情報における内容的な切れ目、画像解析部１３によって判定されたシーンの切り替わり、テロップ認識部１４によってテロップが認識されたタイミング、顔認識部１５によって顔が認識されたタイミング等を、それぞれ個別に考慮するのではなく、複合的に考慮してもよい。このような複合的な考慮を実施するために、例えば、テキスト情報における時間的な切れ目、テキスト情報における内容的な切れ目、シーンの切り替わり、テロップが認識されたタイミング、パーソナル情報取得部１６によってテキスト情報が取得されたタイミング等に基づく機械学習モデルを作成し、この機械学習モデルを用いて、シーンを分割することもできる。

変更部２１は、シーン分割部１７によって分割されたシーンの分割位置を、ユーザ指示に従って変更することができる。

タグ抽出部１８はさらに、音声認識部１２によって変換されたテキスト情報、テロップ認識部１４によって取得されたテロップのテキスト情報、掲載位置（座標軸）、色目、およびフォント、パーソナル情報取得部１８によってテキスト情報から、予め定められた規則に従って、記憶部２３に記憶された辞書データ２３ａを用いて、タグを抽出する。辞書データ２３ａは、例えば、経済、政治、スポーツ、文化、社会、海外情報等といったカテゴリ別に設けられていてもよい。

予め定められた規則は、テキスト情報からタグを抽出することに限らず、抽出したタグに関連する情報も、タグとして出力せよというものである。これを可能とするために、例えば、経済に関する辞書データ２３ａであれば、会社に関する会社コード、証券コード、企業名、組織名、人名、テーマ、場所、地域、業界、業種、ジャンル等を蓄積する。

これによって、タグ抽出部１８は、例えば、テキスト情報から、タグとして企業名を抽出すると、経済に関する辞書データ２３ａを参照することによって、抽出された企業名に対応する会社コード、証券コード、業界、業種、ジャンル等も、タグとして抽出することができる。

タグ付与部１９は、タグ抽出部１８によって抽出されたタグを、対応するシーンに付与する。

タグ付与部１９はさらに、タグと、タグに付されたシーンとの対応付けを示すタグ情報を、タグ情報データベース２３ｂに書き込む。

表示制御部２０は、タグ情報データベース２３ｂに書き込まれたタグ情報に基づいて、シーンに付与されたタグを、該シーンのサムネイルとともに、あるいは、該シーンを再生しながら、表示画面２２から表示させることができる。

変更部２１は、タグ付与部１９によって何れかのシーンに付与されたタグの削除や、何れかのシーンへの任意のタグの付与を、ユーザ指示に従って行う。また、前述したように、シーン分割部１７によって分割されたシーンの分割位置を、ユーザ指示に従って変更することができる。変更部２１は、これら変更処理の結果に応じて、タグ情報データベース２３ｂ内のタグ情報を更新する。

タグ情報データベース２３ｂに書き込まれたタグ情報は、対応するシーンとともに、記録媒体に記録され、あるいは、ネットワークを介して、提供されることも可能である。

（実施例１）
上述したタグ付け装置１０を、Ｗｅｂ環境で実現した例を、実施例１として説明する。

図３は、Ｗｅｂ環境で実現された実施例１のタグ付け装置の一例を示す概要構成図である。

タグ付け装置１００は、処理サーバ１１０、音声認識エンジン１２０、および言語解析エンジン１３０を備えている。ユーザは、ユーザ端末１４０を介して処理サーバ１１０を操作することができる。

ユーザ端末１４０は、インターネット等の通信ネットワークを介して処理サーバ１１０と通信可能に接続されており、ユーザ端末１４０のディスプレイが、タグ付け装置１０における表示画面２２を実現することができる。

処理サーバ１１０は、ユーザ端末１４０、音声認識エンジン１２０、言語解析エンジン１３０および記憶部２３と通信可能に接続されており、タグ付け装置１０における動画ファイル受付部１１、画像解析部１３、顔認識部１５、パーソナル情報取得部１６、シーン分割部１７、タグ抽出部１８、タグ付与部１９、表示制御部２０、および変更部２１を実現する。

音声認識エンジン１２０は、処理サーバ１１０と通信可能に接続されており、タグ付け装置１０における音声認識部１２を実現する。なお、図３では、処理サーバ１１０と音声認識エンジン１２０とは、通信ネットワークとしてインターネット１５０を介して通信可能に接続されている構成が例示されているが、通信ネットワークはインターネット１５０に限定されず、ＬＡＮやＶＰＮ等であってもよい。

言語解析エンジン１３０は、インターネット等の通信ネットワークを介して処理サーバ１１０と通信可能に接続されており、タグ付け装置１０におけるテロップ認識部１４を実現するとともに、記憶部２３にも通信可能に接続されている。

次に、タグ付け装置１００の動作例について説明する。

図４は、実施例１のタグ付け装置の動作例を示すフローチャートである。

まず、ユーザがユーザ端末１４０から、例えばＭＰ４ファイルのような動画ファイルを、処理サーバ１１０へアップロードする（Ｓ１）。

図５は、動画ファイルのアップロード時におけるユーザ端末における表示例を示す概念図である。

ユーザ端末１４０から処理サーバ１１０へ動画ファイルをアップロードする際には、ユーザ端末１４０の表示画面から、図５左側に示すような動画ファイルアップロードウィンドウＧが表示される。

ユーザは、動画ファイルアップロードウィンドウＧにおける表示に従って、動画ファイルを選択したり、オプションを設定することができる。すなわち、ユーザは、動画ファイル選択入力欄Ｇ１に表示されたファイル選択ボタンＧ１２をマウス等によって指定することによって、アップロードする動画ファイルを選択することができる。また、辞書データ選択入力欄Ｇ２に表示されたファイル選択ボタンＧ２２をマウス等によって指定することによって、タグ抽出のために使用される辞書データ２３ａを選択することができる。また、話者振り分け設定入力欄Ｇ３によって、動画ファイルを複数のシーンに分割する際に、話者に応じて分割するか否かを設定することができる。

また、ユーザは、動画ファイルにタイトルを付けたい場合、タイトル入力欄Ｇ４からタイトルを入力することができる。また、動画ファイルにコメントを加えたい場合、コメント入力欄Ｇ５からコメントを入力することができる。さらに、ユーザは、分割解析入力欄Ｇ６を「有効にする」と設定し、さらに、分割時間入力欄Ｇ６１から分割時間（例えば、「５分」）を入力することによって、動画ファイルからシーンａを一定時間毎に分割するインタバルを設定することができる。

これら設定がなされた後、ユーザは、送信ボタンＧ８を、マウス等により選択することによって、指定した動画ファイルを、処理サーバ１１０へアップロードすることができる。一方、ユーザは、戻るボタンＧ７を、マウス等により選択すると、１つ前の画面へ戻ることができる。

動画ファイルのアップロードが完了すると、ユーザ端末１４０の表示画面に、図５右側に示すように、アップロード日時表示欄Ｈ１、アップロードユーザ表示欄Ｈ２、解析条件表示欄Ｈ３、およびファイル名表示欄Ｈ４を含むアプロード一覧ウィンドウＨが表示される。

処理サーバ１１０は、アップロードされた動画ファイルを、音声認識エンジン１２０へ出力する（Ｓ２）。音声認識エンジン１２０は、処理サーバ１１０から出力された動画ファイルを、音声認識技術を用いて音声認識し、テキスト情報へ変換し、このテキスト情報を、処理サーバ１１０へ返す（Ｓ３）。

処理サーバ１１０はまた、動画ファイルを、画像解析し、動画ファイルにおけるシーンの切り替わりを判定する（Ｓ４）。

処理サーバ１１０はさらに、動画ファイルに人物が登場する場合（Ｓ５：Ｙｅｓ）、この人物の顔を認識し、認識結果として、顔認識情報を取得する（Ｓ６）。

その後、処理サーバ１１０は、顔認識情報に対応するパーソナル情報（例えば、氏名、性別、人種、身長等）を、パーソナル情報データベース２３ｃからテキスト情報の形式で取得する（Ｓ７）。

なお、動画ファイルに人物が登場しない場合（Ｓ５：Ｎｏ）、ステップＳ６、Ｓ７の処理はバイパスされる。

処理サーバ１１０はまた、動画ファイルを、言語解析エンジン１３０へ出力する（Ｓ８）。

言語解析エンジン１３０は、処理サーバ１１０から出力された動画ファイルに、テロップが表示されている場合（Ｓ９：Ｙｅｓ）、このテロップを認識し、テロップのテキスト情報を取得し、取得したテキスト情報を処理サーバ１１０へ返す（Ｓ１０）。

一方、処理サーバ１１０から出力された動画ファイルに、テロップが表示されていない場合（Ｓ９：Ｎｏ）、ステップＳ１０の処理はバイパスされる。

その後、処理サーバ１１０は、ステップＳ３において音声認識エンジン１２０から返されたテキスト情報における時間的な切れ目および内容的な切れ目、ステップＳ４において判定されたシーンの切り替わり、ステップＳ７において取得されたパーソナル情報に関するテキスト情報、ステップＳ１０において取得されたテロップのテキスト情報等に基づいて、例えば、前述したように機械学習モデルを用いて、動画ファイルを複数のシーンに分割する（Ｓ１１）。

その後、処理サーバ１１０は、ステップＳ３において音声認識エンジン１２０から返されたテキスト情報、ステップＳ７において取得されたパーソナル情報に関するテキスト情報、ステップＳ１０において取得されたテロップのテキスト情報から、予め定められた規則に従って、記憶部２３に記憶された辞書データ２３ａを用いて、タグを抽出する（Ｓ１２）。処理サーバ１１０はさらに、抽出されたタグに関連する情報も、タグとして出力することができる。

その後、処理サーバ１１０は、抽出されたタグを、ステップＳ１１で分割された複数のシーンのうち、対応するシーンに付与する（Ｓ１３）。

処理サーバ１１０はさらに、タグと、タグが付与されたシーンとの対応付けを示すタグ情報を生成し、タグ情報データベース２３ｂに書き込む（Ｓ１４）。

ユーザは、タグ情報データベース２３ｂに書き込まれたタグ情報に基づいて、シーンに付与されたタグを、ユーザ端末１４０から、該シーンのサムネイルとともに、あるいは、該シーンを再生しながら表示画面２２から表示させることができる（Ｓ１５）。

図６は、複数のシーンのサムネイルおよびテキスト情報のユーザ端末からの表示例を示す模式図である。

上述したタグ付け処理の結果は、図６に例示するように、ユーザ端末１４０の表示画面から表示される。

サムネイル表示ウィンドウＳには、処理サーバ１１０によって動画ファイルから分割されたシーンａ１〜ａ７のサムネイルが表示される。

サムネイル表示ウィンドウＳにおける各シーンａ１〜ａ７の上部には、動画ファイルにおける各シーンａ１〜ａ７の開始時間ｒ２が表示される。また、サムネイル表示ウィンドウＳにおける各シーンａ１〜ａ７の下部には、各話者の登場時間を示すバーチャートも表示される。

テキスト表示ウィンドウＸには、テキスト情報ｒ５が表示される。

サムネイル表示ウィンドウＳに表示される各シーンａ１〜ａ５のサムネイルを、マウスのクリック等によって選択すると、映像表示ウィンドウＭから、選択されたサムネイルに対応するシーンａ（シーンａ１〜ａ７のうちの何れか）の映像が表示されるとともに、映像表示ウィンドウＭの下に配置されたテキスト表示ウィンドウＹから、対応するシーンａのテキスト情報ｒ５が表示される。

ユーザは、映像表示ウィンドウＭから各シーンａの映像を表示させることによって、その内容を確認し、各シーンａ１〜ａ７が、適切に分割されていることを確認することができる。

そして、分割位置が適切ではないシーンａに対しては、ユーザは、ユーザ端末１４０から処理サーバ１１０へユーザ指示を出力することによって、該シーンの分割位置を変更することができる。この分割位置変更処理を、図７を用いて具体的に説明する。

図７は、図６における映像表示ウィンドウおよびサムネイル表示ウィンドウを含む部位の拡大図である。

シーンａ１〜ａ７の分割位置の変更は、ユーザが、ユーザ端末１４０を操作することによって、図７に示されるように、サムネイル表示ウィンドウＳにおける分割開始位置設定矢印Ｚ１によって開始位置を設定し、分割終了位置設定矢印Ｚ２によって終了位置を設定することによって行われる。

図８は、タグ情報データベースに書き込まれたタグ情報を例示する図である。

図８に例示するタグ情報Ｉは、見出しＩ１、テキスト情報ｒ５、開始時間ｒ２、終了時間ｒ３、記事ＩＤＩ５、全タグＩ６、会社コードＩ７、証券コードＩ８、会社Ｉ９、組織Ｉ１０、人Ｉ１１、場所Ｉ１２、地域Ｉ１３、その他Ｉ１４、業種Ｉ１５、およびジャンルＩ１６から構成される。

見出しＩ１は、処理サーバ１１０によって分割されたシーンに対して、ユーザによって任意に与えられる。

テキスト情報ｒ５は、音声認識エンジン１２０によって動画ファイルから変換されたテキスト情報である。

開始時間ｒ２は、動画ファイルにおけるシーンの開始時間を示す。

終了時間ｒ３は、動画ファイルにおけるシーンの終了時間を示す。

記事ＩＤＩ５は、シーン毎に一意に付与される識別情報である。

全タグＩ６は、テキスト情報ｒ５から抽出されたすべてのタグを示す。

会社Ｉ９は、全タグＩ６に含まれる会社名を示す。

会社コードＩ７は、会社Ｉ９に対応する会社コード番号を示す。

証券コードＩ８は、会社Ｉ９に対応する証券コード番号を示す。

すなわち、会社コードＩ７および証券コードＩ８は、会社Ｉ９に関連する情報として抽出されたタグである。

一方、組織Ｉ１０は、全タグＩ６に含まれる組織の名前を、人Ｉ１１は、全タグＩ６に含まれる人の名前を、場所Ｉ１２は、全タグＩ６に含まれる場所の名称を、地域Ｉ１３は、全タグＩ６に含まれる地域の名称を示す。このように、組織Ｉ１０、人Ｉ１１、場所Ｉ１２、地域Ｉ１３は、全タグＩ６から抽出され、分類される。

その他Ｉ１４は、全タグＩ６のうち、会社コードＩ７、証券コードＩ８、会社Ｉ９、組織Ｉ１０、人Ｉ１１、場所Ｉ１２、地域Ｉ１３の何れにも該当しないタグである。

業種Ｉ１５およびジャンルＩ１６は、全タグＩ６から類推される業種およびジャンルを表すタグである。このように、処理サーバ１１０はさらに、抽出されたタグから類推される情報をもタグとして出力することができる。そして、この場合、図８に示すように、類推された情報もタグとして含むタグ情報を生成することができる。

ユーザ端末１４０では、処理サーバ１１０から出力されたタグ情報Ｉに基づいて、シーンに付与されたタグを、例えばＩ７〜Ｉ１３、Ｉ１５、Ｉ１６のような分類別に、シーンのサムネイルとともに、あるいは、シーンの映像を再生しながら表示することができる。

図９は、シーンと、シーンに付与されたの、ユーザ端末からの表示例を示す模式図である。

図９に例示されるように、ユーザ端末１４０から、映像表示ウィンドウＭとタグ表示ウィンドウＫとが表示されると、映像表示ウィンドウＭからは、シーンａの映像が表示され、タグ表示ウィンドウＫからは、表示されているシーンａに対応する全タグＩ６および分類されたタグ（Ｉ７〜Ｉ１３、Ｉ１５、Ｉ１６）が表示される。

なお、図９では、タグとして、会社コードＩ７、会社Ｉ９、組織Ｉ１０、人Ｉ１１が例示されているが、マウス等によってスクロールバーＲを上下に移動させることによって、図８に示すタグ（Ｉ６〜Ｉ１６）のうちの任意のタグを表示させることができる。

図１０は、タグ情報データベースに書き込まれたログ情報の閲覧画面の一例を示す図である。

図１０に例示する閲覧画面では、図５に示すタイトル入力欄Ｇ４で入力された動画ファイルのタイトルＬ毎に、シーン番号Ｅ、開始時間ｒ２、シーン画像ｍ、全タグＩ６、会社コードＩ７、証券コードＩ８、会社Ｉ９、組織Ｉ１０、人Ｉ１１、場所Ｉ１２、地域Ｉ１３、その他Ｉ１４といった各タグが表形式で表示される。

ユーザは、図１０のように表示された結果を参照し、タグを削除したり、追加付与したり、シーンａ１〜ａｎの分割位置を変更するか否かを決定することができる。そして、タグを削除したり、追加付与したり、シーンａ１〜ａｎの分割位置を変更する場合（Ｓ１６：Ｙｅｓ）、必要なユーザ指示を、ユーザ端末１４０から入力し、処理サーバ１１０へ出力することができる（Ｓ１７）。

処理サーバ１１０は、ユーザ端末１４０から出力されたユーザ指示に応じて、タグの削除、追加、シーンの分割位置の変更といった変更処理を実施し（Ｓ１８）、これら変更処理の結果に応じて、タグ情報データベース２３ｂ内のタグ情報Ｉを更新する（Ｓ１９）。

一方、ステップＳ１６において、変更処理がなされない場合（Ｓ１６：Ｎｏ）、ステップＳ１７、Ｓ１８、Ｓ１９の処理はバイパスされる。

タグ情報データベース２３ｂに書き込まれたログ情報Ｉの内容は、図１０のように、ユーザ端末１４０から表示され、ユーザによって確認される。

また、タグ情報データベース２３ｂに書き込まれたログ情報Ｉは、例えば、インターネットのような通信ネットワークを介して、ＣＳＶ、ＴＸＴ、ＶＴＴ、ＪＳＯＮファイル等の形式で提供されることが可能である。

（実施例２）
実施例１で説明したタグ付け装置の変形例を、実施例２として説明する。

図１１は、Ｗｅｂ環境で実現された実施例２のタグ付け装置の一例を示す概要構成図である。

図１１に示すタグ付け装置１０５は、図３に示すタグ付け装置１００の変形例であるので、図３と同じ部位については、同じ符号を付して重複説明を避け、以下では、実施例１と異なる点について説明する。

図１１に示すタグ付け装置１０５は、図３に示すタグ付け装置１００に、動画配信プラットフォーム１６０と、動画配信プラットフォーム１６０を操作するためのユーザ端末１４２とを追加した構成をしている。

ユーザ端末１４２は、インターネット等の通信ネットワークを介して動画配信プラットフォーム１６０と通信可能に接続されている。

動画配信プラットフォーム１６０は、ユーザ端末１４２および処理サーバ１１０とインターネット等の通信ネットワークを介して通信可能に接続されている。

タグ付け装置１０５では、タグ付け装置１００と同様に、ユーザ端末１４０から、例えばＭＰ４ファイルのような動画ファイルを、処理サーバ１１０へアップロードできる（Ｓ１）ことに加えて、ユーザ端末１４２からも、例えばＭＰ４ファイルのような動画ファイルを、動画配信プラットフォーム１６０を経由して、処理サーバ１１０へアップロードできる。

なお、動画配信プラットフォーム１６０から処理サーバ１１０へ動画ファイルをアップロードする場合、動画配信プラットフォーム１６０から処理サーバ１１０へ動画ファイルを直接的にアップロードするのではなく、ＡＰＩによって動画ファイルを音声ファイルに分離し、分離された音声ファイルを、処理サーバ１１０へアップロードするようにしてもよい。これによって、ファイルサイズの大きな動画ファイルを、動画配信プラットフォーム１６０から処理サーバ１１０へアップロードしないので、送信負荷を低減することができる。

図１２は、ユーザ端末から動画配信プラットフォームへ動画ファイルをアップロードするための操作画面の一例を示す模式図である。

ユーザ端末１４２から動画配信プラットフォーム１６０へ動画ファイルをアップロードする場合には、ユーザ端末１４２に、図１２に例示されるようなアップロード用操作画面が表示される。

ユーザ端末１４２を操作するユーザは、図１２に例示されるようなアップロード用操作画面の指示に従って、マウス等により動画ファイルのファイル名またはアイコンをドラッグエリアＤにドラッグすることによって、動画配信プラットフォーム１６０へアップロードする動画ファイルを指定することができる。

動画配信プラットフォーム１６０は、ユーザ端末１４２から動画ファイルをアップロードされると、この動画ファイルを受信し、前述したように、ＡＰＩによって動画ファイルを音声ファイルに分離し、分離した各音声ファイルを、処理サーバ１１０へアップロードする。

その後は、実施例１で説明したように、処理サーバ１１０、音声認識エンジン１２０、および言語解析エンジン１３０が動作し、ステップＳ２〜Ｓ１１の処理が行われることによって、処理サーバ１１０において、タグが抽出され（Ｓ１２）、対応するシーンに付与される（Ｓ１３）とともに、タグ情報が生成され、タグ情報データベース２３ｂに書き込まれる（Ｓ１４）。

生成されたタグ情報は、処理サーバ１１０から動画配信プラットフォーム１６０へも出力される。

これによって、シーンに付与されたタグは、図１３に示すように、ユーザ端末１４０からのみならず、ユーザ端末１４２から表示することもできる（Ｓ１５）。

図１３は、ユーザ端末におけるタグの表示例を示す模式図である。

その後は、実施例１のステップＳ１６〜Ｓ１９で説明したように、ユーザは、ユーザ端末１４０から、必要なユーザ指示を入力することによって、タグの削除、追加付与、および分割位置の変更を行うことができる。

以上のように、動画配信プラットフォーム１６０のような他のシステムと連携したタグ付け装置１０５を構築することもできる。

上述したように、本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置によれば、動画のためのタグ付けを、自動的に行うことが可能となる。

特に、本発明の実施形態に係るタグ付け方法が適用されたタグ付け装置は、動画ファイルを複数のシーンに分割するタイミングを、音声認識によって変換されたテキスト情報における時間的な切れ目および内容的な切れ目、シーンの切り替わり、テロップに関するテキスト情報、パーソナル情報に関するテキスト情報等を複合的に考慮することによって決定している。

したがって、動画ファイルから、複数のシーンが、適切なタイミングで、すなわち、内容的にまとまりのある単位毎に分割される。そして、このように適切に分割された各シーンのそれぞれに対して、タグが付与されるので、ユーザは、付与されたタグを参照することによって、シーンの内容を的確に把握できるようになる。

このように、各シーンに適切なタグが付与されることによって、映像のアーカイブの管理もより容易になる。さらには、動画コンテンツの検索性も向上し、サービス分類をより容易に行うことも可能となる。

以上、本発明を実施するための最良の形態について、添付図面を参照しながら説明したが、本発明はかかる構成に限定されない。特許請求の範囲の発明された技術的思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の技術的範囲に属するものと了解される。

本発明のタグ付け装置、方法、およびプログラムは、ニュース等のような番組の動画ファイルの管理のために好適に利用することができるが、番組の動画ファイルのみならず、会議や講演会等の動画ファイルの管理のためにも、利用することが可能である。

１０、１００、１０５・・タグ付け装置、
１１・・動画ファイル受付部、
１２・・音声認識部、
１３・・画像解析部、
１４・・テロップ認識部、
１５・・顔認識部、
１６・・パーソナル情報取得部、
１７・・シーン分割部、
１８・・タグ抽出部、
１９・・タグ付与部、
２０・・表示制御部、
２１・・変更部、
２２・・表示画面、
２３・・記憶部、
２３ａ・・辞書データ、
２３ｂ・・タグ情報データベース、
２３ｃ・・パーソナル情報データベース、
１１０・・処理サーバ、
１２０・・音声認識エンジン、
１３０・・言語解析エンジン、
１４０、１４２・・ユーザ端末、
１５０・・インターネット、
１６０・・動画配信プラットフォーム。

Claims

動画ファイルを音声認識してテキスト情報へ変換する音声認識部と、
前記動画ファイルを画像解析し、前記動画ファイルの映像において話者が正面を向いたとき、前記映像において話者が変わったとき、および、前記映像が切り替わったときを、前記動画ファイルにおけるシーンの切り替わりとして判定する画像解析部と、
前記テキスト情報における時間的な切れ目と、前記テキスト情報における所定の接続詞によって決定される、前記テキスト情報における内容的な切れ目と、前記シーンの切り替わりとに基づいて、前記動画ファイルを複数のシーンに分割するシーン分割部と、
前記テキスト情報から、予め定められた規則に従って、タグを抽出するタグ抽出部と、
前記抽出されたタグを、前記複数のシーンのうち、対応するシーンに付与するタグ付与部と、
を備えたタグ付け装置。
前記動画ファイルにおいて表示されるテロップを認識し、前記テロップのテキスト情報を取得するテロップ認識部をさらに備え、
前記シーン分割部はさらに、前記テロップ認識部によってテロップが認識されたことに基づいて、前記動画ファイルを複数のシーンに分割し、
前記タグ抽出部はさらに、前記テロップのテキスト情報から、予め定められた規則に従って、タグを抽出する、請求項１に記載のタグ付け装置。
前記動画ファイルに登場する人物の顔を認識する顔認識部と、
前記顔認識部によって顔を認識された人物のパーソナル情報を示すテキスト情報を取得するパーソナル情報取得部とをさらに備え、
前記シーン分割部はさらに、前記顔認識部によって顔が認識されたことに基づいて、前記動画ファイルを複数のシーンに分割し、
前記タグ抽出部はさらに、前記パーソナル情報取得部によって取得されたテキスト情報から、予め定められた規則に従って、タグを抽出する、請求項２に記載のタグ付け装置。
前記シーン分割部は、前記テキスト情報における時間的な切れ目と、前記テキスト情報における内容的な切れ目と、前記シーンの切り替わりと、前記テロップが認識されたタイミングと、前記パーソナル情報取得部によってテキスト情報が取得されたタイミングとに基づく機械学習モデルを作成し、前記機械学習モデルを用いて、前記動画ファイルを前記複数のシーンに分割する、請求項３に記載のタグ付け装置。
前記時間的な切れ目は、前記動画ファイルにおいて、音声の途切れが、予め決定されたしきい値を超えた場合に対応する、請求項１に記載のタグ付け装置。
前記タグ付与部によって、前記対応するシーンに付与されたタグを、指定された分類別に表示画面から表示させる表示制御部をさらに備えた、請求項１乃至５のうち何れか１項に記載のタグ付け装置。
前記指定された分類は、会社コード、企業名、組織名、人名、テーマ情報、業界情報、およびジャンルのうちの少なくとも何れかを含む、請求項６に記載のタグ付け装置。
前記タグ付与部によって、前記対応するシーンに付与されたタグの削除、および、前記対応するシーンへの任意のタグの付与のうちの少なくとも何れかを、ユーザ指示に従って行う変更部をさらに備えた、請求項１乃至７のうち何れか１項に記載のタグ付け装置。
前記シーン分割部によって分割されたシーンの分割位置を、ユーザ指示に従って変更する変更部をさらに備えた、請求項１乃至７のうち何れか１項に記載のタグ付け装置。
プロセッサによって実施されるタグ付け方法であって、
前記プロセッサが、動画ファイルを音声認識してテキスト情報へ変換し、
前記プロセッサが、前記動画ファイルを画像解析し、前記動画ファイルの映像において話者が正面を向いたとき、前記映像において話者が変わったとき、および、前記映像が切り替わったときを、前記動画ファイルにおけるシーンの切り替わりとして判定し、
前記プロセッサが、前記テキスト情報における時間的な切れ目と、前記テキスト情報における所定の接続詞によって決定される、前記テキスト情報における内容的な切れ目と、前記シーンの切り替わりとに基づいて、前記動画ファイルを複数のシーンに分割し、
前記プロセッサが、前記テキスト情報から、予め定められた規則に従って、タグを抽出し、
前記プロセッサが、前記抽出されたタグを、前記複数のシーンのうち、対応するシーンに付与する、タグ付け方法。
動画ファイルを音声認識してテキスト情報へ変換する機能、
前記動画ファイルを画像解析し、前記動画ファイルの映像において話者が正面を向いたとき、前記映像において話者が変わったとき、および、前記映像が切り替わったときを、前記動画ファイルにおけるシーンの切り替わりとして判定する機能、
前記テキスト情報における時間的な切れ目と、前記テキスト情報における内容的な切れ目と、前記テキスト情報における所定の接続詞によって決定される、前記シーンの切り替わりとに基づいて、前記動画ファイルを複数のシーンに分割する機能、
前記テキスト情報から、予め定められた規則に従って、タグを抽出する機能、
前記抽出されたタグを、前記複数のシーンのうち、対応するシーンに付与する機能、
をプロセッサに実現させるためのプログラム。