JP5278425B2

JP5278425B2 - 映像分割装置、方法及びプログラム

Info

Publication number: JP5278425B2
Application number: JP2010502811A
Authority: JP
Inventors: 真寺尾; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-03-14
Filing date: 2009-03-09
Publication date: 2013-09-04
Anticipated expiration: 2029-03-09
Also published as: WO2009113505A1; JPWO2009113505A1

Description

［関連出願の記載］
本発明は、日本国特許出願：特願２００８−０６６２２１号（２００８年３月１４日出願）の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。

本発明は、映像分割装置、方法及びプログラムに関し、特に、映像データを意味的にまとまった単位へと分割する映像分割装置、方法及びプログラムに関する。

近年、大量の映像データが流通しつつあり、映像データを意味的なまとまりの単位（以下「トピック」という。）に分割する技術は、映像データの一覧性及び検索性を向上させる技術として重要性を増しつつある。

映像データをトピックへと分割する代表的な方法として、映像データに含まれる発話の内容を表すテキスト（以下「発話テキスト」という。）に対して、テキスト分割技術を適用する方法が挙げられる。発話テキストとしては、映像データに含まれる発話を音声認識して得られるテキストを用いることができる。また、映像データがテレビ番組であれば、字幕情報（クローズドキャプション）を利用することができる場合もある。このような発話テキストには、映像データの始端からの経過時間等の映像における再生位置情報が付与されている。したがって、テキストを分割することによって映像データを分割することが可能となる。

一般に、テキスト分割技術においては、入力テキストを構成する単語又は単語列（以下「単語等」という。）を分析することによって、テキストにおいて意味内容が変化している単語境界を求める。かかる処理を行う場合には、全ての単語を同等に扱うよりも、入力テキスト中の各トピックの意味内容との関連性が強い単語に大きな重みを与えた方が、入力テキストを意味内容に応じてより適切にトピックに分割することができる。

テキスト処理において重要な単語に重みを与える方法として、ＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）による方法が知られている。単語ＷｉのＩＤＦは、あらかじめ大量の文書を収集した上で、ＩＤＦ（Ｗｉ）＝ｌｏｇ（全文書数／単語Ｗｉが含まれる文書数）によって求められる。すなわち、少数の文書にしか出現しない単語ほどＩＤＦは大きくなる。ＩＤＦは、「何らかの文書単位を決めた上で大量の文書を収集したときに、少数の文書にしか出現しない単語は重要な単語である」との仮定に基づいた単語の重み付け方法である。

テキスト分割におけるＩＤＦによる単語の重み付けの一例が、非特許文献１に記載されている。非特許文献１では、入力テキストの各部分に対して一定幅の分析区間を設定し、各分析区間に対して、その分析区間における各単語の重要度を要素としたトピックベクトルを求める。このとき、ある分析区間における単語Ｗｉの重要度は、その分析区間内の単語Ｗｉの出現頻度をＴＦ（Ｗｉ）としたとき、ＴＦ（Ｗｉ）×ＩＤＦ（Ｗｉ）によって求める。すなわち、トピックベクトルは、分析区間内における単語の出現頻度分布をＩＤＦによって補正した値である。このようにトピックベクトルを求めた後に、隣接する分析区間のトピックベクトル間のコサイン類似度系列を求め、類似度の極小点をトピックの境界点として検出する。

国際公開第２００４／０９５３７４号パンフレット内海、藤井、田中、"分析区間長を可変としたテキスト分割手法"、言語処理学会第１２回年次大会発表論文集、ｐ．１１７−１２０、２００６．Ｋ．Ｋｉｍｕｒａ、Ｉ．Ｙａｍａｄａ、Ｈ．Ｓｕｍｉｙｏｓｈｉ、Ｎ．Ｙａｇｉ、"ＡｕｔｏｍａｔｉｃＧｅｎｅｒａｔｉｏｎｏｆａＭｕｌｔｉｍｅｄｉａＥｎｃｙｃｌｏｐｅｄｉａｆｒｏｍＴＶＰｒｏｇｒａｍｓｂｙＵｓｉｎｇＣｌｏｓｅｄＣａｐｔｉｏｎｓａｎｄＤｅｔｅｃｔｉｎｇＰｒｉｎｃｉｐａｌＶｉｄｅｏＯｂｊｅｃｔｓ、"ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＭｕｌｔｉｍｅｄｉａ ‘０６、ｐ．８７３−８８０、２００６．

なお、上記特許文献及び非特許文献の全開示内容はその引用をもって本書に繰込み記載する。以下の分析は、本発明によって与えられたものである。

しかしながら、上記の従来技術は以下の問題を抱える。

すなわち、発話テキストをテキスト分割することによって映像データを分割する際、ＩＤＦによって単語を重み付けするだけでは映像データを意味内容に応じて適切にトピックへと分割することができるとは限らない、という問題がある。その理由は次のとおりである。

ある単語のＩＤＦはあくまでその単語の一般的な重要度を表す指標であり、必ずしもその単語と個々のトピックの意味内容との関連性の強さを表しているとは限らない。例えば、「モンシロチョウ」という単語がどのような場面に現れても、そのＩＤＦは同じ値となる。しかし、実際には、「モンシロチョウ」という単語が現れる場面によってモンシロチョウとトピックの意味内容との関連性の強さは異なると考えられる。したがって、意味内容に応じたトピック分割を行うためには、モンシロチョウが実際にトピックの主題である場合には「モンシロチョウ」という単語の重みを大きくし、それ以外の場合には「モンシロチョウ」という単語の重みを小さくすることが望ましい。しかしながら、ＩＤＦではこのような重み付けは行われないからである。

そこで、映像データを意味内容に応じて適切にトピックへと分割することができる映像分割装置、映像分割方法及び映像分割用プログラムを提供することが課題となる。

本発明の第１の視点に係る映像分割装置は、映像と関連付けられたテキストであって映像における再生位置が付されたものを参照してテキストに含まれる単語又は単語列（以下「単語等」という。）が該映像に含まれる被写体を表すか否かを判定する被写体判定部と、単語等のうち被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け部と、重み付けに基づいてテキストを分割することによって映像を分割する映像分割部と、を備えている。

本発明の第２の視点に係る映像分割方法は、コンピュータによって、映像と関連付けられたテキストであって映像における再生位置が付されたものを参照してテキストに含まれる単語又は単語列（以下「単語等」という。）が映像に含まれる被写体を表すか否かを判定する被写体判定工程と、単語等のうち被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け工程と、重み付けに基づいてテキストを分割することによって映像を分割する映像分割工程と、を含む。

本発明の第３の視点に係るプログラムは、映像と関連付けられたテキストであって映像における再生位置が付されたものを参照してテキストに含まれる単語又は単語列（以下「単語等」という。）が映像に含まれる被写体を表すか否かを判定する被写体判定処理と、単語等のうち被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け処理と、重み付けに基づいてテキストを分割することによって映像を分割する映像分割処理と、をコンピュータに実行させる。

本発明に係る映像分割装置によると、映像データを意味内容に応じて適切にトピックに分割することができる。映像分割装置は、映像と関連付けられたテキストであってその映像における再生位置が付与されたものを参照してテキストに含まれる単語等が映像に映っている被写体を表すか否かを判定する。また、映像分割装置は、被写体を表すと判定された単語等の重み付けを大きくし、その重み付けに基づいてテキストを分割することによって、映像を分割するからである。

本発明の第１の実施例の構成を示すブロック図である。本発明の第１の実施例における被写体判定部の構成を示すブロック図である。本発明の第１の実施例の動作を示す流れ図である。本発明の第１の実施例におけるテキスト記憶部の具体例を説明する図である。本発明の第１の実施例における被写体認識結果記憶部の具体例を説明する図である。本発明の第１の実施例における被写体判定部の判定結果の具体例を説明する図である。本発明の第１の実施例における重み付きテキスト記憶部の具体例を説明する図である。本発明の第１の実施例における映像分割部の動作の一例を説明する図である。本発明の第１の実施例の動作の具体例を説明する図である。本発明の第１の実施例の動作の具体例を説明する図である。本発明の第２の実施例の構成を示すブロック図である。

符号の説明

１１映像データ記憶部
１２テキスト記憶部
１３被写体判定部
１４被写体重み付け部
１５重み付きテキスト記憶部
１６映像分割部
１７分割結果記憶部
１８映像視聴部
３１映像分割用プログラム
３２データ処理装置
３３記憶装置
１３０被写体認識部
１３１オブジェクト認識部
１３２顔画像認識部
１３３文字認識部
１３４被写体抽出部
１３５被写体認識結果記憶部
１３６照合部
３３１映像データ記憶部
３３２テキスト記憶部
３３３重み付きテキスト記憶部
３３４分割結果記憶部
３３５被写体認識結果記憶部

第１の展開形態の映像分割装置は、被写体判定部が、単語等が映像のうち再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることが好ましい。

第２の展開形態の映像分割装置は、被写体判定部が、単語等が映像に映っている被写体を表すと判定した場合には単語等が被写体を表す信頼度を計算するとともに、被写体重み付け部が、信頼度が高いものほど単語等に大きい重み付けをすることが好ましい。

第３の展開形態の映像分割装置は、被写体判定部が、単語等が映像に映っている被写体を表すと判定した場合には被写体の映像における重要度を決定するとともに、被写体重み付け部が、重要度が高いものほど単語等に大きい重み付けをすることが好ましい。

第４の展開形態の映像分割装置は、被写体判定部が、被写体が映像に占める割合に応じて被写体の重要度を決定することが好ましい。

第５の展開形態の映像分割装置は、被写体判定部が、映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識部と、単語等と被写体認識結果テキストとを照合して単語等が映像に映っている被写体を表すか否かを判定する照合部と、をさらに備えていることが好ましい。

第６の展開形態の映像分割装置は、被写体が、オブジェクト、顔画像、又は文字を含むことが好ましい。

第７の展開形態の映像分割装置は、被写体認識部が、オブジェクトを認識するオブジェクト認識部、顔画像を認識する顔画像認識部、文字を認識する文字認識部、及び、テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出部、のうち少なくとも１つを備えていることが好ましい。

第８の展開の映像分割装置は、再生位置が、テキストに含まれる文又は単語等を単位として付与されていることが好ましい。

第９の展開形態の映像分割装置は、照合部が、単語等及び被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、単語等と被写体認識結果テキストとを照合することが好ましい。

第１０の展開形態の映像分割装置は、テキストが、映像に含まれる発話の内容を表すテキストであることが好ましい。

第１１の展開形態の映像分割方法は、被写体判定工程において、単語等が映像のうち再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることが好ましい。

第１２の展開形態の映像分割方法は、被写体判定工程において、単語等が映像に映っている被写体を表すと判定した場合には単語等が被写体を表す信頼度を計算し、被写体重み付け工程において、信頼度が高いものほど単語等に大きい重み付けをすることが好ましい。

第１３の展開形態の映像分割方法は、被写体判定工程において、単語等が映像に映っている被写体を表すと判定した場合には被写体の映像における重要度を決定し、被写体重み付け工程において、重要度が高いものほど単語等に大きい重み付けをすることが好ましい。

第１４の展開形態の映像分割方法は、被写体判定工程において、被写体が映像に占める割合に応じて被写体の重要度を決定することが好ましい。

第１５の展開形態の映像分割方法は、被写体判定工程が、映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識工程と、単語等と被写体認識結果テキストとを照合して単語等が映像に映っている被写体を表すか否かを判定する照合工程と、を含むことが好ましい。

第１６の展開形態の映像分割方法は、被写体が、オブジェクト、顔画像、又は文字を含むことが好ましい。

第１７の展開形態の映像分割方法は、被写体認識工程が、オブジェクトを認識するオブジェクト認識工程、顔画像を認識する顔画像認識工程、文字を認識する文字認識工程、及び、テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出工程、のうち少なくとも１つを含むことが好ましい。

第１８の展開形態の映像分割方法は、照合工程において、単語等及び被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、単語等と被写体認識結果テキストとを照合することが好ましい。

第１９の展開形態の映像分割方法は、テキストが、映像に含まれる発話の内容を表すテキストであることが好ましい。

第２０の展開形態のプログラムは、被写体判定処理において、単語等が映像のうち再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることが好ましい。

第２１の展開形態のプログラムは、被写体判定処理において、単語等が映像に映っている被写体を表すと判定した場合には単語等が被写体を表す信頼度を計算し、被写体重み付け処理において、信頼度が高いものほど単語等に大きい重み付けをすることが好ましい。

第２２の展開形態のプログラムは、被写体判定処理において、単語等が映像に映っている被写体を表すと判定した場合には被写体の映像における重要度を決定し、被写体重み付け処理において、重要度が高いものほど単語等に大きい重み付けをすることが好ましい。

第２３の展開形態のプログラムは、被写体判定処理において、被写体が映像に占める割合に応じて被写体の重要度を決定することが好ましい。

第２４の展開形態のプログラムは、被写体判定処理において、映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識処理と、単語等と被写体認識結果テキストとを照合して単語等が映像に映っている被写体を表すか否かを判定する照合処理と、をコンピュータに実行させることが好ましい。

第２５の展開形態のプログラムは、被写体が、オブジェクト、顔画像、又は文字を含むことが好ましい。

第２６の展開形態のプログラムは、被写体認識処理において、オブジェクトを認識するオブジェクト認識処理、顔画像を認識する顔画像認識処理、文字を認識する文字認識処理、及び、テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出処理、のうち少なくとも１つをコンピュータに実行させることが好ましい。

第２７の展開形態のプログラムは、照合処理において、単語等及び被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、単語等と被写体認識結果テキストとを照合することが好ましい。

第２８の展開形態のプログラムは、テキストが、映像に含まれる発話の内容を表すテキストであることが好ましい。

本発明の実施の形態について、図面を参照して以下に説明する。

本実施形態に係る映像分割装置は、図１を参照すると、被写体判定部１３、被写体重み付け部１４及び映像分割部１６を備えている。被写体判定部１３は、映像と関連付けられたテキストであって映像における再生位置が付されたものを参照してテキストに含まれる単語又は単語列（以下「単語等」という。）が映像に含まれる被写体を表すか否かを判定する。被写体重み付け部１４は、単語等のうち被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする。映像分割部１６は、重み付けに基づいてテキストを分割することによって映像を分割する。

次に、本発明の第１の実施例について、図面を参照して詳細に説明する。図１は本発明の第１の実施例の構成を示すブロック図である。本発明の第１の実施例は、映像を複数の区間に分割する映像分割装置である。図１を参照すると、映像分割装置は、映像データ記憶部１１、テキスト記憶部１２、被写体判定部１３、被写体重み付け部１４、重み付きテキスト記憶部１５、映像分割部１６、分割結果記憶部１７及び映像視聴部１８を備えている。これらの各部は、それぞれ次のように動作する。

映像データ記憶部１１は、分割対象となる映像データを記憶する。また、テキスト記憶部１２は、映像データ記憶部１１が記憶する映像データに関連するテキストであって、映像データにおける再生位置情報が付与されたものを記憶する。

まず、被写体判定部１３は、テキスト記憶部１２に記憶されるテキストに含まれるそれぞれの単語等に対して、その単語等が映像データ記憶部１１に記憶される映像データに映っている被写体を表すか否かを判定し、判定結果を被写体重み付け部１４に出力する。

次に、被写体重み付け部１４は、被写体判定部１３によって被写体を表すものと判定された単語等の重みが大きくなるように、テキスト記憶部１２に記憶されるテキストに含まれるそれぞれの単語等に重みを与え、その結果を重み付きテキスト記憶部１５に出力する。

映像分割部１６は、重み付きテキスト記憶部１５からそれぞれの単語等が重み付けされたテキストを読み込み、重みを用いてテキストを分割することによって映像データをトピックに分割し、その結果を分割結果記憶部１７に出力する。

映像視聴部１８は、分割結果記憶部１７に記憶される映像データの分割結果を読み込むことによって、分割されたトピックを単位として映像データ記憶部１１に記憶される映像データの検索や再生を行う。

次に、図１、図２のブロック図、図３の流れ図、及び、図４〜図１０の説明図を参照して、本実施例の全体の動作について詳細に説明する。

映像データ記憶部１１は、分割対象となる映像データを記憶する。映像データとして、例えば、テレビ番組、講義映像、ホームビデオ、など様々な映像が考えられる。

テキスト記憶部１２は、映像データ記憶部１１に記憶される映像データに関連するテキストであって、映像データにおける再生位置が付与されたものを記憶する。このようなテキストとして、例えば、映像データに含まれる発話の内容を表すテキストが考えられる。具体的には、発話を音声認識して得られる音声認識結果テキストや、テレビ番組において送信される字幕情報（クローズドキャプション）などを用いることができる。また、テキスト記憶部１２は、映像中の各シーンに対して、人手によって付与された、コメント、感想、各シーンの要約テキスト等が記憶されていても良い。

本実施例におけるテキスト記憶部１２が記憶するテキストは、単語単位に分かち書きされているものとする。日本語のようにテキストが単語単位に分かち書きされていない言語である場合には、公知の形態素解析技術を用いてあらかじめテキストを単語単位に分割しておくことが好ましい。

これらのテキストには、テキストが映像データのどの区間と対応づけられたテキストであるのかを表すために、映像データにおける再生位置を表す情報が付与されている必要がある。再生位置を表す情報としては、映像データの始端、映像データ中の特定位置からの経過時間、画像フレーム数等を用いることができる。再生位置を表す情報は、テキストに含まれる文単位に付与されていても良いし、テキストに含まれる単語単位に付与されていても良い。映像分割部１６によってテキストをトピックへと分割することにより、分割されたテキストに付与された再生位置情報に基づいて映像データも分割することができる。

なお、以下では、テキスト記憶部１２は、一例として、映像データに含まれる発話の内容を表すテキストを、映像データの始端からの経過時間情報とともに記憶しているものとする。勿論、本発明において、テキスト記憶部１２に記憶されるテキストが発話の内容を表すテキストに限定されるものではない。

図４は、テキスト記憶部１２が記憶するデータの一例である。図４を参照すると、映像データ記憶部１１が記憶する映像データにおいて、映像データの始端からの経過時間が１０２．０〜１０５．０秒の間に「携帯電話メーカーの間で競争が激化しています」と発話され、始端からの経過時間が１０５．０〜１１０．０秒の間に「様々な機能が携帯電話に搭載されるようになりました」と発話されている。また、それぞれのテキストは、形態素解析技術によって単語単位に分かち書きされている。このようなテキストは、前述のように、発話を音声認識したり、字幕情報を利用したりすることによって得られる。

映像データを分割する際、まず、被写体判定部１３は、テキスト記憶部１２が記憶するテキストに含まれるそれぞれの単語等に対して、その単語等が映像データ記憶部１１が記憶する映像データに映っている被写体を表すか否かを判定する（ステップＳ２１〜Ｓ２３）。被写体判定部１３は、判定結果を被写体重み付け部１４に出力する。なお、被写体とは、映像データに映っている何らかのオブジェクトや顔画像や文字画像や場所等をいう。

図２は、被写体判定部１３の構成を示すブロック図である。図２を参照すると、被写体判定部１３は、被写体認識部１３０、被写体認識結果記憶部１３５及び照合部１３６を備えている。また、被写体認識部１３０は、オブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３及び被写体抽出部１３４を含む。

被写体判定部１３は、被写体認識部１３０によって、映像データ記憶部１１に記憶される映像データに映っている被写体を認識し、被写体を表すテキストを被写体認識結果テキストとして被写体認識結果記憶部１３５に出力する（ステップＳ２１）。映像データに映っている被写体の認識は、オブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３、被写体抽出部１３４によって行われる。

オブジェクト認識部１３１は、映像データ記憶部１１から映像データを読み込み、映像データに対して、例えば、特許文献１（なお、特許文献１の記載事項は、引用をもって本書に繰込み記載されているものとする。）に記載のオブジェクト認識技術を適用することによって実現することができる。ここで、オブジェクトとは、映像中に映っているひとまとまりの物体を意味する。特許文献１によれば、オブジェクトを認識するために、まず、映像データ中の画像を分割して部分映像を抽出し（特許文献１における部分映像抽出手段）、部分映像からカラーレイアウトやエッジヒストグラム等の視覚的特徴量を計算し（特許文献１における視覚的特徴量設定手段）、部分映像の視覚的特徴量と被写体の候補となる候補オブジェクトの視覚的特徴量との類似度を計算する（特許文献１における特徴量比較手段）。そして、両者の類似度が閾値を超えれば、映像データに候補オブジェクトが映っているものと判定する。この判定処理を様々な候補オブジェクトに対して行うことによって、映像データに映っている様々なオブジェクトを被写体として認識することができる。オブジェクト認識部１３１は、映像に映っているものと判定されたオブジェクトの名称を被写体認識結果テキストとして被写体認識結果記憶部１３５に出力する。

なお、このような処理は映像データ中のすべての画像フレームに対して行っても良い。また、処理量を軽減するために、ショット（カメラの切り替わり等のない一続きの映像区間）ごとにオブジェクト認識処理を行っても良い。かかる処理を行うためには、あらかじめ映像データに対して公知のショット分割を適用し、得られたそれぞれのショットの代表画像に対してオブジェクト認識処理を行えばよい。代表画像の選び方は様々な方法を用いることができ、一例として、単純にショットの先頭の画像フレーム等としても良い。

ここでは、オブジェクト認識部１３１を実現する手法として特許文献１に記載の手法を説明した。勿論、本発明におけるオブジェクト認識部１３１の実現手法は、特許文献１に記載の手法に限定されず、映像に映っているオブジェクトを認識する手法であればどのような手法であってもよい。

顔画像認識部１３２は、映像データ記憶部１１から映像データを読み込み、映像データに対して公知の顔画像認識技術を適用することによって実現することができる。顔画像認識部１３２は、映像に映っていると判定された人物の名前や役職名等を被写体認識結果テキストとして被写体認識結果記憶部１３５に出力する。

文字認識部１３３は、映像データ記憶部１１から映像データを読み込み、映像データに対して公知の文字認識技術を適用することによって実現することができる。文字認識部１３３は、例えば、映像に映っている文字画像の文字認識結果をそのまま被写体認識結果テキストとして被写体認識結果記憶部１３５に出力する。また、文字認識部１３３は、文字認識結果の中から人物名、場所名、名詞全般等を抽出し、これらを被写体認識結果テキストとして被写体認識結果記憶部１３５に出力してもよい。

なお、映像データがテレビ番組等の場合には、映像中に表示されている文字（テロップ）の内容に関する情報が配信されることも考えられる。かかる場合、文字認識部１３３は、映像に映っている文字列の文字認識をすることなく、配信されたテロップの情報を文字認識結果とみなして被写体認識結果テキストを出力してもよい。

被写体抽出部１３４は、テキスト記憶部１２からテキストを読み込み、テキストに含まれる単語等の中から、映像に映っている被写体を表す単語等を抽出する。このような処理は、例えば、非特許文献２（なお、非特許文献２の記載事項は、引用をもって本書に繰込み記載されているものとする。）に記載の技術を用いることで実現することができる。すなわち、テキスト中のある名詞が映像に映っているか否かを、「その名詞が体言止めであるか否か」、「その名詞が含まれる名詞句の付属語の種類は何であるか」等の特徴を組み合わせたプロダクションルールによって判定する。非特許文献２に記載の技術によれば、映像中のそれぞれのショットに対して、そのショットの主な被写体を表す名詞をテキスト中から抽出することができる。被写体抽出部１３４は、映像に映っている被写体を表すと判定された単語等を被写体認識結果テキストとして被写体認識結果記憶部１３５に出力する。

ここでは、被写体抽出部１３４を実現する手法として非特許文献２に記載の手法を説明した。勿論、本発明における被写体抽出部１３４の実現手法は非特許文献２に記載の手法に限定されるものではなく、テキストから被写体を表す単語等を抽出する手法であればどのような手法でも構わない。

上述したオブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３、被写体抽出部１３４は、被写体認識結果テキストに加えて、その被写体認識の信頼度を出力してもよい。ここで、被写体認識の信頼度とは、得られた被写体認識結果をどの程度正しいと考えられるかどうかを表す値をいう。すなわち、オブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３、被写体抽出部１３４が出力する被写体認識結果は自動処理であるため、誤っている場合もある。しかし、信頼度が大きいほど、得られた被写体認識結果テキストは実際に映像データに映っている可能性が高い。

例えば、オブジェクト認識部１３１が特許文献１に記載の方法で実現されている場合には、映像データ中の部分映像から抽出した視覚特徴量と候補オブジェクトの視覚特徴量との類似度を被写体認識結果の信頼度とすることができる。これは、両者の類似度が大きいほど、その被写体認識結果が実際に映像データに映っている可能性が高いと考えられるからである。

被写体抽出部１３４が非特許文献２に記載の方法で実現されている場合には、被写体を抽出する際に適用されたプロダクションルールの予測精度を被写体認識結果の信頼度とすることができる。これは、予測精度の高いルールによって得られた被写体認識結果ほど、実際に映像データに映っている可能性が高いと考えられるからである。

顔画像認識部１３２や文字認識部１３３においても、公知の顔画像認識技術や文字認識技術においてよく知られた方法により計算される信頼度を用いることができる。なお、これらの信頼度の値は、適当な方法によって０〜１の範囲へ正規化してもよい。

また、オブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３は、被写体認識結果テキストに加えて、その被写体の映像データにおける重要度を出力してもよい。ここで、被写体の映像データにおける重要度とは、その被写体がその映像データの意味内容とどの程度関連性があるかを表した値である。

被写体の重要度は、例えば、オブジェクト認識部１３１において認識されたオブジェクト、顔画像認識部１３２において認識された顔画像、又は、文字認識部１３３において認識された文字画像が映像に映っている領域が画面全体に占める割合、として求めることができる。これは、オブジェクトや顔画像や文字等の被写体が映像に映っている範囲が大きいほど、その被写体がその映像において主要な被写体であり、映像の意味内容との関連性も高いと考えられるからである。また、オブジェクトや顔画像や文字等の被写体が映像に映っている時間の長さを重要度とすることもできる。

このようにして、オブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３、被写体抽出部１３４によって、映像データ記憶部１１に記憶される映像データに映っている被写体が認識され、被写体認識結果テキストが得られる。映像に映っているオブジェクト、顔画像、文字画像は、映像データの意味内容との関連性が特に高いと考えられる。このとき、それぞれの被写体認識結果テキストには、その被写体が映像データのどの区間に映っているのかを表す再生位置の情報を、例えば、映像データの始端からの経過時間等として付与することもできる。また、前述のように、それぞれの被写体認識結果テキストには、被写体認識結果の信頼度又は被写体の映像データにおける重要度等を付与することもできる。これらの被写体認識結果は、被写体認識結果記憶部１３５に記憶される。

図５は、被写体認識結果記憶部１３５に記憶されるデータの一例である。図５を参照すると、映像データの始端からの経過時間が１０５．０〜１２０．０秒の間に「携帯電話」が被写体として映っており、その被写体認識結果の信頼度は０．８であり、被写体の重要度は０．４である。また、映像データの始端からの経過時間が１９０．０〜１９５．０秒の間に「ＰａＰｅＲｏ」が被写体として映っており、その被写体認識結果の信頼度は０．６であり、被写体の重要度は０．２である。

なお、被写体認識部１３０は、オブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３、被写体抽出部１３４の全てを備えている必要はなく、これらのうちいずれか一つ以上の手段を備えていればよい。

次に、被写体判定部１３は、照合部１３６によって、テキスト記憶部１２に記憶されるテキストに含まれるそれぞれの単語に対して、その単語が映像データに映っている被写体を表すか否かを判定する（ステップＳ２２、Ｓ２３）。被写体判定部１３は、判定結果を被写体重み付け部１４に出力する。照合部１３６は、テキストに含まれるそれぞれの単語と、被写体認識結果記憶部１３５に記憶される被写体認識結果テキストとを照合することによって、この判定を行う。

照合部１３６の動作を説明する。一例として、テキスト記憶部１２は図４に示すテキストを記憶し、被写体認識結果記憶部１３５は図５に示す被写体認識結果を記憶するものとする。照合部１３６は、テキストに含まれる「携帯電話」という単語が被写体を表すか否かを判定する（ステップＳ２２）。この判定は、「携帯電話」と被写体認識結果記憶部１３５に記憶される被写体認識結果テキストとを照合することによって行われる。いま、被写体認識結果テキストには「携帯電話」が存在するため、「携帯電話」という単語は映像データに映っている被写体を表しているものと判定される。

テキスト記憶部１２に記憶されるテキスト中の全ての単語の判定が終了していないため（ステップＳ２３のＮｏ）、照合部１３６は「携帯電話」の次の単語である「メーカー」という単語が被写体を表すか否かを判定する（ステップＳ２２）。「メーカー」と被写体認識結果テキストとを照合した結果、被写体認識結果テキストには「メーカー」は存在しないため、「メーカー」という単語は被写体を表していないものと判定される（ステップＳ２２）。このような処理を、テキスト中の全ての単語の判定が終了するまで繰り返す（ステップＳ２３のＹｅｓ）。なお、このような判定を行う際に、照合部１３６は、テキスト中の単語ではなく、単語列と被写体認識結果テキストとを照合してもよい。例えば、２つの単語「携帯電話」、「メーカー」を組み合わせた「携帯電話/メーカー」という単語列が、被写体認識結果に存在するか否かを照合してもよい。

また、照合部１３６は、ある単語が被写体を表すと判定する場合に、その判定の信頼度を判定結果に含めて、被写体重み付け部１４に出力しても良い。ここで、判定の信頼度とは、その判定がどの程度正しいと考えられるかどうかを表す値をいう。

また、照合部１３６は、ある単語が被写体を表すものと判定する場合には、その被写体の映像データにおける重要度を判定結果に含めて、被写体重み付け部１４に出力してもよい。ここで、重要度とは、その被写体がその映像データの意味内容とどの程度関連性が高いかを表した値をいう。

これらの信頼度や重要度を出力するには、被写体認識結果記憶部１３５に記憶されている値を用いればよい。例えば、図５を参照すると、被写体認識結果において「携帯電話」の信頼度は０．８、重要度は０．４であるため、テキスト中の「携帯電話」という単語が被写体を表すと判定するときに、その判定の信頼度は０．８、被写体の重要度は０．４とすることができる。また、被写体認識結果において「ＰａＰｅＲｏ」は２箇所に出現しているが、このような場合、信頼度や重要度としては、例えば、値の大きな方を採用すれば良い。その結果、テキスト中の「ＰａＰｅＲｏ」という単語が被写体を表すと判定するときに、その判定の信頼度は０．８、被写体の重要度は０．６とすることができる。また、テキスト中の「ＰａＰｅＲｏ」という単語が対応づけられた再生位置に時間的に最も近い「ＰａＰｅＲｏ」の被写体認識結果の値を用いてもよい。

また、照合部１３６は、ある単語と被写体認識結果テキストとを照合する際に、その単語、又は、被写体認識結果テキストのうち、少なくともいずれか一方をシソーラスによって展開した上で、両者を照合してもよい。ここで、シソーラスとは、単語の同義語、広義語、狭義語、関連語等を得ることができる辞書をいう。

例えば、シソーラスを用いて、図５に示した被写体認識結果テキスト中の「携帯電話」を同義語である「ケータイ」や狭義語である「Ｎ９０５ｉ」に展開したり、「ＰａＰｅＲｏ」を広義語である「ロボット」に展開したりしてから、照合を行ってもよい。このような処理を行うことによって、例えば、テキスト記憶部１２に記憶されるテキスト中に「ケータイ」という単語があった場合に、「ケータイ」が被写体を表すと判定することができる。また、このような展開は、適切な辞書を用いることができる場合は、建物名からその建物が存在する場所名に展開する等、様々な展開が考えられる。例えば、「エッフェル塔」を「パリ」に展開する等である。このようにすることで、照合部１３６は、テキスト記憶部１２が記憶するテキストに含まれる単語と、被写体認識結果記憶部１３５が記憶する被写体認識結果テキストとの間の表現の違いを吸収して、より適切に被写体の判定を行うことが可能となる。

以上のように、被写体判定部１３は、テキスト記憶部１２に記憶されるテキストに含まれるそれぞれの単語等に対して、その単語等が映像データに映っている被写体を表すか否かを判定し、判定結果を被写体重み付け部１４に出力する。このとき、前述のように、ある単語等が被写体を表すものと判定された場合には、その判定の信頼度、又は、その被写体の映像データにおける重要度を判定結果に含めてもよい。

図６は、被写体判定部１３が被写体重み付け部１４に出力する判定結果の一例を示す。判定結果は、テキスト記憶部１２に記憶されるテキストに含まれるそれぞれの単語に対して、その単語が映像データに映っている被写体を表すか否かの判定結果を含む。さらに、判定結果は、単語が被写体を表すと判定された場合には、その判定の信頼度及びその被写体の映像データにおける重要度を含む。

なお、本実施例では、被写体判定部１３において、オブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３は、映像に映っている被写体を何ら制限なく認識するものとした。しかし、オブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３は、テキスト記憶部１２からテキストを読み込み、認識する被写体をテキストに含まれる単語等に限定して被写体の認識を行うよう動作してもよい。例えば、テキスト記憶部１２に図４に示すテキストが記憶されている場合には、オブジェクト認識部１３１は、映像データに映っている全てのオブジェクトを認識するのではなく、認識するオブジェクトの候補をテキストに含まれている「携帯電話」「ＰａＰｅＲｏ」等に限定した上で、オブジェクトを認識するよう動作してもよい。同様に、顔画像認識部１３２は、テキストに含まれる人物名に対応する顔画像に候補を限定した上で、顔画像を認識するよう動作してもよい。同様に、文字認識部１３３は、テキストに含まれる単語等に候補を限定した上で、文字画像を認識するよう動作してもよい。

さらに、本実施例においては、照合部１３６の動作に先立ち、被写体認識部１３０は、あらかじめ映像データに映っている被写体を認識するものとした。しかし、被写体認識部１３０は、あらかじめ被写体を認識することなく、照合部１３６がテキストに含まれる単語等と被写体認識結果テキストとを照合するときに、その単語等に限定した上で被写体を認識するようにしてもよい。

次に、被写体重み付け部１４は、被写体判定部１３によって被写体を表すものと判定された単語等の重みが大きくなるように、テキスト記憶部１２に記憶されるテキストに含まれるそれぞれの単語等に重みを与え（ステップＳ２４）、結果を重み付きテキスト記憶部１５に出力する。

一例として、被写体を表すものと判定された単語等には重みとしてＳａ＝１０を与え、被写体を表さないと判定された単語等には重みとしてＳｂ＝１を与えるようにしてもよい。もちろん、被写体を表すと判定されたときの重みが被写体を表さないと判定されたときの重みよりも大きければ（Ｓａ＞Ｓｂであれば）、これらの重みの具体的な値は他の値でもよい。ここで、被写体を表さないと判定された単語にも最低限の重みを与えることによって、映像分割部１６は、被写体を表さない単語も考慮することができる。

また、被写体を表すものと判定された単語等に、その判定の信頼度が含まれている場合には、信頼度が大きいものほど、その単語等の重みを大きくするようにしてもよい。このようにすることによって、被写体を表すという判定が正しいと考えられるものほど大きな重みが与えられることになる。

また、被写体を表すと判定された単語等に、その被写体の重要度が含まれている場合には、重要度が大きいほど、その単語等の重みを大きくするようにしてもよい。このようにすることによって、その被写体が映像データの意味内容と関連性が高いと考えられるほど、大きな重みが与えられることになる。

このような重み付けを行うためには、例えば、信頼度と重要度の積に比例した値を重みとすれば良い。すなわち、重み＝Ｓａ×信頼度×重要度、として計算する。図６に示したように、「携帯電話」という単語が被写体を表しており、その信頼度が０．８、重要度が０．４である場合、重みとして、１０×０．８×０．４＝３．２を与えることができる。ここで、比例定数（Ｓａ）として１０を与えたが、その値は他の値でもよい。また、信頼度や重要度が大きいほど重みが大きくなるような関数であれば、重みを計算する関数は他の関数でもよい。なお、このとき、被写体を表すと判定された単語等の重みが、被写体を表さないと判定された単語等に与える重みよりも小さくならないようにすることが好ましい。例えば、信頼度が０．３、重要度が０．２である場合、前述したように重みを計算すると重みは１０×０．３×０．２＝０．６となるが、もし、被写体を表さないと判定されたときに与える重みがＳｂ＝１である場合には、重みとして０．６ではなくＳｂ＝１を与えるようにすることが好ましい。

また、重み付けする単語の品詞が名詞及び動詞以外の場合には、重みを小さな値、例えば０としてもよい。また、重み付けする単語が付属語又は機能語の場合には、重みを小さな値としてもよい。このようにすることで、映像データの意味内容との関連性が低いと考えられる単語の重みを小さくすることができる。

図７は、テキスト記憶部１２に図４に示したテキストが記憶され、被写体認識結果記憶部１３５に図５に示したテキストが記憶されている場合の、重み付きテキスト記憶部１５に記憶されるデータを示す。ここでは、被写体を表すと判定された単語の重みを１０×信頼度×重要度で計算し、被写体を表さないと判定された単語の重みを１とし、名詞及び動詞以外の単語重みを０とした。

最後に、映像分割部１６は、重み付きテキスト記憶部１５からそれぞれの単語等に重みが付与されたテキストを読み込み、重みを用いてテキストを分割することによって映像データをトピックへ分割し、結果を分割結果記憶部１７に出力する。すなわち、前述したように、テキストには各テキストが映像データのどの区間と対応づいているのかを表す再生位置の情報が付与されているため、テキストを分割することによって、分割点に対応する映像データの再生位置を求めることができる。

以下では、映像分割部１６によって、重み付きテキスト記憶部１５から読み込んだテキストを意味的なまとまりを表すトピックに分割する方法を詳細に説明する。図８は、映像分割部１６がテキストを分割する処理の一例を示す図である。まず、テキストの各部分に対して一定幅の分析区間を設定し（図８（ａ））、それぞれの分析区間に対して、分析区間においてそれぞれの単語に与えられた重みの分布を求める（図８（ｂ））。具体的には、テキスト全体に出現する単語の種類の数を次元数とし、分析区間においてそれぞれの単語に与えられた重みの和を要素とするベクトルを重みの分布とすればよい。例えば、重み付きテキスト記憶部１５に図７に示したテキストが記憶され、分析区間の幅を文２つと定めた場合には、文ＩＤ１と文ＩＤ２から構成される分析区間の単語の重みの分布は、「携帯電話」→６．４、「メーカー」→１、「間」→１、「競争」→１、「激化し」→１、「機能」→１、「搭載」→１、その他の単語→０を要素とするベクトルで表される。次に、隣接する分析区間の間の重み分布の類似度を計算し、類似度の極小点を求める（図８（ｃ））。類似度の極小点は単語の重みの分布が変化する点であるため、これをテキストの分割点とする。図８では、ＸとＹが極小点であるため、これらの点をテキストの分割点とする。なお、極小点を求める場合、谷の深さが一定以上あるものに限定してもよく、類似度が閾値以下であるものに限定してもよい。

映像データにおいては、映像に映っている被写体は、映像データに含まれる個々のトピックの意味内容との関連性が特に高いと考えられる。なぜならば、映像データを作成する際には、当然ながら、視聴者に伝えたい内容に関する物・人物・文字・場所等を映像として映すためである。映像に映っている被写体がその映像で伝えたい内容と無関係である可能性は非常に低い。

したがって、映像データに映っている被写体を表す単語に大きな重みを与え、単語の重み分布が変化する点を検出することによって、映像データに含まれるトピックの意味内容を適切に反映したテキストの分割が可能となる。すなわち、図４ないし図７の例では、被写体として「携帯電話」と「ＰａＰｅＲｏ」が映像に映っており、これらはトピックの主題と深く関連すると考えられる。したがって、これらの単語に大きな重みを与えて単語の重み分布の変化点を求めることは、トピックの主題をより際立たせつつテキストを分割することを意味し、トピックへの分割精度が向上する。

また、同じ「携帯電話」という単語であっても、「携帯電話」が被写体として映像に映っていなかった場合には、「携帯電話」に対する重みは小さな値となり、テキスト分割に与える影響は小さなものとなる。「携帯電話」が被写体でないことから、その映像においては「携帯電話」がトピックの主題ではない可能性が高い。したがって、かかる場合においても、トピックへの分割精度が向上する。このように、本発明によれば、同じ単語であっても、その単語が被写体を表すか否かに応じて適切に重み付けをすることによって、トピックへの分割精度が向上する。

図９は、本発明の効果をより具体的に説明する図である。ここでは、テキストは、映像データに含まれる発話内容を表すテキストとする。図９は、トピックＡ〜Ｇの７つのトピックから構成される映像データ（図９（ａ））を分割する場合に、単純に各分析区間の単語の出現頻度分布を求めた場合（図９（ｂ））と、本発明によって被写体を表す単語に大きな重みを与えて各分析区間の単語の重みの分布を求めた場合（図９（ｃ））との間で、隣接する分析区間の間の分布の類似度系列を比較して示す。トピックＦの映像区間には、時刻ｔ１〜ｔ２の間に「アクチビン」と「細胞」が被写体として映っており（図９（ｄ））、テキスト中にはこれら「アクチビン」と「細胞」が時刻ｔ３〜ｔ４の間に出現しており（図９（ｅ））、テキスト中には被写体ではない単語「表皮」等いくつかの単語が時刻ｔ５〜ｔ６の間に出現している（図９（ｆ））。トピックＦは「アクチビン」という物質を主題としたトピックである。したがって、「アクチビン」という単語は、テキストにおいてトピックＦの区間ｔ３〜ｔ４において出現している。

単純に各分析区間の出現頻度分布を求めた場合（図９（ｂ））には、トピックＥとトピックＦとの境界において類似度は周囲と変わらず、したがって、トピックＥとトピックＦの間で分割することができない。これは、「表皮」等のトピックＥとトピックＦをまたがって存在する単語が多数存在するために、これらの影響によりトピックＥとトピックＦとの境界で単語分布の類似度が小さくならなかったからである。

一方、本発明によって被写体を表す単語に大きな重みを与えて各分析区間の単語の重みの分布を求めた場合（図９（ｃ））には、トピックＥとトピックＦとの境界において類似度の谷が得られ、トピックＥとトピックＦの間で正しく分割することができる。このような結果は、被写体に含まれない「表皮」等の単語の重みを小さくし、被写体に含まれる「アクチビン」や「細胞」等の単語の重みを大きくしたために得られたものである。すなわち、被写体を表さない単語はトピックの主題との関連性が低い場合がある。本発明によって、そのような単語の影響を取り除くことができる。また、被写体を表す単語はトピックの主題との関連性が高く、本発明によって、そのような単語が強調される。

なお、「アクチビン」や「細胞」が映像に映っているのは時刻ｔ１〜ｔ２であり、トピックＦの区間とは異なるため、単純に被写体が映し出されている区間をそのままトピックの区間としても適切なトピックへの分割はできない。これは、「アクチビン」や「細胞」がトピックの主題であっても、その被写体が常に映し出されているわけではないためである。しかし、映像に含まれる発話においては、トピックの主題である「アクチビン」や「細胞」といった単語がトピックＦの区間（時刻ｔ３〜ｔ４）を通じて現れているため、本発明によって適切にトピックへと分割できる。このように、本発明の効果をより高めるためには、テキスト記憶部１２に記憶するテキストとして、映像の各部分において映像の意味内容と関連性の高い単語が含まれるテキストが望ましい。例えば、テキスト記憶部１２に記憶するテキストとして、映像に含まれる発話の内容を表すテキスト等を用いることが好ましい。

なお、映像分割部１６は、各分析区間の単語の重み分布を計算する際に、各単語のＩＤＦを乗じてもよい。前述したように、同じ単語であれば、その単語がどのような場面に現れてもＩＤＦは同じ値となるが、ＩＤＦは単語の一般的な重要度を表す指標であるため、本発明と併用することもできる。

また、本実施例においては、各分析区間において単語の重みの分布を求めた後に、隣接する分析区間の間の重み分布の類似度の極小点を求めることによってテキストを分割した。しかし、本発明においてテキストを分割する手法はかかる手法に限定されるものではない。例えば、あらかじめ、新聞記事等のトピックごとに分割されているテキストコーパスを用いて、様々なトピックに関するトピックモデルを用意し、各トピックモデルをそれぞれの分析区間における単語の重み分布と照合することでテキストを分割してもよい。トピックモデルとして、例えば、各トピックに出現する単語の出現頻度等の単語分布を学習したモデルを用いればよい。ここで、トピック間の遷移の起こりやすさを適宜決めることによって、分析区間の系列と最もよく整合するトピックモデル系列を、トピックの分割点の位置とともに求めることができる。このようなトピックモデルを用いたテキスト分割手法は、例えば「Ｊ．Ｐ．Ｙａｍｒｏｎ、Ｉ．Ｃａｒｐ、Ｌ．Ｇｉｌｌｉｃｋ、Ｓ．Ｌｏｗｅ、ａｎｄＰ．ｖａｎＭｕｌｂｒｅｇｔ、“ＡＨＩＤＤＥＮＭＡＲＫＯＶＭＯＤＥＬＡＰＰＲＯＡＣＨＴＯＴＥＸＴＳＥＧＭＥＮＴＡＴＩＯＮＡＮＤＥＶＥＮＴＴＲＡＣＫＩＮＧ、”ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ、ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ｐｐ．３３３−３３６、１９９８．」に記載されている。

以上のように、映像分割部１６によって映像が分割される。そして、分割された映像は、例えば分割点に対応する再生位置情報等として分割結果記憶部１７に記憶される。

映像視聴部１８は、分割結果記憶部１７に記憶される映像データの分割結果を読み込むことによって、分割されたトピックを単位として、映像データ記憶部１１に記憶される映像データの検索や再生等を行う。例えば、ニュース項目を単位としてニュース番組を検索又は再生し、学習項目を単位として講義映像を検索又は再生したりすることができる。もちろん、これらの機能は本発明によって分割された映像データの利用方法の一例に過ぎない。本発明はトピックを単位として映像データを活用するあらゆるアプリケーションに適用することができる。

なお、本実施例においては、テキスト記憶部１２に記憶されるテキストは、あらかじめ単語単位に分かち書きされているものとした。しかし、テキスト記憶部１２に記憶されるテキストは単語単位に分かち書きされていなくてもよい。すなわち、被写体判定部１３や被写体重み付け部１４が、テキスト記憶部１２からテキストを読み込む際に公知の形態素解析技術を用いてテキストを単語単位へと分割するよう動作することによって、テキスト記憶部１２に記憶されるテキストがあらかじめ単語単位に分かち書きされていない場合であっても、本発明を適用することができる。

また、本実施例においては、被写体判定部１３に含まれる照合部１３６は、テキスト記憶部１２に記憶されるテキストに含まれるそれぞれの単語に対して、その単語が被写体を表すか否かを判定する際に、その単語と被写体認識結果記憶部１３５に記憶されるすべての被写体認識結果テキストとを照合し、その単語が被写体認識結果テキストのいずれかと一致した場合に、その単語が被写体であると判定した。このとき、照合部１３６は、ある単語が被写体を表すか否かを判定する際に、その単語が、その単語に対応する再生位置から時間的に所定の範囲内に限定した映像区間に映っている被写体を表すか否かを判定するようにしてもよい。

一例として、テキスト記憶部１２において図４に示すテキストが記憶されており、被写体認識結果記憶部１３５において図５に示すデータが記憶されているものとする。このとき、文ＩＤ１に含まれる「携帯電話」という単語が被写体を表すか否かを判定する際に、文ＩＤ１に対応する再生位置である１０２．０〜１０５．０秒から、例えば、１０秒以内の映像区間、すなわち９２．０〜１１５．０秒に限定した映像区間に映っている被写体を表すか否かを判定するようにしてもよい。そのためには、「携帯電話」と被写体認識結果記憶部１３５に記憶される被写体認識結果テキストとを照合する際に、映っている時刻が９２．０〜１１５．０秒と重なっている被写体認識結果に限定して照合すればよい。

図１０は、このような処理を具体的に説明する図である。図１０に示した映像データには、「花」が主題であるトピックＨ、「ミツバチ」が主題であるトピックＩ、「モンシロチョウ」が主題であるトピックＪ、が含まれている（図１０（ｂ））。また、各トピックの中で、「花」、「ミツバチ」、「モンシロチョウ」が被写体として映っている（図１０（ａ））。さらに、テキスト記憶部１２には、図１０（ｃ）に示すテキストが記憶されている。

このとき、上述したような時間的制約を課さずに、テキストに含まれる単語が被写体を表すか否かを判定すると、トピックＨのテキストに含まれている「ミツバチ」や「モンシロチョウ」といった単語も被写体を表すと判定され、大きな重みが与えられる。しかし、トピックＨのテキストに出現する「ミツバチ」や「モンシロチョウ」といった単語は、トピックＩにて映像に映っている「ミツバチ」やトピックＪにおいて映像に映っている「モンシロチョウ」を指し示しているわけではない。このように、本来その単語が指し示しているわけではない映像において、たまたまその単語が表す被写体が映っている場合には、その単語の重みを大きくするべきではない。

そこで、上述したような時間的制約を課して、テキストに含まれる単語が被写体を表すか否かを判定すると、トピックＨのテキストに含まれている「ミツバチ」や「モンシロチョウ」といった単語は、「ミツバチ」や「モンシロチョウ」が映像に映っている映像区間とは時間的に離れた再生位置にあるため、被写体を表すとは判定されず、重みが大きくなることはない。その結果、トピックＨにおいて大きな重みが与えられる単語は「花」のみとなり、トピックＨの主題と関連性の高い単語のみが大きな重みを与えられるようにすることができる。

本発明は、あらゆる映像データに適用することができる。なお、ニュース番組や教育映像等のように、映像に映っている被写体そのものが説明されることが多い映像データ、又は、映像中の発話によって映像の内容が詳細に説明される映像データ等に対して、本発明は特に高い効果を発揮する。

次に、本実施例の効果について説明する。本発明によれば、映像データを意味内容に応じて適切にトピックへと分割することが可能となる。その理由は、本発明においては、映像データに含まれる個々のトピックの意味内容との関連性が特に強いと考えられる被写体を判定した上で、被写体を表す単語等の重みを大きくして映像データと関連するテキストを分割することで、映像データを分割するからである。

次に、本発明の第２の実施例について、図面を参照して詳細に説明する。

本発明の第２の実施例は、第１の実施例をプログラムにより構成した場合に、そのプログラムにより動作するコンピュータとして実現される。

図１１を参照すると、本発明の第２の実施例は、ＣＰＵ等を含んで構成されるデータ処理装置３２と、磁気ディスクや半導体メモリ等で構成される記憶装置３３と、映像分割用プログラム３１とから構成される。

記憶装置３３は、映像データ記憶部３３１、テキスト記憶部３３２、重み付きテキスト記憶部３３３、分割結果記憶部３３４、被写体認識結果記憶部３３５等として使用される。

映像分割用プログラム３１は、データ処理装置３２に読み込まれ、データ処理装置３２の動作を制御することにより、データ処理装置３２上に、上記第１の実施例の機能を実現する。すなわち、データ処理装置３２は、映像分割用プログラム３１の制御によって、図１の被写体判定部１３、被写体重み付け部１４、映像分割部１６、映像視聴部１８、あるいは、図２のオブジェクト認識部１３１、顔画像認識部１３２、文字認識部１３３、被写体抽出部１３４、照合部１３６の処理を実行する。

本発明は、映像データを話題ごとに整理された状態で閲覧する情報閲覧システムや、情報閲覧システムをコンピュータに実現するためのプログラムといった用途に適用することができる。また、大量の映像データの中から特定の話題に関する映像データを検索する情報検索システム等の用途にも適用することができる。さらに、本発明は、トピックを単位として映像データを活用するあらゆるアプリケーションに適用することができる。

なお、本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施例ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims

映像と関連付けられたテキストであって該映像における再生位置が付されたものを参照して該テキストに含まれる単語又は単語列（以下「単語等」という。）が該映像に含まれる被写体を表すか否かを判定する被写体判定部と、
前記単語等のうち前記被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け部と、
前記重み付けに基づいて前記テキストを分割することによって前記映像を分割する映像分割部と、を備えていることを特徴とする映像分割装置。
前記被写体判定部は、前記単語等が前記映像のうち前記再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることを特徴とする、請求項１に記載の映像分割装置。
前記被写体判定部は、前記単語等が前記映像に映っている被写体を表すと判定した場合には前記単語等が該被写体を表す信頼度を計算するとともに、
前記被写体重み付け部は、前記信頼度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項１に記載の映像分割装置。
前記被写体判定部は、前記単語等が前記映像に映っている被写体を表すと判定した場合には該被写体の前記映像における重要度を決定するとともに、
前記被写体重み付け部は、前記重要度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項１に記載の映像分割装置。
前記被写体判定部は、前記被写体が前記映像に占める割合に応じて前記被写体の重要度を決定することを特徴とする、請求項４に記載の映像分割装置。
前記被写体判定部は、前記映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識部と、
前記単語等と前記被写体認識結果テキストとを照合して前記単語等が前記映像に映っている被写体を表すか否かを判定する照合部と、をさらに備えていることを特徴とする、請求項１に記載の映像分割装置。
前記被写体は、オブジェクト、顔画像、又は文字を含むことを特徴とする、請求項６に記載の映像分割装置。
前記被写体認識部は、前記オブジェクトを認識するオブジェクト認識部、前記顔画像を認識する顔画像認識部、前記文字を認識する文字認識部、及び、前記テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出部、のうち少なくとも１つを備えていることを特徴とする、請求項７に記載の映像分割装置。
前記照合部は、前記単語等及び前記被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、前記単語等と前記被写体認識結果テキストとを照合することを特徴とする、請求項６に記載の映像分割装置。
前記テキストは、前記映像に含まれる発話の内容を表すテキストであることを特徴とする、請求項１乃至９のいずれか１項に記載の映像分割装置。
前記再生位置は、前記テキストに含まれる文又は単語等を単位として付与されていることを特徴とする、請求項１乃至１０のいずれか１項に記載の映像分割装置。
コンピュータによって、
映像と関連付けられたテキストであって該映像における再生位置が付されたものを参照して該テキストに含まれる単語又は単語列（以下「単語等」という。）が該映像に含まれる被写体を表すか否かを判定する被写体判定工程と、
前記単語等のうち前記被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け工程と、
前記重み付けに基づいて前記テキストを分割することによって前記映像を分割する映像分割工程と、を含むことを特徴とする映像分割方法。
前記被写体判定工程において、前記単語等が前記映像のうち前記再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることを特徴とする、請求項１２に記載の映像分割方法。
前記被写体判定工程において、前記単語等が前記映像に映っている被写体を表すと判定した場合には前記単語等が該被写体を表す信頼度を計算し、
前記被写体重み付け工程において、前記信頼度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項１２に記載の映像分割方法。
前記被写体判定工程において、前記単語等が前記映像に映っている被写体を表すと判定した場合には該被写体の前記映像における重要度を決定し、
前記被写体重み付け工程において、前記重要度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項１２に記載の映像分割方法。
前記被写体判定工程において、前記被写体が前記映像に占める割合に応じて前記被写体の重要度を決定することを特徴とする、請求項１５に記載の映像分割方法。
前記被写体判定工程は、前記映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識工程と、
前記単語等と前記被写体認識結果テキストとを照合して前記単語等が前記映像に映っている被写体を表すか否かを判定する照合工程と、を含むことを特徴とする、請求項１２に記載の映像分割方法。
前記被写体は、オブジェクト、顔画像、又は文字を含むことを特徴とする、請求項１７に記載の映像分割方法。
前記被写体認識工程は、前記オブジェクトを認識するオブジェクト認識工程、前記顔画像を認識する顔画像認識工程、前記文字を認識する文字認識工程、及び、前記テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出工程、のうち少なくとも１つを含むことを特徴とする、請求項１８に記載の映像分割方法。
前記照合工程において、前記単語等及び前記被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、前記単語等と前記被写体認識結果テキストとを照合することを特徴とする、請求項１７に記載の映像分割方法。
前記テキストは、前記映像に含まれる発話の内容を表すテキストであることを特徴とする、請求項１２乃至２０のいずれか１項に記載の映像分割方法。
映像と関連付けられたテキストであって該映像における再生位置が付されたものを参照して該テキストに含まれる単語又は単語列（以下「単語等」という。）が該映像に含まれる被写体を表すか否かを判定する被写体判定処理と、
前記単語等のうち前記被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け処理と、
前記重み付けに基づいて前記テキストを分割することによって前記映像を分割する映像分割処理と、をコンピュータに実行させることを特徴とするプログラム。
前記被写体判定処理において、前記単語等が前記映像のうち前記再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることを特徴とする、請求項２２に記載のプログラム。
前記被写体判定処理において、前記単語等が前記映像に映っている被写体を表すと判定した場合には前記単語等が該被写体を表す信頼度を計算し、
前記被写体重み付け処理において、前記信頼度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項２２に記載のプログラム。
前記被写体判定処理において、前記単語等が前記映像に映っている被写体を表すと判定した場合には該被写体の前記映像における重要度を決定し、
前記被写体重み付け処理において、前記重要度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項２２に記載のプログラム。
前記被写体判定処理において、前記被写体が前記映像に占める割合に応じて前記被写体の重要度を決定することを特徴とする、請求項２５に記載のプログラム。
前記被写体判定処理において、前記映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識処理と、
前記単語等と前記被写体認識結果テキストとを照合して前記単語等が前記映像に映っている被写体を表すか否かを判定する照合処理と、をコンピュータに実行させることを特徴とする、請求項２２に記載のプログラム。
前記被写体は、オブジェクト、顔画像、又は文字を含むことを特徴とする、請求項２７に記載のプログラム。
前記被写体認識処理において、前記オブジェクトを認識するオブジェクト認識処理、前記顔画像を認識する顔画像認識処理、前記文字を認識する文字認識処理、及び、前記テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出処理、のうち少なくとも１つをコンピュータに実行させることを特徴とする、請求項２８に記載のプログラム。
前記照合処理において、前記単語等及び前記被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、前記単語等と前記被写体認識結果テキストとを照合することを特徴とする、請求項２７に記載のプログラム。
前記テキストは、前記映像に含まれる発話の内容を表すテキストであることを特徴とする、請求項２２乃至３０のいずれか１項に記載のプログラム。