JP5278425B2 - 映像分割装置、方法及びプログラム - Google Patents

映像分割装置、方法及びプログラム Download PDF

Info

Publication number
JP5278425B2
JP5278425B2 JP2010502811A JP2010502811A JP5278425B2 JP 5278425 B2 JP5278425 B2 JP 5278425B2 JP 2010502811 A JP2010502811 A JP 2010502811A JP 2010502811 A JP2010502811 A JP 2010502811A JP 5278425 B2 JP5278425 B2 JP 5278425B2
Authority
JP
Japan
Prior art keywords
subject
video
word
text
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010502811A
Other languages
English (en)
Other versions
JPWO2009113505A1 (ja
Inventor
真 寺尾
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010502811A priority Critical patent/JP5278425B2/ja
Publication of JPWO2009113505A1 publication Critical patent/JPWO2009113505A1/ja
Application granted granted Critical
Publication of JP5278425B2 publication Critical patent/JP5278425B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data

Description

[関連出願の記載]
本発明は、日本国特許出願:特願2008−066221号(2008年3月14日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は、映像分割装置、方法及びプログラムに関し、特に、映像データを意味的にまとまった単位へと分割する映像分割装置、方法及びプログラムに関する。
近年、大量の映像データが流通しつつあり、映像データを意味的なまとまりの単位(以下「トピック」という。)に分割する技術は、映像データの一覧性及び検索性を向上させる技術として重要性を増しつつある。
映像データをトピックへと分割する代表的な方法として、映像データに含まれる発話の内容を表すテキスト(以下「発話テキスト」という。)に対して、テキスト分割技術を適用する方法が挙げられる。発話テキストとしては、映像データに含まれる発話を音声認識して得られるテキストを用いることができる。また、映像データがテレビ番組であれば、字幕情報(クローズドキャプション)を利用することができる場合もある。このような発話テキストには、映像データの始端からの経過時間等の映像における再生位置情報が付与されている。したがって、テキストを分割することによって映像データを分割することが可能となる。
一般に、テキスト分割技術においては、入力テキストを構成する単語又は単語列(以下「単語等」という。)を分析することによって、テキストにおいて意味内容が変化している単語境界を求める。かかる処理を行う場合には、全ての単語を同等に扱うよりも、入力テキスト中の各トピックの意味内容との関連性が強い単語に大きな重みを与えた方が、入力テキストを意味内容に応じてより適切にトピックに分割することができる。
テキスト処理において重要な単語に重みを与える方法として、IDF(Inverse Document Frequency)による方法が知られている。単語WiのIDFは、あらかじめ大量の文書を収集した上で、IDF(Wi)=log(全文書数/単語Wiが含まれる文書数)によって求められる。すなわち、少数の文書にしか出現しない単語ほどIDFは大きくなる。IDFは、「何らかの文書単位を決めた上で大量の文書を収集したときに、少数の文書にしか出現しない単語は重要な単語である」との仮定に基づいた単語の重み付け方法である。
テキスト分割におけるIDFによる単語の重み付けの一例が、非特許文献1に記載されている。非特許文献1では、入力テキストの各部分に対して一定幅の分析区間を設定し、各分析区間に対して、その分析区間における各単語の重要度を要素としたトピックベクトルを求める。このとき、ある分析区間における単語Wiの重要度は、その分析区間内の単語Wiの出現頻度をTF(Wi)としたとき、TF(Wi)×IDF(Wi)によって求める。すなわち、トピックベクトルは、分析区間内における単語の出現頻度分布をIDFによって補正した値である。このようにトピックベクトルを求めた後に、隣接する分析区間のトピックベクトル間のコサイン類似度系列を求め、類似度の極小点をトピックの境界点として検出する。
国際公開第2004/095374号パンフレット 内海、藤井、田中、"分析区間長を可変としたテキスト分割手法"、言語処理学会第12回年次大会発表論文集、p.117−120、2006. K.Kimura、I.Yamada、H.Sumiyoshi、 N.Yagi、"Automatic Generation of a Multimedia Encyclopedia from TV Programs by Using Closed Captions and Detecting Principal Video Objects、"IEEE International Symposium on Multimedia ‘06、p.873−880、2006.
なお、上記特許文献及び非特許文献の全開示内容はその引用をもって本書に繰込み記載する。以下の分析は、本発明によって与えられたものである。
しかしながら、上記の従来技術は以下の問題を抱える。
すなわち、発話テキストをテキスト分割することによって映像データを分割する際、IDFによって単語を重み付けするだけでは映像データを意味内容に応じて適切にトピックへと分割することができるとは限らない、という問題がある。その理由は次のとおりである。
ある単語のIDFはあくまでその単語の一般的な重要度を表す指標であり、必ずしもその単語と個々のトピックの意味内容との関連性の強さを表しているとは限らない。例えば、「モンシロチョウ」という単語がどのような場面に現れても、そのIDFは同じ値となる。しかし、実際には、「モンシロチョウ」という単語が現れる場面によってモンシロチョウとトピックの意味内容との関連性の強さは異なると考えられる。したがって、意味内容に応じたトピック分割を行うためには、モンシロチョウが実際にトピックの主題である場合には「モンシロチョウ」という単語の重みを大きくし、それ以外の場合には「モンシロチョウ」という単語の重みを小さくすることが望ましい。しかしながら、IDFではこのような重み付けは行われないからである。
そこで、映像データを意味内容に応じて適切にトピックへと分割することができる映像分割装置、映像分割方法及び映像分割用プログラムを提供することが課題となる。
本発明の第1の視点に係る映像分割装置は、映像と関連付けられたテキストであって映像における再生位置が付されたものを参照してテキストに含まれる単語又は単語列(以下「単語等」という。)が該映像に含まれる被写体を表すか否かを判定する被写体判定部と、単語等のうち被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け部と、重み付けに基づいてテキストを分割することによって映像を分割する映像分割部と、を備えている。
本発明の第2の視点に係る映像分割方法は、コンピュータによって、映像と関連付けられたテキストであって映像における再生位置が付されたものを参照してテキストに含まれる単語又は単語列(以下「単語等」という。)が映像に含まれる被写体を表すか否かを判定する被写体判定工程と、単語等のうち被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け工程と、重み付けに基づいてテキストを分割することによって映像を分割する映像分割工程と、を含む。
本発明の第3の視点に係るプログラムは、映像と関連付けられたテキストであって映像における再生位置が付されたものを参照してテキストに含まれる単語又は単語列(以下「単語等」という。)が映像に含まれる被写体を表すか否かを判定する被写体判定処理と、単語等のうち被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け処理と、重み付けに基づいてテキストを分割することによって映像を分割する映像分割処理と、をコンピュータに実行させる。
本発明に係る映像分割装置によると、映像データを意味内容に応じて適切にトピックに分割することができる。映像分割装置は、映像と関連付けられたテキストであってその映像における再生位置が付与されたものを参照してテキストに含まれる単語等が映像に映っている被写体を表すか否かを判定する。また、映像分割装置は、被写体を表すと判定された単語等の重み付けを大きくし、その重み付けに基づいてテキストを分割することによって、映像を分割するからである。
本発明の第1の実施例の構成を示すブロック図である。 本発明の第1の実施例における被写体判定部の構成を示すブロック図である。 本発明の第1の実施例の動作を示す流れ図である。 本発明の第1の実施例におけるテキスト記憶部の具体例を説明する図である。 本発明の第1の実施例における被写体認識結果記憶部の具体例を説明する図である。 本発明の第1の実施例における被写体判定部の判定結果の具体例を説明する図である。 本発明の第1の実施例における重み付きテキスト記憶部の具体例を説明する図である。 本発明の第1の実施例における映像分割部の動作の一例を説明する図である。 本発明の第1の実施例の動作の具体例を説明する図である。 本発明の第1の実施例の動作の具体例を説明する図である。 本発明の第2の実施例の構成を示すブロック図である。
符号の説明
11 映像データ記憶部
12 テキスト記憶部
13 被写体判定部
14 被写体重み付け部
15 重み付きテキスト記憶部
16 映像分割部
17 分割結果記憶部
18 映像視聴部
31 映像分割用プログラム
32 データ処理装置
33 記憶装置
130 被写体認識部
131 オブジェクト認識部
132 顔画像認識部
133 文字認識部
134 被写体抽出部
135 被写体認識結果記憶部
136 照合部
331 映像データ記憶部
332 テキスト記憶部
333 重み付きテキスト記憶部
334 分割結果記憶部
335 被写体認識結果記憶部
第1の展開形態の映像分割装置は、被写体判定部が、単語等が映像のうち再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることが好ましい。
第2の展開形態の映像分割装置は、被写体判定部が、単語等が映像に映っている被写体を表すと判定した場合には単語等が被写体を表す信頼度を計算するとともに、被写体重み付け部が、信頼度が高いものほど単語等に大きい重み付けをすることが好ましい。
第3の展開形態の映像分割装置は、被写体判定部が、単語等が映像に映っている被写体を表すと判定した場合には被写体の映像における重要度を決定するとともに、被写体重み付け部が、重要度が高いものほど単語等に大きい重み付けをすることが好ましい。
第4の展開形態の映像分割装置は、被写体判定部が、被写体が映像に占める割合に応じて被写体の重要度を決定することが好ましい。
第5の展開形態の映像分割装置は、被写体判定部が、映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識部と、単語等と被写体認識結果テキストとを照合して単語等が映像に映っている被写体を表すか否かを判定する照合部と、をさらに備えていることが好ましい。
第6の展開形態の映像分割装置は、被写体が、オブジェクト、顔画像、又は文字を含むことが好ましい。
第7の展開形態の映像分割装置は、被写体認識部が、オブジェクトを認識するオブジェクト認識部、顔画像を認識する顔画像認識部、文字を認識する文字認識部、及び、テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出部、のうち少なくとも1つを備えていることが好ましい。
第8の展開の映像分割装置は、再生位置が、テキストに含まれる文又は単語等を単位として付与されていることが好ましい。
第9の展開形態の映像分割装置は、照合部が、単語等及び被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、単語等と被写体認識結果テキストとを照合することが好ましい。
第10の展開形態の映像分割装置は、テキストが、映像に含まれる発話の内容を表すテキストであることが好ましい。
第11の展開形態の映像分割方法は、被写体判定工程において、単語等が映像のうち再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることが好ましい。
第12の展開形態の映像分割方法は、被写体判定工程において、単語等が映像に映っている被写体を表すと判定した場合には単語等が被写体を表す信頼度を計算し、被写体重み付け工程において、信頼度が高いものほど単語等に大きい重み付けをすることが好ましい。
第13の展開形態の映像分割方法は、被写体判定工程において、単語等が映像に映っている被写体を表すと判定した場合には被写体の映像における重要度を決定し、被写体重み付け工程において、重要度が高いものほど単語等に大きい重み付けをすることが好ましい。
第14の展開形態の映像分割方法は、被写体判定工程において、被写体が映像に占める割合に応じて被写体の重要度を決定することが好ましい。
第15の展開形態の映像分割方法は、被写体判定工程が、映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識工程と、単語等と被写体認識結果テキストとを照合して単語等が映像に映っている被写体を表すか否かを判定する照合工程と、を含むことが好ましい。
第16の展開形態の映像分割方法は、被写体が、オブジェクト、顔画像、又は文字を含むことが好ましい。
第17の展開形態の映像分割方法は、被写体認識工程が、オブジェクトを認識するオブジェクト認識工程、顔画像を認識する顔画像認識工程、文字を認識する文字認識工程、及び、テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出工程、のうち少なくとも1つを含むことが好ましい。
第18の展開形態の映像分割方法は、照合工程において、単語等及び被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、単語等と被写体認識結果テキストとを照合することが好ましい。
第19の展開形態の映像分割方法は、テキストが、映像に含まれる発話の内容を表すテキストであることが好ましい。
第20の展開形態のプログラムは、被写体判定処理において、単語等が映像のうち再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることが好ましい。
第21の展開形態のプログラムは、被写体判定処理において、単語等が映像に映っている被写体を表すと判定した場合には単語等が被写体を表す信頼度を計算し、被写体重み付け処理において、信頼度が高いものほど単語等に大きい重み付けをすることが好ましい。
第22の展開形態のプログラムは、被写体判定処理において、単語等が映像に映っている被写体を表すと判定した場合には被写体の映像における重要度を決定し、被写体重み付け処理において、重要度が高いものほど単語等に大きい重み付けをすることが好ましい。
第23の展開形態のプログラムは、被写体判定処理において、被写体が映像に占める割合に応じて被写体の重要度を決定することが好ましい。
第24の展開形態のプログラムは、被写体判定処理において、映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識処理と、単語等と被写体認識結果テキストとを照合して単語等が映像に映っている被写体を表すか否かを判定する照合処理と、をコンピュータに実行させることが好ましい。
第25の展開形態のプログラムは、被写体が、オブジェクト、顔画像、又は文字を含むことが好ましい。
第26の展開形態のプログラムは、被写体認識処理において、オブジェクトを認識するオブジェクト認識処理、顔画像を認識する顔画像認識処理、文字を認識する文字認識処理、及び、テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出処理、のうち少なくとも1つをコンピュータに実行させることが好ましい。
第27の展開形態のプログラムは、照合処理において、単語等及び被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、単語等と被写体認識結果テキストとを照合することが好ましい。
第28の展開形態のプログラムは、テキストが、映像に含まれる発話の内容を表すテキストであることが好ましい。
本発明の実施の形態について、図面を参照して以下に説明する。
本実施形態に係る映像分割装置は、図1を参照すると、被写体判定部13、被写体重み付け部14及び映像分割部16を備えている。被写体判定部13は、映像と関連付けられたテキストであって映像における再生位置が付されたものを参照してテキストに含まれる単語又は単語列(以下「単語等」という。)が映像に含まれる被写体を表すか否かを判定する。被写体重み付け部14は、単語等のうち被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする。映像分割部16は、重み付けに基づいてテキストを分割することによって映像を分割する。
次に、本発明の第1の実施例について、図面を参照して詳細に説明する。図1は本発明の第1の実施例の構成を示すブロック図である。本発明の第1の実施例は、映像を複数の区間に分割する映像分割装置である。図1を参照すると、映像分割装置は、映像データ記憶部11、テキスト記憶部12、被写体判定部13、被写体重み付け部14、重み付きテキスト記憶部15、映像分割部16、分割結果記憶部17及び映像視聴部18を備えている。これらの各部は、それぞれ次のように動作する。
映像データ記憶部11は、分割対象となる映像データを記憶する。また、テキスト記憶部12は、映像データ記憶部11が記憶する映像データに関連するテキストであって、映像データにおける再生位置情報が付与されたものを記憶する。
まず、被写体判定部13は、テキスト記憶部12に記憶されるテキストに含まれるそれぞれの単語等に対して、その単語等が映像データ記憶部11に記憶される映像データに映っている被写体を表すか否かを判定し、判定結果を被写体重み付け部14に出力する。
次に、被写体重み付け部14は、被写体判定部13によって被写体を表すものと判定された単語等の重みが大きくなるように、テキスト記憶部12に記憶されるテキストに含まれるそれぞれの単語等に重みを与え、その結果を重み付きテキスト記憶部15に出力する。
映像分割部16は、重み付きテキスト記憶部15からそれぞれの単語等が重み付けされたテキストを読み込み、重みを用いてテキストを分割することによって映像データをトピックに分割し、その結果を分割結果記憶部17に出力する。
映像視聴部18は、分割結果記憶部17に記憶される映像データの分割結果を読み込むことによって、分割されたトピックを単位として映像データ記憶部11に記憶される映像データの検索や再生を行う。
次に、図1、図2のブロック図、図3の流れ図、及び、図4〜図10の説明図を参照して、本実施例の全体の動作について詳細に説明する。
映像データ記憶部11は、分割対象となる映像データを記憶する。映像データとして、例えば、テレビ番組、講義映像、ホームビデオ、など様々な映像が考えられる。
テキスト記憶部12は、映像データ記憶部11に記憶される映像データに関連するテキストであって、映像データにおける再生位置が付与されたものを記憶する。このようなテキストとして、例えば、映像データに含まれる発話の内容を表すテキストが考えられる。具体的には、発話を音声認識して得られる音声認識結果テキストや、テレビ番組において送信される字幕情報(クローズドキャプション)などを用いることができる。また、テキスト記憶部12は、映像中の各シーンに対して、人手によって付与された、コメント、感想、各シーンの要約テキスト等が記憶されていても良い。
本実施例におけるテキスト記憶部12が記憶するテキストは、単語単位に分かち書きされているものとする。日本語のようにテキストが単語単位に分かち書きされていない言語である場合には、公知の形態素解析技術を用いてあらかじめテキストを単語単位に分割しておくことが好ましい。
これらのテキストには、テキストが映像データのどの区間と対応づけられたテキストであるのかを表すために、映像データにおける再生位置を表す情報が付与されている必要がある。再生位置を表す情報としては、映像データの始端、映像データ中の特定位置からの経過時間、画像フレーム数等を用いることができる。再生位置を表す情報は、テキストに含まれる文単位に付与されていても良いし、テキストに含まれる単語単位に付与されていても良い。映像分割部16によってテキストをトピックへと分割することにより、分割されたテキストに付与された再生位置情報に基づいて映像データも分割することができる。
なお、以下では、テキスト記憶部12は、一例として、映像データに含まれる発話の内容を表すテキストを、映像データの始端からの経過時間情報とともに記憶しているものとする。勿論、本発明において、テキスト記憶部12に記憶されるテキストが発話の内容を表すテキストに限定されるものではない。
図4は、テキスト記憶部12が記憶するデータの一例である。図4を参照すると、映像データ記憶部11が記憶する映像データにおいて、映像データの始端からの経過時間が102.0〜105.0秒の間に「携帯電話メーカーの間で競争が激化しています」と発話され、始端からの経過時間が105.0〜110.0秒の間に「様々な機能が携帯電話に搭載されるようになりました」と発話されている。また、それぞれのテキストは、形態素解析技術によって単語単位に分かち書きされている。このようなテキストは、前述のように、発話を音声認識したり、字幕情報を利用したりすることによって得られる。
映像データを分割する際、まず、被写体判定部13は、テキスト記憶部12が記憶するテキストに含まれるそれぞれの単語等に対して、その単語等が映像データ記憶部11が記憶する映像データに映っている被写体を表すか否かを判定する(ステップS21〜S23)。被写体判定部13は、判定結果を被写体重み付け部14に出力する。なお、被写体とは、映像データに映っている何らかのオブジェクトや顔画像や文字画像や場所等をいう。
図2は、被写体判定部13の構成を示すブロック図である。図2を参照すると、被写体判定部13は、被写体認識部130、被写体認識結果記憶部135及び照合部136を備えている。また、被写体認識部130は、オブジェクト認識部131、顔画像認識部132、文字認識部133及び被写体抽出部134を含む。
被写体判定部13は、被写体認識部130によって、映像データ記憶部11に記憶される映像データに映っている被写体を認識し、被写体を表すテキストを被写体認識結果テキストとして被写体認識結果記憶部135に出力する(ステップS21)。映像データに映っている被写体の認識は、オブジェクト認識部131、顔画像認識部132、文字認識部133、被写体抽出部134によって行われる。
オブジェクト認識部131は、映像データ記憶部11から映像データを読み込み、映像データに対して、例えば、特許文献1(なお、特許文献1の記載事項は、引用をもって本書に繰込み記載されているものとする。)に記載のオブジェクト認識技術を適用することによって実現することができる。ここで、オブジェクトとは、映像中に映っているひとまとまりの物体を意味する。特許文献1によれば、オブジェクトを認識するために、まず、映像データ中の画像を分割して部分映像を抽出し(特許文献1における部分映像抽出手段)、部分映像からカラーレイアウトやエッジヒストグラム等の視覚的特徴量を計算し(特許文献1における視覚的特徴量設定手段)、部分映像の視覚的特徴量と被写体の候補となる候補オブジェクトの視覚的特徴量との類似度を計算する(特許文献1における特徴量比較手段)。そして、両者の類似度が閾値を超えれば、映像データに候補オブジェクトが映っているものと判定する。この判定処理を様々な候補オブジェクトに対して行うことによって、映像データに映っている様々なオブジェクトを被写体として認識することができる。オブジェクト認識部131は、映像に映っているものと判定されたオブジェクトの名称を被写体認識結果テキストとして被写体認識結果記憶部135に出力する。
なお、このような処理は映像データ中のすべての画像フレームに対して行っても良い。また、処理量を軽減するために、ショット(カメラの切り替わり等のない一続きの映像区間)ごとにオブジェクト認識処理を行っても良い。かかる処理を行うためには、あらかじめ映像データに対して公知のショット分割を適用し、得られたそれぞれのショットの代表画像に対してオブジェクト認識処理を行えばよい。代表画像の選び方は様々な方法を用いることができ、一例として、単純にショットの先頭の画像フレーム等としても良い。
ここでは、オブジェクト認識部131を実現する手法として特許文献1に記載の手法を説明した。勿論、本発明におけるオブジェクト認識部131の実現手法は、特許文献1に記載の手法に限定されず、映像に映っているオブジェクトを認識する手法であればどのような手法であってもよい。
顔画像認識部132は、映像データ記憶部11から映像データを読み込み、映像データに対して公知の顔画像認識技術を適用することによって実現することができる。顔画像認識部132は、映像に映っていると判定された人物の名前や役職名等を被写体認識結果テキストとして被写体認識結果記憶部135に出力する。
文字認識部133は、映像データ記憶部11から映像データを読み込み、映像データに対して公知の文字認識技術を適用することによって実現することができる。文字認識部133は、例えば、映像に映っている文字画像の文字認識結果をそのまま被写体認識結果テキストとして被写体認識結果記憶部135に出力する。また、文字認識部133は、文字認識結果の中から人物名、場所名、名詞全般等を抽出し、これらを被写体認識結果テキストとして被写体認識結果記憶部135に出力してもよい。
なお、映像データがテレビ番組等の場合には、映像中に表示されている文字(テロップ)の内容に関する情報が配信されることも考えられる。かかる場合、文字認識部133は、映像に映っている文字列の文字認識をすることなく、配信されたテロップの情報を文字認識結果とみなして被写体認識結果テキストを出力してもよい。
被写体抽出部134は、テキスト記憶部12からテキストを読み込み、テキストに含まれる単語等の中から、映像に映っている被写体を表す単語等を抽出する。このような処理は、例えば、非特許文献2(なお、非特許文献2の記載事項は、引用をもって本書に繰込み記載されているものとする。)に記載の技術を用いることで実現することができる。すなわち、テキスト中のある名詞が映像に映っているか否かを、「その名詞が体言止めであるか否か」、「その名詞が含まれる名詞句の付属語の種類は何であるか」等の特徴を組み合わせたプロダクションルールによって判定する。非特許文献2に記載の技術によれば、映像中のそれぞれのショットに対して、そのショットの主な被写体を表す名詞をテキスト中から抽出することができる。被写体抽出部134は、映像に映っている被写体を表すと判定された単語等を被写体認識結果テキストとして被写体認識結果記憶部135に出力する。
ここでは、被写体抽出部134を実現する手法として非特許文献2に記載の手法を説明した。勿論、本発明における被写体抽出部134の実現手法は非特許文献2に記載の手法に限定されるものではなく、テキストから被写体を表す単語等を抽出する手法であればどのような手法でも構わない。
上述したオブジェクト認識部131、顔画像認識部132、文字認識部133、被写体抽出部134は、被写体認識結果テキストに加えて、その被写体認識の信頼度を出力してもよい。ここで、被写体認識の信頼度とは、得られた被写体認識結果をどの程度正しいと考えられるかどうかを表す値をいう。すなわち、オブジェクト認識部131、顔画像認識部132、文字認識部133、被写体抽出部134が出力する被写体認識結果は自動処理であるため、誤っている場合もある。しかし、信頼度が大きいほど、得られた被写体認識結果テキストは実際に映像データに映っている可能性が高い。
例えば、オブジェクト認識部131が特許文献1に記載の方法で実現されている場合には、映像データ中の部分映像から抽出した視覚特徴量と候補オブジェクトの視覚特徴量との類似度を被写体認識結果の信頼度とすることができる。これは、両者の類似度が大きいほど、その被写体認識結果が実際に映像データに映っている可能性が高いと考えられるからである。
被写体抽出部134が非特許文献2に記載の方法で実現されている場合には、被写体を抽出する際に適用されたプロダクションルールの予測精度を被写体認識結果の信頼度とすることができる。これは、予測精度の高いルールによって得られた被写体認識結果ほど、実際に映像データに映っている可能性が高いと考えられるからである。
顔画像認識部132や文字認識部133においても、公知の顔画像認識技術や文字認識技術においてよく知られた方法により計算される信頼度を用いることができる。なお、これらの信頼度の値は、適当な方法によって0〜1の範囲へ正規化してもよい。
また、オブジェクト認識部131、顔画像認識部132、文字認識部133は、被写体認識結果テキストに加えて、その被写体の映像データにおける重要度を出力してもよい。ここで、被写体の映像データにおける重要度とは、その被写体がその映像データの意味内容とどの程度関連性があるかを表した値である。
被写体の重要度は、例えば、オブジェクト認識部131において認識されたオブジェクト、顔画像認識部132において認識された顔画像、又は、文字認識部133において認識された文字画像が映像に映っている領域が画面全体に占める割合、として求めることができる。これは、オブジェクトや顔画像や文字等の被写体が映像に映っている範囲が大きいほど、その被写体がその映像において主要な被写体であり、映像の意味内容との関連性も高いと考えられるからである。また、オブジェクトや顔画像や文字等の被写体が映像に映っている時間の長さを重要度とすることもできる。
このようにして、オブジェクト認識部131、顔画像認識部132、文字認識部133、被写体抽出部134によって、映像データ記憶部11に記憶される映像データに映っている被写体が認識され、被写体認識結果テキストが得られる。映像に映っているオブジェクト、顔画像、文字画像は、映像データの意味内容との関連性が特に高いと考えられる。このとき、それぞれの被写体認識結果テキストには、その被写体が映像データのどの区間に映っているのかを表す再生位置の情報を、例えば、映像データの始端からの経過時間等として付与することもできる。また、前述のように、それぞれの被写体認識結果テキストには、被写体認識結果の信頼度又は被写体の映像データにおける重要度等を付与することもできる。これらの被写体認識結果は、被写体認識結果記憶部135に記憶される。
図5は、被写体認識結果記憶部135に記憶されるデータの一例である。図5を参照すると、映像データの始端からの経過時間が105.0〜120.0秒の間に「携帯電話」が被写体として映っており、その被写体認識結果の信頼度は0.8であり、被写体の重要度は0.4である。また、映像データの始端からの経過時間が190.0〜195.0秒の間に「PaPeRo」が被写体として映っており、その被写体認識結果の信頼度は0.6であり、被写体の重要度は0.2である。
なお、被写体認識部130は、オブジェクト認識部131、顔画像認識部132、文字認識部133、被写体抽出部134の全てを備えている必要はなく、これらのうちいずれか一つ以上の手段を備えていればよい。
次に、被写体判定部13は、照合部136によって、テキスト記憶部12に記憶されるテキストに含まれるそれぞれの単語に対して、その単語が映像データに映っている被写体を表すか否かを判定する(ステップS22、S23)。被写体判定部13は、判定結果を被写体重み付け部14に出力する。照合部136は、テキストに含まれるそれぞれの単語と、被写体認識結果記憶部135に記憶される被写体認識結果テキストとを照合することによって、この判定を行う。
照合部136の動作を説明する。一例として、テキスト記憶部12は図4に示すテキストを記憶し、被写体認識結果記憶部135は図5に示す被写体認識結果を記憶するものとする。照合部136は、テキストに含まれる「携帯電話」という単語が被写体を表すか否かを判定する(ステップS22)。この判定は、「携帯電話」と被写体認識結果記憶部135に記憶される被写体認識結果テキストとを照合することによって行われる。いま、被写体認識結果テキストには「携帯電話」が存在するため、「携帯電話」という単語は映像データに映っている被写体を表しているものと判定される。
テキスト記憶部12に記憶されるテキスト中の全ての単語の判定が終了していないため(ステップS23のNo)、照合部136は「携帯電話」の次の単語である「メーカー」という単語が被写体を表すか否かを判定する(ステップS22)。「メーカー」と被写体認識結果テキストとを照合した結果、被写体認識結果テキストには「メーカー」は存在しないため、「メーカー」という単語は被写体を表していないものと判定される(ステップS22)。このような処理を、テキスト中の全ての単語の判定が終了するまで繰り返す(ステップS23のYes)。なお、このような判定を行う際に、照合部136は、テキスト中の単語ではなく、単語列と被写体認識結果テキストとを照合してもよい。例えば、2つの単語「携帯電話」、「メーカー」を組み合わせた「携帯電話/メーカー」という単語列が、被写体認識結果に存在するか否かを照合してもよい。
また、照合部136は、ある単語が被写体を表すと判定する場合に、その判定の信頼度を判定結果に含めて、被写体重み付け部14に出力しても良い。ここで、判定の信頼度とは、その判定がどの程度正しいと考えられるかどうかを表す値をいう。
また、照合部136は、ある単語が被写体を表すものと判定する場合には、その被写体の映像データにおける重要度を判定結果に含めて、被写体重み付け部14に出力してもよい。ここで、重要度とは、その被写体がその映像データの意味内容とどの程度関連性が高いかを表した値をいう。
これらの信頼度や重要度を出力するには、被写体認識結果記憶部135に記憶されている値を用いればよい。例えば、図5を参照すると、被写体認識結果において「携帯電話」の信頼度は0.8、重要度は0.4であるため、テキスト中の「携帯電話」という単語が被写体を表すと判定するときに、その判定の信頼度は0.8、被写体の重要度は0.4とすることができる。また、被写体認識結果において「PaPeRo」は2箇所に出現しているが、このような場合、信頼度や重要度としては、例えば、値の大きな方を採用すれば良い。その結果、テキスト中の「PaPeRo」という単語が被写体を表すと判定するときに、その判定の信頼度は0.8、被写体の重要度は0.6とすることができる。また、テキスト中の「PaPeRo」という単語が対応づけられた再生位置に時間的に最も近い「PaPeRo」の被写体認識結果の値を用いてもよい。
また、照合部136は、ある単語と被写体認識結果テキストとを照合する際に、その単語、又は、被写体認識結果テキストのうち、少なくともいずれか一方をシソーラスによって展開した上で、両者を照合してもよい。ここで、シソーラスとは、単語の同義語、広義語、狭義語、関連語等を得ることができる辞書をいう。
例えば、シソーラスを用いて、図5に示した被写体認識結果テキスト中の「携帯電話」を同義語である「ケータイ」や狭義語である「N905i」に展開したり、「PaPeRo」を広義語である「ロボット」に展開したりしてから、照合を行ってもよい。このような処理を行うことによって、例えば、テキスト記憶部12に記憶されるテキスト中に「ケータイ」という単語があった場合に、「ケータイ」が被写体を表すと判定することができる。また、このような展開は、適切な辞書を用いることができる場合は、建物名からその建物が存在する場所名に展開する等、様々な展開が考えられる。例えば、「エッフェル塔」を「パリ」に展開する等である。このようにすることで、照合部136は、テキスト記憶部12が記憶するテキストに含まれる単語と、被写体認識結果記憶部135が記憶する被写体認識結果テキストとの間の表現の違いを吸収して、より適切に被写体の判定を行うことが可能となる。
以上のように、被写体判定部13は、テキスト記憶部12に記憶されるテキストに含まれるそれぞれの単語等に対して、その単語等が映像データに映っている被写体を表すか否かを判定し、判定結果を被写体重み付け部14に出力する。このとき、前述のように、ある単語等が被写体を表すものと判定された場合には、その判定の信頼度、又は、その被写体の映像データにおける重要度を判定結果に含めてもよい。
図6は、被写体判定部13が被写体重み付け部14に出力する判定結果の一例を示す。判定結果は、テキスト記憶部12に記憶されるテキストに含まれるそれぞれの単語に対して、その単語が映像データに映っている被写体を表すか否かの判定結果を含む。さらに、判定結果は、単語が被写体を表すと判定された場合には、その判定の信頼度及びその被写体の映像データにおける重要度を含む。
なお、本実施例では、被写体判定部13において、オブジェクト認識部131、顔画像認識部132、文字認識部133は、映像に映っている被写体を何ら制限なく認識するものとした。しかし、オブジェクト認識部131、顔画像認識部132、文字認識部133は、テキスト記憶部12からテキストを読み込み、認識する被写体をテキストに含まれる単語等に限定して被写体の認識を行うよう動作してもよい。例えば、テキスト記憶部12に図4に示すテキストが記憶されている場合には、オブジェクト認識部131は、映像データに映っている全てのオブジェクトを認識するのではなく、認識するオブジェクトの候補をテキストに含まれている「携帯電話」「PaPeRo」等に限定した上で、オブジェクトを認識するよう動作してもよい。同様に、顔画像認識部132は、テキストに含まれる人物名に対応する顔画像に候補を限定した上で、顔画像を認識するよう動作してもよい。同様に、文字認識部133は、テキストに含まれる単語等に候補を限定した上で、文字画像を認識するよう動作してもよい。
さらに、本実施例においては、照合部136の動作に先立ち、被写体認識部130は、あらかじめ映像データに映っている被写体を認識するものとした。しかし、被写体認識部130は、あらかじめ被写体を認識することなく、照合部136がテキストに含まれる単語等と被写体認識結果テキストとを照合するときに、その単語等に限定した上で被写体を認識するようにしてもよい。
次に、被写体重み付け部14は、被写体判定部13によって被写体を表すものと判定された単語等の重みが大きくなるように、テキスト記憶部12に記憶されるテキストに含まれるそれぞれの単語等に重みを与え(ステップS24)、結果を重み付きテキスト記憶部15に出力する。
一例として、被写体を表すものと判定された単語等には重みとしてSa=10を与え、被写体を表さないと判定された単語等には重みとしてSb=1を与えるようにしてもよい。もちろん、被写体を表すと判定されたときの重みが被写体を表さないと判定されたときの重みよりも大きければ(Sa>Sbであれば)、これらの重みの具体的な値は他の値でもよい。ここで、被写体を表さないと判定された単語にも最低限の重みを与えることによって、映像分割部16は、被写体を表さない単語も考慮することができる。
また、被写体を表すものと判定された単語等に、その判定の信頼度が含まれている場合には、信頼度が大きいものほど、その単語等の重みを大きくするようにしてもよい。このようにすることによって、被写体を表すという判定が正しいと考えられるものほど大きな重みが与えられることになる。
また、被写体を表すと判定された単語等に、その被写体の重要度が含まれている場合には、重要度が大きいほど、その単語等の重みを大きくするようにしてもよい。このようにすることによって、その被写体が映像データの意味内容と関連性が高いと考えられるほど、大きな重みが与えられることになる。
このような重み付けを行うためには、例えば、信頼度と重要度の積に比例した値を重みとすれば良い。すなわち、重み=Sa×信頼度×重要度、として計算する。図6に示したように、「携帯電話」という単語が被写体を表しており、その信頼度が0.8、重要度が0.4である場合、重みとして、10×0.8×0.4=3.2を与えることができる。ここで、比例定数(Sa)として10を与えたが、その値は他の値でもよい。また、信頼度や重要度が大きいほど重みが大きくなるような関数であれば、重みを計算する関数は他の関数でもよい。なお、このとき、被写体を表すと判定された単語等の重みが、被写体を表さないと判定された単語等に与える重みよりも小さくならないようにすることが好ましい。例えば、信頼度が0.3、重要度が0.2である場合、前述したように重みを計算すると重みは10×0.3×0.2=0.6となるが、もし、被写体を表さないと判定されたときに与える重みがSb=1である場合には、重みとして0.6ではなくSb=1を与えるようにすることが好ましい。
また、重み付けする単語の品詞が名詞及び動詞以外の場合には、重みを小さな値、例えば0としてもよい。また、重み付けする単語が付属語又は機能語の場合には、重みを小さな値としてもよい。このようにすることで、映像データの意味内容との関連性が低いと考えられる単語の重みを小さくすることができる。
図7は、テキスト記憶部12に図4に示したテキストが記憶され、被写体認識結果記憶部135に図5に示したテキストが記憶されている場合の、重み付きテキスト記憶部15に記憶されるデータを示す。ここでは、被写体を表すと判定された単語の重みを10×信頼度×重要度で計算し、被写体を表さないと判定された単語の重みを1とし、名詞及び動詞以外の単語重みを0とした。
最後に、映像分割部16は、重み付きテキスト記憶部15からそれぞれの単語等に重みが付与されたテキストを読み込み、重みを用いてテキストを分割することによって映像データをトピックへ分割し、結果を分割結果記憶部17に出力する。すなわち、前述したように、テキストには各テキストが映像データのどの区間と対応づいているのかを表す再生位置の情報が付与されているため、テキストを分割することによって、分割点に対応する映像データの再生位置を求めることができる。
以下では、映像分割部16によって、重み付きテキスト記憶部15から読み込んだテキストを意味的なまとまりを表すトピックに分割する方法を詳細に説明する。図8は、映像分割部16がテキストを分割する処理の一例を示す図である。まず、テキストの各部分に対して一定幅の分析区間を設定し(図8(a))、それぞれの分析区間に対して、分析区間においてそれぞれの単語に与えられた重みの分布を求める(図8(b))。具体的には、テキスト全体に出現する単語の種類の数を次元数とし、分析区間においてそれぞれの単語に与えられた重みの和を要素とするベクトルを重みの分布とすればよい。例えば、重み付きテキスト記憶部15に図7に示したテキストが記憶され、分析区間の幅を文2つと定めた場合には、文ID1と文ID2から構成される分析区間の単語の重みの分布は、「携帯電話」→6.4、「メーカー」→1、「間」→1、「競争」→1、「激化し」→1、「機能」→1、「搭載」→1、その他の単語→0を要素とするベクトルで表される。次に、隣接する分析区間の間の重み分布の類似度を計算し、類似度の極小点を求める(図8(c))。類似度の極小点は単語の重みの分布が変化する点であるため、これをテキストの分割点とする。図8では、XとYが極小点であるため、これらの点をテキストの分割点とする。なお、極小点を求める場合、谷の深さが一定以上あるものに限定してもよく、類似度が閾値以下であるものに限定してもよい。
映像データにおいては、映像に映っている被写体は、映像データに含まれる個々のトピックの意味内容との関連性が特に高いと考えられる。なぜならば、映像データを作成する際には、当然ながら、視聴者に伝えたい内容に関する物・人物・文字・場所等を映像として映すためである。映像に映っている被写体がその映像で伝えたい内容と無関係である可能性は非常に低い。
したがって、映像データに映っている被写体を表す単語に大きな重みを与え、単語の重み分布が変化する点を検出することによって、映像データに含まれるトピックの意味内容を適切に反映したテキストの分割が可能となる。すなわち、図4ないし図7の例では、被写体として「携帯電話」と「PaPeRo」が映像に映っており、これらはトピックの主題と深く関連すると考えられる。したがって、これらの単語に大きな重みを与えて単語の重み分布の変化点を求めることは、トピックの主題をより際立たせつつテキストを分割することを意味し、トピックへの分割精度が向上する。
また、同じ「携帯電話」という単語であっても、「携帯電話」が被写体として映像に映っていなかった場合には、「携帯電話」に対する重みは小さな値となり、テキスト分割に与える影響は小さなものとなる。「携帯電話」が被写体でないことから、その映像においては「携帯電話」がトピックの主題ではない可能性が高い。したがって、かかる場合においても、トピックへの分割精度が向上する。このように、本発明によれば、同じ単語であっても、その単語が被写体を表すか否かに応じて適切に重み付けをすることによって、トピックへの分割精度が向上する。
図9は、本発明の効果をより具体的に説明する図である。ここでは、テキストは、映像データに含まれる発話内容を表すテキストとする。図9は、トピックA〜Gの7つのトピックから構成される映像データ(図9(a))を分割する場合に、単純に各分析区間の単語の出現頻度分布を求めた場合(図9(b))と、本発明によって被写体を表す単語に大きな重みを与えて各分析区間の単語の重みの分布を求めた場合(図9(c))との間で、隣接する分析区間の間の分布の類似度系列を比較して示す。トピックFの映像区間には、時刻t1〜t2の間に「アクチビン」と「細胞」が被写体として映っており(図9(d))、テキスト中にはこれら「アクチビン」と「細胞」が時刻t3〜t4の間に出現しており(図9(e))、テキスト中には被写体ではない単語「表皮」等いくつかの単語が時刻t5〜t6の間に出現している(図9(f))。トピックFは「アクチビン」という物質を主題としたトピックである。したがって、「アクチビン」という単語は、テキストにおいてトピックFの区間t3〜t4において出現している。
単純に各分析区間の出現頻度分布を求めた場合(図9(b))には、トピックEとトピックFとの境界において類似度は周囲と変わらず、したがって、トピックEとトピックFの間で分割することができない。これは、「表皮」等のトピックEとトピックFをまたがって存在する単語が多数存在するために、これらの影響によりトピックEとトピックFとの境界で単語分布の類似度が小さくならなかったからである。
一方、本発明によって被写体を表す単語に大きな重みを与えて各分析区間の単語の重みの分布を求めた場合(図9(c))には、トピックEとトピックFとの境界において類似度の谷が得られ、トピックEとトピックFの間で正しく分割することができる。このような結果は、被写体に含まれない「表皮」等の単語の重みを小さくし、被写体に含まれる「アクチビン」や「細胞」等の単語の重みを大きくしたために得られたものである。すなわち、被写体を表さない単語はトピックの主題との関連性が低い場合がある。本発明によって、そのような単語の影響を取り除くことができる。また、被写体を表す単語はトピックの主題との関連性が高く、本発明によって、そのような単語が強調される。
なお、「アクチビン」や「細胞」が映像に映っているのは時刻t1〜t2であり、トピックFの区間とは異なるため、単純に被写体が映し出されている区間をそのままトピックの区間としても適切なトピックへの分割はできない。これは、「アクチビン」や「細胞」がトピックの主題であっても、その被写体が常に映し出されているわけではないためである。しかし、映像に含まれる発話においては、トピックの主題である「アクチビン」や「細胞」といった単語がトピックFの区間(時刻t3〜t4)を通じて現れているため、本発明によって適切にトピックへと分割できる。このように、本発明の効果をより高めるためには、テキスト記憶部12に記憶するテキストとして、映像の各部分において映像の意味内容と関連性の高い単語が含まれるテキストが望ましい。例えば、テキスト記憶部12に記憶するテキストとして、映像に含まれる発話の内容を表すテキスト等を用いることが好ましい。
なお、映像分割部16は、各分析区間の単語の重み分布を計算する際に、各単語のIDFを乗じてもよい。前述したように、同じ単語であれば、その単語がどのような場面に現れてもIDFは同じ値となるが、IDFは単語の一般的な重要度を表す指標であるため、本発明と併用することもできる。
また、本実施例においては、各分析区間において単語の重みの分布を求めた後に、隣接する分析区間の間の重み分布の類似度の極小点を求めることによってテキストを分割した。しかし、本発明においてテキストを分割する手法はかかる手法に限定されるものではない。例えば、あらかじめ、新聞記事等のトピックごとに分割されているテキストコーパスを用いて、様々なトピックに関するトピックモデルを用意し、各トピックモデルをそれぞれの分析区間における単語の重み分布と照合することでテキストを分割してもよい。トピックモデルとして、例えば、各トピックに出現する単語の出現頻度等の単語分布を学習したモデルを用いればよい。ここで、トピック間の遷移の起こりやすさを適宜決めることによって、分析区間の系列と最もよく整合するトピックモデル系列を、トピックの分割点の位置とともに求めることができる。このようなトピックモデルを用いたテキスト分割手法は、例えば「J.P.Yamron、I.Carp、L.Gillick、S.Lowe、 and P.van Mulbregt、“A HIDDEN MARKOV MODEL APPROACH TO TEXT SEGMENTATION AND EVENT TRACKING、”IEEE International Conference on Acoustics、 Speech and Signal Processing、 pp.333−336、 1998.」に記載されている。
以上のように、映像分割部16によって映像が分割される。そして、分割された映像は、例えば分割点に対応する再生位置情報等として分割結果記憶部17に記憶される。
映像視聴部18は、分割結果記憶部17に記憶される映像データの分割結果を読み込むことによって、分割されたトピックを単位として、映像データ記憶部11に記憶される映像データの検索や再生等を行う。例えば、ニュース項目を単位としてニュース番組を検索又は再生し、学習項目を単位として講義映像を検索又は再生したりすることができる。もちろん、これらの機能は本発明によって分割された映像データの利用方法の一例に過ぎない。本発明はトピックを単位として映像データを活用するあらゆるアプリケーションに適用することができる。
なお、本実施例においては、テキスト記憶部12に記憶されるテキストは、あらかじめ単語単位に分かち書きされているものとした。しかし、テキスト記憶部12に記憶されるテキストは単語単位に分かち書きされていなくてもよい。すなわち、被写体判定部13や被写体重み付け部14が、テキスト記憶部12からテキストを読み込む際に公知の形態素解析技術を用いてテキストを単語単位へと分割するよう動作することによって、テキスト記憶部12に記憶されるテキストがあらかじめ単語単位に分かち書きされていない場合であっても、本発明を適用することができる。
また、本実施例においては、被写体判定部13に含まれる照合部136は、テキスト記憶部12に記憶されるテキストに含まれるそれぞれの単語に対して、その単語が被写体を表すか否かを判定する際に、その単語と被写体認識結果記憶部135に記憶されるすべての被写体認識結果テキストとを照合し、その単語が被写体認識結果テキストのいずれかと一致した場合に、その単語が被写体であると判定した。このとき、照合部136は、ある単語が被写体を表すか否かを判定する際に、その単語が、その単語に対応する再生位置から時間的に所定の範囲内に限定した映像区間に映っている被写体を表すか否かを判定するようにしてもよい。
一例として、テキスト記憶部12において図4に示すテキストが記憶されており、被写体認識結果記憶部135において図5に示すデータが記憶されているものとする。このとき、文ID1に含まれる「携帯電話」という単語が被写体を表すか否かを判定する際に、文ID1に対応する再生位置である102.0〜105.0秒から、例えば、10秒以内の映像区間、すなわち92.0〜115.0秒に限定した映像区間に映っている被写体を表すか否かを判定するようにしてもよい。そのためには、「携帯電話」と被写体認識結果記憶部135に記憶される被写体認識結果テキストとを照合する際に、映っている時刻が92.0〜115.0秒と重なっている被写体認識結果に限定して照合すればよい。
図10は、このような処理を具体的に説明する図である。図10に示した映像データには、「花」が主題であるトピックH、「ミツバチ」が主題であるトピックI、「モンシロチョウ」が主題であるトピックJ、が含まれている(図10(b))。また、各トピックの中で、「花」、「ミツバチ」、「モンシロチョウ」が被写体として映っている(図10(a))。さらに、テキスト記憶部12には、図10(c)に示すテキストが記憶されている。
このとき、上述したような時間的制約を課さずに、テキストに含まれる単語が被写体を表すか否かを判定すると、トピックHのテキストに含まれている「ミツバチ」や「モンシロチョウ」といった単語も被写体を表すと判定され、大きな重みが与えられる。しかし、トピックHのテキストに出現する「ミツバチ」や「モンシロチョウ」といった単語は、トピックIにて映像に映っている「ミツバチ」やトピックJにおいて映像に映っている「モンシロチョウ」を指し示しているわけではない。このように、本来その単語が指し示しているわけではない映像において、たまたまその単語が表す被写体が映っている場合には、その単語の重みを大きくするべきではない。
そこで、上述したような時間的制約を課して、テキストに含まれる単語が被写体を表すか否かを判定すると、トピックHのテキストに含まれている「ミツバチ」や「モンシロチョウ」といった単語は、「ミツバチ」や「モンシロチョウ」が映像に映っている映像区間とは時間的に離れた再生位置にあるため、被写体を表すとは判定されず、重みが大きくなることはない。その結果、トピックHにおいて大きな重みが与えられる単語は「花」のみとなり、トピックHの主題と関連性の高い単語のみが大きな重みを与えられるようにすることができる。
本発明は、あらゆる映像データに適用することができる。なお、ニュース番組や教育映像等のように、映像に映っている被写体そのものが説明されることが多い映像データ、又は、映像中の発話によって映像の内容が詳細に説明される映像データ等に対して、本発明は特に高い効果を発揮する。
次に、本実施例の効果について説明する。本発明によれば、映像データを意味内容に応じて適切にトピックへと分割することが可能となる。その理由は、本発明においては、映像データに含まれる個々のトピックの意味内容との関連性が特に強いと考えられる被写体を判定した上で、被写体を表す単語等の重みを大きくして映像データと関連するテキストを分割することで、映像データを分割するからである。
次に、本発明の第2の実施例について、図面を参照して詳細に説明する。
本発明の第2の実施例は、第1の実施例をプログラムにより構成した場合に、そのプログラムにより動作するコンピュータとして実現される。
図11を参照すると、本発明の第2の実施例は、CPU等を含んで構成されるデータ処理装置32と、磁気ディスクや半導体メモリ等で構成される記憶装置33と、映像分割用プログラム31とから構成される。
記憶装置33は、映像データ記憶部331、テキスト記憶部332、重み付きテキスト記憶部333、分割結果記憶部334、被写体認識結果記憶部335等として使用される。
映像分割用プログラム31は、データ処理装置32に読み込まれ、データ処理装置32の動作を制御することにより、データ処理装置32上に、上記第1の実施例の機能を実現する。すなわち、データ処理装置32は、映像分割用プログラム31の制御によって、図1の被写体判定部13、被写体重み付け部14、映像分割部16、映像視聴部18、あるいは、図2のオブジェクト認識部131、顔画像認識部132、文字認識部133、被写体抽出部134、照合部136の処理を実行する。
本発明は、映像データを話題ごとに整理された状態で閲覧する情報閲覧システムや、情報閲覧システムをコンピュータに実現するためのプログラムといった用途に適用することができる。また、大量の映像データの中から特定の話題に関する映像データを検索する情報検索システム等の用途にも適用することができる。さらに、本発明は、トピックを単位として映像データを活用するあらゆるアプリケーションに適用することができる。
なお、本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施例ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims (31)

  1. 映像と関連付けられたテキストであって該映像における再生位置が付されたものを参照して該テキストに含まれる単語又は単語列(以下「単語等」という。)が該映像に含まれる被写体を表すか否かを判定する被写体判定部と、
    前記単語等のうち前記被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け部と、
    前記重み付けに基づいて前記テキストを分割することによって前記映像を分割する映像分割部と、を備えていることを特徴とする映像分割装置。
  2. 前記被写体判定部は、前記単語等が前記映像のうち前記再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることを特徴とする、請求項1に記載の映像分割装置。
  3. 前記被写体判定部は、前記単語等が前記映像に映っている被写体を表すと判定した場合には前記単語等が該被写体を表す信頼度を計算するとともに、
    前記被写体重み付け部は、前記信頼度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項1に記載の映像分割装置。
  4. 前記被写体判定部は、前記単語等が前記映像に映っている被写体を表すと判定した場合には該被写体の前記映像における重要度を決定するとともに、
    前記被写体重み付け部は、前記重要度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項1に記載の映像分割装置。
  5. 前記被写体判定部は、前記被写体が前記映像に占める割合に応じて前記被写体の重要度を決定することを特徴とする、請求項4に記載の映像分割装置。
  6. 前記被写体判定部は、前記映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識部と、
    前記単語等と前記被写体認識結果テキストとを照合して前記単語等が前記映像に映っている被写体を表すか否かを判定する照合部と、をさらに備えていることを特徴とする、請求項1に記載の映像分割装置。
  7. 前記被写体は、オブジェクト、顔画像、又は文字を含むことを特徴とする、請求項6に記載の映像分割装置。
  8. 前記被写体認識部は、前記オブジェクトを認識するオブジェクト認識部、前記顔画像を認識する顔画像認識部、前記文字を認識する文字認識部、及び、前記テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出部、のうち少なくとも1つを備えていることを特徴とする、請求項7に記載の映像分割装置。
  9. 前記照合部は、前記単語等及び前記被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、前記単語等と前記被写体認識結果テキストとを照合することを特徴とする、請求項6に記載の映像分割装置。
  10. 前記テキストは、前記映像に含まれる発話の内容を表すテキストであることを特徴とする、請求項1乃至9のいずれか1項に記載の映像分割装置。
  11. 前記再生位置は、前記テキストに含まれる文又は単語等を単位として付与されていることを特徴とする、請求項1乃至10のいずれか1項に記載の映像分割装置。
  12. コンピュータによって、
    映像と関連付けられたテキストであって該映像における再生位置が付されたものを参照して該テキストに含まれる単語又は単語列(以下「単語等」という。)が該映像に含まれる被写体を表すか否かを判定する被写体判定工程と、
    前記単語等のうち前記被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け工程と、
    前記重み付けに基づいて前記テキストを分割することによって前記映像を分割する映像分割工程と、を含むことを特徴とする映像分割方法。
  13. 前記被写体判定工程において、前記単語等が前記映像のうち前記再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることを特徴とする、請求項12に記載の映像分割方法。
  14. 前記被写体判定工程において、前記単語等が前記映像に映っている被写体を表すと判定した場合には前記単語等が該被写体を表す信頼度を計算し、
    前記被写体重み付け工程において、前記信頼度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項12に記載の映像分割方法。
  15. 前記被写体判定工程において、前記単語等が前記映像に映っている被写体を表すと判定した場合には該被写体の前記映像における重要度を決定し、
    前記被写体重み付け工程において、前記重要度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項12に記載の映像分割方法。
  16. 前記被写体判定工程において、前記被写体が前記映像に占める割合に応じて前記被写体の重要度を決定することを特徴とする、請求項15に記載の映像分割方法。
  17. 前記被写体判定工程は、前記映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識工程と、
    前記単語等と前記被写体認識結果テキストとを照合して前記単語等が前記映像に映っている被写体を表すか否かを判定する照合工程と、を含むことを特徴とする、請求項12に記載の映像分割方法。
  18. 前記被写体は、オブジェクト、顔画像、又は文字を含むことを特徴とする、請求項17に記載の映像分割方法。
  19. 前記被写体認識工程は、前記オブジェクトを認識するオブジェクト認識工程、前記顔画像を認識する顔画像認識工程、前記文字を認識する文字認識工程、及び、前記テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出工程、のうち少なくとも1つを含むことを特徴とする、請求項18に記載の映像分割方法。
  20. 前記照合工程において、前記単語等及び前記被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、前記単語等と前記被写体認識結果テキストとを照合することを特徴とする、請求項17に記載の映像分割方法。
  21. 前記テキストは、前記映像に含まれる発話の内容を表すテキストであることを特徴とする、請求項12乃至20のいずれか1項に記載の映像分割方法。
  22. 映像と関連付けられたテキストであって該映像における再生位置が付されたものを参照して該テキストに含まれる単語又は単語列(以下「単語等」という。)が該映像に含まれる被写体を表すか否かを判定する被写体判定処理と、
    前記単語等のうち前記被写体を表すと判定されたものに対してそれ以外のものに対する重み付けよりも大きい重み付けをする被写体重み付け処理と、
    前記重み付けに基づいて前記テキストを分割することによって前記映像を分割する映像分割処理と、をコンピュータに実行させることを特徴とするプログラム。
  23. 前記被写体判定処理において、前記単語等が前記映像のうち前記再生位置を基準とする所定の範囲内のものに映っている被写体を表すか否かの判定をすることを特徴とする、請求項22に記載のプログラム。
  24. 前記被写体判定処理において、前記単語等が前記映像に映っている被写体を表すと判定した場合には前記単語等が該被写体を表す信頼度を計算し、
    前記被写体重み付け処理において、前記信頼度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項22に記載のプログラム。
  25. 前記被写体判定処理において、前記単語等が前記映像に映っている被写体を表すと判定した場合には該被写体の前記映像における重要度を決定し、
    前記被写体重み付け処理において、前記重要度が高いものほど前記単語等に大きい重み付けをすることを特徴とする、請求項22に記載のプログラム。
  26. 前記被写体判定処理において、前記被写体が前記映像に占める割合に応じて前記被写体の重要度を決定することを特徴とする、請求項25に記載のプログラム。
  27. 前記被写体判定処理において、前記映像に映っている被写体を認識して被写体認識結果テキストとして出力する被写体認識処理と、
    前記単語等と前記被写体認識結果テキストとを照合して前記単語等が前記映像に映っている被写体を表すか否かを判定する照合処理と、をコンピュータに実行させることを特徴とする、請求項22に記載のプログラム。
  28. 前記被写体は、オブジェクト、顔画像、又は文字を含むことを特徴とする、請求項27に記載のプログラム。
  29. 前記被写体認識処理において、前記オブジェクトを認識するオブジェクト認識処理、前記顔画像を認識する顔画像認識処理、前記文字を認識する文字認識処理、及び、前記テキストに含まれる単語等から被写体を表す単語等を抽出する被写体抽出処理、のうち少なくとも1つをコンピュータに実行させることを特徴とする、請求項28に記載のプログラム。
  30. 前記照合処理において、前記単語等及び前記被写体認識結果テキストのうち少なくとも一方をシソーラスによって展開して、前記単語等と前記被写体認識結果テキストとを照合することを特徴とする、請求項27に記載のプログラム。
  31. 前記テキストは、前記映像に含まれる発話の内容を表すテキストであることを特徴とする、請求項22乃至30のいずれか1項に記載のプログラム。
JP2010502811A 2008-03-14 2009-03-09 映像分割装置、方法及びプログラム Active JP5278425B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010502811A JP5278425B2 (ja) 2008-03-14 2009-03-09 映像分割装置、方法及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008066221 2008-03-14
JP2008066221 2008-03-14
JP2010502811A JP5278425B2 (ja) 2008-03-14 2009-03-09 映像分割装置、方法及びプログラム
PCT/JP2009/054467 WO2009113505A1 (ja) 2008-03-14 2009-03-09 映像分割装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2009113505A1 JPWO2009113505A1 (ja) 2011-07-21
JP5278425B2 true JP5278425B2 (ja) 2013-09-04

Family

ID=41065172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010502811A Active JP5278425B2 (ja) 2008-03-14 2009-03-09 映像分割装置、方法及びプログラム

Country Status (2)

Country Link
JP (1) JP5278425B2 (ja)
WO (1) WO2009113505A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6369399B2 (ja) * 2015-06-26 2018-08-08 株式会社デンソー センサ出力補正装置
CN105426515B (zh) * 2015-12-01 2018-12-18 小米科技有限责任公司 视频归类方法及装置
KR102024933B1 (ko) * 2017-01-26 2019-09-24 한국전자통신연구원 동적 생성된 메타데이터를 이용한 영상 콘텐츠 콘텍스트 변이 추적 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005236546A (ja) * 2004-02-18 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 部分コンテンツ作成方法及び装置及びプログラム
JP2007241902A (ja) * 2006-03-10 2007-09-20 Univ Of Tsukuba テキストデータの分割システム及びテキストデータの分割及び階層化方法
JP2007293602A (ja) * 2006-04-25 2007-11-08 Nec Corp 映像検索システム、映像検索方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005236546A (ja) * 2004-02-18 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 部分コンテンツ作成方法及び装置及びプログラム
JP2007241902A (ja) * 2006-03-10 2007-09-20 Univ Of Tsukuba テキストデータの分割システム及びテキストデータの分割及び階層化方法
JP2007293602A (ja) * 2006-04-25 2007-11-08 Nec Corp 映像検索システム、映像検索方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11455864B2 (en) 2018-07-25 2022-09-27 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Also Published As

Publication number Publication date
WO2009113505A1 (ja) 2009-09-17
JPWO2009113505A1 (ja) 2011-07-21

Similar Documents

Publication Publication Date Title
CN110309305B (zh) 基于多任务联合训练的机器阅读理解方法及计算机存储介质
US7949531B2 (en) Conversation controller
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
US7949532B2 (en) Conversation controller
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
US7949530B2 (en) Conversation controller
US8126713B2 (en) Conversation control system and conversation control method
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
US20180107636A1 (en) Method and apparatus for establishing sentence editing model, sentence editing method and apparatus
Ma et al. Learning to generate grounded visual captions without localization supervision
JP5278425B2 (ja) 映像分割装置、方法及びプログラム
AU2003236049B2 (en) Conversation control system and conversation control method
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
Bigot et al. Person name recognition in ASR outputs using continuous context models
AlMousa et al. Nlp-enriched automatic video segmentation
US7949667B2 (en) Information processing apparatus, method, and program
WO2012134396A1 (en) A method, an apparatus and a computer-readable medium for indexing a document for document retrieval
Ohtsuki et al. Automatic multimedia indexing: combining audio, speech, and visual information to index broadcast news
JP2009140411A (ja) 文章要約装置および文章要約方法
JP4175093B2 (ja) トピック境界決定方法及び装置及びトピック境界決定プログラム
Gonsalves et al. ML-Based Indexing of Media Libraries for Insights and Search
CN115022733B (zh) 摘要视频生成方法、装置、计算机设备及存储介质
CN112084777B (zh) 一种实体链接方法
Shi et al. Socio-situational setting classification based on language use
JP7258627B2 (ja) 採点支援装置、その方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130506

R150 Certificate of patent or registration of utility model

Ref document number: 5278425

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150