JP2019008684A

JP2019008684A - 情報処理装置、情報処理システム、情報処理方法およびプログラム

Info

Publication number: JP2019008684A
Application number: JP2017125787A
Authority: JP
Inventors: 克繁中田; Katsushige Nakada
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2019-01-17

Abstract

【課題】大量の動画データとテキストデータを自動的に関連付けることができ、動画・文章の相互検索を容易におこなうことが可能な仕組みを提供する。【解決手段】動画像と文章を管理する情報処理装置であって、一つもしくは断片化された動画像毎に画像解析し、動画像内に存在する一つもしくは複数の物を検出して、検出される物の名称を特定する。また、文章の段落毎にテキスト解析し、段落内に存在する一つもしくは複数の物の名称を抽出し、抽出されたテキストの物の名称と、動画像内で特定された物の名称とが類似する段落および動画像を相互検索可能とすることを特徴とする。【選択図】図３

Description

本発明は、動画と文章を対応付ける情報処理装置、情報処理システム、情報処理方法およびプログラムの技術に関する。

文章マニュアルと動画を用いた、組み立て作業等の解説、教育をおこなうシステムが存在する。このシステムを用いた組み立て作業の教育では、動画で作業の動作や概要を説明し、文章マニュアルにて詳細に説明している。

このようなシステムをウェブアプリケーションとして構築する場合、システム作成者は文章マニュアルの中に動画などが埋め込み、学習者は文章と動画を交互に参照しながら学習を進めていく。

動画ではないが類似するものとして、写真と新聞記事を関連付けたデータベースがある。これは、戦前等の過去の写真と、その当時の新聞を関係付けるためのデータベースで、当時の状況をより詳細に伝えるための資料として作成されている。

特許文献１では、再生中の動画に関連付けられた文章情報を、時間順に一覧表示するシステムが記載されている。

特開２００５−９４７０９号公報

上記特許文献１のシステムでは、現在再生中の動画を構成する各ブロックに関連付けられた文章タイトルを時間順に一覧表示する。また動画再生時には、再生時刻の進行に合わせて、タイムライン上で該当する時刻位置を表示する。タイトル一覧の中からある一つをユーザが選択すると、選択されたタイトルと関連付けられた動画ブロックの位置に移動するとともに、そのブロックの代表画像を表示する。

しかしながら、特許文献１のシステムでは、関連する動画やその再生位置をユーザが検索するためには、動画情報とテキスト情報をあらかじめ開発側で関連付けておく必要があるが、その作業は自動化されておらず、手動でおこなわなければならない。そのため、関連付ける対象となる動画データおよびテキストデータが膨大になればなるほど、関連付け作業の負担が大きくなる。

また特許文献１のシステムでは、関連付け作業をしていない動画データおよびテキストデータに対しては、ユーザは検索することができない。つまり、関連付けされていない大量の動画およびテキスト情報を相互に検索するようなシステムには適用できない。

そこで、本発明の目的は、大量の動画データとテキストデータを自動的に関連付けることができ、動画・文章の相互検索を容易におこなうことが可能な仕組みを提供することである。

本発明は、動画像と文章を管理する情報処理装置であって、一つもしくは断片化された動画像毎に画像解析し、該動画像内に存在する一つもしくは複数の物を検出する物検出手段と、前記物検出手段により検出される前記一つもしくは断片化された動画像内の一つもしくは複数の物の名称を特定する動画像内物名称特定手段と、前記文章の段落毎にテキスト解析し、該段落内に存在する一つもしくは複数の物の名称を抽出する物名称抽出手段と、前記物名称抽出手段で抽出された第１の物の名称と、前記動画像内物名称特定手段で特定された第２の物の名称とが類似する段落および動画像を相互検索する段落動画像相互検索手段と、を有することを特徴とする。

本発明によれば、大量の動画データとテキストデータを自動的に関連付けることができ、動画・文章の相互検索を容易におこなうことが可能な仕組みを提供することができる。

また、動画とテキストを相互に検索できるため、文章マニュアルと関連する作業動画や、作業動画と関連する文章マニュアルを見つけやすくなることで、組み立て作業等の解説や教育を効率化することが可能となる。

本発明の一実施形態に係る情報処理システムのシステム構成を示す模式図である。本発明の一実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。本発明の一実施形態に係る情報処理システムのソフトウェア構成を示すブロック図である。本発明のアプリケーションサーバ１０２における動画・文章管理の制御処理手順の一例を示すフローチャートである。本発明の動画解析サーバ１０３における動画解析の制御処理手順の一例を示すフローチャートである。本発明のテキスト解析サーバ１０５における文章管理の制御処理手順の一例を示すフローチャートである。本発明のアプリケーションサーバ１０２におけるコンテキストスコア照合の制御処理手順の一例を示すフローチャートである。本発明の動画管理サーバ１０４、文章マニュアル管理サーバ１０６において、動画及び文章を管理しているデータの一例を示す模式図である。本発明の情報処理システム１００において、動画及び文章を管理しているデータの一例を示す模式図である。本発明の情報処理システム１００において、動画及び文章を管理しているデータの一例を示す模式図である。本発明のアプリケーションサーバ１０２において、動画と文章マニュアルの検索システムが読み込む、タグ記述形式の設定ファイルの一例を示す模式図である。本発明の操作端末ＰＣ１０１のディスプレイ部２１０に出力される画面イメージの一例を示す模式図である。本発明の操作端末ＰＣ１０１のディスプレイ部２１０に出力される画面イメージの一例を示す模式図である。本発明の情報処理システム１００における動画のフレームごとに撮影される物体の出入りを説明する模式図である。本発明の情報処理システム１００における動画のフォーカスエリアを説明する模式図である。本発明の情報処理システム１００における文章解析を説明する模式図である。

まず、図１を参照して、本発明のシステム構成の一例を説明する。

図１は、本発明の一実施形態に係る情報処理システムのシステム構成を示す模式図である。

本発明のシステム１００は、１０２として、システム１００を統括するアプリケーションサーバを有し、また、ユーザの操作を受け付ける操作端末ＰＣ１０１や動画解析サーバ１０３、動画管理サーバ１０４、テキスト解析サーバ１０５、文章マニュアル管理サーバ１０６、動画解析サーバ１０３及びテキスト解析サーバ１０５により解析されたコンテキストスコアを管理するコンテキストスコアデータベース１０７を有している。

本処理は、操作端末ＰＣ１０１からウェブブラウザを用いて、アプリケーションサーバ１０２上のウェブ操作画面に専用ＵＲＬでアクセスし、動画および文章マニュアルの検索操作をおこなう。動画の解析処理は、動画解析サーバ１０３で実行し、その解析結果は関連性の近い文章マニュアルの照合に使用される。文章マニュアルの解析処理は、テキスト解析サーバ１０５で実行し、その解析結果は関連性の近い動画の照合に使用される。関連性の近い文章マニュアルおよび動画の照合は、それぞれの解析結果に応じて自動的におこなわれる。解析結果の照合は、コンテキストスコアデータベース１０７上にあらかじめ登録しておいた解析結果に対しておこなうほか、必要に応じてインターネット等からリアルタイムで文章マニュアルおよび動画を取得・解析し、その結果に対しておこなってもよい。

操作端末ＰＣ１０１は、動画の再生、動画の詳細を記載する文章マニュアルの表示、動画と関連する文章マニュアルの検索についての各操作をおこなうための端末であり、ネットワーク上に存在する。これらの操作には、ウェブ操作画面（ウェブブラウザ上で操作）を使用し、ネットワークを介してアプリケーションサーバ１０２に接続する。

アプリケーションサーバ１０２は、動画の再生、動画の詳細を記載する文章マニュアルの表示、動画と関連する文章マニュアルの検索についての制御をおこなうためのサーバであり、ネットワーク上に構築されている。アプリケーションサーバ１０２へは、操作端末ＰＣ１０１が接続する。

アプリケーションサーバ１０２は、操作端末ＰＣ１０１から動画に関連する文章マニュアルの検索操作がおこなわれた場合は、動画解析サーバ１０３へ動画データを送信して解析結果を受信し、その解析結果をもとにコンテキストスコアデータベース１０７から関連すると思われる文章マニュアル情報を取得し、取得した文章マニュアル情報をもとに文章マニュアル管理サーバからテキストデータを取得し、取得したテキストデータを操作端末ＰＣ１０１へ返信する。

アプリケーションサーバ１０２は、操作端末ＰＣ１０１から文章マニュアルに関連する動画の検索操作がおこなわれた場合は、テキスト解析サーバ１０５へ文章マニュアルのテキストデータを送信して解析結果を受信し、その解析結果をもとにコンテキストスコアデータベース１０７から関連すると思われる動画情報を取得し、取得した動画情報をもとに動画管理サーバから動画データを取得し、取得した動画データを操作端末ＰＣ１０１へ返信する。

動画解析サーバ１０３は、動画の解析をおこなうためのサーバであり、ネットワーク上に構築されている。

動画解析サーバ１０３は、操作端末ＰＣ１０１から動画データを受信した場合、受信した動画データを解析し、その解析結果を返信する。

動画解析サーバ１０３は、動画管理サーバ１０４から動画データを受信した場合、受信した動画データを解析し、その解析結果をコンテキストスコアデータベース１０７へ送信する。

動画解析サーバ１０３上の動画解析部（動画像内物名称特定部）は、ＤｅｅｐＬｅａｒｎｉｎｇ等の画像認識部（物検出部）など、動画を解析できるものであれば特に指定しない。動画解析部（物体とその名称を紐付ける機能）で学習が必要なものを使用する場合、事前に学習を済ませていることが望ましいが、必要であれば学習機能をシステムに実装しても良い。

動画管理サーバ１０４は、動画データの管理をおこなうためのサーバであり、ネットワーク上に構築されている。

動画管理サーバ１０４は、操作端末ＰＣ１０１から動画情報を受信すると、それに該当する動画データを返信する。

動画管理サーバ１０４は、動画データが新規に格納された場合、その動画データを保存するとともに、動画解析サーバ１０３へ保存した動画データを送信する。なお、動画データは、一つであっても良いし、時間毎に区切られた（断片化された）動画であっても良い。

動画管理サーバ１０４の動画データは、コンテキストスコアの照合結果にもとづき、検索元の文章マニュアルと関連性が高いと思われるものについて、操作端末ＰＣ１０１上で表示される。動画管理サーバ１０４に新規に動画が格納された場合、動画解析サーバ１０３へ動画データを入力してコンテキストスコアを算出し、コンテキストスコアデータベース１０７へ登録しておく。

テキスト解析サーバ１０５は、テキストの解析をおこなうためのサーバであり、ネットワーク上に構築されている。

テキスト解析サーバ１０５は、操作端末ＰＣ１０１からテキストデータを受信した場合、受信したテキストデータを解析し、その解析結果を返信する。

テキスト解析サーバ１０５は、文章マニュアル管理サーバ１０６からテキストデータを受信した場合、受信したテキストデータを解析し、その解析結果をコンテキストスコアデータベース１０７へ送信する。

テキスト解析サーバ１０５上の文章解析部（物名称抽出部）は、テキストマイニングなど、文章を解析できるものとテキスト辞書があれば特に指定しない。

文章マニュアル管理サーバ１０６は、文章マニュアルのテキストデータの管理をおこなうためのサーバであり、ネットワーク上に構築されている。

文章マニュアル管理サーバ１０６は、操作端末ＰＣ１０１から文章マニュアル情報を受信すると、それに該当するテキストデータを返信する。

文章マニュアル管理サーバ１０６は、文章マニュアルのテキストデータが新規に格納された場合、そのテキストデータを保存するとともに、テキスト解析サーバ１０５へ保存したテキストデータを送信する。

文章マニュアル管理サーバ１０６の文章マニュアルデータは、コンテキストスコアの照合結果にもとづき、検索元の動画と関連性が高いと思われるものについて、操作端末ＰＣ１０１上で表示される。文章マニュアル管理サーバ１０６に新規に文章マニュアルが格納された場合、テキスト解析サーバ１０５へ文章マニュアルのテキストデータを入力してコンテキストスコアを算出し、コンテキストスコアデータベース１０７へ登録しておく。

コンテキストスコアデータベース１０７は、アプリケーションサーバ１０２の操作にもとづいて動画情報とテキスト情報の照合と管理、動画解析サーバ１０３の操作にもとづいて動画情報を記憶、テキスト解析サーバ１０５の操作にもとづいてテキスト情報を記憶するサーバであり、ネットワーク上に構築されている。

コンテキストスコアデータベース１０７は、動画および文章マニュアルを特定するための管理情報のほか、それらの内容をスコア化した情報（以下、コンテキストスコア）を記憶する。

コンテキストスコアデータベース１０７は、アプリケーションサーバ１０２、動画解析サーバ１０３、テキスト解析サーバ１０５からの接続のみ許可する。

コンテキストスコアデータベース１０７の動画、文章マニュアルのコンテキストスコアは、動画管理サーバ１０４で管理される動画、および文章マニュアル管理サーバで管理される文章マニュアルを解析した結果であり、それらは動画解析サーバ１０３およびテキスト解析サーバ１０５で算出される。

以上のシステム構成により、動画データとテキストデータを手動で関連付けることなく、動画・文章の相互検索を容易におこなうことができる。

なお、これらのサーバやデータベース、操作端末ＰＣは、それぞれ１つの筐体であっても良いし複数が一つの筐体となっていても良く、全ての機能が１つの筐体にまとまっていても良い。

次に、図２を参照して、本発明の一実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。

図２は、本発明の実施形態における操作端末ＰＣ１０１、アプリケーションサーバ１０２、動画解析サーバ１０３、動画管理サーバ１０４、テキスト解析サーバ１０５、文章マニュアル管理サーバ１０６、コンテキストスコアデータベース１０７に適用可能な情報処理装置のハードウェア構成図である。

図２において、２０１はＣＰＵで、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。また、ＲＯＭ２０３あるいは外部メモリ２１１には、ＣＰＵ２０１の制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やオペレーティングシステムプログラム（以下、ＯＳ）や、画像管理を実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。

２０２はＲＡＭで、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０３あるいは外部メモリ２１１からＲＡＭ２０２にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。

また、２０５は入力コントローラで、キーボードやポインティングデバイス等の入力装置２０９からの入力を制御する。２０６はビデオコントローラで、ディスプレイ部２１０等の表示器への表示を制御する。これらは必要に応じて操作者が使用するものである。

２０７はメモリコントローラで、ブートプログラム，各種のアプリケーション，フォントデータ，ユーザファイル，編集ファイル，各種データ等を記憶するハードディスク（ＨＤ）や、フレキシブルディスク（ＦＤ）、或いはＰＣＭＣＩＡカードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等の外部メモリ２１１へのアクセスを制御する。

また、外部メモリ２１１のハードディスク（ＨＤ）は、情報処理装置において、録画された音声付動画や音声ファイルを記憶する大容量のメモリ領域を有している。

２０８は通信Ｉ／Ｆ（インタフェース）コントローラで、ネットワーク（例えば、無線ＬＡＮなど）を介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰを用いた通信等が可能である。

なお、ＣＰＵ２０１は、例えばＲＡＭ２０２内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ部２１０上での表示を可能としている。また、ＣＰＵ２０１は、ディスプレイ部２１０上の不図示のマウスカーソル等でのユーザ指示を可能とする。

本発明を実現するための後述するフローチャートに示す各ステップの処理は、コンピュータで読み取り実行可能なプログラムにより実行され、そのプログラムは外部メモリ２１１に記録されている。そして、必要に応じてＲＡＭ２０２にロードされることによりＣＰＵ２０１によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ２１１に格納されており、これらについての詳細な説明も後述する。

次に、図３を参照して、本発明の一実施形態に係る情報処理システムのソフトウェア構成を説明する。

図３は、本発明の一実施形態に係る情報処理システムのソフトウェア構成を示すブロック図である。

図３のように、本発明の情報処理システム１００は、物検出部３０１を有し、撮像されている動画像内に存在する物体を検出することができる。また、検出した物体の名称を特定する動画像内物名称特定部３０２を有する。

さらに、物名称抽出部３０３を有し、文章の特定の段落毎に存在する物体の名称を抽出する。動画像内物名称特定部３０２で特定した物体の名称と、物名称抽出部３０３で抽出した物体の名称とが類似する動画像と文章の特定の段落を検索する段落動画像相互検索部３０４を有する。

また、動画像内や所定の範囲内に物検出部３０１で検出された物体が出入りすることを判断する物出入判断部３０５と、文章の特定の段落に物体の名称が出現したかどうかどうかを判断する物名称出現判断部を有し、物体の出入りと物体の名称の出現とが一致している場合に、段落動画像相互検索部３０４は動画像と文章の特定の段落が類似している結果と判断する。

また、動画像内の所定の範囲内（具体的には中心部分）に物検出部３０１で検出された物体が存在する場合には、物体の重みを高くする物検出重み設定部３０７と、文章の特定の段落に出現する物体の名称の頻度から物体の名称の重みを高くする物名称重み算出部３０８とを有し、物検出重み設定部３０７で設定された物体の重みと、物名称重み算出部３０８で算出された物体の名称の重みとが類似している結果を段落動画像相互検索部３０４が検索する検索結果とする。

以上の構成により、本発明は、動画データとテキストデータを手動で関連付けることなく、動画・文章の相互検索を容易におこなうことが可能とする効果が生じる。

次に、図４〜図７のフローチャートを参照して、情報処理システム１００が動画像を管理する際に実行する処理について説明する。

図４は、本発明のアプリケーションサーバ１０２における動画管理の制御処理手順の一例を示すフローチャートであり、それぞれのステップは、アプリケーションサーバ１０２のＣＰＵ２０１により実行される。

図４のフローチャートの処理は、動画管理サーバに動画像が保存され、文章マニュアル管理サーバに文章マニュアルが保存された状態で、本発明のアプリケーションがアプリケーションサーバ１０２において起動され、操作端末ＰＣ１０１のディスプレイ部２１０に表示される検索ボタンが押下されると開始されるフローチャートである。起動されたアプリケーションの画面イメージを図１２を参照して説明する。

図１２は、本発明の操作端末ＰＣ１０１のディスプレイ部２１０に出力される画面イメージの一例を示す模式図である。

図１２の１２００は、本発明におけるディスプレイ部２１０に出力される画面イメージの一例であり、１２０１には、たとえば現在再生中の動画などが表示されている。１２００で、たとえば、映像領域１２０１内を図示しないマウスなどでクリックし、動画を一時停止する。その後、「解説文章検索」ボタン１２０２を押下すると、図４のフローチャートが開始される。図４のフローチャートの説明に戻る。

まず、図４のステップＳ４０１において、アプリケーションサーバ１０２のＣＰＵ２０１は、検索ボタンが押下された際の解析対象情報を操作端末ＰＣ１０１から受信する。解析対象情報の種類には、動画と文章マニュアルがある。解析対象の動画情報は、動画そのもののデータ、動画ＩＤ、検索対象の再生時刻情報で構成される（図８の（ａ））。文章マニュアル情報の場合は、文章マニュアルのテキストデータ、文章マニュアルＩＤ、検索対象の節・段落情報で構成される（図８の（ｂ））。図１２の場合は、１２０１のように動画が指定されて検索ボタン１２０２が押下されているので、解析対象情報は動画である。別の例を図１３を参照して説明する。

図１３は、本発明の操作端末ＰＣ１０１のディスプレイ部２１０に出力される画面イメージの一例を示す模式図である。

図１３の１３００は、本発明におけるディスプレイ部２１０に出力される画面イメージの一例であり、１３０１には、たとえば現在ユーザが読んでいるマニュアルが表示されている。１３００で、たとえばユーザが１３０２のように文章の範囲を選択し、「解説動画検索」ボタン１３０３を押下すると、図４のフローチャートが開始される。図４のフローチャートの説明に戻る。

図１３の例では、ステップＳ４０１において、検索ボタンが押下された際の解析対象情報がマニュアルであるので、解析対象情報は文章マニュアルとなる。

次に、ステップＳ４０２へと処理を遷移すると、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ４０１で受信した解析対象情報の種別を判定する。

解析対象情報が動画情報であった場合は、ステップＳ４０３へと処理を遷移し、解析対象情報が文章（マニュアル）情報であった場合は、ステップＳ４０４へと処理を遷移する。

ステップＳ４０３へと処理を遷移すると、アプリケーションサーバ１０２のＣＰＵ２０１は、動画解析サーバ１０３の動画解析処理へと処理を移行する。ステップＳ４０３の処理の詳細を図５を参照して説明する。

図５は、本発明の動画解析サーバ１０３における動画解析の制御処理手順の一例を示すフローチャートであり、それぞれのステップは、動画解析サーバ１０３のＣＰＵ２０１により実行される。

図５では、動画解析サーバ１０３において、ステップＳ４０１で受信した解析対象データが動画データの場合に画像解析を実行し、その動画のコンテキストスコアを算出する。動画データのコンテキストスコアを算出することで、その動画と関連性が高いと思われる文章マニュアルのコンテキストスコアとの照合の自動化を実現する。

図５のフローチャートの処理は、図４のステップＳ４０３へと処理が遷移すると開始される。

まずステップＳ５０１において、動画解析サーバ１０３のＣＰＵ２０１は、一時停止された動画の前後のシーン情報を生成する。生成されるシーン情報は、検索対象の再生時刻（一時停止時刻）をもとに、Ｆｏｃｕｓ−Ｓｃｅｎｅ、Ｐｒｅ−Ｓｃｅｎｅ、Ｐｏｓｔ−Ｓｃｅｎｅの３つがある（図１４）。

Ｆｏｃｕｓ−Ｓｃｅｎｅは、再生時刻を中心に、前後の複数フレームで構成されたシーン情報（秒単位）である。フレーム数の指定は、設定ファイルのパラメータで指定してもよい。設定ファイルの詳細については、図１１で説明する。

Ｐｒｅ−Ｓｃｅｎｅは、Ｆｏｃｕｓ−Ｓｃｅｎｅの直前に存在するシーン情報（秒単位）で、Ｆｏｃｕｓ−Ｓｃｅｎｅと同様に複数フレームで構成される。
Ｐｏｓｔ−Ｓｃｅｎｅは、Ｆｏｃｕｓ−Ｓｃｅｎｅの直後に存在するシーン情報（秒単位）で、Ｆｏｃｕｓ−Ｓｃｅｎｅと同様に複数フレームで構成される。生成された３つのシーン情報は、後述するステップＳ５０３とステップＳ５０５において解析され、何の物体がどのエリアに映り込んでいるのかを特定される。

ステップＳ５０２では、動画解析サーバ１０３のＣＰＵ２０１は、生成されたすべてのシーン情報について解析し終えたかを判断する。解析し終えた場合は、ステップＳ５０５でＦｏｃｕｓ−Ｓｃｅｎｅに映り込むすべての物体に対して、コンテキストスコアを算出する。解析し終えていない場合は、ステップＳ５０３で未解析のシーン情報に対して、映り込む物体の抽出処理を実行する。

ステップＳ５０３では、動画解析サーバ１０３のＣＰＵ２０１は、生成した各シーン情報に映り込む物体と、座標位置の情報を抽出する。情報の抽出には、画像認識部（物検出部）を使用する。画像認識部は、ＤｅｅｐＬｅａｒｎｉｎｇなど、物体が認識、抽出できれば特に指定はしない。

ステップＳ５０４では、動画解析サーバ１０３のＣＰＵ２０１は、ステップＳ５０３で抽出した、物体と映り込んでいる座標位置をもとに、コンテキストスコア生成に使用する、シーン物体情報を生成する。シーン物体情報は、シーン内で抽出された各物体の名称、映り込んでいる座標位置、フォーカスエリア内外情報で構成される。フォーカスエリア内外情報は、物体の座標位置をもとに、フォーカスエリア内に物体が存在しているかの情報として生成する。フォーカスエリアの指定は、設定ファイルのパラメータで指定してもよい。設定ファイルの詳細については、図１１で説明する。ステップＳ５０４の後は、ステップＳ５０２へと処理を戻し、生成されたすべてのシーン情報について解析し終えたかを判断する。

ステップＳ５０２で生成されたすべてのシーン情報について解析し終えた場合、ステップＳ５０５へと処理を遷移する。

ステップＳ５０５では、動画解析サーバ１０３のＣＰＵ２０１は、ステップＳ５０４で生成した各シーンの物体情報をもとに、動画の検索対象の再生時刻における、コンテキストスコアを算出する（物検出重み設定部）。コンテキストスコアは、Ｆｏｃｕｓ−Ｓｃｅｎｅに映り込むすべての物体の、どれだけ文脈（話題）の中心となっているかの度合いを示すスコア情報と、前後シーンに映り込んでいるかをもとにしたＩＮ／ＯＵＴ情報、動画ＩＤで構成される（図９の（ａ））。

物体スコア情報の算出方法は、ここではフォーカスエリア内外のどちらなのか、またフォーカスエリア内であれば中心からどのくらい離れているかを基準に算出している（図１５）。図中の例では、映り込む物体が、フォーカスエリア内の中心に近い範囲にある場合はスコアを３、それより外側なら２を付与する。また、フォーカスエリア外においても同様に、中心に近い範囲にある場合はスコアを１、それより外側なら０．５を付与する。

図１５では、設定ファイルで指定しているのはフォーカスエリアの範囲だけであり、各エリアの詳細な範囲情報およびスコア値は固定としているが、状況により設定ファイルのパラメータで指定することも考えられる。

ＩＮ／ＯＵＴ情報は、Ｆｏｃｕｓ−Ｓｃｅｎｅに映り込む物体が、前後のシーンで映り込んでいるかの情報を示す。例えば、Ｆｏｃｕｓ−Ｓｃｅｎｅに存在する物体で、Ｐｒｅ−Ｓｃｅｎｅにはない場合（図１４ではＰｒｅ−Ｃｏｎｔｅｘｔとして表記）はＩＮ、Ｐｏｓｔ−Ｓｃｅｎｅに存在しない場合（図１４ではＰｏｓｔ−Ｃｏｎｔｅｘｔとして表記）はＯＵＴとして取り扱う（物出入判断部）。

動画ＩＤは、動画を参照するためのＩＤとして、ユニークに付与されている。

算出したコンテキストスコアは、ステップＳ４０５にて、文章マニュアルから算出したコンテキストスコアとの照合処理に使用する。以上で図５のフローチャートの説明を終了し、図４のフローチャートの説明に戻る。

次に、図４のステップＳ４０４の処理について説明する。ステップＳ４０１で受信した解析対象情報が文章（マニュアル）情報であり、ステップＳ４０４へと処理を遷移すると、アプリケーションサーバ１０２のＣＰＵ２０１は、テキスト解析サーバ１０５のテキスト解析処理へと処理を移行する。ステップＳ４０４の処理の詳細を図６を参照して説明する。

図６は、本発明のテキスト解析サーバ１０５におけるテキスト解析の制御処理手順の一例を示すフローチャートであり、それぞれのステップは、テキスト解析サーバ１０５のＣＰＵ２０１により実行される。

図６では、テキスト解析サーバ１０５において、ステップＳ４０１で受信した解析対象情報が文章マニュアルデータの場合にテキスト解析を実行し、その文章マニュアルのコンテキストスコアを算出する。文章マニュアルデータのコンテキストスコアを算出することで、その文章マニュアルと関連性が高いと思われる動画のコンテキストスコアとの照合の自動化を実現する。

図６のフローチャートの処理は、図４のステップＳ４０４へと処理が遷移すると開始される。

まずステップＳ６０１において、テキスト解析サーバ１０５のＣＰＵ２０１は、解析対象の段落が所属している節について、節全体を通して焦点を当てられている、組み立て対象の物体（名称）が何かを解析、抽出する。物体の抽出には、文章解析部（物名称抽出部）を使用する。文章解析部は、テキストマイニングなど、文章を解析できるものであれば特に指定しない。

ステップＳ６０２では、テキスト解析サーバ１０５のＣＰＵ２０１は、解析対象の段落をすべて解析し終えたのかを判断する。文章マニュアルデータの中には、検索対象の節・段落の情報が含まれており、解析対象の段落は、検索対象の段落と、その前後の段落のことを示している。

解析対象の段落をすべて解析し終えている場合は、ステップＳ６０５に遷移し、検索対象の段落に登場するすべての物体に対して、コンテキストスコアを算出する。解析し終えていない場合は、ステップＳ６０３で未解析の段落に対して、登場する物体の抽出と、その中で焦点が当てられている物体の特定をおこなう。

ステップＳ６０３では、テキスト解析サーバ１０５のＣＰＵ２０１は、解析対象の段落について、作業で使用される物体（名称）と、作業の中心となっている（その段落で最も焦点が当てられている）物体（名称）を抽出する。物体の抽出には、文章解析部を使用する。文章解析部は、テキストマイニングなど、文章を解析できるものであれば特に指定しない。

ステップＳ６０４では、テキスト解析サーバ１０５のＣＰＵ２０１は、ステップＳ６０３で抽出した情報をもとに、コンテキストスコア生成に使用する、段落内容情報を生成する。段落内容情報は、節内容をテキスト解析で抽出された組み立て対象の物体、段落内容解析で抽出された作業の中心となる物体と、段落内容解析で抽出された作業で使用される物体の情報で構成される。ステップＳ６０４の後は、ステップＳ６０２へと処理を戻し、また対象段落のすべてについて解析し終えたかを判断する。

ステップＳ６０２で対象段落の全ての解析が終えている場合、ステップＳ６０５へと処理を遷移する。

ステップＳ６０５では、テキスト解析サーバ１０５のＣＰＵ２０１は、ステップＳ６０４で生成した各段落の内容情報をもとに、文章テキストの検索対象の段落における、コンテキストスコアを算出する（物名称重み算出部）。コンテキストスコアは、検索対象段落に登場するすべての物体の、どれだけ文脈（話題）の中心となっているかの度合いを示す物体スコア情報と、前後の段落で登場しているかをもとにしたＩＮ／ＯＵＴ情報、文章マニュアルＩＤで構成される（図９の（ｂ））。

物体スコア情報の算出方法は、ここでは組み立て対象なのか、作業の中心なのか、作業で使用するものなのかを基準に算出している（図１６）。図中の例では、解析対象となる段落を中心にテキストを解析し、スコアを算出している。まず節に注目すると、「バイス」という物体名が記載されていることから、「バイス」に関する内容と判断し、どの段落においても「バイス」はスコアが１加算させる。次に、解析対象の段落に注目すると、段落としては、「ドライバ」という物体名が頻出していることから、「ドライバ」を使用する作業内容と判断し、この段落での「ドライバ」のスコアは２としている。

ＩＮ／ＯＵＴ情報は、検索対象の段落に登場する物体が、前後の段落においても登場しているかの情報を示す。例えば、検索対象の段落に登場する物体で、前の段落にない場合はＩＮ、後の段落にない場合はＯＵＴとして取り扱う（図１６）図中の例では、解析対象の段落に登場する「ドライバ」は、前段落では記載はなく、また後段落では記載があるため、この場合は“ＩＮ”を付与する。（物名称出現判断部）
文章マニュアルＩＤは、文章マニュアルを参照するためのＩＤとして、ユニークに付与されている。

算出したコンテキストスコアは、ステップＳ４０５にて、動画から算出したコンテキストスコアとの照合処理に使用する。以上で図６のフローチャートの説明を終了し、図４のフローチャートの説明に戻る。

図４のステップＳ４０３もしくはＳ４０４の処理を終了すると、次のステップＳ４０５の処理へと遷移する。

ステップＳ４０５において、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ４０３またはステップＳ４０４で算出したコンテキストスコアに対し、内容が類似する動画情報または文章マニュアルがあるのかの照合処理をおこなう。照合対象のコンテキストスコアは、コンテキストスコアデータベース１０７に登録済みのもののほか、必要に応じてインターネット等からリアルタイムで取得した動画および文章マニュアルの解析結果として算出したコンテキストスコアでもよい。コンテキストスコア照合処理の詳細を図７を参照して説明する。

図７は、本発明のアプリケーションサーバ１０２におけるコンテキストスコア照合の制御処理手順の一例を示すフローチャートであり、それぞれのステップは、アプリケーションサーバ１０２のＣＰＵ２０１により実行される。

図７では、アプリケーションサーバ１０２において、ステップＳ４０３で算出された動画のコンテキストスコア、またはＳ４０４で算出された文章マニュアルのコンテキストスコアに対して、関連性の高い動画または文章マニュアルを特定するための照合処理をおこなう。

図７のフローチャートの処理は、図４のステップＳ４０５の処理へと遷移した際に開始されるフローチャートである。

まず、ステップＳ７０１において、アプリケーションサーバ１０２のＣＰＵ２０１は、照合元のコンテキストスコアの種別を判断する。照合元が文章マニュアルから算出されたコンテキストスコアの場合、ステップＳ７０２で動画のコンテキストスコアを照合先のスコアとして取得する。動画から算出されたコンテキストスコアの場合、ステップＳ７０３で文章マニュアルのコンテキストスコアを照合先のスコアとして取得する。

ステップＳ７０２では、アプリケーションサーバ１０２のＣＰＵ２０１は、コンテキストスコアデータベース１０７へ問い合わせて、動画のコンテキストスコアを取得する。取得するコンテキストスコアは、照合元の文章マニュアルのコンテキストスコア（ステップＳ６０５で算出されたコンテキストスコア）と同じ物体のスコアを持つ、ユーザへ提示する対象の動画のコンテキストスコアとする。取得した動画のコンテキストスコアは、ステップＳ７０５で類似度判定処理をおこなう。

ステップＳ７０３では、アプリケーションサーバ１０２のＣＰＵ２０１は、コンテキストスコアデータベース１０７へ問い合わせて、文章マニュアルのコンテキストスコアを取得する。取得するコンテキストスコアは、照合元の動画のコンテキストスコア（ステップＳ５０５で算出されたコンテキストスコア）と同じ物体のスコアを持つ、ユーザへ提示する対象の文章マニュアルのコンテキストスコアとする。取得した文章マニュアルのコンテキストスコアは、ステップＳ７０５で類似度判定処理をおこなう。

ステップＳ７０４では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ７０２やステップＳ７０３で取得したすべてのコンテキストスコアに対し、ステップＳ７０５の類似度判定処理をおこなったか判断する。すべてのコンテキストスコアに対して類似度判定処理をしていた場合、コンテキストスコアの照合処理を終了する。類似度判定処理をしていないコンテキストスコアがある場合は、そのコンテキストスコアに対してステップＳ７０５の類似度判定処理を実行する。

ステップＳ７０５では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ７０２またはステップＳ７０３で取得したコンテキストスコアに対して、類似度判定処理を実行する。類似度判定処理は、ステップＳ４０３もしくはステップＳ４０４の解析処理で算出したコンテキストスコアと、物体の種類が一致しているか、また物体のスコア情報と、物体のＩＮ／ＯＵＴ情報を比較して判定する。

物体のスコア情報の比較では、それらの物体のスコアの値がどれだけ近いかを基準にする。物体のスコア値がどれだけ近いのかの判定の際、差分のしきい値は、設定ファイルのパラメータで指定してもよい。設定ファイルの詳細については、図１１で後述する。

物体のＩＮ／ＯＵＴ情報の比較では、各物体のＩＮ／ＯＵＴが一致しているのかを基準にする。

ステップＳ７０６では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ７０５の類似度判定処理の結果、ステップＳ７０２またはステップＳ７０３で取得したコンテキストデータが類似しているかを判断する。類似していると判断した場合は、ステップＳ７０７で提示データの種別を判断する。類似していないと判断した場合は、ステップ７０４の判定処理に戻る。

ステップＳ７０７では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ７０６で類似していると判断した、コンテキストスコアの算出元であるデータの種別を判断する。算出元が動画データの場合は、ステップＳ７０８で動画データの参照情報を生成する。算出元が文章マニュアルデータの場合は、ステップＳ７０９で文章マニュアルデータの参照情報を生成する。

ステップＳ７０８では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ７０６で類似していると判断した動画のコンテキストスコアをもとに、動作データを取得するための参照情報を生成する。動画データ参照情報は、コンテキストスコアの算出元の動画ＩＤ、再生時刻情報、類似度、動画タイトルで構成される（図１０の（ａ））。動画ＩＤは、動画データの参照に使用する。再生時刻情報は、解析対象の文章マニュアルのテキスト情報と合致した動画データの再生位置を示す。類似度は解析対象のテキスト内容との合致の度合いを示す。動画タイトルは、その動画のタイトルを示す。

生成された動画データ参照情報は、ステップＳ４０８の動画データ取得処理で使用される。

ステップＳ７０９では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ７０６で類似していると判断した文章マニュアルのコンテキストスコアをもとに、文章マニュアルデータを取得するための参照情報を生成する。文章マニュアルデータ参照情報は、コンテキストスコアの算出元の文章マニュアルＩＤ、節・段落情報、解析元の動画との類似度、文章マニュアルタイトルで構成される（図１０の（ｂ））。文章マニュアルＩＤは、文章マニュアルデータの参照に使用する。節・段落情報は、解析対象の動画再生位置と合致した節・段落を示す。類似度は解析対象の動画内容との合致の度合いを示す。文章マニュアルタイトルは、その文章マニュアルのタイトルを示す。

生成された文章マニュアルデータ参照情報は、ステップＳ４０９の文章マニュアルデータ取得処理で使用される。以上の処理により、動画情報及び文章マニュアル情報に対応する相互の検索結果に合う情報を取得する（段落動画像相互検索部）。図４のフローチャートの説明に戻る。

図４のステップＳ４０５のコンテキストスコア照合処理が終了すると、次のステップＳ４０６では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ４０５で照合したコンテキストスコアの結果について、内容が類似する動画または文章マニュアルが存在するか判断する。存在する場合は、ステップＳ４０７で照合結果のコンテキストスコアの算出元データの種別を判断する。存在しない場合は、操作端末ＰＣ１０１への提示対象データもないため、処理を終了する。

ステップＳ４０７では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ４０５の照合結果として取得したデータ参照情報の種別を判断する。動画データ参照情報の場合はステップＳ４０８において、ステップＳ７０８で生成した動画データの情報を取得する。文章マニュアルデータ参照情報の場合はステップＳ４０９において、ステップＳ７０９で生成した文章マニュアルデータの情報を取得する。

ステップＳ４０８では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ４０５の照合結果として取得した動画データ参照情報（ステップＳ７０８より取得）をもとに、操作端末ＰＣ１０１へ送信する動画データを取得する。動画データは、動画データ参照情報の動画ＩＤを動画管理サーバ１０４に問い合わせ、取得する。

取得した動画データは、ステップＳ４１０で提示対象データとして操作端末ＰＣ１０１へ送信する。

ステップＳ４０９では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ４０５の照合結果として取得した文章マニュアルデータ参照情報（ステップＳ７０９より取得）をもとに、操作端末ＰＣ１０１へ送信する文章マニュアルデータを取得する。文章マニュアルデータは、文章マニュアルデータ参照情報の文章マニュアルＩＤを文章マニュアル管理サーバ１０６に問い合わせ、取得する。

取得した文章マニュアルデータは、ステップＳ４１０で提示対象データの一覧として操作端末ＰＣ１０１へ送信する。

ステップＳ４１０では、アプリケーションサーバ１０２のＣＰＵ２０１は、ステップＳ４０８で取得した動画データまたはステップＳ４０９で取得した文章マニュアルデータを、ユーザへの提示対象データとして、操作端末ＰＣ１０１へ送信する。

本実施例では、ステップＳ４０５でコンテキストスコア照合処理のあと、類似しているデータすべてに対し、ステップＳ４０８およびステップＳ４０９ですぐに取得、操作端末ＰＣ１０１へ送信しているが、操作端末ＰＣ１０１上でユーザから求められた範囲のデータのみ取得するようにしてもよい。

提示対象データを受信した操作端末ＰＣ１０１は、受信した情報をウェブブラウザ上の検索画面で表示する。動画から文章マニュアルを検索する画面の詳細は図１２、文章マニュアルから動画を検索する画面の詳細は図１３で後述する。

以下、図１１を参照して、本実施形態の動画と文章マニュアルの検索システム１００における、設定パラメータの構成例について説明する。

図１１は、本発明のアプリケーションサーバ１０２において、動画と文章マニュアルの検索システムが読み込む、タグ記述形式の設定ファイルの一例を示す模式図である。

動画を解析する際のＳｃｅｎｅの単位の長さは、「ｓｃｅｎｅ＿ｆｒａｍｅ＿ｎｕｍ」タグ１１０１で指定する。ここで指定する値は動画のフレーム数であり、この例では１秒を３０フレームとして、６０フレーム（２秒）で指定している。

動画を解析する際のフォーカスエリアの範囲は、「ｆｏｃｕｓ＿ａｒｅａ」タグ１１０２で指定する。「ｆｏｃｕｓ＿ａｒｅａ」タグ１１０２は、「ｌｏｗｅｒ＿ｘ」タグ１１０３、「ｕｐｐｅｒ＿ｘ」タグ１１０４、「ｌｏｗｅｒ＿ｙ」タグ１１０５、「ｕｐｐｅｒ＿ｙ」タグ１１０６の４つを指定する必要がある。

「ｌｏｗｅｒ＿ｘ」タグ１１０３は、図１５にあるｌｏｗｅｒ＿ｘの位置を、ピクセル数で指定する。この例では、ｘ方向の最小範囲として、３２０ピクセルを指定している。

「ｕｐｐｓｅｒ＿ｘ」タグ１１０４は、図１５にあるｕｐｐｅｒ＿ｘの位置を、ピクセル数で指定する。この例では、ｘ方向の最大範囲として、９６０ピクセルを指定している。

「ｌｏｗｅｒ＿ｙ」タグ１１０５は、図１５にあるｌｏｗｅｒ＿ｙの位置を、ピクセル数で指定する。この例では、ｙ方向の最小範囲として、２５６ピクセルを指定している。

「ｕｐｐｓｅｒ＿ｙ」タグ１１０６は、図１５にあるｕｐｐｅｒ＿ｙの位置を、ピクセル数で指定する。この例では、ｙ方向の最大範囲として、７６８ピクセルを指定している。

コンテキストスコア照合処理の際のスコア値の差分のしきい値は、「ｏｂｊｅｃｔ＿ｓｃｏｒｅ＿ｔｈｒｅｓｈｏｌｄ」タグ１１０７で指定する。この例では、スコア値の差分のしきい値として、１を指定している。

以下、図１２を参照して、本実施形態の動画から文章マニュアルを検索する際に使用する、画面のイメージ例について説明する。

動画から文章マニュアルを検索する画面１２００は、検索対象の動画表示部１２０１、検索結果表示部１２０３、テキスト表示部１２０４から構成される。

検索対象の動画表示部１２０１は、検索対象の動画を表示、再生する。ユーザは検索対象の動画を再生し、解説文章を探したい場面で動画を一時停止し、下部の検索ボタン１２０２をクリックすることで、動画に対応する文章マニュアルの検索をおこなえる。

検索結果表示部１２０３は、文章マニュアル検索の結果である文章マニュアル情報の一覧を表示する。この例では、２種類の検索結果をタブ形式で表示している。

解説文章タブ１２０５では、手動により動画と関連付けられている文章マニュアル情報を表示する。この例では、文章マニュアルのタイトル情報やサムネイル画像を表示しており、文章マニュアルのタイトル（１２０６）をクリックすると、動画の再生位置に対応する文章マニュアルの節・段落部分がテキスト表示部１２０４に表示される。

類似文章タブ１２０７では、本発明の処理により関連性が高いと判断された文章マニュアル情報を表示する。表示内容については、解説文章タブと同様である。このタブの用途として、似た作業内容を記載しているテキストの一覧情報を取得する、などが考えられる。

テキスト表示部１２０４は、検索結果表示部１２０３でユーザによりクリックされた文章マニュアルのテキストを表示する。この例では、動画の再生位置に対応する文章マニュアルの節・段落部分のテキストを中心に表示する。テキスト表示は、動画の再生位置に対応する部分を強調表示したり、再生に合わせてテキスト表示をスクロールしたりしてもよい。

以下、図１３を参照して、本実施形態の文章マニュアルから動画を検索する際に使用する、画面のイメージ例について説明する。

文章マニュアルから動画を検索する画面１３００は、検索対象の文章マニュアルのテキスト表示部１３０１、検索結果表示部１３０４、動画表示部１３０５から構成される。

検索対象の文章マニュアルのテキスト表示部１３０１は、検索対象の文章マニュアルの節・段落に対応したテキストを表示する。節・段落のテキストは検索対象として選択可能（１３０２）であり、ユーザは解説動画を探したい節・段落のテキストをクリックして選択状態（１３０２）にし、下部の検索ボタン１３０３をクリックすることで、その節・段落のテキストに対応する動画の検索をおこなえる。

検索結果表示部１３０４は、動画検索の結果である、動画情報の一覧を表示する。この例では、２種類の検索結果をタブ形式で表示する。

解説動画タブ１３０６では、手動により文章マニュアルと関連付けられている動画情報を表示する。この例では、動画のタイトル情報やサムネイル画像を表示しており、動画タイトル（１３０７）をクリックすると、文章マニュアルの節・段落のテキストに対応する動画の再生位置が動画表示部１３０５に表示される。

類似動画タブでは、本発明の処理により関連性が高いと判断された動画情報を表示する。表示内容については、解説動画タブと同様である。このタブの用途として、似た作業内容を撮影した動画の一覧情報を取得する、などが考えられる。

動画表示部１３０５は、検索結果表示部１３０４でユーザによりクリックされた動画を再生する。この例では、ユーザが選択状態にしている文章マニュアルの節・段落のテキスト１３０２に対応した再生位置から、動画を再生する。動画再生時には文章マニュアルのテキスト表示部１３０１と連動して、動画の再生位置に対応する節・段落のテキストを強調表示してもよく、また再生に合わせてテキスト表示をスクロールしてもよい。

以上の処理により、大量の動画データとテキストデータを自動的に関連付けることができ、動画・文章の相互検索を容易におこなうことが可能な仕組みを提供することができる。

上記実施形態では、複数台のサーバにより運用する場合で説明したが、１台で動作する情報処理装置であっても良いし、幾つかの機能は実現しなくても本発明の目的は達成することができる。

なお、特に図示しないが、記録媒体に記憶されるプログラム群を管理する情報、例えばバ−ジョン情報，作成者等も記憶され、かつ、プログラム読み出し側のＯＳ等に依存する情報、例えばプログラムを識別表示するアイコン等も記憶される場合もある。

さらに、各種プログラムに従属するデータも上記ディレクトリに管理されている。また、インスト−ルするプログラムやデータが圧縮されている場合に、解凍するプログラム等も記憶される場合もある。

本実施形態における図４〜図７に示す機能が外部からインスト−ルされるプログラムによって、ホストコンピュ−タにより遂行されていてもよい。そして、その場合、ＣＤ−ＲＯＭやフラッシュメモリやＦＤ等の記録媒体により、あるいはネットワークを介して外部の記録媒体から、プログラムを含む情報群を出力装置に供給される場合でも本発明は適用されるものである。

以上のように、前述した実施形態の機能を実現するソフトウェアのプログラムコ−ドを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュ−タ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコ−ドを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたプログラムコ−ド自体が本発明の新規な機能を実現することになり、そのプログラムコ−ドを記憶した記録媒体は本発明を構成することになる。

プログラムコ−ドを供給するための記録媒体としては、例えば、フレキシブルディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，ＤＶＤ−ＲＯＭ，磁気テ−プ，不揮発性のメモリカ−ド，ＲＯＭ，ＥＥＰＲＯＭ，シリコンディスク等を用いることができる。

また、コンピュ−タが読み出したプログラムコ−ドを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコ−ドの指示に基づき、コンピュ−タ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムコ−ドが、コンピュ−タに挿入された機能拡張ボ−ドやコンピュ−タに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコ−ドの指示に基づき、その機能拡張ボ−ドや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのソフトウェアによって表されるプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのソフトウェアによって表されるプログラムをネットワーク上のサーバ，データベ−ス等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

１００情報処理システム
３０１物検出部
３０２動画像内物名称特定部
３０３物名称抽出部
３０４段落動画像相互検索部
３０５物出入判断部
３０６物名称出現判断部
３０７物検出重み設定部
３０８物名称重み算出部

Claims

動画像と文章を管理する情報処理装置であって、
一つもしくは断片化された動画像毎に画像解析し、該動画像内に存在する一つもしくは複数の物を検出する物検出手段と、
前記物検出手段により検出される前記一つもしくは断片化された動画像内の一つもしくは複数の物の名称を特定する動画像内物名称特定手段と、
前記文章の段落毎にテキスト解析し、該段落内に存在する一つもしくは複数の物の名称を抽出する物名称抽出手段と、
前記物名称抽出手段で抽出された第１の物の名称と、前記動画像内物名称特定手段で特定された第２の物の名称とが類似する段落および動画像を相互検索する段落動画像相互検索手段と、
を有することを特徴とする情報処理装置。
前記動画像内で前記物検出手段により検出される第２の物の名称に対応する物の出入りを判断する物出入判断手段と、
前記文章の段落毎において、前記物名称抽出手段により抽出される第１の物の名称の出現を判断する物名称出現判断手段と、
前記段落動画像相互検索手段は、前記物出入判断手段で判断された第２の物の名称に対応する物の出入りと、前記物名称出現判断手段により判断される第１の物の名称の出現とが類似する段落および動画像を相互検索することを特徴とする請求項１に記載の情報処理装置。
前記物検出手段により検出される第２の物の名称に対応する物の内、前記動画像内の所定の範囲内に存在している物の重み（第２の物の名称の重み）を高くする設定する物検出重み設定手段と、
前記文章の段落毎において、前記物名称抽出手段により抽出される第１の物の名称の出現する頻度により、物の名称の重みを算出する物名称重み算出手段と、
前記段落動画像相互検索手段は、前記物検出重み設定手段により設定された第２の物の名称の重みと、前記物名称重み算出手段により算出された第１の物の名称の重みとが類似する段落及び動画像を相互検索することを特徴とする請求項１又は２に記載の情報処理装置。
前記物出入判断手段は、前記動画像内の所定の範囲内に第２の物の名称に対応する物が出入りすることにより判断することを特徴とする請求項２に記載の情報処理装置。
前記物名称重み算出手段は、前記段落のタイトルもしくは節内容に指定されている前記第１の物の名称の重みを高く算出することを特徴とする請求項３又は４に記載の情報処理装置。
前記物名称重み算出手段は、前記段落内に存在する前記第１の物の名称の出現する頻度によって、前記第１の物の名称の重みを算出することを特徴とする請求項３乃至５に記載の情報処理装置。
動画像と文章を管理する情報処理装置からなる情報処理システムであって、
一つもしくは断片化された動画像毎に画像解析し、該動画像内に存在する一つもしくは複数の物を検出する物検出手段と、
前記物検出手段により検出される前記一つもしくは断片化された動画像内の一つもしくは複数の物の名称を特定する動画像内物名称特定手段と、
前記文章の段落毎にテキスト解析し、該段落内に存在する一つもしくは複数の物の名称を抽出する物名称抽出手段と、
前記物名称抽出手段で抽出された第１の物の名称と、前記動画像内物名称特定手段で特定された第２の物の名称とが類似する段落および動画像を相互検索する段落動画像相互検索手段と、
を有することを特徴とする情報処理システム。
動画像と文章を管理する情報処理装置における情報処理方法であって、
一つもしくは断片化された動画像毎に画像解析し、該動画像内に存在する一つもしくは複数の物を検出する物検出ステップと、
前記物検出ステップにより検出される前記一つもしくは断片化された動画像内の一つもしくは複数の物の名称を特定する動画像内物名称特定ステップと、
前記文章の段落毎にテキスト解析し、該段落内に存在する一つもしくは複数の物の名称を抽出する物名称抽出ステップと、
前記物名称抽出ステップで抽出された第１の物の名称と、前記動画像内物名称特定ステップで特定された第２の物の名称とが類似する段落および動画像を相互検索する段落動画像相互検索ステップと、
を有することを特徴とする情報処理方法。
請求項８に記載された情報処理方法を実行するためのプログラム。