JP2006202081A

JP2006202081A - メタデータ生成装置

Info

Publication number: JP2006202081A
Application number: JP2005013693A
Authority: JP
Inventors: Toshinori Nagahashi; 敏則長橋; Naoki Kayahara; 直樹萱原
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2005-01-21
Filing date: 2005-01-21
Publication date: 2006-08-03
Also published as: US20060167899A1

Abstract

【課題】個人コンテンツに対して適合度が高く、検索を容易に行うことができるメタデータを容易に生成する。
【解決手段】個人のコンテンツ情報を読込む個人コンテンツ情報読込み手段２０と、該個人コンテンツ情報読込み手段２０で読込んだ個人コンテンツ情報に関連する他のコンテンツ情報からテキストを抽出するテキスト抽出手段２２と、該テキスト抽出手段２２で抽出した単語に基づいて前記個人コンテンツ情報読込み手段１３で読込んだ個人コンテンツ情報に対する検索用メタデータを生成するメタデータ生成手段４２とを備えている。
【選択図】図２

Description

本発明は、個人が製作した静止画像データや動画像データ等で構成される個人コンテンツを検索する際に使用する検索用メタデータを容易に生成することができるメタデータ生成装置に関する。

近年、デジタルカメラやカメラ付携帯電話機の普及により、大量の映像や画像を撮影し、撮影した画像データを個人コンテンツとしてパーソナルコンピュータ等の記憶装置やコンパクトデスク、デジタルビデオデスク等の記憶媒体に格納することが極めて容易になってきている。このように、大量の画像・映像データを含む個人コンテンツを効率的に検索するためにメタデータを付加することは必要不可欠である。

デジタルカメラやデジタルビデオの画像・映像には、撮影日時がメタデータとして自動的に記憶されるが、効率的な検索という意味では不十分である。さらに、ダブリンコアやＭＰＥＧ−７などのメタデータを作成する体系も整備されているが、これらの体系に基づいてメタデータを作成、入力する作業に熟練を要し、専門家ではない一般のユーザーではメタデータの作成作業が困難である。

そこで、従来、少なくとも時間に関する情報を含むスケジュールデータ等の複数のイベント情報を記憶可能なイベント記憶部と、少なくとも時間に関する情報を含む付属情報（イベント情報）を有する画像データ等の対象データを記憶可能な情報記憶部とを有し、イベント情報関連判定部で、イベント情報と付属情報とに基づいてイベントと対象データとの間の関連の有無を判定し、その判定結果を認識可能に対象データを表す情報としてイベント表示部に表示するようにした情報処理方法、情報処理装置及び記録媒体が知られている（例えば、特許文献１参照）。
特開２００３−３０３２１０号公報（第１頁、図１，図１３）

しかしながら、上記特許文献１に記載された従来例にあっては、スケジュールデータ等のイベント情報を用意する必要があり、このイベント情報の日時を信頼性高く保守しなければならず、これが面倒であるという未解決の課題を有すると共に、イベント情報が用意されていないときには検索することができないという未解決の課題もある。
そこで、本発明は、上記従来例の未解決の課題に着目してなされたものであり、個人コンテンツに対して適合度が高く、検索を容易に行うことができる検索用メタデータを容易に生成することができるメタデータ生成装置を提供することを目的としている。

第１の発明に係るメタデータ生成装置は、個人のコンテンツ情報を読込む個人コンテンツ情報読込み手段と、該個人コンテンツ情報読込み手段で読込んだ個人コンテンツ情報に関連する他のコンテンツ情報からテキストを抽出するテキスト抽出手段と、該テキスト抽出手段で抽出したテキストに基づいて前記個人コンテンツ情報読込み手段で読込んだ個人コンテンツ情報に対する検索用メタデータを生成するメタデータ生成手段とを備えたことを特徴としている。

この第１の発明では、個人コンテンツ情報読込み手段でデジタルカメラやデジタルビデオ等の静止画像データや動画動データで構成される個人コンテンツ情報を読込む一方、テキスト抽出手段で、個人コンテンツ情報に関連する他のコンテンツ情報例えばインターネットのホームページやイベントを印刷した印刷物からテキストを抽出し、抽出したテキストに基づいて検索用メタデータを生成することにより、個人コンテンツ情報に対して検索が容易となる検索用メタデータを容易に自動生成することができる。

また、第２の発明に係るメタデータ生成装置は、第１の発明において、前記メタデータ生成手段は、前記テキスト抽出手段で抽出したテキストからキーワードを選択するキーワード選択手段を備え、該キーワード選択手段で選択したキーワードに基づいて前記個人コンテンツ情報作成手段で読込んだ個人コンテンツ情報に対する検索用メタデータを生成するように構成されていることを特徴としている。

この第２の発明では、テキスト抽出手段で抽出したテキストからキーワード選択手段でキーワードを選択し、選択したキーワードに基づいて個人コンテンツ情報に対する検索用メタデータを生成するので、個人コンテンツ情報に最適な検索用メタデータを正確且つ容易に生成することができる。
さらに、第３の発明に係るメタデータ生成装置は、第２の発明において、前記キーワード選択手段は、テキスト中の特徴ある文字データをキーワードとして選択するように構成されていることを特徴としている。

この第３の発明では、テキスト中の見出しや太文字等の特徴ある文字データをキーワードとして選択するので、事象を短く且つ端的に表すキーワードを正確且つ容易に選択することができる。
さらにまた、第４の発明に係るメタデータ生成装置は、第３の発明において、前記文字データはテキスト中に含まれる他の文字データと比較して特徴あるフォントを有していることを特徴としている。

この第４の発明では、他の文字データに比較して大きなフォントや色、フォント種類、修飾等が異なって目立つ文字データをキーワードとすることができ、事象を短く且つ端的に表すキーワードを正確且つ容易に選択することができる。
なおさらに、第５の発明に係るメタデータ生成装置は、第２乃至第４の何れか１つの発明において、前記キーワード選択手段は、単語を分割して抽出する単語分割手段を有し、該単語分割手段で抽出した単語の品詞情報に基づいて選択した単語をキーワードとして選択するように構成されていることを特徴としている。

この第５の発明では、テキストから単語分割手段で、単語を分割して抽出し、単語の品詞情報例えば固有名詞等に基づいて選択した単語をキーワードとして選択するので、接続詞、前置詞等の検索用メタデータとして採用不可能な単語を除いてキーワードを選択することができ、個人コンテンツ情報に最適なキーワードを選択することができる。
また、第６の発明に係るメタデータ生成装置は、第２乃至第５の何れか１つの発明において、前記キーワード選択手段は、所定のキーワードを記憶するキーワード記憶手段を有し、前記テキスト抽出手段で抽出したテキストのうち前記キーワード記憶手段に記憶されているキーワードと一致する単語をキーワードとして選択するように構成されていることを特徴としている。

この第６の発明では、キーワード記憶手段に記憶されている所定のキーワードを辞書としてテキスト抽出手段で抽出したテキストのうちキーワード記憶手段に記憶されているキーワードと一致する単語をキーワードとして選択するので、より効率的な検索が可能なキーワードのみを抽出することが可能となり、個人コンテンツ情報に最適なキーワードを選択することができる。

さらに、第７の発明に係るメタデータ生成装置は、第６の発明において、前記キーワード記憶手段は、記憶しているキーワードをデジタル放送電波、ネットワーク、記憶媒体の何れか１つ又は複数を使用して更新するように構成されていることを特徴としている。
この第７の発明によれば、キーワード記憶手段に記憶されているキーワードをデジタル放送電波やネットワークで送信されるキーワードや記憶媒体に記憶されたキーワードによって更新するので、常時最適なキーワードを確保することができる。

さらにまた、第８の発明に係るメタデータ生成装置は、第１乃至第７の何れかの発明において、前記テキスト抽出手段は、テキストを印刷した印刷物を読取る画像読取手段と、該画像読取手段で読取った画像データから特定領域を識別する領域識別手段と、該領域識別手段で識別した特定領域の画像データを文字認識する文字認識手段とを少なくとも備えていることを特徴としている。

この第８の発明では、印刷物に印刷されている文章中のユーザーが抽出したい単語に対して他の単語と区別するための領域識別マークを施すことにより、この印刷物を画像読取手段で画像データとして読取り、この画像データから領域式識別マークが施された領域を抽出し、抽出した領域に含まれる単語を文字認識手段で文字認識して単語を抽出し、抽出単語からキーワードを選択し、選択したキーワードに基づいて個人コンテンツ情報に対する検索用メタデータを形成するので、印刷物のうちからユーザーが特定した単語を検索用メタデータとして生成することができる。

なおさらに、第９の発明に係るメタデータ生成装置は、第１乃至第７の何れか１つの発明において、前記テキスト抽出手段は、テキストを印刷した印刷物を読取る画像読取手段と、該画像読取手段で読取った画像データを文字認識する文字認識手段と、該文字認識手段で認識した文字を単語に分割して抽出する単語分割手段とを少なくとも備えていることを特徴としている。

この第９の発明では、画像読取手段で読取った画像データを文字認識手段で文字認識してテキストデータに変換し、このテキストデータを単語分割手段で単語に分割するので、任意の印刷物から単語を抽出することができる。
また、第１０の発明に係るメタデータ生成装置は、第１乃至第７の何れか１つの発明において、前記テキスト抽出手段は、テキストを印刷した印刷物を読取る画像読取手段と、該画像読取手段で読取った画像データから特定領域を識別する領域識別手段と、該領域識別手段で識別した特定領域の画像データを文字認識する文字認識手段と、該文字認識手段で認識した文字を単語に分割して抽出する単語分割手段とを少なくとも備えていることを特徴としている。

この第１０の発明では、特定領域の画像データを文字認識手段で文字認識してテキストデータを抽出し、このテキストデータから単語分割手段で単語を分割して抽出するので、ユーザーが形成した特定領域にかかわらず、見出し等の枠線で囲まれた領域等の任意の領域の画像データから単語を容易に抽出することができる。
さらに、第１１の発明に係るメタデータ生成装置は、第１又は第２の発明において、前記テキスト抽出手段は、ネットワークを介してコンテンツ情報提供手段からコンテンツ情報を収集するコンテンツ情報収集手段と、該コンテンツ情報収集手段で収集したコンテンツ情報からテキストを抽出し、抽出したテキストから単語を分割して抽出する単語分割手段とを少なくとも備えていることを特徴としている。

この第１１の発明では、ホームページ、電子メール等のコンテンツ提供手段からコンテンツ情報を収集し、収集したコンテンツ情報を単語分割して単語を抽出するので、例えば新聞社等の地域毎のニュースサイトを指定することにより、その日のイベント情報を時刻情報と共に収集することができる。
さらにまた、第１２の発明に係るメタデータ生成装置は、第１１の発明において、前記キーワード選択手段は、前記テキスト抽出手段のコンテンツ情報提供手段以外の複数のコンテンツ情報提供手段からの比較用コンテンツ情報を収集する比較用コンテンツ情報収集手段と、該比較用コンテンツ情報収集手段で収集したコンテンツ情報を単語に分割して比較用単語を抽出する単語分割手段と、該単語分割手段で抽出した比較用単語と、前記テキスト抽出手段から入力されるテキストとを比較し、当該テキスト抽出手段から入力される単語がキーワードとする重要単語か否かを判定する重要単語判定手段とを備えていることを特徴としている。

この第１２の発明では、テキスト抽出手段がコンテンツ情報提供手段からコンテンツ情報を収集するように構成されている場合に、抽出される単語数が膨大となるので、該当するコンテンツ情報提供手段とは異なる他の複数のコンテンツ情報提供手段から比較用コンテンツ情報を収集し、収集した比較用コンテンツ情報を単語分割手段で単語に分割して比較用単語を抽出し、抽出した比較用単語とテキスト抽出手段で抽出した単語とを比較してからキーワードとする重要単語であるか否かを判定することにより、個人コンテンツ情報に適合するキーワードを選択することができる。

なおさらに、第１３の発明に係るメタデータ生成装置は、第１２の発明において、前記重要単語判定手段は、前記テキスト抽出手段から入力される単語で出現頻度が高い単語で且つ前記比較用単語では出現頻度が低い単語を重要単語とし、これをキーワードとして抽出するように構成されていることを特徴としている。
この第１３の発明では、重要単語を抽出する際に、テキスト抽出手段から入力される単語で出現頻度が高く、比較用単語では出現頻度が低い単語は、新しい単語である可能性が高く、例えばテキスト抽出手段でローカル及び全国的なコンテンツ情報から単語を抽出するようにすると、ローカルなコンテンツ情報から抽出される単語のうち全国的なコンテンツ情報に現れる単語を除いた単語がキーワードとして選択され、個人コンテンツ情報に最適なキーワードを選択することができる。

以下、本発明の実施の形態を図面に基づいて説明する。
図１は、本発明の第１の実施形態を示すブロック図であって、図中、ＰＣはパーソナルコンピュータ、サーバー等で構成される情報処理装置であって、この情報処理装置ＰＣは、中央演算処理装置（ＣＰＵ）１を有し、この中央演算処理装置１にシステムバス２を介して中央演算処理装置１が実行するプログラムを記憶したＲＯＭ３、中央処理装置１で実行する演算処理に必要なデータ等を記憶するＲＡＭ４、アプリケーションプログラムや後述する個人及び一般コンテンツ情報等を記憶するハードディスク装置（ＨＤＤ）５、デジタル多用途ディスク（ＤＶＤ）に対する書込及び読出しを行うＤＶＤドライブ装置（ＤＶＤＤ）６、データを表示するディスプレイ７、データを入力するためのキーボード８及びマウス９等が接続されている。

また、システムバス２には、インターネット等のネットワークに接続するネットワーク接続部１０、個人コンテンツ情報作成手段としてのデジタルカメラ１３を接続するデジタルカメラ接続インタフェース１４及び各種メモリカード１５を接続するメモリカードインタフェース１６が接続されている。
中央演算処理装置１は、機能ブロック図で表すと、図２に示すように、デジタルカメラ１３から後述するように画像データ及び撮影メタデータで構成される個人コンテンツ情報を読込む個人コンテンツ情報読込部２０と、この個人コンテンツ情報読込部２０で読込んだ個人コンテンツ情報を記憶する個人コンテンツ情報記憶部２１と、個人コンテンツ情報を検索する場合にその検索を容易にする検索用メタデータを生成する元になるコンテンツ情報を収集して固有名詞等の単語を抽出するテキスト抽出部２２と、このテキスト抽出部２２で抽出した単語に基づいてキーワードを選択するキーワード選択部２３と、このキーワード選択部２３で選択されたキーワードを検索用メタデータに変換するメタデータ生成部２４と、このメタデータ生成部２４で生成した検索用メタデータを個人コンテンツ情報記憶部２１に記憶されている個人コンテンツ情報のメタデータに付加して記憶するメタデータ記憶部２５とを備えている。

ここで、テキスト抽出部２２は、個人コンテンツ情報を検索する場合にその検索を容易にする検索用メタデータを生成する元になるコンテンツ情報提供手段としての新聞社におけるニュースサイト等のホームページにインターネットを経由してアクセスするためのＵＲＬ（Uniform Resource Locator）を入力するＵＲＬ入力部３１と、このＵＲＬ入力部３１で入力したＵＲＬに基づいてアクセスされるホームページからコンテンツ情報を読込むコンテンツ情報読込部３２と、このコンテンツ情報読込部３２で読込んだコンテンツ情報を記憶するコンテンツ情報記憶部３３と、このコンテンツ情報記憶部３３に記憶されたコンテンツ情報を形態素解析して単語を抽出する単語分割手段としての形態素解析部３４とを備えている。

また、キーワード選択部２３は、キーワード辞書となる多数のキーワードを記憶するキーワード記憶部３６と、予め設定した参照用のホームページを指定する複数のＵＲＬを記憶したＵＲＬ記憶部３７と、このＵＲＬ記憶部３７に記憶されたＵＲＬに基づいてアクセスしたホームページから参照用コンテンツ情報を読込む参照用コンテンツ情報読込部３８と、この参照用コンテンツ情報読込部３８で読込んだ参照用コンテンツ情報を形態素解析して単語を抽出する単語分割手段としての形態素解析部３９と、テキスト抽出部２２から入力される単語と形態素解析部３９から出力される参照用コンテンツ情報の単語とに基づいて重要単語を判定する重要単語判定部４０と、重要単語判定部４０で判定された重要単語とキーワード記憶部３６に記憶されているキーワードとを比較して一致する重要単語をキーワードとして抽出するキーワード抽出部４１とを備えている。なお、キーワード記憶部３６に記憶されているキーワードはデジタル放送電波、インターネット等の通信媒体を介して定期的に又は所望時に逐次最新のキーワードに更新される。また、更新用キーワードを記憶したフレキシブル磁気ディスクやＣＤ等の記憶媒体に基づいてキーワードを更新するようにしてもよい。

そして、中央演算処理装置１では、図３に示すデジタルカメラ１３からの静止画像データを読込む個人コンテンツ情報読込処理、図５に示す個人コンテンツ情報を検索する場合にその検索を容易にするメタデータを生成する元になるコンテンツ情報を読込んで単語を抽出する単語抽出処理、図７に示す単語抽出処理で抽出された単語から重要単語を抽出してキーワードを選択し、選択したキーワードを検索用メタデータに変換して検索用メタデータを生成するメタデータ生成処理を実行する。

個人コンテンツ情報読込処理は、デジタルカメラ接続インタフェース１２にデジタルカメラ１３が接続されたときに実行され、図３に示すように、先ず、ステップＳ１１で、デジタルカメラ１３に内蔵された撮影した画像データ及びそのメタデータを関連付けして記憶するメモリカードにアクセスして、これに記憶されている画像データ及びメタデータを順次読込む。

ここで、カードメモリに記憶されている画像データは、図４に示すように、デジタルカメラ１３で撮影したバイナリデータの画像データを圧縮した例えばＪＰＥＧ圧縮形式のデータのデータ記録領域ＲＤと、このデータ記録領域ＲＤに続くＸＭＬ（Extensible Markup Language）データで記述されるメタデータを記録する撮影メタデータ記録領域ＲＭとが連結された形式で記憶されている。撮影メタデータ記録領域ＲＭに記録されたメタデータは、メタデータ領域ヘッダーＲＭ１、メタデータボディＲＭ２及びメタデータ領域フッターＲＭ３とで構成されている。メタデータ領域ヘッダーＲＭ１及びメタデータ領域フッターＲＭ３は、画像データにメタデータが連結されているか否かを正しく認識するために、撮影メタデータ領域ＲＭの識別情報、サイズ情報が記録され、メタデータボディＲＭ２には、撮影した画像情報の日時情報、シャッター速度、絞り等の撮影情報等がＸＭＬファイル形式で記録されている。

このように、画像データ記録領域ＲＤの次にメタデータ記録領域ＲＭを形成することにより、他のアプリケーションには影響を与えずに、メタデータを登録することができる。すなわち、画像データのヘッダー部分の情報はメタデータの接続前から変化しないので、画像データを一般的なブラウザによって画像再生が行えることになる。
次いで、ステップＳ１２に移行して、読込んだ画像データをディスプレイ７に表示して、読込みたい画像データを選択する選択処理を行い、次いでステップＳ１３に移行して、選択処理で選択された画像データが存在するか否かを判定し、選択された画像データが存在しない場合には読込処理を終了し、選択された画像データが存在する場合には、ステップＳ１４に移行して、選択された画像データ及びこれに付属するメタデータとを例えばハードディスク装置５の指定された個人コンテンツ情報記憶領域としての画像データ記憶領域に記憶してから画像データ読込処理を終了する。

また、単語抽出処理は、図５に示すように、先ず、ステップＳ２１で、ＵＲＬ入力部３１で例えば新聞社のニュースサイト等のＵＲＬが入力されたか否かを判定し、ＵＲＬが入力されていないときにはこれが入力されるまで待機し、ＵＲＬが入力されたときにはステップＳ２２に移行する。
このステップＳ２２では、ＵＲＬに基づいて該当するホームページをアクセスし、該当するホームページに記載されているテキストデータを読込み、次いでステップＳ２３に移行して、読込んだテキストデータをハードディスク５に形成したコンテンツ情報記憶部に記憶してからステップＳ２４に移行する。

このステップＳ２４では、コンテンツ情報記憶部に記憶したテキストデータについて形態素解析処理を行って単語を抽出し、次いでステップＳ２５に移行して、抽出した単語をＲＡＭ４に一時的に記憶し、次いでステップＳ２６に移行して、図６に示すメタデータ生成処理を起動してから単語抽出処理を終了する。
さらに、メタデータ生成処理は、図６に示すように、単語抽出処理の終了時に起動され、先ず、ステップＳ３１で、ハードディスク装置５の画像データ記憶領域から画像データの検索を容易にする検索用メタデータを付加する対象となる画像データを読込んでディスプレイ７に表示する画像データ選択処理を行い、次いでステップＳ３２に移行して、画像データ選択処理で、検索用メタデータを付加する対象となる画像データが選択されたか否かを判定し、画像データが選択されていないときにはステップＳ３３に移行して、メタデータ生成処理を終了する処理終了ボタンの選択等による処理終了指示があったか否かを判定し、処理終了指示があったときにはそのままメタデータ生成処理を終了し、処理終了指示がないときには前記ステップＳ３１に戻る。

一方、ステップＳ３２の判定結果が、選択された画像データが存在するものであるときには、ステップＳ３４に移行して、予めＵＲＬ記憶部３７に記憶されている例えば全国的な複数の新聞社のニュースサイトにおけるＵＲＬ１〜ＵＲＬｎの最初の１つＵＲＬ１を読出し、次いでステップＳ３５に移行して、読み出したＵＲＬ１に基づいて該当するホームページをアクセスし、該当するホームページに記載されているテキストデータを読込み、次いでステップＳ３６に移行して、読込んだテキストデータについて形態素解析処理を行って例えば固有名詞でなる単語を抽出し、次いでステップＳ３７に移行して、抽出した単語を参照用単語としてＲＡＭ４の所定記憶領域に一時格納してからステップＳ３８に移行する。

このステップＳ３８では、読込んでいないＵＲＬが存在するか否かを判定し、読込んでいないＵＲＬが存在するときには、ステップＳ３９に移行して、現在のＵＲＬ番号ＵＲＬｉ（ｉ＝１〜ｎ）に“１”を加算した値を新たなＵＲＬ（ｉ＋１）を算出し、該当するＵＲＬ（ｉ＋１）をＵＲＬ記憶部３７より読出してから前記ステップＳ３５に戻る。
また、ステップＳ３８の判定結果が、全てのＵＲＬについてテキストデータの読込みが完了したものであるときには、ステップＳ４０に移行して、重要テキスト抽出部に対応する重要単語判定処理を実行してキーワードを抽出する。

ここで、重要単語判定処理は、ＴＦＩＤＦ（Term Frequency & Inverse Document Frequency）処理を行うことにより単語の重みＷを算出して重要単語を抽出する。ＴＦＩＤＦは、下記（１）式に示すように、単語抽出処理で抽出した単語の出現頻度（ＴＦ）と、参照用単語を含めたテキストデータ全体でのその単語が使われているテキストデータ数の頻度の逆数（ＩＤＦ）との積で求め、数値が大きいほど、その単語が重要であるということを表している。ＴＦは頻出する単語は重要であるという指標であり、ＩＤＦは、多くの文書データに出現する単語は重要ではない、つまり、特定の文書データに出現する単語が重要であるという指標であり、ある単語が使われているテキストデータ数が減少すると大きくなる性質を持っている。以下、説明を簡単にするために、コンテンツ情報提供手段として新聞社のホームページを使用する場合で例示する。全国紙とローカル紙のホームページを考慮すると、地方の情報を記載するローカル紙の方がより身近であり、個人コンテンツのメタデータとして使用する単語を抽出するのにより適していると考えることができ、且つ全国紙のホームページにこれらの単語が出現する頻度が低いと考えることができる。

したがって、ＴＦＩＤＦの値は、頻出するが多くのテキストデータに出現する単語（接続詞、助詞など）や、特定のテキストデータにのみ出現するがそのテキストデータでも頻度が小さい単語に対しては小さくなり、逆に、特定の文書データに高頻度で出現する単語に対しては大きくなる性質を持っている。ＴＦＩＤＦによって全国紙に記載されている単語とローカル紙に記載されている単語とを弁別してローカル紙に記載されている単語を重要単語として判定することができる。

Ｗ（ｔ，ｄ）＝ＴＦ（ｔ，ｄ）×ＩＤＦ（ｔ） …………（１）
ここで、ＴＦ（ｔ，ｄ）はテキストデータｄに単語ｔが出現する頻度を表し、ＩＤＦ（ｔ）＝ｌｏｇ（Ｄ／ＤＦ（ｔ））であり、ＤＦ（ｔ）はテキストデータ全体で単語ｔが出現するテキストデータ数の頻度、Ｄは全テキストデータ数である。
ＵＲＬ_i（ｉ＝１〜ｍ）をホームページのＵＲＬとし、出現する単語をＴ_j（ｊ＝１〜ｎ）とすると、（１）式を用いて、以下の行列Ｗ_ijを算出することができる。

ローカル紙のホームページがＵＲＬ_mであるとすると、行列の要素Ｗ_m1、Ｗ_m2、……Ｗ_mmのうち、大きい値を示すＷ_ijの順に単語T_jを抽出し、重要単語と判定すればよい。
次いで、ステップＳ４１に移行して、重要単語と、キーワード記憶部３６に記憶されている記憶キーワードとを比較し、次いでステップＳ４２に移行して、重要単語と一致するキーワードが存在するか否かを判定し、一致するキーワードが存在するときには後述するステップＳ４６にジャップし、一致するキーワードが存在しないときには、ステップＳ４３に移行して、テキストデータから抽出した重要単語をキーワードを採用するか否かを選択する選択画面をディスプレイ７に表示し、次いでステップＳ４４に移行して、キーワードとして採用が設定されたか否かを判定し、キーワードとしての採用が選択されないときには後述するステップＳ４７にジャンプし、キーワードとしての採用が選択されたときにはステップＳ４５に移行して、採用されたキーワードをキーワード記憶部に追加してからステップＳ４６に移行する。

ステップＳ４６では、抽出されたキーワードを検索キーワードとしてＲＡＭ４に一時記憶し、次いでステップＳ４７に移行し、上述したキーワード抽出処理をしていない重要単語が存在するか否かを判定し、キーワード抽出処理を終了していない重要単語が存在する場合にはステップＳ４８に移行して、次の重要単語を読込んでから前記ステップＳ４１に戻り、抽出した全ての重要単語に対してキーワード抽出処理が終了したときにはステップＳ４９に移行する。

このステップＳ４９では、選択したキーワードを検索用キーワードとして採用するか否かを選択する選択画面をディスプレイ７に表示し、次いでステップＳ５０に移行して検索用キーワードとして選択されているか否かを判定し、検索用キーワードとして選択されていないときには後述するステップＳ５３にジャンプし、検索用キーワードとして選択されているときにはステップＳ５１に移行して、検索用キーワードを検索用メタデータに変換し、次いでステップＳ５２に移行して、変換した検索用メタデータを該当する画像データのメタデータ記憶領域ＲＭに付加すると共に、メタデータ領域ヘッダーＲＭ１及びメタデータ領域フッターＲＭ３ヘッダーを変更してからステップＳ５３に移行する。

ステップＳ５３では、他の個人コンテンツ情報を選択するか否かを判定し、他の個人コンテンツ情報を選択する場合には前記ステップＳ３１に戻り、他の個人コンテンツ情報を選択しない場合にはメタデータ生成処理を終了する。
なお、図３の処理が個人コンテンツ情報読込手段に対応し、図５の処理がテキスト抽出手段に対応し、このうちステップＳ２１〜Ｓ２３の処理がコンテンツ情報収集手段に対応し、ステップＳ２４処理が単語分割手段に対応し、図６の処理において、ステップＳ３４〜Ｓ４７の処理がキーワード抽出手段に対応し、このうちステップＳ３４、Ｓ３５、Ｓ３８、Ｓ３９の処理が参照用コンテンツ情報収集手段に対応し、Ｓ３７の処理が単語分割手段に対応し、ステップＳ４０の処理が重要単語判定手段に対応し、ステップＳ４９〜ステップＳ５２の処理がメタデータ生成手段に対応している。

次に、上記第１の実施形態の動作を説明する。
先ず、ユーザーがデジタルカメラ１３で例えば花火大会の風景や人物の写真を撮影し、そのビットマップ画像データと撮影日時、撮影データ等の撮影メタデータとで構成される個人コンテンツ情報をデジタルカメラ１３のメモリカードに格納する。
その後、デジタルカメラ１３を自宅に持ち帰って、デジタルカメラ１３を直接デジタルカメラ接続インタフェース１４に接続するか又はデジタルカメラ１３からメモリカードを抜き出し、これをメモリカードインタフェース１６に接続されたメモリカードリーダー１５に装着した状態で、図３に示す個人コンテンツ情報読込処理を実行する。

これにより、メモリカードアクセスして、これに格納された各個人コンテンツ情報を読込み（ステップＳ１１）、読込んだ各個人コンテンツ情報をディスプレイ７に表示して、必要な個人コンテンツ情報を選択する画像データ選択処理を行い（ステップＳ１２）、この画像データ選択処理で選択された画像データと撮影メタデータとで構成される個人コンテンツ情報がハードディスク装置５の指定した個人コンテンツ情報記憶領域としての画像データ記憶領域に記憶される（ステップＳ１４）。

この個人コンテンツ情報のハードディスク装置５への記憶が完了した時点で又はその後に、記憶した個人コンテンツ情報に対して検索を容易にするための検索用メタデータを付加するには、例えばディスプレイ７に表示されているアイコンをクリックして図５に示す単語抽出処理を実行させる。
この単語抽出処理では、ユーザーが撮影した個人コンテンツ情報に関連する情報が得られる可能性が高い例えば地方紙のニュースサイトを指定するＵＲＬをＵＲＬ入力部３１から入力すると、該当するＵＲＬのホームページにアクセスしてテキストデータを読込み（ステップＳ２２）、読込んだテキストデータをコンテンツ情報記憶部３３に記憶する（ステップＳ２３）。

そして、記憶されたテキストデータに対して形態素解析処理を行って固有名詞を含む単語を抽出し（ステップＳ２４）、抽出した単語をＲＡＭ４の所定記憶領域に一時記憶し（ステップＳ２５）、次いで図６に示すメタデータ生成処理を起動してから（ステップＳ２６）単語抽出処理を終了する。このとき、例えば見出しが「花火大会」で、記事として「○月○日墨田川で花火大会があり、数十万人の観衆が集まった。……」が記載されているものとすると、抽出される単語としては花火大会、○月○日、隅田川、数十万人、観衆、……となる。

メタデータ生成処理では、先ず、検索用メタデータを付加する個人コンテンツ情報を選択する選択処理を実行する。この選択処理では、ハードディスク５の個人コンテンツ情報記憶領域に記憶されている個人コンテンツ情報をディスプレイ７に表示し、表示された個人コンテンツ情報から所望の個人コンテンツ情報を選択する（ステップＳ３１）。この場合、個人コンテンツ情報は１つの画像データを選択してもよく、複数の画像データをグループに纏めてグループ単位で選択するようにしてもよい。

そして、個人コンテンツ情報の選択が行われない場合には処理終了ボタンをマウスでクリックする等の処理終了指示が入力されたか否かを判定し（ステップＳ３３）、処理終了指示が入力されたときには、そのままメタデータ生成処理を終了するが、処理終了指示が入力されていないときにはステップＳ３１に戻って個人コンテンツ情報選択処理を継続する。

このメタ個人コンテンツ情報選択処理で、任意の個人コンテンツ情報が１つ又はグループ単位で選択されると、ステップＳ３２からステップＳ３４に移行して、ＵＲＬ記憶部３１に記憶されている参照用コンテンツ情報を指定する例えば全国紙のニュースサイトを指定する複数のＵＲＬから最初のＵＲＬ（ＵＲＬ１）を読込み、次いで該当するＵＲＬ１のホームページにアクセスしてテキストデータを読込み（ステップＳ３５）、読込んだテキストデータに対して形態素解析処理して固有名詞の単語を抽出する（ステップＳ３６）。

次いで抽出した単語を参照用単語としてＲＡＭ４の所定記憶領域に一時記憶し、次いでＵＲＬ記憶部３７に記憶されているＵＲＬで読込んでいないＵＲＬが存在するか否かを判定し（ステップＳ３８）、読込んでいないＵＲＬが存在する場合には、新たなＵＲＬ（＝ＵＲＬ（ｉ＋１）を算出し、これをＵＲＬ記憶部３７から読出してから（ステップＳ３９）ステップＳ３５に戻って該当するホームページのテキストデータを読込み、形態素解析処理して参照用単語を抽出してＲＡＭ４に一時記憶する処理を繰り返す。

そして、ＵＲＬ記憶部３７に記憶されている全てのＵＲＬについて単語抽出が終了すると、図５の単語抽出処理で抽出したユーザーの好みに応じたローカル紙のホームページから取得したテキストデータから抽出した単語とＵＲＬ記憶部３７に記憶されている全国紙等の参照用ＵＲＬのホームページから取得したテキストデータから抽出した参照用単語とに基づいて重要単語抽出処理を行って、ローカル紙のホームページから取得したテキストデータから抽出した単語の中で出現頻度が高く、全国紙のホームページから取得したテキストデータから抽出した単語には出現頻度が低い単語を重要単語として抽出する（ステップＳ４０）。このため、全国紙でニュースとして扱われている単語については重要単語として抽出されることはなく、ローカル紙でニュースとして扱われているユーザーが撮影した個人コンテンツ情報に関連する単語が重要単語として抽出される。すなわち、全国紙のニュースサイトでは、隅田川の花火は記事として扱われず、例えば隅田川で重大な事件が発生した場合にはこの事件の記事やその外の全国的に重要な記事のみが掲載される（一部重複する記事もある）。このため、前述したように図５の単語抽出処理で抽出された単語のうち「○月○日」「墨田川」は全国紙の記事としても記載されているので、全国紙で記事として採用されない「花火大会」が重要単語として抽出される。

そして、抽出された重要単語がキーワード記憶部３６に記憶されているキーワードと一致するか否かを判定し、一致する場合には検索用キーワードとしてＲＡＭ４に一時記憶し、抽出された重要単語がキーワード記憶部３６に記憶されているキーワードと一致しないときには重要単語をキーワードとして採用するか否かを選択する選択画面をディスプレイ７に表示し、キーワードとして採用されたときには重要単語をキーワードとしてキーワード記憶部３６に追加記憶してから（ステップＳ４５）該当する重要単語を検索用キーワードとしてＲＡＭ４に一時記憶する。重要単語がキーワードとして採用されないときにはキーワード記憶部３６に記憶することなく次の重要単語のキーワード設定処理を行う。

そして、全ての重要単語についてキーワード抽出処理を終了したときには、ＲＡＭ４に一時記憶されている検索用キーワードを個人コンテンツ情報に対する検索用キーワードとして採用するか否かを選択する選択画面をディスプレイ７に表示し（ステップＳ４９）、検索用キーワードとして選択されたときに選択された検索用キーワード「花火大会」「隅田川」等をメタデータに変換し（ステップＳ５１）、このメタデータを該当する個人コンテンツ情報のメタデータ記憶領域ＲＭに付加すると共に、メタデータ領域ヘッダー及びメタデータ領域フッターを変更し（ステップＳ５２）。次いで、ステップＳ５３に移行する。このときの検索用メタデータは、図７に示すように、例えば「ＤｒｉｖｅｄＫｅｙｗｏｒｄ」として「花火大会」が記憶される。

そして、ステップＳ５３で他の個人コンテンツ情報を選択するか否かを判定し、他の個人コンテンツ情報を選択する場合には前記ステップＳ２１に戻り、他の個人コンテンツ情報を選択しない場合にはメタデータ生成処理を終了する。
ところで、前述したステップＳ４２で重要単語がキーワード記憶部３６に記憶されているキーワードと一致しない場合には、ステップＳ４２からステップＳ４３に移行して、重要単語をキーワードとして採用するか否かの選択画面をディスプレイ７に表示し、重要単語をキーワードとして採用する場合には、ステップＳ４４からステップＳ４５に移行して、採用したキーワードを新たなキーワードとしてキーワード記憶部に追加してからステップＳ４６に移行して検索用キーワードとしてＲＡＭ４に一時記憶する。

このため、キーワード記憶部３６に記憶されていない重要単語でもユーザーの好みによってキーワードとして採用することができ、検索用キーワードとして採用することができる。
このようにして、ハードディスク装置５に記憶された個人コンテンツ情報に検索用メタデータが自動的に付加されることにより、後日個人コンテンツ情報を検索する際、個人コンテンツ情報の日時が正確に思い出せない場合に、検索用キーワード例えば上記の場合「花火大会」を入力して検索することにより、該当する個人コンテンツ情報を正確に検索することができる。この場合、個人コンテンツ情報の内容と検索用メタデータで記述されたキーワードの内容とが一致する必要はなく、花火大会の頃に撮影した個人コンテンツ情報を検索したい場合に花火大会の前後の個人コンテンツ情報に「花火大会」を記述する検索用メタデータが付加されることになるため、「花火大会」をキーワードとして時期的に関連する個人コンテンツ情報を正確に検索することができる。

このように、上記第１の実施形態によれば、ユーザーが選択したＵＲＬで指定されるホームページからテキストデータを収集し、このテキストデータから形態素解析を行って単語を抽出し、抽出した単語と、他の予め記憶された他のＵＲＬで指定されるホームページから取得したテキストデータから形態素解析を行って抽出した参照用単語とを重要単語抽出処理で、ＴＦＩＤＦ処理によって、ユーザーの好みによるホームページのテキストデータに出現頻度が高く、参照用ＵＲＬのホームページには出現頻度が少ない単語を重要単語として抽出し、抽出した重要単語のうちキーワード記憶部３６に記憶されているキーワードと一致するものを検索用キーワードとして選択するので、地方特有のイベント情報を的確に抽出して検索用メタデータとすることができ、検索用メタデータを煩わしい操作を伴うことなく容易に生成することができ、操作に不慣れなユーザーであっても個人コンテンツ情報に検索用メタデータを容易に付加することができる。

しかも、検索用メタデータを作成する対象となるコンテンツ情報をユーザーが選択することができるので、ユーザー個人に最適なキーワードを抽出することができ、後の個人コンテンツ情報を検索する際のキーワードとして最適なキーワードを設定することができる。
しかも、キーワード選択処理で抽出した重要単語のうちキーワード記憶部に記憶されているキーワードと比較して一致するキーワードを検索用キーワードとして設定するので、不用意に多数のキーワードが検索用キーワードとして設定されることがなく、ユーザーが必要とするキーワードのみが検索用メタデータとして設定され、全体の検索用メタデータ数を制限することができる。

なお，上記第１の実施形態においては、ローカル紙のニュースサイトのホームページと全国紙のニュースサイトのホームページとを選択する場合について説明したが、これに限定されるものではなく、ユーザーの指定するＵＲＬと指定したＵＲＬから平均的な単語を削除するために参照する参照用ＵＲＬとは任意に設定することができる。
また、個人コンテンツ情報に関する受信電子メールとその他の受信電子メールがあれば、これらの電子メールを選択するようにしてもよい。

また、上記第１の実施形態においては、ＵＲＬを指定する場合について説明したが、これに限定されるものではなく、インターネットに限らず、他のネットワークを利用して、検索用メタデータを生成する元となるコンテンツ情報を入手するようにしてもよい。
また、上記第１の実施形態においては、テキストデータから重要単語を抽出する場合について説明したが、これに限定されるものではなく、単語抽出処理で、ホームページのテキストデータからフォントの大きい単語や斜体フォント、太字フォント等を採用している単語を重要単語として抽出するようにしてもよい。

次に、本発明の第２の実施形態を図８〜図１４について説明する。
この第２の実施形態は、ホームページからコンテンツ情報を取得する場合に代えて、文章が印刷された印刷物からコンテンツ情報を取得するようにしたものである。
この第２の実施形態では、図８に示すように、システムバス２に、カラーイメージスキャナ１７がスキャナ接続インタフェース部１８を介して接続され、カラーイメージスキャナ１７で読込んだ印刷物の画像データを中央処理装置１で読込み、文字認識して重要単語を抽出するように構成されている。

このときの、中央処理装置１の機能ブロック図は、図９に示すように、テキスト抽出部２２が、カラーイメージスキャナ１７から画像データを読込む画像データ読込部５１と、この画像データ読込部５１で読込んだ画像データから特定の領域の文字を文字認識処理して単語を抽出する文字認識部５２とで構成され、キーワード選択部２３がキーワード記憶部３６と、文字認識部５２から入力される単語とキーワード記憶部３６に記憶されたキーワードとを比較して、両者が一致する単語を重要単語として判定する重要単語判定部５３とで構成されていることを除いては図２と同様の構成を有し、図２との対応部分には同一符号を付し、その詳細説明はこれを省略する。

この第２の実施形態では、図１０に示すように、ユーザーが撮影した個人コンテンツ情報に関連する文章が記載された新聞、チラシや学校で配布されたお知らせ等の例えば白地に黒色で文章が印刷された印刷物６１を用意し、この印刷物６１に記載されている文章のうちユーザーが検索用メタデータとして使用したい単語に対して、図１１でハッチング領域で示すように例えば文章が判読可能な赤色の抽出単語の領域を表す領域識別マーク６２を施し、この領域識別マーク６２を施した単語を重要単語として抽出する。

すなわち、第２の実施形態では、中央処理部１で、図１２のメタデータ生成処理を実行する。
このメタデータ生成処理は、前述した第１の実施形態における図６の処理において、ステップＳ３４〜ステップＳ４１が省略され、これらに代えて、ステップＳ３２の判定結果が対象画像データが選択されたときにステップＳ５１に移行し、カラーイメージスキャナ１７から画像データが入力されたか否かを判定し、画像データが入力されていないときにはこれが入力されるまで待機し、画像データが入力されたときにはステップＳ５２に移行する。

このステップＳ５２では、領域識別マーク６２が施されている領域を全て抽出し、次いでステップＳ５３に移行して、抽出した領域のうちの先頭の領域を指定してその領域の画像データを読込んでからステップＳ５４に移行し、読込んだ画像データを文字認識処理して重要単語として抽出する文字認識処理を行ってからステップＳ５５に移行し、抽出した重要単語をＲＡＭ４の所定記憶領域に記憶してからステップＳ５６に移行する。

このステップＳ５６では、文字認識していない領域識別マーク６２が存在するか否かを判定し、文字認識していない領域識別マーク６２が存在する場合には、ステップＳ５７に移行して、次に識別する領域識別マーク６２で表される領域を指定してその領域の画像データを読込んでから前記ステップＳ５４に戻り、文字認識していない領域識別マーク６２が存在しないときには、前記第１の実施形態における図６の処理におけるステップＳ４１に移行する。

この第２の実施形態によれば、ユーザーが例えば運動会に行って、デジタルカメラ１３で撮影を行い、画像データをメモリカードに記憶させてから、自宅に戻って情報処理装置ＰＣにデジタルカメラ１３を、デジタルカメラ接続インタフェース部１４を介して接続するか、又はデジタルカメラ１３からメモリカードを引き出して、引き出したメモリカードをメモリカードリーダー１５に装着することにより、前述した第１実施形態と同様に図３の個人コンテンツ情報読込処理を行って、画像データ及び撮影メタデータをハードディスク５に形成した画像データ記憶領域に記憶する。

その後、ディスプレイ７に表示されているメタデータ生成処理を表すアイコンを選択することにより、図１２のメタデータ生成処理を実行し、検索用メタデータを付加する画像データを選択する。
その後、又はその前に例えば図１０に示す撮影した個人コンテンツ情報に関連する文章が記載された印刷物６１に、図１１に示すように、抽出したい単語に赤色の領域識別マーク６２を施してからカラーイメージスキャナ１７にセットし、印刷物６１をスキャンして画像データを形成し、この画像データをイメージスキャナ接続インタフェース部１８を介して中央処理装置１に入力する。

このとき、図１２のメタデータ生成処理では、カラーイメージスキャナ１７から画像データが入力されることにより、この画像データから領域識別マーク６２を検出して文字認識を行う領域を切り出す。このときの領域の切出しは、例えば図１３（ａ）に示すように、画像データを横方向にスキャンして、輝度が少ない文字が印刷されている文字領域を検出すると共に、図１３（ｂ）に示すようにカラーデータで赤色を表す領域を検出し、両検出領域から領域識別マーク６２が施されている領域位置を特定し、この領域識別マーク６２が施されている文字領域を抽出する。

そして、領域識別マーク６２が施されている先頭の文字領域について画像データを読込んで文字認識処理を行うことにより、例えば図１０におけるタイトル部の「運動会」をテキストデータに変換して、重要単語としてＲＡＭ４に一時記憶し、次いで、次の領域識別マーク６２が施されている領域を指定して「２００４年１０月１０日（日）」をテキストデータに変換して、重要単語としてＲＡＭ４に一時記憶し、以下順次「新町」、「新町公園」、「徒歩競走」、「マラソン」を重要単語としてＲＡＭ４に一時記憶する。

その後、キーワード記憶部３６に記憶されているキーワードと比較して、キーワードとして記憶されている重要単語を検索用キーワードとして採用し、採用された検索用キーワードをキーワードとして選択したときに、検索用キーワードをメタデータに変換することにより、図１４に示す検索用メタデータを生成して、変換した検索用メタデータを画像データ記憶領域におけるメタデータ記憶領域ＲＭに付加してからヘッダー及びフッターを変更する。

この第２の実施形態によると、ユーザーが検索用メタデータとしたい文章が記載されている印刷物６１を指定して、この印刷物６１から抽出したい単語に対して領域識別マーク６２を施してからカラーイメージスキャナ１７にセットしてスキャンを開始して、印刷物６１の画像データを形成し、これを情報処理装置ＰＣに入力することにより、メタデータ生成処理で、デジタルカメラ１３で撮影した画像データを選択してからイメージスキャナ１７から画像データを取込むことにより、領域識別マーク６２を施した領域の画像データを文字認識して重要単語として抽出し、抽出した重要単語のうちキーワード記憶部３６に記憶されているキーワードと一致する重要単語を検索用キーワードとして選択し、選択した検索用キーワードを検索用メタデータに変換して個人コンテンツ情報としての画像データに付加するようにしたので、ユーザーが必要としている検索用メタデータを正確に生成して画像データに付加することができる。

なお、上記第２の実施形態においては、領域識別マークとして赤色表示を行う場合について説明したが、これに限定されるものではなく、文字を認識可能な状態であれば、任意の色表示をすることができる。また、色表示に代えて下線表示や枠表示を適用することもできる。
また、上記実施形態においては、領域識別マーク６２を施した印刷物６１をカラーイメージスキャナ１７で画像データとして読込む場合について説明したが、これに限定されるものではなく、印刷物６１に領域識別マーク６２を施すことなくイメージスキャナで画像データとして読込み、この画像データを文字認識してテキストデータに変換してからこのテキストデータをディスプレイ７に表示して、表示されたテキストデータに対してキーボード又はマウスを使用して重要単語を抽出するようにしてもよい。

本発明の一実施形態を示すブロック図である。中央演算処理装置の機能ブロック図である。中央演算処理装置で実行する個人コンテンツ情報読込処理手順の一例を示すフローチャートである。デジタルカメラのメモリカードの記憶領域を示す説明図である。中央演算処理装置で実行する単語抽出処理手順の一例を示すフローチャートである。中央演算処理装置で実行するメタデータ生成処理手順の一例を示すフローチャートである。個人コンテンツ情報に付加する検索用メタデータの一例を示す説明図である。本発明の第２実施形態を示すブロック図である。中央演算処理装置の機能ブロック図である。印刷物を示す説明図である。印刷物に領域識別マークを施した状態を示す説明図である。中央演算処理装置で実行するメタデータ生成処理手順の一例を示すフローチャートである。領域識別マークの切出処理の説明に供する説明図である。個人コンテンツ情報に付加するメタデータの一例を示す説明図である。

符号の説明

ＰＣ…情報処理装置、１…中央演算処理装置、２…システムバス、３…ＲＯＭ、４…ＲＡＭ、５…ハードディスク装置、６…ＤＶＤドライブ装置、７…ディスプレイ、８…キーボード、９…マウス、１０…ネットワーク接続部、１３…デジタルカメラ、１５…メモリカードリーダー、１７…カラーイメージスキャナ、１８…スキャナ接続インタフェース部、２０…個人コンテンツ情報読込部、２１…個人コンテンツ情報記憶部、２２…テキスト抽出部、２３…キーワード選択部、３１…ＵＲＬ入力部、３２…コンテンツ情報読込部、３３…コンテンツ情報記憶部、３４…形態素解析部、３６…キーワード記憶部、３７…ＵＲＬ記憶部、３８…参照用コンテンツ情報読込部、３９…形態素解析部、４０…重要単語判定部、４１…キーワード抽出部、４２…メタデータ生成部、４３…メタデータ記憶部、５１…画像データ読込部、５２…文字認識部、５３…重要単語判定部、６１…印刷物、６２…領域識別マーク

Claims

個人のコンテンツ情報を読込む個人コンテンツ情報読込み手段と、該個人コンテンツ情報読込み手段で読込んだ個人コンテンツ情報に関連する他のコンテンツ情報からテキストを抽出するテキスト抽出手段と、該テキスト抽出手段で抽出したテキストに基づいて前記個人コンテンツ情報読込み手段で読込んだ個人コンテンツ情報に対する検索用メタデータを生成するメタデータ生成手段とを備えたことを特徴とするメタデータ生成装置。
前記メタデータ生成手段は、前記テキスト抽出手段で抽出したテキストからキーワードを選択するキーワード選択手段を備え、該キーワード選択手段で選択したキーワードに基づいて前記個人コンテンツ情報読込み手段で読込んだ個人コンテンツ情報に対する検索用メタデータを生成するように構成されていることを特徴とする請求項１に記載のメタデータ生成装置。
前記キーワード選択手段は、テキスト中の特徴ある文字データをキーワードとして選択するように構成されていることを特徴とする請求項２に記載のメタデータ生成装置。
前記文字データはテキスト中に含まれる他の文字データと比較して特徴あるフォントを有していることを特徴とする請求項３に記載のメタデータ生成装置。
前記キーワード選択手段は、単語を分割して抽出する単語分割手段を有し、該単語分割手段で抽出した単語の品詞情報に基づいて選択した単語をキーワードとして選択するように構成されていることを特徴とする請求項２乃至４の何れか１項に記載のメタデータ生成装置。
前記キーワード選択手段は、所定のキーワードを記憶するキーワード記憶手段を有し、前記テキスト抽出手段で抽出したテキストのうち前記キーワード記憶手段に記憶されているキーワードと一致する単語をキーワードとして選択するように構成されていることを特徴とする請求項２乃至５の何れか１項に記載のメタデータ生成装置。
前記キーワード記憶手段は、記憶しているキーワードをデジタル放送電波、ネットワーク、記憶媒体の何れか１つ又は複数を使用して更新するように構成されていることを特徴とする請求項６に記載のメタデータ生成装置。
前記テキスト抽出手段は、テキストを印刷した印刷物を読取る画像読取手段と、該画像読取手段で読取った画像データから特定領域を識別する領域識別手段と、該領域識別手段で識別した特定領域の画像データを文字認識する文字認識手段とを少なくとも備えていることを特徴とする請求項１乃至７の何れか１項に記載のメタデータ生成装置。
前記テキスト抽出手段は、テキストを印刷した印刷物を読取る画像読取手段と、該画像読取手段で読取った画像データを文字認識する文字認識手段と、該文字認識手段で認識した文字を単語に分割して抽出する単語分割手段とを少なくとも備えていることを特徴とする請求項１乃至７の何れか１項に記載のメタデータ生成装置。
前記テキスト抽出手段は、テキストを印刷した印刷物を読取る画像読取手段と、該画像読取手段で読取った画像データから特定領域を識別する領域識別手段と、該領域識別手段で識別した特定領域の画像データを文字認識する文字認識手段と、該文字認識手段で認識した文字を単語に分割して抽出する単語分割手段とを少なくとも備えていることを特徴とする請求項１乃至７の何れか１項に記載のメタデータ生成装置。
前記テキスト抽出手段は、ネットワークを介してコンテンツ情報提供手段からコンテンツ情報を収集するコンテンツ情報収集手段と、該コンテンツ情報収集手段で収集したコンテンツ情報からテキストを抽出し、抽出したテキストから単語を分割して抽出する単語分割手段とを少なくとも備えていることを特徴とする請求項１又は２に記載のメタデータ生成装置。
前記キーワード選択手段は、前記テキスト抽出手段のコンテンツ情報提供手段以外の複数のコンテンツ情報提供手段からの比較用コンテンツ情報を収集する比較用コンテンツ情報収集手段と、該比較用コンテンツ情報収集手段で収集したコンテンツ情報を単語に分割して比較用単語を抽出する単語分割手段と、該単語分割手段で抽出した比較用単語と、前記テキスト抽出手段から入力されるテキストとを比較し、当該テキスト抽出手段から入力される単語がキーワードとする重要単語か否かを判定する重要単語判定手段とを備えていることを特徴とする請求項１１に記載のメタデータ生成装置。
前記重要単語判定手段は、前記テキスト抽出手段から入力される単語で出現頻度が高い単語で且つ前記比較用単語では出現頻度が低い単語を重要単語とし、これをキーワードとして抽出するように構成されていることを特徴とする請求項１２に記載のメタデータ生成装置。