JP2009217741A - メタデータ付与方法及び装置、並びにメタデータ付与プログラム - Google Patents

メタデータ付与方法及び装置、並びにメタデータ付与プログラム Download PDF

Info

Publication number
JP2009217741A
JP2009217741A JP2008063282A JP2008063282A JP2009217741A JP 2009217741 A JP2009217741 A JP 2009217741A JP 2008063282 A JP2008063282 A JP 2008063282A JP 2008063282 A JP2008063282 A JP 2008063282A JP 2009217741 A JP2009217741 A JP 2009217741A
Authority
JP
Japan
Prior art keywords
keyword
category
metadata
text
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008063282A
Other languages
English (en)
Inventor
Kentaro Miyamoto
健太郎 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2008063282A priority Critical patent/JP2009217741A/ja
Publication of JP2009217741A publication Critical patent/JP2009217741A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】コンテンツに質の高いメタデータを付与する。
【解決手段】キーワード抽出部36は、テキストデータを解析して複数のキーワードを抽出する。カテゴリ判定部37は、キーワード毎にその抽出頻度及びカテゴリを取得し、抽出頻度一覧テーブル46に記憶する。カテゴリ判定部37は、抽出頻度一覧テーブル46を参照して、テキストデータのカテゴリを判定する。キーワード選定部38は、キーワード抽出部36で抽出された複数のキーワードの中から、カテゴリ判定部37で判定されたカテゴリに属すキーワードを選定する。メタデータ付与部39は、画像に対し、キーワード選定部38で選定されたキーワードをメタデータとして付与する。
【選択図】図11

Description

本発明は、コンテンツにメタデータを付与するメタデータ付与方法及び装置、並びにメタデータ付与プログラムに関する。
最近、携帯電話やパーソナルコンピュータなどの情報端末機器の普及によって、映像、画像、音楽、ゲーム、電子書籍といった様々なコンテンツを、大量且つ容易に得ることが可能になってきた。これに伴い、不特定多数のユーザがコンテンツを自由に登録・検索することができ、ユーザ同士で情報を共有するという新しい概念(いわゆるWeb2.0)が生まれており、フリッカー(flickr、登録商標)と呼ばれるユーザ参加型の画像共有サービスや、はてなブックマーク、ウィキペディアといったフリー百科事典が既に実用化されている。
上記のようにコンテンツを登録・検索するシステムでは、膨大なコンテンツの中から、ユーザが所望するコンテンツを効率的に検索するために、単語(タグ、付帯情報)をメタデータとしてコンテンツに付与している。このようなシステムは、フォークソノミー(folksonomy)と呼ばれている。
従来、メタデータの付与は、ユーザが手入力で行っているため、手間が掛かり煩わしい。また、コンテンツを検索する際には、それぞれのコンテンツに的確且つ十分な数のメタデータが付与されているか否かというメタデータの質が検索結果を左右する重要な要素となるが、メタデータの質を高めるためには、コンテンツを登録するユーザと検索するユーザとの間でイメージの齟齬を埋め、コンテンツを登録するユーザが語彙を増やして、より柔軟な発想をしなければならないという、非常に克服困難な問題をクリアする必要がある。このため、メタデータの付与を自動で行う技術が種々提案されている(例えば、特許文献1参照)。
特許文献1に記載の発明では、タイトル、作者名、概要を含むテキストデータから人物名と重要なキーワードを抽出して、抽出したキーワードをメタデータとしてコンテンツに付与している。
特開2002−108888号公報
特許文献1に記載の発明によれば、ユーザの手入力による手間を省くという問題は解決される。しかしながら、特許文献1には、重要なキーワードの決定方法についての具体的な記載はなく、メタデータの質がどのように高められるのかが不明である。
本発明は、上記課題を鑑みてなされたものであり、コンテンツに質の高いメタデータを付与するメタデータ付与方法及び装置、並びにメタデータ付与プログラムを提供することを目的とする。
上記目的を達成するために、本発明のメタデータ付与装置は、コンテンツとともに入力されたテキストデータに基づいて前記コンテンツにメタデータを付与するメタデータ付与装置であって、前記テキストデータから複数のキーワードを抽出するキーワード抽出部と、前記キーワード毎にその抽出頻度及びキーワードカテゴリを取得し、前記抽出頻度及びキーワードカテゴリに基づいて、前記テキストデータのテキストカテゴリを判定するカテゴリ判定部と、前記キーワード抽出部で抽出された複数のキーワードの中から、前記カテゴリ判定部で判定されたテキストカテゴリと同一のキーワードカテゴリに属すキーワードを選定するキーワード選定部と、前記キーワード選定部で選定されたキーワードを、コンテンツにメタデータとして付与するメタデータ付与部とを備えている。
請求項2に記載の発明では、前記カテゴリ判定部は、キーワードの抽出頻度をキーワードカテゴリ毎に合計し、その合計値が最高又は最低のキーワードカテゴリを前記テキストデータのテキストカテゴリであると判定する。
請求項3に記載の発明では、前記カテゴリ判定部は、抽出頻度が所定値以上のキーワードの抽出頻度をキーワードカテゴリ毎に合計し、その合計値が最高のキーワードカテゴリを前記テキストデータのテキストカテゴリであると判定する。
請求項4に記載の発明では、前記カテゴリ判定部は、キーワードの抽出頻度及びキーワードカテゴリに基づく前記テキストデータのテキストカテゴリが複数となる場合、その複数のテキストカテゴリの中からユーザに選択されたテキストカテゴリを、前記テキストデータのテキストカテゴリであると判定する。
請求項5に記載の発明では、キーワードカテゴリ毎に分類した用語を記憶した専門用語データベースを備えている。また、前記カテゴリ判定部は、前記専門用語データベースに基づいてキーワードカテゴリを取得する。
請求項6に記載の発明では、テキストデータから抽出されたが選定されなかったキーワードと、そのキーワードが抽出されたテキストデータのテキストカテゴリとして前記カテゴリ判定部で判定されたテキストカテゴリとの組合せ毎に、その組合せとともに、前記キーワードが抽出されたテキストデータのテキストカテゴリが該テキストカテゴリであると判定された回数を記憶するキーワードデータベースと、前記キーワードデータベースに記憶された前記組合せの前記判定された回数が所定値を超えたときに、その組合せに係るキーワードを、その組合せに係るテキストカテゴリと同一のキーワードカテゴリの用語として前記専門用語データベースに記憶するキーワード登録部とを備えている。
本発明のメタデータ付与方法は、コンテンツとともに入力されたテキストデータに基づいて前記コンテンツにメタデータを付与するメタデータ付与方法であって、前記テキストデータから複数のキーワードを抽出するキーワード抽出ステップと、前記キーワード毎にその抽出頻度及びキーワードカテゴリを取得し、前記抽出頻度及びキーワードカテゴリに基づいて、前記テキストデータのテキストカテゴリを判定するカテゴリ判定ステップと、前記キーワード抽出ステップで抽出された複数のキーワードの中から、前記カテゴリ判定ステップで判定されたテキストカテゴリと同一のキーワードカテゴリに属すキーワードを選定するキーワード選定ステップと、前記キーワード選定ステップで選定されたキーワードを、コンテンツにメタデータとして付与するメタデータ付与ステップとを備えている。
本発明のメタデータ付与プログラムは、コンテンツとともに入力されたテキストデータに基づいて前記コンテンツにメタデータを付与するメタデータ付与装置のコンピュータに、前記テキストデータから複数のキーワードを抽出するキーワード抽出ステップと、前記キーワード毎にその抽出頻度及びキーワードカテゴリを取得し、前記抽出頻度及びキーワードカテゴリに基づいて、前記テキストデータのテキストカテゴリを判定するカテゴリ判定ステップと、前記キーワード抽出ステップで抽出された複数のキーワードの中から、前記カテゴリ判定ステップで判定されたテキストカテゴリと同一のキーワードカテゴリに属すキーワードを選定するキーワード選定ステップと、前記キーワード選定ステップで選定されたキーワードを、コンテンツにメタデータとして付与するメタデータ付与ステップとを実行させる。
本発明のメタデータ付与方法及び装置、並びにメタデータ付与プログラムによれば、テキストデータから抽出されたキーワード毎にその抽出頻度及びキーワードカテゴリを取得し、その抽出頻度及びキーワードカテゴリに基づいて、テキストデータのテキストカテゴリを判定し、判定されたテキストデータのテキストカテゴリと同一のキーワードカテゴリに属すキーワードをメタデータとして付与するので、専門性の高いキーワードを選定して、コンテンツの内容に相応しい質の高いメタデータを付与することができる。
図1において、メタデータ付与装置は、メタデータ付与プログラム41(図3参照)のインストールによってサーバ11に構築される形式で実現される。メタデータ付与装置は、画像とともに入力されたテキストデータからキーワードを抽出・選定し、抽出・選定したキーワードをメタデータとして画像に付与する。複数の画像がテキストデータとともに入力された場合には、それらを一括して処理する。なお、本実施形態では、画像にメタデータを付与する場合を例に説明するが、映像、音楽、ゲーム、電子書籍、その他のコンテンツにメタデータを付与するようにしてもよい。
サーバ11は、インターネット12を媒介して接続されたクライアント端末13とともに、ネットワークシステム14を構成する。クライアント端末13は、例えば周知のパーソナルコンピュータやワークステーションであり、各種操作画面などを表示するモニタ15と、操作信号を出力するマウス16及びキーボード17からなる操作部18とを備えている。操作部18は、テキストデータをサーバ11に入力するときに操作される。
クライアント端末13には、デジタルカメラ19で撮影して得られた画像や、メモリカードやCD−Rなどの記録媒体20に記録された画像が送信され、あるいは、インターネット12を経由して画像が転送される。
デジタルカメラ19は、例えば、IEEE1394、USB(Universal Serial Bus)などに準拠した通信ケーブルや、無線LANなどによりクライアント端末13に接続され、クライアント端末13とのデータの相互通信が可能となっている。また、記録媒体20も同様に、専用のドライバを介してクライアント端末13とのデータの遣り取りが可能となっている。
図2に示すように、クライアント端末13を構成するCPU21は、操作部18から入力される操作信号などに従ってクライアント端末13全体を統括的に制御する。CPU21には、操作部18の他に、データバス22を介して、RAM23、ハードディスクドライブ(HDD)24、通信インターフェース(通信I/F)25、及びモニタ15が接続されている。
RAM23は、CPU21が処理を実行するための作業用メモリである。HDD24には、クライアント端末13を動作させるための各種プログラムやデータが記憶されている他に、デジタルカメラ19、記録媒体20、あるいは、インターネット12から取り込まれた画像データが記憶される。CPU21は、HDD24からプログラムを読み出してRAM23に展開し、読み出したプログラムを逐次処理する。
通信I/F25は、例えばモデムやルータであり、インターネット12に適合した通信プロトコルの制御を行い、インターネット12を経由したデータの遣り取りを媒介する。また、通信I/F25は、デジタルカメラ19や記録媒体20などの外部機器とのデータ通信も行う。
図3に示すように、サーバ11を構成するCPU31は、インターネット12を経由してクライアント端末13から入力される操作信号に従ってサーバ11全体を統括的に制御する。CPU31には、データバス32を介して、RAM33、ハードディスクドライブ(HDD)34、通信インターフェース(通信I/F)35、キーワード抽出部36、カテゴリ判定部37、キーワード選定部38、メタデータ付与部39、及びキーワード登録部40が接続されている。
RAM33は、CPU31が処理を実行するための作業用メモリである。HDD34には、サーバ11を動作させるための各種プログラムやデータが記憶されている。また、HDD34には、メタデータ付与プログラム41が記憶されている。CPU31は、HDD34からプログラムを読み出してRAM33に展開し、読み出したプログラムを逐次処理する。
HDD34には、専門用語データベース(専門用語DB)42と、キーワードデータベース(キーワードDB)43とが設けられている。専門用語DB42には、図4に示すコンピュータ用語一覧テーブル44、及び図5に示す製品用語一覧テーブル45など、様々なカテゴリ(キーワードカテゴリ)に係る専門用語一覧テーブルが格納されている。他のカテゴリとしては、学問、日付、社会などが挙げられる。
コンピュータ用語一覧テーブル44は、用語の登録時に自動的に付されるID(登録順に付した通し番号)を見出しとして、コンピュータに関連する用語「Windows(登録商標)」、「OS」、「CPU」、「ノートPC」などを記憶している。製品用語一覧テーブル45は、用語の登録時に自動的に付されるID(登録順に付した通し番号)を見出しとして、製品に関連する用語「発売」、「推奨動作環境」、「PL法」、「設計開発」などを記憶している。他のカテゴリに係る各専門用語一覧テーブルについても、コンピュータ用語一覧テーブル44及び製品用語一覧テーブル45と同様、該当するカテゴリに関連する用語を、IDを見出しとして記憶している。なお、各専門用語一覧テーブルのIDは、管理上付されたものにすぎず、相互のIDに依存関係はない。また、カテゴリ毎に用語が管理されていればよく、各専門用語一覧テーブルを統合して一つの専門用語一覧テーブルとしてもよい。また、同一の用語が複数の専門用語一覧テーブルに記憶されていてもよい。
図3に戻って、通信I/F35は、例えばモデムやルータであり、インターネット12に適合した通信プロトコルの制御を行い、インターネット12を経由したデータの遣り取りを媒介する。通信I/F35は、画像とともにテキストデータが入力される入力部として機能する。通信I/F35を媒介して入力された画像及びテキストデータは、RAM33に一時的に記憶される。
キーワード抽出部36は、サーバ11に画像とともに入力されたテキストデータを解析してキーワードを抽出する。具体的には、テキストデータが「花」、「ライオン」などの名詞であった場合、キーワード抽出部36は、テキストデータ自体をキーワードとする。テキストデータが文章であった場合、キーワード抽出部36は、文章の文法的な構造を解析する構文解析、および文章を形態素(言語で意味をもつ最小単位)に分割し、品詞に分類する形態素解析をテキストデータに対して施す。そして、これらの解析結果に基づいて、テキストデータからキーワードを抽出する。
例えば、図6(A)に示す画像(1)とともにテキストデータ(1)「○○月××日に、△△社製の新型ノートPCが発売されました。OSにはWindows(登録商標)が搭載され、CPU性能は、・・・である。」がサーバ11に入力された場合、図7に示すように、テキストデータ(1)からキーワード「○○月××日」、「△△社」、「ノートPC」、「発売」、「OS」、「Windows(登録商標)」、「搭載」、「CPU」及び「性能」が抽出される。
同様に、図6(B)に示す画像(2)とともにテキストデータ(2)「Windows(登録商標)にセキュリティーホールが発見されました。これで、今年になってWindows(登録商標)で発見された問題は○○件、OS全体では・・・である。」がサーバ11に入力された場合、図7に示すように、テキストデータ(2)からキーワード「Windows(登録商標)」、「セキュリティーホール」、「発見」、「Windows(登録商標)」、「発見」、「○○件」、「問題」、「OS」及び「全体」が抽出される。
また、図6(C)に示す画像(3)とともにテキストデータ(3)「●●社は、中小企業向け勤怠管理ソフトを発売しました。推奨動作環境は、OS:Windows(登録商標)、CPU○○GHz以上で・・・である。」がサーバ11に入力された場合、図7に示すように、テキストデータ(3)からキーワード「●●社」、「中小企業」、「勤怠管理ソフト」、「発売」、「推奨動作環境」、「OS」、「Windows(登録商標)」、「CPU」及び「○○GHz」が抽出される。
図3に戻って、カテゴリ判定部37には、図8に示す抽出頻度一覧テーブル46が格納されている。抽出頻度一覧テーブル46には、キーワードの記憶時に自動的に付されるID(記憶順に付した通し番号)を見出しとして、キーワード抽出部36で抽出されたキーワードを、キーワード毎に、抽出頻度、及びカテゴリが記憶される。なお、抽出頻度一覧テーブル46に記憶された全ての事項は、一連の処理(メタデータ付与部39によるメタデータ付与、及びキーワード一覧テーブル47(図10参照)へのキーワード記憶)が終了した後に消去され、あるいは、一連の処理を開始する前に消去される。
カテゴリ判定部37は、キーワード抽出部36で抽出されたキーワードを、キーワード毎に、その抽出頻度とともに抽出頻度一覧テーブル46に記憶する。例えば、図6(A)、図6(B)及び図6(C)に示すテキストデータ(1)、(2)及び(3)が一括処理され、キーワード抽出部36でキーワード「Windows(登録商標)」が4個抽出された場合、カテゴリ判定部37は、キーワード「Windows(登録商標)」とともにその抽出頻度「4」を記憶する。
また、カテゴリ判定部37は、専門用語DB42を参照して、キーワード抽出部36で抽出されたキーワードと一致する用語が記憶された専門用語一覧テーブルを検索する。そして、検索された専門用語一覧テーブルのカテゴリをキーワードのカテゴリとして抽出頻度一覧テーブル46に記憶する。
例えば、キーワード「Windows(登録商標)」は、コンピュータ用語一覧テーブル44に記憶されている用語「Windows(登録商標)」と一致するので、カテゴリ判定部37は、キーワード抽出部36でキーワード「Windows(登録商標)」が抽出された場合、そのキーワード「Windows(登録商標)」のカテゴリを「コンピュータ」として抽出頻度一覧テーブル46に記憶する。なお、一つのキーワードに対して複数の専門用語一覧テーブルが検索された場合、カテゴリ判定部37は、その一つのキーワードに対して複数のカテゴリを記憶する。また、一つの専門用語一覧テーブルも検索されなかったキーワードについては、カテゴリ判定部37は、カテゴリを記憶しない。
さらに、カテゴリ判定部37は、抽出頻度一覧テーブル46を参照してサーバ11に入力されたテキストデータのカテゴリ(テキストカテゴリ)を判定する。具体的にカテゴリ判定部37は、抽出頻度一覧テーブル46に記憶されたキーワードが属すカテゴリ毎にそのキーワードの抽出頻度を合計し、その合計した抽出頻度が最高のカテゴリをテキストデータのカテゴリであると判定する。なお、抽出頻度が最高のカテゴリが複数ある場合、その複数のカテゴリをテキストデータのカテゴリであると判定する。
例えば、抽出頻度一覧テーブル46を参照する場合、抽出頻度一覧テーブル46に記憶されたキーワードが属すカテゴリは、「日付」、「コンピュータ」、「製品」、「学問」あるいは「社会」であるので、カテゴリ判定部37は、カテゴリ「日付」に属すキーワード「○○月××日」の抽出頻度「1」を、カテゴリ「日付」の抽出頻度とする。また、カテゴリ判定部37は、カテゴリ「コンピュータ」に属すキーワード「ノートPC」、「OS」、「Windows(登録商標)」、「CPU」、「セキュリティーホール」、「勤怠管理ソフト」の抽出頻度がそれぞれ「1」、「3」、「4」、「2」、「1」、「1」であるから、その合計値「12」を、カテゴリ「コンピュータ」の抽出頻度とする。同様に、カテゴリ判定部37は、カテゴリ「製品」の抽出頻度を「6」とし、カテゴリ「学問」の抽出頻度を「4」とし、カテゴリ「社会」の抽出頻度を「4」とする。そして、カテゴリ判定部37は、抽出頻度が「12」で最高値のカテゴリ「コンピュータ」を、サーバ11に入力されたテキストデータのカテゴリであると判定する。
キーワード選定部38は、カテゴリ判定部37で判定されたカテゴリに該当するキーワードを、抽出頻度一覧テーブル46に記憶されたキーワードの中から選定する。例えば、抽出頻度一覧テーブル46が参照されてカテゴリ判定部37で「コンピュータ」がカテゴリであると判定された場合、キーワード選定部38は、カテゴリ「コンピュータ」に属すキーワード「ノートPC」、「OS」、「Windows(登録商標)」、「CPU」、「セキュリティーホール」、「勤怠管理ソフト」を選定する。
なお、カテゴリ判定部37で複数のカテゴリがテキストデータのカテゴリであると判定された場合、キーワード選定部38は、カテゴリ判定部37で判定されたカテゴリのいずれかに該当するキーワードを、抽出頻度一覧テーブル46に記憶されたキーワードの中から選定する。例えば、カテゴリ判定部37でカテゴリ「コンピュータ」及び「製品」がテキストデータのカテゴリであると判定されたと仮定すると、キーワード選定部38は、カテゴリ「コンピュータ」及び「製品」のいずれかに該当するキーワードを選定する。
メタデータ付与部39は、テキストデータとともにサーバ11に入力された画像に対し、キーワード選定部38で選定されたキーワードをメタデータとして付与する。複数の画像が入力された場合には、メタデータ付与部39は、画像毎に、その画像に対応するテキストデータから抽出されたキーワードであって、且つ、キーワード選定部38で選定されたキーワードをメタデータとして付与する。
例えば、図6(A)、図6(B)及び図6(C)に示す画像(1)、(2)及び(3)が、テキストデータ(1)、(2)及び(3)とともにサーバ11に入力された場合、メタデータ付与部39は、画像(1)に対して、図9(A)に示すように、テキストデータ(1)から抽出されたキーワード「○○月××日」、「△△社」、「ノートPC」、「発売」、「OS」、「Windows(登録商標)」、「搭載」、「CPU」及び「性能」(図7参照)のうち、キーワード選定部38で選定されたキーワード「ノートPC」、「OS」、「Windows(登録商標)」、「CPU」、「セキュリティーホール」あるいは「勤怠管理ソフト」に該当するキーワード「ノートPC」、「OS」、「Windows(登録商標)」及び「CPU」をメタデータ(1)として付与する。
同様に、メタデータ付与部39は、画像(2)に対して、図9(B)に示すように、テキストデータ(2)から抽出されたキーワード「Windows(登録商標)」、「セキュリティーホール」、「発見」、「Windows(登録商標)」、「発見」、「○○件」、「問題」、「OS」及び「全体」(図7参照)のうち、キーワード選定部38で選定されたキーワード「ノートPC」、「OS」、「Windows(登録商標)」、「CPU」、「セキュリティーホール」あるいは「勤怠管理ソフト」に該当するキーワード「Windows(登録商標)」、「セキュリティーホール」及び「OS」をメタデータ(2)として付与する。
また、メタデータ付与部39は、画像(3)に対して、図9(C)に示すように、テキストデータ(3)から抽出されたキーワード「●●社」、「中小企業」、「勤怠管理ソフト」、「発売」、「推奨動作環境」、「OS」、「Windows(登録商標)」、「CPU」及び「○○GHz」(図7参照)のうち、キーワード選定部38で選定されたキーワード「ノートPC」、「OS」、「Windows(登録商標)」、「CPU」、「セキュリティーホール」あるいは「勤怠管理ソフト」に該当するキーワード「勤怠管理ソフト」、「OS」、「Windows(登録商標)」及び「CPU」をメタデータ(3)として付与する。
キーワードDB43には、図10に示すキーワード一覧テーブル47が格納されている。キーワード一覧テーブル47は、キーワードの記憶時に自動的に付されるID(記憶順に付した通し番号)を見出しとして、キーワード抽出部36で抽出されたキーワードのうち、キーワード選定部38で選定されなかったキーワードを、キーワード毎に、そのキーワードが属すカテゴリ(元カテゴリ)、当該キーワードが抽出されたテキストデータのカテゴリであると判定されたカテゴリ(判定されたカテゴリ)、及びそのように判定された回数(判定数)を記憶している。なお、属すカテゴリがないキーワードについては、判定されたカテゴリ、及び判定数とともに記憶されている。
例えば、ID「0003」のキーワード「発売」が属すカテゴリは「製品」であり、且つ、当該キーワード「発売」の抽出元のテキストデータが「コンピュータ」のカテゴリに属すと判定された回数が「30」であることを意味する。
キーワード登録部40は、キーワード抽出部36で抽出されたキーワードのうち、キーワード選定部38で選定されなかったキーワードを、キーワード毎に、そのキーワードが属すカテゴリ、当該キーワードが抽出されたテキストデータのカテゴリであると判定されたカテゴリ、及びそのように判定された回数(判定数)とともにキーワード一覧テーブル47に記憶する。なお、属すカテゴリがないキーワードについては、キーワード登録部40は、判定されたカテゴリ、及び判定数とともに記憶する。
例えば、カテゴリ「製品」に属すキーワード「発売」がキーワード抽出部36で抽出されたが、カテゴリ「コンピュータ」に属すキーワードを選定するとしてキーワード「発売」がキーワード選定部38で選定されなかった場合、キーワード登録部40は、カテゴリ「製品」に属すキーワード「発売」を、抽出元のテキストデータが「コンピュータ」のカテゴリに属すものとして、キーワード一覧テーブル47に記憶する。カテゴリ「製品」に属すキーワード「発売」は、抽出元のテキストデータが「コンピュータ」のカテゴリに属すものとして、キーワード一覧テーブル47のID「0003」に既に記憶されているので、キーワード登録部40は、ID「0003」の判定数に「1」を加算する。なお、キーワード一覧テーブル47に記憶されていなかったキーワード、そのキーワードが属すカテゴリ、及び当該キーワードが抽出されたテキストデータのカテゴリの組合せを記憶する場合、キーワード登録部40は、キーワード一覧テーブル47に新たなIDの欄を追加して記憶し、その判定数に「1」を付与する。
また、キーワード登録部40は、判定数が予め定められた値を超えたIDのキーワードを、そのキーワードが抽出されたテキストデータのカテゴリであると判定されたカテゴリに係る専門用語一覧テーブルに新たな用語として記憶するとともにキーワード一覧テーブル47から消去する。
例えば、判定数が「30」を超えたIDのキーワードを新たな用語として専門用語一覧テーブルに記憶すると設定されている場合、図10に示すキーワード一覧テーブル47のID「0003」のキーワード「発売」の判定数が加算されて「30」を超えたとき、キーワード登録部40は、当該キーワード「発売」が抽出されたテキストデータのカテゴリ「コンピュータ」に係るコンピュータ用語一覧テーブル44(図4参照)に、新たな用語「発売」を記憶する。
次に、上記構成のサーバ11(図1、図3参照)がメタデータ付与装置として機能したときのメタデータ付与の処理手順について、図11のフローチャートを参照しながら説明する。ユーザは、クライアント端末13の操作部18を操作して、サーバ11に対して、テキストデータとともに画像を入力する。サーバ11に入力されたテキストデータ及び画像は、RAM33に記憶される。
サーバ11に入力されたテキストデータは、RAM33からキーワード抽出部36に読み出される。キーワード抽出部36では、テキストデータが解析されてキーワードが抽出される。抽出されたキーワードは、RAM33に記憶される。
キーワード抽出部36で抽出されたキーワードは、RAM33からカテゴリ判定部37に読み出される。カテゴリ判定部37では、キーワード毎にその抽出頻度が取得される。そして、キーワード毎に、その抽出頻度とともに抽出頻度一覧テーブル46(図8参照)に記憶される。
また、カテゴリ判定部37では、専門用語DB42が参照されながら、抽出頻度一覧テーブル46に記憶されたキーワードと一致する用語が記憶された専門用語一覧テーブルが検索される。そして、検索された専門用語一覧テーブルのカテゴリは、キーワードのカテゴリとして抽出頻度一覧テーブル46に記憶される。
さらに、カテゴリ判定部37では、抽出頻度一覧テーブル46が参照されながら、サーバ11に入力されたテキストデータのカテゴリが判定される。具体的には、キーワードが属すカテゴリ毎にそのキーワードの抽出頻度が合計され、その合計された抽出頻度が最高のカテゴリがテキストデータのカテゴリであると判定される。判定されたカテゴリは、RAM33に記憶される。
カテゴリ判定部37で判定されたカテゴリは、RAM33からキーワード選定部38に読み出される。キーワード選定部38では、抽出頻度一覧テーブル46が参照されながら、カテゴリ判定部37で判定されたカテゴリに該当するキーワードが選定される。選定されたキーワードは、RAM33に記憶される。
キーワード選定部38で選定されたキーワードは、テキストデータとともにサーバ11に入力された画像とともに、RAM33からメタデータ付与部39に読み出される。メタデータ付与部39では、画像に対し、キーワードがメタデータとして付与される。メタデータが付与された画像は、RAM33に記憶される。
メタデータが付与された画像は、RAM33から通信I/F35に読み出され、サーバ11から出力される。出力された画像は、クライアント端末13に送信される。
以上説明したように、画像とともに入力されたテキストデータからキーワードを抽出し、複数のカテゴリに係る専門用語一覧テーブルに基づいて、抽出されたキーワードからテキストデータのカテゴリを判定し、判定されたカテゴリに該当するキーワードのみを画像に対して付与するので、専門性の高いキーワードを選定することができ、画像の内容に相応しい質の高いメタデータを付与することができる。例えば、コンピュータに関連する画像には、コンピュータ用語をメタデータとして付与することができ、製品に関連する画像には、製品用語をメタデータとして付与することができる。
また、専門用語一覧テーブルに用語を追加する処理手順について、図13のフローチャートを参照しながら説明する。キーワード選定部38で選定されなかったキーワードは、カテゴリ判定部37で判定されたテキストデータのカテゴリとともに、RAM33に記憶される。
キーワード選定部38で選定されなかったキーワードは、カテゴリ判定部37で判定されたテキストデータのカテゴリとともに、RAM33からキーワード登録部40に読み出される。キーワード登録部40では、抽出頻度一覧テーブル46(図8参照)が参照されながら、キーワード毎に、そのキーワードが属すカテゴリ、及び当該キーワードが抽出されたテキストデータのカテゴリであると判定されたカテゴリがキーワード一覧テーブル47(図10参照)に記憶される。キーワード一覧テーブル47に既に記憶されている場合には、そのように判定された回数(判定数)が「1」加算される。キーワード一覧テーブル47に記憶されていなかった場合には、新たな欄が追加されて記憶され、その判定数に「1」が付与される。
判定数が予め定められた値を超えた場合、そのキーワードは、抽出元のテキストデータのカテゴリに係る専門用語一覧テーブルに新たな用語として記憶される。
このように、メタデータとして付与されなかったキーワードを、抽出元のテキストデータのカテゴリに係る専門用語一覧テーブルに新たな用語として記憶することで、頻出するキーワードを複数のカテゴリに属させることができる。キーワードは、複数のカテゴリに属すことでカテゴリの判定に寄与する度合が低いものとなり、全てのカテゴリに属すことでカテゴリの判定に全く寄与しないものとなるので、頻出するキーワードを複数の専門用語一覧テーブルに記憶して専門性の低いものとし、カテゴリの判定精度を向上させることができる。ひいては、より質の高いメタデータを付与することが可能になる。
なお、上記実施形態では、カテゴリ判定部37は、抽出頻度一覧テーブル46に記憶された全てのカテゴリの抽出頻度に基づいてテキストデータのカテゴリを判定したが、カテゴリの判定方法は、これに限定されるものではない。抽出頻度一覧テーブル46に記憶されたキーワードを抽出頻度の高い順に所定個数選出して、選出したキーワードが属すカテゴリ毎にそのキーワードの抽出頻度を合計し、その合計した抽出頻度が最高のカテゴリをテキストデータのカテゴリであると判定してもよい。
例えば、図8に示す抽出頻度一覧テーブル46を参照して抽出頻度の高い5個のキーワードを選出する場合、カテゴリ判定部37は、ID「0004」のキーワード「発売」、ID「0005」のキーワード「OS」、ID「0006」のキーワード「Windows(登録商標)」、ID「0008」のキーワード「CPU」、及びID「0011」のキーワード「発見」を選出する。選出されたこれらのキーワードが属すカテゴリは、「製品」、「コンピュータ」あるいは「学問」であるので、カテゴリ判定部37は、カテゴリ「製品」に属すキーワード「発売」の抽出頻度「2」を、カテゴリ「製品」の抽出頻度とする。同様に、カテゴリ判定部37は、カテゴリ「コンピュータ」に属すキーワード「OS」、「Windows(登録商標)」、「CPU」の抽出頻度がそれぞれ「3」、「4」、「2」であるから、その合計値「9」を、カテゴリ「コンピュータ」の抽出頻度とし、カテゴリ「学問」に属すキーワード「発見」の抽出頻度「2」を、カテゴリ「学問」の抽出頻度とする。そして、カテゴリ判定部37は、抽出頻度が「9」で最高値のカテゴリ「コンピュータ」を、サーバ11に入力されたテキストデータのカテゴリであると判定することとなる。
また、抽出頻度が所定値以上のキーワードを選出して、選出したキーワードが属すカテゴリ毎にそのキーワードの抽出頻度を合計し、その合計した抽出頻度が最高のカテゴリをテキストデータのカテゴリであると判定してもよい。例えば、図8に示す抽出頻度一覧テーブル46を参照して抽出頻度が「3」以上のキーワードを選出する場合、カテゴリ判定部37は、ID「0005」のキーワード「OS」、及びID「0006」のキーワード「Windows(登録商標)」を選出する。選出されたこれらのキーワードが属すカテゴリは「コンピュータ」であるので、カテゴリ判定部37は、カテゴリ「コンピュータ」に属すキーワード「OS」、「Windows(登録商標)」の抽出頻度「3」、「4」の合計値「7」を、カテゴリ「コンピュータ」の抽出頻度とし、カテゴリ「日付」、「社会」などその他のカテゴリの抽出頻度を「0」とする。そして、カテゴリ判定部37は、抽出頻度が「7」で最高値のカテゴリ「コンピュータ」を、サーバ11に入力されたテキストデータのカテゴリであると判定することとなる。
また、上記実施形態では、カテゴリ判定部37は、抽出頻度が最高のカテゴリをテキストデータのカテゴリであると判定したが、カテゴリの判定方法は、これに限定されるものではない。抽出頻度一覧テーブル46に記憶されたキーワードが属すカテゴリ毎にそのキーワードの抽出頻度を合計し、その合計した抽出頻度が最低のカテゴリをテキストデータのカテゴリであると判定してもよい。
例えば、図8に示す抽出頻度一覧テーブル46を参照する場合、カテゴリ判定部37は、抽出頻度が「1」で最低値のカテゴリ「日付」を、サーバ11に入力されたテキストデータのカテゴリであると判定する。このように、抽出頻度が最低のカテゴリをテキストデータのカテゴリであると判定することで、画像との関連性の低いキーワードを選定することとなり、ひいては、一般通念から懸け離れたメタデータを画像に付与することができる。このようにしてメタデータが付与された画像は、意外性をもってキーワード検索されることになるので、固定観念に捕らわれない検索を可能にする。
また、上記実施形態では、カテゴリ判定部37は、複数のカテゴリをテキストデータのカテゴリであると判定することも有り得るが、複数のカテゴリが候補を挙げられた場合、一つのカテゴリに絞り込んでからその一つのカテゴリをテキストデータのカテゴリであると判定してもよい。例えば、候補に挙げられた複数のカテゴリのいずれかに属すキーワードについてそのキーワード毎の抽出頻度を比較して、抽出頻度が最高のキーワードが属すカテゴリをテキストデータのカテゴリであると判定することが挙げられる。
また、上記実施形態では、カテゴリ判定部37は、複数のカテゴリをテキストデータのカテゴリであると判定することもある場合を例に説明したが、この構成に限定されるのではなく、カテゴリ判定部37は、所定数以上のカテゴリを判定の対象として候補に挙げた場合に、その候補の中からユーザが選択した一つのカテゴリをテキストデータのカテゴリであると判定してもよい。具体的には、所定数(例えば、3)以上のカテゴリの抽出頻度が最高値で並ぶ場合には、その所定数以上のカテゴリの情報は、クライアント端末13に送信され、選択可能にモニタ15に出力される。操作部18が操作されて一つのカテゴリが選択されると、選択されたカテゴリの情報がサーバ11に返送される。カテゴリ判定部37は、クライアント端末13から返送された情報に基づいて、ユーザに選択されたカテゴリをテキストデータのカテゴリであると判定する。
なお、ユーザにカテゴリを選択させる構成とした場合、一つのカテゴリを選択させることに限定されず、複数のカテゴリを選択させるようにしてもよい。この場合、カテゴリ判定部37は、ユーザに選択された複数のカテゴリをテキストデータのカテゴリであると判定する。
また、上記各実施形態では、インターネット12に接続されたサーバ11にメタデータ付与装置が構築され、万人がアクセス可能である場合を例に説明したが、これに限定されるものではない。例えば、個人が使用するパーソナルコンピュータにメタデータ付与装置が構築されるようにしてもよい。この場合、インターネット12を経由したデータの遣り取りを媒介する通信I/F25などが、テキストデータが入力される入力部として機能する。
また、上記各実施形態で示したメタデータ付与装置は一例にすぎず、本発明の趣旨を逸脱しなければ、如何様な態様にも適宜変更することができる。
ネットワークシステムの構成を示す概略図である。 クライアント端末の内部構成を示すブロック図である。 サーバの内部構成を示すブロック図である。 コンピュータ用語一覧テーブルの構成を示す説明図である。 製品用語一覧テーブルの構成を示す説明図である。 入力データの構成を示す説明図である。 抽出結果一覧を示す説明図である。 抽出頻度一覧テーブルの構成を示す説明図である。 メタデータ付与後のデータの構成を示す説明図である。 キーワード一覧テーブルの構成を示す説明図である。 メタデータ付与の処理手順を説明するフローチャートである。 専門用語一覧テーブルに用語を追加する処理手順を説明するフローチャートである。
符号の説明
11 サーバ(メタデータ付与装置)
36 キーワード抽出部
37 カテゴリ判定部
38 キーワード選定部
39 メタデータ付与部
40 キーワード登録部
41 メタデータ付与プログラム
42 専門用語データベース(専門用語DB)
43 キーワードデータベース(キーワードDB)

Claims (8)

  1. コンテンツとともに入力されたテキストデータに基づいて前記コンテンツにメタデータを付与するメタデータ付与装置において、
    前記テキストデータから複数のキーワードを抽出するキーワード抽出部と、
    前記キーワード毎にその抽出頻度及びキーワードカテゴリを取得し、前記抽出頻度及びキーワードカテゴリに基づいて、前記テキストデータのテキストカテゴリを判定するカテゴリ判定部と、
    前記キーワード抽出部で抽出された複数のキーワードの中から、前記カテゴリ判定部で判定されたテキストカテゴリと同一のキーワードカテゴリに属すキーワードを選定するキーワード選定部と、
    前記キーワード選定部で選定されたキーワードを、コンテンツにメタデータとして付与するメタデータ付与部とを備えたことを特徴とするメタデータ付与装置。
  2. 前記カテゴリ判定部は、キーワードの抽出頻度をキーワードカテゴリ毎に合計し、その合計値が最高又は最低のキーワードカテゴリを前記テキストデータのテキストカテゴリであると判定することを特徴とする請求項1に記載のメタデータ付与装置。
  3. 前記カテゴリ判定部は、抽出頻度が所定値以上のキーワードの抽出頻度をキーワードカテゴリ毎に合計し、その合計値が最高のキーワードカテゴリを前記テキストデータのテキストカテゴリであると判定することを特徴とする請求項1に記載のメタデータ付与装置。
  4. 前記カテゴリ判定部は、キーワードの抽出頻度及びキーワードカテゴリに基づく前記テキストデータのテキストカテゴリが複数となる場合、その複数のテキストカテゴリの中からユーザに選択されたテキストカテゴリを、前記テキストデータのテキストカテゴリであると判定することを特徴とする請求項1〜3のいずれかに記載のメタデータ付与装置。
  5. キーワードカテゴリ毎に分類した用語を記憶した専門用語データベースを備え、
    前記カテゴリ判定部は、前記専門用語データベースに基づいてキーワードカテゴリを取得することを特徴とする請求項1〜4のいずれかに記載のメタデータ付与装置。
  6. テキストデータから抽出されたが選定されなかったキーワードと、そのキーワードが抽出されたテキストデータのテキストカテゴリとして前記カテゴリ判定部で判定されたテキストカテゴリとの組合せ毎に、その組合せとともに、前記キーワードが抽出されたテキストデータのテキストカテゴリが該テキストカテゴリであると判定された回数を記憶するキーワードデータベースと、
    前記キーワードデータベースに記憶された前記組合せの前記判定された回数が所定値を超えたときに、その組合せに係るキーワードを、その組合せに係るテキストカテゴリと同一のキーワードカテゴリの用語として前記専門用語データベースに記憶するキーワード登録部とを備えたことを特徴とする請求項5に記載のメタデータ付与装置。
  7. コンテンツとともに入力されたテキストデータに基づいて前記コンテンツにメタデータを付与するメタデータ付与方法において、
    前記テキストデータから複数のキーワードを抽出するキーワード抽出ステップと、
    前記キーワード毎にその抽出頻度及びキーワードカテゴリを取得し、前記抽出頻度及びキーワードカテゴリに基づいて、前記テキストデータのテキストカテゴリを判定するカテゴリ判定ステップと、
    前記キーワード抽出ステップで抽出された複数のキーワードの中から、前記カテゴリ判定ステップで判定されたテキストカテゴリと同一のキーワードカテゴリに属すキーワードを選定するキーワード選定ステップと、
    前記キーワード選定ステップで選定されたキーワードを、コンテンツにメタデータとして付与するメタデータ付与ステップとを備えたことを特徴とするメタデータ付与方法。
  8. コンテンツとともに入力されたテキストデータに基づいて前記コンテンツにメタデータを付与するメタデータ付与装置のコンピュータに、
    前記テキストデータから複数のキーワードを抽出するキーワード抽出ステップと、
    前記キーワード毎にその抽出頻度及びキーワードカテゴリを取得し、前記抽出頻度及びキーワードカテゴリに基づいて、前記テキストデータのテキストカテゴリを判定するカテゴリ判定ステップと、
    前記キーワード抽出ステップで抽出された複数のキーワードの中から、前記カテゴリ判定ステップで判定されたテキストカテゴリと同一のキーワードカテゴリに属すキーワードを選定するキーワード選定ステップと、
    前記キーワード選定ステップで選定されたキーワードを、コンテンツにメタデータとして付与するメタデータ付与ステップとを実行させるためのメタデータ付与プログラム。
JP2008063282A 2008-03-12 2008-03-12 メタデータ付与方法及び装置、並びにメタデータ付与プログラム Pending JP2009217741A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008063282A JP2009217741A (ja) 2008-03-12 2008-03-12 メタデータ付与方法及び装置、並びにメタデータ付与プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008063282A JP2009217741A (ja) 2008-03-12 2008-03-12 メタデータ付与方法及び装置、並びにメタデータ付与プログラム

Publications (1)

Publication Number Publication Date
JP2009217741A true JP2009217741A (ja) 2009-09-24

Family

ID=41189484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008063282A Pending JP2009217741A (ja) 2008-03-12 2008-03-12 メタデータ付与方法及び装置、並びにメタデータ付与プログラム

Country Status (1)

Country Link
JP (1) JP2009217741A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011093358A1 (ja) * 2010-01-27 2011-08-04 楽天株式会社 情報検索装置、情報検索方法、情報検索プログラム及び記録媒体
JP2011221978A (ja) * 2010-04-14 2011-11-04 Shijin Kogyo Sakushinkai 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体
KR20200084445A (ko) * 2018-12-26 2020-07-13 충남대학교산학협력단 메타 데이터를 이용한 사진 기록물의 저장 방법 및 이를 수행하는 단말 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011093358A1 (ja) * 2010-01-27 2011-08-04 楽天株式会社 情報検索装置、情報検索方法、情報検索プログラム及び記録媒体
JP2011221978A (ja) * 2010-04-14 2011-11-04 Shijin Kogyo Sakushinkai 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体
KR20200084445A (ko) * 2018-12-26 2020-07-13 충남대학교산학협력단 메타 데이터를 이용한 사진 기록물의 저장 방법 및 이를 수행하는 단말 장치
KR102209316B1 (ko) * 2018-12-26 2021-01-29 충남대학교산학협력단 메타 데이터를 이용한 사진 기록물의 저장 방법 및 이를 수행하는 단말 장치

Similar Documents

Publication Publication Date Title
JP2010073114A (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
JP6413256B2 (ja) 会議支援装置、会議支援装置の制御方法、及びプログラム
JP2008192055A (ja) コンテンツ検索方法、およびコンテンツ検索装置
JP2008287406A (ja) 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
JP4200834B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP2009009461A (ja) キーワードの入力支援システム、コンテンツ検索システム、コンテンツ登録システム、コンテンツ検索・登録システム、およびこれらの方法、並びにプログラム
RU2698405C2 (ru) Способ поиска в базе данных
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP2008191936A (ja) コンテンツ登録・検索システムの構築支援方法、およびコンテンツ登録・検索システムの構築支援装置
JP2009217741A (ja) メタデータ付与方法及び装置、並びにメタデータ付与プログラム
JP5794001B2 (ja) 情報検索方法、情報検索装置および情報検索プログラム
JP5153390B2 (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
JP6384469B2 (ja) 情報処理装置、情報処理システム、制御方法、及びプログラム
US20090234819A1 (en) Metadata assigning device, metadata assigning method, and metadata assigning program
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP2009266065A (ja) 関連語辞書作成方法及び装置、並びに関連語辞書作成プログラム
JP2009146013A (ja) コンテンツ検索方法及び装置並びにプログラム
Jay et al. Natural language search interfaces: Health data needs single-field variable search
JP2009223679A (ja) 電子文書検索装置、及び電子文書検索プログラム
JP7243362B2 (ja) 情報処理装置、情報処理システム、及び情報処理プログラム
JP2007193723A (ja) コンテンツ検索装置,コンテンツ検索方法
JP2009123067A (ja) 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体
JP2008242515A (ja) 文書作成支援装置
JP2004088454A (ja) 画像情報表示システム
JP2022114721A (ja) 情報提供システム及び情報提供方法