JP2003228569A - メタデータ付与方法およびメタデータ付与装置 - Google Patents
メタデータ付与方法およびメタデータ付与装置Info
- Publication number
- JP2003228569A JP2003228569A JP2002027334A JP2002027334A JP2003228569A JP 2003228569 A JP2003228569 A JP 2003228569A JP 2002027334 A JP2002027334 A JP 2002027334A JP 2002027334 A JP2002027334 A JP 2002027334A JP 2003228569 A JP2003228569 A JP 2003228569A
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- content
- keyword
- information
- keyword group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 コンテンツ情報にメタデータを自動的に付与
することによってメタデータ付与の手間を少なくする。 【解決手段】 コンテンツ(テキスト情報)101を形
態素解析してキーワードを抽出しキーワードインデック
スファイル105を作成する。また、非テキスト情報で
あるコンテンツ(静止画、動画)102の内容を説明す
るテキスト情報であるところの内容説明104を形態素
解析してキーワードを抽出しキーワードインデックスフ
ァイル105を作成する。また、メタデータに関連する
キーワード群を含んだメタデータキーワードファイル1
06を作成しておき、キーワードインデックスファイル
105とメタデータキーワードファイル106とのキー
ワード群同士の適合度を算出し、適合度の高いメタデー
タを選択し、メタデータ付与コンテンツデータベース1
07を作成する。
することによってメタデータ付与の手間を少なくする。 【解決手段】 コンテンツ(テキスト情報)101を形
態素解析してキーワードを抽出しキーワードインデック
スファイル105を作成する。また、非テキスト情報で
あるコンテンツ(静止画、動画)102の内容を説明す
るテキスト情報であるところの内容説明104を形態素
解析してキーワードを抽出しキーワードインデックスフ
ァイル105を作成する。また、メタデータに関連する
キーワード群を含んだメタデータキーワードファイル1
06を作成しておき、キーワードインデックスファイル
105とメタデータキーワードファイル106とのキー
ワード群同士の適合度を算出し、適合度の高いメタデー
タを選択し、メタデータ付与コンテンツデータベース1
07を作成する。
Description
【0001】
【発明の属する技術分野】本発明は、コンピュータシス
テムを用いて、コンテンツ情報に自動的に管理メタデー
タを付与するメタデータ付与方法およびメタデータ付与
装置に関する。
テムを用いて、コンテンツ情報に自動的に管理メタデー
タを付与するメタデータ付与方法およびメタデータ付与
装置に関する。
【0002】
【従来の技術】近年インターネットを介してコンテンツ
を利用することが盛んになっている。例えば、インター
ネットに接続されたサーバ装置上に実現された検索シス
テムによりコンテンツを検索する場合には、キーワード
を入力し、文章中にそのキーワードが含まれるコンテン
ツを抽出する方法が取られている。このような場合、コ
ンテンツの文章中に含まれる語句が形態素解析されイン
デックス化され、インデックス化されたキーワードと入
力したキーワードとの適合度を基に、適合度の高いコン
テンツが選択されるのが一般的である。
を利用することが盛んになっている。例えば、インター
ネットに接続されたサーバ装置上に実現された検索シス
テムによりコンテンツを検索する場合には、キーワード
を入力し、文章中にそのキーワードが含まれるコンテン
ツを抽出する方法が取られている。このような場合、コ
ンテンツの文章中に含まれる語句が形態素解析されイン
デックス化され、インデックス化されたキーワードと入
力したキーワードとの適合度を基に、適合度の高いコン
テンツが選択されるのが一般的である。
【0003】しかし、このようなキーワード検索におい
ては、次のような問題がある。インターネット上に存在
するコンテンツの量は膨大であり、その分野も教育、娯
楽、企業、生活などと広範囲にわたり、それらが混在し
ているため、目的とするコンテンツを探すのが容易では
ない。また、このような分野を分類する作業は、手作業
で行われている場合が多い。
ては、次のような問題がある。インターネット上に存在
するコンテンツの量は膨大であり、その分野も教育、娯
楽、企業、生活などと広範囲にわたり、それらが混在し
ているため、目的とするコンテンツを探すのが容易では
ない。また、このような分野を分類する作業は、手作業
で行われている場合が多い。
【0004】一方、世界的にコンテンツの有効活用を図
るため、また、効果的な管理を行うために、米国の電気
電子技術協会などの標準化策定委員会を中心として、管
理データとなるメタデータ(LOM:Learning 0bject
Metadata)の標準化作業が進んでいる。これはメタデー
タの策定にある規則を設け、利用するメタデータの項目
や語彙を世界的に標準化しようとする動きである。コン
テンツに標準化されたメタデータを付与することによ
り、コンテンツに付与されるメタデータの横断的な利用
が可能となる。また、目的に合ったメタデータが付与さ
れることにより、検索の際に目的に合致したコンテンツ
の検索を容易に行えるようになる。
るため、また、効果的な管理を行うために、米国の電気
電子技術協会などの標準化策定委員会を中心として、管
理データとなるメタデータ(LOM:Learning 0bject
Metadata)の標準化作業が進んでいる。これはメタデー
タの策定にある規則を設け、利用するメタデータの項目
や語彙を世界的に標準化しようとする動きである。コン
テンツに標準化されたメタデータを付与することによ
り、コンテンツに付与されるメタデータの横断的な利用
が可能となる。また、目的に合ったメタデータが付与さ
れることにより、検索の際に目的に合致したコンテンツ
の検索を容易に行えるようになる。
【0005】現在、日本でも初等中等教育用および企業
教育用のメタデータの標準化が進んでいる。これらの例
においては、「著作権者」、「内容説明」、「対象
者」、「仕様許諾範囲」、「分類」などメタデータの項
目やさらに項目を細分化した語彙が定められている。標
準化は項目名だけでなく使用する語彙までもがその対象
となっている。そのため、メタデータは自由表記できる
部分と予め定められた語彙郡から適する語彙を選択して
決定する部分で構成されている。例えば、日本の初等中
等教育用のコンテンツに付与するメタデータには学習指
導要領別にコンテンツを分類する方法が用いられ、それ
らは学年、教科、さらに細分化された学習内容別に語彙
が設定されている。
教育用のメタデータの標準化が進んでいる。これらの例
においては、「著作権者」、「内容説明」、「対象
者」、「仕様許諾範囲」、「分類」などメタデータの項
目やさらに項目を細分化した語彙が定められている。標
準化は項目名だけでなく使用する語彙までもがその対象
となっている。そのため、メタデータは自由表記できる
部分と予め定められた語彙郡から適する語彙を選択して
決定する部分で構成されている。例えば、日本の初等中
等教育用のコンテンツに付与するメタデータには学習指
導要領別にコンテンツを分類する方法が用いられ、それ
らは学年、教科、さらに細分化された学習内容別に語彙
が設定されている。
【0006】
【発明が解決しようとする課題】このようにメタデータ
の標準化は世界的な潮流でもあり、前記の利点もある
が、一方では、メタデータ自体の量が膨大であるため、
コンテンツ制作者などがコンテンツにメタデータを付与
する場合、過大な労力を必要とする。例えば、前述した
初等中等教育用のコンテンツを学習指導要領に沿って分
類する場合、適合する学習内容の語彙を判断し、各コン
テンツにメタデータを付与するという作業が行われてい
る。付与するためのシステムは開発できても、どの語彙
に適合するかの判断は人が行うことになり、その部分で
最も時間を要する。そのため、コンテンツ開発者等のメ
タデータ登録者に対し、過大な労力を課すことになる。
これのために、メタデータの普及が進まず、普及すべき
標準化自体が進まない問題も発生しかねない。
の標準化は世界的な潮流でもあり、前記の利点もある
が、一方では、メタデータ自体の量が膨大であるため、
コンテンツ制作者などがコンテンツにメタデータを付与
する場合、過大な労力を必要とする。例えば、前述した
初等中等教育用のコンテンツを学習指導要領に沿って分
類する場合、適合する学習内容の語彙を判断し、各コン
テンツにメタデータを付与するという作業が行われてい
る。付与するためのシステムは開発できても、どの語彙
に適合するかの判断は人が行うことになり、その部分で
最も時間を要する。そのため、コンテンツ開発者等のメ
タデータ登録者に対し、過大な労力を課すことになる。
これのために、メタデータの普及が進まず、普及すべき
標準化自体が進まない問題も発生しかねない。
【0007】上で説明したように、コンテンツに如何に
容易にかつ的確にメタデータを付与するかが課題であ
り、如何に人的な作業を軽減するかが課題である。本発
明は、これらの課題を解決することを目的とするもので
あり、容易にかつ手間をかけずに、コンテンツに的確な
メタデータを付与することのできるメタデータ付与方法
およびメタデータ付与装置を提供することを目的とす
る。
容易にかつ的確にメタデータを付与するかが課題であ
り、如何に人的な作業を軽減するかが課題である。本発
明は、これらの課題を解決することを目的とするもので
あり、容易にかつ手間をかけずに、コンテンツに的確な
メタデータを付与することのできるメタデータ付与方法
およびメタデータ付与装置を提供することを目的とす
る。
【0008】
【課題を解決するための手段】上記の課題達成のため、
本発明はコンテンツに記載されたテキスト情報、もしく
は人為的に作成されたコンテンツの内容を表す情報を基
に、自動的にそれらのキーワード群を作成し、メタデー
タのキーワード群との適合度を基に、コンピュータを利
用して、自動的にコンテンツにメタデータを付与しデー
タベース化する方法を提案するものである。つまり、本
発明は、コンテンツ情報に該コンテンツ情報の管理用メ
タデータを付与するメタデータ付与方法であって、テキ
スト情報である前記コンテンツ情報を形態素解析するこ
とによって第1のキーワード群データを抽出するキーワ
ードインデックス作成過程と、予め作成された管理メタ
データに関連する第2のキーワード群と前記第1のキー
ワード群とを照合して適合度を算出する適合度算出過程
と、この算出された適合度が予め設定された所定の適合
度以上のものである場合に、当該管理メタデータを前記
コンテンツ情報に付与してメタデータ付与コンテンツデ
ータベースを作成するメタデータ付与コンテンツデータ
ベース作成過程とを有することを特徴とするものであ
る。
本発明はコンテンツに記載されたテキスト情報、もしく
は人為的に作成されたコンテンツの内容を表す情報を基
に、自動的にそれらのキーワード群を作成し、メタデー
タのキーワード群との適合度を基に、コンピュータを利
用して、自動的にコンテンツにメタデータを付与しデー
タベース化する方法を提案するものである。つまり、本
発明は、コンテンツ情報に該コンテンツ情報の管理用メ
タデータを付与するメタデータ付与方法であって、テキ
スト情報である前記コンテンツ情報を形態素解析するこ
とによって第1のキーワード群データを抽出するキーワ
ードインデックス作成過程と、予め作成された管理メタ
データに関連する第2のキーワード群と前記第1のキー
ワード群とを照合して適合度を算出する適合度算出過程
と、この算出された適合度が予め設定された所定の適合
度以上のものである場合に、当該管理メタデータを前記
コンテンツ情報に付与してメタデータ付与コンテンツデ
ータベースを作成するメタデータ付与コンテンツデータ
ベース作成過程とを有することを特徴とするものであ
る。
【0009】また、本発明は、コンテンツ情報に該コン
テンツ情報の管理用メタデータを付与するメタデータ付
与方法であって、非テキスト情報である前記コンテンツ
情報に関連する内容説明情報であって、前記コンテンツ
情報の内容を表わすテキスト情報である内容説明情報を
形態素解析することによって第1のキーワード群データ
を抽出するキーワードインデックス作成過程と、予め作
成された管理メタデータに関連する第2のキーワード群
と前記第1のキーワード群とを照合して適合度を算出す
る適合度算出過程と、この算出された適合度が予め設定
された所定の適合度以上のものである場合に、当該管理
メタデータを前記コンテンツ情報に付与してメタデータ
付与コンテンツデータベースを作成するメタデータ付与
コンテンツデータベース作成過程とを有することを特徴
とするものである。
テンツ情報の管理用メタデータを付与するメタデータ付
与方法であって、非テキスト情報である前記コンテンツ
情報に関連する内容説明情報であって、前記コンテンツ
情報の内容を表わすテキスト情報である内容説明情報を
形態素解析することによって第1のキーワード群データ
を抽出するキーワードインデックス作成過程と、予め作
成された管理メタデータに関連する第2のキーワード群
と前記第1のキーワード群とを照合して適合度を算出す
る適合度算出過程と、この算出された適合度が予め設定
された所定の適合度以上のものである場合に、当該管理
メタデータを前記コンテンツ情報に付与してメタデータ
付与コンテンツデータベースを作成するメタデータ付与
コンテンツデータベース作成過程とを有することを特徴
とするものである。
【0010】また、本発明は、上記のメタデータ付与方
法において、前記第2のキーワード群に属する個々のキ
ーワード毎に予め適合重み値を設定しておき、前記適合
度算出過程においては、当該個々のキーワード毎に前記
第1のキーワード群との個別適合度を算出し、この算出
された個別適合度を前記適合重み値を用いて加重するこ
とにより、当該管理メタデータに関する前記適合度を算
出するものであることを特徴とする。
法において、前記第2のキーワード群に属する個々のキ
ーワード毎に予め適合重み値を設定しておき、前記適合
度算出過程においては、当該個々のキーワード毎に前記
第1のキーワード群との個別適合度を算出し、この算出
された個別適合度を前記適合重み値を用いて加重するこ
とにより、当該管理メタデータに関する前記適合度を算
出するものであることを特徴とする。
【0011】また、本発明は、コンテンツ情報に該コン
テンツ情報の管理用メタデータを付与するメタデータ付
与装置であって、テキスト情報である前記コンテンツ情
報を形態素解析することによって第1のキーワード群デ
ータを抽出するキーワードインデックス作成部と、予め
作成された管理メタデータに関連する第2のキーワード
群と前記第1のキーワード群とを照合して適合度を算出
する適合度算出部と、この算出された適合度が予め設定
された所定の適合度以上のものである場合に、当該管理
メタデータを前記コンテンツ情報に付与してメタデータ
付与コンテンツデータベースを作成するメタデータ付与
コンテンツデータベース作成部とを備えることを特徴と
するものである。
テンツ情報の管理用メタデータを付与するメタデータ付
与装置であって、テキスト情報である前記コンテンツ情
報を形態素解析することによって第1のキーワード群デ
ータを抽出するキーワードインデックス作成部と、予め
作成された管理メタデータに関連する第2のキーワード
群と前記第1のキーワード群とを照合して適合度を算出
する適合度算出部と、この算出された適合度が予め設定
された所定の適合度以上のものである場合に、当該管理
メタデータを前記コンテンツ情報に付与してメタデータ
付与コンテンツデータベースを作成するメタデータ付与
コンテンツデータベース作成部とを備えることを特徴と
するものである。
【0012】また、本発明は、コンテンツ情報に該コン
テンツ情報の管理用メタデータを付与するメタデータ付
与装置であって、非テキスト情報である前記コンテンツ
情報に関連する内容説明情報であって、前記コンテンツ
情報の内容を表わすテキスト情報である内容説明情報を
形態素解析することによって第1のキーワード群データ
を抽出するキーワードインデックス作成部と、予め作成
された管理メタデータに関連する第2のキーワード群と
前記第1のキーワード群とを照合して適合度を算出する
適合度算出部と、この算出された適合度が予め設定され
た所定の適合度以上のものである場合に、当該管理メタ
データを前記コンテンツ情報に付与してメタデータ付与
コンテンツデータベースを作成するメタデータ付与コン
テンツデータベース作成部とを備えることを特徴とする
ものである。
テンツ情報の管理用メタデータを付与するメタデータ付
与装置であって、非テキスト情報である前記コンテンツ
情報に関連する内容説明情報であって、前記コンテンツ
情報の内容を表わすテキスト情報である内容説明情報を
形態素解析することによって第1のキーワード群データ
を抽出するキーワードインデックス作成部と、予め作成
された管理メタデータに関連する第2のキーワード群と
前記第1のキーワード群とを照合して適合度を算出する
適合度算出部と、この算出された適合度が予め設定され
た所定の適合度以上のものである場合に、当該管理メタ
データを前記コンテンツ情報に付与してメタデータ付与
コンテンツデータベースを作成するメタデータ付与コン
テンツデータベース作成部とを備えることを特徴とする
ものである。
【0013】また、本発明は、上記のメタデータ付与装
置において、前記適合度算出部が、前記第2のキーワー
ド群に属する個々のキーワード毎に予め適合重み値を設
定しており、当該個々のキーワード毎に前記第1のキー
ワード群との個別適合度を算出し、この算出された個別
適合度を前記適合重み値を用いて加重することにより、
当該管理メタデータに関する前記適合度を算出するもの
であることを特徴とする。
置において、前記適合度算出部が、前記第2のキーワー
ド群に属する個々のキーワード毎に予め適合重み値を設
定しており、当該個々のキーワード毎に前記第1のキー
ワード群との個別適合度を算出し、この算出された個別
適合度を前記適合重み値を用いて加重することにより、
当該管理メタデータに関する前記適合度を算出するもの
であることを特徴とする。
【0014】
【発明の実施の形態】以下、図面を参照しこの発明の一
実施形態について説明する。図1は同実施形態によるメ
タデータ付与方法の概略を示す概略図である。図1にお
いて、101は、インターネット上に存在するコンテン
ツ(テキスト情報)、つまりインターネットに接続され
たサーバ装置上の記憶装置に格納されたコンテンツ情報
であり、テキスト情報を含むものである。102は、同
じくインターネット上に存在するコンテンツ(静止画、
動画)、つまりテキスト情報を含まない静止画や動画な
どのコンテンツ情報(非テキスト情報)である。103
は、インターネットを構成する通信回線である。104
は、コンテンツ(静止画、動画)102に対応した内容
説明(テキスト情報)、つまり、コンテンツ(静止画、
動画)102の内容を表したテキスト情報である。
実施形態について説明する。図1は同実施形態によるメ
タデータ付与方法の概略を示す概略図である。図1にお
いて、101は、インターネット上に存在するコンテン
ツ(テキスト情報)、つまりインターネットに接続され
たサーバ装置上の記憶装置に格納されたコンテンツ情報
であり、テキスト情報を含むものである。102は、同
じくインターネット上に存在するコンテンツ(静止画、
動画)、つまりテキスト情報を含まない静止画や動画な
どのコンテンツ情報(非テキスト情報)である。103
は、インターネットを構成する通信回線である。104
は、コンテンツ(静止画、動画)102に対応した内容
説明(テキスト情報)、つまり、コンテンツ(静止画、
動画)102の内容を表したテキスト情報である。
【0015】105は、サーバ装置上で実行されるコン
ピュータプログラムによって実現される情報収集ロボッ
ト機能がコンテンツ(テキスト情報)101や内容説明
(テキスト情報)104の情報を収集し、同じくコンピ
ュータプログラムによって実現される形態素解析機能を
用いてインデックス化されたキーワードインデックスフ
ァイルである。106は、メタデータに関連するキーワ
ードを格納したメタデータキーワードファイルである。
107は、キーワードインデックスファイル105とメ
タデータキーワードファイル106とを照合して、所定
の方法によって自動的に算出された適合度を基に、適合
するメタデータを付与したメタデータ付与コンテンツデ
ータベースを示す。
ピュータプログラムによって実現される情報収集ロボッ
ト機能がコンテンツ(テキスト情報)101や内容説明
(テキスト情報)104の情報を収集し、同じくコンピ
ュータプログラムによって実現される形態素解析機能を
用いてインデックス化されたキーワードインデックスフ
ァイルである。106は、メタデータに関連するキーワ
ードを格納したメタデータキーワードファイルである。
107は、キーワードインデックスファイル105とメ
タデータキーワードファイル106とを照合して、所定
の方法によって自動的に算出された適合度を基に、適合
するメタデータを付与したメタデータ付与コンテンツデ
ータベースを示す。
【0016】上記の処理手順をさらに詳細に説明する。
インターネット上に存在するコンテンツ(テキスト情
報)101のURL(Uniform Resource Locator)情報
を基に、一般的なテキスト情報収集用ロボット機能によ
り当該URLによって示されるコンテンツに含まれるテ
キスト情報を収集する。そして、収集されたテキスト情
報は、形態素解析され、抽出された各形態素を元に名
詞、形容詞などの品詞情報を与えられインデックス化さ
れたキーワードインデックスファイル105として格納
される。
インターネット上に存在するコンテンツ(テキスト情
報)101のURL(Uniform Resource Locator)情報
を基に、一般的なテキスト情報収集用ロボット機能によ
り当該URLによって示されるコンテンツに含まれるテ
キスト情報を収集する。そして、収集されたテキスト情
報は、形態素解析され、抽出された各形態素を元に名
詞、形容詞などの品詞情報を与えられインデックス化さ
れたキーワードインデックスファイル105として格納
される。
【0017】また、同様にメタデータに関連するメタデ
ータキーワードファイル106を作成する。このメタデ
ータキーワードファイル106の作成にあたっては、上
記と同様に自動的に形態素解析して作成する方法、もし
くは人間の手作業で作成することが可能である。
ータキーワードファイル106を作成する。このメタデ
ータキーワードファイル106の作成にあたっては、上
記と同様に自動的に形態素解析して作成する方法、もし
くは人間の手作業で作成することが可能である。
【0018】そして、キーワードインデックスファイル
105に含まれるキーワード群とメタデータキーワード
ファイル106に含まれるキーワード群とを照合して、
一致するキーワードをメタデータキーワードファイル1
06から抽出し、そのキーワードを含むメタデータを適
合度から判断し、予め設定した適合度以上のメタデータ
を、コンテンツに付与し、メタデータ付与コンテンツデ
ータベース107に格納する。
105に含まれるキーワード群とメタデータキーワード
ファイル106に含まれるキーワード群とを照合して、
一致するキーワードをメタデータキーワードファイル1
06から抽出し、そのキーワードを含むメタデータを適
合度から判断し、予め設定した適合度以上のメタデータ
を、コンテンツに付与し、メタデータ付与コンテンツデ
ータベース107に格納する。
【0019】図2は、図1を用いて説明したメタデータ
付与方法の具体例を示す概略図である。図2に示す例で
は、コンテンツ情報として初等中等教育用のコンテンツ
であってテキスト情報がHTML(Hyper Text Markup
Language)形式で含まれるものを用いている。
付与方法の具体例を示す概略図である。図2に示す例で
は、コンテンツ情報として初等中等教育用のコンテンツ
であってテキスト情報がHTML(Hyper Text Markup
Language)形式で含まれるものを用いている。
【0020】図2において、201は、そのコンテンツ
に含まれるテキスト情報を形態素解析ツールInfoB
ee(田中一男:“InfoBee情報資源活用技術と
応用サービス”,NTT R&D,46,1055(1
977))を用いてインデックス化したキーワード群で
あり、「メダカ」、「たまご」、「成長」、「産卵」、
「ふ化」、「感想」、「記録」、「観察」、・・・など
といったキーワードが含まれている。202は、初等中
等教育用に標準化が進められているメタデータの一部で
ある小学校5年生の理科の学習指導要領の語彙である。
例えば、「植物の発芽、成長、結実」、「動物の発生や
成長」、「物の溶け方」、「てこの規則性」などがメタ
データの語彙として202に含まれている。203は、
202の学習指導要領のメタデータごとにそれぞれ関連
するキーワード群である。例えば、202内の「植物の
発芽、成長、結実」に対応するキーワード群として「植
物のはつが、植物の成長、実、たね、はつが、ようぶ
ん、肥料、・・・」が、同じく「動物の発生や成長」に
対応するキーワード群として「動物の発生、魚の成長、
人の発生、産卵、メダカの観察、・・・」が、それぞれ
203に含まれている。本例では、キーワード群203
を手作業で作成したが、メタデータの内容を表す電子化
された文章があればそれを基に、同様の形態素解析ツー
ルを用いて自動的に作成することも可能である。
に含まれるテキスト情報を形態素解析ツールInfoB
ee(田中一男:“InfoBee情報資源活用技術と
応用サービス”,NTT R&D,46,1055(1
977))を用いてインデックス化したキーワード群で
あり、「メダカ」、「たまご」、「成長」、「産卵」、
「ふ化」、「感想」、「記録」、「観察」、・・・など
といったキーワードが含まれている。202は、初等中
等教育用に標準化が進められているメタデータの一部で
ある小学校5年生の理科の学習指導要領の語彙である。
例えば、「植物の発芽、成長、結実」、「動物の発生や
成長」、「物の溶け方」、「てこの規則性」などがメタ
データの語彙として202に含まれている。203は、
202の学習指導要領のメタデータごとにそれぞれ関連
するキーワード群である。例えば、202内の「植物の
発芽、成長、結実」に対応するキーワード群として「植
物のはつが、植物の成長、実、たね、はつが、ようぶ
ん、肥料、・・・」が、同じく「動物の発生や成長」に
対応するキーワード群として「動物の発生、魚の成長、
人の発生、産卵、メダカの観察、・・・」が、それぞれ
203に含まれている。本例では、キーワード群203
を手作業で作成したが、メタデータの内容を表す電子化
された文章があればそれを基に、同様の形態素解析ツー
ルを用いて自動的に作成することも可能である。
【0021】そして、205は、上記のキーワード(2
01)の中で、メタデータ(202、203)と一致す
るキーワード群である。本例では、学習指導要領のメタ
データ「動物の発生と成長」のみがコンテンツに含まれ
るキーワードを有し、その適合度(204)は0.75
と判断された。適合度を評価する指標は種々考えられる
が、ここでは簡単にメタデータのキーワード数に対する
一致するキーワード数の割合で算出している。また、本
実施例では適合値の基準を0.6としているため、「動
物の発生と成長」がコンテンツのメタデータとして付与
される。適合値は任意に定められる。
01)の中で、メタデータ(202、203)と一致す
るキーワード群である。本例では、学習指導要領のメタ
データ「動物の発生と成長」のみがコンテンツに含まれ
るキーワードを有し、その適合度(204)は0.75
と判断された。適合度を評価する指標は種々考えられる
が、ここでは簡単にメタデータのキーワード数に対する
一致するキーワード数の割合で算出している。また、本
実施例では適合値の基準を0.6としているため、「動
物の発生と成長」がコンテンツのメタデータとして付与
される。適合値は任意に定められる。
【0022】上記の例では、コンテンツ(テキスト情
報)101に基づいてメタデータを付与する処理の流れ
を説明したが、コンテンツ(動画、静止画)102にメ
タデータを付与することも可能である。
報)101に基づいてメタデータを付与する処理の流れ
を説明したが、コンテンツ(動画、静止画)102にメ
タデータを付与することも可能である。
【0023】図1に示すコンテンツ(動画、静止画)1
02のようにコンテンツそのものにテキスト情報を含ま
ないコンテンツにメタデータを付与する場合は、次のよ
うな方法を用いる。この場合、あらかじめコンテンツの
管理情報を作成し、コンテンツが一意に識別できる識別
子とコンテンツの内容を表すテキスト(内容説明(テキ
スト情報)104)を作成する。内容説明(テキスト情
報)104は、キーワードでも自然な表現で記述した文
章でも構わない。この内容説明(テキスト情報)104
を元に前記の形態素解析ツールを用いて、キーワード群
201を同様に作成する。この後の処理は、上に記載し
た例の場合と同様である。
02のようにコンテンツそのものにテキスト情報を含ま
ないコンテンツにメタデータを付与する場合は、次のよ
うな方法を用いる。この場合、あらかじめコンテンツの
管理情報を作成し、コンテンツが一意に識別できる識別
子とコンテンツの内容を表すテキスト(内容説明(テキ
スト情報)104)を作成する。内容説明(テキスト情
報)104は、キーワードでも自然な表現で記述した文
章でも構わない。この内容説明(テキスト情報)104
を元に前記の形態素解析ツールを用いて、キーワード群
201を同様に作成する。この後の処理は、上に記載し
た例の場合と同様である。
【0024】次に、さらに他の例について説明する。図
3は、本例によるメタデータ付与の概略を示す概略図で
ある。図3において、202は学習指導要領のメタデー
タの一部である「動物の発生と成長」、203はメタデ
ータに関連するキーワード群、301は203のキーワ
ードに個々に重み付けをした数値(適合重み値)、20
4はコンテンツのキーワード201とメタデータのキー
ワード202の一致と301の重み付けを含めて求めた
適合度を示す。つまり、キーワード群203に属する個
々のキーワード毎に予め適合重み値を設定しておき、当
該個々のキーワード毎に前記コンテンツから抽出された
キーワード群との個別適合度を算出し、この算出された
個別適合度を前記適合重み値を用いて加重することによ
り、当該メタデータに関する適合度(全体適合度)を算
出する。
3は、本例によるメタデータ付与の概略を示す概略図で
ある。図3において、202は学習指導要領のメタデー
タの一部である「動物の発生と成長」、203はメタデ
ータに関連するキーワード群、301は203のキーワ
ードに個々に重み付けをした数値(適合重み値)、20
4はコンテンツのキーワード201とメタデータのキー
ワード202の一致と301の重み付けを含めて求めた
適合度を示す。つまり、キーワード群203に属する個
々のキーワード毎に予め適合重み値を設定しておき、当
該個々のキーワード毎に前記コンテンツから抽出された
キーワード群との個別適合度を算出し、この算出された
個別適合度を前記適合重み値を用いて加重することによ
り、当該メタデータに関する適合度(全体適合度)を算
出する。
【0025】このように重み付けをすることにより、重
要なキーワードを設定することが可能となり、より的確
性を高めることができる。例えば、本実施例では適合度
を0.8に設定すると、「動物の発生」、「魚の成
長」、「メダカの観察」、「人の発生」がコンテンツの
内容に記載されていれば、そのコンテンツには「動物の
発生と成長」がメタデータとして適当であると判断され
る。
要なキーワードを設定することが可能となり、より的確
性を高めることができる。例えば、本実施例では適合度
を0.8に設定すると、「動物の発生」、「魚の成
長」、「メダカの観察」、「人の発生」がコンテンツの
内容に記載されていれば、そのコンテンツには「動物の
発生と成長」がメタデータとして適当であると判断され
る。
【0026】上述したメタデータ付与方法は、コンピュ
ータシステムを応用して実現したメタデータ付与装置に
よって実行される。このメタデータ付与装置は、コンテ
ンツ情報を元に形態素解析することによってキーワード
インデックスファイル(第1のキーワード群データ)を
抽出するキーワードインデックス作成部と、予め作成さ
れた管理メタデータに関連する第2のキーワード群と前
記第1のキーワード群とを照合して適合度を算出する適
合度算出部と、この算出された適合度が予め設定された
所定の適合度以上のものである場合に、当該管理メタデ
ータを前記コンテンツ情報に付与してメタデータ付与コ
ンテンツデータベースを作成するメタデータ付与コンテ
ンツデータベース作成部とを備えている。また、このメ
タデータ付与装置は、データを記憶するためのデータ記
憶部を備えており、このデータ記憶部に、収集されてき
たコンテンツ情報や、そこから抽出されたキーワード情
報や、メタデータなどが記憶されるようになっている。
また、上述したコンテンツ収集およびコンテンツへのメ
タデータ付与の処理の過程は、プログラムの形式でコン
ピュータ読み取り可能な記録媒体に記憶されており、こ
のプログラムをコンピュータが読み出して実行すること
によって、上記処理が行われる。ここでコンピュータ読
み取り可能な記録媒体とは、磁気ディスク、光磁気ディ
スク、CD−ROM、DVD−ROM、半導体メモリ等
をいう。また、このコンピュータプログラムを通信回線
によってコンピュータに配信し、この配信を受けたコン
ピュータが当該プログラムを実行するようにしても良
い。
ータシステムを応用して実現したメタデータ付与装置に
よって実行される。このメタデータ付与装置は、コンテ
ンツ情報を元に形態素解析することによってキーワード
インデックスファイル(第1のキーワード群データ)を
抽出するキーワードインデックス作成部と、予め作成さ
れた管理メタデータに関連する第2のキーワード群と前
記第1のキーワード群とを照合して適合度を算出する適
合度算出部と、この算出された適合度が予め設定された
所定の適合度以上のものである場合に、当該管理メタデ
ータを前記コンテンツ情報に付与してメタデータ付与コ
ンテンツデータベースを作成するメタデータ付与コンテ
ンツデータベース作成部とを備えている。また、このメ
タデータ付与装置は、データを記憶するためのデータ記
憶部を備えており、このデータ記憶部に、収集されてき
たコンテンツ情報や、そこから抽出されたキーワード情
報や、メタデータなどが記憶されるようになっている。
また、上述したコンテンツ収集およびコンテンツへのメ
タデータ付与の処理の過程は、プログラムの形式でコン
ピュータ読み取り可能な記録媒体に記憶されており、こ
のプログラムをコンピュータが読み出して実行すること
によって、上記処理が行われる。ここでコンピュータ読
み取り可能な記録媒体とは、磁気ディスク、光磁気ディ
スク、CD−ROM、DVD−ROM、半導体メモリ等
をいう。また、このコンピュータプログラムを通信回線
によってコンピュータに配信し、この配信を受けたコン
ピュータが当該プログラムを実行するようにしても良
い。
【0027】以上、図面を参照してこの発明の実施形態
を詳述してきたが、具体的な構成はこれらの実施形態に
限られるものではなく、この発明の要旨を逸脱しない範
囲の設計等も含まれる。
を詳述してきたが、具体的な構成はこれらの実施形態に
限られるものではなく、この発明の要旨を逸脱しない範
囲の設計等も含まれる。
【0028】
【発明の効果】以上説明したように、この発明によれ
ば、標準化の検討が進むメタデータのように汎用的なメ
タデータをコンテンツに付与する場合において、メタデ
ータ個々に関連するキーワード群とコンテンツの内容を
表すキーワード群を抽出して、両者を照合することによ
り、自動的に算定した適合度を基に、コンテンツに適す
るメタデータを選択付与し、コンテンツの管理データを
容易に作成できる。そのため、コンテンツ制作者は自作
のコンテンツの内容を記述するだけで済み、メタデータ
を意識する必要がなく、メタデータ付与の作業が不要と
なり作業が著しく低減できる。これにより、メタデータ
の普及を加速させる付加的な効果も期待できる。
ば、標準化の検討が進むメタデータのように汎用的なメ
タデータをコンテンツに付与する場合において、メタデ
ータ個々に関連するキーワード群とコンテンツの内容を
表すキーワード群を抽出して、両者を照合することによ
り、自動的に算定した適合度を基に、コンテンツに適す
るメタデータを選択付与し、コンテンツの管理データを
容易に作成できる。そのため、コンテンツ制作者は自作
のコンテンツの内容を記述するだけで済み、メタデータ
を意識する必要がなく、メタデータ付与の作業が不要と
なり作業が著しく低減できる。これにより、メタデータ
の普及を加速させる付加的な効果も期待できる。
【図1】 この発明の一実施形態によるメタデータ付与
方法の概略を示す概略図である。
方法の概略を示す概略図である。
【図2】 図1を用いて説明したメタデータ付与方法の
具体例を示す概略図である。
具体例を示す概略図である。
【図3】 図1を用いて説明したメタデータ付与方法の
他の具体例を示す概略図である。
他の具体例を示す概略図である。
101 コンテンツ(テキスト情報)
102 コンテンツ(静止画、動画)
103 通信回線
104 内容説明(テキスト情報)
105 キーワードインデックスファイル
106 メタデータキーワードファイル
107 メタデータ付与コンテンツ管理データベース
201 キーワード群
202 (学習指導要領の)メタデータの一部
203 メタデータに関連するキーワード群
204 適合度
205 適合キーワード
301 適合過重
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 秋葉 直美
東京都新宿区西新宿三丁目19番2号 東日
本電信電話株式会社内
Fターム(参考) 5B075 ND20 NK31 NR12 PR06
Claims (6)
- 【請求項1】 コンテンツ情報に該コンテンツ情報の管
理用メタデータを付与するメタデータ付与方法であっ
て、 テキスト情報である前記コンテンツ情報を形態素解析す
ることによって第1のキーワード群データを抽出するキ
ーワードインデックス作成過程と、 予め作成された管理メタデータに関連する第2のキーワ
ード群と前記第1のキーワード群とを照合して適合度を
算出する適合度算出過程と、 この算出された適合度が予め設定された所定の適合度以
上のものである場合に、当該管理メタデータを前記コン
テンツ情報に付与してメタデータ付与コンテンツデータ
ベースを作成するメタデータ付与コンテンツデータベー
ス作成過程とを有することを特徴とするメタデータ付与
方法。 - 【請求項2】 コンテンツ情報に該コンテンツ情報の管
理用メタデータを付与するメタデータ付与方法であっ
て、 非テキスト情報である前記コンテンツ情報に関連する内
容説明情報であって、前記コンテンツ情報の内容を表わ
すテキスト情報である内容説明情報を形態素解析するこ
とによって第1のキーワード群データを抽出するキーワ
ードインデックス作成過程と、 予め作成された管理メタデータに関連する第2のキーワ
ード群と前記第1のキーワード群とを照合して適合度を
算出する適合度算出過程と、 この算出された適合度が予め設定された所定の適合度以
上のものである場合に、当該管理メタデータを前記コン
テンツ情報に付与してメタデータ付与コンテンツデータ
ベースを作成するメタデータ付与コンテンツデータベー
ス作成過程とを有することを特徴とするメタデータ付与
方法。 - 【請求項3】 前記第2のキーワード群に属する個々の
キーワード毎に予め適合重み値を設定しておき、 前記適合度算出過程においては、当該個々のキーワード
毎に前記第1のキーワード群との個別適合度を算出し、
この算出された個別適合度を前記適合重み値を用いて加
重することにより、当該管理メタデータに関する前記適
合度を算出するものであることを特徴とする請求項1又
は請求項2に記載のメタデータ付与方法。 - 【請求項4】 コンテンツ情報に該コンテンツ情報の管
理用メタデータを付与するメタデータ付与装置であっ
て、 テキスト情報である前記コンテンツ情報を形態素解析す
ることによって第1のキーワード群データを抽出するキ
ーワードインデックス作成部と、 予め作成された管理メタデータに関連する第2のキーワ
ード群と前記第1のキーワード群とを照合して適合度を
算出する適合度算出部と、 この算出された適合度が予め設定された所定の適合度以
上のものである場合に、当該管理メタデータを前記コン
テンツ情報に付与してメタデータ付与コンテンツデータ
ベースを作成するメタデータ付与コンテンツデータベー
ス作成部とを備えることを特徴とするメタデータ付与装
置。 - 【請求項5】 コンテンツ情報に該コンテンツ情報の管
理用メタデータを付与するメタデータ付与装置であっ
て、 非テキスト情報である前記コンテンツ情報に関連する内
容説明情報であって、前記コンテンツ情報の内容を表わ
すテキスト情報である内容説明情報を形態素解析するこ
とによって第1のキーワード群データを抽出するキーワ
ードインデックス作成部と、 予め作成された管理メタデータに関連する第2のキーワ
ード群と前記第1のキーワード群とを照合して適合度を
算出する適合度算出部と、 この算出された適合度が予め設定された所定の適合度以
上のものである場合に、当該管理メタデータを前記コン
テンツ情報に付与してメタデータ付与コンテンツデータ
ベースを作成するメタデータ付与コンテンツデータベー
ス作成部とを備えることを特徴とするメタデータ付与装
置。 - 【請求項6】 前記適合度算出部は、前記第2のキーワ
ード群に属する個々のキーワード毎に予め適合重み値を
設定しており、当該個々のキーワード毎に前記第1のキ
ーワード群との個別適合度を算出し、この算出された個
別適合度を前記適合重み値を用いて加重することによ
り、当該管理メタデータに関する前記適合度を算出する
ものであることを特徴とする請求項4又は請求項5に記
載のメタデータ付与装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002027334A JP2003228569A (ja) | 2002-02-04 | 2002-02-04 | メタデータ付与方法およびメタデータ付与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002027334A JP2003228569A (ja) | 2002-02-04 | 2002-02-04 | メタデータ付与方法およびメタデータ付与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003228569A true JP2003228569A (ja) | 2003-08-15 |
Family
ID=27748886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002027334A Pending JP2003228569A (ja) | 2002-02-04 | 2002-02-04 | メタデータ付与方法およびメタデータ付与装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003228569A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7945439B2 (en) | 2006-06-09 | 2011-05-17 | Sony Corporation | Information processing apparatus, information processing method, and computer program |
US8069173B2 (en) | 2007-11-12 | 2011-11-29 | Canon Kabushiki Kaisha | Information processing apparatus and method of controlling the same, information processing method, and computer program |
JP2012173807A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 電子ファイル管理装置、方法及びプログラム |
JP2014211836A (ja) * | 2013-04-22 | 2014-11-13 | 大日本印刷株式会社 | データ管理システム及びプログラム |
WO2019176102A1 (ja) | 2018-03-16 | 2019-09-19 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
-
2002
- 2002-02-04 JP JP2002027334A patent/JP2003228569A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7945439B2 (en) | 2006-06-09 | 2011-05-17 | Sony Corporation | Information processing apparatus, information processing method, and computer program |
US8069173B2 (en) | 2007-11-12 | 2011-11-29 | Canon Kabushiki Kaisha | Information processing apparatus and method of controlling the same, information processing method, and computer program |
JP2012173807A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 電子ファイル管理装置、方法及びプログラム |
JP2014211836A (ja) * | 2013-04-22 | 2014-11-13 | 大日本印刷株式会社 | データ管理システム及びプログラム |
WO2019176102A1 (ja) | 2018-03-16 | 2019-09-19 | 楽天株式会社 | 検索システム、検索方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597981B (zh) | 一种采用多策略自动生成摘要的网络新闻概要系统 | |
US7505956B2 (en) | Method for classification | |
CN100461183C (zh) | 网络搜索中基于多种规则的元数据自动抽取方法 | |
US7805288B2 (en) | Corpus expansion system and method thereof | |
CN110399515B (zh) | 图片检索方法、装置及图片检索系统 | |
US7698332B2 (en) | Projecting queries and images into a similarity space | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
US20060177808A1 (en) | Apparatus for ability evaluation, method of evaluating ability, and computer program product for ability evaluation | |
CN110895586B (zh) | 生成新闻页面的方法、装置、计算机设备及存储介质 | |
Trappey et al. | An R&D knowledge management method for patent document summarization | |
RU2698405C2 (ru) | Способ поиска в базе данных | |
Jepsen et al. | Characteristics of scientific Web publications: Preliminary data gathering and analysis | |
Ferilli et al. | Automatic topics identification for reviewer assignment | |
JP2003228569A (ja) | メタデータ付与方法およびメタデータ付与装置 | |
CN111966899A (zh) | 搜索排序方法、系统及计算机可读存储介质 | |
Marcinczuk et al. | Open dataset for development of polish question answering systems | |
JP2006139484A (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
Macário et al. | Specification of a framework for semantic annotation of geospatial data on the web | |
Ladra et al. | A toponym resolution service following the OGC WPS standard | |
Sanchez-Cuadrado et al. | A study of labour market information needs through employers' seeking behaviour. | |
Locoro et al. | MANENT: An infrastructure for integrating, structuring and searching digital libraries | |
Manso-Callejo et al. | The design of an automated workflow for metadata generation | |
Daltio et al. | A framework to process complex biodiversity queries | |
JP6971209B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
ANN | Heritage Cataloguing: The HCC Experience |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040220 |