JP2014049044A

JP2014049044A - コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体

Info

Publication number: JP2014049044A
Application number: JP2012193445A
Authority: JP
Inventors: Yasuaki Iwata; 泰明岩田; Yasuhiro Nakada; 康博中駄; Miki Mayama; 美樹真山; Toyoaki Suzuka; 豊明鈴鹿
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2012-09-03
Filing date: 2012-09-03
Publication date: 2014-03-17
Anticipated expiration: 2032-09-03
Also published as: JP5877775B2

Abstract

【課題】デジタルコンテンツの登録の際に、コンテンツ内のテキスト情報から検索や利用者の内容理解に有効なカテゴリ及びコンテンツ上に無いキーワードも含めて推測し推測結果を登録画面に反映させることでコンテンツの登録作業の簡素化する。
【解決手段】登録するコンテンツから取得できるテキスト情報を基に、学年や科目などあらかじめ階層されたカテゴリに分類したカリキュラムの各文書にコンテンツを分類して、分類結果からカテゴリやカリキュラムに関連付けされたキーワードをサジェストし、サジェスト結果について利用者が変更した場合、変更情報を元にコンテンツを再分類してサジェストを動的に行う。
【選択図】図１０

Description

本発明は、コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体に関し、例えば、コンテンツの特徴を効率的に付与するための技術に関する。

近年、教育分野でICT化が進んでおり、デジタルコンテンツを有効活用するニーズが高まっている。例えば、デジタル教材や学習指導案のファイルを学校内や複数の学校間で共有させることで教師によるコンテンツの活用を支援するＣＭＳ（Content Management System）などのソフトウェア（例えば、非特許文献１参照）が提案されている。このようなソフトウェアでは、コンテンツを効果的に共有するためにコンテンツ一つ一つに対して適切なメタデータを付与する必要がある。例えば、カテゴリやテキストを用いた検索においてコンテンツを効果的に検索する場合やコンテンツの内容を全て確認せず容易にそれを取捨選択の判断をする場合には、コンテンツが属するカテゴリやキーワードが適切に付与されていなければならない。そのため、ＣＭＳに登録されたコンテンツに対して、タイトル、学校区分、学年、科目、キーワードなどを利用者（以下、利用者とも言う）が手入力するためのメタデータ登録画面などを表示する機能を持つものがある。また、コンテンツ内のテキストから特徴的な単語を自動的に抽出する技術（例えば、非特許文献２参照）などが提案されている。

株式会社日立ソリューションズ、MEANSファイルサーバスリム化ソリューション、http://hitachisoft.jp/products/means/slimserver/ 小山照夫, "日本語テキストからの複合語用語抽出"、情報知識学会誌, vol.19, No.4, pp.306-315, 2010

しかしながら、登録するコンテンツの内容を確認しながらメタデータ登録画面などでコンテンツ一つ一つにメタデータを入力する必要がある。このため、コンテンツが増加するにつれて登録作業が膨大になってしまう。また、コンテンツの内容を示すキーワードを付与する際においては、登録者の主観の下、コンテンツ内のテキストに重要である単語がないか探したり、テキストには無いがコンテンツを表現するのに最適なキーワードを考察したりするため、登録作業者によって付与する語彙に差が生じる。さらに、教育分野向けコンテンツでは、特に教師が学生に向けて解説する際に用いる図などは、教師の授業スタイルに合わせて画像などを用いて作成されたものが多く、既存技術（非特許文献２）で抽出したキーワードだけでテキストによる検索やコンテンツの内容を理解するのに十分な語彙があるとは限らない。
本発明はこのような状況に鑑みてなされたものであり、利用者がＩＴリテラシーに乏しくても、デジタルコンテンツを簡単かつ的確に共有サーバ等に登録することを可能にする技術を提供するものである。

上記課題を解決するために、本発明では、コンテンツ管理装置は、記憶装置に、コンテンツを登録する際に、当該コンテンツを分類するために用いられ、予め用意された複数種類のコンテンツ管理情報と、当該各コンテンツ情報に関連付けられた、予め用意された特徴語情報と、を格納させておき、記憶装置に格納されたコンテンツ管理情報と特徴語情報に基づいて、登録しようとするコンテンツのメタデータを支援情報として取得し、出力する。各コンテンツ管理情報は、コンテンツのカテゴリに関する説明文を含んでいる。このとき、コンテンツ管理装置は、登録しようとするコンテンツに含まれるキーワードを抽出する処理と、抽出したキーワードの、コンテンツ管理情報の説明文における出現頻度を計算し、当該出現頻度に基づいて複数種類のコンテンツ管理情報をスコアリングする処理と、スコアリングする処理によって得られたスコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を取得し、当該特徴語情報を支援情報（メタデータ）として出力する処理と、を実行する。

本発明によれば、利用者は、ＩＴ技術に詳しくなかったとしても、簡単に、かつ的確なキーワードを付与して自分のコンテンツを共有サーバ等に登録することができるようになる。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

本発明の実施形態によるコンテンツ管理装置（コンテンツ管理システム）の概略構成例を示す機能ブロック図である。カリキュラムおよび特徴語のデータ構造例を示す図である。コンテンツ情報のデータ構造を示す図である。登録コンテンツ選択画面表示部（１０９）によって表示される画面例を示す図である。テキスト情報を含むコンテンツの一例である。コンテンツ管理装置において実行される処理の全体概要を説明するためのフローチャートである。メタデータ推測処理部１１１の詳細を説明するためのフローチャートである。メタデータ推測処理部１１１におけるカリキュラムをスコアリングする処理を説明するためのフローチャートである。メタデータ入力画面表示部１１２の詳細を説明するためのフローチャートである。メタデータ入力画面表示部１１２によって表示される画面例を示す図である。メタデータ入力画面表示部１１２によって表示される画面例を示す図である。メタデータ入力画面表示部１１２によって表示される画面例を示す図である。

以下、添付図面を参照しながら、本発明の装置を実施するための最良の実施形態を詳細に説明する。図１〜図１２は、本発明の実施形態を例示する図である。これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。尚、本発明の実施形態において、使用される機器、手法等は一例であり、本発明はこれらに限定されるものではないことは勿論である。

更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。

また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。

以下では「プログラム」を主語（動作主体）として本発明の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート（通信制御装置）を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。

＜コンテンツ管理システムの構成＞
図１は、コンテンツ管理システム（コンテンツ管理装置）の概略構成を示す機能ブロック図である。図１において、当該コンテンツ管理システム１は、単独の計算機として示されているが、各構成部が遠隔的に配置され、それぞれがネットワークを介して接続されて構成されるようにしても良い。この場合、例えば、コンテンツ管理システム１をクライアント端末装置と共有サーバ（コンテンツ管理サーバ装置）で構成しても良い。この場合、コンテンツを登録しようとする利用者が用いるクライアント端末装置は、表示装置１０６及び入力装置１０７を有するコンピュータで構成され、表示装置１０６及び入力装置１０７以外の構成要素は、共有サーバ側に配置することが可能である。

コンテンツ管理システム１は、カリキュラムＤＢ１００と、特徴語ＤＢ１０１と、コンテンツ情報ＤＢ１０２と、中央処理装置１０３と、プログラムメモリ１０４と、中央処理装置（プロセッサ）１０３での処理に必要なデータを格納するデータメモリ１０５と、データを表示するための表示装置１０６と、表示されたデータに対してメニューを選択するなどの操作を行うための入力装置１０７と、コンテンツをファイルシステムで格納しているファイルサーバ１０８と、を有している。

中央処理装置１０３は、登録コンテンツ選択画面表示部１０９と、コンテンツ情報抽出処理部１１０と、メタデータ推測処理部１１１と、メタデータ入力画面表示部１１２と、を備えている。この形態例の場合、コンピュータによって構成され、登録コンテンツ選択画面表示部１０９と、コンテンツ情報抽出処理部１１０と、メタデータ推測処理部１１１と、メタデータ入力画面表示部１１２は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ１０４に格納され、処理実行の際に中央処理装置１０３が内部メモリに読み込むようにしている。

データメモリ１０５は、カリキュラムＤＢ１００から読み込まれたカリキュラム（情報）１１３と、特徴語ＤＢ１０１から読み込まれた特徴語（情報）１１４と、コンテンツ情報ＤＢ１０２から読み込まれたコンテンツ情報１１５と、を格納している。

＜データ構造＞
図２は、データメモリ１０５に含まれるカリキュラム１１３及び特徴語１１４のデータ構造を示す図である。例えば、カリキュラム１１３は、教育分野における具体的な指導内容について記載されたカリキュラムの複数の文書の情報を、複数のカテゴリに分類したテキストの情報として保持している（図２Ａ）。特徴語１１４は、各カリキュラムに関連付けされた教育分野の特徴語であって、各カリキュラムの主題に密接な関連性を有する情報を保持している（図２Ｂ）。各カリキュラムは、それぞれ少なくとも１つの特徴語を有している。教育分野向けカリキュラムの具体例として、教科書などの出版社や教育機関（学習塾など）が発行した学習指導案などがある。

図２Ａに示されるように、カリキュラム１１３は、ＩＤ２００、学校区分２０１、学年２０２、科目２０３、主題２０４、説明文２０５、スコア２０６を含み、例えば配列の形式でこれらの情報を保有している。ＩＤ２００は、カリキュラム１１３に対して一意に振られた値が保持される。学校区分２０１は、小学校、中学校、高等学校などの学校区分のカテゴリの文字列が保持される。学年２０２は、学校区分２０３を上位階層としてもつ学年のカテゴリの文字列が保持される。科目２０３は、学年２０２を上位階層としてもつ科目のカテゴリが保持される。主題２０４は、学校区分２０１と学年２０２、科目２０３の条件で分類されたカリキュラムの一部のテキストにおいて、指導内容ごとにさらに細分化した各テキストの概要の文字列が保持される。説明文２０５は、主題２０４に該当するテキストが保持される。スコア２０６は、登録するコンテンツの内容が説明文２０５の内容に含まれている度合いを示す値が保持され、初期値は０である。図２Ａで示す例では、中学校１年生の科目が理科における火山活動の様子について指導する際の内容を記述した文であり、主題を「火山活動の様子」と定義した情報が示されている。

図２Ｂに示されるように、特徴語１１４は、ＩＤ２０７、関連ＩＤ２０８、キーワード２０９、重要フラグ２１０を含み、例えば配列の形式でこれらの情報を保有している。ＩＤ２０７は、特徴語１１４に対して一意に振られた値が保持される。関連ＩＤ２０８は、カリキュラム１１３のリストの中のいずれか一つのＩＤ２００が保有され、特徴語１１４がカリキュラム１１３に多：１の関係で関連付けされていることを示す。キーワード２０９は、関連付けされたカリキュラム１１３の説明文２０５で定義されている指導する事柄・言葉などの文字列が保持される。重要フラグ２１０は、キーワード２０９の単語が登録するコンテンツにとって重要であると判断した場合は「true」が保持され、初期値は「false」とする。本発明において、特徴語は、必ずしもカリキュラムの主題２０４、説明文２０５、利用者のコンテンツに含まれるテキスト情報に含まれる文言（キーワード）である必要はない。後述するように、利用者は、自身が登録しようとするコンテンツについてのキーワードを自ら考える必要はなく、メタデータとして提示される特徴語（より関連性が強いワードは太字等の強調が施されて提示される）の中から当該コンテンツのキーワードを選択するようになっている。各カリキュラムに関連付けられる特徴語（複数の文言から構成される）は、カリキュラムの主題２０４、説明文２０５、利用者のコンテンツに含まれるテキスト情報に含まれる文言（キーワード）に含まれないキーワードを有している。

図３は、データメモリ１０５に含まれるコンテンツ情報１１５のデータ構造を示す図である。このコンテンツ情報は、利用者が自身のコンテンツを登録する際に用いられる情報であり、図３に示すようなデータ構造でデータメモリ１０５において管理される。該当するコンテンツの登録が完了すると、該当するコンテンツ情報１１５はデータメモリから消去される。

図３に示されるように、コンテンツ情報１１５は、ＩＤ３００、ファイル３０１、タイトル３０２、学校区分３０３、学年３０４、科目３０５、コンテンツテキスト３０６、コンテンツキーワード３０７、付与キーワード３０８を含み、登録するコンテンツのメタデータ情報を示す。ＩＤ３００は、コンテンツ情報１１５に対して一意に振られた値が格納されている。ファイル３０１は、登録するコンテンツのファイル名が格納されている。タイトル３０２は、コンテンツのタイトルを示す文字列が格納されている。学校区分３０３は、登録するコンテンツが該当する学校区分のカテゴリを示す。学年３０４は、登録するコンテンツが該当する学年のカテゴリを示す。科目３０５は、登録するコンテンツが該当する科目のカテゴリを示す。コンテンツテキスト３０６は、コンテンツ内におけるテキスト情報が格納される。コンテンツキーワード３０７は、コンテンツテキスト３０６から抽出したキーワードが配列の形式で格納される。付与キーワード３０８は、後述するメタデータ推測処理において推測したキーワードをサジェストし、利用者が選択したものが配列の形式で格納される。なお、初期値は、ＩＤ３００とファイル３０１以外の項目値はすべてnullとする。

＜登録コンテンツ選択画面＞
図４は、図１の登録コンテンツ選択画面表示部１０９が処理し、表示装置１０６に表示される登録コンテンツ選択画面の例を示す図である。

図４に示されるように、登録コンテンツ選択画面は、プルダウンメニューである学校区分指定メニュー４００と、ファイルパス入力フォーム４０１と、登録ボタン４０２と、終了ボタン４０３と、を有している。利用者は、学校区分指定メニュー４００から登録するコンテンツに該当する学校区分を指定する。なお、学校区分指定メニュー４００には、「小学校」「中学校」「高等学校」などの学校区分をリストとしてあらかじめ指定した値を保持している。

次に、利用者は、図示しないＨＤＤやファイルサーバ１０８に格納された、登録したいコンテンツのファイルパスを入力し、登録ボタン４０２を押下する。これにより、当該コンテンツのメタデータの登録処理が開始される。

なお、登録するコンテンツのファイルはMicrosoft（登録商標）社が提供するWordやExcel、PowerPoint（登録商標）のファイルやFlashファイルなど、テキスト情報を含むファイルを対象としている。登録するコンテンツファイルとして、図５にテキスト情報を含むPowerPoint（登録商標）の例が示されている。なお、このメタデータ登録処理については、図６を参照して詳細に後述する。また、利用者が終了ボタン４０３を押下した際には、コンテンツ管理装置における処理を終了する。

＜メタデータ登録処理の概要＞
図６は、メタデータ登録処理において行われる処理の概要を説明するためのフローチャートである。このフローチャートは、登録コンテンツ選択画面（図４）において利用者が指定したコンテンツのファイルに対してメタデータを推論し、候補としてメタデータ登録画面（図１０）に表示する処理を示す。そして、利用者によって入力されたメタデータを図示しない記憶装置（例えば、共有サーバ側の記憶装置）に保存する。

図６において、まず、コンテンツ情報抽出処理部１１０は、コンテンツ情報１１５として、利用者が選択した学校区分を学校区分３０３、ファイルパスをファイル３０１に、コンテンツ内のテキストをコンテンツテキスト３０６に格納する(ステップ６００)。

次に、コンテンツ情報抽出処理部１１０は、コンテンツ情報１１５における学校区分３０３、学年３０４、科目３０５と同じ値を持つカリキュラム１１３を取得する（ステップ６０１）。ただし、コンテンツ情報１１５の学校区分３０３、学年３０４、科目３０５の中でnullを持つメンバについては、取得条件に含まない。すなわち、学校区分３０３が「中学校」、学年３０４と科目３０５がnullであった場合（つまり、後述の再計算時ではなく初回のメタデータ登録処理の場合は、利用者が登録コンテンツ選択画面（図４）によって指定した学校区分３０３のみが分かっている）、登録学校区分２０１が「中学校」であるすべてのカリキュラム１１３を取得する。

そして、メタデータ推測処理部１１１は、ファイルパスやコンテンツ内のテキストから当該コンテンツに該当する学年、科目、及び関連するキーワードを推測する（ステップ６０２）。なお、ステップ６０２についての処理は、図７を用いて詳細に後述する。

続いて、メタデータ入力画面表示部１１２は、コンテンツのメタデータの推測結果を反映したメタデータ入力画面を表示する（ステップ６０３）。なお、ステップ６０３についての処理は、図９を用いて詳細に後述する。

また、図９の処理によって表示された画面に対して利用者がタイトルや学年、科目のいずれかの値を入力や変更した場合、入力された情報を加味してメタデータを再度推測するため、処理はステップ６０１に戻る（ステップ６０４）。ステップ６０４の処理において表示された画面に対して利用者がタイトルや学年、科目のいずれかの値を入力や変更しなかった場合には、メタデータ登録処理は終了し、図４の登録コンテンツ選択画面に戻る。

＜メタデータ推測処理部（ステップ６０２）の詳細＞
図７は、図６のステップ６０２におけるメタデータ推測処理部１１１の詳細を説明するためのフローチャートである。このフローチャートは、コンテンツテキストからキーワードを抽出し、さらに、登録するコンテンツがカリキュラムにおいてどの主題に該当するか当該キーワードを用いて推測する処理を示す。最高値のスコアを示すカリキュラムと関連付けられた特徴語が当該コンテンツのメタデータ候補となる。

図７において、まず、メタデータ推測処理部１１１は、コンテンツ情報１１５におけるファイル３０１とコンテンツテキスト３０６について形態素解析を行う（ステップ７００）。

次に、メタデータ推測処理部１１１は、コンテンツ情報１１５におけるタイトル３０２がnullかどうか調べる（ステップ７０１）。

ステップ７０１においてタイトル３０２がnullである判断された場合、メタデータ推測処理部１１１は、ステップ７００での形態素解析結果からキーワードの抽出を行う（ステップ７０３）。

ステップ７０１においてタイトル３０２がnullでないと判断された場合、メタデータ推測処理部１１１は、タイトル３０２の文字列について形態素解析を行い（ステップ７０２）、ステップ７００とステップ７０２での形態素解析結果からキーワードの抽出を行う（ステップ７０３）。ここで、キーワードは、コンテンツテキスト中に含まれる、名詞的役割を持つひとまとまりの単語を意味する。例えば、「光の屈折」という文字列には、「光」、「屈折」、「光の屈折」の３パターンのキーワードがある。また、「凸レンズの働き」という文字列には、「凸」「レンズ」「凸レンズ」「凸レンズの働き」の４パターンのキーワードがある。ステップ７０３では、文字列中からこのような名詞の連続や動詞を接尾に組み合わせたキーワードを抽出する処理を行う。キーワードを抽出する手法には、様々な既存技術が適用可能である。代表的な技術には、例えば、キーワード抽出の対象文字列に対して形態素解析を施し、抽出された単語の品詞の種類に応じて連結したものをキーワードとみなすものがある（例えば、非特許文献１参照）。基本的には、名詞が１つ以上連続した文字列をキーワードとみなす手法であり、一般的によく用いられている。抽出されたキーワードをさらに詳細に分析し、よりキーワードの抽出精度を高める技術も多数提案されている。本実施形態では、このようなキーワード抽出技術を用いる。

続いて、メタデータ推測処理部１１１は、コンテンツテキスト内の形態素の中で品詞が動詞であるものを取得し、原型に正規化してコンテンツキーワード３０７に追加する（ステップ７０４）。例えば、「〜が見えて」という文字列があった際に、この中から「見え」が動詞として取得でき、原型は「見える」となる。

そして、メタデータ推測処理部１１１は、登録するコンテンツがどのカリキュラム１１３に該当するかコンテンツキーワード３０７を用いてスコアリングして推測する（ステップ７０５）。なお、ステップ７０５の処理の詳細については、図８を用いて後述する。

＜カリキュラムのスコアリング処理（ステップ７０５）の詳細＞
図８は、図７のステップ７０５におけるカリキュラムのスコアリング処理の詳細を説明するためのフローチャートである。このフローチャートは、登録するコンテンツの内容が、予め辞書として備えた、学年や科目などにカテゴリに分類済みのカリキュラムのどの文書と一致するかを計算するための処理を示す。コンテンツがカリキュラムのどの文書と一致するかの度合について、各カリキュラム１１３にコンテンツキーワード３０７の出現頻度を用いてスコアを計算する。スコアの計算は、コンテンツキーワード３０７における各単語が説明文２０５内で出現する頻度と、コンテンツキーワード３０７における各単語を説明文２０５内に持つカリキュラムの頻度の２つをそれぞれ集計して掛け合わせる。コンテンツキーワード３０７における各単語が説明文２０５内で出現する頻度は、カリキュラム内で説明する内容がコンテンツと一致している場合には説明文内でコンテンツキーワードが多用されることが多く、各単語の合計出現頻度が高いほどコンテンツがカリキュラムに一致しているとする指標である。また、コンテンツキーワード３０７における各単語を説明文２０５内に持つカリキュラムの頻度は、より多くのカリキュラム１１３で出現する単語については全カリキュラムの文書において「一般的である単語」であるとし、この頻度が高いほど該当するカリキュラムを特定するのにその単語は有効でないとする指標である。つまり、あまりに一般的過ぎる単語のスコア値を高くしないための措置である。そして、これら２つの頻度に基づき各カリキュラムのスコアを算出して、登録するコンテンツに該当するカリキュラムを推測する。

図８において、まず、メタデータ推測処理部１１１は、コンテンツキーワード３０７から処理対象として１つの単語（以降iとする）を取得する（ステップ８００）。

次に、メタデータ推測処理部１１１は、メモリ上に格納された全てのカリキュラム１１３の説明文２０５におけるiの出現頻度を格納するための変数 total_frequencyを０で初期化する（ステップ８０１）。

また、メタデータ推測処理部１１１は、メモリ上に格納されたカリキュラム１１３の中からカリキュラムを１つ取得する（ステップ８０２）。

そして、メタデータ推測処理部１１１は、取得したカリキュラムの説明文におけるiの出現回数を集計し（ステップ８０３）、total_frequencyに出現回数を加算する（ステップ８０４）。なお、ステップ８０３におけるカリキュラムの説明文におけるiの出現回数を集計する際に、カリキュラムの説明文について形態素解析を行い、動詞に該当する単語を原型に正規化する。

メタデータ推測処理部１１１は、メモリ上の全てのカリキュラムについてステップ８０３及びステップ８０４の処理をしたかを確認する（ステップ８０５）。ステップ８０５においてメモリ上の全てのカリキュラムが処理されていなかった場合、処理されていないカリキュラムについてiの出現頻度を計算するためステップ８０２に戻り、次のカリキュラムについて処理が行われる。

ステップ８０５においてメモリ上のすべてのカリキュラムが処理されていた場合、メタデータ推測処理部１１１は、メモリ上のすべてのカリキュラムの数に対してiを１つ以上含んでいたカリキュラムの数で割った値を変数curriculum_frequencyに格納する（ステップ８０６）。

さらに、メタデータ推測処理部１１１は、予め指定した値ｘを底とするcurriculum_frequencyの対数（以降、ＩＤＦ(i)とする）を計算する（ステップ８０７）。ここで、ＩＤＦ(i)は、iがカリキュラム全体の文書の中でどの程度一般的に使用されている単語であるかを示す値（第１の評価値）であり、高ければ高いほど限られたカリキュラムのみで用いられた単語であることを示す。

次に、メタデータ推測処理部１１１は、メモリ上に格納されたカリキュラム１１３の中からカリキュラムを１つ取得する（ステップ８０８）。

そして、メタデータ推測処理部１１１は、当該カリキュラムにおけるiの出現頻度を total_frequency で割る（以降、ＴＦ(i)）（ステップ８０９）。ステップ８０９の処理は、各カリキュラムにおけるiの出現回数をメモリ上の全カリキュラムにおけるiの出現回数で割ることで、iを含むカリキュラム間での相対的な頻度の比較を行う（第２の評価値）。また、コンテンツキーワードにおけるi以外の単語の出現回数との正規化を計る効果がある。例えば、中学校の理科におけるカリキュラムＡ、カリキュラムＢとコンテンツキーワードの「水」、「太陽」、「植物」があるとする。カリキュラムＡは光の屈折における指導内容について、カリキュラムＢは植物の体のしくみについての指導内容の記述がある。カリキュラムＡにおける指導内容の記述には、太陽などの光が空気中から水中に入射する際の屈折する現象について解説しており、カリキュラムＢは植物の光合成や根から水を取り込む体のしくみについて解説している。また、カリキュラムＡにおける「水」の出現回数は１９回、「太陽」の出現回数は１回、「植物」の出現回数は０回、カリキュラムＢにおける「水」の出現回数は３回、「太陽」の出現回数は２回、「植物」の出現回数は５回、であるとする。登録するコンテンツが該当するカリキュラムはＢに該当するにも拘わらず、単純な合計出現回数だけで比較した場合、カリキュラムＡは２０回、カリキュラムＢは１０回となり、カリキュラムＡの方が登録するコンテンツに該当すると誤って推測してしまうケースが考えられる。すると、コンテンツキーワードに「水」を含む時点で、異なる内容のコンテンツでもカリキュラムＡに誤って推測しやすくなってしまう。このようなケースを回避するため、各単語の出現回数をすべての出現回数で割ることで、カリキュラム間の頻度の比較は維持したまま、他の単語に比べて頻度が高すぎる単語のスコアを抑えることができる。この場合、カリキュラムＡ、および、カリキュラムＢにおける「水」の出現頻度は２２回、「太陽」は３回、「植物」は５回であることから、正規化したカリキュラムＡにおけるコンテンツキーワードの合計出現回数は、「水」「太陽」「植物」それぞれについての出現頻度を加算することにより求められ、１９／２２＋１／３＋０／５＝１．２回（小数第２位四捨五入）となる。また、カリキュラムＢにおけるコンテンツキーワードの合計出現回数は、同様に、３／２２＋２／３＋５／５＝１．８回（小数第２位四捨五入）となる。

続いて、メタデータ推測処理部１１１は、ＴＦ(i)にＩＤＦ(i)を乗算して当該カリキュラムのスコアに加算する（ステップ８１０）。この処理によって、当該カリキュラムにおいて多くのキーワードが高頻度で使用され、かつ、当該カリキュラムで限定的に使用されている単語がコンテンツキーワードに多いほど高いスコアとなる。

そして、メタデータ推測処理部１１１は、メモリ上のすべてのカリキュラムについてiの出現頻度に基づくスコアを計算したか調べる（ステップ８１１）。

ステップ８１１において、メモリ上の全てのカリキュラムについて処理していないと判断された場合、処理は、残りのカリキュラムについてスコアを計算するためステップ８０８に戻る。

ステップ８１１において、メモリ上納の全てのカリキュラムについて処理したと判断された場合、メタデータ推測処理部１１１は、さらに、コンテンツキーワードにおけるすべての単語を処理したか確認する（ステップ８１２）。

ステップ８１２において、すべての単語を処理していないと判断された場合、処理は、残りの単語を処理するためステップ８００に戻る。

一方、ステップ８１２において、すべての単語を処理したと判断された場合、当該カリキュラムのスコアリング処理は終了する。

＜メタデータ入力画面表示部の処理（Ｓ６０３）の詳細＞
図９は、図６のステップ６０３におけるメタデータ入力画面表示部１１２による処理の詳細を説明するためのフローチャートである。このフローチャートは、スコアリングされたメモリ上のカリキュラム１１３のから、登録するコンテンツに付与するメタデータの候補としてカテゴリ情報やキーワード（特徴語）をサジェストする画面表示の処理を示す。また、候補として表示するメタデータにおいて、例えば、よりコンテンツに関連する可能性が高いキーワードを判定し、メタデータ入力画面表示上でハイライト表示を行う。

図９において、メタデータ入力画面表示部１１２は、まず、メモリ上にあるカリキュラム１１３をスコアの降順でソートする（ステップ９００）。

次に、メタデータ入力画面表示部１１２は、先頭のカリキュラムを取得し（ステップ９０１）、当該カリキュラム１１３における学年２０２、科目２０３の値をコンテンツ情報１１５における学年３０４、科目３０５に格納する（ステップ９０２）。

さらに、メタデータ入力画面表示部１１２は、当該カリキュラム１１３のＩＤ２００の値を関連ＩＤ２０８に持つ特徴語１１４を特徴語ＤＢ１０２から取得する（ステップ９０３）。

また、メタデータ入力画面表示部１１２は、取得した特徴語１１４の中で登録するコンテンツにより強く関連している単語がないか、コンテンツキーワードと比較して判定するため、メモリ上に格納されている特徴語１１４におけるキーワード２０９から１つ（Ａとする）を取得し（ステップ９０５）、コンテンツ情報１１５におけるコンテンツキーワード３０７から一つ（Ｂとする）を取得する（ステップ９０６）。

そして、メタデータ入力画面表示部１１２は、ＡとＢのどちらかの文字列が、もう一方の文字列の一部に含まれているかを確認するため、Ａの文字列にＢの文字列が、または、Ｂの文字列にＡの文字列が部分一致するかを確認する（ステップ９０７）。

ステップ９０７において一方の文字列がもう一方の文字列に部分一致すると判断された場合、メタデータ入力画面表示部１１２は、Ａは登録するコンテンツにおいてより関連する可能性が高いと判断してＡをキーワード２０９に保持する特徴語１１４の重要フラグ２１０にtrueを格納する（ステップ９０８）。ステップ９０７において部分一致しないと判断された場合には、ステップ９０８の処理はスキップされる。

そして、メタデータ入力画面表示部１１２は、Ａに対して全てのコンテンツキーワードを比較したかを確認する（ステップ９０９）。

ステップ９０９において、全てのコンテンツキーワードについて比較済みではないと判断された場合、処理は、残りのコンテンツキーワードについてＡと比較するためステップ９０６に戻る。

一方、ステップ９０９において、コンテンツキーワードがＡ対して全て確認済であると判断された場合、メタデータ入力画面表示部１１２は、全てのカテゴリキーワード２０９におけるキーワード２０９について登録するコンテンツとの関連する可能性が高いかを確認したかを確認する（ステップ９１０）。

ステップ９１０において、すべての特徴語１１４におけるキーワード２０９について処理していないと判断された場合、残りの特徴語１１４におけるキーワード２０９を処理するため、処理は、ステップ９０５に戻る。

一方、ステップ９１０においてすべての特徴語１１４におけるキーワード２０９について処理したと判断された場合、メタデータ入力画面表示部１１２は、メタデータ入力画面（図１０）を表示する（ステップ９１１）。なお、メタデータ入力画面を表示後、当該プログラムは利用者によるメタデータ入力画面からの処理命令の待ち状態となる。メタデータ入力画面の詳細については、図１０を参照して後述する。

続いて、メタデータ入力画面表示部１１２は、メタデータ入力画面（図１０）において、利用者が表示カテゴリ欄１００５の値をプルダウンから変更したか判断する（ステップ９１２）。

表示カテゴリ欄１００５の値が変更されなければ、処理は終了する。一方、表示カテゴリ欄１００５の値が変更されると、処理はステップ９１３に移行する。

メタデータ入力画面表示部１１２は、利用者の変更命令によって選択された主題の文字列を主題２０４の値としてもつカリキュラム１１３のＩＤ２００を取得する（ステップ９１３）。

次に、メタデータ入力画面表示部１１２は、当該ＩＤを関連ＩＤ２０８として持つ特徴語１１４を特徴語ＤＢ１０２から取得してメモリを更新する（ステップ９１４）。

そして、メタデータ入力画面表示部１１２は、利用者によって指定されたカリキュラムに関連付けられたカテゴリキーワードについて、登録するコンテンツと関連する可能性が高いかを判定するためステップ９０５〜ステップ９１１の処理を行い、メタデータ入力画面における関連キーワード欄１００６を更新して画面に再描画する。例えば、後述の図１２における表示カテゴリ１２００のプルダウンリストから利用者が「２．地層の様子」を選択した場合、メタデータ入力画面表示部１１２は、当該文字列を主題として持つカリキュラムを取得し、当該カリキュラムに関連付けられた特徴語を取得し、関連キーワード欄１２０１を更新する。なお、関連キーワード欄１２０１を更新する際に、利用者によってチェックボックスにチェックが付いている単語はメモリ上に保持されたままとなり、更新後も関連キーワード欄１２０１に表示される。

＜メタデータ入力画面＞
図１０を参照して、メタデータ入力画面について詳細に説明する。図１０は、メタデータ入力画面の一例を示す図である。

メタデータ入力画面では、コンテンツのメタデータの推測結果として学年や科目は利用者によってあらかじめ選択済みとして表示され、かつ、コンテンツに関連するキーワード候補（特徴語）が表示される。

ＧＵＩウィンドウにおいて、登録するファイルのファイルサーバ１０８におけるファイルパスがファイル欄１０００に表示され、登録するファイルのサムネイル画像がサムネイル欄１００１に表示されている。

また、タイトル欄１００２には、メモリ上に格納されたコンテンツ情報１１５におけるタイトル３０２が表示される。学年欄１００３には学年３０４が、科目欄１００４には科目３０５が表示される。なお、タイトル欄１００２はテキストエリアになっており、利用者が内容を自由に入力することができる。また、学年欄１００３と科目欄１００４は、プルダウンリストになっており、コンテンツ情報１１５における学校区分３０３で指定されたカテゴリに対応関係のある値があらかじめリストとして備える。例えば、学校区分３０３が「中学校」である場合、学年欄１００３は「１年生」、「２年生」、「３年生」を、科目欄１００４は「国語」、「数学」、「英語」、「理科」、「社会」、「音楽」、「美術」、「保健体育」、「技術・家庭」、「道徳」を、あらかじめリストとして備える。学年欄１００３及び科目欄１００４には、コンテンツ情報１１５における学年３０４と科目３０５と同じ文字列が選択済みとして表示される。

上述のように、データメモリ１０５は、全てのカリキュラムの情報を格納しているが、例えば、カリキュラム１１３の主題２０４はリストの順で格納されている。そして、表示カテゴリ欄１００５は、選択されたカリキュラムの主題を表示する。また、表示カテゴリ欄１００５はプルダウンリストとなっており、利用者はそのプルダウンリストから所望のカリキュラムの主題を選択できるようになっている。利用者が当該プルダウンリストによる選択値を変更した場合、待ち状態のプログラムに対して処理を開始する命令を渡す（図９のステップ９１３参照）。なお、当該メタデータ入力画面が表示された際の初期選択値は、カリキュラム１１３のリストにおける先頭の主題２０４とされている。

関連キーワード欄１００６においては、データメモリ１０５上における特徴語１１４であって、表示カテゴリ欄１００５に表示された主題を有するカリキュラムに関連付けられた特徴語１１４のキーワード２０９が、チェックボックス付きで表示される。また、特徴語１１４における重要フラグ２１０がtrueである場合、キーワードを太字にするなどして強調して表示する。なお、太字表示以外にも色を変えたり、文字の大きさを変える等により強調表示しても良い。これにより、利用者は表示されたキーワードの中から登録するコンテンツに関連性が高いキーワードを探しやすくなる。

追加キーワード欄１００７はテキストエリアになっており、関連キーワード欄に表示されたキーワード候補以外で任意に追加したいキーワードがある場合に、利用者がキーボードで直接入力できるようになっている。追加したいキーワードが複数ある場合は、スペース区切りで入力を行う。

利用者は、サムネイル１００１で登録しようとするコンテンツの内容を確認しながら、当該コンテンツのタイトルの入力や、推測された学年、科目、関連キーワードの確認と選択を行う。

そして、図１０において、利用者は、各項目欄の入力が終わったら登録ボタン１００８を押下することで、メタデータ入力画面で入力・選択された値がコンテンツ情報１１５に格納される。ファイル欄１０００はコンテンツ情報１１５におけるファイル３０１、タイトル欄１００２はタイトル３０２、学年欄１００３は学年３０４、科目欄１００４は科目３０５、関連キーワード欄１００６のチェックボックスがチェックされた単語は付与キーワード３０８、追加キーワード欄１００７は文字列をスペース区切りに分割してそれぞれ付与キーワード３０８、へ格納する。そして、コンテンツのメタデータが格納されたコンテンツ情報１１５をコンテンツ情報ＤＢ１０２へ格納する。このようにして利用者は、登録するコンテンツについてメタデータ入力画面からメタデータを登録することが出来る。

また、利用者がタイトル欄１００２、学年欄１００３、科目欄１００４のいずれかに対して入力・変更した場合、当該コンテンツ登録プログラムは、処理命令を画面から受け付けて処理を開始する。そして、メタデータ入力画面におけるタイトル欄１００２、学年欄１００３、科目欄１００４の値が、コンテンツ情報１１５におけるタイトル３０２、学年３０４、科目３０５に格納される。この場合、ステップ９１２において表示カテゴリ欄の値は変更されていないため、図９のフローチャートの処理が終了する。また、図６のフローチャートにおけるステップ６０４において、利用者によってタイトル、学年、科目のいずれかの値が入力か変更されていると判断され、処理はステップ６０１に戻り、変更された学年や科目の条件におけるカリキュラムのみが取得され、コンテンツのメタデータが再計算される。

ステップ６０２のコンテンツのメタデータを推測する処理においても、利用者によって入力されたタイトルの文字列からキーワードが抽出され、コンテンツキーワードに追加される。この追加されたコンテンツキーワードは、該当するカリキュラムの推定に利用される。

例えば、図１０において、学年が「１年生」から「３年生」に変更された場合、メモリ上のコンテンツ情報１１５におけるタイトル３０２は「火山の噴火」、学校区分３０３は「中学校」、学年３０４は「３年生」、科目３０５は「理科」に更新される。そして、カリキュラムＤＢ１００からは、学校区分が「中学校」、学年が「３年生」、科目が「理科」であるカテゴリに分類されたカリキュラム１１３のみが取得され、登録するコンテンツが取得したカリキュラムに対してスコアが再計算される。

図１１は、スコアの再計算後のメタデータ入力画面を示す図である。利用者が学年欄１１００を「１年生」から「３年生」に変更したことに伴い、表示カテゴリ１１０１と関連キーワード欄１１０２が更新される。そして、利用者が登録ボタンを押下することにより、関連キーワード（関連特徴語）欄１１０２に表示され、利用者がチェックマークを付与したキーワードが当該登録しようとするコンテンツのメタデータとして登録される。

＜まとめ＞
（１）以上、登録するコンテンツについてメタデータを付与するためのコンテンツ管理装置（コンテンツ管理システム）について説明している。当該コンテンツ管理装置は、登録するコンテンツから取得できるテキスト情報を基に、学年や科目などあらかじめ階層化されたカテゴリに分類したカリキュラム（コンテンツ管理情報）の各文書（コンテンツの説明文）にコンテンツを分類して、カテゴリやカリキュラムに関連付けされたキーワード（特徴語）をサジェストする。特に、カリキュラムに沿って、テキストや画像を用いて作成された教育分野向けコンテンツでは、カリキュラムで指導を支持された事柄を説明するために各主題で限定的、または、高頻度な単語を含むことが多い。このような特徴を利用することで、コンテンツをカリキュラムの主題毎に分類しやすくなる。さらに、主題毎に特徴的な単語（特徴語）をあらかじめ定義して関連付けすることで、コンテンツに関連するキーワードとしてサジェストを行うことを特徴とする。キーワードをあらかじめ辞書として備えることで、コンテンツ上のテキストにはないが主題を説明するために重要な単語や主題全体を示す概要的な言葉、表記揺れなどに対応することができる。このようにしてサジェストされたキーワードについて、利用者はチェックボックスで選択するだけでよい。このようにすることにより、コンテンツ内のテキスト情報から検索や利用者の内容理解に有効なメタデータを推測し、推測結果を登録画面に反映させることでコンテンツの登録作業の簡素化することができる。

また、図１０におけるメタデータ登録画面では、メタデータ項目を上からタイトル、学年、科目の順に値の入力、確認をおこなうことで、カリキュラムの対象が絞られていくため、登録するコンテンツに該当するカリキュラムを推測する精度が高くなり、関連キーワードを選択する際にはよりコンテンツに適切なキーワードをサジェストすることが可能となる。このように、当該特徴抽出装置を用いることで、検索時やコンテンツの情報を参照した利用者の内容理解の際に有効なメタデータ付与の登録作業を簡素化することができる。

本実施形態では、コンテンツファイルを登録する処理について説明している。また、コンテンツファイル以外でも、Ｗｅｂ上で公開されたＷｅｂページなどでもよい。この場合、登録したいＷｅｂページのＵＲＬを入力として、図６のステップ６００におけるコンテンツ情報を抽出する処理の際に、Ｗｅｂページ内のテキストを取得してコンテンツテキスト３０６に格納する。このようにすることで、ファイルからテキストを取得した場合と同様の処理が可能となる。

また、本実施形態では、ファイルサーバ１０８上のOfficeファイルやFlashファイルなどのテキスト情報を含むコンテンツファイルを登録する処理について説明している。また、テキスト情報を含むファイルに限らず、画像などのファイル内にテキスト情報を含まないファイルを登録してもよい。この場合、メタデータ入力画面において、登録する画像ファイルの活用事例などを入力するテキストエリアを追加して利用者に入力させる。利用者が入力した活用事例の文書を形態素解析し、図７のステップ７０３および７０４の処理によってキーワードを抽出しコンテンツキーワードとする。また、画像からOCR（Optical Character Recognition）で文字列を抽出して、それら文字列をコンテンツキーワードとしても良い。このようにすることで、各カリキュラムのスコアリングについて、テキスト情報をもつコンテンツファイルと同様処理することができる。また、利用者が当該テキストエリアに文字を入力する度に、該当するカリキュラム１１３を再計算して動的に関連キーワード欄１００６を更新する。

（２）本実施形態では、図６のステップ６０１の処理において、学年や科目などあらかじめ階層されたカテゴリに分類した教育分野向けカリキュラムについてコンテンツを分類する処理について説明している。また、教育分野向けカリキュラムに限らず、コールセンターや工業製品のマニュアルなどを用いてもよい。例えば、コールセンターのマニュアルを用いた場合、マニュアルをあらかじめ対応業務ごとに分類した文書を辞書としてそなえることで、問い合わせやクレームに対応するマニュアルの部分を容易に特定できるほか、カテゴリごとの統計処理などに活用することができる。さらに、対応業務毎に、過去の対応事例などをあらかじめ関連付けさせておくことで、コールセンターの利用者にサジェストすることが出来る。また、製品マニュアルを用いた場合でも同様に、顧客からのクレーム情報に対して不具合内容毎に分類することで、不具合に対応するマニュアル部分の特定や不具合ごとの統計処理などに活用できる。

さらに、例えば、個人が自己の所有する車を中古車として販売したい場合にデータベースに登録するときの処理にも適用することができる。この場合、本実施形態で示したカリキュラム情報に代えて、車の車種、年式、色、状態等を管理するためのコンテンツ管理情報と、それに関連付けられた特徴語を予め用意しておくことになる。また、個人が特定の趣味に関するコンテンツをデータベースに登録して情報を他の者と共有したいと考える場合にも適用することができる。この場合、カリキュラム情報に代えて、様々な趣味のカテゴリで構成されるコンテンツ管理情報とそれに関連付けられる特徴語を予め用意しておくことになる。

このように、本発明は教育用のコンテンツを登録する際のメタデータ提示処理のみに適用されるのではなく、様々な種類のコンテンツを登録する際のメタデータ提示処理にも提供されることが理解される。

（３）本実施形態では、図９のステップ９０３、および、ステップ９１４の処理において、カリキュラムの各主題の特徴語について、あらかじめ用意した主題ごとの特徴的な単語を特徴語ＤＢから取得する処理について説明している。当該処理の特徴語ＤＢから特徴語を取得する処理の代わりに、特徴語をカリキュラムの文書から自動生成してもよい。この場合、主題毎に分類したカリキュラムの文書を対象に形態素解析を行い、TF・IDFなどの頻度を基準にした手法や相互情報量やカイ二乗検定などの単語の共起頻度を基準にした手法を用いることで実現できる。

（４）本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び／又はコンポーネントは、データを管理する機能を有するコンピュータ化ストレージシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。

１００・・・カリキュラムＤＢ
１０１・・・特徴語ＤＢ
１０２・・・コンテンツ情報ＤＢ
１０３・・・中央処理装置
１０４・・・プログラムメモリ
１０５・・・データメモリ
１０６・・・表示装置
１０７・・・入力装置
１０８・・・ファイルサーバ
１０９・・・登録コンテンツ選択画面表示部
１１０・・・コンテンツ情報抽出処理部
１１１・・・メタデータ推測処理部
１１２・・・メタデータ入力画面表示部
１１３・・・カリキュラム
１１４・・・特徴語
１１５・・・コンテンツ情報

Claims

利用者がコンテンツを登録する際の支援情報として当該コンテンツのメタデータを提供するコンテンツ管理装置であって、
前記コンテンツを登録する際に、当該コンテンツを分類するために用いられ、予め用意された複数種類のコンテンツ管理情報と、当該各コンテンツ情報に関連付けられた、予め用意された特徴語情報と、を格納する記憶装置と、
前記記憶装置に格納された前記コンテンツ管理情報と前記特徴語情報に基づいて、登録しようとするコンテンツのメタデータを前記支援情報として取得し、出力するプロセッサと、を有し、
前記コンテンツ管理情報は、コンテンツのカテゴリに関する説明文を含み、
前記プロセッサは、
前記登録しようとするコンテンツに含まれるキーワードを抽出する処理と、
前記抽出したキーワードの、前記コンテンツ管理情報の前記説明文における出現頻度を計算し、当該出現頻度に基づいて前記複数種類のコンテンツ管理情報をスコアリングする処理と、
前記スコアリングする処理によって得られたスコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を取得し、当該特徴語情報を前記支援情報として出力する処理と、
を実行することを特徴とするコンテンツ管理装置。
請求項１において、
前記プロセッサは、前記抽出したキーワードが複数のコンテンツ管理情報に亘って出現する場合、前記スコアリングする処理において、
前記抽出したキーワードが特徴的で相対的に重要性が高いか否かを示す第１の評価値を計算し、
各コンテンツ管理情報における前記抽出したキーワードの出現頻度を正規化して得られる第２の評価値を計算し、
前記第１の評価値と前記第２の評価値を乗算することにより、各コンテンツ管理情報の前記スコア値を計算する、ことを特徴とするコンテンツ管理装置。
請求項２において、
前記プロセッサは、
前記コンテンツ管理情報の全体の個数を、前記抽出したキーワードが出現するコンテンツ管理情報の個数で除算することにより、前記第１の評価値を計算し、
各コンテンツ管理情報における前記抽出したキーワードの出現頻度を、全体のコンテンツ管理情報における前記抽出したキーワードの出現頻度で除算することにより、前記第２の評価値を計算する、ことを特徴とするコンテンツ管理装置。
請求項１において、
前記プロセッサは、前記出力する処理において、前記スコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を利用者が選択できるようにするためのＧＵＩを生成し、出力することを特徴とするコンテンツ管理装置。
請求項４において、
前記プロセッサは、さらに、
前記スコア値が最も高いコンテンツ管理情報に関連付けられた前記特徴語情報に含まれる複数の特徴語について、前記抽出したキーワードとの間に互いに包含関係にあるか判断し、包含関係にある特徴語を含む特徴語情報に対して当該包含関係にあることを示すフラグ情報を付与する処理を実行し、
前記プロセッサは、前記出力する処理において、前記フラグ情報が付与された特徴語情報の特徴語を、前記フラグ情報を有さない特徴語情報の特徴語とは区別して出力するように、前記ＧＵＩを生成することを特徴とするコンテンツ管理装置。
請求項１において、
前記コンテンツ管理情報は、コンテンツを分類する際に用いられる、複数種類の階層化されたカテゴリ情報を有し、
前記複数種類の階層化されたカテゴリ情報は、コンテンツを第１の区分で分類するための大項目カテゴリ情報と、前記第１の区分で分類されるコンテンツをさらに第２の区分で細分化して分類するための中項目カテゴリ情報と、前記第２の区分で分類されるコンテンツをさらに第３の区分で細分化して分類するための小項目カテゴリ情報と、を有し、
前記プロセッサは、前記利用者によって指定されたカテゴリ情報に基づいて、前記抽出されたキーワードの出現頻度をカウントする対象となるコンテンツ管理情報を絞り込むことを特徴とするコンテンツ管理装置。
請求項１のコンテンツ管理装置と、
表示装置と、入力装置と、を有する、少なくとも１つのクライアント端末装置と、を有し、
前記クライアント端末装置は、前記入力装置から指定された、登録すべきコンテンツを前記コンテンツ管理装置に送信し、
前記コンテンツ管理装置は、前記支援情報を前記クライアント端末装置に送信し、
前記クライアント端末装置の表示装置は、前記コンテンツ管理装置から受信した支援情報を表示することを特徴とするコンテンツ管理システム。
利用者がコンテンツを登録する際の支援情報として当該コンテンツのメタデータを提供するコンテンツ管理方法であって、
コンテンツ管理装置のプロセッサが、前記コンテンツを登録する際に、当該コンテンツを分類するために用いられ、予め用意された複数種類のコンテンツ管理情報と、当該各コンテンツ情報に関連付けられた、予め用意された特徴語情報と、を格納する記憶装置を提供するステップと、
前記プロセッサが、前記記憶装置に格納された前記コンテンツ管理情報と前記特徴語情報に基づいて、登録しようとするコンテンツのメタデータを前記支援情報として取得し、出力するステップと、を有し、
前記コンテンツ管理情報は、コンテンツのカテゴリに関する説明文を含み、
前記出力するステップにおいて、前記プロセッサは、
前記登録しようとするコンテンツに含まれるキーワードを抽出する処理と、
前記抽出したキーワードの、前記コンテンツ管理情報の前記説明文における出現頻度を計算し、当該出現頻度に基づいて前記複数種類のコンテンツ管理情報をスコアリングする処理と、
前記スコアリングする処理によって得られたスコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を取得し、当該特徴語情報を前記支援情報として出力する処理と、
を実行することを特徴とするコンテンツ管理方法。
請求項８において、
前記プロセッサは、前記抽出したキーワードが複数のコンテンツ管理情報に亘って出現する場合、前記スコアリングする処理において、
前記抽出したキーワードが特徴的で相対的に重要性が高いか否かを示す第１の評価値を計算し、
各コンテンツ管理情報における前記抽出したキーワードの出現頻度を正規化して得られる第２の評価値を計算し、
前記第１の評価値と前記第２の評価値を乗算することにより、各コンテンツ管理情報の前記スコア値を計算する、ことを特徴とするコンテンツ管理方法。
請求項９において、
前記プロセッサは、
前記コンテンツ管理情報の全体の個数を、前記抽出したキーワードが出現するコンテンツ管理情報の個数で除算することにより、前記第１の評価値を計算し、
各コンテンツ管理情報における前記抽出したキーワードの出現頻度を、全体のコンテンツ管理情報における前記抽出したキーワードの出現頻度で除算することにより、前記第２の評価値を計算する、ことを特徴とするコンテンツ管理方法。
請求項８において、
前記プロセッサは、前記出力する処理において、前記スコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を利用者が選択できるようにするためのＧＵＩを生成し、出力することを特徴とするコンテンツ管理方法。
請求項１１において、
前記プロセッサは、さらに、
前記スコア値が最も高いコンテンツ管理情報に関連付けられた前記特徴語情報に含まれる複数の特徴語について、前記抽出したキーワードとの間に互いに包含関係にあるか判断し、包含関係にある特徴語を含む特徴語情報に対して当該包含関係にあることを示すフラグ情報を付与する処理を実行し、
前記プロセッサは、前記出力する処理において、前記フラグ情報が付与された特徴語情報の特徴語を、前記フラグ情報を有さない特徴語情報の特徴語とは区別して出力するように、前記ＧＵＩを生成することを特徴とするコンテンツ管理方法。
請求項８において、
前記コンテンツ管理情報は、コンテンツを分類する際に用いられる、複数種類の階層化されたカテゴリ情報を有し、
前記複数種類の階層化されたカテゴリ情報は、コンテンツを第１の区分で分類するための大項目カテゴリ情報と、前記第１の区分で分類されるコンテンツをさらに第２の区分で細分化して分類するための中項目カテゴリ情報と、前記第２の区分で分類されるコンテンツをさらに第３の区分で細分化して分類するための小項目カテゴリ情報と、を有し、
前記方法は、さらに、
前記プロセッサが、前記利用者によって指定されたカテゴリ情報に基づいて、前記抽出されたキーワードの出現頻度をカウントする対象となるコンテンツ管理情報を絞り込むステップを有することを特徴とするコンテンツ管理方法。
コンピュータに請求項８のコンテンツ管理方法を実行させるためのプログラム。
コンピュータに請求項８のコンテンツ管理方法を実行させるためのプログラムを記憶する、コンピュータ読み取り可能な記憶媒体。