JP2014049044A - コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体 - Google Patents

コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体 Download PDF

Info

Publication number
JP2014049044A
JP2014049044A JP2012193445A JP2012193445A JP2014049044A JP 2014049044 A JP2014049044 A JP 2014049044A JP 2012193445 A JP2012193445 A JP 2012193445A JP 2012193445 A JP2012193445 A JP 2012193445A JP 2014049044 A JP2014049044 A JP 2014049044A
Authority
JP
Japan
Prior art keywords
content
information
content management
category
management information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012193445A
Other languages
English (en)
Other versions
JP5877775B2 (ja
Inventor
Yasuaki Iwata
泰明 岩田
Yasuhiro Nakada
康博 中駄
Miki Mayama
美樹 真山
Toyoaki Suzuka
豊明 鈴鹿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2012193445A priority Critical patent/JP5877775B2/ja
Publication of JP2014049044A publication Critical patent/JP2014049044A/ja
Application granted granted Critical
Publication of JP5877775B2 publication Critical patent/JP5877775B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】デジタルコンテンツの登録の際に、コンテンツ内のテキスト情報から検索や利用者の内容理解に有効なカテゴリ及びコンテンツ上に無いキーワードも含めて推測し推測結果を登録画面に反映させることでコンテンツの登録作業の簡素化する。
【解決手段】登録するコンテンツから取得できるテキスト情報を基に、学年や科目などあらかじめ階層されたカテゴリに分類したカリキュラムの各文書にコンテンツを分類して、分類結果からカテゴリやカリキュラムに関連付けされたキーワードをサジェストし、サジェスト結果について利用者が変更した場合、変更情報を元にコンテンツを再分類してサジェストを動的に行う。
【選択図】図10

Description

本発明は、コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体に関し、例えば、コンテンツの特徴を効率的に付与するための技術に関する。
近年、教育分野でICT化が進んでおり、デジタルコンテンツを有効活用するニーズが高まっている。例えば、デジタル教材や学習指導案のファイルを学校内や複数の学校間で共有させることで教師によるコンテンツの活用を支援するCMS(Content Management System)などのソフトウェア(例えば、非特許文献1参照)が提案されている。このようなソフトウェアでは、コンテンツを効果的に共有するためにコンテンツ一つ一つに対して適切なメタデータを付与する必要がある。例えば、カテゴリやテキストを用いた検索においてコンテンツを効果的に検索する場合やコンテンツの内容を全て確認せず容易にそれを取捨選択の判断をする場合には、コンテンツが属するカテゴリやキーワードが適切に付与されていなければならない。そのため、CMSに登録されたコンテンツに対して、タイトル、学校区分、学年、科目、キーワードなどを利用者(以下、利用者とも言う)が手入力するためのメタデータ登録画面などを表示する機能を持つものがある。また、コンテンツ内のテキストから特徴的な単語を自動的に抽出する技術(例えば、非特許文献2参照)などが提案されている。
株式会社日立ソリューションズ、MEANSファイルサーバスリム化ソリューション、http://hitachisoft.jp/products/means/slimserver/ 小山照夫, "日本語テキストからの複合語用語抽出"、情報知識学会誌, vol.19, No.4, pp.306-315, 2010
しかしながら、登録するコンテンツの内容を確認しながらメタデータ登録画面などでコンテンツ一つ一つにメタデータを入力する必要がある。このため、コンテンツが増加するにつれて登録作業が膨大になってしまう。また、コンテンツの内容を示すキーワードを付与する際においては、登録者の主観の下、コンテンツ内のテキストに重要である単語がないか探したり、テキストには無いがコンテンツを表現するのに最適なキーワードを考察したりするため、登録作業者によって付与する語彙に差が生じる。さらに、教育分野向けコンテンツでは、特に教師が学生に向けて解説する際に用いる図などは、教師の授業スタイルに合わせて画像などを用いて作成されたものが多く、既存技術(非特許文献2)で抽出したキーワードだけでテキストによる検索やコンテンツの内容を理解するのに十分な語彙があるとは限らない。
本発明はこのような状況に鑑みてなされたものであり、利用者がITリテラシーに乏しくても、デジタルコンテンツを簡単かつ的確に共有サーバ等に登録することを可能にする技術を提供するものである。
上記課題を解決するために、本発明では、コンテンツ管理装置は、記憶装置に、コンテンツを登録する際に、当該コンテンツを分類するために用いられ、予め用意された複数種類のコンテンツ管理情報と、当該各コンテンツ情報に関連付けられた、予め用意された特徴語情報と、を格納させておき、記憶装置に格納されたコンテンツ管理情報と特徴語情報に基づいて、登録しようとするコンテンツのメタデータを支援情報として取得し、出力する。各コンテンツ管理情報は、コンテンツのカテゴリに関する説明文を含んでいる。このとき、コンテンツ管理装置は、登録しようとするコンテンツに含まれるキーワードを抽出する処理と、抽出したキーワードの、コンテンツ管理情報の説明文における出現頻度を計算し、当該出現頻度に基づいて複数種類のコンテンツ管理情報をスコアリングする処理と、スコアリングする処理によって得られたスコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を取得し、当該特徴語情報を支援情報(メタデータ)として出力する処理と、を実行する。
本発明によれば、利用者は、IT技術に詳しくなかったとしても、簡単に、かつ的確なキーワードを付与して自分のコンテンツを共有サーバ等に登録することができるようになる。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明の実施形態によるコンテンツ管理装置(コンテンツ管理システム)の概略構成例を示す機能ブロック図である。 カリキュラムおよび特徴語のデータ構造例を示す図である。 コンテンツ情報のデータ構造を示す図である。 登録コンテンツ選択画面表示部(109)によって表示される画面例を示す図である。 テキスト情報を含むコンテンツの一例である。 コンテンツ管理装置において実行される処理の全体概要を説明するためのフローチャートである。 メタデータ推測処理部111の詳細を説明するためのフローチャートである。 メタデータ推測処理部111におけるカリキュラムをスコアリングする処理を説明するためのフローチャートである。 メタデータ入力画面表示部112の詳細を説明するためのフローチャートである。 メタデータ入力画面表示部112によって表示される画面例を示す図である。 メタデータ入力画面表示部112によって表示される画面例を示す図である。 メタデータ入力画面表示部112によって表示される画面例を示す図である。
以下、添付図面を参照しながら、本発明の装置を実施するための最良の実施形態を詳細に説明する。図1〜図12は、本発明の実施形態を例示する図である。これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。尚、本発明の実施形態において、使用される機器、手法等は一例であり、本発明はこれらに限定されるものではないことは勿論である。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
以下では「プログラム」を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。
<コンテンツ管理システムの構成>
図1は、コンテンツ管理システム(コンテンツ管理装置)の概略構成を示す機能ブロック図である。図1において、当該コンテンツ管理システム1は、単独の計算機として示されているが、各構成部が遠隔的に配置され、それぞれがネットワークを介して接続されて構成されるようにしても良い。この場合、例えば、コンテンツ管理システム1をクライアント端末装置と共有サーバ(コンテンツ管理サーバ装置)で構成しても良い。この場合、コンテンツを登録しようとする利用者が用いるクライアント端末装置は、表示装置106及び入力装置107を有するコンピュータで構成され、表示装置106及び入力装置107以外の構成要素は、共有サーバ側に配置することが可能である。
コンテンツ管理システム1は、カリキュラムDB100と、特徴語DB101と、コンテンツ情報DB102と、中央処理装置103と、プログラムメモリ104と、中央処理装置(プロセッサ)103での処理に必要なデータを格納するデータメモリ105と、データを表示するための表示装置106と、表示されたデータに対してメニューを選択するなどの操作を行うための入力装置107と、コンテンツをファイルシステムで格納しているファイルサーバ108と、を有している。
中央処理装置103は、登録コンテンツ選択画面表示部109と、コンテンツ情報抽出処理部110と、メタデータ推測処理部111と、メタデータ入力画面表示部112と、を備えている。この形態例の場合、コンピュータによって構成され、登録コンテンツ選択画面表示部109と、コンテンツ情報抽出処理部110と、メタデータ推測処理部111と、メタデータ入力画面表示部112は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ104に格納され、処理実行の際に中央処理装置103が内部メモリに読み込むようにしている。
データメモリ105は、カリキュラムDB100から読み込まれたカリキュラム(情報)113と、特徴語DB101から読み込まれた特徴語(情報)114と、コンテンツ情報DB102から読み込まれたコンテンツ情報115と、を格納している。
<データ構造>
図2は、データメモリ105に含まれるカリキュラム113及び特徴語114のデータ構造を示す図である。例えば、カリキュラム113は、教育分野における具体的な指導内容について記載されたカリキュラムの複数の文書の情報を、複数のカテゴリに分類したテキストの情報として保持している(図2A)。特徴語114は、各カリキュラムに関連付けされた教育分野の特徴語であって、各カリキュラムの主題に密接な関連性を有する情報を保持している(図2B)。各カリキュラムは、それぞれ少なくとも1つの特徴語を有している。教育分野向けカリキュラムの具体例として、教科書などの出版社や教育機関(学習塾など)が発行した学習指導案などがある。
図2Aに示されるように、カリキュラム113は、ID200、学校区分201、学年202、科目203、主題204、説明文205、スコア206を含み、例えば配列の形式でこれらの情報を保有している。ID200は、カリキュラム113に対して一意に振られた値が保持される。学校区分201は、小学校、中学校、高等学校などの学校区分のカテゴリの文字列が保持される。学年202は、学校区分203を上位階層としてもつ学年のカテゴリの文字列が保持される。科目203は、学年202を上位階層としてもつ科目のカテゴリが保持される。主題204は、学校区分201と学年202、科目203の条件で分類されたカリキュラムの一部のテキストにおいて、指導内容ごとにさらに細分化した各テキストの概要の文字列が保持される。説明文205は、主題204に該当するテキストが保持される。スコア206は、登録するコンテンツの内容が説明文205の内容に含まれている度合いを示す値が保持され、初期値は0である。図2Aで示す例では、中学校1年生の科目が理科における火山活動の様子について指導する際の内容を記述した文であり、主題を「火山活動の様子」と定義した情報が示されている。
図2Bに示されるように、特徴語114は、ID207、関連ID208、キーワード209、重要フラグ210を含み、例えば配列の形式でこれらの情報を保有している。ID207は、特徴語114に対して一意に振られた値が保持される。関連ID208は、カリキュラム113のリストの中のいずれか一つのID200が保有され、特徴語114がカリキュラム113に多:1の関係で関連付けされていることを示す。キーワード209は、関連付けされたカリキュラム113の説明文205で定義されている指導する事柄・言葉などの文字列が保持される。重要フラグ210は、キーワード209の単語が登録するコンテンツにとって重要であると判断した場合は「true」が保持され、初期値は「false」とする。本発明において、特徴語は、必ずしもカリキュラムの主題204、説明文205、利用者のコンテンツに含まれるテキスト情報に含まれる文言(キーワード)である必要はない。後述するように、利用者は、自身が登録しようとするコンテンツについてのキーワードを自ら考える必要はなく、メタデータとして提示される特徴語(より関連性が強いワードは太字等の強調が施されて提示される)の中から当該コンテンツのキーワードを選択するようになっている。各カリキュラムに関連付けられる特徴語(複数の文言から構成される)は、カリキュラムの主題204、説明文205、利用者のコンテンツに含まれるテキスト情報に含まれる文言(キーワード)に含まれないキーワードを有している。
図3は、データメモリ105に含まれるコンテンツ情報115のデータ構造を示す図である。このコンテンツ情報は、利用者が自身のコンテンツを登録する際に用いられる情報であり、図3に示すようなデータ構造でデータメモリ105において管理される。該当するコンテンツの登録が完了すると、該当するコンテンツ情報115はデータメモリから消去される。
図3に示されるように、コンテンツ情報115は、ID300、ファイル301、タイトル302、学校区分303、学年304、科目305、コンテンツテキスト306、コンテンツキーワード307、付与キーワード308を含み、登録するコンテンツのメタデータ情報を示す。ID300は、コンテンツ情報115に対して一意に振られた値が格納されている。ファイル301は、登録するコンテンツのファイル名が格納されている。タイトル302は、コンテンツのタイトルを示す文字列が格納されている。学校区分303は、登録するコンテンツが該当する学校区分のカテゴリを示す。学年304は、登録するコンテンツが該当する学年のカテゴリを示す。科目305は、登録するコンテンツが該当する科目のカテゴリを示す。コンテンツテキスト306は、コンテンツ内におけるテキスト情報が格納される。コンテンツキーワード307は、コンテンツテキスト306から抽出したキーワードが配列の形式で格納される。付与キーワード308は、後述するメタデータ推測処理において推測したキーワードをサジェストし、利用者が選択したものが配列の形式で格納される。なお、初期値は、ID300とファイル301以外の項目値はすべてnullとする。
<登録コンテンツ選択画面>
図4は、図1の登録コンテンツ選択画面表示部109が処理し、表示装置106に表示される登録コンテンツ選択画面の例を示す図である。
図4に示されるように、登録コンテンツ選択画面は、プルダウンメニューである学校区分指定メニュー400と、ファイルパス入力フォーム401と、登録ボタン402と、終了ボタン403と、を有している。利用者は、学校区分指定メニュー400から登録するコンテンツに該当する学校区分を指定する。なお、学校区分指定メニュー400には、「小学校」「中学校」「高等学校」などの学校区分をリストとしてあらかじめ指定した値を保持している。
次に、利用者は、図示しないHDDやファイルサーバ108に格納された、登録したいコンテンツのファイルパスを入力し、登録ボタン402を押下する。これにより、当該コンテンツのメタデータの登録処理が開始される。
なお、登録するコンテンツのファイルはMicrosoft(登録商標)社が提供するWordやExcel、PowerPoint(登録商標)のファイルやFlashファイルなど、テキスト情報を含むファイルを対象としている。登録するコンテンツファイルとして、図5にテキスト情報を含むPowerPoint(登録商標)の例が示されている。なお、このメタデータ登録処理については、図6を参照して詳細に後述する。また、利用者が終了ボタン403を押下した際には、コンテンツ管理装置における処理を終了する。
<メタデータ登録処理の概要>
図6は、メタデータ登録処理において行われる処理の概要を説明するためのフローチャートである。このフローチャートは、登録コンテンツ選択画面(図4)において利用者が指定したコンテンツのファイルに対してメタデータを推論し、候補としてメタデータ登録画面(図10)に表示する処理を示す。そして、利用者によって入力されたメタデータを図示しない記憶装置(例えば、共有サーバ側の記憶装置)に保存する。
図6において、まず、コンテンツ情報抽出処理部110は、コンテンツ情報115として、利用者が選択した学校区分を学校区分303、ファイルパスをファイル301に、コンテンツ内のテキストをコンテンツテキスト306に格納する(ステップ600)。
次に、コンテンツ情報抽出処理部110は、コンテンツ情報115における学校区分303、学年304、科目305と同じ値を持つカリキュラム113を取得する(ステップ601)。ただし、コンテンツ情報115の学校区分303、学年304、科目305の中でnullを持つメンバについては、取得条件に含まない。すなわち、学校区分303が「中学校」、学年304と科目305がnullであった場合(つまり、後述の再計算時ではなく初回のメタデータ登録処理の場合は、利用者が登録コンテンツ選択画面(図4)によって指定した学校区分303のみが分かっている)、登録学校区分201が「中学校」であるすべてのカリキュラム113を取得する。
そして、メタデータ推測処理部111は、ファイルパスやコンテンツ内のテキストから当該コンテンツに該当する学年、科目、及び関連するキーワードを推測する(ステップ602)。なお、ステップ602についての処理は、図7を用いて詳細に後述する。
続いて、メタデータ入力画面表示部112は、コンテンツのメタデータの推測結果を反映したメタデータ入力画面を表示する(ステップ603)。なお、ステップ603についての処理は、図9を用いて詳細に後述する。
また、図9の処理によって表示された画面に対して利用者がタイトルや学年、科目のいずれかの値を入力や変更した場合、入力された情報を加味してメタデータを再度推測するため、処理はステップ601に戻る(ステップ604)。ステップ604の処理において表示された画面に対して利用者がタイトルや学年、科目のいずれかの値を入力や変更しなかった場合には、メタデータ登録処理は終了し、図4の登録コンテンツ選択画面に戻る。
<メタデータ推測処理部(ステップ602)の詳細>
図7は、図6のステップ602におけるメタデータ推測処理部111の詳細を説明するためのフローチャートである。このフローチャートは、コンテンツテキストからキーワードを抽出し、さらに、登録するコンテンツがカリキュラムにおいてどの主題に該当するか当該キーワードを用いて推測する処理を示す。最高値のスコアを示すカリキュラムと関連付けられた特徴語が当該コンテンツのメタデータ候補となる。
図7において、まず、メタデータ推測処理部111は、コンテンツ情報115におけるファイル301とコンテンツテキスト306について形態素解析を行う(ステップ700)。
次に、メタデータ推測処理部111は、コンテンツ情報115におけるタイトル302がnullかどうか調べる(ステップ701)。
ステップ701においてタイトル302がnullである判断された場合、メタデータ推測処理部111は、ステップ700での形態素解析結果からキーワードの抽出を行う(ステップ703)。
ステップ701においてタイトル302がnullでないと判断された場合、メタデータ推測処理部111は、タイトル302の文字列について形態素解析を行い(ステップ702)、ステップ700とステップ702での形態素解析結果からキーワードの抽出を行う(ステップ703)。ここで、キーワードは、コンテンツテキスト中に含まれる、名詞的役割を持つひとまとまりの単語を意味する。例えば、「光の屈折」という文字列には、「光」、「屈折」、「光の屈折」の3パターンのキーワードがある。また、「凸レンズの働き」という文字列には、「凸」「レンズ」「凸レンズ」「凸レンズの働き」の4パターンのキーワードがある。ステップ703では、文字列中からこのような名詞の連続や動詞を接尾に組み合わせたキーワードを抽出する処理を行う。キーワードを抽出する手法には、様々な既存技術が適用可能である。代表的な技術には、例えば、キーワード抽出の対象文字列に対して形態素解析を施し、抽出された単語の品詞の種類に応じて連結したものをキーワードとみなすものがある(例えば、非特許文献1参照)。基本的には、名詞が1つ以上連続した文字列をキーワードとみなす手法であり、一般的によく用いられている。抽出されたキーワードをさらに詳細に分析し、よりキーワードの抽出精度を高める技術も多数提案されている。本実施形態では、このようなキーワード抽出技術を用いる。
続いて、メタデータ推測処理部111は、コンテンツテキスト内の形態素の中で品詞が動詞であるものを取得し、原型に正規化してコンテンツキーワード307に追加する(ステップ704)。例えば、「〜が見えて」という文字列があった際に、この中から「見え」が動詞として取得でき、原型は「見える」となる。
そして、メタデータ推測処理部111は、登録するコンテンツがどのカリキュラム113に該当するかコンテンツキーワード307を用いてスコアリングして推測する(ステップ705)。なお、ステップ705の処理の詳細については、図8を用いて後述する。
<カリキュラムのスコアリング処理(ステップ705)の詳細>
図8は、図7のステップ705におけるカリキュラムのスコアリング処理の詳細を説明するためのフローチャートである。このフローチャートは、登録するコンテンツの内容が、予め辞書として備えた、学年や科目などにカテゴリに分類済みのカリキュラムのどの文書と一致するかを計算するための処理を示す。コンテンツがカリキュラムのどの文書と一致するかの度合について、各カリキュラム113にコンテンツキーワード307の出現頻度を用いてスコアを計算する。スコアの計算は、コンテンツキーワード307における各単語が説明文205内で出現する頻度と、コンテンツキーワード307における各単語を説明文205内に持つカリキュラムの頻度の2つをそれぞれ集計して掛け合わせる。コンテンツキーワード307における各単語が説明文205内で出現する頻度は、カリキュラム内で説明する内容がコンテンツと一致している場合には説明文内でコンテンツキーワードが多用されることが多く、各単語の合計出現頻度が高いほどコンテンツがカリキュラムに一致しているとする指標である。また、コンテンツキーワード307における各単語を説明文205内に持つカリキュラムの頻度は、より多くのカリキュラム113で出現する単語については全カリキュラムの文書において「一般的である単語」であるとし、この頻度が高いほど該当するカリキュラムを特定するのにその単語は有効でないとする指標である。つまり、あまりに一般的過ぎる単語のスコア値を高くしないための措置である。そして、これら2つの頻度に基づき各カリキュラムのスコアを算出して、登録するコンテンツに該当するカリキュラムを推測する。
図8において、まず、メタデータ推測処理部111は、コンテンツキーワード307から処理対象として1つの単語(以降iとする)を取得する(ステップ800)。
次に、メタデータ推測処理部111は、メモリ上に格納された全てのカリキュラム113の説明文205におけるiの出現頻度を格納するための変数 total_frequencyを0で初期化する(ステップ801)。
また、メタデータ推測処理部111は、メモリ上に格納されたカリキュラム113の中からカリキュラムを1つ取得する(ステップ802)。
そして、メタデータ推測処理部111は、取得したカリキュラムの説明文におけるiの出現回数を集計し(ステップ803)、total_frequencyに出現回数を加算する(ステップ804)。なお、ステップ803におけるカリキュラムの説明文におけるiの出現回数を集計する際に、カリキュラムの説明文について形態素解析を行い、動詞に該当する単語を原型に正規化する。
メタデータ推測処理部111は、メモリ上の全てのカリキュラムについてステップ803及びステップ804の処理をしたかを確認する(ステップ805)。ステップ805においてメモリ上の全てのカリキュラムが処理されていなかった場合、処理されていないカリキュラムについてiの出現頻度を計算するためステップ802に戻り、次のカリキュラムについて処理が行われる。
ステップ805においてメモリ上のすべてのカリキュラムが処理されていた場合、メタデータ推測処理部111は、メモリ上のすべてのカリキュラムの数に対してiを1つ以上含んでいたカリキュラムの数で割った値を変数curriculum_frequencyに格納する(ステップ806)。
さらに、メタデータ推測処理部111は、予め指定した値xを底とするcurriculum_frequencyの対数(以降、IDF(i)とする)を計算する(ステップ807)。ここで、IDF(i)は、iがカリキュラム全体の文書の中でどの程度一般的に使用されている単語であるかを示す値(第1の評価値)であり、高ければ高いほど限られたカリキュラムのみで用いられた単語であることを示す。
次に、メタデータ推測処理部111は、メモリ上に格納されたカリキュラム113の中からカリキュラムを1つ取得する(ステップ808)。
そして、メタデータ推測処理部111は、当該カリキュラムにおけるiの出現頻度を total_frequency で割る(以降、TF(i))(ステップ809)。ステップ809の処理は、各カリキュラムにおけるiの出現回数をメモリ上の全カリキュラムにおけるiの出現回数で割ることで、iを含むカリキュラム間での相対的な頻度の比較を行う(第2の評価値)。また、コンテンツキーワードにおけるi以外の単語の出現回数との正規化を計る効果がある。例えば、中学校の理科におけるカリキュラムA、カリキュラムBとコンテンツキーワードの「水」、「太陽」、「植物」があるとする。カリキュラムAは光の屈折における指導内容について、カリキュラムBは植物の体のしくみについての指導内容の記述がある。カリキュラムAにおける指導内容の記述には、太陽などの光が空気中から水中に入射する際の屈折する現象について解説しており、カリキュラムBは植物の光合成や根から水を取り込む体のしくみについて解説している。また、カリキュラムAにおける「水」の出現回数は19回、「太陽」の出現回数は1回、「植物」の出現回数は0回、カリキュラムBにおける「水」の出現回数は3回、「太陽」の出現回数は2回、「植物」の出現回数は5回、であるとする。登録するコンテンツが該当するカリキュラムはBに該当するにも拘わらず、単純な合計出現回数だけで比較した場合、カリキュラムAは20回、カリキュラムBは10回となり、カリキュラムAの方が登録するコンテンツに該当すると誤って推測してしまうケースが考えられる。すると、コンテンツキーワードに「水」を含む時点で、異なる内容のコンテンツでもカリキュラムAに誤って推測しやすくなってしまう。このようなケースを回避するため、各単語の出現回数をすべての出現回数で割ることで、カリキュラム間の頻度の比較は維持したまま、他の単語に比べて頻度が高すぎる単語のスコアを抑えることができる。この場合、カリキュラムA、および、カリキュラムBにおける「水」の出現頻度は22回、「太陽」は3回、「植物」は5回であることから、正規化したカリキュラムAにおけるコンテンツキーワードの合計出現回数は、「水」「太陽」「植物」それぞれについての出現頻度を加算することにより求められ、19/22+1/3+0/5=1.2回(小数第2位四捨五入)となる。また、カリキュラムBにおけるコンテンツキーワードの合計出現回数は、同様に、3/22+2/3+5/5=1.8回(小数第2位四捨五入)となる。
続いて、メタデータ推測処理部111は、TF(i)にIDF(i)を乗算して当該カリキュラムのスコアに加算する(ステップ810)。この処理によって、当該カリキュラムにおいて多くのキーワードが高頻度で使用され、かつ、当該カリキュラムで限定的に使用されている単語がコンテンツキーワードに多いほど高いスコアとなる。
そして、メタデータ推測処理部111は、メモリ上のすべてのカリキュラムについてiの出現頻度に基づくスコアを計算したか調べる(ステップ811)。
ステップ811において、メモリ上の全てのカリキュラムについて処理していないと判断された場合、処理は、残りのカリキュラムについてスコアを計算するためステップ808に戻る。
ステップ811において、メモリ上納の全てのカリキュラムについて処理したと判断された場合、メタデータ推測処理部111は、さらに、コンテンツキーワードにおけるすべての単語を処理したか確認する(ステップ812)。
ステップ812において、すべての単語を処理していないと判断された場合、処理は、残りの単語を処理するためステップ800に戻る。
一方、ステップ812において、すべての単語を処理したと判断された場合、当該カリキュラムのスコアリング処理は終了する。
<メタデータ入力画面表示部の処理(S603)の詳細>
図9は、図6のステップ603におけるメタデータ入力画面表示部112による処理の詳細を説明するためのフローチャートである。このフローチャートは、スコアリングされたメモリ上のカリキュラム113のから、登録するコンテンツに付与するメタデータの候補としてカテゴリ情報やキーワード(特徴語)をサジェストする画面表示の処理を示す。また、候補として表示するメタデータにおいて、例えば、よりコンテンツに関連する可能性が高いキーワードを判定し、メタデータ入力画面表示上でハイライト表示を行う。
図9において、メタデータ入力画面表示部112は、まず、メモリ上にあるカリキュラム113をスコアの降順でソートする(ステップ900)。
次に、メタデータ入力画面表示部112は、先頭のカリキュラムを取得し(ステップ901)、当該カリキュラム113における学年202、科目203の値をコンテンツ情報115における学年304、科目305に格納する(ステップ902)。
さらに、メタデータ入力画面表示部112は、当該カリキュラム113のID200の値を関連ID208に持つ特徴語114を特徴語DB102から取得する(ステップ903)。
また、メタデータ入力画面表示部112は、取得した特徴語114の中で登録するコンテンツにより強く関連している単語がないか、コンテンツキーワードと比較して判定するため、メモリ上に格納されている特徴語114におけるキーワード209から1つ(Aとする)を取得し(ステップ905)、コンテンツ情報115におけるコンテンツキーワード307から一つ(Bとする)を取得する(ステップ906)。
そして、メタデータ入力画面表示部112は、AとBのどちらかの文字列が、もう一方の文字列の一部に含まれているかを確認するため、Aの文字列にBの文字列が、または、Bの文字列にAの文字列が部分一致するかを確認する(ステップ907)。
ステップ907において一方の文字列がもう一方の文字列に部分一致すると判断された場合、メタデータ入力画面表示部112は、Aは登録するコンテンツにおいてより関連する可能性が高いと判断してAをキーワード209に保持する特徴語114の重要フラグ210にtrueを格納する(ステップ908)。ステップ907において部分一致しないと判断された場合には、ステップ908の処理はスキップされる。
そして、メタデータ入力画面表示部112は、Aに対して全てのコンテンツキーワードを比較したかを確認する(ステップ909)。
ステップ909において、全てのコンテンツキーワードについて比較済みではないと判断された場合、処理は、残りのコンテンツキーワードについてAと比較するためステップ906に戻る。
一方、ステップ909において、コンテンツキーワードがA対して全て確認済であると判断された場合、メタデータ入力画面表示部112は、全てのカテゴリキーワード209におけるキーワード209について登録するコンテンツとの関連する可能性が高いかを確認したかを確認する(ステップ910)。
ステップ910において、すべての特徴語114におけるキーワード209について処理していないと判断された場合、残りの特徴語114におけるキーワード209を処理するため、処理は、ステップ905に戻る。
一方、ステップ910においてすべての特徴語114におけるキーワード209について処理したと判断された場合、メタデータ入力画面表示部112は、メタデータ入力画面(図10)を表示する(ステップ911)。なお、メタデータ入力画面を表示後、当該プログラムは利用者によるメタデータ入力画面からの処理命令の待ち状態となる。メタデータ入力画面の詳細については、図10を参照して後述する。
続いて、メタデータ入力画面表示部112は、メタデータ入力画面(図10)において、利用者が表示カテゴリ欄1005の値をプルダウンから変更したか判断する(ステップ912)。
表示カテゴリ欄1005の値が変更されなければ、処理は終了する。一方、表示カテゴリ欄1005の値が変更されると、処理はステップ913に移行する。
メタデータ入力画面表示部112は、利用者の変更命令によって選択された主題の文字列を主題204の値としてもつカリキュラム113のID200を取得する(ステップ913)。
次に、メタデータ入力画面表示部112は、当該IDを関連ID208として持つ特徴語114を特徴語DB102から取得してメモリを更新する(ステップ914)。
そして、メタデータ入力画面表示部112は、利用者によって指定されたカリキュラムに関連付けられたカテゴリキーワードについて、登録するコンテンツと関連する可能性が高いかを判定するためステップ905〜ステップ911の処理を行い、メタデータ入力画面における関連キーワード欄1006を更新して画面に再描画する。例えば、後述の図12における表示カテゴリ1200のプルダウンリストから利用者が「2.地層の様子」を選択した場合、メタデータ入力画面表示部112は、当該文字列を主題として持つカリキュラムを取得し、当該カリキュラムに関連付けられた特徴語を取得し、関連キーワード欄1201を更新する。なお、関連キーワード欄1201を更新する際に、利用者によってチェックボックスにチェックが付いている単語はメモリ上に保持されたままとなり、更新後も関連キーワード欄1201に表示される。
<メタデータ入力画面>
図10を参照して、メタデータ入力画面について詳細に説明する。図10は、メタデータ入力画面の一例を示す図である。
メタデータ入力画面では、コンテンツのメタデータの推測結果として学年や科目は利用者によってあらかじめ選択済みとして表示され、かつ、コンテンツに関連するキーワード候補(特徴語)が表示される。
GUIウィンドウにおいて、登録するファイルのファイルサーバ108におけるファイルパスがファイル欄1000に表示され、登録するファイルのサムネイル画像がサムネイル欄1001に表示されている。
また、タイトル欄1002には、メモリ上に格納されたコンテンツ情報115におけるタイトル302が表示される。学年欄1003には学年304が、科目欄1004には科目305が表示される。なお、タイトル欄1002はテキストエリアになっており、利用者が内容を自由に入力することができる。また、学年欄1003と科目欄1004は、プルダウンリストになっており、コンテンツ情報115における学校区分303で指定されたカテゴリに対応関係のある値があらかじめリストとして備える。例えば、学校区分303が「中学校」である場合、学年欄1003は「1年生」、「2年生」、「3年生」を、科目欄1004は「国語」、「数学」、「英語」、「理科」、「社会」、「音楽」、「美術」、「保健体育」、「技術・家庭」、「道徳」を、あらかじめリストとして備える。学年欄1003及び科目欄1004には、コンテンツ情報115における学年304と科目305と同じ文字列が選択済みとして表示される。
上述のように、データメモリ105は、全てのカリキュラムの情報を格納しているが、例えば、カリキュラム113の主題204はリストの順で格納されている。そして、表示カテゴリ欄1005は、選択されたカリキュラムの主題を表示する。また、表示カテゴリ欄1005はプルダウンリストとなっており、利用者はそのプルダウンリストから所望のカリキュラムの主題を選択できるようになっている。利用者が当該プルダウンリストによる選択値を変更した場合、待ち状態のプログラムに対して処理を開始する命令を渡す(図9のステップ913参照)。なお、当該メタデータ入力画面が表示された際の初期選択値は、カリキュラム113のリストにおける先頭の主題204とされている。
関連キーワード欄1006においては、データメモリ105上における特徴語114であって、表示カテゴリ欄1005に表示された主題を有するカリキュラムに関連付けられた特徴語114のキーワード209が、チェックボックス付きで表示される。また、特徴語114における重要フラグ210がtrueである場合、キーワードを太字にするなどして強調して表示する。なお、太字表示以外にも色を変えたり、文字の大きさを変える等により強調表示しても良い。これにより、利用者は表示されたキーワードの中から登録するコンテンツに関連性が高いキーワードを探しやすくなる。
追加キーワード欄1007はテキストエリアになっており、関連キーワード欄に表示されたキーワード候補以外で任意に追加したいキーワードがある場合に、利用者がキーボードで直接入力できるようになっている。追加したいキーワードが複数ある場合は、スペース区切りで入力を行う。
利用者は、サムネイル1001で登録しようとするコンテンツの内容を確認しながら、当該コンテンツのタイトルの入力や、推測された学年、科目、関連キーワードの確認と選択を行う。
そして、図10において、利用者は、各項目欄の入力が終わったら登録ボタン1008を押下することで、メタデータ入力画面で入力・選択された値がコンテンツ情報115に格納される。ファイル欄1000はコンテンツ情報115におけるファイル301、タイトル欄1002はタイトル302、学年欄1003は学年304、科目欄1004は科目305、関連キーワード欄1006のチェックボックスがチェックされた単語は付与キーワード308、追加キーワード欄1007は文字列をスペース区切りに分割してそれぞれ付与キーワード308、へ格納する。そして、コンテンツのメタデータが格納されたコンテンツ情報115をコンテンツ情報DB102へ格納する。このようにして利用者は、登録するコンテンツについてメタデータ入力画面からメタデータを登録することが出来る。
また、利用者がタイトル欄1002、学年欄1003、科目欄1004のいずれかに対して入力・変更した場合、当該コンテンツ登録プログラムは、処理命令を画面から受け付けて処理を開始する。そして、メタデータ入力画面におけるタイトル欄1002、学年欄1003、科目欄1004の値が、コンテンツ情報115におけるタイトル302、学年304、科目305に格納される。この場合、ステップ912において表示カテゴリ欄の値は変更されていないため、図9のフローチャートの処理が終了する。また、図6のフローチャートにおけるステップ604において、利用者によってタイトル、学年、科目のいずれかの値が入力か変更されていると判断され、処理はステップ601に戻り、変更された学年や科目の条件におけるカリキュラムのみが取得され、コンテンツのメタデータが再計算される。
ステップ602のコンテンツのメタデータを推測する処理においても、利用者によって入力されたタイトルの文字列からキーワードが抽出され、コンテンツキーワードに追加される。この追加されたコンテンツキーワードは、該当するカリキュラムの推定に利用される。
例えば、図10において、学年が「1年生」から「3年生」に変更された場合、メモリ上のコンテンツ情報115におけるタイトル302は「火山の噴火」、学校区分303は「中学校」、学年304は「3年生」、科目305は「理科」に更新される。そして、カリキュラムDB100からは、学校区分が「中学校」、学年が「3年生」、科目が「理科」であるカテゴリに分類されたカリキュラム113のみが取得され、登録するコンテンツが取得したカリキュラムに対してスコアが再計算される。
図11は、スコアの再計算後のメタデータ入力画面を示す図である。利用者が学年欄1100を「1年生」から「3年生」に変更したことに伴い、表示カテゴリ1101と関連キーワード欄1102が更新される。そして、利用者が登録ボタンを押下することにより、関連キーワード(関連特徴語)欄1102に表示され、利用者がチェックマークを付与したキーワードが当該登録しようとするコンテンツのメタデータとして登録される。
<まとめ>
(1)以上、登録するコンテンツについてメタデータを付与するためのコンテンツ管理装置(コンテンツ管理システム)について説明している。当該コンテンツ管理装置は、登録するコンテンツから取得できるテキスト情報を基に、学年や科目などあらかじめ階層化されたカテゴリに分類したカリキュラム(コンテンツ管理情報)の各文書(コンテンツの説明文)にコンテンツを分類して、カテゴリやカリキュラムに関連付けされたキーワード(特徴語)をサジェストする。特に、カリキュラムに沿って、テキストや画像を用いて作成された教育分野向けコンテンツでは、カリキュラムで指導を支持された事柄を説明するために各主題で限定的、または、高頻度な単語を含むことが多い。このような特徴を利用することで、コンテンツをカリキュラムの主題毎に分類しやすくなる。さらに、主題毎に特徴的な単語(特徴語)をあらかじめ定義して関連付けすることで、コンテンツに関連するキーワードとしてサジェストを行うことを特徴とする。キーワードをあらかじめ辞書として備えることで、コンテンツ上のテキストにはないが主題を説明するために重要な単語や主題全体を示す概要的な言葉、表記揺れなどに対応することができる。このようにしてサジェストされたキーワードについて、利用者はチェックボックスで選択するだけでよい。このようにすることにより、コンテンツ内のテキスト情報から検索や利用者の内容理解に有効なメタデータを推測し、推測結果を登録画面に反映させることでコンテンツの登録作業の簡素化することができる。
また、図10におけるメタデータ登録画面では、メタデータ項目を上からタイトル、学年、科目の順に値の入力、確認をおこなうことで、カリキュラムの対象が絞られていくため、登録するコンテンツに該当するカリキュラムを推測する精度が高くなり、関連キーワードを選択する際にはよりコンテンツに適切なキーワードをサジェストすることが可能となる。このように、当該特徴抽出装置を用いることで、検索時やコンテンツの情報を参照した利用者の内容理解の際に有効なメタデータ付与の登録作業を簡素化することができる。
本実施形態では、コンテンツファイルを登録する処理について説明している。また、コンテンツファイル以外でも、Web上で公開されたWebページなどでもよい。この場合、登録したいWebページのURLを入力として、図6のステップ600におけるコンテンツ情報を抽出する処理の際に、Webページ内のテキストを取得してコンテンツテキスト306に格納する。このようにすることで、ファイルからテキストを取得した場合と同様の処理が可能となる。
また、本実施形態では、ファイルサーバ108上のOfficeファイルやFlashファイルなどのテキスト情報を含むコンテンツファイルを登録する処理について説明している。また、テキスト情報を含むファイルに限らず、画像などのファイル内にテキスト情報を含まないファイルを登録してもよい。この場合、メタデータ入力画面において、登録する画像ファイルの活用事例などを入力するテキストエリアを追加して利用者に入力させる。利用者が入力した活用事例の文書を形態素解析し、図7のステップ703および704の処理によってキーワードを抽出しコンテンツキーワードとする。また、画像からOCR(Optical Character Recognition)で文字列を抽出して、それら文字列をコンテンツキーワードとしても良い。このようにすることで、各カリキュラムのスコアリングについて、テキスト情報をもつコンテンツファイルと同様処理することができる。また、利用者が当該テキストエリアに文字を入力する度に、該当するカリキュラム113を再計算して動的に関連キーワード欄1006を更新する。
(2)本実施形態では、図6のステップ601の処理において、学年や科目などあらかじめ階層されたカテゴリに分類した教育分野向けカリキュラムについてコンテンツを分類する処理について説明している。また、教育分野向けカリキュラムに限らず、コールセンターや工業製品のマニュアルなどを用いてもよい。例えば、コールセンターのマニュアルを用いた場合、マニュアルをあらかじめ対応業務ごとに分類した文書を辞書としてそなえることで、問い合わせやクレームに対応するマニュアルの部分を容易に特定できるほか、カテゴリごとの統計処理などに活用することができる。さらに、対応業務毎に、過去の対応事例などをあらかじめ関連付けさせておくことで、コールセンターの利用者にサジェストすることが出来る。また、製品マニュアルを用いた場合でも同様に、顧客からのクレーム情報に対して不具合内容毎に分類することで、不具合に対応するマニュアル部分の特定や不具合ごとの統計処理などに活用できる。
さらに、例えば、個人が自己の所有する車を中古車として販売したい場合にデータベースに登録するときの処理にも適用することができる。この場合、本実施形態で示したカリキュラム情報に代えて、車の車種、年式、色、状態等を管理するためのコンテンツ管理情報と、それに関連付けられた特徴語を予め用意しておくことになる。また、個人が特定の趣味に関するコンテンツをデータベースに登録して情報を他の者と共有したいと考える場合にも適用することができる。この場合、カリキュラム情報に代えて、様々な趣味のカテゴリで構成されるコンテンツ管理情報とそれに関連付けられる特徴語を予め用意しておくことになる。
このように、本発明は教育用のコンテンツを登録する際のメタデータ提示処理のみに適用されるのではなく、様々な種類のコンテンツを登録する際のメタデータ提示処理にも提供されることが理解される。
(3)本実施形態では、図9のステップ903、および、ステップ914の処理において、カリキュラムの各主題の特徴語について、あらかじめ用意した主題ごとの特徴的な単語を特徴語DBから取得する処理について説明している。当該処理の特徴語DBから特徴語を取得する処理の代わりに、特徴語をカリキュラムの文書から自動生成してもよい。この場合、主題毎に分類したカリキュラムの文書を対象に形態素解析を行い、TF・IDFなどの頻度を基準にした手法や相互情報量やカイ二乗検定などの単語の共起頻度を基準にした手法を用いることで実現できる。
(4)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び/又はコンポーネントは、データを管理する機能を有するコンピュータ化ストレージシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。
100・・・カリキュラムDB
101・・・特徴語DB
102・・・コンテンツ情報DB
103・・・中央処理装置
104・・・プログラムメモリ
105・・・データメモリ
106・・・表示装置
107・・・入力装置
108・・・ファイルサーバ
109・・・登録コンテンツ選択画面表示部
110・・・コンテンツ情報抽出処理部
111・・・メタデータ推測処理部
112・・・メタデータ入力画面表示部
113・・・カリキュラム
114・・・特徴語
115・・・コンテンツ情報

Claims (15)

  1. 利用者がコンテンツを登録する際の支援情報として当該コンテンツのメタデータを提供するコンテンツ管理装置であって、
    前記コンテンツを登録する際に、当該コンテンツを分類するために用いられ、予め用意された複数種類のコンテンツ管理情報と、当該各コンテンツ情報に関連付けられた、予め用意された特徴語情報と、を格納する記憶装置と、
    前記記憶装置に格納された前記コンテンツ管理情報と前記特徴語情報に基づいて、登録しようとするコンテンツのメタデータを前記支援情報として取得し、出力するプロセッサと、を有し、
    前記コンテンツ管理情報は、コンテンツのカテゴリに関する説明文を含み、
    前記プロセッサは、
    前記登録しようとするコンテンツに含まれるキーワードを抽出する処理と、
    前記抽出したキーワードの、前記コンテンツ管理情報の前記説明文における出現頻度を計算し、当該出現頻度に基づいて前記複数種類のコンテンツ管理情報をスコアリングする処理と、
    前記スコアリングする処理によって得られたスコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を取得し、当該特徴語情報を前記支援情報として出力する処理と、
    を実行することを特徴とするコンテンツ管理装置。
  2. 請求項1において、
    前記プロセッサは、前記抽出したキーワードが複数のコンテンツ管理情報に亘って出現する場合、前記スコアリングする処理において、
    前記抽出したキーワードが特徴的で相対的に重要性が高いか否かを示す第1の評価値を計算し、
    各コンテンツ管理情報における前記抽出したキーワードの出現頻度を正規化して得られる第2の評価値を計算し、
    前記第1の評価値と前記第2の評価値を乗算することにより、各コンテンツ管理情報の前記スコア値を計算する、ことを特徴とするコンテンツ管理装置。
  3. 請求項2において、
    前記プロセッサは、
    前記コンテンツ管理情報の全体の個数を、前記抽出したキーワードが出現するコンテンツ管理情報の個数で除算することにより、前記第1の評価値を計算し、
    各コンテンツ管理情報における前記抽出したキーワードの出現頻度を、全体のコンテンツ管理情報における前記抽出したキーワードの出現頻度で除算することにより、前記第2の評価値を計算する、ことを特徴とするコンテンツ管理装置。
  4. 請求項1において、
    前記プロセッサは、前記出力する処理において、前記スコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を利用者が選択できるようにするためのGUIを生成し、出力することを特徴とするコンテンツ管理装置。
  5. 請求項4において、
    前記プロセッサは、さらに、
    前記スコア値が最も高いコンテンツ管理情報に関連付けられた前記特徴語情報に含まれる複数の特徴語について、前記抽出したキーワードとの間に互いに包含関係にあるか判断し、包含関係にある特徴語を含む特徴語情報に対して当該包含関係にあることを示すフラグ情報を付与する処理を実行し、
    前記プロセッサは、前記出力する処理において、前記フラグ情報が付与された特徴語情報の特徴語を、前記フラグ情報を有さない特徴語情報の特徴語とは区別して出力するように、前記GUIを生成することを特徴とするコンテンツ管理装置。
  6. 請求項1において、
    前記コンテンツ管理情報は、コンテンツを分類する際に用いられる、複数種類の階層化されたカテゴリ情報を有し、
    前記複数種類の階層化されたカテゴリ情報は、コンテンツを第1の区分で分類するための大項目カテゴリ情報と、前記第1の区分で分類されるコンテンツをさらに第2の区分で細分化して分類するための中項目カテゴリ情報と、前記第2の区分で分類されるコンテンツをさらに第3の区分で細分化して分類するための小項目カテゴリ情報と、を有し、
    前記プロセッサは、前記利用者によって指定されたカテゴリ情報に基づいて、前記抽出されたキーワードの出現頻度をカウントする対象となるコンテンツ管理情報を絞り込むことを特徴とするコンテンツ管理装置。
  7. 請求項1のコンテンツ管理装置と、
    表示装置と、入力装置と、を有する、少なくとも1つのクライアント端末装置と、を有し、
    前記クライアント端末装置は、前記入力装置から指定された、登録すべきコンテンツを前記コンテンツ管理装置に送信し、
    前記コンテンツ管理装置は、前記支援情報を前記クライアント端末装置に送信し、
    前記クライアント端末装置の表示装置は、前記コンテンツ管理装置から受信した支援情報を表示することを特徴とするコンテンツ管理システム。
  8. 利用者がコンテンツを登録する際の支援情報として当該コンテンツのメタデータを提供するコンテンツ管理方法であって、
    コンテンツ管理装置のプロセッサが、前記コンテンツを登録する際に、当該コンテンツを分類するために用いられ、予め用意された複数種類のコンテンツ管理情報と、当該各コンテンツ情報に関連付けられた、予め用意された特徴語情報と、を格納する記憶装置を提供するステップと、
    前記プロセッサが、前記記憶装置に格納された前記コンテンツ管理情報と前記特徴語情報に基づいて、登録しようとするコンテンツのメタデータを前記支援情報として取得し、出力するステップと、を有し、
    前記コンテンツ管理情報は、コンテンツのカテゴリに関する説明文を含み、
    前記出力するステップにおいて、前記プロセッサは、
    前記登録しようとするコンテンツに含まれるキーワードを抽出する処理と、
    前記抽出したキーワードの、前記コンテンツ管理情報の前記説明文における出現頻度を計算し、当該出現頻度に基づいて前記複数種類のコンテンツ管理情報をスコアリングする処理と、
    前記スコアリングする処理によって得られたスコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を取得し、当該特徴語情報を前記支援情報として出力する処理と、
    を実行することを特徴とするコンテンツ管理方法。
  9. 請求項8において、
    前記プロセッサは、前記抽出したキーワードが複数のコンテンツ管理情報に亘って出現する場合、前記スコアリングする処理において、
    前記抽出したキーワードが特徴的で相対的に重要性が高いか否かを示す第1の評価値を計算し、
    各コンテンツ管理情報における前記抽出したキーワードの出現頻度を正規化して得られる第2の評価値を計算し、
    前記第1の評価値と前記第2の評価値を乗算することにより、各コンテンツ管理情報の前記スコア値を計算する、ことを特徴とするコンテンツ管理方法。
  10. 請求項9において、
    前記プロセッサは、
    前記コンテンツ管理情報の全体の個数を、前記抽出したキーワードが出現するコンテンツ管理情報の個数で除算することにより、前記第1の評価値を計算し、
    各コンテンツ管理情報における前記抽出したキーワードの出現頻度を、全体のコンテンツ管理情報における前記抽出したキーワードの出現頻度で除算することにより、前記第2の評価値を計算する、ことを特徴とするコンテンツ管理方法。
  11. 請求項8において、
    前記プロセッサは、前記出力する処理において、前記スコア値が最も高いコンテンツ管理情報に関連付けられた特徴語情報を利用者が選択できるようにするためのGUIを生成し、出力することを特徴とするコンテンツ管理方法。
  12. 請求項11において、
    前記プロセッサは、さらに、
    前記スコア値が最も高いコンテンツ管理情報に関連付けられた前記特徴語情報に含まれる複数の特徴語について、前記抽出したキーワードとの間に互いに包含関係にあるか判断し、包含関係にある特徴語を含む特徴語情報に対して当該包含関係にあることを示すフラグ情報を付与する処理を実行し、
    前記プロセッサは、前記出力する処理において、前記フラグ情報が付与された特徴語情報の特徴語を、前記フラグ情報を有さない特徴語情報の特徴語とは区別して出力するように、前記GUIを生成することを特徴とするコンテンツ管理方法。
  13. 請求項8において、
    前記コンテンツ管理情報は、コンテンツを分類する際に用いられる、複数種類の階層化されたカテゴリ情報を有し、
    前記複数種類の階層化されたカテゴリ情報は、コンテンツを第1の区分で分類するための大項目カテゴリ情報と、前記第1の区分で分類されるコンテンツをさらに第2の区分で細分化して分類するための中項目カテゴリ情報と、前記第2の区分で分類されるコンテンツをさらに第3の区分で細分化して分類するための小項目カテゴリ情報と、を有し、
    前記方法は、さらに、
    前記プロセッサが、前記利用者によって指定されたカテゴリ情報に基づいて、前記抽出されたキーワードの出現頻度をカウントする対象となるコンテンツ管理情報を絞り込むステップを有することを特徴とするコンテンツ管理方法。
  14. コンピュータに請求項8のコンテンツ管理方法を実行させるためのプログラム。
  15. コンピュータに請求項8のコンテンツ管理方法を実行させるためのプログラムを記憶する、コンピュータ読み取り可能な記憶媒体。
JP2012193445A 2012-09-03 2012-09-03 コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体 Expired - Fee Related JP5877775B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012193445A JP5877775B2 (ja) 2012-09-03 2012-09-03 コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012193445A JP5877775B2 (ja) 2012-09-03 2012-09-03 コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2014049044A true JP2014049044A (ja) 2014-03-17
JP5877775B2 JP5877775B2 (ja) 2016-03-08

Family

ID=50608607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012193445A Expired - Fee Related JP5877775B2 (ja) 2012-09-03 2012-09-03 コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体

Country Status (1)

Country Link
JP (1) JP5877775B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016148996A (ja) * 2015-02-12 2016-08-18 株式会社光文書院 電子ファイル管理方法
WO2021260865A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 分類装置、分類方法および分類プログラム
WO2024106721A1 (ko) * 2022-11-15 2024-05-23 순천대학교 산학협력단 인공지능 기반의 광학적 문자 판독 모델을 활용한 스마트팜 영농데이터 변환 시스템

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316897A (ja) * 2004-04-30 2005-11-10 Nippon Telegr & Teleph Corp <Ntt> 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体
JP2008077387A (ja) * 2006-09-21 2008-04-03 Sony Corp 情報処理装置および情報処理方法、並びにプログラム
JP2009259150A (ja) * 2008-04-21 2009-11-05 Fujitsu Ltd 情報検索装置
JP2010049372A (ja) * 2008-08-20 2010-03-04 G 02:Kk コンテンツ検索装置
US20100169243A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
JP2010268461A (ja) * 2009-05-13 2010-11-25 Sony Europe Ltd コンテンツ検索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316897A (ja) * 2004-04-30 2005-11-10 Nippon Telegr & Teleph Corp <Ntt> 視覚的分類方法及び装置及びプログラム及び視覚的分類プログラムを格納した記憶媒体
JP2008077387A (ja) * 2006-09-21 2008-04-03 Sony Corp 情報処理装置および情報処理方法、並びにプログラム
JP2009259150A (ja) * 2008-04-21 2009-11-05 Fujitsu Ltd 情報検索装置
JP2010049372A (ja) * 2008-08-20 2010-03-04 G 02:Kk コンテンツ検索装置
US20100169243A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
JP2010268461A (ja) * 2009-05-13 2010-11-25 Sony Europe Ltd コンテンツ検索方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016148996A (ja) * 2015-02-12 2016-08-18 株式会社光文書院 電子ファイル管理方法
WO2021260865A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 分類装置、分類方法および分類プログラム
JPWO2021260865A1 (ja) * 2020-06-24 2021-12-30
JP7468648B2 (ja) 2020-06-24 2024-04-16 日本電信電話株式会社 分類装置、分類方法および分類プログラム
WO2024106721A1 (ko) * 2022-11-15 2024-05-23 순천대학교 산학협력단 인공지능 기반의 광학적 문자 판독 모델을 활용한 스마트팜 영농데이터 변환 시스템

Also Published As

Publication number Publication date
JP5877775B2 (ja) 2016-03-08

Similar Documents

Publication Publication Date Title
US9881037B2 (en) Method for systematic mass normalization of titles
CN106663125B (zh) 提问句生成装置以及记录介质
Gillings et al. Corpus-assisted discourse studies
Dong et al. Publication trends and co-citation mapping of translation studies between 2000 and 2015
US20060177808A1 (en) Apparatus for ability evaluation, method of evaluating ability, and computer program product for ability evaluation
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
US20160378853A1 (en) Systems and methods for reducing search-ability of problem statement text
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
JP2020135891A (ja) 検索提案を提供する方法、装置、機器及び媒体
Dougherty et al. Hands-on data visualization
KR20220020184A (ko) 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템
US10943073B2 (en) Dynamic candidate expectation prediction
Tietz et al. Semantic Annotation and Information Visualization for Blogposts with refer.
JP5877775B2 (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
KR20200064490A (ko) 프로필 자동생성서버 및 방법
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
CN113157888A (zh) 支持多知识来源的询问答复方法、装置和电子设备
Neves et al. Automatic content recommendation and aggregation according to scorm
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2019153158A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Shimabukuro et al. H-Matrix: Hierarchical Matrix for visual analysis of cross-linguistic features in large learner corpora
Seifert et al. Text Representation for Efficient Document Annotation.
JP2016035688A (ja) テキスト分析装置、テキスト分析方法、テキスト分析プログラムおよび記録媒体
Soyusiawaty et al. Similarity detector on the student assignment document using Levenshtein distance method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150126

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20150827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160126

R151 Written notification of patent or utility model registration

Ref document number: 5877775

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees