JP2006099754A

JP2006099754A - キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置

Info

Publication number: JP2006099754A
Application number: JP2005252826A
Authority: JP
Inventors: Yutaka Matsuo; 豊松尾; Junichiro Mori; 純一郎森; Koichi Hashida; 浩一橋田
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2004-09-01
Filing date: 2005-08-31
Publication date: 2006-04-13
Anticipated expiration: 2025-08-31
Also published as: JP4613346B2

Abstract

【目的】Ｗｅｂページからの人および人間関係の汎用的なキーワード、特に人や人間関係に関する特定のコンテクストに関連したキーワードを抽出する方法等、および抽出したキーワードを利用してメタデータを作成する方法等を提供する。
【構成】名前ＮおよびコンテクストワードＣの入力部からの入力を受け付け（Ｓ１）、入力された名前Ｎを含むＷｅｂページからキーワード候補群Ｗを抽出し（Ｓ２）、抽出されたキーワード候補群Ｗの各キーワード候補ｗについて、名前ＮおよびコンテクストワードＣとの関連度ｒを算出し（Ｓ３）、そして、算出された関連度ｒに基づいて、キーワード候補群Ｗの中から、名前ＮとコンテクストワードＣとを関係付けるキーワードｘを抽出する（Ｓ４）。
【選択図】図１

Description

本願発明は、人とコンテクストとを関係付けるキーワード、言い換えると人の特定のコンテクストに関連したキーワード、を抽出する方法等、並びに抽出されたキーワードに基づいてその人に関するメタデータを作成する方法等に関するものである。

セマンティックウェブの流れを受け、Ｗｅｂ上では近年、コンテンツに対するメタデータの付加が行われるようになってきている。特に最近は、Weblogなどのコンテンツ作成ツールの普及により、メタデータの流通が盛んに行われ始めている。Ｗｅｂ上のもう一つの新たな動向として、ソーシャルネットワークがある。ソーシャルネッワークは、実社会での友人や知り合いなどの人間関係をＷｅｂ上に取り込んだ、実世界志向のＷｅｂコミュニティである。このソーシャルネットワークは、スケールフリーネットワークの性質を持ち、ネットワーク分析の観点からも注目されている。これらメタデータの流通およびソーシャルネットワークは、現在のＷｅｂの潮流を形成しつつある。

Ｗｅｂにおけるこのような流れを受けて、人および人間関係に着目したメタデータの語彙や記述フレームワークが、近年提案されてきている（非特許文献１，２，３参照）。中でも、人および人間関係をＸＭＬ(Extensible Markup Language) 、ＲＤＦ(Resource Description Framework)を用いて記述するフレームワークであるＦＯＡＦ(Fried of a Friend)が盛んに提唱されており（非特許文献４参照）、ユーザは、ＦＯＡＦが提供する語彙やその他のＲＤＦ語彙を用いて、自分の情報や知り合いの情報を記述し、各人のプロフィールのメタデータとして自身のホームページやWeblogに付加することができる。人間関係を表現するＦＯＡＦファイルは、ソーシャルネットワークにおける個人プロフィールとしても利用できる。
Lars Marius Garshol, "Living with topic maps and RDF",http://www.ontopia.net/topicmaps/materials/tmrdf.html, Ontopia, 2003 Renato Iannela, "Representing vCard Objects in RDF/XML",http://www.w3.org/TR/2001/NOTE-vcard-rdf-20010222/, W3C Note, 2001 "DAML Ontology Library", http://www.daml.org/ontologies/, 2004 Dan Brickley and Libby Miller, "FOAF Vocabulary",http://xmlns.com/foaf/0.1/, 2004 Hui Han, et al., "Automatic Document Metadata Extraction usingSupport Vector Machines", Proceedings of the ACM IEEE Joint Conference onDigital Libraries, pp.37-48, 2003 井形，小櫻，片山，津田，"セマンティックグループウェア：RDF を用いたKnowwho の実現"，セマンティックウェブとオントロジー研究会，A303-05，2004 H. Kautz, B. Selman and M. Shah, "The Hidden Web", AI Magazine,Vol.18, No.2, pp.27-36, 1997 原田，佐藤，風間，"Web 上のキーパーソンの発見と関係の可視化"，情報処理学会研究報告，DBS-130/FI-71, 2003 山本あゆみ，佐藤理史, "ワールドワイドウェブからの人物情報の自動収集"，情報処理学会研究報告，2000-ICS-119-24，pp.173-180,2000 松平，上田，大沼，渕上，森田, "文章からのキーワード抽出と関連情報の収集"，セマンティックウェブとオントロジー研究会，A303-02,2004 H. Alani, et al., "Automatic Extraction of Knowledge fromWebDocuments", Workshop of Human Language Technology for the Semantic Web andWebServices, 2nd International Semantic Web Conference, Sanibel Island, Florida, USA,2003 A. Dingli, F. Ciravegna, D. Guthrie and Y. Wilks, "MiningWeb SitesUsing Usupervised Adaptive Information Extraction", Proceedings of the 10thConference of the European Chapter of the Association for Computational Linguistics,Budapest, Hungary, 2003 P. Velardi, M. Missikoff and R. Basili, "Identification of relevantterms to support the construction of Domain Ontogies", ACL-EACL Workshop onHuman Language Technologies, Toulouse, France, 2001 "Windows（登録商標）用専門用語（キーワード）自動抽出システム"termex"の解説"，http://gensen.dl.itc.u-tokyo.ac.jp/win.html

ところで、セマンティックウェブ実現の課題の一つに、メタデータのアノテーションがある。アノテーションの半自動化および自動化ツールなどにより、徐々にメタデータ化されたＷｅｂコンテンツが普及し始めてはいるが、現在のところＷｅｂ上のほとんどのコンテンツはメタデータを持たない非構造化データである。これら既存コンテンツをメタデータ化し利用することが今後、セマンティックウェブ普及のための重要な要因になると考えられる。

ＦＯＡＦのような個人メタデータやソーシャルネットワークにおける個人プロフィールは、多くの場合、各ユーザが自身で作成する。これらのデータは、本人しか知りえない情報を含むため、プライバシーの観点から各人が公開すべき情報を選択しつつ作成するのが一般的である。

一方で、個人メタデータの中には、すでにＷｅｂ上の既存の情報源の中で公になっているものが多く存在する。ＦＯＡＦの語彙の中には個人の活動を示す「組織」や「プロジェクト」などの属性がある。またソーシャルネットワークサービスの多くの個人プロフィールは「所属組織」や「興味」といった項目がある。仮にある人が研究者だとすると、これらの情報はＷｅｂ上の個人ページや組織、学会ページに容易に見つけることができる。また、所属組織やプロジェクトのメンバーページ、論文の共著者情報など、その人の研究活動の上での知り合い関係情報もＷｅｂページは含んでいる。最近では、WeblogやWeb日記ツールの普及によりユーザの多様な情報が、Ｗｅｂ上に現れてきている。

既存のＷｅｂページに含まれるこれらの潜在的な情報は、ＦＯＡＦのような個人メタデータの自動アノテーションやソーシャルネットワークへの応用の大きな可能性を含んでいる。にもかかわらず、従来、これらの情報が十分に活用されることはなかった。

個人メタデータの抽出技術としては、特定の文章からの情報抽出がある。たとえば、論文からの著者情報の抽出などは自然言語処理や機械学習の手法を用いた多くの研究がなされている（たとえば非特許文献５参照）。

しかしながら、Ｗｅｂページのように決まった構造を持たず多様な文章を対象とする場合には、特定の文章に特化した既存の情報抽出手法の利用は難しい。

そこで、本願発明は、以上の事情に鑑み、Ｗｅｂページからの人および人間関係の汎用的なキーワード、特に人に関する特定のコンテクストに関連したキーワードを抽出する方法等、および抽出したキーワードを利用してメタデータを作成する方法等を提供することを課題としている。

本願発明は、上記の課題を解決するものとして、第１には、処理部が、名前ＮおよびコンテクストワードＣの入力部からの入力を受け付けるステップ、前記処理部が、入力された名前Ｎを含む公開データからキーワード候補群Ｗを抽出するステップ、前記処理部が、抽出されたキーワード候補群Ｗの各キーワード候補ｗについて、名前ＮおよびコンテクストワードＣとの関連度ｒを算出するステップ、および前記処理部が、算出された関連度ｒに基づいて、キーワード候補群Ｗの中から、名前ＮとコンテクストワードＣとを関係付けるキーワードｘを抽出するステップを有することを特徴とするキーワード抽出方法を提供する。

第２には、前記処理部が、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの前記関連度ｒとして、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。

第３には、前記処理部が、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの前記共起の強さとして、キーワード候補ｗと名前Ｎとの共起の強さおよびキーワード候補ｗとコンテクストワードＣとの共起の強さを合成した共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。

第５には、前記処理部が、キーワード候補ｗと名前Ｎとの前記共起の強さとして、
ｒ（Ｎ，ｗ）＝|Ｎ and ｗ|／（|Ｎ|＋|ｗ|−|Ｎ and ｗ|）、または
ｒ（Ｎ，ｗ）＝log|Ｎ or ｗ|／|Ｎ||ｗ|、または
ｒ（Ｎ，ｗ）＝２|Ｎ and ｗ|／（|Ｎ|＋|ｗ|）、または
ｒ（Ｎ，ｗ）＝|Ｎ and ｗ|／min（|Ｎ|，|ｗ|）
を算出し、キーワード候補ｗとコンテクストワードＣとの前記共起の強さとして、
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／（|Ｃ|＋|ｗ|−|Ｃand ｗ|）、または
ｒ（Ｃ，ｗ）＝log|Ｃ or ｗ|／|Ｃ||ｗ|、または
ｒ（Ｃ，ｗ）＝２|Ｃ and ｗ|／（|Ｃ|＋|ｗ|）、または
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／min（|Ｃ|，|ｗ|）
を算出し、そして、前記合成した共起の強さとして、
ｒ（Ｎ，Ｃ，ｗ）＝ｒ（Ｎ，ｗ）／max（ｒ（Ｎ，ｗ））
＋α・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
を算出することを特徴とする前記キーワード抽出方法を提供する。

第６には、処理部が、少なくとも二つの名前Ｎ１，Ｎ２およびこれらに共通するコンテクストワードＣの入力部からの入力を受け付けるステップ、前記処理部が、入力された名前Ｎ１，Ｎ２を含む公開データからキーワード候補群Ｗを抽出するステップ、前記処理部が、抽出されたキーワード候補群Ｗの各キーワード候補ｗについて、名前Ｎ１，Ｎ２およびコンテクストワードＣとの関連度ｒを算出するステップ、および前記処理部が、算出された関連度ｒに基づいて、前記キーワード候補群Ｗの中から、名前Ｎ１，Ｎ２とコンテクストワードＣとを関係付けるキーワードｘを抽出するステップを有することを特徴とするキーワード抽出方法を提供する。

第７には、前記処理部が、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの前記関連度ｒとして、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。

第８には、前記処理部が、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの前記共起の強さとして、キーワード候補ｗと名前Ｎ１との共起の強さ、キーワード候補ｗと名前Ｎ２との共起の強さおよびキーワード候補ｗとコンテクストワードＣとの共起の強さを合成した共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。

第１０には、前記処理部が、キーワード候補ｗと名前Ｎ１との前記共起の強さとして、
ｒ（Ｎ１，ｗ）＝|Ｎ１ and ｗ|／（|Ｎ１|＋|ｗ|−|Ｎ１ and ｗ|）、または
ｒ（Ｎ１，ｗ）＝log|Ｎ１ or ｗ|／|Ｎ１||ｗ|、または
ｒ（Ｎ１，ｗ）＝２|Ｎ１ and ｗ|／（|Ｎ１|＋|ｗ|）、または
ｒ（Ｎ１，ｗ）＝|Ｎ１ and ｗ|／min（|Ｎ１|，|ｗ|）
を算出し、キーワード候補ｗと名前Ｎ２との前記共起の強さとして、
ｒ（Ｎ２，ｗ）＝|Ｎ２ and ｗ|／（|Ｎ２|＋|ｗ|−|Ｎ２ and ｗ|）、または
ｒ（Ｎ２，ｗ）＝log|Ｎ２ or ｗ|／|Ｎ２||ｗ|、または
ｒ（Ｎ２，ｗ）＝２|Ｎ２ and ｗ|／（|Ｎ２|＋|ｗ|）、または
ｒ（Ｎ２，ｗ）＝|Ｎ２ and ｗ|／min（|Ｎ２|，|ｗ|）
を算出し、キーワード候補ｗとコンテクストワードＣとの前記共起の強さとして、
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／（|Ｃ|＋|ｗ|−|Ｃand ｗ|）、または
ｒ（Ｃ，ｗ）＝log|Ｃ or ｗ|／|Ｃ||ｗ|、または
ｒ（Ｃ，ｗ）＝２|Ｃ and ｗ|／（|Ｃ|＋|ｗ|）、または
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／min（|Ｃ|，|ｗ|）
を算出し、そして、前記合成した共起の強さとして、
ｒ（Ｎ１，Ｎ２，Ｃ，ｗ）
＝ｒ（Ｎ１，Ｎ２，ｗ）
＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
＝｛ｒ（Ｎ１，ｗ）／max（ｒ（Ｎ１，ｗ））
＋β・ｒ（Ｎ２，ｗ）／max（ｒ（Ｎ２，ｗ））｝
＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
を算出することを特徴とする前記キーワード抽出方法を提供する。

第１１および第１２には、前記いずれかのキーワード抽出方法をコンピュータに実行させるためのキーワード抽出プログラム、および当該キーワード抽出プログラムを記録したコンピュータ読取可能な記録媒体を提供する。

第１３には、名前ＮおよびコンテクストワードＣを入力する手段、入力された名前Ｎを含む公開データからキーワード候補群Ｗを抽出する手段、抽出されたキーワード候補群Ｗの各キーワード候補ｗについて、名前ＮおよびコンテクストワードＣとの関連度ｒを算出する手段、および算出された関連度ｒに基づいて、キーワード候補群Ｗの中から、名前ＮとコンテクストワードＣとを関係付けるキーワードｘを抽出する手段を備えたことを特徴とするキーワード抽出装置を提供する。

第１４には、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの前記関連度ｒが、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの共起の強さであることを特徴とする前記キーワード抽出装置を提供する。

第１５には、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの前記共起の強さが、キーワード候補ｗと名前Ｎとの共起の強さおよびキーワード候補ｗとコンテクストワードＣとの共起の強さを合成した共起の強さであることを特徴とする前記キーワード抽出装置を提供する。

第１７には、キーワード候補ｗと名前Ｎとの前記共起の強さが、
ｒ（Ｎ，ｗ）＝|Ｎ and ｗ|／（|Ｎ|＋|ｗ|−|Ｎ and ｗ|）、または
ｒ（Ｎ，ｗ）＝log|Ｎ or ｗ|／|Ｎ||ｗ|、または
ｒ（Ｎ，ｗ）＝２|Ｎ and ｗ|／（|Ｎ|＋|ｗ|）、または
ｒ（Ｎ，ｗ）＝|Ｎ and ｗ|／min（|Ｎ|，|ｗ|）
により算出されたものであり、キーワード候補ｗとコンテクストワードＣとの前記共起の強さが、
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／（|Ｃ|＋|ｗ|−|Ｃand ｗ|）、または
ｒ（Ｃ，ｗ）＝log|Ｃ or ｗ|／|Ｃ||ｗ|、または
ｒ（Ｃ，ｗ）＝２|Ｃ and ｗ|／（|Ｃ|＋|ｗ|）、または
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／min（|Ｃ|，|ｗ|）
により算出されたものであり、そして、前記合成した共起の強さが、
ｒ（Ｎ，Ｃ，ｗ）＝ｒ（Ｎ，ｗ）／max（ｒ（Ｎ，ｗ））
＋α・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
により算出されたものであることを特徴とする前記キーワード抽出装置を提供する。

第１８には、少なくとも二つの名前Ｎ１，Ｎ２およびこれらに共通するコンテクストワードＣを入力する手段、入力された名前Ｎ１，Ｎ２を含む公開データからキーワード候補群Ｗを抽出する手段、抽出されたキーワード候補群Ｗの各キーワード候補ｗについて、名前Ｎ１，Ｎ２およびコンテクストワードＣとの関連度ｒを算出する手段、および算出された関連度ｒに基づいて、前記キーワード候補群Ｗの中から、名前Ｎ１，Ｎ２とコンテクストワードＣとを関係付けるキーワードｘを抽出する手段を有することを特徴とするキーワード抽出装置を提供する。

第１９には、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの前記関連度ｒが、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの共起の強さであることを特徴とする前記キーワード抽出装置を提供する。

第２０には、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの前記共起の強さが、キーワード候補ｗと名前Ｎ１との共起の強さ、キーワード候補ｗと名前Ｎ２との共起の強さおよびキーワード候補ｗとコンテクストワードＣとの共起の強さを合成した共起の強さであることを特徴とする前記キーワード抽出装置を提供する。

第２２には、キーワード候補ｗと名前Ｎ１との前記共起の強さが、
ｒ（Ｎ１，ｗ）＝|Ｎ１ and ｗ|／（|Ｎ１|＋|ｗ|−|Ｎ１ and ｗ|）、または
ｒ（Ｎ１，ｗ）＝log|Ｎ１ or ｗ|／|Ｎ１||ｗ|、または
ｒ（Ｎ１，ｗ）＝２|Ｎ１ and ｗ|／（|Ｎ１|＋|ｗ|）、または
ｒ（Ｎ１，ｗ）＝|Ｎ１ and ｗ|／min（|Ｎ１|，|ｗ|）
により算出されたものであり、キーワード候補ｗと名前Ｎ２との前記共起の強さが、
ｒ（Ｎ２，ｗ）＝|Ｎ２ and ｗ|／（|Ｎ２|＋|ｗ|−|Ｎ２ and ｗ|）、または
ｒ（Ｎ２，ｗ）＝log|Ｎ２ or ｗ|／|Ｎ２||ｗ|、または
ｒ（Ｎ２，ｗ）＝２|Ｎ２ and ｗ|／（|Ｎ２|＋|ｗ|）、または
ｒ（Ｎ２，ｗ）＝|Ｎ２ and ｗ|／min（|Ｎ２|，|ｗ|）
により算出されたものであり、キーワード候補ｗとコンテクストワードＣとの前記共起の強さが、
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／（|Ｃ|＋|ｗ|−|Ｃand ｗ|）、または
ｒ（Ｃ，ｗ）＝log|Ｃ or ｗ|／|Ｃ||ｗ|、または
ｒ（Ｃ，ｗ）＝２|Ｃ and ｗ|／（|Ｃ|＋|ｗ|）、または
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／min（|Ｃ|，|ｗ|）
により算出されたものであり、そして、前記合成した共起の強さが、
ｒ（Ｎ１，Ｎ２，Ｃ，ｗ）
＝ｒ（Ｎ１，Ｎ２，ｗ）
＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
＝｛ｒ（Ｎ１，ｗ）／max（ｒ（Ｎ１，ｗ））
＋β・ｒ（Ｎ２，ｗ）／max（ｒ（Ｎ２，ｗ））｝
＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
により算出されたものであることを特徴とする前記キーワード抽出装置を提供する。

第２３には、処理部が、請求項１ないし１０のいずれかに記載のキーワード抽出方法により抽出されたキーワードｘに対するプロパティラベルの入力部からの入力を受け付けるステップ、、および前記処理部が、入力されたプロパティラベルおよびキーワードｘに基づいてメタデータを作成するステップを有することを特徴とするメタデータ作成方法を提供する。

第２４には、前記プロパティラベルは、名前を意味するラベルＮ、技術を意味するラベルＴ、コミュニティを意味するラベルＣ、プロジェクトを意味するラベルＰ、組織を意味するラベルＯ、ＵＲＬを意味するラベルＵＲＬ、イベントを意味するラベルＥ、および地位を意味するラベルデータＪの群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする前記メタデータ作成方法を提供する。

第２５および第２６には、前記メタデータ作成方法をコンピュータに実行させるためのメタデータ作成プログラム、および当該メタデータ作成プログラムを記録したコンピュータ読取可能な記録媒体を提供する。

第２７には、前記いずれかのキーワード抽出装置により抽出されたキーワードｘに対するプロパティラベルを入力する手段、および入力されたプロパティラベルおよびキーワードｘに基づいてメタデータを作成する手段を有することを特徴とするメタデータ作成装置を提供する。

第２８には、前記プロパティラベルは、名前を意味するラベルＮ、技術を意味するラベルＴ、コミュニティを意味するラベルＣ、プロジェクトを意味するラベルＰ、組織を意味するラベルＯ、ＵＲＬを意味するラベルＵＲＬ、イベントを意味するラベルＥ、および地位を意味するラベルデータＪの群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする前記メタデータ作成装置を提供する。

上記のとおりの特徴を有する本願発明は、情報抽出、特に人や人間関係に関連したキーワード情報の抽出に関するものであり、そのキーワード抽出の対象としてＷｅｂページを考慮している。

従来、人に関する情報抽出のなかで、対象をＷｅｂとしないものとしては、論文データベースからの著者の所属抽出（非特許文献５参照）や、社内の業務文章からの従業員情報抽出（非特許文献６参照）が知られている。これらの手法は、事前に定義された文章形式やヒューリスティックルールおよび特定のエンティティに関する機械学習などを使用しており、さらには、抽出すべき固有表現、オントロジー、ドメインなどをあらかじめ限定している。

しかし、データベースや社内文章のような構造化された情報源に対して、Ｗｅｂ上の情報は一般に半構造化データであり、多様性を持っているため抽出にあたって事前になんらかの前提を与えることは難しく、これら従来手法を適用することは困難である。

また、従来、人に関する情報抽出は、氏名、所属情報、メールアドレスなど限定的な情報抽出にとどまっており、多岐に渡る情報が存在するＷｅｂからの情報抽出については未だそれを可能にする技術が実現されていない。

このような事情のもと、本願発明は、上記の通りの特徴を具備することで、Ｗｅｂなどの構造化されてない情報源からの人に関する多様な情報抽出を可能にするものなのである。

一方、Ｗｅｂ上からの人の関する情報抽出としては、Ｗｅｂページから名前を収集して人間関係ネットワークを構築し、かつそのネットワーク上で特定の専門用語と関連する人物の検索を行うReferral web（非特許文献７参照）や、検索語と関連する人物をＷｅｂから発見するNEXAS//KeyPerson（非特許文献８参照）が知られている。いずれの手法も、検索エンジンの結果を利用し、また共起を用いて語と人の関連性を調べているが、人と語の関連において、ある語に主眼を置き、それに関連する人をＷｅｂから抽出するというアプローチをとっている。

これに対し、本願発明の主眼は、人や人間関係にあり、ある人のキーワードをＷｅｂから抽出することで、目的とした人のメタデータの自動生成やソーシャルネットワークへの利用を考慮している。この点において、本願発明で用いている人のコンテクストという概念は、上記いずれの手法にもなく、本願発明の重要な特徴点である。

また、政治家などの職業名を入力として、検索エンジンとハイパーリンクを利用し、特定の職業の人物情報を網羅的に収集する方法も知られている（非特許文献９参照）。この方法は、ターゲットとなる職業に関して、表形式で書かれた名前録が存在することを前提にしており、Ｗｅｂページの構造に依存した限定的な手法である。

これに対し、本願発明は、Ｗｅｂページの構造によらず、かつ任意の名前を扱うことが可能な汎用的なキーワード抽出を実現している。

検索エンジンを利用せずに人に関する情報を抽出することも研究されており、たとえば、Ｗｅｂやイントラネットの上の情報源から、あらかじめ定義されたオントロジーに対応したヒューリスティックルールを用いて技術情報や人に関する情報を抽出する手法
（非
特許文献１０参照）や、芸術家についてのバイオグラフィー情報をＷｅｂから抽出する手法（非特許文献１１参照）が知られている。これらの手法はあらかじめ定義した「主語−関係−オブジェクト」という語彙的連鎖関係およびオントロジーを用いて情報を抽出するものである。しかし、Ｗｅｂページはしばしば定型的な記述を含まないため、語彙的関係やヒューリスティックルールを適用するのは困難である。また、大学研究者の名前、プロジェクト、発表文献といった情報を教師なし学習を用いて抽出する手法も知られており（非特許文献１２参照）、情報抽出にあたって、"seed"情報として事前にユーザによって提供された情報を基に、学習を行う。

これら（非特許文献１０，１１，１２参照）の手法が事前に定義されたオントロジーやユーザから提供される情報が必要なのに対して、本願発明は、名前のリストのみで人および人間関係に関連した多様な情報が抽出可能である。

またさらに、あるドメインについてキーワードをＷｅｂから抽出する研究も行われている（非特許文献１３参照）を行っている。これは、Ｗｅｂページ内およびＷｅｂページ群の語の出現頻度に基づいたものである。同様にキーワード抽出には、ＴＦＩＤＦ（Term Frequency Inverse Document Frequency のように文章コーパスを利用した語の出現頻度に基づく手法が用いられる。

これに対し、本願発明は、コーパスを必要とせず検索エンジンのヒット数を利用した語の共起情報のみによりキーワード抽出が可能である。また、特定ドメインに限定せずに使えることも特徴である。

以上のように、上記第１〜第１０の本願発明のキーワード抽出方法によれば、Ｗｅｂページから抽出したキーワード候補群Ｗと名前Ｎ及びコンテックストワードＣとの関連度ｒを算出し、しかもこれを共起の強さの算出により実行することで、名前ＮとコンテクストワードＣとを関係付けるキーワードｘを抽出できるようになる。したがって、単に名前Ｎと関係するキーワードｘではなく、名前Ｎに関する特定のコンテクストワードＣに関係するキーワードｘ（名前Ｎ−キーワードｘ−コンテクストワードＣ）を抽出できるのである。

また、上記第１１および上記第１２の本願発明のキーワード抽出プログラムおよびその記録媒体によれば、上記第１〜第１０の抽出方法と同様な効果が得られるコンピュータプログラムおよびそれを記録したフレキシブルディスクやＣＤ、ＤＶＤなどの記録媒体が実現され、上記第１３〜第２２の本願発明のキーワード抽出装置によれば、上記第１〜第１０の抽出方法と同様な効果が得られる装置が実現される。

そして、上記第２３〜第２８の本願発明によれば、以上のとおりに抽出されたキーワードｘを用いて、それに対応付けしたプロパティラベルをも利用して、その名前Ｎを有するユーザに関する個人メタデータを簡単に自動作成できるメタデータ作成プログラム、それを記録したフレキシブルディスクやＣＤ、ＤＶＤなどの記録媒体、およびそれを実行する装置が実現される。

なお、本願発明が対象とする名前としては、人名のみならず、会社名、団体名、職業名、製品名、動植物名、書名、曲名、国名、地名などの様々な種類の名前を考慮でき、人名と同様にして、各種名前とそれに関する特定のコンテクストワードとを関係付けるキーワードの自動抽出、ならびに抽出キーワードに基づいたメタデータの自動作成を実現できる。また、固有名詞だけでなく、様々な普通名詞に対しても、それを名前として捉えたキーワード抽出ならびにメタデータ作成も可能であり、ありとあらゆる単語や言葉を対象にできる。

他方、本願発明におけるコンテクストワードとは、人（もしくは、上記各種の固有名詞や普通名詞といった、キーワード抽出の対象となるもの）に対して、何に関してのキーワードを抽出するかを表すもので、単語もしくは単語の組み合わせで表される。たとえば、ある人の研究についてのキーワードを抽出したいのであれば、「研究」「研究活動」もしくは具体的な分野名である「人工知能」「自然言語」などの語がコンテクストワードとなる。また、ある人の趣味についてのキーワードを抽出したいのであれば、「趣味」「スポーツ」などの語がコンテクストワードとなる。コンテクストワードを指定することは、個人情報を保護する上からも重要である。また、コンテクストワードを指定しないことで、対象の一般的なキーワードを抽出することも可能である。

以下、上記のとおりの特徴を有する本願発明の実施形態について詳細に説明する。

［キーワード抽出］
本願発明では、キーワードの元となる語群として、対象とする名前Ｎを含むＷｅｂページに含まれる語を用い、そしてインターネット上での検索ヒット数に基づく共起情報を利用して、語群の各語と人との関連度を計算し、各人に深く関連する語をキーワードとして抽出する。

一方、語群には、一般にさまざまなコンテクストの語が含まれている。仮にある人が研究者かつ芸術家であって、それらの活動に関する多くの文章がＷｅｂ上に存在すれば、語群には２つのコンテクストに関する語が混在しているはずである。そこで、本願発明では、人および人間関係に関するある特定のコンテクストに関連したキーワードを抽出するため、語群とコンテクストについても語の共起情報を用いて関連を考慮する。

このようにして語群の中から、各人およびその人の特定のコンテクストに深く関連した語をキーワードとして抽出する。

抽出されたキーワードは、多くの個人メタデータを含み、かつキーワードは各人との関連度に基づいているため、本願発明は個人メタデータの自動アノテーションやソーシャルネットワークとの統合など、現在の新たなＷｅｂ技術に幅広く利用可能であり、今後のセマンティックウェブの普及へ大きく貢献するものである。

以下、このキーワード抽出の具体的処理について、図１〜図４を適宜参酌しながらより詳細に説明する。図１および図２はキーワード抽出処理のフローチャートであり、図３はその流れをより具体的に例示したものであり、図４はキーワード抽出処理を実行するキーワード抽出装置のシステム構成図である。

図４のシステム構成では、表示部（１）、入力部（２）、処理部（ＣＰＵ）（３）、記憶部（メモリ）（４）、通信制御部（５）、Ｗｅｂデータベース（６）、キーワードデータベース（７）およびバス（８）を備えている。記憶部（４）には、キーワード抽出プログラムや各種データが記憶されており、この記憶部（４）とバス（８）により接続されている処理部（３）は、キーワード抽出プログラムの指令を受けてキーワード抽出処理を実行する。また、処理部（３）は、入力画面や各種データ等を表示するディスプレイなどの表示部（１）と、名前ＮやコンテクストワードＣ等を入力するキーボードやマウスなどの入力部（２）とも、バス（８）により接続されている。Ｗｅｂデータベース（６）には、検索結果としてのＷｅｂページ群が蓄積され、キーワードデータベース（７）には、Ｗｅｂページ群から抽出されたキーワード候補群Ｗが蓄積される。

＜ステップＳ１＞
まず、処理部（３）により、名前ＮおよびコンテクストワードＣの入力を入力部（２）から受け付ける。

より具体的には、たとえば、本システムのユーザが、自身の名前と、自身に関するコンテクストワード、たとえば研究者であれば研究分野や所属先の語などを入力し、処理部（３）は、その入力を受け付ける。

もちろん、ユーザ以外の他の人の名前やその人のコンテクストも考慮できることは言うまでもなく、ユーザが興味を持つ人のキーワード情報を抽出できるのである。

＜ステップＳ２＞
次に、処理部（３）により、上記入力された名前Ｎを含む公開データから、キーワード候補群Ｗを抽出する。

より具体的には、まず、公開データとしては、主にインターネット上で公開されているＷｅｂページ群を考慮でき、名前Ｎをインターネット上にて検索し、その検索結果として出力されるものを対象とする。このとき、検索結果の上位いくつかのＷｅｂページのみを対象とすることが好ましい。下位ページほど名前とあまり深く関連しない不要な語を多く含むページとなるためである。処理時間の観点からも、対象情報源としてのＷｅｂページの数を適宜絞りこむことが好ましいと言える。

処理部（３）は、自身の検索プログラムを実行するようにしても、別途のネットワーク（９）上のサーチエンジンに名前Ｎを送信して検索の実行をさせ、検索結果をサーチエンジンからネットワーク（９）を介して受け取るようにしてもよい。

検索された上位Ｗｅｂページ群は、一旦、初期Ｗｅｂページとして記憶部（４）や別途のＷｅｂデータベース（６）等の記憶手段に記憶される。

続いて、このＷｅｂページ群からキーワード候補群Ｗを抽出する。たとえば、対象文章中にてある単語が何回出現するかを示す出現頻度や、ある単語が他の単語とどのように何回結びつくか等を示す単語間の結びつき度合いなどに基づいて、各単語の重要度を算出し、重要度の高い単語（既定閾値より高い等）をキーワード候補ｗとして選択することで、適切な抽出が実現できる。

処理部（３）は、自身の抽出プログラムを実行するようにしても、別途の公知キーワード抽出ツールであるTermex（非特許文献１４参照）等を本システムに組み込んだり必要に応じてネットワーク（９）を通して呼び込んだりして抽出の実行をさせるようにしてもよい。

なお、この抽出処理の前に、対象文章に対して形態素解析を実行することも好ましい。形態素解析は、単語分割や品詞タグ付け（ＰＯＳ:Part Of Speech tagging）等、公知の手法を用いることができる。

またさらに、各Ｗｅｂページに対して、それに含まれているｐｄｆファイルやｐｐｔファイルなどのｈｔｍｌファイル以外のファイルを除去し、且つｈｔｍｌファイルに含まれるＭＥＴＡタグやＲＤＦ等のｈｔｍｌタグを除去するなどの、前処理を行っておいてもよい。

これら形態素解析や前処理によれば、キーワード候補群抽出の処理速度や精度を向上させることができる。

以上により抽出されたキーワード候補群Ｗは、記憶部（４）や別途のキーワードデータベース（７）等の記憶手段に記憶される。

ところで、Ｗｅｂ上では同姓同名の人が多く存在するため、目的とする人以外のＷｅｂページが検索されてしまう可能性がある。そこで、人物名とともに、その人物を判別する語を検索クエリに加えることで、検索精度を上げることもできる。たとえば、人物を判別する語として企業名、研究機関名、大学名等の所属組織名を考えた場合、氏名Ｎと所属名Ａのandを検索クエリとする。また、複数の所属がある場合、所属の変更がある場合、所属機関に複数の名称や略称がある場合などでは、氏名Ｎ and（所属名Ａ or所属名Ｂ or所属略称Ｃ）を検索クエリとして用いる。もちろん人物判別語は、所属組織名等の所属情報を表す語に限定されず、同姓同名の中から目的とする人物を判別できる語であればよい。

この同姓同名問題への対応処理を加えることで、たとえば、目的とする人物が複数の所属を持つ場合、所属が変わった場合などには、過去の所属においてどのような研究トピックであったか、複数の所属をどのような研究トピックで分けているかなどを知ることができる。

また、名前については、正式名称とその略称が存在する場合も考えられ（特に企業等の組織名ではそのケースが多くみられる）、たとえば、正式名称等の一方の名称Ｘ１で検索したときにヒットする文書に含まれる語Ｙ１と、略称等の別の名称Ｘ２で検索したときにヒットする文書に含まれる語Ｙ２とが互いに近い関係にあれば、それらＸ１，Ｘ２は同じ組織の名称であると判断する処理を行うことで、さらなる検索精度の向上を図ることができる。

なお、上記説明ではインターネット上で公開されているＷｅｂページ群をキーワード候補群ｗの抽出元としているが、本願発明では、Ｗｅｂページ群の他にも、公開されている様々な文書データ群等のデータを抽出元として考慮できることは言うまでもない。また、これら公開データには、広く一般に公開されているデータだけではなく、ある特定のデータベース（たとえば一般には公開されていないがある組織内でのみアクセスできるデータベースなど）内に蓄積されているデータ群も抽出元として考慮できる。

＜ステップＳ３＞
次に、処理部（３）により、上記抽出されたキーワード候補群Ｗの各キーワード候補ｗを、記憶手段から読み出し、名前Ｎ及びコンテクストワードＣとの関連度ｒを算出する。

本願発明では、名前の検索結果から抽出されたキーワードの候補語に対してスコア付けを行い、最終的なキーワードを決定するのであるが、スコア付けにあたっては、人と語との関連度を考慮し、人と深く関連する語がキーワードとなるようにする。これを実現すべく、人（名前）と語の関連度の尺度として共起情報を用いる。ここで共起とは、名前と語が同一のページに同時に現れることを示す。そのようなページが多くあるほど両者の関係は強く、語はその人のキーワードとみなせる。

一方、各人の候補語群はその人の氏名の検索結果であるＷｅｂページから取得したものであるため、語はその人の複数のコンテクストを含んでいる。仮にある人が人工知能、哲学、ロボットの研究をしているとすると、その語群には、その人のそれぞれの研究活動に関連した語が含まれている。今、その人の人工知能に関するキーワードを知りたいとすると、単に名前と語の共起にもとづいてキーワード抽出するだけでは、哲学やロボットなどのその他の活動のキーワードが混じってしまうため、人工知能のキーワードのみを取り出すことはできない。そこで、本願発明では、人の特定のコンテクストに関連したキーワードを抽出するために語と名前Ｎだけでなく、語とコンテクストＣの共起についても考慮し、それらを合成した共起の強さを最終的な関連度とする。

より具体的には、まず、キーワード候補ｗと名前Ｎの共起情報の取得にあたっては、名前Ｎとキーワード候補ｗの両方を含むＷｅｂページ数|Ｎ and ｗ|を利用する。このＷｅｂページ数は、ＮとｗのＡＮＤ検索を行って得られたヒット件数とすることができ、このヒット件数|Ｎ and ｗ|を共起とする。そしてさらに、名前Ｎを含むＷｅｂページ群とキーワード候補ｗを含むＷｅｂページ群の集合の重なりを考慮した共起の強さを、Jaccard係数等を用いて算出する。なお、ここではＷｅｂページを対象としているので特に「Ｗｅｂページ数」と呼んでいるが、前述したように本願発明ではＷｅｂページ以外の様々な公開データを対象とできるので、その場合にはより広い概念として「公開データ数」などと呼ぶことができる（以下についても同じ）。

これら各共起の強さは、たとえば、Jaccard係数、相互情報量、Dice係数、Simpson係数の計算により求めることができる。具体的にはそれぞれ以下とおりである。

キーワード候補ｗと名前Ｎとの共起の強さｒ（Ｎ，ｗ）
Jaccard係数：|Ｎ and ｗ|／（|Ｎ|＋|ｗ|−|Ｎ and ｗ|）
相互情報量：log|Ｎ or ｗ|／|Ｎ||ｗ|
Dicd係数：２|Ｎ and ｗ|／（|Ｎ|＋|ｗ|）
Simpson係数：|Ｎ and ｗ|／min（|Ｎ|，|ｗ|）
キーワード候補ｗとコンテクストワードＣとの共起の強さｒ（Ｃ，ｗ）
Jaccard係数：|Ｃ and ｗ|／（|Ｃ|＋|ｗ|−|Ｃand ｗ|）
相互情報量：log|Ｃ or ｗ|／|Ｃ||ｗ|
Dicd係数：２|Ｃ and ｗ|／（|Ｃ|＋|ｗ|）
Simpson係数：|Ｃ and ｗ|／min（|Ｃ|，|ｗ|）
そして、これら共起の強さを下記のように合成して、各キーワード候補ｗと名前Ｎ及びコンテクストワードＣとの共起の強さを算出する（図２のステップＳ３．３）。

ｒ（Ｎ，Ｃ，ｗ）＝ｒ（Ｎ，ｗ）／max（ｒ（Ｎ，ｗ））
＋α・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
但し、ｒ（Ｎ，ｗ）／max（ｒ（Ｎ，ｗ））＞閾値ｔ
この式は、あるコンテクストＣにおけるある名前Ｎとキーワード候補ｗとの関連度を与えるものである。αは、ＮとＣの関連度を示すパラメータであり、
Jaccard係数：|Ｎ and Ｃ|／（|Ｎ|＋|Ｃ|−|Ｎ and Ｃ|）、
相互情報量：log|Ｎ or Ｃ|／|Ｎ||Ｃ|、
Dicd係数：２|Ｎ and Ｃ|／|Ｎ|＋|Ｃ|、
Simpson係数：|Ｎ and Ｃ|／min（|Ｎ|，|Ｃ|）
などで与えられる。また、キーワードｘとなる候補語ｗは、ｒ（Ｎ１，ｗ）がある閾値threshold以上となるものとする。

以上により、共起を用いたキーワードスコアリングが行われることになる。算出された共起の強さｒ（Ｎ，Ｃ，ｗ）は、各キーワード候補ｗ毎に、記憶部（４）や別途のデータベース（図示なし）等の記憶手段に記憶される。

＜ステップＳ４＞
そして、処理部（３）は、関連度ｒとして上記算出された共起の強さｒ（Ｎ，Ｃ，ｗ）に基づき、名前ＮとコンテクストワードＣとを関係付けるキーワードｘを抽出する。

より具体的には、共起の強さｒ（Ｎ，Ｃ，ｗ）の値が予め設定した閾値以上となるキーワード候補ｗを抽出したり、上位いくつかのキーワード候補ｗを抽出したりすればよい。

以上により、単に名前のみに基づいたキーワード情報の抽出ではなく、その人を取り巻くコンテクストを考慮しての名前とコンテクストワードとを関係付けるキーワード情報を的確に且つ容易に、膨大な数のＷｅｂページから抽出することができる。そして、このキーワード情報は、従来では全く考慮されていなかったＷｅｂページに含まれる様々な潜在的情報のうちから抽出された適切な情報であって、後述するようにメタデータやソーシャルネットワークファイルの自動作成に利用できるものである。

［複数の人に共通するキーワードの抽出］
以上説明した実施形態は対象とする名前が一つの場合についてのものであるが、本願発明では名前は二つ以上でもよく、この場合名前Ｎ１，Ｎ２とその両名に関連するコンテクストワードＣとを関係付けるキーワードｘ、つまりある特定のコンテストワードＣとの関連における二人の人間関係を結びつけるキーワードｘを抽出することもできる。

この場合の具体的処理については、全体の流れは上記ステップＳ１〜Ｓ４と同様であるが、対象名前が複数となる点で、以下のとおりの共起の強さの算出処理が必要となる。

すなわち、各キーワード候補ｗと名前Ｎ１，Ｎ２及びコンテクストワードＣとの共起の強さとして、
ｒ（Ｎ１，Ｎ２，Ｃ，ｗ）
＝ｒ（Ｎ１，Ｎ２，ｗ）＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
＝｛ｒ（Ｎ１，ｗ）／max（ｒ（Ｎ１，ｗ））
＋β・ｒ（Ｎ２，ｗ）／max（ｒ（Ｎ２，ｗ））｝
＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
但し、[ｒ（Ｎ１，ｗ）／max（ｒ（Ｎ１，ｗ））,ｒ（Ｎ２，ｗ）／max（ｒ（Ｎ２，ｗ））｝＞閾値ｔ
を算出する。

この式は、コンテクストＣにおける名前Ｎ１，Ｎ２の関係についてキーワード候補ｗの関連度を与えるものである。βは、Ｎ１，Ｎ２とＣの関連度を示すパラメータであり、
Jaccard係数：|(Ｎ１andＮ２)andＣ|／（|Ｎ１andＮ２|＋|Ｃ|−|(Ｎ１andＮ２)and
Ｃ|）、
相互情報量：log|(Ｎ１andＮ２)orＣ|／|Ｎ１andＮ２||Ｃ|、
Dicd係数：２|(Ｎ１andＮ２)andＣ|／|Ｎ１andＮ２|＋|Ｃ|、
Simpson係数：|(Ｎ１andＮ２)andＣ|／min（|Ｎ１andＮ２|，|Ｃ|）
などで与えられる。また、キーワードｘとなるキーワード候補ｗは、ｒ（Ｎ１，ｗ）およびｒ（Ｎ１，ｗ）がある閾値threshold以上となるものとする。これにより、二人の関係において互いの語群のうちでどちらの名前Ｎ１，Ｎ２とも共起する語のスコアリングが可能となる。

以上により、二人の人物に共通する特定のコンテクストに深く関連した語をキーワードとして抽出することができる。

［メタデータ作成］
さて、以上のとおりに抽出されたキーワードｘは、たとえば以下のとおりにメタデータの作成に使用できる。図５はメタデータ作成処理フロー、図６はこのメタデータ作成処理を実行するメタデータ作成装置のシステム構成である。

＜ステップＳ５＞
まず、処理部（３）は、各キーワードｘに対するプロパティラベルの入力部（２）からの入力を受け付ける。

より具体的には、プロパティラベルは、キーワードの特徴、関係、属性等を表わすもので、たとえば、
名前（name，knows）を意味するラベルＮ、
技術（technical，interest，topic interest，made，etc）を意味するラベルＴ、
コミュニティ（community）を意味するラベルＣ、
プロジェクト（currentProject, pastProject）を意味するラベルＰ、
組織 (organization，workplaceHP，workinfoHP)を意味するラベルＯ、
ＵＲＬ(homepage, seeAlso)を意味するラベルＵＲＬ、
イベント（event）を意味するラベルＥ、および
地位（position）を意味するラベルデータＪ
を考慮できる。

そして、これらのうちから各キーワードｘを表すのに適したプロパティラベルを、入力部（２）により入力する。もちろんこれら全てのラベル種類を考慮する必要はなく、上記ラベル群のうちの少なくとも二つ以上の種類を考慮して適宜選択して入力すればよい。処理部（３）はこの入力を受け付ける。

入力されたプロパティラベルは、キーワードｘ毎に対応付けて記憶部（４）や別途のラベルデータベース（１０）等の記憶手段に記憶される。

＜ステップＳ６＞
そして、処理部（３）は、記憶手段から読み出したプロパティラベルおよびキーワードｘに基づいて、メタデータを作成する。

より具体的には、たとえば、ＲＤＦ等のメタデータ記述方式毎にそれぞれ適した処理を実行することにより、メタデータを自動作成できる。ＲＤＦの場合では、対象リソースに関するＲＤＦスキーマやオントロジーによって定義されるプロパティと上記プロパティラベルとを対応させておき、そのプロパティラベルを付加されたキーワードｘを対象リソースの各プロパティの値として当て嵌めるなどすればよい。

［ソーシャルネットワークへの応用］
一方、複数人間間のキーワードは、ソーシャルネットワークへの応用も可能である。

人々は、共通の友人や共通の興味を持ち、同じ組織やプロジェクトに関わっているなどの関係を持っている。これらの関係は、人間関係を記述するメタデータと考えることがえきる。したがって、上記の通りに抽出されたキーワードは、人間関係のメタデータを含むため、ソーシャルネットワークへ応用できる。

すなわち、ソーシャルネットワーキングでは、興味が近い人を見つけたり、自分と他の人の関係性、友達の友達を見つけることでコミュニケーションを促進するのであるが、このためには、どういう人なのか、どういう興味を持っているのかという情報が必要であり、これを上記キーワードとして自動的に抽出できる、言い換えると上記キーワードからこの情報を把握できるのである。

ここで、実際のキーワード抽出結果について説明する。

表１は一つの抽出結果を示したものであり、左欄は、名前Ｎ＝"松尾豊"およびコンテクストワードＣ＝"人工知能"として抽出したキーワードｘ、右欄は、名前Ｎ＝"石塚満"およびコンテクストワードＣ＝"人工知能"として抽出したキーワードｘである。それぞれ、上位１０件のＷｅｂページに含まれるｈｔｍｌファイルのみを対象とし、ｈｔｍｌタグを削除した後、形態素解析を行い、公知のツールTermex（非特許文献１４参照）を用いてキーワード候補群Ｗを抽出し、さらに、Jaccard係数を用いて共起の強さを算出し、上位２０個のキーワードｘを抽出した。

また、表２は、名前Ｎ１＝"松尾豊"、名前Ｎ２＝"石塚満"、コンテクストワードＣ＝"人工知能"として抽出したキーワードｘ、つまり"人工知能"を両名の共通コンテクストとした場合の両名を関係付けるキーワードｘを示したものである。各処理は表１の場合と同じである。

表３は名前Ｎ＝"Dan Brickley"についてのキーワード抽出結果、表４は、名前Ｎ＝"Libby Miller"についてのキーワード抽出結果を示したものであり、それぞれ、左から、ＴＦＩＤＦ（Term Frequency Inverse Document Frequency）と呼ばれる従来手法により抽出されたキーワード、名前Ｎのみの共起に基づいて抽出されたキーワード、本願発明により名前ＮおよびコンテクストワードＣの共起に基づいて抽出されたキーワードである。

TFIDFは、多くのキーワード抽出システムで使われている手法であり、テキストドキュメントの中から個別の単語をスコアリングし、ドキュメントの内容を的確に表現した概念を抽出できる。本実施例では、TFIDFで使われるCorporaとして２３５個のｈｔｍｌファイルを使用した。

名前Ｎのみの共起に基づいた抽出は、本願発明との比較のために行っている。

表３からわかるように、TFIDFでは、あまり重要でないpageやhomeといった語が多く含まれているが、共起に基づいた抽出では、一般的な語は除かれ、その人（名前Ｎ）に関係の深い語が得られている。そして、コンテクストワードＣの共起をも用いた本願発明による抽出では、コンテクストワード"FOAF"に関係した語（表中、太字斜め字で示した語）が的確に得られている。

表５は、名前Ｎ１＝"Dan Brickley"、名前Ｎ２＝"Libby Miller"、コンテクストワードＣ＝"FOAF"についてのキーワード抽出の結果得られた、二人の関係についてのキーワードを示したものである。

この表５から、両名共通の"FOAF"というコンテクストを考慮した場合、両名は"ILRT "に所属し、"SWAD "プロジェクトに関わっており、"Jan Grant"という共通の知人がいるといったことが推測できる。

上記表３、表４における一番右側の欄には、各キーワードに対するプロパティラベルが記されている。プロパティラベルは、前述した名前Ｎ、技術Ｔ、コミュニティＣ、プロジェクトＰ、組織Ｏ、ＵＲＬ、イベントＥ、地位Ｊから適宜選択されたもので、たとえば表３において、Dan Brickleyは名前Ｎ、FOAFは技術Ｔ、SWADはプロジェクトＰ、ILRTは組織Ｏなどとなっている。

そして、これらキーワードおよびプロパティラベルに基づいて、本願発明により図７に示したようなＦＯＡＦファイルを自動作成できる。たとえば、Dan Brickleyが名前であることをプロパティラベルＮから認識し、これに基づいて<foaf:name>Dan Brickley </foaf:name>が作成される。これは、予めプロパティラベルＮとＦＯＡＦのプロパティ<foaf:name>とを対応づけてデータベース等に記憶させておき、作成時に<foaf:name>を選択してその値にDan Brickleyを当て嵌めるようにすればよい。他のプロパティラベルについても同様に対応するＦＯＡＦプロパティを用いて処理を行うことで、簡単にメタデータを自動作成できる。

以上詳しく説明したとおり、本願発明によって、様々な公開文書データから、特にコンテンツの多くが半構造化データであるＷｅｂページから、その構造によらず、任意の人名およびコンテクストワードの入力だけで、それらを関係付けるキーワード、つまり単一の人や複数の人に関する特定のコンテクストに深く関連したキーワードを的確に且つ容易に自動抽出することのできるコンピュータプログラムやその記録媒体、またはコンピュータ装置等を実現でき、さらには、抽出されたキーワードおよびそれに対して付されるプロパティラベルを用いて、その人や人間関係に関するメタデータを自動作成することのできるコンピュータプログラムやその記録媒体、またはコンピュータ装置等をも実現できる。

本願発明では、前述したように人名以外にも様々な種類の名前を対象とすることができ、たとえば、企業の場合には名前として企業名、コンテクストワードとして業種や開発技術等を表現した単語、製品の場合には名前として製品名、コンテクストワードとして製品種類や機能等を表現した単語に対して、キーワード抽出ならびにメタデータ作成を実現することができる。

本願発明によるキーワード抽出について説明するための処理フロー図。本願発明によるキーワード抽出について説明するための別の処理フロー図。本願発明によるキーワード抽出について説明するためのさらに別の処理フロー図。本願発明の一実施形態であるキーワード抽出装置のシステム構成図。本願発明によるメタデータ作成について説明するための処理フロー図。本願発明の一実施形態であるメタデータ作成装置のシステム構成図。本願発明により作成されたＦＯＡＦファイルの一例を示した図。

符号の説明

１表示部
２入力部
３処理部
４記憶部
５通信制御部
６Ｗｅｂデータベース
７キーワードデータベース
８バス
９ネットワーク
１０ラベルデータベース

Claims

処理部が、名前ＮおよびコンテクストワードＣの入力部からの入力を受け付けるステップ、
前記処理部が、入力された名前Ｎを含む公開データからキーワード候補群Ｗを抽出するステップ、
前記処理部が、抽出されたキーワード候補群Ｗの各キーワード候補ｗについて、名前ＮおよびコンテクストワードＣとの関連度ｒを算出するステップ、および
前記処理部が、算出された関連度ｒに基づいて、キーワード候補群Ｗの中から、名前ＮとコンテクストワードＣとを関係付けるキーワードｘを抽出するステップ
を有することを特徴とするキーワード抽出方法。
前記処理部が、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの前記関連度ｒとして、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの共起の強さを算出する
ことを特徴とする請求項１記載のキーワード抽出方法。
前記処理部が、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの前記共起の強さとして、キーワード候補ｗと名前Ｎとの共起の強さおよびキーワード候補ｗとコンテクストワードＣとの共起の強さを合成した共起の強さを算出する
ことを特徴とする請求項２記載のキーワード抽出方法。
前記処理部が、キーワード候補ｗと名前Ｎとの前記共起の強さを、名前Ｎとキーワード候補ｗの両方を含む公開データ数|Ｎ and ｗ|、名前Ｎを含む公開データ数|Ｎ|、およびキーワード候補ｗを含む公開データ数|ｗ|を用いて算出し、
キーワード候補ｗとコンテクストワードＣとの前記共起の強さを、名前ＮとコンテクストワードＣの両方を含む公開データ数|Ｃ and ｗ|、コンテクストワードＣを含む公開データ数|Ｃ|、およびキーワード候補ｗを含む公開データ数|ｗ|を用いて算出し、
そして、これら共起の強さを合成した前記共起の強さを算出する
ことを特徴とする請求項３記載のキーワード抽出方法。
前記処理部が、キーワード候補ｗと名前Ｎとの前記共起の強さとして、
ｒ（Ｎ，ｗ）＝|Ｎ and ｗ|／（|Ｎ|＋|ｗ|−|Ｎ and ｗ|）、または
ｒ（Ｎ，ｗ）＝log|Ｎ or ｗ|／|Ｎ||ｗ|、または
ｒ（Ｎ，ｗ）＝２|Ｎ and ｗ|／（|Ｎ|＋|ｗ|）、または
ｒ（Ｎ，ｗ）＝|Ｎ and ｗ|／min（|Ｎ|，|ｗ|）
を算出し、
キーワード候補ｗとコンテクストワードＣとの前記共起の強さとして、
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／（|Ｃ|＋|ｗ|−|Ｃand ｗ|）、または
ｒ（Ｃ，ｗ）＝log|Ｃ or ｗ|／|Ｃ||ｗ|、または
ｒ（Ｃ，ｗ）＝２|Ｃ and ｗ|／（|Ｃ|＋|ｗ|）、または
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／min（|Ｃ|，|ｗ|）
を算出し、
そして、前記合成した共起の強さとして、
ｒ（Ｎ，Ｃ，ｗ）＝ｒ（Ｎ，ｗ）／max（ｒ（Ｎ，ｗ））
＋α・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
を算出する
ことを特徴とする請求項４記載のキーワード抽出方法。
処理部が、少なくとも二つの名前Ｎ１，Ｎ２およびこれらに共通するコンテクストワードＣの入力部からの入力を受け付けるステップ、
前記処理部が、入力された名前Ｎ１，Ｎ２を含む公開データからキーワード候補群Ｗを抽出するステップ、
前記処理部が、抽出されたキーワード候補群Ｗの各キーワード候補ｗについて、名前Ｎ１，Ｎ２およびコンテクストワードＣとの関連度ｒを算出するステップ、および
前記処理部が、算出された関連度ｒに基づいて、前記キーワード候補群Ｗの中から、名前Ｎ１，Ｎ２とコンテクストワードＣとを関係付けるキーワードｘを抽出するステップ
を有することを特徴とするキーワード抽出方法。
前記処理部が、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの前記関連度ｒとして、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの共起の強さを算出する
ことを特徴とする請求項６記載のキーワード抽出方法。
前記処理部が、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの前記共起の強さとして、キーワード候補ｗと名前Ｎ１との共起の強さ、キーワード候補ｗと名前Ｎ２との共起の強さおよびキーワード候補ｗとコンテクストワードＣとの共起の強さを合成した共起の強さを算出する
ことを特徴とする請求項７記載のキーワード抽出方法。
前記処理部が、キーワード候補ｗと名前Ｎ１との前記共起の強さを、名前Ｎ１とキーワード候補ｗの両方を含む公開データ数|Ｎ１ and ｗ|、名前Ｎを含む公開データ数|Ｎ１|、およびキーワード候補ｗを含む公開データ数|ｗ|を用いて算出し、
キーワード候補ｗと名前Ｎ２との前記共起の強さを、名前Ｎ２とキーワード候補ｗの両方を含む公開データ数|Ｎ２ and ｗ|、名前Ｎを含む公開データ数|Ｎ２|、およびキーワード候補ｗを含む公開データ数|ｗ|を用いて算出し、
キーワード候補ｗとコンテクストワードＣとの前記共起の強さを、名前ＮとコンテクストワードＣの両方を含む公開データ数|Ｃ and ｗ|、コンテクストワードＣを含む公開データ数|Ｃ|、およびキーワード候補ｗを含む公開データ数|ｗ|を用いて算出し、
そして、これら共起の強さを合成した前記共起の強さを算出する
ことを特徴とする請求項８記載のキーワード抽出方法。
前記処理部が、キーワード候補ｗと名前Ｎ１との前記共起の強さとして、
ｒ（Ｎ１，ｗ）＝|Ｎ１ and ｗ|／（|Ｎ１|＋|ｗ|−|Ｎ１ and ｗ|）、または
ｒ（Ｎ１，ｗ）＝log|Ｎ１ or ｗ|／|Ｎ１||ｗ|、または
ｒ（Ｎ１，ｗ）＝２|Ｎ１ and ｗ|／（|Ｎ１|＋|ｗ|）、または
ｒ（Ｎ１，ｗ）＝|Ｎ１ and ｗ|／min（|Ｎ１|，|ｗ|）
を算出し、
キーワード候補ｗと名前Ｎ２との前記共起の強さとして、
ｒ（Ｎ２，ｗ）＝|Ｎ２ and ｗ|／（|Ｎ２|＋|ｗ|−|Ｎ２ and ｗ|）、または
ｒ（Ｎ２，ｗ）＝log|Ｎ２ or ｗ|／|Ｎ２||ｗ|、または
ｒ（Ｎ２，ｗ）＝２|Ｎ２ and ｗ|／（|Ｎ２|＋|ｗ|）、または
ｒ（Ｎ２，ｗ）＝|Ｎ２ and ｗ|／min（|Ｎ２|，|ｗ|）
を算出し、
キーワード候補ｗとコンテクストワードＣとの前記共起の強さとして、
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／（|Ｃ|＋|ｗ|−|Ｃand ｗ|）、または
ｒ（Ｃ，ｗ）＝log|Ｃ or ｗ|／|Ｃ||ｗ|、または
ｒ（Ｃ，ｗ）＝２|Ｃ and ｗ|／（|Ｃ|＋|ｗ|）、または
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／min（|Ｃ|，|ｗ|）
を算出し、
そして、前記合成した共起の強さとして、
ｒ（Ｎ１，Ｎ２，Ｃ，ｗ）
＝ｒ（Ｎ１，Ｎ２，ｗ）＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
＝｛ｒ（Ｎ１，ｗ）／max（ｒ（Ｎ１，ｗ））
＋β・ｒ（Ｎ２，ｗ）／max（ｒ（Ｎ２，ｗ））｝
＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
を算出する
ことを特徴とする請求項９記載のキーワード抽出方法。
請求項１ないし１０のいずれかに記載のキーワード抽出方法をコンピュータに実行させるためのキーワード抽出プログラム。
請求項１１に記載のキーワード抽出プログラムを記録したコンピュータ読取可能な記録媒体。
名前ＮおよびコンテクストワードＣを入力する手段、
入力された名前Ｎを含む公開データからキーワード候補群Ｗを抽出する手段、
抽出されたキーワード候補群Ｗの各キーワード候補ｗについて、名前ＮおよびコンテクストワードＣとの関連度ｒを算出する手段、および
算出された関連度ｒに基づいて、キーワード候補群Ｗの中から、名前ＮとコンテクストワードＣとを関係付けるキーワードｘを抽出する手段
を備えたことを特徴とするキーワード抽出装置。
キーワード候補ｗと名前ＮおよびコンテクストワードＣとの前記関連度ｒが、キーワード候補ｗと名前ＮおよびコンテクストワードＣとの共起の強さである
ことを特徴とする請求項１３記載のキーワード抽出装置。
キーワード候補ｗと名前ＮおよびコンテクストワードＣとの前記共起の強さが、キーワード候補ｗと名前Ｎとの共起の強さおよびキーワード候補ｗとコンテクストワードＣとの共起の強さを合成した共起の強さである
ことを特徴とする請求項１４記載のキーワード抽出装置。
キーワード候補ｗと名前Ｎとの前記共起の強さが、名前Ｎとキーワード候補ｗの両方を含む公開データ数|Ｎ and ｗ|、名前Ｎを含む公開データ数|Ｎ|、およびキーワード候補ｗを含む公開データ数|ｗ|から算出されたものであり、
キーワード候補ｗとコンテクストワードＣとの前記共起の強さが、名前ＮとコンテクストワードＣの両方を含む公開データ数|Ｃ and ｗ|、コンテクストワードＣを含む公開データ数|Ｃ|、およびキーワード候補ｗを含む公開データ数|ｗ|から算出されたものであることを特徴とする請求項１５記載のキーワード抽出装置。
キーワード候補ｗと名前Ｎとの前記共起の強さが、
ｒ（Ｎ，ｗ）＝|Ｎ and ｗ|／（|Ｎ|＋|ｗ|−|Ｎ and ｗ|）、または
ｒ（Ｎ，ｗ）＝log|Ｎ or ｗ|／|Ｎ||ｗ|、または
ｒ（Ｎ，ｗ）＝２|Ｎ and ｗ|／（|Ｎ|＋|ｗ|）、または
ｒ（Ｎ，ｗ）＝|Ｎ and ｗ|／min（|Ｎ|，|ｗ|）
により算出されたものであり、
キーワード候補ｗとコンテクストワードＣとの前記共起の強さが、
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／（|Ｃ|＋|ｗ|−|Ｃand ｗ|）、または
ｒ（Ｃ，ｗ）＝log|Ｃ or ｗ|／|Ｃ||ｗ|、または
ｒ（Ｃ，ｗ）＝２|Ｃ and ｗ|／（|Ｃ|＋|ｗ|）、または
ｒ（Ｃ，ｗ）＝|Ｃ
and ｗ|／min（|Ｃ|，|ｗ|）
により算出されたものであり、
そして、前記合成した共起の強さが、
ｒ（Ｎ，Ｃ，ｗ）＝ｒ（Ｎ，ｗ）／max（ｒ（Ｎ，ｗ））
＋α・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
により算出されたものである
ことを特徴とする請求項１６記載のキーワード抽出装置。
少なくとも二つの名前Ｎ１，Ｎ２およびこれらに共通するコンテクストワードＣを入力する手段、
入力された名前Ｎ１，Ｎ２を含む公開データからキーワード候補群Ｗを抽出する手段、
抽出されたキーワード候補群Ｗの各キーワード候補ｗについて、名前Ｎ１，Ｎ２およびコンテクストワードＣとの関連度ｒを算出する手段、および
算出された関連度ｒに基づいて、前記キーワード候補群Ｗの中から、名前Ｎ１，Ｎ２とコンテクストワードＣとを関係付けるキーワードｘを抽出する手段
を有することを特徴とするキーワード抽出装置。
キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの前記関連度ｒが、キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの共起の強さである
ことを特徴とする請求項１８記載のキーワード抽出装置。
キーワード候補ｗと名前Ｎ１，Ｎ２およびコンテクストワードＣとの前記共起の強さが、キーワード候補ｗと名前Ｎ１との共起の強さ、キーワード候補ｗと名前Ｎ２との共起の強さおよびキーワード候補ｗとコンテクストワードＣとの共起の強さを合成した共起の強さである
ことを特徴とする請求項１９記載のキーワード抽出装置。
キーワード候補ｗと名前Ｎ１との前記共起の強さが、名前Ｎ１とキーワード候補ｗの両方を含む公開データ数|Ｎ１ and ｗ|、名前Ｎを含む公開データ数|Ｎ１|、およびキーワード候補ｗを含む公開データ数|ｗ|から算出されたものであり、
キーワード候補ｗと名前Ｎ２との前記共起の強さが、名前Ｎ２とキーワード候補ｗの両方を含む公開データ数|Ｎ２ and ｗ|、名前Ｎを含む公開データ数|Ｎ２|、およびキーワード候補ｗを含む公開データ数|ｗ|から算出されたものであり、
キーワード候補ｗとコンテクストワードＣとの前記共起の強さが、名前ＮとコンテクストワードＣの両方を含む公開データ数|Ｃ and ｗ|、コンテクストワードＣを含む公開データ数|Ｃ|、およびキーワード候補ｗを含む公開データ数|ｗ|から算出されたものであることを特徴とする請求項２０記載のキーワード抽出装置。
キーワード候補ｗと名前Ｎ１との前記共起の強さが、
ｒ（Ｎ１，ｗ）＝|Ｎ１ and ｗ|／（|Ｎ１|＋|ｗ|−|Ｎ１ and ｗ|）、または
ｒ（Ｎ１，ｗ）＝log|Ｎ１ or ｗ|／|Ｎ１||ｗ|、または
ｒ（Ｎ１，ｗ）＝２|Ｎ１ and ｗ|／（|Ｎ１|＋|ｗ|）、または
ｒ（Ｎ１，ｗ）＝|Ｎ１ and ｗ|／min（|Ｎ１|，|ｗ|）
により算出されたものであり、
キーワード候補ｗと名前Ｎ２との前記共起の強さが、
ｒ（Ｎ２，ｗ）＝|Ｎ２ and ｗ|／（|Ｎ２|＋|ｗ|−|Ｎ２ and ｗ|）、または
ｒ（Ｎ２，ｗ）＝log|Ｎ２ or ｗ|／|Ｎ２||ｗ|、または
ｒ（Ｎ２，ｗ）＝２|Ｎ２ and ｗ|／（|Ｎ２|＋|ｗ|）、または
ｒ（Ｎ２，ｗ）＝|Ｎ２ and ｗ|／min（|Ｎ２|，|ｗ|）
により算出されたものであり、
キーワード候補ｗとコンテクストワードＣとの前記共起の強さが、
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／（|Ｃ|＋|ｗ|−|Ｃand ｗ|）、または
ｒ（Ｃ，ｗ）＝log|Ｃ or ｗ|／|Ｃ||ｗ|、または
ｒ（Ｃ，ｗ）＝２|Ｃ and ｗ|／（|Ｃ|＋|ｗ|）、または
ｒ（Ｃ，ｗ）＝|Ｃ and ｗ|／min（|Ｃ|，|ｗ|）
により算出されたものであり、
そして、前記合成した共起の強さが、
ｒ（Ｎ１，Ｎ２，Ｃ，ｗ）
＝ｒ（Ｎ１，Ｎ２，ｗ）＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
＝｛ｒ（Ｎ１，ｗ）／max（ｒ（Ｎ１，ｗ））
＋β・ｒ（Ｎ２，ｗ）／max（ｒ（Ｎ２，ｗ））｝
＋γ・ｒ（Ｃ，ｗ）／max（ｒ（Ｃ，ｗ））
により算出されたものである
ことを特徴とする請求項２１記載のキーワード抽出装置。
処理部が、請求項１ないし１０のいずれかに記載のキーワード抽出方法により抽出されたキーワードｘに対するプロパティラベルの入力部からの入力を受け付けるステップ、および
前記処理部が、入力されたプロパティラベルおよびキーワードｘに基づいてメタデータを作成するステップ
を有することを特徴とするメタデータ作成方法。
前記プロパティラベルは、
名前を意味するラベルＮ、
技術を意味するラベルＴ、
コミュニティを意味するラベルＣ、
プロジェクトを意味するラベルＰ、
組織を意味するラベルＯ、
ＵＲＬを意味するラベルＵＲＬ、
イベントを意味するラベルＥ、および
地位を意味するラベルデータＪ
の群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする請求項２３記載のメタデータ作成方法。
請求項２３または２４に記載のメタデータ作成方法をコンピュータに実行させるためのメタデータ作成プログラム。
請求項２５に記載のメタデータ作成プログラムを記録したコンピュータ読取可能な記録媒体。
請求項１３ないし２２のいずれかに記載のキーワード抽出装置により抽出されたキーワードｘに対するプロパティラベルを入力する手段、および
入力されたプロパティラベルおよびキーワードｘに基づいてメタデータを作成する手段を有することを特徴とするメタデータ作成装置。
前記プロパティラベルは、
名前を意味するラベルＮ、
技術を意味するラベルＴ、
コミュニティを意味するラベルＣ、
プロジェクトを意味するラベルＰ、組織を意味するラベルＯ、
ＵＲＬを意味するラベルＵＲＬ、
イベントを意味するラベルＥ、および
地位を意味するラベルデータＪ
の群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする請求項２７記載のメタデータ作成装置。