JP4613346B2 - キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 - Google Patents

キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 Download PDF

Info

Publication number
JP4613346B2
JP4613346B2 JP2005252826A JP2005252826A JP4613346B2 JP 4613346 B2 JP4613346 B2 JP 4613346B2 JP 2005252826 A JP2005252826 A JP 2005252826A JP 2005252826 A JP2005252826 A JP 2005252826A JP 4613346 B2 JP4613346 B2 JP 4613346B2
Authority
JP
Japan
Prior art keywords
keyword
name
keyword candidate
degree
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005252826A
Other languages
English (en)
Other versions
JP2006099754A (ja
Inventor
豊 松尾
純一郎 森
浩一 橋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2005252826A priority Critical patent/JP4613346B2/ja
Publication of JP2006099754A publication Critical patent/JP2006099754A/ja
Application granted granted Critical
Publication of JP4613346B2 publication Critical patent/JP4613346B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本願発明は、人とコンテクストとを関係付けるキーワード、言い換えると人の特定のコンテクストに関連したキーワード、を抽出する方法等、並びに抽出されたキーワードに基づいてその人に関するメタデータを作成する方法等に関するものである。
セマンティックウェブの流れを受け、Web上では近年、コンテンツに対するメタデータの付加が行われるようになってきている。特に最近は、Weblogなどのコンテンツ作成ツールの普及により、メタデータの流通が盛んに行われ始めている。Web上のもう一つの新たな動向として、ソーシャルネットワークがある。ソーシャルネッワークは、実社会での友人や知り合いなどの人間関係をWeb上に取り込んだ、実世界志向のWebコミュニティである。このソーシャルネットワークは、スケールフリーネットワークの性質を持ち、ネットワーク分析の観点からも注目されている。これらメタデータの流通およびソーシャルネットワークは、現在のWebの潮流を形成しつつある。
Webにおけるこのような流れを受けて、人および人間関係に着目したメタデータの語彙や記述フレームワークが、近年提案されてきている(非特許文献1,2,3参照)。中でも、人および人間関係をXML(Extensible Markup Language) 、RDF(Resource Description Framework)を用いて記述するフレームワークであるFOAF(Fried of a Friend)が盛んに提唱されており(非特許文献4参照)、ユーザは、FOAFが提供する語彙やその他のRDF語彙を用いて、自分の情報や知り合いの情報を記述し、各人のプロフィールのメタデータとして自身のホームページやWeblogに付加することができる。人間関係を表現するFOAFファイルは、ソーシャルネットワークにおける個人プロフィールとしても利用できる。
Lars Marius Garshol, "Living with topic maps and RDF",http://www.ontopia.net/topicmaps/materials/tmrdf.html, Ontopia, 2003 Renato Iannela, "Representing vCard Objects in RDF/XML",http://www.w3.org/TR/2001/NOTE-vcard-rdf-20010222/, W3C Note, 2001 "DAML Ontology Library", http://www.daml.org/ontologies/, 2004 Dan Brickley and Libby Miller, "FOAF Vocabulary",http://xmlns.com/foaf/0.1/, 2004 Hui Han, et al., "Automatic Document Metadata Extraction usingSupport Vector Machines", Proceedings of the ACM IEEE Joint Conference onDigital Libraries, pp.37-48, 2003 井形,小櫻,片山,津田,"セマンティックグループウェア:RDF を用いたKnowwho の実現",セマンティックウェブとオントロジー研究会,A303-05,2004 H. Kautz, B. Selman and M. Shah, "The Hidden Web", AI Magazine,Vol.18, No.2, pp.27-36, 1997 原田,佐藤,風間,"Web 上のキーパーソンの発見と関係の可視化",情報処理学会研究報告,DBS-130/FI-71, 2003 山本あゆみ,佐藤理史, "ワールドワイドウェブからの人物情報の自動収集",情報処理学会研究報告,2000-ICS-119-24,pp.173-180,2000 松平,上田,大沼,渕上,森田, "文章からのキーワード抽出と関連情報の収集",セマンティックウェブとオントロジー研究会,A303-02,2004 H. Alani, et al., "Automatic Extraction of Knowledge fromWebDocuments", Workshop of Human Language Technology for the Semantic Web andWebServices, 2nd International Semantic Web Conference, Sanibel Island, Florida, USA,2003 A. Dingli, F. Ciravegna, D. Guthrie and Y. Wilks, "MiningWeb SitesUsing Usupervised Adaptive Information Extraction", Proceedings of the 10thConference of the European Chapter of the Association for Computational Linguistics,Budapest, Hungary, 2003 P. Velardi, M. Missikoff and R. Basili, "Identification of relevantterms to support the construction of Domain Ontogies", ACL-EACL Workshop onHuman Language Technologies, Toulouse, France, 2001 "Windows(登録商標)用専門用語(キーワード)自動抽出システム"termex"の解説",http://gensen.dl.itc.u-tokyo.ac.jp/win.html
ところで、セマンティックウェブ実現の課題の一つに、メタデータのアノテーションがある。アノテーションの半自動化および自動化ツールなどにより、徐々にメタデータ化されたWebコンテンツが普及し始めてはいるが、現在のところWeb上のほとんどのコンテンツはメタデータを持たない非構造化データである。これら既存コンテンツをメタデータ化し利用することが今後、セマンティックウェブ普及のための重要な要因になると考えられる。
FOAFのような個人メタデータやソーシャルネットワークにおける個人プロフィールは、多くの場合、各ユーザが自身で作成する。これらのデータは、本人しか知りえない情報を含むため、プライバシーの観点から各人が公開すべき情報を選択しつつ作成するのが一般的である。
一方で、個人メタデータの中には、すでにWeb上の既存の情報源の中で公になっているものが多く存在する。FOAFの語彙の中には個人の活動を示す「組織」や「プロジェクト」などの属性がある。またソーシャルネットワークサービスの多くの個人プロフィールは「所属組織」や「興味」といった項目がある。仮にある人が研究者だとすると、これらの情報はWeb上の個人ページや組織、学会ページに容易に見つけることができる。また、所属組織やプロジェクトのメンバーページ、論文の共著者情報など、その人の研究活動の上での知り合い関係情報もWebページは含んでいる。最近では、WeblogやWeb日記ツールの普及によりユーザの多様な情報が、Web上に現れてきている。
既存のWebページに含まれるこれらの潜在的な情報は、FOAFのような個人メタデータの自動アノテーションやソーシャルネットワークへの応用の大きな可能性を含んでいる。にもかかわらず、従来、これらの情報が十分に活用されることはなかった。
個人メタデータの抽出技術としては、特定の文章からの情報抽出がある。たとえば、論文からの著者情報の抽出などは自然言語処理や機械学習の手法を用いた多くの研究がなされている(たとえば非特許文献5参照)。
しかしながら、Webページのように決まった構造を持たず多様な文章を対象とする場合には、特定の文章に特化した既存の情報抽出手法の利用は難しい。
そこで、本願発明は、以上の事情に鑑み、Webページからの人および人間関係の汎用的なキーワード、特に人に関する特定のコンテクストに関連したキーワードを抽出する方法等、および抽出したキーワードを利用してメタデータを作成する方法等を提供することを課題としている。
本願発明は、上記の課題を解決するものとして、第1には、処理部が、名前NおよびコンテクストワードCの入力部からの入力を受け付けるステップ、前記処理部が、入力された名前Nを含む公開データからキーワード候補群Wを抽出するステップ、前記処理部が、抽出されたキーワード候補群Wの各キーワード候補wについて、名前NおよびコンテクストワードCとの関連度rを算出するステップ、および前記処理部が、算出された関連度rに基づいて、キーワード候補群Wの中から、名前NとコンテクストワードCとを関係付けるキーワードxを抽出するステップを有することを特徴とするキーワード抽出方法を提供する。
第2には、前記処理部が、キーワード候補wと名前NおよびコンテクストワードCとの前記関連度rとして、キーワード候補wと名前NおよびコンテクストワードCとの共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。
第3には、前記処理部が、キーワード候補wと名前NおよびコンテクストワードCとの前記共起の強さとして、キーワード候補wと名前Nとの共起の強さおよびキーワード候補wとコンテクストワードCとの共起の強さを合成した共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。
第4には、前記処理部が、キーワード候補wと名前Nとの前記共起の強さを、名前Nとキーワード候補wの両方を含む公開データ数|N and w|、名前Nを含む公開データ数|N|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、キーワード候補wとコンテクストワードCとの前記共起の強さを、名前NとコンテクストワードCの両方を含む公開データ数|C
and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、そして、これら共起の強さを合成した前記共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。
第5には、前記処理部が、キーワード候補wと名前Nとの前記共起の強さとして、
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
を算出し、キーワード候補wとコンテクストワードCとの前記共起の強さとして、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
を算出し、そして、前記合成した共起の強さとして、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
を算出することを特徴とする前記キーワード抽出方法を提供する。
第6には、処理部が、少なくとも二つの名前N1,N2およびこれらに共通するコンテクストワードCの入力部からの入力を受け付けるステップ、前記処理部が、入力された名前N1,N2を含む公開データからキーワード候補群Wを抽出するステップ、前記処理部が、抽出されたキーワード候補群Wの各キーワード候補wについて、名前N1,N2およびコンテクストワードCとの関連度rを算出するステップ、および前記処理部が、算出された関連度rに基づいて、前記キーワード候補群Wの中から、名前N1,N2とコンテクストワードCとを関係付けるキーワードxを抽出するステップを有することを特徴とするキーワード抽出方法を提供する。
第7には、前記処理部が、キーワード候補wと名前N1,N2およびコンテクストワードCとの前記関連度rとして、キーワード候補wと名前N1,N2およびコンテクストワードCとの共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。
第8には、前記処理部が、キーワード候補wと名前N1,N2およびコンテクストワードCとの前記共起の強さとして、キーワード候補wと名前N1との共起の強さ、キーワード候補wと名前N2との共起の強さおよびキーワード候補wとコンテクストワードCとの共起の強さを合成した共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。
第9には、前記処理部が、キーワード候補wと名前N1との前記共起の強さを、名前N1とキーワード候補wの両方を含む公開データ数|N1 and w|、名前Nを含む公開データ数|N1|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、キーワード候補wと名前N2との前記共起の強さを、名前N2とキーワード候補wの両方を含む公開データ数|N2 and w|、名前Nを含む公開データ数|N2|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、キーワード候補wとコンテクストワードCとの前記共起の強さを、名前NとコンテクストワードCの両方を含む公開データ数|C and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、そして、これら共起の強さを合成した前記共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。
第10には、前記処理部が、キーワード候補wと名前N1との前記共起の強さとして、
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
を算出し、キーワード候補wと名前N2との前記共起の強さとして、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
を算出し、キーワード候補wとコンテクストワードCとの前記共起の強さとして、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
を算出し、そして、前記合成した共起の強さとして、
r(N1,N2,C,w)
=r(N1,N2,w)
+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
を算出することを特徴とする前記キーワード抽出方法を提供する。
第11および第12には、前記いずれかのキーワード抽出方法をコンピュータに実行させるためのキーワード抽出プログラム、および当該キーワード抽出プログラムを記録したコンピュータ読取可能な記録媒体を提供する。
第13には、名前NおよびコンテクストワードCを入力する手段、入力された名前Nを含む公開データからキーワード候補群Wを抽出する手段、抽出されたキーワード候補群Wの各キーワード候補wについて、名前NおよびコンテクストワードCとの関連度rを算出する手段、および算出された関連度rに基づいて、キーワード候補群Wの中から、名前NとコンテクストワードCとを関係付けるキーワードxを抽出する手段を備えたことを特徴とするキーワード抽出装置を提供する。
第14には、キーワード候補wと名前NおよびコンテクストワードCとの前記関連度rが、キーワード候補wと名前NおよびコンテクストワードCとの共起の強さであることを特徴とする前記キーワード抽出装置を提供する。
第15には、キーワード候補wと名前NおよびコンテクストワードCとの前記共起の強さが、キーワード候補wと名前Nとの共起の強さおよびキーワード候補wとコンテクストワードCとの共起の強さを合成した共起の強さであることを特徴とする前記キーワード抽出装置を提供する。
第16には、キーワード候補wと名前Nとの前記共起の強さが、名前Nとキーワード候補wの両方を含む公開データ数|N and w|、名前Nを含む公開データ数|N|、およびキーワード候補wを含む公開データ数|w|から算出されたものであり、キーワード候補wとコンテクストワードCとの前記共起の強さを、名前NとコンテクストワードCの両方を含む公開データ数|C and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|から算出されたものであることを特徴とする前記キーワード抽出装置を提供する。
第17には、キーワード候補wと名前Nとの前記共起の強さが、
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
により算出されたものであり、キーワード候補wとコンテクストワードCとの前記共起の強さが、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出されたものであり、そして、前記合成した共起の強さが、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
により算出されたものであることを特徴とする前記キーワード抽出装置を提供する。
第18には、少なくとも二つの名前N1,N2およびこれらに共通するコンテクストワードCを入力する手段、入力された名前N1,N2を含む公開データからキーワード候補群Wを抽出する手段、抽出されたキーワード候補群Wの各キーワード候補wについて、名前N1,N2およびコンテクストワードCとの関連度rを算出する手段、および算出された関連度rに基づいて、前記キーワード候補群Wの中から、名前N1,N2とコンテクストワードCとを関係付けるキーワードxを抽出する手段を有することを特徴とするキーワード抽出装置を提供する。
第19には、キーワード候補wと名前N1,N2およびコンテクストワードCとの前記関連度rが、キーワード候補wと名前N1,N2およびコンテクストワードCとの共起の強さであることを特徴とする前記キーワード抽出装置を提供する。
第20には、キーワード候補wと名前N1,N2およびコンテクストワードCとの前記共起の強さが、キーワード候補wと名前N1との共起の強さ、キーワード候補wと名前N2との共起の強さおよびキーワード候補wとコンテクストワードCとの共起の強さを合成した共起の強さであることを特徴とする前記キーワード抽出装置を提供する。
第21には、キーワード候補wと名前N1との前記共起の強さが、名前N1とキーワード候補wの両方を含む公開データ数|N1 and w|、名前Nを含む公開データ数|N1|、およびキーワード候補wを含む公開データ数|w|から算出されたものであり、キーワード候補wと名前N2との前記共起の強さが、名前N2とキーワード候補wの両方を含む公開データ数|N2 and w|、名前Nを含む公開データ数|N2|、およびキーワード候補wを含む公開データ数|w|から算出されたものであり、キーワード候補wとコンテクストワードCとの前記共起の強さが、名前NとコンテクストワードCの両方を含む公開データ数|C and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|から算出されたものであることを特徴とする前記キーワード抽出装置を提供する。
第22には、キーワード候補wと名前N1との前記共起の強さが、
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
により算出されたものであり、キーワード候補wと名前N2との前記共起の強さが、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
により算出されたものであり、キーワード候補wとコンテクストワードCとの前記共起の強さが、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出されたものであり、そして、前記合成した共起の強さが、
r(N1,N2,C,w)
=r(N1,N2,w)
+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
により算出されたものであることを特徴とする前記キーワード抽出装置を提供する。
第23には、処理部が、請求項1ないし10のいずれかに記載のキーワード抽出方法により抽出されたキーワードxに対するプロパティラベルの入力部からの入力を受け付けるステップ、、および前記処理部が、入力されたプロパティラベルおよびキーワードxに基づいてメタデータを作成するステップを有することを特徴とするメタデータ作成方法を提供する。
第24には、前記プロパティラベルは、名前を意味するラベルN、技術を意味するラベルT、コミュニティを意味するラベルC、プロジェクトを意味するラベルP、組織を意味するラベルO、URLを意味するラベルURL、イベントを意味するラベルE、および地位を意味するラベルデータJの群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする前記メタデータ作成方法を提供する。
第25および第26には、前記メタデータ作成方法をコンピュータに実行させるためのメタデータ作成プログラム、および当該メタデータ作成プログラムを記録したコンピュータ読取可能な記録媒体を提供する。
第27には、前記いずれかのキーワード抽出装置により抽出されたキーワードxに対するプロパティラベルを入力する手段、および入力されたプロパティラベルおよびキーワードxに基づいてメタデータを作成する手段を有することを特徴とするメタデータ作成装置を提供する。
第28には、前記プロパティラベルは、名前を意味するラベルN、技術を意味するラベルT、コミュニティを意味するラベルC、プロジェクトを意味するラベルP、組織を意味するラベルO、URLを意味するラベルURL、イベントを意味するラベルE、および地位を意味するラベルデータJの群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする前記メタデータ作成装置を提供する。
上記のとおりの特徴を有する本願発明は、情報抽出、特に人や人間関係に関連したキーワード情報の抽出に関するものであり、そのキーワード抽出の対象としてWebページを考慮している。
従来、人に関する情報抽出のなかで、対象をWebとしないものとしては、論文データベースからの著者の所属抽出(非特許文献5参照)や、社内の業務文章からの従業員情報抽出(非特許文献6参照)が知られている。これらの手法は、事前に定義された文章形式やヒューリスティックルールおよび特定のエンティティに関する機械学習などを使用しており、さらには、抽出すべき固有表現、オントロジー、ドメインなどをあらかじめ限定している。
しかし、データベースや社内文章のような構造化された情報源に対して、Web上の情報は一般に半構造化データであり、多様性を持っているため抽出にあたって事前になんらかの前提を与えることは難しく、これら従来手法を適用することは困難である。
また、従来、人に関する情報抽出は、氏名、所属情報、メールアドレスなど限定的な情報抽出にとどまっており、多岐に渡る情報が存在するWebからの情報抽出については未だそれを可能にする技術が実現されていない。
このような事情のもと、本願発明は、上記の通りの特徴を具備することで、Webなどの構造化されてない情報源からの人に関する多様な情報抽出を可能にするものなのである。
一方、Web上からの人の関する情報抽出としては、Webページから名前を収集して人間関係ネットワークを構築し、かつそのネットワーク上で特定の専門用語と関連する人物の検索を行うReferral web(非特許文献7参照)や、検索語と関連する人物をWebから発見するNEXAS//KeyPerson(非特許文献8参照)が知られている。いずれの手法も、検索エンジンの結果を利用し、また共起を用いて語と人の関連性を調べているが、人と語の関連において、ある語に主眼を置き、それに関連する人をWebから抽出するというアプローチをとっている。
これに対し、本願発明の主眼は、人や人間関係にあり、ある人のキーワードをWebから抽出することで、目的とした人のメタデータの自動生成やソーシャルネットワークへの利用を考慮している。この点において、本願発明で用いている人のコンテクストという概念は、上記いずれの手法にもなく、本願発明の重要な特徴点である。
また、政治家などの職業名を入力として、検索エンジンとハイパーリンクを利用し、特定の職業の人物情報を網羅的に収集する方法も知られている(非特許文献9参照)。この方法は、ターゲットとなる職業に関して、表形式で書かれた名前録が存在することを前提にしており、Webページの構造に依存した限定的な手法である。
これに対し、本願発明は、Webページの構造によらず、かつ任意の名前を扱うことが可能な汎用的なキーワード抽出を実現している。
検索エンジンを利用せずに人に関する情報を抽出することも研究されており、たとえば、Webやイントラネットの上の情報源から、あらかじめ定義されたオントロジーに対応したヒューリスティックルールを用いて技術情報や人に関する情報を抽出する手法
(非
特許文献10参照)や、芸術家についてのバイオグラフィー情報をWebから抽出する手法(非特許文献11参照)が知られている。これらの手法はあらかじめ定義した「主語−関係−オブジェクト」という語彙的連鎖関係およびオントロジーを用いて情報を抽出するものである。しかし、Webページはしばしば定型的な記述を含まないため、語彙的関係やヒューリスティックルールを適用するのは困難である。また、大学研究者の名前、プロジェクト、発表文献といった情報を教師なし学習を用いて抽出する手法も知られており(非特許文献12参照)、情報抽出にあたって、"seed"情報として事前にユーザによって提供された情報を基に、学習を行う。
これら(非特許文献10,11,12参照)の手法が事前に定義されたオントロジーやユーザから提供される情報が必要なのに対して、本願発明は、名前のリストのみで人および人間関係に関連した多様な情報が抽出可能である。
またさらに、あるドメインについてキーワードをWebから抽出する研究も行われている(非特許文献13参照)を行っている。これは、Webページ内およびWebページ群の語の出現頻度に基づいたものである。同様にキーワード抽出には、TFIDF(Term Frequency Inverse Document Frequency のように文章コーパスを利用した語の出現頻度に基づく手法が用いられる。
これに対し、本願発明は、コーパスを必要とせず検索エンジンのヒット数を利用した語の共起情報のみによりキーワード抽出が可能である。また、特定ドメインに限定せずに使えることも特徴である。
以上のように、上記第1〜第10の本願発明のキーワード抽出方法によれば、Webページから抽出したキーワード候補群Wと名前N及びコンテックストワードCとの関連度rを算出し、しかもこれを共起の強さの算出により実行することで、名前NとコンテクストワードCとを関係付けるキーワードxを抽出できるようになる。したがって、単に名前Nと関係するキーワードxではなく、名前Nに関する特定のコンテクストワードCに関係するキーワードx(名前N−キーワードx−コンテクストワードC)を抽出できるのである。
また、上記第11および上記第12の本願発明のキーワード抽出プログラムおよびその記録媒体によれば、上記第1〜第10の抽出方法と同様な効果が得られるコンピュータプログラムおよびそれを記録したフレキシブルディスクやCD、DVDなどの記録媒体が実現され、上記第13〜第22の本願発明のキーワード抽出装置によれば、上記第1〜第10の抽出方法と同様な効果が得られる装置が実現される。
そして、上記第23〜第28の本願発明によれば、以上のとおりに抽出されたキーワードxを用いて、それに対応付けしたプロパティラベルをも利用して、その名前Nを有するユーザに関する個人メタデータを簡単に自動作成できるメタデータ作成プログラム、それを記録したフレキシブルディスクやCD、DVDなどの記録媒体、およびそれを実行する装置が実現される。
なお、本願発明が対象とする名前としては、人名のみならず、会社名、団体名、職業名、製品名、動植物名、書名、曲名、国名、地名などの様々な種類の名前を考慮でき、人名と同様にして、各種名前とそれに関する特定のコンテクストワードとを関係付けるキーワードの自動抽出、ならびに抽出キーワードに基づいたメタデータの自動作成を実現できる。また、固有名詞だけでなく、様々な普通名詞に対しても、それを名前として捉えたキーワード抽出ならびにメタデータ作成も可能であり、ありとあらゆる単語や言葉を対象にできる。
他方、本願発明におけるコンテクストワードとは、人(もしくは、上記各種の固有名詞や普通名詞といった、キーワード抽出の対象となるもの)に対して、何に関してのキーワードを抽出するかを表すもので、単語もしくは単語の組み合わせで表される。たとえば、ある人の研究についてのキーワードを抽出したいのであれば、「研究」「研究活動」もしくは具体的な分野名である「人工知能」「自然言語」などの語がコンテクストワードとなる。また、ある人の趣味についてのキーワードを抽出したいのであれば、「趣味」「スポーツ」などの語がコンテクストワードとなる。コンテクストワードを指定することは、個人情報を保護する上からも重要である。また、コンテクストワードを指定しないことで、対象の一般的なキーワードを抽出することも可能である。
以下、上記のとおりの特徴を有する本願発明の実施形態について詳細に説明する。
[キーワード抽出]
本願発明では、キーワードの元となる語群として、対象とする名前Nを含むWebページに含まれる語を用い、そしてインターネット上での検索ヒット数に基づく共起情報を利用して、語群の各語と人との関連度を計算し、各人に深く関連する語をキーワードとして抽出する。
一方、語群には、一般にさまざまなコンテクストの語が含まれている。仮にある人が研究者かつ芸術家であって、それらの活動に関する多くの文章がWeb上に存在すれば、語群には2つのコンテクストに関する語が混在しているはずである。そこで、本願発明では、人および人間関係に関するある特定のコンテクストに関連したキーワードを抽出するため、語群とコンテクストについても語の共起情報を用いて関連を考慮する。
このようにして語群の中から、各人およびその人の特定のコンテクストに深く関連した語をキーワードとして抽出する。
抽出されたキーワードは、多くの個人メタデータを含み、かつキーワードは各人との関連度に基づいているため、本願発明は個人メタデータの自動アノテーションやソーシャルネットワークとの統合など、現在の新たなWeb技術に幅広く利用可能であり、今後のセマンティックウェブの普及へ大きく貢献するものである。
以下、このキーワード抽出の具体的処理について、図1〜図4を適宜参酌しながらより詳細に説明する。図1および図2はキーワード抽出処理のフローチャートであり、図3はその流れをより具体的に例示したものであり、図4はキーワード抽出処理を実行するキーワード抽出装置のシステム構成図である。
図4のシステム構成では、表示部(1)、入力部(2)、処理部(CPU)(3)、記憶部(メモリ)(4)、通信制御部(5)、Webデータベース(6)、キーワードデータベース(7)およびバス(8)を備えている。記憶部(4)には、キーワード抽出プログラムや各種データが記憶されており、この記憶部(4)とバス(8)により接続されている処理部(3)は、キーワード抽出プログラムの指令を受けてキーワード抽出処理を実行する。また、処理部(3)は、入力画面や各種データ等を表示するディスプレイなどの表示部(1)と、名前NやコンテクストワードC等を入力するキーボードやマウスなどの入力部(2)とも、バス(8)により接続されている。Webデータベース(6)には、検索結果としてのWebページ群が蓄積され、キーワードデータベース(7)には、Webページ群から抽出されたキーワード候補群Wが蓄積される。
<ステップS1>
まず、処理部(3)により、名前NおよびコンテクストワードCの入力を入力部(2)から受け付ける。
より具体的には、たとえば、本システムのユーザが、自身の名前と、自身に関するコンテクストワード、たとえば研究者であれば研究分野や所属先の語などを入力し、処理部(3)は、その入力を受け付ける。
もちろん、ユーザ以外の他の人の名前やその人のコンテクストも考慮できることは言うまでもなく、ユーザが興味を持つ人のキーワード情報を抽出できるのである。
<ステップS2>
次に、処理部(3)により、上記入力された名前Nを含む公開データから、キーワード候補群Wを抽出する。
より具体的には、まず、公開データとしては、主にインターネット上で公開されているWebページ群を考慮でき、名前Nをインターネット上にて検索し、その検索結果として出力されるものを対象とする。このとき、検索結果の上位いくつかのWebページのみを対象とすることが好ましい。下位ページほど名前とあまり深く関連しない不要な語を多く含むページとなるためである。処理時間の観点からも、対象情報源としてのWebページの数を適宜絞りこむことが好ましいと言える。
処理部(3)は、自身の検索プログラムを実行するようにしても、別途のネットワーク(9)上のサーチエンジンに名前Nを送信して検索の実行をさせ、検索結果をサーチエンジンからネットワーク(9)を介して受け取るようにしてもよい。
検索された上位Webページ群は、一旦、初期Webページとして記憶部(4)や別途のWebデータベース(6)等の記憶手段に記憶される。
続いて、このWebページ群からキーワード候補群Wを抽出する。たとえば、対象文章中にてある単語が何回出現するかを示す出現頻度や、ある単語が他の単語とどのように何回結びつくか等を示す単語間の結びつき度合いなどに基づいて、各単語の重要度を算出し、重要度の高い単語(既定閾値より高い等)をキーワード候補wとして選択することで、適切な抽出が実現できる。
処理部(3)は、自身の抽出プログラムを実行するようにしても、別途の公知キーワード抽出ツールであるTermex(非特許文献14参照)等を本システムに組み込んだり必要に応じてネットワーク(9)を通して呼び込んだりして抽出の実行をさせるようにしてもよい。
なお、この抽出処理の前に、対象文章に対して形態素解析を実行することも好ましい。形態素解析は、単語分割や品詞タグ付け(POS:Part Of Speech tagging)等、公知の手法を用いることができる。
またさらに、各Webページに対して、それに含まれているpdfファイルやpptファイルなどのhtmlファイル以外のファイルを除去し、且つhtmlファイルに含まれるMETAタグやRDF等のhtmlタグを除去するなどの、前処理を行っておいてもよい。
これら形態素解析や前処理によれば、キーワード候補群抽出の処理速度や精度を向上させることができる。
以上により抽出されたキーワード候補群Wは、記憶部(4)や別途のキーワードデータベース(7)等の記憶手段に記憶される。
ところで、Web上では同姓同名の人が多く存在するため、目的とする人以外のWebページが検索されてしまう可能性がある。そこで、人物名とともに、その人物を判別する語を検索クエリに加えることで、検索精度を上げることもできる。たとえば、人物を判別する語として企業名、研究機関名、大学名等の所属組織名を考えた場合、氏名Nと所属名Aのandを検索クエリとする。また、複数の所属がある場合、所属の変更がある場合、所属機関に複数の名称や略称がある場合などでは、 氏名N and(所属名A or所属名B or所属略称C)を検索クエリ として用いる。もちろん人物判別語は、所属組織名等の所属情報を表す語に限定されず、同姓同名の中から目的とする人物を判別できる語であればよい。
この同姓同名問題への対応処理を加えることで、たとえば、目的とする人物が複数の所属を持つ場合、所属が変わった場合などには、過去の所属においてどのような研究トピックであったか、複数の所属をどのような研究トピックで分けているかなどを知ることができる。
また、名前については、正式名称とその略称が存在する場合も考えられ(特に企業等の組織名ではそのケースが多くみられる)、たとえば、正式名称等の一方の名称X1で検索したときにヒットする文書に含まれる語Y1と、略称等の別の名称X2で検索したときにヒットする文書に含まれる語Y2とが互いに近い関係にあれば、それらX1,X2は同じ組織の名称であると判断する処理を行うことで、さらなる検索精度の向上を図ることができる。
なお、上記説明ではインターネット上で公開されているWebページ群をキーワード候補群wの抽出元としているが、本願発明では、Webページ群の他にも、公開されている様々な文書データ群等のデータを抽出元として考慮できることは言うまでもない。また、これら公開データには、広く一般に公開されているデータだけではなく、ある特定のデータベース(たとえば一般には公開されていないがある組織内でのみアクセスできるデータベースなど)内に蓄積されているデータ群も抽出元として考慮できる。
<ステップS3>
次に、処理部(3)により、上記抽出されたキーワード候補群Wの各キーワード候補wを、記憶手段から読み出し、名前N及びコンテクストワードCとの関連度rを算出する。
本願発明では、名前の検索結果から抽出されたキーワードの候補語に対してスコア付けを行い、最終的なキーワードを決定するのであるが、スコア付けにあたっては、人と語との関連度を考慮し、人と深く関連する語がキーワードとなるようにする。これを実現すべく、人(名前)と語の関連度の尺度として共起情報を用いる。ここで共起とは、名前と語が同一のページに同時に現れることを示す。そのようなページが多くあるほど両者の関係は強く、語はその人のキーワードとみなせる。
一方、各人の候補語群はその人の氏名の検索結果であるWebページから取得したものであるため、語はその人の複数のコンテクストを含んでいる。仮にある人が人工知能、哲学、ロボットの研究をしているとすると、その語群には、その人のそれぞれの研究活動に関連した語が含まれている。今、その人の人工知能に関するキーワードを知りたいとすると、単に名前と語の共起にもとづいてキーワード抽出するだけでは、哲学やロボットなどのその他の活動のキーワードが混じってしまうため、人工知能のキーワードのみを取り出すことはできない。そこで、本願発明では、人の特定のコンテクストに関連したキーワードを抽出するために語と名前Nだけでなく、語とコンテクストCの共起についても考慮し、それらを合成した共起の強さを最終的な関連度とする。
より具体的には、まず、キーワード候補wと名前Nの共起情報の取得にあたっては、名前Nとキーワード候補wの両方を含むWebページ数|N and w|を利用する。このWebページ数は、NとwのAND検索を行って得られたヒット件数とすることができ、このヒット件数|N and w|を共起とする。そしてさらに、名前Nを含むWebページ群とキーワード候補wを含むWebページ群の集合の重なりを考慮した共起の強さを、Jaccard係数等を用いて算出する。なお、ここではWebページを対象としているので特に「Webページ数」と呼んでいるが、前述したように本願発明ではWebページ以外の様々な公開データを対象とできるので、その場合にはより広い概念として「公開データ数」などと呼ぶことができる(以下についても同じ)。
さらに説明すると、まず、キーワード候補wと名前Nとの共起の強さを、名前Nとキーワード候補wの両方を含むWebページ数|N and w|、名前Nを含むWebページ数|N|、およびキーワード候補wを含むWebページ数|w|を用いて算出する(図2のステップS3.1)。各ページ数は、別途行われる検索プログラムの実行やネットワーク(9)上のサーチエンジンの実行によって得られるヒット件数である。
また、キーワード候補wとコンテクストワードCとの共起の強さを、名前NとコンテクストワードCの両方を含むWebページ数|C and w|、コンテクストワードCを含むWebページ数|C|、およびキーワード候補wを含むWebページ数|w|を用いて算出する(図2のステップS3.2)。
これら各共起の強さは、たとえば、Jaccard係数、相互情報量、Dice係数、Simpson係数の計算により求めることができる。具体的にはそれぞれ以下とおりである。
キーワード候補wと名前Nとの共起の強さr(N,w)
Jaccard係数:|N and w|/(|N|+|w|−|N and w|)
相互情報量:log|N or w|/|N||w|
Dicd係数:2|N and w|/(|N|+|w|)
Simpson係数:|N and w|/min(|N|,|w|)
キーワード候補wとコンテクストワードCとの共起の強さr(C,w)
Jaccard係数:|C and w|/(|C|+|w|−|Cand w|)
相互情報量:log|C or w|/|C||w|
Dicd係数:2|C and w|/(|C|+|w|)
Simpson係数:|C and w|/min(|C|,|w|)
そして、これら共起の強さを下記のように合成して、各キーワード候補wと名前N及びコンテクストワードCとの共起の強さを算出する(図2のステップS3.3)。
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
但し、r(N,w)/max(r(N,w))>閾値t
この式は、あるコンテクストCにおけるある名前Nとキーワード候補wとの関連度を与えるものである。αは、NとCの関連度を示すパラメータであり、
Jaccard係数:|N and C|/(|N|+|C|−|N and C|)、
相互情報量:log|N or C|/|N||C|、
Dicd係数:2|N and C|/|N|+|C|、
Simpson係数:|N and C|/min(|N|,|C|)
などで与えられる。また、キーワードxとなる候補語wは、r(N1,w)がある閾値threshold以上となるものとする。
以上により、共起を用いたキーワードスコアリングが行われることになる。算出された共起の強さr(N,C,w)は、各キーワード候補w毎に、記憶部(4)や別途のデータベース(図示なし)等の記憶手段に記憶される。
<ステップS4>
そして、処理部(3)は、関連度rとして上記算出された共起の強さr(N,C,w)に基づき、名前NとコンテクストワードCとを関係付けるキーワードxを抽出する。
より具体的には、共起の強さr(N,C,w)の値が予め設定した閾値以上となるキーワード候補wを抽出したり、上位いくつかのキーワード候補wを抽出したりすればよい。
以上により、単に名前のみに基づいたキーワード情報の抽出ではなく、その人を取り巻くコンテクストを考慮しての名前とコンテクストワードとを関係付けるキーワード情報を的確に且つ容易に、膨大な数のWebページから抽出することができる。そして、このキーワード情報は、従来では全く考慮されていなかったWebページに含まれる様々な潜在的情報のうちから抽出された適切な情報であって、後述するようにメタデータやソーシャルネットワークファイルの自動作成に利用できるものである。
[複数の人に共通するキーワードの抽出]
以上説明した実施形態は対象とする名前が一つの場合についてのものであるが、本願発明では名前は二つ以上でもよく、この場合名前N1,N2とその両名に関連するコンテクストワードCとを関係付けるキーワードx、つまりある特定のコンテストワードCとの関連における二人の人間関係を結びつけるキーワードxを抽出することもできる。
この場合の具体的処理については、全体の流れは上記ステップS1〜S4と同様であるが、対象名前が複数となる点で、以下のとおりの共起の強さの算出処理が必要となる。
すなわち、各キーワード候補wと名前N1,N2及びコンテクストワードCとの共起の強さとして、
r(N1,N2,C,w)
=r(N1,N2,w)+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
但し、[r(N1,w)/max(r(N1,w)),r(N2,w)/max(r(N2,w))}>閾値t
を算出する。
この式は、コンテクストCにおける名前N1,N2の関係についてキーワード候補wの関連度を与えるものである。βは、N1,N2とCの関連度を示すパラメータであり、
Jaccard係数:|(N1andN2)andC|/(|N1andN2|+|C|−|(N1andN2)and
C|)、
相互情報量:log|(N1andN2)orC|/|N1andN2||C|、
Dicd係数:2|(N1andN2)andC|/|N1andN2|+|C|、
Simpson係数:|(N1andN2)andC|/min(|N1andN2|,|C|)
などで与えられる。また、キーワードxとなるキーワード候補wは、r(N1,w)およびr(N1,w)がある閾値threshold以上となるものとする。これにより、二人の関係において互いの語群のうちでどちらの名前N1,N2とも共起する語のスコアリングが可能となる。
この算出処理についてさらに説明すると、まず、キーワード候補wと名前N1との共起の強さr(N1,w)を、名前N1とキーワード候補wの両方を含むWebページ数|N1 and w|、名前Nを含むWebページ数|N1|、およびキーワード候補wを含むWebページ数|w|を用いて算出し、且つ、キーワード候補wと名前N2との共起の強さr(N2,w)を、名前N2とキーワード候補wの両方を含むWebページ数|N2 and w|、名前Nを含むWebページ数|N2|、およびキーワード候補wを含むWebページ数|w|を用いて算出し、且つ、キーワード候補wとコンテクストワードCとの共起の強さr(C,w)を、名前NとコンテクストワードCの両方を含むWebページ数|C and w|、コンテクストワードCを含むWebページ数|C|、およびキーワード候補wを含むWebページ数|w|を用いて算出する。そして、これら共起の強さを合成した共起の強さとして、上記数式r(N1,N2,C,w)を算出する。各共起の強さr(N1,w)、r(N2,w)、r(C,w)は、前述と同様に、Jaccard係数、相互情報量、Dice係数、Simpson係数などの算出により求める。
以上により、二人の人物に共通する特定のコンテクストに深く関連した語をキーワードとして抽出することができる。
[メタデータ作成]
さて、以上のとおりに抽出されたキーワードxは、たとえば以下のとおりにメタデータの作成に使用できる。図5はメタデータ作成処理フロー、図6はこのメタデータ作成処理を実行するメタデータ作成装置のシステム構成である。
<ステップS5>
まず、処理部(3)は、各キーワードxに対するプロパティラベルの入力部(2)からの入力を受け付ける。
より具体的には、プロパティラベルは、キーワードの特徴、関係、属性等を表わすもので、たとえば、
名前(name,knows)を意味するラベルN、
技術(technical,interest,topic interest,made,etc)を意味するラベルT、
コミュニティ(community)を意味するラベルC、
プロジェクト(currentProject, pastProject)を意味するラベルP、
組織 (organization,workplaceHP,workinfoHP)を意味するラベルO、
URL(homepage, seeAlso)を意味するラベルURL、
イベント(event)を意味するラベルE、および
地位(position)を意味するラベルデータJ
を考慮できる。
そして、これらのうちから各キーワードxを表すのに適したプロパティラベルを、入力部(2)により入力する。もちろんこれら全てのラベル種類を考慮する必要はなく、上記ラベル群のうちの少なくとも二つ以上の種類を考慮して適宜選択して入力すればよい。処理部(3)はこの入力を受け付ける。
入力されたプロパティラベルは、キーワードx毎に対応付けて記憶部(4)や別途のラベルデータベース(10)等の記憶手段に記憶される。
<ステップS6>
そして、処理部(3)は、記憶手段から読み出したプロパティラベルおよびキーワードxに基づいて、メタデータを作成する。
より具体的には、たとえば、RDF等のメタデータ記述方式毎にそれぞれ適した処理を実行することにより、メタデータを自動作成できる。RDFの場合では、対象リソースに関するRDFスキーマやオントロジーによって定義されるプロパティと上記プロパティラベルとを対応させておき、そのプロパティラベルを付加されたキーワードxを対象リソースの各プロパティの値として当て嵌めるなどすればよい。
[ソーシャルネットワークへの応用]
一方、複数人間間のキーワードは、ソーシャルネットワークへの応用も可能である。
人々は、共通の友人や共通の興味を持ち、同じ組織やプロジェクトに関わっているなどの関係を持っている。これらの関係は、人間関係を記述するメタデータと考えることがえきる。したがって、上記の通りに抽出されたキーワードは、人間関係のメタデータを含むため、ソーシャルネットワークへ応用できる。
すなわち、ソーシャルネットワーキングでは、興味が近い人を見つけたり、自分と他の人の関係性、友達の友達を見つけることでコミュニケーションを促進するのであるが、このためには、どういう人なのか、どういう興味を持っているのかという情報が必要であり、これを上記キーワードとして自動的に抽出できる、言い換えると上記キーワードからこの情報を把握できるのである。
ここで、実際のキーワード抽出結果について説明する。
表1は一つの抽出結果を示したものであり、左欄は、名前N="松尾豊"およびコンテクストワードC="人工知能"として抽出したキーワードx、右欄は、名前N="石塚満"およびコンテクストワードC="人工知能"として抽出したキーワードxである。それぞれ、上位10件のWebページに含まれるhtmlファイルのみを対象とし、htmlタグを削除した後、形態素解析を行い、公知のツールTermex(非特許文献14参照)を用いてキーワード候補群Wを抽出し、さらに、Jaccard係数を用いて共起の強さを算出し、上位20個のキーワードxを抽出した。
また、表2は、名前N1="松尾豊"、名前N2="石塚満"、コンテクストワードC="人工知能"として抽出したキーワードx、つまり"人工知能"を両名の共通コンテクストとした場合の両名を関係付けるキーワードxを示したものである。各処理は表1の場合と同じである。
Figure 0004613346
Figure 0004613346
表3は名前N="Dan Brickley"についてのキーワード抽出結果、表4は、名前N="Libby Miller"についてのキーワード抽出結果を示したものであり、それぞれ、左から、TFIDF(Term Frequency Inverse Document Frequency)と呼ばれる従来手法により抽出されたキーワード、名前Nのみの共起に基づいて抽出されたキーワード、本願発明により名前NおよびコンテクストワードCの共起に基づいて抽出されたキーワードである。
TFIDFは、多くのキーワード抽出システムで使われている手法であり、テキストドキュメントの中から個別の単語をスコアリングし、ドキュメントの内容を的確に表現した概念を抽出できる。本実施例では、TFIDFで使われるCorporaとして235個のhtmlファイルを使用した。
名前Nのみの共起に基づいた抽出は、本願発明との比較のために行っている。
表3からわかるように、TFIDFでは、あまり重要でないpageやhomeといった語が多く含まれているが、共起に基づいた抽出では、一般的な語は除かれ、その人(名前N)に関係の深い語が得られている。そして、コンテクストワードCの共起をも用いた本願発明による抽出では、コンテクストワード"FOAF"に関係した語(表中、太字斜め字で示した語)が的確に得られている。
Figure 0004613346
Figure 0004613346
表5は、名前N1="Dan Brickley"、名前N2="Libby Miller"、コンテクストワードC="FOAF"についてのキーワード抽出の結果得られた、二人の関係についてのキーワードを示したものである。
この表5から、両名共通の"FOAF"というコンテクストを考慮した場合、両名は"ILRT "に所属し、"SWAD "プロジェクトに関わっており、"Jan Grant"という共通の知人がいるといったことが推測できる。
Figure 0004613346
上記表3、表4における一番右側の欄には、各キーワードに対するプロパティラベルが記されている。プロパティラベルは、前述した名前N、技術T、コミュニティC、プロジェクトP、組織O、URL、イベントE、地位Jから適宜選択されたもので、たとえば表3において、Dan Brickleyは名前N、FOAFは技術T、SWADはプロジェクトP、ILRTは組織Oなどとなっている。
そして、これらキーワードおよびプロパティラベルに基づいて、本願発明により図7に示したようなFOAFファイルを自動作成できる。たとえば、Dan Brickleyが名前であることをプロパティラベルNから認識し、これに基づいて<foaf:name>Dan Brickley </foaf:name>が作成される。これは、予めプロパティラベルNとFOAFのプロパティ<foaf:name>とを対応づけてデータベース等に記憶させておき、作成時に<foaf:name>を選択してその値にDan Brickleyを当て嵌めるようにすればよい。他のプロパティラベルについても同様に対応するFOAFプロパティを用いて処理を行うことで、簡単にメタデータを自動作成できる。
以上詳しく説明したとおり、本願発明によって、様々な公開文書データから、特にコンテンツの多くが半構造化データであるWebページから、その構造によらず、任意の人名およびコンテクストワードの入力だけで、それらを関係付けるキーワード、つまり単一の人や複数の人に関する特定のコンテクストに深く関連したキーワードを的確に且つ容易に自動抽出することのできるコンピュータプログラムやその記録媒体、またはコンピュータ装置等を実現でき、さらには、抽出されたキーワードおよびそれに対して付されるプロパティラベルを用いて、その人や人間関係に関するメタデータを自動作成することのできるコンピュータプログラムやその記録媒体、またはコンピュータ装置等をも実現できる。
本願発明では、前述したように人名以外にも様々な種類の名前を対象とすることができ、たとえば、企業の場合には名前として企業名、コンテクストワードとして業種や開発技術等を表現した単語、製品の場合には名前として製品名、コンテクストワードとして製品種類や機能等を表現した単語に対して、キーワード抽出ならびにメタデータ作成を実現することができる。
本願発明によるキーワード抽出について説明するための処理フロー図。 本願発明によるキーワード抽出について説明するための別の処理フロー図。 本願発明によるキーワード抽出について説明するためのさらに別の処理フロー図。 本願発明の一実施形態であるキーワード抽出装置のシステム構成図。 本願発明によるメタデータ作成について説明するための処理フロー図。 本願発明の一実施形態であるメタデータ作成装置のシステム構成図。 本願発明により作成されたFOAFファイルの一例を示した図。
符号の説明
1 表示部
2 入力部
3 処理部
4 記憶部
5 通信制御部
6 Webデータベース
7 キーワードデータベース
8 バス
9 ネットワーク
10 ラベルデータベース

Claims (14)

  1. 処理部が、名前NおよびコンテクストワードCの入力を入力部から受け付け、記憶手段に記憶するステップ、
    前記処理部が、記憶された名前Nを含む公開データの検索結果として出力される公開データ群から、単語の出現頻度あるいは単語間の結びつき度合いに基づいて各単語の重要度を算出し、重要度の高い単語群をキーワード候補群Wとして抽出し、記憶手段に記憶するステップ、
    前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wと名前NのAND検索により求められる当該キーワード候補wと名前Nを含む公開データ数|N and w|、名前Nの検索により求められる当該名前Nを含む公開データ数|N|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前Nとの関連度r(N,w)を算出し、記憶手段に記憶するステップ、
    前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wとコンテクストワードCとのAND検索により求められる当該キーワード候補wとコンテクストワードCを含む公開データ数|C and w|、コンテクストワードCの検索により求められる当該コンテクストワードCを含む公開データ数|C|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wとコンテクストワードCとの関連度r(C,w)を算出し、記憶手段に記憶するステップ、
    前記処理部が、記憶された関連度r(N,w)およびr(C,w)を合成して、キーワード候補w名前NおよびコンテクストワードCとの関連度r(N,C,w)を算出し、記憶手段に記憶するステップ、および
    前記処理部が、記憶された関連度r(N,C,w)が既定閾値以上となるキーワード候補wあるいは上位いくつかの関連度r(N,C,w)のキーワード候補wを、キーワード候補群Wの中から、名前NとコンテクストワードCとを関係付けるキーワードxとして抽出するステップ
    を有することを特徴とするキーワード抽出方法。
  2. 前記処理部が、キーワード候補wと名前Nとの関連度r(N,w)を
    r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
    r(N,w)=log|N or w|/|N||w|、または
    r(N,w)=2|N and w|/(|N|+|w|)、または
    r(N,w)=|N and w|/min(|N|,|w|)
    により算出し、
    キーワード候補wとコンテクストワードCとの関連度r(C,w)を
    r(C,w)=|C and w|/(|C|+|w|−|C and w|)、または
    r(C,w)=log|C or w|/|C||w|、または
    r(C,w)=2|C and w|/(|C|+|w|)、または
    r(C,w)=|C and w|/min(|C|,|w|)
    により算出し、
    キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N,C,w)を
    r(N,C,w)=r(N,w)/max(r(N,w))
    +α・r(C,w)/max(r(C,w))
    により算出する
    ことを特徴とする請求項記載のキーワード抽出方法。
  3. 処理部が、少なくとも二つの名前N1,N2およびこれらに共通するコンテクストワードCの入力を入力部から受け付け、記憶手段に記憶するステップ、
    前記処理部が、記憶された名前N1,N2の検索結果として出力される公開データから、単語の出現頻度あるいは単語間の結びつき度合いに基づいて各単語の重要度を算出し、重要度の高い単語群をキーワード候補群Wとして抽出し、記憶手段に記憶するステップ、
    前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wと名前N1のAND検索により求められる当該キーワード候補wと名前N1を含む公開データ数|N1 and w|、名前N1の検索により求められる当該名前N1を含む公開データ数|N1|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前N1との関連度r(N1,w)を算出し、記憶手段に記憶するステップ、
    前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wと名前N2のAND検索により求められる当該キーワード候補wと名前N2を含む公開データ数|N2 and w|、名前N2の検索により求められる当該名前N2を含む公開データ数|N2|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前N2との関連度r(N2,w)を算出し、記憶手段に記憶するステップ、
    前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wとコンテクストワードCとのAND検索により求められる当該キーワード候補wとコンテクストワードCを含む公開データ数|C and w|、コンテクストワードCの検索により求められる当該コンテクストワードCを含む公開データ数|C|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wとコンテクストワードCとの関連度r(C,w)を算出し、記憶手段に記憶するステップ、
    前記処理部が、記憶された関連度r(N1,w)、r(N2,w)およびr(C,w)を合成して、キーワード候補w名前N1,N2およびコンテクストワードCとの関連度r(N1,N2,C,w)を算出し、記憶手段に記憶するステップ、および
    前記処理部が、記憶された関連度r(N1,N2,C,w)が既定閾値以上となるキーワード候補wあるいは上位いくつかの関連度r(N1,N2,C,w)のキーワード候補wを、前記キーワード候補群Wの中から、名前N1,N2とコンテクストワードCとを関係付けるキーワードxとして抽出するステップ
    を有することを特徴とするキーワード抽出方法。
  4. 前記処理部が、キーワード候補wと名前N1との関連度r(N1,w)を
    r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
    r(N1,w)=log|N1 or w|/|N1||w|、または
    r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
    r(N1,w)=|N1 and w|/min(|N1|,|w|)
    により算出し、
    キーワード候補wと名前N2との関連度r(N2,w)を
    r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
    r(N2,w)=log|N2 or w|/|N2||w|、または
    r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
    r(N2,w)=|N2 and w|/min(|N2|,|w|)
    により算出し、
    キーワード候補wとコンテクストワードCとの関連度r(C,w)を
    r(C,w)=|C and w|/(|C|+|w|−|C and w|)、または
    r(C,w)=log|C or w|/|C||w|、または
    r(C,w)=2|C and w|/(|C|+|w|)、または
    r(C,w)=|C and w|/min(|C|,|w|)
    により算出し、
    キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N1,N2,C,w)を
    r(N1,N2,C,w)
    =r(N1,N2,w)+γ・r(C,w)/max(r(C,w))
    ={r(N1,w)/max(r(N1,w))
    +β・r(N2,w)/max(r(N2,w))}
    +γ・r(C,w)/max(r(C,w))
    により算出する
    ことを特徴とする請求項記載のキーワード抽出方法。
  5. 請求項1ないしのいずれかに記載のキーワード抽出方法をコンピュータに実行させるためのキーワード抽出プログラム。
  6. 名前NおよびコンテクストワードCを入力する手段、
    入力された名前NおよびコンテクストワードCを記憶する手段、
    記憶された名前Nを含む公開データの検索結果として出力される公開データ群から、単語の出現頻度あるいは単語間の結びつき度合いに基づいて各単語の重要度を算出し、重要度の高い単語群をキーワード候補群Wとして抽出する手段、
    抽出されたキーワード候補群Wを記憶する手段、
    記憶されたキーワード候補群Wの各キーワード候補wと名前NのAND検索により求められる当該キーワード候補wと名前Nを含む公開データ数|N and w|、名前Nの検索により求められる当該名前Nを含む公開データ数|N|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前Nとの関連度r(N,w)を算出する手段、
    算出された関連度r(N,w)を記憶する手段、
    記憶されたキーワード候補群Wの各キーワード候補wとコンテクストワードCとのAND検索により求められる当該キーワード候補wとコンテクストワードCを含む公開データ数|C and w|、コンテクストワードCの検索により求められる当該コンテクストワードCを含む公開データ数|C|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wとコンテクストワードCとの関連度r(C,w)を算出する手段、
    算出された関連度r(C,w)を記憶する手段、
    記憶された関連度r(N,w)およびr(C,w)を合成して、キーワード候補w名前NおよびコンテクストワードCとの関連度r(N,C,w)を算出する手段、
    算出された関連度r(N,C,w)を記憶する手段、
    記憶された関連度r(N,C,w)が既定閾値以上となるキーワード候補wあるいは上位いくつかの関連度r(N,C,w)のキーワード候補wを、キーワード候補群Wの中から、名前NとコンテクストワードCとを関係付けるキーワードxとして抽出する手段
    を備えたことを特徴とするキーワード抽出装置。
  7. キーワード候補wと名前Nとの関連度r(N,w)が、
    r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
    r(N,w)=log|N or w|/|N||w|、または
    r(N,w)=2|N and w|/(|N|+|w|)、または
    r(N,w)=|N and w|/min(|N|,|w|)
    により算出されたものであり、
    キーワード候補wとコンテクストワードCとの関連度r(C,w)が、
    r(C,w)=|C and w|/(|C|+|w|−|C and w|)、または
    r(C,w)=log|C or w|/|C||w|、または
    r(C,w)=2|C and w|/(|C|+|w|)、または
    r(C,w)=|C and w|/min(|C|,|w|)
    により算出されたものであり、
    キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N,C,w)が、
    r(N,C,w)=r(N,w)/max(r(N,w))
    +α・r(C,w)/max(r(C,w))
    により算出されたものである
    ことを特徴とする請求項記載のキーワード抽出装置。
  8. 少なくとも二つの名前N1,N2およびこれらに共通するコンテクストワードCを入力する手段、
    入力された名前N1,N2およびコンテクストワードCを記憶する手段、
    記憶された名前N1,N2検索結果として出力される公開データから、単語の出現頻度あるいは単語間の結びつき度合いに基づいて各単語の重要度を算出し、重要度の高い単語群をキーワード候補群Wとして抽出する手段、
    抽出されたキーワード候補群Wを記憶する手段、
    記憶されたキーワード候補群Wの各キーワード候補wと名前N1のAND検索により求められる当該キーワード候補wと名前N1を含む公開データ数|N1 and w|、名前N1の検索により求められる当該名前N1を含む公開データ数|N1|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前N1との関連度r(N1,w)を算出する手段、
    算出された関連度r(N1,w)記憶する手段、
    記憶されたキーワード候補群Wの各キーワード候補wと名前N2のAND検索により求められる当該キーワード候補wと名前N2を含む公開データ数|N2 and w|、名前N2の検索により求められる当該名前N2を含む公開データ数|N2|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前N2との関連度r(N2,w)を算出する手段、
    算出された関連度r(N2,w)を記憶する手段、
    記憶されたキーワード候補群Wの各キーワード候補wとコンテクストワードCとのAND検索により求められる当該キーワード候補wとコンテクストワードCを含む公開データ数|C and w|、コンテクストワードCの検索により求められる当該コンテクストワードCを含む公開データ数|C|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wとコンテクストワードCとの関連度r(C,w)を算出する手段、
    算出された関連度r(C,w)を記憶する手段、
    記憶された関連度r(N1,w)、r(N2,w)およびr(C,w)を合成して、キーワード候補w名前N1,N2およびコンテクストワードCとの関連度r(N1,N2,C,w)を算出する手段、
    算出された関連度r(N1,N2,C,w)を記憶する手段、
    記憶された関連度r(N1,N2,C,w)が既定閾値以上となるキーワード候補wあるいは上位いくつかの関連度r(N1,N2,,C,w)のキーワード候補wを、前記キーワード候補群Wの中から、名前N1,N2とコンテクストワードCとを関係付けるキーワードxとして抽出する手段
    を有することを特徴とするキーワード抽出装置。
  9. キーワード候補wと名前N1との関連度r(N1,w)が、
    r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
    r(N1,w)=log|N1 or w|/|N1||w|、または
    r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
    r(N1,w)=|N1 and w|/min(|N1|,|w|)
    により算出されたものであり、
    キーワード候補wと名前N2との関連度r(N2,w)が、
    r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
    r(N2,w)=log|N2 or w|/|N2||w|、または
    r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
    r(N2,w)=|N2 and w|/min(|N2|,|w|)
    により算出されたものであり、
    キーワード候補wとコンテクストワードCとの関連度r(C,w)が、
    r(C,w)=|C and w|/(|C|+|w|−|C and w|)、または
    r(C,w)=log|C or w|/|C||w|、または
    r(C,w)=2|C and w|/(|C|+|w|)、または
    r(C,w)=|C and w|/min(|C|,|w|)
    により算出されたものであり、
    キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N1,N2,C,w)が、
    r(N1,N2,C,w)
    =r(N1,N2,w)+γ・r(C,w)/max(r(C,w))
    ={r(N1,w)/max(r(N1,w))
    +β・r(N2,w)/max(r(N2,w))}
    +γ・r(C,w)/max(r(C,w))
    により算出されたものである
    ことを特徴とする請求項記載のキーワード抽出装置。
  10. 処理部が、請求項1ないしのいずれかに記載のキーワード抽出方法により抽出されたキーワードxに対するプロパティラベルの入力を入力部から受け付け、記憶手段に記憶するステップ、
    メタデータの作成に必要なプロパティと各プロパティラベルとを対応付けて予め記憶手段に記憶するステップ、
    前記処理部が、記憶されたプロパティラベルに対応するプロパティを選択し、該プロパティの値にキーワードxを当て嵌めて、メタデータを作成するステップ
    を有することを特徴とするメタデータ作成方法。
  11. 前記プロパティラベルは、
    名前を意味するラベルN、
    技術を意味するラベルT、
    コミュニティを意味するラベルC、
    プロジェクトを意味するラベルP、
    組織を意味するラベルO、
    URLを意味するラベルURL、
    イベントを意味するラベルE、および
    地位を意味するラベルデータJ
    の群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする請求項10記載のメタデータ作成方法。
  12. 請求項10または11に記載のメタデータ作成方法をコンピュータに実行させるためのメタデータ作成プログラム。
  13. 請求項ないしのいずれかに記載のキーワード抽出装置により抽出されたキーワードxに対するプロパティラベルを入力する手段、
    入力されたプロパティラベルを記憶する手段、
    メタデータの作成に必要なプロパティと各プロパティラベルとを対応付けて予め記憶する手段、
    記憶されたプロパティラベルに対応するプロパティを選択し、該プロパティの値にキーワードxを当て嵌めて、メタデータを作成する手段を有することを特徴とするメタデータ作成装置。
  14. 前記プロパティラベルは、
    名前を意味するラベルN、
    技術を意味するラベルT、
    コミュニティを意味するラベルC、
    プロジェクトを意味するラベルP、
    組織を意味するラベルO、
    URLを意味するラベルURL、
    イベントを意味するラベルE、および
    地位を意味するラベルデータJ
    の群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする請求項13記載のメタデータ作成装置。
JP2005252826A 2004-09-01 2005-08-31 キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 Expired - Fee Related JP4613346B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005252826A JP4613346B2 (ja) 2004-09-01 2005-08-31 キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004254411 2004-09-01
JP2005252826A JP4613346B2 (ja) 2004-09-01 2005-08-31 キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置

Publications (2)

Publication Number Publication Date
JP2006099754A JP2006099754A (ja) 2006-04-13
JP4613346B2 true JP4613346B2 (ja) 2011-01-19

Family

ID=36239435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005252826A Expired - Fee Related JP4613346B2 (ja) 2004-09-01 2005-08-31 キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置

Country Status (1)

Country Link
JP (1) JP4613346B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083768A1 (en) * 2007-09-20 2009-03-26 Hatalkar Atul N Context platform framework for aggregation, analysis and use of contextual information
JP4869292B2 (ja) * 2008-06-20 2012-02-08 ヤフー株式会社 検索キーワードを推薦するサーバ、方法、およびプログラム
JP5311378B2 (ja) * 2008-06-26 2013-10-09 国立大学法人京都大学 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
CN105453079A (zh) 2013-07-31 2016-03-30 英派尔科技开发有限公司 从语义数据的信息提取
JP5975470B2 (ja) 2014-03-27 2016-08-23 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及び、プログラム
CN105511642A (zh) * 2016-01-07 2016-04-20 珠海市魅族科技有限公司 一种输入方法及装置
CN105653064A (zh) * 2016-01-07 2016-06-08 珠海市魅族科技有限公司 一种输入方法及装置
CN111046141B (zh) * 2019-12-03 2023-07-18 新华智云科技有限公司 一种基于历史时间特征的文本库关键词精炼方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112969A (ja) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd 情報抽出装置
JP2000331032A (ja) * 1996-10-31 2000-11-30 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置及び単語抽出方法
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2004206391A (ja) * 2002-12-25 2004-07-22 Mitsubishi Electric Corp 文書情報分析装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3219840B2 (ja) * 1992-05-13 2001-10-15 富士通株式会社 情報検索装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331032A (ja) * 1996-10-31 2000-11-30 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置及び単語抽出方法
JP2000112969A (ja) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd 情報抽出装置
JP2004021763A (ja) * 2002-06-19 2004-01-22 Hitachi Ltd テキストマイニングプログラム、方法、及び装置
JP2004206391A (ja) * 2002-12-25 2004-07-22 Mitsubishi Electric Corp 文書情報分析装置

Also Published As

Publication number Publication date
JP2006099754A (ja) 2006-04-13

Similar Documents

Publication Publication Date Title
US7958128B2 (en) Query-independent entity importance in books
Yi et al. Linking folksonomy to Library of Congress subject headings: an exploratory study
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
JP5607164B2 (ja) セマンティック・トレーディング・フロア
JP4613346B2 (ja) キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
US8762404B2 (en) Information search system, method, and program, and information search service providing method
JP6381775B2 (ja) 情報処理システム及び情報処理方法
CN103455487B (zh) 一种搜索词的提取方法及装置
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
US8990246B2 (en) Understanding and addressing complex information needs
KR20100023630A (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Arguello et al. Using query performance predictors to reduce spoken queries
Mori et al. Keyword extraction from the web for foaf metadata
JP2006134183A (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
KR102256007B1 (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
JP4534019B2 (ja) 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置
JP2001188802A (ja) 情報検索装置及び情報検索方法
Brooks The Semantic Web, universalist ambition and some lessons from librarianship
Gretzel et al. Intelligent search support: Building search term associations for tourism-specific search engines
Intarapaiboon et al. Applying domain knowledge and academic information to enhance unknown-item search in OPAC
Divya et al. Onto-search: An ontology based personalized mobile search engine
JP2010282403A (ja) 文書検索方法
Crestani et al. Automatic construction of hypertexts for self-referencing: the Hyper-TextBook project

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20091218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100929

R150 Certificate of patent or registration of utility model

Ref document number: 4613346

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees