JP4613346B2 - キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 - Google Patents
キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 Download PDFInfo
- Publication number
- JP4613346B2 JP4613346B2 JP2005252826A JP2005252826A JP4613346B2 JP 4613346 B2 JP4613346 B2 JP 4613346B2 JP 2005252826 A JP2005252826 A JP 2005252826A JP 2005252826 A JP2005252826 A JP 2005252826A JP 4613346 B2 JP4613346 B2 JP 4613346B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- name
- keyword candidate
- degree
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
Lars Marius Garshol, "Living with topic maps and RDF",http://www.ontopia.net/topicmaps/materials/tmrdf.html, Ontopia, 2003 Renato Iannela, "Representing vCard Objects in RDF/XML",http://www.w3.org/TR/2001/NOTE-vcard-rdf-20010222/, W3C Note, 2001 "DAML Ontology Library", http://www.daml.org/ontologies/, 2004 Dan Brickley and Libby Miller, "FOAF Vocabulary",http://xmlns.com/foaf/0.1/, 2004 Hui Han, et al., "Automatic Document Metadata Extraction usingSupport Vector Machines", Proceedings of the ACM IEEE Joint Conference onDigital Libraries, pp.37-48, 2003 井形,小櫻,片山,津田,"セマンティックグループウェア:RDF を用いたKnowwho の実現",セマンティックウェブとオントロジー研究会,A303-05,2004 H. Kautz, B. Selman and M. Shah, "The Hidden Web", AI Magazine,Vol.18, No.2, pp.27-36, 1997 原田,佐藤,風間,"Web 上のキーパーソンの発見と関係の可視化",情報処理学会研究報告,DBS-130/FI-71, 2003 山本あゆみ,佐藤理史, "ワールドワイドウェブからの人物情報の自動収集",情報処理学会研究報告,2000-ICS-119-24,pp.173-180,2000 松平,上田,大沼,渕上,森田, "文章からのキーワード抽出と関連情報の収集",セマンティックウェブとオントロジー研究会,A303-02,2004 H. Alani, et al., "Automatic Extraction of Knowledge fromWebDocuments", Workshop of Human Language Technology for the Semantic Web andWebServices, 2nd International Semantic Web Conference, Sanibel Island, Florida, USA,2003 A. Dingli, F. Ciravegna, D. Guthrie and Y. Wilks, "MiningWeb SitesUsing Usupervised Adaptive Information Extraction", Proceedings of the 10thConference of the European Chapter of the Association for Computational Linguistics,Budapest, Hungary, 2003 P. Velardi, M. Missikoff and R. Basili, "Identification of relevantterms to support the construction of Domain Ontogies", ACL-EACL Workshop onHuman Language Technologies, Toulouse, France, 2001 "Windows(登録商標)用専門用語(キーワード)自動抽出システム"termex"の解説",http://gensen.dl.itc.u-tokyo.ac.jp/win.html
and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、そして、これら共起の強さを合成した前記共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
を算出し、キーワード候補wとコンテクストワードCとの前記共起の強さとして、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
を算出し、そして、前記合成した共起の強さとして、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
を算出することを特徴とする前記キーワード抽出方法を提供する。
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
を算出し、キーワード候補wと名前N2との前記共起の強さとして、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
を算出し、キーワード候補wとコンテクストワードCとの前記共起の強さとして、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
を算出し、そして、前記合成した共起の強さとして、
r(N1,N2,C,w)
=r(N1,N2,w)
+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
を算出することを特徴とする前記キーワード抽出方法を提供する。
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
により算出されたものであり、キーワード候補wとコンテクストワードCとの前記共起の強さが、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出されたものであり、そして、前記合成した共起の強さが、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
により算出されたものであることを特徴とする前記キーワード抽出装置を提供する。
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
により算出されたものであり、キーワード候補wと名前N2との前記共起の強さが、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
により算出されたものであり、キーワード候補wとコンテクストワードCとの前記共起の強さが、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出されたものであり、そして、前記合成した共起の強さが、
r(N1,N2,C,w)
=r(N1,N2,w)
+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
により算出されたものであることを特徴とする前記キーワード抽出装置を提供する。
(非
特許文献10参照)や、芸術家についてのバイオグラフィー情報をWebから抽出する手法(非特許文献11参照)が知られている。これらの手法はあらかじめ定義した「主語−関係−オブジェクト」という語彙的連鎖関係およびオントロジーを用いて情報を抽出するものである。しかし、Webページはしばしば定型的な記述を含まないため、語彙的関係やヒューリスティックルールを適用するのは困難である。また、大学研究者の名前、プロジェクト、発表文献といった情報を教師なし学習を用いて抽出する手法も知られており(非特許文献12参照)、情報抽出にあたって、"seed"情報として事前にユーザによって提供された情報を基に、学習を行う。
本願発明では、キーワードの元となる語群として、対象とする名前Nを含むWebページに含まれる語を用い、そしてインターネット上での検索ヒット数に基づく共起情報を利用して、語群の各語と人との関連度を計算し、各人に深く関連する語をキーワードとして抽出する。
まず、処理部(3)により、名前NおよびコンテクストワードCの入力を入力部(2)から受け付ける。
次に、処理部(3)により、上記入力された名前Nを含む公開データから、キーワード候補群Wを抽出する。
次に、処理部(3)により、上記抽出されたキーワード候補群Wの各キーワード候補wを、記憶手段から読み出し、名前N及びコンテクストワードCとの関連度rを算出する。
Jaccard係数:|N and w|/(|N|+|w|−|N and w|)
相互情報量:log|N or w|/|N||w|
Dicd係数:2|N and w|/(|N|+|w|)
Simpson係数:|N and w|/min(|N|,|w|)
キーワード候補wとコンテクストワードCとの共起の強さr(C,w)
Jaccard係数:|C and w|/(|C|+|w|−|Cand w|)
相互情報量:log|C or w|/|C||w|
Dicd係数:2|C and w|/(|C|+|w|)
Simpson係数:|C and w|/min(|C|,|w|)
そして、これら共起の強さを下記のように合成して、各キーワード候補wと名前N及びコンテクストワードCとの共起の強さを算出する(図2のステップS3.3)。
+α・r(C,w)/max(r(C,w))
但し、r(N,w)/max(r(N,w))>閾値t
この式は、あるコンテクストCにおけるある名前Nとキーワード候補wとの関連度を与えるものである。αは、NとCの関連度を示すパラメータであり、
Jaccard係数:|N and C|/(|N|+|C|−|N and C|)、
相互情報量:log|N or C|/|N||C|、
Dicd係数:2|N and C|/|N|+|C|、
Simpson係数:|N and C|/min(|N|,|C|)
などで与えられる。また、キーワードxとなる候補語wは、r(N1,w)がある閾値threshold以上となるものとする。
そして、処理部(3)は、関連度rとして上記算出された共起の強さr(N,C,w)に基づき、名前NとコンテクストワードCとを関係付けるキーワードxを抽出する。
以上説明した実施形態は対象とする名前が一つの場合についてのものであるが、本願発明では名前は二つ以上でもよく、この場合名前N1,N2とその両名に関連するコンテクストワードCとを関係付けるキーワードx、つまりある特定のコンテストワードCとの関連における二人の人間関係を結びつけるキーワードxを抽出することもできる。
r(N1,N2,C,w)
=r(N1,N2,w)+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
但し、[r(N1,w)/max(r(N1,w)),r(N2,w)/max(r(N2,w))}>閾値t
を算出する。
Jaccard係数:|(N1andN2)andC|/(|N1andN2|+|C|−|(N1andN2)and
C|)、
相互情報量:log|(N1andN2)orC|/|N1andN2||C|、
Dicd係数:2|(N1andN2)andC|/|N1andN2|+|C|、
Simpson係数:|(N1andN2)andC|/min(|N1andN2|,|C|)
などで与えられる。また、キーワードxとなるキーワード候補wは、r(N1,w)およびr(N1,w)がある閾値threshold以上となるものとする。これにより、二人の関係において互いの語群のうちでどちらの名前N1,N2とも共起する語のスコアリングが可能となる。
さて、以上のとおりに抽出されたキーワードxは、たとえば以下のとおりにメタデータの作成に使用できる。図5はメタデータ作成処理フロー、図6はこのメタデータ作成処理を実行するメタデータ作成装置のシステム構成である。
まず、処理部(3)は、各キーワードxに対するプロパティラベルの入力部(2)からの入力を受け付ける。
名前(name,knows)を意味するラベルN、
技術(technical,interest,topic interest,made,etc)を意味するラベルT、
コミュニティ(community)を意味するラベルC、
プロジェクト(currentProject, pastProject)を意味するラベルP、
組織 (organization,workplaceHP,workinfoHP)を意味するラベルO、
URL(homepage, seeAlso)を意味するラベルURL、
イベント(event)を意味するラベルE、および
地位(position)を意味するラベルデータJ
を考慮できる。
そして、処理部(3)は、記憶手段から読み出したプロパティラベルおよびキーワードxに基づいて、メタデータを作成する。
一方、複数人間間のキーワードは、ソーシャルネットワークへの応用も可能である。
2 入力部
3 処理部
4 記憶部
5 通信制御部
6 Webデータベース
7 キーワードデータベース
8 バス
9 ネットワーク
10 ラベルデータベース
Claims (14)
- 処理部が、名前NおよびコンテクストワードCの入力を入力部から受け付け、記憶手段に記憶するステップ、
前記処理部が、記憶された名前Nを含む公開データの検索結果として出力される公開データ群から、単語の出現頻度あるいは単語間の結びつき度合いに基づいて各単語の重要度を算出し、重要度の高い単語群をキーワード候補群Wとして抽出し、記憶手段に記憶するステップ、
前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wと名前NのAND検索により求められる当該キーワード候補wと名前Nを含む公開データ数|N and w|、名前Nの検索により求められる当該名前Nを含む公開データ数|N|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前Nとの関連度r(N,w)を算出し、記憶手段に記憶するステップ、
前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wとコンテクストワードCとのAND検索により求められる当該キーワード候補wとコンテクストワードCを含む公開データ数|C and w|、コンテクストワードCの検索により求められる当該コンテクストワードCを含む公開データ数|C|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wとコンテクストワードCとの関連度r(C,w)を算出し、記憶手段に記憶するステップ、
前記処理部が、記憶された関連度r(N,w)およびr(C,w)を合成して、キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N,C,w)を算出し、記憶手段に記憶するステップ、および
前記処理部が、記憶された関連度r(N,C,w)が既定閾値以上となるキーワード候補wあるいは上位いくつかの関連度r(N,C,w)のキーワード候補wを、キーワード候補群Wの中から、名前NとコンテクストワードCとを関係付けるキーワードxとして抽出するステップ
を有することを特徴とするキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前Nとの関連度r(N,w)を、
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
により算出し、
キーワード候補wとコンテクストワードCとの関連度r(C,w)を、
r(C,w)=|C and w|/(|C|+|w|−|C and w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出し、
キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N,C,w)を、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
により算出する
ことを特徴とする請求項1記載のキーワード抽出方法。 - 処理部が、少なくとも二つの名前N1,N2およびこれらに共通するコンテクストワードCの入力を入力部から受け付け、記憶手段に記憶するステップ、
前記処理部が、記憶された名前N1,N2の検索結果として出力される公開データ群から、単語の出現頻度あるいは単語間の結びつき度合いに基づいて各単語の重要度を算出し、重要度の高い単語群をキーワード候補群Wとして抽出し、記憶手段に記憶するステップ、
前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wと名前N1のAND検索により求められる当該キーワード候補wと名前N1を含む公開データ数|N1 and w|、名前N1の検索により求められる当該名前N1を含む公開データ数|N1|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前N1との関連度r(N1,w)を算出し、記憶手段に記憶するステップ、
前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wと名前N2のAND検索により求められる当該キーワード候補wと名前N2を含む公開データ数|N2 and w|、名前N2の検索により求められる当該名前N2を含む公開データ数|N2|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前N2との関連度r(N2,w)を算出し、記憶手段に記憶するステップ、
前記処理部が、記憶されたキーワード候補群Wの各キーワード候補wとコンテクストワードCとのAND検索により求められる当該キーワード候補wとコンテクストワードCを含む公開データ数|C and w|、コンテクストワードCの検索により求められる当該コンテクストワードCを含む公開データ数|C|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wとコンテクストワードCとの関連度r(C,w)を算出し、記憶手段に記憶するステップ、
前記処理部が、記憶された関連度r(N1,w)、r(N2,w)およびr(C,w)を合成して、キーワード候補wと名前N1,N2およびコンテクストワードCとの関連度r(N1,N2,C,w)を算出し、記憶手段に記憶するステップ、および
前記処理部が、記憶された関連度r(N1,N2,C,w)が既定閾値以上となるキーワード候補wあるいは上位いくつかの関連度r(N1,N2,C,w)のキーワード候補wを、前記キーワード候補群Wの中から、名前N1,N2とコンテクストワードCとを関係付けるキーワードxとして抽出するステップ
を有することを特徴とするキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前N1との関連度r(N1,w)を、
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
により算出し、
キーワード候補wと名前N2との関連度r(N2,w)を、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
により算出し、
キーワード候補wとコンテクストワードCとの関連度r(C,w)を、
r(C,w)=|C and w|/(|C|+|w|−|C and w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出し、
キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N1,N2,C,w)を、
r(N1,N2,C,w)
=r(N1,N2,w)+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
により算出する
ことを特徴とする請求項3記載のキーワード抽出方法。 - 請求項1ないし4のいずれかに記載のキーワード抽出方法をコンピュータに実行させるためのキーワード抽出プログラム。
- 名前NおよびコンテクストワードCを入力する手段、
入力された名前NおよびコンテクストワードCを記憶する手段、
記憶された名前Nを含む公開データの検索結果として出力される公開データ群から、単語の出現頻度あるいは単語間の結びつき度合いに基づいて各単語の重要度を算出し、重要度の高い単語群をキーワード候補群Wとして抽出する手段、
抽出されたキーワード候補群Wを記憶する手段、
記憶されたキーワード候補群Wの各キーワード候補wと名前NのAND検索により求められる当該キーワード候補wと名前Nを含む公開データ数|N and w|、名前Nの検索により求められる当該名前Nを含む公開データ数|N|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前Nとの関連度r(N,w)を算出する手段、
算出された関連度r(N,w)を記憶する手段、
記憶されたキーワード候補群Wの各キーワード候補wとコンテクストワードCとのAND検索により求められる当該キーワード候補wとコンテクストワードCを含む公開データ数|C and w|、コンテクストワードCの検索により求められる当該コンテクストワードCを含む公開データ数|C|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wとコンテクストワードCとの関連度r(C,w)を算出する手段、
算出された関連度r(C,w)を記憶する手段、
記憶された関連度r(N,w)およびr(C,w)を合成して、キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N,C,w)を算出する手段、
算出された関連度r(N,C,w)を記憶する手段、
記憶された関連度r(N,C,w)が既定閾値以上となるキーワード候補wあるいは上位いくつかの関連度r(N,C,w)のキーワード候補wを、キーワード候補群Wの中から、名前NとコンテクストワードCとを関係付けるキーワードxとして抽出する手段
を備えたことを特徴とするキーワード抽出装置。 - キーワード候補wと名前Nとの関連度r(N,w)が、
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
により算出されたものであり、
キーワード候補wとコンテクストワードCとの関連度r(C,w)が、
r(C,w)=|C and w|/(|C|+|w|−|C and w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出されたものであり、
キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N,C,w)が、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
により算出されたものである
ことを特徴とする請求項6記載のキーワード抽出装置。 - 少なくとも二つの名前N1,N2およびこれらに共通するコンテクストワードCを入力する手段、
入力された名前N1,N2およびコンテクストワードCを記憶する手段、
記憶された名前N1,N2検索結果として出力される公開データ群から、単語の出現頻度あるいは単語間の結びつき度合いに基づいて各単語の重要度を算出し、重要度の高い単語群をキーワード候補群Wとして抽出する手段、
抽出されたキーワード候補群Wを記憶する手段、
記憶されたキーワード候補群Wの各キーワード候補wと名前N1のAND検索により求められる当該キーワード候補wと名前N1を含む公開データ数|N1 and w|、名前N1の検索により求められる当該名前N1を含む公開データ数|N1|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前N1との関連度r(N1,w)を算出する手段、
算出された関連度r(N1,w)記憶する手段、
記憶されたキーワード候補群Wの各キーワード候補wと名前N2のAND検索により求められる当該キーワード候補wと名前N2を含む公開データ数|N2 and w|、名前N2の検索により求められる当該名前N2を含む公開データ数|N2|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wと名前N2との関連度r(N2,w)を算出する手段、
算出された関連度r(N2,w)を記憶する手段、
記憶されたキーワード候補群Wの各キーワード候補wとコンテクストワードCとのAND検索により求められる当該キーワード候補wとコンテクストワードCを含む公開データ数|C and w|、コンテクストワードCの検索により求められる当該コンテクストワードCを含む公開データ数|C|、およびキーワード候補wの検索により求められる当該キーワード候補wを含む公開データ数|w|を用いて、キーワード候補wとコンテクストワードCとの関連度r(C,w)を算出する手段、
算出された関連度r(C,w)を記憶する手段、
記憶された関連度r(N1,w)、r(N2,w)およびr(C,w)を合成して、キーワード候補wと名前N1,N2およびコンテクストワードCとの関連度r(N1,N2,C,w)を算出する手段、
算出された関連度r(N1,N2,C,w)を記憶する手段、
記憶された関連度r(N1,N2,C,w)が既定閾値以上となるキーワード候補wあるいは上位いくつかの関連度r(N1,N2,,C,w)のキーワード候補wを、前記キーワード候補群Wの中から、名前N1,N2とコンテクストワードCとを関係付けるキーワードxとして抽出する手段
を有することを特徴とするキーワード抽出装置。 - キーワード候補wと名前N1との関連度r(N1,w)が、
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
により算出されたものであり、
キーワード候補wと名前N2との関連度r(N2,w)が、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
により算出されたものであり、
キーワード候補wとコンテクストワードCとの関連度r(C,w)が、
r(C,w)=|C and w|/(|C|+|w|−|C and w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出されたものであり、
キーワード候補wと名前NおよびコンテクストワードCとの関連度r(N1,N2,C,w)が、
r(N1,N2,C,w)
=r(N1,N2,w)+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
により算出されたものである
ことを特徴とする請求項8記載のキーワード抽出装置。 - 処理部が、請求項1ないし4のいずれかに記載のキーワード抽出方法により抽出されたキーワードxに対するプロパティラベルの入力を入力部から受け付け、記憶手段に記憶するステップ、
メタデータの作成に必要なプロパティと各プロパティラベルとを対応付けて予め記憶手段に記憶するステップ、
前記処理部が、記憶されたプロパティラベルに対応するプロパティを選択し、該プロパティの値にキーワードxを当て嵌めて、メタデータを作成するステップ
を有することを特徴とするメタデータ作成方法。 - 前記プロパティラベルは、
名前を意味するラベルN、
技術を意味するラベルT、
コミュニティを意味するラベルC、
プロジェクトを意味するラベルP、
組織を意味するラベルO、
URLを意味するラベルURL、
イベントを意味するラベルE、および
地位を意味するラベルデータJ
の群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする請求項10記載のメタデータ作成方法。 - 請求項10または11に記載のメタデータ作成方法をコンピュータに実行させるためのメタデータ作成プログラム。
- 請求項6ないし9のいずれかに記載のキーワード抽出装置により抽出されたキーワードxに対するプロパティラベルを入力する手段、
入力されたプロパティラベルを記憶する手段、
メタデータの作成に必要なプロパティと各プロパティラベルとを対応付けて予め記憶する手段、
記憶されたプロパティラベルに対応するプロパティを選択し、該プロパティの値にキーワードxを当て嵌めて、メタデータを作成する手段を有することを特徴とするメタデータ作成装置。 - 前記プロパティラベルは、
名前を意味するラベルN、
技術を意味するラベルT、
コミュニティを意味するラベルC、
プロジェクトを意味するラベルP、
組織を意味するラベルO、
URLを意味するラベルURL、
イベントを意味するラベルE、および
地位を意味するラベルデータJ
の群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする請求項13記載のメタデータ作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005252826A JP4613346B2 (ja) | 2004-09-01 | 2005-08-31 | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004254411 | 2004-09-01 | ||
JP2005252826A JP4613346B2 (ja) | 2004-09-01 | 2005-08-31 | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006099754A JP2006099754A (ja) | 2006-04-13 |
JP4613346B2 true JP4613346B2 (ja) | 2011-01-19 |
Family
ID=36239435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005252826A Expired - Fee Related JP4613346B2 (ja) | 2004-09-01 | 2005-08-31 | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4613346B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090083768A1 (en) * | 2007-09-20 | 2009-03-26 | Hatalkar Atul N | Context platform framework for aggregation, analysis and use of contextual information |
JP4869292B2 (ja) * | 2008-06-20 | 2012-02-08 | ヤフー株式会社 | 検索キーワードを推薦するサーバ、方法、およびプログラム |
JP5311378B2 (ja) * | 2008-06-26 | 2013-10-09 | 国立大学法人京都大学 | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
CN105453079A (zh) | 2013-07-31 | 2016-03-30 | 英派尔科技开发有限公司 | 从语义数据的信息提取 |
JP5975470B2 (ja) | 2014-03-27 | 2016-08-23 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理方法、及び、プログラム |
CN105511642A (zh) * | 2016-01-07 | 2016-04-20 | 珠海市魅族科技有限公司 | 一种输入方法及装置 |
CN105653064A (zh) * | 2016-01-07 | 2016-06-08 | 珠海市魅族科技有限公司 | 一种输入方法及装置 |
CN111046141B (zh) * | 2019-12-03 | 2023-07-18 | 新华智云科技有限公司 | 一种基于历史时间特征的文本库关键词精炼方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112969A (ja) * | 1998-10-02 | 2000-04-21 | Oki Electric Ind Co Ltd | 情報抽出装置 |
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JP2004021763A (ja) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | テキストマイニングプログラム、方法、及び装置 |
JP2004206391A (ja) * | 2002-12-25 | 2004-07-22 | Mitsubishi Electric Corp | 文書情報分析装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3219840B2 (ja) * | 1992-05-13 | 2001-10-15 | 富士通株式会社 | 情報検索装置 |
-
2005
- 2005-08-31 JP JP2005252826A patent/JP4613346B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JP2000112969A (ja) * | 1998-10-02 | 2000-04-21 | Oki Electric Ind Co Ltd | 情報抽出装置 |
JP2004021763A (ja) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | テキストマイニングプログラム、方法、及び装置 |
JP2004206391A (ja) * | 2002-12-25 | 2004-07-22 | Mitsubishi Electric Corp | 文書情報分析装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2006099754A (ja) | 2006-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7958128B2 (en) | Query-independent entity importance in books | |
Yi et al. | Linking folksonomy to Library of Congress subject headings: an exploratory study | |
US9659084B1 (en) | System, methods, and user interface for presenting information from unstructured data | |
US9183281B2 (en) | Context-based document unit recommendation for sensemaking tasks | |
JP5607164B2 (ja) | セマンティック・トレーディング・フロア | |
JP4613346B2 (ja) | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 | |
US8762404B2 (en) | Information search system, method, and program, and information search service providing method | |
JP6381775B2 (ja) | 情報処理システム及び情報処理方法 | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
JP2003114906A (ja) | ユーザ定義可能なパーソナリティを備えたメタ文書管理システム | |
US8990246B2 (en) | Understanding and addressing complex information needs | |
KR20100023630A (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
Arguello et al. | Using query performance predictors to reduce spoken queries | |
Mori et al. | Keyword extraction from the web for foaf metadata | |
JP2006134183A (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
KR102256007B1 (ko) | 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법 | |
JP4534019B2 (ja) | 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置 | |
JP2001188802A (ja) | 情報検索装置及び情報検索方法 | |
Brooks | The Semantic Web, universalist ambition and some lessons from librarianship | |
Gretzel et al. | Intelligent search support: Building search term associations for tourism-specific search engines | |
Intarapaiboon et al. | Applying domain knowledge and academic information to enhance unknown-item search in OPAC | |
Divya et al. | Onto-search: An ontology based personalized mobile search engine | |
JP2010282403A (ja) | 文書検索方法 | |
Crestani et al. | Automatic construction of hypertexts for self-referencing: the Hyper-TextBook project |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20091218 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100929 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4613346 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131029 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131029 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |