JP2006099754A - キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置 - Google Patents
キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置 Download PDFInfo
- Publication number
- JP2006099754A JP2006099754A JP2005252826A JP2005252826A JP2006099754A JP 2006099754 A JP2006099754 A JP 2006099754A JP 2005252826 A JP2005252826 A JP 2005252826A JP 2005252826 A JP2005252826 A JP 2005252826A JP 2006099754 A JP2006099754 A JP 2006099754A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- name
- occurrence
- strength
- keyword candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【構成】 名前NおよびコンテクストワードCの入力部からの入力を受け付け(S1)、入力された名前Nを含むWebページからキーワード候補群Wを抽出し(S2)、抽出されたキーワード候補群Wの各キーワード候補wについて、名前NおよびコンテクストワードCとの関連度rを算出し(S3)、そして、算出された関連度rに基づいて、キーワード候補群Wの中から、名前NとコンテクストワードCとを関係付けるキーワードxを抽出する(S4)。
【選択図】 図1
Description
Lars Marius Garshol, "Living with topic maps and RDF",http://www.ontopia.net/topicmaps/materials/tmrdf.html, Ontopia, 2003 Renato Iannela, "Representing vCard Objects in RDF/XML",http://www.w3.org/TR/2001/NOTE-vcard-rdf-20010222/, W3C Note, 2001 "DAML Ontology Library", http://www.daml.org/ontologies/, 2004 Dan Brickley and Libby Miller, "FOAF Vocabulary",http://xmlns.com/foaf/0.1/, 2004 Hui Han, et al., "Automatic Document Metadata Extraction usingSupport Vector Machines", Proceedings of the ACM IEEE Joint Conference onDigital Libraries, pp.37-48, 2003 井形,小櫻,片山,津田,"セマンティックグループウェア:RDF を用いたKnowwho の実現",セマンティックウェブとオントロジー研究会,A303-05,2004 H. Kautz, B. Selman and M. Shah, "The Hidden Web", AI Magazine,Vol.18, No.2, pp.27-36, 1997 原田,佐藤,風間,"Web 上のキーパーソンの発見と関係の可視化",情報処理学会研究報告,DBS-130/FI-71, 2003 山本あゆみ,佐藤理史, "ワールドワイドウェブからの人物情報の自動収集",情報処理学会研究報告,2000-ICS-119-24,pp.173-180,2000 松平,上田,大沼,渕上,森田, "文章からのキーワード抽出と関連情報の収集",セマンティックウェブとオントロジー研究会,A303-02,2004 H. Alani, et al., "Automatic Extraction of Knowledge fromWebDocuments", Workshop of Human Language Technology for the Semantic Web andWebServices, 2nd International Semantic Web Conference, Sanibel Island, Florida, USA,2003 A. Dingli, F. Ciravegna, D. Guthrie and Y. Wilks, "MiningWeb SitesUsing Usupervised Adaptive Information Extraction", Proceedings of the 10thConference of the European Chapter of the Association for Computational Linguistics,Budapest, Hungary, 2003 P. Velardi, M. Missikoff and R. Basili, "Identification of relevantterms to support the construction of Domain Ontogies", ACL-EACL Workshop onHuman Language Technologies, Toulouse, France, 2001 "Windows(登録商標)用専門用語(キーワード)自動抽出システム"termex"の解説",http://gensen.dl.itc.u-tokyo.ac.jp/win.html
and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、そして、これら共起の強さを合成した前記共起の強さを算出することを特徴とする前記キーワード抽出方法を提供する。
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
を算出し、キーワード候補wとコンテクストワードCとの前記共起の強さとして、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
を算出し、そして、前記合成した共起の強さとして、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
を算出することを特徴とする前記キーワード抽出方法を提供する。
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
を算出し、キーワード候補wと名前N2との前記共起の強さとして、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
を算出し、キーワード候補wとコンテクストワードCとの前記共起の強さとして、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
を算出し、そして、前記合成した共起の強さとして、
r(N1,N2,C,w)
=r(N1,N2,w)
+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
を算出することを特徴とする前記キーワード抽出方法を提供する。
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
により算出されたものであり、キーワード候補wとコンテクストワードCとの前記共起の強さが、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出されたものであり、そして、前記合成した共起の強さが、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
により算出されたものであることを特徴とする前記キーワード抽出装置を提供する。
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
により算出されたものであり、キーワード候補wと名前N2との前記共起の強さが、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
により算出されたものであり、キーワード候補wとコンテクストワードCとの前記共起の強さが、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出されたものであり、そして、前記合成した共起の強さが、
r(N1,N2,C,w)
=r(N1,N2,w)
+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
により算出されたものであることを特徴とする前記キーワード抽出装置を提供する。
(非
特許文献10参照)や、芸術家についてのバイオグラフィー情報をWebから抽出する手法(非特許文献11参照)が知られている。これらの手法はあらかじめ定義した「主語−関係−オブジェクト」という語彙的連鎖関係およびオントロジーを用いて情報を抽出するものである。しかし、Webページはしばしば定型的な記述を含まないため、語彙的関係やヒューリスティックルールを適用するのは困難である。また、大学研究者の名前、プロジェクト、発表文献といった情報を教師なし学習を用いて抽出する手法も知られており(非特許文献12参照)、情報抽出にあたって、"seed"情報として事前にユーザによって提供された情報を基に、学習を行う。
本願発明では、キーワードの元となる語群として、対象とする名前Nを含むWebページに含まれる語を用い、そしてインターネット上での検索ヒット数に基づく共起情報を利用して、語群の各語と人との関連度を計算し、各人に深く関連する語をキーワードとして抽出する。
まず、処理部(3)により、名前NおよびコンテクストワードCの入力を入力部(2)から受け付ける。
次に、処理部(3)により、上記入力された名前Nを含む公開データから、キーワード候補群Wを抽出する。
次に、処理部(3)により、上記抽出されたキーワード候補群Wの各キーワード候補wを、記憶手段から読み出し、名前N及びコンテクストワードCとの関連度rを算出する。
Jaccard係数:|N and w|/(|N|+|w|−|N and w|)
相互情報量:log|N or w|/|N||w|
Dicd係数:2|N and w|/(|N|+|w|)
Simpson係数:|N and w|/min(|N|,|w|)
キーワード候補wとコンテクストワードCとの共起の強さr(C,w)
Jaccard係数:|C and w|/(|C|+|w|−|Cand w|)
相互情報量:log|C or w|/|C||w|
Dicd係数:2|C and w|/(|C|+|w|)
Simpson係数:|C and w|/min(|C|,|w|)
そして、これら共起の強さを下記のように合成して、各キーワード候補wと名前N及びコンテクストワードCとの共起の強さを算出する(図2のステップS3.3)。
+α・r(C,w)/max(r(C,w))
但し、r(N,w)/max(r(N,w))>閾値t
この式は、あるコンテクストCにおけるある名前Nとキーワード候補wとの関連度を与えるものである。αは、NとCの関連度を示すパラメータであり、
Jaccard係数:|N and C|/(|N|+|C|−|N and C|)、
相互情報量:log|N or C|/|N||C|、
Dicd係数:2|N and C|/|N|+|C|、
Simpson係数:|N and C|/min(|N|,|C|)
などで与えられる。また、キーワードxとなる候補語wは、r(N1,w)がある閾値threshold以上となるものとする。
そして、処理部(3)は、関連度rとして上記算出された共起の強さr(N,C,w)に基づき、名前NとコンテクストワードCとを関係付けるキーワードxを抽出する。
以上説明した実施形態は対象とする名前が一つの場合についてのものであるが、本願発明では名前は二つ以上でもよく、この場合名前N1,N2とその両名に関連するコンテクストワードCとを関係付けるキーワードx、つまりある特定のコンテストワードCとの関連における二人の人間関係を結びつけるキーワードxを抽出することもできる。
r(N1,N2,C,w)
=r(N1,N2,w)+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
但し、[r(N1,w)/max(r(N1,w)),r(N2,w)/max(r(N2,w))}>閾値t
を算出する。
Jaccard係数:|(N1andN2)andC|/(|N1andN2|+|C|−|(N1andN2)and
C|)、
相互情報量:log|(N1andN2)orC|/|N1andN2||C|、
Dicd係数:2|(N1andN2)andC|/|N1andN2|+|C|、
Simpson係数:|(N1andN2)andC|/min(|N1andN2|,|C|)
などで与えられる。また、キーワードxとなるキーワード候補wは、r(N1,w)およびr(N1,w)がある閾値threshold以上となるものとする。これにより、二人の関係において互いの語群のうちでどちらの名前N1,N2とも共起する語のスコアリングが可能となる。
さて、以上のとおりに抽出されたキーワードxは、たとえば以下のとおりにメタデータの作成に使用できる。図5はメタデータ作成処理フロー、図6はこのメタデータ作成処理を実行するメタデータ作成装置のシステム構成である。
まず、処理部(3)は、各キーワードxに対するプロパティラベルの入力部(2)からの入力を受け付ける。
名前(name,knows)を意味するラベルN、
技術(technical,interest,topic interest,made,etc)を意味するラベルT、
コミュニティ(community)を意味するラベルC、
プロジェクト(currentProject, pastProject)を意味するラベルP、
組織 (organization,workplaceHP,workinfoHP)を意味するラベルO、
URL(homepage, seeAlso)を意味するラベルURL、
イベント(event)を意味するラベルE、および
地位(position)を意味するラベルデータJ
を考慮できる。
そして、処理部(3)は、記憶手段から読み出したプロパティラベルおよびキーワードxに基づいて、メタデータを作成する。
一方、複数人間間のキーワードは、ソーシャルネットワークへの応用も可能である。
2 入力部
3 処理部
4 記憶部
5 通信制御部
6 Webデータベース
7 キーワードデータベース
8 バス
9 ネットワーク
10 ラベルデータベース
Claims (28)
- 処理部が、名前NおよびコンテクストワードCの入力部からの入力を受け付けるステップ、
前記処理部が、入力された名前Nを含む公開データからキーワード候補群Wを抽出するステップ、
前記処理部が、抽出されたキーワード候補群Wの各キーワード候補wについて、名前NおよびコンテクストワードCとの関連度rを算出するステップ、および
前記処理部が、算出された関連度rに基づいて、キーワード候補群Wの中から、名前NとコンテクストワードCとを関係付けるキーワードxを抽出するステップ
を有することを特徴とするキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前NおよびコンテクストワードCとの前記関連度rとして、キーワード候補wと名前NおよびコンテクストワードCとの共起の強さを算出する
ことを特徴とする請求項1記載のキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前NおよびコンテクストワードCとの前記共起の強さとして、キーワード候補wと名前Nとの共起の強さおよびキーワード候補wとコンテクストワードCとの共起の強さを合成した共起の強さを算出する
ことを特徴とする請求項2記載のキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前Nとの前記共起の強さを、名前Nとキーワード候補wの両方を含む公開データ数|N and w|、名前Nを含む公開データ数|N|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、
キーワード候補wとコンテクストワードCとの前記共起の強さを、名前NとコンテクストワードCの両方を含む公開データ数|C and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、
そして、これら共起の強さを合成した前記共起の強さを算出する
ことを特徴とする請求項3記載のキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前Nとの前記共起の強さとして、
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
を算出し、
キーワード候補wとコンテクストワードCとの前記共起の強さとして、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
を算出し、
そして、前記合成した共起の強さとして、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
を算出する
ことを特徴とする請求項4記載のキーワード抽出方法。 - 処理部が、少なくとも二つの名前N1,N2およびこれらに共通するコンテクストワードCの入力部からの入力を受け付けるステップ、
前記処理部が、入力された名前N1,N2を含む公開データからキーワード候補群Wを抽出するステップ、
前記処理部が、抽出されたキーワード候補群Wの各キーワード候補wについて、名前N1,N2およびコンテクストワードCとの関連度rを算出するステップ、および
前記処理部が、算出された関連度rに基づいて、前記キーワード候補群Wの中から、名前N1,N2とコンテクストワードCとを関係付けるキーワードxを抽出するステップ
を有することを特徴とするキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前N1,N2およびコンテクストワードCとの前記関連度rとして、キーワード候補wと名前N1,N2およびコンテクストワードCとの共起の強さを算出する
ことを特徴とする請求項6記載のキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前N1,N2およびコンテクストワードCとの前記共起の強さとして、キーワード候補wと名前N1との共起の強さ、キーワード候補wと名前N2との共起の強さおよびキーワード候補wとコンテクストワードCとの共起の強さを合成した共起の強さを算出する
ことを特徴とする請求項7記載のキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前N1との前記共起の強さを、名前N1とキーワード候補wの両方を含む公開データ数|N1 and w|、名前Nを含む公開データ数|N1|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、
キーワード候補wと名前N2との前記共起の強さを、名前N2とキーワード候補wの両方を含む公開データ数|N2 and w|、名前Nを含む公開データ数|N2|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、
キーワード候補wとコンテクストワードCとの前記共起の強さを、名前NとコンテクストワードCの両方を含む公開データ数|C and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|を用いて算出し、
そして、これら共起の強さを合成した前記共起の強さを算出する
ことを特徴とする請求項8記載のキーワード抽出方法。 - 前記処理部が、キーワード候補wと名前N1との前記共起の強さとして、
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
を算出し、
キーワード候補wと名前N2との前記共起の強さとして、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
を算出し、
キーワード候補wとコンテクストワードCとの前記共起の強さとして、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
を算出し、
そして、前記合成した共起の強さとして、
r(N1,N2,C,w)
=r(N1,N2,w)+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
を算出する
ことを特徴とする請求項9記載のキーワード抽出方法。 - 請求項1ないし10のいずれかに記載のキーワード抽出方法をコンピュータに実行させるためのキーワード抽出プログラム。
- 請求項11に記載のキーワード抽出プログラムを記録したコンピュータ読取可能な記録媒体。
- 名前NおよびコンテクストワードCを入力する手段、
入力された名前Nを含む公開データからキーワード候補群Wを抽出する手段、
抽出されたキーワード候補群Wの各キーワード候補wについて、名前NおよびコンテクストワードCとの関連度rを算出する手段、および
算出された関連度rに基づいて、キーワード候補群Wの中から、名前NとコンテクストワードCとを関係付けるキーワードxを抽出する手段
を備えたことを特徴とするキーワード抽出装置。 - キーワード候補wと名前NおよびコンテクストワードCとの前記関連度rが、キーワード候補wと名前NおよびコンテクストワードCとの共起の強さである
ことを特徴とする請求項13記載のキーワード抽出装置。 - キーワード候補wと名前NおよびコンテクストワードCとの前記共起の強さが、キーワード候補wと名前Nとの共起の強さおよびキーワード候補wとコンテクストワードCとの共起の強さを合成した共起の強さである
ことを特徴とする請求項14記載のキーワード抽出装置。 - キーワード候補wと名前Nとの前記共起の強さが、名前Nとキーワード候補wの両方を含む公開データ数|N and w|、名前Nを含む公開データ数|N|、およびキーワード候補wを含む公開データ数|w|から算出されたものであり、
キーワード候補wとコンテクストワードCとの前記共起の強さが、名前NとコンテクストワードCの両方を含む公開データ数|C and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|から算出されたものであることを特徴とする請求項15記載のキーワード抽出装置。 - キーワード候補wと名前Nとの前記共起の強さが、
r(N,w)=|N and w|/(|N|+|w|−|N and w|)、または
r(N,w)=log|N or w|/|N||w|、または
r(N,w)=2|N and w|/(|N|+|w|)、または
r(N,w)=|N and w|/min(|N|,|w|)
により算出されたものであり、
キーワード候補wとコンテクストワードCとの前記共起の強さが、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C
and w|/min(|C|,|w|)
により算出されたものであり、
そして、前記合成した共起の強さが、
r(N,C,w)=r(N,w)/max(r(N,w))
+α・r(C,w)/max(r(C,w))
により算出されたものである
ことを特徴とする請求項16記載のキーワード抽出装置。 - 少なくとも二つの名前N1,N2およびこれらに共通するコンテクストワードCを入力する手段、
入力された名前N1,N2を含む公開データからキーワード候補群Wを抽出する手段、
抽出されたキーワード候補群Wの各キーワード候補wについて、名前N1,N2およびコンテクストワードCとの関連度rを算出する手段、および
算出された関連度rに基づいて、前記キーワード候補群Wの中から、名前N1,N2とコンテクストワードCとを関係付けるキーワードxを抽出する手段
を有することを特徴とするキーワード抽出装置。 - キーワード候補wと名前N1,N2およびコンテクストワードCとの前記関連度rが、キーワード候補wと名前N1,N2およびコンテクストワードCとの共起の強さである
ことを特徴とする請求項18記載のキーワード抽出装置。 - キーワード候補wと名前N1,N2およびコンテクストワードCとの前記共起の強さが、キーワード候補wと名前N1との共起の強さ、キーワード候補wと名前N2との共起の強さおよびキーワード候補wとコンテクストワードCとの共起の強さを合成した共起の強さである
ことを特徴とする請求項19記載のキーワード抽出装置。 - キーワード候補wと名前N1との前記共起の強さが、名前N1とキーワード候補wの両方を含む公開データ数|N1 and w|、名前Nを含む公開データ数|N1|、およびキーワード候補wを含む公開データ数|w|から算出されたものであり、
キーワード候補wと名前N2との前記共起の強さが、名前N2とキーワード候補wの両方を含む公開データ数|N2 and w|、名前Nを含む公開データ数|N2|、およびキーワード候補wを含む公開データ数|w|から算出されたものであり、
キーワード候補wとコンテクストワードCとの前記共起の強さが、名前NとコンテクストワードCの両方を含む公開データ数|C and w|、コンテクストワードCを含む公開データ数|C|、およびキーワード候補wを含む公開データ数|w|から算出されたものであることを特徴とする請求項20記載のキーワード抽出装置。 - キーワード候補wと名前N1との前記共起の強さが、
r(N1,w)=|N1 and w|/(|N1|+|w|−|N1 and w|)、または
r(N1,w)=log|N1 or w|/|N1||w|、または
r(N1,w)=2|N1 and w|/(|N1|+|w|)、または
r(N1,w)=|N1 and w|/min(|N1|,|w|)
により算出されたものであり、
キーワード候補wと名前N2との前記共起の強さが、
r(N2,w)=|N2 and w|/(|N2|+|w|−|N2 and w|)、または
r(N2,w)=log|N2 or w|/|N2||w|、または
r(N2,w)=2|N2 and w|/(|N2|+|w|)、または
r(N2,w)=|N2 and w|/min(|N2|,|w|)
により算出されたものであり、
キーワード候補wとコンテクストワードCとの前記共起の強さが、
r(C,w)=|C and w|/(|C|+|w|−|Cand w|)、または
r(C,w)=log|C or w|/|C||w|、または
r(C,w)=2|C and w|/(|C|+|w|)、または
r(C,w)=|C and w|/min(|C|,|w|)
により算出されたものであり、
そして、前記合成した共起の強さが、
r(N1,N2,C,w)
=r(N1,N2,w)+γ・r(C,w)/max(r(C,w))
={r(N1,w)/max(r(N1,w))
+β・r(N2,w)/max(r(N2,w))}
+γ・r(C,w)/max(r(C,w))
により算出されたものである
ことを特徴とする請求項21記載のキーワード抽出装置。 - 処理部が、請求項1ないし10のいずれかに記載のキーワード抽出方法により抽出されたキーワードxに対するプロパティラベルの入力部からの入力を受け付けるステップ、および
前記処理部が、入力されたプロパティラベルおよびキーワードxに基づいてメタデータを作成するステップ
を有することを特徴とするメタデータ作成方法。 - 前記プロパティラベルは、
名前を意味するラベルN、
技術を意味するラベルT、
コミュニティを意味するラベルC、
プロジェクトを意味するラベルP、
組織を意味するラベルO、
URLを意味するラベルURL、
イベントを意味するラベルE、および
地位を意味するラベルデータJ
の群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする請求項23記載のメタデータ作成方法。 - 請求項23または24に記載のメタデータ作成方法をコンピュータに実行させるためのメタデータ作成プログラム。
- 請求項25に記載のメタデータ作成プログラムを記録したコンピュータ読取可能な記録媒体。
- 請求項13ないし22のいずれかに記載のキーワード抽出装置により抽出されたキーワードxに対するプロパティラベルを入力する手段、および
入力されたプロパティラベルおよびキーワードxに基づいてメタデータを作成する手段を有することを特徴とするメタデータ作成装置。 - 前記プロパティラベルは、
名前を意味するラベルN、
技術を意味するラベルT、
コミュニティを意味するラベルC、
プロジェクトを意味するラベルP、 組織を意味するラベルO、
URLを意味するラベルURL、
イベントを意味するラベルE、および
地位を意味するラベルデータJ
の群のうちの少なくとも二つ以上の種類から選択されたものであることを特徴とする請求項27記載のメタデータ作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005252826A JP4613346B2 (ja) | 2004-09-01 | 2005-08-31 | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004254411 | 2004-09-01 | ||
JP2005252826A JP4613346B2 (ja) | 2004-09-01 | 2005-08-31 | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006099754A true JP2006099754A (ja) | 2006-04-13 |
JP4613346B2 JP4613346B2 (ja) | 2011-01-19 |
Family
ID=36239435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005252826A Expired - Fee Related JP4613346B2 (ja) | 2004-09-01 | 2005-08-31 | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4613346B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009104593A (ja) * | 2007-09-20 | 2009-05-14 | Intel Corp | コンテクスト情報の集計、解析及び利用のためのコンテクストプラットフォームフレームワーク |
JP2010003134A (ja) * | 2008-06-20 | 2010-01-07 | Yahoo Japan Corp | 検索キーワードを推薦するサーバ、方法、およびプログラム |
JP2010009307A (ja) * | 2008-06-26 | 2010-01-14 | Kyoto Univ | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
CN105511642A (zh) * | 2016-01-07 | 2016-04-20 | 珠海市魅族科技有限公司 | 一种输入方法及装置 |
CN105653064A (zh) * | 2016-01-07 | 2016-06-08 | 珠海市魅族科技有限公司 | 一种输入方法及装置 |
KR101785345B1 (ko) | 2013-07-31 | 2017-10-17 | 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 | 시맨틱 데이터로부터의 정보 추출 |
US10380487B2 (en) | 2014-03-27 | 2019-08-13 | International Business Machines Corporation | Information processing using primary and secondary keyword groups |
CN111046141A (zh) * | 2019-12-03 | 2020-04-21 | 新华智云科技有限公司 | 一种基于历史时间特征的文本库关键词精炼方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314182A (ja) * | 1992-05-13 | 1993-11-26 | Fujitsu Ltd | 情報検索装置 |
JP2000112969A (ja) * | 1998-10-02 | 2000-04-21 | Oki Electric Ind Co Ltd | 情報抽出装置 |
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JP2004021763A (ja) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | テキストマイニングプログラム、方法、及び装置 |
JP2004206391A (ja) * | 2002-12-25 | 2004-07-22 | Mitsubishi Electric Corp | 文書情報分析装置 |
-
2005
- 2005-08-31 JP JP2005252826A patent/JP4613346B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05314182A (ja) * | 1992-05-13 | 1993-11-26 | Fujitsu Ltd | 情報検索装置 |
JP2000331032A (ja) * | 1996-10-31 | 2000-11-30 | Fuji Xerox Co Ltd | 文書処理装置、単語抽出装置及び単語抽出方法 |
JP2000112969A (ja) * | 1998-10-02 | 2000-04-21 | Oki Electric Ind Co Ltd | 情報抽出装置 |
JP2004021763A (ja) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | テキストマイニングプログラム、方法、及び装置 |
JP2004206391A (ja) * | 2002-12-25 | 2004-07-22 | Mitsubishi Electric Corp | 文書情報分析装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009104593A (ja) * | 2007-09-20 | 2009-05-14 | Intel Corp | コンテクスト情報の集計、解析及び利用のためのコンテクストプラットフォームフレームワーク |
JP2010003134A (ja) * | 2008-06-20 | 2010-01-07 | Yahoo Japan Corp | 検索キーワードを推薦するサーバ、方法、およびプログラム |
JP2010009307A (ja) * | 2008-06-26 | 2010-01-14 | Kyoto Univ | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
KR101785345B1 (ko) | 2013-07-31 | 2017-10-17 | 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 | 시맨틱 데이터로부터의 정보 추출 |
US10380487B2 (en) | 2014-03-27 | 2019-08-13 | International Business Machines Corporation | Information processing using primary and secondary keyword groups |
US10387781B2 (en) | 2014-03-27 | 2019-08-20 | International Business Machines Corporation | Information processing using primary and secondary keyword groups |
CN105511642A (zh) * | 2016-01-07 | 2016-04-20 | 珠海市魅族科技有限公司 | 一种输入方法及装置 |
CN105653064A (zh) * | 2016-01-07 | 2016-06-08 | 珠海市魅族科技有限公司 | 一种输入方法及装置 |
CN111046141A (zh) * | 2019-12-03 | 2020-04-21 | 新华智云科技有限公司 | 一种基于历史时间特征的文本库关键词精炼方法 |
CN111046141B (zh) * | 2019-12-03 | 2023-07-18 | 新华智云科技有限公司 | 一种基于历史时间特征的文本库关键词精炼方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4613346B2 (ja) | 2011-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7958128B2 (en) | Query-independent entity importance in books | |
Yi et al. | Linking folksonomy to Library of Congress subject headings: an exploratory study | |
Stock et al. | Handbook of information science | |
US9183281B2 (en) | Context-based document unit recommendation for sensemaking tasks | |
JP4613346B2 (ja) | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 | |
US8762404B2 (en) | Information search system, method, and program, and information search service providing method | |
JP6381775B2 (ja) | 情報処理システム及び情報処理方法 | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
JP2003114906A (ja) | ユーザ定義可能なパーソナリティを備えたメタ文書管理システム | |
US8990246B2 (en) | Understanding and addressing complex information needs | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
Arguello et al. | Using query performance predictors to reduce spoken queries | |
Mori et al. | Keyword extraction from the web for foaf metadata | |
Dalton et al. | Local and global query expansion for hierarchical complex topics | |
JP2006099753A (ja) | 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置 | |
Gretzel et al. | Intelligent search support: Building search term associations for tourism-specific search engines | |
Jayashree et al. | Text Document Summarization Using POS tagging for Kannada Text Documents | |
Michelson | 4 Syriaca. org as a Test Case for Digitally Re-Sorting the Ancient World | |
JP2010282403A (ja) | 文書検索方法 | |
Crestani et al. | Automatic construction of hypertexts for self-referencing: the Hyper-TextBook project | |
Hinkelmann | A Computational Literature Analysis of Conversational AI Research with a Focus on the Coaching Domain | |
dos Reis et al. | NEW PERSPECTIVES FOR SEARCH IN SOCIAL NETWORKS-A Challenge for Inclusion | |
JP7234079B2 (ja) | 検索支援システム、検索支援方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20091218 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100929 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4613346 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131029 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131029 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |