JP2010204866A - Significant keyword extraction device, method, and program - Google Patents

Significant keyword extraction device, method, and program Download PDF

Info

Publication number
JP2010204866A
JP2010204866A JP2009048550A JP2009048550A JP2010204866A JP 2010204866 A JP2010204866 A JP 2010204866A JP 2009048550 A JP2009048550 A JP 2009048550A JP 2009048550 A JP2009048550 A JP 2009048550A JP 2010204866 A JP2010204866 A JP 2010204866A
Authority
JP
Japan
Prior art keywords
keyword
importance
important
important keyword
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009048550A
Other languages
Japanese (ja)
Other versions
JP5143057B2 (en
Inventor
Mitsumasa Kondo
光正 近藤
Makoto Nakatsuji
真 中辻
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009048550A priority Critical patent/JP5143057B2/en
Publication of JP2010204866A publication Critical patent/JP2010204866A/en
Application granted granted Critical
Publication of JP5143057B2 publication Critical patent/JP5143057B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To calculate significance unique to a keyword itself, and to robustly extract a significant keyword without being affected by its appearance frequency in a document. <P>SOLUTION: This significant keyword extraction device is configured to extract the significant content of a Web document, and to extract keyword candidates from the text in the document, and to calculate and rank the significance of the extracted keywords. The significant content is found on the basis of the quantity of characters, the quantity of punctuation marks, the quantity of tags, and the number of links or the like, and the significant part of the content is specified, and the significance of the keyword is determined from the link structure or the retrieval query of Wikipedia(R) only with respect to the significant part of the content. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、重要キーワード抽出装置及び方法及びプログラムに係り、特に、文書中に含まれるテキストから重要なキーワードを抽出する重要キーワード抽出装置及び方法及びプログラムに関する。   The present invention relates to an important keyword extraction apparatus, method, and program, and more particularly, to an important keyword extraction apparatus, method, and program for extracting an important keyword from text included in a document.

従来の重要キーワード抽出法は、キーワードの出現頻度や複合語を構成する形態素の連接頻度等の"頻度"を用いて抽出する手法が主流であった(例えば、非特許文献1参照)。   The conventional important keyword extraction method has mainly been a method of extracting using “frequency” such as the frequency of appearance of keywords and the frequency of concatenation of morphemes constituting a compound word (for example, see Non-Patent Document 1).

中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出。自然言語処理」Vol.10 No.1, pp.27-45, 2003年1月Nakagawa Hiroshi, Mori Yasunori, Yumoto Yasuaki, “Terminology extraction based on appearance frequency and connection frequency. Natural language processing” Vol.10 No.1, pp.27-45, January 2003

従来の重要キーワード抽出法は、キーワードの出現頻度や連接頻度等の"頻度"を用いる手法が主流であったため、事前に比較的量の多い文書集合を要する必要があった。また、頻度が高いからといって、重要であるという判定を行う手法は場合によっては上手く作用しない場合が多く、精度的にもあまりよい結果を得られていない。   In the conventional important keyword extraction method, since a method using “frequency” such as a keyword appearance frequency and a connection frequency is mainstream, it is necessary to require a relatively large amount of document sets in advance. In addition, the method of determining that it is important just because the frequency is high often does not work well in some cases, and the results are not very good in terms of accuracy.

本発明は、上記の点に鑑みなされたもので、キーワードそのものの固有の重要性を算出でき、文書内の出現頻度等に左右されずに重要キーワードを頑健に抽出することが可能な重要キーワード抽出装置及び方法及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points, and it is possible to calculate the intrinsic importance of the keyword itself, and to extract the important keyword robustly without depending on the appearance frequency in the document. An object is to provide an apparatus, a method, and a program.

図1は、本発明の原理構成図である。   FIG. 1 is a principle configuration diagram of the present invention.

本発明(請求項1)は、Web文書中に含まれるテキストから重要なキーワードを抽出する重要キーワード抽出装置であって、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段10と、
オンライン百科辞典(例えば、Wikipedia(登録商標))に代表される文書集合内において一意の見出し語を持つ文書で、かつ、文書集合内において引用関係もしくは参照関係を持つ文書集合(以下、辞典文書集合と記す)の見出し語を形態素解析用の辞書として登録しているキーワード辞書101を参照して、主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段2と、
Web文書内の重要キーワード候補に重み付けを行う出現頻度算出手段3と、
知名度や話題性が高く、内容的に興味深く、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードの重要度が高くなるように重要キーワード候補の重要度を算出し、第1の記憶手段105に格納するキーワード重要度算出手段4と、
重要キーワード候補の重要度に基づいて、Web文書中の位置に基づいて出現位置キーワード重要度を求め、第2の記憶手段106に格納する位置情報算出手段5と、
第1の記憶手段105に格納されている重要キーワード候補の重要度及び第2の記憶手段106に格納されている出現位置キーワード重要度を乗算した値に基づいて、重要度付きのキーワード集合を出力するキーワード出力手段6と、を有し、
主要コンテンツ抽出手段10は、
Web文書を所定の分割規則に基づいてセグメントに分割するWeb文書分割手段12と、
セグメント毎に主要コンテンツ判定のための特徴量を抽出する特徴量抽出手段13と、
セグメント毎の特徴量に基づいて機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段14と、
主要コンテンツと判断された部位を結合して主要コンテンツとして出力する主要コンテンツ出力手段15を含み、
主要コンテンツ抽出手段10の特徴量抽出手段13は、
Web文書で表示される文字列の特徴量、タグ情報の特徴量、アンカーリンク情報の特徴量を抽出し、各特徴量間の比率を用いて最終的な特徴量とする手段を含み、
出現頻度算出手段3は、
検索エンジンが収集したWeb文書集合における出現確率を考慮した重みであるWebIDFを用いて重要キーワード候補に重み付けする手段、
または、
重要キーワード候補のWeb文書内の出現頻度を求め、該出現頻度と文書集合内での出現分布に基づいて各重要キーワード候補に重み付けを行うBM25を用いて該キーワード候補に重み付けする手段、のいずれかを有する。
The present invention (Claim 1) is an important keyword extraction device for extracting an important keyword from text included in a Web document,
Main content extracting means 10 for acquiring a Web document, extracting a feature amount of the Web document, and extracting main content;
A document set having a unique headword in a document set represented by an online encyclopedia (for example, Wikipedia (registered trademark)), and a document set having a citation relationship or a reference relationship in the document set (hereinafter referred to as a dictionary document set) An important keyword candidate extraction means 2 for extracting an important keyword candidate from the main content with reference to the keyword dictionary 101 in which the keyword is registered as a dictionary for morphological analysis;
Appearance frequency calculation means 3 for weighting important keyword candidates in the Web document;
The importance level of the important keyword candidate is calculated so that the importance level of the keyword having a high degree of name recognition, high topicality, interesting contents, and various topics when talking about the keyword is high, and the first memory is calculated. Keyword importance calculation means 4 stored in the means 105;
Based on the importance of the important keyword candidate, the position information calculation means 5 for obtaining the appearance position keyword importance based on the position in the Web document and storing it in the second storage means 106;
Based on a value obtained by multiplying the importance of the important keyword candidate stored in the first storage unit 105 by the appearance position keyword importance stored in the second storage unit 106, a keyword set with importance is output. Keyword output means 6 for
The main content extracting means 10
Web document dividing means 12 for dividing the Web document into segments based on a predetermined division rule;
A feature amount extracting means 13 for extracting a feature amount for main content determination for each segment;
Main content determination means 14 for determining whether the content is main content using a machine learning algorithm based on a feature amount for each segment;
Including main content output means 15 for combining the parts determined to be main content and outputting them as main content;
The feature quantity extraction means 13 of the main content extraction means 10
A means for extracting a feature amount of a character string displayed in a Web document, a feature amount of tag information, and a feature amount of anchor link information, and using a ratio between each feature amount as a final feature amount;
The appearance frequency calculation means 3
Means for weighting important keyword candidates using WebIDF, which is a weight considering the probability of appearance in a set of Web documents collected by a search engine;
Or
Any of means for weighting the keyword candidates using BM25 that calculates the appearance frequency of the important keyword candidates in the Web document and weights each important keyword candidate based on the appearance frequency and the appearance distribution in the document set. Have

また、本発明(請求項2)は、上記請求項1の出現頻度算出手段3が、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段を含む。
Further, according to the present invention (Claim 2), the appearance frequency calculation means 3 of Claim 1 described above is
Means for obtaining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means is included.

また、本発明(請求項3)は、上記請求項1または2のキーワード重要度算出手段4が、
辞典文書集合内のリンク構造を用いて、重要キーワード候補の重要度を求める手段を含む。
Further, according to the present invention (Claim 3), the keyword importance degree calculation means 4 of Claim 1 or 2 is
Means for obtaining importance levels of important keyword candidates using the link structure in the dictionary document set is included.

また、本発明(請求項4)は、上記請求項1乃至3のキーワード重要度算出手段4が、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、重要キーワード候補の重要度を求める手段を含む。
Further, according to the present invention (Claim 4), the keyword importance degree calculation means 4 of Claims 1 to 3 described above is
The keyword includes a means for obtaining the importance of the important keyword candidate by using a value that becomes a more important keyword as the keyword is frequently input to the search engine.

また、本発明(請求項5)は、上記請求項1または2のキーワード重要度算出手段4が、
重要キーワード候補のWeb文書中の出現位置に基づいて、該重要キーワード候補の重要度を求める手段を含む。
Further, according to the present invention (Claim 5), the keyword importance degree calculation means 4 of Claim 1 or 2 is
Means for obtaining the importance of the important keyword candidate based on the appearance position of the important keyword candidate in the Web document is included.

また、本発明(請求項6)は、請求項1のキーワード重要度算出手段4が、
辞典文書集合内のリンク構造を用いて、重要キーワード候補の重要度を求める手段と、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、を含む。
In the present invention (Claim 6), the keyword importance degree calculation means 4 of Claim 1
Using the link structure in the dictionary document set, a means for determining the importance of important keyword candidates,
Means for determining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means.

また、本発明(請求項7)は、請求項1のキーワード重要度算出手段4が、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、重要キーワード候補の重要度を求める手段と、を含む。
In the present invention (Claim 7), the keyword importance degree calculation means 4 of Claim 1
Means for determining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means;
Means for determining the importance of important keyword candidates by using a value such that the keyword that has been input to the search engine more frequently becomes a more important keyword.

また、本発明(請求項8)は、請求項1のキーワード重要度算出手段4が、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、
重要キーワード候補の文書中の出現位置に基づいて、該重要キーワード候補の重要度を求める手段と、を含む。
In the present invention (Claim 8), the keyword importance degree calculation means 4 of Claim 1
Means for determining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means;
Means for determining the importance of the important keyword candidate based on the appearance position of the important keyword candidate in the document.

また、本発明(請求項9)は、請求項1のキーワード重要度算出手段4が、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、
辞典文書集合内のリンク構造を用いて、重要キーワード候補の重要度を求める手段と、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、重要キーワード候補の重要度を求める手段と、を含む。
Further, according to the present invention (claim 9), the keyword importance calculation means 4 of claim 1
Means for determining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means;
Using the link structure in the dictionary document set, a means for determining the importance of important keyword candidates,
Means for determining the importance of important keyword candidates by using a value such that the keyword that has been input to the search engine more frequently becomes a more important keyword.

また、本発明(請求項10)は、請求項1のキーワード重要度算出手段4が、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、
辞典文書集合内のリンク構造を用いて、重要キーワード候補の重要度を求める手段と、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、重要キーワード候補の重要度を求める手段と、
重要キーワード候補の文書中の出現位置に基づいて、該重要キーワード候補の重要度を求める手段と、を含む。
Further, according to the present invention (claim 10), the keyword importance calculation means 4 of claim 1
Means for determining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means;
Using the link structure in the dictionary document set, a means for determining the importance of important keyword candidates,
A keyword is used to determine the importance of potential keyword candidates by using a value that makes the keyword more important as the keyword is used more frequently.
Means for determining the importance of the important keyword candidate based on the appearance position of the important keyword candidate in the document.

図2は、本発明の原理を説明するための図である。   FIG. 2 is a diagram for explaining the principle of the present invention.

本発明(請求項11)は、Web文書中に含まれるテキストから重要なキーワードを抽出する重要キーワード抽出方法であって、
主要コンテンツ抽出手段が、Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出ステップ(ステップ1)と、
重要キーワード候補抽出手段が、オンライン百科辞典(例えば、Wikipedia(登録商標))に代表される文書集合内において一意の見出し語を持つ文書で、かつ、文書集合内において引用関係もしくは参照関係を持つ文書集合(以下、辞典文書集合と記す)の見出し語を形態素解析用の辞書として登録しているキーワード辞書を参照して、主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出ステップ(ステップ2)と、
出現頻度算出手段が、Web文書内の重要キーワード候補に重み付けを行う出現頻度算出ステップ(ステップ3)と、
キーワード重要度算出手段が、知名度や話題性が高く、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードの重要度が高くなるように重要キーワード候補の重要度を算出し、第1の記憶手段に格納するキーワード重要度算出ステップ(ステップ4)と、
位置情報算出手段が、重要キーワード候補のWeb文書中の位置に基づいて出現位置キーワード重要度を求め、第2の記憶手段に格納する位置情報算出ステップ(ステップ5)と、
キーワード出力手段が、第1の記憶手段に格納されている重要キーワード候補の重要度及び第2の記憶手段に格納されている出現位置キーワード重要度を乗算した値に基づいて、重要度付きのキーワード集合を出力するキーワード出力ステップ(ステップ6)と、を行い、
主要コンテンツ抽出ステップ(ステップ1)では、
Web文書を所定の分割規則に基づいてセグメントに分割するWeb文書分割ステップと、
セグメント毎に主要コンテンツ判定のための特徴量を抽出する特徴量抽出ステップと、
セグメント毎の特徴量に基づいて機械学習アルゴリズムを用いて主要コンテンツか否かを判定する主要コンテンツ判定ステップと、
主要コンテンツと判断された部位を結合して主要コンテンツとして出力する主要コンテンツ出力ステップと、を含み、
特徴量抽出ステップでは、
Web文書で表示される文字列の特徴量、タグ情報の特徴量、アンカーリンク情報の特徴量を抽出し、各特徴量間の比率を用いて最終的な特徴量とするステップを含み、
出現頻度算出ステップ(ステップ3)では、
検索エンジンが収集したWeb文書集合における出現確率を考慮した重みであるWebIDFを用いて重要キーワード候補に重み付けするステップ、
または、
重要キーワード候補のWeb文書内の出現頻度を求め、該出現頻度と文書集合内での出現分布に基づいて各重要キーワード候補に重み付けを行うBM25を用いて該キーワード候補に重み付けするステップ、
のいずれかを行う。
The present invention (Claim 11) is an important keyword extraction method for extracting an important keyword from text included in a Web document,
A main content extracting means for acquiring a Web document, extracting a feature amount of the Web document, and extracting the main content;
A document in which the important keyword candidate extracting means is a document having a unique headword in a document set represented by an online encyclopedia (for example, Wikipedia (registered trademark)) and having a citation relationship or a reference relationship in the document set An important keyword candidate extraction step (step 2) for extracting an important keyword candidate from main contents with reference to a keyword dictionary in which entry words of the set (hereinafter referred to as a dictionary document set) are registered as a dictionary for morphological analysis; ,
An appearance frequency calculating step (step 3) in which an appearance frequency calculating unit weights important keyword candidates in the Web document;
The keyword importance calculation means calculates the importance of important keyword candidates so that the importance of keywords having a high level of name recognition and high topicality, and various information that includes various topics when talking about keywords is increased. A keyword importance degree calculating step (step 4) to be stored in the storage means;
A position information calculation means for obtaining an appearance position keyword importance based on the position of the important keyword candidate in the Web document, and storing it in the second storage means (step 5);
The keyword output means adds a keyword with importance based on the value obtained by multiplying the importance of the important keyword candidate stored in the first storage means and the appearance position keyword importance stored in the second storage means. And a keyword output step (step 6) for outputting the set,
In the main content extraction step (step 1),
A Web document dividing step of dividing the Web document into segments based on a predetermined dividing rule;
A feature extraction step for extracting a feature for determining main content for each segment;
A main content determination step for determining whether or not the main content is based on a feature amount for each segment using a machine learning algorithm;
A main content output step of combining the parts determined to be the main content and outputting as a main content,
In the feature extraction step,
Extracting a feature amount of a character string displayed in a Web document, a feature amount of tag information, and a feature amount of anchor link information, and using a ratio between each feature amount as a final feature amount,
In the appearance frequency calculation step (step 3),
Weighting important keyword candidates using WebIDF, which is a weight considering the probability of appearance in a set of Web documents collected by a search engine;
Or
Obtaining an occurrence frequency of the important keyword candidate in the Web document, and weighting the keyword candidate using BM25 for weighting each important keyword candidate based on the occurrence frequency and the appearance distribution in the document set;
Do one of the following.

また、本発明(請求項12)は、請求項11の出現頻度算出ステップ(ステップ3)において、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める。
Further, the present invention (Claim 12), in the appearance frequency calculating step (Step 3) of Claim 11,
Using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means, the importance of the important keyword candidate is obtained.

また、本発明(請求項13)は、請求項11または12のキーワード重要度算出ステップ(ステップ4)において、
辞典文書集合内のリンク構造を用いて、重要キーワード候補の重要度を求める。
Further, according to the present invention (Claim 13), in the keyword importance calculation step (Step 4) of Claim 11 or 12,
Using the link structure in the dictionary document set, the importance of the important keyword candidate is obtained.

また、本発明(請求項14)は、請求項11乃至13のキーワード重要度算出ステップ(ステップ4)において、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、重要キーワード候補の重要度を求める。
Further, the present invention (Claim 14) is a keyword importance calculation step (Step 4) according to Claims 11 to 13,
The importance of the important keyword candidate is obtained by using a value that becomes a more important keyword as the keyword is frequently input to the search engine.

また、本発明(請求項15)は、請求項11または12のキーワード重要度算出ステップ(ステップ4)において、
重要キーワード候補のWeb文書中の出現位置に基づいて、該重要キーワード候補の重要度を求める。
Further, according to the present invention (Claim 15), in the keyword importance calculation step (Step 4) of Claim 11 or 12,
Based on the appearance position of the important keyword candidate in the Web document, the importance of the important keyword candidate is obtained.

本発明(請求項16)は、請求項1乃至10のいずれか1項記載の重要キーワード抽出装置構成する各手段としてコンピュータを機能させるための重要キーワード抽出プログラムである。   The present invention (Claim 16) is an important keyword extracting program for causing a computer to function as each means constituting the important keyword extracting apparatus according to any one of Claims 1 to 10.

本発明によれば、文書中の重要キーワードの抽出が可能となり、それらを用いた文書管理システムや、重要キーワードからの広告配信等での応用が可能である。さらに、従来の技術では、文書中におけるキーワードの出現頻度のみから重要キーワードの特定を行っていたが、オンライン百科事典(例えば、Wikipedia(登録商標))のリンク構造や実際の検索クエリの投入回数を用いることで、従来の技術では実現できなかったキーワードそのものの固有の重要性を算出でき、文書内の出現頻度等に左右されない重要キーワードの頑健な抽出が可能になる。   According to the present invention, important keywords in a document can be extracted, and can be applied to a document management system using them, advertisement distribution from important keywords, and the like. Furthermore, in the conventional technology, an important keyword is identified only from the frequency of occurrence of the keyword in the document. However, the link structure of the online encyclopedia (for example, Wikipedia (registered trademark)) and the number of actual search queries input By using it, it is possible to calculate the inherent importance of the keyword itself that could not be realized by the conventional technique, and it is possible to robustly extract important keywords that are not influenced by the appearance frequency in the document.

本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の一実施の形態における重要キーワード抽出装置の構成図である。It is a block diagram of the important keyword extraction apparatus in one embodiment of this invention. 本発明の処理の概要を示す図である。It is a figure which shows the outline | summary of the process of this invention. 本発明の一実施の形態における主要コンテンツ抽出部の構成図である。It is a block diagram of the main content extraction part in one embodiment of this invention. 本発明の一実施の形態におけるWeb文書取得・入力部の構成図である。It is a block diagram of the Web document acquisition / input part in one embodiment of this invention. 本発明の一実施の形態におけるWeb文書分割部の構成図である。It is a block diagram of the Web document division part in one embodiment of this invention. 本発明の一実施の形態における特徴量抽出部の構成図である。It is a block diagram of the feature-value extraction part in one embodiment of this invention. 本発明の一実施の形態における主要コンテンツ判定部の構成図である。It is a block diagram of the main content determination part in one embodiment of this invention. 本発明の一実施の形態における主要コンテンツ出力部の構成図である。It is a block diagram of the main content output part in one embodiment of this invention. 本発明の一実施の形態における特徴量のパラメータ推定方法のフローチャートである。It is a flowchart of the parameter estimation method of the feature-value in one embodiment of this invention. 本発明の一実施の形態における主要コンテンツ例(その1)である。It is a main content example (the 1) in one embodiment of this invention. 本発明の一実施の形態における主要コンテンツ例(その2)である。It is a main content example (the 2) in one embodiment of this invention.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

本発明は、文書中における重要キーワードを抽出するシステムである。従来の技術においては比較的量の多い文書集合を事前に用意する必要があったが、本発明では文書が少ない場合においても精度が落ちにくい手法を提案する。   The present invention is a system for extracting important keywords in a document. In the prior art, it was necessary to prepare a document set having a relatively large amount in advance. However, the present invention proposes a method in which the accuracy is not easily lowered even when the number of documents is small.

本発明では、「文書集合内において一意の見出し語を持つ文書で、かつ文書集合内において引用関係もしくは参照関係を持つ文書集合」を用いて、重要キーワードを抽出する。例をあげると、オンライン百科事典である「Wikipedia(登録商標)」や、「はてなブックマーク(登録商標)」、「マイペディア(登録商標)」等の文書集合がそれに該当する。キーワード候補は、これらの文書集合における文書の見出し語を用いる。百科事典のような一意の見出し語を有する文書集合の見出し語を用いることで事象を一意に示す複数形態素から構成される複合語の切り出しが可能になる。さらに、このような見出し語は一般的に重要だと思われるキーワードを網羅しているため、掲載されている見出し語をキーワード候補として用いることで、重要なキーワードの絞込みが可能になる。   In the present invention, an important keyword is extracted using “a document set having a unique headword in the document set and a citation relationship or a reference relationship in the document set”. For example, the online encyclopedia “Wikipedia (registered trademark)”, “Hatena bookmark (registered trademark)”, “Mypedia (registered trademark)”, and other document sets correspond to this. The keyword candidates use document headwords in these document sets. By using a headword of a document set having a unique headword such as an encyclopedia, a compound word composed of a plurality of morphemes uniquely indicating an event can be cut out. Furthermore, since such headwords cover keywords that are generally considered important, it is possible to narrow down important keywords by using the headwords that are listed as keyword candidates.

本実施の形態において、対象とする文書集合は「文書集合内において一意の見出し語を持つ文書で、かつ文書集合内において引用関係もしくは参照関係を持つ文書集合」とするが、以下では、Wikipedia(登録商標)を例に挙げて説明する。   In the present embodiment, the target document set is “a document set having a unique headword in the document set and having a citation relationship or a reference relationship in the document set”. (Registered trademark) will be described as an example.

図3は、本発明の一実施の形態における重要キーワード抽出装置の構成図である。   FIG. 3 is a configuration diagram of the important keyword extracting apparatus according to the embodiment of the present invention.

同図に示す重要キーワード抽出装置は、主要コンテンツ抽出部10を有する文書入力部1、重要キーワード候補抽出部2、出現頻度算出部3、キーワード重要度算出部4、位置情報算出部5、重要キーワード出力部6、キーワード辞書101、WebIDF記憶部102、事前に求められているWikipedia(登録商標)のリンク構造からのキーワード重要度を格納するキーワード重要度1記憶部103、事前に求められている検索エンジンの検索クエリ投入回数を用いたキーワード重要度を格納するキーワード重要度2記憶部104、固有重要度記憶部105、位置重要度記憶部106から構成される。   The important keyword extracting apparatus shown in FIG. 1 includes a document input unit 1 having a main content extracting unit 10, an important keyword candidate extracting unit 2, an appearance frequency calculating unit 3, a keyword importance calculating unit 4, a position information calculating unit 5, an important keyword. Output unit 6, keyword dictionary 101, WebIDF storage unit 102, keyword importance level 1 storage unit 103 that stores keyword importance levels from the link structure of Wikipedia (registered trademark) that has been obtained in advance, search that has been obtained in advance The keyword importance degree storage unit 104 stores a keyword importance level using the number of engine search query inputs, a unique importance level storage unit 105, and a position importance level storage unit 106.

図4は、本発明の処理の概要を示す図である。   FIG. 4 is a diagram showing an outline of the processing of the present invention.

ステップ100) 文書入力部1の主要コンテンツ抽出部10は、入力された対象文書がWeb文書であるかを判定し、Web文書である場合はステップ200に移行し、Web文書でない場合はステップ300に移行する。   Step 100) The main content extraction unit 10 of the document input unit 1 determines whether the input target document is a Web document. If the input target document is a Web document, the process proceeds to Step 200. If not, the process proceeds to Step 300. Transition.

ステップ200) Web文書である場合は、主要コンテンツの抽出を行う(主要コンテンツの抽出処理)。   Step 200) If the document is a Web document, the main content is extracted (main content extraction process).

ステップ300) 重要キーワード候補抽出部2は、文書内のテキストからキーワード候補を抽出する(キーワード候補の抽出処理)。   Step 300) The important keyword candidate extraction unit 2 extracts keyword candidates from the text in the document (keyword candidate extraction process).

ステップ400) 出現頻度算出部3において文書中に出現するキーワード候補の出現頻度を求め、キーワード重要度算出部4ではキーワード候補の重要度(固有重要度)を求め、位置情報算出部5は、キーワード候補が文書中に出現する位置により重要度(位置重要度)を求め、重要キーワード出力部6において、固有重要度と位置重要度に基づいて、キーワードの順序付けを行う(キーワードの重要度算出処理)。   Step 400) The appearance frequency calculating unit 3 obtains the appearance frequency of the keyword candidate appearing in the document, the keyword importance calculating unit 4 obtains the importance (unique importance) of the keyword candidate, and the position information calculating unit 5 The importance (position importance) is obtained from the position where the candidate appears in the document, and the important keyword output unit 6 orders the keywords based on the unique importance and the position importance (keyword importance calculation processing). .

以上が、文書中における重要キーワードを抽出する処理の主な流れである。   The above is the main flow of processing for extracting important keywords in a document.

[1]主要コンテンツの抽出処理(ステップ200):
当該処理は、文書入力部1の主要コンテンツ抽出部10が行う処理である。
[1] Extraction process of main content (step 200):
This process is a process performed by the main content extraction unit 10 of the document input unit 1.

入力文書がWeb文書である場合、ナビゲーションリンクや広告テキスト等のWeb文書の内容とは関係のないテキストが存在する。そのため、それら不要テキストを除去する主要コンテンツ部分の抽出を行う必要がある。Web文書か否かの判定は、ファイルの拡張子を用いて行うものとする。   When the input document is a Web document, there is text unrelated to the content of the Web document, such as a navigation link and advertisement text. Therefore, it is necessary to extract the main content part from which these unnecessary texts are removed. Whether or not the document is a Web document is determined using the extension of the file.

[1−1]処理の流れ:
文書入力部1の主要コンテンツ抽出部10は、図5に示すように、Web文書取得・入力部11、Web文書分割部12、特徴量抽出部13、主要コンテンツ判定部14、主要コンテンツ出力部15から構成される。ここで、特徴量抽出部13と主要コンテンツ判定部14は、Web文書分割部12で分割されたWeb文書毎に処理を行う。
[1-1] Process flow:
As shown in FIG. 5, the main content extraction unit 10 of the document input unit 1 includes a Web document acquisition / input unit 11, a Web document division unit 12, a feature amount extraction unit 13, a main content determination unit 14, and a main content output unit 15. Consists of Here, the feature amount extraction unit 13 and the main content determination unit 14 perform processing for each Web document divided by the Web document division unit 12.

Web文書取得・入力部11は、処理するWeb文書(データ)の入力を行うもので、図6に示すように、データ入力部111、Web文書ファイル入力部112、URL入力部113、Web文書取得部114、文字コード変換部115から構成される。   The Web document acquisition / input unit 11 inputs a Web document (data) to be processed. As shown in FIG. 6, the data input unit 111, the Web document file input unit 112, the URL input unit 113, and the Web document acquisition Part 114 and a character code conversion part 115.

Web文書分割部12は、取得したWeb文書を分割するものであり、図7に示すように、広告対象領域部121、ノイズとなるタグや領域除去部122、Web文書の分割部123を有する。広告対象領域部121では、Web文書に広告対象領域が存在する場合は、当該広告対象領域を抽出する。ノイズとなるタグや領域除去部122は、広告対象領域または入力されたWeb文書のノイズとなるタグや領域を除去し、Web文書分割部123において文書を分割する。   The Web document dividing unit 12 divides the acquired Web document, and includes an advertisement target area unit 121, a noise and tag removing unit 122, and a Web document dividing unit 123 as illustrated in FIG. 7. When the advertisement target area exists in the Web document, the advertisement target area 121 extracts the advertisement target area. The tag or area removing unit 122 that becomes noise removes the tag or area that becomes noise of the advertisement target area or the input Web document, and the Web document dividing unit 123 divides the document.

特徴量抽出部13は、Web文書分割部12で分割されたWeb文書毎に、主要コンテンツ判定のための特徴量を抽出するものであり、図8に示すように、アンカーリンク情報特徴量抽出部131、タグ情報特徴量抽出部132、Web文書で表示される文字列特徴量抽出部133、特徴量の正規化部134、特徴量の比率特徴量抽出部135から構成される。   The feature amount extraction unit 13 extracts a feature amount for main content determination for each Web document divided by the Web document division unit 12, and as shown in FIG. 8, an anchor link information feature amount extraction unit 131, a tag information feature amount extraction unit 132, a character string feature amount extraction unit 133 displayed in a Web document, a feature amount normalization unit 134, and a feature amount ratio feature amount extraction unit 135.

主要コンテンツ判定部14は、特徴量抽出部13で抽出された特徴量から主要コンテンツか否かの判定を行うもので、図9に示すように、特徴量入力部141、テキスト判定部142、主要コンテンツ判定部143から構成される。   The main content determination unit 14 determines whether or not the content is the main content from the feature amount extracted by the feature amount extraction unit 13. As shown in FIG. 9, the feature amount input unit 141, the text determination unit 142, the main content determination unit 14 The content determination unit 143 is configured.

主要コンテンツ出力部15は、図10に示すように、タグ付きテキストを要求された場合に用いられるタグ付テキスト出力部151、タグなしテキストを要求された場合に用いられるタグなしテキスト出力部152、タグ付テキスト出力部151またはタグなしテキスト出力部152から出力された主要コンテンツと判定されたセグメントを結合して出力するデータ出力部153から構成される。   As shown in FIG. 10, the main content output unit 15 includes a tagged text output unit 151 that is used when tagged text is requested, an untagged text output unit 152 that is used when untagged text is requested, The data output unit 153 combines and outputs the segments determined to be the main content output from the tagged text output unit 151 or the untagged text output unit 152.

主要コンテンツ抽出部10の処理は、概略以下のようになる。   The processing of the main content extraction unit 10 is roughly as follows.

(1)Web文書取得・入力部11が、処理するWeb文書(データ)の入力を行う。   (1) The Web document acquisition / input unit 11 inputs a Web document (data) to be processed.

(2)Web文書分割部12が、(1)で取得したWeb文書を分割する。   (2) The Web document dividing unit 12 divides the Web document acquired in (1).

以下の処理は、分割したWeb文書毎に行う。   The following processing is performed for each divided Web document.

(3)特徴量抽出部13が主要コンテンツ判定のための特徴量を抽出する。   (3) The feature amount extraction unit 13 extracts feature amounts for main content determination.

(4)主要コンテンツ判定部14が、(3)で抽出した特徴量から主要コンテンツか否かの判定を行う。   (4) The main content determination unit 14 determines whether the content is the main content from the feature amount extracted in (3).

(5)主要コンテンツ出力部15が、(4)で主要コンテンツと判定された部位を結合して最終出力とする。   (5) The main content output unit 15 combines the parts determined as the main content in (4) to obtain the final output.

以下に主要コンテンツ抽出部10の動作を詳細に説明する。   The operation of the main content extraction unit 10 will be described in detail below.

[1−2]Web文書の入力:
Web文書の入力は、Web文書取得・入力部11で行われる処理である。
[1-2] Input of Web document:
The input of the Web document is a process performed by the Web document acquisition / input unit 11.

Web文書取得・入力部11のデータ入力部111は、ユーザから入力された主要コンテンツを抽出したWeb文書のURL、もしくは、ファイルそのものを取得する。入力がURLの場合はURL入力部113及びWeb文書取得部114において、そのURL先のWeb文書を取得し、ファイルが直接入力された場合はWeb文書ファイル入力部112がそのファイルを取得する。文字コード変換部115は、Web文書ファイル入力部112及びWeb文書取得部114から取得したWeb文書の文字コードをUTF−8に変換し統一する。   The data input unit 111 of the Web document acquisition / input unit 11 acquires the URL of the Web document from which the main content input by the user is extracted or the file itself. When the input is a URL, the URL input unit 113 and the Web document acquisition unit 114 acquire the URL destination Web document, and when the file is directly input, the Web document file input unit 112 acquires the file. The character code conversion unit 115 converts the character code of the Web document acquired from the Web document file input unit 112 and the Web document acquisition unit 114 into UTF-8 to be unified.

[1−3]Web文書の分割:
Web文書の分割は、Web文書分割部12で行われる処理である。
[1-3] Web document division:
The division of the Web document is a process performed by the Web document dividing unit 12.

最初に、Web文書分割部12の広告対象領域抽出部121は、インターネット広告等のコンテンツタグを含む領域がある場合、その領域を抽出する。ここで、インターネット広告とは、google(登録商標)や、Overture(登録商標)等の広告会社が広告配信のための主要コンテンツ絞込みに用いるタグである。google(登録商標)の広告の場合、<!--google_ad_section_start-->から、<--google_ad_section_end-->までがその領域に該当する。これらのタグはWeb文書によって文字列が少々異なったり大文字で表記されるので、大文字と小文字を区別しない正規表現を用いたり、ワイルドカードの正規表現を用いる等により、多少の文字列表記の違いを吸収する処理を行う。以下、正規表現を用いる処理の説明の際には、多少の違いを吸収する処理を行っているものとする。   First, the advertisement target area extraction unit 121 of the Web document dividing unit 12 extracts an area including a content tag such as an Internet advertisement. Here, the Internet advertisement is a tag used by an advertising company such as google (registered trademark) or Overture (registered trademark) to narrow down main contents for advertisement distribution. In the case of google (registered trademark) advertisement, the range from <!-google_ad_section_start-> to <-google_ad_section_end-> corresponds to that area. These tags have a slightly different character string depending on the Web document or are displayed in uppercase letters, so there are some differences in character string notation by using regular expressions that are not case sensitive or using wildcard regular expressions. Process to absorb. Hereinafter, it is assumed that processing for absorbing a slight difference is performed in the description of processing using regular expressions.

以降の処理は、インターネット広告の領域が存在する場合、上記で述べた領域を抽出する処理を行い、インターネット広告の領域がない場合は、最初に入力されたWeb文書に対して処理を行う。   In the subsequent processing, when there is an internet advertisement area, the above-described area extraction process is performed. When there is no internet advertisement area, the first input Web document is processed.

次に、ノイズとなるタグや領域除去部122は、余計なタグや領域、特定の文字列を除去する処理を行う。除去されるタグや領域は、Web文書のHTMLを説明するコメントタグであったり、JavaScriptであったり、formタグであったりする。除去するタグと領域を以下に記載する。   Next, the tag or area removing unit 122 that causes noise performs processing to remove an extra tag or area or a specific character string. The tag or area to be removed may be a comment tag explaining HTML of a Web document, JavaScript, or a form tag. The tags and areas to be removed are described below.

・"<!"で始まり、"-->"で終わるコメントタグ;
・"<script>"タグから、"</script>"タグで囲まれる領域;
・"<style>"タグから、"</style>"タグで囲まれる領域;
・"<select>"タグから、"</select>"タグで囲まれる領域;
・"<noscript>"タグから、"</ noscript >"タグで囲まれる領域;
・"<form>"タグから、"</form>"タグで囲まれる領域;
・連続した空白文字列(単一の空白は除く);
・連続したタブ文字列(単一のタブは除く);
ノイズとなるタグや領域除去部122は、以上のタグ、領域、文字列を正規表現を用いて除去する。タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いて分割を行う(例:<style class="hoge">)。
・ Comment tags that begin with "<!" And end with "->";
-The area enclosed by the "</ script>" tag from the "<script>"tag;
・ A region enclosed by "</ style>" tag from "<style>"tag;
・ A region enclosed by "</ select>" tag from "<select>"tag;
・ A region enclosed by "</ noscript>" tag from "<noscript>"tag;
・ A region enclosed by "</ form>" tag from "<form>"tag;
• Consecutive whitespace (excluding single whitespace);
・ Consecutive tab strings (excluding single tabs);
The tag or area removing unit 122 that causes noise removes the above tag, area, and character string using a regular expression. Since there may be cases where the alt attribute and class attribute exist in the tag, in such a case, division is performed using a regular expression that takes into account the tag including them (eg, <style class = "hoge">).

次に、Web文書の分割部123は、Web文書の分割を行う。分割の規則は、以下のタグを用いて分割を行う。   Next, the Web document dividing unit 123 divides the Web document. The division rule is to divide using the following tags.

・ <div>
・ </div>
・ <td>
・ </td>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いて分割を行う(例:<div class="hoge".)。
・ <Div>
・ </ Div>
・ <Td>
・ </ Td>
Since there may be cases where the alt attribute and class attribute exist in the tag, in such a case, division is performed using a regular expression that takes into account the tag including them (eg, <div class = "hoge".).

Web文書分割部12で分割されたWeb文書の一つ一つを『セグメント』と呼び、これらはメモリ(図示せず)に格納される。以降、特徴量抽出部13と主要コンテンツ判定部14の処理は、当該セグメント毎に行う。   Each of the Web documents divided by the Web document dividing unit 12 is called a “segment”, and these are stored in a memory (not shown). Thereafter, the processes of the feature amount extraction unit 13 and the main content determination unit 14 are performed for each segment.

[1−4]特徴量の抽出:
ここでは、特徴量抽出部13が抽出する特徴量について述べる。特徴量抽出部13では、メモリ(図示せず)に格納されたセグメント毎に、以降で述べる特徴量を抽出し、Web文書の主要コンテンツ部分の判定を行う。
[1-4] Feature amount extraction:
Here, the feature quantity extracted by the feature quantity extraction unit 13 will be described. The feature amount extraction unit 13 extracts feature amounts described below for each segment stored in a memory (not shown), and determines the main content portion of the Web document.

[1−4−1]Web文書で表示される文字列
当該特徴量は、Web文書で表示される文字列特徴量抽出部133で抽出される特徴量である。ここで述べる文字列とは、HTMLタグ等のWebブラウザで表示されない文字列を含まないものとする。
[1-4-1] Character String Displayed in Web Document The feature amount is a feature amount extracted by the character string feature amount extraction unit 133 displayed in the Web document. The character string described here does not include a character string that is not displayed by a Web browser such as an HTML tag.

Web文書で表示される文字列として、文字列の量、句読点の数がある。   As a character string displayed in a Web document, there are the amount of character strings and the number of punctuation marks.

[1−4−1−1]文字列の量:
一般的にWeb文書の主要コンテンツ部分は、主要コンテンツでない部分と比較すると多くの文字列が含まれている。また、全体的に文字列の少ないWeb文書においても同様のことがいえる。そのためWeb文書で表示される文字列特徴量抽出部133では、分割されたWeb文書に含まれる文字列の数を特徴量とする。そして、特徴量の正規化部134では、文字列の量を正規化して特徴とする手法と、文字列の絶対値を用いて特徴量とする手法の2つを実行し、最終的な文字列の量の特徴量とする。
[1-4-1-1] Amount of character string:
In general, the main content portion of a Web document includes many character strings as compared with a portion that is not the main content. The same can be said for a Web document having a small number of character strings as a whole. Therefore, the character string feature amount extraction unit 133 displayed in the Web document uses the number of character strings included in the divided Web document as the feature amount. Then, the feature amount normalization unit 134 executes two methods, ie, a method for normalizing the amount of the character string and making it a feature, and a method for making the feature amount using the absolute value of the character string, thereby obtaining a final character string. The feature amount of

・文字列の量の正規化を行い特徴量とする手法:
特徴量の正規化部134では、全てのセグメントにおいて最大の文字列の量をもつセグメントの特徴量を1とする正規化を行う。例えば、全てのセグメントにおいて最大の文字列の量が200で、あるセグメント内の文字列の量が100だった場合には、そのセグメントの文字列の量の特徴量は0.5となる。このような正規化を行うことで、全体的に文字列の少ないWeb文書においても主要コンテンツの抽出が可能になる。
-Method to normalize the amount of character string and use it as a feature value:
The feature amount normalization unit 134 performs normalization by setting the feature amount of the segment having the maximum character string amount to 1 in all the segments. For example, when the maximum amount of character strings in all segments is 200 and the amount of character strings in a certain segment is 100, the feature amount of the amount of character strings in that segment is 0.5. By performing such normalization, it is possible to extract main contents even in a Web document having a small character string as a whole.

・文字列の量の絶対値を用いて特徴量とする手法:
上記で述べた正規化を行い特徴量とする手法は、全体的に文字列の少ないWeb文書において有効であったが、正規化を行うことで、全体的に文字列の量が多く、主要コンテンツ部分のセグメント間の文字列の量の差が大きい場合に不都合が生じる。例えば、全てのセグメントにおいて最大の文字列の量が1000で、あるセグメント内の文字列の量が100だった場合、そのセグメントの文字列の量の特徴量は0.1になる。文字列の量としては多いはずだが、正規化を行うことで、このような弊害が生じる。そこで、文字列の絶対値を用いて特徴量とする手法を行う必要がある。具体的には、特徴量の正規化部134では、ある特定の値を超えた場合にその文字列の特徴量を1とする手法を用いる。例えば、あるセグメント内の文字列の量が100の場合、文字列の量が5以上の場合の特徴量が1となり、文字列の量が10以上の場合の特徴量が1となり,…,文字列の量が105以上の特徴量は0となり,…,文字列の量が200以上の特徴量は0となるように特徴量を作成する。このように、ある特定の文字列量を超えた場合に特徴量を1とする手法を用いることで、特徴量の最大値は1のままで文字列量の絶対値を特徴量とすることができる。また、例における文字列の量の絶対値の特徴量の間隔は5としたが、場合において適切な間隔を用いるのが好ましい。8,16,32,64といった2の乗数を用いて特徴量の間隔とする手法も考えられる。文字列の量がx以上の…の最大のxも同様に、場合において適切な値に変更する。主要コンテンツ判定における計算量を減らしたい場合にはxの値を小さくすればよい。
・ Method to make the feature value using the absolute value of the character string amount:
Although the above-described normalization and feature amount technique is effective for Web documents with a small number of character strings as a whole, normalization increases the amount of character strings as a whole, and the main content Inconvenience occurs when there is a large difference in the amount of character strings between partial segments. For example, when the maximum amount of character strings in all segments is 1000 and the amount of character strings in a certain segment is 100, the feature amount of the amount of character strings in that segment is 0.1. Although the amount of character strings should be large, such detriment is caused by normalization. Therefore, it is necessary to perform a technique for using the absolute value of the character string as a feature amount. Specifically, the feature quantity normalization unit 134 uses a technique in which the feature quantity of the character string is set to 1 when a certain value is exceeded. For example, when the amount of character strings in a segment is 100, the feature amount is 1 when the amount of character strings is 5 or more, the feature amount is 1 when the amount of character strings is 10 or more,. A feature quantity is created so that a feature quantity with a column quantity of 105 or more is 0,..., And a feature quantity with a string quantity of 200 or more is 0. In this way, by using a method of setting the feature amount to 1 when a certain character string amount is exceeded, the absolute value of the character string amount can be used as the feature amount while the maximum value of the feature amount remains 1. it can. In the example, the feature value interval of the absolute value of the character string amount is set to 5, but it is preferable to use an appropriate interval in some cases. A method of setting the interval between feature quantities using a multiplier of 2 such as 8, 16, 32, and 64 is also conceivable. Similarly, the maximum x of the character string amount x or more is changed to an appropriate value in some cases. In order to reduce the amount of calculation in main content determination, the value of x may be reduced.

また、セグメント内に文字列が全くない場合も考えられる。その場合は、以降で説明する特徴量を抽出するまでもなく、主要コンテンツ判定部14内のテキスト判定部142で主要コンテンツでないと判断できる。そのため、実際の実行時には以下の特徴量抽出は行わず、該当セグメントを非主要コンテンツとして判別する。この処理は、特徴量の学習を行う際には行わない。   A case where there is no character string in the segment is also conceivable. In this case, it is possible to determine that the content is not the main content by the text determination unit 142 in the main content determination unit 14 without extracting the feature amount described below. Therefore, at the time of actual execution, the following feature amount extraction is not performed, and the corresponding segment is determined as non-main content. This process is not performed when the feature amount is learned.

[1−4−1−2]句読点の数:
Web広告等のノイズとなりやすいセグメントは、文字列の量は多いが句読点の数が少ない傾向にある。そのため、句読点の数を特徴とする。具体的には、セグメント内の文字列に含まれる、『、』、『,』、『。』、『.』、『!』、『・』、『?』、『…』の数を特徴量としてカウントする。この特徴量も、文字列の量で述べた正規化による特徴量と、絶対値による特徴量の二通りを算出する。算出方法においては、[1−4−1−1]の文字列の量で述べた手法と同じものを用いる。
[1-4-1-2] Number of punctuation marks:
Segments that tend to be noisy, such as Web advertisements, tend to have a large amount of character strings but a small number of punctuation marks. Therefore, it is characterized by the number of punctuation marks. Specifically, “,”, “,”, “.” Included in the character string in the segment. ",". ","! , “・”, “? ] And "..." are counted as feature quantities. This feature amount is also calculated in two ways: a feature amount by normalization described in terms of the amount of character string and a feature amount by absolute value. In the calculation method, the same method as described in the character string quantity of [1-4-1-1] is used.

[1−4−2]タグ情報
ここでは、タグ情報特徴量抽出部132で扱うHTMLタグ等のタグ情報に関する特徴量について述べる。タグ情報には、
・テキスト系のHTMLタグの数;
・テキスト系のHTMLタグの連続出現数;
・リンクリストタグの数、Web文書で表示される文字列を含まない文字列の量;
がある。
[1-4-2] Tag Information Here, feature amounts related to tag information such as HTML tags handled by the tag information feature amount extraction unit 132 will be described. Tag information includes
・ Number of text-based HTML tags;
-Number of consecutive occurrences of text-based HTML tags;
The number of link list tags, the amount of character strings that do not include character strings displayed in the Web document;
There is.

[1−4−2−1]テキスト系のHTMLタグの数:
あるセグメント内において、Web文書で表示される文字列が多い場合、テキストに関するHTMLタグが多く含まれる。また、ブログ等のCGM(Consumer Generated Media)においては、Web文書で表示される文字列は少ないが、ユーザが改行タグを多用する事例が多くみられる。そこで、タグ情報特徴量抽出部132は、テキストに関するHTMLタグの数を特徴量として用いる。この特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のHTMLタグの量が10で、あるセグメント内のHTMLタグの量が5だった場合には、そのセグメントのHTMLタグの量の特徴量は0.5となる。そして、実際に使用するテキスト系のHTMLタグは、以下のタグを対象とする。
[1-4-2-1] Number of text-type HTML tags:
When there are many character strings displayed in a Web document within a certain segment, many HTML tags relating to text are included. In CGM (Consumer Generated Media) such as blogs, there are few character strings displayed in Web documents, but there are many cases where users frequently use line feed tags. Therefore, the tag information feature amount extraction unit 132 uses the number of HTML tags related to the text as the feature amount. This feature amount is also normalized in the same manner as the feature amount used in the character string displayed in the Web document, and is stored as a final feature amount in a memory (not shown). For example, if the maximum HTML tag amount in all segments is 10 and the HTML tag amount in a segment is 5, the feature amount of the HTML tag amount in that segment is 0.5. The text-type HTML tags that are actually used target the following tags.

・ <p>
・ </p>
・ <br>
・ </br>
・ <font>
・ </font>
タグ内にsize属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う(例:<font size="+1">)。
・ <P>
・ </ P>
・ <br>
・ </br>
・ <Font>
・ </ Font>
Since the size attribute and class attribute may exist in the tag, in that case, count using a regular expression that takes into account the tag including them (example: <font size = "+ 1">) .

[1−4−2−2]テキスト系のHTMLタグの連続出現数:
Web文書で表示される文字列が集中して記述してあるセグメントは、テキスト系のタグが多く存在すると同時に、テキスト系のHTMLタグが連続して出現する。ここでいう、連続して出現するというのは、他のアンカーリンク等のHTMLタグが間に出現しないということである。そこで、[1−4−2−1]で述べたテキスト系のHTMLタグの連続出現数を特徴量とする。この特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のHTMLタグの連続量が10で、あるセグメント内のHTMLタグの連続量が5だった場合には、そのセグメントの文字列の量の特徴量は0.5となる。
[1-4-2-2] Number of consecutive occurrences of text-type HTML tags:
In a segment in which character strings displayed in a Web document are concentratedly described, there are many text-based tags, and at the same time, text-based HTML tags appear continuously. Here, appearing continuously means that HTML tags such as other anchor links do not appear in between. Therefore, the number of consecutive appearances of the text type HTML tag described in [1-4-2-1] is used as the feature amount. This feature amount is also normalized in the same manner as the feature amount used in the character string displayed in the Web document, and is stored as a final feature amount in a memory (not shown). For example, when the continuous amount of the maximum HTML tag in all segments is 10, and the continuous amount of HTML tags in a segment is 5, the feature amount of the character string amount of that segment is 0.5. .

[1−4−2−3]リンクリストタグの数:
あるセグメント内においてリンクリストタグが多い場合、そのセグメントにはナビゲーションリンク等の多くのアンカーリンクが存在し、そのセグメントは主要コンテンツとならない可能性が高い。そこで、リンクリストタグの数を特徴量とする。この特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のリンクリストタグの量が10で、あるセグメント内のリンクリストタグの量が5だった場合には、そのセグメントのリンクリストタグの量の特徴量は、0.5となる。そして、具体的に使用するリンクリストタグは、以下のタグを対象とする。
[1-4-2-3] Number of link list tags:
When there are many link list tags in a segment, there are many anchor links such as navigation links in the segment, and there is a high possibility that the segment will not become main content. Therefore, the number of link list tags is used as a feature amount. This feature amount is also normalized in the same manner as the feature amount used in the character string displayed in the Web document, and is stored as a final feature amount in a memory (not shown). For example, if the maximum link list tag amount in all segments is 10 and the link list tag amount in a segment is 5, the feature amount of the link list tag amount in that segment is 0.5. It becomes. And the link list tag to be specifically used targets the following tags.

・ <li>
・ <ul>
・ <dl>
・ <dd>
・ <ol>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う(例:<font class="hoge")。
・ <Li>
・ <Ul>
・ <Dl>
・ <Dd>
・ <Ol>
Since there may be a case where an alt attribute or a class attribute exists in the tag, in that case, counting is performed using a regular expression that considers the tag including those (for example, <font class = "hoge").

[1−4−2−4]Web文書で表示される文字列を含まない文字列(HTMLタグを含む)の量:
あるセグメント内において、Webで表示されない文字列(HTMLタグを含む)が多い場合、そのセグメントは広告等の主要コンテンツでない可能性が高い。そこで、Web文書で表示される文字列以外の文字列(HTMLタグを含む)量を特徴量とする。この特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のWebで表示されない文字列の量が100で、あるセグメント内のWebで表示されない文字列の量が50だった場合には、そのセグメントのWebで表示されない文字列の量の特徴量は0.5となる。
[1-4-2-4] Amount of character strings (including HTML tags) that do not include character strings displayed in the Web document:
If there are many character strings (including HTML tags) that are not displayed on the Web in a certain segment, there is a high possibility that the segment is not the main content such as an advertisement. Therefore, the amount of character strings (including HTML tags) other than the character strings displayed on the Web document is used as the feature amount. This feature amount is also normalized in the same manner as the feature amount used in the character string displayed in the Web document, and is stored as a final feature amount in a memory (not shown). For example, if the amount of character strings that are not displayed on the maximum Web in all segments is 100 and the amount of character strings that are not displayed on the Web in a segment is 50, the character strings that are not displayed on the Web of the segment The feature amount of the quantity is 0.5.

[1−4−3]アンカーリンク情報:
以下では、特徴量抽出部13のアンカーリンク情報特徴量抽出部131で扱うアンカーリンクに関する特徴量の抽出方法について述べる。アンカーリンク情報には、
・アンカーリンクの数;
・各アンカーリンクの文字列の平均量;
・すべてのアンカーリンク文字列の合計値;
・最大文字列のアンカーリンクURLの量;
・広告に関するアンカーリンクを含むか;
がある。
[1-4-3] Anchor link information:
In the following, a method for extracting feature values related to anchor links handled by the anchor link information feature value extraction unit 131 of the feature value extraction unit 13 will be described. Anchor link information includes
・ Number of anchor links;
-Average amount of text for each anchor link;
-Total value of all anchor link strings;
The amount of anchor link URL of the maximum character string;
• include anchor links for advertisements;
There is.

[1−4−3−1]アンカーリンクの数:
あるセグメントにおいて、アンカーリンクの数が多数含まれているセグメントは主要コンテンツでない可能性が高い。そこで、アンカーリンクの数を特徴量として用いる。具体的には、<a href=…>…</a>タグで表されるアンカーリンクの数を特徴量とする。この特徴量も、特徴量の正規化部134において、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のアンカーリンクの数が10で、あるセグメント内のアンカーリンクの数が5だった場合には、そのセグメントのアンカーリンクの数の特徴量は0.5となる。アンカーリンクタグには、class属性やalt属性が含まれる場合もあるので、アンカーリンクタグの数は正規表現を用いてカウントする。
[1-4-3-1] Number of anchor links:
In a certain segment, a segment containing a large number of anchor links is likely not to be main content. Therefore, the number of anchor links is used as a feature amount. Specifically, the number of anchor links represented by <a href=...> ... </a> tags is used as the feature amount. This feature quantity is also normalized by the feature quantity normalization unit 134 in the same manner as the feature quantity used in the character string displayed in the Web document, and is stored as a final feature quantity in a memory (not shown). To do. For example, if the maximum number of anchor links in all segments is 10, and the number of anchor links in a certain segment is 5, the feature quantity of the number of anchor links in that segment is 0.5. Since the anchor link tag may include a class attribute and an alt attribute, the number of anchor link tags is counted using a regular expression.

[1−4−3−2]各アンカーリンクの文字列の平均量:
各アンカーリンクの文字列が平均して多い場合、そのセグメントは、関連記事等のナビゲーションリンクである可能性が高い。また、アンカーリンクの文字列が平均して少ない場合、主要コンテンツ内に含まれるキーワード検索リンクである可能性が高い。そこで、セグメントに含まれるアンカーリンクの文字列の平均量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'>○○○</a>の○○○の部分に該当する。この特徴量も特徴量の正規化部134においてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。
[1-4-3-2] Average amount of character string of each anchor link:
When the character string of each anchor link is large on average, the segment is likely to be a navigation link such as a related article. Also, if the average number of anchor link character strings is small, there is a high possibility that the keyword search link is included in the main content. Therefore, the average amount of anchor link character strings included in the segment is used as the feature amount. The character string of the anchor link corresponds to the XXX part of <a href='...'> XXXXX </a>. The feature amount normalization unit 134 similarly normalizes the feature amount used in the character string displayed in the Web document, and stores it in a memory (not shown) as a final feature amount.

[1−4−3−3]すべてのアンカーリンク文字列の合計値:
セグメント内に含まれるアンカーリンクの文字列の合計量が多い場合、そのセグメントはナビゲーションリンクである可能性が高い。そこで、セグメント内に含まれるアンカーリンクの文字列の合計量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'○○○</a>の○○○の部分に該当する。この特徴量も特徴量の正規化部134でWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。
[1-4-3-3] Total value of all anchor link character strings:
When the total amount of anchor link character strings included in a segment is large, there is a high possibility that the segment is a navigation link. Therefore, the total amount of anchor link character strings included in the segment is used as the feature amount. The character string of the anchor link corresponds to the xxx part of <a href='...'xxx </a>. The feature amount normalization unit 134 similarly normalizes the feature amount used in the character string displayed in the Web document, and stores it in a memory (not shown) as a final feature amount.

[1−4−3−4]最大文字列のアンカーリンクURLの量:
アンカーリンク先のURL文字列が非常に長い場合、そのセグメントは広告である可能性が高い。そこで、セグメント内で最大長のアンカーリンク先のURLの文字列を特徴量として用いる。ここで述べるアンカーリンク先のURL文字列とは、<a href='△△△'…>…</a>の△△△の部分に該当する。この特徴量も特徴量の正規化部134でWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。
[1-4-3-4] Amount of anchor link URL of maximum character string:
If the URL character string of the anchor link destination is very long, the segment is likely to be an advertisement. Therefore, the character string of the URL with the longest anchor link destination in the segment is used as the feature amount. The URL character string of the anchor link destination described here corresponds to the portion of ΔΔΔ in <a href='ΔΔΔ'...></a>. The feature amount normalization unit 134 similarly normalizes the feature amount used in the character string displayed in the Web document, and stores it in a memory (not shown) as a final feature amount.

[1−4−3−5]広告に関するアンカーリンクを含むか:
広告に関するURLを含むアンカーリンクは特徴的な文字列を含む可能性が高い。例えば、「adclick」、「adnet」、「banner」等がそれにあたる。そこで、アンカーリンク情報特徴量抽出部131では、このような広告となりやすい文字列を含んだURLを含むアンカーリンクが存在する場合、特徴量を1とし、存在しない場合を0とする特徴量を抽出し、メモリ(図示せず)に格納する。広告になりやすい文字列は、広告除去用のFirefox用アドインであるadblock plugin等のサイトに記載されているため、それを用いる。
[1-4-3-5] Whether to include an anchor link related to the advertisement:
An anchor link including a URL related to an advertisement is likely to include a characteristic character string. For example, “adclick”, “adnet”, “banner”, and the like. Therefore, the anchor link information feature quantity extraction unit 131 extracts a feature quantity with a feature quantity of 1 when there is an anchor link including a URL including a character string that is likely to be an advertisement, and 0 when there is no such link. And stored in a memory (not shown). Character strings that are likely to become advertisements are listed on sites such as adblock plugin, which is an add-in for Firefox for removing advertisements, and so are used.

[1−4−4]特徴量の比率:
ここでは、特徴量の比率特徴量抽出部135で扱う、[1−4−1]〜[1−4−3]で述べた特徴間の比率を用いた特徴量について述べる。
[1-4-4] Feature quantity ratio:
Here, the feature amount using the ratio between features described in [1-4-1] to [1-4-3] handled by the ratio feature amount extraction unit 135 will be described.

[1−4−4−1]テキスト系のタグ数とテキスト系のタグの連続出現数の比率:
テキスト系のタグが多数あり、またテキスト系のタグの連続出現数が多いセグメントは、テキストが密に書かれているため、主要コンテンツである可能性が高い。しかしながら、テキスト系のタグは多数あるが、テキスト系のタグの連続出現数が少ないセグメントは、セグメントのサイズが大きいだけで、主要コンテンツでない可能性が高いといえる。そこで、特徴量の比率特徴量抽出部135では、テキスト系のタグ数とテキスト系のタグの連続出現数の比率を特徴量として用いる。具体的には、テキスト系のタグ数を分母とし、テキスト系のタグの連続出現数を分子とした値を特徴量として用いる。ここで、テキスト系のタグ数が0の場合は、分母が0となってしまうため、この場合のテキスト系のタグ数とテキスト系のタグの連続出現数の比率の特徴量は0とする。本特徴量も特徴量の正規化部134においてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。この特徴量が大きければ大きいほど主要コンテンツである可能性が高い。
[1-4-4-1] Ratio of the number of text-type tags and the number of consecutive appearances of text-type tags:
A segment having a large number of text-type tags and a large number of consecutive appearances of text-type tags is likely to be the main content because the text is densely written. However, although there are a large number of text-type tags, a segment with a small number of consecutive occurrences of text-type tags can be said to have a high possibility that it is not the main content because the segment size is large. Therefore, the feature amount ratio feature amount extraction unit 135 uses the ratio of the number of text tags and the number of consecutive appearances of text tags as a feature amount. Specifically, a value having the number of text tags as a denominator and the number of consecutive text tags as a numerator is used as a feature amount. Here, when the number of text tags is 0, the denominator is 0. In this case, the feature amount of the ratio between the number of text tags and the number of consecutive appearances of text tags is 0. This feature amount is also normalized by the feature amount normalization unit 134 in the same manner as the feature amount used in the character string displayed in the Web document, and is stored as a final feature amount in a memory (not shown). The larger the feature amount, the higher the possibility that it is the main content.

[1−4−4−2]Webで表示される文字列とタグの比率:
あるセグメント内において、Webで表示される文字列が多い場合は、主要コンテンツとなる可能性が高いが、同じセグメント内において、HTMLタグ等のタグが多い場合もある。この場合、前述の[1−4−4−1]で述べたようにセグメントのサイズが大きいだけで主要コンテンツでない可能性がある。そこで、特徴量の比率特徴量抽出部135では、Webで表示される文字列とタグの比率を特徴量として用いることでこの場合に対処する。具体的には、Webで表示される文字列の数を分子とし、タグの数を分母とした値を特徴量とする。この特徴量が大きければ大きいほど、主要コンンテンツである可能性が高い。本特徴量も、特徴量の正規化部134において、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。タグの数が0の場合は分母が0となってしまうため、特徴量は1とする。
[1-4-4-2] Ratio of character string and tag displayed on Web:
If there are many character strings displayed on the Web in a certain segment, there is a high possibility that it will be the main content, but there may be many tags such as HTML tags in the same segment. In this case, as described in [1-4-4-1] above, there is a possibility that the segment is not the main content only with a large segment size. Therefore, the feature amount ratio feature amount extraction unit 135 copes with this case by using the character string / tag ratio displayed on the Web as the feature amount. Specifically, a value having the number of character strings displayed on the Web as a numerator and the number of tags as a denominator is defined as a feature amount. The greater this feature, the more likely it is the main content. This feature quantity is also normalized by the feature quantity normalization unit 134 in the same manner as the feature quantity used in the character string displayed in the Web document, and is stored as a final feature quantity in a memory (not shown). To do. Since the denominator is 0 when the number of tags is 0, the feature amount is 1.

[1−4−4−3]アンカーリンクの数とリンクリストタグの数の比率:
あるセグメント内において、アンカーリンクの数や、リンクリストタグの数が多ければ多いほど、そのセグメントは主要コンテンツでない可能性が高いが、セグメントが広いためにこれらの特徴量が偶然高くなってしまう場合も考えられる。そこで、特徴量の比率特徴量抽出部135では、アンカーリンクの数とリンクリストタグの数の比率を特徴量として用いる。具体的にはアンカーリンクの数を分母とし、リンクリストタグの数を分子とし、特徴量とする。この特徴量が大きければ大きいほど、セグメントの面積に対し密度の高いリンク数が存在することになり、主要コンテンツでない可能性が高い。本特徴量も、特徴量の正規化部134で、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。アンカーリンクの数が0の場合は分母が0となってしまうため、特徴量は0とする。
[1-4-4-3] Ratio of the number of anchor links to the number of link list tags:
Within a certain segment, the more anchor links or link list tags, the more likely that segment is not the main content, but because these segments are large, these feature quantities will increase by chance. Is also possible. Therefore, the feature quantity ratio feature quantity extraction unit 135 uses the ratio of the number of anchor links and the number of link list tags as the feature quantity. Specifically, the number of anchor links is used as the denominator, and the number of link list tags is used as the numerator, which is the feature amount. The larger the feature amount, the higher the number of links with respect to the area of the segment, and the higher the possibility that it is not the main content. This feature amount is also normalized by the feature amount normalization unit 134 in the same manner as the feature amount used in the character string displayed in the Web document, and is stored as a final feature amount in a memory (not shown). To do. When the number of anchor links is 0, the denominator is 0, so the feature amount is 0.

[1−5]主要コンテンツの判定:
ここで、主要コンテンツの判定部14が、特徴量抽出部13で求められ、メモリ(図示せず)に格納されている[1−4]で述べた特徴量を用いて、主要コンテンツか否かの判定を用いて行う手法について述べる。判定には、Support Vector Machine(SVM)や最大エントロピー法、ナイーブベイズ法等の機械学習アルゴリズムを用いて判定を行う。
[1-5] Determination of main content:
Here, the main content determination unit 14 determines whether the content is the main content by using the feature amount described in [1-4] obtained by the feature amount extraction unit 13 and stored in a memory (not shown). A method to be performed using the above determination will be described. The determination is performed using a machine learning algorithm such as Support Vector Machine (SVM), maximum entropy method, naive Bayes method or the like.

図11は、本発明の一実施の形態における特徴量のパラメータ推定方法のフローチャートである。最初に、人手で主要コンテンツか否かを特徴量を抽出したセグメント毎に判定し、訓練データを作成する(ステップ301〜303)。ここで、[1−4−1−1]で、Webで表示される文字列が存在しない場合は主要コンテンツと見做さないと記述したが、機械学習を用いた手法において負例として学習に有効であるため、訓練データにはそのようなデータも採用する。そして、そのセグメントの特徴量を用いて学習を行い(ステップ304)、特徴量毎の重みを算出する(ステップ305)。速度を重視する場合は、最大エントロピー法で学習し、精度を重視する場合には、二次の多項式カーネルを用いたSupport Vector Machineを用いて学習を行う。そしてこれらの学習したパラメータを用いて、特徴量入力部141がセグメントの特徴量を主要コンテンツ判定部143に入力し、主要コンテンツ判定部143がセグメント毎に主要コンテンツか否かを判定する。   FIG. 11 is a flowchart of the feature quantity parameter estimation method according to the embodiment of the present invention. First, it is determined for each segment from which the feature amount is extracted whether it is the main content manually, and training data is created (steps 301 to 303). Here, in [1-4-1-1], it is described that if there is no character string displayed on the Web, it is not regarded as a main content. However, in the method using machine learning, learning is performed as a negative example. Since it is effective, such data is also adopted as training data. Then, learning is performed using the feature amount of the segment (step 304), and a weight for each feature amount is calculated (step 305). When speed is important, learning is performed by the maximum entropy method, and when accuracy is important, learning is performed using a Support Vector Machine using a second-order polynomial kernel. Then, using these learned parameters, the feature amount input unit 141 inputs the segment feature amount to the main content determination unit 143, and the main content determination unit 143 determines whether or not each segment is the main content.

[1−6]主要コンテンツ部分の出力:
上記の[1−5]で説明した主要コンテンツ判定部14が主要コンテンツか否かの判定を行った後、主要コンテンツ出力部15のデータ出力部153は、学習器によって主要コンテンツと判断されたセグメントのみを、結合して最終出力とする。出力の例を図12、図13に示す。
[1-6] Output of main content part:
After determining whether or not the main content determination unit 14 described in [1-5] is the main content, the data output unit 153 of the main content output unit 15 determines the segment determined as the main content by the learning device. Are combined into the final output. Examples of output are shown in FIGS.

ここで、情報検索の事前処理として本装置を用いたい場合には、タグ付きテキスト出力部151を用いてHTMLタグ等のタグを残して出力する。また、情報推薦等でWeb文書の内容を解析したい場合には、タグなしテキスト出力部152を用いてHTMLタグ等のタグを削除して出力する。   Here, when it is desired to use this apparatus as pre-processing for information retrieval, the tag-attached text output unit 151 is used to leave and output tags such as HTML tags. Further, when it is desired to analyze the contents of a Web document by information recommendation or the like, tags such as HTML tags are deleted and output using the untagged text output unit 152.

[1−7]精度向上のための処理:
[1−4]で述べた特徴量を抽出する事前処理として、不要文字列等を除去する手法が有効である。以下に記述する不要文字列を事前に除去しておくことで、主要コンテンツの判定精度を高める。
[1-7] Processing for improving accuracy:
As a pre-process for extracting the feature value described in [1-4], a technique of removing unnecessary character strings and the like is effective. By removing unnecessary character strings described below in advance, the determination accuracy of main contents is improved.

・&nbsp;
・&lt;
・&gt;
・&amp;
・&laquo;
・&raquo;
これらの文字列は、HTMLタグ等で用いる記号をWebブラウザ上で表示する際に用いる特殊文字である。また、上記で挙げた特殊文字以外のHTML特殊文字も削除の対象とする。特殊文字は実際表示される文字列に対して、文字列の量が少ないため、学習の際のノイズとなりやすい。
・ &Nbsp;
・ &Lt;
・ &Gt;
・ &Amp;
・ &Laquo;
・ &Raquo;
These character strings are special characters used when symbols used in HTML tags or the like are displayed on the Web browser. In addition, HTML special characters other than the special characters listed above are also subject to deletion. Special characters tend to cause noise during learning because the amount of character strings is smaller than the actual displayed character strings.

[1−8]実装理由による特徴量の選択:
主要コンテンツ抽出手法をユーザPC等に組み込む場合、[1−4]で述べた全ての特徴量を用いて処理することは処理量的に難しい。そのため、抽出する特徴量を絞り込むことで処理量を削減する。ここで、機械学習による学習モデルは、絞り込んだ特徴量モデル毎に学習モデルを作成する。
[1-8] Selection of feature value for implementation reason:
When the main content extraction method is incorporated in a user PC or the like, it is difficult in terms of processing amount to perform processing using all the feature amounts described in [1-4]. Therefore, the processing amount is reduced by narrowing down the feature amount to be extracted. Here, the learning model by machine learning creates a learning model for each narrowed-down feature quantity model.

[2]キーワード候補の抽出処理(ステップ300):
以下では、重要キーワード候補抽出部2について説明する。
[2] Keyword candidate extraction process (step 300):
Below, the important keyword candidate extraction part 2 is demonstrated.

従来の一般的なキーワード抽出手法は形態素解析や固有表現抽出を用いた手法であったが、形態素解析手法では、複合名詞の抽出に関する問題や重要キーワードの絞込みに関しての問題があり、また、固有表現抽出においては、人名、組織名、地名といった狭い範囲のキーワード抽出しかできないため、ユーザの興味を網羅するキーワード候補の抽出ができなかった。そこで、本発明では、ユーザ参加型オンライン百科事典であるWikipedia(登録商標)の見出し語をキーワード候補として用いることで、これらの解決を試みた。Wikipedia(登録商標)の見出し語のため、体系的にまとめられており、かつ実世界の事象を一意に表す特徴を持つため、ユーザの興味対象を幅広く網羅した言語資源であるといえる。また、Wikipedia(登録商標)に記載されているキーワードは、重要で、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードのみが登録されているため、重要なキーワードの絞込みが可能となる。具体的なキーワード抽出手法は、Wikipedia(登録商標)の見出し語を形態素解析用の辞書としてキーワード辞書101に登録し、そのキーワード辞書101を用いた形態素解析結果からキーワードを抽出する。なお、キーワード辞書101に登録する際、最も長いキーワードを抽出するよう辞書の重み付けを行う。   Conventional general keyword extraction methods used morpheme analysis and specific expression extraction. However, morpheme analysis methods have problems related to compound noun extraction and important keyword narrowing down. In the extraction, since only a narrow range of keywords such as a person name, an organization name, and a place name can be extracted, keyword candidates that cover the user's interests cannot be extracted. Therefore, the present invention attempts to solve these problems by using, as keyword candidates, headwords of Wikipedia (registered trademark), which is a user-participation-type online encyclopedia. Since it is a headword of Wikipedia (registered trademark), it is organized systematically and has features that uniquely represent real-world events, so it can be said to be a language resource that covers a wide range of interests of users. In addition, the keywords listed in Wikipedia (registered trademark) are important, and since only keywords with abundant information on various topics are registered when talking about keywords, it is possible to narrow down important keywords. Become. As a specific keyword extraction method, a Wikipedia (registered trademark) entry word is registered in the keyword dictionary 101 as a dictionary for morphological analysis, and a keyword is extracted from a morphological analysis result using the keyword dictionary 101. When registering in the keyword dictionary 101, the dictionary is weighted so as to extract the longest keyword.

[3]キーワードの重要度算出処理(ステップ400):
前述の[2]では、Wikipedia(登録商標)の見出し語を用いて重要だと思われるキーワード候補の絞込みを実現したが、[3]では、出現頻度算出部3、キーワード重要度算出部4により、その中からさらに重要なキーワードを上位に位置づけるために、キーワードの重要度を算出する手法について述べる。
[3] Keyword importance calculation processing (step 400):
In [2] above, keyword candidates that are considered important are narrowed down using Wikipedia (registered trademark) headwords. In [3], the appearance frequency calculation unit 3 and the keyword importance calculation unit 4 A method for calculating the importance level of a keyword in order to position a more important keyword in the higher rank will be described.

[3−1]WebIDF:
検索エンジンが収集した大規模なWeb文書集合における出現確率を考慮した重みがWebIDFであり、WebIDF記憶部102に格納されているものとする。具体的には、出現頻度算出部3は、検索エンジンにキーワードを入力し、その結果得られたWeb文書のヒット数からIDF値を算出し、これをWebIDFとする。Web文書集合中で多数出現するキーワードは、一般的なキーワードで特徴的なキーワードではないと判断する重みである。以下に、キーワードkのWebIDF算出式を示す。
[3-1] WebIDF:
It is assumed that the weight considering the appearance probability in a large-scale Web document collection collected by the search engine is WebIDF and stored in the WebIDF storage unit 102. Specifically, the appearance frequency calculation unit 3 inputs a keyword into the search engine, calculates an IDF value from the number of hits of the Web document obtained as a result, and sets this as WebIDF. Many keywords appearing in the Web document set are weights for determining that they are general keywords and not characteristic keywords. The WebIDF calculation formula for keyword k is shown below.

Figure 2010204866
ここで、Nはキーワードの閾値で、nはキーワードkのヒット数である。ここでキーワードkの検索エンジンのヒット数の閾値Nは、nを降順にソートし、不必要なキーワードが少なくなってきた辺りのnの値を用いる。その理由として、nが高ければ高いほど一般的なキーワードである可能性が高く、また、閾値Nを設定すると閾値N以上のnを持つキーワードkのWebIDF値は常に負となり、常にスコアとして低い値となるためである。なお、Nの推奨値は20000000である。
Figure 2010204866
Here, N is a threshold value of the keyword, and nk is the number of hits of the keyword k. Here, for the threshold value N of the number of hits of the search engine for the keyword k, nk is sorted in descending order, and the value of nk around which unnecessary keywords are reduced is used. The reason is that the higher the n k high general be a keyword, also, WebIDF value of the keyword k with the threshold value N or more n k Setting the threshold N is always negative, as always score It is because it becomes a low value. The recommended value for N is 20000000.

[3−2]BM25:
ここでは、キーワード重要度算出部4による文書内の出現頻度と文書集合内での出現分布を用いたキーワード重み付けの手法について述べる。これらの重み付けには既存の技術であるBM25を用いる。
[3-2] BM25:
Here, a keyword weighting method using the appearance frequency in the document and the appearance distribution in the document set by the keyword importance calculation unit 4 will be described. BM25 which is the existing technique is used for these weights.

Figure 2010204866
ここで、dは文書であり、kは文書に含まれるキーワードである。そして、tf(d,k)はd内のキーワードkの出現頻度、dlは文書長、avdlは文書集合内における平均文書長、Nは総文書数である。kとbは自由パラメータで、kはtf(d,k)に関するパラメータ、bはdlに関するパラメータである。
Figure 2010204866
Here, d is a document and k is a keyword included in the document. Tf (d, k) is the appearance frequency of the keyword k in d, dl is the document length, avdl is the average document length in the document set, and N is the total number of documents. k 1 and b are free parameters, k 1 is a parameter related to tf (d, k), and b is a parameter related to dl.

また、文書集合を用意できなく、文書1枚からキーワードを抽出したい場合には、以下の算出式を用いる。   If a document set cannot be prepared and keywords are to be extracted from one document, the following calculation formula is used.

Figure 2010204866
なお、式に関するノーテーションは(2)式と同様である。
Figure 2010204866
Note that the notation related to the equation is the same as that in the equation (2).

[3−3]タイトルと本文のキーワード重要度の算出:
上記の[3−2]では、出現頻度算出部3によるBM25を用いた出現頻度による重み付け手法を述べた。本節では、キーワード重要度算出部4での文書のタイトル中での出現頻度と、本文中での出現頻度を用いたキーワード重要度の算出手法について述べる。
[3-3] Calculation of Keyword Importance of Title and Body:
In [3-2] above, the weighting method based on the appearance frequency using the BM25 by the appearance frequency calculation unit 3 is described. In this section, the keyword importance calculation unit 4 describes the calculation method of the keyword importance using the appearance frequency in the title of the document and the appearance frequency in the text.

具体的には、キーワード重要度算出部4は、文書のタイトル(もしくはファイル名)から算出したBM25の値と、本文から算出したBM25の値の線形和を用いてスコアを算出する。以下に算出式を示す。   Specifically, the keyword importance calculation unit 4 calculates a score using a linear sum of the BM25 value calculated from the document title (or file name) and the BM25 value calculated from the text. The calculation formula is shown below.

Figure 2010204866
ここで、BM25allはタイトルと本文の出現頻度を用いたBM25スコアで、BM25titleはタイトルでの出現頻度を用いたBM25スコア、BM25bodyは本文でのBM25スコアとなる。αはパラメータである。αの推奨値は0.7とする。
Figure 2010204866
Here, BM25 all in the BM25 score using the frequency of occurrence of title and body, BM25 title is BM25 score using the frequency of occurrence of the title, BM25 body is the BM25 score in the text. α is a parameter. The recommended value for α is 0.7.

[3−4]形態素の固有名詞を用いたキーワード重要度算出:
一般的なニュース記事内において、人名や組織名等の固有名詞は最初に正式名称で記述された後に、省略形で記述される場合が多い。例えば、「麻生次郎」と最初に書かれた後に「麻生」と書かれる場合がそれに該当する。省略形で記述された場合、記事の主題に関するキーワードでも他の重要でないキーワードより出現回数が少ない場合が生じる問題があった。そこで、形態素解析結果を用いて簡易的に省略形に対応する方法を提案する。一般的な形態素解析器は、品詞として、人名(姓、名)、地名、組織名の出力が可能である。そのため、形態素解析結果から得られた形態素の固有名詞を含むキーワード候補の出現頻度を、その形態素の出現頻度と置き換えることで、この問題に対処する。例えば、「麻生次郎」と言うキーワードが1回出現し、「麻生」という形態素の固有名詞が3回出てきた場合、「麻生次郎」の出現頻度を3回とする。
[3-4] Keyword importance calculation using proper nouns of morphemes:
In general news articles, proper nouns such as personal names and organization names are often described in abbreviated form after first being described in formal names. For example, the case where “Aso” is written after “Jiro Aso” is first written is applicable. When it is described in abbreviated form, there is a problem that a keyword related to the subject of an article may appear less frequently than other unimportant keywords. Therefore, we propose a simple method for dealing with abbreviations using morphological analysis results. A general morphological analyzer can output a personal name (last name, first name), a place name, and an organization name as parts of speech. Therefore, this problem is addressed by replacing the appearance frequency of the keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result with the appearance frequency of the morpheme. For example, when the keyword “Jiro Aso” appears once and the proper noun of the morpheme “Asou” appears three times, the frequency of “Jiro Aso” appears three times.

逆に、地名等は省略されずに記述されるため、キーワードの出現回数が大きくなりすぎてしまう問題がある。そのため、形態素解析結果から得られた地名の名詞の出現回数を提案する。以下に、キーワード重要度算出部4で用いる、上記で述べた手法の算出式を示す。   On the contrary, since the place name is described without being omitted, there is a problem that the number of appearances of the keyword becomes too large. Therefore, we propose the number of appearances of place names nouns obtained from morphological analysis results. The calculation formulas of the method described above used in the keyword importance calculation unit 4 are shown below.

tf(d,k)=αperson・match(d,k,mk)
tf(d,k)=αlocation・match(d,k,mk) (5)
tf(d,k)=αorganization・match(d,k,mk)
ここで、tf(d,k)は文書dにおける出現頻度によるキーワードkのスコア、αperson、αlocation、αorganizationはそれぞれ、人名、地名、組織名に関する係数である。そして、match(d,k,mk)は文書dにおけるキーワードkに含まれる形態素mkの出現頻度である。上記の式(5)で算出したtf(d,k)は、[3−2],[3−3]で述べた出現頻度を用いたキーワード重要度の算出式で用いる。
tf (d, k) = α person・ match (d, k, m k )
tf (d, k) = α location · match (d, k, m k) (5)
tf (d, k) = α organization・ match (d, k, m k )
Here, tf (d, k) is a score of the keyword k based on the appearance frequency in the document d, and α person , α location , and α organization are coefficients relating to the person name, place name, and organization name, respectively. Match (d, k, m k ) is an appearance frequency of the morpheme m k included in the keyword k in the document d. The tf (d, k) calculated by the above formula (5) is used in the keyword importance calculation formula using the appearance frequency described in [3-2] and [3-3].

[3−5]キーワードの重要性の算出(キーワード固有重要度):
本節では、キーワード重要度算出部4でのキーワードの重要性の算出について述べる。キーワードの重要性とは、知名度や話題性の高い、キーワードについて語る際に様々な話題が挙がる情報量が豊富な(内容の深い)キーワード程重要であると定義し、このキーワードの重要度をキーワード固有重要度と呼ぶ。当該キーワード重要度算出部4で算出されたキーワード固有重要度は固有重要度記憶部105に格納する。
[3-5] Keyword Importance Calculation (Keyword Specific Importance):
In this section, the keyword importance calculation unit 4 calculates the importance of the keyword. The importance of a keyword is defined as the more important (the deeper content) the keyword is, which has a high degree of name recognition and high topicality and has various topics when talking about the keyword. The importance of this keyword is defined as the keyword Called inherent importance. The keyword unique importance calculated by the keyword importance calculation unit 4 is stored in the unique importance storage unit 105.

[3−5−1]Wikipedia(登録商標)内のリンク構造を用いた手法:
以下では、キーワード重要度算出部4において、Wikipedia(登録商標)内のリンク構造を用いてキーワード固有重要度を算出する手法について説明する。
[3-5-1] Method using link structure in Wikipedia (registered trademark):
Below, the keyword importance calculation part 4 demonstrates the method of calculating keyword specific importance using the link structure in Wikipedia (trademark).

HITSやPageRankといった一般的なWeb文書のランキング手法は、Webページのリンク構造を用いて、Web文書のランキングを行っている。しかしながら、Wikipedia(登録商標)の文書には、1つの文書に付き1つの見出し語(キーワード)がついているため、Wikipedia(登録商標)のリンク構造から得られた文書のランキングをキーワードのランキングと見做すことができる。そのため、本装置では、キーワード重要算出部4において、Wikipedia(登録商標)に特化したランキング手法を適用することで、キーワード重要度1記憶部103に格納されているキーワード重要度を用いてキーワード固有重要度を算出し、固有重要度記憶部105に格納する。ベースとなるアルゴリズムには、HITSアルゴリズムを用いる。   In general Web document ranking methods such as HITS and PageRank, Web document ranking is performed using the link structure of Web pages. However, since a Wikipedia (registered trademark) document has one headword (keyword) per document, the document ranking obtained from the Wikipedia (registered trademark) link structure is regarded as a keyword ranking. Can be tricked. Therefore, in this apparatus, the keyword importance calculation unit 4 applies a ranking method specialized for Wikipedia (registered trademark), thereby using the keyword importance stored in the keyword importance 1 storage unit 103 to identify the keyword. The importance is calculated and stored in the unique importance storage unit 105. The HITS algorithm is used as the base algorithm.

HITSアルゴリズムには、全てのWeb文書をauthority(コンテンツ)とhub(リンク集)の2つから構成されると定義する。そして、良いhubから多数リンクされるauthority程良いauthorityであるという仮説と、良いauthorityに多数リンクしているhub程良いhubであると言う二つの仮説を繰り返し実行することでWeb文書のランキングを行う。しかしながら、HITSアルゴリズムはWeb世界におけるWeb文書のリンク構造をモデルにしたアルゴリズムのため、リンク構造が非常に密なWikipedia(登録商標)にそのまま適用した場合、やや難がある。そこで、本装置では、Wikipedia(登録商標)の特徴的な構造と密なリンク構造に対応させた手法を提案する。そして、本アルゴリズムから算出したauthorityの値による順位を、本手法が提案する減衰関数に近似させ、最終的なキーワード固有重要度とする。   In the HITS algorithm, it is defined that all Web documents are composed of authority (content) and hub (link collection). And ranking web documents by repeatedly executing the hypothesis that the authority linked to many good hubs is the better authority, and the two hypotheses that the hub linked to many good authorities is the better hub . However, since the HITS algorithm is an algorithm that models the link structure of a Web document in the Web world, there is a slight difficulty when applied as it is to Wikipedia (registered trademark) with a very dense link structure. In view of this, this apparatus proposes a method corresponding to the characteristic structure of Wikipedia (registered trademark) and the dense link structure. Then, the ranking based on the authority value calculated from this algorithm is approximated to the attenuation function proposed by the present method to obtain the final keyword-specific importance.

●テキスト量の考慮:
Wikipedia(登録商標)の見出し語は、知名度が高く話題性の高い見出し語ほど、テキストの記述量が多い傾向がある。そこで、authority値の算出の際に、自文書のテキスト量が多ければ多いほどその文書は重要であるといった重み、text(k)を考慮する。
● Consideration of text volume:
The headwords of Wikipedia (registered trademark) tend to have a larger amount of text description as headwords with higher name recognition and topicality. Therefore, when calculating the authority value, the weight (text (k)) that the document is more important as the text amount of the document itself is larger is considered.

●自リンクと被リンクの比率:
一般的にWikipedia(登録商標)の見出し語は、有名なキーワードほど、自リンクと被リンクの数が多くなっている。しかしながら、地名やジャンル名のような広い概念を持つキーワードは、引用しやすいキーワードのため、自リンク数に比べて圧倒的に被リンクの数が多い傾向がある。通常のHITSアルゴリズムは良いhubから多数リンクされているauthorityは良いauthorityであるといった仮説を用いるが、圧倒的に被リンクが多い場合においては、これらの仮説は成り立たないと予想される。また、その一方で、最近知名度が高くなってきている新人俳優や話題語等の見出し語は、誕生してから日が浅いため引用数は少ないが自リンクは多い傾向にある。そのため少ない被リンク数においても、authorityを高める必要がある。これらの問題を解決するために、authority値の算出の際に、flink(k)/blink(k)を考慮する。ここで、flink(k)はキーワードkの文書内に含まれる自リンクの数を表す、blink(k)はキーワードkの文書にリンクしている被リンクの数を表す。
● Ratio of own link and backlink:
In general, the headword of Wikipedia (registered trademark) has a larger number of self-linked and linked links as the famous keyword. However, keywords having a broad concept such as place names and genre names are keywords that are easy to quote, and thus tend to have an overwhelmingly larger number of linked links than the number of links. The normal HITS algorithm uses the hypothesis that the authority that is linked to many from a good hub is a good authority, but if there are an overwhelming number of linked links, these hypotheses are not expected to hold. On the other hand, headlines such as new actors and topic words, which have recently become popular, have a small number of citations because of their shallow days, but tend to have many links. Therefore, it is necessary to increase authority even with a small number of linked links. To solve these problems, flink (k) / blink (k) is taken into account when calculating the authority value. Here, flink (k) represents the number of own links included in the keyword k document, and blink (k) represents the number of linked links linked to the keyword k document.

●明らかにauthority算出とならない見出し語の扱い:
Wikipedia(登録商標)の見出し語には「〜年」や「〜一覧」といった明らかにauthorityとならない見出し語が存在する。これらの見出し語は自リンクが非常に多く、被リンクも非常に多い場合があるためノイズとなりやすい。そこで、明らかにauthorityとならない見出し語のauthority値は常に変更しないことで、この問題に対処する。
● Handling of headwords that are not clearly calculated by authority:
In Wikipedia (registered trademark) headwords, there are headwords that clearly do not become authority, such as “˜year” and “˜list”. These headwords are prone to noise because they have many links themselves and many links. Therefore, this problem is addressed by not always changing the authority value of the headword that is clearly not authority.

●hubの平均的なリンクの質:
Wikipedia(登録商標)の文書には、自リンクが多数あるが、hubとして質の悪い文書がある。そこで、リンク先キーワードのauthorityが平均的に高いhubは重要であるといった仮説に変更することで、自リンクは多いがhubとして質の低い文書のhub値を下げる重み
● Hub average link quality:
Wikipedia (registered trademark) documents have many links, but there is a poor quality document as a hub. Therefore, by changing to the hypothesis that hubs with high average keyword authority are important, the weight to lower the hub value of low-quality documents as many hubs but own links

Figure 2010204866
を考慮する。
Figure 2010204866
Consider.

●リダイレクトの扱い:
Wikipedia(登録商標)の文書には、見出し語の異表記を解消するために、redirect(リダイレクト)が存在する。例えば、「イチロー」には「鈴木イチロー」、「ICHIRO」のredirectがある。Redirectは異表記のキーワードを一意に纏める効果だけでなく、キーワードの被リンク構造に大きな影響を持つため、redirectキーワードを親ノードに纏めることで、異表記のキーワード固有重要度を算出し、被リンクの問題も解決する。
● Handling redirects:
A Wikipedia (registered trademark) document includes a redirect in order to eliminate the headword typographical error. For example, “ICHIRO” includes “SUZUKI ICHIRO” and “ICHIRO” redirect. Redirect not only has the effect of grouping differently-written keywords uniquely, but also has a great influence on the linked structure of the keywords. Also solve the problem.

そして、最終的なWikipedia(登録商標)ランキングアルゴリズムは以下の式で定義される。   The final Wikipedia (registered trademark) ranking algorithm is defined by the following equation.

Figure 2010204866
ここで、a(k)は、キーワードkのauthority値で、h(k)はhub値である。そして、flink(k)はキーワードkから自リンク数、blink(k)はキーワードkからの被リンク数である。text(k)は、キーワードkが見出し語になっているWikipedia(登録商標)文書の文字数(アンカーリンク対象の文字列は除く)であり、K'はキーワードkが見出し語になっているWikipedia(登録商標)文書内に含まれるリンク数の総数となる。なお、式(6)は交互に繰り返し計算を行うものとし、10回ほど繰り返し行うとよい。
Figure 2010204866
Here, a (k) is the authority value of the keyword k, and h (k) is the hub value. Flink (k) is the number of links from the keyword k, and blink (k) is the number of links from the keyword k. text (k) is the number of characters of the Wikipedia (registered trademark) document in which the keyword k is the entry word (excluding the character string to be anchored), and K ′ is Wikipedia (the keyword k is the entry word). The total number of links included in the registered trademark document. It should be noted that Equation (6) is repeatedly calculated alternately, and is preferably repeated about 10 times.

そして、上記の式(6)で算出したauthority値を用いて、降順にキーワードを順位付けする。そして、以下のキーワード固有重要度算出式を用いてスコアの近似を行い、Wikipedia(登録商標)内のリンク構造を用いたキーワード固有重要度WKIS(k)とし、固有重要度記憶部105に格納する。   Then, the keywords are ranked in descending order using the authority value calculated by the above equation (6). Then, the score is approximated using the following keyword specific importance calculation formula to obtain keyword specific importance WKIS (k) using the link structure in Wikipedia (registered trademark), which is stored in the specific importance storage unit 105. .

Figure 2010204866
ここで、y1はキーワード固有重要度の上界であり、y0はキーワード固有重要度の下界である。そして、krはキーワードkのauthorityの値による順位、Kはキーワードの総数、aはスコアの勾配係数で、aの値が大きくなればなるほどスコアの勾配が急になる。本関数の特徴は、キーワードの候補数(x軸の要素数)に左右されることなく、また、上界と下界を設定でき、またキーワードの候補数の上位10%以内において、最大値と最小値の差が30%〜70%以内に収まる減衰曲線を描き、そしてパラメータ係数にて減衰度合いを整数値を用いることで容易に設定できる特徴をもつスコア関数である(勿論、減衰度合いの設定は実数値でも設定可能である)。y1、y0の推奨値は、それぞれ1,0.1で、勾配係数の推奨値は3から7である。
Figure 2010204866
Here, y 1 is the upper limit of keyword-specific importance, and y 0 is the lower limit of keyword-specific importance. Then, k r values by rank, K is the total number of keywords authority keyword k, a is a gradient coefficient of the score, is steep indeed score the greater the value of a is. The features of this function are not affected by the number of keyword candidates (number of elements on the x-axis), and the upper and lower bounds can be set, and the maximum and minimum values are within the top 10% of the number of keyword candidates. It is a score function having a feature that draws an attenuation curve in which the difference of values falls within 30% to 70%, and can easily set the attenuation degree by using an integer value by the parameter coefficient (of course, the setting of the attenuation degree is (A real value can also be set). The recommended values for y 1 and y 0 are 1, 0.1, respectively, and the recommended value for the gradient coefficient is 3 to 7.

Wikipedia(登録商標)内のリンク構造から算出したキーワード固有重要度は、ユーザ参加型のオンライン百科事典のWikipedia(登録商標)内においての重要なキーワードが上位に位置付けられるため、一般に知名度は低いが実際には内容が深く重要なキーワードが上位に位置づけられる。   The keyword-specific importance calculated from the link structure in Wikipedia (registered trademark) is generally low in name because the important keywords in Wikipedia (registered trademark) in the online encyclopedia with user participation are ranked high. The key words are deep and important.

[3−5−2]検索エンジンの検索クエリ投入回数を用いた手法:
この手法は、実際の検索エンジンに投入された回数が多い検索クエリほど、重要なキーワードであるとみなす手法である。検索クエリの投入回数は、ポータルサイト上で投入された検索クエリのような大規模データであることが好ましい。ここで、対象となる検索クエリは、Wikipedia(登録商標)に存在するキーワードであるとする。この手法もWikipedia(登録商標)内のリンク構造を用いた手法と同じく式(7)のキーワード固有重要度算出式を用いてスコアの近似を行い、検索クエリを投入回数を用いたキーワード固有重要度QKIS(k)とし、固有重要度記憶部105に格納する。
[3-5-2] A method using the search query input count of the search engine:
This method is a method in which a search query that is frequently input to an actual search engine is regarded as an important keyword. The number of search queries input is preferably large-scale data such as a search query input on a portal site. Here, it is assumed that the target search query is a keyword existing in Wikipedia (registered trademark). Similar to the method using the link structure in Wikipedia (registered trademark), this method also uses the keyword specific importance calculation formula (7) to approximate the score, and uses the search query as the keyword specific importance. QKIS (k) is stored in the unique importance storage unit 105.

Figure 2010204866
ここで、y1はキーワード固有重要度の上界であり、y0はキーワード固有重要度の下界である。そして、krはキーワードkの検索回数による順位、Kはキーワードの総数、aはスコアの勾配係数で、aの値が大きくなればなるほどスコアの勾配が急になる。本関数の特徴は、キーワードの候補数(x軸の要素数)に左右されることなく、また、上界と下界を設定でき、またキーワードの候補数の上位10%以内において、最大値と最小値の差が30%〜70%以内に収まる減衰曲線を描き、そしてパラメータ係数にて減衰度合いを整数値を用いることで容易に設定できる特徴をもつスコア関数である(勿論、減衰度合いの設定は実数値でも設定可能である)。
Figure 2010204866
Here, y 1 is the upper limit of keyword-specific importance, and y 0 is the lower limit of keyword-specific importance. K r is the ranking based on the number of searches for the keyword k, K is the total number of keywords, a is the score gradient coefficient, and the score gradient becomes steeper as the value of a increases. The features of this function are not affected by the number of keyword candidates (number of elements on the x-axis), and the upper and lower bounds can be set, and the maximum and minimum values are within the top 10% of the number of keyword candidates. It is a score function having a feature that draws an attenuation curve in which the difference of values falls within 30% to 70%, and can easily set the attenuation degree by using an integer value by the parameter coefficient (of course, the setting of the attenuation degree is (A real value can also be set).

また、Wikipedia(登録商標)には見出し語として存在するが、検索エンジンの検索クエリには存在しない場合がある。その場合はy0を該当キーワードのスコアとする。y1,y0の推奨値は、それぞれ、1,0.1で、勾配係数の推奨値は3から7である。 Moreover, although it exists as a headword in Wikipedia (registered trademark), it may not exist in a search query of a search engine. If that is the score of the relevant keywords y 0. Recommended values for y 1 and y 0 are 1 and 0.1, respectively, and recommended values for the gradient coefficient are 3 to 7.

キーワード重要度2記憶部104に格納されている検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度は、実際の検索クエリ投入回数によって重要度が決まるため、検索クエリとして投入されやすく、重要なキーワードが上位に来る傾向にある。   The keyword-specific importance calculated from the search query input count of the search engine stored in the keyword importance 2 storage unit 104 is determined by the actual search query input count. Keywords tend to be higher.

[3−6]最終的なキーワード固有重要度算出:
前述の[3−5]では、Wikipedia(登録商標)内のリンク構造から算出したキーワード固有重要度WKIS(k)と、検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度QKIS(k)について述べた。しかしながら、QKIS(k)は検索クエリデータの収集期間が短い場合、その間にインターネット上で起きた話題に強く影響されてしまう問題があり、さらにインターネットサイト名等の生活的クエリが多く含まれる傾向にある。そのため、キーワード重要度算出部4では、固有重要度記憶部105に格納されているWKIS(k)とQKIS(k)の線形和を、最終的なキーワード固有重要度とすることで、話題性が高く内容が深く、かつ、検索クエリとして投入されやすいキーワードを上位に位置づける重要度を算出する。
[3-6] Final keyword-specific importance calculation:
In the above [3-5], the keyword-specific importance WKIS (k) calculated from the link structure in Wikipedia (registered trademark) and the keyword-specific importance QKIS (k) calculated from the search query input count of the search engine. Stated. However, QKIS (k) has a problem that when the search query data collection period is short, there is a problem that it is strongly influenced by topics that occurred on the Internet during that period, and there are also many life-time queries such as Internet site names. is there. Therefore, the keyword importance calculation unit 4 uses the linear sum of WKIS (k) and QKIS (k) stored in the unique importance storage unit 105 as the final keyword unique importance, so that the topicality is increased. An importance level is calculated that ranks keywords that are high and deep and easy to be input as a search query.

Keyword_score(k)=α・WKIS(k)+(1-α)・QKIS(k) (9)
QKIS(k)よりも、WKIS(k)のキーワード重要の方が一般的に精度が良いことが実験により確認できたため、αの値は0.5〜0.8辺りの範囲で調整する。
Keyword_score (k) = α ・ WKIS (k) + (1-α) ・ QKIS (k) (9)
Since it has been confirmed through experiments that the keyword importance of WKIS (k) is generally more accurate than QKIS (k), the value of α is adjusted in the range of 0.5 to 0.8.

[3−7]文書中での出現位置におけるキーワード重要度算出:
以下では、位置情報算出部5における処理を説明する。
[3-7] Keyword importance calculation at appearance position in document:
Below, the process in the position information calculation part 5 is demonstrated.

ニュース記事やコラム等の一般的な記述がなされる記事においては、文の先頭に来れば来るほど、重要なキーワードが含まれている可能性が高い。そのため、文の先頭にあればあるほど、そのキーワードは重要であるという重要度を算出する。この手法も、Wikipedia(登録商標)内のリンク構造を用いた手法と同じく式(7)のキーワード固有重要度算出式を用いて、出現位置を用いたキーワード重要度Pos(k)の算出を行い、位置重要度記憶部106に格納する。   In an article in which a general description such as a news article or a column is made, it is more likely that an important keyword is included as the head of the sentence comes. Therefore, the importance degree is calculated that the more important the keyword is at the head of the sentence. This method also calculates the keyword importance Pos (k) using the appearance position by using the keyword specific importance calculation formula (7) as in the method using the link structure in Wikipedia (registered trademark). And stored in the position importance storage unit 106.

Figure 2010204866
ここで、y1は出現位置を用いたキーワード重要度の上界であり、y0は出現位置を用いたキーワード重要度の下界である。そしてkpはキーワードkの文位置(文の位置は、文の先頭から1文ずつ(句点までを1文とする)数え上げたものを用い、さらにそのキーワードにおいて、最も先頭の位置を用いる)、Pは最後尾の文の位置、aはスコアの勾配係数で、aの値が大きくなればなるほどスコアの勾配が急になる。本関数の特徴は、キーワードの候補数(x軸の要素数)に左右されることなく、また、上界と下界を設定でき、またキーワードの候補数の上位10%以内において、最大値と最小値の差が30%〜70%以内に収まる減衰曲線を描き、そしてパラメータ係数にて減衰度合いを整数値を用いることで容易に設定できる特徴をもつスコア関数である(勿論、減衰度合いの設定は実数値でも設定可能である)。y1、y0の推奨値は、それぞれ1、0.5で勾配係数の推奨値は1から5である。ブログ記事のような一般的な記述がなされていない文書を多く処理する場合には、y0の値を大きくし、勾配係数の値も小さくするのがよい。
Figure 2010204866
Here, y 1 is the upper bound of the keyword importance using the appearance position, and y 0 is the lower bound of the keyword importance using the appearance position. K p is the sentence position of the keyword k (the sentence position is counted from the beginning of the sentence one sentence at a time (up to the punctuation is one sentence), and the first position in the keyword is used). P is the position of the last sentence, a is the slope coefficient of the score, and the higher the value of a, the steeper the slope of the score. The features of this function are not affected by the number of keyword candidates (number of elements on the x-axis), and the upper and lower bounds can be set, and the maximum and minimum values are within the top 10% of the number of keyword candidates. It is a score function having a feature that draws an attenuation curve in which the difference of values falls within 30% to 70%, and can easily set the attenuation degree by using an integer value by the parameter coefficient (of course, the setting of the attenuation degree is (A real value can also be set). The recommended values for y 1 and y 0 are 1 and 0.5, respectively, and the recommended value for the gradient coefficient is 1 to 5. Documents general description has not been made, such as posts in the case of many processes, by increasing the value of y 0, it is preferable to reduce the value of the gradient coefficient.

[3−8]文書における最終的なキーワード重要度:
以下に、重要キーワード出力部6の動作を説明する。
[3-8] Final keyword importance in the document:
The operation of the important keyword output unit 6 will be described below.

文書d内における最終的なキーワード重要度FS(d,k)は、[3−7]節までに述べた手法により求められ、固有重要度記憶部105と位置重要度記憶部106に格納されている各値を乗算することによって算出する。FS(d,k)が高いほど重要なキーワードと見做す。   The final keyword importance FS (d, k) in the document d is obtained by the method described in the section [3-7] and is stored in the unique importance storage unit 105 and the position importance storage unit 106. It is calculated by multiplying each value. A higher FS (d, k) is considered as an important keyword.

FS(d,k)=BM25all(d,k)・WebIDF(k)・Keyword_score(k)・Pos(k) (11)
FD(d,k)は全てのキーワード候補に対して、キーワードの重要度を算出するため、応用アプリケーション等で少数のキーワードしか表示できない場合、上位3〜5位のキーワードをその文書内における重要キーワードとして表示する。
FS (d, k) = BM25 all (d, k), WebIDF (k), Keyword_score (k), Pos (k) (11)
FD (d, k) calculates the importance of keywords for all keyword candidates. If only a small number of keywords can be displayed by an application, etc., the top 3-5 keywords are important keywords in the document. Display as.

なお、上記の重要キーワード抽出装置の各構成要素の動作をプログラムとして構築し、重要キーワード抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   The operation of each component of the above important keyword extracting device can be constructed as a program, installed in a computer used as the important keyword extracting device and executed, or distributed via a network.

また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。   In addition, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and installed in a computer or distributed.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

本発明は、Web文書のキーワードを抽出する技術、例えば、情報検索の事前処理や情報推薦等に適用可能である。   The present invention can be applied to a technique for extracting a keyword of a Web document, for example, pre-processing of information search, information recommendation, and the like.

1 文書入力部
2 重要キーワード候補抽出手段、重要キーワード候補抽出部
3 出現頻度算出手段、出現頻度算出部
4 キーワード重要度算出手段、キーワード重要度算出部
5 位置情報算出手段、位置情報算出部
6 キーワード出力手段、重要キーワード出力部
10 主要コンテンツ抽出手段、主要コンテンツ抽出部
11 Web文書取得・入力部
12 Web文書分割手段、Web文書分割部
13 特徴量抽出手段、特徴量抽出部
14 主要コンテンツ判定手段、主要コンテンツ判定部
15 主要コンテンツ出力手段、主要コンテンツ出力部
101 キーワード辞書
102 WebIDF記憶部
103 キーワード重要度1記憶部
104 キーワード重要度2記憶部
105 第1の記憶手段、固有重要度記憶部
106 第2の記憶手段、位置重要度記憶部
111 データ入力部
112 Web文書ファイル入力部
113 URL入力部
114 Web文書取得部
115 文字コード変換部
121 広告対象領域抽出部
122 ノイズとなるタグや領域除去部
123 Web文書の分割部
131 アンカーリンク情報特徴量抽出部
132 タグ情報特徴量抽出部
133 Web文書で表示される文字列特徴量抽出部
134 特徴量の正規化部
135 特徴量の比率特徴量抽出部
141 特徴量入力部
142 テキスト判定部
143 主要コンテンツ判定部
151 タグ付テキスト出力部
152 タグなしテキスト出力部
153 データ出力部
DESCRIPTION OF SYMBOLS 1 Document input part 2 Important keyword candidate extraction means, Important keyword candidate extraction part 3 Appearance frequency calculation means, appearance frequency calculation part 4 Keyword importance degree calculation means, keyword importance degree calculation part 5 Position information calculation means, Position information calculation part 6 Keyword Output means, important keyword output section 10 main content extraction means, main content extraction section 11 Web document acquisition / input section 12 Web document division means, Web document division section 13 feature quantity extraction means, feature quantity extraction section 14 main content determination means, Main content determination unit 15 Main content output means, main content output unit 101 Keyword dictionary 102 WebIDF storage unit 103 Keyword importance level 1 storage unit 104 Keyword importance level 2 storage unit 105 First storage unit, unique importance level storage unit 106 Second Storage means, position importance storage unit 111 Data input unit 112 Web document file input unit 113 URL input unit 114 Web document acquisition unit 115 Character code conversion unit 121 Advertisement target region extraction unit 122 Tag and region removal unit 123 that cause noise Web document division unit 131 Anchor link information feature amount Extraction unit 132 Tag information feature amount extraction unit 133 Character string feature amount extraction unit displayed in Web document 134 Feature amount normalization unit 135 Feature amount ratio feature amount extraction unit 141 Feature amount input unit 142 Text determination unit 143 Main content Determination unit 151 Text output unit with tag 152 Text output unit without tag 153 Data output unit

Claims (16)

Web文書中に含まれるテキストから重要なキーワードを抽出する重要キーワード抽出装置であって、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
オンライン百科辞典に代表される、文書集合内において一意の見出し語を持つ文書で、かつ、文書集合内において引用関係もしくは参照関係を持つ文書集合(以下、辞典文書集合と記す)の見出し語を形態素解析用の辞書として登録しているキーワード辞書を参照して、前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記Web文書内の前記重要キーワード候補に重み付けを行う出現頻度算出手段と、
知名度や話題性が高く、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードの重要度が高くなるように前記重要キーワード候補の重要度を算出し、第1の記憶手段に格納するキーワード重要度算出手段と、
前記重要キーワード候補の重要度に基づいて、前記Web文書中の位置に基づいて出現位置キーワード重要度を求め、第2の記憶手段に格納する位置情報算出手段と、
前記第1の記憶手段に格納されている重要キーワード候補の重要度及び前記第2の記憶手段に格納されている前記出現位置キーワード重要度を乗算した値に基づいて、重要度付きのキーワード集合を出力するキーワード出力手段と、を有し、
前記主要コンテンツ抽出手段は、
前記Web文書を所定の分割規則に基づいてセグメントに分割するWeb文書分割手段と、
前記セグメント毎に主要コンテンツ判定のための特徴量を抽出する特徴量抽出手段と、
前記セグメント毎の特徴量に基づいて機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段と、
主要コンテンツと判断された部位を結合して前記主要コンテンツとして出力する主要コンテンツ出力手段を含み、
前記特徴量抽出手段は、
前記Web文書で表示される文字列の特徴量、タグ情報の特徴量、アンカーリンク情報の特徴量を抽出し、各特徴量間の比率を用いて最終的な特徴量とする手段を含み、
前記出現頻度算出手段は、
検索エンジンが収集したWeb文書集合における出現確率を考慮した重みであるWebIDFを用いて前記重要キーワード候補に重み付けする手段、
または、
前記重要キーワード候補の前記Web文書内の出現頻度を求め、該出現頻度と文書集合内での出現分布に基づいて各重要キーワード候補に重み付けを行うBM25を用いて該キーワード候補に重み付けする手段、
のいずれかを有することを特徴とする重要キーワード抽出装置。
An important keyword extraction device that extracts important keywords from text included in a Web document,
Main content extracting means for acquiring the Web document, extracting a feature amount of the Web document, and extracting main content;
A morpheme is an entry word of a document set represented by an online encyclopedia that has a unique entry word in the document set and that has a citation relationship or a reference relationship in the document set (hereinafter referred to as a dictionary document set). An important keyword candidate extracting means for extracting an important keyword candidate from the main content with reference to a keyword dictionary registered as a dictionary for analysis;
Appearance frequency calculating means for weighting the important keyword candidates in the Web document;
The importance level of the important keyword candidate is calculated and stored in the first storage means so that the importance level of the keyword having a high degree of name recognition and high topicalness and various topics when talking about the keyword is high. Keyword importance calculation means,
Position information calculation means for obtaining an appearance position keyword importance based on the position in the Web document based on the importance of the important keyword candidate, and storing it in a second storage means;
Based on a value obtained by multiplying the importance of the important keyword candidate stored in the first storage means and the appearance position keyword importance stored in the second storage means, a keyword set with importance is obtained. Keyword output means for outputting,
The main content extracting means includes
Web document dividing means for dividing the Web document into segments based on a predetermined division rule;
Feature amount extraction means for extracting feature amounts for main content determination for each segment;
Main content determination means for determining whether the content is main content using a machine learning algorithm based on the feature amount for each segment;
Including main content output means for combining the parts determined to be main content and outputting as the main content;
The feature amount extraction means includes:
Means for extracting a feature amount of a character string displayed in the Web document, a feature amount of tag information, a feature amount of anchor link information, and using a ratio between the feature amounts as a final feature amount;
The appearance frequency calculating means includes
Means for weighting the important keyword candidates using WebIDF, which is a weight considering the appearance probability in a set of Web documents collected by a search engine;
Or
Means for weighting the keyword candidates using a BM 25 that obtains the appearance frequency of the important keyword candidates in the Web document, and weights each important keyword candidate based on the appearance frequency and the appearance distribution in the document set;
An important keyword extraction apparatus characterized by comprising any of the following.
前記出現頻度算出手段は、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む前記重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段を含む
請求項1記載の重要キーワード抽出装置。
The appearance frequency calculating means includes
The important keyword extraction apparatus according to claim 1, further comprising means for obtaining an importance level of the important keyword candidate using an appearance frequency of the important keyword candidate including the morpheme proper noun obtained from the morpheme analysis result of the morpheme analysis unit.
前記キーワード重要度算出手段は、
前記辞典文書集合内のリンク構造を用いて、前記重要キーワード候補の重要度を求める手段を含む
請求項1または2記載の重要キーワード抽出装置。
The keyword importance calculation means includes:
3. The important keyword extracting apparatus according to claim 1, further comprising means for obtaining an importance level of the important keyword candidate using a link structure in the dictionary document set.
前記キーワード重要度算出手段は、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、前記重要キーワード候補の重要度を求める手段を含む
請求項1乃至3のいずれか1項記載の重要キーワード抽出装置。
The keyword importance calculation means includes:
The important keyword according to any one of claims 1 to 3, further comprising means for determining the importance of the important keyword candidate by using a value such that the keyword that is input to the search engine more frequently becomes a more important keyword. Extraction device.
前記キーワード重要度算出手段は、
前記重要キーワード候補の前記Web文書中の出現位置に基づいて、該重要キーワード候補の重要度を求める手段を含む
請求項1または2記載の重要キーワード抽出装置。
The keyword importance calculation means includes:
The important keyword extraction apparatus according to claim 1, further comprising means for obtaining an importance level of the important keyword candidate based on an appearance position of the important keyword candidate in the Web document.
前記キーワード重要度算出手段は、
前記辞典文書集合内のリンク構造を用いて、前記重要キーワード候補の重要度を求める手段と、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む前記重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、を含む
請求項1記載の重要キーワード抽出装置。
The keyword importance calculation means includes:
Means for determining the importance of the important keyword candidate using the link structure in the dictionary document set;
The important keyword extraction according to claim 1, further comprising: means for obtaining an importance level of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis unit. apparatus.
前記キーワード重要度算出手段は、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む前記重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、前記重要キーワード候補の重要度を求める手段と、を含む
請求項1記載の重要キーワード抽出装置。
The keyword importance calculation means includes:
Means for determining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means;
The important keyword extraction apparatus according to claim 1, further comprising: means for obtaining an importance level of the important keyword candidate using a value such that a keyword that is input to a search engine more frequently becomes a more important keyword.
前記キーワード重要度算出手段は、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む前記重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、
前記重要キーワード候補の文書中の出現位置に基づいて、該重要キーワード候補の重要度を求める手段と、を含む
請求項1記載の重要キーワード抽出装置。
The keyword importance calculation means includes:
Means for determining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means;
The important keyword extraction apparatus according to claim 1, further comprising: means for obtaining an importance level of the important keyword candidate based on an appearance position of the important keyword candidate in the document.
前記キーワード重要度算出手段は、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む前記重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、
前記辞典文書集合内のリンク構造を用いて、前記重要キーワード候補の重要度を求める手段と、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、前記重要キーワード候補の重要度を求める手段と、を含む
請求項1記載の重要キーワード抽出装置。
The keyword importance calculation means includes:
Means for determining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means;
Means for determining the importance of the important keyword candidate using the link structure in the dictionary document set;
The important keyword extraction apparatus according to claim 1, further comprising: means for obtaining an importance level of the important keyword candidate using a value such that a keyword that is input to a search engine more frequently becomes a more important keyword.
前記キーワード重要度算出手段は、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む前記重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める手段と、
前記辞典文書集合内のリンク構造を用いて、前記重要キーワード候補の重要度を求める手段と、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、前記重要キーワード候補の重要度を求める手段と、
前記重要キーワード候補の文書中の出現位置に基づいて、該重要キーワード候補の重要度を求める手段と、を含む
請求項1記載の重要キーワード抽出装置。
The keyword importance calculation means includes:
Means for determining the importance of the important keyword candidate using the appearance frequency of the important keyword candidate including the proper noun of the morpheme obtained from the morpheme analysis result of the morpheme analysis means;
Means for determining the importance of the important keyword candidate using the link structure in the dictionary document set;
A keyword that uses a value that makes a keyword more frequently entered into a search engine and uses a value that makes the keyword more important.
The important keyword extraction apparatus according to claim 1, further comprising: means for obtaining an importance level of the important keyword candidate based on an appearance position of the important keyword candidate in the document.
Web文書中に含まれるテキストから重要なキーワードを抽出する重要キーワード抽出方法であって、
主要コンテンツ抽出手段が、前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出ステップと、
重要キーワード候補抽出手段が、オンライン百科辞典に代表される、文書集合内において一意の見出し語を持つ文書で、かつ、文書集合内において引用関係もしくは参照関係を持つ文書集合(以下、辞典文書集合と記す)の見出し語を形態素解析用の辞書として登録しているキーワード辞書を参照して、前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出ステップと、
出現頻度算出手段が、前記Web文書内の前記重要キーワード候補に重み付けを行う出現頻度算出ステップと、
キーワード重要度算出手段が、知名度や話題性が高く、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードの重要度が高くなるように前記重要キーワード候補の重要度を算出し、第1の記憶手段に格納するキーワード重要度算出ステップと、
位置情報算出手段が、前記重要キーワード候補の前記Web文書中の位置に基づいて出現位置キーワード重要度を求め、第2の記憶手段に格納する位置情報算出ステップと、
キーワード出力手段が、前記第1の記憶手段に格納されている重要キーワード候補の重要度及び前記第2の記憶手段に格納されている前記出現位置キーワード重要度を乗算した値に基づいて、重要度付きのキーワード集合を出力するキーワード出力ステップと、を行い、
前記主要コンテンツ抽出ステップでは、
前記Web文書を所定の分割規則に基づいてセグメントに分割し、
前記セグメント毎に主要コンテンツ判定のための特徴量を抽出し、
前記セグメント毎の特徴量に基づいて機械学習アルゴリズムを用いて主要コンテンツか否かを判定し、
主要コンテンツと判断された部位を結合して前記主要コンテンツとして出力するステップを含み、
前記特徴量抽出ステップでは、
前記Web文書で表示される文字列の特徴量、タグ情報の特徴量、アンカーリンク情報の特徴量を抽出し、各特徴量間の比率を用いて最終的な特徴量とするステップを含み、
前記出現頻度算出ステップでは、
検索エンジンが収集したWeb文書集合における出現確率を考慮した重みであるWebIDFを用いて前記重要キーワード候補に重み付けするステップ、
または、
前記重要キーワード候補の前記Web文書内の出現頻度を求め、該出現頻度と文書集合内での出現分布に基づいて各重要キーワード候補に重み付けを行うBM25を用いて該キーワード候補に重み付けするステップ、
のいずれかを行うことを特徴とする重要キーワード抽出方法。
An important keyword extraction method for extracting an important keyword from text included in a Web document,
A main content extracting unit that acquires the Web document, extracts a feature amount of the Web document, and extracts the main content;
The important keyword candidate extraction means is a document set represented by an online encyclopedia that has a unique headword in the document set and has a citation relationship or a reference relationship in the document set (hereinafter referred to as a dictionary document set). An important keyword candidate extraction step for extracting an important keyword candidate from the main content with reference to a keyword dictionary registered as a dictionary for morphological analysis;
An appearance frequency calculating unit that weights the important keyword candidates in the Web document;
The keyword importance calculation means calculates the importance of the important keyword candidates so that the importance of keywords having a high level of name recognition and topicality, and abundant information that includes various topics when talking about keywords is increased. A keyword importance degree calculating step to be stored in one storage means;
A position information calculating means for obtaining an appearance position keyword importance based on the position of the important keyword candidate in the Web document, and storing it in a second storage means;
The keyword output means is based on a value obtained by multiplying the importance of the important keyword candidate stored in the first storage means and the appearance position keyword importance stored in the second storage means. A keyword output step for outputting a keyword set with
In the main content extraction step,
Dividing the Web document into segments based on a predetermined division rule;
Extract feature quantities for main content determination for each segment,
Determine whether or not the main content using a machine learning algorithm based on the feature amount of each segment,
Combining the portion determined to be the main content and outputting as the main content,
In the feature amount extraction step,
Extracting a feature amount of a character string displayed in the Web document, a feature amount of tag information, and a feature amount of anchor link information, and using the ratio between the feature amounts as a final feature amount,
In the appearance frequency calculating step,
Weighting the important keyword candidates using WebIDF, which is a weight considering the probability of appearance in a set of Web documents collected by a search engine;
Or
Obtaining an appearance frequency of the important keyword candidate in the Web document, and weighting the keyword candidate using BM25 for weighting each important keyword candidate based on the appearance frequency and an appearance distribution in the document set;
An important keyword extraction method characterized by performing any of the following.
前記出現頻度算出ステップは、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む前記重要キーワード候補の出現頻度を用いて、該重要キーワード候補の重要度を求める
請求項11記載の重要キーワード抽出方法。
The appearance frequency calculating step includes:
The important keyword extraction method according to claim 11, wherein the importance of the important keyword candidate is obtained using the appearance frequency of the important keyword candidate including the morpheme proper noun obtained from the morpheme analysis result of the morpheme analysis unit.
前記キーワード重要度算出ステップは、
前記辞典文書集合内のリンク構造を用いて、前記重要キーワード候補の重要度を求める
請求項11または12記載の重要キーワード抽出方法。
The keyword importance calculating step includes:
13. The important keyword extraction method according to claim 11 or 12, wherein the importance level of the important keyword candidate is obtained using a link structure in the dictionary document set.
前記キーワード重要度算出ステップは、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、前記重要キーワード候補の重要度を求める
請求項11乃至13のいずれか1項記載の重要キーワード抽出方法。
The keyword importance calculating step includes:
The important keyword extraction method according to claim 11, wherein the importance of the important keyword candidate is obtained by using a value such that the more frequently the keyword is input to the search engine, the more important the keyword is.
前記キーワード重要度算出ステップは、
前記重要キーワード候補の前記Web文書中の出現位置に基づいて、該重要キーワード候補の重要度を求める
請求項11または12記載の重要キーワード抽出方法。
The keyword importance calculating step includes:
13. The important keyword extraction method according to claim 11 or 12, wherein the importance level of the important keyword candidate is obtained based on the appearance position of the important keyword candidate in the Web document.
請求項1乃至10のいずれか1項記載の重要キーワード抽出装置構成する各手段としてコンピュータを機能させるための重要キーワード抽出プログラム。   11. An important keyword extracting program for causing a computer to function as each means constituting the important keyword extracting apparatus according to claim 1.
JP2009048550A 2009-03-02 2009-03-02 Important keyword extraction apparatus, method and program Active JP5143057B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009048550A JP5143057B2 (en) 2009-03-02 2009-03-02 Important keyword extraction apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009048550A JP5143057B2 (en) 2009-03-02 2009-03-02 Important keyword extraction apparatus, method and program

Publications (2)

Publication Number Publication Date
JP2010204866A true JP2010204866A (en) 2010-09-16
JP5143057B2 JP5143057B2 (en) 2013-02-13

Family

ID=42966297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009048550A Active JP5143057B2 (en) 2009-03-02 2009-03-02 Important keyword extraction apparatus, method and program

Country Status (1)

Country Link
JP (1) JP5143057B2 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150538A (en) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Important keyword extraction device, method and program
JP2011253256A (en) * 2010-05-31 2011-12-15 Nippon Telegr & Teleph Corp <Ntt> Related content presentation device and program
JP2013544397A (en) * 2010-11-05 2013-12-12 楽天株式会社 System and method for keyword extraction
KR101818107B1 (en) * 2016-06-03 2018-01-15 조선대학교산학협력단 Apparatus and method for supporting storytelling authoring
WO2018056299A1 (en) * 2016-09-26 2018-03-29 日本電気株式会社 Information collection system, information collection method, and recording medium
US10198426B2 (en) 2014-07-28 2019-02-05 International Business Machines Corporation Method, system, and computer program product for dividing a term with appropriate granularity
CN109614482A (en) * 2018-10-23 2019-04-12 北京达佳互联信息技术有限公司 Processing method, device, electronic equipment and the storage medium of label
CN109815501A (en) * 2019-01-29 2019-05-28 四川无声信息技术有限公司 A kind of method and device obtaining group chat text classification dictionary
KR102155866B1 (en) * 2019-08-27 2020-09-14 주식회사 크라우드웍스 Method and apparatus for monitoring worker based on cause of return
KR102155860B1 (en) * 2019-08-19 2020-09-14 주식회사 크라우드웍스 Method and apparatus for monitoring inspector based on cause of return

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11853700B1 (en) 2021-02-12 2023-12-26 Optum, Inc. Machine learning techniques for natural language processing using predictive entity scoring

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200900266037; 近藤光正、外3名: 'HITSに基づくWikipediaランキングアルゴリズムとユーザ履歴を用いた個人適応型クエリ推薦' 電子情報通信学会 第19回データ工学ワークショップ論文集 [online] , 20080407, p.1-8(B2-4), 電子情報通信学会データ工学研究専門委員会 *
CSNJ201010026240; 近藤光正、外3名: 'PC上のWeb閲覧履歴からのクエリ抽出技術を用いたモバイル情報検索システム' 2008年度人工知能学会全国大会(第22回)論文集 [CD-ROM] , 20080611, p.1-4(2P2-10) *
JPN6012041625; 近藤光正、外3名: 'PC上のWeb閲覧履歴からのクエリ抽出技術を用いたモバイル情報検索システム' 2008年度人工知能学会全国大会(第22回)論文集 [CD-ROM] , 20080611, p.1-4(2P2-10) *
JPN6012041627; 近藤光正、外3名: 'HITSに基づくWikipediaランキングアルゴリズムとユーザ履歴を用いた個人適応型クエリ推薦' 電子情報通信学会 第19回データ工学ワークショップ論文集 [online] , 20080407, p.1-8(B2-4), 電子情報通信学会データ工学研究専門委員会 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150538A (en) * 2010-01-21 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Important keyword extraction device, method and program
JP2011253256A (en) * 2010-05-31 2011-12-15 Nippon Telegr & Teleph Corp <Ntt> Related content presentation device and program
JP2013544397A (en) * 2010-11-05 2013-12-12 楽天株式会社 System and method for keyword extraction
US10198426B2 (en) 2014-07-28 2019-02-05 International Business Machines Corporation Method, system, and computer program product for dividing a term with appropriate granularity
KR101818107B1 (en) * 2016-06-03 2018-01-15 조선대학교산학협력단 Apparatus and method for supporting storytelling authoring
WO2018056299A1 (en) * 2016-09-26 2018-03-29 日本電気株式会社 Information collection system, information collection method, and recording medium
US11308091B2 (en) 2016-09-26 2022-04-19 Nec Corporation Information collection system, information collection method, and recording medium
CN109614482A (en) * 2018-10-23 2019-04-12 北京达佳互联信息技术有限公司 Processing method, device, electronic equipment and the storage medium of label
CN109614482B (en) * 2018-10-23 2022-06-03 北京达佳互联信息技术有限公司 Label processing method and device, electronic equipment and storage medium
CN109815501A (en) * 2019-01-29 2019-05-28 四川无声信息技术有限公司 A kind of method and device obtaining group chat text classification dictionary
KR102155860B1 (en) * 2019-08-19 2020-09-14 주식회사 크라우드웍스 Method and apparatus for monitoring inspector based on cause of return
KR102155866B1 (en) * 2019-08-27 2020-09-14 주식회사 크라우드웍스 Method and apparatus for monitoring worker based on cause of return

Also Published As

Publication number Publication date
JP5143057B2 (en) 2013-02-13

Similar Documents

Publication Publication Date Title
JP5143057B2 (en) Important keyword extraction apparatus, method and program
Thakkar et al. Graph-based algorithms for text summarization
JP5710581B2 (en) Question answering apparatus, method, and program
Al-Taani et al. An extractive graph-based Arabic text summarization approach
Singh et al. A novel unsupervised corpus-based stemming technique using lexicon and corpus statistics
CN103678412A (en) Document retrieval method and device
JP5427694B2 (en) Related content presentation apparatus and program
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
US20130110594A1 (en) Ad copy determination
Selamat et al. Word-length algorithm for language identification of under-resourced languages
Darmawiguna et al. The development of integrated Bali tourism information portal using web scrapping and clustering methods
JP2006318398A (en) Vector generation method and device, information classifying method and device, and program, and computer readable storage medium with program stored therein
Leturia et al. Morphological query expansion and language-filtering words for improving Basque web retrieval
Li et al. Labeling clusters from both linguistic and statistical perspectives: A hybrid approach
JP5317638B2 (en) Web document main content extraction apparatus and program
Kanakaraj et al. NLP based intelligent news search engine using information extraction from e-newspapers
JP5214523B2 (en) Related keyword presentation device and program
Ung et al. Combination of features for vietnamese news multi-document summarization
JP2014191777A (en) Word meaning analysis device and program
Siemiński Fast algorithm for assessing semantic similarity of texts
Milić-Frayling Text processing and information retrieval
Sharma et al. Improved stemming approach used for text processing in information retrieval system
Minocha et al. Generating domain specific sentiment lexicons using the web directory
Shah et al. WebRank: Language-Independent Extraction of Keywords from Webpages
D’Avanzo et al. Online advertising using linguistic knowledge

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121120

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5143057

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350