JP2002245061A - Keyword extraction - Google Patents

Keyword extraction

Info

Publication number
JP2002245061A
JP2002245061A JP2001036577A JP2001036577A JP2002245061A JP 2002245061 A JP2002245061 A JP 2002245061A JP 2001036577 A JP2001036577 A JP 2001036577A JP 2001036577 A JP2001036577 A JP 2001036577A JP 2002245061 A JP2002245061 A JP 2002245061A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
text data
extracted
keyword
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001036577A
Other languages
Japanese (ja)
Inventor
Takashige Tanaka
敬重 田中
Original Assignee
Seiko Epson Corp
セイコーエプソン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Abstract

PROBLEM TO BE SOLVED: To solve a problem that it is hard to construct a database for easily and precisely retrieve a large amount of text data such as a Web page. SOLUTION: Data of the Web page being a collective kind of text data are collected by a patrol engine, its morpheme is analyzed and words are extracted. Calculation with respect to TFIDF being a deviated appearance frequency is performed concerning the words and only the prescribed words are picked-up as a keyword. A vector expressing text data is calculated through the use of the words so that the database is constructed. In the case of retrieval, a sentence for retrieval is inputted, the keyword is segmented from it, the vector expressed by the keyword is compared with the database and, then, a similar site is outputted. Retrieval is performed precisely not by simply comparing the words but by determining similarity in the vector which is expressed by the words characterizing a document.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、一定のまとまりを持ったテキストデータに対して、検索や分類を行なう技術に関し、詳しくは効率の良くキーワードを抽出し、分類を付与してデータベースを構築し、要約文を生成し、 BACKGROUND OF THE INVENTION The present invention is, for text data that has a certain unity, relates to a technique to perform the search and classification, and more specifically to extract the good keyword of efficiency, to build a database by applying a classification , to generate a summary statement,
あるいは検索を行なう技術に関する。 Or it relates to a technique for performing a search.

【0002】 [0002]

【従来の技術】従来、インターネット上でアクセス可能なウェブページのような、大量のテキストデータを中心とするデータを扱うために、種々の手法が提案されている。 Conventionally, such as accessible web page on the Internet, in order to handle the data about the large amounts of text data, various techniques have been proposed. 例えば、こうしたウェッブページを検索する目的でインターネットなどのネットワーク上には多数存在する検索エンジンでは、クライアントが、この検索エンジンに検索用のキーワードを投入することで、該当するキーワードを含むテキストが存在するページを参照可能にしている。 For example, a search engine that there are many on the network such as the Internet in order to search for such a web page, the client is, by turning on the keyword for the search on the search engine, text containing the relevant keyword is present It is to be referred to the page.

【0003】こうした検索は、クライアントによる検索の実行前に、各サイトを巡回して、そこに存在するテキストデータをすべて収集してデータベースを構築しておいたり、トップページのテキストからデータベースを構築しておくとった手法により行なわれている。 [0003] Such a search, before the execution of the search by the client, and visited each site, there or had been building a database to collect all of the text data that is present, to build a database from the text of the top page has been carried out by the technique took leave. この場合、テキストデータからの単語の抽出は、あらかじめシソーラスなどを用意し、このシソーラスに存在する単語のみ抽出したり、あるいは単純に漢字やカタカナの連続を単語として抽出するといったことが行なわれていた。 In this case, extraction of words from the text data, prepared and pre-thesaurus, be such as to extract and extract only the words that exist in the thesaurus, or simply a series of kanji and katakana as word has been performed .

【0004】検索により、該当するテキストデータを特定するためには、キーワードが存在するか否かのみを判定するものもあるが、テキストデータから取り出した多数の単語のベクトルを演算し、キーワードから演算されるベクトルとの類似度を判定するものも提案されている。 [0004] The search, in order to identify the corresponding text data, there is also intended to determine only whether the keyword is present, it calculates a vector of a number of words extracted from the text data, calculating a keyword It has also been proposed to determine the similarity between the vector to be. これは、シソーラスに存在する単語数が1万あれば、この1万の単語からなる空間を想定し、特定のテキストデータに含まれる単語がこの空間内でどのようなベクトルを構成するかを演算しておく。 This, if a word number 10,000 present in thesaurus, calculating whether the assumption space of words of 10,000, a word contained in a particular text data constituting what vector in this space keep. この場合、ベクトルの各成文は、単語の出現頻度に応じて可変される。 In this case, the codification of the vector is variable in accordance with the occurrence frequency of the word. 例えば、図18(A)に示すように、あるテキストデータAに、キーワードとして、「山」という単語が3回、 For example, as shown in FIG. 18 (A), to a certain text data A, as a keyword, the word "mountain" three times,
「川」という単語が5回出現していたとすれば、このテキストデータのベクトルAは、図18(B)に示したように、「山」「川」をそれぞれ成分としてももつベクトルとして表現される。 If a word had appeared five times referred to as "river", vector A of the text data, as shown in FIG. 18 (B), is expressed as a vector also has a component "mountain", "river", respectively that. 同様に、テキストデータBには、 Similarly, the text data B,
「山」が2回のみ現れ、「川」は出現しないとすれば、 If the "mountain" appears only twice, "river" does not appear,
そのベクトルBは、「山」軸に重なるベクトルとなり、 The vector B becomes a vector that overlaps the "mountain" axis,
テキストデータCには、「川」が3回出現するだけであるとすれば、そのベクトルCは、図示するように、 The text data C, if the "river" is only appears three times, the vector C, as shown in the figure,
「川」軸に重なったベクトルとなる。 The overlapping vector to the "river" axis. これに対して、 On the contrary,
「山、川」というキーワードか与えられた場合のベクトルDは、図示するように、「山」「川」をそれぞれ備えた単位ベクトルとなり、ベクトルA,B,Cとの比較から、テキストデータAが、もっとも類似度が高いと判定されることになる。 Vector D when given either the keyword "mountain, river", as shown, be a unit vector having "mountain", "river", respectively, vectors A, B, from the comparison C, the text data A but it will be determined that the highest similarity.

【0005】 [0005]

【発明が解決しようとする課題】しかしながら、かかる検索などの技術では、大量のテキストデータを効率よく扱うことができない、という課題があった。 The object of the invention is to be Solved However, in the technology, such as consuming search, not be able to handle efficiently the large amounts of text data, there is a problem in that. 即ち、単純なキーワード検索では、ノイズが多すぎて、検索されたテキストデータが膨大なものになってしまう。 That is, in the simple keyword search, noise is too much, the retrieved text data becomes enormous. インターネットのサイトを例にとると、インターネットに接続された世界中のサイトのテキストデータを、巡回型のエンジンで取得して、これらに含まれる単語をキーワードとして登録しておき、例えば、「パソコン」といった単語で検索をかけると、何十万というサイトがヒットしてしまう。 Taking the Internet site as an example, the text data of sites around the world that are connected to the Internet, to get in the cyclic type of engine, may be registered the words that are contained in these as keywords, for example, "PC" applying a search on words such as, site hundreds of thousands will hit. これは、テキストデータの一部に、「パソコンからもアンケートにアクセスできます」と記載されていても、該当してしまうからである。 This is, in part of the text data, be described as "You can also access the survey from PC", because the result is one of those.

【0006】他方、テキストデータに含まれる単語を用いて、そのデータ全体のベクトルを求め、このベクトルを利用して類似度を判定して検索結果に反映させる手法では、一つのサイトのテキストデータに含まれる単語の数が大きいため、演算に多大の時間と手間を要するという問題があった。 [0006] On the other hand, by using a word included in the text data, obtains a vector of the whole data, the technique of reflecting the search results to determine the similarity by using this vector, the text data of one site because the number of words contained is large, it takes much time and effort in operation.

【0007】かかる問題は、単に検索にとどまらず、検索用のデータベースの構築、要約文の作成など、自然言語(テキスト)を対象とするテキストデータの取り扱い技術において、課題となっていた。 [0007] Such a problem is simply not only to search, build a database for the search, such as the creation of a summary statement, in handling technology of text data to target natural language (text), it has been a problem.

【0008】本発明の装置は、こうした問題を解決し、 [0008] The apparatus of the present invention is to solve these problems,
計算量を提言して、かつ精度の高いテキストデータの取り扱い技術を実現することを目的とする。 And suggests the amount of calculation, and aims to achieve a handling technique accurate text data.

【0009】 [0009]

【課題を解決するための手段およびその作用・効果】上記課題の少なくとも一部を解決する本発明のキーワード抽出方法は、一定のまとまりを有するテキストデータから、該テキストデータに所定の処理を行なうためのキーワードを抽出する方法であって、前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出し、該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出することを要旨としている。 [Means for Solving the Problems and its Functions and Effects] keyword extraction process of the present invention to solve at least part of the above problems, the text data having a certain chunk, for performing predetermined processing on the text data a method of extracting a keyword, a text data having the constant unity, the words extracted by the morphological analysis, word the extracted is to assess the extent to frequently biased in said text data, evaluation value is a predetermined or more words, and summarized in that the extraction as a keyword in the text data.

【0010】また、同様の技術を用いてなされた本発明の要約文生成方法の発明は、一定のまとまりを有するテキストデータから、要約文を生成する方法であって、前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出し、該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出し、該抽出したキーワードを結合して、 [0010] The invention of summary generation method of the present invention made using the same technique, the text data having a certain chunk, a method of generating a summary, the text having a certain chunk extracting data, a word extracted by morphological analysis, word the extracted is to assess the extent to frequently biased in said text data, a word evaluation value is equal to or higher than the predetermined, as a keyword in the text data and, by combining the keyword that the extracted,
要約文を生成することを要旨としている。 It is summarized in that to generate the summary.

【0011】かかるキーワード抽出の技術は、テキストデータから形態素解析を用いて単語を抽出するので、あらかじめ抽出用のシソーラスなどを用意する必要がない。 [0011] Such keyword extraction technology, because to extract a word by using the morphological analysis from the text data, there is no need to prepare and thesaurus for the previously extracted. しかも、抽出した単語が、テキストデータの中で偏って頻出する程度を評価し、この評価値が所定以上の単語をキーワードとするので、抽出するキーワードの精度を低下させることなくその数を低減することができる。 Moreover, the extracted words, to evaluate the extent to which frequent biased in the text data, since the evaluation value is a keyword a predetermined or more words, reducing the number without decreasing the accuracy of the keywords to be extracted be able to.
自然言語を用いたテキストにおいては、出現の頻度の高い単語がキーワードになりやすいことは知られているが、単に頻度が高いだけでなく、これが偏って出現する程度を用いているので、「こと」や「時」などの汎用的な単語を除いてキーワードを抽出することができる。 In the text using natural language, but the words of high frequency of occurrence has been known that tends to be keyword, not only is a high frequency, because it uses the extent to which this is to appear biased, "it it is possible to extract the keyword with the exception of the generic words such as "and" hour ". 更に、こうして得られたキーワードを結合して要約文を生成すれば、きわめて簡易に、精度の高い、要約文を生成することができる。 Further, by generating a summary keywords thus obtained combination, very simple, highly accurate, it is possible to generate a summary. キーワードの結合による要約文の生成は、例えば、「このテキストは、」+「(抽出したキーワード群)」+「に関する。」という定型文を、要約文として生成するといった簡易な構成から、形態素解析で得られた名詞や動詞、およびそれらの結びつきの高さや、テキストデータ内での位置の情報(例えば、同一のセンテンス内に存在したか否かなど)から、これらを適宜結合して要約文を出力する構成など、種々の形態を考えることができる。 Generation of summaries by binding keywords, for example, "this text" + a "(extracted keyword group)" + "about." Fixed sentence, the simple configuration such produce as summary, the morphological analysis the resulting nouns and verbs in, and height and their association, information of the position in the text data (for example, whether or not present in the same sentence) from a summarization them appropriately combined with etc. configured to output, it can be considered a variety of forms.

【0012】ここで、一定のまとまりを有するテキストデータとしては、ネットワークを介して接続可能なサイト内に存在するデータ、いわゆるウェプページを想定することができる。 [0012] Here, the text data having a certain chunk, data via the network exists in the connectable site, it is possible to assume a so-called Wepupeji. ネットワーク、例えばインターネットに接続されたサイトの数およびそこに存在する一定のまとまりを有するテキストデータは、膨大な数に上るので、キーワード抽出に関する本発明の効果は大きい。 Network, for example, text data having a certain chunk present site number and there connected to the Internet, since amounts to a huge number, the greater the effect of the present invention relates to the keyword extraction.

【0013】また、記形態素解析による単語の抽出に際して、抽出する単語を、名詞およびサ変名詞を含む一部の単語に制限して抽出を行なうことも、検討対象とする単語の数を減らす上で好ましい。 Further, when extraction of a word by serial morphological analysis, the words to be extracted, also be extracted is limited to part of a word, including nouns and sahen nouns, in reducing the number of words to be considered for preferable. 日本語の場合、名詞とサ変名詞が、意味の大きな部分を担っていることが知られているからである。 In the case of Japanese, because the noun and the verbal noun, has been known to play a big part of the meaning. もとより、形態素解析を用いているので、動詞を原型の形で抽出することも容易である。 As well as because of the use of morphological analysis, it is easy to extract the verb form of the prototype.
動詞の中から、基礎語と呼ばれる基本的な単語、例えば「走る」「飲む」「食べる」などを更に選択して、キーワードすることも可能である。 From the verb, basic words, called the foundation word, such as "run", "drink", etc. In addition, select the "eat", it is also possible to keyword.

【0014】単語が偏って頻出する程度は、その単語が、テキストデータ内で出現する回数を、該テキストデータの量により正規化した値により評価することができる。 [0014] degree to which the words appear frequently biased, the word, the number of occurrences in the text data can be evaluated by normalized value by the amount of the text data. これは、例えばTFIDFとして知られている。 This is known for example as TFIDF. T
FIDFは、次の式で定義される。 FIDF is defined by the following equation. なお、以下の式で、 It should be noted, by the following equation,
dbは、対称となっているひとまとまりのテキストデータ(通常は、これがデータベースの対象となるデータに相当する)であり、dは、テキストデータを構成している各テキスト、tはこのテキストに含まれる単語、とする。 db is (usually this is equivalent to the data to be database) human collection of text data that is symmetrical is, d is included each text constituting a text data, t in this text words that are, to.

【0015】 TFIDF=TF(d,t)×Idf(t) …(1) 但し:TFは、テキストデータd内において単語tが出現する回数、Idfは、次式(2)による。 [0015] TFIDF = TF (d, t) × Idf (t) ... (1) provided that: TF is, the number of times the word t appears in the text data d, Idf is due to the following equation (2). Idf=LOG{DB(db)/f(t,db)} ここで、DB(db)は、ひとまとまりのテキストデータ内のテキストの数、f(t,db)は、ひとまとまりのテキストデータ内において、単語tが出現するテキストの数、である。 Idf = LOG {DB (db) / f (t, db)} Here, DB (db), the number of the text in the human group of text data, f (t, db) is human in chunks of text data in a number of the text, the word t appears.

【0016】他方、上記キーワードの抽出技術を用いて、データベースを構築することができる。 [0016] On the other hand, using the extraction technique of the keyword, it is possible to build a database. このデータベースの公知に関する発明は、一定のまとまりを有する複数のテキストデータを、キーワードを用いて分類し、 Invention of known this database, a plurality of text data having a certain chunk, and classified using keywords,
データベースを構築する方法であって、前記複数のテキストデータに対して、順次、前記一定のまとまりを有する複数のテキストデータを、形態素解析して単語を抽出し、該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出し、前記複数のテキストデータを、前記抽出したキーワードにより表現されるベクトルによって分類する処理を行ない、前記複数のテキストデータを、少なくとも前記ベクトルによって分類したデータベースを構築することを要旨としている。 A method for constructing a database, the relative plurality of text data, sequentially a plurality of text data having the constant unity, the words extracted by the morphological analysis, the words the extracted, the text data assess the extent to frequently biased in the word evaluation value is equal to or larger than the predetermined, the extracts as a keyword in the text data, a plurality of text data, classified by the vector represented by the keywords the extracted It performs processing, a plurality of text data, and the gist to build a database classified by at least the vector.

【0017】かかるデータベース構築方法に拠れば、テキストデータから形態素解析を用いて単語を抽出するので、あらかじめ抽出用のシソーラスなどを用意する必要がない。 According to the [0017] Such a database construction method, because to extract the word by using the morphological analysis from the text data, there is no need to prepare and thesaurus for the previously extracted. しかも、抽出した単語が、テキストデータの中で偏って頻出する程度を評価し、この評価値が所定以上の単語をキーワードとするので、抽出するキーワードの精度を落とすことなくその数を低減することができる。 Moreover, the extracted words, to evaluate the extent to which frequent biased in the text data, since the evaluation value is a keyword a word more than a predetermined, to reduce the number without degrading the accuracy of the keywords to be extracted that can.
自然言語を用いたテキストにおいては、出現の頻度の高い単語がキーワードになりやすいことは知られているが、単に頻度が高いだけでなく、これが偏って出現する程度を用いているので、「こと」や「時」などの汎用的な単語を除いてキーワードを抽出することができる。 In the text using natural language, but the words of high frequency of occurrence has been known that tends to be keyword, not only is a high frequency, because it uses the extent to which this is to appear biased, "it it is possible to extract the keyword with the exception of the generic words such as "and" hour ".

【0018】その上で、抽出されたキーワードにより表現されるベクトルによって、対象となったひとまとまりのテキストデータを分類し、少なくともこのベクトルによって分類したデータベースを構築することができる。 [0018] On top of that, by the vector represented by the extracted keyword to classify the text data of human unity as the object, it is possible to build a database classified by at least this vector.

【0019】こうしたデータベースの構築方法において、更に、前記複数のテキストデータについて、一定のまとまり毎に、カテゴリを指定し、前記データベースの構築の際に、ベクトルによる前記分類を、前記カテゴリ別に行なうものとしても良い。 In the process the construction of such database, further for the plurality of text data, for each fixed chunks, specify the categories, in the construction of the database, the classification by vector, as performed by the category it may be. 同様な単語が、異なるカテゴリに出現することがあり得るので、予め用意したカテゴリを用いて分類することが、データベースの精度を高める上で有効である。 Similar words, since it is possible that appear in different categories, be classified using categories previously prepared, it is effective in enhancing the accuracy of the database. 例えば、同じ「パソコン」という単語が偏って頻出したとしても、通信販売のサイトの技術用語の解説を目的としたサイトでは、検索しようとする人にとっては、意味づけが全く異なる。 For example, even if the word that the same "personal computer" was frequently biased, in the site that was the explanation of the technical terms of communication sales site with the purpose, for the people trying to search, a different meaning at all. そこで、これらを予めカテゴリにより分けておくことも、その後の検索の点から有効である。 Therefore, it is also effective in terms of the subsequent search these advance divided by category.

【0020】こうしたデータベースの構築方法により構築されたデータベースと対になった検索方法の発明を考えることができる。 [0020] can be considered the invention of the search method becomes database paired constructed by method of constructing such databases. 即ち、一定のまとまりを有する複数のテキストデータを、キーワードを用いて検索する方法であって、前記複数のテキストデータに対して、順次、 That is, a plurality of text data having a certain chunk, a method for searching using a keyword, the relative plurality of text data, sequentially
前記一定のまとまりを有する複数のテキストデータを、 A plurality of text data having the predetermined chunk,
形態素解析して単語を抽出し、該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出し、前記複数のテキストデータを、前記抽出したキーワードにより表現されるベクトルによって分類する処理を行ない、前記複数のテキストデータを、少なくとも前記ベクトルによって分類したデータベースを構築しておき、検索しようとするキーワードを入力したとき、該検索用キーワードからなるベクトルを求め、該ベクトルとの類似度によって、前記データベースから適合するテキストデータを検索することを要旨としている。 The words extracted by the morphological analysis, word the extracted is to assess the extent to frequently biased in said text data, a word evaluation value is equal to or greater than a predetermined, and extracted as a keyword in the text data, the a plurality of text data, performs a process of classifying the vector represented by the keywords the extracted, a plurality of text data in advance to build a database classified by at least the vector, enter a keyword to be searched when obtains the vector of the search keyword, the similarity between the vector, are summarized as to search for text data matching from the database.

【0021】かかる手法によれば、キーワード同士の比較ではなく、ベクトルの比較となることから、キーワード全体が指し示している領域、いわば意味的なまとまりを考慮した検索を実現することができることになる。 According to such a technique, rather than a comparison between keywords, since the comparison of vectors, so that it is possible to realize a search in consideration of region pointing the whole keyword, so to speak semantic units.

【0022】ここで、一定のまとまりを有するテキストデータとしては、ネットワークを介して接続可能なサイト内に存在するデータ、いわゆるウェプページを想定することができる。 [0022] Here, the text data having a certain chunk, data via the network exists in the connectable site, it is possible to assume a so-called Wepupeji. ネットワーク、例えばインターネットに接続されたサイトの数およびそこに存在する一定のまとまりを有するテキストデータは、膨大な数に上るので、データベース構築に関する本発明の効果は大きい。 Network, for example, text data having a certain chunk present site number and there connected to the Internet, since amounts to a huge number, effects of the present invention is greater for the database construction.

【0023】また、記形態素解析による単語の抽出に際して、抽出する単語を、名詞およびサ変名詞を含む一部の単語に制限して抽出を行なうことも、検討対象とする単語の数を減らす上で好ましい。 Further, when extraction of a word by serial morphological analysis, the words to be extracted, also be extracted is limited to part of a word, including nouns and sahen nouns, in reducing the number of words to be considered for preferable. 日本語の場合、名詞とサ変名詞が、意味の大きな部分を担っていることが知られているからである。 In the case of Japanese, because the noun and the verbal noun, has been known to play a big part of the meaning. もとより、形態素解析を用いているので、動詞を原型の形で抽出することも容易である。 As well as because of the use of morphological analysis, it is easy to extract the verb form of the prototype.
動詞の中から、基礎語と呼ばれる基本的な単語、例えば「走る」「飲む」「食べる」などを更に選択して、キーワードすることも可能である。 From the verb, basic words, called the foundation word, such as "run", "drink", etc. In addition, select the "eat", it is also possible to keyword.

【0024】単語が偏って頻出する程度は、その単語が、テキストデータ内で出現する回数を、該テキストデータの量により正規化した値により評価することができる。 The degree to which the words appear frequently biased, the word, the number of occurrences in the text data can be evaluated by normalized value by the amount of the text data. これは、例えばTFIDF(上述)として知られている。 This is known as for example TFIDF (above).

【0025】かかるキーワードの抽出方法や要約文の生成方法、あるいはデータベースの構築方法や検索方法に対応した発明として、これらの方法を実現する装置やプログラムおよびそのプログラムを記録した記録媒体などが、あり得ることはもちろんである。 The method of generating such a keyword extraction method and summary of or as an invention corresponding to the method and the search method for constructing a database, and a recording medium recording apparatus and programs, and a program for realizing these methods, there it is a matter of course to get.

【0026】 [0026]

【発明の他の態様】本願発明のキーワード抽出に関する技術は、例えば翻訳などもに用いることができる。 Technology related keyword extraction of the other aspects of the invention] The present invention can also be used for example the translation, etc.. 翻訳では、翻訳例をデータベース化することが有効であり、 In translation, it is effective to a database of translation examples,
こうしたデータベースの検索に応用できるからである。 This is because can be applied to search for such a database.

【0027】 [0027]

【発明の実施の形態】以下、本発明の実施の形態を実施例に基づいて説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, will be explained based on the embodiment examples of the present invention. (1)実施例の構成:はじめに、実施例の構成について図1を用いて説明する。 (1) Example Configuration: First, it will be described with reference to FIG. 1, structure of the embodiment. 図1は本実施例のデータベース構築を行なうシステムを示す概略構成図である。 Figure 1 is a schematic configuration diagram showing a system for database construction of this embodiment. このシステムは、インターネットのような大規模なネットワーク100に接続されたデータベースサーバ200として実現されている。 This system is implemented as a database server 200 connected to a larger network 100 such as the Internet. ネットワーク100には膨大な数のサーバ300,310,320・・・が接続されており、 And a vast number of servers 300, 310, 320, ... is connected to the network 100,
これらのサーバ300内の記憶装置には、多数のウェブページWPが格納されている。 The storage device in these servers 300, a number of web page WP is stored. 異なるアドレス(UR Different address (UR
L)が与えられたウェプページを、ここではひとまとまりのテキストデータと呼ぶ。 The Wepupeji that L) is given, referred to herein as human chunk of text data. これらのテキストデータには、メタタグなどを含んでも差し支えない。 These text data, no problem also, and the like meta tags. また、これらのウェプページは、通常、アドレスにより直接指し示された最上位のページ(以下、「表紙」という)FP In addition, these Wepupeji is, usually, the pages of the top-level pointed directly by the address (hereinafter referred to as "cover") FP
と、この表示FPから呼出可能な下位のページ(以下、 If, page (following from this display FP of the call can be lower,
便宜的な「本文」と呼ぶ)BDとから構成されている(図5参照、詳しくは後述)。 It is composed of a convenient referred to as "body") BD (see FIG. 5, described later in detail). もとより、単一のページからなるウェプページや複雑なリンクを構築したページなどもあり得るが、説明の便宜上、フロントページFP As well, but there may be such as a page that was constructed Wepupeji and complex link consisting of a single page, for convenience of explanation, the front page FP
と本文BDからなるウェプページの構成を標準として、 As standard Wepupeji of configuration consisting of a body BD,
以下の説明を行なう。 Perform the following description.

【0028】データベースサーバ200は、ネットワーク100とのデータのやり取りを制御するネットワークインタフェース(NT−I/F)210、処理を行なうCPU220、処理プログラムや固定的なデータを記憶するROM230、ワークエリアとしてのRAM24 The database server 200 includes a network interface (NT-I / F) 210 for controlling the exchange of data with the network 100, processing performs a CPU 220, ROM 230 for storing processing programs and fixed data, as a work area RAM24
0、時間を管理するタイマ250、後述する各種のデータを蓄積するデータベース(DB)260、日本語辞書などを記憶しているハードディスク270等を備える。 0, and a timer 250, a database (DB) for storing various data to be described later 260, hard disk 270 or the like that stores a Japanese dictionary for managing time.
なお、データベース260は、実際には、ハードディスクなどの記憶装置に格納されているが、ここでは、説明の都合上、独立の装置として扱うものとする。 Note that database 260 may actually have been stored in a storage device such as a hard disk, Here, for convenience of explanation, it is assumed treated as an independent device.

【0029】このシステムでは、ネットワーク100を介して公開された多数のサーバ300,・・・に備えられたサイト内のテキストデータを分類し、検索可能に公開する。 [0029] In this system, a large number of servers 300 that are exposed through the network 100, to classify the text data in a provided sites in., Searchable be published. そのために、図3に示した手順で、いくつかの処理を行なう。 Therefore, the procedure shown in FIG. 3, performs some processing. この手順は次のように構成されている。 The procedure is structured as follows.
まず、データの収集を行なう(ステップS10)。 First, the collection of data (step S10). その後、収集したテキストデータをキーワードを抽出して分類する処理を行ない(ステップS20)、得られたキーワードを用いてデータベースを構築する処理を行なう(ステップS30)、こうして得られたデータベースは、その後、公開され、ユーザが自由にアクセス可能となる(ステップS40)。 Thereafter, the collected text data subjected to processing for classifying and extracting the keyword (step S20), using the obtained keyword performs a process of building a database (step S30), thus resulting database, then published, users freely becomes accessible (step S40). こうして、このデータベース260は、誰でも、あるいは登録した会員に限って、利用することができるようになる。 In this way, the database 260, anyone, or only to the member who registered, it will be able to use.

【0030】(2)ベータベースの構築処理:ステップS10ないしS30として説明したデータベースの構築処理について、次に詳しく説明する。 [0030] (2) Beta-based construction process: to not step S10 the construction process of the database described as S30, it will be described in detail. 本実施例のデータベースの構築処理は、キーワードの抽出処理と、抽出したキーワードを用いてテキストデータを分類し、これによりデータベースを構築する処理からなる。 Building database processing of this embodiment classifies the text data by using the extraction process of the keyword, the extracted keywords, thereby consist process of constructing the database. 図4に示したように、データベースの構築処理を開始すると、まず、巡回型ロボットによりデータを収集する処理が行なわれる(ステップS11)。 As shown in FIG. 4, when starting the process of establishing a database, first, the process of collecting data is performed by recursive robot (Step S11). この処理は、ネットワーク100を介して、サーバ300,・・・内のサイトを指定するアドレスを出力して、それらのサイトからテキストデータを収集する処理である。 This process, through a network 100, server 300, and outputs an address specifying a site in ... is a process for collecting text data from those sites. ネットワーク100がインターネットの場合には、IPアドレスと呼ばれるアドレスにより、巡回するサイトを順次指定する。 If the network 100 is the Internet, the address called an IP address, in order to specify the site to patrol. IPアドレスの場合には、グローバルアドレスの割り当てが、 In the case of IP addresses, the allocation of the global address,
ある程度地域的に決まっているので、巡回エンジンの対象を、例えば日本国内に限ったり、日本と米国といったように限定することも可能である。 Since determined to some extent to the regional, the subject of the cyclic engine, for example, or only in Japan, it is also possible to limit as such as Japan and the United States. また、IPアドレスで指定したサイトからURLと呼ばれるアドレス情報を取得するとき、アドレスが「http://」で始まるアドレスは、ハイパーテキストであり、いわゆるウェッブページを構成していることから、こうしたアドレスを有するページに限って、テキストデータを取得するものとしても良い。 Also, when you get the address information that is referred to as a URL from the site specified by the IP address, the address is "http: //" starting at address is a hypertext, from the fact that make up the so-called web page, this address only the page with, may be configured to acquire the text data.

【0031】また、あるIPアドレスを指定して最初に取得するハイパーテキストのURLは、そのテキストデータのフロントページFPとして扱うことができる。 [0031] In addition, URL of the hypertext to get by specifying a certain IP address for the first time, can be treated as a front-page FP of the text data. 例えば、図5に示したように、あるIPアドレスを指定して得られたURLが、「http://www.AAA.xx.jp/INDEX.H For example, as shown in FIG. 5, the URL obtained by specifying an IP address, "http://www.AAA.xx.jp/INDEX.H
TML」であれば、このURLを、フロントページFPとするのである。 If TML ", the URL, is to the front page FP. このフロントページFPからデータを読み出すと、そのページ内には、このページFPからリンクを張られた他のページのアドレスが含まれている。 When this from the front page FP reading the data, within the page, contains the addresses of the other pages that have been stretched a link from this page FP. 図5に示した例では、「http://www.AAA.xx.Jp/BBB/INDE In the example shown in FIG. 5, "http://www.AAA.xx.Jp/BBB/INDE
X.HTML」や「http://www.AAA.xx.jp/CCC/INDEX.HTML」 X.HTML "and" http://www.AAA.xx.jp/CCC/INDEX.HTML "
などがこれに相当する。 And it corresponds to this. 巡回エンジンは、こうしたリンク先のテキストデータもすべて取得してくる。 Patrol engine, text data of these links also come to retrieve all. 但し、たのウェップページへのリンクを辿ることはしない。 However, it is not able to follow a link to a wet-flops page of the other. 即ち、同一のIPアドレスの中のテキストデータを、そのURLと共に収集するのである。 In other words, the text data in the same IP address, is to gather together with the URL.

【0032】こうして得られたテキストデータに対して、次に形態素解析を行ない、単語を抽出する処理を行なう(ステップS21)。 [0032] Thus the obtained text data, then performs a morphological analysis, a process of extracting words (step S21). 形態素解析は、日本語解析の技術として周知のものなので、詳しい説明は省略するが、図6に示すように、ハードディスク270などの記憶装置に予め用意された日本語辞書JD、特にいわゆる逆引き辞書Ijdを用い、得られたテキストデータを解析し、個々の文書を構成する単語を形態素解析により定めるのである。 Morphological analysis, because they are known as a technique in Japanese analysis, detailed description is omitted, as shown in FIG. 6, Japanese dictionary JD prepared in advance in a storage device such as a hard disk 270, in particular the so-called reverse Dictionary using Ijd, analyzing the resulting text data is the determined by the morphological analysis words constituting the individual documents. 例えば、図5に示した例で「DDという車は、品質を重視したセダンである。」という文章に対して、逆引きの日本語辞書Ijdを参照すると、「D For example, in the example shown in FIG. 5 "car that DD is a sedan with an emphasis on quality." To the sentence, referring to Japanese dictionary Ijd of reverse, "D
D」「と」「いう」「という」「い」「う」「車」 D, "" the, "" say, "" of, "" I "" U "," car "
「は」「品質」「を」「重視」「した」「し」「た」 "Is", "quality", "wo", "emphasizing," "the," "tooth", "it was"
「セダン」「で」「ある」「である」「あ」といった語を切り出すことができる。 It is possible to cut a word such as "sedan", "in", "there", "it is", "A". ここで、「い」や「う」 Here, the "I" and "U"
「あ」「し」「た」などの仮名一音も、語として切り出しているのは、「いう(言う)」の語幹「い」や「うる(売る)」の語幹「う」などが、文中に現れる可能性があるからである。 Pseudonym one sound, such as "A", "tooth", "was" also, what is cut out as a word, and "say (say)" to "sell (sell)" stem "i" and the stem of the "U", This is because there is a possibility that appear in the text.

【0033】辞書Ijdには、これらの語がその文法情報と共に記憶されている。 [0033] The dictionary Ijd, these words are stored along with the grammatical information. そこで、切り出した語を次に文法情報に従って並べて、破綻しない配列を見い出す処理を行なう。 So, side by side according to the following grammar information cut out words, performs a process of finding a sequence that does not collapse. かかる解析は、例えば複数文節最長一致法や最小コスト法といった手法が知られており、所定の語の組合わせのうちどれが最も日本語としてもっともらしいかを検定するのである。 Such analysis is, for example, a plurality clause longest match method and the least-cost method and techniques are known, such as, which of the combination of a given word is to test whether plausible as most Japanese. 例えば、「品質を」を例にとると、自立語+付属語(助詞)の結びつきの方が、自立語+自立語+付属語(助詞)よりも望ましいというルールの下、「品」(自立語・名詞)+「質」(自立語・名詞)+「を」(付属語・助詞)よりも、「品質」(自立語・名詞)+「を」(付属語・助詞)の方が、日本語として確からしいと判断するのである。 For example, take the "quality" as an example, those of the ties of the independent word + comes word (particle) is, under the independent words + independent word + comes word (particle) rule that desirable than, "goods" (self-reliance word - noun) + "quality" (independent words, noun) + than "wo" (included language and particle), is more of the "quality" (independent words, noun) + "wo" (included language Joshi), it is to determine the probable as Japanese.

【0034】こうして形態素解析を行なった後、得られた単語の品詞情報に基づき、名詞とサ変名詞に相当する単語のみを抽出する。 [0034] Thus after performing morphological analysis on the basis of the part of speech information obtained words, to extract only the words corresponding to nouns and verbal noun. もとより、動詞の原形や副詞、形容詞などを抽出しても良い。 Well, it may be extracted verbs of the original form and adverb, adjective, and the like. どのように単語を抽出するかは、分類しようとするテキストデータの種類などにもより、例えば、通常のテキストデータでは、名詞を中心に抽出を行ない、文学作品や芸術品の鑑賞に関するテキストデータは、形容詞などを中心に抽出する、といったことも好適である。 Is how to extract the word, based also on the type of text data to be classified, for example, in a normal text data, performs the extraction around the noun, text data is related to appreciation of literary works and works of art extracts, centered on adjectives, it is preferable such. スポーツに関するテキストデータについては、動詞も抽出するといったことも考えられる。 For text data is about sports, it is also conceivable, such as the verb is also extracted.

【0035】なお、この例では、文法的な語と語の結びつきに関する情報を利用して形態素解析を行なったが、 [0035] It should be noted that, in this example, but was carried out morphological analysis using the information about the ties of grammatical words and word,
抽出する単語を、漢字の熟語とカタカナ語に限れば、テキストデータから、連続する漢字文字列やカタカナ文字列を単語として取り出し、これらの単語が名詞辞書に掲載されているか否かという簡易な判断により、単語を抽出することも可能である。 The word to be extracted, As far to the idiom and katakana words of Chinese characters, from the text data, remove the kanji character string or katakana character string to be continuous as a word, a simple decision as to whether or not these words are posted on the noun dictionary Accordingly, it is possible to extract words.

【0036】こうして形態素解析により抽出された単語は、仮登録データベースに登録される。 [0036] In this way the words that have been extracted by the morphological analysis is registered in the provisional registration database. そこで、次のこの仮登録データベースの構成について説明する。 Therefore, a description will be given of the configuration of the next of the provisional registration database. この仮登録データベースは、最終的に得られるデータベースとは異なり、キーワードの抽出の処理のために、巡回エンジンが収集してきたテキストデータのアドレスと、このテキストデータから抽出された単語とを、仮に登録しておくデータベースである。 The provisional registration database, unlike the finally obtained database, for processing the keyword extraction, the address of the text data cyclically engine has been collected, the words extracted from the text data, if registered it is a database to keep. 仮登録データベースは、以下に説明する各種テーブルTBからなっている。 Provisional registration database is made from a variety of table TB will be described below.

【0037】仮登録データベースは、図7に示す構造を備える。 The provisional registration database includes a structure shown in FIG. つまり、このデータベースは、「Host」 In other words, this database, "Host"
「Page」「キーワード」「単語」という4つのテーブルからなり、テーブル「Host」と「Page」とはID番号により、テーブル「Page」と「キーワード」とはPageIDにより、テーブル「キーワード」 "Page", "keyword" consists of four called "word" of the table, by the ID number table as the "Host" and "Page", the table "Page" and "keyword" by the PageID, table "keyword"
と「単語」とはWordIDにより、それぞれ関係付けられている。 And by WordID the "word", are associated, respectively.

【0038】図8ないし図11は、これらの各種テーブルTBの詳細を示す。 [0038] FIGS. 8-11 show the details of these various tables TB. 「Host」テーブルHTBは、 "Host" table HTB is,
IDと、「HostName」とからなるテーブルであり、異なるウェッブページ毎に、異なるIDが対応付けられているものである。 And ID, a table consisting of the "HostName", in each of the different web page, one in which different ID is associated with. 従って、このテーブルHTBにIDを持っているサイト(通常は一つのIPアドレスに対応したドメインネームを有するサイト)を単位として、テキストデータの分類が行なわれることになる。 Therefore, as a unit site (usually with a domain name corresponding to one IP address) that has the ID in this table HTB, so that the classification of the text data.

【0039】「Page」テーブルPTBは、図9に示すように、「HostID」と「PageID」と「アドレス」とが対応付けられたテーブルである。 The "Page" table PTB, as shown in FIG. 9, the "HostID" and "PageID" and "address" is a table associated. このうち「くHostID」は「Host」テーブルHTBにおけるIDと同一のものである。 Among the "V HostID" is the same as the ID in the "Host" table HTB. 同一のサイト内に含まれるアドレスについては、同一の「HostID」が付けられており、その下位のページに、「PageID」が付与されている。 For the address to be included within the same site, the same "HostID" are attached, to the lower of the page, "PageID" has been granted. 「PageID」は重複を許しておらず、各アドレス毎に異なる。 "PageID" does not allow overlapping, different for each address. 従って、図9に示した例では、「www.AAA.xx.jp」で代表されるウェッブページ(「HostID」=22)の中には、「www.AAA.xx.j Thus, in the example shown in FIG. 9, in the web page represented by "www.AAA.xx.jp" ( "HostID" = 22), "www.AAA.xx.j
p/CCC/INDEX.HTML」や、「www.AAA.xx.jp/DDD/power.HT p / CCC / INDEX.HTML "and," www.AAA.xx.jp/DDD/power.HT
ML」、「www.AAA.xx.jp/EEE/Keep.HTML」といったアドレスのページが含まれていることが分かる。 ML ", it can be seen that contains pages of address such as" www.AAA.xx.jp/EEE/Keep.HTML ". 「Page "Page
ID」も重複を許しておらず、全ページ対してユニークな番号が付与されている。 ID "is also not allowed to duplicate, unique number has been granted for all the pages. なお、これらの説明における「ページ」は、印刷単位としてのページではなく、一つのURLを付与されたテキストデータのまとまりを意味している。 It should be noted that the "page" in these descriptions, rather than the page as a printing unit, which means the collection of text data that has been granted one of the URL. 従って、単一のURLが与えられていれば、 Therefore, if given a single URL,
極めて少ないテキストデータから構成されたページであれ、印刷すれば何十頁にも及ぶようなテキストデータから構成されたページであれ、一つのページである。 It is very small if a page that has been constructed from the text data, pages that have been constructed from the text data, such as also extends to hundreds of pages when printing, which is one of the page.

【0040】なお、この「Page」テーブルPTB [0040] In addition, the "Page" table PTB
は、本実施例では、複数の「HostID」に対するものを全て含めて構成したが、一つの「HostID」毎に設けても良い。 Is, in this embodiment, is constituted by including all those for multiple "HostID", it may be provided for each one of the "HostID". 同様に以下に説明する「キーワード」 Similarly, described in the following "keyword"
テーブルKTBや「単語」テーブルWTBも、各「Pa Table KTB and "word" table WTB also, each "Pa
ge」毎、各「キーワード」毎に設けても良い。 ge "each, may be provided for each of the" keyword ".

【0041】「キーワード」テーブルKTBは、図10 [0041] "keyword" table KTB, as shown in FIG. 10
に示すように、「WordID」と「PageID」と「Cost」とが対応付けられたテーブルである。 As shown in a "WordID" and "PageID" and "Cost" is a table associated. このうち「WordID」は、先に形態素解析により抽出された単語に付与されたIDであり、単語毎に対してユニークな値が付与されている。 Among "WordID" is an ID assigned to word extracted by previously morphological analysis, a unique value is assigned to each word. そして、各単語が、一つの「PageID」を有するページ内に何回出現したかをカウントし、これを「Cost」に格納している。 Then, each word counts whether it has appeared many times in a page with one of the "PageID", and stores it in the "Cost".

【0042】「単語」テーブルWTBは、「WordI The "word" table WTB is, "WordI
D」と「単語」と「F値」とを対応付けて記憶しているテーブルである。 It is a table that associates and stores the D "and" word "and" F value ". 即ち、「キーワード」テーブルKTB In other words, "keyword" table KTB
により、各単語毎に、ページ内の出現回数「Cost」 By, for each word, the number of occurrences of the page "Cost"
が求められているので、これが0でないページ、即ち、 Because there is a demand, the page which is not 0, that is,
その単語が出現したページ数を、単語毎(「WordI The number of pages the word has appeared, the words each ( "WordI
D」毎)に累積する。 To accumulate in D "each). その上で、単語tとその累積値F On top of that, word t and its cumulative value F
(t,db)とを、各サイト毎に求め、これを記憶しているのである。 (T, db) and obtains for each site, with each other to store them. 図11に示した例では、このサイトにおいて単語「車」が出現したページ数306、「特長」といった一般的な用語の出現したページ数は多く、124 In the example shown in FIG. 11, page number 306 the word "car" has emerged in this site, emerging number of pages in general terms "feature" Many 124
0、などとなっている。 0, has become such.

【0043】以上で、図4に示したステップS22までの処理を終了し、次に、頻度評価の処理を行なう(ステップS23)。 [0043] In the above, the process ends up step S22 shown in FIG. 4, then performs processing of frequency evaluation (Step S23). この処理は、具体的には、既述したTF This process, more specifically, previously described TF
IDFの値を求める処理を行なう。 It performs processing for determining the value of IDF. TFIDFの値は、 The value of TFIDF is,
式(1)(2)から求められるが、式(1)(2)を、 Although obtained from equation (1) (2), Equation (1) (2),
この各サイトが持っているウェップページの形に適用すると、 TFIDF=TF(d,t)×Idf(t) …(1) 但し:TFは、ひとつのURLで指定されたページ(本文BD)d内において単語tが出現する回数、であるとなる。 When applied in the form of wet-flops pages this each site has, TFIDF = TF (d, t) × Idf (t) ... (1) provided that: TF is one of the URL specified in the page (text BD) d word t is the number of times, which appears at the inner. 従って、図6ないし図11で示したケースで、 Accordingly, in the case shown in FIGS. 6 to 11,
「車」を例に採ると、「WordID」=3であり、 Taking the "car" as an example, it is a "WordID" = 3,
「PageID」=4であるアドレス「www.AAA.xx.jp/ "PageID" = 4 in which address "www.AAA.xx.jp/
CCC/INDEX.HTML」内には、「車」という単語は2回出現したことになり、全単語数807001により正規化した出現頻度TF(d,「車」)は、 The CCC / INDEX.HTML "in the word" car "will be appeared twice, the occurrence frequency TF normalized by the total number of words 807001 (d," car ") is, となる。 To become.

【0044】一方、そのIdfは、図11および次式(2)により計算する。 On the other hand, the Idf is calculated by 11 and the following equation (2). Idf=LOG{DB(db)/F(t,db)} …(2) ここで、DB(db)は、特定のサイト内に存在する全ページの数、従って、図9に示した例では、同一の「H Idf = LOG {DB (db) / F (t, db)} ... (2) where, DB (db), the number of all pages that exist in a specific site, therefore, in the example shown in FIG. 9 , the same "H
ostID」を有するページの数であり、この例では、 Is the number of pages having ostID ", in this example,
36456であった。 It was 36,456. 他方、F(t,db)は、図11 On the other hand, F (t, db) is 11
に示したF値である。 Is the F values ​​shown in. 「車」について、式(2)を計算すると、 Idf=LOG(36456/306) =LOG(1257)=4.7802760 従って、 TFIDF=TF×Idf=0.0000024×4.7802760 =0.0000115 となる。 For "car", when calculating the equation (2), Idf = LOG (36456/306) = LOG (1257) = 4.7802760 Accordingly, the TFIDF = TF × Idf = 0.0000024 × 4.7802760 = 0.0000115 Become.

【0045】上記の計算を、「PageID」=4の単語「車」「特長」「次世代」「エネルギ」について行なった結果を、図12に示す。 [0045] The above calculation, the results were carried out for the "PageID" = 4 word "car", "Features", "Next Generation", "energy", shown in Figure 12. この結果、単に出現回数(TFの値)だけであれば、「特長」>「車」=「次世代」>「エネルギ」となっているのが、TFIDFの値では、「次世代」>「特長」>「車」>「エネルギ」という順になることが分かる。 As a result, if simply the number of occurrences (the value of the TF), has become the "Features"> "car" = "next generation"> "energy" is, in the value of TFIDF, "next generation"> " Features ">" car "> it can be seen that to be in the order of" energy ".

【0046】次に、平均ベクトルの計算を行なう(図4、ステップS24)。 Next, the calculation of the mean vector (Fig. 4, step S24). 上述したTFIDFの演算は、 The calculation of TFIDF described above,
一つの「PageID」について行なっている。 One of which carried out for the "PageID". 即ち、 In other words,
一つのサイトは、通常複数のページから構成されているので、上記の演算を各ページ(一つのIPアドレスの下のユニークなURLを有するテキストデータ)について行なうと、ページ毎に、TFIDF値を求めることができる。 One site, because it is constructed from some pages, the above-described operation is performed for each page (text data with unique URL of under one IP address), for each page, obtains the TFIDF value be able to. そこで、これらのTFIDF値を平均することで、平均ベクトルを求めるのである。 Therefore, by averaging these TFIDF value is to determine the average vector. 即ち、一つのサイトに存在するページ数をN、各ページのTFIDF値をTFIDFi(i=1,2,・・・N)とすると、平均ベクトルTFIDFavは、 TFIDFav=(TFIDF1+TFIDF2+・・ That is, when the number of pages existing in one site N, TFIDFi the TFIDF values ​​of each page (i = 1,2, ··· N) and the average vector TFIDFav is, TFIDFav = (TFIDF1 + TFIDF2 + ··
・TFIDFN)/N として求めることができる。 · TFIDFN) can be obtained as / N. こうしては、一つの単語についてのそのサイトにおけるTFIDF値が求められた。 May thus, TFIDF value at that site for one word has been determined.

【0047】こうして各キーワードについて、平均TF [0047] Thus, for each keyword, the average TF
IDF値を求めた段階で、TFIDF値が所定値、例えば値0.00001以上の単語だけをキーワードとして抽出する。 In step of obtaining the IDF value, TFIDF value is extracted predetermined value, for example, the value 0.00001 or more only words as keywords. 次に、このサイト(www.AAA.xx.jp )についてのベクトルBaを演算し、これをこのサイトのキーワードとして、データベースに登録する処理を行なう(ステップS31)。 Then, it calculates the vector Ba for this site (Www.AAA.Xx.Jp), this as a keyword for this site, performs processing for registering in the database (step S31). 即ち、 Ba=(b1、b2・・・・bm) b1,b2・・・bmは、平均TFIDFが値0.00 In other words, Ba = (b1, b2 ···· bm) b1, b2 ··· bm, the average TFIDF the value 0.00
001以上の単語とその平均TFIDF値である。 001 or more words to be the average TFIDF value. こうして一つの単語についてのベクトルBaを求めた後、以上の処理を全サイトの全ページに出現する全単語について繰り返す。 Thus, after obtaining the vector Ba for one word, repeated for all the words that appear above processing to all pages of the entire site. この結果、巡回エンジンが集めてきた膨大なサイトについての情報が、ベクトルBa・・・の集合として、蓄積されることになる。 As a result, information about the vast site cyclic engine has been gathered, as a set of vectors Ba · · ·, to be accumulated. これがデータベース2 This is the database 2
60に相当する。 Corresponding to the 60.

【0048】なお、上記のベクトルの演算と登録の処理において、ベクトルBaは、平均TFIDFが、所定値以上の単語のみから構成しても良いし、辞書に用意した全単語を要素として構成しても良い。 [0048] In the process of registration and calculation of the vector, the vector and Ba, average TFIDF is may be composed of only the words above a predetermined value, constitutes a whole word prepared in the dictionary as elements it may be. この場合、TFI In this case, TFI
DF値が所定値以下の単語についてのTFIDF値は、 TFIDF value of DF values ​​for words less than a predetermined value,
値0に近似する。 It approximates to a value of 0. いずれにせよ、ベクトルの要素数が減るか、値0の要素が増えるので、演算を容易に行なうことができる。 In any case, whether the number of elements of the vector is reduced, since the elements of the value 0 increases, it is possible to perform the operation easily.

【0049】以上の処理によりデータベース260が完成すると、次にこのデータベースが外部に公開され、自由な使用、または登録した会員の使用に供される。 [0049] When the database 260 is completed by the above processing, then the database is exposed externally, is subjected to the use of free use or registered member. このとき、データベースに直接アクセスするような構成も可能であるが、ネットワーク100を介して不特定多数のクライアントからアクセス可能とするには、例えば、データベース260をアクセスするためのCGIを備えたサイトを、サーバ200内に用意し、クライアントは、 At this time, it is also possible configuration in which direct access to the database, via a network 100 from an unspecified number of clients to allow access, for example, a site with a CGI for accessing the database 260, available to the server 200, the client,
ネットワーク100を経由して、いわゆるブラウザから、このデータベース260にアクセスできるようにするのが通常である。 Via the network 100, the so-called browser, it is usual to be able to access the database 260. そこで、次にデータベースを用いて、ウェップページの検索を行なう手法について、説明する。 Accordingly, then using the database, the method for searching the wet flop pages, will be described. 図13は、検索時の処理を示すフローチャートである。 Figure 13 is a flowchart showing the processing during the search. まず、検索を開始するクライアントは、検索用に用意されたサイトにアクセスする(ステップS40 First, the client initiating the retrieval accesses prepared for search site (Step S40
0)。 0). この結果、図14に示すような、検索画面が表示される。 As a result, as shown in FIG. 14, the search screen is displayed.

【0050】そこで、クライアントは、この画面に用意されたキーワード記入ボックスKBに、検索内容を、日本語による文章として入力する(ステップS410)。 [0050] Therefore, the client, the keyword entry box KB that is provided on this screen, the search content, enter as a sentence in Japanese (step S410).
例えば、図14(A)に示したように、文字列を入力するボックスTBに、「次世代」といった文字列を入力する。 For example, as shown in FIG. 14 (A), the box TB for inputting a character string, to input a character string such as "next-generation". このとき、同図に示すように、検索分野などを併せて指定するようにしても良い。 At this time, as shown in the figure, it may be designated together and search areas. このとき、絞り込み検索をする必要があるときには、再度図14(A)を表示して、順次絞り込んでいくようなインタフェースにしても良いし、「次世代,車」といったように、コンマ(,) In this case, when there is a need to narrow the search, display again to FIG. 14 (A), it may be in the interface, such as narrowing down sequentially, as such as "the next generation, the car", a comma (,)
で複数の単語を入力するようにしても良い。 In may be enter more than one word. あるいは、 Alternatively,
図14(B)に例示するように、「次世代の車について」などと自然文で入力するものとしても良い。 As illustrated in FIG. 14 (B), it may be used to input a natural sentence such as "next-generation cars." このとき、検索文の入力に並行して、「検索」ボタンBBが押されたかを監視し(ステップS420)、検索ボタンが押された時には、入力された単語や文章を読み取り、図14(A)に示した入力の場合には、単語と分野を抽出し、図14(B)に示した入力の場合にはこの文章を形態素解析して、いずれにせよ単語を抽出する処理を行なう(ステップS430)。 At this time, in parallel to the input of the search statement, monitors or "Search" button BB is pressed (step S420), when the search button is pressed, read the words and sentences that are input, FIG. 14 (A If the input shown in), extracting word and fields, and morphological analysis of the sentence in the case of the input shown in FIG. 14 (B), it performs a process of extracting words anyway (step S430). 形態素解析により単語を抽出する場合には、単語としては、名詞やサ変名詞に限定して抽出しても良いし、他の品詞まで含んで抽出しても良い。 When extracting a word by the morphological analysis, the words may be extracted as limited to nouns and verbal noun may be extracted comprise up other parts of speech. 図14(B)には、検索用の文章から、単語が抽出される様子も模式的に示した。 The FIG. 14 (B), the from the text for the search, how words are extracted also shown schematically.

【0051】単語、あるいは単語と分野を抽出した後、 The word or after extracting the word and field,,
得られたs個の単語D1,D2・・・Dsについて、そのベクトルBsを求める処理を行ない(ステップS44 The resulting s number of words D1, D2 ··· Ds, performs processing of obtaining the vector Bs (step S44
0)、このベクトルBsに最も近いベクトルを有するサイトをデータベース260から検索する処理を行なう(ステップS450)。 0), it performs a process of searching for sites having the closest vector in this vector Bs from the database 260 (step S450). 即ち、図15に模式的に示したように、各サイトが、多数の単語を要素とし、そのTF That is, as schematically shown in FIG. 15, each site, and a number of words as elements, the TF
IDF値により重み付けられた単語の集合からなるベクトルとして、データベース260に記憶されているので、与えられた文章から得られた検索用のキーワードが構成するベクトルと、データベース260に登録されたベクトルとの類似度を判定し、最も類似するベクトルを有するサイトから順に、検索結果を出力するのである(ステップS470)。 As a vector consisting of a set of words weighted by IDF values, since they are stored in the database 260, a vector search keywords obtained from a given sentence constitutes, with vectors registered in the database 260 determining the similarity, in order from the site having the vector most similar is to output the search result (step S470). 出力された検索結果は、ネットワーク100を介してクライアントに送られ、クライアント側のマシンの画面に表示される。 Output search results are sent to the client via the network 100, is displayed on the screen of the client side of the machine.

【0052】かかる手法によれば、サイトを構成しているページ内で、単語がどの程度偏って出現するかという情報(TFIDF値)を用いて、サイトを分類しておき、これをデータベース260に、TFIDF値が所定以上の単語の集合として登録しておき、このデータと検索用のキーワードとして与えられた言葉のベクトルとの類似を見ているから、単にキーワードの一致を見るのではなく、サイトの持っている固有の特長を捉えた検索が可能となる。 [0052] According to such an approach, in the pages that make up the site, using the information indicating words how unevenly appearing (TFIDF value), previously classified sites, which the database 260 , TFIDF value may be registered as a set of predetermined amount or more of the word, because they look similar to the vector of a given word as a keyword for search this data, rather than simply watch the match of the keyword, site search that captures the unique features that have the is possible.

【0053】次に本発明の第2の実施例について説明する。 [0053] Next will be described a second embodiment of the present invention. 第2実施例では、第1実施例とほぼ同様の処理を行なうが、データベースを構成する際、まず予備的な処理として、いくつかの代表的なサイトについて、マニュアル処理による分類を付与する処理を併せて行なう。 In the second embodiment, it is performed substantially the same processing as the first embodiment, when configuring the database, first as a preliminary treatment, for some representative sites, the treatment for imparting classification by manual processing together carried out. 即ち、巡回エンジンにより、例えば数千程度の数のサイトの情報を収集し、このサイトに存在するテキストデータから単語を抽出してTFIDF値を計算し、ベクトルを求める際、そのサイトのフロントページFPを登録者が参照し、そのフロントページにふさわしい分類を付与する処理を行なうのである。 That is, the cyclic engine, for example, to gather information about several thousands of the number of sites, the TFIDF value is calculated by extracting words from the text data existing in the site, when determining the vector, front page FP of the site the reference subscribers, is to carry out the process of giving the appropriate classification on its front page. 即ち、図4に示したステップS31において、TFIDF値が所定以上の単語からなるベクトルを登録する際、分類項目を付加するのである。 That is, in step S31 shown in FIG. 4, when registering a vector TFIDF value is a predetermined or more words, is the addition of category. 分類項目としては、「通信販売」「趣味」「政治」 The classification item, "mail order", "hobby", "politics"
「経済」といった種々の分類を適用可能である。 It is possible to apply a variety of classification such as "economy". もとより、産業分類などを用いても良い。 Well, or the like may be used industry classification.

【0054】この場合、図16に例示するように、マニュアルで与えた分類に含まれる多数のサイトのベクトルは、ある広がりをもって存在することになる。 [0054] In this case, as illustrated in FIG. 16, a vector of a large number of sites included in the classification given manually, will be present with a certain spread. そこで、 there,
この広がりの中心を、かかる分類を代表するベクトルB The center of this spread, the vector B representing such classification
C1、BC2・・・として定義する。 It is defined as C1, BC2 ···. また、処理したサイトのベクトルの広がりから、中心に対するばらつき(分散)の程度も定めることができる。 Moreover, the spread of the vector of the treated site, can also be determined degree of variation (dispersion) with respect to the center. 予め、こうした処理を行なうことで、次にインターネット上の全サイトのテキストデータを巡回エンジンにより収集してきたとき、得られたベクトルから、そのサイトの分類を容易に定めることができる。 Advance, by performing such processing, the next time that has been collected by the cyclic engine text data of all the sites on the Internet, from the resulting vector can be determined the classification of the site easier. データベース260は、第1実施例のように、特定の分類を持たずに、各サイトの情報を登録しても良いが、分類を付与してやれば、例えば目次のような形で情報を提示することも可能になる。 Database 260, as in the first embodiment, without a specific classification, it may register information on each site, do it by applying a classification, to present information for example in the form as a table of contents it also becomes possible.

【0055】かかる実施例によれば、分類の中心と広がりをベクトル的に定義することができるので、新しいサイトのテキストデータを解析した結果、そのサイトをどの分類に分類するかを容易に定めることができる。 [0055] According to the embodiment, since the center and spread of the classification can be vectorially definition, as a result of analyzing the text data of the new site, be determined whether to classify the site to which the classification easier can. なお、いずれにも分類できないサイトが存在した場合には、その旨、サーバ200の運用者に警告し、新たな分類を付与するといった処理を行なうものとしても良い。 In the case where any site that can not be classified was present, that fact, to warn the operator of the server 200, may be to perform the process of imparting a new classification.

【0056】かかる分類付きのデータベース260を用意した場合には、クライアントが検索を行なう場合には、まずこの分類を指定することで、検索範囲を絞る込むといった使い方をすることができる。 [0056] If you have provided such a classification with a database 260, if the client performs a search, by first specifying this classification, it is possible to how to use such Komu narrow your search range. インターネット上のサイトなどは、多数にのぼるので、分類を与えて検索を行なうことは、検索の効率を上げる上で有効である。 Such sites on the Internet, so up to many, the performing the search gives a classification, is effective in increasing the efficiency of the search.

【0057】次に、本発明の第3実施例について説明する。 Next, a description will be given of a third embodiment of the present invention. 第3実施例は、与えられたテキストデータから要約文を生成する要約文生成装置である。 The third embodiment is a summary generator for generating a summary from the given text data. この要約文生成装置は、第1実施例のサーバ200に設けられており、第1実施例で説明したデータベースの生成処理を利用して要約文を生成する。 This summary generation apparatus is provided in the server 200 of the first embodiment, it generates a summary by using the process of generating the database described in the first embodiment. 即ち、図17に示すように、データベース260への登録が完了した後(図4、ステップS That is, as shown in FIG. 17, after the registration in the database 260 is completed (FIG. 4, step S
31)、一つのサイトについて登録したキーワードを読みだし(ステップS500)、そのキーワードの中から最もTFIDF値が高かった単語Lを5個取り出す処理を行なう(ステップS510)。 31), reads the keywords registered for one site (step S500), it performs five retrieve processing words L most TFIDF value is high from among the keywords (step S510). その上で、これらの単語L1,L2・・・L5を並べて、「このサイトは、L On top of that, by arranging these words L1, L2 · · · L5, "this site, L
1,L2,L3,L4およびL5に関する。 1 relates L2, L3, L4 and L5. 」という文を生成する処理を行なう(ステップS520)。 It performs a process of generating a sentence "(step S520). この文は、このサイトの内容を最も短く表現した文とみなせるので、これをデータベース260に登録する(ステップS530)。 This statement, therefore regarded as the shortest representation to statement the contents of the site, and registers it in the database 260 (step S530). その後、クライアントからの検索が行なわれ、検索用のキーワード群から指定された内容に類似するサイトを出力する際、そのURLと共に、この文章を要約文として出力する。 Then, search from a client is performed, when outputting the sites similar to what is specified from the keyword group for searching, with its URL, and outputs this sentence as summary.

【0058】かかる実施例によれば、サイトの内容を最も簡潔に表現した要約文を簡単に生成することができ、 According to [0058] such an embodiment, it is possible to produce easily summary of the most succinctly represent the content of the site,
検索されたサイトの内容を知る上で、極めて有効な情報として活用することができる。 In understanding the contents of the search sites, it can be used as extremely effective information. なお、この例では、キーワードとして名詞やサ変名詞だけが登録されているものとしたが、キーワードとして動詞や形容詞などが登録されており、かつそれらの単語同士の関係、例えば同一のページに出現したか否か、などが記憶されている場合には、形態素解析利用して一定の文を生成するものとしても良い。 In this example, only nouns and verbal noun as a keyword was assumed to be registered, such as verbs and adjectives as keywords is registered and the relationship of those words to each other, appeared for example on the same page whether, if such is stored may be configured to generate a constant statement using morphological analysis. この場合、例えば、名詞L1を中心にして形容詞a1と動詞V1とが一つのページに現われていたとすれは、「このサイトは、a1L1が、V1ことに関する。」というように、文を生成することができる。 In this case, for example, is by and around the noun L1 is the adjective a1 and verbs V1 had appeared in one of the page, "this site is, a1L1 is about. V1 that" and so on, to produce a statement can. もとより、名詞L1と、動詞V1との間には、「主語+述語」になりうるもの、「目的語+述語」になる得るものなどのが有り、これらの情報は、予め辞書などに用意することができるから、名詞L1と動詞V1とを検定して、「このサイトは、a1L1を、V1ことに関する。」という文を生成すると言ったことも可能である。 As well as a noun L1, between the verb V1, as it can become a "subject + predicate", there is the, such as those that may become "object + predicate", these information will be provided, such as a pre-dictionary since it is possible, to test the noun L1 and a verb V1, "this site is, the a1L1, on. V1 that" it is also possible to said that to produce the statement.
文末も、V1が、サ変名詞なら「V1すること」のように自然な日本語として生成すればよい。 The end of the sentence also, V1 is, may be generated as a natural Japanese as if the verbal noun "It is V1".

【0059】以上、本発明の実施の形態について説明したが、本発明はこうした実施の形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において、更に種々なる形態で実施し得ることは勿論である。 [0059] While there have been described embodiments of the present invention, the present invention is not all limited to such an embodiment, without departing from the scope and spirit of the present invention, implemented in further various Naru forms it is a matter of course to obtain.
例えば、データベースの構築のみを行なう装置やその方法として実現しても良いし、キーワードを抽出するだけの装置やその方法として実現しても良い。 For example, may be implemented as an apparatus and a method for performing only the construction of the database, it may be realized as an apparatus and method for simply extracting a keyword. また、翻訳装置に応用することも可能である。 It is also possible to apply to the translation apparatus. 翻訳は、単に文法情報を用いて言語間の変換を行なおうとしても上手く行かず(必要な規則が無限に大きくなる)、むしろ豊富な用例を用意し、翻訳にマッチした用例を見い出して、これを適用するような形で訳した方が、意味的に正確な翻訳にできることが知られている。 Translation is, simply not go well (the necessary rules become infinitely large) even attempt is made the conversion between the language by using the grammar information, providing a rather rich example, it finds a matching example in translation, It is better to translate in such a manner as to apply it, known to be semantically correct translation. そこで、与えられたテキストデータに、本発明を適用してキーワードを抽出し、これを利用して用例を特定するといった使い方が可能である。 Therefore, the given text data, extracting keywords by applying the present invention, it is possible to use such uses to identify the examples of this.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明の各実施例における全体構成を示す概略構成図である。 1 is a schematic diagram showing the overall configuration of the embodiments of the present invention.

【図2】データベースサーバ200の構成を示すブロック図である。 2 is a block diagram showing the configuration of the database server 200.

【図3】実施例における工程の概略を示す説明図である。 3 is an explanatory view schematically showing a step in the embodiment.

【図4】データベースサーバ200が行なうデータベース構築の処理を示すフローチャートである。 4 is a flowchart showing the processing of a database construction database server 200 is performed.

【図5】ウェップページでのデータのリンクの様子を説明する説明図である。 FIG. 5 is an explanatory diagram for explaining a state of link of data in the wet-flops page.

【図6】テキストデータに対する形態素解析について例示する説明図である。 6 is an explanatory diagram exemplifying the morphological analysis for the text data.

【図7】仮登録データベースの構成を示す説明図である。 7 is an explanatory diagram showing the structure of a provisional registration database.

【図8】「Host」テーブルHTBの一例を示す説明図である。 8 is an explanatory diagram showing an example of the "Host" table HTB.

【図9】「Page」テーブルPTBの一例を示す説明図である。 FIG. 9 is an explanatory view showing an example of the "Page" table PTB.

【図10】「キーワード」テーブルKTBの一例を示す説明図である。 10 is an explanatory view showing an example of a "keyword" table KTB.

【図11】「単語」テーブルWTBの一例を示す説明図である。 11 is an explanatory diagram showing an example of a "word" table WTB.

【図12】TFIDF値の計算例を示す説明図である。 It is an explanatory diagram showing a calculation example of FIG. 12 TFIDF value.

【図13】実施例における検索時の処理を示すフローチャートである。 13 is a flowchart showing the search processing when the embodiment.

【図14】検索画面の一例を示す説明図である。 14 is an explanatory diagram showing an example of a search screen.

【図15】検索における類似判定の様子を模式的に示す説明図である。 15 is an explanatory view schematically showing a state of similarity determination in the search.

【図16】分類とベクトルとの関係を模式的に示す説明図である。 16 is an explanatory view schematically showing the relationship between the classification and vector.

【図17】要約文生成処理を示すフローチャートである。 17 is a flowchart showing a summary generation process.

【図18】キーワードからベクトルを求めてデータの類似を判断する従来の手法を示す説明図である。 18 is an explanatory diagram showing a conventional method of determining the similarity of the data in search of vector from the keyword.

【符号の説明】 DESCRIPTION OF SYMBOLS

100…ネットワーク 200…データベースサーバ 220…CPU 230…ROM 240…RAM 250…タイマ 260…データベース 270…ハードディスク 300,310,320…サーバ 100 ... network 200 ... database server 220 ... CPU 230 ... ROM 240 ... RAM 250 ... timer 260 ... database 270 ... hard disk 300, 310, 320 ... server

Claims (18)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 一定のまとまりを有するテキストデータから、該テキストデータに所定の処理を行なうためのキーワードを抽出する方法であって、 前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出し、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出するキーワード抽出方法。 From 1. A text data having a certain chunk, a method of extracting a keyword for performing a predetermined processing on the text data, the text data having the constant unity, words and morphological analysis extracted, words the extracted is to assess the extent to frequently biased in the text data, the keyword extraction method evaluation value is extracted words or predetermined, as a keyword in the text data.
  2. 【請求項2】 前記一定のまとまりを有するテキストデータが、ネットワークを介して接続可能なサイト内に存在するデータである請求項1記載の抽出方法。 2. A text data having the predetermined chunk is extraction method according to claim 1, wherein the data present in the connectable sites through the network.
  3. 【請求項3】 前記形態素解析による単語の抽出に際して、抽出する単語を、名詞およびサ変名詞を含む一部の単語に制限して抽出を行なう請求項1または請求項2記載の抽出方法。 In 3. Extraction of words by the morphological analysis, the words to be extracted, nouns and extraction method according to claim 1 or claim 2, wherein the extraction is limited to part of a word, including a verbal noun.
  4. 【請求項4】 前記単語の偏って頻出する程度を、該単語が、前記テキストデータ内で出現する回数を、該テキストデータの量により正規化した値により評価する請求項1ないし請求項3のいずれか記載の抽出方法。 The extent to which 4. frequent biased with said word, said word is the number of times that occur in the text data of claim 1 to claim 3 to evaluate the normalized value by the amount of the text data the extraction method according to any one.
  5. 【請求項5】 一定のまとまりを有する複数のテキストデータを、キーワードを用いて分類し、データベースを構築する方法であって、 前記複数のテキストデータに対して、順次、 前記一定のまとまりを有する複数のテキストデータを、 5. The plurality of text data having a certain chunk, and classified using a keyword, a method for constructing a database, to the plurality of text data, sequentially plurality having a certain chunk the text data,
    形態素解析して単語を抽出し、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出し、 前記複数のテキストデータを、前記抽出したキーワードにより表現されるベクトルによって分類する処理を行ない、 前記複数のテキストデータを、少なくとも前記ベクトルによって分類したデータベースを構築するデータベース構築方法。 The words extracted by the morphological analysis, word the extracted is to assess the extent to frequently biased in said text data, a word evaluation value is equal to or greater than a predetermined, and extracted as a keyword in the text data, the a plurality of text data, performs a process of classifying the vector represented by the keywords the extracted, a plurality of text data, process database building to build a database classified by at least the vector.
  6. 【請求項6】 前記一定のまとまりを有するテキストデータが、ネットワークを介して接続可能なサイト内に存在するデータである請求項5記載のデータベース構築方法。 6. A text data having the predetermined chunk is, database construction process of claim 5 wherein the data present in the connectable sites through the network.
  7. 【請求項7】 前記形態素解析による単語の抽出に際して、抽出する単語を、名詞およびサ変名詞を含む一部の単語に制限して抽出を行なう請求項5または請求項6記載のデータベース構築方法。 Upon 7. Extraction of words by the morphological analysis, the words to be extracted, nouns and verbal claim 5 or claim 6 database construction method according to extract is limited to part of a word, including a noun.
  8. 【請求項8】 前記単語の偏って頻出する程度を、該単語が、前記テキストデータ内で出現する回数を、該テキストデータの量により正規化した値により評価する請求項5ないし請求項7のいずれか記載のデータベース構築方法。 The extent to which 8. frequent biased with said word, said word is the number of occurrences in the text data, the claims 5 to 7 to evaluate the normalized value by the amount of the text data database construction method according to any one.
  9. 【請求項9】 請求項5ないしの請求項8いずれか記載の方法であって、 前記複数のテキストデータについて、一定のまとまり毎に、カテゴリを指定し、 前記データベースの構築の際に、ベクトルによる前記分類を、前記カテゴリ別に行なうデータベースの構築方法。 9. A method according to any one of claims 8 of claims 5, for the plurality of text data, for each fixed chunks, specify the categories, in the construction of the database, according to the vector how to build a database to perform the classification, by the category.
  10. 【請求項10】 一定のまとまりを有するテキストデータから、要約文を生成する方法であって、 前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出し、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出し、 該抽出したキーワードを結合して、要約文を生成する要約文生成方法。 From 10. text data having a certain chunk, a method of generating a summary, the text data having the constant unity, the words extracted by the morphological analysis, the words the extracted, the assess the extent to frequently biased in the text data, a word evaluation value is equal to or greater than a predetermined, and extracted as a keyword in the text data, by combining the keywords that the extracted, generated summary for generating a summary Method.
  11. 【請求項11】 一定のまとまりを有する複数のテキストデータを、キーワードを用いて検索する方法であって、 前記複数のテキストデータに対して、順次、 前記一定のまとまりを有する複数のテキストデータを、 A plurality of text data with 11. Certain chunks, a method of searching using a keyword, the relative plurality of text data, sequentially a plurality of text data having the predetermined chunk,
    形態素解析して単語を抽出し、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出し、 前記複数のテキストデータを、前記抽出したキーワードにより表現されるベクトルによって分類する処理を行ない、 前記複数のテキストデータを、少なくとも前記ベクトルによって分類したデータベースを構築しておき、 検索しようとするキーワードを入力したとき、該検索用キーワードからなるベクトルを求め、 該ベクトルとの類似度によって、前記データベースから適合するテキストデータを検索する検索方法。 The words extracted by the morphological analysis, word the extracted is to assess the extent to frequently biased in said text data, a word evaluation value is equal to or greater than a predetermined, and extracted as a keyword in the text data, the a plurality of text data, performs a process of classifying the vector represented by the keywords the extracted, a plurality of text data in advance to build a database classified by at least the vector, enter a keyword to be searched when obtains the vector of the search keyword, the similarity between the vector search method for searching text data matching from the database.
  12. 【請求項12】 一定のまとまりを有するテキストデータから、該テキストデータに所定の処理を行なうためのキーワードを抽出する装置であって、 前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出する形態素解析手段と、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価する頻度評価手段と、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出するキーワード抽出手段とを備えたキーワード抽出装置。 From 12. text data having a certain chunk, an apparatus for extracting a keyword for performing a predetermined processing on the text data, the text data having the constant unity, words and morphological analysis a morphological analysis unit for extracting, words the extracted comprises a frequency evaluation means for evaluating the degree of frequently biased in said text data, a word evaluation value is equal to or larger than a predetermined, extracts as a keyword in the text data keyword extracting device that includes a keyword extracting unit.
  13. 【請求項13】 一定のまとまりを有する複数のテキストデータを、キーワードを用いて分類し、データベースを構築する装置であって、 前記一定のまとまりを有する複数のテキストデータを、 13. The plurality of text data having a certain chunk, and classified using a keyword, an apparatus for constructing a database, a plurality of text data having the predetermined chunk,
    形態素解析して単語を抽出する形態素解析手段と、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価する頻度評価手段と該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出するキーワード抽出手段と、 前記複数のテキストデータを、前記抽出したキーワードにより表現されるベクトルによって分類する分類手段と、 を備え、 前記複数のテキストデータに対して、順次、前記各手段による処理を行なって、前記複数のテキストデータを、 A morphological analysis means for extracting a word by morphological analysis, word the extracted is, the word frequency evaluation unit and the evaluation value for evaluating the degree to which frequent is more than a predetermined biased in the text data, the text data and keyword extraction means for extracting as a keyword in a plurality of text data, and a classification means for classifying the vector represented by the keywords the extraction, to the plurality of text data, sequentially each of the units by performing processing by a plurality of text data,
    少なくとも前記ベクトルによって分類したデータベースを構築するデータベース構築装置。 Database building apparatus for building a database classified by at least the vector.
  14. 【請求項14】 一定のまとまりを有するテキストデータから、要約文を生成する装置であって、 前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出する形態素解析手段と、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価する頻度評価手段と、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出するキーワード抽出手段と、 該抽出したキーワードを結合して、要約文を生成する文生成手段とを備えた要約文生成装置。 From 14. text data having a certain chunk, an apparatus for generating a summary, the text data having the predetermined chunk, a morphological analysis means for extracting a word and morphological analysis, the extracted word, and the frequency evaluation means for evaluating the degree of frequently biased in said text data, a word evaluation value is equal to or greater than a predetermined, and keyword extraction means for extracting as a keyword in the text data, the keyword the extracted combination, summary generator with a sentence generation means for generating a summary.
  15. 【請求項15】 一定のまとまりを有する複数のテキストデータを、キーワードを用いて検索する装置であって、 前記複数のテキストデータに対して、順次、 前記一定のまとまりを有する複数のテキストデータを、 A plurality of text data with 15. Certain unity, there is provided an apparatus for searching with keywords, the relative plurality of text data, sequentially a plurality of text data having the predetermined chunk,
    形態素解析して単語を抽出し、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出し、 前記複数のテキストデータを、前記抽出したキーワードにより表現されるベクトルによって分類する処理を行ない、 前記複数のテキストデータを、少なくとも前記ベクトルによって分類したデータベースを記憶するデータベース記憶手段と、 検索しようとするキーワードを入力したとき、該検索用キーワードからなるベクトルを求めるベクトル演算手段と、該ベクトルとの類似度によって、前記データベースから適合するテキストデー タを検索する検索手段とを備えた検索装置。 The words extracted by the morphological analysis, word the extracted is to assess the extent to frequently biased in said text data, a word evaluation value is equal to or greater than a predetermined, and extracted as a keyword in the text data, the a plurality of text data, performs a process of classifying the vector represented by the keywords the extracted, a plurality of text data, and a database storage means for storing a database classified by at least the vector, the keywords to be searched when you enter a vector calculating means for calculating a vector of the search keyword, the similarity between the vector search apparatus having a search means for searching for text data matching from the database.
  16. 【請求項16】 一定のまとまりを有するテキストデータから、該テキストデータに所定の処理を行なうためのキーワードを抽出する処理を、コンピュータに行なわせるプログラムであって、 前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出する機能と、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価する機能と、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出するする機能とを実現させるためのプログラム。 From the text data with 16. Certain unity, a process of extracting a keyword for performing a predetermined processing on the text data, a program for causing a computer, the text data having the predetermined chunk , a function of extracting a word by morphological analysis, word the extracted has a function of evaluating the extent to which frequent unevenly among the text data, a word evaluation value is equal to or higher than a predetermined keyword in the text data program for realizing a function for extracting a.
  17. 【請求項17】 一定のまとまりを有する複数のテキストデータを、キーワードを用いて分類し、データベースを構築する処理をコンピュータに行なわせるプログラムであって、 前記複数のテキストデータに対して、順次、 前記一定のまとまりを有する複数のテキストデータを、 17. The plurality of text data having a certain chunk, and classified using keywords, a program for causing the process to build a database on the computer, to the plurality of text data, sequentially the a plurality of text data having a certain unity,
    形態素解析して単語を抽出し、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出し、 前記複数のテキストデータを、前記抽出したキーワードにより表現されるベクトルによって分類する処理を行なう機能と、 前記複数のテキストデータを、少なくとも前記ベクトルによって分類したデータベースを構築する機能とを実現させるためのプログラム。 The words extracted by the morphological analysis, word the extracted is to assess the extent to frequently biased in said text data, a word evaluation value is equal to or greater than a predetermined, and extracted as a keyword in the text data, the a plurality of text data, a function of performing processing for classifying the vectors represented by the keywords the extracted, a plurality of text data, a program for implementing a function to construct a database classified by at least the vector.
  18. 【請求項18】 一定のまとまりを有するテキストデータから、要約文を生成する処理をコンピュータに行なわせるプログラムであって、 前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出する機能と、 該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価する機能と、 該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出する機能と、 該抽出したキーワードを結合して、要約文を生成する機能とを実現させるためのプログラム。 From 18. text data having a certain chunk, a program for causing the process of generating a summary to the computer, the text data having the predetermined chunk, a function of extracting a word by morphological analysis , words the extracted has a function of evaluating the extent to which frequent unevenly among the text data, a word evaluation value is greater than or equal to the predetermined, a function of extracting a keyword in the text data, the keyword the extracted combined with a program for realizing the function of generating a summary.
JP2001036577A 2001-02-14 2001-02-14 Keyword extraction Pending JP2002245061A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001036577A JP2002245061A (en) 2001-02-14 2001-02-14 Keyword extraction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001036577A JP2002245061A (en) 2001-02-14 2001-02-14 Keyword extraction

Publications (1)

Publication Number Publication Date
JP2002245061A true true JP2002245061A (en) 2002-08-30

Family

ID=18899838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001036577A Pending JP2002245061A (en) 2001-02-14 2001-02-14 Keyword extraction

Country Status (1)

Country Link
JP (1) JP2002245061A (en)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275505A (en) * 2004-03-23 2005-10-06 Sony Corp Information processing apparatus and method, and program
JP2008046738A (en) * 2006-08-11 2008-02-28 Softbank Mobile Corp Life record creation system and its control method
JP2008146461A (en) * 2006-12-12 2008-06-26 Yahoo Japan Corp Device for making blog of conversation record
WO2008128442A1 (en) * 2007-04-24 2008-10-30 Peking University A method for abnormal state monitoring to internet information
JP2008262559A (en) * 2007-04-10 2008-10-30 Nhn Corp Method and system which provide directory tagging service
JP2009048350A (en) * 2007-08-17 2009-03-05 Nec Corp Apparatus, method and program for evaluating information
JP2009146428A (en) * 2002-09-24 2009-07-02 Google Inc Method and system for providing relevant advertisements
US7584217B2 (en) 2005-02-24 2009-09-01 Seiko Epson Corporation Photo image retrieval system and program
JP2009223745A (en) * 2008-03-18 2009-10-01 Internatl Business Mach Corp <Ibm> Apparatus, method, and program for acquiring evaluation information of object of interest
JP2009266204A (en) * 2008-04-01 2009-11-12 Yahoo Japan Corp Method for classifying content data to category, server, and program
JP2010044476A (en) * 2008-08-11 2010-02-25 Yahoo Japan Corp Server, system, and method for providing information related to content
US7734624B2 (en) 2002-09-24 2010-06-08 Google, Inc. Serving advertisements based on content
US7752074B2 (en) 2002-04-05 2010-07-06 Sponster Llc Method of enhancing electronic communications with contextually relevant content
US7774338B2 (en) 2005-09-30 2010-08-10 International Business Machines Corporation Method and apparatus for displaying text information and numerical information in association with each other
JP2010286888A (en) * 2009-06-09 2010-12-24 Nec Corp Information collection system, information collection method, and program therefor
JP2011034481A (en) * 2009-08-05 2011-02-17 Yahoo Japan Corp Server device for distributing advertisement, and method
JP2011510422A (en) * 2008-01-23 2011-03-31 マイクロソフト コーポレーション Distributed indexing of file content
WO2011102076A1 (en) * 2010-02-16 2011-08-25 日本電気株式会社 Information organization system and method for same
US8086559B2 (en) 2002-09-24 2011-12-27 Google, Inc. Serving content-relevant advertisements with client-side device support

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752074B2 (en) 2002-04-05 2010-07-06 Sponster Llc Method of enhancing electronic communications with contextually relevant content
US10007931B2 (en) 2002-04-05 2018-06-26 Tamiras Per Pte. Ltd., Llc Method of enhancing emails with targeted ads
US7974874B2 (en) 2002-04-05 2011-07-05 Consallus Group L.L.C. Method of enhancing email text with hyperlinked word pointing to targeted ad
US8655731B2 (en) 2002-04-05 2014-02-18 Consallus Group L.L.C. Method of enhancing emails with targeted ads
US8346608B2 (en) 2002-04-05 2013-01-01 Consallus Group L.L.C. Method of compensating for enhancing emails with targeted ads
JP2009146428A (en) * 2002-09-24 2009-07-02 Google Inc Method and system for providing relevant advertisements
US8171034B2 (en) 2002-09-24 2012-05-01 Google, Inc. Methods and apparatus for serving relevant advertisements
US8086559B2 (en) 2002-09-24 2011-12-27 Google, Inc. Serving content-relevant advertisements with client-side device support
US9152718B2 (en) 2002-09-24 2015-10-06 Google Inc. Serving advertisements based on content
US9799052B2 (en) 2002-09-24 2017-10-24 Google Inc. Methods and apparatus for serving relevant advertisements
US7716161B2 (en) 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US7734624B2 (en) 2002-09-24 2010-06-08 Google, Inc. Serving advertisements based on content
JP4569143B2 (en) * 2004-03-23 2010-10-27 ソニー株式会社 Information processing apparatus and method, a program
JP2005275505A (en) * 2004-03-23 2005-10-06 Sony Corp Information processing apparatus and method, and program
US7584217B2 (en) 2005-02-24 2009-09-01 Seiko Epson Corporation Photo image retrieval system and program
US7774338B2 (en) 2005-09-30 2010-08-10 International Business Machines Corporation Method and apparatus for displaying text information and numerical information in association with each other
JP2008046738A (en) * 2006-08-11 2008-02-28 Softbank Mobile Corp Life record creation system and its control method
JP4589910B2 (en) * 2006-12-12 2010-12-01 ヤフー株式会社 Conversation recording blog apparatus
JP2008146461A (en) * 2006-12-12 2008-06-26 Yahoo Japan Corp Device for making blog of conversation record
JP2008262559A (en) * 2007-04-10 2008-10-30 Nhn Corp Method and system which provide directory tagging service
JP4728364B2 (en) * 2007-04-10 2011-07-20 エヌエイチエヌ コーポレーション Directory service provides a method and system.
WO2008128442A1 (en) * 2007-04-24 2008-10-30 Peking University A method for abnormal state monitoring to internet information
US8185537B2 (en) 2007-04-24 2012-05-22 Peking University Method for monitoring abnormal state of internet information
JP2009048350A (en) * 2007-08-17 2009-03-05 Nec Corp Apparatus, method and program for evaluating information
JP2011510422A (en) * 2008-01-23 2011-03-31 マイクロソフト コーポレーション Distributed indexing of file content
JP2009223745A (en) * 2008-03-18 2009-10-01 Internatl Business Mach Corp <Ibm> Apparatus, method, and program for acquiring evaluation information of object of interest
JP2009266204A (en) * 2008-04-01 2009-11-12 Yahoo Japan Corp Method for classifying content data to category, server, and program
JP2010044476A (en) * 2008-08-11 2010-02-25 Yahoo Japan Corp Server, system, and method for providing information related to content
JP2010286888A (en) * 2009-06-09 2010-12-24 Nec Corp Information collection system, information collection method, and program therefor
JP2011034481A (en) * 2009-08-05 2011-02-17 Yahoo Japan Corp Server device for distributing advertisement, and method
US9116916B2 (en) 2010-02-16 2015-08-25 Nec Corporation Information organizing sytem and information organizing method
WO2011102076A1 (en) * 2010-02-16 2011-08-25 日本電気株式会社 Information organization system and method for same

Similar Documents

Publication Publication Date Title
El-Beltagy et al. KP-Miner: A keyphrase extraction system for English and Arabic documents
US6167370A (en) Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6405199B1 (en) Method and apparatus for semantic token generation based on marked phrases in a content stream
Chowdhury Natural language processing
US20020103799A1 (en) Method for document comparison and selection
US7783644B1 (en) Query-independent entity importance in books
Kao et al. Mining web informative structures and contents based on entropy analysis
US20060282414A1 (en) Question answering system, data search method, and computer program
Chau et al. Personalized spiders for web search and analysis
CN102054015B (en) System and method of organizing community intelligent information by using organic matter data model
US20090287676A1 (en) Search results with word or phrase index
Jansen et al. A review of web searching studies and a framework for future research
US20060287988A1 (en) Keyword charaterization and application
US20020133483A1 (en) Systems and methods for computer based searching for relevant texts
US7099870B2 (en) Personalized web page
Pu et al. Subject categorization of query terms for exploring Web users' search interests
US20110153595A1 (en) System And Method For Identifying Topics For Short Text Communications
KR100820746B1 (en) Browsing system and method of information using ontology
Park et al. End user searching: A Web log analysis of NAVER, a Korean Web search engine
CN1536483A (en) Method for extracting and processing network information and its system
CN101055587A (en) Search engine retrieving result reordering method based on user behavior information
CN1928864A (en) FAQ based Chinese natural language ask and answer method
CN101114294A (en) Self-help intelligent uprightness searching method
CN102073725A (en) Method for searching structured data and search engine system for implementing same
Yalçın et al. What is search engine optimization: SEO?

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070313