JP2010009254A - Feature word selection device, method, and program - Google Patents
Feature word selection device, method, and program Download PDFInfo
- Publication number
- JP2010009254A JP2010009254A JP2008166566A JP2008166566A JP2010009254A JP 2010009254 A JP2010009254 A JP 2010009254A JP 2008166566 A JP2008166566 A JP 2008166566A JP 2008166566 A JP2008166566 A JP 2008166566A JP 2010009254 A JP2010009254 A JP 2010009254A
- Authority
- JP
- Japan
- Prior art keywords
- feature word
- feature
- web page
- stored
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 61
- 238000004891 communication Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 description 21
- 238000002360 preparation method Methods 0.000 description 18
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Images
Abstract
Description
本発明は、通信ネットワーク上に配信されるウェブページを、予め定められたカテゴリ別に分類するための特徴語を選別する素性語選別装置、方法及びプログラムに関する。 The present invention relates to a feature word selection device, method, and program for selecting feature words for classifying web pages distributed on a communication network according to predetermined categories.
近年、インターネット上に無数のウェブページが存在しており、目的にあったウェブページを検索することは容易ではない。そのため、検索エンジンが提供されているが、このような検索エンジンを使用したとしても、目的とするウェブページが検索できるとは限らない。
したがって、YAHOO!JAPAN(登録商標)等、いくつかのサービス業者は、検索エンジンの他に、下記非特許文献1に示すように、ウェブページをカテゴリ別に分類する分類サービスを行っており、これにより、ユーザは、目的とするウェブページを見つけやすくなっている。
Therefore, YAHOO! Some service providers such as JAPAN (registered trademark) provide a classification service for classifying web pages into categories, as shown in Non-Patent Document 1 below, in addition to search engines. It makes it easier to find the target web page.
このようなカテゴリ別に分類する分類サービスでは、カテゴリの規模が大きい(数万ノードの)場合は手作業でウェブページを分類している。カテゴリ規模が小さい(数百ノードの)場合は自動的な分類処理が多数試みられており、インターネット上に存在するウェブページに含まれる語句と、予め記憶された素性語とを対比して、その対比結果に基づいて、予め記憶された素性語に対応するカテゴリを付与している。
カテゴリの規模を大きくすると、ユーザはより意図に近い分類カテゴリを指定することができる。しかしながら、カテゴリの規模を大きくすると所属する文書の数が増え、分類処理時に取り扱う素性語の数も増加し、ウェブページにマッチするカテゴリを割り付ける作業が複雑となり時間を要することになる。また、そのような作業に耐えうる分類装置を導入するにはコストも高くつく。
In such a classification service for classifying by category, web pages are classified manually when the scale of the category is large (tens of thousands of nodes). When the category size is small (hundreds of nodes), many automatic classification processes have been attempted, and the words included in the web page existing on the Internet are compared with the pre-stored feature words. Based on the comparison result, categories corresponding to previously stored feature words are assigned.
When the size of the category is increased, the user can specify a classification category closer to the intention. However, if the category size is increased, the number of documents belonging to the category increases, the number of feature words handled during classification processing also increases, and the work of assigning a category that matches a web page becomes complicated and requires time. In addition, it is expensive to introduce a classification device that can withstand such work.
本発明は、このような事情を考慮して提案されるものであり、予め記憶された素性語を所定のルールに基づいて選別することにより、ウェブページにカテゴリを割り付ける作業負担を軽減することができる素性語選別装置、方法及びプログラムを提供することを目的とする。 The present invention is proposed in view of such circumstances, and by selecting pre-stored feature words based on a predetermined rule, it is possible to reduce the work burden of assigning categories to web pages. An object of the present invention is to provide a feature word selection device, method and program.
上記目的を達成するために、本発明者は、予め記憶された素性語を所定のルールに基づいて選別できる仕組みを見出し、本発明を想到するに至った。
本発明に係る素性語選別装置は、予め定められた一定のルールに従って素性語を素性語データベースから削除することにより、予め記憶されている素性語に基づいたカテゴリ分類処理に要する負担を軽減するものである。
In order to achieve the above object, the present inventor has found a mechanism that can select previously stored feature words based on a predetermined rule, and has come up with the present invention.
The feature word selection device according to the present invention reduces the burden required for category classification processing based on a feature word stored in advance by deleting the feature word from the feature word database according to a predetermined rule. It is.
(1)通信ネットワーク上に配信されるウェブページを特徴付ける素性語を、前記ウェブページに関連付けて記憶する素性語記憶手段と、
前記素性語記憶手段に記憶されている前記素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて前記素性語記憶手段に記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別する素性語選別手段と、
を備えることを特徴とする素性語選別装置。
(1) Feature word storage means for storing a feature word characterizing a web page distributed over a communication network in association with the web page;
For each of the feature words stored in the feature word storage unit, the web page stored in the feature word storage unit in association with the feature word is searched by a search engine using the feature word as a search keyword. The number of hits indicating the frequency of matching is counted, and the feature word is stored in the feature word storage unit by deleting the feature word from the feature word storage unit when the number of hits is equal to or greater than a predetermined threshold value. A feature word selection means for selecting the feature words that are being used;
A feature word selection device comprising:
(1)の発明によれば、検索エンジンによる検索によって、素性語に関連付けて素性語記憶手段に記憶されているウェブページにヒットしたヒット回数が、所定の閾値以上又は以下となった際に、その素性語を素性語記憶手段から削除するので、以下の効果を奏する。 According to the invention of (1), when the number of hits hitting the web page stored in the feature word storage unit in association with the feature word by the search by the search engine becomes a predetermined threshold value or less, Since the feature word is deleted from the feature word storage means, the following effects are produced.
すなわち、前記ヒット回数が所定の閾値以上となった際に、素性語を素性語記憶手段から削除するので、その素性語はありふれた用語、つまり、ウェブページを特徴づけることができない用語であると判断して、その素性語を基にしたカテゴリ分類を不可能にすることができる。 That is, when the number of hits exceeds a predetermined threshold, the feature word is deleted from the feature word storage means, so that the feature word is a common term, that is, a term that cannot characterize a web page. This makes it possible to make category classification based on the feature word impossible.
また、前記ヒット回数が所定の閾値以下となった際に、素性語を素性語記憶手段から削除するので、その素性語は一般ユーザに連想されない用語、つまり、ウェブページを特徴づけることができない用語であると判断して、その素性語を基にしたカテゴリ分類を不可能にすることができる。 In addition, when the number of hits falls below a predetermined threshold, the feature word is deleted from the feature word storage means, so the feature word is a term that is not associated with general users, that is, a term that cannot characterize a web page Therefore, it is possible to make the category classification based on the feature word impossible.
そのため、真にウェブページを特徴づけるような素性語のみが素性語記憶手段に残留するため、素性語に基づいたカテゴリ分類を効率的に行うことができ、カテゴリ分類装置の導入コストを低く抑えることができる。 Therefore, since only feature words that truly characterize the web page remain in the feature word storage means, category classification based on feature words can be performed efficiently, and the introduction cost of the category classification device can be kept low. Can do.
(2)前記素性語選別手段は、前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページ中に出現する出現頻度をカウントし、前記出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、(1)に記載の素性語選別装置。 (2) The feature word selection unit counts the appearance frequency at which the feature word appears in the web page stored in association with the feature word in the feature word storage unit, and the appearance frequency is predetermined. The feature word stored in the feature word storage means is selected by deleting the feature word from the feature word storage means when the threshold value is below a threshold value. Feature word sorting device.
(2)の発明によれば、素性語に関連付けて記憶されているウェブページ中に出現する出現頻度が所定の閾値以下となった際に、その素性語を素性語記憶手段から削除するので、出現頻度が閾値以下である素性語は、ウェブユーザの作成者にとって連想されない用語、つまり、ウェブページを特徴づけることができない用語であると判断して、その素性語を基にしたカテゴリ分類を不可能にすることができる。 According to the invention of (2), when the appearance frequency appearing in the web page stored in association with the feature word is equal to or less than a predetermined threshold, the feature word is deleted from the feature word storage means. A feature word whose appearance frequency is less than or equal to a threshold is determined to be a term that is not associated with the creator of the web user, that is, a term that cannot characterize a web page, and categorization based on the feature word is not allowed. Can be possible.
そのため、真にウェブページを特徴づけるような素性語のみが素性語記憶手段に残留するため、素性語に基づいたカテゴリ分類を効率的に行うことができ、カテゴリ分類装置の導入コストを低く抑えることができる。 Therefore, since only feature words that truly characterize the web page remain in the feature word storage means, category classification based on feature words can be performed efficiently, and the introduction cost of the category classification device can be kept low. Can do.
(3)前記素性語選別手段は、前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページのタイトル又は本文又は概要中に出現する出現頻度をカウントし、その出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、(1)に記載の素性語選別装置。 (3) The feature word selection means counts the appearance frequency of the feature word appearing in the title or text or summary of the web page stored in association with the feature word in the feature word storage means, The feature word stored in the feature word storage unit is selected by deleting the feature word from the feature word storage unit when the appearance frequency becomes a predetermined threshold value or less. The feature word sorting device according to (1).
(3)の発明によれば、素性語に関連付けて記憶されているウェブページのタイトル中に出現する出現頻度が所定の閾値以下となった際に、素性語を素性語記憶手段から削除する。一般に、タイトル中の出現頻度が閾値以下である素性語は、ウェブページ中のその他の項目よりも更にウェブページ作成者の印象に依存するため、そのようなタイトル中の出現頻度が閾値以下である素性語を削除することにより、ウェブページを特徴づけるような素性語のみを素性語記憶手段に残すことができる。 According to the invention of (3), the feature word is deleted from the feature word storage means when the appearance frequency appearing in the title of the web page stored in association with the feature word is equal to or less than a predetermined threshold. In general, a feature word whose appearance frequency in a title is less than or equal to a threshold value depends on the impression of the web page creator more than other items in the web page, and thus the appearance frequency in such a title is less than or equal to the threshold value. By deleting the feature word, only the feature word that characterizes the web page can be left in the feature word storage means.
(4)コンピュータが、
予め前記コンピュータに記憶され、通信ネットワーク上に配信されるウェブページを特徴付ける素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を削除することにより、前記素性語を選別する素性語選別ステップを、少なくとも実行することを特徴とする方法。
(4) The computer
The web page stored in association with the feature word by a search by a search engine using the feature word as a search keyword for each feature word that is stored in the computer in advance and is distributed over a communication network. A feature word selection step of selecting the feature words by deleting the feature words when the hit count is equal to or greater than or less than a predetermined threshold. A method characterized by performing at least.
(5)(4)に記載の方法をコンピュータに実行させることを特徴とするプログラム。 (5) A program that causes a computer to execute the method according to (4).
この発明によれば、真にウェブページを特徴づけるような素性語のみが素性語記憶手段に残留するため、素性語に基づいたカテゴリ分類を効率的に行うことができ、カテゴリ分類装置の導入コストを低く抑えることができる。 According to the present invention, since only feature words that truly characterize the web page remain in the feature word storage means, category classification based on the feature words can be performed efficiently, and the introduction cost of the category classification device Can be kept low.
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。 Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.
[素性語選別装置と関連要素の全体構成]
図1は、本実施形態に係る素性語選別装置と関連要素の全体構成を示す図である。
[Overall configuration of feature word sorter and related elements]
FIG. 1 is a diagram showing an overall configuration of a feature word selection device and related elements according to the present embodiment.
本実施形態に係る素性語選別装置1は、インターネット等の通信ネットワークNと、分類装置2とに接続されている。検索装置3は、通信ネットワークNと、素性語選別装置1とに接続されている。
The feature word selection device 1 according to the present embodiment is connected to a communication network N such as the Internet and a
分類装置2は、通信ネットワーク上のウェブページをカテゴリに分類するものである。その分類手法は種々考えられるが、例えば、以下の分類手法が考えられる。
The
すなわち、分類装置2は、ウェブページに含まれる文字データについて、形態素解析を行い、文章(複数の単語から構成される文字データ)を単語毎に分けて、分けた単語を品詞毎に分類して、特定の品詞(例えば名詞)のみを抽出する。そして、後述する素性語データベース12(図2参照)に記憶された素性語の中に、一致する素性語があるか否かを判断し、一致するものがあれば、一致した素性語に関係付けられたカテゴリとの平均相互情報量により、平均相互情報量が所定値以上である場合には、当該カテゴリを、このウェブページのカテゴリとする。
That is, the
なお、平均相互情報量平均相互情報量の算出には、例えば、以下の式が使用される。
Pを確率として、P(X,Y)は、「X」と「Y」とが共起する確率であり、P(X)、P(Y)は、それぞれ個別に生起する確率である。
For example, the following formula is used to calculate the average mutual information amount.
検索装置3は、通信ネットワークN上に接続されたユーザ端末(図示せず)から、検索キーワードを含む検索要求(以下、クエリと呼ぶ)を受け付けて、検索キーワードにマッチするウェブページの通信アドレス、タイトル、要約を少なくとも含む検索結果を返信する。
The
検索装置3は、通信ネットワークN上に接続されたユーザ端末からクエリを受け付けるクエリ受付部30と、検索処理部32にクエリを送信するクエリ送信部31と、クエリ送信部31から送信されたクエリに基づいて、検索キーワードにマッチするウェブページを検索する検索処理部32と、検索処理部32により検索されたウェブページの通信アドレス、タイトル、要約を少なくとも含む検索結果を生成する検索結果生成部33と、ユーザ端末の他に、素性語選別装置1に検索結果を送信する検索結果送信部34と、検索履歴を記録する検索ログ記録部35と、を備える。
The
[素性語選別装置の機能構成]
図2は、本実施形態に係る素性語選別装置1の機能構成の概要を示す図である。本実施形態に係る素性語選別装置1は、素性語記憶手段10と、素性語選別手段11と、を備える。素性語選別手段11は、更に素性語準備処理部13と素性語選別処理部14を備える。
[Functional structure of feature word sorter]
FIG. 2 is a diagram illustrating an outline of a functional configuration of the feature word selection device 1 according to the present embodiment. The feature word selection device 1 according to the present embodiment includes a feature
素性語記憶手段10は、ウェブページを特徴づける単語となる素性語を予め記憶している。尚、素性語記憶手段10の詳細については後述する。素性語選別手段11は、分類装置2と協働した処理により、後述する所定のルールに基づいて素性語を選別する。素性語データベース12(素性語DB)は素性語記憶手段10の一部を構成しており、予め前記素性語を記憶している。
The feature word storage means 10 stores in advance feature words that are words that characterize web pages. Details of the feature word storage means 10 will be described later. The feature
[素性語データベースと関連要素の構成]
図3は、素性語データベース12と関連要素の構成の概要を示す図である。
素性語データベース12は、構築済みのカテゴリ構造データを用いて、予め素性語IDと素性語とを対応付けて記憶した素性語IDテーブル121と、予め文書IDと文書(ウェブページ)の通信アドレス(例えばURL)とを対応付けて記憶した文書IDテーブル122と、予め素性語IDと文書IDとを対応付けて記憶したID対応テーブル123と、後述する頻度テーブル124と、を備える。
[Structure of feature word database and related elements]
FIG. 3 is a diagram showing an outline of the configuration of the
The
素性語IDテーブル121には、素性語に素性語IDが割り付けられて記憶されている。文書IDテーブル122には、ウェブページの通信アドレス(URL等)に文書IDが割り付けられて記憶されている。ID対応テーブル123には、素性語に割り付けられた素性語IDと、ウェブページに割り付けられた文書IDと、該素性語が該ウェブページに出現する出現位置を表す出現位置タイプと、が対応して記憶されている。 In the feature word ID table 121, feature word IDs are assigned to feature words and stored. In the document ID table 122, a document ID is assigned to a communication address (URL, etc.) of a web page and stored. The ID correspondence table 123 corresponds to a feature word ID assigned to a feature word, a document ID assigned to a web page, and an appearance position type representing an appearance position at which the feature word appears on the web page. Is remembered.
頻度テーブル124には、素性語ID毎に、検索キーワードを基にした検索により、文書IDテーブル122に記憶されているウェブページにヒットしたヒット回数が「頻度」として記憶される。図中では、検索キーワードを基にしたウェブページのヒット回数を頻度として記憶するという意味で、「頻度」がタイプ「検索」に対応して記憶される。 In the frequency table 124, for each feature word ID, the number of hits hitting the web page stored in the document ID table 122 by the search based on the search keyword is stored as “frequency”. In the figure, “frequency” is stored in association with the type “search” in the sense that the frequency of web page hits based on the search keyword is stored as frequency.
また、頻度テーブル124には、素性語ID毎に、その素性語IDに対応して素性語IDテーブル121に記憶されている素性語が、文書IDテーブル122に記憶されているウェブページにおける「タイトル」及び「本文」中における出現頻度が記憶される。図中では、ウェブページのタイトル及び本文における素性語の出現頻度を記憶するという意味で、「頻度」が、タイプ「タイトル」及び「本文」に対応して記憶される。 In the frequency table 124, for each feature word ID, the feature words stored in the feature word ID table 121 corresponding to the feature word ID are displayed in the “title” on the web page stored in the document ID table 122. "And the appearance frequency in the" text "are stored. In the figure, “frequency” is stored in association with the types “title” and “text” in the sense of storing the appearance frequency of feature words in the title and text of the web page.
素性語選別装置1は、ヒット回数及び出現頻度をカウントする対象となる素性語を、素性語IDテーブル121を参照して抽出する。 The feature word sorting device 1 extracts feature words that are targets for counting the number of hits and the appearance frequency with reference to the feature word ID table 121.
[素性語選別装置のハードウェア構成図]
図4は、本実施形態に係る素性語選別装置のハードウェア構成を示す図である。
素性語選別装置1は、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもよい)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380、並びに半導体メモリ390を備える。尚、ハードディスク370、光ディスクドライブ380、並びに、半導体メモリ390はまとめて記憶装置410と呼ばれる。
[Hardware configuration of feature word sorter]
FIG. 4 is a diagram illustrating a hardware configuration of the feature word selection device according to the present embodiment.
The feature word selection device 1 includes a CPU (Central Processing Unit) 310 (a plurality of CPUs such as a
制御部300は、素性語選別装置1を統括的に制御する部分であり、ハードディスク370(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
The
通信I/F330は、素性語選別装置1が、インターネットN(図1)を介してユーザ端末等と情報を送受信する場合のネットワーク・アダプタである。通信I/F330は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
The communication I /
BIOS350は、素性語選別装置1の起動時にCPU310が実行するブートプログラムや、素性語選別装置1がハードウェアに依存するプログラム等を記録する。
The
I/Oコントローラ360には、ハードディスク370、光ディスクドライブ380、及び半導体メモリ390等の記憶装置410を接続することができる。
A
ハードディスク370は、本ハードウェアを素性語選別装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブル及びレコードを記憶する。なお、素性語選別装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
The
光ディスクドライブ380としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク400を使用する。光ディスク400から光ディスクドライブ380によりプログラム又はデータを読み取り、I/Oコントローラ360を介してメインメモリ340又はハードディスク370に提供することもできる。
As the
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、素性語選別装置1は、記憶装置410、制御部300等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
Note that the computer in the present invention refers to an information processing device including a storage device, a control unit, and the like, and the feature word selection device 1 includes an information processing device including the
この素性語選別装置1では、制御部300が主として素性語選別手段11に対応し、記憶装置410が主として素性語記憶手段10に対応する。
In the feature word selection device 1, the
[検索装置3のハードウェア構成]
分類装置2、検索装置3も、上述の素性語選別装置1と同様な構成を持つ。
[Hardware configuration of search device 3]
The
[本発明の実施形態に係るフローチャート]
[素性語選別のための準備処理]
図5は、本発明の実施形態に係る素性語選別のための準備処理のフローチャートを示している。
S1:分類装置2は、既存のカテゴリデータを集合Dとする。
S2、S3:分類装置2は、集合Dが空でなければ、集合Dからカテゴリ(クラス)c毎に、属する文書dを取り出す。
S4、S5:分類装置2は、文書dの素性f(素性語ベクトルf)を生成し、素性語データベース12を更新する。
[Flowchart According to Embodiment of the Present Invention]
[Preparation process for feature word selection]
FIG. 5 shows a flowchart of a preparation process for feature word selection according to the embodiment of the present invention.
S1: The
S2, S3: If the set D is not empty, the
S4, S5: The
[分類装置の訓練処理]
図6は、本発明の実施形態に係る訓練処理のフローチャートを示している。
S6〜S9:分類装置2は、既存のカテゴリデータを集合Dとする。集合Dが空でなければ、集合Dからカテゴリ(クラス)c毎に、属する文書dを取り出す。分類装置2は、文書dの素性fを生成する。
S10:素性語選別装置1は、後述する素性語選別処理を行う。
S11:分類装置2は、選別された素性語を用いて訓練用データを書き出す。
S12:ステップS7において集合Dが空の場合には、ステップS11で書き出された訓練用データを用いて訓練を行いモデルMを生成する。
[Classifier training process]
FIG. 6 shows a flowchart of the training process according to the embodiment of the present invention.
S6 to S9: The
S10: The feature word selection device 1 performs a feature word selection process described later.
S11: The
S12: If the set D is empty in step S7, the model M is generated by performing training using the training data written in step S11.
[分類装置の予測処理]
図7は、本発明の実施形態に係る予測処理のフローチャートを示している。
S13、S14:分類装置2は、入力文書をdとし、文書dの素性fを生成する。
S15:素性語選別装置1は、後述する素性語選別処理を行う。
S16、S17:分類装置2は、選別された素性f’をモデルMで予測することにより、属するカテゴリcを予測する。
[Classifier prediction processing]
FIG. 7 shows a flowchart of the prediction process according to the embodiment of the present invention.
S13, S14: The
S15: The feature word selection device 1 performs a feature word selection process described later.
S16, S17: The
[素性語選別処理]
図8は、本実施形態に係る素性語選別処理を表すフローチャートを示している。
S18:素性fの要素を集合Eとする。
S19、S20:集合Eが空ではなければ、集合Eから素性要素を取り出す。尚、図中、場所lとは、後述するように、素性要素が位置する文書中の場所を示す。語tとは、素性語となりうる文書中の語を示す。
S21:素性語DBを参照して(l,t)を選別する。
S22:削除対象であるどうかを判定し、削除対象であれば、ステップS19に戻る。そうでなければステップS23に進む。
S23:(l,t)を出力し、ステップS19に戻る。
[Feature word selection process]
FIG. 8 is a flowchart showing the feature word selection process according to this embodiment.
S18: An element of the feature f is set as a set E.
S19, S20: If the set E is not empty, a feature element is extracted from the set E. In the figure, the place l indicates a place in the document where the feature element is located, as will be described later. The word t indicates a word in the document that can be a feature word.
S21: Select (l, t) with reference to the feature word DB.
S22: It is determined whether it is a deletion target. If it is a deletion target, the process returns to step S19. Otherwise, the process proceeds to step S23.
S23: (l, t) is output, and the process returns to step S19.
[素性語選別処理の詳細]
以下に素性語選別処理の詳細について説明する。
[Details of feature word selection processing]
Details of the feature word selection process will be described below.
(場所l、語t)の選別条件には次の種類がある。
(条件a) 語tのウェブ検索頻度が一定範囲である。
(条件b) 既存カテゴリデータにおいて、場所lに語tが出現した頻度が一定範囲である。
(条件c) 既存カテゴリデータにおいて、任意の場所lに語tが出現した頻度が一定範囲である。
(条件d) 語tのウェブ検索頻度、既存カテゴリデータにおける特定場所での出現頻度が一定範囲の特定の組み合わせ条件を満たす。
ここで、場所lには、本文、タイトル、メタ記述、メタキーワードの種類が存在する。
There are the following types of selection conditions for (place l, word t).
(Condition a) The web search frequency of the word t is within a certain range.
(Condition b) In the existing category data, the frequency that the word t appears in the place l is within a certain range.
(Condition c) In the existing category data, the frequency that the word t appears in an arbitrary place l is within a certain range.
(Condition d) The web search frequency of the word t and the appearance frequency at a specific place in the existing category data satisfy a specific combination condition within a certain range.
Here, in the location l, there are types of text, title, meta description, and meta keyword.
以下、図9〜図13を参照し、準備処理と選別処理に関する具体的な処理フローを条件a、b、cについて示す。 Hereinafter, with reference to FIG. 9 to FIG. 13, a specific processing flow regarding the preparation process and the selection process will be shown for the conditions a, b, and c.
[素性語選別準備処理(条件a)]
図9は、素性語準備処理部13による条件aにおける素性語選別の準備処理を示したものである。
S30:素性fの要素を集合Eとする。
S31、S32:集合Eが空でない場合は、Eから素性要素(場所l、語t)を取り出す。集合Eが空の場合は、処理を終了する。
S33、S34:語tの検索頻度がDBに登録済みの場合は、ステップS31に戻り、そうでない場合は、検索装置3によって、語tをインターネット検索させる。
S35、S36:検索装置3からのヒット件数が取得できた場合は、素性語記憶手段10は、語tの検索頻度nをDBに登録する。そうでない場合は、ステップS31の処理に戻る。
[Feature word selection preparation process (condition a)]
FIG. 9 shows a feature word selection preparation process under condition a by the feature word
S30: An element of the feature f is set as a set E.
S31, S32: If the set E is not empty, a feature element (location l, word t) is extracted from E. If the set E is empty, the process ends.
S33, S34: If the search frequency for the word t has already been registered in the DB, the process returns to step S31.
S35, S36: When the number of hits from the
[素性語選別処理(条件a)]
図10は、素性語選別処理部14による条件aにおける素性語選別処理を示したものである。
S40:素性語DBから語tの検索頻度を取得する。
S41:頻度nが取得できた場合は、S42に処理を移し、そうでない場合は処理を終了する。
S42、S44:頻度nが検索頻度の下限値に等しいか小さい場合は、削除判定を出力する。そうでない場合は、S43に処理を移す。
S43、S44:頻度nが検索上限値を超える場合は、削除判定を出力する。そうでない場合は、処理を終了する。
[Feature word selection process (condition a)]
FIG. 10 shows a feature word selection process under the condition a by the feature word
S40: The search frequency of the word t is acquired from the feature word DB.
S41: If the frequency n can be acquired, the process proceeds to S42, and if not, the process ends.
S42, S44: When the frequency n is equal to or smaller than the lower limit value of the search frequency, a deletion determination is output. If not, the process proceeds to S43.
S43, S44: When the frequency n exceeds the search upper limit value, a deletion determination is output. If not, the process ends.
[素性語選別準備処理(条件b)]
図11は、素性語準備処理部13による条件bにおける素性語選別の準備処理を示したものである。
S50:素性fの要素を集合Eとする。
S51、S52:集合Eが空でない場合は、Eから素性要素(場所l、語t)を取り出す。集合Eが空の場合は、処理を終了する。
S53:素性語DBから語tの場所lの頻度を取得する。
S54:頻度nが取得できた場合は、ステップS56の処理に移り、取得できなかった場合は、ステップS55の処理に戻る。
S55:素性語記憶手段10により、語tの場所lの頻度1でDBに登録し、ステップS51の処理に再び戻る。
S56:DBの語tの場所lの頻度を更新する。そしてステップS51へ処理を移す。
[Feature word selection preparation process (condition b)]
FIG. 11 shows a feature word selection preparation process under condition b by the feature word
S50: An element of the feature f is set as a set E.
S51, S52: If the set E is not empty, a feature element (location l, word t) is extracted from E. If the set E is empty, the process ends.
S53: The frequency of the place l of the word t is acquired from the feature word DB.
S54: If the frequency n can be acquired, the process proceeds to step S56. If the frequency n cannot be acquired, the process returns to step S55.
S55: The feature word storage means 10 registers in the DB with the frequency 1 of the place l of the word t, and returns to the process of step S51 again.
S56: Update the frequency of the location l of the word t in the DB. Then, the process proceeds to step S51.
[素性語選別処理(条件b)]
図12は、素性語選別処理部14による条件bにおける素性語選別処理を示したものである。
S60:素性語DBから語tの場所lの頻度nを取得する。
S61:頻度nが取得できた場合は、ステップS62に移り、そうでない場合は処理を終了する。
S62、S64:頻度nが場所頻度の下限値に等しいか大きい場合は、ステップS63に移り、そうでない場合は、ステップS64に移り、削除判定を出力し、その後処理を終了する。
S63、S64:頻度nが場所頻度の上限値を超えない場合は、処理を終了し、そうでない場合は、ステップS64に移り、削除判定を出力し、その後処理を終了する。
[Feature word selection process (condition b)]
FIG. 12 shows a feature word selection process under the condition b by the feature word
S60: The frequency n of the place l of the word t is acquired from the feature word DB.
S61: If the frequency n can be acquired, the process proceeds to step S62, and if not, the process ends.
S62, S64: If the frequency n is equal to or greater than the lower limit value of the place frequency, the process proceeds to step S63, and if not, the process proceeds to step S64, a deletion determination is output, and then the process ends.
S63, S64: If the frequency n does not exceed the upper limit value of the place frequency, the process is terminated. If not, the process proceeds to step S64, a deletion determination is output, and then the process is terminated.
[素性語選別準備処理(条件c)]
素性語準備処理部13による条件cにおける素性選別準備処理は、図11の条件bの場合と同様である。素性語準備処理部13は、条件bの準備処理が行われてない場合のみ同一の処理を実行する。
[Feature word selection preparation process (condition c)]
The feature selection preparation process in the condition c by the feature word
[素性語選別処理(条件c)]
図13は、素性語選別処理部14による条件cにおける素性語選別処理を示したものである。
S70:素性語DBから語tの全ての場所における頻度を取得し、合計する。
S71:頻度合計naが取得できた場合は、ステップS72に移り、そうでない場合は処理を終了する。
S72:頻度合計naが場所頻度合計の下限値に等しいか大きい場合は、ステップS73に移り、そうでない場合は、ステップS74に移る。
S73:頻度合計naが場所頻度合計の上限値を超える場合は、ステップS74に移り、そうでない場合は、処理を終了する。
S74:削除判定を出力し、処理を終了する。
[Feature word selection process (condition c)]
FIG. 13 shows a feature word selection process under the condition c by the feature word
S70: The frequencies at all locations of the word t are acquired from the feature word DB and summed up.
S71: If the total frequency na can be acquired, the process proceeds to step S72, and if not, the process ends.
S72: If the frequency total na is equal to or larger than the lower limit value of the place frequency total, the process proceeds to step S73, and otherwise, the process proceeds to step S74.
S73: If the frequency total na exceeds the upper limit value of the place frequency total, the process proceeds to step S74, and if not, the process ends.
S74: A deletion determination is output, and the process ends.
以上、本発明を実施形態に即して説明したが、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。 As mentioned above, although this invention was demonstrated according to embodiment, the effect described in embodiment of this invention only enumerated the most suitable effect resulting from this invention, and the effect by this invention is the present invention. It is not limited to what was described in the Example.
1 素性語選別装置
3 検索装置
10 素性語記憶手段
11 素性語選別手段
12 素性語データベース
DESCRIPTION OF SYMBOLS 1 Feature
Claims (5)
前記素性語記憶手段に記憶されている前記素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて前記素性語記憶手段に記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別する素性語選別手段と、
を備えることを特徴とする素性語選別装置。 Feature word storage means for storing a feature word characterizing a web page distributed over a communication network in association with the web page;
For each of the feature words stored in the feature word storage unit, the web page stored in the feature word storage unit in association with the feature word is searched by a search engine using the feature word as a search keyword. The number of hits indicating the frequency of matching is counted, and the feature word is stored in the feature word storage unit by deleting the feature word from the feature word storage unit when the number of hits is equal to or greater than a predetermined threshold value. A feature word selection means for selecting the feature words that are being used;
A feature word selection device comprising:
前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページ中に出現する出現頻度をカウントし、前記出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、請求項1に記載の素性語選別装置。 The feature word selection means includes:
The feature word counts the appearance frequency that appears in the web page stored in association with the feature word in the feature word storage means, and when the appearance frequency becomes a predetermined threshold value or less, the feature word 2. The feature word selection apparatus according to claim 1, wherein the feature words stored in the feature word storage means are selected by deleting words from the feature word storage means.
前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページのタイトル又は本文又は概要中に出現する出現頻度をカウントし、その出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、請求項1に記載の素性語選別装置。 The feature word selection means includes:
The frequency of appearance of the feature word appearing in the title, body, or summary of the web page stored in association with the feature word in the feature word storage means is counted, and the appearance frequency is equal to or less than a predetermined threshold. 2. The feature word selection according to claim 1, wherein the feature words stored in the feature word storage unit are selected by deleting the feature words from the feature word storage unit. apparatus.
予め前記コンピュータに記憶され、通信ネットワーク上に配信されるウェブページを特徴付ける素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を削除することにより、前記素性語を選別する素性語選別ステップを、少なくとも実行することを特徴とする方法。 Computer
The web page stored in association with the feature word by a search by a search engine using the feature word as a search keyword for each feature word that is stored in the computer in advance and is distributed over a communication network. A feature word selection step of selecting the feature words by deleting the feature words when the hit count is equal to or greater than or less than a predetermined threshold. A method characterized by performing at least.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008166566A JP5178347B2 (en) | 2008-06-25 | 2008-06-25 | System, method, and program comprising feature word sorting device and classification device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008166566A JP5178347B2 (en) | 2008-06-25 | 2008-06-25 | System, method, and program comprising feature word sorting device and classification device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010009254A true JP2010009254A (en) | 2010-01-14 |
JP5178347B2 JP5178347B2 (en) | 2013-04-10 |
Family
ID=41589683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008166566A Active JP5178347B2 (en) | 2008-06-25 | 2008-06-25 | System, method, and program comprising feature word sorting device and classification device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5178347B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259515A (en) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | Similar document retrieval device and method and recording medium recording similar document retrieval program |
JP2005309998A (en) * | 2004-04-23 | 2005-11-04 | Fujitsu Ltd | Content navigation program, method and device |
JP2005332080A (en) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for classifying visual information, and storage medium storing visual information classification program |
-
2008
- 2008-06-25 JP JP2008166566A patent/JP5178347B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259515A (en) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | Similar document retrieval device and method and recording medium recording similar document retrieval program |
JP2005309998A (en) * | 2004-04-23 | 2005-11-04 | Fujitsu Ltd | Content navigation program, method and device |
JP2005332080A (en) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for classifying visual information, and storage medium storing visual information classification program |
Non-Patent Citations (2)
Title |
---|
CSNB200400018001; 北 研二: 情報検索アルゴリズム 初版 第1版, 20020101, 第27-32頁, 共立出版株式会社 南條 光章 * |
JPN6011052970; 北 研二: 情報検索アルゴリズム 初版 第1版, 20020101, 第27-32頁, 共立出版株式会社 南條 光章 * |
Also Published As
Publication number | Publication date |
---|---|
JP5178347B2 (en) | 2013-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7085761B2 (en) | Program for changing search results rank, recording medium for recording such a program, and content search processing method | |
US8019758B2 (en) | Generation of a blended classification model | |
TWI486800B (en) | System and method for search results ranking using editing distance and document information | |
US7769771B2 (en) | Searching a document using relevance feedback | |
JP2002230021A (en) | Information retrieval device and method, and storage medium | |
JP4746439B2 (en) | Document search server and document search method | |
JP5329540B2 (en) | User-centric information search method, computer-readable recording medium, and user-centric information search system | |
US20180004838A1 (en) | System and method for language sensitive contextual searching | |
JP6053131B2 (en) | Information processing apparatus, information processing method, and program | |
JP5226241B2 (en) | How to add tags | |
JP2010140154A (en) | Device, method, and program for sorting retrieval result | |
JP4973503B2 (en) | File search program, method and apparatus | |
US9286289B2 (en) | Ordering a lexicon network for automatic disambiguation | |
JP2007528531A (en) | Search service system and method for providing input order of keywords by category | |
JP2006227823A (en) | Information processor and its control method | |
US8484221B2 (en) | Adaptive routing of documents to searchable indexes | |
JP2010092357A (en) | Facility-related information retrieval method and facility-related information retrieval system | |
JP5418138B2 (en) | Document search system, information processing apparatus, and program | |
KR101035037B1 (en) | Apparatus and method for clustering documents using dynamic threshold | |
JP7256357B2 (en) | Information processing device, control method, program | |
JP2010003134A (en) | Server, method, and program for recommending retrieval keyword | |
JP2012141681A (en) | Query segment position determining device | |
JPH11213000A (en) | Interactive information retrieval method/device and storage medium storing interactive information retrieval program | |
JP5178347B2 (en) | System, method, and program comprising feature word sorting device and classification device | |
JP6916136B2 (en) | Search support device, search support method, and search support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111212 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120710 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121010 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20121017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5178347 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |