JP2010009254A - Feature word selection device, method, and program - Google Patents

Feature word selection device, method, and program Download PDF

Info

Publication number
JP2010009254A
JP2010009254A JP2008166566A JP2008166566A JP2010009254A JP 2010009254 A JP2010009254 A JP 2010009254A JP 2008166566 A JP2008166566 A JP 2008166566A JP 2008166566 A JP2008166566 A JP 2008166566A JP 2010009254 A JP2010009254 A JP 2010009254A
Authority
JP
Japan
Prior art keywords
feature word
feature
web page
stored
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008166566A
Other languages
Japanese (ja)
Other versions
JP5178347B2 (en
Inventor
Kiyoshi Nitta
清 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008166566A priority Critical patent/JP5178347B2/en
Publication of JP2010009254A publication Critical patent/JP2010009254A/en
Application granted granted Critical
Publication of JP5178347B2 publication Critical patent/JP5178347B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a feature word selection device for reducing workload for allocating a category to a Web page by selecting feature words based on a predetermined rule. <P>SOLUTION: The feature word selection device is provided with: a feature word storage means 10 for storing feature words featuring a Web page to be distributed on a communication network N in association with the Web page; and a feature word selection means 11 for counting the hits showing matching frequency of the Web pages stored in association with the feature words, for each feature word stored in the feature word storage means 10, by retrieval using a search engine on the basis of the feature words, and for, when the number of hits becomes equal to or more than or less than a predetermined threshold, deleting the feature words from the feature word storage means 10, thereby selecting the feature words stored in the feature word storage means 10. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、通信ネットワーク上に配信されるウェブページを、予め定められたカテゴリ別に分類するための特徴語を選別する素性語選別装置、方法及びプログラムに関する。   The present invention relates to a feature word selection device, method, and program for selecting feature words for classifying web pages distributed on a communication network according to predetermined categories.

近年、インターネット上に無数のウェブページが存在しており、目的にあったウェブページを検索することは容易ではない。そのため、検索エンジンが提供されているが、このような検索エンジンを使用したとしても、目的とするウェブページが検索できるとは限らない。
したがって、YAHOO!JAPAN(登録商標)等、いくつかのサービス業者は、検索エンジンの他に、下記非特許文献1に示すように、ウェブページをカテゴリ別に分類する分類サービスを行っており、これにより、ユーザは、目的とするウェブページを見つけやすくなっている。
[online]、2008年4月21月号、YAHOO!JAPANカテゴリ、[2008年4月23日検索]、インターネット<URL:http://dir.yahoo.co.jp/>
In recent years, innumerable web pages exist on the Internet, and it is not easy to search for web pages that meet the purpose. Therefore, although a search engine is provided, even if such a search engine is used, the target web page cannot always be searched.
Therefore, YAHOO! Some service providers such as JAPAN (registered trademark) provide a classification service for classifying web pages into categories, as shown in Non-Patent Document 1 below, in addition to search engines. It makes it easier to find the target web page.
[Online], April 21, 2008, YAHOO! JAPAN category, [Search April 23, 2008], Internet <URL: http: // dir. yahoo. co. jp />

このようなカテゴリ別に分類する分類サービスでは、カテゴリの規模が大きい(数万ノードの)場合は手作業でウェブページを分類している。カテゴリ規模が小さい(数百ノードの)場合は自動的な分類処理が多数試みられており、インターネット上に存在するウェブページに含まれる語句と、予め記憶された素性語とを対比して、その対比結果に基づいて、予め記憶された素性語に対応するカテゴリを付与している。
カテゴリの規模を大きくすると、ユーザはより意図に近い分類カテゴリを指定することができる。しかしながら、カテゴリの規模を大きくすると所属する文書の数が増え、分類処理時に取り扱う素性語の数も増加し、ウェブページにマッチするカテゴリを割り付ける作業が複雑となり時間を要することになる。また、そのような作業に耐えうる分類装置を導入するにはコストも高くつく。
In such a classification service for classifying by category, web pages are classified manually when the scale of the category is large (tens of thousands of nodes). When the category size is small (hundreds of nodes), many automatic classification processes have been attempted, and the words included in the web page existing on the Internet are compared with the pre-stored feature words. Based on the comparison result, categories corresponding to previously stored feature words are assigned.
When the size of the category is increased, the user can specify a classification category closer to the intention. However, if the category size is increased, the number of documents belonging to the category increases, the number of feature words handled during classification processing also increases, and the work of assigning a category that matches a web page becomes complicated and requires time. In addition, it is expensive to introduce a classification device that can withstand such work.

本発明は、このような事情を考慮して提案されるものであり、予め記憶された素性語を所定のルールに基づいて選別することにより、ウェブページにカテゴリを割り付ける作業負担を軽減することができる素性語選別装置、方法及びプログラムを提供することを目的とする。   The present invention is proposed in view of such circumstances, and by selecting pre-stored feature words based on a predetermined rule, it is possible to reduce the work burden of assigning categories to web pages. An object of the present invention is to provide a feature word selection device, method and program.

上記目的を達成するために、本発明者は、予め記憶された素性語を所定のルールに基づいて選別できる仕組みを見出し、本発明を想到するに至った。
本発明に係る素性語選別装置は、予め定められた一定のルールに従って素性語を素性語データベースから削除することにより、予め記憶されている素性語に基づいたカテゴリ分類処理に要する負担を軽減するものである。
In order to achieve the above object, the present inventor has found a mechanism that can select previously stored feature words based on a predetermined rule, and has come up with the present invention.
The feature word selection device according to the present invention reduces the burden required for category classification processing based on a feature word stored in advance by deleting the feature word from the feature word database according to a predetermined rule. It is.

(1)通信ネットワーク上に配信されるウェブページを特徴付ける素性語を、前記ウェブページに関連付けて記憶する素性語記憶手段と、
前記素性語記憶手段に記憶されている前記素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて前記素性語記憶手段に記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別する素性語選別手段と、
を備えることを特徴とする素性語選別装置。
(1) Feature word storage means for storing a feature word characterizing a web page distributed over a communication network in association with the web page;
For each of the feature words stored in the feature word storage unit, the web page stored in the feature word storage unit in association with the feature word is searched by a search engine using the feature word as a search keyword. The number of hits indicating the frequency of matching is counted, and the feature word is stored in the feature word storage unit by deleting the feature word from the feature word storage unit when the number of hits is equal to or greater than a predetermined threshold value. A feature word selection means for selecting the feature words that are being used;
A feature word selection device comprising:

(1)の発明によれば、検索エンジンによる検索によって、素性語に関連付けて素性語記憶手段に記憶されているウェブページにヒットしたヒット回数が、所定の閾値以上又は以下となった際に、その素性語を素性語記憶手段から削除するので、以下の効果を奏する。   According to the invention of (1), when the number of hits hitting the web page stored in the feature word storage unit in association with the feature word by the search by the search engine becomes a predetermined threshold value or less, Since the feature word is deleted from the feature word storage means, the following effects are produced.

すなわち、前記ヒット回数が所定の閾値以上となった際に、素性語を素性語記憶手段から削除するので、その素性語はありふれた用語、つまり、ウェブページを特徴づけることができない用語であると判断して、その素性語を基にしたカテゴリ分類を不可能にすることができる。   That is, when the number of hits exceeds a predetermined threshold, the feature word is deleted from the feature word storage means, so that the feature word is a common term, that is, a term that cannot characterize a web page. This makes it possible to make category classification based on the feature word impossible.

また、前記ヒット回数が所定の閾値以下となった際に、素性語を素性語記憶手段から削除するので、その素性語は一般ユーザに連想されない用語、つまり、ウェブページを特徴づけることができない用語であると判断して、その素性語を基にしたカテゴリ分類を不可能にすることができる。   In addition, when the number of hits falls below a predetermined threshold, the feature word is deleted from the feature word storage means, so the feature word is a term that is not associated with general users, that is, a term that cannot characterize a web page Therefore, it is possible to make the category classification based on the feature word impossible.

そのため、真にウェブページを特徴づけるような素性語のみが素性語記憶手段に残留するため、素性語に基づいたカテゴリ分類を効率的に行うことができ、カテゴリ分類装置の導入コストを低く抑えることができる。   Therefore, since only feature words that truly characterize the web page remain in the feature word storage means, category classification based on feature words can be performed efficiently, and the introduction cost of the category classification device can be kept low. Can do.

(2)前記素性語選別手段は、前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページ中に出現する出現頻度をカウントし、前記出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、(1)に記載の素性語選別装置。   (2) The feature word selection unit counts the appearance frequency at which the feature word appears in the web page stored in association with the feature word in the feature word storage unit, and the appearance frequency is predetermined. The feature word stored in the feature word storage means is selected by deleting the feature word from the feature word storage means when the threshold value is below a threshold value. Feature word sorting device.

(2)の発明によれば、素性語に関連付けて記憶されているウェブページ中に出現する出現頻度が所定の閾値以下となった際に、その素性語を素性語記憶手段から削除するので、出現頻度が閾値以下である素性語は、ウェブユーザの作成者にとって連想されない用語、つまり、ウェブページを特徴づけることができない用語であると判断して、その素性語を基にしたカテゴリ分類を不可能にすることができる。   According to the invention of (2), when the appearance frequency appearing in the web page stored in association with the feature word is equal to or less than a predetermined threshold, the feature word is deleted from the feature word storage means. A feature word whose appearance frequency is less than or equal to a threshold is determined to be a term that is not associated with the creator of the web user, that is, a term that cannot characterize a web page, and categorization based on the feature word is not allowed. Can be possible.

そのため、真にウェブページを特徴づけるような素性語のみが素性語記憶手段に残留するため、素性語に基づいたカテゴリ分類を効率的に行うことができ、カテゴリ分類装置の導入コストを低く抑えることができる。   Therefore, since only feature words that truly characterize the web page remain in the feature word storage means, category classification based on feature words can be performed efficiently, and the introduction cost of the category classification device can be kept low. Can do.

(3)前記素性語選別手段は、前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページのタイトル又は本文又は概要中に出現する出現頻度をカウントし、その出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、(1)に記載の素性語選別装置。   (3) The feature word selection means counts the appearance frequency of the feature word appearing in the title or text or summary of the web page stored in association with the feature word in the feature word storage means, The feature word stored in the feature word storage unit is selected by deleting the feature word from the feature word storage unit when the appearance frequency becomes a predetermined threshold value or less. The feature word sorting device according to (1).

(3)の発明によれば、素性語に関連付けて記憶されているウェブページのタイトル中に出現する出現頻度が所定の閾値以下となった際に、素性語を素性語記憶手段から削除する。一般に、タイトル中の出現頻度が閾値以下である素性語は、ウェブページ中のその他の項目よりも更にウェブページ作成者の印象に依存するため、そのようなタイトル中の出現頻度が閾値以下である素性語を削除することにより、ウェブページを特徴づけるような素性語のみを素性語記憶手段に残すことができる。   According to the invention of (3), the feature word is deleted from the feature word storage means when the appearance frequency appearing in the title of the web page stored in association with the feature word is equal to or less than a predetermined threshold. In general, a feature word whose appearance frequency in a title is less than or equal to a threshold value depends on the impression of the web page creator more than other items in the web page, and thus the appearance frequency in such a title is less than or equal to the threshold value. By deleting the feature word, only the feature word that characterizes the web page can be left in the feature word storage means.

(4)コンピュータが、
予め前記コンピュータに記憶され、通信ネットワーク上に配信されるウェブページを特徴付ける素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を削除することにより、前記素性語を選別する素性語選別ステップを、少なくとも実行することを特徴とする方法。
(4) The computer
The web page stored in association with the feature word by a search by a search engine using the feature word as a search keyword for each feature word that is stored in the computer in advance and is distributed over a communication network. A feature word selection step of selecting the feature words by deleting the feature words when the hit count is equal to or greater than or less than a predetermined threshold. A method characterized by performing at least.

(5)(4)に記載の方法をコンピュータに実行させることを特徴とするプログラム。   (5) A program that causes a computer to execute the method according to (4).

この発明によれば、真にウェブページを特徴づけるような素性語のみが素性語記憶手段に残留するため、素性語に基づいたカテゴリ分類を効率的に行うことができ、カテゴリ分類装置の導入コストを低く抑えることができる。   According to the present invention, since only feature words that truly characterize the web page remain in the feature word storage means, category classification based on the feature words can be performed efficiently, and the introduction cost of the category classification device Can be kept low.

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。   Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.

[素性語選別装置と関連要素の全体構成]
図1は、本実施形態に係る素性語選別装置と関連要素の全体構成を示す図である。
[Overall configuration of feature word sorter and related elements]
FIG. 1 is a diagram showing an overall configuration of a feature word selection device and related elements according to the present embodiment.

本実施形態に係る素性語選別装置1は、インターネット等の通信ネットワークNと、分類装置2とに接続されている。検索装置3は、通信ネットワークNと、素性語選別装置1とに接続されている。   The feature word selection device 1 according to the present embodiment is connected to a communication network N such as the Internet and a classification device 2. The search device 3 is connected to the communication network N and the feature word selection device 1.

分類装置2は、通信ネットワーク上のウェブページをカテゴリに分類するものである。その分類手法は種々考えられるが、例えば、以下の分類手法が考えられる。   The classification device 2 classifies web pages on the communication network into categories. Various classification methods can be considered. For example, the following classification methods are possible.

すなわち、分類装置2は、ウェブページに含まれる文字データについて、形態素解析を行い、文章(複数の単語から構成される文字データ)を単語毎に分けて、分けた単語を品詞毎に分類して、特定の品詞(例えば名詞)のみを抽出する。そして、後述する素性語データベース12(図2参照)に記憶された素性語の中に、一致する素性語があるか否かを判断し、一致するものがあれば、一致した素性語に関係付けられたカテゴリとの平均相互情報量により、平均相互情報量が所定値以上である場合には、当該カテゴリを、このウェブページのカテゴリとする。   That is, the classification device 2 performs morphological analysis on the character data included in the web page, divides sentences (character data composed of a plurality of words) into words, and classifies the divided words into parts of speech. Extract only specific parts of speech (for example, nouns). Then, it is determined whether or not there is a matching feature word in the feature words stored in the feature word database 12 (see FIG. 2) to be described later. If there is a matching feature word, it is related to the matching feature word. When the average mutual information amount is equal to or greater than a predetermined value due to the average mutual information amount with the determined category, the category is set as the category of this web page.

なお、平均相互情報量平均相互情報量の算出には、例えば、以下の式が使用される。

Figure 2010009254
MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
Pを確率として、P(X,Y)は、「X」と「Y」とが共起する確率であり、P(X)、P(Y)は、それぞれ個別に生起する確率である。 For example, the following formula is used to calculate the average mutual information amount.
Figure 2010009254
MI (w, c): P (X, Y) is a probability that “X” and “Y” co-occur with the average mutual information P between the word w as a morpheme and the category c as a probability. , P (X), and P (Y) are probabilities that occur individually.

検索装置3は、通信ネットワークN上に接続されたユーザ端末(図示せず)から、検索キーワードを含む検索要求(以下、クエリと呼ぶ)を受け付けて、検索キーワードにマッチするウェブページの通信アドレス、タイトル、要約を少なくとも含む検索結果を返信する。   The search device 3 accepts a search request including a search keyword (hereinafter referred to as a query) from a user terminal (not shown) connected on the communication network N, and a communication address of a web page that matches the search keyword, Returns search results including at least title and summary.

検索装置3は、通信ネットワークN上に接続されたユーザ端末からクエリを受け付けるクエリ受付部30と、検索処理部32にクエリを送信するクエリ送信部31と、クエリ送信部31から送信されたクエリに基づいて、検索キーワードにマッチするウェブページを検索する検索処理部32と、検索処理部32により検索されたウェブページの通信アドレス、タイトル、要約を少なくとも含む検索結果を生成する検索結果生成部33と、ユーザ端末の他に、素性語選別装置1に検索結果を送信する検索結果送信部34と、検索履歴を記録する検索ログ記録部35と、を備える。   The search device 3 includes a query receiving unit 30 that receives a query from a user terminal connected on the communication network N, a query transmission unit 31 that transmits a query to the search processing unit 32, and a query transmitted from the query transmission unit 31. A search processing unit 32 that searches for a web page that matches the search keyword, and a search result generation unit 33 that generates a search result including at least the communication address, title, and summary of the web page searched by the search processing unit 32; In addition to the user terminal, a search result transmission unit 34 that transmits a search result to the feature word sorting device 1 and a search log recording unit 35 that records a search history are provided.

[素性語選別装置の機能構成]
図2は、本実施形態に係る素性語選別装置1の機能構成の概要を示す図である。本実施形態に係る素性語選別装置1は、素性語記憶手段10と、素性語選別手段11と、を備える。素性語選別手段11は、更に素性語準備処理部13と素性語選別処理部14を備える。
[Functional structure of feature word sorter]
FIG. 2 is a diagram illustrating an outline of a functional configuration of the feature word selection device 1 according to the present embodiment. The feature word selection device 1 according to the present embodiment includes a feature word storage unit 10 and a feature word selection unit 11. The feature word selection unit 11 further includes a feature word preparation processing unit 13 and a feature word selection processing unit 14.

素性語記憶手段10は、ウェブページを特徴づける単語となる素性語を予め記憶している。尚、素性語記憶手段10の詳細については後述する。素性語選別手段11は、分類装置2と協働した処理により、後述する所定のルールに基づいて素性語を選別する。素性語データベース12(素性語DB)は素性語記憶手段10の一部を構成しており、予め前記素性語を記憶している。   The feature word storage means 10 stores in advance feature words that are words that characterize web pages. Details of the feature word storage means 10 will be described later. The feature word sorting unit 11 sorts feature words based on a predetermined rule to be described later by processing in cooperation with the classification device 2. The feature word database 12 (feature word DB) constitutes a part of the feature word storage means 10 and stores the feature words in advance.

[素性語データベースと関連要素の構成]
図3は、素性語データベース12と関連要素の構成の概要を示す図である。
素性語データベース12は、構築済みのカテゴリ構造データを用いて、予め素性語IDと素性語とを対応付けて記憶した素性語IDテーブル121と、予め文書IDと文書(ウェブページ)の通信アドレス(例えばURL)とを対応付けて記憶した文書IDテーブル122と、予め素性語IDと文書IDとを対応付けて記憶したID対応テーブル123と、後述する頻度テーブル124と、を備える。
[Structure of feature word database and related elements]
FIG. 3 is a diagram showing an outline of the configuration of the feature word database 12 and related elements.
The feature word database 12 uses the constructed category structure data, the feature word ID table 121 in which the feature word ID and the feature word are stored in association with each other, and the communication address (document ID and document (web page)) in advance. For example, a document ID table 122 in which URLs are stored in association with each other, an ID correspondence table 123 in which feature word IDs and document IDs are stored in association with each other, and a frequency table 124 described later are provided.

素性語IDテーブル121には、素性語に素性語IDが割り付けられて記憶されている。文書IDテーブル122には、ウェブページの通信アドレス(URL等)に文書IDが割り付けられて記憶されている。ID対応テーブル123には、素性語に割り付けられた素性語IDと、ウェブページに割り付けられた文書IDと、該素性語が該ウェブページに出現する出現位置を表す出現位置タイプと、が対応して記憶されている。   In the feature word ID table 121, feature word IDs are assigned to feature words and stored. In the document ID table 122, a document ID is assigned to a communication address (URL, etc.) of a web page and stored. The ID correspondence table 123 corresponds to a feature word ID assigned to a feature word, a document ID assigned to a web page, and an appearance position type representing an appearance position at which the feature word appears on the web page. Is remembered.

頻度テーブル124には、素性語ID毎に、検索キーワードを基にした検索により、文書IDテーブル122に記憶されているウェブページにヒットしたヒット回数が「頻度」として記憶される。図中では、検索キーワードを基にしたウェブページのヒット回数を頻度として記憶するという意味で、「頻度」がタイプ「検索」に対応して記憶される。   In the frequency table 124, for each feature word ID, the number of hits hitting the web page stored in the document ID table 122 by the search based on the search keyword is stored as “frequency”. In the figure, “frequency” is stored in association with the type “search” in the sense that the frequency of web page hits based on the search keyword is stored as frequency.

また、頻度テーブル124には、素性語ID毎に、その素性語IDに対応して素性語IDテーブル121に記憶されている素性語が、文書IDテーブル122に記憶されているウェブページにおける「タイトル」及び「本文」中における出現頻度が記憶される。図中では、ウェブページのタイトル及び本文における素性語の出現頻度を記憶するという意味で、「頻度」が、タイプ「タイトル」及び「本文」に対応して記憶される。   In the frequency table 124, for each feature word ID, the feature words stored in the feature word ID table 121 corresponding to the feature word ID are displayed in the “title” on the web page stored in the document ID table 122. "And the appearance frequency in the" text "are stored. In the figure, “frequency” is stored in association with the types “title” and “text” in the sense of storing the appearance frequency of feature words in the title and text of the web page.

素性語選別装置1は、ヒット回数及び出現頻度をカウントする対象となる素性語を、素性語IDテーブル121を参照して抽出する。   The feature word sorting device 1 extracts feature words that are targets for counting the number of hits and the appearance frequency with reference to the feature word ID table 121.

[素性語選別装置のハードウェア構成図]
図4は、本実施形態に係る素性語選別装置のハードウェア構成を示す図である。
素性語選別装置1は、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもよい)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380、並びに半導体メモリ390を備える。尚、ハードディスク370、光ディスクドライブ380、並びに、半導体メモリ390はまとめて記憶装置410と呼ばれる。
[Hardware configuration of feature word sorter]
FIG. 4 is a diagram illustrating a hardware configuration of the feature word selection device according to the present embodiment.
The feature word selection device 1 includes a CPU (Central Processing Unit) 310 (a plurality of CPUs such as a CPU 320 may be added in a multiprocessor configuration), a bus line 200, a communication I / F (I / F). An interface) 330, a main memory 340, a BIOS (Basic Input Output System) 350, an I / O controller 360, a hard disk 370, an optical disk drive 380, and a semiconductor memory 390. The hard disk 370, the optical disk drive 380, and the semiconductor memory 390 are collectively referred to as a storage device 410.

制御部300は、素性語選別装置1を統括的に制御する部分であり、ハードディスク370(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。   The control unit 300 is a part that comprehensively controls the feature word selection device 1, and cooperates with the hardware described above by appropriately reading and executing various programs stored in the hard disk 370 (described later). Various functions according to the invention are realized.

通信I/F330は、素性語選別装置1が、インターネットN(図1)を介してユーザ端末等と情報を送受信する場合のネットワーク・アダプタである。通信I/F330は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。   The communication I / F 330 is a network adapter when the feature word selection device 1 transmits / receives information to / from a user terminal or the like via the Internet N (FIG. 1). The communication I / F 330 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter.

BIOS350は、素性語選別装置1の起動時にCPU310が実行するブートプログラムや、素性語選別装置1がハードウェアに依存するプログラム等を記録する。   The BIOS 350 records a boot program executed by the CPU 310 when the feature word sorting device 1 is started, a program that the feature word sorting device 1 depends on hardware, and the like.

I/Oコントローラ360には、ハードディスク370、光ディスクドライブ380、及び半導体メモリ390等の記憶装置410を接続することができる。   A storage device 410 such as a hard disk 370, an optical disk drive 380, and a semiconductor memory 390 can be connected to the I / O controller 360.

ハードディスク370は、本ハードウェアを素性語選別装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブル及びレコードを記憶する。なお、素性語選別装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。   The hard disk 370 stores various programs for causing the hardware to function as the feature word selection device 1, programs for executing the functions of the present invention, and tables and records to be described later. Note that the feature word selection device 1 can also use a hard disk (not shown) separately provided as an external storage device.

光ディスクドライブ380としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク400を使用する。光ディスク400から光ディスクドライブ380によりプログラム又はデータを読み取り、I/Oコントローラ360を介してメインメモリ340又はハードディスク370に提供することもできる。   As the optical disk drive 380, for example, a DVD-ROM drive, a CD-ROM drive, a DVD-RAM drive, or a CD-RAM drive can be used. In this case, the optical disk 400 corresponding to each drive is used. A program or data can be read from the optical disk 400 by the optical disk drive 380 and provided to the main memory 340 or the hard disk 370 via the I / O controller 360.

なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、素性語選別装置1は、記憶装置410、制御部300等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。   Note that the computer in the present invention refers to an information processing device including a storage device, a control unit, and the like, and the feature word selection device 1 includes an information processing device including the storage device 410, the control unit 300, and the like. This information processing apparatus is included in the concept of the computer of the present invention.

この素性語選別装置1では、制御部300が主として素性語選別手段11に対応し、記憶装置410が主として素性語記憶手段10に対応する。   In the feature word selection device 1, the control unit 300 mainly corresponds to the feature word selection unit 11, and the storage device 410 mainly corresponds to the feature word storage unit 10.

[検索装置3のハードウェア構成]
分類装置2、検索装置3も、上述の素性語選別装置1と同様な構成を持つ。
[Hardware configuration of search device 3]
The classification device 2 and the search device 3 have the same configuration as the feature word selection device 1 described above.

[本発明の実施形態に係るフローチャート]
[素性語選別のための準備処理]
図5は、本発明の実施形態に係る素性語選別のための準備処理のフローチャートを示している。
S1:分類装置2は、既存のカテゴリデータを集合Dとする。
S2、S3:分類装置2は、集合Dが空でなければ、集合Dからカテゴリ(クラス)c毎に、属する文書dを取り出す。
S4、S5:分類装置2は、文書dの素性f(素性語ベクトルf)を生成し、素性語データベース12を更新する。
[Flowchart According to Embodiment of the Present Invention]
[Preparation process for feature word selection]
FIG. 5 shows a flowchart of a preparation process for feature word selection according to the embodiment of the present invention.
S1: The classification device 2 sets the existing category data as a set D.
S2, S3: If the set D is not empty, the classification device 2 takes out the document d belonging to the set D for each category (class) c.
S4, S5: The classification device 2 generates a feature f (a feature word vector f) of the document d, and updates the feature word database 12.

[分類装置の訓練処理]
図6は、本発明の実施形態に係る訓練処理のフローチャートを示している。
S6〜S9:分類装置2は、既存のカテゴリデータを集合Dとする。集合Dが空でなければ、集合Dからカテゴリ(クラス)c毎に、属する文書dを取り出す。分類装置2は、文書dの素性fを生成する。
S10:素性語選別装置1は、後述する素性語選別処理を行う。
S11:分類装置2は、選別された素性語を用いて訓練用データを書き出す。
S12:ステップS7において集合Dが空の場合には、ステップS11で書き出された訓練用データを用いて訓練を行いモデルMを生成する。
[Classifier training process]
FIG. 6 shows a flowchart of the training process according to the embodiment of the present invention.
S6 to S9: The classification device 2 sets the existing category data as a set D. If the set D is not empty, the document d belonging to each category (class) c is extracted from the set D. The classification device 2 generates a feature f of the document d.
S10: The feature word selection device 1 performs a feature word selection process described later.
S11: The classification device 2 writes training data using the selected feature words.
S12: If the set D is empty in step S7, the model M is generated by performing training using the training data written in step S11.

[分類装置の予測処理]
図7は、本発明の実施形態に係る予測処理のフローチャートを示している。
S13、S14:分類装置2は、入力文書をdとし、文書dの素性fを生成する。
S15:素性語選別装置1は、後述する素性語選別処理を行う。
S16、S17:分類装置2は、選別された素性f’をモデルMで予測することにより、属するカテゴリcを予測する。
[Classifier prediction processing]
FIG. 7 shows a flowchart of the prediction process according to the embodiment of the present invention.
S13, S14: The classification device 2 sets the input document as d and generates a feature f of the document d.
S15: The feature word selection device 1 performs a feature word selection process described later.
S16, S17: The classification device 2 predicts the category c to which it belongs by predicting the selected feature f ′ with the model M.

[素性語選別処理]
図8は、本実施形態に係る素性語選別処理を表すフローチャートを示している。
S18:素性fの要素を集合Eとする。
S19、S20:集合Eが空ではなければ、集合Eから素性要素を取り出す。尚、図中、場所lとは、後述するように、素性要素が位置する文書中の場所を示す。語tとは、素性語となりうる文書中の語を示す。
S21:素性語DBを参照して(l,t)を選別する。
S22:削除対象であるどうかを判定し、削除対象であれば、ステップS19に戻る。そうでなければステップS23に進む。
S23:(l,t)を出力し、ステップS19に戻る。
[Feature word selection process]
FIG. 8 is a flowchart showing the feature word selection process according to this embodiment.
S18: An element of the feature f is set as a set E.
S19, S20: If the set E is not empty, a feature element is extracted from the set E. In the figure, the place l indicates a place in the document where the feature element is located, as will be described later. The word t indicates a word in the document that can be a feature word.
S21: Select (l, t) with reference to the feature word DB.
S22: It is determined whether it is a deletion target. If it is a deletion target, the process returns to step S19. Otherwise, the process proceeds to step S23.
S23: (l, t) is output, and the process returns to step S19.

[素性語選別処理の詳細]
以下に素性語選別処理の詳細について説明する。
[Details of feature word selection processing]
Details of the feature word selection process will be described below.

(場所l、語t)の選別条件には次の種類がある。
(条件a) 語tのウェブ検索頻度が一定範囲である。
(条件b) 既存カテゴリデータにおいて、場所lに語tが出現した頻度が一定範囲である。
(条件c) 既存カテゴリデータにおいて、任意の場所lに語tが出現した頻度が一定範囲である。
(条件d) 語tのウェブ検索頻度、既存カテゴリデータにおける特定場所での出現頻度が一定範囲の特定の組み合わせ条件を満たす。
ここで、場所lには、本文、タイトル、メタ記述、メタキーワードの種類が存在する。
There are the following types of selection conditions for (place l, word t).
(Condition a) The web search frequency of the word t is within a certain range.
(Condition b) In the existing category data, the frequency that the word t appears in the place l is within a certain range.
(Condition c) In the existing category data, the frequency that the word t appears in an arbitrary place l is within a certain range.
(Condition d) The web search frequency of the word t and the appearance frequency at a specific place in the existing category data satisfy a specific combination condition within a certain range.
Here, in the location l, there are types of text, title, meta description, and meta keyword.

以下、図9〜図13を参照し、準備処理と選別処理に関する具体的な処理フローを条件a、b、cについて示す。   Hereinafter, with reference to FIG. 9 to FIG. 13, a specific processing flow regarding the preparation process and the selection process will be shown for the conditions a, b, and c.

[素性語選別準備処理(条件a)]
図9は、素性語準備処理部13による条件aにおける素性語選別の準備処理を示したものである。
S30:素性fの要素を集合Eとする。
S31、S32:集合Eが空でない場合は、Eから素性要素(場所l、語t)を取り出す。集合Eが空の場合は、処理を終了する。
S33、S34:語tの検索頻度がDBに登録済みの場合は、ステップS31に戻り、そうでない場合は、検索装置3によって、語tをインターネット検索させる。
S35、S36:検索装置3からのヒット件数が取得できた場合は、素性語記憶手段10は、語tの検索頻度nをDBに登録する。そうでない場合は、ステップS31の処理に戻る。
[Feature word selection preparation process (condition a)]
FIG. 9 shows a feature word selection preparation process under condition a by the feature word preparation processing unit 13.
S30: An element of the feature f is set as a set E.
S31, S32: If the set E is not empty, a feature element (location l, word t) is extracted from E. If the set E is empty, the process ends.
S33, S34: If the search frequency for the word t has already been registered in the DB, the process returns to step S31.
S35, S36: When the number of hits from the search device 3 can be acquired, the feature word storage unit 10 registers the search frequency n of the word t in the DB. Otherwise, the process returns to step S31.

[素性語選別処理(条件a)]
図10は、素性語選別処理部14による条件aにおける素性語選別処理を示したものである。
S40:素性語DBから語tの検索頻度を取得する。
S41:頻度nが取得できた場合は、S42に処理を移し、そうでない場合は処理を終了する。
S42、S44:頻度nが検索頻度の下限値に等しいか小さい場合は、削除判定を出力する。そうでない場合は、S43に処理を移す。
S43、S44:頻度nが検索上限値を超える場合は、削除判定を出力する。そうでない場合は、処理を終了する。
[Feature word selection process (condition a)]
FIG. 10 shows a feature word selection process under the condition a by the feature word selection processing unit 14.
S40: The search frequency of the word t is acquired from the feature word DB.
S41: If the frequency n can be acquired, the process proceeds to S42, and if not, the process ends.
S42, S44: When the frequency n is equal to or smaller than the lower limit value of the search frequency, a deletion determination is output. If not, the process proceeds to S43.
S43, S44: When the frequency n exceeds the search upper limit value, a deletion determination is output. If not, the process ends.

[素性語選別準備処理(条件b)]
図11は、素性語準備処理部13による条件bにおける素性語選別の準備処理を示したものである。
S50:素性fの要素を集合Eとする。
S51、S52:集合Eが空でない場合は、Eから素性要素(場所l、語t)を取り出す。集合Eが空の場合は、処理を終了する。
S53:素性語DBから語tの場所lの頻度を取得する。
S54:頻度nが取得できた場合は、ステップS56の処理に移り、取得できなかった場合は、ステップS55の処理に戻る。
S55:素性語記憶手段10により、語tの場所lの頻度1でDBに登録し、ステップS51の処理に再び戻る。
S56:DBの語tの場所lの頻度を更新する。そしてステップS51へ処理を移す。
[Feature word selection preparation process (condition b)]
FIG. 11 shows a feature word selection preparation process under condition b by the feature word preparation processing unit 13.
S50: An element of the feature f is set as a set E.
S51, S52: If the set E is not empty, a feature element (location l, word t) is extracted from E. If the set E is empty, the process ends.
S53: The frequency of the place l of the word t is acquired from the feature word DB.
S54: If the frequency n can be acquired, the process proceeds to step S56. If the frequency n cannot be acquired, the process returns to step S55.
S55: The feature word storage means 10 registers in the DB with the frequency 1 of the place l of the word t, and returns to the process of step S51 again.
S56: Update the frequency of the location l of the word t in the DB. Then, the process proceeds to step S51.

[素性語選別処理(条件b)]
図12は、素性語選別処理部14による条件bにおける素性語選別処理を示したものである。
S60:素性語DBから語tの場所lの頻度nを取得する。
S61:頻度nが取得できた場合は、ステップS62に移り、そうでない場合は処理を終了する。
S62、S64:頻度nが場所頻度の下限値に等しいか大きい場合は、ステップS63に移り、そうでない場合は、ステップS64に移り、削除判定を出力し、その後処理を終了する。
S63、S64:頻度nが場所頻度の上限値を超えない場合は、処理を終了し、そうでない場合は、ステップS64に移り、削除判定を出力し、その後処理を終了する。
[Feature word selection process (condition b)]
FIG. 12 shows a feature word selection process under the condition b by the feature word selection processing unit 14.
S60: The frequency n of the place l of the word t is acquired from the feature word DB.
S61: If the frequency n can be acquired, the process proceeds to step S62, and if not, the process ends.
S62, S64: If the frequency n is equal to or greater than the lower limit value of the place frequency, the process proceeds to step S63, and if not, the process proceeds to step S64, a deletion determination is output, and then the process ends.
S63, S64: If the frequency n does not exceed the upper limit value of the place frequency, the process is terminated. If not, the process proceeds to step S64, a deletion determination is output, and then the process is terminated.

[素性語選別準備処理(条件c)]
素性語準備処理部13による条件cにおける素性選別準備処理は、図11の条件bの場合と同様である。素性語準備処理部13は、条件bの準備処理が行われてない場合のみ同一の処理を実行する。
[Feature word selection preparation process (condition c)]
The feature selection preparation process in the condition c by the feature word preparation processing unit 13 is the same as the condition b in FIG. The feature word preparation processing unit 13 executes the same processing only when the preparation processing of the condition b is not performed.

[素性語選別処理(条件c)]
図13は、素性語選別処理部14による条件cにおける素性語選別処理を示したものである。
S70:素性語DBから語tの全ての場所における頻度を取得し、合計する。
S71:頻度合計naが取得できた場合は、ステップS72に移り、そうでない場合は処理を終了する。
S72:頻度合計naが場所頻度合計の下限値に等しいか大きい場合は、ステップS73に移り、そうでない場合は、ステップS74に移る。
S73:頻度合計naが場所頻度合計の上限値を超える場合は、ステップS74に移り、そうでない場合は、処理を終了する。
S74:削除判定を出力し、処理を終了する。
[Feature word selection process (condition c)]
FIG. 13 shows a feature word selection process under the condition c by the feature word selection processing unit 14.
S70: The frequencies at all locations of the word t are acquired from the feature word DB and summed up.
S71: If the total frequency na can be acquired, the process proceeds to step S72, and if not, the process ends.
S72: If the frequency total na is equal to or larger than the lower limit value of the place frequency total, the process proceeds to step S73, and otherwise, the process proceeds to step S74.
S73: If the frequency total na exceeds the upper limit value of the place frequency total, the process proceeds to step S74, and if not, the process ends.
S74: A deletion determination is output, and the process ends.

以上、本発明を実施形態に即して説明したが、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。   As mentioned above, although this invention was demonstrated according to embodiment, the effect described in embodiment of this invention only enumerated the most suitable effect resulting from this invention, and the effect by this invention is the present invention. It is not limited to what was described in the Example.

本実施形態に係る素性語選別装置と関連要素の全体構成を示す図である。It is a figure which shows the whole structure of the feature word selection apparatus which concerns on this embodiment, and a related element. 本実施形態に係る素性語選別装置の機能構成の概要を示す図である。It is a figure which shows the outline | summary of the function structure of the feature word selection apparatus which concerns on this embodiment. 素性語データベースと関連要素の構成の概要を示す図である。It is a figure which shows the outline | summary of a structure of a feature word database and a related element. 本実施形態に係る素性語選別装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the feature word selection apparatus which concerns on this embodiment. 本発明の実施形態に係る素性語選別のための準備処理のフローチャートを示している。The flowchart of the preparation process for the feature word selection which concerns on embodiment of this invention is shown. 本発明の実施形態に係る訓練処理のフローチャートを示している。The flowchart of the training process which concerns on embodiment of this invention is shown. 本発明の実施形態に係る予測処理のフローチャートを示している。The flowchart of the prediction process which concerns on embodiment of this invention is shown. 本実施形態に係る素性語選別処理を表すフローチャートを示している。The flowchart showing the feature word selection process which concerns on this embodiment is shown. 本発明の実施形態に係る素性語選別準備処理(条件a)のフローチャートを示している。The flowchart of the feature word selection preparation process (condition a) which concerns on embodiment of this invention is shown. 本発明の実施形態に係る素性語選別処理(条件a)のフローチャートを示している。The flowchart of the feature word selection process (condition a) which concerns on embodiment of this invention is shown. 本発明の実施形態に係る素性語選別準備処理(条件b)のフローチャートを示している。The flowchart of the feature word selection preparation process (condition b) which concerns on embodiment of this invention is shown. 本発明の実施形態に係る素性語選別処理(条件b)のフローチャートを示している。The flowchart of the feature word selection process (condition b) which concerns on embodiment of this invention is shown. 本発明の実施形態に係る素性語選別処理(条件c)のフローチャートを示している。The flowchart of the feature word selection process (condition c) which concerns on embodiment of this invention is shown.

符号の説明Explanation of symbols

1 素性語選別装置
3 検索装置
10 素性語記憶手段
11 素性語選別手段
12 素性語データベース
DESCRIPTION OF SYMBOLS 1 Feature word selection device 3 Retrieval device 10 Feature word storage means 11 Feature word selection means 12 Feature word database

Claims (5)

通信ネットワーク上に配信されるウェブページを特徴付ける素性語を、前記ウェブページに関連付けて記憶する素性語記憶手段と、
前記素性語記憶手段に記憶されている前記素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて前記素性語記憶手段に記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別する素性語選別手段と、
を備えることを特徴とする素性語選別装置。
Feature word storage means for storing a feature word characterizing a web page distributed over a communication network in association with the web page;
For each of the feature words stored in the feature word storage unit, the web page stored in the feature word storage unit in association with the feature word is searched by a search engine using the feature word as a search keyword. The number of hits indicating the frequency of matching is counted, and the feature word is stored in the feature word storage unit by deleting the feature word from the feature word storage unit when the number of hits is equal to or greater than a predetermined threshold value. A feature word selection means for selecting the feature words that are being used;
A feature word selection device comprising:
前記素性語選別手段は、
前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページ中に出現する出現頻度をカウントし、前記出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、請求項1に記載の素性語選別装置。
The feature word selection means includes:
The feature word counts the appearance frequency that appears in the web page stored in association with the feature word in the feature word storage means, and when the appearance frequency becomes a predetermined threshold value or less, the feature word 2. The feature word selection apparatus according to claim 1, wherein the feature words stored in the feature word storage means are selected by deleting words from the feature word storage means.
前記素性語選別手段は、
前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページのタイトル又は本文又は概要中に出現する出現頻度をカウントし、その出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、請求項1に記載の素性語選別装置。
The feature word selection means includes:
The frequency of appearance of the feature word appearing in the title, body, or summary of the web page stored in association with the feature word in the feature word storage means is counted, and the appearance frequency is equal to or less than a predetermined threshold. 2. The feature word selection according to claim 1, wherein the feature words stored in the feature word storage unit are selected by deleting the feature words from the feature word storage unit. apparatus.
コンピュータが、
予め前記コンピュータに記憶され、通信ネットワーク上に配信されるウェブページを特徴付ける素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を削除することにより、前記素性語を選別する素性語選別ステップを、少なくとも実行することを特徴とする方法。
Computer
The web page stored in association with the feature word by a search by a search engine using the feature word as a search keyword for each feature word that is stored in the computer in advance and is distributed over a communication network. A feature word selection step of selecting the feature words by deleting the feature words when the hit count is equal to or greater than or less than a predetermined threshold. A method characterized by performing at least.
請求項4に記載の方法をコンピュータに実行させることを特徴とするプログラム。   A program causing a computer to execute the method according to claim 4.
JP2008166566A 2008-06-25 2008-06-25 System, method, and program comprising feature word sorting device and classification device Active JP5178347B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008166566A JP5178347B2 (en) 2008-06-25 2008-06-25 System, method, and program comprising feature word sorting device and classification device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008166566A JP5178347B2 (en) 2008-06-25 2008-06-25 System, method, and program comprising feature word sorting device and classification device

Publications (2)

Publication Number Publication Date
JP2010009254A true JP2010009254A (en) 2010-01-14
JP5178347B2 JP5178347B2 (en) 2013-04-10

Family

ID=41589683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008166566A Active JP5178347B2 (en) 2008-06-25 2008-06-25 System, method, and program comprising feature word sorting device and classification device

Country Status (1)

Country Link
JP (1) JP5178347B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259515A (en) * 1998-03-12 1999-09-24 Toshiba Corp Similar document retrieval device and method and recording medium recording similar document retrieval program
JP2005309998A (en) * 2004-04-23 2005-11-04 Fujitsu Ltd Content navigation program, method and device
JP2005332080A (en) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for classifying visual information, and storage medium storing visual information classification program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259515A (en) * 1998-03-12 1999-09-24 Toshiba Corp Similar document retrieval device and method and recording medium recording similar document retrieval program
JP2005309998A (en) * 2004-04-23 2005-11-04 Fujitsu Ltd Content navigation program, method and device
JP2005332080A (en) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> Method, device and program for classifying visual information, and storage medium storing visual information classification program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNB200400018001; 北 研二: 情報検索アルゴリズム 初版 第1版, 20020101, 第27-32頁, 共立出版株式会社 南條 光章 *
JPN6011052970; 北 研二: 情報検索アルゴリズム 初版 第1版, 20020101, 第27-32頁, 共立出版株式会社 南條 光章 *

Also Published As

Publication number Publication date
JP5178347B2 (en) 2013-04-10

Similar Documents

Publication Publication Date Title
US7085761B2 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
US8019758B2 (en) Generation of a blended classification model
TWI486800B (en) System and method for search results ranking using editing distance and document information
US7769771B2 (en) Searching a document using relevance feedback
JP2002230021A (en) Information retrieval device and method, and storage medium
JP4746439B2 (en) Document search server and document search method
JP5329540B2 (en) User-centric information search method, computer-readable recording medium, and user-centric information search system
US20180004838A1 (en) System and method for language sensitive contextual searching
JP6053131B2 (en) Information processing apparatus, information processing method, and program
JP5226241B2 (en) How to add tags
JP2010140154A (en) Device, method, and program for sorting retrieval result
JP4973503B2 (en) File search program, method and apparatus
US9286289B2 (en) Ordering a lexicon network for automatic disambiguation
JP2007528531A (en) Search service system and method for providing input order of keywords by category
JP2006227823A (en) Information processor and its control method
US8484221B2 (en) Adaptive routing of documents to searchable indexes
JP2010092357A (en) Facility-related information retrieval method and facility-related information retrieval system
JP5418138B2 (en) Document search system, information processing apparatus, and program
KR101035037B1 (en) Apparatus and method for clustering documents using dynamic threshold
JP7256357B2 (en) Information processing device, control method, program
JP2010003134A (en) Server, method, and program for recommending retrieval keyword
JP2012141681A (en) Query segment position determining device
JPH11213000A (en) Interactive information retrieval method/device and storage medium storing interactive information retrieval program
JP5178347B2 (en) System, method, and program comprising feature word sorting device and classification device
JP6916136B2 (en) Search support device, search support method, and search support program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111212

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120710

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121010

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130108

R150 Certificate of patent or registration of utility model

Ref document number: 5178347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350