JP2011238019A - Category processing device and method - Google Patents

Category processing device and method Download PDF

Info

Publication number
JP2011238019A
JP2011238019A JP2010108852A JP2010108852A JP2011238019A JP 2011238019 A JP2011238019 A JP 2011238019A JP 2010108852 A JP2010108852 A JP 2010108852A JP 2010108852 A JP2010108852 A JP 2010108852A JP 2011238019 A JP2011238019 A JP 2011238019A
Authority
JP
Japan
Prior art keywords
category
individual
prototype
storage means
related word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010108852A
Other languages
Japanese (ja)
Other versions
JP5165021B2 (en
Inventor
Atsushi Otake
敦 大竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010108852A priority Critical patent/JP5165021B2/en
Publication of JP2011238019A publication Critical patent/JP2011238019A/en
Application granted granted Critical
Publication of JP5165021B2 publication Critical patent/JP5165021B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To appropriately and efficiently improve a category structure which is used in a determination of a category etc.SOLUTION: Related terms or categories corresponding to a given sentence are determined. Category structure which is information associating one or more related terms for each category is stored in category storage means. The category structure stored in the category storage means is improved by changing the category structure using principle of genetic algorithm based on propriety of the category determined by a determination means with respect to a search result based on a web search request containing the related terms.

Description

本発明は、ウェブ広告の配信に関する。   The present invention relates to the delivery of web advertisements.

近年、形態素解析など自然言語処理をコンピュータで実現することにより、ウェブページなどの文章について、特徴的な語である関連語(「特徴語」などの語もあるが、特徴語も含め「関連語」と総称することとする)や、関連深い分野(「カテゴリ」と呼ばれる)を判定する技術が普及している。この種の技術の利用例として、広告主が予め広告ごとに指定したカテゴリなどのキーワードと、ユーザが見るウェブページについて判定された関連語やカテゴリと、の関連性に基づいて広告を選択して表示する分野がある。   In recent years, by implementing natural language processing such as morphological analysis on a computer, there are related words (such as “feature words”) that are characteristic words in sentences such as web pages. And a technique for determining a related field (called “category”) is widely used. As an example of using this type of technology, select an advertisement based on the relevance between a keyword such as a category specified in advance by the advertiser for each advertisement and a related word or category determined for the web page viewed by the user. There are fields to display.

例えば、本出願人による特許文献1では、キーワードと呼ぶ関連語群をカテゴリごとに対応付けた情報(本出願では「カテゴリ構造」と呼ぶこととする)を予め用意する。そして、ウェブページに基づいて判定された関連語群と、前記カテゴリ構造内の関連語群とを照合し両者間の関連度を基に、ウェブページに対応するカテゴリを判定し、そのカテゴリの広告などを選択してそのウェブページに表示している。また、特許文献1では、カテゴリ構造を拡充するため、カテゴリに既にある関連語でウェブ検索を行い、その検索結果に多く登場する関連語をさらにそのカテゴリの関連語に追加して例を示している。   For example, in Patent Document 1 by the present applicant, information (referred to as “category structure” in the present application) in which related word groups called keywords are associated with each category is prepared in advance. Then, the related word group determined based on the web page is compared with the related word group in the category structure, the category corresponding to the web page is determined based on the degree of association between the two, and the advertisement of the category is determined. Etc. are displayed on the web page. Further, in Patent Document 1, in order to expand the category structure, an example is shown in which a web search is performed using related words already in the category, and related words that frequently appear in the search result are further added to the related words of the category. Yes.

特開2009−266204号公報JP 2009-266204 A

しかし、上記のような従来技術では、関連語の拡充という意味ではカテゴリ構造が改善できるが、関連語の検索結果に多く登場する他の関連語も全てそのカテゴリにとって適切とは限らず、カテゴリ構造の適切さを維持することが課題であった。かといって、そのような適切さを判断しながら関連語を加除する作業を人手で行うことは負荷が大きく、特に多数のカテゴリについて行うことは現実的でない。   However, in the conventional technology as described above, the category structure can be improved in terms of expansion of related words, but not all other related words that frequently appear in the related word search results are appropriate for the category. It was a challenge to maintain the appropriateness of However, manually performing the operation of adding and removing related words while judging such appropriateness is heavy, and it is not practical to perform it for a large number of categories.

上記の課題に対し、本発明の目的は、カテゴリなどの判定に用いるカテゴリ構造を適切かつ効率よく改善することである。   In view of the above problems, an object of the present invention is to appropriately and efficiently improve a category structure used for determining a category or the like.

上記の目的をふまえ、本発明の一態様(1)であるカテゴリ処理装置は、与えられる文章に対応する関連語又はカテゴリを判定する判定手段と、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段と、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定手段で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて前記関連語の組合せを変化させることによって改善する改善手段と、を有することを特徴とする。   Based on the above object, the category processing apparatus according to one aspect (1) of the present invention includes a determination unit that determines a related word or category corresponding to a given sentence, and one or more related words for each category. With respect to the category storage means storing the category structure as the associated information and the category structure stored in the category storage means, the determination means for the search result based on the web search request including the related word Improvement means for improving by changing the combination of the related words using the principle of the genetic algorithm based on the suitability of the determined category.

本発明の他の態様(7)は、上記態様を方法の観点から捉えたもので、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段を有するコンピュータが実行するカテゴリ処理方法であって、コンピュータが、与えられる文章に対応する関連語又はカテゴリを判定する判定ステップと、コンピュータが、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定ステップで判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善ステップと、を含むことを特徴とする。   Another aspect (7) of the present invention is a category storage that captures the above aspect from the viewpoint of a method and stores a category structure that is information in which one or two or more related words are associated with each category. A category processing method executed by a computer having means for determining a related word or category corresponding to a given sentence, and the computer storing the category structure stored in the category storage means An improvement step for improving the search result based on the web search request including the related word based on the suitability of the category determined in the determination step by changing using the principle of a genetic algorithm. And

本発明の他の態様(8)であるカテゴリ処理プログラムは、上記態様をコンピュータ・プログラムの観点から捉えたもので、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段を有するコンピュータを制御するコンピュータ・プログラムであって、コンピュータに、与えられる文章に対応する関連語又はカテゴリを判定させ、コンピュータに、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し該判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善させることを特徴とする。   A category processing program according to another aspect (8) of the present invention captures the above aspect from the viewpoint of a computer program, and is a category structure that is information in which one or more related words are associated with each category. Is a computer program for controlling a computer having category storage means for storing a computer, which causes a computer to determine a related word or category corresponding to a given sentence, and is stored in the category storage means. The category structure is improved by changing the category result based on the suitability of the determined category with respect to a search result based on a web search request including the related word.

このように、広告選択などに用いるカテゴリ構造について、関連語によるウェブ検索結果が正しいカテゴリに判定されるかに応じて前記関連語の組合せを取捨選択しながら変化させてゆく遺伝的アルゴリズムの原理を用いることにより、カテゴリ構造を適切かつ効率よく改善することができる。   As described above, the principle of the genetic algorithm that changes the category structure used for advertisement selection etc. while selecting the combination of the related words according to whether the web search result by the related words is determined as the correct category. By using it, the category structure can be improved appropriately and efficiently.

本発明の他の態様(2)は、上記いずれかの態様において、前記改善手段は、交叉又は突然変異の少なくとも一方と、自然淘汰と、を用いて、カテゴリ構造の新しい試作個体を探索点として生成し多点探索により適切な解に到達する遺伝的アルゴリズムを用いることを特徴とする。   According to another aspect (2) of the present invention, in any of the above aspects, the improvement means uses at least one of crossover or mutation and natural selection as a search point for a new prototype individual with a category structure. It uses a genetic algorithm that generates and arrives at an appropriate solution by multipoint search.

このように、本発明に遺伝的アルゴリズムを適用することにより、個体の適否の条件を把握・解明することなく実用解や最適解に到達できるので、カテゴリ構造を適切かつ効率よく改善することが容易となる。   In this way, by applying a genetic algorithm to the present invention, it is possible to reach a practical solution or an optimal solution without grasping or elucidating the condition of individual suitability, and thus it is easy to improve the category structure appropriately and efficiently It becomes.

本発明の他の態様(3)は、上記いずれかの態様において、前記改善手段は、カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段と、前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する交叉手段と、又は、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる突然変異手段、の少なくとも一方と、前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行う検索実施手段と、前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成するサンプル生成手段と、生成された前記サンプル文字列について前記判定手段にカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰する自然淘汰手段と、を有することを特徴とする。   According to another aspect (3) of the present invention, in any one of the above aspects, the improvement means stores individual storage means for storing one or more prototype individuals for the category structure of a category, and storage in the individual storage means. Crossing means for creating a new prototype individual as a descendant by combining a plurality of prototype individuals being ancestors, or a category or relationship included in the prototype individual stored in the individual storage means Mutation that changes the prototype individual by at least one of the process of acquiring a new related word based on the word and adding it to the related word of the prototype individual, or the process of deleting a part of the related word contained in the prototype individual Search execution means for performing a web search using related terms contained in the prototype stored in the individual storage means, and at least one of the means, and the web search Sample generation means for generating a sample character string by concatenating a plurality of character strings based on each web page included in the search results, and causing the determination means to determine a category for the generated sample character string, and the determined category , Based on the difference with the category of the prototype individual on which the sample character string is based, a natural selection means for natural selection by deleting the prototype individual or the prototype individual that is an ancestor or descendant of the prototype individual, It is characterized by having.

このように、カテゴリ構造の試作個体を交叉や突然変異などで変化させ、試作個体の関連語を用いるウェブ検索結果に基づくサンプル文字列が正しいカテゴリに判定される試作個体を残し他を自然淘汰してゆくことにより、カテゴリに適合する適切なカテゴリ構造が適者生存により選抜されて生き残るという遺伝的アルゴリズムの原理が活用でき、カテゴリ構造を適切かつ効率よく改善することが可能となる。   In this way, the prototype of the category structure is changed by crossover, mutation, etc., and the sample character string based on the web search result using the related words of the prototype is left in the prototype, and the others are naturally deceived. As a result, it is possible to utilize the principle of the genetic algorithm that an appropriate category structure that matches the category is selected and survived by the survival of the appropriate person, and the category structure can be improved appropriately and efficiently.

本発明の他の態様(4)は、上記いずれかの態様において、前記突然変異手段は、カテゴリ構造の試作個体におけるカテゴリ又は関連語を用いてウェブ検索を行い、その検索結果に含まれるウェブページに基づく文字列から新たな関連語を取得することを特徴とする。   According to another aspect (4) of the present invention, in any one of the above aspects, the mutation means performs a web search using a category or a related word in a prototype of a category structure, and a web page included in the search result It is characterized in that a new related word is acquired from a character string based on.

このように、カテゴリ構造の試作個体に含まれているカテゴリ名称や関連語でウェブ検索を行い、その検索結果に基づくことで新たな関連語を効率的に取得して突然変異を生じさせ、試作個体の進化によるカテゴリ構造の改善を効果的に促進できる。   In this way, a web search is performed using category names and related words included in the prototype of the category structure, and new related words are efficiently acquired based on the search results to cause mutations. The improvement of the category structure by the evolution of individuals can be effectively promoted.

本発明の他の態様(5)は、上記いずれかの態様において、予め定められた終了条件に基づいて、前記改善手段の動作について終了を判定するとともに、その時点において前記個体記憶手段に記憶されている試作個体を新たなカテゴリ構造として前記カテゴリ記憶手段に記憶させる終了確定手段を有することを特徴とする。   According to another aspect (5) of the present invention, in any one of the above aspects, the end of the operation of the improvement means is determined based on a predetermined end condition, and is stored in the individual storage means at that time. It has an end confirmation means for storing the prototype individual as a new category structure in the category storage means.

このように、所定の終了条件で遺伝的アルゴリズムの原理に基づく改善の処理を終了してカテゴリ構造を確定させ記憶させることにより、人手により終了の判断や処理をする負荷が不要となり、カテゴリ構造を適切かつ効率よく改善することができる。   In this way, the improvement process based on the principle of the genetic algorithm is terminated under a predetermined termination condition, and the category structure is determined and stored, so that it is not necessary to manually determine the termination and perform processing, and the category structure can be changed. It can be improved appropriately and efficiently.

本発明の他の態様(6)であるカテゴリ構造改善装置は、与えられる文章に対応する関連語又はカテゴリを判定する判定手段と、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段と、を有するカテゴリ等取得装置、のためのカテゴリ構造改善装置であって、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定手段で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善手段と、を有することを特徴とする。   The category structure improving apparatus according to another aspect (6) of the present invention includes a determination unit that determines a related word or category corresponding to a given sentence, and information in which one or more related words are associated with each category. A category storage device having a category storage means for storing a category structure, and a category structure improving device for a category etc. acquisition device, wherein the related terms are assigned to the category structure stored in the category storage means. Improvement means for improving by changing the search result based on the included web search request by using the principle of the genetic algorithm based on the suitability of the category determined by the determination means.

なお、上記の各態様とは異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。異なるカテゴリについては、「手段」を「ステップ」のように適宜読み替えるものとする。   It should be noted that a category (method for the apparatus, program for the method, etc.) different from each of the above-described modes and more specific modes described below are also included in the present invention. For different categories, “means” shall be appropriately read as “step”.

本発明によれば、カテゴリなどの判定に用いるカテゴリ構造を適切かつ効率よく改善することが可能となる。   According to the present invention, the category structure used for determining a category or the like can be improved appropriately and efficiently.

本発明の実施形態の構成を示す機能ブロック図。The functional block diagram which shows the structure of embodiment of this invention. 本発明の実施形態で用いる情報(データ)を例示する図。The figure which illustrates the information (data) used by embodiment of this invention. 本発明の実施形態における処理手順を示すフローチャート。The flowchart which shows the process sequence in embodiment of this invention. 本発明の実施形態における遺伝的アルゴリズムに関し、交叉を例示する概念図。The conceptual diagram which illustrates crossing regarding the genetic algorithm in embodiment of this invention. 本発明の第2実施形態の構成を示す機能ブロック図。The functional block diagram which shows the structure of 2nd Embodiment of this invention.

次に、本発明を実施するための形態(「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。   Next, modes for carrying out the present invention (referred to as “embodiments”) will be described with reference to the drawings. It should be noted that assumptions common to those already described in the background art and problems are omitted as appropriate.

〔1.構成〕
図1は、本実施形態の構成を示す図であり、本実施形態は、与えられる文章に対応する関連語又はカテゴリを判定するカテゴリ処理装置1(以下「本装置1」又は「本装置」とも呼ぶ)と、その応用例を示すものである。本装置1は、一般的なコンピュータの構成、例えば、CPUなどの演算制御部6と、外部記憶装置(HDD等)や主メモリ等の記憶装置7と、通信ネットワークN(インターネット、携帯電話網、社内ネットワークなど)との通信手段8(LANアダプタなど)などを有する。他の装置3及び4、ウェブサーバW及び端末Tについても、図示は省略するが同様である。
[1. Constitution〕
FIG. 1 is a diagram showing a configuration of the present embodiment. In the present embodiment, a category processing apparatus 1 (hereinafter referred to as “this apparatus 1” or “this apparatus”) that determines a related word or category corresponding to a given sentence. Application example). The apparatus 1 includes a general computer configuration, for example, an arithmetic control unit 6 such as a CPU, a storage device 7 such as an external storage device (HDD or the like) or a main memory, and a communication network N (Internet, mobile phone network, Communication means 8 (LAN adapter etc.) etc. with a company network etc. are provided. The other devices 3 and 4, the web server W, and the terminal T are the same although not shown.

そして、各装置では、記憶装置7に予め記憶(インストール)した図示しない所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(11,12,21,22,31,32,41,42など)を実現する。これら各要素のうち、情報の記憶手段は、記憶装置7において各種のファイルやデータベース(「DB」とも表す)、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現できる。   In each device, a predetermined computer program (not shown) stored (installed) in advance in the storage device 7 controls the arithmetic control unit 6 so that the elements (11, 12, 21,. 22, 31, 32, 41, 42, etc.). Among these elements, the information storage means can be realized in the storage device 7 in any format such as various files and databases (also referred to as “DB”), variables such as arrays, various stacks and registers, and system setting values.

このような記憶手段のうち、カテゴリ記憶手段22は、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶している手段であり、カテゴリ構造は、図2(1)に例示するように、関連語のほか、カテゴリ名やその同義語などの代表語を含んでもよい。   Among such storage means, the category storage means 22 is a means for storing a category structure that is information in which one or two or more related words are associated with each category. As exemplified in 1), representative words such as category names and their synonyms may be included in addition to related words.

また、広告配信装置3は、ウェブサーバWが端末Tに配信するウェブページについて、カテゴリ処理装置1によるカテゴリなどの判定結果と、カテゴリ記憶手段22に記憶されているカテゴリ構造と、に基づいてウェブ広告を配信するサーバ装置である。この広告配信装置3は、広告を記憶している広告記憶手段31と、ウェブページについて広告選択の基準となるカテゴリ又は関連語を取得する取得手段32と、広告の選択及び配信を行う広告処理手段33と、を有する。   Further, the advertisement distribution device 3 determines whether the web server W distributes to the terminal T based on the determination result of the category or the like by the category processing device 1 and the category structure stored in the category storage unit 22. A server device that distributes advertisements. The advertisement distribution device 3 includes an advertisement storage unit 31 that stores advertisements, an acquisition unit 32 that acquires a category or a related word as a reference for selecting an advertisement for a web page, and an advertisement processing unit that selects and distributes an advertisement. 33.

このうち、広告記憶手段31に記憶されている広告のデータは、図2(2)に例示するように、広告IDで識別される文字列等の広告ごとに、広告主が指定した入札キーワード及び入札単価を含み、ウェブページの内容を表すカテゴリや特徴的な語と、入札キーワードが一致する広告のうち、入札単価の高いものが優先的にそのウェブページに配信される。   Among these, the advertisement data stored in the advertisement storage unit 31 includes, for example, a bid keyword specified by the advertiser for each advertisement such as a character string identified by the advertisement ID, as illustrated in FIG. Among the advertisements that match the bid keyword including the bid price and the category or characteristic word representing the content of the web page, the advertisement with the higher bid price is preferentially delivered to the web page.

また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段である。   Each means other than the storage means is a processing means for realizing and executing the following information processing functions and operations.

〔2.広告配信時の作用〕
上記のように構成した本実施形態は、本発明によるカテゴリ構造改善の処理を行っている時以外の通常時は、カテゴリ等の判定に基づく広告配信の処理を、以下のように行う。まず、広告配信装置3の広告処理手段33は、連携先のウェブサーバWもしくは端末Tから、広告を組み込んで表示すべきウェブページ内容を表すHTMLデータなどの文字列データ(単に「文章」とも呼ぶ)を受信すると、その文章をカテゴリ処理装置1に渡す。
[2. (Advertising effect)
In the present embodiment configured as described above, the advertisement distribution process based on the determination of the category or the like is performed as follows in the normal time except when the category structure improvement process according to the present invention is performed. First, the advertisement processing means 33 of the advertisement distribution apparatus 3 receives character string data (also simply referred to as “text”) such as HTML data representing the contents of a web page to be displayed by incorporating an advertisement from the web server W or the terminal T that is a cooperation destination. ) Is sent to the category processing device 1.

カテゴリ処理装置1の判定手段21は、形態素分析、tf・idf(文章中の特徴語や重要語を、tf(Term Frequency:単語の出現頻度)とidf(Inverse Document Frequency:逆出現頻度)という二つの指標で抽出するアルゴリズム)や構文解析などの言語処理技術を用いて、与えられた文章に対応する関連語又はカテゴリを判定し、それら関連語を表す文字列や語のID、カテゴリを表す代表語などの文字列や語のIDもしくはカテゴリIDなどの形で、判定結果を広告配信装置3の取得手段32に渡す。なお、判定手段21については予め、正解データを用いた機械学習その他の学習アルゴリズムにより適切な判断を行う状態としておく。   The determination means 21 of the category processing apparatus 1 includes morphological analysis, tf · idf (feature words and important words in sentences, tf (Term Frequency: word appearance frequency) and idf (Inverse Document Frequency)). Using a language processing technology such as an algorithm to extract by one index) or syntactic analysis, determine related words or categories corresponding to a given sentence, and represent character strings, word IDs, and categories representing these related words The determination result is passed to the acquisition means 32 of the advertisement distribution apparatus 3 in the form of a character string such as a word, a word ID, or a category ID. Note that the determination means 21 is set in a state where appropriate determination is made in advance by machine learning or other learning algorithms using correct answer data.

広告配信装置3の取得手段32は、上記のように判定手段21により判定された関連語又はカテゴリについて、カテゴリ記憶手段22に記憶されているカテゴリ構造を参照することにより、対応するカテゴリ又は関連語を取得する。これは、判定された関連語の属するカテゴリ構造に含まれているカテゴリや他の関連語、また判定されたカテゴリのカテゴリ構造に含まれる他の関連語についても、それを入札キーワードとして指定している広告はそのウェブページに表示される可能性があることを意味する。   The acquisition unit 32 of the advertisement distribution device 3 refers to the category structure stored in the category storage unit 22 with respect to the related word or category determined by the determination unit 21 as described above, thereby corresponding category or related word. To get. This is because the category and other related words included in the category structure to which the determined related word belongs, and other related words included in the category structure of the determined category are designated as bid keywords. Means that the advertisement that is present may be displayed on the web page.

この場合、例えば、カテゴリ「イタリアン」と判定されたウェブページには、そのカテゴリ「イタリアン」と同じカテゴリ構造に含まれる関連語「パスタ」を入札キーワードとする広告が表示される可能性もある。したがって、カテゴリ構造を以下のように改善することにより、ウェブページと広告とのマッチング精度が改善できる。   In this case, for example, an advertisement having a related keyword “pasta” included in the same category structure as the category “Italian” as a bid keyword may be displayed on the web page determined as the category “Italian”. Therefore, the matching accuracy between the web page and the advertisement can be improved by improving the category structure as follows.

〔3.カテゴリ構造の改善〕
〔3−1.改善の概要〕
概要としては、改善手段10は、カテゴリ記憶手段22に記憶されているカテゴリ構造について、関連語を含むウェブ検索要求に基づく検索結果に対し判定手段21で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて前記関連語の組合せを変化させることによって、そのカテゴリ構造を改善する。より具体的には、改善手段10は、交叉又は突然変異の少なくとも一方と、自然淘汰と、を用いて、カテゴリ構造の新しい試作個体を探索点として生成し多点探索により適切な解に到達する遺伝的アルゴリズムを、図3のフローチャートに例示する以下のような処理手順により実行する。
[3. (Improved category structure)
[3-1. Overview of improvement)
As an outline, the improvement means 10 uses the genetic algorithm based on the suitability of the category determined by the determination means 21 for the search result based on the web search request including the related words for the category structure stored in the category storage means 22. The category structure is improved by changing the combination of the related terms using the principle of More specifically, the improvement means 10 generates a new prototype individual with a category structure as a search point using at least one of crossover or mutation and natural selection, and reaches an appropriate solution by multipoint search. The genetic algorithm is executed by the following processing procedure illustrated in the flowchart of FIG.

すなわち、改善手段10は、カテゴリのカテゴリ構造について、一又は二以上の試作個体を記憶する個体記憶手段11を有し、改善の対象とするカテゴリ構造を、まず、カテゴリ記憶手段22から個体記憶手段11にコピーする(ステップS10)。また、改善手段10は、前記のようにコピーしたカテゴリ構造を出発点として試作個体を変化すなわち進化させる手段として、交叉手段12又は突然変異手段13の少なくとも一方を有するが、ここでは、双方を有するものとする。そして、これら交叉手段12や突然変異手段13による交叉、突然変異により、新たな試作個体を作成する(ステップS11)。   That is, the improvement means 10 has an individual storage means 11 for storing one or more prototype individuals for the category structure of the category. First, the category structure to be improved is transferred from the category storage means 22 to the individual storage means. 11 is copied (step S10). Further, the improvement means 10 has at least one of the crossover means 12 or the mutation means 13 as means for changing or evolving a prototype individual starting from the category structure copied as described above. Shall. Then, a new prototype individual is created by crossover and mutation by the crossover means 12 and the mutation means 13 (step S11).

〔3−2.交叉〕
このうち、交叉手段12は、個体記憶手段11に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する。例えば、図4(1)に例示するように、あるカテゴリXに対し、関連語A1,A2,A3,A4を組み合わせた試作個体X1と、同じカテゴリXの関連語B1,B2,B3,B4を組み合わせた試作個体X2と、が親として存在するとする。
[3-2. (Crossover)
Among these, the crossover means 12 uses a plurality of prototype individuals stored in the individual storage means 11 as ancestors, and creates a new prototype individual as a descendant by combining the respective partial elements. For example, as illustrated in FIG. 4A, for a certain category X, a prototype individual X1 in which related words A1, A2, A3, A4 are combined and related words B1, B2, B3, B4 of the same category X Assume that the combined prototype individual X2 exists as a parent.

この場合、交叉手段12が子孫を作成する一例は、試作個体X1の前半(関連語A1,A2)と、試作個体X2の後半(関連語B3,B4)と、を組み合わせて試作個体X12とし、また、試作個体X1の後半(関連語A3,A4)と、試作個体X2の前半(関連語B1,B2)と、を組み合わせて試作個体X21とすることである。もちろん、関連語の数は自由で試作個体ごとに異なってよく、部分を取り出して組み合わせる親の数は3以上でも良いし、部分を取り出す際に切り離す関連語の個数や箇所、箇所数その他の詳細も自由である。   In this case, an example in which the crossing means 12 creates offspring is a combination of the first half of the prototype individual X1 (related words A1 and A2) and the second half of the prototype individual X2 (related words B3 and B4) to form the prototype individual X12. Also, the second half of the prototype individual X1 (related words A3 and A4) and the first half of the prototype individual X2 (related words B1 and B2) are combined to form the prototype individual X21. Of course, the number of related words is free and may differ for each prototype, the number of parents that can be extracted and combined can be 3 or more, and the number, location, number, etc. of related words to be separated when extracting the portion Is also free.

〔3−3.突然変異〕
また、突然変異手段13は、周期的又は不定期の適宜なタイミングで、試作個体の一部を変化させることで突然変異を実現する。具体的には、突然変異手段13は、個体記憶手段11に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる。
[3-3. mutation〕
Moreover, the mutation means 13 implement | achieves a mutation by changing a part of trial manufacture individual | organization | working at the appropriate timing of periodic or irregular. Specifically, the mutation means 13 acquires a new related word based on a category or related word included in the prototype stored in the individual storage means 11 and adds it to the related word of the prototype individual, Alternatively, the prototype individual is changed by at least one of processing for deleting a part of the related words included in the prototype individual.

突然変異手段13が新たな関連語を取得する態様の一例は、ウェブ検索を用いるものである。この場合、カテゴリ構造の試作個体におけるカテゴリ(カテゴリ名などの代表語)又は関連語を用いてウェブ検索を行いその検索結果を受信して、その検索結果に含まれるウェブページに基づく文字列から、形態素解析、tf・idfなどの日本語処理によって、新たな関連語を取得する。   An example of a mode in which the mutation means 13 acquires a new related word is to use web search. In this case, a web search is performed using a category (a representative word such as a category name) or a related word in a prototype individual of the category structure, and the search result is received. From the character string based on the web page included in the search result, A new related word is acquired by morphological analysis and Japanese processing such as tf / idf.

このようにウェブ検索を利用するには、いわゆる検索エンジン(検索サイト)をユーザに提供しているのと同一又は同様な検索サーバ装置4に、API(Application Programming Interface/Application Program Interface)などで、検索要求をウェブブラウザに準じて送信するなどのアクセスを行い、その検索要求に応じて送信されてくるHTMLファイルなどのウェブページデータを検索結果として受信する。このウェブ検索における検索キーワードすなわち検索クエリとしては、カテゴリや関連語を一つずつ対象としてもよいし、例えば関連語を複数用いた論理演算を用いてもよい。検索サーバ装置4では、検索関連データ記憶手段41に予め用意されたいわゆるインデックスデータに基づいて検索処理手段42が、検索クエリに応じたウェブページ群を検索し検索結果ページとしてアクセス元へ送信する。   In order to use the web search in this way, a search server device 4 that is the same as or similar to a so-called search engine (search site) is provided to the user by using an API (Application Programming Interface / Application Program Interface), etc. Access such as transmitting a search request according to a web browser is performed, and web page data such as an HTML file transmitted in response to the search request is received as a search result. As a search keyword in this web search, that is, a search query, categories and related words may be targeted one by one, or for example, a logical operation using a plurality of related words may be used. In the search server device 4, the search processing means 42 searches the web page group corresponding to the search query based on so-called index data prepared in advance in the search related data storage means 41 and transmits it to the access source as a search result page.

また、関連語の取得に用いる「ウェブページに基づく文字列」としては、例えば、検索結果においてヒットしたウェブページごとに表示されている説明文や、スニペットなどの抽出文、リンク先ウェブページの内容などが考えられる。また、関連語を追加又は削除する以外にも、例えば、関連語を同義語、上位概念や下位概念の語などに置き換えたり、関連語を表記している字種を、漢字、ひらがな、カタカナ、アルファベットといった字種間で変更するなどにより、試作個体の突然変異を実現してもよい。   In addition, as a “character string based on a web page” used for acquiring related terms, for example, an explanatory text displayed for each web page hit in a search result, an extracted sentence such as a snippet, and the contents of a linked web page And so on. In addition to adding or deleting related words, for example, replacing related words with synonyms, words of higher-level concepts or lower-level concepts, etc., or character types expressing related words as kanji, hiragana, katakana, Mutation of the prototype individual may be realized by changing between character types such as alphabet.

〔3−4.自然淘汰〕
以上のような交叉や突然変異によって作成したり変化した新たな試作個体については、次のような自然淘汰の対象となる。すなわち、まず、検索実施手段14が、個体記憶手段11に記憶されている試作個体のうち、少なくとも新たに作成され又は変化した試作個体を対象として、それら試作個体に含まれる関連語を用いたウェブ検索を、検索サーバ装置4にAPIなどでアクセスして行う(ステップS12)。このウェブ検索は、対象となる試作個体であるカテゴリ構造に含まれる全部又は一部の関連語について、関連語ごとに行い、関連語ごとの検索クエリは、関連語の単独でもよいし、複数の関連語や関連語とカテゴリ(実際にはカテゴリ名などの代表語)を論理演算で組み合わせてもよい。
[3-4. Natural selection〕
New prototypes created or changed by crossover or mutation as described above are subject to natural selection as follows. That is, first, the search execution unit 14 targets at least a newly created or changed prototype individual stored in the individual storage unit 11 and uses related words included in the prototype individual. The search is performed by accessing the search server device 4 with an API or the like (step S12). This web search is performed for each related word for all or a part of related words included in the category structure that is a target prototype individual, and the search query for each related word may be a single related word or a plurality of related words. Related words, related words, and categories (actually representative words such as category names) may be combined by a logical operation.

続いて、サンプル生成手段15は、検索実施手段14による前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列(例えば、ヒットしたウェブページ一覧に伴う説明文、スニペットなどの抽出文、リンク先ウェブページの内容など)を複数連結してサンプル文字列を生成する(ステップS13)。図2(1)に基づく単純な一例としては、カテゴリ「ラーメン」について、「トンコツ」の検索結果ページに含まれる文字列と、「チャーシュー」の検索結果ページに含まれる文字列と、「トリガラ」の検索結果ページに含まれる文字列と、を一体に連結してサンプル文字列とする。   Subsequently, the sample generation unit 15 includes a character string based on each web page included in the search result of the web search performed by the search execution unit 14 (for example, an extracted sentence such as an explanatory sentence accompanying a list of hit web pages, a snippet, or a link) A sample character string is generated by concatenating a plurality of web page contents and the like (step S13). As a simple example based on FIG. 2 (1), for the category “Ramen”, a character string included in the search result page of “Tonkotsu”, a character string included in the search result page of “Churshu”, and “trigger” The character strings included in the search result page are connected together to form a sample character string.

そして、自然淘汰手段16は、生成されたサンプル文字列について判定手段21にカテゴリを判定させ(ステップS14)、判定されたカテゴリと、そのサンプル文字列の基となった試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除することにより、試作個体の自然淘汰を実現する(ステップS15)。   Then, the natural selection means 16 causes the determination means 21 to determine the category for the generated sample character string (step S14), and the difference between the determined category and the category of the prototype individual that is the basis of the sample character string is determined. Based on the above, by deleting the prototype individual or the prototype individual that becomes the ancestor or descendant of the prototype individual, the natural selection of the prototype individual is realized (step S15).

サンプル文字列の生成の仕方、カテゴリの「異同」の意義、削除の基準などの詳細は自由に定義でき、例えば、複数の試作個体があるうち相対的に優秀なものを残すためには、それら試作個体に含まれる関連語をさまざまな組合せで選択してサンプル文字列を生成し、より多くのサンプル文字列が正しいカテゴリに判定される方の試作個体を残して他を削除するなどが考えられる。   Details such as how to generate the sample string, the significance of the category “difference”, and the criteria for deletion can be freely defined. For example, in order to leave a relatively excellent one among multiple prototypes, For example, it is possible to generate sample character strings by selecting related words included in the prototype individual in various combinations, and to delete other prototype individuals whose sample strings are judged to be in the correct category. .

〔3−5.終了の判断〕
以上のような改善の処理を繰り返す中で、終了確定手段17は、予め定められた終了条件に基づいて、改善手段10の動作について終了を判定するとともに(ステップS16)、その時点において個体記憶手段11に記憶されている試作個体を新たなカテゴリ構造としてカテゴリ記憶手段22に記憶させる(ステップS17)。
[3-5. (Judgment of termination)
While repeating the improvement process as described above, the end determination means 17 determines the end of the operation of the improvement means 10 based on a predetermined end condition (step S16), and the individual storage means at that time 11 is stored in the category storage means 22 as a new category structure (step S17).

終了条件の内容は自由であるが、例えば、対象のカテゴリ構造について、関連語が所定数以上まで増え、かつ、その試作個体に含まれる関連語をさまざまな組合せパターンで選択して生成したサンプル文字列について判定手段21により判定されるカテゴリが、全て正しい又は所定以上の割合で正しい、などの条件が考えられる。また、終了条件の判断については、状態値などを操作者に提示して判断を求めるなど、人間が部分的又は全面的に関わるようにしてもよい。   Although the content of the end condition is free, for example, for the target category structure, the number of related words increases to a predetermined number or more, and sample characters generated by selecting related words included in the prototype individual with various combination patterns Conditions such that the categories determined by the determining means 21 for the column are all correct or correct at a predetermined ratio or more are conceivable. In addition, regarding the determination of the end condition, a human may be partially or wholly involved, for example, by presenting a status value to the operator and requesting the determination.

〔4.効果〕
本実施形態では、以上のように、広告選択などに用いるカテゴリ構造について、関連語によるウェブ検索結果が正しいカテゴリに判定されるかに応じて前記関連語の組合せを取捨選択しながら変化させてゆく遺伝的アルゴリズムの原理を用いることにより、カテゴリ構造を適切かつ効率よく改善することができる。
[4. effect〕
In the present embodiment, as described above, the category structure used for advertisement selection or the like is changed while selecting the combination of the related words according to whether the web search result based on the related words is determined as the correct category. By using the principle of the genetic algorithm, the category structure can be improved appropriately and efficiently.

特に、本実施形態では、本発明に遺伝的アルゴリズムを適用することにより、個体の適否の条件を把握・解明することなく実用解や最適解に到達できるので、カテゴリ構造を適切かつ効率よく改善することが容易となる。   In particular, in this embodiment, by applying a genetic algorithm to the present invention, it is possible to reach a practical solution or an optimal solution without grasping or elucidating conditions of suitability of individuals, so that the category structure is improved appropriately and efficiently. It becomes easy.

また、本実施形態では、カテゴリ構造の試作個体を交叉や突然変異などで変化させ、試作個体の関連語を用いるウェブ検索結果に基づくサンプル文字列が正しいカテゴリに判定される試作個体を残し他を自然淘汰してゆくことにより、カテゴリに適合する適切なカテゴリ構造が適者生存により選抜されて生き残るという遺伝的アルゴリズムの原理が活用でき、カテゴリ構造を適切かつ効率よく改善することが可能となる。   Further, in this embodiment, the prototype individual of the category structure is changed by crossover or mutation, and the sample character string based on the web search result using the related words of the prototype individual is left as the prototype individual that is determined as the correct category. By natural selection, it is possible to utilize the principle of the genetic algorithm that an appropriate category structure that matches the category is selected and survived by the survival of the right person, and the category structure can be improved appropriately and efficiently.

さらに、本実施形態では、カテゴリ構造の試作個体に含まれているカテゴリ名称や関連語でウェブ検索を行い、その検索結果に基づくことで新たな関連語を効率的に取得して突然変異を生じさせ、試作個体の進化によるカテゴリ構造の改善を効果的に促進できる。   Furthermore, in this embodiment, a web search is performed using category names and related words included in the prototype of the category structure, and new related words are efficiently acquired based on the search results to cause mutations. The improvement of the category structure due to the evolution of the prototype can be effectively promoted.

加えて、本実施形態では、終了確定手段17により、所定の終了条件で遺伝的アルゴリズムの原理に基づく改善の処理を終了してカテゴリ構造を確定させ記憶させることにより、人手により終了の判断や処理をする負荷が不要となり、カテゴリ構造を適切かつ効率よく改善することができる。   In addition, in the present embodiment, the end determination means 17 ends the improvement process based on the principle of the genetic algorithm under a predetermined end condition, and determines and stores the category structure, so that the end determination and processing are manually performed. Thus, the category structure can be improved appropriately and efficiently.

〔5.第2実施形態〕
上記実施形態(第1実施形態とも呼ぶこととする)では、関連語などの判定手段21と、カテゴリ構造を記憶しているカテゴリ記憶手段22と、カテゴリ構造の改善手段10と、を本発明のカテゴリ処理装置1が有する例を示したが(図1)、本発明は、判定手段及びカテゴリ記憶手段を構成要素とする必要はない。即ち、判定手段及びカテゴリ記憶手段を備えた既存のカテゴリ等取得装置がある場合に、それに装着するなどにより組合せてカテゴリ構造を改善するためのカテゴリ構造改善装置は、装着前の単体でも、本発明の一態様として把握することができる。
[5. Second Embodiment]
In the above embodiment (also referred to as the first embodiment), the determination means 21 such as related words, the category storage means 22 that stores the category structure, and the category structure improvement means 10 are included in the present invention. Although the example which the category processing apparatus 1 has was shown (FIG. 1), the present invention does not need to include the determination unit and the category storage unit as components. That is, when there is an existing category acquisition device including a determination unit and a category storage unit, the category structure improvement device for improving the category structure by combining it with the acquisition unit etc. It can be grasped as one mode.

このような第2実施形態を図5の構成図に示す。この第2実施形態は、与えられる文章に対応する関連語又はカテゴリを判定する判定手段21と、カテゴリごとに一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段22と、を有するカテゴリ等取得装置2、のためのカテゴリ構造改善装置111であって、改善手段10を有する。この改善手段10は、カテゴリ記憶手段22に記憶されているカテゴリ構造について、関連語を含むウェブ検索要求に基づく検索結果に対し判定手段21で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善するもので、その詳細については第1実施形態における改善手段に準じるので詳説は省略する。   Such a second embodiment is shown in the block diagram of FIG. In the second embodiment, a category storing a category structure that is information that associates one or two or more related words for each category with a determination unit 21 that determines a related word or category corresponding to a given sentence. A category structure improving apparatus 111 for a category etc. acquiring apparatus 2 having a storage means 22 and having an improving means 10. This improvement means 10 uses the principle of the genetic algorithm based on the suitability of the category determined by the determination means 21 for the search result based on the web search request including the related words for the category structure stored in the category storage means 22. The details are omitted because they are the same as the improvement means in the first embodiment.

このような第2実施形態によれば、既存のカテゴリ等取得装置についても本発明を適用してカテゴリ構造が改善できるので、既存のシステム資源を有効活用することができる。   According to the second embodiment, since the category structure can be improved by applying the present invention to an existing category etc. acquisition device, the existing system resources can be used effectively.

〔6.他の実施形態〕
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、上記各実施形態は、応用分野として広告配信を例示したが、本発明によるカテゴリ構造改善の技術は、ニュース記事の自動カテゴリ分類や電子商取引における商品検索など、任意の分野に応用してもよい。また、遺伝的アルゴリズムの具体的内容は自由で、交叉と突然変異の併用は必須ではない。
[6. Other embodiments]
In addition, said each embodiment is only an illustration, and this invention includes what is illustrated below and other embodiment other than that. For example, each of the above embodiments exemplifies advertisement distribution as an application field, but the category structure improvement technique according to the present invention can be applied to any field such as automatic category classification of news articles and product search in electronic commerce. Good. Moreover, the specific contents of the genetic algorithm are free, and the combined use of crossover and mutation is not essential.

さらに、手段などの各要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路など他の情報処理機構で実現してもよいし、各構成図、データの図、フローチャートの図なども例示に過ぎず、各要素の有無、その順序や具体的内容などは適宜変更可能である。例えば、各装置は、サーバなどの装置を複数用いて実現してもよく、個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。   Furthermore, each element such as means is not limited to the arithmetic control unit of the computer, and may be realized by other information processing mechanisms such as an electronic circuit based on wired logic, etc., and each configuration diagram, data diagram, and flowchart diagram These are merely examples, and the presence / absence of each element, its order, specific contents, and the like can be changed as appropriate. For example, each device may be realized by using a plurality of devices such as servers, and a configuration in which each storage unit is realized by a separate server device or system is also common. Depending on the function, the configuration can be flexibly changed, for example, by calling an external platform or the like with an API (application program interface) or network computing (so-called cloud or the like).

1 カテゴリ処理装置
2 カテゴリ等取得装置
3 広告配信装置
4 検索サーバ装置
6 演算制御部
7 記憶装置
8 通信手段
10 改善手段
111 カテゴリ構造改善装置
11 個体記憶手段
12 交叉手段
13 突然変異手段
14 検索実施手段
15 サンプル生成手段
16 自然淘汰手段
17 終了確定手段
21 判定手段
22 カテゴリ記憶手段
31 広告記憶手段
32 取得手段
33 広告処理手段
41 検索関連データ記憶手段
42 検索処理手段
A1,A2,A3,A4,B1,B2,B3,B4 関連語
N 通信ネットワーク
T 端末
W ウェブサーバ
X カテゴリ
X1,X2,X12,X21 試作個体
DESCRIPTION OF SYMBOLS 1 Category processing apparatus 2 Category etc. acquisition apparatus 3 Advertisement delivery apparatus 4 Search server apparatus 6 Arithmetic control part 7 Storage apparatus 8 Communication means 10 Improvement means 111 Category structure improvement apparatus 11 Individual storage means 12 Crossover means 13 Mutation means 14 Search execution means 15 Sample generation means 16 Natural selection means 17 Termination confirmation means 21 Determination means 22 Category storage means 31 Advertisement storage means 32 Acquisition means 33 Advertisement processing means 41 Search related data storage means 42 Search processing means A1, A2, A3, A4, B1, B2, B3, B4 Related terms N Communication network T Terminal W Web server X Category X1, X2, X12, X21 Prototype

Claims (8)

与えられる文章に対応する関連語又はカテゴリを判定する判定手段と、
カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段と、
前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定手段で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善手段と、
を有することを特徴とするカテゴリ処理装置。
A determination means for determining a related word or category corresponding to a given sentence;
For each category, category storage means for storing a category structure that is information in which one or more related words are associated with each other;
The category structure stored in the category storage means is changed using the principle of a genetic algorithm based on the suitability of the category determined by the determination means for the search result based on the web search request including the related word. Improvement means to improve by,
A category processing apparatus comprising:
前記改善手段は、交叉又は突然変異の少なくとも一方と、自然淘汰と、を用いて、カテゴリ構造の新しい試作個体を探索点として生成し多点探索により適切な解に到達する遺伝的アルゴリズムを用いることを特徴とする請求項1記載のカテゴリ処理装置。   The improvement means uses a genetic algorithm that generates a new prototype individual with a category structure as a search point using at least one of crossover or mutation and natural selection and reaches an appropriate solution by multipoint search. The category processing apparatus according to claim 1. 前記改善手段は、
カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段と、
前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する交叉手段と、又は、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる突然変異手段、の少なくとも一方と、
前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行う検索実施手段と、
前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成するサンプル生成手段と、
生成された前記サンプル文字列について前記判定手段にカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰する自然淘汰手段と、
を有することを特徴とする請求項1又は2記載のカテゴリ処理装置。
The improvement means includes
Individual storage means for storing one or more prototypes for the category structure of a category;
Crossover means for creating a new prototype individual as a descendant by combining a plurality of prototype individuals stored in the individual storage means and combining the respective subelements, or a prototype individual stored in the individual storage means Prototype by at least one of the process of acquiring a new related word based on the category or related word included in and adding it to the related word of the prototype individual, or the process of deleting a part of the related word contained in the prototype individual At least one of mutation means for changing the individual,
Search execution means for performing a web search using related terms included in the prototype individual stored in the individual storage means;
Sample generation means for generating a sample character string by concatenating a plurality of character strings based on each web page included in the search result of the web search;
Based on the difference between the determined category and the category of the prototype individual that is the basis of the sample character string, the prototype individual or the prototype of the sample character string is generated. A natural selection method for natural selection by deleting a prototype individual that is an ancestor or descendant of the individual,
The category processing apparatus according to claim 1, wherein the category processing apparatus includes:
前記突然変異手段は、カテゴリ構造の試作個体におけるカテゴリ又は関連語を用いてウェブ検索を行い、その検索結果に含まれるウェブページに基づく文字列から新たな関連語を取得する
ことを特徴とする請求項3記載のカテゴリ処理装置。
The mutation means performs a web search using a category or a related word in a prototype individual having a category structure, and acquires a new related word from a character string based on a web page included in the search result. Item 4. The category processing device according to item 3.
予め定められた終了条件に基づいて、前記改善手段の動作について終了を判定するとともに、その時点において前記個体記憶手段に記憶されている試作個体を新たなカテゴリ構造として前記カテゴリ記憶手段に記憶させる終了確定手段を有する
ことを特徴とする請求項1から4のいずれか一項に記載のカテゴリ処理装置。
End of determining the end of the operation of the improvement means based on a predetermined end condition and storing the prototype individual stored in the individual storage means at that time in the category storage means as a new category structure The category processing apparatus according to claim 1, further comprising a determination unit.
与えられる文章に対応する関連語又はカテゴリを判定する判定手段と、
カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段と、
を有するカテゴリ等取得装置、のためのカテゴリ構造改善装置であって、
前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定手段で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善手段と、
を有することを特徴とするカテゴリ構造改善装置。
A determination means for determining a related word or category corresponding to a given sentence;
For each category, category storage means for storing a category structure that is information in which one or more related words are associated with each other;
A category structure improving device for a category etc. acquiring device, comprising:
The category structure stored in the category storage means is changed using the principle of a genetic algorithm based on the suitability of the category determined by the determination means for the search result based on the web search request including the related word. Improvement means to improve by,
A category structure improving apparatus comprising:
カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段を有するコンピュータが実行するカテゴリ処理方法であって、
コンピュータが、与えられる文章に対応する関連語又はカテゴリを判定する判定ステップと、
コンピュータが、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定ステップで判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善ステップと、
を含むことを特徴とするカテゴリ処理方法。
A category processing method executed by a computer having category storage means for storing a category structure that is information in which one or more related words are associated with each category,
A determination step in which a computer determines a related word or category corresponding to a given sentence;
The computer uses the principle of the genetic algorithm based on the suitability of the category determined in the determination step for the search result based on the web search request including the related word for the category structure stored in the category storage means. Improvement steps to improve by changing
The category processing method characterized by including.
カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段を有するコンピュータを制御するコンピュータ・プログラムであって、
コンピュータに、与えられる文章に対応する関連語又はカテゴリを判定させ、
コンピュータに、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し該判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善させる
ことを特徴とするカテゴリ処理プログラム。
A computer program for controlling a computer having category storage means for storing a category structure, which is information in which one or more related words are associated with each category,
Let the computer determine the related words or categories corresponding to the given sentence,
The computer changes the category structure stored in the category storage means based on the suitability of the determined category with respect to the search result based on the web search request including the related word using the principle of the genetic algorithm. A category processing program characterized by being improved by
JP2010108852A 2010-05-11 2010-05-11 Category processing apparatus and method Expired - Fee Related JP5165021B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010108852A JP5165021B2 (en) 2010-05-11 2010-05-11 Category processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010108852A JP5165021B2 (en) 2010-05-11 2010-05-11 Category processing apparatus and method

Publications (2)

Publication Number Publication Date
JP2011238019A true JP2011238019A (en) 2011-11-24
JP5165021B2 JP5165021B2 (en) 2013-03-21

Family

ID=45325922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010108852A Expired - Fee Related JP5165021B2 (en) 2010-05-11 2010-05-11 Category processing apparatus and method

Country Status (1)

Country Link
JP (1) JP5165021B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015513695A (en) * 2013-01-18 2015-05-14 キム,ス−ヒョン Advertisement system and advertisement method using content recognition time
KR101712588B1 (en) * 2015-09-10 2017-03-06 주식회사 디케이아이테크놀로지 Apparatus and method for generating advertising category
WO2017086108A1 (en) * 2015-11-16 2017-05-26 大日本印刷株式会社 Information presentation apparatus, information presentation method, program, information processing apparatus, and guide robot control system
US10963690B2 (en) 2016-12-30 2021-03-30 Baidu Online Network Technology (Beijing) Co., Ltd. Method for identifying main picture in web page

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003536179A (en) * 2000-06-19 2003-12-02 コレロジック システムズ,インコーポレイティド Heuristic classification method
JP2007080263A (en) * 2005-09-09 2007-03-29 Xerox Corp Method for document clustering based on page layout attributes
JP2009015495A (en) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd Keyword classification device
JP2009266204A (en) * 2008-04-01 2009-11-12 Yahoo Japan Corp Method for classifying content data to category, server, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003536179A (en) * 2000-06-19 2003-12-02 コレロジック システムズ,インコーポレイティド Heuristic classification method
JP2007080263A (en) * 2005-09-09 2007-03-29 Xerox Corp Method for document clustering based on page layout attributes
JP2009015495A (en) * 2007-07-03 2009-01-22 Dainippon Printing Co Ltd Keyword classification device
JP2009266204A (en) * 2008-04-01 2009-11-12 Yahoo Japan Corp Method for classifying content data to category, server, and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015513695A (en) * 2013-01-18 2015-05-14 キム,ス−ヒョン Advertisement system and advertisement method using content recognition time
KR101712588B1 (en) * 2015-09-10 2017-03-06 주식회사 디케이아이테크놀로지 Apparatus and method for generating advertising category
WO2017086108A1 (en) * 2015-11-16 2017-05-26 大日本印刷株式会社 Information presentation apparatus, information presentation method, program, information processing apparatus, and guide robot control system
US10963690B2 (en) 2016-12-30 2021-03-30 Baidu Online Network Technology (Beijing) Co., Ltd. Method for identifying main picture in web page

Also Published As

Publication number Publication date
JP5165021B2 (en) 2013-03-21

Similar Documents

Publication Publication Date Title
JP5522743B2 (en) Duplicate document detection and display function
US7809710B2 (en) System and method for extracting content for submission to a search engine
JP5458181B2 (en) System and method for providing advanced search result page content
CN101124609B (en) Search systems and methods using in-line contextual queries
US7698626B2 (en) Enhanced document browsing with automatically generated links to relevant information
KR101215791B1 (en) Using reputation measures to improve search relevance
US20070250501A1 (en) Search result delivery engine
US20150215271A1 (en) Generating suggested domain names by locking slds, tokens and tlds
KR20110085995A (en) Providing search results
CN102073725A (en) Method for searching structured data and search engine system for implementing same
JP2009026195A (en) Article classification apparatus, article classification method and program
US20150154294A1 (en) Suggested domain names positioning based on term frequency or term co-occurrence
JP2009169541A (en) Web page retrieval server and query recommendation method
JP2010044584A (en) Merchandise advertisement distribution device, merchandise advertisement distribution method, and merchandise advertisement distribution control program
US20150347423A1 (en) Methods for completing a user search
JP5480058B2 (en) Advertisement matching apparatus, method and program
JP5165021B2 (en) Category processing apparatus and method
CN102314494A (en) Method and equipment for processing webpage contents
JP2010140200A (en) Search result classification device and method using click log
CN103984747B (en) Method and device for screen information processing
JP4905249B2 (en) Bookmark service method and bookmark service server
JP2009086944A (en) Information processor and information processing program
JP2009015589A (en) System and program for presenting related document
KR102256007B1 (en) System and method for searching documents and providing an answer to a natural language question
JP5955186B2 (en) Information processing device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20121001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5165021

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350