JP5165021B2 - カテゴリ処理装置及び方法 - Google Patents

カテゴリ処理装置及び方法 Download PDF

Info

Publication number
JP5165021B2
JP5165021B2 JP2010108852A JP2010108852A JP5165021B2 JP 5165021 B2 JP5165021 B2 JP 5165021B2 JP 2010108852 A JP2010108852 A JP 2010108852A JP 2010108852 A JP2010108852 A JP 2010108852A JP 5165021 B2 JP5165021 B2 JP 5165021B2
Authority
JP
Japan
Prior art keywords
category
individual
prototype
storage means
related word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010108852A
Other languages
English (en)
Other versions
JP2011238019A (ja
Inventor
敦 大竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010108852A priority Critical patent/JP5165021B2/ja
Publication of JP2011238019A publication Critical patent/JP2011238019A/ja
Application granted granted Critical
Publication of JP5165021B2 publication Critical patent/JP5165021B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ウェブ広告の配信に関する。
近年、形態素解析など自然言語処理をコンピュータで実現することにより、ウェブページなどの文章について、特徴的な語である関連語(「特徴語」などの語もあるが、特徴語も含め「関連語」と総称することとする)や、関連深い分野(「カテゴリ」と呼ばれる)を判定する技術が普及している。この種の技術の利用例として、広告主が予め広告ごとに指定したカテゴリなどのキーワードと、ユーザが見るウェブページについて判定された関連語やカテゴリと、の関連性に基づいて広告を選択して表示する分野がある。
例えば、本出願人による特許文献1では、キーワードと呼ぶ関連語群をカテゴリごとに対応付けた情報(本出願では「カテゴリ構造」と呼ぶこととする)を予め用意する。そして、ウェブページに基づいて判定された関連語群と、前記カテゴリ構造内の関連語群とを照合し両者間の関連度を基に、ウェブページに対応するカテゴリを判定し、そのカテゴリの広告などを選択してそのウェブページに表示している。また、特許文献1では、カテゴリ構造を拡充するため、カテゴリに既にある関連語でウェブ検索を行い、その検索結果に多く登場する関連語をさらにそのカテゴリの関連語に追加して例を示している。
特開2009−266204号公報
しかし、上記のような従来技術では、関連語の拡充という意味ではカテゴリ構造が改善できるが、関連語の検索結果に多く登場する他の関連語も全てそのカテゴリにとって適切とは限らず、カテゴリ構造の適切さを維持することが課題であった。かといって、そのような適切さを判断しながら関連語を加除する作業を人手で行うことは負荷が大きく、特に多数のカテゴリについて行うことは現実的でない。
上記の課題に対し、本発明の目的は、カテゴリなどの判定に用いるカテゴリ構造を適切かつ効率よく改善することである。
上記の目的をふまえ、本発明の一態様(1)であるカテゴリ処理装置は、与えられる文章に対応する関連語又はカテゴリを判定する判定手段と、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段と、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定手段で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善手段と、を有し、前記改善手段は、カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段と、前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する交叉手段と、又は、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる突然変異手段、の少なくとも一方と、前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行う検索実施手段と、前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成するサンプル生成手段と、生成された前記サンプル文字列について前記判定手段にカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰する自然淘汰手段と、を有することを特徴とする。
本発明の他の態様()は、上記態様を方法の観点から捉えたもので、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段を有するコンピュータが実行するカテゴリ処理方法であって、コンピュータが、与えられる文章に対応する関連語又はカテゴリを判定する判定ステップと、コンピュータが、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定ステップで判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善ステップと、を含み、前記コンピュータは、さらに、カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段を有し、前記改善ステップは、前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する交叉ステップと、又は、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる突然変異ステップ、の少なくとも一方と、前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行う検索実施ステップと、前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成するサンプル生成ステップと、生成された前記サンプル文字列について前記判定ステップによりカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰する自然淘汰ステップと、を含むことを特徴とする。
本発明の他の態様()であるカテゴリ処理プログラムは、上記態様をコンピュータ・プログラムの観点から捉えたもので、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段を有するコンピュータを制御するコンピュータ・プログラムであって、コンピュータに、与えられる文章に対応する関連語又はカテゴリを判定させる判定ステップ、コンピュータに、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し該判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善させる改善ステップ、を実行させ、前記コンピュータは、さらに、カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段を有し、前記改善ステップは、コンピュータに、前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成させる交叉ステップと、又は、コンピュータに、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除させる処理、の少なくとも一方により試作個体を変化させる突然変異ステップ、の少なくとも一方と、コンピュータに、前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行わせる検索実施ステップと、コンピュータに、前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成させるサンプル生成ステップと、コンピュータに、生成された前記サンプル文字列について前記判定ステップによりカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰させる自然淘汰ステップと、を含むことを特徴とする。
このように、広告選択などに用いるカテゴリ構造について、関連語によるウェブ検索結果が正しいカテゴリに判定されるかに応じて前記関連語の組合せを取捨選択しながら変化させてゆく遺伝的アルゴリズムの原理を用いることにより、カテゴリ構造を適切かつ効率よく改善することができる。また、カテゴリ構造の試作個体を交叉や突然変異などで変化させ、試作個体の関連語を用いるウェブ検索結果に基づくサンプル文字列が正しいカテゴリに判定される試作個体を残し他を自然淘汰してゆくことにより、カテゴリに適合する適切なカテゴリ構造が適者生存により選抜されて生き残るという遺伝的アルゴリズムの原理が活用でき、カテゴリ構造を適切かつ効率よく改善することが可能となる。
本発明の他の態様(2)は、上記いずれかの態様において、前記改善手段は、交叉又は突然変異の少なくとも一方と、自然淘汰と、を用いて、カテゴリ構造の新しい試作個体を探索点として生成し多点探索により適切な解に到達する遺伝的アルゴリズムを用いることを特徴とする。
このように、本発明に遺伝的アルゴリズムを適用することにより、個体の適否の条件を把握・解明することなく実用解や最適解に到達できるので、カテゴリ構造を適切かつ効率よく改善することが容易となる。
本発明の他の態様()は、上記いずれかの態様において、前記突然変異手段は、カテゴリ構造の試作個体におけるカテゴリ又は関連語を用いてウェブ検索を行い、その検索結果に含まれるウェブページに基づく文字列から新たな関連語を取得することを特徴とする。
このように、カテゴリ構造の試作個体に含まれているカテゴリ名称や関連語でウェブ検索を行い、その検索結果に基づくことで新たな関連語を効率的に取得して突然変異を生じさせ、試作個体の進化によるカテゴリ構造の改善を効果的に促進できる。
本発明の他の態様()は、上記いずれかの態様において、予め定められた終了条件に基づいて、前記改善手段の動作について終了を判定するとともに、その時点において前記個体記憶手段に記憶されている試作個体を新たなカテゴリ構造として前記カテゴリ記憶手段に記憶させる終了確定手段を有することを特徴とする。
このように、所定の終了条件で遺伝的アルゴリズムの原理に基づく改善の処理を終了してカテゴリ構造を確定させ記憶させることにより、人手により終了の判断や処理をする負荷が不要となり、カテゴリ構造を適切かつ効率よく改善することができる。
本発明の他の態様()であるカテゴリ構造改善装置は、与えられる文章に対応する関連語又はカテゴリを判定する判定手段と、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段と、を有するカテゴリ等取得装置、のためのカテゴリ構造改善装置であって、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定手段で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善手段と、を有し、前記改善手段は、カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段と、前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する交叉手段と、又は、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる突然変異手段、の少なくとも一方と、前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行う検索実施手段と、前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成するサンプル生成手段と、生成された前記サンプル文字列について前記判定手段にカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰する自然淘汰手段と、を有することを特徴とする。
なお、上記の各態様とは異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。異なるカテゴリについては、「手段」を「ステップ」のように適宜読み替えるものとする。
本発明によれば、カテゴリなどの判定に用いるカテゴリ構造を適切かつ効率よく改善することが可能となる。
本発明の実施形態の構成を示す機能ブロック図。 本発明の実施形態で用いる情報(データ)を例示する図。 本発明の実施形態における処理手順を示すフローチャート。 本発明の実施形態における遺伝的アルゴリズムに関し、交叉を例示する概念図。 本発明の第2実施形態の構成を示す機能ブロック図。
次に、本発明を実施するための形態(「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
〔1.構成〕
図1は、本実施形態の構成を示す図であり、本実施形態は、与えられる文章に対応する関連語又はカテゴリを判定するカテゴリ処理装置1(以下「本装置1」又は「本装置」とも呼ぶ)と、その応用例を示すものである。本装置1は、一般的なコンピュータの構成、例えば、CPUなどの演算制御部6と、外部記憶装置(HDD等)や主メモリ等の記憶装置7と、通信ネットワークN(インターネット、携帯電話網、社内ネットワークなど)との通信手段8(LANアダプタなど)などを有する。他の装置3及び4、ウェブサーバW及び端末Tについても、図示は省略するが同様である。
そして、各装置では、記憶装置7に予め記憶(インストール)した図示しない所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(11,12,21,22,31,32,41,42など)を実現する。これら各要素のうち、情報の記憶手段は、記憶装置7において各種のファイルやデータベース(「DB」とも表す)、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現できる。
このような記憶手段のうち、カテゴリ記憶手段22は、カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶している手段であり、カテゴリ構造は、図2(1)に例示するように、関連語のほか、カテゴリ名やその同義語などの代表語を含んでもよい。
また、広告配信装置3は、ウェブサーバWが端末Tに配信するウェブページについて、カテゴリ処理装置1によるカテゴリなどの判定結果と、カテゴリ記憶手段22に記憶されているカテゴリ構造と、に基づいてウェブ広告を配信するサーバ装置である。この広告配信装置3は、広告を記憶している広告記憶手段31と、ウェブページについて広告選択の基準となるカテゴリ又は関連語を取得する取得手段32と、広告の選択及び配信を行う広告処理手段33と、を有する。
このうち、広告記憶手段31に記憶されている広告のデータは、図2(2)に例示するように、広告IDで識別される文字列等の広告ごとに、広告主が指定した入札キーワード及び入札単価を含み、ウェブページの内容を表すカテゴリや特徴的な語と、入札キーワードが一致する広告のうち、入札単価の高いものが優先的にそのウェブページに配信される。
また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段である。
〔2.広告配信時の作用〕
上記のように構成した本実施形態は、本発明によるカテゴリ構造改善の処理を行っている時以外の通常時は、カテゴリ等の判定に基づく広告配信の処理を、以下のように行う。まず、広告配信装置3の広告処理手段33は、連携先のウェブサーバWもしくは端末Tから、広告を組み込んで表示すべきウェブページ内容を表すHTMLデータなどの文字列データ(単に「文章」とも呼ぶ)を受信すると、その文章をカテゴリ処理装置1に渡す。
カテゴリ処理装置1の判定手段21は、形態素分析、tf・idf(文章中の特徴語や重要語を、tf(Term Frequency:単語の出現頻度)とidf(Inverse Document Frequency:逆出現頻度)という二つの指標で抽出するアルゴリズム)や構文解析などの言語処理技術を用いて、与えられた文章に対応する関連語又はカテゴリを判定し、それら関連語を表す文字列や語のID、カテゴリを表す代表語などの文字列や語のIDもしくはカテゴリIDなどの形で、判定結果を広告配信装置3の取得手段32に渡す。なお、判定手段21については予め、正解データを用いた機械学習その他の学習アルゴリズムにより適切な判断を行う状態としておく。
広告配信装置3の取得手段32は、上記のように判定手段21により判定された関連語又はカテゴリについて、カテゴリ記憶手段22に記憶されているカテゴリ構造を参照することにより、対応するカテゴリ又は関連語を取得する。これは、判定された関連語の属するカテゴリ構造に含まれているカテゴリや他の関連語、また判定されたカテゴリのカテゴリ構造に含まれる他の関連語についても、それを入札キーワードとして指定している広告はそのウェブページに表示される可能性があることを意味する。
この場合、例えば、カテゴリ「イタリアン」と判定されたウェブページには、そのカテゴリ「イタリアン」と同じカテゴリ構造に含まれる関連語「パスタ」を入札キーワードとする広告が表示される可能性もある。したがって、カテゴリ構造を以下のように改善することにより、ウェブページと広告とのマッチング精度が改善できる。
〔3.カテゴリ構造の改善〕
〔3−1.改善の概要〕
概要としては、改善手段10は、カテゴリ記憶手段22に記憶されているカテゴリ構造について、関連語を含むウェブ検索要求に基づく検索結果に対し判定手段21で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて前記関連語の組合せを変化させることによって、そのカテゴリ構造を改善する。より具体的には、改善手段10は、交叉又は突然変異の少なくとも一方と、自然淘汰と、を用いて、カテゴリ構造の新しい試作個体を探索点として生成し多点探索により適切な解に到達する遺伝的アルゴリズムを、図3のフローチャートに例示する以下のような処理手順により実行する。
すなわち、改善手段10は、カテゴリのカテゴリ構造について、一又は二以上の試作個体を記憶する個体記憶手段11を有し、改善の対象とするカテゴリ構造を、まず、カテゴリ記憶手段22から個体記憶手段11にコピーする(ステップS10)。また、改善手段10は、前記のようにコピーしたカテゴリ構造を出発点として試作個体を変化すなわち進化させる手段として、交叉手段12又は突然変異手段13の少なくとも一方を有するが、ここでは、双方を有するものとする。そして、これら交叉手段12や突然変異手段13による交叉、突然変異により、新たな試作個体を作成する(ステップS11)。
〔3−2.交叉〕
このうち、交叉手段12は、個体記憶手段11に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する。例えば、図4(1)に例示するように、あるカテゴリXに対し、関連語A1,A2,A3,A4を組み合わせた試作個体X1と、同じカテゴリXの関連語B1,B2,B3,B4を組み合わせた試作個体X2と、が親として存在するとする。
この場合、交叉手段12が子孫を作成する一例は、試作個体X1の前半(関連語A1,A2)と、試作個体X2の後半(関連語B3,B4)と、を組み合わせて試作個体X12とし、また、試作個体X1の後半(関連語A3,A4)と、試作個体X2の前半(関連語B1,B2)と、を組み合わせて試作個体X21とすることである。もちろん、関連語の数は自由で試作個体ごとに異なってよく、部分を取り出して組み合わせる親の数は3以上でも良いし、部分を取り出す際に切り離す関連語の個数や箇所、箇所数その他の詳細も自由である。
〔3−3.突然変異〕
また、突然変異手段13は、周期的又は不定期の適宜なタイミングで、試作個体の一部を変化させることで突然変異を実現する。具体的には、突然変異手段13は、個体記憶手段11に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる。
突然変異手段13が新たな関連語を取得する態様の一例は、ウェブ検索を用いるものである。この場合、カテゴリ構造の試作個体におけるカテゴリ(カテゴリ名などの代表語)又は関連語を用いてウェブ検索を行いその検索結果を受信して、その検索結果に含まれるウェブページに基づく文字列から、形態素解析、tf・idfなどの日本語処理によって、新たな関連語を取得する。
このようにウェブ検索を利用するには、いわゆる検索エンジン(検索サイト)をユーザに提供しているのと同一又は同様な検索サーバ装置4に、API(Application Programming Interface/Application Program Interface)などで、検索要求をウェブブラウザに準じて送信するなどのアクセスを行い、その検索要求に応じて送信されてくるHTMLファイルなどのウェブページデータを検索結果として受信する。このウェブ検索における検索キーワードすなわち検索クエリとしては、カテゴリや関連語を一つずつ対象としてもよいし、例えば関連語を複数用いた論理演算を用いてもよい。検索サーバ装置4では、検索関連データ記憶手段41に予め用意されたいわゆるインデックスデータに基づいて検索処理手段42が、検索クエリに応じたウェブページ群を検索し検索結果ページとしてアクセス元へ送信する。
また、関連語の取得に用いる「ウェブページに基づく文字列」としては、例えば、検索結果においてヒットしたウェブページごとに表示されている説明文や、スニペットなどの抽出文、リンク先ウェブページの内容などが考えられる。また、関連語を追加又は削除する以外にも、例えば、関連語を同義語、上位概念や下位概念の語などに置き換えたり、関連語を表記している字種を、漢字、ひらがな、カタカナ、アルファベットといった字種間で変更するなどにより、試作個体の突然変異を実現してもよい。
〔3−4.自然淘汰〕
以上のような交叉や突然変異によって作成したり変化した新たな試作個体については、次のような自然淘汰の対象となる。すなわち、まず、検索実施手段14が、個体記憶手段11に記憶されている試作個体のうち、少なくとも新たに作成され又は変化した試作個体を対象として、それら試作個体に含まれる関連語を用いたウェブ検索を、検索サーバ装置4にAPIなどでアクセスして行う(ステップS12)。このウェブ検索は、対象となる試作個体であるカテゴリ構造に含まれる全部又は一部の関連語について、関連語ごとに行い、関連語ごとの検索クエリは、関連語の単独でもよいし、複数の関連語や関連語とカテゴリ(実際にはカテゴリ名などの代表語)を論理演算で組み合わせてもよい。
続いて、サンプル生成手段15は、検索実施手段14による前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列(例えば、ヒットしたウェブページ一覧に伴う説明文、スニペットなどの抽出文、リンク先ウェブページの内容など)を複数連結してサンプル文字列を生成する(ステップS13)。図2(1)に基づく単純な一例としては、カテゴリ「ラーメン」について、「トンコツ」の検索結果ページに含まれる文字列と、「チャーシュー」の検索結果ページに含まれる文字列と、「トリガラ」の検索結果ページに含まれる文字列と、を一体に連結してサンプル文字列とする。
そして、自然淘汰手段16は、生成されたサンプル文字列について判定手段21にカテゴリを判定させ(ステップS14)、判定されたカテゴリと、そのサンプル文字列の基となった試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除することにより、試作個体の自然淘汰を実現する(ステップS15)。
サンプル文字列の生成の仕方、カテゴリの「異同」の意義、削除の基準などの詳細は自由に定義でき、例えば、複数の試作個体があるうち相対的に優秀なものを残すためには、それら試作個体に含まれる関連語をさまざまな組合せで選択してサンプル文字列を生成し、より多くのサンプル文字列が正しいカテゴリに判定される方の試作個体を残して他を削除するなどが考えられる。
〔3−5.終了の判断〕
以上のような改善の処理を繰り返す中で、終了確定手段17は、予め定められた終了条件に基づいて、改善手段10の動作について終了を判定するとともに(ステップS16)、その時点において個体記憶手段11に記憶されている試作個体を新たなカテゴリ構造としてカテゴリ記憶手段22に記憶させる(ステップS17)。
終了条件の内容は自由であるが、例えば、対象のカテゴリ構造について、関連語が所定数以上まで増え、かつ、その試作個体に含まれる関連語をさまざまな組合せパターンで選択して生成したサンプル文字列について判定手段21により判定されるカテゴリが、全て正しい又は所定以上の割合で正しい、などの条件が考えられる。また、終了条件の判断については、状態値などを操作者に提示して判断を求めるなど、人間が部分的又は全面的に関わるようにしてもよい。
〔4.効果〕
本実施形態では、以上のように、広告選択などに用いるカテゴリ構造について、関連語によるウェブ検索結果が正しいカテゴリに判定されるかに応じて前記関連語の組合せを取捨選択しながら変化させてゆく遺伝的アルゴリズムの原理を用いることにより、カテゴリ構造を適切かつ効率よく改善することができる。
特に、本実施形態では、本発明に遺伝的アルゴリズムを適用することにより、個体の適否の条件を把握・解明することなく実用解や最適解に到達できるので、カテゴリ構造を適切かつ効率よく改善することが容易となる。
また、本実施形態では、カテゴリ構造の試作個体を交叉や突然変異などで変化させ、試作個体の関連語を用いるウェブ検索結果に基づくサンプル文字列が正しいカテゴリに判定される試作個体を残し他を自然淘汰してゆくことにより、カテゴリに適合する適切なカテゴリ構造が適者生存により選抜されて生き残るという遺伝的アルゴリズムの原理が活用でき、カテゴリ構造を適切かつ効率よく改善することが可能となる。
さらに、本実施形態では、カテゴリ構造の試作個体に含まれているカテゴリ名称や関連語でウェブ検索を行い、その検索結果に基づくことで新たな関連語を効率的に取得して突然変異を生じさせ、試作個体の進化によるカテゴリ構造の改善を効果的に促進できる。
加えて、本実施形態では、終了確定手段17により、所定の終了条件で遺伝的アルゴリズムの原理に基づく改善の処理を終了してカテゴリ構造を確定させ記憶させることにより、人手により終了の判断や処理をする負荷が不要となり、カテゴリ構造を適切かつ効率よく改善することができる。
〔5.第2実施形態〕
上記実施形態(第1実施形態とも呼ぶこととする)では、関連語などの判定手段21と、カテゴリ構造を記憶しているカテゴリ記憶手段22と、カテゴリ構造の改善手段10と、を本発明のカテゴリ処理装置1が有する例を示したが(図1)、本発明は、判定手段及びカテゴリ記憶手段を構成要素とする必要はない。即ち、判定手段及びカテゴリ記憶手段を備えた既存のカテゴリ等取得装置がある場合に、それに装着するなどにより組合せてカテゴリ構造を改善するためのカテゴリ構造改善装置は、装着前の単体でも、本発明の一態様として把握することができる。
このような第2実施形態を図5の構成図に示す。この第2実施形態は、与えられる文章に対応する関連語又はカテゴリを判定する判定手段21と、カテゴリごとに一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段22と、を有するカテゴリ等取得装置2、のためのカテゴリ構造改善装置111であって、改善手段10を有する。この改善手段10は、カテゴリ記憶手段22に記憶されているカテゴリ構造について、関連語を含むウェブ検索要求に基づく検索結果に対し判定手段21で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善するもので、その詳細については第1実施形態における改善手段に準じるので詳説は省略する。
このような第2実施形態によれば、既存のカテゴリ等取得装置についても本発明を適用してカテゴリ構造が改善できるので、既存のシステム資源を有効活用することができる。
〔6.他の実施形態〕
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、上記各実施形態は、応用分野として広告配信を例示したが、本発明によるカテゴリ構造改善の技術は、ニュース記事の自動カテゴリ分類や電子商取引における商品検索など、任意の分野に応用してもよい。また、遺伝的アルゴリズムの具体的内容は自由で、交叉と突然変異の併用は必須ではない。
さらに、手段などの各要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路など他の情報処理機構で実現してもよいし、各構成図、データの図、フローチャートの図なども例示に過ぎず、各要素の有無、その順序や具体的内容などは適宜変更可能である。例えば、各装置は、サーバなどの装置を複数用いて実現してもよく、個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。
1 カテゴリ処理装置
2 カテゴリ等取得装置
3 広告配信装置
4 検索サーバ装置
6 演算制御部
7 記憶装置
8 通信手段
10 改善手段
111 カテゴリ構造改善装置
11 個体記憶手段
12 交叉手段
13 突然変異手段
14 検索実施手段
15 サンプル生成手段
16 自然淘汰手段
17 終了確定手段
21 判定手段
22 カテゴリ記憶手段
31 広告記憶手段
32 取得手段
33 広告処理手段
41 検索関連データ記憶手段
42 検索処理手段
A1,A2,A3,A4,B1,B2,B3,B4 関連語
N 通信ネットワーク
T 端末
W ウェブサーバ
X カテゴリ
X1,X2,X12,X21 試作個体

Claims (7)

  1. 与えられる文章に対応する関連語又はカテゴリを判定する判定手段と、
    カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段と、
    前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定手段で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善手段と、
    を有し、
    前記改善手段は、
    カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段と、
    前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する交叉手段と、又は、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる突然変異手段、の少なくとも一方と、
    前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行う検索実施手段と、
    前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成するサンプル生成手段と、
    生成された前記サンプル文字列について前記判定手段にカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰する自然淘汰手段と、
    を有することを特徴とするカテゴリ処理装置。
  2. 前記改善手段は、交叉又は突然変異の少なくとも一方と、自然淘汰と、を用いて、カテゴリ構造の新しい試作個体を探索点として生成し多点探索により適切な解に到達する遺伝的アルゴリズムを用いることを特徴とする請求項1記載のカテゴリ処理装置。
  3. 前記突然変異手段は、カテゴリ構造の試作個体におけるカテゴリ又は関連語を用いてウェブ検索を行い、その検索結果に含まれるウェブページに基づく文字列から新たな関連語を取得する
    ことを特徴とする請求項1又は2に記載のカテゴリ処理装置。
  4. 予め定められた終了条件に基づいて、前記改善手段の動作について終了を判定するとともに、その時点において前記個体記憶手段に記憶されている試作個体を新たなカテゴリ構造として前記カテゴリ記憶手段に記憶させる終了確定手段を有する
    ことを特徴とする請求項1からのいずれか一項に記載のカテゴリ処理装置。
  5. 与えられる文章に対応する関連語又はカテゴリを判定する判定手段と、
    カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段と、
    を有するカテゴリ等取得装置、のためのカテゴリ構造改善装置であって、
    前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定手段で判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善手段と、
    を有し、
    前記改善手段は、
    カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段と、
    前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する交叉手段と、又は、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる突然変異手段、の少なくとも一方と、
    前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行う検索実施手段と、
    前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成するサンプル生成手段と、
    生成された前記サンプル文字列について前記判定手段にカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰する自然淘汰手段と、
    を有することを特徴とするカテゴリ構造改善装置。
  6. カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段を有するコンピュータが実行するカテゴリ処理方法であって、
    コンピュータが、与えられる文章に対応する関連語又はカテゴリを判定する判定ステップと、
    コンピュータが、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、
    前記関連語を含むウェブ検索要求に基づく検索結果に対し前記判定ステップで判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善する改善ステップと、
    を含み、
    前記コンピュータは、さらに、
    カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段
    を有し、
    前記改善ステップは、
    前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成する交叉ステップと、又は、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除する処理、の少なくとも一方により試作個体を変化させる突然変異ステップ、の少なくとも一方と、
    前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行う検索実施ステップと、
    前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成するサンプル生成ステップと、
    生成された前記サンプル文字列について前記判定ステップによりカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰する自然淘汰ステップと、
    を含むことを特徴とするカテゴリ処理方法。
  7. カテゴリごとに、一又は二以上の関連語を対応付けた情報であるカテゴリ構造を記憶しているカテゴリ記憶手段を有するコンピュータを制御するコンピュータ・プログラムであって、
    コンピュータに、与えられる文章に対応する関連語又はカテゴリを判定させる判定ステップ
    コンピュータに、前記カテゴリ記憶手段に記憶されている前記カテゴリ構造について、前記関連語を含むウェブ検索要求に基づく検索結果に対し該判定したカテゴリの適否に基づき、遺伝的アルゴリズムの原理を用いて変化させることによって改善させる改善ステップ、
    を実行させ、
    前記コンピュータは、さらに、
    カテゴリの前記カテゴリ構造について一又は二以上の試作個体を記憶する個体記憶手段
    を有し、
    前記改善ステップは、
    コンピュータに、前記個体記憶手段に記憶されている複数の試作個体を祖先とし、それぞれの部分要素を組み合わせて新たな試作個体を子孫として作成させる交叉ステップと、又は、コンピュータに、前記個体記憶手段に記憶されている試作個体に含まれるカテゴリ又は関連語に基づいて新たな関連語を取得しその試作個体の関連語に追加する処理、又は、試作個体に含まれる関連語の一部を削除させる処理、の少なくとも一方により試作個体を変化させる突然変異ステップ、の少なくとも一方と、
    コンピュータに、前記個体記憶手段に記憶されている試作個体に含まれる関連語を用いたウェブ検索を行わせる検索実施ステップと、
    コンピュータに、前記ウェブ検索の検索結果に含まれる各ウェブページに基づく文字列を複数連結してサンプル文字列を生成させるサンプル生成ステップと、
    コンピュータに、生成された前記サンプル文字列について前記判定ステップによりカテゴリを判定させ、判定されたカテゴリと、そのサンプル文字列の基となった前記試作個体のカテゴリとの異同に基づいて、その試作個体又はその試作個体の祖先もしくは子孫となる試作個体を削除して自然淘汰させる自然淘汰ステップと、
    を含むことを特徴とするカテゴリ処理プログラム。
JP2010108852A 2010-05-11 2010-05-11 カテゴリ処理装置及び方法 Expired - Fee Related JP5165021B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010108852A JP5165021B2 (ja) 2010-05-11 2010-05-11 カテゴリ処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010108852A JP5165021B2 (ja) 2010-05-11 2010-05-11 カテゴリ処理装置及び方法

Publications (2)

Publication Number Publication Date
JP2011238019A JP2011238019A (ja) 2011-11-24
JP5165021B2 true JP5165021B2 (ja) 2013-03-21

Family

ID=45325922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010108852A Expired - Fee Related JP5165021B2 (ja) 2010-05-11 2010-05-11 カテゴリ処理装置及び方法

Country Status (1)

Country Link
JP (1) JP5165021B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101377695B1 (ko) * 2013-01-18 2014-03-26 김수현 콘텐츠 인지시간을 이용한 광고 시스템 및 광고 방법
KR101712588B1 (ko) * 2015-09-10 2017-03-06 주식회사 디케이아이테크놀로지 광고 카테고리 생성 장치 및 방법
WO2017086108A1 (ja) * 2015-11-16 2017-05-26 大日本印刷株式会社 情報提示装置、情報提示方法、プログラム、情報処理装置及び案内ロボット制御システム
CN108268488B (zh) 2016-12-30 2022-04-19 百度在线网络技术(北京)有限公司 网页主图识别方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001099043A1 (en) * 2000-06-19 2001-12-27 Correlogic Systems, Inc. Heuristic method of classification
US20070061319A1 (en) * 2005-09-09 2007-03-15 Xerox Corporation Method for document clustering based on page layout attributes
JP5115059B2 (ja) * 2007-07-03 2013-01-09 大日本印刷株式会社 キーワード分類装置
JP4962986B2 (ja) * 2008-04-01 2012-06-27 ヤフー株式会社 コンテンツデータをカテゴリに分類する方法、サーバ、およびプログラム

Also Published As

Publication number Publication date
JP2011238019A (ja) 2011-11-24

Similar Documents

Publication Publication Date Title
JP5458181B2 (ja) 高度な検索結果ページコンテンツを提供するためのシステム及び方法
US7809710B2 (en) System and method for extracting content for submission to a search engine
CN102246167B (zh) 提供搜索结果
JP5522743B2 (ja) 重複する文書の検出および表示機能
CN101124609B (zh) 使用内联上下文查询的搜索系统及方法
US7475074B2 (en) Web search system and method thereof
KR101215791B1 (ko) 검색 쿼리 결과로부터 관련성을 추론하는 컴퓨터로 구현되는 방법 및 컴퓨터 판독가능한 매체
JP4962967B2 (ja) Webページ検索サーバ及びクエリ推薦方法
CA3183941A1 (en) Machine learning based webinterface generation and testing system
US20130151497A1 (en) Providing information relating to a document
US20150215271A1 (en) Generating suggested domain names by locking slds, tokens and tlds
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102043833A (zh) 一种基于查询词进行搜索的方法和搜索装置
WO2011060231A2 (en) Method and system for grouping chunks extracted from a document, highlighting the location of a document chunk within a document, and ranking hyperlinks within a document
JP2016505178A (ja) ユーザ参加による検索エンジンソーティング方法
US20150154294A1 (en) Suggested domain names positioning based on term frequency or term co-occurrence
JP2009026195A (ja) 商品分類装置、商品分類方法及びプログラム
CN108647276A (zh) 一种搜索方法
US20150347423A1 (en) Methods for completing a user search
JP5480058B2 (ja) 広告マッチング装置、方法及びプログラム
WO2008049360A1 (fr) Procede et systeme correspondant de fourniture de service provenant d'une tierce partie
JP5165021B2 (ja) カテゴリ処理装置及び方法
CN108520007A (zh) 万维网网页信息提取方法、存储介质及计算机设备
CN106202146B (zh) 一种搜索引擎终端用户输入参考文件搜索提示信息的处理方法
CN107622125B (zh) 一种信息爬取方法和装置、电子设备

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20121001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5165021

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350