JP2015511051A - 情報を公開する方法および装置 - Google Patents
情報を公開する方法および装置 Download PDFInfo
- Publication number
- JP2015511051A JP2015511051A JP2015501918A JP2015501918A JP2015511051A JP 2015511051 A JP2015511051 A JP 2015511051A JP 2015501918 A JP2015501918 A JP 2015501918A JP 2015501918 A JP2015501918 A JP 2015501918A JP 2015511051 A JP2015511051 A JP 2015511051A
- Authority
- JP
- Japan
- Prior art keywords
- category
- related information
- current page
- feature
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000000284 extract Substances 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 241000255925 Diptera Species 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000002372 labelling Methods 0.000 abstract description 10
- 238000005192 partition Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 102100037651 AP-2 complex subunit sigma Human genes 0.000 description 3
- 101000806914 Homo sapiens AP-2 complex subunit sigma Proteins 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005272 metallurgy Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本開示は、既存の技術における公開済み情報の低い効率および精度という問題を解決するために、情報を公開する方法および装置を開示する。本方法は、現行ページの一次情報を区分化し、現行ページから少なくとも1つの特徴用語を抽出し、抽出された特徴用語が現行ページに出現する回数を決定し、抽出された特徴用語が現行ページに出現する決定された回数と、設定されたカテゴリモデルとに基づいて、現行ページのカテゴリを決定し、決定されたカテゴリに属する関連情報を、現行ページに公開する。現行ページから特徴用語を直接的に抽出し、特徴用語が現行ページに出現する回数と、設定されたカテゴリモデルとに基づいて現行ページのカテゴリを決定することによって、例示の実施形態は、現行ページに対する手動のラベル付けを実施する必要がない。したがって、情報公開の効率を改善することが可能である。さらにそのうえ、人為的エラーが導入されないため、情報公開の精度が増加する。
Description
関連出願の相互参照
本出願は、「METHOD AND APPARATUS OF PUBLISHING INFORMATION」という題名の、2012年3月22日に提出された中国特許出願第201210078439.7号に対する外国優先権を主張するものであり、これはその全体が参照により本明細書に組み込まれる。
本出願は、「METHOD AND APPARATUS OF PUBLISHING INFORMATION」という題名の、2012年3月22日に提出された中国特許出願第201210078439.7号に対する外国優先権を主張するものであり、これはその全体が参照により本明細書に組み込まれる。
本開示は、通信技術の分野に関し、特定的には、情報を公開する方法および装置に関する。
インターネット技術の発展により、人々は、ウェブを通じてより便利に情報を取得し、かつ公開することが可能である。ユーザが、あるウェブページを閲覧するとき、図1に示すように、一次情報に関係する一部の関連情報が、一次情報をウェブページ上に表示することに加えて、ウェブページ上に公開され得る。
図1は、既存の技術に従って、一次情報を現行ページに提示し、かつ一次情報に関係する関連情報を公開する略図である。図1では、現行ページ101の領域のほとんどを用いて、一次情報102を表示しており、かつ一次情報102に関係する関連情報103が、残りの領域に公開され得る。例えば、一次情報102がブランドAの携帯電話に関係する情報であれば、公開される一次情報102に関係する関連情報103は、ブランドAの他の電子製品の情報または類似の機能性を有する携帯電話の情報を含み得る。
関連情報があるウェブページ上に公開されることになっているとき、ウェブページのカテゴリは、ウェブページの様々な多様性のために、前もって分類される必要がある。問題となっているウェブページのカテゴリが次に決定され、決定されたカテゴリに属する関連情報がウェブページ上に公開される。
分類されたカテゴリの例は、教育、軍部、旅行、自動車、技術などのようなカテゴリを含み得る。関連情報を現行ページに公開するときには、現行ページが属するカテゴリが最初に決定される。現行ページのカテゴリが「自動車」であると決定されると、「自動車」というカテゴリ下の関連情報が、現行ページに公開される。
既存の技術では、現行ページのカテゴリを決定する方法は、具体的には、現行ページに手動のラベル付けをすることと、現行ページに対応するラベルに基づいて、設定されたカテゴリモデルを用いて現行ページのカテゴリを決定することを含む。カテゴリモデルを設定する方法は、ある数のページに周知のカテゴリを手動のラベル付けをすることと、ある数のページのカテゴリとおよび対応するラベルを訓練サンプルとして用いることと、カテゴリモデルを取得するようにそれらを訓練することと、を含む。
しかしながら、ウェブページの数は膨大であるため、ページに手動のラベル付けをする方法は、関連情報を公開する効率を下げるだけではなく、多くの人的資源の費用がかかる。さらにその上、異なる人々の主観的知覚の相違により、ページに手動のラベル付けをする精度は比較的低い。これで、人為的エラーと、不正確な関連情報がページに公開される可能性とが導入され、これで、公開される情報の精度が減少する。
この概要は、以下の詳細な説明中にさらに説明される概念の選択を導入するために提供される。この概要は、請求される主題の全ての重要な特徴または本質的な特徴を認識することを意図するものでもなければ、請求される主題の範囲を決定する際の支援としてのみ用いられることを意図するものでもない。例えば、「特徴」という用語は、上記の文脈で許容される、および本開示全体にわたる、デバイス(複数可)、システム(複数可)、方法(複数可)、および/またはコンピュータ読み取り可能命令のことであり得る。
本開示の例示の実施形態は、既存の技術における情報を公開する効率および精度が低いという問題を解決するために、情報を公開する方法および装置を提供する。
本開示の例示の実施形態は、
現行ページの一次情報に対して用語区分化を実施して、現行ページから少なくとも1つの特徴用語を抽出することと、
抽出された特徴用語が現行ページに出現する回数を決定することと、
特徴用語が現行ページに出現する決定された回数に基づいて、設定されたカテゴリモデルを用いて、現行ページのカテゴリを決定することと、
現行ページ中の決定されたカテゴリに属する関連情報を公開することと、
を含む、情報を公開する方法を提供する。
現行ページの一次情報に対して用語区分化を実施して、現行ページから少なくとも1つの特徴用語を抽出することと、
抽出された特徴用語が現行ページに出現する回数を決定することと、
特徴用語が現行ページに出現する決定された回数に基づいて、設定されたカテゴリモデルを用いて、現行ページのカテゴリを決定することと、
現行ページ中の決定されたカテゴリに属する関連情報を公開することと、
を含む、情報を公開する方法を提供する。
本開示の例示の実施形態は、
現行ページ中の一次情報に対して用語区分化を実施し、現行ページから少なくとも1つの特徴用語を抽出するために用いられる特徴用語抽出モジュールと、
抽出された特徴用語が現行ページに出現する回数を決定するために用いられる頻度決定モジュールと、
特徴用語が現行ページに出現する決定された回数に基づいて、設定されたカテゴリモデルを用いて、現行ページのカテゴリを決定するために用いられるカテゴリ決定モジュールと、
決定されたカテゴリに属する関連情報を現行ページに公開するために用いられる公開モジュールと、
を含む、情報を公開する装置を提供する。
現行ページ中の一次情報に対して用語区分化を実施し、現行ページから少なくとも1つの特徴用語を抽出するために用いられる特徴用語抽出モジュールと、
抽出された特徴用語が現行ページに出現する回数を決定するために用いられる頻度決定モジュールと、
特徴用語が現行ページに出現する決定された回数に基づいて、設定されたカテゴリモデルを用いて、現行ページのカテゴリを決定するために用いられるカテゴリ決定モジュールと、
決定されたカテゴリに属する関連情報を現行ページに公開するために用いられる公開モジュールと、
を含む、情報を公開する装置を提供する。
本開示の例示の実施形態は、情報を公開する方法および装置を提供する。本方法は、現行ページの一次情報を区分化し、現行ページから少なくとも1つの特徴用語を抽出し、抽出された特徴用語が現行ページに出現する回数を決定し、特徴用語が現行ページに出現する決定された回数に基づいて、設定されたカテゴリモデルを用いて現行ページのカテゴリを決定し、決定されたカテゴリに属する関連情報を現行ページに公開する。現行ページから特徴用語を直接に抽出して、特徴用語が現行ページに出現する回数と、設定されたカテゴリモデルとに基づいて現行ページのカテゴリを決定することによって、例示の実施形態は、現行ページに対して手動のラベル付けを実施する必要がない。したがって、情報公開の効率を改善することが可能である。さらにその上、人為的エラーがなんら導入されないため、情報公開の精度が増す。
膨大な数のウェブページのため、ページに手動のラベル付けをする方法は、関連情報を公開する効率を減少させるだけではなく、多くの人的資源の費用がかかる。さらにその上、各々の人の主観的知覚の相違により、ページに手動のラベル付けをする精度は比較的低く、これで、人為的エラーと、不正確な関連情報がページに公開される可能性と、公開される情報の精度の減少と、が導入される。公開される情報の効率および精度を向上させるため、本開示の例示の実施形態は、ウェブページに手動のラベル付けをする方法を用いず、現行ページの一次情報に用語区分化を直接に実施して、その特徴用語を抽出する。本開示の例示の実施形態は、特徴用語が現行ページに出現する回数に基づいて、さらに設定されたカテゴリモデルに基づいて現行ページのカテゴリを決定し、決定されたカテゴリに属する関連情報を現行ページに公開する。
本開示の実施形態を、添付図面と関連して詳細に説明する。
図2は、本開示の例示の実施形態に従って情報を公開する過程である。
ブロックS201は、現行ページの一次情報に対して用語区分化を実施し、現行ページから少なくとも1つの特徴用語を抽出する。
この実施形態においては、現行ページの一次情報に対して用語区分化を実施するときに、現行ページの一次情報は、異なる領域の副情報に分割され得るし、分割された領域の副情報に対して用語区分化を実施することが可能である。
例えば、現行ページの一次情報は、ブランドAの携帯電話のビジネス情報であり得る。一般的に、ビジネス情報は、タイトル領域、属性内容領域、および共通内容領域に分割され得る。したがって、一次情報の場合、タイトルは、一次情報のタイトル情報であり、一方、属性内容は、一般的に、ブランドAの携帯電話の製品情報(例えば、仕様、モデル番号など)であり、共通内容領域は、一般的に、ブランドAの携帯電話の説明情報である。したがって、一次情報は、タイトル領域の副情報と、属性内容領域の副情報と、共通内容領域の副情報とに分割され得るし、用語区分化は、これらの領域の副情報に対して実施することが可能である。
用語区分化を一次情報に対して実施した後、区分化された用語に対してフィルタリングを実施して、事前定義された用語を除去し得る。事前定義された用語は、ある無意味のストップワード(「〜の」などのそれ)および一般化された用語(「処理」、「代理店」、「卸売り」などのそれ)として定義され得る。事前定義された用語を除去した後に残る用語は、現行ページで特徴用語として抽出される。
ブロックS202は、特徴用語が現行ページに出現する回数を決定する。
実際の適用における特徴用語を考慮すると、異なる領域におけるその出現は、現行ページにとっては異なる程度の重要性を有し得る。上記の例を用い続ける際に、現行ページにおけるブランドAの携帯電話の一次情報の場合、特徴用語がタイトル領域に出現すれば、現行ページは、この特徴用語に関連するページであるより高い可能性を有することになる。例えば、現行ページの一次情報のタイトル領域は、特徴用語「ブランドA」を含む。ある特徴用語が共通内容領域に出現すれば、現行ページは、その特徴用語に関連するページである低い可能性を有する。例えば、現行ページの一次情報の共通内容領域は、「画面サイズ」という特徴用語を含む。
したがって、公開済みの情報の精度をさらに向上させるために、抽出された特徴用語が現行ページに出現する回数を決定する方法は、少なくとも1つの抽出された特徴用語の場合、複数の領域の副情報に対して、特徴用語がある領域の副情報に出現するそれぞれの回数を個別に決定することと、特徴用語がこの領域の副情報に出現するそれぞれの回数と、この領域の副情報に対して設定された重みとの積を決定することと、この領域の副情報の積の和を、特徴用語が現行ページに出現する回数として設定することとを、含み得る。
上記の例を用い続ける際に、抽出された特徴用語「ブランドA」が、一次情報のタイトル領域の副情報に一回(タイトル領域の副情報に対して設定される重みは2である)、属性内容領域の副情報に5回(属性内容領域の副情報に対して設定される重みは1.5である)、共通内容領域の副情報に12回(共通内容領域の副情報に対して設定される重みは1である)出現すれば、「ブランドA」という特徴用語が現行ページに出現する決定される回数は、1×2+5×1.5+12×2=21.5である。
ブロックS203は、特徴用語が現行ページに出現する決定された回数に基づいて、さらに設定されたカテゴリモデルに基づいて、現行ページのカテゴリを決定する。
設定されたカテゴリは所定のものであり、オフラインモードで設定することが可能である。現行ページのカテゴリは、オンラインモードにおける設定されたカテゴリモデルと、特徴用語が現行ページに出現する回数とに基づいて決定することが可能である。
さらにその上、実際の適用では、関連情報が実際に属する情報カテゴリは、関連情報が公開されるページのページカテゴリと一致し得ない。例えば、関連情報の情報カテゴリには、農業情報、エネルギー情報、遷移情報、冶金学情報、自動車/オートバイ情報、ファッション情報、靴/バッグ情報、美容術情報、おもちゃ情報などが含まれ得る。そして、関連情報が公開されるウェブページのページカテゴリには、教育ページ、軍事ページ、旅行ページ、自動車ページ、技術ページなどが含まれ得る。このように、関連情報のカテゴリは、ページカテゴリとは一致しないように見える。したがって、情報公開の精度をさらに向上させるために、本開示の例示の実施形態は、関連情報が公開されるページのページカテゴリを、関連情報などの、すなわち、同じカテゴリシステムに対応するこれらの2つのカテゴリを有する情報カテゴリに基づいて直接に分類する。
本実施形態におけるカテゴリとは、同じカテゴリシステムを用いて分類された情報カテゴリまたはページカテゴリのことである。
ブロックS204は、決定されたカテゴリの関連情報を現行ページに公開する。
現行ページのカテゴリが決定されると、このカテゴリの関連情報を現行ページに公開して、関連情報の公開を完了させることが可能である。
上記の過程は、現行ページの一次情報に対して用語区分化を実施し、特徴用語を抽出し、各々の抽出された特徴用語が現行ページに出現する回数を決定し、現行ページのカテゴリを、各々の抽出された特徴用語が現行ページに出現する回数と、設定されたカテゴリモデルとに基づいて決定し、決定されたカテゴリの関連情報を現行ページに公開する。本実施形態は、特徴用語を現行ページから抽出し、特徴用語が現行ページに出現する回数に基づいて、さらに設定されたカテゴリモデルに基づいて現行ページのカテゴリを決定する。したがって、現行ページに対する手動のラベル付けはもはや不必要である。したがって、情報公開の効率を向上させることが可能であり、人為的エラーは導入されず、これで情報公開の精度が向上する。
図2に示す過程は、設定されたカテゴリモデルと、特徴用語が現行ページに出現する回数とに基づいて現行ページのカテゴリを決定し、対応する関連情報を現行ページに公開するオンライン過程である。図3は、以下に説明するように、オフラインモードでカテゴリモデルを設定する例示の過程を示す。
図3は、具体的には次のブロックを含む本開示の例示の実施形態に従ってカテゴリモデルを設定する過程である。
ブロックS301は、設定された時間期間内に設定数を超える回数クリックされた全ての公開済み関連情報を抽出する。
本実施形態では、あるページにすでに公開済みの関連情報の場合、この公開済み関連情報が設定された数を超える回数このページでクリックされると、公開済み関連情報は、正しいカテゴリに対応するページに公開されていると考慮され得る。したがって、設定された数を超える回数に対して設定された時間期間内にクリックされた全ての公開済み関連情報が、後続の手順でカテゴリモデルを取得するための訓練用に選択され得る。この設定された時間期間および設定された数は、必要性に基づいて設定され得る。ある例には、3カ月以内に100回を超える回数クリックされた全ての公開済み関連情報を抽出することを含み得る。
ブロックS302は、公開済み関連情報に対する公開済み関連情報のカテゴリを個々に決定する。
言い換えれば、抽出された各々の公開済み関連情報片のカテゴリが決定される。
ブロックS303は、各々の異なるカテゴリに対して、抽出されたそのカテゴリの公開済み関連情報から第1の設定数個の公開済み関連情報片を選択する。
言い換えれば、各々のカテゴリの公開済み関連情報から、第1の設定された数の公開済み関連情報片が選択される。これは、抽出される全ての公開済み関連情報において、異なるカテゴリでのそれぞれの数の公開済み関連情報片は同じではないことがあり得るからである。例えば、抽出された1000片の公開済み関連情報の中で、500片がカテゴリAに属し得るし、300片がカテゴリBに属し得る、200片がカテゴリCに属し得る。したがって、異なるカテゴリ中の同じ数の公開済み関連情報片が、カテゴリモデルの精度を向上させるために、後続の手順の間に、カテゴリモデルを訓練して取得するための訓練用サンプルとして選択される必要がある。例えば、100片の(すなわち、100である第1の設定数の)公開済み関連情報が、各々のカテゴリに対して選択される。
ブロックS304は、選択された第1の設定数の公開済み関連情報片について、公開済み関連情報に対して用語区分化を実施し、選択された公開済み関連情報から少なくとも1つの関連用語を抽出する。
各々の異なるカテゴリに対して、そのカテゴリの第1の設定数の公開済み関連情報片が選択されると、本実施形態は、選択された各々の公開済み関連情報片に対する公開済み関連情報に対して用語区分化を実施し、公開済み関連情報の区部化の後で、公開済み関連情報から特徴用語を抽出する。公開済み関連情報が区分化されるとき、現行ページの一次情報を区分化する同じ方法を用い得る。具体的には、公開済み関連情報は、副情報の異なる領域として最初に分割され、副情報の分割された領域は、その後で区分化される。その詳細は、本明細書中に繰り返し説明される。
ブロックS305は、選択された第1の設定数の公開済み関連情報片から抽出された全ての特徴用語に対して、等式
を用いてあるカテゴリ下での特徴用語の重みを決定する。
kは、そのカテゴリがk番目のカテゴリであることを表す。jは、その特徴用語が全ての抽出された特徴用語中でj番目の特徴用語であることを表す。Wkjは、カテゴリ中の特徴用語の重みである。iは、カテゴリの公開済みの選択された第1の設定数の関連情報中でi番目の公開済み関連情報片を表す。mは、第1の設定数である。Dijは、選択されたi番目の公開済み関連情報中に特徴用語が出現する回数である。l1は、1以上の実数である。nは、公開済みの選択された第1の設定数の関連情報中から抽出された全ての特徴用語の個数である。
kは、そのカテゴリがk番目のカテゴリであることを表す。jは、その特徴用語が全ての抽出された特徴用語中でj番目の特徴用語であることを表す。Wkjは、カテゴリ中の特徴用語の重みである。iは、カテゴリの公開済みの選択された第1の設定数の関連情報中でi番目の公開済み関連情報片を表す。mは、第1の設定数である。Dijは、選択されたi番目の公開済み関連情報中に特徴用語が出現する回数である。l1は、1以上の実数である。nは、公開済みの選択された第1の設定数の関連情報中から抽出された全ての特徴用語の個数である。
例えば、k番目のカテゴリに対して、3片の公開済み関連情報が選択される(すなわち、上の等式で第1の設定数が3で、m=3である)。第1の公開済み関連情報片から抽出された特徴用語は、特徴用語Aおよび特徴用語Bである。第2の公開済み関連情報片から抽出された特徴用語は、特徴用語Bおよび特徴用語Cである。第3の公開済み関連情報片から抽出された特徴用語は、特徴用語Aおよび特徴用語Dである。したがって、k番目のカテゴリの公開済み関連情報のこれら3つの選択された片から抽出された全ての特徴用語は、特徴用語A、特徴用語B、特徴用語C、および特徴用語Dである。言い換えれば、選択された第1の設定数の公開済み関連情報中の抽出された全ての特徴用語の数は4である、すなわち、上の等式中でn=4となる。
k番目のカテゴリ中の各々の特徴用語の重みを上記の等式を用いて決定するとき、各々の特徴用語が選択された全ての公開済み関連情報中に出現する回数が、最初に決定される。具体的には、j番目の特徴用語がi番目の片の公開済み関連情報中に出現する回数Dijが決定される。上記の例を続けると、上の等式で、iの値範囲は1〜3であり、jの値範囲は1〜4である。Dijを決定するとき、抽出された特徴用語が現行ページに出現する回数を決定する同じ方法(図2に示すような)を用い得る。具体的には、副情報の各々の分割された領域に対して、j番目の特徴用語が、i番目の公開済み関連情報片の副情報のそれぞれの領域に出現する回数を個々に決定する。さらにその上、回数と、副情報のこの領域に対して設定された重み値との積が決定される。副情報の分割された領域の積の和が、j番目の特徴用語がi番目の公開済み関連情報片に出現する回数であるDijとして設定される。
ブロックS306は、等式Sigma_k=ΣjWkjを用いてカテゴリの重みを決定する。
Sigma_kは、カテゴリの重みである。言い換えれば、ブロックS305の方法に従ってk番目のカテゴリに属する公開済みの第1の設定数の関連情報片から抽出されたk番目のカテゴリの各々の特徴用語の重みWkjを決定した後で、k番目のカテゴリの全ての特徴用語の重みの和が、k番目のカテゴリの重みとして設定される。
ブロックS307は、異なるカテゴリの各々のカテゴリの決定された重みと、このカテゴリの選択された第1の設定数の公開済み関連情報片から抽出された全ての特徴用語の決定された重みと、を設定されたカテゴリモデルとして定義する。
具体的には、分類されたカテゴリの数がKであれば、各々のカテゴリ(kε[1,K]を持つ)に対して決定されたSigma_kと、各々のカテゴリに対して決定された各々のWkjとが、設定されたカテゴリモデルとして定義される。
さらにその上、おなじ特徴用語が、公開済み関連情報の異なる片に出現し得る。設定されたカテゴリモデルの精度をさらに向上させるため、したがって、情報公開の精度をさらに向上させるために、ブロックS305の方法に従ってk番目のカテゴリのj番目の特徴用語の重みWkjを決定した後で、本実施形態はさらに、各々のカテゴリに対して、カテゴリの選択された第1の設定数の公開済み関連情報内の特徴用語を含む公開済み関連情報片の数を決定し、各々のカテゴリに対する決定された数の和を決定し、カテゴリ中の特徴用語の重みを、カテゴリ中の特徴用語の重みと、和の逆数との積として再定義し得る。
言い換えれば、Wkjを決定した後、IDFkjを各々のカテゴリに対して決定する。IDFkjは、k番目のカテゴリの選択された第1の設定数の公開済み関連情報内のj番目の特徴用語を含む公開済み関連情報片の数を表す。また、分類されるカテゴリの数をKとすると、
が決定される。IDFjは、各々のカテゴリの決定された数の和である。最後に、
が決定される。W‘kjは、k番目のカテゴリのj番目の特徴用語の再定義された重みである。
さらにその上、Sigma_kが、同じ数の公開済み関連情報片が各々のカテゴリから選択される状況下で、決定される。しかしながら、実際には、異なるカテゴリ下で(すなわち、ある設定された時間期間内である設定数を超える回数クリックされた全ての公開済み関連情報片から)抽出された公開済み関連情報片の数は、異なり得る。例えば、ある設定時間期間内である設定数を超えるクリック数を持つ抽出された関連情報片の数は、1000であり得る。カテゴリ1の公開済み関連情報片の数は500、カテゴリ2の公開済み関連情報片の数は300、カテゴリ3の公開済み関連情報片の数は200である。Sigma_1、Sigma_2、およびSigma_3が決定されるとき、これらは、同じ数の公開済み関連情報片が異なるカテゴリから選択される状況下で決定される。したがって、本実施形態は、調整されたSigma_1、Sigma_2、およびSigma_3が実際の状況をより良い方法で満足し、これで、取得されたカテゴリの精度および公開される情報の精度をさらに向上させることが可能となるように、Sigma_1、Sigma_2、およびSigma_3をさらに調整し得る。
具体的には、カテゴリの重みを決定した後、ある設定時間期間内にある事前設定された数を超える回数クリックされた全ての抽出された公開済み関連情報片の数が、第1のパラメータとして定義される。全ての抽出された公開済み関連情報片の中から、カテゴリに属する公開済み関連情報片の数が、第2のパラメータとして定義される。第2のパラメータと第1のパラメータとの間の比が決定される。カテゴリの決定された重みおよびこの比の積が、カテゴリの重みとして再定義される。
言い換えれば、ブロックS306の方法に従ってk番目のカテゴリの重みSigma_kを決定した後、ブロックS301で抽出され、かつ、ある設定された時間期間内に事前設定された数を超える回数クリックされたことが分かっている全ての公開済み関連情報片の数が、さらに第1のパラメータQとして定義される。全ての抽出された公開済み関連情報片の中から、k番目のカテゴリに属する公開済み関連情報片の数が、パラメータQkとして定義される。第2のパラメータQkと第1のパラメータQとの間の比
が、決定される。最後に、
が、決定され、式中、Sigma_k’は、カテゴリの新しい重みとして定義される。
図3に示すようなカテゴリを設定する過程は、オフラインモードで実施され得る。この方法を用いてカテゴリモデルを取得した後、図2のブロックS203に示す過程である、オンラインモードでこのカテゴリモデルを用いて現行ページのカテゴリを決定する過程が、図4に示されている。
図4は、具体的には次の手順を含む、本開示の例示の実施形態に提供されるような現行ページのカテゴリを決定する詳細な過程を示す。
ブロックS2031は、各々のカテゴリに対して、次の等式を用いて、現行ページのカテゴリに属する推定値を決定する。
Probは、現行ページがカテゴリに属する推定値である。Nは、現行ページからの抽出された特徴用語の数である。hは、現行ページからのh番目の抽出された特徴用語である。Dhは、h番目の抽出された特徴用語が現行ページに出現する回数である。Wkhは、k番目のカテゴリ下でのh番目の抽出された特徴用語の重みである。l2は、1以上の実数である。
具体的には、本実施形態は、現行ページが各々のカテゴリに属する確率を、(現行ページの一次情報から抽出された)各々の特徴用語が現行ページに出現する回数と、設定されたカテゴリモデルとに基づいて上記の等式を用いて推定して、現行ページが各々のカテゴリに属し得る推定値Probを取得する。
Wkhがk番目のカテゴリのh番目の特徴用語の重みであることを考慮すると、k番目のカテゴリのh番目の特徴用語の重みは、推定値が上記の等式を用いて決定されるときに設定されたカテゴリモデルに存在しない場合、これは、k番目のカテゴリ下の全ての公開済み関連情報片が、カテゴリモデルが設定されるときにh番目の特徴用語を含まないことを示す。この場合、Wkhの値がゼロに設定される、すなわち、k番目のカテゴリ中のh番目の特徴用語の重みがデフォルトによってゼロである。
さらにその上、上記の等式中のWkhは、カテゴリモデルが設定されるときに再決定されるW‘khによって置き換えられ得る。また、Sigma_kは、公開済み情報の精度をさらに向上させるために、カテゴリモデルが設定されるときに再決定されるSigma_k’によって置き換えられ得る。
ブロックS2032は、異なるカテゴリに対して決定された推定値の大きさに基づいて、推定値の降順に従って、第2の設定数のカテゴリを選択して、選択されたカテゴリを、現行ページのカテゴリとして設定する。
この実施形態では、ページは、異なるカテゴリの関連情報を公開し得る。したがって、現行ページが各々のカテゴリに属する推定値を決定することに応答して、より高い推定値を有する第2の設定数が、現行ページのカテゴリとして選択され得る。第2の設定数は、実際の必要性に基づいて定義することが可能である。
例えば、第2の設定数は、5として設定され得る。現行ページが各々のカテゴリに属する推定値を決定したことに応答した後で、カテゴリは、それぞれの決定された推定値の降順で配置され得る。最初の5つのカテゴリが選択され得る、すなわち、より大きい決定された推定値を有する5つのカテゴリが、現行ページのカテゴリとして選択される。
後続の手順では、これらの5つのカテゴリにそれぞれ属する関連情報は、関連情報の公開を完了するために、現行ページ上に公開される。
本開示の例示の実施形態の情報を公開する方法は、B2B、B2C、C2Cなどのビジネス情報を公開するシナリオおよび他の情報公開シナリオを含む、情報公開の異なるシナリオに適用され得る。
図5は、本開示の例示の実施形態に従って情報を公開する装置の構造図であり、具体的には、
現行ページ中の一次情報に対して用語区分化を実施し、現行ページから少なくとも1つの特徴用語を抽出するために用いられる特徴用語抽出モジュール501と、
抽出された特徴用語が現行ページに出現する回数を決定するために用いられる頻度決定モジュール502と、
特徴用語が現行ページに出現する決定された回数と、設定されたカテゴリモデルとに基づいて、現行ページのカテゴリを決定するために用いられるカテゴリ決定モジュール503と、
決定されたカテゴリに属する関連情報を現行ページ中に公開するために用いられる公開モジュール504と、
を備える。
現行ページ中の一次情報に対して用語区分化を実施し、現行ページから少なくとも1つの特徴用語を抽出するために用いられる特徴用語抽出モジュール501と、
抽出された特徴用語が現行ページに出現する回数を決定するために用いられる頻度決定モジュール502と、
特徴用語が現行ページに出現する決定された回数と、設定されたカテゴリモデルとに基づいて、現行ページのカテゴリを決定するために用いられるカテゴリ決定モジュール503と、
決定されたカテゴリに属する関連情報を現行ページ中に公開するために用いられる公開モジュール504と、
を備える。
特徴用語抽出モジュール501は、具体的には、現行ページの一次情報を、異なる領域の副情報に分割し、分割された領域の副情報に対して用語区分化を個別に実施するために用いられる。
頻度決定モジュール502は、具体的には、副情報の分割された領域に対して、特徴用語が副情報の領域に出現するそれぞれの回数を個別に決定し、特徴用語が副情報の領域に出現するそれぞれの回数と、副情報の領域に対して設定された重みとの積を決定し、副情報の領域の積の和を特徴用語が現行ページに出現する回数として設定するために用いられる。
カテゴリ決定モジュール503は、
モデル設定ユニット5031であって、設定された数を超える回数に対して設定された時間期間内にクリックされた全ての公開済み関連情報を抽出することと、公開済み関連情報に対して、公開済み関連情報のカテゴリを個々に決定することと、各々の異なるカテゴリに対して、次のこと:抽出されたカテゴリの公開済み関連情報から、第1の設定数の公開済み関連情報を選択することと、選択された第1の設定数の公開済み関連情報に対して、公開済み関連情報に用語区分化を実施することと、選択された公開済み関連情報から少なくとも1つの特徴用語を抽出することと、選択された第1の設定数の公開済み関連情報から抽出された全ての特徴用語に対して、等式
モデル設定ユニット5031であって、設定された数を超える回数に対して設定された時間期間内にクリックされた全ての公開済み関連情報を抽出することと、公開済み関連情報に対して、公開済み関連情報のカテゴリを個々に決定することと、各々の異なるカテゴリに対して、次のこと:抽出されたカテゴリの公開済み関連情報から、第1の設定数の公開済み関連情報を選択することと、選択された第1の設定数の公開済み関連情報に対して、公開済み関連情報に用語区分化を実施することと、選択された公開済み関連情報から少なくとも1つの特徴用語を抽出することと、選択された第1の設定数の公開済み関連情報から抽出された全ての特徴用語に対して、等式
を用いてあるカテゴリ下の特徴用語の重みを決定することであって、式中、kは、そのカテゴリがk番目のカテゴリであることを表し、jは、その特徴用語が全ての抽出された特徴用語中でj番目の特徴用語であることを表し、Wkjは、カテゴリ中の特徴用語の重みであり、iは、カテゴリの選択された第1の設定数の公開済み関連情報の中でi番目の公開済み関連情報を表し、mは、第1の設定数であり、Dijは、選択されたi番目の公開済み関連情報片中に特徴用語が出現する回数であり、l1は、1以上の実数であり、nは、選択された第1の設定数の公開済み関連情報の中から抽出された全ての特徴用語の個数である、重みを決定することと、等式Sigma_k=ΣjWkj(式中、Sigma_kがカテゴリの重みである)を用いてカテゴリの重みを決定することと、異なるカテゴリの各々のカテゴリの決定された重みと、カテゴリの選択された第1の設定数の公開済み関連情報から抽出された全ての特徴用語の決定された重みとを、設定されたカテゴリモデルとして定義することと、を実施することと、のために用いられる、モデル設定ユニット5031を含む。
モデル設定ユニット5031は、カテゴリの特徴用語の重みを決定した後で、各々のカテゴリに対して、選択された第1の設定数の公開済み関連情報内の特徴用語を含む公開済み関連情報片の数を決定することと、各々のカテゴリに対する決定された数の和を決定することと、カテゴリ中の特徴用語の重みを、カテゴリ中の特徴用語の重みと和の逆数との積として再定義することと、のために用いられ得る。
モデル設定ユニット5031は、カテゴリの重みを決定した後で、ある設定された時間期間内である事前設定された数を超える回数クリックされた全ての抽出された公開済み関連情報片の数を第1のパラメータとして定義することと、全ての抽出された公開済み関連情報片の中からのカテゴリに属する公開済み関連情報片の数を、第2のパラメータとして定義することと、第2のパラメータと第1のパラメータとの間の比を決定することと、カテゴリの重みとこの比との積をカテゴリの重みとして再定義することと、
ために用いられ得る。
ために用いられ得る。
カテゴリ決定モジュール503はまた、
カテゴリ決定ユニット5032であって、各々のカテゴリに対して、等式
カテゴリ決定ユニット5032であって、各々のカテゴリに対して、等式
を用いて現行ページがカテゴリに属する推定値を決定することであって、式中、Probは、現行ページがカテゴリに属する推定値であり、Nは、現行ページからの抽出された特徴用語の数であり、hは、現行ページからのh番目の抽出された特徴用語を表し、Dhは、h番目の抽出された特徴用語が現行ページに出現する回数であり、Wkhは、k番目のカテゴリ下でのh番目の抽出された特徴用語の重みであり、l2は、1以上の実数である、決定することと、異なるカテゴリに対して決定された推定値の大きさに基づいて、推定値の降順に従って第2の設定数のカテゴリを選択することと、選択されたカテゴリを現行ページのカテゴリとして設定することと、のために用いられる、カテゴリ決定ユニット5032を含む。
本開示の例示の実施形態は、情報を公開する方法および装置を提供する。本方法は、現行ページの一次情報を区分化し、現行ページから少なくとも1つの特徴用語を抽出し、抽出された特徴用語が現行ページに出現する回数を決定し、特徴用語が現行ページに出現する決定された回数と、設定されたカテゴリモデルとに基づいて、現行ページのカテゴリを決定し、決定されたカテゴリに属する関連情報を現行ページに公開する。直接的に現行ページから特徴用語を抽出し、特徴用語が現行ページに出現する回数と、設定されたカテゴリモデルとに基づいて現行ページのカテゴリを決定することによって、例示の実施形態は、現行ページに対して手動のラベル付けを実施する必要がない。したがって、情報公開の効率を向上させることが可能である。さらにその上、人為的エラーがなんら導入されないため、情報公開の精度が増す。
当業の技術者は、本開示の実施形態は、コンピュータソフトウエアの方法、システム、または製品として実現され得ることを理解すべきである。したがって、本開示は、ハードウエア、ソフトウエア、またはハードウエアおよびソフトウエアの組み合わせという形態で実現され得る。さらに、本開示は、コンピュータ読み取り可能プログラム命令を含む1つ以上のコンピュータ読み取り可能記憶デバイス(これに限られないが、ディスク記憶デバイス、CD−ROM、光記憶デバイスなどを含む)上で実行可能なコンピュータソフトウエアの製品という形態で実現され得る。
本開示を、例示の方法、装置(デバイス)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図に従って説明した。フローチャートおよび/またはブロック図の過程および/またはブロックの各々過程および/またはブロックならびに組み合わせが、コンピュータプログラム命令という形態で実現され得ることを理解すべきである。このようなコンピュータプログラム命令は、汎用コンピュータ、特殊目的コンピュータ、埋め込みプロセッサ、またはマシンを生成するためにプログラム可能データ処理デバイスを有する別の処理装置に提供され得るものであり、これにより、フローチャートの1つ以上の過程および/またはブロック図の1つ以上のブロックに説明される1つ以上のブロックに示される機能を有する装置が、コンピュータまたはプログラム可能処理デバイスを有する他の処理装置が命令を実行することによって実現され得る。
このようなコンピュータプログラム命令もまた、コンピュータまたは別のプログラム可能データ処理装置に対して特定的な様式で機能させ得るコンピュータ読み取り可能メモリデバイスに記憶され得るため、命令装置を含む製造物は、コンピュータ読み取り可能メモリデバイスに記憶された命令に基づいて構築され得る。この命令デバイスは、フローチャートの1つ以上の過程および/またはブロック図の1つ以上のブロックによって示される機能を実現する。
コンピュータプログラム命令はまた、コンピュータまたは別のプログラム可能データ処理装置にロードされ得るため、一連の動作をコンピュータまたは他のデータ処理装置によって実行して、コンピュータで実施される処理を生成し得る。したがって、コンピュータまたは別のプログラム可能データ処理装置によって実行される命令は、フローチャートの1つ以上の過程および/またはブロック図の1つ以上のブロックを実施するために用いられ得る。
例えば、図6は、上述した装置のような例示の情報公開装置600をより詳細に示す。1つの実施形態では、装置600は、これに限られないが、1つ以上のプロセッサ601、ネットワークインターフェース602、メモリ603、および入/出力インターフェース604を含み得る。
メモリ603は、ランダムアクセスメモリ(RAM)などの揮発性メモリおよび/またはリードオンリーメモリ(ROM)もしくはフラッシュRAMなどの不揮発性メモリの形態におけるコンピュータ読み取り可能媒体を含み得る。メモリ503は、コンピュータ読み取り可能媒体の例である。
コンピュータ読み取り可能媒体には、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、もしくは他のデータなどの情報の記憶のためのなんらかの方法または技術で実装される、揮発性および不揮発性ならびに取り外し可能および取り外し不可能な媒体が含まれる。コンピュータ記憶媒体の例には、これに限られないが、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能プログラム可能リードオンリーメモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、コンパクトディスクリードオンリーメモリ(CD−ROM)、デジタルバーサタイルディスク(DVD)もしくは他の光ディスク、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、または、コンピュータデバイスによるアクセスされるように情報を記憶するために用いることが可能ないずれかの他の非伝送媒体が含まれる。本明細書に定義されるように、コンピュータ読み取り可能媒体には、変調されたデータ信号および搬送波などの一過性の媒体は含まれない。
メモリ603は、プログラムモジュール/ユニット605およびプログラムデータ606を含み得る。1つの実施形態では、プログラムモジュール/ユニット605は、特徴用語抽出モジュール607、頻度決定モジュール608、カテゴリ決定モジュール609、および公開モジュール610を含み得る。一部の実施形態では、カテゴリ決定モジュール609は、モデル設定ユニット611およびカテゴリ決定ユニット612を含み得る。これらのプログラムモジュールおよび/またはユニットに関する詳細は、上述した前記の実施形態中に見受けられ得る。
本開示の好ましい実施形態を提供したが、当業の技術者は、基礎を成すその発明概念を理解すれば、これらの例示の実施形態に対して変更および修正を実施し得る。したがって、本明細書に添付される特許請求の範囲は、好ましい実施形態と、本開示の範囲に入る全ての変更および修正とを範囲に収めることを意図する。明らかに、当業の技術者は、本開示の精神および範囲から逸脱することなく、本出願に対して変更および修正を実行し得る。これらの変更および修正が、特許請求の範囲および本開示のこれらの同等物の範囲内にあれば、本開示は、このような変更および修正を範囲に収めることを意図する。
Claims (20)
- 情報を公開する方法であって、
現行ページの一次情報に対して用語区分化を実施し、前記現行ページから少なくとも1つの特徴用語を抽出することと、
前記抽出された特徴用語が前記現行ページに出現する回数を決定することと、
前記特徴用語が前記現行ページに出現する前記決定された回数と、設定されたカテゴリモデルとに基づいて、前記現行ページのカテゴリを決定することと、
前記現行ページ中の前記決定されたカテゴリに属する関連情報を公開することと、
を含む、方法。 - 前記現行ページの前記一次情報に対して用語区分化を実施することが、
前記現行ページの前記一次情報を、副情報の異なる領域に分割することと、
副情報の前記分割された領域を個別に区分化することと、
を含む、請求項1に記載の方法。 - 前記抽出された特徴用語が前記現行ページに出現する前記回数を決定することが、
抽出された前記少なくとも1つの特徴用語に対して、次のこと:
副情報の各々の分割された領域に対して、前記特徴用語が副情報の前記分割された領域に出現する回数を決定することと、
前記特徴用語が副情報の前記分割された領域に出現する前記回数と、前記領域副情報に対して設定された重みとの積を決定することと、
副情報の前記分割された領域の積の和を、前記特徴用語が前記現行ページに出現する前記回数として定義することと、
を実施することを含む、請求項2に記載の方法。 - 前記設定されたカテゴリモデルが、
設定された数を超える回数に対して設定された時間期間内にクリックされた全ての公開された関連情報を抽出することと、
前記公開済み関連情報に対して、前記公開済み関連情報のカテゴリを個々に決定することと、
各々の異なるカテゴリに対して、次のこと:
抽出された前記カテゴリの公開済み関連情報から、公開済み関連情報の第1の設定数を選択することと、
前記選択された第1の設定数の公開済み関連情報片に対して、公開済み関連情報に用語区分化を実施して、選択された前記公開済み関連情報から少なくとも1つの特徴用語を抽出することと、
前記選択された第1の設定数の前記公開済み関連情報から抽出された全ての特徴用語に対して、等式
等式Sigma_k=ΣjWkj(式中、Sigma_kが前記カテゴリの重みである)を用いて前記カテゴリの前記重みを決定することと、
異なるカテゴリの各々のカテゴリの前記決定された重みと、前記カテゴリの前記選択された第1の設定数の公開済み関連情報から抽出された全ての特徴用語のうちの前記特徴用語の前記決定された重みと、を前記設定されたカテゴリモデルとして定義することと、
を実施することと、を含む、請求項1に記載の方法。 - 前記カテゴリ中の前記特徴用語の前記重みを決定することの後で、前記方法が、
各々のカテゴリに対して、前記カテゴリの前記選択された第1の設定数の公開済み関連情報内の前記特徴用語を含む公開済み関連情報片の数を個別に決定することと、
各々のカテゴリに対して前記決定された数の和を決定することと、
前記カテゴリ中の前記特徴用語の重みを、前記カテゴリ中の前記特徴用語の前記重みと前記和の逆数との積として再定義することと、
をさらに含む、請求項1に記載の方法。 - 前記カテゴリの前記重みを決定することの後で、前記方法が、
設定された時間期間内に、事前設定された数を超える回数クリックされた全ての抽出された公開済み関連情報片の数を、第1のパラメータとして定義することと、
前記抽出された公開済み関連情報片の全てのうちで前記カテゴリに属する公開済み関連情報片の前記数を、第2のパラメータとして定義することと、
前記第2のパラメータと前記第1のパラメータとの間の比を決定することと、
前記カテゴリの前記決定された重みとこの比との積を、カテゴリの前記重みとして再定義することと、
をさらに含む、請求項1に記載の方法。 - 前記特徴用語が前記現行ページに出現する前記決定された回数と、前記設定されたカテゴリモデルとに基づいて、前記現行ページの前記カテゴリを決定することが、
各々のカテゴリに対して、等式
異なるカテゴリに対して決定された前記推定値の大きさに基づいて、前記推定値の降順に従って第2の設定数のカテゴリを選択して、前記選択されたカテゴリを前記現行ページのカテゴリとして設定することと、
を含む、請求項1に記載の方法。 - 情報を公開する装置であって、
現行ページ中の一次情報に対して用語区分化を実施し、前記現行ページから少なくとも1つの特徴用語を抽出するために用いられる特徴用語抽出モジュールと、
前記抽出された特徴用語が前記現行ページに出現する回数を決定するために用いられる頻度決定モジュールと、
前記特徴用語が前記現行ページに出現する前記決定された回数と、設定されたカテゴリモデルとに基づいて、前記現行ページのカテゴリを決定するために用いられるカテゴリ決定モジュールと、
決定されたカテゴリに属する関連情報を前記現行ページ中に公開するために用いられる公開モジュールと、
を備える装置。 - 前記現行ページの前記一次情報を、副情報の様々な領域に分割することと、前記分割された領域の副情報に対して用語区分化を個別に実施することと、を含む、請求項8に記載の装置。
- 前記頻度決定モジュールが、前記特徴用語が副情報の領域に出現するそれぞれの回数を、副情報の前記分割された領域に対して個別に決定することと、前記特徴用語が副情報の前記領域に出現する前記それぞれの回数と、副情報の前記領域に対して設定された重みとの積を決定することと、前記副情報の前記領域の前記積の和を、前記特徴用語が前記現行ページに出現する前記回数として設定することと、のために用いられる、請求項9に記載の装置。
- 前記カテゴリ決定モジュールが、
モデル設定ユニットであって、設定された数を超える回数に対して設定された時間期間内にクリックされた全ての公開済み関連情報を抽出することと、前記公開済み関連情報に対して、前記公開済み関連情報のカテゴリを個々に決定することと、各々の異なるカテゴリに対して、次のこと:抽出された前記カテゴリの公開済み関連情報から、第1の設定数の公開済み関連情報を選択することと、前記選択された第1の設定数の公開済み関連情報片に対して、公開済み関連情報に用語区分化を実施することと、選択された前記公開済み関連情報から少なくとも1つの特徴用語を抽出することと、前記選択された第1の設定数の前記公開済み関連情報から抽出された全ての特徴用語に対して、等式
- 前記モデル設定ユニットが、前記カテゴリ中の前記特徴用語の前記重みを決定することの後で、各々のカテゴリに対して、前記選択された第1の設定数の前記カテゴリの公開済み関連情報内の前記特徴用語を含む公開済み関連情報片の数を個別に決定することと、各々のカテゴリの前記決定された数の和を決定することと、前記カテゴリ中の前記特徴用語の重みを、前記カテゴリ中の前記用語の前記重みと前記和の逆数との積として再定義することと、のためにさらに用いられる、請求項11に記載の装置。
- 前記モデル設定ユニットが、前記カテゴリの前記重みを決定することの後で、設定された時間期間内に、事前設定された数を超える回数クリックされた全ての抽出された公開済み関連情報片の数を、第1のパラメータとして定義することと、前記抽出された公開済み関連情報片の全てのうちで前記カテゴリに属する公開済み関連情報片の前記数を、第2のパラメータとして定義することと、前記第2のパラメータと前記第1のパラメータとの間の比を決定することと、前記カテゴリの前記決定された重みとこの比との積を、カテゴリの前記重みとして再定義することと、のためにさらに用いられる、請求項11に記載の装置。
- 前記カテゴリ決定モジュールが、カテゴリ決定ユニットであって、各々のカテゴリに対して、等式
- 実行可能な命令を記憶する1つ以上の記憶媒体であって、前記命令は、1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサに対して、
現行ページの一次情報に対して用語区分化を実行して、前記現行ページから少なくとも1つの特徴用語を抽出することと、
前記抽出された特徴用語が、前記現行ページに出現する回数を決定することと、
前記特徴用語が前記現行ページに出現する前記決定された回数と、設定されたカテゴリモデルとに基づいて、前記現行ページのカテゴリを決定することと、
前記決定されたカテゴリに属する関連情報を、前記現行ページ中に公開することと、
を含む行為を実施させる、1つ以上の記憶媒体。 - 前記現行ページの前記一次情報に対して用語区分化を実施することが、
前記現行ページの前記一次情報を、副情報の様々な領域に分割することと、
前記分割された副情報領域を個別に区分化することと、
を含む、
請求項15に記載の1つ以上の記憶媒体。 - 前記抽出された特徴用語が前記現行ページに出現する前記回数を決定することが、
抽出された前記少なくとも1つの特徴用語に対して、次のこと:
前記特徴用語が副情報の前記分割された領域に出現する回数を決定することと、
前記特徴用語が副情報の前記分割された領域に出現する前記回数と、前記領域副情報に対して設定された重みとの積を決定することと、
副情報の前記分割された領域の積の和を、前記特徴用語が前記現行ページに出現する前記回数として定義することと、を実施すること、
を含む、請求項16に記載の1つ以上の記憶媒体。 - 前記設定されたカテゴリモデルが、
設定された数を超える回数に対して設定された時間期間内にクリックされた全ての公開済み関連情報を抽出することと、
前記公開済み関連情報に対して、前記公開済み関連情報のカテゴリを個々に決定することと、
各々の異なるカテゴリに対して、次のこと:
抽出された前記カテゴリの公開済み関連情報から、第1の設定数の公開済み関連情報を選択することと、
前記選択された第1の設定数の公開済み関連情報片に対して、公開済み関連情報に用語区分化を実施することと、
選択された前記公開済み関連情報から少なくとも1つの特徴用語を抽出することと、
前記選択された第1の設定数の公開済み関連情報から抽出された全ての特徴用語に対して、等式
Sigma_k=ΣjWkj(式中、Sigma_kが前記カテゴリの重みである)を用いて前記カテゴリの前記重みを決定することと、
様々なカテゴリの各々のカテゴリの前記決定された重みと、前記選択された第1の設定数の前記カテゴリの公開済み関連情報から抽出された全ての特徴用語のうちの前記特徴用語の前記決定された重みとを前記設定されたカテゴリモデルとして定義することと、
を実施することと、を含む、請求項15に記載の1つ以上の記憶媒体。 - 前記カテゴリ中の前記特徴用語の前記重みを決定することの後で、前記行為が、
各々のカテゴリに対して、前記選択された第1の設定数の前記カテゴリの公開済み関連情報内の前記特徴用語を含む公開済み関連情報片の数を個別に決定することと、
各々のカテゴリに対して前記決定された数の和を決定することと、
前記カテゴリ中の前記特徴用語の重みを、前記カテゴリ中の前記特徴用語の前記重みと前記和の逆数との積として再定義することと、
をさらに含む、請求項15に記載の1つ以上の記憶媒体。 - 前記カテゴリの前記重みを決定することの後で、前記行為が、
設定された時間期間内に、事前設定された数を超える回数クリックされた全ての抽出された公開済み関連情報片の数を、第1のパラメータとして定義することと、
前記抽出された公開済み関連情報片の全てのうちで前記カテゴリに属する公開済み関連情報片の前記数を、第2のパラメータとして定義することと、
前記第2のパラメータと前記第1のパラメータとの間の比を決定することと、
前記カテゴリの前記決定された重みとこの比との積を、カテゴリの前記重みとして再定義することと、
をさらに含む、請求項15に記載の1つ以上の記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012100784397A CN103324633A (zh) | 2012-03-22 | 2012-03-22 | 一种信息发布方法及装置 |
CN201210078439.7 | 2012-03-22 | ||
PCT/US2013/033376 WO2013142732A2 (en) | 2012-03-22 | 2013-03-21 | Method and apparatus of publishing information |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015511051A true JP2015511051A (ja) | 2015-04-13 |
Family
ID=48579461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015501918A Pending JP2015511051A (ja) | 2012-03-22 | 2013-03-21 | 情報を公開する方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20130254204A1 (ja) |
EP (1) | EP2828771A4 (ja) |
JP (1) | JP2015511051A (ja) |
CN (1) | CN103324633A (ja) |
TW (1) | TW201339859A (ja) |
WO (1) | WO2013142732A2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105843617B (zh) * | 2016-03-23 | 2018-11-13 | 深圳市茁壮网络股份有限公司 | 一种2d特效绘制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262506A (ja) * | 2007-04-13 | 2008-10-30 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
JP2009266204A (ja) * | 2008-04-01 | 2009-11-12 | Yahoo Japan Corp | コンテンツデータをカテゴリに分類する方法、サーバ、およびプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000058863A1 (en) * | 1999-03-31 | 2000-10-05 | Verizon Laboratories Inc. | Techniques for performing a data query in a computer system |
US7003736B2 (en) * | 2001-01-26 | 2006-02-21 | International Business Machines Corporation | Iconic representation of content |
US7577654B2 (en) * | 2003-07-25 | 2009-08-18 | Palo Alto Research Center Incorporated | Systems and methods for new event detection |
US7668889B2 (en) * | 2004-10-27 | 2010-02-23 | At&T Intellectual Property I, Lp | Method and system to combine keyword and natural language search results |
GB2442286A (en) * | 2006-09-07 | 2008-04-02 | Fujin Technology Plc | Categorisation of data e.g. web pages using a model |
CN101266671A (zh) * | 2007-03-13 | 2008-09-17 | 李凤仙 | 一种网络广告竞价方法及系统 |
WO2008126790A1 (ja) * | 2007-04-09 | 2008-10-23 | Nec Corporation | 物体認識システム、物体認識方法および物体認識用プログラム |
US8671112B2 (en) * | 2008-06-12 | 2014-03-11 | Athenahealth, Inc. | Methods and apparatus for automated image classification |
CN101291304B (zh) * | 2008-06-13 | 2011-02-02 | 清华大学 | 可移植的网络信息共享方法 |
EP2304676A1 (en) * | 2008-06-23 | 2011-04-06 | Double Verify Inc. | Automated monitoring and verification of internet based advertising |
US8176069B2 (en) * | 2009-06-01 | 2012-05-08 | Aol Inc. | Systems and methods for improved web searching |
WO2011159408A1 (en) * | 2010-06-18 | 2011-12-22 | Track180, Inc. | Information display |
-
2012
- 2012-03-22 CN CN2012100784397A patent/CN103324633A/zh active Pending
- 2012-05-17 TW TW101117558A patent/TW201339859A/zh unknown
-
2013
- 2013-03-21 WO PCT/US2013/033376 patent/WO2013142732A2/en active Application Filing
- 2013-03-21 JP JP2015501918A patent/JP2015511051A/ja active Pending
- 2013-03-21 EP EP13728014.5A patent/EP2828771A4/en not_active Withdrawn
- 2013-03-21 US US13/848,671 patent/US20130254204A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262506A (ja) * | 2007-04-13 | 2008-10-30 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
JP2009266204A (ja) * | 2008-04-01 | 2009-11-12 | Yahoo Japan Corp | コンテンツデータをカテゴリに分類する方法、サーバ、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP2828771A4 (en) | 2015-12-02 |
WO2013142732A3 (en) | 2014-01-09 |
US20130254204A1 (en) | 2013-09-26 |
EP2828771A2 (en) | 2015-01-28 |
CN103324633A (zh) | 2013-09-25 |
WO2013142732A2 (en) | 2013-09-26 |
TW201339859A (zh) | 2013-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121795B (zh) | 用户行为预测方法及装置 | |
CN108287864B (zh) | 一种兴趣群组划分方法、装置、介质及计算设备 | |
CN109960810A (zh) | 一种实体对齐方法及装置 | |
CN110472154B (zh) | 一种资源推送方法、装置、电子设备及可读存储介质 | |
US20180336580A1 (en) | Evaluation device, evaluation method, and storage medium | |
TW201734893A (zh) | 信用分的獲取、特徵向量值的輸出方法及其裝置 | |
WO2019062081A1 (zh) | 业务员画像形成方法、电子装置及计算机可读存储介质 | |
TWI673617B (zh) | 使用者背景資訊的收集方法及裝置 | |
CN112860841A (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN106776609A (zh) | 网站转载数量的统计方法及装置 | |
CN106897282B (zh) | 一种用户群的分类方法和设备 | |
US20190171745A1 (en) | Open ended question identification for investigations | |
CN111652238B (zh) | 一种多模型集成方法及系统 | |
CN112417267A (zh) | 一种用户行为分析方法、装置、计算机设备及存储介质 | |
CN109241438B (zh) | 基于要素的跨通道热点事件发现方法、装置及存储介质 | |
JP2015511051A (ja) | 情報を公開する方法および装置 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
CN106971306B (zh) | 产品问题的识别方法及系统 | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
CN110309312B (zh) | 一种关联事件获取方法及装置 | |
CN115203496A (zh) | 基于大数据的项目智能预测及评估方法、系统及可读存储介质 | |
CN113128184A (zh) | 针对多人协同编辑文档的文档内容筛选方法及装置 | |
CN112417068A (zh) | 下单地址的推荐方法及系统、电子设备 | |
CN104657397B (zh) | 一种信息处理方法及终端 | |
CN109727077A (zh) | 用户未来画像生成方法、计算机存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161206 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180123 |