JP4940399B2 - Advertisement distribution apparatus and program - Google Patents
Advertisement distribution apparatus and program Download PDFInfo
- Publication number
- JP4940399B2 JP4940399B2 JP2006278851A JP2006278851A JP4940399B2 JP 4940399 B2 JP4940399 B2 JP 4940399B2 JP 2006278851 A JP2006278851 A JP 2006278851A JP 2006278851 A JP2006278851 A JP 2006278851A JP 4940399 B2 JP4940399 B2 JP 4940399B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- web page
- advertisement
- unit
- advertisement information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 claims description 37
- 230000005540 biological transmission Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 18
- 238000007726 management method Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 11
- 238000000034 method Methods 0.000 description 36
- 239000000470 constituent Substances 0.000 description 34
- 238000004364 calculation method Methods 0.000 description 25
- 238000000354 decomposition reaction Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000000877 morphologic effect Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 8
- 208000001613 Gambling Diseases 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- TUBQDCKAWGHZPF-UHFFFAOYSA-N 1,3-benzothiazol-2-ylsulfanylmethyl thiocyanate Chemical compound C1=CC=C2SC(SCSC#N)=NC2=C1 TUBQDCKAWGHZPF-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 241000556720 Manga Species 0.000 description 1
- 210000000085 cashmere Anatomy 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、ネットワーク上で提供されるウェブページに対して、ウェブページの内容に関連する広告を配信する技術に関する。 The present invention relates to a technique for distributing an advertisement related to the content of a web page to a web page provided on a network.
近年、インターネットを介して閲覧されるウェブページに広告を表示することが広く行われている。従来、インターネット上で広告を配信する手法として、コンテンツマッチング技術が知られている。この技術では、広告主が自身の広告のキーワードを指定しておき、そのキーワードに合致するウェブサイトに広告が配信される(例えば、特許文献1を参照)。
しかし、コンテンツマッチングによる広告配信では、ウェブページのキーワードのみを参照するため、ある商品について否定的なコメントを述べているようなウェブページにその商品の広告が配信されたり、または、キーワードとしての言葉は同一であっても、広告の対象となる物品やサービスが全く別のものについて述べているウェブページに広告が配信されるようなことが起こりえる。 However, in the content matching advertisement distribution, only the keyword of the web page is referred to, so the advertisement of the product is distributed to a web page that makes a negative comment about a certain product, or the word as a keyword May be delivered to a web page that describes a completely different article or service to be advertised.
本発明はこうした状況に鑑みてなされたものであり、その目的は、ウェブページの内容や文脈に即した適切な広告の配信を可能にする技術を提供することにある。 The present invention has been made in view of such circumstances, and an object of the present invention is to provide a technique that enables distribution of an appropriate advertisement in accordance with the content and context of a web page.
本発明のある態様は、ネットワーク上で提供される媒体ウェブページのテキスト情報に基づいて、前もって設定されている複数のカテゴリの中から媒体ウェブページが分類されるべきカテゴリを決定し、配信先となるウェブページのカテゴリを指定した広告情報の中から媒体ウェブページのカテゴリと一致する広告情報を選択し、媒体ウェブページとともに広告情報を表示させるために媒体ウェブページを閲覧する端末に対して広告情報を送信する広告配信装置である。 An aspect of the present invention determines a category in which a media web page should be classified from a plurality of categories set in advance based on text information of the media web page provided on a network, Advertising information that matches the category of the medium web page from the advertisement information that specifies the category of the web page to be displayed and displays the advertisement information together with the medium web page to the terminal that browses the medium web page Is an advertisement distribution device that transmits.
ここで、「媒体ウェブページ」とは、広告情報の配信先となるウェブページのことをいう。「カテゴリ」とは、ウェブページを特定の基準にしたがって分類するためのグループ分けのことをいう。「広告情報」には、単に特定の商品やサービスの広告のテキストのみの情報、特定の商品やサービスを提供するサイトへのリンク情報、特定の商品やサービスの画像、動画、または音声、およびこれらの複数を組み合わせたもののいずれも含まれる。 Here, “medium web page” refers to a web page to which advertisement information is distributed. “Category” refers to grouping for classifying web pages according to specific criteria. “Advertisement information” includes simply textual information about ads for specific products and services, link information to sites that offer specific products and services, images, videos, or sounds of specific products and services, and these Any combination of a plurality of these is included.
この態様によると、媒体ウェブページのカテゴリと合致するカテゴリが広告主によって指定されている広告情報が選択されて、媒体ウェブページとともに表示されるので、媒体ウェブページの内容や文脈に即した内容の広告を配信することができる。 According to this aspect, since the advertisement information in which the category that matches the category of the media web page is specified by the advertiser is selected and displayed together with the media web page, the content in accordance with the content and context of the media web page is displayed. Advertising can be delivered.
本発明の別の態様もまた、広告配信装置である。この装置は、ネットワーク上で提供される媒体ウェブページに広告を表示させる装置であって、広告の配信先となる媒体ウェブページのカテゴリ条件を指定するカテゴリ指定情報と関連付けて広告情報を保持する広告情報保持部と、ネットワークを介して媒体ウェブページを取得し、該媒体ウェブページのテキスト情報に基づいて、前もって設定されている複数のカテゴリの中から該媒体ウェブページが分類されるべきカテゴリを決定するページ解析部と、ページ解析部により決定された媒体ウェブページのカテゴリがカテゴリ条件を満たしている広告情報を広告情報保持部から選択するマッチング部と、ネットワークに接続された端末で媒体ウェブページが閲覧されるとき、その端末に対してマッチング部で選択された広告情報を媒体ウェブページとともに表示させる形態で送信する広告送信部と、を備える。 Another aspect of the present invention is also an advertisement distribution device. This device displays an advertisement on a medium web page provided on a network, and holds advertisement information in association with category designation information that designates a category condition of the medium web page to which the advertisement is distributed. A media web page is acquired via an information holding unit and a network, and a category in which the media web page is to be classified is determined from a plurality of categories set in advance based on text information of the media web page. A page analysis unit, a matching unit that selects from the advertisement information holding unit advertisement information whose category of the media web page determined by the page analysis unit satisfies the category condition, and a media web page on a terminal connected to the network. When viewed, the advertisement information selected by the matching unit for the terminal Comprising an advertisement transmitting section for transmitting a form to be displayed with the page, the.
この態様によると、媒体ウェブページのテキスト情報に基づいて分類されるべきカテゴリが決定され、このカテゴリが、予め広告情報に関連付けて設定されているカテゴリ条件を満足する広告情報が選択されて配信されるので、前もって媒体ウェブページのカテゴリの申告や分類をさせることなく、媒体ウェブページの内容や文脈に即した内容の広告を配信することができる。 According to this aspect, the category to be classified is determined based on the text information of the medium web page, and the advertisement information that satisfies the category condition set in advance in association with the advertisement information is selected and distributed. Therefore, it is possible to distribute advertisements with contents that match the contents and context of the medium web page without having to report and classify the category of the medium web page in advance.
広告情報保持部は、前もって設定されている複数のカテゴリ毎に、そのカテゴリに分類される媒体ウェブページに広告を表示するか否かを指定するカテゴリ指定情報と関連付けて広告情報を保持してもよい。これによると、媒体ウェブページのカテゴリ毎に、広告主が自身の広告情報を表示させるか否かを個別に設定することができる。 The advertisement information holding unit holds advertisement information in association with category designation information for designating whether or not to display an advertisement on a medium web page classified into the category for each of a plurality of preset categories. Good. According to this, it is possible to individually set whether or not the advertiser displays his / her advertisement information for each category of the medium web page.
ページ解析部は、前もって設定されている複数のカテゴリに媒体ウェブページが帰属する確率を表す帰属確率をカテゴリ毎に計算する文章分類部をさらに備えてもよい。広告情報保持部は、広告の配信先となる媒体ウェブページの帰属確率の下限値をカテゴリ毎に指定するカテゴリ指定情報と関連付けて広告情報を保持し、マッチング部は、媒体ウェブページの帰属確率と広告情報に関連する帰属確率の下限値とを比較して、媒体ウェブページの帰属確率が下限値以上であるとき、対応する広告情報を広告情報保持部から選択してもよい。 The page analysis unit may further include a sentence classification unit that calculates an attribution probability representing a probability that the medium web page belongs to a plurality of preset categories. The advertisement information holding unit holds the advertisement information in association with the category designation information for each category specifying the lower limit of the attribution probability of the medium web page to which the advertisement is distributed, and the matching unit When the attribution probability of the medium web page is equal to or higher than the lower limit value by comparing with the lower limit value of the attribution probability related to the advertisement information, the corresponding advertisement information may be selected from the advertisement information holding unit.
「帰属確率」とは、ウェブページがあるカテゴリに分類されるべき確率のことであり、カテゴリ毎に算出することができる。これによると、カテゴリ毎に帰属確率の下限値を指定することで、複数のカテゴリにまたがるような内容の媒体ウェブページを広告の配信先として選別することが可能になる。 “Attribution probability” is a probability that a web page should be classified into a certain category, and can be calculated for each category. According to this, by specifying the lower limit value of the attribution probability for each category, it becomes possible to select medium web pages having contents that span a plurality of categories as advertisement distribution destinations.
広告情報保持部は、広告の送信を回避すべき非表示カテゴリを指定するカテゴリ指定情報と関連付けて広告情報を保持し、広告送信部は、非表示カテゴリに分類される媒体ウェブページへの広告情報の送信を拒否してもよい。これによると、広告主は、文章分類部によって算出される帰属確率にかかわらず、広告を表示させたくない媒体ウェブページのカテゴリを個別に指定することができる。 The advertisement information holding unit holds the advertisement information in association with the category designation information for designating the non-display category that should avoid the transmission of the advertisement. May be refused. According to this, the advertiser can individually specify the category of the medium web page that the advertisement is not desired to be displayed regardless of the attribution probability calculated by the sentence classification unit.
広告送信部から送信された広告情報を媒体ウェブページに表示させるためのスクリプトプログラムを媒体ウェブページに記述させるために、該スクリプトプログラムを媒体ウェブページの管理者の端末に送信するページ管理部をさらに備えてもよい。スクリプトプログラムは、ネットワークに接続された端末で媒体ウェブページが閲覧されたとき、該媒体ウェブページの情報をページ解析部に送信する機能を有してもよい。ページ解析部は、スクリプトプログラムから送信された情報にしたがって媒体ウェブページを取得してもよい。これによると、媒体ウェブページが閲覧されたときに初めて、そのウェブページが広告配信装置によって取得され、その後ページ解析部によって媒体ウェブページのカテゴリ分類が実行される。したがって、広告配信装置は前もって媒体ウェブページをクロールしておく必要がなく、広告配信装置の処理負荷を抑えることができる。 A page management unit for transmitting the script program to the administrator's terminal of the medium web page in order to describe the script program for displaying the advertisement information transmitted from the advertisement transmission unit on the medium web page. You may prepare. The script program may have a function of transmitting information on the medium web page to the page analysis unit when the medium web page is viewed on a terminal connected to the network. The page analysis unit may acquire the medium web page according to information transmitted from the script program. According to this, for the first time when the medium web page is browsed, the web page is acquired by the advertisement distribution device, and then the category analysis of the medium web page is executed by the page analysis unit. Therefore, the advertisement distribution apparatus does not need to crawl the medium web page in advance, and the processing load on the advertisement distribution apparatus can be suppressed.
広告情報保持部は、広告の配信先となる媒体ウェブページのキーワードを指定する配信先キーワードに関連付けて広告情報を保持し、ページ解析部は、媒体ウェブページからキーワード集合を抽出するキーワード抽出部をさらに備えてもよい。マッチング部は、媒体ウェブページのキーワード集合に含まれる配信先キーワードが指定された広告情報を広告情報保持部から選択し、その後、選択された広告情報の中からウェブページのカテゴリがカテゴリ条件を満足している広告情報を選択してもよい。これによると、広告情報の表示先についてキーワードとカテゴリの両方を指定させ、両方の条件を満足する媒体ウェブページに対してのみ広告情報が表示されるので、広告主は、広告配信先の媒体ウェブページの内容をさらに細かく指定することができる。 The advertisement information holding unit holds the advertisement information in association with the distribution destination keyword that specifies the keyword of the medium web page that is the distribution destination of the advertisement. The page analysis unit includes a keyword extraction unit that extracts a keyword set from the medium web page. Further, it may be provided. The matching unit selects, from the advertisement information holding unit, the advertisement information in which the delivery destination keyword included in the keyword set of the medium web page is specified, and then the category of the web page satisfies the category condition from the selected advertisement information. You may select the advertising information you are doing. According to this, both the keyword and the category are specified as the display destination of the advertisement information, and the advertisement information is displayed only for the medium web page that satisfies both conditions. The contents of the page can be specified in more detail.
本発明のさらに別の態様もまた、広告配信装置である。この装置は、ネットワーク上で提供される媒体ウェブページに広告を表示させる装置であって、広告の配信先となる媒体ウェブページのカテゴリ条件を指定するカテゴリ指定情報と関連付けて広告情報を保持する広告情報保持部と、広告情報の配信先となる媒体ウェブページが分類されるカテゴリを受け取り、該カテゴリがカテゴリ条件を満たしている広告情報を広告情報保持部から選択するマッチング部と、ネットワークに接続された端末で媒体ウェブページが閲覧されるとき、その端末に対してマッチング部で選択された広告情報を媒体ウェブページとともに表示させる形態で送信する広告送信部と、を備える。 Yet another embodiment of the present invention is also an advertisement distribution device. This device displays an advertisement on a medium web page provided on a network, and holds advertisement information in association with category designation information that designates a category condition of the medium web page to which the advertisement is distributed. Connected to the network, an information holding unit, a matching unit that receives a category into which the media web page to which the advertisement information is distributed is classified, and selects the advertisement information for which the category satisfies the category condition from the advertisement information holding unit An advertisement transmission unit that transmits the advertisement information selected by the matching unit together with the medium web page when the medium web page is browsed on the terminal.
なお、以上の構成要素の任意の組合せ、本発明を方法、装置、システム、記録媒体、コンピュータプログラムにより表現したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described components and a representation of the present invention by a method, apparatus, system, recording medium, and computer program are also effective as an aspect of the present invention.
本発明によれば、媒体ウェブページのカテゴリを決定し、カテゴリについての条件が合致する広告情報が選択されて媒体ウェブページとともに表示されるので、媒体ウェブページの内容や文脈に即した内容の広告を配信することができる。 According to the present invention, the category of the media web page is determined, and the advertisement information that matches the category condition is selected and displayed together with the media web page. Can be delivered.
本発明の一実施形態は、ネットワーク上で提供されているブログを初めとするウェブページに広告を配信する広告配信装置である。 One embodiment of the present invention is an advertisement distribution apparatus that distributes advertisements to web pages such as blogs provided on a network.
図1は、本実施の形態に係る広告配信装置210の使用形態の一例を示す。広告配信装置210は、ネットワーク208を介して一般ユーザ端末206、広告主端末202、およびページ管理者端末204と接続される。広告主端末202は、ウェブページに対して広告の配信を希望する広告主が操作する端末であり、ページ管理者端末204は、自身が管理するウェブページに対する広告情報の配信を許可するウェブページ管理者が操作する端末である。本明細書では、広告情報の配信対象となるウェブページを、特に「媒体ウェブページ」と呼ぶことにする。一般ユーザ端末206は、広告主端末202およびページ管理者端末204以外の、媒体ウェブページを閲覧するユーザが使用する端末である。
FIG. 1 shows an example of a usage pattern of an
本実施形態における「広告情報」は、広告主サイトのURL(Uniform Resource Locator)と関連付けされた状態で媒体ウェブページに表示され、その広告を一般ユーザが選択することで、広告主のサイトに一般ユーザを誘う役割を有するものをいう。好ましくは、広告情報はクリック可能なかたちで表示されるテキスト、画像、または動画である。しかしながら、一般ユーザを広告主のサイトへと誘う方法はこれらに限定されず、単に広告情報とともに広告主のURLを表示したり、広告主のメールアドレスを宛先にしたメーラが起動されたりしてもよい。また、広告情報をクリックしたとき、プロキシサーバを経由して広告主のサイトに接続されてもよい。 The “advertising information” in the present embodiment is displayed on the medium web page in a state associated with the URL (Uniform Resource Locator) of the advertiser site, and when the general user selects the advertisement, it is generally displayed on the advertiser site. It has a role to invite users. Preferably, the advertisement information is text, an image, or a moving image displayed in a clickable form. However, the method of inviting general users to the advertiser's site is not limited to these. Even if the advertiser's URL is displayed together with the advertisement information, or a mailer addressed to the advertiser's email address is activated. Good. Further, when the advertisement information is clicked, it may be connected to the advertiser's site via a proxy server.
ページ管理者は、自身の端末204を操作して、作成したウェブページ214をプロバイダサーバ212のデータベースに保存する。プロバイダサーバ212は、媒体ウェブページにアクセスする一般ユーザ端末206からURLを指定してウェブページ214の要求がくると、そのURLに対応するウェブページ214を選択して一般ユーザ端末206に対して送信する。一般ユーザ端末206のブラウザは、ウェブページ214を解釈してディスプレイに表示する。
The page manager operates his / her
広告配信装置210は、予め登録されている広告情報をいずれの媒体ウェブページに配信するかを決定する。また、広告配信装置210は、各広告情報が媒体ページに表示された回数や、広告がクリックされて広告主のサイトが表示された回数などを集計してもよい。
The
広告配信装置210は、文章分類部100を備える。文章分類部100は、URLで指定される媒体ウェブページを取得して、その媒体ウェブページを予め設定してある複数のカテゴリのいずれかに分類する。
The
広告主は、広告情報の配信先としたい媒体ウェブページのキーワードを指定する配信先キーワードと、配信先としたい媒体ウェブページのカテゴリを指定するカテゴリ条件とを指定しておく。広告主が指定する配信先キーワードは、一語でもよいし複数語でもよい。広告配信装置210は、予め広告の配信を希望する旨の登録がなされた媒体ウェブページについて、媒体ウェブページに含まれるキーワードの集合と媒体ウェブページのカテゴリとを決定する。広告配信装置210は、文章分類部100が決定した媒体ウェブページのキーワード集合およびカテゴリと、広告情報について指定されている配信先キーワードおよびカテゴリ条件を比較する。そして、広告配信装置210は、媒体ウェブページに含まれるキーワード集合が広告主の指定した配信先キーワードを含み、かつ媒体ウェブページのカテゴリが広告主の指定したカテゴリ条件を満足する場合に、対応する広告情報を一般ユーザ端末206に対して送信する。
The advertiser designates a delivery destination keyword that specifies a keyword of a medium web page that is desired as a delivery destination of advertisement information, and a category condition that designates a category of the media web page that is desired as a delivery destination. The delivery destination keyword designated by the advertiser may be one word or a plurality of words. The
以下では、まず媒体ウェブページが分類されるべきカテゴリを決定する文章分類部100の機能および構成について詳細に説明する。その後、本実施形態にかかる広告配信装置210について説明する。
Hereinafter, the function and configuration of the
1.文章分類部
図2は、文章分類部100の機能ブロック図である。文章分類部100は、文例格納部12、文章分解部18、ソート部20、分類辞書作成部22、分類辞書保持部24、カテゴリ帰属確率計算部26、判定部28、要素絞り込み基準提供部30、判定結果格納部32および文章受付部36を備える。これらの構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
1. Sentence Classification Unit FIG. 2 is a functional block diagram of the
文章分類部100に含まれる機能ブロックは、辞書データを作成する学習段階に使用される機能ブロックと、辞書データの作成後に当該辞書データを使用して未分類の文章データを分類する分類段階に使用される機能ブロックとに分けることができる。まず、学習段階に使用される機能ブロックについて説明する。
The functional blocks included in the
文例格納部12は、予め定められた複数のカテゴリそれぞれについて、そのカテゴリに分類されるべき文章データを含むカテゴリ文例14と、そのカテゴリに分類されない文章データを含む非カテゴリ文例16とを格納する。ここで「カテゴリ」とは、文章データを特定の基準にしたがって分類するためのグループ分けのことをいう。このカテゴリは、文章の分類結果の使用目的に応じて、多様に設定することができる。例えば、文章分類部100による分類結果をニュース記事配信サイトで使用する場合は、「政治」「経済」「社会」「スポーツ」のようなカテゴリの種類が考えられる。文章分類部100による分類結果をディレクトリ型の検索サイトで提供する場合は、「ショッピング」「旅行」「映画」「音楽」のようなカテゴリの種類が考えられる。文章分類部100により、クライアント端末から送信されてくるアンケートなどを分類する場合は、「女性」「若年層」のようなカテゴリの種類が考えられる。
The sentence
また、「文章データ」とは、テキストデータ、HTML、XML、XHTMLファイルなどのテキスト情報を含んだデータを指すが、そのデータ形式は限定されない。 “Text data” refers to data including text information such as text data, HTML, XML, and XHTML files, but the data format is not limited.
M個のカテゴリ(カテゴリ1、・・・、カテゴリM)が規定されるとすると、各カテゴリ毎にカテゴリ文例14と非カテゴリ文例16が文例格納部12内に準備される。カテゴリ文例は、あるカテゴリに分類されるべきひとつまたは複数の文章データを蓄積したファイルである。非カテゴリ文例データは、あるカテゴリに分類されないひとつまたは複数の文章データを蓄積したファイルである。文章データがいずれのカテゴリ文例または非カテゴリ文例に含まれるかの判断は、人手を介して行われる。また、カテゴリ文例と非カテゴリ文例は、各カテゴリについて一対ずつ準備される。
Assuming that M categories (category 1,..., Category M) are defined, a category sentence example 14 and a non-category sentence example 16 are prepared in the sentence
あるカテゴリについての非カテゴリ文例に含まれる文章データは、他のカテゴリについての非カテゴリ文例に含まれる文章データと異なっていてもよいし、同一であってもよい。つまり、「非カテゴリ1文例」内の文章データと「非カテゴリ2文例」内の文章データとが重複していてもよい。カテゴリ文例についても同様であり、例えば、「カテゴリ1文例」と「カテゴリ2文例」の両方に分類される文章データが存在してもよい。ただし、同一カテゴリ内で、カテゴリ文例と非カテゴリ文例の両方に分類される文章データは存在しないことが望ましい。
Text data included in a non-category sentence example for a certain category may be different from or identical to sentence data included in a non-category sentence example for another category. That is, the sentence data in the “non-category 1 sentence example” and the sentence data in the “non-category 2 sentence example” may overlap. The same applies to category sentence examples. For example, sentence data classified into both “category 1 sentence example” and “
文章分解部18は、上述したカテゴリ文例14および非カテゴリ文例16に含まれる文章データを所定の規則にしたがって解析し、文章の構成要素を抽出する。文章分解部18は、既知の文章分解アルゴリズムのうち任意のものを使用することができる。文章分解部18は、文章分解アルゴリズムに応じて、単語、単語と品詞の組合せ、文節、単文などを構成要素として文章データから抽出する。文章分解部18で使用される文章分解アルゴリズムの例については、後述する。
The
ソート部20は、文章分解部18によりカテゴリ文例14、非カテゴリ文例16の文章データから抽出された構成要素を、所定の規則にしたがって並べ替える。一例として、構成要素の読みを50音順に並べ替えてもよい。または、構成要素の最初の一文字のASCIIコード順に並べ替えてもよい。文章分解部18が単語と品詞の組合せを構成要素として抽出した場合は、構成要素の品詞順に配列してもよい。ソート部20によって構成要素を並べ替えることによって、後述する構成要素をキーとした辞書データの検索が容易になるため、分類辞書の作成に要する時間を短縮できる。
The sorting
分類辞書作成部22は、文章分解部18により抽出された各構成要素が、各カテゴリについてのカテゴリ文例14および非カテゴリ文例16内の文章データに出現する頻度を算出し、構成要素と各カテゴリについての出現頻度とを関連付けた辞書データを作成する。ここでいう「頻度」は、単なる出現の回数でもよいし、全単語数に対する出現の比率で表してもよい。あるいは、カテゴリ文例または非カテゴリ文例に含まれる文章データ数に対する出現比率でもよい。以下では、これらを合わせて「出現頻度」と呼ぶ。いずれにしても、ある構成要素がひとつのカテゴリについてのカテゴリ文例と非カテゴリ文例に出現する度合いを表現する数値であれば、任意のものを採用できる。
分類辞書作成部22により作成された辞書データは、分類辞書保持部24に格納される。分類辞書作成部22のさらに詳細な構成および機能については、図4を参照して後述する。
The classification
The dictionary data created by the classification
要素絞り込み基準提供部30には、文章分解部18により抽出された構成要素から一部の構成要素を除外するための選択基準が格納されている。この選択基準は、例えば特定の品詞(例えば、名詞+動詞、名詞のみ、助詞のみなど)を指定したり、文字数の上限を指定したり、平仮名のみ、または漢字のみからなる構成要素を指定する条件のことをいう。複数の条件を組み合わせて選択基準としてもよい。
The element narrowing
分類辞書作成部22は、要素絞り込み基準提供部30から提供される選択基準を利用して、辞書データの作成対象となる構成要素数を絞り込むことによって、分類辞書保持部24に格納される辞書データのデータ量を抑制しつつ、分類に有効な辞書データを作成することができる。
本実施の形態の文章分類部100は、分類すべき文章データの言語を限定しないが、この要素絞り込み基準提供部30は、日本語の文章データの処理時には特に有用となる。
The classification
The
続いて、分類段階に使用される機能ブロックについて説明する。 Subsequently, functional blocks used in the classification stage will be described.
文章受付部36は、分類対象となる文章データ34(以下、「未分類文章データ34」と呼ぶ)を図示しない外部装置から受信する。未分類文章データ34は、上述と同様にデータ形式に制限はない。外部装置は、例えばネットワークに接続されたクライアント端末やサーバであるが、これらに限定されない。
The
文章分解部18は、文章受付部36から未分類文章データ34を受け取り、上述したのと同様にして、文章の構成要素を抽出する。抽出された構成要素は、ソート部20によって所定の規則にしたがって並べ替えられる。この規則は、カテゴリ文例および非カテゴリ文例から抽出された構成要素を並べ替えたのと同様の規則であることが好ましい。この並べ替えによって、構成要素をキーとした分類辞書保持部24内の辞書データの検索が容易になるため、後述するカテゴリ帰属確率計算部26における処理が高速化される。
The
カテゴリ帰属確率計算部26は、分類辞書保持部24に格納された辞書データを参照して、いくつかの構成要素を含む未分類文章データがそれぞれのカテゴリに分類されるべき確率を、各カテゴリについて計算する。以下では、この確率のことを「帰属確率」と呼ぶ。
The category attribution
分類辞書作成部22と同様に、カテゴリ帰属確率計算部26は、要素絞り込み基準提供部30から提供される選択基準にしたがって、帰属確率を算出する基礎となる構成要素数を限定してもよい。
カテゴリ帰属確率計算部26のさらに詳細な構成および機能については、図7を参照して後述する。
Similar to the classification
A more detailed configuration and function of the category attribution
判定部28は、カテゴリ帰属確率計算部26により各カテゴリについて計算された帰属確率を取得し、帰属確率の値に基づいて未分類文章データをいずれかのカテゴリに分類するかを決定する。より具体的には、判定部28は、帰属確率が最大となったカテゴリに未分類文章データを分類する。あるいは、予め設定されているしきい値以上の帰属確率が得られたすべてのカテゴリに未分類文章データを分類してもよい。こうすることによって、一連の演算でひとつの未分類文章データを二つ以上のカテゴリに分類することができる。帰属確率がしきい値以上となったカテゴリが存在しない場合、判定部28は、未分類文章データをいずれのカテゴリにも分類されない文章と判定してもよいし、帰属確率が最大となったカテゴリに分類してもよい。判定部28による未分類文章データの判定結果は、判定結果格納部32に格納されるか、または図示しない外部装置に出力される。
The
次に、文章分解部18で使用される文章分解アルゴリズムの概要を説明する。
Next, an outline of the sentence decomposition algorithm used in the
(1)形態素解析
図3は、文章データを形態素解析によって構成要素に分解した例を示す。使用した文章データは、「気象庁は23日、関東地方で春一番が吹いたと発表した。」という文章である。図3に示すように、この文章は「気象庁/は/2/3/日/、/関東/地方/で/春一番/が/吹い/た/と/発表/し/た/。」のように、18の要素に分解される。形態素解析では、対象となる文章から、活用形50と、原形52と、品詞54を決定することができる。これら活用形、原形、品詞のうち、(原形+品詞)を構成要素としてもよいし、または、原形のみを要素としてもよい。原形の代わりに活用形を要素としてもよい。
(1) Morphological Analysis FIG. 3 shows an example in which sentence data is decomposed into constituent elements by morphological analysis. The text data used is the text "The Japan Meteorological Agency announced that the first spring in the Kanto region blew on the 23rd." As shown in FIG. 3, this sentence is “Meteorological Agency / Ha / 2/3 / Day /, / Kanto / Region / De / Spring Ichiban / Ga / Blow / Ta / To / Announcement / Shi / Ta /.” Thus, it is broken down into 18 elements. In the morphological analysis, the
形態素解析を使用して抽出された構成要素は文章の分解能が高いため、この構成要素を使用した辞書データに基づくカテゴリへの分類が高精度になると期待される。形態素解析は周知の技術であるため、これ以上の説明を省略する。 Since components extracted using morphological analysis have high sentence resolution, classification into categories based on dictionary data using these components is expected to be highly accurate. Since morphological analysis is a well-known technique, further explanation is omitted.
(2)構文解析
次に、構文解析について説明する。構文解析は、文章を文節に分解する。図3の例と同一の文章データを構文解析によって分解すると、「気象庁は/23日、/関東地方で/春一番が/吹いたと/発表した。」のように、6つの構成要素に分解される。
(2) Syntax analysis Next, syntax analysis will be described. Parsing breaks a sentence into phrases. When the same sentence data as in the example of FIG. 3 is decomposed by parsing, it is decomposed into six components as follows: “The Japan Meteorological Agency announced on / 23rd / In the Kanto region / Spring Ichiban / Announced”. Is done.
構文解析を使用すると、形態素解析と比べて構成要素数が大幅に減少するので、高速分類に適しているが、分類の精度は低下する。構文解析は周知の技術であるため、これ以上の説明を省略する。 When parsing is used, the number of components is significantly reduced compared to morphological analysis, which is suitable for high-speed classification, but the accuracy of classification is reduced. Since parsing is a well-known technique, further explanation is omitted.
(3)最小構成文
次に、形態素解析と構文解析を使用して文章から最小構成文を抽出する例を説明する。ここで「最小構成文」とは、最小限の意味をなす文のことであり、詳細は「模倣レポート判定に用いる文書間類似度の考案、太田貴久、増山繁、言語処理学会第10回年次大会発表論文集、pp.729-732、2004」に記載されている。
(3) Minimum Composition Sentence Next, an example of extracting a minimum construction sentence from a sentence using morphological analysis and syntax analysis will be described. Here, the “minimum component sentence” is a sentence that has a minimum meaning. For details, see “Invention of similarity between documents used for imitation report determination, Takahisa Ota, Shigeru Masuyama, 10th Annual Meeting of the Language Processing Society” Pp.729-732, 2004 ”, published in the next conference.
図3の例と同一の文章データから最小構成文を抽出すると、「気象庁は発表した。」「23日、発表した。」「関東地方で春一番が吹いたと発表した。」の3つの最小構成文が得られる。これら最小構成文を構成要素として辞書データを作成すると、文脈の中での単語の意味を捉えることができるため、複数の意味に捉えられる単語を含んだ文章を適切なカテゴリに分類するといった高度の分類が可能となるが、計算コストは高くなる。 Extracting the minimum sentence from the same text data as in the example of FIG. 3, “Ministry of Meteorological Agency announced.” “Announced on 23rd.” “Announced that the first spring in the Kanto region was blown.” A composition sentence is obtained. By creating dictionary data using these minimum constituent sentences as constituent elements, it is possible to capture the meaning of words in the context, so it is possible to classify sentences containing words that can be captured in multiple meanings into appropriate categories. Classification is possible, but the calculation cost is high.
なお、形態素解析の結果得られる品詞情報を利用して、名詞、形容詞、動詞の原形のみからなる最小構成文を抽出してもよい。上記と同一の例を使用すると、「気象庁・発表する」「23日・発表する」「関東地方・春一番・吹く・発表する」という3つの最小構成文が得られる。 Note that, by using the part-of-speech information obtained as a result of the morphological analysis, it is possible to extract the minimum constituent sentence consisting only of the noun, the adjective, and the verb form. Using the same example as above, three minimum composition sentences are obtained: “Meteorological Agency to announce”, “23 days to announce”, “Kanto region, spring first, blow, to announce”.
このように、文章分解部18において異なる文章分解アルゴリズムを使用して構成要素を抽出することで、分類辞書作成部22において異なる傾向を有する辞書データを作成することができる。したがって、カテゴリの種類などに合わせて適切な文章分解アルゴリズムを選択することで、分類の精度や処理速度を向上させることも可能である。
In this manner, by extracting the constituent elements using different sentence decomposition algorithms in the
図4は、分類辞書作成部22の詳細な機能ブロック図である。分類辞書作成部22は、構成要素受付部102、絞り込み情報受付部104、カテゴリ情報提供部106、構成要素選択部108、辞書データ検索部110および辞書データ更新部112を含む。
FIG. 4 is a detailed functional block diagram of the classification
構成要素受付部102は、ソート部20から所定の規則にしたがって並べ替えられた構成要素を受け取り、構成要素選択部108に渡す。カテゴリ情報提供部106は、構成要素受付部102で受け取られた構成要素が抽出されたカテゴリ文例および非カテゴリ文例の属するカテゴリについての情報を、要素絞り込み基準提供部30に伝える。絞り込み情報受付部104は、要素絞り込み基準提供部30から選択基準を受け取り、構成要素選択部108に渡す。構成要素選択部108は、選択基準と構成要素とを比較して、選択基準を満たす構成要素を選択して辞書データ検索部110に渡す。辞書データ検索部110は、分類辞書保持部24に保持されている辞書データの中から、選択基準を満たした構成要素と同一の構成要素についての辞書データがあるか検索し、対応する辞書データがある場合は、辞書データ更新部112に渡す。辞書データ更新部112は、選択基準を満たした各構成要素の数をカウントし、その数を辞書データに追加し、分類辞書保持部24に格納する。構成要素が新規であるときは、新たな辞書データを作成して分類辞書保持部24に格納する。
The
図5は、分類辞書保持部24に格納されている辞書データのデータ構造図である。辞書データ40においては、構成要素42と、その構成要素がカテゴリ1〜Mのカテゴリ文例および非カテゴリ文例に含まれる文章中に出現する出現頻度44とが関連付けされている。構成要素をWn(n=1〜N)、Wnがカテゴリm(m=1〜M)のカテゴリ文例または非カテゴリ文例に含まれる文章中の出現頻度をそれぞれXnm、Ynmと表記すると、ある構成要素Wnについての辞書データ46は、(Wn,Xn1,Yn1,Xn2,Yn2,・・・,Xnm,Ynm)と表すことができる。
FIG. 5 is a data structure diagram of dictionary data stored in the classification
この実施の形態では、各構成要素Wnについて、(カテゴリmのカテゴリ文例に含まれる文章中の出現頻度)と(カテゴリmの非カテゴリ文例に含まれる文章中の出現頻度)の二つの値をペアで保持している。これは、カテゴリ文例または非カテゴリ文例に新たな文章データを追加して分類辞書保持部24内の辞書データを拡充しようとした場合に、頻度情報の書き換えを容易にするためである。
別の実施の形態では、構成要素Wnの出現頻度を単一の値で保持してもよい。構成要素Wnのカテゴリmについての出現頻度をFnmと表記すると、Fnm=Xnm/Ynmとしてもよいし、Fnm=Xnm/(Xnm+Ynm)としてもよい。この場合、ある構成要素Wnについての辞書データ46は、(Wn,Fn1,Fn2,・・・,FnM)と表すことができる。
In this embodiment, for each component W n , two values of (appearance frequency in a sentence included in a category sentence example of category m) and (appearance frequency in a sentence included in a non-category sentence example of category m) are set. Hold in pairs. This is for facilitating rewriting of the frequency information when new sentence data is added to the category sentence example or the non-category sentence example and the dictionary data in the classification
In another embodiment, the appearance frequency of the component W n may be held as a single value. When the appearance frequency of the component W n with respect to the category m is expressed as F nm , F nm = X nm / Y nm may be set, or F nm = X nm / (X nm + Y nm ) may be set. In this case, the
図6は、要素絞り込み基準提供部30に格納されている選択基準のデータ構造図である。選択基準は、カテゴリ種類に対応して準備される。図6では、カテゴリ種類として、「テーマ分け」「文体」「年代」が含まれる。要素絞り込み基準提供部30は、構成要素を抽出したカテゴリ文例の情報をカテゴリ情報提供部106から受け取り、図中の左欄56に示す特定のカテゴリの場合には、右欄58の選択基準を返す。カテゴリ情報提供部106から受け取ったカテゴリが左欄56に存在しない場合は、標準的な「名詞」という選択基準を返す。
FIG. 6 is a data structure diagram of the selection criteria stored in the element narrowing
例えば、カテゴリ種類がテーマや話題の分類に関するもの、例えば「旅行」「音楽」「映画」などのカテゴリの場合は、「名詞」という基準を提供する。このようなテーマや話題の分類については、特定の名詞の存在がカテゴリ分類を決定付けることが多いからである。カテゴリの種類が文体に関するもの、例えば「フォーマル」「丁寧」「乱文」などのカテゴリの場合は、「形容詞または助詞」という基準を提供する。文体は、「てにをは」などの助詞や感情表現によって決定できる場合が多いからである。さらに、文章を作成した人の年代や性別に関するもの、例えば「女性」「若年層」などの場合は、「平仮名の名詞」という基準を提供する。このように、要素絞り込み基準提供部30は、辞書データの作成対象となる構成要素が、いずれのカテゴリ文例または非カテゴリ文例に含まれる文章データから抽出されたかに応じて、カテゴリ毎に異なる選択基準を提供することができる。分類辞書作成部22は、選択基準を参照して、辞書として準備される構成要素を絞り込んだ辞書データを作成することができる。
For example, if the category type is related to a theme or topic classification, for example, a category such as “travel”, “music”, or “movie”, the criterion “noun” is provided. This is because, for such themes and topic classifications, the presence of a specific noun often determines the category classification. When the category type is related to a style, for example, a category such as “formal”, “careful”, or “random”, a criterion of “adjective or particle” is provided. This is because the style can often be determined by a particle such as “Tenanoha” or emotional expression. Furthermore, for the age and gender of the person who created the text, for example “female” and “young people”, a criterion “noun of hiragana” is provided. In this way, the element refinement
要素絞り込み基準提供部30は、構成要素の品詞を選択基準として提供する代わりに、文字数を選択基準として提供してもよい。これによって、分類辞書作成部22は、一定字数以下の構成要素について辞書を作成することができる。あるいは、要素絞り込み基準提供部30は、選択基準として特定の構成要素(例えば、「自動車」という名詞)を提供してもよい。分類辞書作成部22は、それと一致する構成要素は辞書データの作成対象から除外するようにしてもよい。例えば、極めて多数の文章中で使用されるありふれた名詞(例えば、「私」「物」)などはカテゴリ分類に与える影響が少ないので、除外することが好ましい。
The element narrowing
図7は、カテゴリ帰属確率計算部26の詳細な機能ブロック図である。カテゴリ帰属確率計算部26は、構成要素受付部122、絞り込み情報受付部124、構成要素選択部126、辞書データ検索部128、出現確率算出部130および帰属確率算出部132を含む。
FIG. 7 is a detailed functional block diagram of the category
構成要素受付部122は、ソート部20から所定の規則にしたがって並べ替えられた構成要素を受け取る。絞り込み情報受付部124は、要素絞り込み基準提供部30から選択基準を受け取り、構成要素選択部126に渡す。構成要素選択部126は、選択基準と構成要素とを比較して、選択基準を満たす構成要素を選択して辞書データ検索部128に渡す。辞書データ検索部128は、分類辞書保持部24に保持されている辞書データの中から、選択基準を満たした構成要素と同一の構成要素についての辞書データがあるか検索し、対応する辞書データがある場合は、出現確率算出部130に渡す。
The
出現確率算出部130は、各カテゴリmについて、未分類データから抽出された各構成要素Wnの出現確率anmを計算する。ここで、出現確率anmは、上述したカテゴリ文例または非カテゴリ文例に含まれる文章中への出現頻度Xnm、Ynmを使用して、次式により算出される。
The appearance
図8は、数1により算出された、カテゴリ1に対する各構成要素W1〜WNの出現確率a11〜aN1を示す。
なお、出現確率の算出は、数1に限られない。例えば、上述したFnmをそのまま使用してもよい。
FIG. 8 shows the appearance probabilities a 11 to a N1 of the components W 1 to W N with respect to the category 1 calculated by Equation 1 .
Note that the calculation of the appearance probability is not limited to Equation 1. For example, the above-described F nm may be used as it is.
帰属確率算出部132は、算出された出現確率をすべての構成要素について総計して、未分類文章データについてカテゴリ毎の帰属確率を算出する。好ましくは、帰属確率算出部132は、ベイジアンフィルタ法を使用して、次式によりカテゴリnへの帰属確率Enを算出する。
The attribution
なお、ベイジアンフィルタ法以外の手法を使用して帰属確率を算出してもよい。例えば、すべての構成要素の出現確率を単に掛け合わせて帰属確率を算出してもよいし、出現確率の平均値を帰属確率としてもよい。 Note that the attribution probability may be calculated using a method other than the Bayesian filter method. For example, the attribution probability may be calculated by simply multiplying the appearance probabilities of all the constituent elements, or the average value of the appearance probabilities may be used as the attribution probability.
図9は、分類辞書を作成する処理過程を示すフローチャートである。
まず、文章分解部18は、文例格納部12から一対のカテゴリ文例または非カテゴリ文例を取得する(S10)。次に、文章分解部18は、所定の文章分解アルゴリズムに基づいて、カテゴリ文例および非カテゴリ文例中の文章データを構成要素に分解し、ソート部20は分解された構成要素を所定の規則にしたがって並べ替える(S12)。なお、この並べ替えの実行は本実施の形態に必須ではなく、分類辞書保持部からのデータ検索時間が長くなるため演算速度は低下しうるが、カテゴリ分類の精度に影響を及ぼすことはない。
FIG. 9 is a flowchart showing a process of creating a classification dictionary.
First, the
次に、分類辞書作成部22は、抽出されたひとつの構成要素について、要素絞り込み基準提供部30から受け取った選択基準と比較して、辞書データの作成対象の構成要素であるか否かを判定する(S14)。辞書データの作成対象でなければ(S14のN)、S24に進む。辞書データの作成対象であれば(S14のY)、分類辞書作成部22は分類辞書保持部24からその構成要素についての辞書データを検索する(S16)。対応する辞書データが存在した場合は(S18のY)、今回の文例データ中に存在した構成要素の数を、辞書データ中のそのカテゴリの頻度に追加する(S20)。対応する辞書データが存在しない場合は(S18のN)、新たな辞書データを作成する(S22)。そして、文章分解部18で分解されたすべての構成要素について処理したか否かを判定し(S24)、処理が終了していなければ(S24のN)、別の構成要素についてS14からの処理を繰り返す。すべての構成要素についての辞書データの作成が終了すると(S24のY)、このフローを終了する。
Next, the classification
図10は、未分類文章データをカテゴリに分類する処理過程を示すフローチャートである。
文章受付部36は、未分類文章データを受け取る(S30)。文章分解部18は、好ましくは図9のS12と同じ文章分解アルゴリズムに基づいて、未分類文章データ中の文章を構成要素に分解し、ソート部20は分解された構成要素を所定の規則にしたがって並べ替える(S32)。次に、カテゴリ帰属確率計算部6は、抽出されたひとつの構成要素について、要素絞り込み基準提供部30から受け取った選択基準と比較して、未分類文章データの帰属確率を計算するために、その構成要素の出現確率を計算するか否かを判定する(S34)。出現確率の計算対象であれば(S34のY)、カテゴリ帰属確率計算部26は、分類辞書保持部24からその構成要素についての辞書データを検索し、対応する辞書データがある場合は(S36のY)、辞書データに基づいて、その構成要素の出現確率を各カテゴリについて算出する(S38)。S34で構成要素が出現確率の計算対象でなかった場合(S34のN)、またはS36で対応する辞書データが存在しなかった場合(S36のN)は、S38をスキップする。
続いて、文章分解部18によって抽出されたすべての構成要素について処理したか否かを判定し(S40)、処理が終了していなければ(S40のN)、別の構成要素についてS34からの処理を繰り返す。
FIG. 10 is a flowchart showing a process of classifying uncategorized text data into categories.
The
Subsequently, it is determined whether or not all the components extracted by the
すべての構成要素についての処理が終了すると(S40のY)、カテゴリ帰属確率計算部26は、上述した手順にしたがって、カテゴリ毎に未分類文章データの帰属確率を算出し(S42)、判定部28は、帰属確率に基づいて未分類文章データが属するカテゴリを判定する(S44)。
When the processing for all the constituent elements is completed (Y in S40), the category attribution
(実施例)
以下、具体的な実施例に基づいて、本実施の形態に係る文章分類部100の動作を説明する。この実施例では、説明を簡単にするために、カテゴリとして「ギャンブル」「教育」の二つのカテゴリが準備されているものとする。また、辞書データは作成済みのものを用いることとする。
(Example)
Hereinafter, based on a specific Example, operation | movement of the text classification |
図11は、この実施例で使用される辞書データを示し、上述の全体説明における図5に対応する。この辞書データは、カテゴリ「ギャンブル」について、カテゴリ文例に含まれる30の文章と非カテゴリ文例に含まれる15の文章から抽出された構成要素、および、カテゴリ「教育」について、カテゴリ文例に含まれる20の文章と非カテゴリ文例に含まれる18の文章から抽出された構成要素についてのものである。使用された文章数は、欄154に「文章数」として示されている。
FIG. 11 shows dictionary data used in this embodiment, and corresponds to FIG. 5 in the entire description above. This dictionary data is included in the category sentence example for the category “gambling”, the constituent elements extracted from the 30 sentences included in the category sentence example and the 15 sentences included in the non-category sentence example, and the category “education”. And the components extracted from the 18 sentences included in the non-category sentence examples. The number of sentences used is shown in the
図示するように、この辞書には、「パチンコ」「万馬券」「青少年」「健全」「育成」などの単語が構成要素として含まれている。そして、それぞれの構成要素に対して、カテゴリ毎の出現頻度情報を有している。構成要素「パチンコ」を例としてみると、カテゴリ「ギャンブル」に対して、カテゴリ文例の文章中の出現頻度は10回、非カテゴリ文例の文章中の出現頻度は2回である。また、カテゴリ「教育」に対しては、カテゴリ文例の文章中の出現頻度は1回、非カテゴリ文例の文章中の出現頻度は20回である。他の構成要素についても同様である。 As shown in the figure, this dictionary includes words such as “Pachinko”, “Manga ticket”, “Youth”, “Healthy”, and “Nurture” as constituent elements. Each component has appearance frequency information for each category. Taking the component “pachinko” as an example, the appearance frequency in the sentence of the category sentence example is 10 times and the appearance frequency in the sentence of the non-category sentence example is 2 times for the category “gambling”. For the category “education”, the frequency of appearance in the sentence of the category sentence example is once, and the frequency of appearance in the sentence of the non-category sentence example is 20 times. The same applies to other components.
「総計」欄152は、カテゴリ文例の文章数および非カテゴリ文例の文章数を、すべての構成要素について足し合わせた数である。
The “total”
このような辞書データが分類辞書保持部24に保持されていることを前提に、未分類文章データとして「パチンコ業界を健全に育成しましょう。」という文章が、二つのカテゴリのいずれに分類されるかを説明する。この文章から、文章分解部18により構成要素が抽出される。この実施例では、文章分解部18は形態素解析によって文章を分解し、その結果、「パチンコ/業界/を/健全/に/育成/し/ましょ/う/。」のように、10の構成要素が抽出される。続いて、カテゴリ帰属確率計算部26内の構成要素選択部126は、要素絞り込み基準提供部30から「名詞」という選択基準を受け取り、抽出された構成要素から名詞のみを選択する。したがって、「パチンコ」「業界」「健全」「育成」の4つの構成要素が選択されることになる。
Assuming that such dictionary data is held in the classification
辞書データ検索部128は、対応する辞書データを分類辞書保持部24から検索する。この場合、「パチンコ」「健全」「育成」の3つの辞書データが得られる。出現確率算出部130は、この辞書データにおける3つの構成要素の出現頻度から、上記数1を使用して各カテゴリについての出現確率を算出する。その結果を図12に示す。構成要素「パチンコ」を例としてみると、カテゴリ「ギャンブル」についての出現確率は0.714、カテゴリ「教育」についての出現確率は0.043である。他の構成要素についても同様である。
The dictionary
帰属確率算出部132は、上記数2にしたがって、出現確率を使用して未分類文章データの帰属確率をカテゴリ毎に算出する。
具体的な数値を用いて説明する。図13は、上記全体説明の図8に対応させて、カテゴリ「ギャンブル」「教育」についての出現確率anと(1−an)をまとめた表である。カテゴリ「ギャンブル」に対しては、要素「パチンコ」の出現確率a11が0.714、要素「健全」の出現確率a21が0.200、要素「育成」の出現確率a31が0.273であるから、数2にしたがって計算すると、未分類文章データのカテゴリ「ギャンブル」への帰属確率E1は、以下のようにして算出される。
(数3)
E1=(0.714×0.200×0.273)/
{(0.714×0.200×0.273)+(1−0.714)×(1−0.200)×(1−0.273)}≒0.190
The attribution
This will be described using specific numerical values. 13, corresponding to Figure 8 of the entire description, is a table summarizing the probability a n for the category "gambling", "Education" (1-a n). For the category “gambling”, the appearance probability a 11 of the element “pachinko” is 0.714, the appearance probability a 21 of the element “sound” is 0.200, and the appearance probability a 31 of the element “nurturing” is 0.273. Therefore, when calculated according to
(Equation 3)
E 1 = (0.714 × 0.200 × 0.273) /
{(0.714 × 0.200 × 0.273) + (1−0.714) × (1−0.200) × (1−0.273)} ≈0.190
カテゴリ「教育」に対しては、要素「パチンコ」の出現確率a12が0.043、要素「健全」の出現確率a22が0.783、要素「育成」の出現確率a32が0.844であるから、数2にしたがって計算すると、未分類文章データのカテゴリ「教育」への帰属確率E2は、以下のようにして算出される。
(数4)
E2=(0.043×0.783×0.844)/
{(0.043×0.783×0.844)+(1−0.043)×(1−0.783)×(1−0.844)}≒0.467
Category for the "education", the occurrence probability of a 12 element "pachinko" is 0.043, the occurrence probability of a 22 element "healthy" is 0.783, the occurrence probability of a 32 element "training" is 0.844 Therefore, when calculated according to Equation 2 , the belonging probability E 2 of the uncategorized sentence data to the category “education” is calculated as follows.
(Equation 4)
E 2 = (0.043 × 0.783 × 0.844) /
{(0.043 × 0.783 × 0.844) + (1−0.043) × (1−0.783) × (1−0.844)} ≈0.467
この結果、判定部28は、「パチンコ業界を健全に育成しましょう。」という文章は、帰属確率の大きい方のカテゴリ「教育」に分類されると判定する。以上で、未分類文章データを分類する一連の処理が終了する。
As a result, the
以上説明したように、文章分類部100によれば、未分類文章データを予め定められたカテゴリに沿って自動的に分類することができる。未分類文章データがいずれのカテゴリに属するかは、カテゴリ毎に算出される未分類文章データの帰属確率により判定される。したがって、文章分類部100は、ひとつの文章データをひとつのカテゴリに分類することもできるし、二つ以上のカテゴリに分類することもできる。また、ひとつの視点に基づくカテゴリについて分類するのみならず、複数の視点に基づくカテゴリを混合させておき、それらについてまとめて未分類文章データの帰属確率を算出することができる。
As described above, according to the
上述した文章分類技術を使用したブログ記事の分類については、以下の文献に詳細に説明されている。
平野耕一、古林紀哉、高橋淳一、「日本語圏ブログの自動分類」、情報処理学会研究会報告(自然言語処理)、2005年11月、2005−NL−170、p.21−26
古林紀哉、平野耕一、高橋淳一、「ブログ記事の自動分類により消費者意識の側面を捉える試み」、NRI技術創発、2006年1月、2006 Vol.7、p.38−52
The classification of blog articles using the sentence classification technique described above is described in detail in the following documents.
Koichi Hirano, Kiya Kobayashi, Junichi Takahashi, “Automatic Classification of Japanese-Speaking Blogs”, Information Processing Society of Japan Report (Natural Language Processing), November 2005, 2005-NL-170, p. 21-26
Koya Kobayashi, Koichi Hirano, Junichi Takahashi, “Attempts to Capture Aspects of Consumer Awareness by Automatic Classification of Blog Articles”, NRI Technology Creation, January 2006, 2006 Vol. 7, p. 38-52
2.広告配信装置
続いて、本実施形態に係る広告配信装置210について説明する。
2. Advertisement Distribution Device Subsequently, the
図14は、広告配信装置210の機能ブロック図である。この図においても、各機能ブロックは、ハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによって実現できる。
FIG. 14 is a functional block diagram of the
媒体ページ管理部218は、広告の配信先となる媒体ウェブページの登録を管理する。媒体ページ管理部218は、媒体登録受付部220とスクリプト生成部222とを含む。
The medium
媒体登録受付部220は、媒体ウェブページの管理者からの登録を受け付ける。媒体登録受付部220は、ページ管理者端末204から、媒体ウェブページとして登録するページのURLや、管理者の氏名、メールアドレスなどを受け取り、これらの情報を媒体情報保持部230に記憶させる。
The medium
スクリプト生成部222は、広告配信装置210から送信される広告情報を媒体ウェブページに表示させるためのスクリプトプログラムを作成する。スクリプト生成部222は、作成したスクリプトプログラムを電子メールで送信するか、またはプログラムを記載したウェブページを提示するなどして、ページ管理者端末204に送る。ウェブページの管理者は、受け取ったスクリプトプログラムを、自身のウェブページを記述するHTML文書またはXML文書などのマークアップ言語ファイルにコピーする。そして、管理者はこのファイルをプロバイダサーバ212に対してアップロードする。こうすることで、媒体ウェブページにアクセスした一般ユーザ端末206に、プロバイダサーバ212からスクリプトプログラムが送られるようになる。
The
媒体ページ解析部232は、媒体ウェブページのキーワード集合とカテゴリを決定する。媒体ページ解析部232は、ページ取得部224、確認部226、文章分類部234、キーワード抽出部228、および媒体情報保持部230を含む。
The media
ページ取得部224は、ネットワーク208を介して媒体ウェブページ214をプロバイダサーバ212から取得する。ページ取得部224は、後述するように、一般ユーザ端末206で媒体ウェブページが閲覧されたときにその媒体ウェブページを取得してもよいし、あるいは、ページ取得部224は、ウェブクローラを稼働させてネットワーク上で提供されている媒体ウェブページの情報を収集しておいてもよい。また、ページ取得部224は、媒体ウェブページを閲覧している一般ユーザ端末206のURLも取得して、広告送信部246に渡す。
The page acquisition unit 224 acquires the
確認部226は、ページ取得部224によって取得された媒体ウェブページについて、媒体情報保持部230を参照して、キーワード集合およびカテゴリを既に決定済みか否かを判定する。または、確認部226は、配信結果保持部242を参照して、以前に広告情報を送信したか否かを判定する。キーワード集合およびカテゴリが未決定である場合、確認部226は、媒体ウェブページを文章分類部234およびキーワード抽出部228に与える。広告情報を以前に送信済みである場合、確認部226は、広告送信部246に対し、配信結果保持部242に記憶されている広告情報を、媒体ウェブページを閲覧している一般ユーザ端末206に対して送信するように指示する。
The
配信結果保持部242に記憶されている広告情報が、前回の配信から相当の時間が経過しており古いものである場合や、毎回異なる広告情報を媒体ウェブページに対して送信したい場合は、確認部226は、マッチング部244に対して、媒体情報保持部230に保持されている当該媒体ウェブページについて決定されたキーワード集合およびカテゴリの情報を使用して、新たな広告情報を選択して送信するように指示してもよい。
Check if the advertisement information stored in the distribution
文章分類部234は、上述した文章分類部100と同様の機能を有する。文章分類部234は、媒体ウェブページのファイルを未分類文章として受け取り、前もって設定されている複数のカテゴリに対する帰属確率を算出する。文章分類部234は、帰属確率と所定のしきい値との比較にしたがって、媒体ウェブページが帰属するカテゴリをいくつかに決定してもよいし、または、帰属確率を算出したままで、その後の広告情報のカテゴリとの比較については後述するマッチング部244に任せるようにしてもよい。これは、広告管理部240において、広告主から広告の配信先となるカテゴリの指定を受け付ける態様によって決まる。より具体的な説明は、図17ないし図19を参照して後述する。
The
キーワード抽出部228は、媒体ウェブページのキーワード集合を決定する。具体的には、キーワード抽出部228は、媒体ウェブページのテキスト情報を形態素解析によって形態素に分解し、各形態素の出現頻度や形態素間の関連性などに基づいて、キーワード集合を決定する。なお、キーワード抽出部228は、キーワード集合として複数のキーワードを抽出することが望ましいが、ひとつのキーワードのみを選択してもよい。このようなキーワードの抽出手法は公知であるので、これ以上詳細な説明は省略する。
The
媒体情報保持部230は、媒体ウェブページ毎に、文章分類部234で計算されたカテゴリ毎の帰属確率または決定されたカテゴリと、キーワード抽出部228で抽出されたキーワード集合とを保持する。
The medium
広告管理部240は、媒体ウェブページに表示させる広告情報の登録および配信を管理する。広告管理部240は、配信結果保持部242、マッチング部244、広告送信部246、広告受付部250、および広告情報保持部252を含む。
The
広告受付部250は、広告主からの広告情報の登録を受け付ける。広告受付部250は、広告主端末202から広告として表示すべきテキスト、広告情報の配信先となる媒体ウェブページのカテゴリ条件を指定するカテゴリ指定情報、広告情報の配信先となる媒体ウェブページの配信先キーワードを指定するキーワード指定情報、リンク先の広告主サイトのURLなどの広告情報を受け取る。これらの情報は、広告情報保持部252に保持される。
The
広告情報保持部252は、カテゴリ指定情報およびキーワード指定情報と関連付けて広告情報を保持する。カテゴリ条件の指定の仕方は複数ある。ひとつは、前もって設定されている複数のカテゴリ毎に、そのカテゴリに分類される媒体ウェブページに広告を表示するか否かを指定する方法である。二つ目は、広告の配信先となる媒体ウェブページの帰属確率の下限値をカテゴリ毎に指定する方法である。二番目の方法を採用する場合は、広告の送信を回避すべき非表示カテゴリをさらに指定するようにしてもよい。
The advertisement
マッチング部244は、今回の配信対象である媒体ウェブページのキーワード集合とカテゴリとを媒体情報保持部230から取得する。続いて、マッチング部244は、媒体ウェブページのキーワード集合に含まれる配信先キーワードが指定された広告情報を広告情報保持部252から選択する。その後、マッチング部244は、選択された広告情報の中から、今回の配信対象である媒体ウェブページのカテゴリが、広告情報に関連するカテゴリ条件を満足している広告情報を、広告情報保持部252から選択する。
The
このとき、カテゴリ条件が単に媒体ウェブページに広告を表示するか否かを指定するものである場合、マッチング部244は、媒体ウェブページのカテゴリについて表示の対象としている広告情報を選択すればよい。帰属確率の下限値をカテゴリ毎に指定している場合は、以下のようにする。まず、マッチング部244は、媒体情報保持部230から、広告の配信対象である媒体ウェブページのカテゴリ毎の帰属確率を取得する。続いて、マッチング部244は、各カテゴリについて、媒体ウェブページの帰属確率と広告情報に関連する帰属確率の下限値とを比較する。そして、媒体ウェブページの帰属確率が下限値以上であるカテゴリが存在したとき、マッチング部244は、対応する広告情報を広告情報保持部252から選択する。
At this time, when the category condition simply specifies whether or not to display an advertisement on the medium web page, the
マッチング部244は、選択した広告情報を広告送信部246に送る。
広告送信部246は、マッチング部244で選択された広告情報を媒体ウェブページとともに表示させるように、一般ユーザ端末206に送信する。この送信は、ページ取得部224で取得された一般ユーザ端末206のURLに対してなされる。広告送信部246における送信の結果は、配信結果保持部242に記憶される。
The
The
配信結果保持部242は、媒体ウェブページと、当該媒体ウェブページで表示するために送信した広告情報との組合せを保持する。配信結果保持部242は、その他にも、広告情報を送信した一般ユーザ端末206のURL、広告を表示した日付、広告の表示回数などの情報を記憶してもよい。
The distribution
図15は、広告配信装置210によって、ウェブページに関連する広告を配信する処理の概略を示すフローチャートである。
まず、広告主端末202から広告管理部240に対して広告情報の登録がなされる(S60)。また、ページ管理者端末204から媒体ページ管理部218に対して、媒体ウェブページの登録がなされる(S62)。その後、登録された媒体ウェブページが一般ユーザ端末206で閲覧されると、媒体ウェブページのキーワード集合およびカテゴリが媒体ページ解析部232によって決定される。さらに広告管理部240によって、登録されている広告情報の中からキーワードおよびカテゴリの両方が合致する広告情報が選択され、一般ユーザ端末206に対して送信される(S64)。送信された広告情報は、一般ユーザ端末206において媒体ウェブページとともに表示される。
FIG. 15 is a flowchart showing an outline of processing for distributing an advertisement related to a web page by the
First, advertisement information is registered in the
図16は、広告受付部250によって広告主端末202のディスプレイに表示される広告受付画面260の一例を示す。
広告主が広告主端末202を使用して広告情報を登録するための専用のサイトにアクセスすると、広告受付部250は広告主端末202に対して広告受付画面260を表示するマークアップ言語ファイルを送信する。広告主は、広告受付画面260において、社名欄262およびメールアドレス欄264には、広告主となる企業の社名と担当者のメールアドレスを入力する。広告テキスト欄266、268には、媒体ウェブページに配信する広告文のテキストを入力する。広告主は、広告テキスト欄266には一行程度で表示できる見出し文を入力し、広告テキスト欄268には、より詳細な内容を入力する。
キーワード欄270には、広告主が広告情報の配信を希望する媒体ウェブページを指定するための配信先キーワードを入力する。入力する配信先キーワードは、一語でも複数語でもよい。表示カテゴリボタン272は、広告主が広告情報の配信を希望するカテゴリを詳細に設定するためにクリックするボタンである。ジャンプ先URL欄274には、媒体ウェブページに表示された広告テキストをユーザがクリックしたときに、リンク先となる広告主サイトのURLを入力する。
上記欄への記入をした後、広告主が登録ボタン276をクリックすると、入力された内容が広告受付部250に送信される。広告受付部250は、受け取った情報を広告情報保持部252に渡す。
FIG. 16 shows an example of an
When the advertiser uses the
In the
When the advertiser clicks the
図17ないし図19は、広告受付画面260で表示カテゴリボタン272をクリックしたときに表示される、カテゴリを設定するための画面例を示す。
図17は、カテゴリ毎に、広告を表示すべきカテゴリまたは非表示にすべきカテゴリを設定する設定画面280を示す。設定画面280では、カテゴリ282毎に、広告情報の配信先のカテゴリとして指定するときにチェックするチェックボックス284と、広告情報の配信先のカテゴリとして指定したくないときにチェックするチェックボックス286と、が表示される。マッチング部244は、媒体ウェブページのカテゴリに対して、そのカテゴリと同一のカテゴリのチェックボックス284にチェックが入れられた広告情報を選択する。
17 to 19 show examples of screens for setting categories displayed when the
FIG. 17 shows a
図18は、カテゴリ292毎に、広告情報の配信先の媒体ウェブページについて算出される帰属確率の下限値を設定する下限値欄294と、広告情報を配信しない媒体ウェブページのカテゴリ(以下、「非表示カテゴリ」という)を設定する非表示カテゴリ欄296とを有するカテゴリ設定画面290を示す。
FIG. 18 shows, for each
下限値欄294には、文章分類部234においてカテゴリ毎に算出される帰属確率をパーセント表示したときの下限値を20%刻みで設定することができる。下限値を設定するチェックボックスにチェックを入れると、帰属確率がチェックボックスの右肩に表示されている数字以上になったカテゴリについて広告情報を配信することを意味する。例えば、カテゴリ「エンターテインメント」297を見ると、下限値欄294において、「20〜40」のチェックボックスにチェックが入れられている。これは、カテゴリ「エンターテインメント」について、帰属確率が20%以上である媒体ウェブページに広告情報を配信すべきことを意味する。言い換えると、エンターテインメントの要素がわずかでもあるような媒体ウェブページのすべてに広告情報が配信される。また、カテゴリ「コンピュータ」298を見ると、下限値欄294において、「80〜100」のチェックボックスにチェックが入れられている。これは、カテゴリ「コンピュータ」について、帰属確率が80%以上である媒体ウェブページに広告を配信すべきことを意味する。言い換えると、コンピュータの要素が非常に高い媒体ウェブページにのみ広告情報が配信される。さらに、カテゴリ「金融」299を見ると、非表示カテゴリ欄296にチェックが入れられている。これは、カテゴリ「金融」に対する帰属確率がわずかでもある場合は、その媒体ウェブページに広告情報を配信しないことを意味する。
In the lower
図示するように、このカテゴリ設定画面290では、カテゴリ毎に、広告配信先とする媒体ウェブページのカテゴリの帰属確率の下限を定めることができる。したがって、広告主は、カテゴリを明確には分類できないような媒体ウェブページを広告情報の配信先として指定することが可能になる。例えば、複数のカテゴリにまたがって分類されるような媒体ウェブページをマッチング部244により絞り込むことが可能になるため、広告主は広告の対象者を絞って配信することができ、広告効果の向上につながりうる。
As shown in the figure, on this
図19は、カテゴリ302毎に、広告情報の配信先の媒体ウェブページについて算出される帰属確率の下限値を設定する下限値欄304を有するカテゴリ設定画面300を示す。下限値欄304には、文章分類部234においてカテゴリ毎に算出される帰属確率をパーセント表示したときの下限値を数値で設定することができる。帰属確率が下限値欄304に表示されている数字以上になったカテゴリについて広告情報が配信される。例えば、カテゴリ「エンターテインメント」306を見ると、下限値欄304に「20」の数値が入力されている。これは、カテゴリ「エンターテインメント」について、帰属確率が20%以上となった媒体ウェブページに広告情報を配信すべきことを意味する。なお、このカテゴリ設定画面300にも、非表示カテゴリを設定する非表示カテゴリ欄を設けてもよい。
FIG. 19 shows a
図20は、図16の広告受付画面260、および図17ないし図19のいずれかのカテゴリ設定画面を介して広告受付部250に入力され、広告情報保持部252に保持される広告情報のテーブル310を示す。
20 is a table 310 of advertisement information that is input to the
番号欄312は、広告受付部250で受け取られた広告情報毎に固有に与えられる番号を示す。広告テキスト欄314、316、キーワード欄318、およびURL欄324は、広告受付画面260で入力された広告テキスト1、広告テキスト2、配信先キーワード、ジャンプ先URLを示す。カテゴリ条件欄319への入力項目は、カテゴリ設定をいずれの方式で実施したかによって異なる。図17に示したように、広告を表示すべきカテゴリと非表示とすべきカテゴリを設定した場合には、カテゴリ名320毎に「表示」「非表示」のいずれかが記録される。これに対し、図18および図19に示したように、広告を表示すべきカテゴリの下限値を指定した場合には、カテゴリ名320毎に下限値が記録される。
The
図20の例では、番号「1」で指定される広告は、衣類のマフラーを販売する企業の広告であり、広告を表示するカテゴリとして「ファッション」が指定されている。番号「2」で指定される広告は、自動車のマフラーを販売する企業の広告であり、カテゴリ「ファッション」の帰属確率の下限値が80%、カテゴリ「モータースポーツ」の帰属確率の下限値が20%と指定されている。この例では、配信先キーワードとしてともに同音の「マフラー」が指定されていることに注意する。 In the example of FIG. 20, the advertisement designated by the number “1” is an advertisement of a company that sells a muffler of clothing, and “fashion” is designated as a category for displaying the advertisement. The advertisement designated by the number “2” is an advertisement of a company that sells an automobile muffler. The lower limit value of the attribution probability of the category “fashion” is 80%, and the lower limit value of the attribution probability of the category “motor sports” is 20. % Is specified. Note that in this example, “muffler” of the same sound is specified as the distribution destination keyword.
図21は、媒体登録受付部220によってページ管理者端末204に表示される媒体登録受付画面330の一例を示す。
ページ管理者が、ページ管理者端末204を使用して媒体ウェブページを登録するための専用のサイトにアクセスすると、媒体登録受付部220はページ管理者端末204に対して媒体登録受付画面330を表示するマークアップ言語ファイルを送信する。ページ管理者は、媒体登録受付画面330において、名前欄332、住所欄334およびメールアドレス欄338には、広告の配信先としての媒体ウェブページを提供する管理者の氏名、住所およびメールアドレスを入力する。また、ページ管理者は、URL欄336に媒体ウェブページのURLを入力する。
上記欄への記入をした後、ページ管理者が登録ボタン340をクリックすると、入力された内容がページ管理者端末204から媒体登録受付部220に送信される。媒体登録受付部220は、受け取った情報を媒体情報保持部230に渡す。
FIG. 21 shows an example of a medium
When the page manager accesses a dedicated site for registering a media web page using the
When the page manager clicks the
図22は、媒体ウェブページとして登録されたページのテキスト情報の例を示す。ページ取得部224は、一般ユーザ端末206から閲覧している媒体ウェブページのURLを受け取ると、そのURLにアクセスして媒体ウェブページのファイルを取得し、そこからテキスト情報を抽出して文章分類部234およびキーワード抽出部228に渡す。図22(a)は、URL342で指定される媒体ウェブページに記載されているテキスト344を表し、図22(b)は、URL346で指定される媒体ウェブページに記載されているテキスト348を表す。図示するように、テキスト344はファッションに関する日記風の記事でありマフラーが話題になっている。また、テキスト348は、バイクに関する日記風の記事であり、交換した部品としてマフラーの記載がある。
FIG. 22 shows an example of text information of a page registered as a medium web page. When the page acquisition unit 224 receives the URL of the medium web page being browsed from the
図23は、媒体情報保持部230に保持される媒体情報のテーブル350を示す。コード欄352は、ページ管理者毎に媒体登録受付部220により付与されるコードを示す。URL欄354は、媒体ウェブページのURLを示す。キーワード欄356は、キーワード抽出部228によって、媒体ウェブページ中のテキストから抽出されたキーワード集合を示す。分類結果欄358には、前もって定められている複数のカテゴリについて文章分類部234によって算出された帰属確率が表示される。
FIG. 23 shows a medium information table 350 held in the medium
図23の例では、コード「0001」で指定される媒体ウェブページは、図22(a)に示したページに対応する。したがって、URL欄354には図22(a)に示すURL342が示されている。キーワード欄356には、テキスト344からキーワード抽出部228によって抽出されたキーワード集合が示されている。また、分類結果欄358は、テキスト344を文章分類部234に入力して得られた分類結果として、カテゴリ「ファッション」について帰属確率0.76が算出され、カテゴリ「ショッピング」について帰属確率0.68が算出されたことを示している。
また、コード「0002」で指定される媒体ウェブページは、図22(b)に示したページに対応する。したがって、URL欄354には図22(b)に示すURL346が示されている。キーワード欄356には、テキスト348からキーワード抽出部228によって抽出されたキーワード集合が示されている。また、分類結果欄358は、テキスト348を文章分類部234に入力して得られた分類結果として、カテゴリ「モータースポーツ」について帰属確率0.88が算出されたことを示す。
In the example of FIG. 23, the medium web page specified by the code “0001” corresponds to the page shown in FIG. Therefore, the
The medium web page specified by the code “0002” corresponds to the page shown in FIG. Therefore, the
図24は、ページ管理者による媒体ウェブページの登録過程を説明するフローチャートである。
媒体登録受付部220は、ページ管理者端末204から入力される媒体ウェブページの登録情報を受け取る(S70)。媒体登録受付部220は、ページ管理者に対して固有のコードを付与し、媒体ウェブページについて登録された情報を媒体情報保持部230に記録する(S72)。続いて、スクリプト生成部222は、一般ユーザ端末206により媒体ウェブページが閲覧されたときに、媒体ウェブページのURLを広告配信装置210に送信し、また広告配信装置210から送信された情報を媒体ウェブページとともに表示する機能を有する広告配信スクリプトプログラムを作成し、この広告配信スクリプトプログラムをページ管理者端末204に送信する(S74)。ページ管理者は、受け取ったスクリプトプログラムを自身の媒体ウェブページに挿入し、このファイルをプロバイダサーバ212にアップロードする(S76)。これによって、一般ユーザ端末206で媒体ウェブページが読み込まれたときに、広告配信スクリプトプログラムも一緒に読み込まれるようになる。
FIG. 24 is a flowchart for explaining the registration process of the medium web page by the page manager.
The medium
なお、媒体ウェブページの管理者が同一人物である限り、複数の媒体ウェブページに同一の広告配信スクリプトプログラムを使用することができる。媒体ウェブページ毎のキーワード集合やカテゴリは、広告配信装置210側でURL毎に個別に抽出または分類され保持されるため、同一の広告配信スクリプトプログラムを使用していても、ページ毎に異なる広告情報が表示されることになる。
As long as the administrator of the medium web page is the same person, the same advertisement distribution script program can be used for a plurality of medium web pages. Since the keyword set and category for each medium web page are individually extracted or classified for each URL on the
図25は、ウェブページに広告が配信されるプロセスを詳細に説明するフローチャートである。
一般ユーザが一般ユーザ端末206を使用して媒体ウェブページにアクセスすると(S80)、プロバイダサーバ212から一般ユーザ端末206にウェブページ214が送信され、一般ユーザ端末206のディスプレイに媒体ウェブページが表示される(S82)。媒体ウェブページに挿入されたスクリプトプログラムが一般ユーザ端末206で動作し、閲覧しているページのURLとページ管理者コードとを広告配信装置210に送信する(S84)。
FIG. 25 is a flowchart illustrating in detail the process of distributing advertisements to web pages.
When the general user accesses the medium web page using the general user terminal 206 (S80), the
ページ取得部224は、送信されたページURLとページ管理者コードとを受け取り、確認部226は、ページURLで指定される媒体ウェブページのカテゴリが既に分類済みであるか否かを判定する(S86)。媒体ウェブページのカテゴリが未分類である場合(S86のN)、広告送信部246は、カテゴリに無関係に表示するために用意されている広告情報を一般ユーザ端末206に対して送信する(S88)。一般ユーザ端末206の広告配信スクリプトプログラムは、送信された広告情報をディスプレイに表示させる。
The page acquisition unit 224 receives the transmitted page URL and page manager code, and the
ページ取得部224は、ページURLを使用して対応する媒体ウェブページをプロバイダサーバ212から取得する。取得された媒体ウェブページのテキスト情報にしたがって、文章分類部234がその媒体ウェブページのキーワード集合を抽出し、また文章分類部234がカテゴリ毎の帰属確率を算出する(S90)。マッチング部244は、媒体ウェブページから抽出されたキーワード集合が、広告情報保持部252に保持されている広告毎の配信先キーワードを含み、かつ媒体ウェブページのカテゴリ毎の帰属確率が、広告情報保持部252に保持されている広告毎のカテゴリ条件を満足する広告情報を決定する(S92)。この結果は、配信結果保持部242に保持される。
The page acquisition unit 224 acquires a corresponding medium web page from the
S86で、媒体ウェブページのカテゴリが分類済みである場合(S86のY)、確認部226からの指示に応じて、広告送信部246は、配信結果保持部242に記録されている、媒体ウェブページとマッチングされた広告情報を一般ユーザ端末206に対して送信する(S94)。一般ユーザ端末206bの広告配信スクリプトプログラムは、送信された広告情報を受け取って媒体ウェブページと共に表示する。
If the category of the medium web page is already classified in S86 (Y in S86), the
このように、本実施形態においては、媒体ウェブページとして登録されたウェブページの内容を実際に取得するのは、媒体ウェブページが初めて一般ユーザ端末によって閲覧されたときである。したがって、この時点では広告配信装置側に媒体ウェブページに関する情報が蓄積されていないため、顧客のターゲッティングをしていない広告をとりあえず配信しておき、その後媒体ウェブページを取得してキーワード集合とカテゴリを決定する。このようにするのは、一般ユーザ端末によって媒体ウェブページが閲覧されたときに、その媒体ウェブページのキーワード抽出およびカテゴリ分類を実行した後に広告を送信すると、計算処理および送信に時間がかかり、速やかな広告の表示ができないからである。 Thus, in the present embodiment, the content of the web page registered as the medium web page is actually acquired when the medium web page is browsed by the general user terminal for the first time. Therefore, at this point in time, information on the media web page is not accumulated on the advertisement delivery device side. Therefore, the advertisement not targeted by the customer is distributed for the time being, and then the media web page is acquired and the keyword set and category are obtained. decide. This is because, when a medium web page is browsed by a general user terminal, if an advertisement is transmitted after executing keyword extraction and category classification of the medium web page, it takes time for calculation processing and transmission. This is because it is impossible to display an advertisement.
また、媒体ウェブページが閲覧されてからウェブページを取得するのは、登録されたすべての媒体ウェブページを閲覧前にクロールしてウェブページを取得し、キーワード集合とカテゴリを決定すると、広告配信装置の計算処理負荷が大きくなるからである。また、一般ユーザによる閲覧時に媒体ウェブページを取得することで、媒体ウェブページの更新前のキーワード集合とカテゴリ分類にしたがってマッチングされた広告を配信するようなことがなくなる。 In addition, the web page is acquired after the medium web page is browsed. All the registered medium web pages are crawled before browsing to acquire the web page, and the keyword set and category are determined. This is because the calculation processing load increases. Further, by acquiring the medium web page at the time of browsing by a general user, an advertisement matched according to the keyword set and category classification before the update of the medium web page can be prevented.
また、カテゴリ分類後に媒体ウェブページの内容が更新された場合に対処するために、広告配信装置は、所定の周期で古いキーワード集合およびカテゴリの情報を破棄し、新たに媒体ウェブページを取得してキーワード抽出とカテゴリ分類をやり直す構成とすることが好ましい。 In addition, in order to cope with the case where the content of the media web page is updated after the category classification, the advertisement distribution apparatus discards the old keyword set and category information at a predetermined cycle and newly acquires the media web page. It is preferable to repeat the keyword extraction and category classification.
なお、一般ユーザ端末による閲覧の前に媒体ウェブページを取得してキーワード抽出とカテゴリ分類を行っておいたり、媒体ウェブページが閲覧されるたびにキーワード抽出とカテゴリ分類を実行したり、あるいは一度決定したキーワード集合とカテゴリを使い続けたりといった実施例を排除する趣旨ではない。配信する広告の内容や媒体ウェブページの内容などに応じて、適宜好適な手法を採用できる。 In addition, media web pages are acquired before browsing with general user terminals and keyword extraction and categorization are performed, keyword extraction and categorization are performed each time a media web page is browsed, or determined once It is not intended to exclude an embodiment such as continuing to use the keyword set and category. A suitable method can be adopted as appropriate according to the content of the advertisement to be distributed or the content of the medium web page.
図26は、マッチング部244において、媒体ウェブページと広告情報とのマッチングをする過程のフローチャートである。
マッチング部244は、媒体情報保持部230からキーワード集合とカテゴリ毎の帰属確率とを受け取る(S100)。マッチング部244は、広告情報保持部252に保持されている広告情報の中から、今回の媒体ウェブページから抽出されたキーワード集合が、広告情報に関連して保持されている配信先キーワードを含んでいる広告情報を選択する(S102)。続いて、マッチング部244は、S102で選択された広告情報の中から、今回の媒体ウェブページについてカテゴリ毎に算出された帰属確率が、広告情報に関連して保持されているカテゴリ条件を満足している広告情報を選択する(S104)。マッチング部244は、選択された広告情報を広告送信部246に渡すか、または配信結果保持部242に記憶させる(S106)。
FIG. 26 is a flowchart of a process in which the
The
図27は、ウェブページのカテゴリを前もって決定しておく場合のフローチャートである。
ページ取得部224は、媒体情報保持部230を参照して、登録された媒体ウェブページのURLにしたがって、媒体ウェブページを取得する(S110)。キーワード抽出部228が媒体ウェブページのテキスト情報からキーワード集合を抽出し、文章分類部234がカテゴリ毎の帰属確率を計算する(S112)。マッチング部244は、媒体ウェブページに含まれるキーワード集合が広告主の指定した配信先キーワードを含み、かつ媒体ウェブページのカテゴリ毎の帰属確率が広告主の指定したカテゴリ条件を満足する広告情報を選択し、その結果を配信結果保持部242に記憶させる(S114)。このように、予め媒体ウェブページのカテゴリを決定しておけば、一般ユーザ端末による初回の媒体ウェブページの表示の際にも、適切な広告を配信することができる。
FIG. 27 is a flowchart when the category of the web page is determined in advance.
The page acquisition unit 224 refers to the medium
図28は、以上の手順にしたがって、図22(a)に示したテキスト344を含む媒体ウェブページに広告テキスト384が表示された一般ユーザ端末の画面380を示す。
一般ユーザ端末206で媒体ウェブページが閲覧されると、図23のテーブル350に示すキーワード集合356とカテゴリ分類結果358がマッチング部244に渡される。マッチング部244は、まず媒体ウェブページのキーワード集合に含まれる配信先キーワード「マフラー」を持つ広告情報として、図20のテーブル310に示す二つを選択する。続いて、マッチング部244は、この媒体ウェブページのカテゴリ「ファッション」の帰属確率0.76を取得し、選択された二つの広告情報に関連するカテゴリ条件を比較する。この場合、番号「1」の広告では、カテゴリ条件欄319において、カテゴリ「ファッション」について「表示」となっているので、マッチング部244は番号「1」の広告情報を選択する。番号「2」の広告では、カテゴリ条件欄319において、カテゴリ「ファッション」の帰属確率が0.80となっている。これに対し、媒体ウェブページの「ファッション」に対する帰属確率は0.76であるから、マッチング部244は番号「2」の広告情報を選択しない。したがって、マッチング部244は、番号「1」の広告情報のみを出力する。
FIG. 28 shows a
When the medium web page is browsed on the
広告送信部246がこの広告情報を一般ユーザ端末206に送信すると、一般ユーザ端末206のスクリプトプログラムがこれを受け取り、媒体ウェブページの所定の位置382に広告を表示する。図示するように、広告テキスト1「カシミアマフラー20%オフ」と広告テキスト2「人気ブランドで素敵な貴女をフロデュース!」とが、クリック可能な形態で表示される。一般ユーザがこの広告テキスト384をクリックすると、図20のURL欄324に示すURLへとジャンプする。
When the
以上説明したように、本実施の形態の広告配信装置によれば、ウェブページを前もって設定されたカテゴリに分類し、そのカテゴリに応じた広告を配信することができる。広告主としては、広告の配信先となるウェブページのカテゴリを指定することで、商品やサービスのターゲットとして想定する顧客が閲覧するウェブページに対して広告を表示させることが可能になる。したがって、広告効果が高まることが期待される。 As described above, according to the advertisement distribution apparatus of the present embodiment, it is possible to classify web pages into categories set in advance and distribute advertisements according to the categories. By specifying the category of the web page to which the advertisement is distributed, the advertiser can display the advertisement on the web page viewed by the customer assumed as the target of the product or service. Therefore, the advertising effect is expected to increase.
また、広告情報のカテゴリ条件として、カテゴリ単位で表示と非表示とを選択できるため、広告主は、広告の配信先のウェブページの内容を事前に細かく指定することができる。また、複数のカテゴリにまたがるような内容のウェブページに対しても、最も効果的な広告を配信することができる。 In addition, since it is possible to select display and non-display for each category as the category condition of the advertisement information, the advertiser can specify in advance the content of the web page to which the advertisement is distributed. Moreover, the most effective advertisement can be distributed even to a web page having contents that span a plurality of categories.
初めにカテゴリの設定と文例の収集をしておけば、以降のウェブページのカテゴリ分類や、広告情報とのマッチング等に人手を介することがない。従来のカテゴリ分類では、カテゴリの分類を人手で行うことで、分類の結果に個人差がでてしまい、必ずしも適切な分類ができなかったが、本実施形態ではそのようなことがない。 If categories are set and sentence examples are collected at the beginning, there is no need for manual classification for subsequent web page categories or matching with advertisement information. In the conventional category classification, the classification of the categories is performed manually, resulting in individual differences in the classification results, and appropriate classification cannot always be performed. However, this embodiment does not have such a problem.
従来のネットワーク上での広告配信では、広告主が広告を表示させたいウェブページのキーワードを指定しておき、キーワードが一致するウェブページに広告を表示させるマッチング手法が使用されていることが多い。この手法は、キーワードに関連する商品の広告が表示されるため、広告のクリックや購買につながる確率が高いという効果もあるが、以下のようなマイナス面もあった。例えば、ウェブページのキーワードのみを参考にしているため、ある商品について否定的なコメントを述べているようなウェブページに広告が配信されたり、または、キーワードとしての言葉は同一であっても、広告の対象となる物品やサービスが全く別のものについて述べているウェブページに広告が配信されるようなことがあった。前者の場合、広告主である企業や広告対象である商品またはサービスのイメージを低下させてしまうし、後者の場合は、広告を表示させても効果が上がらず、広告の配信が無駄になってしまう。 In conventional advertisement distribution on a network, a matching method is often used in which an advertiser designates a keyword of a web page on which an advertisement is to be displayed, and the advertisement is displayed on a web page that matches the keyword. Although this method displays an advertisement for a product related to a keyword, it has the effect of increasing the probability of being clicked or purchased by the advertisement, but has the following disadvantages. For example, because only the keywords of the web page are used as a reference, even if the ad is delivered to a web page that makes a negative comment about a product, or the keyword is the same, In some cases, advertisements are distributed on web pages that describe things or services that are completely different. In the former case, the image of the advertiser's company or the product or service being advertised will be degraded, and in the latter case, displaying the advertisement will not be effective, and the advertisement distribution will be wasted End up.
これに対し、本実施形態の広告配信装置では、ウェブページからキーワードを抽出することに加えてウェブページのカテゴリをも判定し、キーワードとカテゴリの両方の条件が合致する広告情報のみがウェブページに対して配信されるので、広告主の希望に近いウェブページを選んで広告情報を配信することが可能である。したがって、広告のクリックや購買につながる確率がさらに上昇し、広告効果の増大につながりうる。 On the other hand, in addition to extracting a keyword from a web page, the advertisement distribution apparatus according to the present embodiment also determines the category of the web page, and only the advertisement information that satisfies both the keyword and category conditions is included in the web page. Therefore, the advertisement information can be distributed by selecting a web page close to the desire of the advertiser. Therefore, the probability of leading to clicks and purchases of advertisements further increases, which can lead to an increase in advertising effectiveness.
以上、本発明をいくつかの実施の形態をもとに説明した。これらの実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described based on some embodiments. It is understood by those skilled in the art that these embodiments are exemplifications, and that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. By the way.
請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。 It should also be understood by those skilled in the art that the functions to be fulfilled by the constituent elements described in the claims are realized by the individual functional blocks shown in the present embodiment or their linkage.
実施の形態では、広告主が広告情報について配信先キーワードとカテゴリ条件の両方を設定することを述べたが、カテゴリ条件のみ設定してもよい。 In the embodiment, it is described that the advertiser sets both the delivery destination keyword and the category condition for the advertisement information. However, only the category condition may be set.
文章分類部におけるカテゴリと文例の集め方次第で、実施の形態に示した以外にも様々なカテゴリに媒体ウェブページを分類することができる。
例えば、肯定的な意見を述べている文例と否定的な意見を述べている文例を文例格納部に準備しておくことで、「肯定的文章」というカテゴリを設定することができる。配信先キーワードや他のカテゴリと「肯定的文章」のカテゴリを組み合わせることで、広告主は、自身の商品やサービスに好意的な記事が記載されていると考えられる媒体ウェブページに広告情報を表示させることができる。
また、年齢や性別毎にカテゴリ文例と非カテゴリ文例を収集しておくことで、「30代女性が作者」といったカテゴリを設定することができる。さらに、方言毎にカテゴリ文例と非カテゴリ文例を収集すれば、「大阪弁のウェブページ」のようなカテゴリの設定も可能である。
上述のカテゴリは、すべてウェブページの作者についての分類であるが、例えば、「20代男性が読む文例」と「20代男性が読まない文例」を文例格納部に用意し、カテゴリの分類をすれば、「20代男性が読みそうなウェブページ」といったように、ウェブページを読者別のカテゴリで分類することができる。この場合、書き手でなく読み手に合わせて広告の配信先を設定できるため、ウェブページで表示される広告の効果がさらに向上することが期待される。
Depending on how categories and sentence examples are collected in the sentence classification unit, medium web pages can be classified into various categories other than those shown in the embodiment.
For example, a category of “positive text” can be set by preparing a sentence example in which a positive opinion is stated and a sentence example in which a negative opinion is stated in the sentence example storage unit. Combining destination keywords and other categories with "positive text" categories allows advertisers to display advertising information on media webpages that are likely to contain articles that are positive for their products or services Can be made.
Also, by collecting category sentence examples and non-category sentence examples for each age and gender, a category such as “a woman in her 30s is an author” can be set. Furthermore, by collecting category sentence examples and non-category sentence examples for each dialect, it is possible to set a category such as “Osaka dialect web page”.
The above-mentioned categories are all classified for the author of the web page. For example, “sentence examples read by men in their twenties” and “sentence examples not read by men in their twenties” are prepared in the example storage unit, and the categories are classified. For example, it is possible to classify web pages into categories according to readers, such as “web pages that men in their twenties are likely to read”. In this case, since the distribution destination of the advertisement can be set according to the reader, not the writer, it is expected that the effect of the advertisement displayed on the web page is further improved.
実施の形態では、広告主が自分の広告を表示または非表示とすべきサイトのカテゴリを選択することを述べたが、サイトの提供者側が、自分のサイトに表示または非表示とすべき広告のカテゴリを選択するようにしてもよい。
この場合、図示しない逆指名部が、広告テキストについてのカテゴリを分類する。このとき、逆指名部は、広告主が申告したカテゴリとは無関係にカテゴリ分類を実行してよい。マッチング部は、ページ管理者側で許可しているカテゴリと、広告主側で許可しているカテゴリとが一致する組合せを見つけて、広告情報を配信する。こうすることで、ページ管理者の媒体ウェブページに、管理者が好まない種類の広告が知らないうちに表示されるようなことが回避される。
In the embodiment, it is described that the advertiser selects the category of the site where the advertisement should be displayed or hidden. However, the provider of the site should be able to display the advertisement that should be displayed or hidden on the site. A category may be selected.
In this case, a reverse nomination unit (not shown) classifies the category for the advertisement text. At this time, the reverse nomination unit may execute the category classification regardless of the category declared by the advertiser. The matching unit finds a combination in which the category permitted on the page manager side matches the category permitted on the advertiser side, and distributes the advertisement information. By doing so, it is avoided that an advertisement of a kind that the administrator does not like is displayed on the medium web page of the page administrator without knowing it.
実施の形態では、媒体ページ管理部218、媒体ページ解析部232、広告管理部240が組み合わされた広告配信装置について説明したが、これらのブロックは、それぞれ別のサーバ上で動作してもよい。また、これらのブロックのうちの一部や、または広告配信装置の全体がプロバイダ業者のサーバ上で動作してもよい。この場合、プロバイダ業者は、自身が管理するウェブページには、すべて広告配信装置によって自動的に広告が配信される旨をユーザに通知しておいてもよい。
In the embodiment, the advertisement distribution apparatus in which the medium
100 文章分類部、 202 広告主端末、 204 ページ管理者端末、 206 一般ユーザ端末、 208 ネットワーク、 210 広告配信装置、 212 プロバイダサーバ、 214 ウェブページ、 218 媒体ページ管理部、 220 媒体登録受付部、 222 スクリプト生成部、 224 ページ取得部、 226 確認部、 228 キーワード抽出部、 230 媒体情報保持部、 232 媒体ページ解析部、 240 広告管理部、 242 配信結果保持部、 244 マッチング部、 246 広告送信部、 250 広告受付部、 252 広告情報保持部。
DESCRIPTION OF
Claims (7)
広告の配信先となる媒体ウェブページのカテゴリ条件を指定するカテゴリ指定情報と関連付けて広告情報を保持する広告情報保持部と、
ネットワークを介して媒体ウェブページを取得し、該媒体ウェブページのテキスト情報に基づいて、前もって設定されている複数のカテゴリの中から該媒体ウェブページが分類されるべきカテゴリを決定するページ解析部と、
前記ページ解析部により決定された媒体ウェブページのカテゴリが前記カテゴリ条件を満たしている広告情報を前記広告情報保持部から選択するマッチング部と、
ネットワークに接続された端末で前記媒体ウェブページが閲覧されるとき、その端末に対して前記マッチング部で選択された広告情報を前記媒体ウェブページとともに表示させる形態で送信する広告送信部と、を備え、
前記広告情報保持部は、広告の配信先となる媒体ウェブページのキーワードを指定する配信先キーワードに関連付けて前記広告情報を保持し、
前記ページ解析部は、媒体ウェブページからキーワード集合を抽出するキーワード抽出部をさらに備え、
前記マッチング部は、媒体ウェブページのキーワード集合に含まれる配信先キーワードが指定された広告情報を前記広告情報保持部から選択し、その後、選択された広告情報の中から前記ウェブページのカテゴリが前記カテゴリ条件を満足している広告情報を選択することを特徴とする広告配信装置。 A device for displaying an advertisement on a media web page provided on a network,
An advertisement information holding unit for holding advertisement information in association with category specification information for specifying category conditions of a medium web page to which an advertisement is distributed;
A page analysis unit for acquiring a media web page via a network and determining a category into which the media web page should be classified from a plurality of categories set in advance based on text information of the media web page; ,
A matching unit that selects, from the advertisement information holding unit, advertisement information in which the category of the medium web page determined by the page analysis unit satisfies the category condition;
When the medium web page is viewed on a terminal connected to a network, comprising an advertisement transmitting section which transmits the advertisement information selected by the matching unit for the terminal in a form to be displayed along with the medium web page, the ,
The advertisement information holding unit holds the advertisement information in association with a delivery destination keyword that specifies a keyword of a medium web page that is an advertisement delivery destination,
The page analysis unit further includes a keyword extraction unit that extracts a keyword set from the medium web page,
The matching unit selects advertisement information in which a delivery destination keyword included in a keyword set of a medium web page is designated from the advertisement information holding unit, and then the category of the web page is selected from the selected advertisement information. An advertisement distribution apparatus that selects advertisement information that satisfies a category condition .
前記広告情報保持部は、広告の配信先となる媒体ウェブページの帰属確率の下限値をカテゴリ毎に指定するカテゴリ指定情報と関連付けて前記広告情報を保持し、
前記マッチング部は、前記媒体ウェブページの帰属確率と前記広告情報に関連する帰属確率の下限値とを比較して、前記媒体ウェブページの帰属確率が前記下限値以上であるとき、対応する広告情報を前記広告情報保持部から選択することを特徴とする請求項1に記載の広告配信装置。 The page analysis unit further includes a sentence classification unit that calculates an attribution probability representing the probability that the medium web page belongs to a plurality of categories set in advance, for each category,
The advertisement information holding unit holds the advertisement information in association with category designation information for designating a lower limit value of the probability of attribution of the medium web page as a delivery destination of the advertisement for each category,
The matching unit compares the attribution probability of the medium web page with a lower limit value of the attribution probability related to the advertisement information, and when the attribution probability of the medium web page is equal to or more than the lower limit value, the corresponding advertisement information The advertisement distribution apparatus according to claim 1 , wherein the advertisement distribution apparatus is selected from the advertisement information holding unit.
前記広告送信部は、前記非表示カテゴリに分類される媒体ウェブページへの広告情報の送信を拒否することを特徴とする請求項3に記載の広告配信装置。 The advertisement information holding unit holds the advertisement information in association with category designation information that designates a non-display category that should avoid sending an advertisement,
The advertisement distribution apparatus according to claim 3 , wherein the advertisement transmission unit rejects transmission of advertisement information to a medium web page classified into the non-display category.
前記スクリプトプログラムは、ネットワークに接続された端末で前記媒体ウェブページが閲覧されたとき、該媒体ウェブページの情報を前記ページ解析部に送信する機能を有し、
前記ページ解析部は、前記スクリプトプログラムから送信された情報にしたがって前記媒体ウェブページを取得することを特徴とする請求項1に記載の広告配信装置。 A page management unit for transmitting the script program to the administrator's terminal of the medium web page in order to describe the script program for displaying the advertisement information transmitted from the advertisement transmission unit on the medium web page. In addition,
The script program has a function of transmitting information on the medium web page to the page analysis unit when the medium web page is viewed on a terminal connected to a network;
The advertisement distribution apparatus according to claim 1 , wherein the page analysis unit acquires the medium web page according to information transmitted from the script program.
前記スクリプトプログラムは、ネットワークに接続された端末で前記媒体ウェブページが閲覧されたとき、該媒体ウェブページの情報とともに前記コードを前記ページ解析部に送信する機能を有することを特徴とする請求項5に記載の広告配信装置。 The page management unit generates a code for specifying the administrator, embeds it in the script program, and transmits it.
The script program when said medium webpage a terminal connected to the network was viewed, claims, characterized in that together with the information of the medium web page has a function of transmitting the code to the page analysis unit 5 The advertisement distribution device described in 1.
広告の配信先となる媒体ウェブページのカテゴリ条件を指定するカテゴリ指定情報と関連付けて広告情報を所定の記憶領域に記憶させる広告情報保持機能と、
ネットワークを介して媒体ウェブページを取得する取得機能と、
取得した媒体ウェブページのテキスト情報に基づいて、前もって設定されている複数のカテゴリの中から該媒体ウェブページが分類されるべきカテゴリを決定するページ解析機能と、
前記ページ解析機能により決定された媒体ウェブページのカテゴリが前記カテゴリ条件を満たしている広告情報を前記記憶領域から選択するマッチング機能と、
ネットワークに接続された端末で前記媒体ウェブページが閲覧されるとき、その端末に対して前記マッチング機能で選択された広告情報を前記媒体ウェブページとともに表示させる形態で送信する広告送信機能と、
をコンピュータに実行させ、
前記広告情報保持機能は、広告の配信先となる媒体ウェブページのキーワードを指定する配信先キーワードに関連付けて前記広告情報を所定の記憶領域に記憶させる機能を含み、
前記ページ解析機能は、媒体ウェブページからキーワード集合を抽出するキーワード抽出機能を含み、
前記マッチング機能は、媒体ウェブページのキーワード集合に含まれる配信先キーワードが指定された広告情報を前記所定の記憶領域から選択し、その後、選択された広告情報の中から前記ウェブページのカテゴリが前記カテゴリ条件を満足している広告情報を選択する機能を含むことを特徴とする広告配信プログラム。 A program that displays advertisements on media web pages provided on a network,
An advertisement information holding function for storing the advertisement information in a predetermined storage area in association with the category designation information for designating the category condition of the medium web page to which the advertisement is distributed;
An acquisition function for acquiring a media web page via a network;
A page analysis function for determining a category in which the media web page should be classified from a plurality of categories set in advance based on the text information of the obtained media web page;
A matching function for selecting, from the storage area, advertisement information in which the category of the media web page determined by the page analysis function satisfies the category condition;
When the medium web page is viewed on a terminal connected to the network, an advertisement transmission function for transmitting the advertisement information selected by the matching function to the terminal in a form to be displayed together with the medium web page;
To the computer ,
The advertisement information holding function includes a function of storing the advertisement information in a predetermined storage area in association with a delivery destination keyword that specifies a keyword of a medium web page that is an advertisement delivery destination,
The page analysis function includes a keyword extraction function for extracting a keyword set from a medium web page,
The matching function selects advertisement information in which a delivery destination keyword included in a keyword set of a medium web page is specified from the predetermined storage area, and then the category of the web page is selected from the selected advertisement information. An advertisement distribution program including a function of selecting advertisement information that satisfies a category condition .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006278851A JP4940399B2 (en) | 2006-10-12 | 2006-10-12 | Advertisement distribution apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006278851A JP4940399B2 (en) | 2006-10-12 | 2006-10-12 | Advertisement distribution apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008097351A JP2008097351A (en) | 2008-04-24 |
JP4940399B2 true JP4940399B2 (en) | 2012-05-30 |
Family
ID=39380124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006278851A Expired - Fee Related JP4940399B2 (en) | 2006-10-12 | 2006-10-12 | Advertisement distribution apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4940399B2 (en) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5311378B2 (en) * | 2008-06-26 | 2013-10-09 | 国立大学法人京都大学 | Feature word automatic learning system, content-linked advertisement distribution computer system, search-linked advertisement distribution computer system, text classification computer system, and computer programs and methods thereof |
JP5408917B2 (en) * | 2008-07-09 | 2014-02-05 | Jetrunテクノロジ株式会社 | Ad distribution system |
US8145521B2 (en) | 2008-07-15 | 2012-03-27 | Google Inc. | Geographic and keyword context in embedded applications |
JP4809403B2 (en) * | 2008-08-01 | 2011-11-09 | ヤフー株式会社 | Advertisement distribution apparatus, advertisement distribution method, and advertisement distribution control program |
US20100076846A1 (en) * | 2008-09-25 | 2010-03-25 | Yahoo! Inc. | Interest manager |
JP5215816B2 (en) * | 2008-11-11 | 2013-06-19 | ヤフー株式会社 | Advertisement providing device |
US8886636B2 (en) | 2008-12-23 | 2014-11-11 | Yahoo! Inc. | Context transfer in search advertising |
JP5165616B2 (en) * | 2009-02-18 | 2013-03-21 | ヤフー株式会社 | Genre determination dictionary creation device, genre determination device and method |
JP4897846B2 (en) * | 2009-03-17 | 2012-03-14 | ヤフー株式会社 | Related information providing apparatus, system thereof, program thereof, and method thereof |
JP2010237779A (en) * | 2009-03-30 | 2010-10-21 | Mitsubishi Space Software Kk | Advertisement selection server, advertisement selection method, and program |
JP4953474B2 (en) * | 2009-07-28 | 2012-06-13 | ヤフー株式会社 | SNS site introduction server and SNS site introduction method |
JP5483506B2 (en) * | 2010-06-25 | 2014-05-07 | 日本電気通信システム株式会社 | Information classification system |
JP5220090B2 (en) * | 2010-12-28 | 2013-06-26 | ヤフー株式会社 | Advertisement distribution apparatus, advertisement distribution method and program |
JP5648008B2 (en) * | 2012-03-19 | 2015-01-07 | 日本電信電話株式会社 | Document classification method, apparatus, and program |
KR101979721B1 (en) * | 2012-10-23 | 2019-05-17 | 에스케이플래닛 주식회사 | System and method for advertisement service, and apparatus applied to the same |
US10000217B2 (en) | 2015-09-03 | 2018-06-19 | Yahoo Japan Corporation | Notification-needed information presenting apparatus, notification-needed information presenting method, and non-transitory computer readable storage medium |
JP6686243B2 (en) * | 2015-11-20 | 2020-04-22 | 株式会社オープンエイト | Video ad distribution server and program |
CN110753939B (en) * | 2017-06-07 | 2024-03-01 | 三菱电机楼宇解决方案株式会社 | Data name classification auxiliary device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001344169A (en) * | 2000-06-01 | 2001-12-14 | Internatl Business Mach Corp <Ibm> | Network system, server, web server, web page, data processing method, storage medium, and program transmitting device |
JP2003030234A (en) * | 2001-07-18 | 2003-01-31 | Toshiba Tec Corp | System for automatically recognizing individual interest |
JP4902200B2 (en) * | 2002-09-24 | 2012-03-21 | グーグル インコーポレイテッド | Provide content-related advertising with client-side device support |
JP2006195974A (en) * | 2005-01-14 | 2006-07-27 | Adsclick Sa | Platform managing display as target of advertisement in computer network |
JP2007272814A (en) * | 2006-03-31 | 2007-10-18 | Cyber Wing Corp | System, method and program for advertisement distribution |
-
2006
- 2006-10-12 JP JP2006278851A patent/JP4940399B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008097351A (en) | 2008-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4940399B2 (en) | Advertisement distribution apparatus and program | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
CN101288067B (en) | Methods and apparatuses to assemble, extract and deploy content from electronic documents | |
TWI544352B (en) | System and method to facilitate matching of content to advertising information in a network | |
CN104484431B (en) | A kind of multi-source Personalize News webpage recommending method based on domain body | |
US9639846B2 (en) | System and method for providing targeted content | |
US20140108143A1 (en) | Social content distribution network | |
US20080177708A1 (en) | System and method for providing persistent, dynamic, navigable and collaborative multi-media information packages | |
US9672269B2 (en) | Method and system for automatically identifying related content to an electronic text | |
JP2007272814A (en) | System, method and program for advertisement distribution | |
CN101385025A (en) | Analyzing content to determine context and serving relevant content based on the context | |
JP2006293767A (en) | Sentence categorizing device, sentence categorizing method, and categorization dictionary creating device | |
US20120216107A1 (en) | Characteristic content determination program, characteristic content determination device, characteristic content determination method, recording medium, content generation device, and related content insertion device | |
US11907644B2 (en) | Detecting compatible layouts for content-based native ads | |
US10783192B1 (en) | System, method, and user interface for a search engine based on multi-document summarization | |
JP2007018285A (en) | System, method, device, and program for providing information | |
US20140025496A1 (en) | Social content distribution network | |
JP4743766B2 (en) | Impression determination system, advertisement article generation system, impression determination method, advertisement article generation method, impression determination program, and advertisement article generation program | |
CN112328857A (en) | Product knowledge aggregation method and device, computer equipment and storage medium | |
KR101518488B1 (en) | Value enhancing method and system of online contents | |
KR100495034B1 (en) | Information suppling system and method with info-box | |
WO2008032037A1 (en) | Method and system for filtering and searching data using word frequencies | |
JP2019175212A (en) | Information display device, article page generation device, information processing device, information display system, and program | |
JP2016197332A (en) | Information processing system, information processing method, and computer program | |
Thakkar | Twitter sentiment analysis using hybrid naive Bayes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111220 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20120112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4940399 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150309 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |