JP5215877B2 - Region characteristic dictionary generation method and apparatus - Google Patents

Region characteristic dictionary generation method and apparatus Download PDF

Info

Publication number
JP5215877B2
JP5215877B2 JP2009000560A JP2009000560A JP5215877B2 JP 5215877 B2 JP5215877 B2 JP 5215877B2 JP 2009000560 A JP2009000560 A JP 2009000560A JP 2009000560 A JP2009000560 A JP 2009000560A JP 5215877 B2 JP5215877 B2 JP 5215877B2
Authority
JP
Japan
Prior art keywords
term
regional
blogs
blog
family
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009000560A
Other languages
Japanese (ja)
Other versions
JP2010160534A (en
Inventor
祐 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009000560A priority Critical patent/JP5215877B2/en
Publication of JP2010160534A publication Critical patent/JP2010160534A/en
Application granted granted Critical
Publication of JP5215877B2 publication Critical patent/JP5215877B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、地域特性辞書を生成する方法及び装置に関する。   The present invention relates to a method and apparatus for generating a regional characteristic dictionary.

従来、閲覧したWebサイトに含まれるWebコンテンツの内容に連動した広告を提供可能な広告配信システムを提供することが示されている(例えば、特許文献1)。特許文献1に記載の広告配信システムでは、広告掲載Webサイトの広告掲載対象コンテンツの内容からキーワード及びトピックを抽出して広告掲載対象コンテンツのアドレス情報と対応付けて予め蓄積しておき、閲覧者が広告掲載対象コンテンツへのアクセス要求をした場合に、アクセスした広告掲載対象コンテンツのアドレス情報に対応するキーワード及びトピックにより広告を検索し、広告付きのコンテンツを閲覧者に提供することが示されている。   Conventionally, it has been shown that an advertisement distribution system capable of providing an advertisement linked to the content of Web content included in a browsed Web site is provided (for example, Patent Document 1). In the advertisement distribution system described in Patent Literature 1, keywords and topics are extracted from the contents of advertisement insertion target contents on the advertisement insertion website, and are stored in advance in association with the address information of the advertisement insertion target contents. It is shown that when an access request to advertisement insertion target content is made, an advertisement is searched by a keyword and a topic corresponding to the address information of the accessed advertisement insertion target content, and the content with the advertisement is provided to the viewer. .

特開2007−286833号公報JP 2007-286833 A

しかしながら、特許文献1に記載の方法では、広告掲載Webサイトの広告掲載対象コンテンツの内容からキーワード及びトピックといった特徴語を抽出し、特徴語に連動した広告を配信するに過ぎず、例えば、地域毎に特徴語を抽出することについては示されていない。このため、地域毎の特徴語に連動した広告を配信することができない。   However, in the method described in Patent Document 1, feature words such as keywords and topics are extracted from the content of the advertisement insertion target content of the advertisement posting website, and advertisements linked to the feature words are only distributed. There is no indication of extracting feature words. For this reason, the advertisement linked to the feature word for each region cannot be distributed.

本発明は、このような従来の問題点に鑑みて提案されたものであり、その目的は、地域毎に特徴語を抽出して、特徴語に関する地域特性辞書を生成する方法及び装置を提供することにある。   The present invention has been proposed in view of such conventional problems, and an object of the present invention is to provide a method and apparatus for extracting a feature word for each region and generating a regional characteristic dictionary related to the feature word. There is.

本発明では、以下のような解決手段を提供する。   The present invention provides the following solutions.

(1) 特定地域ブログに含まれる特徴語を用語の出現頻度の偏りから抽出して、特徴語に関する地域特性辞書を生成する地域特性辞書生成方法であって、
複数の地域ブログから用語を抽出して、特定地域における該用語の出現数の合計値を計数するステップと、
前記地域ブログの数量及び前記用語が含まれている地域ブログの数量を計数するステップと、
前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を行い、前記特定地域における前記用語の出現頻度の偏差を算出するステップと、
前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記特定地域の地域特性辞書に前記用語を登録するステップと、
を備えることを特徴とする地域特性辞書生成方法。
(1) A regional characteristic dictionary generation method for generating a regional characteristic dictionary related to a characteristic word by extracting characteristic words included in a specific regional blog from the bias of appearance frequency of terms,
Extracting terms from a plurality of regional blogs and counting the total number of occurrences of the terms in a specific region;
Counting the number of regional blogs and the number of regional blogs containing the term;
Performing a predetermined calculation based on the total value, the quantity of the regional blog, and the quantity of the regional blog including the term, and calculating a deviation of the appearance frequency of the term in the specific area;
When the calculated deviation is greater than a predetermined threshold, registering the term in the regional characteristic dictionary of the specific region;
A regional characteristic dictionary generation method comprising:

(1)記載の地域特性辞書生成方法によれば、複数の地域ブログから用語を抽出して、特定地域における該用語の出現数の合計値を計数する。そして、地域ブログの数量及び用語が含まれている地域ブログの数量を計数する。そして、用語の出現数の合計値、地域ブログの数量、及び用語が含まれている地域ブログの数量に基づいて所定の演算を行い、特定地域における用語の出現頻度の偏差を算出する。そして、算出した偏差が予め定めた閾値よりも大きい場合に、特定地域の地域特性辞書に用語を登録する。   (1) According to the regional characteristic dictionary generation method described in (1), terms are extracted from a plurality of regional blogs, and the total number of occurrences of the terms in a specific region is counted. Then, the number of regional blogs and the number of regional blogs containing terms are counted. Then, a predetermined calculation is performed based on the total value of the number of appearances of terms, the number of regional blogs, and the number of regional blogs containing the terms, and the deviation of the appearance frequency of terms in a specific region is calculated. When the calculated deviation is larger than a predetermined threshold, the term is registered in the regional characteristic dictionary of the specific region.

このような方法によれば、所定の演算を行うことで特定地域における用語の出現頻度の偏差を算出することができる。そして、算出した偏差が、予め定めた閾値よりも大きい場合に、特定地域の地域特性辞書に用語を登録することができる。よって、地域ブログに含まれている用語のうち、特定地域における地域ブログで出現頻度の高い用語を特徴語とすることができるので、地域毎に特徴語を抽出して、特徴語に関する地域特性辞書を生成できる。   According to such a method, the deviation of the appearance frequency of the term in the specific area can be calculated by performing a predetermined calculation. When the calculated deviation is larger than a predetermined threshold, the term can be registered in the regional characteristic dictionary of the specific region. Therefore, among terms included in regional blogs, terms that appear frequently in regional blogs in a specific region can be used as feature words. Therefore, feature words are extracted for each region, and a regional characteristic dictionary related to feature words. Can be generated.

(2) 前記用語の出現頻度の偏差を算出するステップは、前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を次の数式で行い、前記特定地域における前記用語の出現頻度の偏差を算出することを特徴とする(1)記載の地域特性辞書生成方法。

Figure 0005215877
ただし、A:特定地域
t:用語
D(A,t):特定地域Aにおける用語tの出現頻度の偏差
TF(A,t):特定地域Aにおける用語tの出現数の合計値
DF(t):用語tが含まれている地域ブログの数量
N:地域ブログの数量 (2) The step of calculating a deviation of the appearance frequency of the term performs a predetermined calculation based on the total value, the quantity of the local blog, and the quantity of the local blog including the term by the following formula: The regional characteristic dictionary generation method according to (1), wherein a deviation of the appearance frequency of the term in the specific area is calculated.
Figure 0005215877
However, A: Specific area
t: Term
D (A, t): Deviation in frequency of appearance of term t in specific area A
TF (A, t): Total number of occurrences of the term t in the specific area A
DF (t): Number of local blogs containing the term t
N: Number of regional blogs

(2)記載の地域特性辞書生成方法によれば、D(A,t)値は、TF(A,t)が大きい場合及びDF(t)が小さい場合に値が大きくなる。すなわち、TF(A,t)が大きい場合は、用語tが特定地域Aにおいて頻繁に使用されていることが示され、D(A,t)が小さい場合は、用語tが使用されている地域ブログの数が少なく、用語tの利用頻度が特定地域Aを含む限られた地域で使用されていることが示される。よって、特定地域Aにおける用語tの出現頻度の偏差D(A,t)を適切に算出することができる。   (2) According to the regional characteristic dictionary generation method described in (2), the D (A, t) value increases when TF (A, t) is large and DF (t) is small. That is, when TF (A, t) is large, it is indicated that the term t is frequently used in the specific area A, and when D (A, t) is small, the area where the term t is used. This indicates that the number of blogs is small and the usage frequency of the term t is used in a limited area including the specific area A. Therefore, the deviation D (A, t) of the appearance frequency of the term t in the specific area A can be calculated appropriately.

(3) 前記用語の出現数の合計値を計数するステップは、複数の前記地域ブログに対して該地域ブログのユーザが書き込んだ情報のうち、所定の期間内に該ユーザが書き込んだ情報を収集し、該所定の期間内に該ユーザが書き込んだ情報から前記用語を抽出して、前記特定地域における該用語の出現数の合計値を計数することを特徴とする(1)又は(2)に記載の地域特性辞書生成方法。   (3) The step of counting the total number of occurrences of the terms includes collecting information written by the user within a predetermined period of information written by the user of the regional blog for the plurality of regional blogs. (1) or (2), wherein the term is extracted from the information written by the user within the predetermined period and the total number of occurrences of the term in the specific area is counted. The regional characteristic dictionary generation method described.

(3)記載の地域特性辞書生成方法によれば、複数の地域ブログに対して該地域ブログのユーザが書き込んだ情報のうち、所定の期間内に該ユーザが書き込んだ情報を収集し、該所定の期間内に該ユーザが書き込んだ情報から用語を抽出して、特定地域における該用語の出現数の合計値を計数する。このようにすることで、所定の期間内において所定の地域で出現頻度が高い用語をモニタリングすることができる。すなわち、特定の地域において利用される用語の流行を知ることができる。   (3) According to the regional characteristic dictionary generating method described in (3), among the information written by a user of the regional blog for a plurality of regional blogs, the information written by the user within a predetermined period is collected, and the predetermined The term is extracted from the information written by the user within the period, and the total number of occurrences of the term in a specific area is counted. By doing in this way, it is possible to monitor terms having a high appearance frequency in a predetermined area within a predetermined period. That is, it is possible to know the fashion of terms used in a specific area.

(4) 複数のブログから構成される家族ブログに含まれる特徴語を用語の出現頻度の偏りから抽出して、家族内におけるユーザの特性辞書を生成する家族内特性辞書生成方法であって、
家族ブログから用語を抽出して、該家族ブログにおける該用語の出現数の合計値を計数するステップと、
前記家族を構成するユーザのブログの数量及び前記用語が含まれている前記ユーザのブログの数量を計数するステップと、
前記合計値、前記家族を構成するユーザのブログの数量、及び前記用語が含まれている前記ユーザのブログの数量に基づいて所定の演算を行い、前記ユーザのブログにおける前記用語の出現頻度の偏差を算出するステップと、
前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記ユーザの特性辞書に前記用語を登録するステップと、
を備えることを特徴とする家族内特性辞書生成方法。
(4) A family characteristic dictionary generation method for extracting characteristic words included in a family blog composed of a plurality of blogs from bias in appearance frequency of terms and generating a user characteristic dictionary in the family,
Extracting terms from a family blog and counting the total number of occurrences of the terms in the family blog;
Counting the number of blogs of users that make up the family and the number of blogs of the users that contain the term;
A predetermined calculation is performed based on the total value, the number of blogs of the users that constitute the family, and the number of blogs of the users that include the terms, and a deviation in the appearance frequency of the terms in the blogs of the users Calculating steps,
Registering the term in the user's characteristic dictionary if the calculated deviation is greater than a predetermined threshold;
A family characteristic dictionary generation method characterized by comprising:

(4)記載の家族内特性辞書生成方法によれば、家族ブログから用語を抽出して、該家族ブログにおける該用語の出現数の合計値を計数し、家族を構成するユーザのブログの数量及び用語が含まれているユーザのブログの数量を計数する。そして、合計値、家族を構成するユーザのブログの数量、及び用語が含まれているユーザのブログの数量に基づいて所定の演算を行い、ユーザのブログにおける用語の出現頻度の偏差を算出し、算出した偏差が予め定めた閾値よりも大きい場合に、ユーザの特性辞書に用語を登録する。このような方法によれば、家族内の特定のユーザが使用する特徴語について把握することができる。   (4) According to the family characteristic dictionary generating method described in (4), terms are extracted from a family blog, the total number of occurrences of the term in the family blog is counted, and the number of blogs of users constituting the family and Count the number of user blogs that contain the term. Then, a predetermined calculation is performed based on the total value, the number of users 'blogs constituting the family, and the number of users' blogs including the terms, and the deviation of the appearance frequency of the terms in the user's blog is calculated, If the calculated deviation is greater than a predetermined threshold, the term is registered in the user's characteristic dictionary. According to such a method, it is possible to grasp a feature word used by a specific user in the family.

(5) 特定地域ブログに含まれる特徴語を用語の出現頻度の偏りから抽出して、特徴語に関する地域特性辞書を生成する地域特性辞書生成装置であって、
複数の地域ブログから用語を抽出して、特定地域における該用語の出現数の合計値を計数する用語出現数計数手段と、
前記地域ブログの数量及び前記用語が含まれている地域ブログの数量を計数するブログ数計数手段と、
前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を行い、前記特定地域における前記用語の出現頻度の偏差を算出する用語出現偏差算出手段と、
前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記特定地域の地域特性辞書に、前記用語を登録する辞書登録手段と、
を備えることを特徴とする地域特性辞書生成装置。
(5) A regional characteristic dictionary generation device that extracts a characteristic word included in a specific regional blog from a bias in appearance frequency of terms and generates a regional characteristic dictionary related to the characteristic word,
A term appearance counting means for extracting terms from a plurality of regional blogs and counting the total number of occurrences of the terms in a specific area;
Blog number counting means for counting the number of regional blogs and the number of regional blogs containing the term;
Term appearance deviation calculating means for performing a predetermined calculation based on the total value, the number of regional blogs, and the number of regional blogs including the terms, and calculating a deviation of the appearance frequency of the terms in the specific region When,
When the calculated deviation is larger than a predetermined threshold value, a dictionary registration unit that registers the term in an area characteristic dictionary of the specific area;
A regional characteristic dictionary generating device comprising:

このような構成によれば、当該装置を構築することにより、(1)と同様の効果が期待できる。   According to such a configuration, the same effect as in (1) can be expected by constructing the device.

本発明によれば、地域毎に特徴語を抽出して、特徴語に関する地域特性辞書を生成する方法及び装置を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the method and apparatus which extract the characteristic word for every area and produce | generate the area characteristic dictionary regarding a characteristic word can be provided.

第1実施形態に係るシステムの全体構成、及びその中核となる地域特性辞書生成サーバ1の機能ブロックを示す図である。It is a figure which shows the functional block of the whole area | region structure of the system which concerns on 1st Embodiment, and the regional characteristic dictionary production | generation server 1 used as the core. 第1実施形態に係る集計DB21を示す図である。It is a figure showing tabulation DB21 concerning a 1st embodiment. 第1実施形態に係る辞書DB22を示す図である。It is a figure which shows dictionary DB22 which concerns on 1st Embodiment. 第1実施形態に係る地域特性辞書生成サーバ1のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the area characteristic dictionary production | generation server 1 which concerns on 1st Embodiment. 第1実施形態に係る地域特性辞書生成サーバ1により、地域特性辞書に特徴語が登録されるまでの処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process until the characteristic word is registered into an area characteristic dictionary by the area characteristic dictionary production | generation server 1 which concerns on 1st Embodiment. 第2実施形態に係る広告配信サーバ4の機能構成を示す図である。It is a figure which shows the function structure of the advertisement delivery server 4 which concerns on 2nd Embodiment. 第2実施形態に係る地域DB121を示す図である。It is a figure which shows area DB121 which concerns on 2nd Embodiment. 第2実施形態に係る知識DB122に格納された用語テーブル122aを示す図である。It is a figure which shows the term table 122a stored in knowledge DB122 which concerns on 2nd Embodiment. 第2実施形態に係る知識DB122に格納された知識テーブル122bを示す図である。It is a figure showing knowledge table 122b stored in knowledge DB122 concerning a 2nd embodiment. 第2実施形態に係る広告DB123を示す図である。It is a figure which shows advertisement DB123 which concerns on 2nd Embodiment. 第2実施形態に係る広告配信サーバ4によりカテゴリ毎の知識レベルが決定されるまでの処理を示すフローチャートである。It is a flowchart which shows the process until the knowledge level for every category is determined by the advertisement delivery server 4 which concerns on 2nd Embodiment. 第2実施形態に係る閲覧端末5が広告配信サーバ4にアクセスしてから広告が配信されるまでの処理を示すフローチャートである。It is a flowchart which shows the process after the browsing terminal 5 which concerns on 2nd Embodiment accesses the advertisement delivery server 4, until an advertisement is delivered. 第2実施形態に係る閲覧端末5に対して広告が配信されたときの表示例を示す図である。It is a figure which shows the example of a display when an advertisement is delivered with respect to the browsing terminal 5 which concerns on 2nd Embodiment. 第2実施形態に係る閲覧端末5に対して広告が配信されたときの表示例を示す別の図である。It is another figure which shows the example of a display when an advertisement is delivered with respect to the browsing terminal 5 which concerns on 2nd Embodiment.

以下、本発明の実施形態について図を参照しながら説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(第1実施形態)
[システム全体構成]
図1は、第1実施形態に係るシステムの全体構成、及びその中核となる地域特性辞書生成サーバ1の機能ブロックを示す図である。
(First embodiment)
[Entire system configuration]
FIG. 1 is a diagram showing an overall configuration of a system according to the first embodiment and functional blocks of a regional characteristic dictionary generation server 1 that is the core of the system.

本システムの全体構成としては、地域特性辞書を生成する地域特性辞書生成サーバ1が、複数のブログサーバ2と通信ネットワーク3を介して接続される。通信ネットワーク3は、任意の通信ネットワークであってよく、LAN(Local Area Network)、WAN(Wide Area Network)、又は、インターネットであってよい。地域特性辞書生成サーバ1は、複数のブログサーバ2に格納されている地域ブログから用語を抽出して、所定の演算を行うことにより特定地域における当該用語の出現頻度の偏差を算出し、予め定めた閾値よりも大きい場合に、当該用語を特徴語として当該特定地域の地域特性辞書に登録する。   As an overall configuration of this system, a regional characteristic dictionary generation server 1 that generates a regional characteristic dictionary is connected to a plurality of blog servers 2 via a communication network 3. The communication network 3 may be an arbitrary communication network, and may be a LAN (Local Area Network), a WAN (Wide Area Network), or the Internet. The regional characteristic dictionary generation server 1 extracts a term from regional blogs stored in a plurality of blog servers 2 and calculates a deviation of the appearance frequency of the term in a specific region by performing a predetermined calculation. If the threshold is larger than the threshold, the term is registered as a feature word in the regional characteristic dictionary of the specific region.

なお、地域ブログとは、地域別に分類可能なブログであり、例えば、地域カテゴリにより地域情報が付加されているブログが該当する。また、ブログを利用するユーザの属性として地域情報が付与されているブログも、当該地域情報によりブログを地域別に分類可能であるため、地域ブログとしてもよい。   The regional blog is a blog that can be classified by region, for example, a blog to which region information is added according to a region category. Also, a blog to which regional information is given as an attribute of a user who uses the blog may be a regional blog because the blog can be classified by region based on the regional information.

[機能構成]
地域特性辞書生成サーバ1は、制御部10と、記憶部20とを備える。そして、制御部10は、ブログ情報収集部11と、用語出現数計数部12と、ブログ数計数部13と、用語出現偏差算出部14と、辞書登録部15とを備える。また、記憶部20は、集計データベース(以下、データベースをDBという)21と、辞書DB22とを備える。
[Function configuration]
The regional characteristic dictionary generation server 1 includes a control unit 10 and a storage unit 20. The control unit 10 includes a blog information collection unit 11, a term appearance number counting unit 12, a blog number counting unit 13, a term appearance deviation calculating unit 14, and a dictionary registration unit 15. In addition, the storage unit 20 includes a summary database (hereinafter, the database is referred to as DB) 21 and a dictionary DB 22.

ブログ情報収集部11は、複数のブログサーバ2に格納されているブログのうち、地域ブログの情報を収集する。地域ブログの情報としては、地域ブログが属する地域や、ユーザがブログに書き込んだ情報や、ブログ又はブログに書き込んだ情報に付与されたタグ等が含まれる。   The blog information collection unit 11 collects regional blog information among the blogs stored in the plurality of blog servers 2. The regional blog information includes the region to which the regional blog belongs, information written on the blog by the user, tags attached to the blog or information written on the blog, and the like.

なお、第1実施形態では、地域ブログの情報を特に期間を指定せずに収集することとしたが、これに限らない。例えば、ブログ情報収集部11は、地域ブログに対して当該地域ブログのユーザが書き込んだ情報のうち、所定の期間内に当該ユーザが書き込んだ情報を収集することとしてもよい。このようにすることで、地域特性辞書生成サーバ1は、所定の期間内に地域ブログのユーザが書き込んだ情報を収集できるので、後述の用語出現偏差算出部14及び辞書登録部15により、所定の期間内において所定の地域で出現頻度が高い用語をモニタリングすることができる。すなわち、特定の地域において利用される用語の流行を知ることができる。   In the first embodiment, the information on the local blog is collected without particularly specifying the period, but the present invention is not limited to this. For example, the blog information collection unit 11 may collect information written by the user within a predetermined period from information written by the user of the local blog with respect to the local blog. By doing so, the regional characteristic dictionary generation server 1 can collect information written by the user of the local blog within a predetermined period, so that the term appearance deviation calculating unit 14 and the dictionary registering unit 15 described below can perform predetermined processing. It is possible to monitor terms having a high appearance frequency in a predetermined area within the period. That is, it is possible to know the fashion of terms used in a specific area.

用語出現数計数部12は、ブログ情報収集部11により収集された地域ブログの情報より用語を抽出する。そして、抽出した用語の数、すなわち、用語の出現数の合計値を地域毎に計数し、計数した結果を集計DB21(後述の図2参照)に記憶する。より具体的には、用語出現数計数部12は、ブログ情報収集部11により収集された地域ブログの情報について、形態素解析を行うことで複数の用語を抽出し、抽出したそれぞれの用語が当該地域ブログの情報において含まれている数を計数する。さらに、計数されたそれぞれの用語について、地域ブログが属する地域毎に計数して集計DB21に記憶する。   The term appearance number counting unit 12 extracts terms from the local blog information collected by the blog information collecting unit 11. Then, the number of extracted terms, that is, the total number of occurrences of terms is counted for each region, and the counted result is stored in the tabulation DB 21 (see FIG. 2 described later). More specifically, the term appearance number counting unit 12 extracts a plurality of terms by performing morphological analysis on the information of the local blog collected by the blog information collecting unit 11, and each of the extracted terms is the corresponding region. Count the number contained in the blog information. Further, the counted terms are counted for each region to which the regional blog belongs and stored in the tabulation DB 21.

なお、第1実施形態では、形態素解析を行うことにより用語を抽出することとしたが、これに限らない。例えば、地域特性辞書生成サーバ1に用語DBを設け、当該用語DBに記憶されている用語について、地域ブログの情報に含まれる数を計数することとしてもよい。また、所定のWebサーバより辞書データを取得して、当該辞書データに登録されている名詞や動詞等を計数する対象の用語として利用することとしてもよい。   In the first embodiment, terms are extracted by performing morphological analysis, but the present invention is not limited to this. For example, a term DB may be provided in the regional characteristic dictionary generation server 1 and the number of terms stored in the regional blog information for the terms stored in the term DB may be counted. Moreover, it is good also as acquiring the dictionary data from a predetermined | prescribed Web server, and using as a target term which counts the noun, verb, etc. which are registered into the said dictionary data.

ブログ数計数部13は、地域ブログの数量及び用語が含まれている地域ブログの数量を計数する。   The blog number counting unit 13 counts the number of regional blogs including the number of local blogs and terms.

用語出現偏差算出部14は、特定地域における用語の出現数の合計値、地域ブログの数量、及び用語が含まれている地域ブログの数量に基づいて所定の演算を行い、特定地域における用語の出現頻度の偏差を算出する。出現頻度の偏差をD(Deviation)とし、用語をtとすると、特定地域Aにおける用語tの出現頻度の偏差D(A,t)は、

Figure 0005215877
により算出される。
TF(A,t)は、特定地域Aにおける用語tの出現数の合計値を示す。
DF(t)は、用語tが含まれている地域ブログの数量を示す。
Nは、地域ブログの数量を示す。 The term appearance deviation calculation unit 14 performs a predetermined calculation based on the total number of terms appearing in a specific region, the number of regional blogs, and the number of regional blogs containing the terms, and the appearance of terms in the specific region Calculate frequency deviation. When the deviation of the appearance frequency is D (Devation) and the term is t, the deviation D (A, t) of the appearance frequency of the term t in the specific area A is
Figure 0005215877
Is calculated by
TF (A, t) indicates the total number of occurrences of the term t in the specific area A.
DF (t) indicates the number of regional blogs that include the term t.
N indicates the number of regional blogs.

上述の式によると、D(A,t)値は、TF(A,t)が大きい場合及びDF(t)が小さい場合に値が大きくなる。すなわち、TF(A,t)が大きい場合は、用語tが特定地域Aにおいて頻繁に使用されていることが示され、D(A,t)が小さい場合は、用語tが使用されている地域ブログの数が少なく、用語tの利用頻度が特定地域Aを含む地域に限られて使用されていることが示される。よって、特定地域Aにおける用語tの出現頻度の偏差D(A,t)を適切に算出することができる。   According to the above formula, the D (A, t) value increases when TF (A, t) is large and DF (t) is small. That is, when TF (A, t) is large, it is indicated that the term t is frequently used in the specific area A, and when D (A, t) is small, the area where the term t is used. It is shown that the number of blogs is small and the usage frequency of the term t is limited to an area including the specific area A. Therefore, the deviation D (A, t) of the appearance frequency of the term t in the specific area A can be calculated appropriately.

あるいは、DF(t)を用語tが含まれている地域ブログを含む地域の数量を示し、Nが全地域の数(例えば、全地域が都道府県であれば47)を示すこととしてもよい。このようにすることで、ブログの数によらずに地域毎の用語の出現頻度の偏差を算出することができる。   Alternatively, DF (t) may indicate the quantity of the area including the area blog including the term t, and N may indicate the number of all areas (for example, 47 if all areas are prefectures). By doing in this way, the deviation of the appearance frequency of the term for every area can be calculated irrespective of the number of blogs.

なお、第1実施形態では、地域における用語の出現頻度の偏差を算出することとしたが、これに限らない。例えば、ある家族のブログについて、家族ブログにおける用語の出現数の合計値、家族ブログを構成するユーザのブログの数量、及び用語が含まれている当該家族内のユーザのブログの数量に基づいて所定の演算を行い、家族における用語の出現頻度の偏差を算出することとしてもよい。この場合には、家族Fにおける用語tの出現頻度の偏差D(F,t)は、

Figure 0005215877
により算出される。
TF(F,t)は、家族Fにおける用語tの出現数の合計値を示す。
DF(t)は、用語tが含まれている家族ブログを構成するユーザのブログの数量を示す。
Nは、ある家族において家族ブログを構成するユーザのブログの数量を示す。 In the first embodiment, the deviation of the appearance frequency of terms in a region is calculated, but the present invention is not limited to this. For example, for a blog of a family, predetermined based on the total number of occurrences of terms in the family blog, the number of blogs of users who make up the family blog, and the number of blogs of users in the family that include the term It is good also as calculating the deviation of the appearance frequency of the term in a family. In this case, the deviation D (F, t) of the appearance frequency of the term t in the family F is
Figure 0005215877
Is calculated by
TF (F, t) indicates the total number of occurrences of the term t in the family F.
DF (t) indicates the number of blogs of users constituting the family blog including the term t.
N indicates the number of blogs of users who constitute a family blog in a certain family.

なお、地域特性辞書生成サーバ1は、家族における用語の出現頻度の偏差を算出する場合には、記憶部20に対して家族及びその家族の構成を示す家族DBを設けることを必要とする。そして、ブログ情報収集部11は、ブログサーバ2に格納されているブログのうち、家族のブログの情報を収集する。また、用語出現数計数部12は、収集された家族のブログの情報より用語を抽出し、用語の出現数の合計値を家族毎に計数し、計数した結果を集計DB21に記憶する。また、ブログ数計数部13は、家族のブログの数量及び用語が含まれている家族のブログの数量を計数する。また、後述の辞書登録部15は、算出した偏差D(A,t)が予め定めた閾値よりも大きい場合に、ユーザの特性辞書に当該用語を登録する。このようにすることで、家族内で特定のユーザが使用する特徴語について把握することができる。   In addition, when calculating the deviation of the appearance frequency of terms in a family, the regional characteristic dictionary generation server 1 needs to provide a family DB indicating the family and the structure of the family in the storage unit 20. Then, the blog information collection unit 11 collects family blog information among the blogs stored in the blog server 2. In addition, the term appearance number counting unit 12 extracts terms from the collected family blog information, counts the total number of terms appearing for each family, and stores the counted result in the tabulation DB 21. In addition, the blog number counting unit 13 counts the number of family blogs and the number of family blogs including terms. Moreover, the dictionary registration part 15 mentioned later registers the said term in a user's characteristic dictionary, when the calculated deviation D (A, t) is larger than a predetermined threshold value. By doing in this way, it can grasp | ascertain about the characteristic word which a specific user uses within a family.

辞書登録部15は、用語出現偏差算出部14により算出した用語の出現頻度の偏差が予め定めた閾値よりも大きい場合に、用語の出現頻度の偏差を算出した地域の地域特性辞書である辞書DB22に、当該用語を登録する。より具体的には、特定地域Aにおいて用語tの出現頻度D(A,t)が予め定めた閾値よりも大きいか否かを判別する。閾値よりも大きい場合には、用語tが特定の地域で使用される特徴語であるとして、辞書DB22に用語tを登録する。また、閾値よりも大きくない場合には、用語tが特定の地域で使用される特徴語ではないとして辞書DB22に用語tを登録しない。   The dictionary registration unit 15 is a dictionary DB 22 that is a regional characteristic dictionary of a region where the deviation of the appearance frequency of terms is calculated when the deviation of the appearance frequency of terms calculated by the term appearance deviation calculation unit 14 is larger than a predetermined threshold. Register the term. More specifically, it is determined whether or not the appearance frequency D (A, t) of the term t in the specific area A is greater than a predetermined threshold value. If it is larger than the threshold value, the term t is registered in the dictionary DB 22 on the assumption that the term t is a feature word used in a specific area. If it is not larger than the threshold value, the term t is not registered in the dictionary DB 22 because the term t is not a feature word used in a specific area.

なお、閾値は予め定めることとしているが、以下のように求めてもよい。すなわち、全ての地域において用語tの出現頻度D(t)を算出すると、出現頻度D(t)の平均値と、標準偏差とが求められる。そして、標準偏差に所定値を掛けて算出した値を平均値に足すことで得られる値を閾値としてよい。例えば、出現頻度D(t)が正規分布に従うときに、所定値が2であるとすると、閾値より大きい値を持つ地域は全体の約2.3%となる。このように閾値を定めることで、特定の地域でしか使用されていない用語、すなわち特徴語を地域特性辞書に登録することができる。   Although the threshold is determined in advance, it may be obtained as follows. That is, when the appearance frequency D (t) of the term t is calculated in all regions, the average value of the appearance frequency D (t) and the standard deviation are obtained. Then, a value obtained by multiplying the standard deviation by a predetermined value and adding it to the average value may be used as the threshold value. For example, when the appearance frequency D (t) follows a normal distribution and the predetermined value is 2, the area having a value larger than the threshold is about 2.3% of the whole. By defining the threshold value in this manner, terms that are used only in a specific region, that is, feature words can be registered in the region characteristic dictionary.

図2は、第1実施形態に係る集計DB21を示す図である。集計DB21には、集計された用語を示す「用語」フィールドと、集計された地域を示す「地域」フィールドと、集計した地域における用語の集計値を示す「集計値」フィールドとが含まれている。集計DB21は、用語出現数計数部12により地域毎の用語の集計値が算出されると、当該集計値が地域毎に記憶される。また、用語出現偏差算出部14により、用語の出現偏差を算出するときに参照される。   FIG. 2 is a diagram illustrating the aggregation DB 21 according to the first embodiment. The tabulation DB 21 includes a “term” field indicating the tabulated term, a “region” field indicating the tabulated region, and a “tabulation value” field indicating the tabulated value of the term in the tabulated region. . When the term appearance count counter 12 calculates a term summation value for each region, the summation DB 21 stores the summation value for each region. In addition, the term appearance deviation calculation unit 14 is referred to when the term appearance deviation is calculated.

図3は、第1実施形態に係る辞書DB22を示す図である。辞書DB22は、地域における特徴語が登録される地域特性辞書として利用されるDBであり、辞書DB22には、特徴語と判断された用語が使用されている地域を示す「地域」フィールドと、特徴語を示す「特徴語」フィールドと、特徴語の品詞を示す「品詞」フィールドとが含まれている。辞書DB22は、辞書登録部15により特徴語と判断された用語が記憶される。   FIG. 3 is a diagram illustrating the dictionary DB 22 according to the first embodiment. The dictionary DB 22 is a DB used as a regional characteristic dictionary in which feature words in a region are registered. The dictionary DB 22 includes a “region” field indicating a region where a term determined to be a feature word is used, and a feature. A “feature word” field indicating a word and a “part of speech” field indicating a part of speech of the characteristic word are included. The dictionary DB 22 stores terms that are determined as feature words by the dictionary registration unit 15.

[地域特性辞書生成サーバ1のハードウェア構成]
図4は、第1実施形態に係る地域特性辞書生成サーバ1のハードウェア構成を示す図である。本発明が実施される地域特性辞書生成サーバ1は標準的なものでよく、以下に構成の一例を示す。
[Hardware configuration of regional characteristic dictionary generation server 1]
FIG. 4 is a diagram illustrating a hardware configuration of the regional characteristic dictionary generation server 1 according to the first embodiment. The regional characteristic dictionary generation server 1 in which the present invention is implemented may be a standard one, and an example of the configuration is shown below.

地域特性辞書生成サーバ1は、制御部10を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078をまとめて記憶部20と呼ぶ。   The regional characteristic dictionary generation server 1 includes a CPU (Central Processing Unit) 1010 (a plurality of CPUs such as the CPU 1012 may be added in a multiprocessor configuration), a bus line 1005, a communication I / F (I / F). F: Interface) 1040, main memory 1050, BIOS (Basic Input Output System) 1060, display device 1022, I / O controller 1070, input device 1100 such as keyboard and mouse, hard disk 1074, optical disk drive 1076, and semiconductor memory 1078 Prepare. The hard disk 1074, the optical disk drive 1076, and the semiconductor memory 1078 are collectively referred to as the storage unit 20.

制御部10は、地域特性辞書生成サーバ1を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。   The control unit 10 is a part that controls the regional characteristic dictionary generation server 1 in an integrated manner. By appropriately reading and executing various programs stored in the hard disk 1074, the control unit 10 cooperates with the hardware described above, and Various functions are realized.

通信I/F1040は、地域特性辞書生成サーバ1が、通信ネットワーク3を介してブログサーバ2等と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。   The communication I / F 1040 is a network adapter when the regional characteristic dictionary generation server 1 transmits / receives information to / from the blog server 2 or the like via the communication network 3. The communication I / F 1040 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter.

BIOS1060は、地域特性辞書生成サーバ1の起動時にCPU1010が実行するブートプログラムや、地域特性辞書生成サーバ1のハードウェアに依存するプログラム等を記録する。   The BIOS 1060 records a boot program executed by the CPU 1010 when the regional characteristic dictionary generation server 1 is started, a program depending on the hardware of the regional characteristic dictionary generation server 1, and the like.

表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。   The display device 1022 includes a display device such as a cathode ray tube display device (CRT) or a liquid crystal display device (LCD).

I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部20を接続することができる。   The I / O controller 1070 can be connected to a storage unit 20 that is a storage device such as a hard disk 1074, an optical disk drive 1076, and a semiconductor memory 1078.

入力装置1100は、地域特性辞書生成サーバ1の管理者による入力の受け付けを行うものである。   The input device 1100 is for accepting input by an administrator of the regional characteristic dictionary generation server 1.

ハードディスク1074は、本ハードウェアを地域特性辞書生成サーバ1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び上述のDBを記憶する。なお、地域特性辞書生成サーバ1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。   The hard disk 1074 stores various programs for causing the hardware to function as the regional characteristic dictionary generation server 1, a program for executing the functions of the present invention, and the above-described DB. The regional characteristic dictionary generation server 1 can also use an external hard disk (not shown) as an external storage device.

光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、ブルーレイディスク(Blu−ray Disc:登録商標)ドライブを使用することができる。光ディスクドライブ1076を使用する場合は、光ディスクドライブ1076に対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。   As the optical disk drive 1076, for example, a DVD-ROM drive, a CD-ROM drive, a DVD-RAM drive, and a Blu-ray Disc (registered trademark) drive can be used. When the optical disk drive 1076 is used, the optical disk 1077 corresponding to the optical disk drive 1076 is used. A program or data may be read from the optical disk 1077 by the optical disk drive 1076 and provided to the main memory 1050 or the hard disk 1074 via the I / O controller 1070.

なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、地域特性辞書生成サーバ1は、上述のように、制御部10、記憶部20等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。   The computer in the present invention refers to an information processing apparatus including a storage device, a control unit, and the like, and the regional characteristic dictionary generation server 1 is an information including the control unit 10 and the storage unit 20 as described above. The information processing apparatus is constituted by a processing apparatus and is included in the concept of the computer of the present invention.

また、地域特性辞書生成サーバ1は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、複数のハードウェアで構成する場合には、通信ネットワーク3を介して各ハードウェアを接続してもよい。例えば、各機能毎に別サーバ(装置)とし、各サーバ間での信号の送受信により、各サーバを連携させることで、第1実施形態の機能を実現してもよい。   The regional characteristic dictionary generation server 1 is not limited in the number of hardware, and may be configured by one or a plurality of hardware as necessary. In the case of a plurality of hardware, each hardware may be connected via the communication network 3. For example, the functions of the first embodiment may be realized by using separate servers (devices) for each function, and by linking the servers by transmitting and receiving signals between the servers.

[処理フロー]
図5は、第1実施形態に係る地域特性辞書生成サーバ1により、地域特性辞書(辞書DB22)に特徴語が登録されるまでの処理の流れを示すフローチャートである。
[Processing flow]
FIG. 5 is a flowchart showing a flow of processing until a feature word is registered in the regional characteristic dictionary (dictionary DB 22) by the regional characteristic dictionary generation server 1 according to the first embodiment.

ステップS11では、制御部10(ブログ情報収集部11)は、ブログサーバ2に格納されているブログのうち、地域ブログの情報を収集する。   In step S <b> 11, the control unit 10 (blog information collection unit 11) collects regional blog information among the blogs stored in the blog server 2.

ステップS12では、制御部10(用語出現数計数部12)は、ステップS11にて収集された地域ブログの情報より用語を抽出する。   In step S12, the control unit 10 (term appearance number counting unit 12) extracts terms from the information on the local blog collected in step S11.

ステップS13では、制御部10(用語出現数計数部12)は、ステップS12にて抽出した用語について、抽出した用語の数、すなわち、用語の出現数の合計値を地域毎に計数し、計数結果を集計DB21に記憶する。   In step S13, the control unit 10 (term appearance count counting unit 12) counts the number of extracted terms, that is, the total number of appearances of terms for each area, and counts the terms extracted in step S12. Is stored in the summary DB 21.

ステップS14では、制御部10(ブログ数計数部13)は、地域ブログの数量を計数する。   In step S14, the control unit 10 (blog number counting unit 13) counts the number of regional blogs.

ステップS15では、制御部10(ブログ数計数部13)は、用語が含まれている地域ブログの数量を計数する。   In step S15, the control unit 10 (blog number counting unit 13) counts the number of regional blogs including the term.

ステップS16では、制御部10(用語出現偏差算出部14)は、特定地域における用語の出現数の合計値、地域ブログの数量、及び用語が含まれている地域ブログの数量に基づいて上述の数2に示される式の演算を行い、地域における用語の出現頻度の偏差を算出する。   In step S16, the control unit 10 (term appearance deviation calculation unit 14) calculates the above number based on the total value of the number of appearances of terms in the specific area, the number of regional blogs, and the number of regional blogs containing the terms. 2 is calculated, and the deviation of the appearance frequency of the term in the area is calculated.

ステップS17では、制御部10(辞書登録部15)は、ステップS16にて算出した用語の出現頻度の偏差が予め定めた閾値よりも大きいか否かを判別する。この判別がYESのときは、ステップS18に移り、NOのときは、地域特性辞書を登録する処理を終了する。   In step S17, the control unit 10 (dictionary registration unit 15) determines whether or not the deviation of the appearance frequency of the term calculated in step S16 is larger than a predetermined threshold value. When this determination is YES, the process proceeds to step S18, and when NO, the process of registering the regional characteristic dictionary is ended.

ステップS18では、制御部10(辞書登録部15)は、用語を地域の特徴語であるとして用語の出現頻度の偏差を算出した特定地域の地域特性辞書である辞書DB22に、当該用語を登録する。   In step S18, the control unit 10 (dictionary registration unit 15) registers the term in the dictionary DB 22 that is a regional characteristic dictionary of a specific region where the term is a regional feature word and the deviation of the appearance frequency of the term is calculated. .

(第2実施形態)
第1実施形態では、地域特性辞書生成サーバ1は、複数のブログサーバ2に格納されている地域ブログから用語を抽出して所定の演算を行うことにより、特定地域における当該用語の出現頻度の偏差を算出し、予め定めた閾値よりも大きい場合に、当該用語を特徴語として当該特定地域の地域特性辞書に登録することを説明した。第2実施形態では、地域の特徴語とされた用語を、特願2008−228641に記載の広告配信サーバに利用したときの例を示す。
(Second Embodiment)
In the first embodiment, the regional characteristic dictionary generation server 1 extracts a term from regional blogs stored in a plurality of blog servers 2 and performs a predetermined calculation to thereby change the appearance frequency of the term in a specific region. In the case where it is larger than a predetermined threshold value, the term is registered as a feature word in the regional characteristic dictionary of the specific region. In 2nd Embodiment, the example when the term used as the regional feature word is utilized for the advertisement delivery server of Japanese Patent Application No. 2008-228641 is shown.

より具体的には、第2実施形態に係る広告配信サーバ4は、通信ネットワーク3を介して接続されたブログサーバ2より抽出され、特定地域の特徴語とされた用語に応じたカテゴリを、当該地域において知識レベルの高いカテゴリとする。そして、広告配信サーバ4は、通信ネットワーク3を介して接続された閲覧端末5よりアクセスされたことに応じて閲覧端末5の所在する地域を特定し、当該地域の知識レベルに応じた広告を閲覧端末5に対して配信する。   More specifically, the advertisement distribution server 4 according to the second embodiment extracts a category corresponding to the term extracted from the blog server 2 connected via the communication network 3 and used as a characteristic word of a specific area. A category with a high level of knowledge in the region. Then, the advertisement distribution server 4 identifies the area where the browsing terminal 5 is located in response to being accessed from the browsing terminal 5 connected via the communication network 3, and browses the advertisement according to the knowledge level of the area. Deliver to the terminal 5.

[機能構成]
図6は、第2実施形態に係る広告配信サーバ4の機能構成を示す図である。
[Function configuration]
FIG. 6 is a diagram illustrating a functional configuration of the advertisement distribution server 4 according to the second embodiment.

広告配信サーバ4は、制御部100及び記憶部120を備える。そして、制御部100は、知識レベル決定部101と、IPアドレス取得部102と、アクセス地域特定部103と、配信広告決定部104と、広告配信部105とを備える。また、記憶部120は、地域DB121と、知識DB122と、広告DB123とを備える。なお、記憶部120は、図示は省略するが、第1実施形態の地域特性辞書生成サーバ1が備える集計DB21及び辞書DB22と同様の構成のDBを備えることとする。   The advertisement distribution server 4 includes a control unit 100 and a storage unit 120. The control unit 100 includes a knowledge level determination unit 101, an IP address acquisition unit 102, an access area identification unit 103, a distribution advertisement determination unit 104, and an advertisement distribution unit 105. The storage unit 120 includes a regional DB 121, a knowledge DB 122, and an advertisement DB 123. In addition, although illustration is abbreviate | omitted, suppose that the memory | storage part 120 is equipped with DB of the structure similar to total DB21 and dictionary DB22 with which the regional characteristic dictionary production | generation server 1 of 1st Embodiment is provided.

知識レベル決定部101は、複数のブログサーバ2に格納されている地域ブログから用語を抽出して所定の演算を行うことにより、特定地域における当該用語の出現頻度の偏差を算出し、予め定めた閾値よりも大きい用語を知識レベルが高い用語とする。そして、用語テーブル122a(後述の図8参照)を参照して当該用語のカテゴリを特定し、知識テーブル122b(後述の図9参照)に当該特定地域において知識レベルが高いカテゴリとして記憶する。   The knowledge level determination unit 101 calculates a deviation of the appearance frequency of the term in a specific area by extracting a term from the local blog stored in the plurality of blog servers 2 and performing a predetermined calculation. A term larger than the threshold is a term having a high knowledge level. Then, the category of the term is specified with reference to the term table 122a (see FIG. 8 to be described later), and stored as a category having a high knowledge level in the specific area in the knowledge table 122b (see FIG. 9 to be described later).

ここで、知識レベル決定部101は、複数のブログサーバ2に格納されている地域ブログから用語を抽出して所定の演算を行うことにより、特定地域における当該用語の出現頻度の偏差を算出し、予め定めた閾値よりも大きい用語を知識レベルが高い用語とする処理を行うこととしたが、この処理は、第1実施形態に記載したブログ情報収集部11、用語出現数計数部12、ブログ数計数部13、用語出現偏差算出部14、及び辞書登録部15により実現されるものであるため、詳細な説明を省略する。すなわち、知識レベル決定部101は、第1実施形態に記載したブログ情報収集部11、用語出現数計数部12、ブログ数計数部13、用語出現偏差算出部14、及び辞書登録部15により構成されるものである。   Here, the knowledge level determination unit 101 calculates a deviation of the appearance frequency of the term in a specific region by extracting a term from the regional blog stored in the plurality of blog servers 2 and performing a predetermined calculation. The process of converting a term larger than a predetermined threshold to a term having a high knowledge level is performed. This process includes the blog information collection unit 11, the term appearance count unit 12, and the number of blogs described in the first embodiment. Since it is implemented by the counting unit 13, the term appearance deviation calculating unit 14, and the dictionary registering unit 15, detailed description thereof is omitted. That is, the knowledge level determination unit 101 includes the blog information collection unit 11, the term appearance number counting unit 12, the blog number counting unit 13, the term appearance deviation calculation unit 14, and the dictionary registration unit 15 described in the first embodiment. Is.

なお、第2実施形態では、知識レベル決定部101により知識レベルが高いカテゴリを特定することとしたが、これに限らない。例えば、広告配信サーバ4を、第1実施形態の地域特性辞書生成サーバ1と通信ネットワーク3を介して接続させて、地域特定辞書生成サーバ1の辞書DB22に記憶されているそれぞれの地域の特徴語と用語テーブル122aとを参照して、当該特徴語に応じたカテゴリをそれぞれの地域において知識レベルが高いカテゴリを決定してもよい。   In the second embodiment, the knowledge level determination unit 101 specifies a category having a high knowledge level, but the present invention is not limited to this. For example, each regional feature word stored in the dictionary DB 22 of the region specific dictionary generation server 1 by connecting the advertisement distribution server 4 to the region characteristic dictionary generation server 1 of the first embodiment via the communication network 3. And the term table 122a, a category corresponding to the feature word may be determined as a category having a high knowledge level in each region.

また、第2実施形態では、広告配信サーバ4は、予め定めた閾値よりも大きい用語を知識レベルが高い用語とし、この用語に応じたカテゴリの知識レベルを決定することとしたが、これに限らない。例えば、広告配信サーバ4に、予め定めた閾値に替わり複数の数値範囲を定める。そして、広告配信サーバ4は、地域における用語の出現頻度の偏差がどの数値範囲に属するかに応じて、この用語に応じたカテゴリの知識レベルを決定することとしてもよい。このように知識レベルを決定することで、広告配信サーバ4は、地域における用語の出現頻度の偏差に応じて多様な知識レベルを決定することができる。   In the second embodiment, the advertisement distribution server 4 determines a term having a high knowledge level as a term larger than a predetermined threshold and determines a knowledge level of a category corresponding to the term. Absent. For example, a plurality of numerical ranges are defined in the advertisement distribution server 4 instead of a predetermined threshold value. And the advertisement delivery server 4 is good also as determining the knowledge level of the category according to this term according to which numerical range the deviation of the appearance frequency of the term in a region belongs to. By determining the knowledge level in this way, the advertisement distribution server 4 can determine various knowledge levels according to the deviation of the appearance frequency of terms in the region.

IPアドレス取得部102は、閲覧端末5よりアクセスされたことに応じて、閲覧端末5のIPアドレスを取得する。   The IP address acquisition unit 102 acquires the IP address of the browsing terminal 5 in response to being accessed from the browsing terminal 5.

アクセス地域特定部103は、IPアドレス取得部102により取得したIPアドレスに基づいて、閲覧端末5が所在する地域を特定する。具体的には、地域DB121(後述の図7参照)を参照して、IPアドレス取得部102により取得したIPアドレスに応じた地域を特定する。   The access area specifying unit 103 specifies the area where the browsing terminal 5 is located based on the IP address acquired by the IP address acquiring unit 102. Specifically, the region according to the IP address acquired by the IP address acquisition unit 102 is specified with reference to the region DB 121 (see FIG. 7 described later).

配信広告決定部104は、閲覧端末5に配信する広告を決定する。具体的には、配信広告決定部104は、広告DB123(後述の図10参照)を参照して、配信する広告の広告主をランダムに決定し、広告主の広告のカテゴリを取得する。ここで、配信広告決定部104は、広告主が複数のカテゴリに対して広告配信を指定している場合には、複数のカテゴリのうち、いずれか1つをランダムに取得する。そして、配信広告決定部104は、アクセス地域特定部103により特定した閲覧端末5の地域におけるカテゴリであって、広告主の広告のカテゴリに応じたカテゴリの知識レベルを、知識テーブル122b(後述の図9参照)に基づいて取得する。広告主の広告のカテゴリには、知識レベル毎に異なる広告データが予め登録されているので、配信広告決定部104は、取得した知識レベルに基づいて配信する広告を決定することができる。   The distribution advertisement determination unit 104 determines an advertisement to be distributed to the browsing terminal 5. Specifically, the delivery advertisement determination unit 104 refers to the advertisement DB 123 (see FIG. 10 described later), randomly determines the advertiser of the advertisement to be distributed, and acquires the advertisement category of the advertiser. Here, when the advertiser designates the advertisement distribution for a plurality of categories, the distribution advertisement determination unit 104 randomly acquires any one of the plurality of categories. Then, the distribution advertisement determination unit 104 determines the knowledge level of the category according to the category of the advertisement of the advertiser, which is the category in the region of the browsing terminal 5 specified by the access region specifying unit 103, as shown in the knowledge table 122b (see FIG. 9). In the advertiser's advertisement category, different advertisement data is registered in advance for each knowledge level, so the distribution advertisement determination unit 104 can determine an advertisement to be distributed based on the acquired knowledge level.

なお、第2実施形態では、配信する広告の広告主をランダムに決定することとしたが、これに限らない。例えば、広告入札金額の高額な広告主の広告を優先して選択する等、予め定められた規則に基づいて調整を行うこととしてもよい。このようにすることで、広告入札金額が、複数の広告主で異なる場合には、広告入札金額の高額な広告主の広告が優先して選択されるので、広告入札金額に応じて公平に広告を配信できる。   In the second embodiment, the advertiser of the advertisement to be distributed is determined at random. However, the present invention is not limited to this. For example, the adjustment may be performed based on a predetermined rule, such as preferentially selecting an advertisement of an advertiser with a high bid price. In this way, if the advertising bid amount is different among multiple advertisers, the advertiser with the higher advertising bid amount is preferentially selected. Can be delivered.

また、広告配信サーバ4は、配信する広告のカテゴリをWebページの内容との類似度に基づいて決定することとしてもよい。すなわち、広告配信サーバ4は、閲覧端末5の表示部に表示されているWebページの内容を受信して、Webページの内容について形態素解析を行い、解析結果からWebページが所属するカテゴリを決定することとしてもよい。この場合には、広告配信サーバ4は、形態素解析の結果に、所定のカテゴリに属する用語が含まれるか否かを判定し、所定のカテゴリに属する単語が含まれている場合には、当該Webページが所定のカテゴリに属するものであると決定する。これにより、広告配信サーバ4は、広告がWebページの内容に調和し、違和感がない広告を配信することができる。   Further, the advertisement distribution server 4 may determine the category of the advertisement to be distributed based on the similarity with the content of the web page. That is, the advertisement distribution server 4 receives the content of the Web page displayed on the display unit of the browsing terminal 5, performs morphological analysis on the content of the Web page, and determines the category to which the Web page belongs from the analysis result. It is good as well. In this case, the advertisement distribution server 4 determines whether or not a term belonging to the predetermined category is included in the result of the morphological analysis, and when the word belonging to the predetermined category is included, the Web It is determined that the page belongs to a predetermined category. Thereby, the advertisement distribution server 4 can distribute an advertisement in which the advertisement is in harmony with the content of the Web page and has no sense of incongruity.

広告配信部105は、配信広告決定部104により配信することを決定した広告を閲覧端末5に送信する。   The advertisement distribution unit 105 transmits the advertisement determined to be distributed by the distribution advertisement determination unit 104 to the browsing terminal 5.

図7は、第2実施形態に係る地域DB121を示す図である。地域DB121には、IPアドレスを格納する「IPアドレス」フィールドと、地域の名称を示す「地域」フィールドと、が含まれている。地域DB121は、アクセス地域特定部103により、IPアドレスに基づいて地域情報を取得するときに参照される。   FIG. 7 is a diagram illustrating the regional DB 121 according to the second embodiment. The region DB 121 includes an “IP address” field for storing an IP address and a “region” field indicating the name of the region. The area DB 121 is referred to by the access area specifying unit 103 when acquiring area information based on the IP address.

図8は、第2実施形態に係る知識DB122に格納された用語テーブル122aを示す図である。用語テーブル122aには、技術分野や、学術分野に分類する「カテゴリ」フィールドと、カテゴリに所属する用語、すなわち、特定用語を示す「用語」フィールドと、が含まれている。用語テーブルは、知識レベル決定部101において用語に応じたカテゴリを特定するために参照される。   FIG. 8 is a diagram illustrating the term table 122a stored in the knowledge DB 122 according to the second embodiment. The term table 122a includes a “category” field classified into a technical field and an academic field, and a term belonging to the category, that is, a “term” field indicating a specific term. The term table is referred to in order to specify a category corresponding to the term in the knowledge level determination unit 101.

図9は、第2実施形態に係る知識DB122に格納された知識テーブル122bを示す図である。知識テーブル122bには、地域の名称を示す「地域」フィールドと、技術分野や、学術分野に分類する「カテゴリ」フィールドと、カテゴリに対する理解度を示す「知識レベル」フィールドと、が含まれている。知識テーブル122bは、知識レベル決定部101により地域毎のカテゴリの知識レベルの決定を行うときと、配信広告決定部104により配信する広告を決定するときと、に参照される。   FIG. 9 is a diagram showing the knowledge table 122b stored in the knowledge DB 122 according to the second embodiment. The knowledge table 122b includes a “region” field that indicates the name of the region, a “category” field that is classified into a technical field and an academic field, and a “knowledge level” field that indicates an understanding level of the category. . The knowledge table 122b is referred to when the knowledge level determination unit 101 determines a knowledge level of a category for each region and when the distribution advertisement determination unit 104 determines an advertisement to be distributed.

図10は、第2実施形態に係る広告DB123を示す図である。広告DB123には、広告を一意に特定する「広告ID」フィールドと、広告主の名称を示す「広告主名」フィールドと、技術分野や学術分野に分類する「カテゴリ」フィールドと、カテゴリに対する理解度を示す「知識レベル」フィールドと、配信する広告の内容である「表示広告データ」フィールドと、を含んでいる。広告DB123は、配信広告決定部104により配信する広告を決定するときに参照される。ここで、広告主は、予め知識レベル毎に異なる広告を予め登録し、知識レベルに応じて広告を提供することとする。   FIG. 10 is a diagram illustrating the advertisement DB 123 according to the second embodiment. The advertisement DB 123 includes an “advertisement ID” field that uniquely identifies an advertisement, an “advertiser name” field that indicates the name of the advertiser, a “category” field that is classified into a technical field or an academic field, and an understanding level of the category. And a “display advertisement data” field, which is the content of the advertisement to be distributed. The advertisement DB 123 is referred to when the distribution advertisement determination unit 104 determines an advertisement to be distributed. Here, it is assumed that the advertiser registers in advance different advertisements for each knowledge level and provides the advertisements according to the knowledge level.

[広告配信サーバ4のハードウェア構成]
広告配信サーバ4は、第1実施形態に記載の地域特性辞書生成サーバ1と同様な構成を持つため、詳細な説明を省略する。
[Hardware configuration of advertisement distribution server 4]
Since the advertisement distribution server 4 has the same configuration as the regional characteristic dictionary generation server 1 described in the first embodiment, detailed description thereof is omitted.

[処理フロー]
図11は、第2実施形態に係る広告配信サーバ4によりカテゴリ毎の知識レベルが決定されるまでの処理を示すフローチャートである。
[Processing flow]
FIG. 11 is a flowchart illustrating processing until the knowledge level for each category is determined by the advertisement distribution server 4 according to the second embodiment.

ステップS101からステップS107までの処理は、第1実施形態に係る地域特性辞書生成サーバの処理フローのステップS10からステップS17までの処理と同一であるため、説明を省略する。なお、ステップS101からステップS107までの処理は、制御部100(知識レベル決定部101)により行われる。   Since the process from step S101 to step S107 is the same as the process from step S10 to step S17 of the process flow of the regional characteristic dictionary generation server according to the first embodiment, the description is omitted. Note that the processing from step S101 to step S107 is performed by the control unit 100 (knowledge level determination unit 101).

ステップS108では、制御部100(知識レベル決定部101)は、用語を地域において知識レベルが高い用語に決定する。   In step S108, the control unit 100 (knowledge level determination unit 101) determines a term having a high knowledge level in the region.

ステップS109では、制御部100(知識レベル決定部101)は、用語テーブル122aを参照して、ステップS108にて決定された知識レベルが高い用語に応じたカテゴリを抽出する。   In step S109, the control unit 100 (knowledge level determination unit 101) refers to the term table 122a and extracts a category corresponding to the term having a high knowledge level determined in step S108.

ステップS110では、制御部100(知識レベル決定部101)は、ステップS109により抽出されたカテゴリを特定の地域において知識レベルが高いカテゴリとして、知識テーブル122bに記憶する。   In step S110, the control unit 100 (knowledge level determination unit 101) stores the category extracted in step S109 as a category having a high knowledge level in a specific area in the knowledge table 122b.

図12は、第2実施形態に係る閲覧端末5が広告配信サーバ4にアクセスしてから広告が配信されるまでの処理を示すフローチャートである。   FIG. 12 is a flowchart illustrating processing from when the browsing terminal 5 according to the second embodiment accesses the advertisement distribution server 4 until an advertisement is distributed.

ステップS121では、制御部100(IPアドレス取得部102)は、閲覧端末5よりアクセスされたことに応じて、閲覧端末5のIPアドレスを取得する。   In step S <b> 121, the control unit 100 (IP address acquisition unit 102) acquires the IP address of the browsing terminal 5 in response to being accessed from the browsing terminal 5.

ステップS122では、制御部100(アクセス地域特定部103)は、ステップS121にて取得したIPアドレスに基づいて、閲覧端末5が所在する地域を特定する。   In step S122, the control unit 100 (access area specifying unit 103) specifies the area where the browsing terminal 5 is located based on the IP address acquired in step S121.

ステップS123では、制御部100(配信広告決定部104)は、ステップS122にて特定した閲覧端末5の地域と、広告DB123に基づいて配信する広告を決定する。具体的には、広告DB123を参照して、ランダムで広告主を決定する。そして、ステップS122にて特定した閲覧端末5の地域において、広告主が指定するカテゴリに応じたカテゴリの知識レベルを知識DB122の知識テーブル122bを参照して抽出する。そして、抽出した知識レベルに応じた広告を配信する広告として決定する。   In step S123, the control unit 100 (distributed advertisement determining unit 104) determines an advertisement to be distributed based on the region of the browsing terminal 5 identified in step S122 and the advertisement DB 123. Specifically, an advertiser is determined at random by referring to the advertisement DB 123. Then, in the area of the browsing terminal 5 identified in step S122, the knowledge level of the category corresponding to the category designated by the advertiser is extracted with reference to the knowledge table 122b of the knowledge DB 122. Then, the advertisement corresponding to the extracted knowledge level is determined as an advertisement to be distributed.

ステップS124では、制御部100(広告配信部105)は、ステップS123にて配信することを決定した広告を閲覧端末5に配信する。   In step S124, the control unit 100 (advertisement distribution unit 105) distributes the advertisement determined to be distributed in step S123 to the browsing terminal 5.

[表示情報の表示例]
図13及び図14は、第2実施形態に係る閲覧端末5の表示部に対して広告が表示されたときの表示例を示す図である。
[Display information display example]
FIG.13 and FIG.14 is a figure which shows a display example when an advertisement is displayed with respect to the display part of the browsing terminal 5 which concerns on 2nd Embodiment.

以下に、図13に示される広告が表示されるまでの流れを示す。ここで、閲覧端末5のIPアドレスが「210.232.***.***」であり、配信する広告の広告主が「A社」、カテゴリが「IT」に決定されたこととする。   The flow until the advertisement shown in FIG. 13 is displayed is shown below. Here, it is assumed that the IP address of the browsing terminal 5 is “210.232. ***. ***.”, The advertiser of the advertisement to be distributed is determined to be “Company A”, and the category is “IT”. .

IPアドレス取得部102により閲覧端末5のIPアドレスを取得すると、アクセス地域特定部103により、図7の地域DB121が参照され、閲覧端末5の所在する地域が「地域1」に特定される。そして、配信広告決定部104により、広告主が「A社」、カテゴリが「IT」と決定されていることから、図9の知識テーブル122bにより、「地域1」における「IT」の知識レベルが「7」であることが参照され、知識レベル「7」に応じた広告として、広告ID「002」の広告が配信する広告として決定される。   When the IP address acquisition unit 102 acquires the IP address of the browsing terminal 5, the access region specifying unit 103 refers to the region DB 121 of FIG. 7 and specifies the region where the browsing terminal 5 is located as “region 1”. Since the advertiser is determined to be “Company A” and the category is “IT” by the distribution advertisement determination unit 104, the knowledge level of “IT” in “Region 1” is determined based on the knowledge table 122b of FIG. It is referred to as “7”, and the advertisement with the advertisement ID “002” is determined to be distributed as the advertisement corresponding to the knowledge level “7”.

図13では、閲覧端末5の表示部50にブラウザ501が表示されている。そして、ブラウザ501に、ポータルサイト502の画面が表示されており、ポータルサイト502の右部には、PC(Personal Computer)に関する広告画像503aが表示されているのを確認できる。この広告画像503aの表示は、広告ID「002」に応じた広告の表示であり、ITの知識レベルが「5〜10」の地域向けの広告である。このように、特定した地域の知識レベルが高い場合には、ITの知識レベルが高いユーザが興味を持つような広告を選択して表示させることができる。   In FIG. 13, the browser 501 is displayed on the display unit 50 of the browsing terminal 5. A screen of the portal site 502 is displayed on the browser 501, and it can be confirmed that an advertisement image 503 a related to a PC (Personal Computer) is displayed on the right side of the portal site 502. The display of the advertisement image 503a is an advertisement corresponding to the advertisement ID “002”, and is an advertisement for a region whose IT knowledge level is “5 to 10”. As described above, when the knowledge level of the specified region is high, an advertisement that is of interest to a user with a high IT knowledge level can be selected and displayed.

図14は、第2実施形態に係る閲覧端末5に対して広告が配信されたときの表示例を示す別の図である。   FIG. 14 is another diagram illustrating a display example when an advertisement is distributed to the browsing terminal 5 according to the second embodiment.

ここで、閲覧端末5のIPアドレスが「210.211.***.***」であり、図14の説明と同様に、配信する広告の広告主が「A社」、カテゴリが「IT」に決定されたこととする。   Here, the IP address of the browsing terminal 5 is “210.212. ***. ***”, and the advertiser of the advertisement to be distributed is “Company A” and the category is “IT” as in the description of FIG. ”.

IPアドレス取得部102により閲覧端末5のIPアドレスを取得すると、アクセス地域特定部103により、図7の地域DB121が参照され、閲覧端末5の所在する地域が「地域4」に特定される。そして、配信広告決定部104により、広告主が「A社」、カテゴリが「IT」と決定されていることから、図9の知識テーブル122bにより、「地域4」における「IT」の知識レベルが「4」であることが参照され、知識レベル「4」に応じた広告として、広告ID「001」の広告が配信する広告として決定される。   When the IP address acquisition unit 102 acquires the IP address of the browsing terminal 5, the access region specifying unit 103 refers to the region DB 121 of FIG. 7 and specifies the region where the browsing terminal 5 is located as “region 4”. Then, since the advertiser is determined to be “Company A” and the category is “IT” by the distribution advertisement determination unit 104, the knowledge level of “IT” in “Region 4” is determined by the knowledge table 122b of FIG. Reference is made to “4”, and the advertisement with the advertisement ID “001” is determined as the advertisement to be distributed as the advertisement corresponding to the knowledge level “4”.

図14では、図13と同様に、閲覧端末5の表示部50にブラウザ501が表示されている。そして、ブラウザ501に、ポータルサイト502の画面が表示されており、ポータルサイト502の右部には、PCに関する広告画像503bが表示されているのを確認できる。この広告画像503bの表示は、広告ID「001」に応じた広告の表示であり、ITの知識レベルが「1〜4」の地域向けの広告である。このように、特定した地域レベルの知識レベルが低い場合には、ITの知識レベルが低いユーザが興味を持つような広告を選択して表示させることができる。   In FIG. 14, the browser 501 is displayed on the display unit 50 of the browsing terminal 5 as in FIG. 13. Then, it is possible to confirm that the screen of the portal site 502 is displayed on the browser 501 and that the advertisement image 503b regarding the PC is displayed on the right side of the portal site 502. The display of the advertisement image 503b is an advertisement corresponding to the advertisement ID “001”, and is an advertisement for a region whose IT knowledge level is “1 to 4”. Thus, when the knowledge level at the specified regional level is low, an advertisement that is of interest to a user with a low IT knowledge level can be selected and displayed.

以上、本発明の実施形態について説明したが、本発明は前記第1実施形態及び第2実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。   The embodiment of the present invention has been described above, but the present invention is not limited to the first embodiment and the second embodiment, and modifications, improvements, etc. within the scope that can achieve the object of the present invention. Is included.

1 地域特性辞書生成サーバ
2 ブログサーバ
3 通信ネットワーク
4 広告配信サーバ
5 閲覧端末
10 制御部
11 ブログ情報収集部
12 用語出現数計数部
13 ブログ数計数部
14 用語出現偏差算出部
15 辞書登録部
20 記憶部
21 集計DB
22 辞書DB
100 制御部
101 知識レベル決定部
102 IPアドレス取得部
103 アクセス地域特定部
104 配信広告決定部
105 広告配信部
120 記憶部
121 地域DB
122 知識DB
123 広告DB
DESCRIPTION OF SYMBOLS 1 Regional characteristic dictionary production | generation server 2 Blog server 3 Communication network 4 Advertisement delivery server 5 Viewing terminal 10 Control part 11 Blog information collection part 12 Term appearance count part 13 Blog number count part 14 Term appearance deviation calculation part 15 Dictionary registration part 20 Storage Part 21 Total DB
22 Dictionary DB
DESCRIPTION OF SYMBOLS 100 Control part 101 Knowledge level determination part 102 IP address acquisition part 103 Access area specific | specification part 104 Distribution advertisement determination part 105 Advertisement distribution part 120 Storage part 121 Area DB
122 Knowledge DB
123 Advertising DB

Claims (5)

特定地域ブログに含まれる特徴語を用語の出現頻度の偏りから抽出して、特徴語に関する地域特性辞書を生成する地域特性辞書生成装置で実行される地域特性辞書生成方法であって、
前記地域特性辞書生成装置が、複数の地域ブログから用語とともに地域ブログが属する地域を示す地域情報を収集して、地域ブログを地域別に分類し、特定地域毎に該用語の出現数の合計値を計数するステップと、
前記地域特性辞書生成装置が、前記地域ブログの数量及び前記用語が含まれている地域ブログの数量を計数するステップと、
前記地域特性辞書生成装置が、前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を行い、前記特定地域毎に前記用語の出現頻度の偏差を算出するステップと、
前記地域特性辞書生成装置が、前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記特定地域の地域特性辞書に前記用語を該特定地域において理解度が高い用語として登録するとともに、前記算出した前記偏差が大きいほど数値が高くなるような前記用語の知識レベルを広告配信に用いる情報として登録するステップと、
を備えることを特徴とする地域特性辞書生成方法。
An area characteristic dictionary generation method executed by an area characteristic dictionary generation apparatus that extracts a characteristic word included in a specific area blog from a bias in appearance frequency of terms and generates an area characteristic dictionary related to the characteristic word,
The regional characteristic dictionary generation device collects regional information indicating a region to which the regional blog belongs together with terms from a plurality of regional blogs, classifies the regional blogs by region, and calculates the total number of occurrences of the terms for each specific region. Counting step;
The regional characteristic dictionary generating device counting the number of regional blogs and the number of regional blogs containing the term;
The regional characteristic dictionary generation device performs a predetermined calculation based on the total value, the number of regional blogs, and the number of regional blogs including the term, and the frequency of appearance of the term for each specific region. Calculating a deviation;
When the regional characteristic dictionary generation device registers the term as a term having a high degree of understanding in the specific region when the calculated deviation is larger than a predetermined threshold , Registering the knowledge level of the term such that the larger the calculated deviation is, the higher the numerical value is as information used for advertisement delivery ;
A regional characteristic dictionary generation method comprising:
前記用語の出現頻度の偏差を算出するステップは、前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を次の数式で行い、前記特定地域における前記用語の出現頻度の偏差を算出することを特徴とする請求項1記載の地域特性辞書生成方法。
Figure 0005215877
ただし、A:特定地域
t:用語
D(A,t):特定地域Aにおける用語tの出現頻度の偏差
TF(A,t):特定地域Aにおける用語tの出現数の合計値
DF(t):用語tが含まれている地域ブログの数量
N:地域ブログの数量
The step of calculating the deviation of the appearance frequency of the term performs the predetermined calculation based on the total value, the quantity of the regional blog, and the quantity of the regional blog including the term by the following formula, and The regional characteristic dictionary generation method according to claim 1, wherein a deviation of the appearance frequency of the term in the region is calculated.
Figure 0005215877
However, A: Specific area
t: Term
D (A, t): Deviation in frequency of appearance of term t in specific area A
TF (A, t): Total number of occurrences of the term t in the specific area A
DF (t): Number of local blogs containing the term t
N: Number of regional blogs
前記用語の出現数の合計値を計数するステップは、複数の前記地域ブログに対して該地域ブログのユーザが書き込んだ情報のうち、所定の期間内に該ユーザが書き込んだ情報を収集し、該所定の期間内に該ユーザが書き込んだ情報から前記用語を抽出して、前記特定地域における該用語の出現数の合計値を計数することを特徴とする請求項1又は2に記載の地域特性辞書生成方法。   The step of counting the total number of occurrences of the term collects information written by the user within a predetermined period from information written by the user of the regional blog for the plurality of regional blogs, The regional characteristic dictionary according to claim 1, wherein the term is extracted from information written by the user within a predetermined period, and a total value of the number of appearances of the term in the specific region is counted. Generation method. 複数のブログから構成される家族ブログに含まれる特徴語を用語の出現頻度の偏りから抽出して、家族内におけるユーザの特性辞書を生成する家族内特性辞書生成装置で実行される家族内特性辞書生成方法であって、
家族ブログから用語を抽出するとともに、家族及び家族の構成を示す情報を収集して、家族ブログを家族別に分類し、該家族毎に該用語の出現数の合計値を計数するステップと、
前記家族内特性辞書生成装置が、前記家族を構成するユーザのブログの数量及び前記用語が含まれている前記ユーザのブログの数量を計数するステップと、
前記家族内特性辞書生成装置が、前記合計値、前記家族を構成するユーザのブログの数量、及び前記用語が含まれている前記ユーザのブログの数量に基づいて所定の演算を行い、前記ユーザのブログにおける前記用語の出現頻度の偏差を算出するステップと、
前記家族内特性辞書生成装置が、前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記ユーザの特性辞書に前記用語を該ユーザの理解度が高い用語として登録するとともに、前記算出した前記偏差が大きいほど数値が高くなるような前記用語の知識レベルを広告配信に用いる情報として登録するステップと、
を備えることを特徴とする家族内特性辞書生成方法。
A family characteristic dictionary executed by a family characteristic dictionary generation device that extracts characteristic words contained in a family blog composed of a plurality of blogs from the occurrence frequency bias and generates a user characteristic dictionary in the family. A generation method,
Extracting terms from family blogs, collecting information indicating family and family composition, classifying family blogs by family, and counting the total number of occurrences of the terms for each family;
The family characteristic dictionary generating device counting the number of blogs of the users constituting the family and the number of blogs of the users including the term;
The family characteristic dictionary generation device performs a predetermined calculation based on the total value, the number of blogs of users configuring the family, and the number of blogs of the user including the term, and Calculating a deviation of the appearance frequency of the term in the blog;
When the calculated family deviation dictionary has the calculated deviation larger than a predetermined threshold, the term is registered in the user's characteristic dictionary as a term having a high degree of understanding of the user, and the calculated Registering the knowledge level of the term such that the numerical value becomes higher as the deviation is larger as information used for advertisement delivery ;
A family characteristic dictionary generation method characterized by comprising:
特定地域ブログに含まれる特徴語を用語の出現頻度の偏りから抽出して、特徴語に関する地域特性辞書を生成する地域特性辞書生成装置であって、
複数の地域ブログから用語とともに地域ブログが属する地域を示す地域情報を収集して、地域ブログを地域別に分類し、特定地域毎に該用語の出現数の合計値を計数する用語出現数計数手段と、
前記地域ブログの数量及び前記用語が含まれている地域ブログの数量を計数するブログ数計数手段と、
前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を行い、前記特定地域における前記用語の出現頻度の偏差を算出する用語出現偏差算出手段と、
前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記特定地域の地域特性辞書に、前記用語を該特定地域において理解度が高い用語として登録するとともに、前記算出した前記偏差が大きいほど数値が高くなるような前記用語の知識レベルを広告配信に用いる情報として登録する辞書登録手段と、
を備えることを特徴とする地域特性辞書生成装置。
A regional characteristic dictionary generation device that extracts a characteristic word included in a specific regional blog from a bias in appearance frequency of terms and generates a regional characteristic dictionary related to the characteristic word,
A term appearance number counting unit that collects region information indicating a region to which the regional blog belongs together with terms from a plurality of regional blogs, classifies the regional blog by region, and counts the total number of occurrences of the term for each specific region; ,
Blog number counting means for counting the number of regional blogs and the number of regional blogs containing the term;
Term appearance deviation calculating means for performing a predetermined calculation based on the total value, the number of regional blogs, and the number of regional blogs including the terms, and calculating a deviation of the appearance frequency of the terms in the specific region When,
When the calculated deviation is larger than a predetermined threshold, the term is registered in the regional characteristic dictionary of the specific region as a term having a high degree of understanding in the specific region, and the calculated deviation is larger. A dictionary registration means for registering the knowledge level of the term such that the numerical value is high as information used for advertisement distribution ;
A regional characteristic dictionary generating device comprising:
JP2009000560A 2009-01-06 2009-01-06 Region characteristic dictionary generation method and apparatus Active JP5215877B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009000560A JP5215877B2 (en) 2009-01-06 2009-01-06 Region characteristic dictionary generation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009000560A JP5215877B2 (en) 2009-01-06 2009-01-06 Region characteristic dictionary generation method and apparatus

Publications (2)

Publication Number Publication Date
JP2010160534A JP2010160534A (en) 2010-07-22
JP5215877B2 true JP5215877B2 (en) 2013-06-19

Family

ID=42577676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009000560A Active JP5215877B2 (en) 2009-01-06 2009-01-06 Region characteristic dictionary generation method and apparatus

Country Status (1)

Country Link
JP (1) JP5215877B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5368495B2 (en) * 2011-02-15 2013-12-18 ヤフー株式会社 Information processing apparatus and method
JP5372981B2 (en) * 2011-02-15 2013-12-18 ヤフー株式会社 Information processing apparatus and method
JP5757208B2 (en) * 2011-09-22 2015-07-29 日本電気株式会社 Keyword extraction system, keyword extraction method and program
JP5766104B2 (en) * 2011-12-06 2015-08-19 株式会社Nttドコモ Information providing apparatus and information providing method
JP5398884B1 (en) * 2012-08-10 2014-01-29 日本電信電話株式会社 Estimating device and method for region representing representative products

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001229231A (en) * 2000-02-14 2001-08-24 Digital Vision Laboratories Corp System and method for mediating information circulation, mediating information circulation between circulation mechanism side and general consumer
JP3540233B2 (en) * 2000-02-14 2004-07-07 靖人 茅根 Product information providing system and method
JP4513159B2 (en) * 2000-03-28 2010-07-28 ソニー株式会社 Information processing apparatus and method, and recording medium
JP3932041B2 (en) * 2003-02-27 2007-06-20 日本電信電話株式会社 Multi-area user community communication system
JP2005346594A (en) * 2004-06-07 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> Management server in messaging system, and service management method in messaging system
JP4639388B2 (en) * 2004-09-15 2011-02-23 学校法人慶應義塾 Important word extraction method, important word extraction apparatus, computer program, and program storage medium in document database
JP2006331070A (en) * 2005-05-26 2006-12-07 Ntt Docomo Inc Community-control node device, community-information retrieval system, community-information retrieval method
JPWO2007010836A1 (en) * 2005-07-15 2009-01-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. Community-specific expression detection apparatus and method
JP2008050099A (en) * 2006-08-24 2008-03-06 Kyocera Mita Corp Double feeding prevention device and image processing device
JP2008152436A (en) * 2006-12-15 2008-07-03 Winworks Kk Schedule management system and program
JP5308628B2 (en) * 2007-03-20 2013-10-09 富士フイルム株式会社 Operation method of Internet communication server and communication site
JP5073349B2 (en) * 2007-04-05 2012-11-14 ヤフー株式会社 Technical term extraction device, method and program

Also Published As

Publication number Publication date
JP2010160534A (en) 2010-07-22

Similar Documents

Publication Publication Date Title
JP5220297B2 (en) Ad delivery method based on keywords and conditions
KR100913475B1 (en) Method and system for advertisement integrated management about plural advertisement domains
TWI529549B (en) Method, computer-readable media and apparatus for supplementing an article of content
JP5312771B2 (en) Technology that determines relevant ads in response to queries
JP5144594B2 (en) Server apparatus, prediction method and program in server apparatus
CN109597904B (en) Method and system for providing social network
JP4809403B2 (en) Advertisement distribution apparatus, advertisement distribution method, and advertisement distribution control program
US20100057577A1 (en) System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
AU2008346880B2 (en) Video advertisement pricing
KR20120050593A (en) System and method for providing recommendation business keyword
US20070005433A1 (en) Method and system for advertisement related to information service
US20110246277A1 (en) Multi-factor promotional offer suggestion
JP5215877B2 (en) Region characteristic dictionary generation method and apparatus
US9846722B1 (en) Trend based distribution parameter suggestion
JP5226241B2 (en) How to add tags
US9720983B1 (en) Extracting mobile application keywords
US9053129B1 (en) Content item relevance based on presentation data
WO2005029745A2 (en) Advertising based on a search string and user attribute combination
JP6960553B2 (en) Brand dictionary creation device, product evaluation device, brand dictionary creation method and program
KR101016701B1 (en) Method and system for providing service of advertisement
JP4929268B2 (en) Apparatus and method for distributing advertisement based on knowledge level
KR100903505B1 (en) Method for offering a search-word advertisement and generating a search result list in response to the search-demand of a searcher and a system thereof
KR101347220B1 (en) System for providing advertisement contents
KR100837210B1 (en) A advertisement agenting system using API and advertisement agenting method thereby
KR20050071308A (en) Online advertising method and online advertising system

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120810

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121128

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130301

R150 Certificate of patent or registration of utility model

Ref document number: 5215877

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250