JP5215877B2 - Region characteristic dictionary generation method and apparatus - Google Patents
Region characteristic dictionary generation method and apparatus Download PDFInfo
- Publication number
- JP5215877B2 JP5215877B2 JP2009000560A JP2009000560A JP5215877B2 JP 5215877 B2 JP5215877 B2 JP 5215877B2 JP 2009000560 A JP2009000560 A JP 2009000560A JP 2009000560 A JP2009000560 A JP 2009000560A JP 5215877 B2 JP5215877 B2 JP 5215877B2
- Authority
- JP
- Japan
- Prior art keywords
- term
- regional
- blogs
- blog
- family
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000009826 distribution Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 22
- 239000000284 extract Substances 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims 1
- 238000003860 storage Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、地域特性辞書を生成する方法及び装置に関する。 The present invention relates to a method and apparatus for generating a regional characteristic dictionary.
従来、閲覧したWebサイトに含まれるWebコンテンツの内容に連動した広告を提供可能な広告配信システムを提供することが示されている(例えば、特許文献1)。特許文献1に記載の広告配信システムでは、広告掲載Webサイトの広告掲載対象コンテンツの内容からキーワード及びトピックを抽出して広告掲載対象コンテンツのアドレス情報と対応付けて予め蓄積しておき、閲覧者が広告掲載対象コンテンツへのアクセス要求をした場合に、アクセスした広告掲載対象コンテンツのアドレス情報に対応するキーワード及びトピックにより広告を検索し、広告付きのコンテンツを閲覧者に提供することが示されている。
Conventionally, it has been shown that an advertisement distribution system capable of providing an advertisement linked to the content of Web content included in a browsed Web site is provided (for example, Patent Document 1). In the advertisement distribution system described in
しかしながら、特許文献1に記載の方法では、広告掲載Webサイトの広告掲載対象コンテンツの内容からキーワード及びトピックといった特徴語を抽出し、特徴語に連動した広告を配信するに過ぎず、例えば、地域毎に特徴語を抽出することについては示されていない。このため、地域毎の特徴語に連動した広告を配信することができない。
However, in the method described in
本発明は、このような従来の問題点に鑑みて提案されたものであり、その目的は、地域毎に特徴語を抽出して、特徴語に関する地域特性辞書を生成する方法及び装置を提供することにある。 The present invention has been proposed in view of such conventional problems, and an object of the present invention is to provide a method and apparatus for extracting a feature word for each region and generating a regional characteristic dictionary related to the feature word. There is.
本発明では、以下のような解決手段を提供する。 The present invention provides the following solutions.
(1) 特定地域ブログに含まれる特徴語を用語の出現頻度の偏りから抽出して、特徴語に関する地域特性辞書を生成する地域特性辞書生成方法であって、
複数の地域ブログから用語を抽出して、特定地域における該用語の出現数の合計値を計数するステップと、
前記地域ブログの数量及び前記用語が含まれている地域ブログの数量を計数するステップと、
前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を行い、前記特定地域における前記用語の出現頻度の偏差を算出するステップと、
前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記特定地域の地域特性辞書に前記用語を登録するステップと、
を備えることを特徴とする地域特性辞書生成方法。
(1) A regional characteristic dictionary generation method for generating a regional characteristic dictionary related to a characteristic word by extracting characteristic words included in a specific regional blog from the bias of appearance frequency of terms,
Extracting terms from a plurality of regional blogs and counting the total number of occurrences of the terms in a specific region;
Counting the number of regional blogs and the number of regional blogs containing the term;
Performing a predetermined calculation based on the total value, the quantity of the regional blog, and the quantity of the regional blog including the term, and calculating a deviation of the appearance frequency of the term in the specific area;
When the calculated deviation is greater than a predetermined threshold, registering the term in the regional characteristic dictionary of the specific region;
A regional characteristic dictionary generation method comprising:
(1)記載の地域特性辞書生成方法によれば、複数の地域ブログから用語を抽出して、特定地域における該用語の出現数の合計値を計数する。そして、地域ブログの数量及び用語が含まれている地域ブログの数量を計数する。そして、用語の出現数の合計値、地域ブログの数量、及び用語が含まれている地域ブログの数量に基づいて所定の演算を行い、特定地域における用語の出現頻度の偏差を算出する。そして、算出した偏差が予め定めた閾値よりも大きい場合に、特定地域の地域特性辞書に用語を登録する。 (1) According to the regional characteristic dictionary generation method described in (1), terms are extracted from a plurality of regional blogs, and the total number of occurrences of the terms in a specific region is counted. Then, the number of regional blogs and the number of regional blogs containing terms are counted. Then, a predetermined calculation is performed based on the total value of the number of appearances of terms, the number of regional blogs, and the number of regional blogs containing the terms, and the deviation of the appearance frequency of terms in a specific region is calculated. When the calculated deviation is larger than a predetermined threshold, the term is registered in the regional characteristic dictionary of the specific region.
このような方法によれば、所定の演算を行うことで特定地域における用語の出現頻度の偏差を算出することができる。そして、算出した偏差が、予め定めた閾値よりも大きい場合に、特定地域の地域特性辞書に用語を登録することができる。よって、地域ブログに含まれている用語のうち、特定地域における地域ブログで出現頻度の高い用語を特徴語とすることができるので、地域毎に特徴語を抽出して、特徴語に関する地域特性辞書を生成できる。 According to such a method, the deviation of the appearance frequency of the term in the specific area can be calculated by performing a predetermined calculation. When the calculated deviation is larger than a predetermined threshold, the term can be registered in the regional characteristic dictionary of the specific region. Therefore, among terms included in regional blogs, terms that appear frequently in regional blogs in a specific region can be used as feature words. Therefore, feature words are extracted for each region, and a regional characteristic dictionary related to feature words. Can be generated.
(2) 前記用語の出現頻度の偏差を算出するステップは、前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を次の数式で行い、前記特定地域における前記用語の出現頻度の偏差を算出することを特徴とする(1)記載の地域特性辞書生成方法。
t:用語
D(A,t):特定地域Aにおける用語tの出現頻度の偏差
TF(A,t):特定地域Aにおける用語tの出現数の合計値
DF(t):用語tが含まれている地域ブログの数量
N:地域ブログの数量
(2) The step of calculating a deviation of the appearance frequency of the term performs a predetermined calculation based on the total value, the quantity of the local blog, and the quantity of the local blog including the term by the following formula: The regional characteristic dictionary generation method according to (1), wherein a deviation of the appearance frequency of the term in the specific area is calculated.
t: Term
D (A, t): Deviation in frequency of appearance of term t in specific area A
TF (A, t): Total number of occurrences of the term t in the specific area A
DF (t): Number of local blogs containing the term t
N: Number of regional blogs
(2)記載の地域特性辞書生成方法によれば、D(A,t)値は、TF(A,t)が大きい場合及びDF(t)が小さい場合に値が大きくなる。すなわち、TF(A,t)が大きい場合は、用語tが特定地域Aにおいて頻繁に使用されていることが示され、D(A,t)が小さい場合は、用語tが使用されている地域ブログの数が少なく、用語tの利用頻度が特定地域Aを含む限られた地域で使用されていることが示される。よって、特定地域Aにおける用語tの出現頻度の偏差D(A,t)を適切に算出することができる。 (2) According to the regional characteristic dictionary generation method described in (2), the D (A, t) value increases when TF (A, t) is large and DF (t) is small. That is, when TF (A, t) is large, it is indicated that the term t is frequently used in the specific area A, and when D (A, t) is small, the area where the term t is used. This indicates that the number of blogs is small and the usage frequency of the term t is used in a limited area including the specific area A. Therefore, the deviation D (A, t) of the appearance frequency of the term t in the specific area A can be calculated appropriately.
(3) 前記用語の出現数の合計値を計数するステップは、複数の前記地域ブログに対して該地域ブログのユーザが書き込んだ情報のうち、所定の期間内に該ユーザが書き込んだ情報を収集し、該所定の期間内に該ユーザが書き込んだ情報から前記用語を抽出して、前記特定地域における該用語の出現数の合計値を計数することを特徴とする(1)又は(2)に記載の地域特性辞書生成方法。 (3) The step of counting the total number of occurrences of the terms includes collecting information written by the user within a predetermined period of information written by the user of the regional blog for the plurality of regional blogs. (1) or (2), wherein the term is extracted from the information written by the user within the predetermined period and the total number of occurrences of the term in the specific area is counted. The regional characteristic dictionary generation method described.
(3)記載の地域特性辞書生成方法によれば、複数の地域ブログに対して該地域ブログのユーザが書き込んだ情報のうち、所定の期間内に該ユーザが書き込んだ情報を収集し、該所定の期間内に該ユーザが書き込んだ情報から用語を抽出して、特定地域における該用語の出現数の合計値を計数する。このようにすることで、所定の期間内において所定の地域で出現頻度が高い用語をモニタリングすることができる。すなわち、特定の地域において利用される用語の流行を知ることができる。 (3) According to the regional characteristic dictionary generating method described in (3), among the information written by a user of the regional blog for a plurality of regional blogs, the information written by the user within a predetermined period is collected, and the predetermined The term is extracted from the information written by the user within the period, and the total number of occurrences of the term in a specific area is counted. By doing in this way, it is possible to monitor terms having a high appearance frequency in a predetermined area within a predetermined period. That is, it is possible to know the fashion of terms used in a specific area.
(4) 複数のブログから構成される家族ブログに含まれる特徴語を用語の出現頻度の偏りから抽出して、家族内におけるユーザの特性辞書を生成する家族内特性辞書生成方法であって、
家族ブログから用語を抽出して、該家族ブログにおける該用語の出現数の合計値を計数するステップと、
前記家族を構成するユーザのブログの数量及び前記用語が含まれている前記ユーザのブログの数量を計数するステップと、
前記合計値、前記家族を構成するユーザのブログの数量、及び前記用語が含まれている前記ユーザのブログの数量に基づいて所定の演算を行い、前記ユーザのブログにおける前記用語の出現頻度の偏差を算出するステップと、
前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記ユーザの特性辞書に前記用語を登録するステップと、
を備えることを特徴とする家族内特性辞書生成方法。
(4) A family characteristic dictionary generation method for extracting characteristic words included in a family blog composed of a plurality of blogs from bias in appearance frequency of terms and generating a user characteristic dictionary in the family,
Extracting terms from a family blog and counting the total number of occurrences of the terms in the family blog;
Counting the number of blogs of users that make up the family and the number of blogs of the users that contain the term;
A predetermined calculation is performed based on the total value, the number of blogs of the users that constitute the family, and the number of blogs of the users that include the terms, and a deviation in the appearance frequency of the terms in the blogs of the users Calculating steps,
Registering the term in the user's characteristic dictionary if the calculated deviation is greater than a predetermined threshold;
A family characteristic dictionary generation method characterized by comprising:
(4)記載の家族内特性辞書生成方法によれば、家族ブログから用語を抽出して、該家族ブログにおける該用語の出現数の合計値を計数し、家族を構成するユーザのブログの数量及び用語が含まれているユーザのブログの数量を計数する。そして、合計値、家族を構成するユーザのブログの数量、及び用語が含まれているユーザのブログの数量に基づいて所定の演算を行い、ユーザのブログにおける用語の出現頻度の偏差を算出し、算出した偏差が予め定めた閾値よりも大きい場合に、ユーザの特性辞書に用語を登録する。このような方法によれば、家族内の特定のユーザが使用する特徴語について把握することができる。 (4) According to the family characteristic dictionary generating method described in (4), terms are extracted from a family blog, the total number of occurrences of the term in the family blog is counted, and the number of blogs of users constituting the family and Count the number of user blogs that contain the term. Then, a predetermined calculation is performed based on the total value, the number of users 'blogs constituting the family, and the number of users' blogs including the terms, and the deviation of the appearance frequency of the terms in the user's blog is calculated, If the calculated deviation is greater than a predetermined threshold, the term is registered in the user's characteristic dictionary. According to such a method, it is possible to grasp a feature word used by a specific user in the family.
(5) 特定地域ブログに含まれる特徴語を用語の出現頻度の偏りから抽出して、特徴語に関する地域特性辞書を生成する地域特性辞書生成装置であって、
複数の地域ブログから用語を抽出して、特定地域における該用語の出現数の合計値を計数する用語出現数計数手段と、
前記地域ブログの数量及び前記用語が含まれている地域ブログの数量を計数するブログ数計数手段と、
前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を行い、前記特定地域における前記用語の出現頻度の偏差を算出する用語出現偏差算出手段と、
前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記特定地域の地域特性辞書に、前記用語を登録する辞書登録手段と、
を備えることを特徴とする地域特性辞書生成装置。
(5) A regional characteristic dictionary generation device that extracts a characteristic word included in a specific regional blog from a bias in appearance frequency of terms and generates a regional characteristic dictionary related to the characteristic word,
A term appearance counting means for extracting terms from a plurality of regional blogs and counting the total number of occurrences of the terms in a specific area;
Blog number counting means for counting the number of regional blogs and the number of regional blogs containing the term;
Term appearance deviation calculating means for performing a predetermined calculation based on the total value, the number of regional blogs, and the number of regional blogs including the terms, and calculating a deviation of the appearance frequency of the terms in the specific region When,
When the calculated deviation is larger than a predetermined threshold value, a dictionary registration unit that registers the term in an area characteristic dictionary of the specific area;
A regional characteristic dictionary generating device comprising:
このような構成によれば、当該装置を構築することにより、(1)と同様の効果が期待できる。 According to such a configuration, the same effect as in (1) can be expected by constructing the device.
本発明によれば、地域毎に特徴語を抽出して、特徴語に関する地域特性辞書を生成する方法及び装置を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the method and apparatus which extract the characteristic word for every area and produce | generate the area characteristic dictionary regarding a characteristic word can be provided.
以下、本発明の実施形態について図を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1実施形態)
[システム全体構成]
図1は、第1実施形態に係るシステムの全体構成、及びその中核となる地域特性辞書生成サーバ1の機能ブロックを示す図である。
(First embodiment)
[Entire system configuration]
FIG. 1 is a diagram showing an overall configuration of a system according to the first embodiment and functional blocks of a regional characteristic
本システムの全体構成としては、地域特性辞書を生成する地域特性辞書生成サーバ1が、複数のブログサーバ2と通信ネットワーク3を介して接続される。通信ネットワーク3は、任意の通信ネットワークであってよく、LAN(Local Area Network)、WAN(Wide Area Network)、又は、インターネットであってよい。地域特性辞書生成サーバ1は、複数のブログサーバ2に格納されている地域ブログから用語を抽出して、所定の演算を行うことにより特定地域における当該用語の出現頻度の偏差を算出し、予め定めた閾値よりも大きい場合に、当該用語を特徴語として当該特定地域の地域特性辞書に登録する。
As an overall configuration of this system, a regional characteristic
なお、地域ブログとは、地域別に分類可能なブログであり、例えば、地域カテゴリにより地域情報が付加されているブログが該当する。また、ブログを利用するユーザの属性として地域情報が付与されているブログも、当該地域情報によりブログを地域別に分類可能であるため、地域ブログとしてもよい。 The regional blog is a blog that can be classified by region, for example, a blog to which region information is added according to a region category. Also, a blog to which regional information is given as an attribute of a user who uses the blog may be a regional blog because the blog can be classified by region based on the regional information.
[機能構成]
地域特性辞書生成サーバ1は、制御部10と、記憶部20とを備える。そして、制御部10は、ブログ情報収集部11と、用語出現数計数部12と、ブログ数計数部13と、用語出現偏差算出部14と、辞書登録部15とを備える。また、記憶部20は、集計データベース(以下、データベースをDBという)21と、辞書DB22とを備える。
[Function configuration]
The regional characteristic
ブログ情報収集部11は、複数のブログサーバ2に格納されているブログのうち、地域ブログの情報を収集する。地域ブログの情報としては、地域ブログが属する地域や、ユーザがブログに書き込んだ情報や、ブログ又はブログに書き込んだ情報に付与されたタグ等が含まれる。
The blog information collection unit 11 collects regional blog information among the blogs stored in the plurality of
なお、第1実施形態では、地域ブログの情報を特に期間を指定せずに収集することとしたが、これに限らない。例えば、ブログ情報収集部11は、地域ブログに対して当該地域ブログのユーザが書き込んだ情報のうち、所定の期間内に当該ユーザが書き込んだ情報を収集することとしてもよい。このようにすることで、地域特性辞書生成サーバ1は、所定の期間内に地域ブログのユーザが書き込んだ情報を収集できるので、後述の用語出現偏差算出部14及び辞書登録部15により、所定の期間内において所定の地域で出現頻度が高い用語をモニタリングすることができる。すなわち、特定の地域において利用される用語の流行を知ることができる。
In the first embodiment, the information on the local blog is collected without particularly specifying the period, but the present invention is not limited to this. For example, the blog information collection unit 11 may collect information written by the user within a predetermined period from information written by the user of the local blog with respect to the local blog. By doing so, the regional characteristic
用語出現数計数部12は、ブログ情報収集部11により収集された地域ブログの情報より用語を抽出する。そして、抽出した用語の数、すなわち、用語の出現数の合計値を地域毎に計数し、計数した結果を集計DB21(後述の図2参照)に記憶する。より具体的には、用語出現数計数部12は、ブログ情報収集部11により収集された地域ブログの情報について、形態素解析を行うことで複数の用語を抽出し、抽出したそれぞれの用語が当該地域ブログの情報において含まれている数を計数する。さらに、計数されたそれぞれの用語について、地域ブログが属する地域毎に計数して集計DB21に記憶する。
The term appearance
なお、第1実施形態では、形態素解析を行うことにより用語を抽出することとしたが、これに限らない。例えば、地域特性辞書生成サーバ1に用語DBを設け、当該用語DBに記憶されている用語について、地域ブログの情報に含まれる数を計数することとしてもよい。また、所定のWebサーバより辞書データを取得して、当該辞書データに登録されている名詞や動詞等を計数する対象の用語として利用することとしてもよい。
In the first embodiment, terms are extracted by performing morphological analysis, but the present invention is not limited to this. For example, a term DB may be provided in the regional characteristic
ブログ数計数部13は、地域ブログの数量及び用語が含まれている地域ブログの数量を計数する。
The blog
用語出現偏差算出部14は、特定地域における用語の出現数の合計値、地域ブログの数量、及び用語が含まれている地域ブログの数量に基づいて所定の演算を行い、特定地域における用語の出現頻度の偏差を算出する。出現頻度の偏差をD(Deviation)とし、用語をtとすると、特定地域Aにおける用語tの出現頻度の偏差D(A,t)は、
TF(A,t)は、特定地域Aにおける用語tの出現数の合計値を示す。
DF(t)は、用語tが含まれている地域ブログの数量を示す。
Nは、地域ブログの数量を示す。
The term appearance
TF (A, t) indicates the total number of occurrences of the term t in the specific area A.
DF (t) indicates the number of regional blogs that include the term t.
N indicates the number of regional blogs.
上述の式によると、D(A,t)値は、TF(A,t)が大きい場合及びDF(t)が小さい場合に値が大きくなる。すなわち、TF(A,t)が大きい場合は、用語tが特定地域Aにおいて頻繁に使用されていることが示され、D(A,t)が小さい場合は、用語tが使用されている地域ブログの数が少なく、用語tの利用頻度が特定地域Aを含む地域に限られて使用されていることが示される。よって、特定地域Aにおける用語tの出現頻度の偏差D(A,t)を適切に算出することができる。 According to the above formula, the D (A, t) value increases when TF (A, t) is large and DF (t) is small. That is, when TF (A, t) is large, it is indicated that the term t is frequently used in the specific area A, and when D (A, t) is small, the area where the term t is used. It is shown that the number of blogs is small and the usage frequency of the term t is limited to an area including the specific area A. Therefore, the deviation D (A, t) of the appearance frequency of the term t in the specific area A can be calculated appropriately.
あるいは、DF(t)を用語tが含まれている地域ブログを含む地域の数量を示し、Nが全地域の数(例えば、全地域が都道府県であれば47)を示すこととしてもよい。このようにすることで、ブログの数によらずに地域毎の用語の出現頻度の偏差を算出することができる。 Alternatively, DF (t) may indicate the quantity of the area including the area blog including the term t, and N may indicate the number of all areas (for example, 47 if all areas are prefectures). By doing in this way, the deviation of the appearance frequency of the term for every area can be calculated irrespective of the number of blogs.
なお、第1実施形態では、地域における用語の出現頻度の偏差を算出することとしたが、これに限らない。例えば、ある家族のブログについて、家族ブログにおける用語の出現数の合計値、家族ブログを構成するユーザのブログの数量、及び用語が含まれている当該家族内のユーザのブログの数量に基づいて所定の演算を行い、家族における用語の出現頻度の偏差を算出することとしてもよい。この場合には、家族Fにおける用語tの出現頻度の偏差D(F,t)は、
TF(F,t)は、家族Fにおける用語tの出現数の合計値を示す。
DF(t)は、用語tが含まれている家族ブログを構成するユーザのブログの数量を示す。
Nは、ある家族において家族ブログを構成するユーザのブログの数量を示す。
In the first embodiment, the deviation of the appearance frequency of terms in a region is calculated, but the present invention is not limited to this. For example, for a blog of a family, predetermined based on the total number of occurrences of terms in the family blog, the number of blogs of users who make up the family blog, and the number of blogs of users in the family that include the term It is good also as calculating the deviation of the appearance frequency of the term in a family. In this case, the deviation D (F, t) of the appearance frequency of the term t in the family F is
TF (F, t) indicates the total number of occurrences of the term t in the family F.
DF (t) indicates the number of blogs of users constituting the family blog including the term t.
N indicates the number of blogs of users who constitute a family blog in a certain family.
なお、地域特性辞書生成サーバ1は、家族における用語の出現頻度の偏差を算出する場合には、記憶部20に対して家族及びその家族の構成を示す家族DBを設けることを必要とする。そして、ブログ情報収集部11は、ブログサーバ2に格納されているブログのうち、家族のブログの情報を収集する。また、用語出現数計数部12は、収集された家族のブログの情報より用語を抽出し、用語の出現数の合計値を家族毎に計数し、計数した結果を集計DB21に記憶する。また、ブログ数計数部13は、家族のブログの数量及び用語が含まれている家族のブログの数量を計数する。また、後述の辞書登録部15は、算出した偏差D(A,t)が予め定めた閾値よりも大きい場合に、ユーザの特性辞書に当該用語を登録する。このようにすることで、家族内で特定のユーザが使用する特徴語について把握することができる。
In addition, when calculating the deviation of the appearance frequency of terms in a family, the regional characteristic
辞書登録部15は、用語出現偏差算出部14により算出した用語の出現頻度の偏差が予め定めた閾値よりも大きい場合に、用語の出現頻度の偏差を算出した地域の地域特性辞書である辞書DB22に、当該用語を登録する。より具体的には、特定地域Aにおいて用語tの出現頻度D(A,t)が予め定めた閾値よりも大きいか否かを判別する。閾値よりも大きい場合には、用語tが特定の地域で使用される特徴語であるとして、辞書DB22に用語tを登録する。また、閾値よりも大きくない場合には、用語tが特定の地域で使用される特徴語ではないとして辞書DB22に用語tを登録しない。
The
なお、閾値は予め定めることとしているが、以下のように求めてもよい。すなわち、全ての地域において用語tの出現頻度D(t)を算出すると、出現頻度D(t)の平均値と、標準偏差とが求められる。そして、標準偏差に所定値を掛けて算出した値を平均値に足すことで得られる値を閾値としてよい。例えば、出現頻度D(t)が正規分布に従うときに、所定値が2であるとすると、閾値より大きい値を持つ地域は全体の約2.3%となる。このように閾値を定めることで、特定の地域でしか使用されていない用語、すなわち特徴語を地域特性辞書に登録することができる。 Although the threshold is determined in advance, it may be obtained as follows. That is, when the appearance frequency D (t) of the term t is calculated in all regions, the average value of the appearance frequency D (t) and the standard deviation are obtained. Then, a value obtained by multiplying the standard deviation by a predetermined value and adding it to the average value may be used as the threshold value. For example, when the appearance frequency D (t) follows a normal distribution and the predetermined value is 2, the area having a value larger than the threshold is about 2.3% of the whole. By defining the threshold value in this manner, terms that are used only in a specific region, that is, feature words can be registered in the region characteristic dictionary.
図2は、第1実施形態に係る集計DB21を示す図である。集計DB21には、集計された用語を示す「用語」フィールドと、集計された地域を示す「地域」フィールドと、集計した地域における用語の集計値を示す「集計値」フィールドとが含まれている。集計DB21は、用語出現数計数部12により地域毎の用語の集計値が算出されると、当該集計値が地域毎に記憶される。また、用語出現偏差算出部14により、用語の出現偏差を算出するときに参照される。
FIG. 2 is a diagram illustrating the
図3は、第1実施形態に係る辞書DB22を示す図である。辞書DB22は、地域における特徴語が登録される地域特性辞書として利用されるDBであり、辞書DB22には、特徴語と判断された用語が使用されている地域を示す「地域」フィールドと、特徴語を示す「特徴語」フィールドと、特徴語の品詞を示す「品詞」フィールドとが含まれている。辞書DB22は、辞書登録部15により特徴語と判断された用語が記憶される。
FIG. 3 is a diagram illustrating the
[地域特性辞書生成サーバ1のハードウェア構成]
図4は、第1実施形態に係る地域特性辞書生成サーバ1のハードウェア構成を示す図である。本発明が実施される地域特性辞書生成サーバ1は標準的なものでよく、以下に構成の一例を示す。
[Hardware configuration of regional characteristic dictionary generation server 1]
FIG. 4 is a diagram illustrating a hardware configuration of the regional characteristic
地域特性辞書生成サーバ1は、制御部10を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078をまとめて記憶部20と呼ぶ。
The regional characteristic
制御部10は、地域特性辞書生成サーバ1を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
The
通信I/F1040は、地域特性辞書生成サーバ1が、通信ネットワーク3を介してブログサーバ2等と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
The communication I /
BIOS1060は、地域特性辞書生成サーバ1の起動時にCPU1010が実行するブートプログラムや、地域特性辞書生成サーバ1のハードウェアに依存するプログラム等を記録する。
The
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
The
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部20を接続することができる。
The I /
入力装置1100は、地域特性辞書生成サーバ1の管理者による入力の受け付けを行うものである。
The
ハードディスク1074は、本ハードウェアを地域特性辞書生成サーバ1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び上述のDBを記憶する。なお、地域特性辞書生成サーバ1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
The
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、ブルーレイディスク(Blu−ray Disc:登録商標)ドライブを使用することができる。光ディスクドライブ1076を使用する場合は、光ディスクドライブ1076に対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
As the
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、地域特性辞書生成サーバ1は、上述のように、制御部10、記憶部20等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
The computer in the present invention refers to an information processing apparatus including a storage device, a control unit, and the like, and the regional characteristic
また、地域特性辞書生成サーバ1は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、複数のハードウェアで構成する場合には、通信ネットワーク3を介して各ハードウェアを接続してもよい。例えば、各機能毎に別サーバ(装置)とし、各サーバ間での信号の送受信により、各サーバを連携させることで、第1実施形態の機能を実現してもよい。
The regional characteristic
[処理フロー]
図5は、第1実施形態に係る地域特性辞書生成サーバ1により、地域特性辞書(辞書DB22)に特徴語が登録されるまでの処理の流れを示すフローチャートである。
[Processing flow]
FIG. 5 is a flowchart showing a flow of processing until a feature word is registered in the regional characteristic dictionary (dictionary DB 22) by the regional characteristic
ステップS11では、制御部10(ブログ情報収集部11)は、ブログサーバ2に格納されているブログのうち、地域ブログの情報を収集する。
In step S <b> 11, the control unit 10 (blog information collection unit 11) collects regional blog information among the blogs stored in the
ステップS12では、制御部10(用語出現数計数部12)は、ステップS11にて収集された地域ブログの情報より用語を抽出する。 In step S12, the control unit 10 (term appearance number counting unit 12) extracts terms from the information on the local blog collected in step S11.
ステップS13では、制御部10(用語出現数計数部12)は、ステップS12にて抽出した用語について、抽出した用語の数、すなわち、用語の出現数の合計値を地域毎に計数し、計数結果を集計DB21に記憶する。
In step S13, the control unit 10 (term appearance count counting unit 12) counts the number of extracted terms, that is, the total number of appearances of terms for each area, and counts the terms extracted in step S12. Is stored in the
ステップS14では、制御部10(ブログ数計数部13)は、地域ブログの数量を計数する。 In step S14, the control unit 10 (blog number counting unit 13) counts the number of regional blogs.
ステップS15では、制御部10(ブログ数計数部13)は、用語が含まれている地域ブログの数量を計数する。 In step S15, the control unit 10 (blog number counting unit 13) counts the number of regional blogs including the term.
ステップS16では、制御部10(用語出現偏差算出部14)は、特定地域における用語の出現数の合計値、地域ブログの数量、及び用語が含まれている地域ブログの数量に基づいて上述の数2に示される式の演算を行い、地域における用語の出現頻度の偏差を算出する。 In step S16, the control unit 10 (term appearance deviation calculation unit 14) calculates the above number based on the total value of the number of appearances of terms in the specific area, the number of regional blogs, and the number of regional blogs containing the terms. 2 is calculated, and the deviation of the appearance frequency of the term in the area is calculated.
ステップS17では、制御部10(辞書登録部15)は、ステップS16にて算出した用語の出現頻度の偏差が予め定めた閾値よりも大きいか否かを判別する。この判別がYESのときは、ステップS18に移り、NOのときは、地域特性辞書を登録する処理を終了する。 In step S17, the control unit 10 (dictionary registration unit 15) determines whether or not the deviation of the appearance frequency of the term calculated in step S16 is larger than a predetermined threshold value. When this determination is YES, the process proceeds to step S18, and when NO, the process of registering the regional characteristic dictionary is ended.
ステップS18では、制御部10(辞書登録部15)は、用語を地域の特徴語であるとして用語の出現頻度の偏差を算出した特定地域の地域特性辞書である辞書DB22に、当該用語を登録する。
In step S18, the control unit 10 (dictionary registration unit 15) registers the term in the
(第2実施形態)
第1実施形態では、地域特性辞書生成サーバ1は、複数のブログサーバ2に格納されている地域ブログから用語を抽出して所定の演算を行うことにより、特定地域における当該用語の出現頻度の偏差を算出し、予め定めた閾値よりも大きい場合に、当該用語を特徴語として当該特定地域の地域特性辞書に登録することを説明した。第2実施形態では、地域の特徴語とされた用語を、特願2008−228641に記載の広告配信サーバに利用したときの例を示す。
(Second Embodiment)
In the first embodiment, the regional characteristic
より具体的には、第2実施形態に係る広告配信サーバ4は、通信ネットワーク3を介して接続されたブログサーバ2より抽出され、特定地域の特徴語とされた用語に応じたカテゴリを、当該地域において知識レベルの高いカテゴリとする。そして、広告配信サーバ4は、通信ネットワーク3を介して接続された閲覧端末5よりアクセスされたことに応じて閲覧端末5の所在する地域を特定し、当該地域の知識レベルに応じた広告を閲覧端末5に対して配信する。
More specifically, the
[機能構成]
図6は、第2実施形態に係る広告配信サーバ4の機能構成を示す図である。
[Function configuration]
FIG. 6 is a diagram illustrating a functional configuration of the
広告配信サーバ4は、制御部100及び記憶部120を備える。そして、制御部100は、知識レベル決定部101と、IPアドレス取得部102と、アクセス地域特定部103と、配信広告決定部104と、広告配信部105とを備える。また、記憶部120は、地域DB121と、知識DB122と、広告DB123とを備える。なお、記憶部120は、図示は省略するが、第1実施形態の地域特性辞書生成サーバ1が備える集計DB21及び辞書DB22と同様の構成のDBを備えることとする。
The
知識レベル決定部101は、複数のブログサーバ2に格納されている地域ブログから用語を抽出して所定の演算を行うことにより、特定地域における当該用語の出現頻度の偏差を算出し、予め定めた閾値よりも大きい用語を知識レベルが高い用語とする。そして、用語テーブル122a(後述の図8参照)を参照して当該用語のカテゴリを特定し、知識テーブル122b(後述の図9参照)に当該特定地域において知識レベルが高いカテゴリとして記憶する。
The knowledge
ここで、知識レベル決定部101は、複数のブログサーバ2に格納されている地域ブログから用語を抽出して所定の演算を行うことにより、特定地域における当該用語の出現頻度の偏差を算出し、予め定めた閾値よりも大きい用語を知識レベルが高い用語とする処理を行うこととしたが、この処理は、第1実施形態に記載したブログ情報収集部11、用語出現数計数部12、ブログ数計数部13、用語出現偏差算出部14、及び辞書登録部15により実現されるものであるため、詳細な説明を省略する。すなわち、知識レベル決定部101は、第1実施形態に記載したブログ情報収集部11、用語出現数計数部12、ブログ数計数部13、用語出現偏差算出部14、及び辞書登録部15により構成されるものである。
Here, the knowledge
なお、第2実施形態では、知識レベル決定部101により知識レベルが高いカテゴリを特定することとしたが、これに限らない。例えば、広告配信サーバ4を、第1実施形態の地域特性辞書生成サーバ1と通信ネットワーク3を介して接続させて、地域特定辞書生成サーバ1の辞書DB22に記憶されているそれぞれの地域の特徴語と用語テーブル122aとを参照して、当該特徴語に応じたカテゴリをそれぞれの地域において知識レベルが高いカテゴリを決定してもよい。
In the second embodiment, the knowledge
また、第2実施形態では、広告配信サーバ4は、予め定めた閾値よりも大きい用語を知識レベルが高い用語とし、この用語に応じたカテゴリの知識レベルを決定することとしたが、これに限らない。例えば、広告配信サーバ4に、予め定めた閾値に替わり複数の数値範囲を定める。そして、広告配信サーバ4は、地域における用語の出現頻度の偏差がどの数値範囲に属するかに応じて、この用語に応じたカテゴリの知識レベルを決定することとしてもよい。このように知識レベルを決定することで、広告配信サーバ4は、地域における用語の出現頻度の偏差に応じて多様な知識レベルを決定することができる。
In the second embodiment, the
IPアドレス取得部102は、閲覧端末5よりアクセスされたことに応じて、閲覧端末5のIPアドレスを取得する。
The IP
アクセス地域特定部103は、IPアドレス取得部102により取得したIPアドレスに基づいて、閲覧端末5が所在する地域を特定する。具体的には、地域DB121(後述の図7参照)を参照して、IPアドレス取得部102により取得したIPアドレスに応じた地域を特定する。
The access
配信広告決定部104は、閲覧端末5に配信する広告を決定する。具体的には、配信広告決定部104は、広告DB123(後述の図10参照)を参照して、配信する広告の広告主をランダムに決定し、広告主の広告のカテゴリを取得する。ここで、配信広告決定部104は、広告主が複数のカテゴリに対して広告配信を指定している場合には、複数のカテゴリのうち、いずれか1つをランダムに取得する。そして、配信広告決定部104は、アクセス地域特定部103により特定した閲覧端末5の地域におけるカテゴリであって、広告主の広告のカテゴリに応じたカテゴリの知識レベルを、知識テーブル122b(後述の図9参照)に基づいて取得する。広告主の広告のカテゴリには、知識レベル毎に異なる広告データが予め登録されているので、配信広告決定部104は、取得した知識レベルに基づいて配信する広告を決定することができる。
The distribution
なお、第2実施形態では、配信する広告の広告主をランダムに決定することとしたが、これに限らない。例えば、広告入札金額の高額な広告主の広告を優先して選択する等、予め定められた規則に基づいて調整を行うこととしてもよい。このようにすることで、広告入札金額が、複数の広告主で異なる場合には、広告入札金額の高額な広告主の広告が優先して選択されるので、広告入札金額に応じて公平に広告を配信できる。 In the second embodiment, the advertiser of the advertisement to be distributed is determined at random. However, the present invention is not limited to this. For example, the adjustment may be performed based on a predetermined rule, such as preferentially selecting an advertisement of an advertiser with a high bid price. In this way, if the advertising bid amount is different among multiple advertisers, the advertiser with the higher advertising bid amount is preferentially selected. Can be delivered.
また、広告配信サーバ4は、配信する広告のカテゴリをWebページの内容との類似度に基づいて決定することとしてもよい。すなわち、広告配信サーバ4は、閲覧端末5の表示部に表示されているWebページの内容を受信して、Webページの内容について形態素解析を行い、解析結果からWebページが所属するカテゴリを決定することとしてもよい。この場合には、広告配信サーバ4は、形態素解析の結果に、所定のカテゴリに属する用語が含まれるか否かを判定し、所定のカテゴリに属する単語が含まれている場合には、当該Webページが所定のカテゴリに属するものであると決定する。これにより、広告配信サーバ4は、広告がWebページの内容に調和し、違和感がない広告を配信することができる。
Further, the
広告配信部105は、配信広告決定部104により配信することを決定した広告を閲覧端末5に送信する。
The
図7は、第2実施形態に係る地域DB121を示す図である。地域DB121には、IPアドレスを格納する「IPアドレス」フィールドと、地域の名称を示す「地域」フィールドと、が含まれている。地域DB121は、アクセス地域特定部103により、IPアドレスに基づいて地域情報を取得するときに参照される。
FIG. 7 is a diagram illustrating the
図8は、第2実施形態に係る知識DB122に格納された用語テーブル122aを示す図である。用語テーブル122aには、技術分野や、学術分野に分類する「カテゴリ」フィールドと、カテゴリに所属する用語、すなわち、特定用語を示す「用語」フィールドと、が含まれている。用語テーブルは、知識レベル決定部101において用語に応じたカテゴリを特定するために参照される。
FIG. 8 is a diagram illustrating the term table 122a stored in the
図9は、第2実施形態に係る知識DB122に格納された知識テーブル122bを示す図である。知識テーブル122bには、地域の名称を示す「地域」フィールドと、技術分野や、学術分野に分類する「カテゴリ」フィールドと、カテゴリに対する理解度を示す「知識レベル」フィールドと、が含まれている。知識テーブル122bは、知識レベル決定部101により地域毎のカテゴリの知識レベルの決定を行うときと、配信広告決定部104により配信する広告を決定するときと、に参照される。
FIG. 9 is a diagram showing the knowledge table 122b stored in the
図10は、第2実施形態に係る広告DB123を示す図である。広告DB123には、広告を一意に特定する「広告ID」フィールドと、広告主の名称を示す「広告主名」フィールドと、技術分野や学術分野に分類する「カテゴリ」フィールドと、カテゴリに対する理解度を示す「知識レベル」フィールドと、配信する広告の内容である「表示広告データ」フィールドと、を含んでいる。広告DB123は、配信広告決定部104により配信する広告を決定するときに参照される。ここで、広告主は、予め知識レベル毎に異なる広告を予め登録し、知識レベルに応じて広告を提供することとする。
FIG. 10 is a diagram illustrating the
[広告配信サーバ4のハードウェア構成]
広告配信サーバ4は、第1実施形態に記載の地域特性辞書生成サーバ1と同様な構成を持つため、詳細な説明を省略する。
[Hardware configuration of advertisement distribution server 4]
Since the
[処理フロー]
図11は、第2実施形態に係る広告配信サーバ4によりカテゴリ毎の知識レベルが決定されるまでの処理を示すフローチャートである。
[Processing flow]
FIG. 11 is a flowchart illustrating processing until the knowledge level for each category is determined by the
ステップS101からステップS107までの処理は、第1実施形態に係る地域特性辞書生成サーバの処理フローのステップS10からステップS17までの処理と同一であるため、説明を省略する。なお、ステップS101からステップS107までの処理は、制御部100(知識レベル決定部101)により行われる。 Since the process from step S101 to step S107 is the same as the process from step S10 to step S17 of the process flow of the regional characteristic dictionary generation server according to the first embodiment, the description is omitted. Note that the processing from step S101 to step S107 is performed by the control unit 100 (knowledge level determination unit 101).
ステップS108では、制御部100(知識レベル決定部101)は、用語を地域において知識レベルが高い用語に決定する。 In step S108, the control unit 100 (knowledge level determination unit 101) determines a term having a high knowledge level in the region.
ステップS109では、制御部100(知識レベル決定部101)は、用語テーブル122aを参照して、ステップS108にて決定された知識レベルが高い用語に応じたカテゴリを抽出する。 In step S109, the control unit 100 (knowledge level determination unit 101) refers to the term table 122a and extracts a category corresponding to the term having a high knowledge level determined in step S108.
ステップS110では、制御部100(知識レベル決定部101)は、ステップS109により抽出されたカテゴリを特定の地域において知識レベルが高いカテゴリとして、知識テーブル122bに記憶する。 In step S110, the control unit 100 (knowledge level determination unit 101) stores the category extracted in step S109 as a category having a high knowledge level in a specific area in the knowledge table 122b.
図12は、第2実施形態に係る閲覧端末5が広告配信サーバ4にアクセスしてから広告が配信されるまでの処理を示すフローチャートである。
FIG. 12 is a flowchart illustrating processing from when the
ステップS121では、制御部100(IPアドレス取得部102)は、閲覧端末5よりアクセスされたことに応じて、閲覧端末5のIPアドレスを取得する。
In step S <b> 121, the control unit 100 (IP address acquisition unit 102) acquires the IP address of the
ステップS122では、制御部100(アクセス地域特定部103)は、ステップS121にて取得したIPアドレスに基づいて、閲覧端末5が所在する地域を特定する。
In step S122, the control unit 100 (access area specifying unit 103) specifies the area where the
ステップS123では、制御部100(配信広告決定部104)は、ステップS122にて特定した閲覧端末5の地域と、広告DB123に基づいて配信する広告を決定する。具体的には、広告DB123を参照して、ランダムで広告主を決定する。そして、ステップS122にて特定した閲覧端末5の地域において、広告主が指定するカテゴリに応じたカテゴリの知識レベルを知識DB122の知識テーブル122bを参照して抽出する。そして、抽出した知識レベルに応じた広告を配信する広告として決定する。
In step S123, the control unit 100 (distributed advertisement determining unit 104) determines an advertisement to be distributed based on the region of the
ステップS124では、制御部100(広告配信部105)は、ステップS123にて配信することを決定した広告を閲覧端末5に配信する。
In step S124, the control unit 100 (advertisement distribution unit 105) distributes the advertisement determined to be distributed in step S123 to the
[表示情報の表示例]
図13及び図14は、第2実施形態に係る閲覧端末5の表示部に対して広告が表示されたときの表示例を示す図である。
[Display information display example]
FIG.13 and FIG.14 is a figure which shows a display example when an advertisement is displayed with respect to the display part of the
以下に、図13に示される広告が表示されるまでの流れを示す。ここで、閲覧端末5のIPアドレスが「210.232.***.***」であり、配信する広告の広告主が「A社」、カテゴリが「IT」に決定されたこととする。
The flow until the advertisement shown in FIG. 13 is displayed is shown below. Here, it is assumed that the IP address of the
IPアドレス取得部102により閲覧端末5のIPアドレスを取得すると、アクセス地域特定部103により、図7の地域DB121が参照され、閲覧端末5の所在する地域が「地域1」に特定される。そして、配信広告決定部104により、広告主が「A社」、カテゴリが「IT」と決定されていることから、図9の知識テーブル122bにより、「地域1」における「IT」の知識レベルが「7」であることが参照され、知識レベル「7」に応じた広告として、広告ID「002」の広告が配信する広告として決定される。
When the IP
図13では、閲覧端末5の表示部50にブラウザ501が表示されている。そして、ブラウザ501に、ポータルサイト502の画面が表示されており、ポータルサイト502の右部には、PC(Personal Computer)に関する広告画像503aが表示されているのを確認できる。この広告画像503aの表示は、広告ID「002」に応じた広告の表示であり、ITの知識レベルが「5〜10」の地域向けの広告である。このように、特定した地域の知識レベルが高い場合には、ITの知識レベルが高いユーザが興味を持つような広告を選択して表示させることができる。
In FIG. 13, the
図14は、第2実施形態に係る閲覧端末5に対して広告が配信されたときの表示例を示す別の図である。
FIG. 14 is another diagram illustrating a display example when an advertisement is distributed to the
ここで、閲覧端末5のIPアドレスが「210.211.***.***」であり、図14の説明と同様に、配信する広告の広告主が「A社」、カテゴリが「IT」に決定されたこととする。
Here, the IP address of the
IPアドレス取得部102により閲覧端末5のIPアドレスを取得すると、アクセス地域特定部103により、図7の地域DB121が参照され、閲覧端末5の所在する地域が「地域4」に特定される。そして、配信広告決定部104により、広告主が「A社」、カテゴリが「IT」と決定されていることから、図9の知識テーブル122bにより、「地域4」における「IT」の知識レベルが「4」であることが参照され、知識レベル「4」に応じた広告として、広告ID「001」の広告が配信する広告として決定される。
When the IP
図14では、図13と同様に、閲覧端末5の表示部50にブラウザ501が表示されている。そして、ブラウザ501に、ポータルサイト502の画面が表示されており、ポータルサイト502の右部には、PCに関する広告画像503bが表示されているのを確認できる。この広告画像503bの表示は、広告ID「001」に応じた広告の表示であり、ITの知識レベルが「1〜4」の地域向けの広告である。このように、特定した地域レベルの知識レベルが低い場合には、ITの知識レベルが低いユーザが興味を持つような広告を選択して表示させることができる。
In FIG. 14, the
以上、本発明の実施形態について説明したが、本発明は前記第1実施形態及び第2実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。 The embodiment of the present invention has been described above, but the present invention is not limited to the first embodiment and the second embodiment, and modifications, improvements, etc. within the scope that can achieve the object of the present invention. Is included.
1 地域特性辞書生成サーバ
2 ブログサーバ
3 通信ネットワーク
4 広告配信サーバ
5 閲覧端末
10 制御部
11 ブログ情報収集部
12 用語出現数計数部
13 ブログ数計数部
14 用語出現偏差算出部
15 辞書登録部
20 記憶部
21 集計DB
22 辞書DB
100 制御部
101 知識レベル決定部
102 IPアドレス取得部
103 アクセス地域特定部
104 配信広告決定部
105 広告配信部
120 記憶部
121 地域DB
122 知識DB
123 広告DB
DESCRIPTION OF
22 Dictionary DB
DESCRIPTION OF
122 Knowledge DB
123 Advertising DB
Claims (5)
前記地域特性辞書生成装置が、複数の地域ブログから用語とともに地域ブログが属する地域を示す地域情報を収集して、地域ブログを地域別に分類し、特定地域毎に該用語の出現数の合計値を計数するステップと、
前記地域特性辞書生成装置が、前記地域ブログの数量及び前記用語が含まれている地域ブログの数量を計数するステップと、
前記地域特性辞書生成装置が、前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を行い、前記特定地域毎に前記用語の出現頻度の偏差を算出するステップと、
前記地域特性辞書生成装置が、前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記特定地域の地域特性辞書に前記用語を該特定地域において理解度が高い用語として登録するとともに、前記算出した前記偏差が大きいほど数値が高くなるような前記用語の知識レベルを広告配信に用いる情報として登録するステップと、
を備えることを特徴とする地域特性辞書生成方法。 An area characteristic dictionary generation method executed by an area characteristic dictionary generation apparatus that extracts a characteristic word included in a specific area blog from a bias in appearance frequency of terms and generates an area characteristic dictionary related to the characteristic word,
The regional characteristic dictionary generation device collects regional information indicating a region to which the regional blog belongs together with terms from a plurality of regional blogs, classifies the regional blogs by region, and calculates the total number of occurrences of the terms for each specific region. Counting step;
The regional characteristic dictionary generating device counting the number of regional blogs and the number of regional blogs containing the term;
The regional characteristic dictionary generation device performs a predetermined calculation based on the total value, the number of regional blogs, and the number of regional blogs including the term, and the frequency of appearance of the term for each specific region. Calculating a deviation;
When the regional characteristic dictionary generation device registers the term as a term having a high degree of understanding in the specific region when the calculated deviation is larger than a predetermined threshold , Registering the knowledge level of the term such that the larger the calculated deviation is, the higher the numerical value is as information used for advertisement delivery ;
A regional characteristic dictionary generation method comprising:
t:用語
D(A,t):特定地域Aにおける用語tの出現頻度の偏差
TF(A,t):特定地域Aにおける用語tの出現数の合計値
DF(t):用語tが含まれている地域ブログの数量
N:地域ブログの数量 The step of calculating the deviation of the appearance frequency of the term performs the predetermined calculation based on the total value, the quantity of the regional blog, and the quantity of the regional blog including the term by the following formula, and The regional characteristic dictionary generation method according to claim 1, wherein a deviation of the appearance frequency of the term in the region is calculated.
t: Term
D (A, t): Deviation in frequency of appearance of term t in specific area A
TF (A, t): Total number of occurrences of the term t in the specific area A
DF (t): Number of local blogs containing the term t
N: Number of regional blogs
家族ブログから用語を抽出するとともに、家族及び家族の構成を示す情報を収集して、家族ブログを家族別に分類し、該家族毎に該用語の出現数の合計値を計数するステップと、
前記家族内特性辞書生成装置が、前記家族を構成するユーザのブログの数量及び前記用語が含まれている前記ユーザのブログの数量を計数するステップと、
前記家族内特性辞書生成装置が、前記合計値、前記家族を構成するユーザのブログの数量、及び前記用語が含まれている前記ユーザのブログの数量に基づいて所定の演算を行い、前記ユーザのブログにおける前記用語の出現頻度の偏差を算出するステップと、
前記家族内特性辞書生成装置が、前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記ユーザの特性辞書に前記用語を該ユーザの理解度が高い用語として登録するとともに、前記算出した前記偏差が大きいほど数値が高くなるような前記用語の知識レベルを広告配信に用いる情報として登録するステップと、
を備えることを特徴とする家族内特性辞書生成方法。 A family characteristic dictionary executed by a family characteristic dictionary generation device that extracts characteristic words contained in a family blog composed of a plurality of blogs from the occurrence frequency bias and generates a user characteristic dictionary in the family. A generation method,
Extracting terms from family blogs, collecting information indicating family and family composition, classifying family blogs by family, and counting the total number of occurrences of the terms for each family;
The family characteristic dictionary generating device counting the number of blogs of the users constituting the family and the number of blogs of the users including the term;
The family characteristic dictionary generation device performs a predetermined calculation based on the total value, the number of blogs of users configuring the family, and the number of blogs of the user including the term, and Calculating a deviation of the appearance frequency of the term in the blog;
When the calculated family deviation dictionary has the calculated deviation larger than a predetermined threshold, the term is registered in the user's characteristic dictionary as a term having a high degree of understanding of the user, and the calculated Registering the knowledge level of the term such that the numerical value becomes higher as the deviation is larger as information used for advertisement delivery ;
A family characteristic dictionary generation method characterized by comprising:
複数の地域ブログから用語とともに地域ブログが属する地域を示す地域情報を収集して、地域ブログを地域別に分類し、特定地域毎に該用語の出現数の合計値を計数する用語出現数計数手段と、
前記地域ブログの数量及び前記用語が含まれている地域ブログの数量を計数するブログ数計数手段と、
前記合計値、前記地域ブログの数量、及び前記用語が含まれている地域ブログの数量に基づいて所定の演算を行い、前記特定地域における前記用語の出現頻度の偏差を算出する用語出現偏差算出手段と、
前記算出した前記偏差が予め定めた閾値よりも大きい場合に、前記特定地域の地域特性辞書に、前記用語を該特定地域において理解度が高い用語として登録するとともに、前記算出した前記偏差が大きいほど数値が高くなるような前記用語の知識レベルを広告配信に用いる情報として登録する辞書登録手段と、
を備えることを特徴とする地域特性辞書生成装置。 A regional characteristic dictionary generation device that extracts a characteristic word included in a specific regional blog from a bias in appearance frequency of terms and generates a regional characteristic dictionary related to the characteristic word,
A term appearance number counting unit that collects region information indicating a region to which the regional blog belongs together with terms from a plurality of regional blogs, classifies the regional blog by region, and counts the total number of occurrences of the term for each specific region; ,
Blog number counting means for counting the number of regional blogs and the number of regional blogs containing the term;
Term appearance deviation calculating means for performing a predetermined calculation based on the total value, the number of regional blogs, and the number of regional blogs including the terms, and calculating a deviation of the appearance frequency of the terms in the specific region When,
When the calculated deviation is larger than a predetermined threshold, the term is registered in the regional characteristic dictionary of the specific region as a term having a high degree of understanding in the specific region, and the calculated deviation is larger. A dictionary registration means for registering the knowledge level of the term such that the numerical value is high as information used for advertisement distribution ;
A regional characteristic dictionary generating device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009000560A JP5215877B2 (en) | 2009-01-06 | 2009-01-06 | Region characteristic dictionary generation method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009000560A JP5215877B2 (en) | 2009-01-06 | 2009-01-06 | Region characteristic dictionary generation method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010160534A JP2010160534A (en) | 2010-07-22 |
JP5215877B2 true JP5215877B2 (en) | 2013-06-19 |
Family
ID=42577676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009000560A Active JP5215877B2 (en) | 2009-01-06 | 2009-01-06 | Region characteristic dictionary generation method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5215877B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5368495B2 (en) * | 2011-02-15 | 2013-12-18 | ヤフー株式会社 | Information processing apparatus and method |
JP5372981B2 (en) * | 2011-02-15 | 2013-12-18 | ヤフー株式会社 | Information processing apparatus and method |
JP5757208B2 (en) * | 2011-09-22 | 2015-07-29 | 日本電気株式会社 | Keyword extraction system, keyword extraction method and program |
JP5766104B2 (en) * | 2011-12-06 | 2015-08-19 | 株式会社Nttドコモ | Information providing apparatus and information providing method |
JP5398884B1 (en) * | 2012-08-10 | 2014-01-29 | 日本電信電話株式会社 | Estimating device and method for region representing representative products |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001229231A (en) * | 2000-02-14 | 2001-08-24 | Digital Vision Laboratories Corp | System and method for mediating information circulation, mediating information circulation between circulation mechanism side and general consumer |
JP3540233B2 (en) * | 2000-02-14 | 2004-07-07 | 靖人 茅根 | Product information providing system and method |
JP4513159B2 (en) * | 2000-03-28 | 2010-07-28 | ソニー株式会社 | Information processing apparatus and method, and recording medium |
JP3932041B2 (en) * | 2003-02-27 | 2007-06-20 | 日本電信電話株式会社 | Multi-area user community communication system |
JP2005346594A (en) * | 2004-06-07 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | Management server in messaging system, and service management method in messaging system |
JP4639388B2 (en) * | 2004-09-15 | 2011-02-23 | 学校法人慶應義塾 | Important word extraction method, important word extraction apparatus, computer program, and program storage medium in document database |
JP2006331070A (en) * | 2005-05-26 | 2006-12-07 | Ntt Docomo Inc | Community-control node device, community-information retrieval system, community-information retrieval method |
JPWO2007010836A1 (en) * | 2005-07-15 | 2009-01-29 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | Community-specific expression detection apparatus and method |
JP2008050099A (en) * | 2006-08-24 | 2008-03-06 | Kyocera Mita Corp | Double feeding prevention device and image processing device |
JP2008152436A (en) * | 2006-12-15 | 2008-07-03 | Winworks Kk | Schedule management system and program |
JP5308628B2 (en) * | 2007-03-20 | 2013-10-09 | 富士フイルム株式会社 | Operation method of Internet communication server and communication site |
JP5073349B2 (en) * | 2007-04-05 | 2012-11-14 | ヤフー株式会社 | Technical term extraction device, method and program |
-
2009
- 2009-01-06 JP JP2009000560A patent/JP5215877B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010160534A (en) | 2010-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5220297B2 (en) | Ad delivery method based on keywords and conditions | |
KR100913475B1 (en) | Method and system for advertisement integrated management about plural advertisement domains | |
TWI529549B (en) | Method, computer-readable media and apparatus for supplementing an article of content | |
JP5312771B2 (en) | Technology that determines relevant ads in response to queries | |
JP5144594B2 (en) | Server apparatus, prediction method and program in server apparatus | |
CN109597904B (en) | Method and system for providing social network | |
JP4809403B2 (en) | Advertisement distribution apparatus, advertisement distribution method, and advertisement distribution control program | |
US20100057577A1 (en) | System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing | |
AU2008346880B2 (en) | Video advertisement pricing | |
KR20120050593A (en) | System and method for providing recommendation business keyword | |
US20070005433A1 (en) | Method and system for advertisement related to information service | |
US20110246277A1 (en) | Multi-factor promotional offer suggestion | |
JP5215877B2 (en) | Region characteristic dictionary generation method and apparatus | |
US9846722B1 (en) | Trend based distribution parameter suggestion | |
JP5226241B2 (en) | How to add tags | |
US9720983B1 (en) | Extracting mobile application keywords | |
US9053129B1 (en) | Content item relevance based on presentation data | |
WO2005029745A2 (en) | Advertising based on a search string and user attribute combination | |
JP6960553B2 (en) | Brand dictionary creation device, product evaluation device, brand dictionary creation method and program | |
KR101016701B1 (en) | Method and system for providing service of advertisement | |
JP4929268B2 (en) | Apparatus and method for distributing advertisement based on knowledge level | |
KR100903505B1 (en) | Method for offering a search-word advertisement and generating a search result list in response to the search-demand of a searcher and a system thereof | |
KR101347220B1 (en) | System for providing advertisement contents | |
KR100837210B1 (en) | A advertisement agenting system using API and advertisement agenting method thereby | |
KR20050071308A (en) | Online advertising method and online advertising system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120810 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121128 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20121205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5215877 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |