JP2009211280A - Method, apparatus, and program for analyzing online page, and computer readable recording medium - Google Patents

Method, apparatus, and program for analyzing online page, and computer readable recording medium Download PDF

Info

Publication number
JP2009211280A
JP2009211280A JP2008052151A JP2008052151A JP2009211280A JP 2009211280 A JP2009211280 A JP 2009211280A JP 2008052151 A JP2008052151 A JP 2008052151A JP 2008052151 A JP2008052151 A JP 2008052151A JP 2009211280 A JP2009211280 A JP 2009211280A
Authority
JP
Japan
Prior art keywords
score
article
comment
page
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008052151A
Other languages
Japanese (ja)
Inventor
Akihiro Miyata
章裕 宮田
Harumi Kawashima
晴美 川島
Hidenori Okuda
英範 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008052151A priority Critical patent/JP2009211280A/en
Publication of JP2009211280A publication Critical patent/JP2009211280A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To analyze to express numerically intentions of a creator and a commentator of an online page and feature of characteristics of the page without depending on the semantic contents of the page. <P>SOLUTION: A method of analyzing an online page acquires an article part and a comment part of the page to calculate the number of article characters, the number of article pictograms, the number of comment averaged pictograms, and associates these numbers with page IDs to calculate a score on the basis of the number of characters calculated for each page ID, calculates, by using the score, the feature value of the article indicating whether the creator and the commentator give weight to accurately notify information or to notify with rich feelings to store the feature value in a feature value storage means, and retrieves the feature value of page IDs specified by an input query, or the page IDs having the feature value specified by the query from the storage means to output the retrieved feature value or the page IDs. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、オンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、文字数・絵文字数を利用したオンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。   The present invention relates to an online page analysis method, apparatus, program, and computer-readable recording medium, and more particularly, to an online page analysis method, apparatus, program, and computer-readable recording medium using the number of characters / pictograms.

詳しくは、オンラインページ中の記事に含まれる文字数・絵文字数と、記事にコメントが付与されている場合はコメントに含まれる文字数・絵文字数を利用することで、オンラインページの特徴量を分析するオンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。   For details, please refer to the number of characters / pictograms included in the articles on the online page, and the number of characters / pictograms included in the comments when comments are attached to the articles, to analyze the features of online pages. The present invention relates to a page analysis method and apparatus, a program, and a computer-readable recording medium.

近年、ブログやSNS(Social Networking Service)のように、ユーザが執筆した記事を手軽にオンラインページとして投稿できるサービスが普及している。これらの記事の作成者は殆どの場合、マスメディア等とは関連を持たない一般ユーザであるが、一般ユーザならではの体験情報やクチコミ等が記載されることも多く、大量の有益情報が埋もれていると言える。特に、一般消費者に商材を提供する企業等では、特定の商材に対する評判やクチコミを把握するため、これらのオンラインページをマイニングすることへの需要が高まっている。   In recent years, services such as blogs and SNS (Social Networking Service) that can easily post articles written by users as online pages have become widespread. Most of the authors of these articles are general users who are not related to the mass media. However, experience information and reviews unique to general users are often described, and a lot of useful information is buried. I can say that. In particular, companies that provide merchandise to general consumers are increasingly demanding to mine these online pages in order to grasp the reputation and reviews of specific merchandise.

これらのオンラインページの中から有益情報を見つけ出す手法はいくつか存在している。例えば、Googleに代表されるような、オンラインページの被リンク数を他者からの支持票とみなして該オンラインページの有用性を判定する手法が挙げられる(例えば、非特許文献1参照)。   There are several ways to find useful information from these online pages. For example, as represented by Google, there is a method of determining the usefulness of the online page by regarding the number of linked pages of the online page as support votes from others (for example, see Non-Patent Document 1).

また、オンラインページに付与されるコメントの数やコメントを付与した人数といった情報を利用することで、該オンラインページを評価する手法も存在する(例えば、非特許文献2参照)。
L. Page. S. Brin, R. Motwani, and T. Winograd, "The PageRank Citation Ranking: Bringing Order to the Web". Technical report, Stanford Digital Library Technologies Project, 1998 宮田章裕、松岡寿延、岡野真一、山田節夫、石打智美、荒川則泰、加藤泰久、「反響特性分析を利用したブログ記事検索手法」情報処理学会論文誌、Vol. 48,No12, pp. 4041-4050 (2007).
In addition, there is a method for evaluating the online page by using information such as the number of comments given to the online page and the number of comments given (for example, see Non-Patent Document 2).
L. Page. S. Brin, R. Motwani, and T. Winograd, "The PageRank Citation Ranking: Bringing Order to the Web". Technical report, Stanford Digital Library Technologies Project, 1998 Akihiro Miyata, Toshinobu Matsuoka, Shinichi Okano, Seto Yamada, Tomomi Ishiuchi, Noriyasu Arakawa, Yasuhisa Kato, “Blog Article Retrieval Method Using Resonance Characteristics Analysis”, Transactions of Information Processing Society of Japan, Vol. 48, No12, pp. 4041- 4050 (2007).

前述の通り、ブログやSNSのようなオンラインページには評判やクチコミ等の第三者にとって有益な情報が埋もれている。一方、これらのオンラインページの中には、記事作成者ないしはその友人にしか理解できないような日記や内輪の情報も多数混在している。そのため、オンラインページ検索・マイニング技術の精度を向上させる必要があり、これらの多種多様な情報の種類を適切に分類する技術への需要が高まっている。   As described above, online pages such as blogs and SNS contain valuable information such as reputation and word of mouth for third parties. On the other hand, these online pages contain a lot of diary and inner ring information that only the creator of the article or his friend can understand. For this reason, it is necessary to improve the accuracy of online page search / mining techniques, and there is an increasing demand for techniques for appropriately classifying these various types of information.

例えば、図15のように同じキーワード(同図の例では『年金』)を含む記事A,記事Bがあり、記事Aでは時事問題に関する深い考察等の第三者にとって有益な情報が書かれており、記事Bには個人の日常的な出来事等の第三者にとっては有益とはいえない情報が書かれていたとする。この場合、単純にキーワード(同図の例は「年金」)を含むかどうかだけを判断基準としてしまうと、記事Aと記事Bとを区別することができない。そこで、前述の非特許文献1のように、被リンク数を他者からの支持票とみなして当該オンラインページの有用性を判定する手法がWeb検索ではかなり有効である。しかし、ブログの記事は従来のWebページに比べて被リンク数が少なく、被リンクがあるブログ記事は全体の1%強にすぎないという報告もある(例えば、Ko Fujimura, Takefumi Inoue, Masayuki Sugisaki, "The EigenRumor Algorithm for Ranking Blogs", In Proceedings of the WWW 2005 2nd Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and dynamics, May 2005.)。SNSもブログと同様の利用形態が目立つため、被リンク数が少ない傾向は同じであると思われる。   For example, as shown in FIG. 15, there are an article A and an article B that include the same keyword (“pension” in the example in the figure), and in the article A, useful information for a third party such as a deep consideration about current affairs is written. Assume that article B contains information that is not useful to a third party, such as an individual's daily events. In this case, article A and article B cannot be distinguished by simply determining whether or not a keyword (“pension” in the example in the figure) is included. Therefore, as described in Non-Patent Document 1 described above, a method for determining the usefulness of the online page by regarding the number of linked links as support votes from others is quite effective in Web search. However, there are reports that blog articles have fewer links than traditional Web pages, and that blog articles with linked links account for just over 1% of the total (for example, Ko Fujimura, Takefumi Inoue, Masayuki Sugisaki, “The EigenRumor Algorithm for Ranking Blogs”, In Proceedings of the WWW 2005 2nd Annual Workshop on the Weblogging Ecosystem: Aggregation, Analysis and dynamics, May 2005.). Since SNS also has the same usage pattern as blogs, it seems that the tendency for the number of linked links to be small is the same.

このように被リンク数が少ないのは、ブログやSNSでは記事にコメントを付与することができるため、記事に対する反響をリンクという行為ではなく、手軽なコメントという行為で代替する読者が多いことが一因と思われる。この点に注目して、上記の非特許文献2のような、記事に付与されたコメントの数やコメントを付与した人数といった情報を利用することで、オンラインページを評価する手法が提案されている。当該非特許文献2の手法では、例えば、多くのユーザから長期間にわたってコメントを受け続けている記事は資料的価値のある内容が含まれていると判定している。あるいは、少数の人々が何度もコメントを付与している記事では濃密な議論の対象となるような内容が含まれていると判定している。   In this way, because the number of linked pages is small, comments can be given to articles in blogs and SNSs, so there are many readers who replace the response to articles with the act of simple comments instead of the act of links. It seems to be the cause. Focusing on this point, a method has been proposed for evaluating an online page by using information such as the number of comments given to articles and the number of people given comments, such as Non-Patent Document 2 above. . In the method of Non-Patent Document 2, for example, an article that continues to receive comments from many users over a long period of time is determined to contain content that has material value. Alternatively, it is determined that an article in which a small number of people have given comments many times contains content that is subject to deep discussion.

しかし、当該非特許文献2の手法では、第三者にとって有益な記事を発見できない場合も少なくない。例えば、図16のように記事Cと記事Dがあり、両記事ともN人のユーザからM個ずつコメントを送信されていたとする。非特許文献2の手法では、記事Cと記事Dは同程度に有益と判定されてしまうが、実際には記事Cには第三者にとって有益な情報が含まれており、コメントでは議論が繰り広げられていて、記事Dには記事作成者の知人しか理解できない内容であり、コメントでは当事者だけが楽しめるインフォーマルなコミュニケーションが行われている、という場合も少なくない。これらの記事が第三者にとって有益かどうかは大きく異なるが、既存手法ではこの違いを識別することができない。   However, the technique of Non-Patent Document 2 often fails to find articles useful to third parties. For example, it is assumed that there are an article C and an article D as shown in FIG. 16, and M comments are transmitted from N users in both articles. In the method of Non-Patent Document 2, Article C and Article D are determined to be equally useful, but in fact, Article C contains information that is useful to third parties, and the comments are debated. The article D has contents that can only be understood by the acquaintance of the article creator, and the comments often involve informal communication that only the parties can enjoy. Whether these articles are useful to third parties varies greatly, but existing methods cannot distinguish this difference.

本発明は、上記の点に鑑みなされたもので、オンラインページの意味内容に依存せず、オンラインページの作成者やコメント付与者の意図や、オンラインページの性質等の特徴を分析して数値化することが可能なオンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。   The present invention has been made in view of the above points, and does not depend on the semantic content of the online page, but analyzes the characteristics of the intention of the online page creator and comment giver, the characteristics of the online page, etc. It is an object of the present invention to provide an on-line page analysis method and apparatus, a program, and a computer-readable recording medium that can be used.

詳しくは、オンラインページの記事及びコメントに含まれる文字数及び絵文字数を利用して、記事を作成した人及びコメントを付与した人が、情報を正確に伝えることを重視しているか、あるいは、感情豊かに伝えることを重視しているか、等の意図を数量化することが可能なオンラインページ分析方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。   For details, use the number of characters and pictograms included in the articles and comments on the online page, whether the person who created the article and the person who gave the comment attaches importance to accurately communicating the information, or is rich in emotion It is an object of the present invention to provide an on-line page analysis method and apparatus, a program, and a computer-readable recording medium capable of quantifying the intention such as whether or not the communication is important.

図1は、本発明の原理を説明するための図である。   FIG. 1 is a diagram for explaining the principle of the present invention.

本発明(請求項1)は、インターネット上のブログやSNSを含むオンラインページを分析するための装置におけるオンラインページ分析方法であって、
データ入力手段が、オンラインページの記事部分及びコメント部分を取得し、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページを一意に特定するページIDと関連付けて文字数記憶手段に格納するデータ入力過程(ステップ1)と、
スコア算出手段が、文字数記憶手段からページID毎に、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を読み出して、文字数または絵文字数が多いほど値が高くなる、記事文字数スコア、記事絵文字数スコア、コメント文字数スコア、コメント絵文字数スコアを算出し、スコア記憶手段に格納するスコア算出過程(ステップ2)と、
文書特徴量算出手段が、スコア記憶手段からスコアを読み出して、該スコアを用いて、記事を作成者及びコメント付与者が情報を正確に伝えることを重視しているか、または、感情豊かに伝えることを重視しているかを示す特徴量を算出し、特徴量記憶手段に格納する特徴量算出過程(ステップ3)と、
データ出力手段が、入力されたクエリで指定されたページIDの特徴量、または、クエリで指定された特徴量を有するページIDを特徴量記憶手段から検索して出力する出力ステップ(ステップ4)と、を行う。
The present invention (Claim 1) is an online page analysis method in an apparatus for analyzing online pages including blogs and SNSs on the Internet,
Data input means acquires the article part and comment part of the online page, calculates the number of article characters, the number of article pictograms, the average number of comments, the average number of comment characters, and stores the number of characters in association with the page ID that uniquely identifies the online page A data input process (step 1) to be stored in the means;
The score calculation means reads the number of article characters, the number of article pictograms, the average number of comments, the average number of comments for each page ID from the number-of-characters storage means, and the value increases as the number of characters or the number of pictograms increases. A score calculation process (step 2) of calculating a pictogram number score, a comment character count score, and a comment pictogram count score and storing them in the score storage means;
The document feature quantity calculation means reads out the score from the score storage means, and uses the score to give importance to the author and the comment giver to accurately convey the information, or to convey emotionally A feature amount calculation process (step 3) for calculating a feature amount indicating whether or not importance is placed and storing the feature amount in a feature amount storage unit;
An output step (step 4) in which the data output means searches the feature quantity storage means for a page ID having the feature quantity of the page ID designated by the inputted query or the feature quantity designated by the query (step 4); ,I do.

また、本発明(請求項2)は、文書特徴量算出過程(ステップ3)において、
記事文字数スコアを記事絵文字数スコアで割った値を記事CP比とし、該記事CP比が大きい場合には記事作成者が情報を正確に伝える特徴を有し、該記事CP比が小さい場合には該記事作成者が感情豊かに情報を伝える特徴を有するものとして、該記事CP比を特徴量記憶手段に格納する。
Further, the present invention (Claim 2), in the document feature amount calculation process (Step 3),
The value obtained by dividing the article character score by the article pictograph score is defined as the article CP ratio. When the article CP ratio is large, the article creator has a feature of accurately transmitting information, and when the article CP ratio is small. The article CP ratio is stored in the feature amount storage means as having the feature that the article creator conveys information in an emotional manner.

また、本発明(請求項3)は、文書特徴量算出過程(ステップ3)において、
コメント文字数スコアをコメント絵文字数スコアで割った値をコメントCP比とし、該コメントCP比が大きい場合にはコメント付与者が情報を正確に伝える特徴を有し、該コメントCP比が小さい場合には該コメント作成者が感情豊かに情報を伝える特徴を有するものとして、該コメントCP比を特徴量記憶手段に格納する
また、本発明(請求項4)は、文書特徴量算出過程(ステップ3)において、
記事文字数スコア及びコメント文字数スコアが、それぞれ所定の値と比較して大きいか、または、小さいかによって、オンラインページをグループ分けし、グループ毎に該グループに属するオンラインページのページIDとグループを関連付けて特徴量記憶手段に格納する。
Further, the present invention (Claim 3), in the document feature amount calculation process (Step 3),
A value obtained by dividing the comment character score by the comment pictogram score is defined as a comment CP ratio. When the comment CP ratio is large, the comment giver accurately conveys information. When the comment CP ratio is small, The comment CP ratio is stored in the feature amount storage means as having the feature that the comment creator conveys information in an emotional manner. Further, the present invention (Claim 4) is a document feature amount calculation process (Step 3). ,
The online pages are grouped according to whether the article character score and the comment character score are larger or smaller than a predetermined value, and the page ID of the online page belonging to the group is associated with each group. Store in the feature quantity storage means.

図2は、本発明の原理構成図である。   FIG. 2 is a principle configuration diagram of the present invention.

本発明(請求項5)は、インターネット上のブログやSNSを含むオンラインページを分析するためのオンラインページ分析装置であって、
オンラインページの記事部分及びコメント部分を取得し、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページを一意に特定するページIDと関連付けて文字数記憶手段24に格納するデータ入力手段13と、
文字数記憶手段24からページID毎に、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を読み出して、文字数または絵文字数が多いほど値が高くなる、記事文字数スコア、記事絵文字数スコア、コメント文字数スコア、コメント絵文字数スコアを算出し、スコア記憶手段22に格納するスコア算出手段25と、
スコア記憶手段22からスコアを読み出して、該スコアを用いて、記事を作成者及びコメント付与者が情報を正確に伝えることを重視しているか、または、感情豊かに伝えることを重視しているかを示す特徴量を算出し、特徴量記憶手段23に格納する特徴量算出手段19と、
入力されたクエリで指定されたページIDの特徴量、または、クエリで指定された特徴量を有するページIDを特徴量記憶手段23から検索して出力するデータ出力手段20と、を有する。
The present invention (Claim 5) is an online page analyzer for analyzing online pages including blogs and SNSs on the Internet,
The article portion and the comment portion of the online page are acquired, the number of article characters, the number of article pictograms, the number of comment average characters, and the number of comment average pictograms are calculated and stored in the character count storage unit 24 in association with the page ID that uniquely identifies the online page. Data input means 13;
For each page ID, the number of article characters, the number of article pictograms, the number of comment average characters, the number of comment average pictograms are read out from the number-of-characters storage means 24, and the value increases as the number of characters or the number of pictograms increases. A score calculating means 25 for calculating a comment character number score and a comment pictogram number score and storing them in the score storage means 22;
Whether the score is read from the score storage means 22, and whether the author and the comment giver give importance to accurately communicating the information or whether the emphasis is to convey emotionally is used. A feature quantity calculating means 19 for calculating the feature quantity to be shown and storing it in the feature quantity storage means 23;
And a data output unit 20 that searches the feature amount storage unit 23 for a page ID having the feature amount of the page ID specified by the input query or the feature amount specified by the query, and outputs the page ID.

また、本発明(請求項6)は、文書特徴量算出手段19において、
記事文字数スコアを記事絵文字数スコアで割った値を記事CP比とし、該記事CP比が大きい場合には記事作成者が情報を正確に伝える特徴を有し、該記事CP比が小さい場合には該記事作成者が感情豊かに情報を伝える特徴を有するものとして、該記事CP比を特徴量記憶手段23に格納する手段を含む。
Further, according to the present invention (Claim 6), in the document feature amount calculation means 19,
The value obtained by dividing the article character score by the article pictograph score is defined as the article CP ratio. When the article CP ratio is large, the article creator has a feature of accurately transmitting information, and when the article CP ratio is small. The article creator includes a means for storing the article CP ratio in the feature amount storage means 23 as having the characteristic of conveying information richly in emotion.

また、本発明(請求項7)は、文書特徴量算出手段19において、
コメント文字数スコアをコメント絵文字数スコアで割った値をコメントCP比とし、該コメントCP比が大きい場合にはコメント付与者が情報を正確に伝える特徴を有し、該コメントCP比が小さい場合には該コメント作成者が感情豊かに情報を伝える特徴を有するものとして、該コメントCP比を特徴量記憶手段23に格納する手段を含む。
Further, according to the present invention (Claim 7), in the document feature amount calculation means 19,
A value obtained by dividing the comment character score by the comment pictogram score is defined as a comment CP ratio. When the comment CP ratio is large, the comment giver accurately conveys information. When the comment CP ratio is small, The comment creator includes a means for storing the comment CP ratio in the feature amount storage means 23 as having the characteristic of conveying information in an emotional manner.

また、本発明(請求項8)は、文書特徴量算出手段19において、
記事文字数スコア及びコメント文字数スコアが、それぞれ所定の値と比較して大きいか、または、小さいかによって、オンラインページをグループ分けし、グループ毎に該グループに属するオンラインページのページIDとグループを関連付けて特徴量記憶手段23に格納する手段を含む。
Further, according to the present invention (Claim 8), the document feature amount calculating means 19
The online pages are grouped according to whether the article character score and the comment character score are larger or smaller than a predetermined value, and the page ID of the online page belonging to the group is associated with each group. Means for storing in the feature quantity storage means 23;

本発明(請求項9)は、請求項5乃至8のいずれか1項に記載のオンラインページ分析装置を構成する各手段としてコンピュータを機能させるためのオンラインページ分析プログラムである。   The present invention (Claim 9) is an online page analysis program for causing a computer to function as each means constituting the online page analysis apparatus according to any one of Claims 5 to 8.

本発明(請求項10)は、請求項9記載のオンラインページ分析プログラムを格納したコンピュータ読み取り可能な記録媒体である。   The present invention (Claim 10) is a computer-readable recording medium storing the online page analysis program according to Claim 9.

上記のように本発明によれば、ブログやSNS等のオンラインページをより詳細に分析することができ、ページ検索・データマイニングの精度及び柔軟性を向上させることができる。   As described above, according to the present invention, online pages such as blogs and SNSs can be analyzed in more detail, and the accuracy and flexibility of page search and data mining can be improved.

具体的には、記事作成者やコメント付与者が情報を正確に伝えることを重視しているか、感情豊かに伝えることを重視しているといった特徴量や、記事に含まれている情報の種類、その情報に対する読者の反応といった特徴量を条件指定したクエリに応じたオンラインページを発見したり、これらの特徴量に着目したデータマイニングを行ったりできるようになる。   Specifically, feature quantities such as article authors and commenters who place importance on accurately conveying information or empathic feelings, the types of information contained in articles, It will be possible to find online pages corresponding to queries that specify feature values such as reader responses to the information, and to perform data mining focusing on these feature values.

また、文書の意味内容に依存する処理を行っていないため、くだけた文体が多く意味内容解析が難しいブログ等のページや、日本語以外で書かれているページへの適用が容易である。   In addition, since processing that depends on the semantic content of the document is not performed, it can be easily applied to pages such as blogs and the like that are difficult to analyze semantic content because there are many stylized sentences.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

本発明では、コメントを付与することが可能なオンラインページとして、ブログ、SNSが代表的であるが、作成した文書をネットワーク上に掲載することができ、当該文書を文書作成者以外のユーザが閲覧することができ、該ユーザが該文書にコメントを付与することが可能なサービスを対象とする。図3は、本発明が対象とする典型的なオンラインページの構造を示す。   In the present invention, blogs and SNSs are typical online pages on which comments can be added, but the created document can be posted on the network, and a user other than the document creator can view the document. And a service that allows the user to add a comment to the document. FIG. 3 shows a typical online page structure to which the present invention is directed.

また、以下の説明において、「絵文字」とは、図4(A)に示すように、GIF(Graphics Interchange Format)ファイル等の画像を利用して実現するものや、図4(B)に示すように、1つ以上の文字で表現するもののことである。同図(B)の場合は、構成要素である文字は文字数としてカウントせず、合わせて一つの絵文字としてカウントする。   In the following description, the “pictogram” is realized by using an image such as a GIF (Graphics Interchange Format) file as shown in FIG. 4A, or as shown in FIG. 4B. And one or more characters. In the case of FIG. 5B, the constituent characters are not counted as the number of characters, but are counted as one pictogram.

図5は、本発明の一実施の形態におけるオンラインページ分析装置の構成を示す。   FIG. 5 shows the configuration of an online page analysis apparatus according to an embodiment of the present invention.

オンラインページ分析装置10は、データ入力部13、記事文字数スコア算出部14、記事絵文字数スコア算出部15、コメント文字数スコア算出部17、コメント絵文字数スコア算出部18、文書特徴量算出部19、データ出力部20、スコア記憶部22、特徴量記憶部23から構成される。   The online page analysis apparatus 10 includes a data input unit 13, an article character number score calculation unit 14, an article pictogram number score calculation unit 15, a comment character number score calculation unit 17, a comment pictogram number score calculation unit 18, a document feature amount calculation unit 19, and data. The output unit 20, the score storage unit 22, and the feature amount storage unit 23 are configured.

当該オンラインページ分析装置10の外部には、オンラインページクローラ11、ページパーサ12、絵文字データベース16、データマイニング装置21がある。   Outside the online page analysis device 10, there are an online page crawler 11, a page parser 12, a pictographic database 16, and a data mining device 21.

オンラインページクローラ11は、オンラインページを収集・蓄積することができる一般装置である。   The online page crawler 11 is a general device that can collect and store online pages.

ページパーサ12は、オンラインページクローラ11に蓄積されているオンラインページの実体であるHTMLファイル等から記事部分・コメント部分を適切に抽出する一般装置である。ここでは、コメントが複数存在する場合は、それぞれを区別するものとして以降の説明を行う。   The page parser 12 is a general device that appropriately extracts an article part and a comment part from an HTML file or the like that is the substance of an online page stored in the online page crawler 11. Here, when there are a plurality of comments, the following description will be made assuming that each is distinguished.

絵文字データベース16は、一般装置であり、絵文字に関する属性(絵文字数等)が格納されている。   The pictographic database 16 is a general device and stores attributes (number of pictographs, etc.) related to pictographs.

データマイニング装置21は、一般装置であり、取得したデータをマイニングする。以下では、ユーザからのクエリを受け付け、データ出力部20に対してクエリの条件を渡し、対応する特徴量を取得してマイニングするものとする。   The data mining device 21 is a general device and mines acquired data. In the following, it is assumed that a query from a user is received, a query condition is passed to the data output unit 20, and a corresponding feature amount is acquired and mined.

データ入力部13は、ページパーサ12にて抽出された記事部分及びコメント部分に基づいて、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページのIDと関連付けて文字数記憶部24に格納する。絵文字については、絵文字データベース16を参照して、記事やコメントに含まれる絵文字に関する属性(絵文字数等)を抽出する。文字数記憶部24に格納されるデータ形式を図6に示す。なお、コメント平均文字数やコメント平均絵文字数の代わりに、各コメントの文字数・絵文字数の最大値あるいは中央値などを用いても良い。   The data input unit 13 calculates the number of article characters, the number of article pictograms, the number of comment average characters, the number of comment average pictograms based on the article portion and the comment portion extracted by the page parser 12, and associates the number of characters with the ID of the online page. Store in the storage unit 24. For pictograms, the pictogram database 16 is referenced to extract attributes (number of pictograms, etc.) relating to pictograms included in articles and comments. A data format stored in the character number storage unit 24 is shown in FIG. Instead of the average number of comments and the average number of comment pictograms, the maximum number or median value of the number of characters and the number of pictograms of each comment may be used.

記事文字数スコア算出部14は、文字数記憶部24に格納されている記事文字数を用いてオンラインページの記事文字数スコア(以降「記事C−Score」と記す)を算出し、スコア記憶部22に格納する。これは、文字数が多いほど高くなるスコアであり、例えば、文字数をそのままスコアとする方法がある。あるいは、文字数に重みをかける、正規化を行う等、適切な演算を行っても構わない。ここでは、分析対象となった全オンラインンページの記事文字数を利用して正規化を行い、0以上1以下の数値で記事C−Scoreを表現することとする(分析対象となった全オンラインページの中で最小の記事文字数を持つページの記事C−Scoreが0となり、最大の記事文字数を持つページの記事C−Scoreが1となる)。   The article character number score calculation unit 14 calculates the article character number score (hereinafter referred to as “article C-Score”) of the online page using the number of article characters stored in the character number storage unit 24 and stores it in the score storage unit 22. . This is a score that increases as the number of characters increases. For example, there is a method in which the number of characters is used as a score. Alternatively, an appropriate calculation such as weighting the number of characters or normalization may be performed. Here, normalization is performed using the number of article characters of all online pages analyzed, and the article C-Score is expressed by a numerical value between 0 and 1 (all online pages analyzed) The article C-Score of the page having the smallest number of article characters is 0, and the article C-Score of the page having the largest number of article characters is 1).

記事絵文字数スコア算出部15は、文字数記憶部24に格納されている記事絵文字数を用いてオンラインページの記事絵文字数スコア(以降「記事P−Score」と記す)を算出し、スコア記憶部22に格納する。これは、絵文字数が多いほど高くなるスコアであり、例えば、絵文字数をそのままスコアとする方法がある。あるいは、絵文字数に重みをかける、正規化を行う等、適切な演算を行っても構わない。ここでは、前述の記事文字数スコア算出部14と同様の正規化を行うこととする。   The article pictogram score calculation unit 15 calculates the article pictograph count score (hereinafter referred to as “article P-Score”) of the online page using the number of article pictograms stored in the character count storage unit 24, and the score storage unit 22. To store. This is a score that increases as the number of pictograms increases. For example, there is a method in which the number of pictograms is used as a score. Alternatively, an appropriate calculation such as weighting the number of pictograms or normalization may be performed. Here, it is assumed that normalization similar to the above-described article character number score calculation unit 14 is performed.

コメント文字数スコア算出部17は、文字数記憶部24に格納されているコメント文字数を用いてオンラインページのコメント文字数スコア(以降「コメントC−Score」と記す)を算出し、スコア記憶部22に格納する。これは、文字数が多いほど高くなるスコアであり、例えば、文字数をそのままスコアとする方法がある。あるいは、文字数に重みをかける、正規化を行う等、適切な演算を行っても構わない。ここでは、記事文字数スコア算出部14と同様の正規化を行うこととする。   The comment character number score calculation unit 17 calculates the comment character number score (hereinafter referred to as “comment C-Score”) of the online page using the number of comment characters stored in the character number storage unit 24 and stores it in the score storage unit 22. . This is a score that increases as the number of characters increases. For example, there is a method in which the number of characters is used as a score. Alternatively, an appropriate calculation such as weighting the number of characters or normalization may be performed. Here, normalization similar to the article character score calculation unit 14 is performed.

コメント絵文字数スコア算出部18は、文字数記憶部24に格納されているコメント絵文字数を用いてオンラインページのコメント絵文字数スコア(以降「コメントP−Score」と記す)を算出し、スコア記憶部22に格納する。これは、絵文字数が多いほど高くなるスコアであり、例えば、絵文字数をそのままスコアとする方法がある。あるいは、絵文字数に重みをかける、正規化を行う等、適切な演算を行っても構わない。ここでは、記事文字数スコア算出部14と同様の正規化を行うこととする。   The comment pictogram score calculation unit 18 calculates the comment pictograph count score (hereinafter referred to as “comment P-Score”) of the online page using the comment pictogram number stored in the character count storage unit 24, and the score storage unit 22. To store. This is a score that increases as the number of pictograms increases. For example, there is a method in which the number of pictograms is used as a score. Alternatively, an appropriate calculation such as weighting the number of pictograms or normalization may be performed. Here, normalization similar to the article character score calculation unit 14 is performed.

上記の記事文字数スコア算出部14、記事絵文字数スコア算出部15、コメント文字数スコア算出部17、コメント絵文字数スコア算出部18にて算出された各スコアは、例えば、図7のようなデータ形式でスコア記憶部22に保持される。   Each score calculated by the above article character number score calculating unit 14, article pictogram number score calculating unit 15, comment character number score calculating unit 17, and comment pictogram number score calculating unit 18 is, for example, in a data format as shown in FIG. It is held in the score storage unit 22.

文書特徴量算出部19は、スコア記憶部22から図7に示すスコアを読み出して、当該スコアに基づいてオンラインページの特徴量を算出し、特徴量記憶部23に格納する。特徴量算出の具体的な方法は、第1〜第3の実施例にて詳述する。   The document feature quantity calculation unit 19 reads the score shown in FIG. 7 from the score storage unit 22, calculates the feature quantity of the online page based on the score, and stores it in the feature quantity storage unit 23. Specific methods for calculating the feature amount will be described in detail in the first to third embodiments.

データ出力部20は、一般的なデータマイニング装置21から取得したクエリで指定されたオンラインページのページIDの特徴量を出力、又は、クエリにて指定された特徴量を持つオンラインページのページID群を出力する。   The data output unit 20 outputs the feature amount of the page ID of the online page specified by the query acquired from the general data mining device 21, or the page ID group of the online page having the feature amount specified by the query Is output.

図8は、本発明の一実施の形態における概要動作のフローチャートである。   FIG. 8 is a flowchart of an outline operation in one embodiment of the present invention.

ステップ101) データ入力部13は、ページパーサ12からオンラインページの記事部分及びコメント部分を取得する。   Step 101) The data input unit 13 acquires the article part and comment part of the online page from the page parser 12.

ステップ102) データ入力部13は、記事文字数、記事絵文字数を算出し、図6に示すような形式で文字数記憶部24に格納する。ここで、記事絵文字数については、絵文字データベース16にアクセスし、絵文字数を取得する。   Step 102) The data input unit 13 calculates the number of article characters and the number of article pictograms, and stores them in the character number storage unit 24 in the format shown in FIG. Here, for the number of article pictograms, the pictogram database 16 is accessed and the pictogram count is acquired.

ステップ103) データ入力部13は、コメント平均文字数、コメント平均絵文字数を算出する。コメント平均文字数は、コメント文字数を当該オンラインページの全コメントで割った値とする。また、コメント平均絵文字数は、絵文字データベース16にアクセスすることにより取得した絵文字数をコメント数で割った数とする。このようにして算出された各文字数を図6に示すような形式で文字数記憶部24に格納する。   Step 103) The data input unit 13 calculates the average number of comments and the average number of comment pictograms. The average number of comments is a value obtained by dividing the number of comments by all comments on the online page. Further, the average number of comment pictograms is the number obtained by dividing the number of pictograms obtained by accessing the pictogram database 16 by the number of comments. The number of characters calculated in this way is stored in the number-of-characters storage unit 24 in the format shown in FIG.

ステップ104) 記事文字数スコア算出部14において、文字数記憶部24から記事文字数のスコア(記事C−Score)を算出する。算出方法は、上記で説明したように、文字数が多いほど高くなるスコアになるような計算方法であればよい。求められた記事文字数スコア(記事C−Score)を処理対象のオンラインページのページIDに対応付けてスコア記憶部22に格納する。   Step 104) The article character number score calculation unit 14 calculates the article character number score (article C-Score) from the character number storage unit 24. As described above, the calculation method may be a calculation method in which the score increases as the number of characters increases. The obtained article character count score (article C-Score) is stored in the score storage unit 22 in association with the page ID of the online page to be processed.

ステップ105) 記事絵文字スコア算出部15において、文字数記憶部24から記事絵文字数のスコア(記事P−Score)を算出する。算出方法は、上記で説明したように、文字数が多いほど高くなるスコアになるような計算方法であればよい。求められた記事絵文字数スコア(記事P−Score)を処理対象のオンラインページのページIDに対応付けてスコア記憶部22に格納する。   Step 105) The article pictogram score calculation unit 15 calculates the score of the article pictogram number (article P-Score) from the character number storage unit 24. As described above, the calculation method may be a calculation method in which the score increases as the number of characters increases. The obtained article pictogram score (article P-Score) is stored in the score storage unit 22 in association with the page ID of the online page to be processed.

ステップ106) コメント文字数スコア算出部17において、文字数記憶部24から記事文字数スコア(コメントC−Score)を算出する。算出方法は、上記で説明したように、文字数が多いほど高くなるスコアになるような計算方法であればよい。求められたコメント文字数スコア(コメントC−Score)を処理対象のオンラインページのページIDに対応付けてスコア記憶部22に格納する。   Step 106) The comment character number score calculation unit 17 calculates the article character number score (comment C-Score) from the character number storage unit 24. As described above, the calculation method may be a calculation method in which the score increases as the number of characters increases. The obtained comment character count score (comment C-Score) is stored in the score storage unit 22 in association with the page ID of the online page to be processed.

ステップ107) コメント絵文字数スコア算出部18において、文字数記憶部24からコメント絵文字数スコア(コメントP−Score)を算出する。算出方法は、上記で説明したように、文字数が多いほど高くなるスコアになるような計算方法であればよい。求められたコメント絵文字数スコア(コメントP−Score)を処理対象のオンラインページのページIDに対応付けてスコア記憶部22に格納する。   Step 107) The comment pictogram score calculation unit 18 calculates a comment pictogram score (comment P-Score) from the character count storage unit 24. As described above, the calculation method may be a calculation method in which the score increases as the number of characters increases. The obtained comment pictogram number score (comment P-Score) is stored in the score storage unit 22 in association with the page ID of the online page to be processed.

ステップ108) 文書特徴量算出部19において、スコア記憶部22から各ページID毎にスコアを読み出して特徴量を求める。まず、1つ目の方法として、記事C−Scoreと記事P−ScoreからCP比を求める方法、2つ目の方法として、コメントC−ScoreとコメントP−ScoreからCP比を求める方法、3つ目の方法として、記事C−ScoreとコメントC−Scoreのスコアの大小関係に基づいて、グループ分けし、グループとオンラインページのページIDを取得する方法がある。これらの各方法については実施例において説明する。求められた各特徴量は特徴量記憶部23にページID毎に格納される。   Step 108) The document feature quantity calculation unit 19 reads the score for each page ID from the score storage unit 22 and obtains the feature quantity. First, as a first method, a method for obtaining a CP ratio from an article C-Score and an article P-Score, and as a second method, a method for obtaining a CP ratio from a comment C-Score and a comment P-Score, three As an eye method, there is a method of grouping based on the magnitude relationship between the scores of the article C-Score and the comment C-Score, and acquiring the page ID of the group and the online page. Each of these methods will be described in the examples. Each obtained feature amount is stored in the feature amount storage unit 23 for each page ID.

ステップ109) データ出力部20は、データマイニング装置21からユーザから入力されたクエリを取得する。   Step 109) The data output unit 20 acquires a query input from the data mining device 21 by the user.

ステップ110) データ出力部20は、クエリに基づいて特徴量記憶部23を検索して、クエリに対応する情報(ページIDまたは、特徴量)を出力する。   Step 110) The data output unit 20 searches the feature amount storage unit 23 based on the query, and outputs information (page ID or feature amount) corresponding to the query.

以下、具体的な例を用いて本発明を詳細に説明する。   Hereinafter, the present invention will be described in detail using specific examples.

[第1の実施例]
本実施例では、文書特徴量算出部19にて行われる処理の一例として、記事C−Scoreを記事P−Scoreで割った値(以降「記事CP比」と記す)を利用した特徴量算出について述べる。なお、オンラインページ分析装置10の他の構成要素の処理は前述の実施の形態と同様である。
[First embodiment]
In the present embodiment, as an example of processing performed by the document feature amount calculation unit 19, feature amount calculation using a value obtained by dividing the article C-Score by the article P-Score (hereinafter referred to as “article CP ratio”). State. Note that the processing of the other components of the online page analysis apparatus 10 is the same as that of the above-described embodiment.

文書特徴量算出部19は、文字が情報を正確に伝えることに重きを置いている手段であり、絵文字が感情を豊かに伝えることに重きを置いていることを利用する分析である。   The document feature amount calculation unit 19 is a means that emphasizes that characters convey information accurately, and is an analysis that utilizes the emphasis that pictograms convey emotions richly.

例えば、文字数が多く、絵文字が少ない記事は記事CP比が大きくなる。このような記事の場合、記事作成者は情報をより正確に表現できる文字という手段を多く使い、文書内容を読み手に正確に伝えることを重視していると言える。時事問題を深く検討している記事や、プログラミングのテクニックを紹介している記事は記事CP比が大きい場合が多い。   For example, an article having a large number of characters and few pictograms has a large article CP ratio. In the case of such an article, it can be said that the creator of the article uses a lot of means of characters that can express information more accurately and emphasizes accurately conveying the contents of the document to the reader. Articles that deeply examine current affairs and articles that introduce programming techniques often have a large article CP ratio.

逆に、文字数が少なく、絵文字数が多い記事は記事CP比が小さくなる。このような記事の場合、記事作成者は情報を正確に伝えることよりも感情豊かに伝えようとしていることが多い。また、日常的なとりとめもない内容の記事を、楽しそうな内容を含んでいるかのように見せるために絵文字が多用されるケースも少なくない。   Conversely, an article with a small number of characters and a large number of pictograms has a small article CP ratio. In the case of such articles, article creators often try to convey emotionally rather than accurately convey information. Also, there are many cases where pictograms are frequently used to make articles appearing as if they contain everyday contents that seem to be enjoyable.

文書特徴量算出部19は、スコア記憶部22から記事C−Scoreと記事P−Scoreを読み出して、オンラインページのページID毎に、記事CP比を、
記事CP比=記事C−Score/記事P−Score
により求め、図9に示すような形式で特徴量記憶部23に格納する。
The document feature amount calculation unit 19 reads the article C-Score and the article P-Score from the score storage unit 22 and calculates the article CP ratio for each page ID of the online page.
Article CP ratio = Article C-Score / Article P-Score
And stored in the feature quantity storage unit 23 in the format shown in FIG.

上記のように各オンラインページの記事CP比を算出しておくことで、本装置10は、記事作成者が情報を正確に伝えることを重視しているか、感情豊かに伝えることを重視しているかということを条件指定したクエリに応じることが可能になる。このため、例えば、本装置10をオンラインページ検索サービスに導入すると、従来よりも詳細にページを分類して検索できるため、ユーザの検索ニーズに柔軟に応えることができる。   By calculating the article CP ratio of each online page as described above, the apparatus 10 places importance on the article creator's importance of accurately communicating information or on feeling-rich communication. This makes it possible to respond to queries that specify conditions. For this reason, for example, when this apparatus 10 is introduced into an online page search service, pages can be classified and searched in more detail than before, so that the user's search needs can be flexibly met.

[第2の実施例]
本実施例では、分析対象のオンラインページ中の記事にコメントが付与されている場合に、文書特徴量算出部19で行われる処理の実施例として、コメントC−ScoreをコメントP−Scoreで割った値(以降「コメントCP比」と記す)を利用した特徴量算出について述べる。なお、オンラインページ分析装置10の他の構成要素の処理は前述の実施の形態と同様である。
[Second Embodiment]
In the present embodiment, when a comment is given to an article in the online page to be analyzed, the comment C-Score is divided by the comment P-Score as an example of processing performed by the document feature amount calculation unit 19. The feature amount calculation using the value (hereinafter referred to as “comment CP ratio”) will be described. Note that the processing of the other components of the online page analysis apparatus 10 is the same as that of the above-described embodiment.

これは第1の実施例と同様に、文字が情報を正確に伝えることに重きを置いている手段であり、絵文字が感情を豊かに伝えることに重きを置いていることを利用する分析である。また、コメントが記事作成者への敵意を示す場合は絵文字が滅多に含まれないという点も鑑みている。   As in the first embodiment, this is a means for emphasizing that characters convey information accurately, and is an analysis that uses emphasis on emoticons for conveying emotions richly. . It also takes into account that pictograms are rarely included when comments indicate hostility to the article creator.

本実施例において、文書特徴量算出部19は、スコア記憶部22からコメントC−ScoreとコメントP−Scoreを読み出して、コメントCP比を、
コメントCP比=コメントC−Score/コメントP−Score
により求め、図10に示すような形式で特徴量記憶部23に格納する。
In this embodiment, the document feature amount calculation unit 19 reads the comment C-Score and the comment P-Score from the score storage unit 22, and calculates the comment CP ratio.
Comment CP ratio = Comment C-Score / Comment P-Score
And stored in the feature amount storage unit 23 in the format shown in FIG.

例えば、文字数が多く、絵文字数が少ないコメントはコメントCP比が大きくなる。このようなコメントの場合、コメント付与者は情報をより正確に表現できる文字という手段を多く使い、文章内容を記事作成者もしくは読者に正確に伝えることを重視していると言える。真剣は議論を含むコメントや、敵意を表明しているコメントは、コメントCP比が大きい場合が多い。   For example, a comment with a large number of characters and a small number of pictograms has a large comment CP ratio. In the case of such a comment, it can be said that the comment giver attaches great importance to accurately using the means of characters that can express information more accurately and conveying the text content to the article creator or reader accurately. Seriously, comments that include discussion and comments that show hostility often have a high comment CP ratio.

逆に、文字数が少なく、絵文字数が多いコメントはコメントCP比が小さくなる。このようなコメントの場合、コメント付与者は情報を正確に伝えることよりも感情豊かに伝えようとしていることが多い。また、コメント付与者が記事作成者と親しい仲にある場合に絵文字に多用されるケースも少なくない。   Conversely, a comment with a small number of characters and a large number of pictographs has a small comment CP ratio. In the case of such a comment, the comment giver often tries to convey the information more emotionally than to convey the information accurately. In many cases, the comment giver is often used as a pictograph when he is in close contact with the article creator.

上記のように、各オンラインページのコメントCP比を算出しておくことで、本装置10は、コメント付与者が情報を正確に伝えることを重視しているか、感情豊かに伝えることを重視しているかと言うことを条件指定したクエリに応じることが可能になる。このため、例えば、本装置10をオンラインページ検索サービスに導入すると、従来よりも詳細にページを分類して検索できるため、ユーザの検索ニーズを柔軟に応えることができる。   As described above, by calculating the comment CP ratio of each online page, the device 10 emphasizes that the comment giver gives importance to accurately communicating information or conveys emotionally. It is possible to respond to queries that specify the condition. For this reason, for example, when this apparatus 10 is introduced into an online page search service, pages can be classified and searched in more detail than before, so that the user's search needs can be flexibly met.

[第3の実施例]
本実施例では、分析対象のオンラインページ中の記事にコメントが付与されている場合に、文書特徴量算出部19で行われる処理の実施例として、記事及びコメントのC−Scoreに基づいて、当該オンラインページが図11に示すグループのどれに属するか判定した結果を特徴量として算出し、各ページと関連付けて記録して利用する場合について述べる。
[Third embodiment]
In the present embodiment, when a comment is given to an article in an analysis-target online page, as an example of processing performed by the document feature amount calculation unit 19, the C-Score of the article and the comment is used. A case will be described in which the result of determining to which of the groups shown in FIG. 11 an online page belongs is calculated as a feature value, recorded and used in association with each page.

以下において、記事C−Score、コメントC−Scoreの大小については、例えば、0〜0.5の範囲は「小」、0.51〜1の範囲は「大」とするように、予めスコアの範囲を決定しておき、スコアの大小を決定するものとする。また、上記の大小判定以外に、例えば、予め0.5以上を「大」、0.5未満を「小」する、または、データのスコア上位50%を「大」、下位50%未満を「小」とする等の方法が考えられる。   In the following, regarding the size of the article C-Score and the comment C-Score, for example, the range of 0 to 0.5 is “small”, and the range of 0.51 to 1 is “large”. The range is determined, and the score is determined. In addition to the above magnitude determination, for example, “large” is 0.5 or more in advance and “small” is less than 0.5, or “high” is the top 50% of data scores and “less than 50% is low” A method such as “small” is conceivable.

文書特徴量算出部19は、スコア記憶部22からオンラインページのページID毎に記事C−Score、コメントC−Scoreを読み出して、所定の範囲によりグループ分けを行い、図12に示すようにグループ分けし、当該文書特徴量算出部19内部のメモリ(図示せず)に格納する。   The document feature amount calculation unit 19 reads the article C-Score and the comment C-Score for each page ID of the online page from the score storage unit 22, performs grouping according to a predetermined range, and performs grouping as shown in FIG. Then, it is stored in a memory (not shown) inside the document feature value calculation unit 19.

図11において、「グループ1」は記事C−Score[大]かつコメントC−Score[大]のグループである。この「グループ1」に属するページは、記事に多くの情報が記されており、それに対して読者が多くの情報を含むコメントを送信している。この現象は時事問題等に関する情報・意見が詳細に記された記事に対して、読者がコメントを用いて賛成・反対意見等を述べ合って議論が沸き起こっている場合に発生しやすい。   In FIG. 11, “Group 1” is a group of an article C-Score [Large] and a comment C-Score [Large]. On the page belonging to “Group 1”, a lot of information is written in the article, and the reader transmits a comment including a lot of information. This phenomenon is likely to occur when discussions are happening with readers agreeing and disagreeing, etc., using comments on articles that contain detailed information and opinions on current affairs.

「グループ2」は、記事C−Score[小]かつコメントC−Score[大]のグループである。この「グループ2」に属するページは、記事には多くの情報は含まれていないにも関わらず、それに対して読者が多くの情報を含むコメントを送信している。この現象は記事に非常にインパクトの強い内容が書かれており、読者がコメントを用いてその内容に対する意見・感想を寄せている場合に発生しやすい。   “Group 2” is a group of an article C-Score [small] and a comment C-Score [large]. For the pages belonging to “Group 2”, although the article does not contain much information, the reader transmits a comment containing much information. This phenomenon is likely to occur when content that has a very high impact is written in the article, and the reader uses the comments to give their opinions and impressions.

「グループ3」は、記事C−Score[小]かつコメントC−Score[小]のグループである。この「グループ3」に属するページは、記事に多くの情報は含まれておらず、それに対して読者も多くの情報を含まないコメントを送信している。   “Group 3” is a group of an article C-Score [small] and a comment C-Score [small]. The pages belonging to “Group 3” do not contain much information in the article, and the reader also sends comments that do not contain much information.

この現象は記事に個人の日常の些細な出来事が書かれており、顔見知りの読者が戯れにコメントを寄せてインフォーマルなコミュニケーションを交わしている場合に発生しやすい。   This phenomenon is likely to occur when an article contains a trivial event of an individual's daily life, and an acquainted reader comments and plays informal communication.

「グループ4」は、記事C−Score[大]かつコメントC−Score[小]のグループである。この「グループ4」に属するページは、記事に多くの情報が記されており、それに対して読者が多くの情報を含まないコメントを送信している。この現象は詳細情報が細かく記された情報発信を目的としている記事に対して、読者がその情報を知ることができたお礼等をコメントで述べている場合に発生しやすい。   “Group 4” is a group of an article C-Score [large] and a comment C-Score [small]. On the page belonging to “Group 4”, a lot of information is written in the article, and the reader transmits a comment that does not contain much information. This phenomenon is likely to occur when an article is intended for information transmission with detailed information, and the reader is thanking the reader for the information.

上記のように各オンラインページがどのグループに属するかを求めておくことで、本装置10は記事に含まれている情報の種類、その情報に対する読者の反応を条件指定したクエリに応じることが可能になる。ここで、データマイニング装置21は、図13に示すようなインタフェースを有し、同図でチェックされているグループ情報をデータ出力部20に入力する。   By determining which group each online page belongs to as described above, the device 10 can respond to a query that specifies the type of information contained in the article and the reader's reaction to the information. become. Here, the data mining apparatus 21 has an interface as shown in FIG. 13 and inputs the group information checked in the figure to the data output unit 20.

例えば、データマイニング装置21から「議論を呼んでいる話題や、議論の過程そのものを閲覧したい」(グループ1)というクエリが入力されると、データ出力部20は、例えば、図14に示す特徴量記憶部23のテーブルから「グループ1」に属するページを優先的に提示する。また、「インパクトの強い情報を閲覧したい」(グループ2)というクエリに対しては、「グループ2」に属するページを優先的に提示する。「一個人の日常的な出来事に関する情報や、ここに生じるインフォーマルなコミュニケーションの場を閲覧したい」(グループ3)というクエリに対しては、「グループ3」に属するページを提示する。「情報発信を目的としたページを閲覧したい」(グループ4)というクエリに対してはグループ4に属するページを優先的に提示する。   For example, when a query “data to be viewed on discussion topic or discussion process itself” (group 1) is input from the data mining device 21, the data output unit 20 displays, for example, the feature amount shown in FIG. Pages belonging to “group 1” are preferentially presented from the table in the storage unit 23. Further, for a query “I want to browse information with strong impact” (group 2), pages belonging to “group 2” are presented preferentially. For a query “I want to view information about an individual's daily events and informal communication that occurs here” (group 3), a page belonging to “group 3” is presented. In response to the query “want to browse a page for information transmission” (group 4), pages belonging to group 4 are presented preferentially.

これらのクエリ及びその他のクエリ(「あるキーワードに対するTF/IDF(Term Frequency / Inverse Term Frequency)値が高いページを閲覧したい」等)は複数の条件が同時に指定されてもよく、その場合に各クエリに適切な重みがかけられてもよい。例えば、「議論を呼んでいる話題を含むページを閲覧したい」というクエリ1に10の重みをかけ、「インパクトの強い情報を閲覧したい」というクエリ2に20の重みをかけ、「『年金』というキーワードのTF/IDF値が高いページを閲覧したい」というクエリ3に30の重みをかけた場合、「グループ1」に属するページのスコアは10倍したものが加算され、「グループ2」に属するページのスコアは20倍したものが加算され、『年金』を含むページのスコアは『年金』のTF/IDF値を30倍したものが加算され、スコアの合計値が高いページから順にユーザに提示されるといったように動作する。   These queries and other queries (such as “I want to view a page with a high TF / IDF (Term Frequency / Inverse Term Frequency) value for a certain keyword”) may specify multiple conditions at the same time. Appropriate weights may be applied to. For example, a weight of 10 is applied to query 1 "I want to view a page containing a topic that is in discussion", and a weight of 20 is applied to query 2 "I want to view information with strong impact". When query 3 “I want to view a page with a high keyword TF / IDF value” is multiplied by 30, the score of the page belonging to “Group 1” is multiplied by 10 and the page belonging to “Group 2” The score of 20 is added by 20 times, and the score of the page including “Pension” is added by multiplying the TF / IDF value of “Pension” by 30 and presented to the user in order from the page with the highest total score. It works like this.

なお、ここでは、各ページがどこかの1グループのみに属するように判定してある場合を例に説明したが、例えば、各グループの中心点を定義しておき、あるページと各グループの中心との「近さ(距離の逆数等)」を該ページの属性として記録しておいてもよい。この場合、例えば、ページAはグループ1への近さが1、グループ2への近さが2、といったような属性を持つことになり、「議論を呼んでいる話題を含むページを閲覧したい」というクエリ1に10の重みを掛け、「インパクトの強い情報を閲覧したい」というクエリ2に20の重みを掛ける場合は、10×1+20×2=50というスコアを持つことになる。   Here, the case where each page is determined to belong to only one group has been described as an example. However, for example, the center point of each group is defined, and the center of each page and each group is defined. "Nearness (reciprocal of distance, etc.)" may be recorded as an attribute of the page. In this case, for example, page A has attributes such as “1” close to group 1 and “2” close to group 2, and “I want to view a page including a topic that is calling for discussion”. If the query 1 is multiplied by a weight of 10 and the query 2 “I want to view information with strong impact” is multiplied by a weight of 20, the score will be 10 × 1 + 20 × 2 = 50.

また、第3の実施例に第1の実施例及び第2の実施例を組み込んでも構わない。この場合、上記に加え、記事作成者やコメント付与者が情報を正確に伝えることを重視しているか、感情豊かに伝えることを重視しているかといったことも鑑みてより詳細かつ、柔軟にオンラインページを分析することができる。   Further, the first embodiment and the second embodiment may be incorporated in the third embodiment. In this case, in addition to the above, the online page is more detailed and flexible in consideration of whether the author or commentator places importance on accurately communicating information or on empathic communication. Can be analyzed.

なお、上記の図3に示すオンラインページ分析装置10の各構成要素の機能をプログラムとして構築し、オンラインページ分析装置10として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   It should be noted that the function of each component of the online page analysis apparatus 10 shown in FIG. 3 is constructed as a program and installed and executed on a computer used as the online page analysis apparatus 10, or distributed via a network. It is possible.

また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。   Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments and examples, and various modifications and applications can be made within the scope of the claims.

本発明は、ブログ、SNS等のオンラインページ及び、文書作成者が作成した文書をネットワーク上に掲載することができ、文書を文書作成者以外のユーザが閲覧することができ、当該閲覧ユーザがコメントを付与することが可能なサービスに適用可能である。   In the present invention, online pages such as blogs, SNSs, and documents created by document creators can be posted on the network, and users other than the document creator can view the documents. It is applicable to services that can be granted.

本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の対象とするオンラインページの例である。It is an example of the online page made into the object of this invention. 本発明のオンラインページで用いられる絵文字の例である。It is an example of the pictogram used on the online page of this invention. 本発明の一実施の形態におけるオンラインページ分析装置の構成図である。It is a block diagram of the online page analysis apparatus in one embodiment of this invention. 本発明の一実施の形態における文字数記憶部のデータ例である。It is an example of data of the character number memory | storage part in one embodiment of this invention. 本発明の一実施の形態における算出されたスコアの例である。It is an example of the calculated score in one embodiment of the present invention. 本発明の一実施の形態における概要動作のフローチャートである。It is a flowchart of the outline | summary operation | movement in one embodiment of this invention. 本発明の第1の実施例における特徴量算出結果の例である。It is an example of the feature-value calculation result in 1st Example of this invention. 本発明の第2の実施例における特徴量算出結果の例である。It is an example of the feature-value calculation result in 2nd Example of this invention. 本発明の第3の実施例の文書特徴量算出部におけるグループ判定を説明するための図である。It is a figure for demonstrating the group determination in the document feature-value calculation part of 3rd Example of this invention. 本発明の第3の実施例におけるグループ分けの例である。It is an example of grouping in the 3rd example of the present invention. 本発明の第3の実施例におけるデータマイニング装置から入力されるグループ情報の例である。It is an example of the group information input from the data mining apparatus in 3rd Example of this invention. 本発明の第3の実施例における特徴量記憶部のテーブルの例である。It is an example of the table of the feature-value storage part in 3rd Example of this invention. オンラインページの記事本文の例である。It is an example of the article text of an online page. 記事の本文とコメントの例である。This is an example of the text of an article and comments.

符号の説明Explanation of symbols

10 オンラインページ分析装置
11 オンラインページクローラ
12 ページパーサ
13 データ入力手段、データ入力部
14 記事文字数スコア算出部
15 記事絵文字数スコア算出部
16 絵文字データベース
17 コメント文字数スコア算出部
18 コメント絵文字数スコア算出部
19 特徴量算出手段、文書特徴量算出部
20 データ出力手段、データ出力部
21 データマイニング装置
22 スコア記憶手段、スコア記憶部
23 特徴量記憶手段、特徴量記憶部
24 文字数記憶手段、文字数記憶部
25 スコア算出手段
DESCRIPTION OF SYMBOLS 10 Online page analysis apparatus 11 Online page crawler 12 Page parser 13 Data input means, data input part 14 Article character number score calculation part 15 Article pictogram number score calculation part 16 Pictogram database 17 Comment character number score calculation part 18 Comment pictogram number score calculation part 19 Feature quantity calculation means, document feature quantity calculation section 20 Data output means, data output section 21 Data mining device 22 Score storage means, score storage section 23 Feature quantity storage means, feature quantity storage section 24 Character number storage means, Character number storage section 25 Score Calculation means

Claims (10)

インターネット上のブログやSNS(Social Networking Service)を含むオンラインページを分析するための装置におけるオンラインページ分析方法であって、
データ入力手段が、前記オンラインページの記事部分及びコメント部分を取得し、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページを一意に特定するページIDと関連付けて文字数記憶手段に格納するデータ入力過程と、
スコア算出手段が、前記文字数記憶手段からページID毎に、前記記事文字数、前記記事絵文字数、前記コメント平均文字数、前記コメント平均絵文字数を読み出して、文字数または絵文字数が多いほど値が高くなる、記事文字数スコア、記事絵文字数スコア、コメント文字数スコア、コメント絵文字数スコアを算出し、スコア記憶手段に格納するスコア算出過程と、
文書特徴量算出手段が、前記スコア記憶手段からスコアを読み出して、該スコアを用いて、記事を作成者及びコメント付与者が情報を正確に伝えることを重視しているか、または、感情豊かに伝えることを重視しているかを示す特徴量を算出し、特徴量記憶手段に格納する特徴量算出過程と、
データ出力手段が、入力されたクエリで指定されたページIDの特徴量、または、クエリで指定された特徴量を有するページIDを前記特徴量記憶手段から検索して出力する出力ステップと、
を行うことを特徴とするオンラインページ分析方法。
An online page analysis method in an apparatus for analyzing online pages including blogs and SNS (Social Networking Service) on the Internet,
The data input means acquires the article portion and comment portion of the online page, calculates the number of article characters, the number of article pictograms, the average number of comments, the average number of comment characters, and associates the online page with a page ID that uniquely identifies the number of characters. A data input process to be stored in the storage means;
The score calculation means reads the number of article characters, the number of article pictograms, the number of comment average characters, the number of comment average pictograms for each page ID from the character count storage means, and the value increases as the number of characters or the number of pictograms increases. An article character count score, an article pictogram score, a comment character count score, a comment pictogram score, and a score calculation process for storing the score in a score storage means;
The document feature amount calculation means reads out the score from the score storage means, and uses the score to give importance to the author and the comment giver to accurately convey the information or convey it in an emotional manner. A feature amount calculation process for calculating a feature amount indicating whether importance is attached to the feature amount and storing the feature amount in a feature amount storage unit;
An output step in which the data output means retrieves and outputs the feature amount of the page ID specified by the input query or the page ID having the feature amount specified by the query from the feature amount storage means;
An online page analysis method characterized by:
前記文書特徴量算出過程において、
前記記事文字数スコアを前記記事絵文字数スコアで割った値を記事CP比とし、該記事CP比が大きい場合には前記記事作成者が情報を正確に伝える特徴を有し、該記事CP比が小さい場合には該記事作成者が感情豊かに情報を伝える特徴を有するものとして、該記事CP比を前記特徴量記憶手段に格納する
請求項1記載のオンラインページ分析方法。
In the document feature amount calculation process,
A value obtained by dividing the article character count score by the article pictogram score is defined as an article CP ratio. When the article CP ratio is large, the article creator has a feature of accurately transmitting information, and the article CP ratio is small. The online page analysis method according to claim 1, wherein the article CP ratio is stored in the feature amount storage means, assuming that the article creator has a characteristic of conveying information in an emotional manner.
前記文書特徴量算出過程において、
前記コメント文字数スコアを前記コメント絵文字数スコアで割った値をコメントCP比とし、該コメントCP比が大きい場合には前記コメント付与者が情報を正確に伝える特徴を有し、該コメントCP比が小さい場合には該コメント作成者が感情豊かに情報を伝える特徴を有するものとして、該コメントCP比を前記特徴量記憶手段に格納する
請求項1記載のオンラインページ分析方法。
In the document feature amount calculation process,
A value obtained by dividing the comment character score by the comment pictogram score is defined as a comment CP ratio. When the comment CP ratio is large, the comment giver accurately conveys information, and the comment CP ratio is small. The online page analysis method according to claim 1, wherein the comment CP ratio is stored in the feature amount storage means, assuming that the comment creator has a feature of conveying information in an emotional manner.
前記文書特徴量算出過程において、
前記記事文字数スコア及び前記コメント文字数スコアが、それぞれ所定の値と比較して大きいか、または、小さいかによって、オンラインページをグループ分けし、グループ毎に該グループに属するオンラインページのページIDとグループを関連付けて前記特徴量記憶手段に格納する
請求項1記載のオンラインページ分析方法。
In the document feature amount calculation process,
Online pages are grouped according to whether the article character number score and the comment character number score are larger or smaller than a predetermined value, and the page ID and group of the online page belonging to the group are grouped for each group. The on-line page analysis method according to claim 1, wherein the information is stored in the feature quantity storage unit in association with each other.
インターネット上のブログやSNS(Social Networking Service)を含むオンラインページを分析するためのオンラインページ分析装置であって、
前記オンラインページの記事部分及びコメント部分を取得し、記事文字数、記事絵文字数、コメント平均文字数、コメント平均絵文字数を算出し、オンラインページを一意に特定するページIDと関連付けて文字数記憶手段に格納するデータ入力手段と、
前記文字数記憶手段からページID毎に、前記記事文字数、前記記事絵文字数、前記コメント平均文字数、前記コメント平均絵文字数を読み出して、文字数または絵文字数が多いほど値が高くなる、記事文字数スコア、記事絵文字数スコア、コメント文字数スコア、コメント絵文字数スコアを算出し、スコア記憶手段に格納するスコア算出手段と、
前記スコア記憶手段からスコアを読み出して、該スコアを用いて、記事を作成者及びコメント付与者が情報を正確に伝えることを重視しているか、または、感情豊かに伝えることを重視しているかを示す特徴量を算出し、特徴量記憶手段に格納する特徴量算出手段と、
入力されたクエリで指定されたページIDの特徴量、または、クエリで指定された特徴量を有するページIDを前記特徴量記憶手段から検索して出力するデータ出力手段と、
を有することを特徴とするオンラインページ分析装置。
An online page analysis device for analyzing online pages including blogs and SNS (Social Networking Service) on the Internet,
The article portion and comment portion of the online page are acquired, the number of article characters, the number of article pictograms, the average number of comment characters, and the average number of comment pictograms are calculated and stored in the character count storage means in association with the page ID that uniquely identifies the online page. Data input means;
For each page ID, the number of article characters, the number of article pictograms, the number of comment average characters, and the number of comment average pictograms are read from the character number storage means for each page ID, and the value increases as the number of characters or the number of pictograms increases. Calculating a pictogram number score, a comment character count score, a comment pictogram count score, and storing the score in the score storage means;
Whether the score is read from the score storage means, and using the score, whether the author and comment give importance to accurately communicating information or whether to emphasize emotionally A feature quantity calculating means for calculating the feature quantity to be shown and storing it in the feature quantity storage means;
A data output means for searching and outputting the feature amount of the page ID specified by the input query or the page ID having the feature amount specified by the query from the feature amount storage means;
An on-line page analysis apparatus characterized by comprising:
前記文書特徴量算出手段は、
前記記事文字数スコアを前記記事絵文字数スコアで割った値を記事CP比とし、該記事CP比が大きい場合には前記記事作成者が情報を正確に伝える特徴を有し、該記事CP比が小さい場合には該記事作成者が感情豊かに情報を伝える特徴を有するものとして、該記事CP比を前記特徴量記憶手段に格納する手段を含む
請求項5記載のオンラインページ分析装置。
The document feature amount calculating means includes:
A value obtained by dividing the article character count score by the article pictogram score is defined as an article CP ratio. When the article CP ratio is large, the article creator has a feature of accurately transmitting information, and the article CP ratio is small. 6. The online page analyzing apparatus according to claim 5, further comprising means for storing the article CP ratio in the feature amount storage means, assuming that the article creator has a characteristic of conveying information in an emotional manner.
前記文書特徴量算出手段は、
前記コメント文字数スコアを前記コメント絵文字数スコアで割った値をコメントCP比とし、該コメントCP比が大きい場合には前記コメント付与者が情報を正確に伝える特徴を有し、該コメントCP比が小さい場合には該コメント作成者が感情豊かに情報を伝える特徴を有するものとして、該コメントCP比を前記特徴量記憶手段に格納する手段を含む
請求項5記載のオンラインページ分析装置。
The document feature amount calculating means includes:
A value obtained by dividing the comment character score by the comment pictogram score is defined as a comment CP ratio. When the comment CP ratio is large, the comment giver accurately conveys information, and the comment CP ratio is small. 6. The on-line page analysis apparatus according to claim 5, further comprising means for storing the comment CP ratio in the feature amount storage means as having a feature that the comment creator conveys information in an emotional manner.
前記文書特徴量算出手段は、
前記記事文字数スコア及び前記コメント文字数スコアが、それぞれ所定の値と比較して大きいか、または、小さいかによって、オンラインページをグループ分けし、グループ毎に該グループに属するオンラインページのページIDとグループを関連付けて前記特徴量記憶手段に格納する手段を含む
請求項5記載のオンラインページ分析装置。
The document feature amount calculating means includes:
Online pages are grouped according to whether the article character number score and the comment character number score are larger or smaller than a predetermined value, and the page ID and group of the online page belonging to the group are grouped for each group. 6. The online page analyzing apparatus according to claim 5, further comprising means for associating and storing in the feature quantity storage means.
請求項5乃至8のいずれか1項に記載のオンラインページ分析装置を構成する各手段としてコンピュータを機能させるためのオンラインページ分析プログラム。   An online page analysis program for causing a computer to function as each means constituting the online page analysis device according to claim 5. 請求項9記載のオンラインページ分析プログラムを格納したコンピュータ読み取り可能な記録媒体。   A computer-readable recording medium storing the online page analysis program according to claim 9.
JP2008052151A 2008-03-03 2008-03-03 Method, apparatus, and program for analyzing online page, and computer readable recording medium Pending JP2009211280A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008052151A JP2009211280A (en) 2008-03-03 2008-03-03 Method, apparatus, and program for analyzing online page, and computer readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008052151A JP2009211280A (en) 2008-03-03 2008-03-03 Method, apparatus, and program for analyzing online page, and computer readable recording medium

Publications (1)

Publication Number Publication Date
JP2009211280A true JP2009211280A (en) 2009-09-17

Family

ID=41184366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008052151A Pending JP2009211280A (en) 2008-03-03 2008-03-03 Method, apparatus, and program for analyzing online page, and computer readable recording medium

Country Status (1)

Country Link
JP (1) JP2009211280A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014507A (en) * 2010-07-01 2012-01-19 Kddi Corp Discussion soundness calculation device, discussion soundness calculation method and computer program
WO2013012599A2 (en) * 2011-07-18 2013-01-24 Battelle Memorial Institute Automatic identification of abstract online groups
JP2013080988A (en) * 2011-09-15 2013-05-02 Toshiba Corp Information processing device and information provision method
JP2013534334A (en) * 2010-07-26 2013-09-02 アリババ・グループ・ホールディング・リミテッド Method and apparatus for sorting query results
CN103559174A (en) * 2013-09-30 2014-02-05 东软集团股份有限公司 Semantic emotion classification characteristic value extraction method and system
CN107180021A (en) * 2016-03-09 2017-09-19 北京京东尚科信息技术有限公司 A kind of data processing method, system and its server

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014507A (en) * 2010-07-01 2012-01-19 Kddi Corp Discussion soundness calculation device, discussion soundness calculation method and computer program
JP2013534334A (en) * 2010-07-26 2013-09-02 アリババ・グループ・ホールディング・リミテッド Method and apparatus for sorting query results
US8700629B2 (en) 2011-02-28 2014-04-15 Battelle Memorial Institute Automatic identification of abstract online groups
WO2013012599A2 (en) * 2011-07-18 2013-01-24 Battelle Memorial Institute Automatic identification of abstract online groups
WO2013012599A3 (en) * 2011-07-18 2013-04-18 Battelle Memorial Institute Automatic identification of abstract online groups
JP2013080988A (en) * 2011-09-15 2013-05-02 Toshiba Corp Information processing device and information provision method
US9226033B2 (en) 2011-09-15 2015-12-29 Kabushiki Kaisha Toshiba Information processing apparatus and method for providing information
CN103559174A (en) * 2013-09-30 2014-02-05 东软集团股份有限公司 Semantic emotion classification characteristic value extraction method and system
CN103559174B (en) * 2013-09-30 2016-03-09 东软集团股份有限公司 Semantic emotion classification characteristic value extraction and system
CN107180021A (en) * 2016-03-09 2017-09-19 北京京东尚科信息技术有限公司 A kind of data processing method, system and its server

Similar Documents

Publication Publication Date Title
US9483462B2 (en) Generating training data for disambiguation
Ma et al. Exploring performance of clustering methods on document sentiment analysis
US20210365500A1 (en) System and method for question-based content answering
CN107784092A (en) A kind of method, server and computer-readable medium for recommending hot word
US9817908B2 (en) Systems and methods for news event organization
US20140046976A1 (en) Systems, methods, and user interface for effectively presenting information
US8713028B2 (en) Related news articles
Pawar et al. Twitter sentiment analysis: A review
US9672269B2 (en) Method and system for automatically identifying related content to an electronic text
US20180052816A1 (en) Title extraction using natural language processing
JPWO2009096523A1 (en) Information analysis apparatus, search system, information analysis method, and information analysis program
JP2010211594A (en) Text analysis device and method, and program
US9959251B2 (en) Using content structure to socially connect users
Potthast et al. Information retrieval in the commentsphere
JP2009211280A (en) Method, apparatus, and program for analyzing online page, and computer readable recording medium
JP4970919B2 (en) Browsing target information evaluation system, method, and program
KR20190048781A (en) System for crawling and analyzing online reviews about merchandise or service
Skanda et al. Detecting stance in kannada social media code-mixed text using sentence embedding
CN104461224B (en) Information processing method and electronic equipment
Shafaee et al. Aspect-based sentiment analysis of amazon reviews for fitness tracking devices
JP4539616B2 (en) Opinion collection and analysis apparatus, opinion collection and analysis method used therefor, and program thereof
JP6260678B2 (en) Information processing apparatus, information processing method, and information processing program
US20120047128A1 (en) Open class noun classification
JP2006293616A (en) Document aggregating method, and device and program
Gundla et al. A review on sentiment analysis and visualization of customer reviews