JP2010066891A - Document classification method and system - Google Patents
Document classification method and system Download PDFInfo
- Publication number
- JP2010066891A JP2010066891A JP2008231131A JP2008231131A JP2010066891A JP 2010066891 A JP2010066891 A JP 2010066891A JP 2008231131 A JP2008231131 A JP 2008231131A JP 2008231131 A JP2008231131 A JP 2008231131A JP 2010066891 A JP2010066891 A JP 2010066891A
- Authority
- JP
- Japan
- Prior art keywords
- document
- writer
- comment
- posted
- site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、通信ネットワーク上のサイトに多数の記述者から投稿される文書を、適宜に分類する方法、及びそのシステムに関する。 The present invention relates to a method and system for appropriately classifying documents posted from a large number of writers on a site on a communication network.
昨今、インターネット上のブログサイト、SNS(Social Networking Service)等の利用者は爆発的に増加している。ブログ等のユーザの多くは、日記文書の公開を通して他人の共感を得ること、乃至は日記文書を閲覧して自分が共感できる他人と出会うことを望んでいると言うことができる。ブログ等は、日常問題や時事問題に関する体験、感想、意見等を含む日記文書等の投稿、その日記文書に対するコメント文書の投稿の機会を通して、人々に共感や安心感、問題解決の糸口を提供するといったような、社会的貢献の役割をいまや担っていると言える。 In recent years, the number of users of Internet blog sites, SNS (Social Networking Service), etc. has increased explosively. It can be said that many users such as blogs desire to gain the sympathy of others through the publication of diary documents, or to meet others who can sympathize by browsing the diary documents. Blogs provide people with empathy, security, and problem-solving opportunities through the posting of diary documents including experiences, impressions, and opinions related to daily problems and current affairs, and the opportunity to post comment documents on the diary documents. It can be said that it now plays the role of social contribution.
ところで、ブログサイト等において自分が共感できる他人を見つけるためには、何らかの検索を行う必要がある。このような検索の従来手法としては、無作為検索、カテゴリ検索、属性・キーワード検索を挙げることができる。無作為検索は、投稿日や投稿者を指定する程度の検索を行い手動でWebページを閲覧する手法である。カテゴリ検索は、「子育て」、「ボランティア」といったテーマ分類を活用して検索する手法である。属性・キーワード検索は、投稿者の年齢や性別、キーワードを利用して検索する手法である。ブログサイトのキーワード検索の手法として、例えば特許文献1を例示することができる。
ところで、ブロガーの大量発生により、ブログサイトやSNSは巨大化する傾向があり、現に数百万人規模の会員を擁するサイトも存在する。このような巨大サイトにおいて、従来の検索手法に依拠して検索を行っても、ユーザは、自分が共感する人物を効率良く、また精度良く見つけ出すのは困難である。すなわち、無作為検索やカテゴリ検索では、検索がラフすぎてなかなか共感先を見つけられない。一方キーワード検索では、適切なキーワードを選択し複雑な検索設定を行わないと、的確な検索結果は得られない。或いは、複雑な検索設定を行ったとしても、ヒット件数が膨大になることがある。 By the way, blog sites and SNSs tend to become huge due to the large number of bloggers, and there are actually sites with millions of members. Even if such a huge site is searched by relying on a conventional search method, it is difficult for the user to efficiently and accurately find a person whom he / she empathizes with. That is, in random search and category search, it is difficult to find a sympathy destination because the search is too rough. On the other hand, in keyword search, an accurate search result cannot be obtained unless an appropriate keyword is selected and complicated search settings are made. Or, even if complicated search settings are made, the number of hits may become enormous.
このように、なかなか自分が共感できる人物が発見できない結果、ブログサイトの日記文書に対してのコメント投稿が停滞し、サイトの活性度が低下する懸念がある。サイト運営者においてこのような事態は望ましいことではない。 As described above, as a result of not being able to find a person who can sympathize with each other, there is a concern that the posting of comments to the diary document of the blog site is stagnant and the activity of the site is reduced. This is not desirable for publishers.
そこで、共感人物同士を特定するために、既にブログサイト上で文書交信の実績をもつ者が作成した文書、つまり実際に共感している者によって現に作成された文書を抽出して解析することで、共感度を数値判定するための判定式の類を導出し、この判定式にまだ出会っていない者同士の作成に係る文書を当てはめて、その者同士の共感度を自動判定する手法が考えられる。 Therefore, in order to identify sympathetic people, by extracting and analyzing documents already created by those who have a history of document communication on the blog site, that is, documents actually created by those who actually sympathize A method of deriving a class of judgment formulas for determining the co-sensitivity numerically, applying a document related to the creation of persons who have not yet met this judgment formula, and automatically determining the co-sensitivity between the persons is considered. .
このような手法を取る場合、先ずは抽出された文書について的確な分類を行うことが肝要となる。例えば、交信実績文書として、特定の者がブログサイトに投稿した日記文書と、この日記文書に関連して作成され時系列的にブログサイトへ投稿された複数のコメント文書とを含む文書群を抽出した場合に、該文書群に含まれる文書が、他の記述者が前記日記文書に直接呼応して投稿したコメント文書か、前記特定の者が前記コメント文書に呼応して投稿したコメント文書であるか、或いは前記コメント文書に呼応して更に他の記述者が投稿したコメント文書であるか等を正確に分類することが、終局的に前記判定式の精度を向上させる上で重要となる。 When taking such a technique, it is important to first classify the extracted document accurately. For example, as a communication result document, a document group including a diary document posted by a specific person on a blog site and a plurality of comment documents created related to this diary document and posted to the blog site in time series is extracted. In this case, the document included in the document group is a comment document posted by another writer in direct response to the diary document, or a comment document posted by the specific person in response to the comment document. In order to improve the accuracy of the determination formula, it is important to accurately classify whether it is a comment document posted by another writer in response to the comment document.
本発明は、上記の問題点に鑑みてなされたもので、ブログサイト等から抽出された複数の文書を、どの文書に呼応して投稿された文書であるかを的確に分類することができる方法及びシステムを提供することを目的とする。 The present invention has been made in view of the above problems, and can accurately classify a plurality of documents extracted from a blog site or the like to which documents are posted in response to which document. And to provide a system.
本発明の一の局面に係る文書分類方法は、通信ネットワーク上のサイトに多数の記述者から投稿される文書を分類する方法であって、第1記述者により作成され前記サイトへ投稿された第1文書と、該第1文書に関連して作成され時系列的に前記サイトへ投稿された複数の文書とを含む文書群が存在する場合において、前記第1文書に呼応して作成された文書であって、前記第1記述者とは異なる第2記述者により作成され前記サイトに投稿された第2文書と、前記第2文書に呼応して作成された文書であって、前記第1記述者により作成され前記サイトに投稿された第3文書と、前記第2文書に呼応して作成された文書であって、前記第1記述者及び第2記述者とは異なる第3記述者により作成され前記サイトに投稿された第4文書と、を少なくとも分類するために、前記文書群の各分類対象文書に対し、前記分類対象文書を投稿した記述者の別を特定する第1ステップと、前記記述者が前記第1記述者以外である場合に、前記分類対象文書中に、予め各記述者に関連付けて定められた個人特定名称が存在するか否かを判定し、存在しない場合には前記第2文書と判定し、存在する場合であって前記文書群内に当該分類対象文書よりも時系列的に先に前記個人特定名称に係る記述者の投稿文書が存在する場合には前記第4文書と判定する第2ステップと、前記記述者が前記第1記述者である場合に、前記分類対象文書中に、予め各記述者に関連付けて定められた個人特定名称が存在するか否かを判定し、存在しない場合、並びに、存在する場合であって前記文書群内に当該分類対象文書よりも時系列的に先に前記個人特定名称に係る記述者の投稿文書が存在する場合には前記第3文書と判定する第3ステップと、を含むことを特徴とする(請求項1)。 A document classification method according to one aspect of the present invention is a method for classifying documents posted from a large number of writers on a site on a communication network, and is a method created by a first writer and posted to the site. A document created in response to the first document when there is a document group including one document and a plurality of documents created in relation to the first document and posted to the site in time series A second document created by a second writer different from the first writer and posted on the site, and a document created in response to the second document, the first description A third document created by a user and posted to the site, and a document created in response to the second document, created by a third writer different from the first writer and the second writer And a fourth document posted on the site. A first step of identifying, for each classification target document in the document group, the description of the person who posted the classification target document, and the description person other than the first description person In the classification target document, it is determined whether or not a personal identification name predetermined in association with each writer exists, and if it does not exist, it is determined as the second document. A second step of determining that the document is a fourth document in the document group when a document written by the descriptive person related to the individual specific name exists in time series before the document to be classified; Is the first descriptive person, it is determined whether or not a personal identification name previously defined in association with each descriptor exists in the classification target document. And the classification pair is included in the document group. And a third step of determining the third document as the third document when the posted document of the descriptive person related to the personal identification name exists in time series before the document (Claim 1). .
この構成によれば、第1文書に関連して作成され時系列的にサイトへ順次投稿された文書群内の各分類対象文書を、当該分類対象文書に個人特定名称が含まれているか否か、並びに、文書同士の時系列的な位置関係に基づいて、前記第2〜第4文書のいずれかに正確に分類することができる。すなわち、どの記述者が、前記サイトのどの文書に呼応して投稿した文書であるかを、的確に把握することができる。 According to this configuration, whether or not each classification target document in the document group created in relation to the first document and sequentially posted to the site in time series includes an individual specific name in the classification target document. In addition, based on the time-series positional relationship between documents, it can be accurately classified into any of the second to fourth documents. That is, it is possible to accurately grasp which writer is a document posted in response to which document on the site.
上記第3ステップにおいて、前記個人特定名称が存在しない場合には、当該分類対象文書が時系列的に直前の前記第2文書に呼応した前記第3文書であると判定することができる(請求項2)。 In the third step, when the personal identification name does not exist, it can be determined that the classification target document is the third document corresponding to the immediately preceding second document in time series (claim). 2).
この構成によれば、前記第3文書を、前記個人特定名称が存在するか否かによって、時系列的に直前の第2文書に呼応したものであるのか、或いはそれよりも先に投稿された第2文書に呼応したものであるのかの別に、さらに細分類することができる。 According to this configuration, whether the third document corresponds to the immediately preceding second document in chronological order or not depending on whether the personal identification name exists or not is posted. Further subdivision can be made depending on whether it is in response to the second document.
前記個人特定名称が、各記述者に割り当てられたニックネームであることが望ましい(請求項3)。この構成によれば、サイト上の文書で相手方を特定するために汎用されるニックネームを利用するので、文書の識別を行い易いという利点がある。 The personal identification name is preferably a nickname assigned to each writer (claim 3). According to this configuration, since a nickname that is widely used for specifying the other party in the document on the site is used, there is an advantage that it is easy to identify the document.
上記構成において、通信ネットワーク上のサイトが、インターネット上の特定のウエブサイトであることが望ましい(請求項4)。特に、前記ウエブサイトがブログサイトであって、前記第1文書が、前記第1記述者により作成された日記文書であり、前記第2文書が、前記第1記述者以外の記述者により作成された、日記文書に対する第1コメント文書であり、前記第3文書が、前記第1記述者により作成された、前記第1コメント文書に対する第2コメント文書であり、前記第4文書が、前記第1記述者以外の記述者により作成された、前記第1コメント文書に対する第3コメント文書であることが望ましい(請求項5)。 In the above configuration, it is preferable that the site on the communication network is a specific website on the Internet. In particular, the website is a blog site, the first document is a diary document created by the first writer, and the second document is created by a writer other than the first writer. The first comment document for the diary document, the third document is a second comment document for the first comment document created by the first writer, and the fourth document is the first comment document. It is desirable that it is a third comment document for the first comment document created by a descriptor other than the descriptor.
この構成によれば、ブログサイトに掲載された日記文書に対する第1コメント文書、この第1コメント文書に対する第2、第3コメント文書が分類対象文書となる。この場合、日記投稿者自身が作成した第2コメント文書を第1、第3コメント文書と扱ったり、第3コメント文書を第1コメント文書と扱ったりする不具合を解消することができる。 According to this configuration, the first comment document for the diary document posted on the blog site and the second and third comment documents for the first comment document are the classification target documents. In this case, it is possible to solve the problem that the second comment document created by the diary contributor himself is handled as the first and third comment documents, and the third comment document is handled as the first comment document.
本発明の他の局面に係る文書分類システムは、通信ネットワーク上のサイトに多数の記述者から投稿される文書の分類システムであって、前記サイトに投稿された文書を記憶する文書データベースと、前記サイトへの投稿が予定されている記述者名を記憶する記述者データベースと、予め前記記述者の各々に関連付けて定められた個人特定名称を記憶する名称データベースと、前記サイトに投稿された文書の分類処理を行う分類処理手段とを備え、前記分類処理手段は、前記文書データベース中から、第1記述者により作成され前記サイトへ投稿された第1文書と、該第1文書に関連して作成され時系列的に前記サイトへ投稿された複数の文書とを含む文書群を抽出する文書群抽出部と、前記文書群の各分類対象文書について、前記記述者データベースを参照して、前記分類対象文書を投稿した記述者を特定する記述者特定部と、前記分類対象文書を文書解析すると共に前記名称データベースを参照して、前記分類対象文書に個人特定名称が存在するか否かを特定する文書解析部と、前記記述者が前記第1記述者又は第1記述者以外であるかの別、及び、前記分類対象文書に個人特定名称が存在するか否かに基づいて、予め定められた類型に応じて、前記分類対象文書に分類判定処理を行う判定部と、を含むことを特徴とする(請求項6)。 A document classification system according to another aspect of the present invention is a system for classifying documents posted from a large number of writers on a site on a communication network, the document database storing documents posted on the site, A descriptor database that stores names of writers who are scheduled to post to the site, a name database that stores personally specified names previously associated with each of the writers, and documents posted to the site Classification processing means for performing classification processing, wherein the classification processing means is created from the document database in association with the first document created by the first writer and posted to the site. A document group extracting unit for extracting a document group including a plurality of documents posted to the site in time series, and for each categorization target document of the document group, the descriptor data A database is referred to, a writer specifying unit for specifying a writer who has posted the classification target document, a document analysis of the classification target document and a reference to the name database, and a personal identification name is assigned to the classification target document. Document analysis unit for specifying whether or not the document exists, whether the writer is the first writer or a person other than the first writer, and whether or not a personal identification name exists in the classification target document And a determination unit that performs a classification determination process on the classification target document according to a predetermined type (Claim 6).
この構成によれば、第1文書に関連して作成され時系列的にサイトへ順次投稿された文書群内の各分類対象文書を、記述者データベース及び名称データベースを参照して、当該分類対象文書の記述者と個人特定名称の有無とを特定し、その結果に基づき判定部により類型に応じて文書の分類判定を行わせることができる。 According to this configuration, each classification target document in the document group created in relation to the first document and sequentially posted to the site in time series is referred to the writer database and the name database, and the classification target document And the presence / absence of the personal identification name can be specified, and based on the result, the determination unit can determine the classification of the document according to the type.
この場合、前記判定部は、前記第1文書に呼応して作成された文書であって、前記第1記述者とは異なる第2記述者により作成され前記サイトに投稿された第2文書と、前記第2文書に呼応して作成された文書であって、前記第1記述者により作成され前記サイトに投稿された第3文書と、前記第2文書に呼応して作成された文書であって、前記第1記述者及び第2記述者とは異なる第3記述者により作成され前記サイトに投稿された第4文書と、を少なくとも分類するものであり、前記分類対象文書の記述者が前記第1記述者以外であって、該分類対象文書中に前記個人特定名称が存在しない場合には前記第2文書と判定し、前記個人特定名称が存在する場合であって前記文書群内に当該分類対象文書よりも時系列的に先に前記個人特定名称に係る記述者の投稿文書が存在する場合には前記第4文書と判定し、前記分類対象文書の記述者が前記第1記述者であって、該分類対象文書中に前記個人特定名称が存在しない場合、並びに、存在する場合であって前記文書群内に当該分類対象文書よりも時系列的に先に前記個人特定名称に係る記述者の投稿文書が存在する場合には前記第3文書と判定することが望ましい(請求項7)。 In this case, the determination unit is a document created in response to the first document, the second document created by a second writer different from the first writer, and posted to the site; A document created in response to the second document, a third document created by the first writer and posted to the site, and a document created in response to the second document, Categorizing at least a fourth document created by a third writer different from the first writer and the second writer and posted on the site, and the writer of the classification target document If the personal identification name is not present in the document to be classified and the personal identification name does not exist, it is determined as the second document. If the personal identification name exists, the classification is included in the document group. The personal identification name in chronological order before the target document If there is a posted document of the writer who relates to the document, it is determined as the fourth document, the writer of the classification target document is the first writer, and the personal identification name exists in the classification target document If there is a document posted by the descriptor related to the personal identification name in time series before the classification target document in the document group, the third document It is desirable to determine (claim 7).
この構成によれば、判定部は、分類対象文書中における個人特定名称の有無、並びに、文書同士の時系列的な位置関係に基づいて、分類対象文書を前記第2〜第4文書のいずれかに正確に分類することができる。すなわち、どの記述者が、前記サイトのどの文書に呼応して投稿した文書であるかを、的確に判定させることができる。 According to this configuration, the determination unit determines whether the classification target document is any one of the second to fourth documents based on the presence / absence of the personal identification name in the classification target document and the time-series positional relationship between the documents. Can be accurately classified. That is, it is possible to accurately determine which writer is a document posted in response to which document of the site.
本発明によれば、第1文書に関連して作成され時系列的にサイトへ順次投稿された文書群内の各分類対象文書について、どの記述者が、前記サイトのどの文書に呼応して投稿した文書であるかを、的確に把握することができる。従って、例えばサイト上で共感している者同士の文書を抽出する場合に、その抽出を正確に行うことができる。ひいては、その抽出文書を文書解析して共感度を数値判定する判定式を導出する場合に、その判定式の精度を向上させることができる。 According to the present invention, for each classification target document in the document group created in relation to the first document and sequentially posted to the site, which writer describes in response to which document of the site It is possible to accurately grasp whether the document is a completed document. Therefore, for example, when extracting documents of those who sympathize on the site, the extraction can be performed accurately. Eventually, when the extracted document is subjected to document analysis to derive a determination formula for determining the co-sensitivity numerically, the accuracy of the determination formula can be improved.
以下、図面に基づいて、本発明の実施形態につき説明する。図1は、本発明に係る文書分類方法が適用されるネットワークシステムS(文書分類システム)のハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、処理装置10と、インターネット上でブログサイト21を展開させるためのブログシステム20と、このブログサイト21の会員A、B、C、D、E・・・に保有されている会員端末装置31、32、33、34、35・・・を含む端末装置30とが、インターネットINを介してデータ通信可能に接続されてなる。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram schematically showing a hardware configuration of a network system S (document classification system) to which a document classification method according to the present invention is applied. This network system S is owned by the
ブログサイト21(通信ネットワーク上のサイト)は、インターネット上に展開された特定のウエブサイトであって、日記文書や、日記文書に対するコメント文書等が掲載されるサイトである。 The blog site 21 (site on the communication network) is a specific web site developed on the Internet, and is a site on which a diary document, a comment document for the diary document, and the like are posted.
会員A〜Eは、ブログサイト21のサイト運営者に対して自身の属性情報を開示し、ブログサイト21の会員として登録されている者である。会員A〜Eは、各自の会員端末装置31〜25を介して、ブログサイト21に日記文書を投稿したり、その日記文書に対してコメント文書(第1コメント文書)を投稿したり、このコメント文書に対してさらにコメント文書(第2コメント文書)を投稿したり、或いはこれら文書を閲覧したりすることが可能とされている。端末装置30は、代表的には、インターネット接続されたパーソナルコンピュータ、携帯電話機、携帯情報端末機等である。
The members A to E are persons who disclose their attribute information to the site operator of the
ブログシステム20は、ブログサーバ22(文書データベース)、会員サーバ23(記述者データベース)及びニックネームデータベース24(名称データベース)を備えている。
The
ブログサーバ22は、ブログサイト21を運用するためのサーバであって、ブログサイト21に投稿された文書の文書データと、その文書の投稿日時、投稿者等の各種データとを関連付けて蓄積するサーバである。会員サーバ23は、ブログサイト21に登録されている会員、つまりブログサイト21への投稿が予定されている記述者の属性情報(氏名、会員番号、住所、端末装置のIPアドレス、年齢、性別、興味関心事など)が蓄積されたサーバである。
The
ニックネームデータベース24は、会員の各々に関連付けて定められているニックネーム(個人特定名称)を記憶するデータベースである。このニックネームは、ユーザがブログサイト21に入会する際に、該ユーザが自ら申請することで登録される自身の愛称であって、ブログサイト21に投稿される文書において自身を特定するときに用いられることが予定されている名称である。
The
処理装置10(分類処理手段)は、ブログサイト21に投稿された日記文書、この日記文書に呼応して投稿されたコメント文書、このコメント文書に呼応してさらに投稿されたコメント文書を、投稿した会員に応じて分類する処理を行う機能を有する。例えば、会員A(第1記述者)により作成されブログサイト21へ投稿された日記文書(第1文書)と、この日記文書に関連して会員B、C、D、E・・・若しくは会員Aにより作成され時系列的に順次ブログサイト21へ投稿された複数のコメント文書とを含む文書群が存在する場合を想定する。
The processing device 10 (classification processing means) posted a diary document posted to the
この場合、処理装置10は、前記複数のコメント文書を分類対象文書として、少なくとも次の類型1、類型2及び類型3に分類する処理を行う。
[類型1]日記文書に呼応して作成された文書であって、日記記述者である会員A以外の会員、例えば会員B(第2記述者)により作成されブログサイト21に投稿された第1コメント文書(第2文書);
[類型2]第1コメント文書に呼応して作成された文書であって、日記記述者である会員Aにより作成されブログサイト21に投稿された第2コメント文書(第3文書);
[類型3]第1コメント文書に呼応して作成された文書であって、会員A及び会員B以外の会員、例えば会員C(第3記述者)により作成されブログサイト21に投稿された第3コメント文書(第4文書)。
In this case, the
[Type 1] A document created in response to a diary document, which is created by a member other than member A who is a diary writer, such as member B (second writer) and posted to the
[Type 2] A second comment document (third document) created in response to the first comment document and created by member A who is a diary writer and posted on the
[Type 3] A document created in response to the first comment document, created by a member other than member A and member B, for example, member C (third writer) and posted to the
図2は、処理装置10の機能構成を示す機能ブロック図である。処理装置10は、例えば上記の分類処理等を行うCPU(中央演算処理装置)を備えた大型のコンピュータ装置であって、ブログサーバ22、会員サーバ23及びニックネームデータベース24に対してデータ通信可能に接続されている。前記CPUは、分類処理を行うべくプログラミングされたソフトウェアが実行されることで、図2に示す機能部を具備するように動作する。処理装置10は、機能的に、文書群抽出部11、記述者特定部12、文書解析部13、判定部14及び解析処理部15を備える。
FIG. 2 is a functional block diagram showing a functional configuration of the
文書群抽出部11は、ブログサーバ22に蓄積されている文書データの中から、日記文書と、この日記文書に関連するコメント文書の群(日記文書に対するスレッド)を抽出する。この際、これらの文書の投稿日時に関するデータを付帯させ、文書間の時系列的な関係(投稿時間の先後)が把握できるようにして文書の抽出を行う。例えば、ブログサイト21上において会員Aに対して共感度の高い会員B、C、D、E・・・を求めようとする場合は、文書群抽出部11は、会員Aが投稿した日記文書を起点とするスレッドの文書群を、ブログサーバ22から抽出する。この抽出された文書群が、分類対象文書となる。
The document
記述者特定部12は、各分類対象文書について、会員サーバ23を参照して、その分類対象文書を投稿した会員を特定する。例えば、記述者特定部12は、ブログサイト21への文書投稿の際に用いられたアドレスやパスワードに基づいて特定処理を行う。
The
文書解析部13は、分類対象文書を文書解析して、分類対象文書中にニックネームが存在するか否かを特定する処理を行う。具体的には文書解析部13は、各分類対象文書の正規化処理、文書構造解析処理などを行う。正規化処理は、文書構造解析を正常に行い得るようにするために、分類対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、例えば形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。このような文書構造解析処理のため、文書解析部13は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用する。
The
ニックネームが存在するか否かの特定のために、文書解析部13はニックネームデータベース24を参照する。図3は、ニックネームデータベース24のデータ構造を模式的に示す表形式の図である。ここでは、会員名(会員ナンバー)A、B、C、D、E・・・に各々対応付けて、各自のニックネーム「a」「b」「c」「d」「e」・・・が記憶されている例を示している。これらのニックネームは、例えば、ブログサイト21への会員登録時、各会員A、B、C、D、E・・・がサイトへの文書投稿の際に本名の代わりに用いるハンドルネームとして申告された名称である。
In order to specify whether or not a nickname exists, the
文書解析部13は、分類対象文書を文書解析して得た単語群と、ニックネームデータベース24に記憶されているニックネームとを照らし合わせ、分類対象文書中にニックネームが存在するか否かを特定する。ここで、ニックネームデータベース24に存在する名称でも、文書中ではニックネーム以外の意味で使用される場合がある。例えば、会員Aのニックネーム「a」が「春」であるとする場合、四季を示す名詞として使用された「春」であるのか、会員Aを特定するために用いられたニックネームとしての「春」であるのか、区別できない場合が生じ得る。
The
そこで、ニックネームとしての使用の場合、必ず「〜ちゃん」、「〜さん」、「〜さま」、「〜サン」、「〜様」等の敬称が付帯しているものと推定し、前者と後者の区別を図るようにしている。上記のケースでは、文書解析部13は、「春」という単語がニックネームデータベース24に存在していることが確認された後、その「春」に続いて「〜ちゃん」や「〜さん」等の敬称単語が存在しているか否かを判定し、存在する場合はニックネームとしての「春」と判定し、当該分類対象文書が会員Aのニックネームを含む文書であると決定する。一方、敬称単語が後続していない場合は、「春」を単なる一般名詞等と扱い、当該分類対象文書がニックネームを含む文書ではないと決定する。
Therefore, in the case of use as a nickname, it is presumed that a title such as "~ chan", "~ san", "~ sama", "~ san", "~ sama" etc. is attached, the former and the latter The distinction is made. In the above case, after confirming that the word “spring” exists in the
判定部14は、分類対象文書の記述者が日記投稿者であるかそれ以外の者であるかの別、及び、分類対象文書にニックネームが存在するか否かに基づいて、当該分類対象文書が、上掲の類型1、類型2及び類型3のいずれに当て嵌まるかを判定する分類判定処理を行う。この判定部14における処理を、図4〜図7を参照して詳述する。
The
図4は、日記4Aと、これに関連して投稿されたコメント群4Bを時系列的に示した模式図である。言わば、会員Aの日記文書41の投稿を起点として実際に生じた1つのスレッドを模式的に示す図である。図中の左側の矢印群は、日記−コメント間、コメント−コメント間の呼応関係を示している。コメント群4Bは8つのコメント文書42〜49が含まれ、図中の最も上側のコメント文書42が日記文書41の投稿時刻に最も近い時刻に投稿され、以降、投稿された時刻が早い順に下側に向けてコメント文書43〜49が配列されているものとする。
FIG. 4 is a schematic diagram showing the
コメント群4Bには、会員B、C、D、Eだけでなく日記投稿者である会員Aのコメント文書も含まれている。また、日記文書41に直接呼応するコメント文書だけではなく、コメント文書に呼応するコメント文書も存在する。詳述すると、日記文書41に直接呼応するコメント文書は、会員Bのコメント文書42、会員Cのコメント文書44及び会員Dのコメント文書45である。また、会員Aは、コメント文書43、46、47、48を投稿している。
The
すなわち会員Aは、会員Bのコメント文書42に呼応して直ちにコメント文書43を投稿し、その後時間を置いてコメント文書47を投稿している。このコメント文書47には、会員Bを特定するニックネーム「b」に敬称単語「さん」が付帯した「bさん」という文言が含まれている。また、会員Aは、会員Cのコメント文書44に呼応してコメント文書48を投稿している。このコメント文書48には、会員Cを特定するニックネーム「c」に敬称単語「さま」が付帯した「cさま」という文言が含まれている。さらに、会員Aは、会員Dのコメント文書45に呼応して直ちにコメント文書46を投稿している。
That is, the member A immediately posts the
この会員Dのコメント文書45には、会員Eも呼応してコメント文書49を投稿している。このコメント文書49には、会員Dを特定するニックネーム「d」に敬称単語「ちゃん」が付帯した「dちゃん」という文言が含まれている。ここで、会員Eは、当該スレッドにおいて、日記投稿者である会員Aと文書交信をしていない。つまり、会員Eは、会員Aに共感したのではなく、会員Dに共感してコメント文書49を投稿したものである。
In response to the member D's
以上のような事実関係がある場合において、コメント文書42〜49を分類するとき、本発明に対する比較例として、図5(比較例1)及び図6(比較例2)に示す2つの分類方法が挙げられる。比較例1は、スレッドの全コメント文書を、日記文書に呼応するコメント文書と扱う分類方法である。比較例2は、日記投稿者(この例では会員A)自身により投稿されたコメント文書を除いたコメント文書を、日記文書に呼応するコメント文書と扱う分類方法である。 When the comment documents 42 to 49 are classified in the above factual relationship, two classification methods shown in FIG. 5 (Comparative Example 1) and FIG. 6 (Comparative Example 2) are provided as comparative examples for the present invention. Can be mentioned. Comparative example 1 is a classification method in which all comment documents of a thread are treated as comment documents corresponding to a diary document. Comparative Example 2 is a classification method in which a comment document excluding a comment document posted by the diary contributor (member A in this example) is treated as a comment document corresponding to the diary document.
図5に示すように、比較例1の分類方法では、コメント群4Bの全コメント文書42〜49が、日記文書41に呼応するコメント文書と扱われることになる。この方式では、機械的な処理速度は速いが、本来は抽出してはならない「日記−コメント」関係を抽出したり、逆に、本来抽出しなければならない「コメント−コメント」関係を抽出できなかったりする場合が生じる。
As shown in FIG. 5, in the classification method of Comparative Example 1, all
具体的には、日記投稿者である会員Aの他の会員に対するコメント文書43、46、47、48を、日記文書41に対するコメント文書と扱うという、明らかに矛盾した「日記−コメント」関係を抽出してしまうことになる。また、日記文書41に対するコメントではないコメント文書49を、日記文書41に対するコメント文書と扱う誤りも惹起する。反面、コメント文書42に呼応したコメント文書43、コメント文書44に呼応したコメント文書48、コメント文書45に呼応したコメント文書47、及び、コメント文書45に呼応したコメント文書49という、本来抽出しなければならない「コメント−コメント」関係を抽出できない不具合が生じる。
Specifically, the
次に、図6に示すように、比較例2の分類方法では、コメント群4Bのうち、日記投稿者の会員A自身により投稿されたコメント文書43、46、47、48を除いたコメント文書42、44、45、49が、日記文書41に呼応するコメント文書と扱われることとなる。
Next, as shown in FIG. 6, in the classification method of the comparative example 2, the
比較例2の分類方法によれば、会員Aの他の会員に対するコメント文書43、46、47、48を、日記文書41に対するコメント文書と扱うという矛盾を解消することはできる。しかしながら、日記文書41に対するコメントではないコメント文書49を、日記文書41に対するコメント文書と扱う誤りを解消することはできない。また、比較例1と同様に、本来抽出しなければならない「コメント−コメント」関係を抽出できない不具合は残る。
According to the classification method of the comparative example 2, the contradiction that the comment documents 43, 46, 47, 48 for the other members of the member A are handled as the comment documents for the
図7は、比較例1及び比較例2の分類方法の精度を評価した表形式の図である。図中の「×」印の項目は、当該比較例方法では不具合がある項目である。上述の通り、比較例1の分類方法では、日記投稿者自身のコメント文書を、「日記−コメント」関係のコメント文書として抽出する誤りと、「コメント−コメント」関係を「日記−コメント」関係と誤認する不具合とが生じる。但し、例えばコメント文書48をコメント文書42に呼応したコメントと扱うような、誤った「コメント−コメント」関係を抽出する不具合までは発生しない。また、誤りは含んでいるものの、正しい「日記−コメント」関係にあるコメント文書42、44、45は漏れなく抽出できている。しかし、例えばコメント文書45に呼応したコメント文書49という正しい「コメント−コメント」関係が抽出できない不具合がある。
FIG. 7 is a table format in which the accuracy of the classification methods of Comparative Example 1 and Comparative Example 2 is evaluated. Items marked with “x” in the figure are items that are defective in the comparative method. As described above, in the classification method of Comparative Example 1, the comment document of the diary poster himself is extracted as a comment document in the “diary-comment” relationship, and the “comment-comment” relationship is the “diary-comment” relationship. Misleading faults occur. However, it does not occur up to a problem of extracting an erroneous “comment-comment” relationship, for example, treating the
比較例2の分類方法では、日記投稿者自身のコメント文書を、「日記−コメント」関係のコメント文書として抽出する誤りが解消される他は、比較例1と同じ結果である。このような分類方法によれば、例えば会員Aへの共感度が高い他の会員を検出するべく、会員Aと他の会員との間で交信された文書を抽出し、該文書を解析して共感度を数値判定するような場合に、的確な共感度判定の前提となる会員間文書の抽出が正確に行われないこととなる。従って、共感度判定の精度は自ずと低下することになる。 The classification method of Comparative Example 2 is the same as Comparative Example 1 except that the error of extracting the comment document of the diary contributor himself as a comment document related to “diary-comment” is eliminated. According to such a classification method, for example, in order to detect other members having high co-sensitivity to member A, a document communicated between member A and another member is extracted, and the document is analyzed. In the case where the co-sensitivity is determined numerically, the inter-member document, which is a prerequisite for accurate co-sensitivity determination, is not accurately extracted. Accordingly, the accuracy of the co-sensitivity determination naturally decreases.
判定部14は、図7に示した「×」印の項目についても正しい抽出が行えるよう、記述者特定部12により特定された分類対象文書の記述者と、文書解析部13により決定された分類対象文書中のニックネームの有無と、投稿時間とを参照して、次の(a)〜(c)の論理に従って分類対象文書の分類を行う。
The
(a)分類対象文書の記述者が日記投稿者である会員A以外であり、当該分類対象文書中にニックネームが存在しない場合は、日記文書に呼応して投稿された他の会員のコメント文書と扱う(上掲の[類型1])。図4の例では、コメント文書42、44、45が相当する。ここでは、日記文書に直接呼応するコメント文書では、相手方は明白であって通常は文中で相手方を特定する必要はないことから、コメント文書中にはニックネームが記述されないであろうという推定を採用している。 (A) If the writer of the classification target document is other than the member A who is the diary contributor, and there is no nickname in the classification target document, the comment document of the other member posted in response to the diary document Handled (see above [Type 1]). In the example of FIG. 4, comment documents 42, 44, and 45 correspond. Here, in a comment document that responds directly to a diary document, the other party is obvious, and it is not usually necessary to identify the other party in the text, so the assumption that the nickname will not be described in the comment document is adopted. ing.
(b)分類対象文書の記述者が日記投稿者である会員A以外であり、当該分類対象文書中にニックネームが存在する場合であって、コメント群4B内に当該分類対象文書よりも時系列的に先に当該ニックネームに係る会員のコメント文書が存在する場合には、他の会員間に交わされたコメント文書と扱う(上掲の[類型3])。図4の例では、コメント文書49が相当する。ここでは、日記文書ではなくスレッド内の他の会員のコメント文書に呼応してコメント文書を投稿する場合には、通常は相手方を特定するニックネームがコメント文書中に記述されるであろうという推定を採用している。比較例1、2の方法では、コメント文書49を正確に分類することはできなかったが、本実施形態の方法によれば、コメント文書49には「dちゃん」という記述が存在することから、これを正確に分類することができる。
(B) In the case where the writer of the classification target document is other than the member A who is the diary contributor and the nickname exists in the classification target document, the
(c)分類対象文書の記述者が日記投稿者である会員Aであり、前記分類対象文書中にニックネームが存在しない場合、並びに、存在する場合であってコメント群4B内に当該分類対象文書よりも時系列的に先に当該ニックネームに係る会員のコメント文書が存在する場合には、日記投稿者が投稿した、他の会員の投稿に係るコメント文書に対するコメント文書と扱う(上掲の[類型2])。なお、分類対象文書中にニックネームが存在しない場合には、当該分類対象文書が時系列的に直前のコメント文書に呼応して投稿されたコメント文書であると判定することで、ニックネームが含まれていないコメント文書が、どのコメント文書に呼応しているのかが確定できる。図4の例では、コメント文書43、46、47、48が相当する。
(C) When the writer of the classification target document is a member A who is a diary contributor and the nickname does not exist in the classification target document, and there is a nickname in the
ここでは、直前に投稿されたコメント文書に呼応したコメント文書では、相手方は明白であって通常は文中で相手方を特定する必要はないことから、コメント文書中にはニックネームが記述されないであろうという推定を採用している。また、直前ではないが先に投稿されているコメント文書に呼応してコメント文書を投稿する場合には、文中に相手方を特定するニックネームが記述されるであろうという推定を採用している。この方法によれば、コメント文書42に呼応するコメント文書43、及びコメント文書45に呼応するコメント文書46の関係を正確に抽出できる。また、コメント文書47内の「bさん」という記述、コメント文書48内の「cさま」という記述に基づいて、コメント文書42に呼応するコメント文書47、及びコメント文書44に呼応するコメント文書48の関係を正確に抽出できる。
Here, in the comment document that responds to the comment document posted immediately before, the other party is obvious and usually there is no need to specify the other party in the sentence, so the nickname will not be described in the comment document The estimation is adopted. In addition, when a comment document is posted in response to a comment document that has been posted before, but not immediately before, a presumption is made that a nickname that identifies the other party will be described in the sentence. According to this method, the relationship between the
解析処理部15は、ブログサイト21において文書交信の実績をもつ会員(例えば会員Aに対する会員B、C、D)の投稿文書(日記文書41、コメント文書42〜48)を文書解析し、つまり、既に共感している者同士の間で交わされた文書を文書解析し、これを多変量解析して共感度を評価するための判定式を導出する。多変量解析の手法としては、例えば重回帰分析、判別分析、数量化I類、数量化II類を採用することができる。この際、前記文書解析で得られたパラメータが、適宜「目的変数」、「説明変数」として設定される。
The
さらに、解析処理部15は、上記判定式を用いて、まだ交信実績のない会員同士の共感度を評価する処理を行う。この場合、共感度判定の対象とされる会員により作成された文書をブログサーバ22から抽出して文書解析を行い、上記「目的変数」、「説明変数」となるパラメータを導出し、これを前記判定式に適用して会員同士の共感度を数値で評価する。そして、共感度が所定の閾値を超える会員の組み合わせが判明した場合、図略の表示手段にその旨を表示させる。これにより、ブログサイト21において共感できる可能性のある会員同士を的確に抽出し、これら会員に情報を提供することで、ブログサイト21の活性化を図ることができる。
Furthermore, the
以上説明した処理装置10の文書分類処理の動作を、図8に示すフローチャートに基づいて説明する。先ず、文書群抽出部11により、ブログサーバ22に蓄積されている文書データの中から、日記文書と、この日記文書に関連するコメント文書C1〜Cnとが抽出される(ステップS1)。そして、抽出されたコメント文書のうち、1番目の文書C1=Cm、分類対象文書M=Cmと設定される(ステップS2)。
The operation of the document classification process of the
次に、記述者特定部12により、分類対象文書Mを投稿した会員が特定される(ステップS3)。これにより、1番目の文書C1の投稿者が、日記投稿者Xであるか、日記投稿者以外のコメント投稿者Yであるのかが判別される。 Next, the member who contributed the classification target document M is specified by the writer specifying unit 12 (step S3). Thereby, it is determined whether the contributor of the first document C1 is the diary contributor X or the comment contributor Y other than the diary contributor.
ステップS3で投稿者が日記投稿者Xである場合、文書解析部13により、分類対象文書Mが文書解析され、分類対象文書M中にニックネームが存在するか否かが特定される(ステップS4)。ニックネームが存在しない場合(ステップS4でNO)、判定部14は、その文書Mが、日記文書を投稿した会員(図4の例では会員A)が時系列的に直前のコメント文書に呼応して投稿したコメント文書であると判定する(ステップS5)。図4の例では、コメント文書43、46が相当する。
If the contributor is the diary contributor X in step S3, the
分類対象文書M中にニックネームが存在する場合(ステップS4でYES)、判定部14は、さらに、当該分類対象文書Mよりも時系列的に先に当該ニックネームに係る会員のコメント文書が存在するか否かを確認する(ステップS6)。かかる会員のコメント文書が存在する場合(ステップS6でYES)、そのニックネームを含むコメント文書に対して日記投稿者が投稿したコメント文書と判定する(ステップS7)。図4の例では、コメント文書47、48が相当する。
When the nickname exists in the classification target document M (YES in step S4), the
一方、時系列的に先に、そのニックネームに対応する会員が投稿したコメント文書が存在しない場合(ステップS6でNO)、すなわち、ニックネームデータベース24には登録されているがそのニックネームに対応する会員のコメント文書がコメント群4Bには含まれていない場合、かかる文書はどの文書に共感するのかが特定できないため、分類対象から除外される(ステップS12)。例えば、図4には登場しない、会員Fのニックネームが記述されているコメント文書が相当する。
On the other hand, if there is no comment document posted by the member corresponding to the nickname first (NO in step S6), that is, the member registered in the
これに対し、ステップS3で投稿者が日記投稿者以外のコメント投稿者Yである場合、同様に文書解析部13により分類対象文書Mが文書解析され、分類対象文書M中にニックネームが存在するか否かが特定される(ステップS8)。ニックネームが存在しない場合(ステップS8でNO)、判定部14は、その文書Mが、日記文書に呼応して投稿された他の会員のコメント文書であると判定する(ステップS9)。図4の例では、コメント文書42、44、45が相当する。
On the other hand, if the contributor is a comment contributor Y other than the diary contributor in step S3, the
分類対象文書M中にニックネームが存在する場合(ステップS8でYES)、判定部14は、さらに、当該分類対象文書Mよりも時系列的に先に当該ニックネームに係る会員のコメント文書が存在するか否かを確認する(ステップS10)。かかる会員のコメント文書が存在する場合(ステップS10でYES)、そのニックネームを含むコメント文書に対してコメント投稿者が投稿したコメント文書と判定する(ステップS11)。図4の例では、コメント文書49が相当する。
When the nickname exists in the classification target document M (YES in step S8), the
一方、時系列的に先に、そのニックネームに対応する会員が投稿したコメント文書が存在しない場合(ステップS10でNO)、すなわち、ニックネームデータベース24には登録されているがそのニックネームに対応する会員のコメント文書がコメント群4Bには含まれていない場合、かかる文書はどの文書に共感するのかが特定できないため、分類対象から除外される(ステップS12)。
On the other hand, when there is no comment document posted by the member corresponding to the nickname first in time series (NO in step S10), that is, the member registered in the
以上の判定処理を終えた後、分類対象文書Mがまだ残存しているか、つまりM=Cnであるか否かが確認される(ステップS13)。分類対象文書Mが残存している場合(ステップS13でNO)、Cmが1つインクリメントされ(ステップS14)、分類対象文書M=Cmと設定される(ステップS15)。その後、ステップS3に戻って、次の分類対象文書についての判定処理が行われる。分類対象文書Mが残存していない場合(ステップS13でYES)、処理を終える。 After completion of the above determination process, whether classifying target document M is still remaining, whether that is M = C n is checked (step S13). If the classification target document M remains (NO in step S13), Cm is incremented by 1 (step S14), and the classification target document M = Cm is set (step S15). Thereafter, the process returns to step S3, and the determination process for the next classification target document is performed. If the classification target document M does not remain (YES in step S13), the process ends.
以上説明したネットワークシステムSによれば、日記文書に関連して作成され時系列的にサイトへ順次投稿されたコメント文書を、当該文書にニックネームが含まれているか否か、並びに、文書同士の時系列的な位置関係に基づいて、日記−コメント関係、コメント−コメント関係を正確に分類することができる。すなわち、どの記述者が、前記サイトのどの文書に呼応して投稿した文書であるかを、的確に把握することができる。従って、例えばサイト上で共感している者同士の文書を抽出する場合に、その抽出を正確に行うことができる。ひいては、その抽出文書を文書解析して共感度を数値判定する判定式を導出する場合に、その判定式の精度を向上させることができる。 According to the network system S described above, a comment document created in relation to a diary document and sequentially posted to the site in time series, whether or not the nickname is included in the document, and the time between documents Based on the sequential positional relationship, the diary-comment relationship and the comment-comment relationship can be accurately classified. That is, it is possible to accurately grasp which writer is a document posted in response to which document on the site. Therefore, for example, when extracting documents of those who sympathize on the site, the extraction can be performed accurately. Eventually, when the extracted document is subjected to document analysis to derive a determination formula for determining the co-sensitivity numerically, the accuracy of the determination formula can be improved.
S ネットワークシステム(文書分類システム)
10 処理装置(分類処理手段)
11 文書群抽出部
12 記述者特定部
13 文書解析部
14 判定部
15 解析処理部
20 ブログシステム
21 ブログサイト(通信ネットワーク上のサイト)
22 ブログサーバ(文書データベース)
23 会員サーバ(記述者データベース)
24 ニックネームデータベース(名称データベース)
30 端末装置
S network system (document classification system)
10. Processing device (classification processing means)
DESCRIPTION OF
22 Blog server (document database)
23 Member server (describer database)
24 Nickname database (name database)
30 Terminal device
Claims (7)
前記第1文書に呼応して作成された文書であって、前記第1記述者とは異なる第2記述者により作成され前記サイトに投稿された第2文書と、
前記第2文書に呼応して作成された文書であって、前記第1記述者により作成され前記サイトに投稿された第3文書と、
前記第2文書に呼応して作成された文書であって、前記第1記述者及び第2記述者とは異なる第3記述者により作成され前記サイトに投稿された第4文書と、
を少なくとも分類するために、前記文書群の各分類対象文書に対し、
前記分類対象文書を投稿した記述者の別を特定する第1ステップと、
前記記述者が前記第1記述者以外である場合に、前記分類対象文書中に、予め各記述者に関連付けて定められた個人特定名称が存在するか否かを判定し、存在しない場合には前記第2文書と判定し、存在する場合であって前記文書群内に当該分類対象文書よりも時系列的に先に前記個人特定名称に係る記述者の投稿文書が存在する場合には前記第4文書と判定する第2ステップと、
前記記述者が前記第1記述者である場合に、前記分類対象文書中に、予め各記述者に関連付けて定められた個人特定名称が存在するか否かを判定し、存在しない場合、並びに、存在する場合であって前記文書群内に当該分類対象文書よりも時系列的に先に前記個人特定名称に係る記述者の投稿文書が存在する場合には前記第3文書と判定する第3ステップと、
を含むことを特徴とする文書分類方法。 A method for classifying documents posted from a large number of writers on a site on a communication network, the first document created by a first writer and posted to the site, and created in relation to the first document When there is a document group including a plurality of documents posted to the site in time series,
A document created in response to the first document, created by a second writer different from the first writer, and posted to the site;
A document created in response to the second document, the third document created by the first writer and posted to the site;
A document created in response to the second document, the fourth document created by a third writer different from the first writer and the second writer, and posted to the site;
In order to classify at least the classification target documents of the document group,
A first step of identifying another description who posted the classification target document;
If the writer is other than the first writer, it is determined whether or not there is a personally specified name previously defined in association with each writer in the classification target document. In the case where it is determined that the document is the second document, and there is a document posted by the descriptor associated with the personally specified name in time series before the classification target document in the document group, the second document A second step of determining four documents;
When the descriptive person is the first descriptive person, it is determined whether or not an individual specific name defined in advance in association with each descriptive person exists in the classification target document. A third step of determining that the document is a third document if there is a document posted by the writer who relates to the personal identification name in time series before the document to be classified in the document group. When,
A document classification method characterized by comprising:
前記個人特定名称が存在しない場合には、当該分類対象文書が時系列的に直前の前記第2文書に呼応した前記第3文書であると判定することを特徴とする請求項1に記載の文書分類方法。 In the third step,
2. The document according to claim 1, wherein if the personal identification name does not exist, it is determined that the classification target document is the third document corresponding to the immediately preceding second document in time series. Classification method.
前記第1文書が、前記第1記述者により作成された日記文書であり、
前記第2文書が、前記第1記述者以外の記述者により作成された、日記文書に対する第1コメント文書であり、
前記第3文書が、前記第1記述者により作成された、前記第1コメント文書に対する第2コメント文書であり、
前記第4文書が、前記第1記述者以外の記述者により作成された、前記第1コメント文書に対する第3コメント文書である、
ことを特徴とする請求項4に記載の文書分類方法。 The website is a blog site,
The first document is a diary document created by the first writer;
The second document is a first comment document for a diary document created by a writer other than the first writer;
The third document is a second comment document for the first comment document created by the first writer;
The fourth document is a third comment document for the first comment document created by a descriptor other than the first descriptor.
The document classification method according to claim 4, wherein:
前記サイトに投稿された文書を記憶する文書データベースと、前記サイトへの投稿が予定されている記述者名を記憶する記述者データベースと、予め前記記述者の各々に関連付けて定められた個人特定名称を記憶する名称データベースと、前記サイトに投稿された文書の分類処理を行う分類処理手段とを備え、
前記分類処理手段は、
前記文書データベース中から、第1記述者により作成され前記サイトへ投稿された第1文書と、該第1文書に関連して作成され時系列的に前記サイトへ投稿された複数の文書とを含む文書群を抽出する文書群抽出部と、
前記文書群の各分類対象文書について、前記記述者データベースを参照して、前記分類対象文書を投稿した記述者を特定する記述者特定部と、
前記分類対象文書を文書解析すると共に前記名称データベースを参照して、前記分類対象文書に個人特定名称が存在するか否かを特定する文書解析部と、
前記記述者が前記第1記述者又は第1記述者以外であるかの別、及び、前記分類対象文書に個人特定名称が存在するか否かに基づいて、予め定められた類型に応じて、前記分類対象文書に分類判定処理を行う判定部と、
を含むことを特徴とする文書分類システム。 A system for classifying documents posted by a large number of writers on a site on a communication network,
A document database for storing documents posted on the site; a descriptor database for storing descriptor names scheduled to be posted to the site; and a personally specified name previously determined in association with each of the writers A name database for storing the information, and a classification processing means for performing classification processing of documents posted on the site,
The classification processing means includes
A first document created by a first writer and posted to the site from the document database, and a plurality of documents created in relation to the first document and posted to the site in time series A document group extraction unit for extracting a document group;
For each classification target document of the document group, referring to the description database, a descriptor specifying unit for specifying a descriptor who posted the classification target document;
A document analysis unit that analyzes the document to be classified and refers to the name database to identify whether or not a personal identification name exists in the document to be classified;
Based on whether the descriptive person is the first descriptive person or other than the first descriptive person, and whether or not a personal identification name exists in the classification target document, according to a predetermined type, A determination unit that performs a classification determination process on the classification target document;
A document classification system characterized by including:
前記第1文書に呼応して作成された文書であって、前記第1記述者とは異なる第2記述者により作成され前記サイトに投稿された第2文書と、
前記第2文書に呼応して作成された文書であって、前記第1記述者により作成され前記サイトに投稿された第3文書と、
前記第2文書に呼応して作成された文書であって、前記第1記述者及び第2記述者とは異なる第3記述者により作成され前記サイトに投稿された第4文書と、
を少なくとも分類するものであり、
前記分類対象文書の記述者が前記第1記述者以外であって、該分類対象文書中に前記個人特定名称が存在しない場合には前記第2文書と判定し、前記個人特定名称が存在する場合であって前記文書群内に当該分類対象文書よりも時系列的に先に前記個人特定名称に係る記述者の投稿文書が存在する場合には前記第4文書と判定し、
前記分類対象文書の記述者が前記第1記述者であって、該分類対象文書中に前記個人特定名称が存在しない場合、並びに、存在する場合であって前記文書群内に当該分類対象文書よりも時系列的に先に前記個人特定名称に係る記述者の投稿文書が存在する場合には前記第3文書と判定する、
ことを特徴とする請求項6に記載の文書分類システム。
The determination unit
A document created in response to the first document, created by a second writer different from the first writer, and posted to the site;
A document created in response to the second document, the third document created by the first writer and posted to the site;
A fourth document created in response to the second document, created by a third writer different from the first writer and the second writer, and posted to the site;
Are classified at least,
When the writer of the classification target document is other than the first writer and the personal identification name does not exist in the classification target document, it is determined as the second document, and the personal identification name exists In the case where there is a document posted by the writer who relates to the personal identification name in time series before the classification target document in the document group, it is determined as the fourth document,
The description target of the classification target document is the first description person, and the personal identification name does not exist in the classification target document. If there is a writer's post document related to the personal identification name in time series, the third document is determined.
The document classification system according to claim 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008231131A JP2010066891A (en) | 2008-09-09 | 2008-09-09 | Document classification method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008231131A JP2010066891A (en) | 2008-09-09 | 2008-09-09 | Document classification method and system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010066891A true JP2010066891A (en) | 2010-03-25 |
Family
ID=42192444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008231131A Pending JP2010066891A (en) | 2008-09-09 | 2008-09-09 | Document classification method and system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010066891A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722207A (en) * | 2022-06-07 | 2022-07-08 | 广东海洋大学 | Microblog-specific information classification method and system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003046764A1 (en) * | 2001-11-26 | 2003-06-05 | Fujitsu Limited | Information analysis method and apparatus |
JP2008084022A (en) * | 2006-09-27 | 2008-04-10 | Fujifilm Corp | Content transmission device and content transmission method |
-
2008
- 2008-09-09 JP JP2008231131A patent/JP2010066891A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003046764A1 (en) * | 2001-11-26 | 2003-06-05 | Fujitsu Limited | Information analysis method and apparatus |
JP2008084022A (en) * | 2006-09-27 | 2008-04-10 | Fujifilm Corp | Content transmission device and content transmission method |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722207A (en) * | 2022-06-07 | 2022-07-08 | 广东海洋大学 | Microblog-specific information classification method and system |
CN114722207B (en) * | 2022-06-07 | 2022-08-12 | 广东海洋大学 | Information classification method and system for microblogs |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
US9348900B2 (en) | Generating an answer from multiple pipelines using clustering | |
Alzahrani et al. | Understanding plagiarism linguistic patterns, textual features, and detection methods | |
US9230009B2 (en) | Routing of questions to appropriately trained question and answer system pipelines using clustering | |
US10642928B2 (en) | Annotation collision detection in a question and answer system | |
US8370278B2 (en) | Ontological categorization of question concepts from document summaries | |
US20150026163A1 (en) | Correlating Corpus/Corpora Value from Answered Questions | |
US20090265304A1 (en) | Method and system for retrieving statements of information sources and associating a factuality assessment to the statements | |
CN107688616B (en) | Make the unique facts of the entity appear | |
US20110112824A1 (en) | Determining at least one category path for identifying input text | |
US8793120B1 (en) | Behavior-driven multilingual stemming | |
US20120143895A1 (en) | Query pattern generation for answers coverage expansion | |
US10628749B2 (en) | Automatically assessing question answering system performance across possible confidence values | |
CN107679075B (en) | Network monitoring method and equipment | |
Lu et al. | A dataset search engine for the research document corpus | |
Karkali et al. | Using temporal IDF for efficient novelty detection in text streams | |
CN110569419A (en) | question-answering system optimization method and device, computer equipment and storage medium | |
Portugal et al. | Nfrfinder: a knowledge based strategy for mining non-functional requirements | |
Adams et al. | Choosing your platform for social media drug research and improving your keyword filter list | |
Himmelmann | Against trivializing language description (and comparison) | |
US11409814B2 (en) | Systems and methods for crawling web pages and parsing relevant information stored in web pages | |
KR102126911B1 (en) | Key player detection method in social media using KeyplayerRank | |
Parfenenko et al. | Application for medical misinformation detection in online forums | |
US11507593B2 (en) | System and method for generating queryeable structured document from an unstructured document using machine learning | |
JP2010066891A (en) | Document classification method and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130409 |