JP2010224623A - Method and program for recommending related article - Google Patents
Method and program for recommending related article Download PDFInfo
- Publication number
- JP2010224623A JP2010224623A JP2009068146A JP2009068146A JP2010224623A JP 2010224623 A JP2010224623 A JP 2010224623A JP 2009068146 A JP2009068146 A JP 2009068146A JP 2009068146 A JP2009068146 A JP 2009068146A JP 2010224623 A JP2010224623 A JP 2010224623A
- Authority
- JP
- Japan
- Prior art keywords
- article
- feature word
- user
- calculated
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、テキスト情報のフィルタリング技術に関し、特に、特定の記事の内容に関連する内容を有する他の記事を自動で推奨する関連記事推奨方法および関連記事推奨プログラムに適用して有効な技術に関するものである。 The present invention relates to a text information filtering technique, and more particularly to a technique effectively applied to a related article recommendation method and a related article recommendation program that automatically recommends other articles having contents related to the contents of a specific article. It is.
近年、インターネット等の普及により、コンピュータを利用して非常に多くの種類の情報を入手することが可能である。例えば、各種ニュースサイトや検索エンジンを用いて多くの情報を収集することができる。また、電子メール等によっても多くの情報を得ることができる。また、インターネット上に限らず、例えば、社内のサーバに電子化されて保管されている各種の社内資料などからも多くの情報を入手することができる。これらの多くの電子情報を有効に利用するためには、ユーザが自分の関心と合致する内容の情報を精度良く見つけられるだけでなく、参照している情報に対して自分では気づかない関連する他の情報を発見できるようにしてユーザの関心の広がりをサポートするような情報のフィルタリングの仕組みが必要である。 In recent years, with the spread of the Internet and the like, it is possible to obtain a great variety of information using a computer. For example, a lot of information can be collected using various news sites and search engines. Also, a lot of information can be obtained by e-mail or the like. Further, not only on the Internet, for example, a large amount of information can be obtained from various in-house materials that are stored electronically on an in-house server. In order to make effective use of this large amount of electronic information, users can not only find information that matches their interests with high accuracy, but also other related information that they are not aware of by themselves. It is necessary to have an information filtering mechanism that can discover the information of the user and support the spread of the user's interest.
このような要望に対して、例えば、ユーザが関心のあるニュース記事等の情報に対して、自然言語処理などを利用した記事内容の類似度の判定により、類似する記事を関連記事として提示する技術がいくつか提案されている。このような技術では、ユーザが関連記事を参照する際の効率を維持するため、ユーザが参照している元の記事の内容と実質的に内容が同一で重複する記事については関連記事から除外して提示しないようにする必要がある。このため、実質的に内容が重複する記事を特定し、これを除外したり一まとめにしてタイトルのみ一覧表示したりするなどしてユーザが認識できるようにしている。 In response to such a request, for example, a technology for presenting similar articles as related articles by determining similarity of article contents using natural language processing or the like for information such as news articles that the user is interested in Several have been proposed. In such a technology, in order to maintain the efficiency when the user refers to related articles, articles that are substantially the same as the contents of the original article referenced by the user and that overlap are excluded from the related articles. It is necessary not to present it. For this reason, articles with substantially overlapping contents are specified, so that the user can recognize them by excluding them or listing them together in a list.
このような関連記事を提示する技術として、例えば、特開平9−101990号公報(特許文献1)には、記事表現を自然言語処理により記事間で比較することによって記事同士の類似度を算出し、その類似度に従ってユーザに提示される記事とそれに関連する関連記事を決定し、その際、互いに類似度が高く、かつ情報源が異なる記事の集合を、重複記事の集合として分類する技術が開示されている。 As a technique for presenting such a related article, for example, in Japanese Patent Laid-Open No. 9-101990 (Patent Document 1), the similarity between articles is calculated by comparing article expressions between articles by natural language processing. Discloses a technology that determines articles presented to the user according to their similarity and related articles related to the article, and classifies a set of articles with high similarity and different information sources as a set of duplicate articles. Has been.
また、例えば、特開2005−352857号公報(特許文献2)には、特許文献1などの分類手法では出現する単語の分布などが似ていなくても実質的な内容が同一であるような記事の集合を特定できない場合もあることを考慮し、ユーザが動向を把握したいトピック等を表すキーワードを含む複数の記事について、発信日時の差があらかじめ登録された閾値より小さく、かつ発信者が互いに異なるものを実質的に同じ内容の記事として特定する技術が開示されている。
Further, for example, in Japanese Patent Laid-Open No. 2005-352857 (Patent Document 2), articles that have substantially the same content even though the distribution of words that appear in the classification method such as
ユーザが関心のあるニュース記事等の情報を参照して利用する場合、上述のように、ユーザはそれぞれ自分の関心、興味や嗜好に合った意外な関連記事を発見したいと要望する。しかし、特許文献1、2に記載されている技術では、関連記事を提示する際に重複記事を特定することは可能であるが、任意の記事に対して提示される関連記事はどのユーザの場合でも同じものとなり、ユーザ毎の嗜好・関心に合った関連記事を推奨するということはできない。
When the user refers to and uses information such as news articles of interest, as described above, the user desires to discover unexpected related articles that match his interests, interests, and preferences. However, with the techniques described in
そこで本発明の目的は、ユーザが関心のある記事に関連する記事として、内容が実質的に重複せず、かつユーザ毎の嗜好・関心に合った関連記事を精度良く推奨する関連記事推奨方法および関連記事推奨プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。 Accordingly, an object of the present invention is to provide a related article recommendation method that accurately recommends related articles that do not substantially overlap as articles related to articles that the user is interested in, and that match the preferences and interests of each user, and The related article is to provide a recommended program. The above and other objects and novel features of the present invention will be apparent from the description of this specification and the accompanying drawings.
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。 Of the inventions disclosed in this application, the outline of typical ones will be briefly described as follows.
本発明の代表的な実施の形態による関連記事推奨方法は、コンピュータシステムによって、ユーザが参照しているテキストデータからなる元記事に対して、内容が関連する関連記事を提示して前記ユーザに推奨するものであって、前記コンピュータシステムは、前記ユーザ毎に、前記ユーザの参照対象である複数の購読記事と、前記各購読記事についての参照履歴とを保持し、前記元記事から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記元記事における前記特徴語の重要度を示す重み付け値を算出して前記元記事の特徴語データとする第1ステップと、前記各購読記事から前記所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各購読記事における前記特徴語の前記重み付け値を算出して前記各購読記事の特徴語データとする第2ステップと、所定の比較条件に基づいて、前記第1ステップで算出した前記元記事の特徴語データと、前記第2ステップで算出した前記各購読記事の特徴語データとの類似度を算出する第3ステップと、前記第3ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔以上である前記購読記事を前記関連記事として分類し、前記第2ステップで算出した対象の前記各購読記事の特徴語データを、前記各関連記事の特徴語データとする第4ステップと、前記各購読記事と前記参照履歴とに基づいて前記ユーザの既読記事を取得し、全ての前記既読記事から前記所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各既読記事における前記特徴語の前記重み付け値を算出し、前記既読記事全てにおけるその平均値を算出して前記ユーザの嗜好を表す特徴語データとする第5ステップと、前記所定の比較条件に基づいて、前記第5ステップで算出した前記ユーザの嗜好を表す特徴語データと、前記第4ステップで分類した前記各関連記事の特徴語データとの類似度を算出する第6ステップと、前記第6ステップで算出した前記類似度が上位の前記関連記事を優先的に前記ユーザに提示する第7ステップとを実行することを特徴とするものである。 According to a related article recommendation method according to a typical embodiment of the present invention, a related article whose contents are related to an original article composed of text data referred to by a user is recommended by the computer system. The computer system holds, for each user, a plurality of subscribed articles that are a reference target of the user and a reference history for each subscribed article, and a predetermined extraction condition from the original article One or more words are extracted as feature words based on the feature word, and for each of the extracted feature words, a weight value indicating the importance of the feature word in the original article is calculated based on a predetermined calculation condition, and the original word is calculated. A first step of using as feature word data of an article, and extracting one or more words as feature words from each of the subscribed articles based on the predetermined extraction condition; For each feature word, based on the predetermined comparison condition, a second step of calculating the weight value of the feature word in each subscribed article based on the predetermined calculation condition and making it the feature word data of each subscribed article The third step of calculating the similarity between the feature word data of the original article calculated in the first step and the feature word data of each subscribed article calculated in the second step, and the third step The subscribed articles in which the calculated similarity is higher than a predetermined threshold and the difference in issue date and time from the original article is equal to or greater than a predetermined time interval are classified as the related articles, and the target articles calculated in the second step The fourth step of using the feature word data of each subscribed article as the feature word data of each related article, and acquiring the user's read articles based on each subscribed article and the reference history, One or more words are extracted as feature words from the read article based on the predetermined extraction condition, and the feature words in the read articles are extracted based on the predetermined calculation condition for each extracted feature word. The weight value is calculated, the average value of all the read articles is calculated and used as feature word data representing the user's preference, and the fifth step based on the predetermined comparison condition A sixth step of calculating the similarity between the feature word data representing the user's preference calculated in step 4 and the feature word data of each related article classified in the fourth step, and the similarity calculated in the sixth step. And a seventh step of preferentially presenting the related article with a higher degree to the user.
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。 Among the inventions disclosed in the present application, effects obtained by typical ones will be briefly described as follows.
本発明の代表的な実施の形態によれば、ユーザ毎に過去に参照した記事の履歴を利用することにより、ユーザが関心のある記事に関連する記事として、内容が実質的に重複せず、かつユーザ毎の嗜好・関心に合った関連記事を精度良く推奨することが可能となる。 According to the exemplary embodiment of the present invention, by using the history of articles that have been referred to in the past for each user, as the article related to the article that the user is interested in, the content does not substantially overlap, In addition, it is possible to accurately recommend related articles that match the preferences and interests of each user.
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.
本発明の一実施の形態である関連記事推奨方法を適用した情報収集管理システムは、各種Webサイトや電子メール、電子文書などのテキスト情報(以下ではこれらを総称して「記事」という場合がある)を一ヶ所に収集して各ユーザから参照可能とし、各ユーザが情報を利用・参照した行動履歴を蓄積して、蓄積された行動履歴を再利用することによって各ユーザにとって価値ある情報を推奨することを可能とし、蓄積した情報を生産的に活用することができる仕組みを提供するシステムである。 An information collection management system to which a related article recommendation method according to an embodiment of the present invention is applied, may include text information such as various websites, e-mails, and electronic documents (hereinafter collectively referred to as “articles”). ) Is collected in one place and can be referred to by each user, the action history of each user using and referring to the information is accumulated, and the accumulated action history is reused to recommend valuable information for each user. It is a system that provides a mechanism that allows the accumulated information to be used productively.
本実施の形態では、各ユーザの購読の指定に基づいて収集した購読記事から、ユーザが関心のあるニュース等の記事を参照する際に、ユーザの関心・嗜好に合った関連記事を抽出して提示・推奨することにより、ユーザの嗜好に合った意外な関連記事を発見する可能性を向上させ、ユーザの関心・興味の広がりを支援することを可能としている。また、関連記事を提示する際に、実質的に内容が重複する重複記事を関連記事から除外することにより、ユーザが情報利用の活動を効率的に行うことを可能としている。 In this embodiment, when referring to articles such as news that the user is interested in from the subscribed articles collected based on the designation of each user's subscription, the related articles that match the user's interests and preferences are extracted. By presenting and recommending, it is possible to improve the possibility of finding an unexpected related article that matches the user's preference, and to support the spread of the user's interest and interest. Moreover, when presenting a related article, by excluding duplicate articles whose contents substantially overlap from the related articles, it is possible for the user to efficiently perform information utilization activities.
[システム構成]
図2は、本発明の一実施の形態である関連記事推奨方法を適用した情報収集管理システムの構成例の概要を示した図である。情報収集管理システムは、情報収集管理サーバ100およびデータベース200から構成される。データベース200は、情報収集管理サーバ100上に実装されてもよいし、別のデータベースサーバ等の機器上に実装されてもよい。
[System configuration]
FIG. 2 is a diagram showing an outline of a configuration example of an information collection management system to which a related article recommendation method according to an embodiment of the present invention is applied. The information collection management system includes an information collection management server 100 and a database 200. The database 200 may be mounted on the information collection management server 100 or may be mounted on a device such as another database server.
情報収集管理サーバ100は、新着記事収集部110により、例えば、Webサーバ310上のWebサイトや、社内の文書サーバ320などから新着記事としてテキストデータを収集する。新着記事の収集方法としては、例えば、RSS(RDF Site Summary)のフィードを利用することができる。新着記事収集部110がRSSリーダーとして動作することにより、Webサイト上のニュース等の記事に限らず、文書サーバ320上に格納される社内資料等の電子データや電子メール等もRSS化することで収集対象とすることができる。
The information collection management server 100 collects text data as new articles from, for example, a web site on the web server 310 or an in-house document server 320 by the new
上記のRSSフィードの情報は、本実施の形態の情報収集管理システムを利用する各ユーザ毎に、各ユーザが購読したいWebサイト等についての情報である購読指定206としてデータベース200のユーザ購読情報203の一部として保持される。購読指定206の内容に基づいて新着記事収集部110により収集された新着記事は、データベース200の記事群201に記事202として格納される。
The RSS feed information is stored in the
ユーザ購読情報203には、記事202のうち、対象のユーザの購読指定206に基づいて収集された記事202を特定する情報が購読記事204として保持される。すなわち、記事群201には全てのユーザの購読指定206に基づいて収集された全ての記事202が格納されており、ユーザ購読情報203には各ユーザの参照対象である購読記事204がそれぞれ格納されているということと等価である。なお、記事202および購読記事204には、RSSフィード等の購読指定206によって収集されたものだけではなく、ユーザがテキストデータを直接クリップするなどして後の参照用に登録したものなども含まれる。
In the
データベース200のユーザ購読情報203には、さらに、対象のユーザが購読記事204を実際に参照した履歴が参照履歴205として保持される。購読記事204と参照履歴205とに基づいて、対象のユーザが過去に参照した既読記事を特定することができる。
In the
クライアント端末400を介してユーザから自らの関心のある記事(元記事401)を参照したい旨の要求を受けた情報収集管理サーバ100は、購読記事204の中から元記事401を取得して図示しないWebサーバプログラム等を介してクライアント端末400に提示する。さらに情報収集管理サーバ100は、関連記事抽出部120によって、各購読記事204の内容(特徴語)と元記事401の内容(特徴語)との類似度を判断することにより、元記事401と関連する内容を有する関連記事402を抽出し、同様にクライアント端末400に提示する。
The information collection management server 100 that has received a request to refer to an article of interest (original article 401) from the user via the client terminal 400 acquires the
このとき、対象のユーザの既読記事全体の内容(特徴語)と各関連記事402の内容(特徴語)との類似度を判断することにより、関連記事402の中でもよりユーザの関心・嗜好に合った関連記事402を推奨するように提示する。また、実質的に内容が重複する重複記事は除外し、関連記事402として提示されないようにする。
At this time, by determining the degree of similarity between the content (feature word) of the entire read article of the target user and the content (feature word) of each
なお、新着記事収集部110および関連記事抽出部120は、情報収集管理サーバ100上で稼働するソフトウェアプログラムとして実装され、例えば、図示しないWebサーバ上で稼働するアプリケーションとして実装することができる。また、関連記事抽出部120は、詳細は後述するが、例えば、特徴語データ算出部121、関連記事分類部122、類似度算出部123からなり、関連記事抽出部120における上述したような機能を実現する。
The new
[テーブル構成]
図3は、データベース200のテーブル構成例の概要を示した図である。データベース200に格納されるテーブルは、例えば、ユーザ情報210、購読情報220、フィード一覧230、リアクション情報240、記事データ250からなる。図中のテーブル間の矢印は、例えば、A→Bである場合に、A:B=1:nの関係(A has many Bs)にあることを示している。
[Table structure]
FIG. 3 is a diagram showing an outline of a table configuration example of the database 200. The table stored in the database 200 includes, for example,
ユーザ情報210は、各ユーザに関する情報を保持するテーブルであり、例えば、ユーザID、パスワード、ユーザ名などの項目を有する。ユーザ情報210は、ユーザが情報収集管理システムへログインする際の認証時などに利用される。フィード一覧230は、各種情報(記事)を自動収集するためのRSSフィードの基本的な情報を保持するテーブルであり、例えば、フィードID、サイト名、URL(Uniform Resource Locator)などの項目を有する。上述したように、Webサーバ310上のニュースサイト等から提供されるRSSフィードだけでなく、文書サーバ320等に格納されている各種電子文書や電子メールなどもRSS化することで、これらの情報を新着記事収集部110により自動的に巡回して収集することができる。
The
購読情報220は、各ユーザがどのRSSフィードを購読しているかの情報を保持するテーブルであり、例えば、ユーザID、フィードID、購読開始日時、未読数などの項目を有する。購読情報220は、図2における購読指定206に相当する。各ユーザは複数のRSSフィードを購読することができ、また、各RSSフィードは、複数のユーザから購読されることができる。
The
記事データ250は、各RSSフィードに含まれる記事やユーザがWebサイトからクリップした記事、電子文書など、収集した記事の内容を保持するテーブルであり、例えば、記事ID、フィードID、発行日時、記事内容などの項目を有する。記事データ250は図2における記事202に相当し、購読情報220のフィードIDの値で特定される記事データ250のエントリは図2における購読記事204に相当する。なお、発行日時の項目は、記事IDの項目で特定される記事202が発行もしくは発信された日時を表し、記事内容の項目は、記事IDの項目で特定される記事202の具体的なテキストデータである。
The
リアクション情報240は、各ユーザが各購読記事204に対してどのようなリアクションを行ったかの情報(行動履歴)を保持するテーブルであり、例えば、ユーザID、記事ID、参照日時、タグ、メモ、ハイライト範囲などの項目を有する。記事IDおよび参照日時の項目は、図2における参照履歴205に相当する。なお、購読記事204に対するリアクションとしては、購読記事204の参照の他に、例えば、購読記事204に、その内容を表す分類用のタグを付与したり、テキストのメモを付加したり、任意の範囲をハイライトしたりすることなどが可能であり、これらの内容をそれぞれタグやメモ、ハイライト範囲の項目に保持することができる。なお、上述した各テーブルの項目は一例であり、これら以外の項目を有していてもよい。
The
[処理フロー]
図1は、ユーザが元記事401を参照する際の関連記事抽出部120の処理フロー例の概要を説明する図である。情報収集管理サーバ100が、図示しないWebサーバプログラム等を介して、クライアント端末400からユーザによる元記事401の参照要求を受け取ると、関連記事抽出部120は関連記事402を抽出する処理を開始する。
[Processing flow]
FIG. 1 is a diagram illustrating an outline of a processing flow example of the related
まず、特徴語データ算出部121により、元記事401のテキストデータから自然言語処理により1つ以上の単語を特徴語として抽出する。さらに抽出した各特徴語について後述するTF−IDF値(Term Frequency-Inverse Document Frequency)を算出して、元記事401の特徴語データとする(ステップS101)。同様に、特徴語データ算出部121により、全ての購読記事204のテキストデータから自然言語処理により1つ以上の単語を特徴語として抽出する。さらに抽出した各特徴語についてTF−IDF値を算出して、各購読記事204の特徴語データとする(ステップS102)。
First, the feature word
次に、類似度算出部123により、ステップS101で算出した元記事401の特徴語データと、ステップS102で算出した各購読記事204の特徴語データとをそれぞれ後述するようにベクトル空間化する。さらに、元記事401の特徴語データについてのベクトルと、各購読記事204の特徴語データについてのベクトルとの内積を求め、内積の値に基づいて元記事401の特徴語データと各購読記事204の特徴語データとの類似度を算出する(ステップS103)。
Next, the
次に、関連記事分類部122により、ステップS103で算出した類似度が所定の閾値より高く、かつ元記事401との発行日時の差が所定の時間間隔以上である購読記事204を、関連記事402として分類し、ステップS102で算出した対象の各購読記事204の特徴語データを、各関連記事402の特徴語データとする(ステップS104)。このとき、ステップS103で算出した類似度が所定の閾値より高く、かつ元記事401との発行日時の差が所定の時間間隔よりも小さい購読記事204は、実質的に内容が同じである重複記事403として分類する(ステップS104)。
Next, the related article classifying unit 122 converts the subscribed
次に、関連記事抽出部120により、ユーザの購読記事204と参照履歴205とに基づいてユーザの既読記事207を取得する。さらに、特徴語データ算出部121により、全ての既読記事207のテキストデータから自然言語処理により1つ以上の単語を特徴語として抽出する。さらに抽出した各特徴語についてTF−IDF値を算出し、各特徴語毎に既読記事207全てにおけるTF−IDF値の平均値を算出して、ユーザの嗜好を表す特徴語データとする(ステップS105)。
Next, the related
次に、類似度算出部123により、ステップS103と同様に、ステップS105で算出したユーザの嗜好を表す特徴語データと、ステップS104で分類した各関連記事402の特徴語データとをそれぞれベクトル空間化する。さらに、ユーザの嗜好を表す特徴語データについてのベクトルと、各関連記事402の特徴語データについてのベクトルとの内積を求め、内積の値に基づいてユーザの嗜好を表す特徴語データと各関連記事402の特徴語データとの類似度を算出する(ステップS106)。最後に、ステップS106で算出した類似度が上位の順に関連記事402を並び替えてユーザに提示して処理を終了する(ステップS107)。
Next, similarly to step S103, the feature word data representing the user's preference calculated in step S105 and the feature word data of each
[記事の特徴語データ算出]
図4は、特徴語データ算出部121における、記事のテキストデータから特徴語を抽出して特徴語データを算出する処理の例を説明する図である。ここでの処理は、上述した元記事401の特徴語データの算出処理(ステップS101)、各購読記事204の特徴語データの算出処理(ステップS102)、およびユーザ嗜好を表す特徴語データの算出処理(ステップS105)において行われる。
[Calculating article feature word data]
FIG. 4 is a diagram for explaining an example of processing in the feature word
まず、対象の記事のテキストデータから、形態素解析により複合名詞を抽出する。形態素解析は自然言語処理において一般的に行われており、また、形態素解析エンジンやソフトウェアも種々のものが提供されているため、これらを利用してもよい。なお、ユーザ嗜好を表す特徴語の算出処理(ステップS105)では、後述するように、全ての既読記事207から複合名詞を抽出し、これをマージして特徴語とする。
First, compound nouns are extracted from the text data of the target article by morphological analysis. Morphological analysis is generally performed in natural language processing, and various morphological analysis engines and software are provided, and these may be used. In the process of calculating feature words representing user preferences (step S105), as will be described later, compound nouns are extracted from all read
次に、抽出した各複合名詞について、記事における単語の重要度についての重み付け値であるTF−IDF値を算出する。TF−IDF値によって文章中の特徴的な単語(重要とみなされる単語)を抽出することは一般的に行われている。本実施の形態の関連記事推奨方法でもこの手法を用いて特徴語データを算出するが、特徴語データの算出手法はこれに限るものではなく、単語毎に数値(重み付け値)として評価が可能な手法であれば利用することができる。 Next, for each extracted compound noun, a TF-IDF value that is a weighting value for the importance of the word in the article is calculated. It is common practice to extract characteristic words (words regarded as important) in a sentence based on TF-IDF values. The feature word data is calculated using this method also in the related article recommendation method of the present embodiment. However, the feature word data calculation method is not limited to this, and can be evaluated as a numerical value (weighting value) for each word. Any technique can be used.
ここで、TF(Term Frequency)は、記事中の単語(複合名詞)の出現頻度であり、この値が大きいほどこの単語はこの記事の特徴をよく表しているものと考えられる。ある記事Dにおけるある単語tのTF値は、例えば、記事D中の単語tの出現頻度をfとすると、記事Dにおける単語の種類数mおよび対数で正規化して以下の式で表される。 Here, TF (Term Frequency) is the frequency of appearance of a word (compound noun) in an article, and it is considered that the larger this value, the better this word represents the feature of this article. The TF value of a certain word t in a certain article D is expressed by the following expression, normalized by the number of types m and logarithms of the word in the article D, for example, where the appearance frequency of the word t in the article D is f.
TFの値が大きい単語であっても、多くの記事に頻繁に出現する単語は、特定の記事の特徴を表す単語ではない一般的な単語である場合が多い。ここで、IDF(Inverse Document Frequency)は、対象の単語が出現する記事数の逆数であり、この値が大きいほどこの単語が出現する記事数が少なく、この単語は特定の記事の特徴をよく表しているものと考えられる。ある単語tのIDF値は、例えば、全記事の中で単語tが出現する文書数をDfとすると、全記事数Nで正規化して以下の式で表される。 Even if a word has a large TF value, a word that frequently appears in many articles is often a general word that is not a word representing the characteristics of a specific article. Here, IDF (Inverse Document Frequency) is the reciprocal of the number of articles in which the target word appears, and the larger this value, the smaller the number of articles in which this word appears. This word well represents the characteristics of a specific article. It is thought that. The IDF value of a certain word t is expressed by the following expression normalized by the number of all articles N, for example, where Df is the number of documents in which the word t appears in all articles.
上記のTFとIDFの両者の値が大きい単語tが、文書Dの特徴を真によく表していると考えられるため、単語tのTF−IDF値は、TFとIDFの積を整数化した以下の式で表される。 Since the word t having a large value of both TF and IDF is considered to represent the feature of the document D truly well, the TF-IDF value of the word t is obtained by converting the product of TF and IDF to an integer. It is expressed by the following formula.
このTF−IDF値を対象の記事について特徴語(複合名詞)毎に算出する。対象の記事が異なれば、記事に含まれる特徴語も異なり、また、同じ特徴語であってもその記事中での出現頻度が異なるため、TF−IDF値はそれぞれ異なる値となる。なお、数2式において、全記事数Nは、対象の記事が多くなるほど精度が高くなると考えられるため、他のユーザの購読分も含めた記事202全体の総数とする。また、単語tが出現する文書数Dfは、記事202全体を単語tをキーとして全文検索する等によって求めることができる。
This TF-IDF value is calculated for each feature word (compound noun) for the target article. If the target article is different, the feature words included in the article are different, and even if the same feature word is used, the appearance frequency in the article is different. Therefore, the TF-IDF values are different from each other. In
なお、本実施の形態では、短い文章の記事であっても特徴語データに内容が反映され、類似度を適切に比較することができるように、特徴語に漏れが出ないよう、記事から抽出された複合名詞全てを特徴語の対象としているが、所定の条件に基づいてTF−IDF値が小さいものを特徴語から除外するようにしてもよい。また、TF値、IDF値の算出式については種々のものが提案されており、上記の算出式に限らず精度や処理時間などに応じて適当なものを用いることができる。 In this embodiment, even if the article is a short sentence, the content is reflected in the feature word data, and the feature word is extracted from the article so that the similarity can be properly compared. Although all the combined nouns are targeted for feature words, those having a small TF-IDF value may be excluded from the feature words based on a predetermined condition. Various formulas for calculating the TF value and the IDF value have been proposed, and not only the above formula but also an appropriate formula can be used according to accuracy, processing time, and the like.
[元記事と購読記事の類似度算出]
図5は、ステップS101で算出した元記事401の特徴語データと、ステップS102で算出した各購読記事204の特徴語データとの類似度を算出する処理(ステップS103)の例を説明する図である。類似度の算出に際しては、類似度算出部123により、上述した特徴語データ算出部121での処理によってステップS101、S102にて算出された元記事401の特徴語データ(TF−IDF値)と各購読記事204の特徴語データ(TF−IDF値)とを、それぞれベクトル空間化する。さらに、元記事401の特徴語データのベクトルと、各購読記事204の特徴語データのベクトルとの内積を用いることによって類似度を算出するベクトル空間法を利用する。
[Calculation of similarity between original article and subscription article]
FIG. 5 is a diagram for explaining an example of processing (step S103) for calculating the similarity between the feature word data of the
元記事401の特徴語データおよび各購読記事204の特徴語データに含まれる特徴語を全てマージした数がn個であった場合、元記事401の特徴語データdoのベクトルV(do)および、各購読記事204の特徴語データd1、d2、…のベクトルV(d1)、V(d2)、…は、それぞれ、n個の特徴語のTF−IDF値を要素とするn次元のベクトルとして表される。このとき、対象の特徴語を含まない特徴語データについては、当該特徴語に対応するベクトルの要素の値は0である。
If the number of merging all feature words contained in the feature word data of the feature word data and the
ここで、ベクトルの方向は対象の記事の特徴を表していると考えられる。従って、元記事401の特徴語データと各購読記事204の特徴語データとの類似度は、ベクトルV(do)とベクトルV(d1)、V(d2)、…とのなす角の小ささで表すことができる。すなわち、二つのベクトルのなす角をθとした場合に、cosθが1に近いほど類似度が高いと言うことができる。cosθは二つのベクトルの内積を各ベクトルの絶対値で除算することにより求められる。従って、特徴語データda、dbの類似度sim(da,db)は、二つのベクトルV(da)、V(db)により以下の式で表される。
Here, the direction of the vector is considered to represent the feature of the target article. Therefore, the similarity between the feature word data of the
数4式を用いて、元記事401の特徴語データと各購読記事204の特徴語データとの類似度をそれぞれ算出する。すなわち、sim(do,d1)、sim(do,d2)、…をそれぞれ算出する。全ての購読記事204について元記事401の特徴語データとの類似度を算出すると、算出された類似度が上位の順に購読記事204を並び替える。図5の例では、類似度が上位の順に「購読記事3」、「購読記事1」、「購読記事2」の順に並び替えられたことを示している。なお、本実施の形態では、元記事401と各購読記事204との類似度をベクトル空間法を用いて算出しているが、これに限らず他の算出方法によって類似度を算出してもよい。
Using the formula 4, the similarity between the feature word data of the
[関連記事と重複記事の分類]
図6は、ステップS103で算出した元記事401の特徴語データと各購読記事204の特徴語データとの類似度に基づいて、購読記事204から関連記事402と重複記事403とを分類する処理(ステップS104)の例を説明する図である。
[Classification of related articles and duplicate articles]
FIG. 6 is a process for classifying the
まず、関連記事分類部122により、ステップS103で類似度が上位の順に並び替えられた購読記事204のうち、類似度が所定の閾値よりも高いもののみを抽出する。次に、抽出した各購読記事204について、元記事401との発行日時の差が所定の時間間隔以上であるか否かを判定し、所定の時間間隔以上である購読記事204を関連記事402として分類し、所定の時間間隔より小さい購読記事204を重複記事403として分類する。特許文献2などにも記載されているように、内容が類似しており、かつ発行日時が近い記事は、実質的に同じ内容である可能性が高い。従って、これらの記事については重複記事403として分類し、関連記事402からは除外する。
First, the related article classifying unit 122 extracts only those articles whose similarity is higher than a predetermined threshold among the subscribed
なお、上記の所定の閾値や時間間隔は情報収集管理サーバ100においてデータベース200や定義ファイルなどの適当な手段により保持し、状況に応じて適宜設定を変更できるようにするのが望ましい。本実施の形態では、図6に示すように所定の閾値を0.2としている。上述したステップS103でのベクトル空間法を用いた類似度の算出方法による場合、所定の閾値を0.2とすることで実用上支障のない精度で関連記事402が抽出できることを実験的に確認している。
The predetermined threshold and time interval are preferably held in the information collection management server 100 by an appropriate means such as the database 200 or a definition file so that the setting can be changed as appropriate according to the situation. In the present embodiment, the predetermined threshold is set to 0.2 as shown in FIG. In the case of the similarity calculation method using the vector space method in step S103 described above, it was experimentally confirmed that the
[ユーザ嗜好を表す特徴語データ算出]
図7は、既読記事207からユーザ嗜好を表す特徴語データを算出する処理(ステップS105)の例を説明する図である。まず、対象のユーザの購読記事204と参照履歴205とに基づいて対象のユーザの既読記事207を取得し、全ての既読記事204について、上述した特徴語データ算出部121での処理によって特徴語データをそれぞれ算出する。
[Calculation of feature word data representing user preferences]
FIG. 7 is a diagram illustrating an example of processing (step S105) for calculating feature word data representing user preferences from the read
次に、既読記事207全体における、各特徴語の特徴語データ(TF−IDF値)の平均値を算出する。ここで、各特徴語は、全ての既読記事207から抽出された特徴語をマージしたものとなる。このとき、ある特徴語についてそれが含まれていない既読記事207については、当該既読記事207における当該特徴語のTF−IDF値は0である。なお、本実施の形態では、単純に全ての既読記事207での各特徴語のTF−IDF値の合計値を、既読記事207の数で除算してTF−IDF値の平均値を求めているが、平均値の算出方法はこれに限らず、例えば所定の条件により加重平均を算出するようにしてもよい。
Next, the average value of the feature word data (TF-IDF value) of each feature word in the
ここで算出されたTF−IDF値の平均値は、既読記事207全体の内容の特徴を表すデータ、すなわち対象のユーザの嗜好を表すものであり、これをユーザ嗜好を表す特徴語データとする。このように、ユーザ毎の参照履歴205を保持し、これを利用することにより、ユーザの嗜好・関心を表す情報を取得することができる。
The average value of the TF-IDF values calculated here is data representing the characteristics of the content of the
[ユーザ嗜好と関連記事の類似度算出]
図8は、ステップS105で算出したユーザ嗜好を表す特徴語データと、ステップS104で分類した各関連記事402の特徴語データとの類似度を算出する処理(ステップS106)の例を説明する図である。類似度の算出方法は、図5に示したステップS103での類似度の算出処理での算出方法と同様である。
[Calculation of similarity between user preferences and related articles]
FIG. 8 is a diagram for explaining an example of processing (step S106) for calculating the similarity between the feature word data representing the user preference calculated in step S105 and the feature word data of each
すなわち、類似度算出部123により、ステップS105で算出したユーザ嗜好を表す特徴語データと、ステップS104で分類した各関連記事402の特徴語データ(ステップS102で算出した対象の各購読記事204の特徴語データ)とをそれぞれベクトル空間化する。さらに、ユーザ嗜好を表す特徴語データのベクトルと、各関連記事402の特徴語データのベクトルとの内積を用いることによって類似度を算出するベクトル空間法を利用する。
That is, the feature word data representing the user preference calculated in step S105 by the
全ての関連記事402についてステップS103での算出方法と同様の手順でユーザ嗜好を表す特徴語データと関連記事402の特徴語データとの類似度を算出すると、算出された類似度が上位の順に関連記事402を並び替える。図8の例では、類似度が上位の順に「関連記事3」、「関連記事1」、「関連記事2」の順に並び替えられたことを示している。このように並び替えられた関連記事402をユーザに提示することで、ユーザに対してユーザの関心・嗜好に合った関連記事402を推奨することができる。
When the similarity between the feature word data representing the user preference and the feature word data of the
なお、本実施の形態では、関連記事402を類似度が上位の順に並び替えて表示することで、ユーザの嗜好に合った関連記事402を優先的に提示して推奨しているが、優先的に提示する手段はこれに限らず、例えば文字色やフォントを変更したりして強調表示するなど、種々の方法をとることができる。また、本実施の形態では重複記事403を関連記事402から除外しているが、関連記事402をユーザに提示する際に、例えば、重複記事403を一まとめにしてタイトルのみ一覧表示したりするなどしてユーザが認識できるようにしてもよい。
In this embodiment, the
以上に説明したように、本実施の形態の関連記事推奨方法によれば、ユーザ毎に保持している過去に参照した購読記事204の参照履歴205を利用することにより、ユーザが関心があり参照している元記事に対してユーザ毎の嗜好・関心に合った関連記事402を推奨することが可能となる。これにより、ユーザの嗜好に合った意外な関連記事402を発見する可能性を向上させ、ユーザの関心・興味の広がりを支援することを可能としている。
As described above, according to the related article recommendation method of the present embodiment, the user is interested and referred to by using the
また、関連記事402を提示する際に、実質的に内容が重複する重複記事403を関連記事402から除外することにより、ユーザが情報利用の活動を効率的に行うことを可能としている。さらに、継続した使用によってユーザ毎の既読記事207(参照履歴205)が多く蓄積されるほど、ユーザの嗜好に合った関連記事402の推奨の精度が向上し、より効果的にユーザが情報利用の活動を行うことが可能となる。
In addition, when the
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。 As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.
本発明は、特定の記事の内容に関連する内容を有する他の記事を自動で推奨する関連記事推奨方法および関連記事推奨プログラムに利用可能である。 The present invention can be used for a related article recommendation method and a related article recommendation program that automatically recommend other articles having contents related to the contents of a specific article.
100…情報収集管理サーバ、110…新着記事収集部、120…関連記事抽出部、121…特徴語データ算出部、122…関連記事分類部、123…類似度算出部、
200…データベース、201…記事群、202…記事、203…ユーザ購読情報、204…購読記事、205…参照履歴、206…購読指定、207…既読記事、210…ユーザ情報、220…購読情報、230…フィード一覧、240…リアクション情報、250…記事データ、
310…Webサーバ、320…文書サーバ、
400…クライアント端末、401…元記事、402…関連記事、403…重複記事。
DESCRIPTION OF SYMBOLS 100 ... Information collection management server, 110 ... New article collection part, 120 ... Related article extraction part, 121 ... Feature word data calculation part, 122 ... Related article classification | category part, 123 ... Similarity degree calculation part,
200 ... Database, 201 ... Article group, 202 ... Article, 203 ... User subscription information, 204 ... Subscription article, 205 ... Reference history, 206 ... Subscription designation, 207 ... Read article, 210 ... User information, 220 ... Subscription information, 230 ... feed list, 240 ... reaction information, 250 ... article data,
310 ... Web server, 320 ... Document server,
400: Client terminal, 401: Original article, 402: Related article, 403: Duplicate article.
Claims (8)
前記コンピュータシステムは、前記ユーザ毎に、前記ユーザの参照対象である複数の購読記事と、前記各購読記事についての参照履歴とを保持し、
前記元記事から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記元記事における前記特徴語の重要度を示す重み付け値を算出して前記元記事の特徴語データとする第1ステップと、
前記各購読記事から前記所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各購読記事における前記特徴語の前記重み付け値を算出して前記各購読記事の特徴語データとする第2ステップと、
所定の比較条件に基づいて、前記第1ステップで算出した前記元記事の特徴語データと、前記第2ステップで算出した前記各購読記事の特徴語データとの類似度を算出する第3ステップと、
前記第3ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔以上である前記購読記事を前記関連記事として分類し、前記第2ステップで算出した対象の前記各購読記事の特徴語データを、前記各関連記事の特徴語データとする第4ステップと、
前記各購読記事と前記参照履歴とに基づいて前記ユーザの既読記事を取得し、全ての前記既読記事から前記所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各既読記事における前記特徴語の前記重み付け値を算出し、前記既読記事全てにおけるその平均値を算出して前記ユーザの嗜好を表す特徴語データとする第5ステップと、
前記所定の比較条件に基づいて、前記第5ステップで算出した前記ユーザの嗜好を表す特徴語データと、前記第4ステップで分類した前記各関連記事の特徴語データとの類似度を算出する第6ステップと、
前記第6ステップで算出した前記類似度が上位の前記関連記事を優先的に前記ユーザに提示する第7ステップとを実行することを特徴とする関連記事推奨方法。 A related article recommendation method for recommending to a user a related article whose contents are related to an original article consisting of text data that is referred to by a user by a computer system,
The computer system holds, for each user, a plurality of subscribed articles that are referred to by the user, and a reference history for each subscribed article,
One or more words are extracted as feature words from the original article based on a predetermined extraction condition, and the importance level of the feature word in the original article is indicated based on a predetermined calculation condition for each extracted feature word A first step of calculating a weight value to be feature word data of the original article;
One or more words are extracted as feature words from each subscribed article based on the predetermined extraction condition, and for each extracted feature word, the feature word in each subscribed article is extracted based on the predetermined calculation condition. A second step of calculating the weighting value to be feature word data of each subscribed article;
A third step of calculating a similarity between the feature word data of the original article calculated in the first step and the feature word data of each subscribed article calculated in the second step based on a predetermined comparison condition; ,
The subscribed articles in which the similarity calculated in the third step is higher than a predetermined threshold and the difference in issue date and time from the original article is equal to or greater than a predetermined time interval are classified as the related articles, and in the second step A fourth step in which the feature word data of each subscribed article to be calculated is the feature word data of each related article;
The user's read articles are acquired based on the respective subscribed articles and the reference history, and one or more words are extracted as feature words from all the read articles based on the predetermined extraction condition, and extracted. For each of the feature words, the weight value of the feature word in each read article is calculated based on the predetermined calculation condition, and the average value of all the read articles is calculated to obtain the user's preference. A fifth step for representing feature word data;
Based on the predetermined comparison condition, a similarity level between the feature word data representing the user's preference calculated in the fifth step and the feature word data of each related article classified in the fourth step is calculated. 6 steps,
And a seventh step of preferentially presenting the related article having a higher similarity calculated in the sixth step to the user.
前記第4ステップでは、前記第3ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔より小さい前記購読記事を、前記元記事に対して実質的に内容が重複する重複記事として分類し、
前記第7ステップでは、前記重複記事を前記ユーザが認識可能なように前記ユーザに提示することを特徴とする関連記事推奨方法。 In the related article recommendation method according to claim 1,
In the fourth step, the subscribed article, in which the similarity calculated in the third step is higher than a predetermined threshold and a difference in issue date and time from the original article is smaller than a predetermined time interval, is added to the original article. Categorized as a duplicate article with substantially overlapping content,
In the seventh step, the related article recommendation method, wherein the duplicate article is presented to the user so that the user can recognize the duplicate article.
前記重み付け値は、前記特徴語について前記特徴語が含まれる前記記事を対象として算出したTF値と、全ての前記ユーザの前記購読記事を対象として算出したIDF値とから算出したTF−IDF値であることを特徴とする関連記事推奨方法。 In the related article recommendation method according to claim 1 or 2,
The weighting value is a TF-IDF value calculated from the TF value calculated for the feature word for the article including the feature word and the IDF value calculated for the subscribed articles of all the users. Related article recommendation method characterized by being.
前記第3ステップおよび前記第6ステップにおける前記所定の比較条件は、前記類似度を算出する対象の前記特徴語データをそれぞれベクトル空間化し、両ベクトルのなす角に基づいて前記類似度を算出するものであることを特徴とする関連記事推奨方法。 In the related article recommendation method according to any one of claims 1 to 3,
The predetermined comparison condition in the third step and the sixth step is that the feature word data for which the similarity is to be calculated is converted into a vector space, and the similarity is calculated based on an angle formed by both vectors. Related article recommendation method characterized by being.
前記コンピュータシステムは、前記ユーザ毎に、前記ユーザの参照対象である複数の購読記事と、前記各購読記事についての参照履歴とを保持しており、
前記関連記事推奨プログラムは、前記元記事から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、所定の算出条件に基づいて前記元記事における前記特徴語の重要度を示す重み付け値を算出して前記元記事の特徴語データとする第8ステップと、
前記各購読記事から前記所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各購読記事における前記特徴語の前記重み付け値を算出して前記各購読記事の特徴語データとする第9ステップと、
所定の比較条件に基づいて、前記第8ステップで算出した前記元記事の特徴語データと、前記第9ステップで算出した前記各購読記事の特徴語データとの類似度を算出する第10ステップと、
前記第10ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔以上である前記購読記事を前記関連記事として分類し、前記第9ステップで算出した対象の前記各購読記事の特徴語データを、前記各関連記事の特徴語データとする第11ステップと、
前記各購読記事と前記参照履歴とに基づいて前記ユーザの既読記事を取得し、全ての前記既読記事から前記所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語について、前記所定の算出条件に基づいて前記各既読記事における前記特徴語の前記重み付け値を算出し、前記既読記事全てにおけるその平均値を算出して前記ユーザの嗜好を表す特徴語データとする第12ステップと、
前記所定の比較条件に基づいて、前記第12ステップで算出した前記ユーザの嗜好を表す特徴語データと、前記第11ステップで分類した前記各関連記事の特徴語データとの類似度を算出する第13ステップと、
前記第13ステップで算出した前記類似度が上位の前記関連記事を優先的に前記ユーザに提示する第14ステップとを実行することを特徴とする関連記事推奨プログラム。 A related article recommendation program for causing a computer system to function to present a related article whose contents are related to an original article consisting of text data referred to by a user and recommend the user,
The computer system holds, for each user, a plurality of subscribed articles that are referred to by the user, and a reference history for each subscribed article,
The related article recommendation program extracts one or more words as feature words from the original article based on a predetermined extraction condition, and for each extracted feature word, the original article in the original article based on a predetermined calculation condition An eighth step of calculating a weighting value indicating the importance of the feature word and using it as the feature word data of the original article;
One or more words are extracted as feature words from each subscribed article based on the predetermined extraction condition, and for each extracted feature word, the feature word in each subscribed article is extracted based on the predetermined calculation condition. A ninth step of calculating the weighting value to be feature word data of each subscribed article;
A tenth step of calculating a similarity between the feature word data of the original article calculated in the eighth step and the feature word data of each subscribed article calculated in the ninth step based on a predetermined comparison condition; ,
Classifying the subscribed articles in which the similarity calculated in the tenth step is higher than a predetermined threshold and the difference between the issue date and the original article is a predetermined time interval or more as the related articles, and in the ninth step An eleventh step in which the feature word data of each subscribed article to be calculated is set as the feature word data of each related article;
The user's read articles are acquired based on the respective subscribed articles and the reference history, and one or more words are extracted as feature words from all the read articles based on the predetermined extraction condition, and extracted. For each of the feature words, the weight value of the feature word in each read article is calculated based on the predetermined calculation condition, and the average value of all the read articles is calculated to obtain the user's preference. A twelfth step for representing feature word data;
Based on the predetermined comparison condition, a similarity level between the feature word data representing the user's preference calculated in the twelfth step and the feature word data of each related article classified in the eleventh step is calculated. 13 steps,
And a 14th step of preferentially presenting the related article having a higher similarity calculated in the 13th step to the user.
前記第11ステップでは、前記第10ステップで算出した前記類似度が所定の閾値より高くかつ前記元記事との発行日時の差が所定の時間間隔より小さい前記購読記事を、前記元記事に対して実質的に内容が重複する重複記事として分類し、
前記第14ステップでは、前記重複記事を前記ユーザが認識可能なように前記ユーザに提示することを特徴とする関連記事推奨プログラム。 In the related article recommendation program according to claim 5,
In the eleventh step, the subscribed article, in which the similarity calculated in the tenth step is higher than a predetermined threshold and a difference in issue date and time from the original article is smaller than a predetermined time interval, is added to the original article. Categorized as a duplicate article with substantially overlapping content,
In the fourteenth step, the related article recommendation program, wherein the duplicate article is presented to the user so that the user can recognize the duplicate article.
前記重み付け値は、前記特徴語について前記特徴語が含まれる前記記事を対象として算出したTF値と、全ての前記ユーザの前記購読記事を対象として算出したIDF値とから算出したTF−IDF値であることを特徴とする関連記事推奨プログラム。 In the related article recommendation program according to claim 5 or 6,
The weighting value is a TF-IDF value calculated from the TF value calculated for the feature word for the article including the feature word and the IDF value calculated for the subscribed articles of all the users. Related article recommendation program characterized by being.
前記第10ステップおよび前記第13ステップにおける前記所定の比較条件は、前記類似度を算出する対象の前記特徴語データをそれぞれベクトル空間化し、両ベクトルのなす角に基づいて前記類似度を算出するものであることを特徴とする関連記事推奨プログラム。 In the related article recommendation program according to any one of claims 5 to 7,
The predetermined comparison condition in the tenth step and the thirteenth step is to calculate the similarity based on an angle formed by the vector of the feature word data for which the similarity is to be calculated, respectively. Related article recommendation program characterized by being.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009068146A JP2010224623A (en) | 2009-03-19 | 2009-03-19 | Method and program for recommending related article |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009068146A JP2010224623A (en) | 2009-03-19 | 2009-03-19 | Method and program for recommending related article |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010224623A true JP2010224623A (en) | 2010-10-07 |
Family
ID=43041780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009068146A Pending JP2010224623A (en) | 2009-03-19 | 2009-03-19 | Method and program for recommending related article |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010224623A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014203442A (en) * | 2013-04-10 | 2014-10-27 | 株式会社Nttドコモ | Recommendation information generation device and recommendation information generation method |
JP2015069386A (en) * | 2013-09-27 | 2015-04-13 | 大日本印刷株式会社 | Server device, program, and communication method |
KR20150076341A (en) * | 2013-12-26 | 2015-07-07 | 주식회사 케이티 | Apparatus and method for creating summary of news |
KR101705810B1 (en) * | 2015-11-18 | 2017-02-10 | 고려대학교 산학협력단 | Server, smart device and method for news recommendation |
JP2018077604A (en) * | 2016-11-08 | 2018-05-17 | 株式会社Personal AI | Artificial intelligence device automatically identifying violation candidate of achieving means or method from function description |
JP2019113943A (en) * | 2017-12-21 | 2019-07-11 | ヤフー株式会社 | Information providing apparatus, information providing method, and program |
KR20190097748A (en) * | 2018-02-13 | 2019-08-21 | 국민대학교산학협력단 | Document topic modeling apparatus and method, storage media storing the same |
US10872603B2 (en) | 2015-09-28 | 2020-12-22 | Denso Corporation | Dialog device and dialog method |
CN112579908A (en) * | 2020-12-28 | 2021-03-30 | 济南大象信息技术有限公司 | Website article custom recommendation method |
-
2009
- 2009-03-19 JP JP2009068146A patent/JP2010224623A/en active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014203442A (en) * | 2013-04-10 | 2014-10-27 | 株式会社Nttドコモ | Recommendation information generation device and recommendation information generation method |
JP2015069386A (en) * | 2013-09-27 | 2015-04-13 | 大日本印刷株式会社 | Server device, program, and communication method |
KR20150076341A (en) * | 2013-12-26 | 2015-07-07 | 주식회사 케이티 | Apparatus and method for creating summary of news |
KR102205793B1 (en) * | 2013-12-26 | 2021-01-21 | 주식회사 케이티 | Apparatus and method for creating summary of news |
US10872603B2 (en) | 2015-09-28 | 2020-12-22 | Denso Corporation | Dialog device and dialog method |
KR101705810B1 (en) * | 2015-11-18 | 2017-02-10 | 고려대학교 산학협력단 | Server, smart device and method for news recommendation |
JP2018077604A (en) * | 2016-11-08 | 2018-05-17 | 株式会社Personal AI | Artificial intelligence device automatically identifying violation candidate of achieving means or method from function description |
JP2019113943A (en) * | 2017-12-21 | 2019-07-11 | ヤフー株式会社 | Information providing apparatus, information providing method, and program |
JP2021103542A (en) * | 2017-12-21 | 2021-07-15 | ヤフー株式会社 | Information providing device, information providing method, and program |
JP7160980B2 (en) | 2017-12-21 | 2022-10-25 | ヤフー株式会社 | INFORMATION PROVIDING DEVICE, INFORMATION PROVIDING METHOD AND PROGRAM |
KR20190097748A (en) * | 2018-02-13 | 2019-08-21 | 국민대학교산학협력단 | Document topic modeling apparatus and method, storage media storing the same |
KR102028487B1 (en) | 2018-02-13 | 2019-10-04 | 국민대학교산학협력단 | Document topic modeling apparatus and method, storage media storing the same |
CN112579908A (en) * | 2020-12-28 | 2021-03-30 | 济南大象信息技术有限公司 | Website article custom recommendation method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010224623A (en) | Method and program for recommending related article | |
Kim et al. | A scientometric review of emerging trends and new developments in recommendation systems | |
JP5962926B2 (en) | Recommender system, recommendation method, and program | |
US9990368B2 (en) | System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information | |
JP2010224622A (en) | Method and program for applying tag | |
US8707160B2 (en) | System and method for inferring user interest based on analysis of user-generated metadata | |
US20130246440A1 (en) | Processing a content item with regard to an event and a location | |
US20140280106A1 (en) | Presenting comments from various sources | |
US20080005101A1 (en) | Method and apparatus for determining the significance and relevance of a web page, or a portion thereof | |
US20090164438A1 (en) | Managing and conducting on-line scholarly journal clubs | |
US20110072015A1 (en) | Tagging content with metadata pre-filtered by context | |
WO2011080899A1 (en) | Information recommendation method | |
US20080104034A1 (en) | Method For Scoring Changes to a Webpage | |
CN104866554B (en) | A kind of individuation search method and system based on socialization mark | |
WO2007143223A2 (en) | System and method for entity based information categorization | |
US8972390B2 (en) | Identifying web pages having relevance to a file based on mutual agreement by the authors | |
US20100153213A1 (en) | Systems and Methods for Dynamic Content Selection and Distribution | |
JPWO2007148817A1 (en) | Content recommendation system, content recommendation method, and content recommendation program | |
JP2013182466A (en) | Web search system and web search method | |
JP2008146293A (en) | Evaluation system, method and program for browsing target information | |
JP2014164576A (en) | Prediction server, program, and method for predicting number of future comments in prediction object content | |
US8266140B2 (en) | Tagging system using internet search engine | |
US20140095465A1 (en) | Method and apparatus for determining rank of web pages based upon past content portion selections | |
JP2010224625A (en) | Method and program for visualizing keyword two-dimensional | |
JP2009205588A (en) | Page search system and program |