JP2005250648A - Article summarizing device and news distributing device - Google Patents
Article summarizing device and news distributing device Download PDFInfo
- Publication number
- JP2005250648A JP2005250648A JP2004057583A JP2004057583A JP2005250648A JP 2005250648 A JP2005250648 A JP 2005250648A JP 2004057583 A JP2004057583 A JP 2004057583A JP 2004057583 A JP2004057583 A JP 2004057583A JP 2005250648 A JP2005250648 A JP 2005250648A
- Authority
- JP
- Japan
- Prior art keywords
- article
- articles
- news
- group
- article group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の記事の要約を生成する記事要約装置、および、複数の記事の要約が掲載されたニュースを配信するニュース配信装置に関する。 The present invention relates to an article summarization apparatus that generates a summary of a plurality of articles, and a news distribution apparatus that distributes news on which summaries of a plurality of articles are posted.
ニュース記事をネットワークを介して利用者に配信するニュース配信サービスが知られている。例えば、特許文献1には、利用者の選択に基づいて記事を配信するシステムが開示されている。
A news distribution service that distributes news articles to users via a network is known. For example,
また、利用者の要求や興味を表現した利用者プロファイルに合致する記事を検索し、これらの見出しのリストあるいは記事全体をならべて利用者に提示するシステムも知られている。このシステムでは、大きな事件が発生し、短期間に多くの関連記事が発生した場合、関連記事が多数選択されることがある。しかし、類似した記事がランダムに掲載されていても利用者にとっては読みにくい。 There is also a known system that searches for articles that match a user profile that expresses user requests and interests, and displays a list of these headings or the entire article and presents it to the user. In this system, when a large incident occurs and many related articles occur in a short period of time, many related articles may be selected. However, even if similar articles are posted at random, it is difficult for users to read.
そこで、特許文献2には、検索条件に合致する記事を選定し、選定された記事同志または選定された記事と他の記事との間の類似度を算出し、その類似度に従って記事毎に関連記事を決定し、決定された関連記事の情報を選定された記事に付加して利用者に提示するシステムが開示されている。ここで、記事に付加される情報としては、記事の見出しや情報源、文字数、現在本文が提示されている記事との類似度が挙げられている。また、付加情報のテキスト部分をハイパーテキストなどで構造化し、排除された重複記事の本文へのアクセスを可能とする構成が示されている。
Therefore, in
また、特許文献3には、検索された記事の種類(優先度)に応じた長さの要約を生成し、この要約を利用者に提示するシステムも記載されている。 Patent Document 3 also describes a system that generates a summary having a length corresponding to the type (priority) of a searched article and presents the summary to the user.
なお、特許文献4には、重複のある複数の文書に対し、適切な要約やキーワードを作成する技術が開示されている。また、特許文献4には、類似の内容を持つ複数のテキスト集合の内容を一括して要約する技術が開示されている。 Patent Document 4 discloses a technique for creating appropriate summaries and keywords for a plurality of overlapping documents. Patent Document 4 discloses a technique for collectively summarizing the contents of a plurality of text sets having similar contents.
上記特許文献2に記載されたシステムには、以下の問題がある。
The system described in
検索された記事に付加情報として、記事の見出しや情報源、文字数等のテキストを付加する場合、関連記事の存在を知ることはできるが、関連記事群の全体像を把握することは困難である。また、付加情報のテキスト部分から関連記事本文へのアクセスを可能とした場合であっても、関連記事群の全体像を把握することはできない。 When adding text such as the article headline, information source, number of characters, etc. as additional information to the searched article, it is possible to know the existence of the related article, but it is difficult to grasp the overall picture of the related article group. . Moreover, even if it is possible to access the related article body from the text portion of the additional information, it is not possible to grasp the overall image of the related article group.
また、検索された記事の要約を生成し、この要約を提示する場合、検索された個々の記事の把握は容易となるが、関連記事群の全体像を把握することはできない。 Further, when a summary of retrieved articles is generated and this summary is presented, it is easy to grasp each retrieved article, but it is not possible to grasp the whole image of related articles.
そこで、本発明は、複数の記事の中から検索された記事について、その記事が属する関連記事群の全体像の把握を容易化することができる記事要約装置を提供する。 Therefore, the present invention provides an article summarizing apparatus that can easily grasp the overall image of related articles to which an article is retrieved from articles retrieved from a plurality of articles.
また、本発明は、複数の記事の中から検索された記事について、その記事が属する関連記事群の全体像の把握が容易なニュースを利用者に配信することができるニュース配信装置を提供する。 In addition, the present invention provides a news distribution device that can distribute to a user news that allows easy understanding of the overall image of related articles to which an article belongs, among articles searched from a plurality of articles.
本発明に係る記事要約装置は、複数の記事を取得する記事取得手段と、当該記事取得手段により取得された複数の記事の中から、予め設定された検索条件に合致する記事を検索する記事検索手段と、当該記事検索手段により検索された記事が属する、相互に関連する複数の記事からなる関連記事群を、前記複数の記事の中から抽出する関連記事群抽出手段と、当該関連記事群抽出手段により抽出された関連記事群の要約を生成する記事要約手段と、を有することを特徴とする。 The article summarizing apparatus according to the present invention includes an article acquisition unit that acquires a plurality of articles, and an article search that searches for articles that match a preset search condition from among a plurality of articles acquired by the article acquisition unit. And a related article group extracting means for extracting a related article group consisting of a plurality of mutually related articles to which the article searched by the article searching means belongs, and the related article group extraction And article summary means for generating a summary of the related article group extracted by the means.
本発明では、前記複数の記事の各々には、当該記事が属する、予め相互に関連付けられた複数の記事からなる記事群を特定するための属性情報が付与されており、前記関連記事群抽出手段は、前記検索された記事に付与された属性情報に基づいて、当該記事が属する前記記事群を関連記事群として抽出することが好ましい。 In the present invention, each of the plurality of articles is provided with attribute information for specifying an article group including a plurality of articles that are associated with each other in advance, and the related article group extracting unit Preferably, the article group to which the article belongs is extracted as a related article group based on attribute information given to the searched article.
また、前記記事要約手段は、前記関連記事群に属する複数の記事を、時系列順に従って複数の記事群に分け、各記事群を要約して複数の要約部分からなる要約を生成することが好ましい。 Preferably, the article summary means divides a plurality of articles belonging to the related article group into a plurality of article groups according to a time series order, and summarizes each article group to generate a summary composed of a plurality of summary parts. .
ここで、前記記事要約手段は、前記各記事群をそれぞれの時系列の順番に応じた要約方法で要約することが好ましい。 Here, it is preferable that the article summarizing means summarizes each article group by a summarizing method according to the order of each time series.
本発明の好適な一実施形態では、前記記事要約手段は、所定時点以前の記事群について、所定時点後の記事群よりも簡易な要約部分を生成する。 In a preferred embodiment of the present invention, the article summarizing means generates a summary portion that is simpler than the article group after the predetermined time point for the article group before the predetermined time point.
また、本発明では、前記関連記事群抽出手段は、前記検索された記事間の関連の有無を判定し、前記検索結果中に相互に関連する所定数以上の記事が含まれる場合に、当該所定数以上の記事が属する関連記事群を抽出することが好ましい。 Further, in the present invention, the related article group extraction unit determines whether or not there is a relation between the searched articles, and when the search result includes a predetermined number or more of articles that are mutually related, the predetermined article It is preferable to extract a related article group to which more than a few articles belong.
本発明に係るニュース作成装置は、上記のいずれかの記事要約装置と、前記記事要約手段により生成された要約が掲載されたニュースを作成するニュース作成手段と、を有することを特徴とする。 A news creation apparatus according to the present invention includes any one of the above-described article summarization apparatuses and news creation means for creating news on which a summary generated by the article summary means is posted.
また、本発明に係るニュース作成装置は、前記関連記事群に属する複数の記事を時系列順に従って複数の記事群に分け、各記事群を要約して複数の要約部分からなる要約を生成する記事要約装置と、当該記事要約装置によって生成された複数の要約部分を、それぞれの時系列の順番に応じた表示形態でレイアウトし、複数の要約部分からなる要約が掲載されたニュースを作成するニュース作成手段と、を有することを特徴とする。 Further, the news creation device according to the present invention divides a plurality of articles belonging to the related article group into a plurality of article groups in time series order, and summarizes each article group to generate a summary composed of a plurality of summary parts. A news creation that creates a news in which a summary is formed by laying out a summary device and a plurality of summary parts generated by the article summary device in a display form corresponding to the order of each time series. And means.
また、本発明に係るニュース作成装置は、前記検索結果中に相互に関連する所定数以上の記事が含まれる場合に、当該所定数以上の記事が属する関連記事群を抽出する記事要約装置と、当該記事要約装置により生成された要約、および、前記検索された記事のうち前記所定数以上の記事以外の記事が掲載されたニュースを作成するニュース作成手段と、を有することを特徴とする。 In addition, the news creation device according to the present invention, when the search result includes a predetermined number or more of articles related to each other, an article summarization apparatus that extracts a related article group to which the predetermined number of articles or more belongs, News generating means for generating a summary generated by the article summarizing apparatus and news on which articles other than the predetermined number or more of the searched articles are posted.
上記のいずれかのニュース作成装置において、前記ニュース作成手段は、前記要約または記事を所定ページ数内にレイアウトすることが好ましい。 In any of the news creation devices described above, the news creation means preferably lays out the summary or article within a predetermined number of pages.
また、上記のいずれかのニュース作成装置の好適な一実施形態では、前記記事検索手段は、前記ニュースが配信される利用者毎に設定された検索条件に基づいて利用者毎に記事を検索し、前記ニュース作成手段は、利用者毎にニュースを作成する。 Further, in a preferred embodiment of any of the above news creation devices, the article search means searches for an article for each user based on a search condition set for each user to whom the news is distributed. The news creation means creates news for each user.
本発明に係るニュース配信装置は、上記のいずれか1項に記載のニュース作成装置と、当該ニュース作成装置により作成されたニュースを利用者に配信するニュース配信手段と、を有することを特徴とする。 A news distribution device according to the present invention includes the news creation device according to any one of the above-mentioned items, and news distribution means for distributing news created by the news creation device to a user. .
本発明に係る記事要約方法は、記事要約装置が実行する方法であって、複数の記事を取得する記事取得ステップと、当該記事取得ステップで取得された複数の記事の中から、予め設定された検索条件に合致する記事を検索する記事検索ステップと、当該記事検索ステップで検索された記事が属する、相互に関連する複数の記事からなる関連記事群を、前記複数の記事の中から抽出する関連記事群抽出ステップと、当該関連記事群抽出ステップで抽出された関連記事群の要約を生成する記事要約ステップと、を有することを特徴とする。 The article summarizing method according to the present invention is a method executed by the article summarizing apparatus, and is set in advance from an article acquiring step for acquiring a plurality of articles and a plurality of articles acquired in the article acquiring step. An article search step for searching for articles that match the search conditions, and a related article group consisting of a plurality of mutually related articles to which the article searched in the article search step belongs is extracted from the plurality of articles. An article group extraction step and an article summary step for generating a summary of the related article group extracted in the related article group extraction step.
本発明に係る記事要約プログラムは、コンピュータに、複数の記事を取得する記事取得ステップと、当該記事取得ステップで取得された複数の記事の中から、予め設定された検索条件に合致する記事を検索する記事検索ステップと、当該記事検索ステップで検索された記事が属する、相互に関連する複数の記事からなる関連記事群を、前記複数の記事の中から抽出する関連記事群抽出ステップと、当該関連記事群抽出ステップで抽出された関連記事群の要約を生成する記事要約ステップと、を実行させることを特徴とする。 The article summary program according to the present invention searches an article that matches a preset search condition from among an article acquisition step of acquiring a plurality of articles and a plurality of articles acquired in the article acquisition step. An article search step, a related article group extraction step for extracting a related article group consisting of a plurality of mutually related articles to which the article searched in the article search step belongs, and the related article And an article summary step for generating a summary of the related article group extracted in the article group extraction step.
本発明では、複数の記事の中から所定の検索条件に合致する記事を検索する。そして、検索された記事が属する、相互に関連する複数の記事からなる関連記事群を抽出し、抽出された関連記事群の要約を生成する。このため、本発明によれば、複数の記事の中から検索された記事について、その記事が属する関連記事群の要約を得ることができ、当該関連記事群の全体像の把握を容易化することができる。 In the present invention, an article that matches a predetermined search condition is searched from a plurality of articles. Then, a related article group including a plurality of mutually related articles to which the searched article belongs is extracted, and a summary of the extracted related article group is generated. Therefore, according to the present invention, it is possible to obtain a summary of a related article group to which the article belongs with respect to an article searched from a plurality of articles, and to easily grasp the overall image of the related article group. Can do.
また、本発明によれば、上記関連記事群の要約が掲載されたニュースを作成し、このニュースを利用者に配信するので、複数の記事の中から検索された記事について、その記事が属する関連記事群の全体像の把握が容易なニュースを利用者に配信することができる。 In addition, according to the present invention, since the news on which the summary of the related article group is posted is created and this news is distributed to the user, the article to which the article belongs is searched for from among a plurality of articles. News that makes it easy to grasp the overall picture of an article group can be distributed to users.
以下、本発明の実施の形態を図面に従って説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、実施の形態に係るニュース配信装置1を含むニュース配信システムの全体構成を示すブロック図である。このニュース配信システムでは、ニュース提供者が管理するニュース配信装置1と、利用者が使用してニュースを取得する一以上の利用者端末2とが、インターネット等のネットワーク3を介して互いに接続されている。利用者端末2の一例として、店舗等に設置され、ユーザインタフェースを備えたプリンタ複合機がある。ただし、利用者端末2は、パーソナルコンピュータ、携帯電話等の他の情報通信端末であってもよい。
FIG. 1 is a block diagram showing an overall configuration of a news distribution system including a
ニュース配信装置1は、複数のニュース記事(以下、単に記事と称す)の中から、所定の検索条件に合致する記事を検索し、検索された記事を用いてニュースを作成し、作成されたニュースを利用者(具体的には利用者端末2)に配信するものである。本件明細書では、ニュースとは、一以上の記事または要約が掲載されたもの、特に、一以上の記事または要約が紙面上、画面上等にレイアウトされたものを意味する。ここで、要約とは、複数の記事の内容が短くまとめられたものをいう。
The
本実施の形態では、記事の検索やニュースの作成は、利用者毎に行われる。すなわち、ニュース配信装置1は、利用者毎にカスタマイズされたニュースを各利用者に配信する。ただし、ニュースは必ずしもカスタマイズされる必要はなく、記事の検索やニュースの作成は、全利用者について一律に行われてもかまわない。
In the present embodiment, article search and news creation are performed for each user. That is, the
ここで、本実施の形態で扱われる記事について説明する。ニュース配信装置1に供給される記事の中には、大きく分けて、当該記事以前の記事(既出記事ともいう)に関連しない新規記事と、既出記事に関連する後続記事との二種類がある。そして、後続記事には、一連の記事報道等において既出記事の続きとなる続報記事と、既出記事の誤りを訂正する訂正記事との二種類がある。ただし、後続記事の種類は特に限定されない。
Here, articles handled in this embodiment will be described. The articles supplied to the
図2は、複数の記事の関連を説明するための模式図である。図2において、丸印は記事を示す。また、矢印は記事同志の関連を示す。矢印の後端側の記事は、先端側の記事に対する後続記事(続報記事または訂正記事)である。具体的に説明すると、記事A1は新規記事であり、記事A2は記事A1の後続記事であり、記事A4は記事A2の後続記事である。 FIG. 2 is a schematic diagram for explaining the relationship between a plurality of articles. In FIG. 2, a circle indicates an article. The arrows indicate the relationship between articles. The article on the rear end side of the arrow is a subsequent article (follow-up article or correction article) with respect to the article on the front end side. Specifically, the article A1 is a new article, the article A2 is a succeeding article of the article A1, and the article A4 is a succeeding article of the article A2.
以下、図2を参照して、本実施の形態の基本的な考え方について説明する。まず、図2において、所定の検索条件により記事A20、A30、A40、およびA50が検索された場合を例にとって説明する。この場合、記事A20、A30、A40、A50をそのままニュースに掲載すると、多くの類似した記事が掲載されることとなり、利用者にとって非常に読みにくいものとなる。これを避けるためには、記事A20、A30、A40、A50を要約し、得られた要約をニュースに掲載する方法が考えられる。しかし、この方法では、記事群A1〜A50のうち一部の記事の要約が掲載されることとなり、利用者は、記事群A1〜A50の全体像を把握することができない。 Hereinafter, the basic concept of the present embodiment will be described with reference to FIG. First, in FIG. 2, a case where articles A20, A30, A40, and A50 are searched under a predetermined search condition will be described as an example. In this case, if the articles A20, A30, A40, and A50 are posted in the news as they are, many similar articles are posted, which is very difficult for the user to read. In order to avoid this, it is conceivable to summarize the articles A20, A30, A40, and A50 and post the obtained summary in the news. However, in this method, a summary of some articles in the article groups A1 to A50 is posted, and the user cannot grasp the entire image of the article groups A1 to A50.
そこで、本実施の形態では、図2に示される複数の記事の中から、検索された記事が属する、相互に関連する複数の記事からなる関連記事群を抽出し、抽出された関連記事群を要約することとする。ここで、関連記事群を抽出する方法としては様々な方法が考えられるが、記事群A1〜A50の全体像の把握を容易化するためには、関連記事群として記事群A1〜A50が確実に抽出され要約されることが好ましい。 Therefore, in the present embodiment, a related article group including a plurality of mutually related articles to which the searched article belongs is extracted from the plurality of articles shown in FIG. I will summarize. Here, various methods can be considered as a method for extracting the related article group, but in order to facilitate understanding of the overall image of the article group A1 to A50, the article group A1 to A50 is surely included as the related article group. Preferably extracted and summarized.
そこで、本実施の形態では、互いに関連する複数の記事を予め相互に関連付けておく。そして、複数の記事の各々に、当該記事が属する、予め相互に関連付けられた複数の記事からなる記事群を特定するための属性情報を付与しておく。そして、検索された記事に付与された属性情報に基づいて、当該検索された記事が属する記事群を特定し、この記事群を関連記事群として抽出し要約する。 Therefore, in this embodiment, a plurality of articles related to each other are associated with each other in advance. Then, attribute information for specifying an article group composed of a plurality of articles associated with each other in advance is assigned to each of the plurality of articles. Then, based on the attribute information given to the searched article, an article group to which the searched article belongs is specified, and this article group is extracted as a related article group and summarized.
具体的に説明すると、記事A1〜A50を予め相互に関連付けておく。そして、記事A1〜A50の各々に、記事群A1〜A50を特定するための属性情報を付与しておく。そして、例えば記事A20が検索された場合、当該記事A20に付与された属性情報に基づいて、当該記事A20が属する記事群A1〜A50を特定し、この記事群A1〜A50を関連記事群として抽出し要約する。 Specifically, the articles A1 to A50 are associated with each other in advance. Then, attribute information for specifying the article groups A1 to A50 is assigned to each of the articles A1 to A50. For example, when an article A20 is searched, based on the attribute information given to the article A20, the article group A1 to A50 to which the article A20 belongs is specified, and the article group A1 to A50 is extracted as a related article group. And to summarize.
このように、本実施の形態では、相互に関連する複数の記事からなる記事群A1〜A50のうち、いずれかの記事が検索された場合、記事群A1〜A50が確実に抽出され、要約される。これにより、記事群A1〜A50の全体像の把握が容易となる。 As described above, in this embodiment, when any article is searched from among the article groups A1 to A50 including a plurality of mutually related articles, the article groups A1 to A50 are surely extracted and summarized. The Thereby, it becomes easy to grasp the whole image of the article groups A1 to A50.
本実施の形態では、各記事に次のような3種類の属性情報を付与する。まず、当該記事を識別するための識別情報である記事IDを付与する。また、当該記事に関連する既出記事(以下、当該記事の元記事と称す)の記事IDを元記事IDとして付与する。また、当該記事を元記事とする記事の記事IDを後続記事IDとして付与する。具体的に説明すると、記事A3には、記事A3の記事IDと、記事A3の元記事A1の記事ID(元記事ID)と、記事A3を元記事とする記事A5、A6の記事ID(後続記事ID)とを付与する。なお、新規記事である記事A1には、元記事が存在しないので、元記事IDの代わりに、元記事が存在しない旨の属性情報が付与される。また、記事A50には、自らを元記事とする後続記事が存在しないので、後続記事IDの代わりに、後続記事が存在しない旨の属性情報が付与される。このような属性情報により、複数の記事A1〜A50が互いに関連付けられる。ただし、各記事に付加される属性情報は、当該記事が属する、予め相互に関連付けられた複数の記事からなる記事群を特定することができれば、どのようなものであってもよい。例えば、記事群A1〜A50に「A」という記事群IDを付与し、記事A1〜A50の各々に属性情報として記事群ID「A」を付与することとしてもよい。 In the present embodiment, the following three types of attribute information are given to each article. First, an article ID that is identification information for identifying the article is assigned. Also, the article ID of an already published article related to the article (hereinafter referred to as the original article of the article) is assigned as the original article ID. Further, an article ID of an article whose original article is the article is assigned as a subsequent article ID. Specifically, in the article A3, the article ID of the article A3, the article ID of the original article A1 of the article A3 (original article ID), and the article IDs of the articles A5 and A6 having the article A3 as the original article (following) Article ID). Note that since the original article does not exist in the article A1, which is a new article, attribute information indicating that the original article does not exist is assigned instead of the original article ID. Further, since there is no subsequent article having itself as the original article, the article A50 is provided with attribute information indicating that there is no subsequent article instead of the subsequent article ID. A plurality of articles A1 to A50 are associated with each other by such attribute information. However, the attribute information added to each article may be anything as long as it can identify an article group including a plurality of articles associated with each other in advance. For example, the article group ID “A” may be assigned to the article groups A1 to A50, and the article group ID “A” may be assigned to each of the articles A1 to A50 as attribute information.
次に、関連記事群の要約の方法について説明する。関連記事群を一括して要約してもよいが、本実施の形態では、関連記事群に属する複数の記事を、時系列順を考慮して要約する。具体的には、記事A1〜A50を時系列順に複数の記事群に分け、各記事群をそれぞれの時系列の順番に応じた要約方法で要約し、複数の要約部分からなる要約を生成する。より具体的には、記事群A1〜A50を、所定時点以前の記事群(例えば記事群A1〜A20)と、所定時点後の記事群(例えば記事群A21〜A50)とに分け、所定時点以前の記事群について、所定時点後の記事群よりも簡易な要約部分を生成する。これにより、利用者は、記事群A1〜A50のうち、比較的古い部分については概略を把握することができ、比較的新しい部分についてはより詳細に把握することができる。 Next, a method for summarizing related articles will be described. The related article group may be summarized in a lump, but in the present embodiment, a plurality of articles belonging to the related article group are summarized in consideration of the time series order. Specifically, the articles A1 to A50 are divided into a plurality of article groups in time series order, and each article group is summarized by a summarization method according to the order of each time series, and a summary composed of a plurality of summary parts is generated. More specifically, the article group A1 to A50 is divided into an article group before the predetermined time point (for example, the article group A1 to A20) and an article group after the predetermined time point (for example, the article group A21 to A50). For the article group, a summary part simpler than the article group after a predetermined time point is generated. Thereby, the user can grasp | ascertain an outline about a comparatively old part among article groups A1-A50, and can grasp | ascertain in detail about a comparatively new part.
なお、上記の所定時点や、時系列の順番に応じた要約方法は、配信者側または利用者により適宜に設定されればよい。例えば、記事群A1〜A50を日付毎の記事群に分け、各記事群について、日付入りの要約を生成する態様が考えられる。 Note that the summarization method corresponding to the predetermined time point or the order of the time series may be appropriately set by the distributor or the user. For example, it is possible to divide the article groups A1 to A50 into article groups for each date and generate a dated summary for each article group.
次に、図2において、所定の検索条件により記事B4が検索された場合を例にとって説明する。この場合において、上記と同様に、記事B4の属性情報に基づいて記事群B1〜B5を抽出して要約し、得られた要約をニュースに掲載することは、好ましい実施形態の一つと言える。ただし、検索された記事が少量(この例では1件)であるような場合、検索された記事をそのまま掲載しても、量が少ないので、利用者にとってそれほど読みにくくないと考えられる。また、検索された記事が少量であることから、それほど大きな事件ではないと推測される。 Next, the case where the article B4 is searched with a predetermined search condition in FIG. 2 will be described as an example. In this case, similarly to the above, it is one of preferred embodiments to extract and summarize the article groups B1 to B5 based on the attribute information of the article B4, and to post the obtained summary in the news. However, when there are a small number of articles searched (one in this example), even if the searched articles are posted as they are, the amount is small, so it is considered that it is not so difficult for the user to read. In addition, since the number of articles searched is small, it is presumed that this is not a big incident.
そこで、本実施の形態では、各記事に付与された属性情報に基づいて、検索された記事間の関連の有無を判定し、検索結果中に相互に関連する所定数以上の記事が含まれる場合に、当該所定数以上の記事が属する関連記事群を抽出して要約することとする。一方、検索された記事のうち、相互に関連する所定数以上の記事を構成しない記事については、要約対象とせず、当該記事をそのままニュースに掲載することとする。具体的には、所定数が「3」である場合において、記事A20、A30、A40、A50、B3、B4が検索されたとすると、記事群A1〜A50の要約および記事B3、B4がニュースに掲載されることとなる。なお、上記の所定数は、配信者側または利用者により適宜に設定されればよい。 Therefore, in the present embodiment, based on the attribute information given to each article, it is determined whether or not there is a relation between searched articles, and the search result includes a predetermined number of articles that are related to each other. The related article group to which the predetermined number or more of articles belong is extracted and summarized. On the other hand, among the retrieved articles, articles that do not constitute a predetermined number or more of mutually related articles are not included in the summary, and the articles are directly posted in the news. Specifically, when the predetermined number is “3” and the articles A20, A30, A40, A50, B3, and B4 are searched, the summary of the article groups A1 to A50 and the articles B3 and B4 are posted in the news. Will be. In addition, what is necessary is just to set said predetermined number suitably by the distributor side or a user.
以下、ニュース配信装置1の構成について説明する。
Hereinafter, the configuration of the
図3は、ニュース配信装置1の機能構成を示すブロック図である。図3において、ニュース配信装置1は、記事データベース10(以下、記事DBと称す)、プロファイルデータベース20(以下、プロファイルDBと称す)、記事検索部30、関連記事群抽出部40、記事要約部50、ニュース作成部60、およびニュース配信部70を有する。
FIG. 3 is a block diagram showing a functional configuration of the
記事DB10は、複数の記事を取得して格納する。ここで、複数の記事の各々には、当該記事が属する、予め相互に関連付けられた複数の記事からなる記事群を特定するための属性情報が付与されている。記事DB10に格納されているデータの構成については、後に図4を参照して詳細に説明する。
The
なお、記事は、適宜の手段により記事DB10に供給される。例えば、新聞社等の記事供給元からネットワークを介して供給される場合もあるし、ニュース配信サービスの提供者によりユーザインタフェースを介して入力される場合もある。また、記事の属性情報は、ニュース配信サービスの提供者または記事供給元により予め付与されるものである。
The articles are supplied to the
プロファイルDB20は、ニュースの配信を受ける個々の利用者に関する情報として、利用者毎のプロファイル情報を格納する。ここで、利用者毎のプロファイル情報には、少なくとも、記事の検索に用いられる利用者毎の検索条件が含まれる。ここで、利用者毎のプロファイル情報は、ニュース配信サービスの提供に先立って各利用者から受け付けた利用者登録情報に基づいて生成される。なお、プロファイルDB20に格納されているデータの構成については、後に図5を参照して詳細に説明する。
The
記事検索部30は、記事DB10に格納されている複数の記事の中から、プロファイルDB20に格納されている検索条件に合致する記事を検索する。本実施の形態では、記事検索部30は、利用者毎に設定された検索条件に基づいて、利用者毎に記事を検索する。
The
関連記事群抽出部40は、記事検索部30により検索された記事が属する、相互に関連する複数の記事からなる関連記事群を、記事DB10に格納されている複数の記事の中から抽出する。本実施の形態では、関連記事群抽出部40は、各記事の属性情報に基づいて、検索された記事間の関連の有無を判定し、検索結果中に相互に関連する所定数以上の記事が含まれる場合に、当該所定数以上の記事が属する関連記事群を抽出する。このとき、関連記事群抽出部40は、検索された記事に付与された属性情報に基づいて関連記事群を抽出する。
The related article group extraction unit 40 extracts a related article group including a plurality of mutually related articles to which the article searched by the
記事要約部50は、関連記事群抽出部40により抽出された関連記事群から要約を生成する。本実施の形態では、記事要約部50は、関連記事群を所定時点以前の記事群と所定時点後の記事群とに分け、所定時点以前の記事群について、所定時点後の記事群よりも簡易な要約部分を生成する。なお、記事要約部50で用いられる要約のアルゴリズムは特に限定されず、様々な要約技術が適用可能である。例えば、自然言語解析を用いた自動要約生成技術でもよいし、初めの一段落目のみを要約文とするといった簡易なものであってもよい。 The article summary unit 50 generates a summary from the related article group extracted by the related article group extraction unit 40. In the present embodiment, the article summary unit 50 divides the related article group into an article group before the predetermined time point and an article group after the predetermined time point, and the article group before the predetermined time point is simpler than the article group after the predetermined time point. A simple summary part. Note that the summarization algorithm used in the article summarization unit 50 is not particularly limited, and various summarization techniques can be applied. For example, an automatic summary generation technique using natural language analysis may be used, or a simple one in which only the first paragraph is used as a summary sentence may be used.
ニュース作成部60は、記事要約部50により生成された一以上の要約、または、検索された記事のうち要約対象とならなかった一以上の記事を用いて、一以上の要約または記事が掲載されたニュースを作成する。本実施の形態では、ニュース作成部60は、予め設定された所定ページ数内に、要約または記事をレイアウトする。また、記事要約部50により複数の要約部分からなる要約が生成された場合、当該複数の要約部分をそれぞれの時系列の順番に応じた表示形態でレイアウトする。
The
ニュース配信部70は、ニュース作成部60により作成されたニュースをネットワーク3を介して利用者(具体的には利用者端末2)に配信する。
The
本実施の形態では、上記構成を有するニュース配信装置1は、一般的なコンピュータにより実現される。また、上記各部10〜70は、それぞれの機能に応じたプログラムが、CPU、ROM、RAM、ハードディスクドライブ等のコンピュータハードウェア資源により実行されることによって実現される。例えば、記事検索部30、関連記事群抽出部40、および記事要約部50は、記憶媒体に記憶された本実施の形態に係る記事要約プログラムがCPUにより実行されることによって実現される。ただし、ニュース配信装置1の実現態様は、特に限定されない。
In the present embodiment,
次に、記事DB10、プロファイルDB20に格納されているデータの構成について説明する。
Next, the structure of data stored in the
図4は、記事DB10に格納されているデータの構成例を示す図である。図4に示されるとおり、記事DB10のデータは、一以上の「記事情報」レコードから構成される。そして、「記事情報」レコードは、「記事ID」、「記事ジャンル」、「登録日」、「配信種別」、「元記事ID」、「後続記事IDリスト」、「キーワード」、「見出し」、および「記事」等の複数のフィールドから構成される。
FIG. 4 is a diagram illustrating a configuration example of data stored in the
「記事ID」フィールドは、記事を識別するための識別情報である記事IDを保持する。「記事ジャンル」フィールドは、政治、社会、スポーツ等の記事のジャンルを保持する。「登録日」フィールドは、記事が記事DB10に登録された年月日を保持する。
The “article ID” field holds an article ID that is identification information for identifying an article. The “article genre” field holds the genre of articles such as politics, society, and sports. The “registration date” field holds the date when the article is registered in the
「配信種別」フィールドは、記事が、新規記事、続報記事、または訂正記事のうちのいずれであるかを示す情報を保持する。そして、「元記事ID」フィールドは、当該記事が関連記事(続報記事または訂正記事)である場合における元記事の記事IDを保持する。また、「後続記事IDリスト」は、当該記事を元記事とする後続記事の記事ID、すなわち、「元記事ID」フィールドにおいて当該記事を参照している記事の記事IDを保持する。例えば、図2の記事A2の「元記事ID」フィールドには記事A1の記事IDが、記事A5の「元記事ID」フィールドには記事A3の記事IDが記述される。記事A1のように参照する元記事が存在しない場合は、図4の「記事情報1」に示したように「元記事ID」フィールドは空(NONE)となる。また、記事A1の「後続記事IDリスト」フィールドには、記事A1を元記事として参照している記事A2およびA3の記事IDが、記事A3の「後続記事IDリスト」フィールドには、記事A3を元記事として参照している記事A5およびA6の記事IDが記述される。記事B2、B4、B5のように、自らを参照している記事が存在しない場合は、図4の「記事情報2」に示したように「後続記事IDリスト」フィールドは空(NONE)となる。記事C1のように参照する元記事、および自らを参照している他の記事いずれも存在しない場合は、「元記事ID」フィールドも「後続記事IDリスト」フィールドも空(NONE)となる。
The “distribution type” field holds information indicating whether the article is a new article, a follow-up article, or a corrected article. The “original article ID” field holds the article ID of the original article when the article is a related article (follow-up article or corrected article). The “subsequent article ID list” holds an article ID of a subsequent article whose original article is the article, that is, an article ID of an article that refers to the article in the “original article ID” field. For example, the article ID of the article A1 is described in the “original article ID” field of the article A2 in FIG. 2, and the article ID of the article A3 is described in the “original article ID” field of the article A5. When there is no original article to be referred to like article A1, the “original article ID” field is empty (NONE) as shown in “
「見出し」フィールドは、記事の見出し(タイトル)を保持する。「記事」フィールドは、記事そのもの、すなわち記事本文を保持する。なお、記事には、静止画、動画、音声等も含まれうる。 The “Heading” field holds the heading (title) of the article. The “article” field holds the article itself, that is, the article body. The article may include still images, moving images, sounds, and the like.
上記のとおり、「記事情報」レコードを構成する複数のフィールドのうち、「記事」フィールド以外のフィールドには、記事の属性情報が登録される。 As described above, article attribute information is registered in fields other than the “article” field among the plurality of fields constituting the “article information” record.
図5は、プロファイルDB20に格納されているデータの構成例を示す図である。この図5には、ある一人の利用者のプロファイル情報が示されているが、このプロファイル情報は、利用者毎に作成されて格納される。
FIG. 5 is a diagram illustrating a configuration example of data stored in the
図5(A)に示されるとおり、各利用者のプロファイル情報は、「利用者認証情報」、「個人情報」、「選択条件」、「配信方法」、および「要約情報」のぞれぞれのフィールドから構成される。 As shown in FIG. 5 (A), each user's profile information includes “user authentication information”, “personal information”, “selection conditions”, “distribution method”, and “summary information”. It is composed of fields.
「利用者認証情報」フィールドは、個々の利用者を識別するために使用される利用者IDおよびパスワードを保持する。「個人情報」フィールドは、利用者の住所や電話番号等を保持する。「選択条件」フィールドは、記事を検索するための検索条件や、配信時の枚数等を保持する。「配信方法」フィールドは、利用者にどのように配信するかという情報を保持する。この例では、利用者からの配信要求を受けて、その際に指定されるプリンタ複合機に配信することを示している。 The “user authentication information” field holds a user ID and a password that are used to identify individual users. The “personal information” field holds the user's address, telephone number, and the like. The “selection condition” field holds a search condition for searching for an article, the number of sheets at the time of distribution, and the like. The “distribution method” field holds information on how to distribute to the user. In this example, a distribution request from a user is received, and distribution to a printer multifunction device designated at that time is shown.
「要約情報」フィールドは、関連記事群を所定時点以前の記事群と所定時点後の記事群とに分けるための情報を保持する。具体的には、「要約情報」フィールドのうち、「詳細要約期間」フィールドには、所定時点後の期間、すなわち、詳細な要約部分が生成されるべき期間を示す情報を保持する。また、「最終配信日時」フィールドは、前回配信を行った日時を保持する。図5(A)に示される例では、「詳細要約期間」フィールドは最終配信日時以降となっているが、これは、前回配信を行った日時以降を詳細な要約対象とすることを示している。ここで、「最終配信日時」フィールドは2002年12月31日17時59分となっているので、この日時以降の記事群は詳細な要約対象となり、この日時前の記事群は簡易な要約対象となる。なお、「詳細要約期間」フィールドには、その他の期間、例えば、過去24時間以内等の固定的な期間が指定されてもよい。 The “summary information” field holds information for dividing the related article group into an article group before and after a predetermined time point. Specifically, in the “summary information” field, the “detailed summary period” field holds information indicating a period after a predetermined time point, that is, a period during which a detailed summary portion is to be generated. The “last delivery date / time” field holds the date / time when the previous delivery was performed. In the example shown in FIG. 5A, the “detailed summarization period” field is after the last delivery date and time, and this indicates that the date after the last delivery is the subject of the detailed summarization. . Here, since the “last delivery date / time” field is 17:59 on December 31, 2002, articles after this date / time are detailed summaries, and articles before this date / time are simple summaries. It becomes. In the “detailed summary period” field, another period, for example, a fixed period such as within the past 24 hours may be designated.
図5(B)は、記事を検索するための検索条件の一例を示す図である。この例では、検索条件は、「キーワード」および「種別」の2フィールドにより構成されている。「種別」フィールドが記事ジャンルとなっているレコードのキーワードは、図4に示される記事DB10の「記事ジャンル」フィールドに対する検索キーとして扱われる。「種別」フィールドが記事本文となっているレコードのキーワードは、図4に示される記事DB10の「記事」フィールドに対する検索キー、すなわち本文全体に対する検索キーとして扱われる。
FIG. 5B is a diagram illustrating an example of search conditions for searching for articles. In this example, the search condition includes two fields of “keyword” and “type”. The keyword of the record whose “type” field is the article genre is treated as a search key for the “article genre” field of the
以下、上記構成を有するニュース配信装置1の動作について詳細に説明する。
Hereinafter, the operation of the
[ニュース配信処理全体]
ここでは、ニュース配信処理の全体の流れについて簡単に説明する。
[Whole news distribution process]
Here, the overall flow of the news distribution process will be briefly described.
図6は、ニュース配信処理の動作手順を示すフローチャートである。ニュース配信装置1は、ニュースの配信を希望する利用者(以下、利用者Aとする)から当該利用者Aの利用者IDやパスワードの入力を受け付け、当該利用者Aを特定する(S601)。ついで、記事DB10に格納されている記事の中から、プロファイルDB20に格納されている利用者Aの検索条件に合致する記事を検索する(S602)。検索された記事に、相互に関連する所定数以上の記事が含まれる場合、当該所定数以上の記事が属する関連記事群を記事DB10から抽出し、抽出された関連記事群の要約を生成する(S603)。ついで、ステップS603で生成された要約、およびステップS602で検索されステップS603で要約対象とならなかった記事をレイアウトしてニュースを作成し(S604)、作成されたニュースを利用者Aが使用している利用者端末2に配信する(S605)。そして、記事配信日時を更新する等の利用者Aのプロファイル情報の更新処理を行う(S606)。例えば、図5に示される「最終配信日時」フィールドの情報が更新される。
FIG. 6 is a flowchart showing an operation procedure of news distribution processing. The
なお、上記のステップS602において、検索の対象となる記事は、記事DB10に格納されている複数の記事のうちの一部であってもよいし、全部であってもよい。ただし、ニュース配信を目的とした検索であるので、検索の対象となる記事は、検索当日、検索当日から所定期間内、または最終配信日時以降等の比較的最近の所定期間内であることが望ましい。また、このような検索の時期的条件は、利用者毎の検索条件に設定されていてもよい。
Note that in step S602 described above, the articles to be searched may be a part or all of a plurality of articles stored in the
また、この例では、ステップS604においてニュース配信装置1で記事のレイアウトを行っているが、記事のレイアウトは、利用者端末2側で行われてもよい。
In this example, the
また、ステップS603において関連記事群を要約すると、ステップS604でレイアウトされる記事の分量が変化する。特定の枚数に記事をレイアウトする場合は、要約処理あるいはレイアウト処理後にレイアウト可能な余白領域を求め、これをもとに配信記事を追加する処理(S602〜S604)を繰り返すことも可能である。 When the related article group is summarized in step S603, the amount of articles laid out in step S604 changes. When laying out articles in a specific number, it is also possible to obtain margin areas that can be laid out after summarization processing or layout processing, and repeat the processing of adding distribution articles (S602 to S604) based on this.
[関連記事群要約処理]
図7は、図6のステップS603における関連記事群要約処理の一例を示すフローチャートである。この関連記事群要約処理は、関連記事群抽出部40および記事要約部50により行われる。なお、本実施の形態では、要約はテキストであるとし、以下、要約を要約文と称す。
[Related article summary processing]
FIG. 7 is a flowchart showing an example of related article group summarization processing in step S603 of FIG. This related article group summarization process is performed by the related article group extracting unit 40 and the article summarizing unit 50. In the present embodiment, the summary is text, and the summary is hereinafter referred to as a summary sentence.
まず、関連記事群抽出部40は、ステップS602で検索された各記事のルート記事を特定する(S701)。ある記事のルート記事とは、その記事の元記事を順に辿ってそれ以上辿れなくなる記事を意味し、図2の例では、記事A1、B1、およびC1がこれに該当する。すなわち、図2の記事A1からA50のルート記事はすべて記事A1になり、記事B1からB5のルート記事はすべて記事B1になる。したがって、ルート記事が共通する複数の記事は、相互に関連する複数の記事であると言える。 First, the related article group extraction unit 40 identifies the root article of each article searched in step S602 (S701). The root article of an article means an article that can be traced through the original article of the article in order, and in the example of FIG. 2, articles A1, B1, and C1 correspond to this. That is, all the root articles from articles A1 to A50 in FIG. 2 are articles A1, and all the root articles from articles B1 to B5 are articles B1. Therefore, it can be said that a plurality of articles having a common root article are a plurality of articles related to each other.
ついで、それぞれのルート記事を比較して同一のルート記事を持つ記事の件数を調べ、検索結果中に、相互にルート記事が同一である所定数以上の記事、すなわち相互に関連する所定数以上の記事が存在するか否かを判断する(S702)。 Next, compare each root article to find the number of articles with the same root article, and in the search results, more than a predetermined number of articles with the same root article, that is, more than a predetermined number related to each other. It is determined whether an article exists (S702).
所定数以上の記事が存在すると判断された場合(S702:YES)、ルート記事をもとに、当該所定数以上の記事が属する関連記事群を抽出し(S703)、抽出された関連記事群をもとに要約文を生成する(S704)。そして、検索結果から要約対象となった記事を削除した後(S705)、ステップS702に戻る。 If it is determined that there are more than a predetermined number of articles (S702: YES), a related article group to which the predetermined number or more articles belong is extracted based on the root article (S703). Based on this, a summary sentence is generated (S704). Then, after deleting the article to be summarized from the search result (S705), the process returns to step S702.
一方、所定数以上の記事が存在しないと判断された場合(S702:NO)、処理を終了させる。このように、検索結果に含まれる相互に関連する所定数以上の記事のすべての組について、関連記事群の抽出および要約が行われる。 On the other hand, if it is determined that there are no more than a predetermined number of articles (S702: NO), the process is terminated. In this manner, related article groups are extracted and summarized for all sets of a predetermined number or more of articles related to each other included in the search result.
なお、上記のステップS701におけるルート記事特定処理、ステップS703における関連記事群抽出処理、およびステップS704における要約文生成処理については、それぞれ図8、9、10を参照して以下に詳しく説明する。 The route article specifying process in step S701, the related article group extracting process in step S703, and the summary sentence generating process in step S704 will be described in detail below with reference to FIGS.
図8は、図7のステップS701におけるルート記事特定処理のより詳細な処理例を示すフローチャートである。このルート記事特定処理は、関連記事群抽出部40により行われる。 FIG. 8 is a flowchart showing a more detailed process example of the route article specifying process in step S701 of FIG. This route article specifying process is performed by the related article group extraction unit 40.
まず、関連記事群抽出部40は、ルート記事特定処理の対象となる記事の記事IDを変数idに代入し(S801)、idを記事IDとする記事の元記事IDを取得する(S802)。具体的には、「記事ID」フィールドにidが保持されている「記事情報」レコードを特定し、当該レコードの「元記事ID」フィールドから元記事IDを取得する。ついで、元記事IDが空かどうか、すなわちルート記事であるかどうかを判断し(S803)、空でなければ(S803:NO)、元記事IDを変数idに設定し(S804)、ステップS802に戻る。一方、元記事IDが空の場合(S803:YES)、変数idを記事IDとする記事をルート記事とし(S805)、処理を終了させる。 First, the related article group extraction unit 40 substitutes the article ID of the article that is the target of the root article specifying process into the variable id (S801), and acquires the original article ID of the article that uses id as the article ID (S802). Specifically, the “article information” record whose id is stored in the “article ID” field is specified, and the original article ID is acquired from the “original article ID” field of the record. Next, it is determined whether the original article ID is empty, that is, whether it is a root article (S803). If it is not empty (S803: NO), the original article ID is set to the variable id (S804), and the process goes to step S802. Return. On the other hand, if the original article ID is empty (S803: YES), the article with the variable id as the article ID is set as the root article (S805), and the process is terminated.
図9は、図7のステップS703における関連記事群抽出処理のより詳細な処理例を示すフローチャートである。この関連記事群抽出処理は、関連記事群抽出部40により行われる。 FIG. 9 is a flowchart showing a more detailed processing example of the related article group extraction processing in step S703 of FIG. This related article group extraction processing is performed by the related article group extraction unit 40.
まず、関連記事群抽出部40は、ルート記事に設定されている後続記事IDリストを取得し(S901)、当該リストに含まれる記事IDに対応する記事を、関連記事群を構成する記事として抽出する(S902)。具体的には、ルート記事の「記事情報」レコードの「後続記事IDリスト」フィールドに保持されている記事IDを取得し、この記事IDで識別される記事を抽出する。次に、ステップS901で取得した後続記事リスト中のすべての後続記事に対して、それぞれの後続記事をさらに取得する(S903、S904)。ここで、ステップS904の処理の詳細は、図9の処理である。すなわち、図9の処理は、ステップS904において再帰的に実行され、「後続記事IDリスト」に登録されている記事が、関連記事群を構成する記事として順次抽出される。 First, the related article group extraction unit 40 acquires a subsequent article ID list set in the root article (S901), and extracts articles corresponding to the article IDs included in the list as articles constituting the related article group. (S902). Specifically, the article ID held in the “subsequent article ID list” field of the “article information” record of the root article is acquired, and the article identified by this article ID is extracted. Next, for each subsequent article in the subsequent article list acquired in step S901, each subsequent article is further acquired (S903, S904). Here, the details of the processing in step S904 are the processing in FIG. That is, the process of FIG. 9 is recursively executed in step S904, and articles registered in the “subsequent article ID list” are sequentially extracted as articles constituting a related article group.
図10は、図7のステップS704における要約文生成処理のより詳細な処理例を示すフローチャートである。この要約文生成処理は、記事要約部50により行われる。 FIG. 10 is a flowchart showing a more detailed process example of the summary sentence generation process in step S704 of FIG. This summary sentence generation process is performed by the article summary unit 50.
まず、記事要約部50は、利用者Aのプロファイル情報を参照して、「詳細要約期間」フィールドの値を取得し(S1001)、期間の指定があるか否かを判断する(S1002)。 First, the article summary unit 50 refers to the profile information of the user A, acquires the value of the “detailed summary period” field (S1001), and determines whether a period is specified (S1002).
期間の指定があった場合(S1002:YES)、現在日時等をもとに該当する日時を特定し、これを所定時点tとする(S1003)。例えば、詳細要約期間情報が“24時間”であった場合は、現在日時の24時間前が所定時点tとなる。また、“最終配信日時以降”が指定されていた場合は、利用者Aのプロファイル情報を参照して「最終配信日時」フィールドの値が所定時点tとなる。次に、要約対象の関連記事群に属する複数の記事のうち、所定時点t以前に登録された記事を取得して(S1004)、これらに対する要約処理を行う(S1005)。さらに、関連記事群に属する複数の記事のうち、所定時点t後に登録された記事を取得して(S1006)、これらに対する要約処理を行う(S1007)。ここで、ステップS1005の要約処理では、ステップS1007の要約処理と比べて、簡易な要約文が生成される。例えば、ルート記事の見出し部分のみを要約文としたり、ルート記事の最初の文や段落のみを要約文としたりできる。 When the period is specified (S1002: YES), the corresponding date and time is specified based on the current date and time, and this is set as a predetermined time t (S1003). For example, when the detailed summary period information is “24 hours”, the predetermined time t is 24 hours before the current date and time. If “after the last delivery date and time” is specified, the value of the “last delivery date and time” field becomes the predetermined time t with reference to the profile information of the user A. Next, among a plurality of articles belonging to the related article group to be summarized, articles registered before a predetermined time t are acquired (S1004), and summary processing is performed on these articles (S1005). Further, among a plurality of articles belonging to the related article group, articles registered after a predetermined time t are acquired (S1006), and summary processing is performed on these articles (S1007). Here, the summary process in step S1005 generates a simple summary sentence as compared with the summary process in step S1007. For example, only the heading part of the root article can be used as a summary sentence, or only the first sentence or paragraph of the root article can be used as a summary sentence.
一方、期間が指定されていなかった場合は(S1002:NO)、要約対象の関連記事群に属する全記事を取得して(S1008)、これらに対する要約処理を行う(S1009)。 On the other hand, if the period has not been designated (S1002: NO), all articles belonging to the related article group to be summarized are acquired (S1008), and summary processing is performed on these articles (S1009).
[ニュース作成処理]
図11は、図6のステップS604におけるニュース作成処理の一例を示すフローチャートである。このニュース作成処理は、ニュース作成部60により行われる。
[News creation process]
FIG. 11 is a flowchart showing an example of the news creation process in step S604 of FIG. This news creation process is performed by the
まず、ニュース作成部60は、ステップS603で生成された要約文、または、ステップS602で検索されステップS603で要約対象とならなかった記事の中から、レイアウトが完了していないものを一つ選択する(S1101)。
First, the
選択されたものが記事である場合(S1102:NO)、当該記事に対するレイアウト(ページ上への割り付け)処理を行い(S1106)、後述するステップS1107に移行する。 If the selected item is an article (S1102: NO), a layout (allocation on the page) process is performed for the article (S1106), and the process proceeds to step S1107 to be described later.
一方、選択されたものが要約文である場合(S1102:YES)、ステップS1005で生成された簡易要約部分をレイアウトし(S1103)、次にステップS1007で生成された通常要約部分をレイアウトする(S1104)。さらに、当該部分が要約文である旨を示す情報をレイアウトする(S1105)。 On the other hand, if the selected sentence is a summary sentence (S1102: YES), the simplified summary part generated in step S1005 is laid out (S1103), and then the normal summary part generated in step S1007 is laid out (S1104). ). Furthermore, information indicating that the part is a summary sentence is laid out (S1105).
ステップS1107では、すべての要約文および記事についてレイアウト処理が終了したか否かを判断する。そして、すべてについて終了していない場合は(S1107:NO)、ステップS1101に戻り、すべてについて終了した場合は(S1107:YES)、処理を終了させる。すなわち、上記の処理(S1101〜1106)は、すべての記事および要約文に対して行われる。 In step S1107, it is determined whether layout processing has been completed for all summary sentences and articles. Then, when all the processes are not completed (S1107: NO), the process returns to step S1101, and when all the processes are completed (S1107: YES), the process is terminated. That is, the above processing (S1101 to 1106) is performed for all articles and summary sentences.
ここで、複数の記事群から生成された複数の要約部分は、それぞれの時系列の順番に応じた表示形態でレイアウトされることが好ましい。上記の例では、簡易要約部分と通常要約部分とは、異なる表示形態でレイアウトされることが好ましい。 Here, it is preferable that a plurality of summary portions generated from a plurality of article groups are laid out in a display form corresponding to the order of each time series. In the above example, the simplified summary portion and the normal summary portion are preferably laid out in different display forms.
図12は、上記のとおりニュース作成部60により作成されたニュース(記事レイアウト)の一例を示す図である。図12では、印刷された用紙1200に、タイトル、配信日等の情報と、一以上の記事および要約文がレイアウトされている。ここで、領域1201には、要約文がレイアウトされている。具体的には、領域1201には、見出し部分と、ステップS1005で生成され、ステップS1103でレイアウトされた簡易要約部分と、ステップS1007で生成され、ステップS1104でレイアウトされた通常要約部分と、要約文であることを示す標識1202がレイアウトされている。ここで、簡易要約部分は、通常要約部分よりも小さな文字サイズで表示されている。
FIG. 12 is a diagram illustrating an example of news (article layout) created by the
上記のとおり作成されたニュースは、ニュース配信部70により利用者Aに配信されることとなる。
The news created as described above is distributed to the user A by the
以上説明した本実施の形態によれば、以下の効果が得られる。 According to the present embodiment described above, the following effects can be obtained.
(1)本実施の形態では、複数の記事の中から所定の検索条件に合致する記事を検索する。そして、検索された記事が属する、相互に関連する複数の記事からなる関連記事群を抽出し、抽出された関連記事群の要約を生成する。このため、本実施の形態によれば、複数の記事の中から所定の検索条件に合致する記事を検索した場合において、その記事が属する関連記事群の要約を得ることができ、当該関連記事群の全体像の把握を容易化することができる。また、得られた要約をニュースに掲載することにより、複数の記事の中から配信候補として所定の検索条件に合致する記事を検索するニュース配信装置において、検索された記事が属する関連記事群の全体像の把握が容易なニュースを利用者に配信することができる。 (1) In this embodiment, an article that matches a predetermined search condition is searched from a plurality of articles. Then, a related article group including a plurality of mutually related articles to which the searched article belongs is extracted, and a summary of the extracted related article group is generated. Therefore, according to the present embodiment, when an article that matches a predetermined search condition is searched from a plurality of articles, a summary of the related article group to which the article belongs can be obtained. It is possible to facilitate the grasp of the whole image. Moreover, in the news distribution apparatus that searches for articles that match a predetermined search condition as distribution candidates among a plurality of articles by posting the obtained summary in the news, the entire related article group to which the searched articles belong It is possible to distribute news that allows easy grasp of images to users.
また、別の見方をすれば、キーワード検索等で取得できなかった他の関連記事を含めた要約を生成することができるので、比較的少量の文章であっても内容を理解し易い要約を提供することが可能となる。 From another perspective, it is possible to generate summaries that include other related articles that could not be obtained by keyword search, etc., so that even a relatively small amount of text can be easily understood. It becomes possible to do.
(2)複数の記事の各々に、当該記事が属する、予め相互に関連付けられた複数の記事からなる記事群を特定するための属性情報を付与しておき、検索された記事に付与された属性情報に基づいて、当該記事が属する上記記事群を関連記事群として抽出する。このため、相互に関連を有する複数の記事からなる記事群を予め定義しておき、定義された記事群に属する記事が検索された場合に、当該定義された記事群を関連記事群として確実に抽出することができる。したがって、図2の記事群A1〜A50や記事群B1〜B5といった記事群を適切に設定することにより、適切な記事群を関連記事群として抽出することができる。例えば、図2において、記事A40が検索された場合に、関連記事群から記事A1〜A10が漏れるといった不都合や、関連記事群に記事B3やC1が含まれてしまうといった不都合が生じない。 (2) Attribute information for identifying an article group consisting of a plurality of articles that are associated with each other in advance and belong to each of the plurality of articles is assigned to the searched article. Based on the information, the article group to which the article belongs is extracted as a related article group. For this reason, an article group consisting of a plurality of articles related to each other is defined in advance, and when an article belonging to the defined article group is searched, the defined article group is reliably set as a related article group. Can be extracted. Therefore, an appropriate article group can be extracted as a related article group by appropriately setting an article group such as the article group A1 to A50 or the article group B1 to B5 in FIG. For example, in FIG. 2, when the article A40 is searched, there is no inconvenience that the articles A1 to A10 are leaked from the related article group, and that the related article group includes the articles B3 and C1.
(3)関連記事群に属する複数の記事を、時系列順に従って複数の記事群に分け、各記事群を要約して複数の要約部分からなる要約を生成するので、一連の出来事の流れを容易に把握することが可能な要約を生成することができる。 (3) Multiple articles belonging to related articles are divided into multiple articles in chronological order, and each article is summarized to generate a summary consisting of multiple summaries, facilitating a series of events. A summary that can be grasped can be generated.
このことについて、ある事件の関連記事群に属する記事の登録日が2004年1月1日(事件発生日)から2004年2月20日(ニュース配信日)までの範囲にある場合を例にとって具体的に説明する。この場合、これらの記事は当該事件に関する一連の記事ではあるが、事件発生日頃の記事とニュース配信日頃の記事とでは、その内容が大きく違うものと考えられる。したがって、これらの関連記事群を一括して要約しただけでは、事件の推移を把握することができない。あるいは、事件の推移を理解し易い要約を生成しようとした場合、高度な要約アルゴリズムの使用が必要となり、ニュース配信装置側の処理の負荷が過大となってしまう。これに対し、本実施の形態では、関連記事群を、例えば、1月1日〜1月15日の記事群、1月16日〜1月31日の記事群、2月1日〜2月10日の記事群、および2月11日〜2月20日の記事群に分け、各記事群を要約して複数の要約部分からなる要約を生成する。このため、処理負荷が過大となってしまうことを避けつつ、事件の推移を理解し易い要約を生成することができる。このとき、各要約部分に日付や期間といった時間情報を含ませれば、いつ何が起こったかを容易に把握できる要約を生成することができる。また、レイアウト時に、複数の要約部分は、時系列順に配置されることが好ましい。 Regarding this, a case where the registration date of an article belonging to a related article group of a certain case is in a range from January 1, 2004 (case occurrence date) to February 20, 2004 (news distribution date) is taken as an example. I will explain it. In this case, these articles are a series of articles related to the case, but the contents of the articles around the date of the incident and the articles around the news distribution date are considered to be significantly different. Therefore, it is not possible to grasp the transition of incidents simply by summarizing these related articles. Alternatively, when an attempt is made to generate an easy-to-understand summary of incident transitions, it is necessary to use an advanced summary algorithm, and the processing load on the news distribution apparatus becomes excessive. On the other hand, in this embodiment, the related article group is, for example, an article group from January 1 to January 15; an article group from January 16 to January 31; and February 1 to February. The article group is divided into an article group of 10 days and an article group of February 11 to February 20, and each article group is summarized to generate a summary composed of a plurality of summary parts. For this reason, it is possible to generate a summary that makes it easy to understand the transition of an incident while avoiding an excessive processing load. At this time, if time information such as date and period is included in each summary part, it is possible to generate a summary that can easily grasp what happened. Also, at the time of layout, it is preferable that the plurality of summary portions are arranged in chronological order.
(4)関連記事群を時系列順に従って複数の記事群に分け、各記事群をそれぞれの時系列の順番に応じた要約方法で要約するので、記事の新旧に応じた適切な要約を行うことができる。例えば、比較的新しい記事については比較的詳細な要約の提供が望まれ、比較的古い記事については比較的簡易な要約の提供が望まれるといった事情を考慮して、要約を生成することができる。 (4) The related article group is divided into a plurality of article groups according to the time series order, and each article group is summarized by the summarization method according to the order of each time series. Can do. For example, it is possible to generate a summary in consideration of a situation where a relatively detailed summary is desired for a relatively new article and a relatively simple summary is desired for a relatively old article.
(5)検索結果中に相互に関連する所定数以上の記事が含まれる場合に、当該所定数以上の記事が属する関連記事群を抽出するので、相互に関連する記事が所定数以上検索された場合に限って、関連記事群抽出処理および記事要約処理を行うことができ、処理負荷を軽減することができる。 (5) When a predetermined number or more of articles related to each other are included in the search result, a related article group to which the predetermined number or more of articles belong is extracted, so that a predetermined number or more of articles related to each other are searched. Only in cases, the related article group extraction process and the article summary process can be performed, and the processing load can be reduced.
以上、本発明の実施の形態について説明したが、本発明が上記の実施の形態に限定されないことは言うまでもない。 As mentioned above, although embodiment of this invention was described, it cannot be overemphasized that this invention is not limited to said embodiment.
例えば、本発明に係る記事要約装置は、ニュース配信以外の用途についても適用可能である。例えば、利用者が、記事データベースにアクセスし、キーワード検索で記事を検索した場合において、検索された記事とともに関連記事群全体の要約が検索結果として利用者に提供されれば、利用者にとって非常に便利である。 For example, the article summary device according to the present invention can be applied to uses other than news distribution. For example, when a user accesses an article database and searches for an article by keyword search, if a summary of the entire related article group is provided to the user as a search result together with the searched article, it is very much for the user. Convenient.
また、記事は、ニュース記事に限られず、雑誌等の他の記事であってもよい。 Further, the article is not limited to a news article, but may be another article such as a magazine.
また、上記の実施の形態では、記事に付与された属性情報に基づいて関連記事群を抽出するが、関連記事群の抽出は、他の方法で行われてもよい。例えば、検索された記事と記事DB10の他の記事との類似度を算出し、類似度が所定値以上の記事を関連記事群として抽出することができる。なお、この場合、図2において、記事A20が検索された場合、必ずしも記事A1〜A50が抽出されるとは限らない。
In the above embodiment, the related article group is extracted based on the attribute information given to the article, but the extraction of the related article group may be performed by other methods. For example, the degree of similarity between the searched article and another article in the
1 ニュース配信装置、2 利用者端末、3 ネットワーク、10 記事DB、20 プロファイルDB、30 記事検索部、40 関連記事群抽出部、50 記事要約部、60 ニュース作成部、70 ニュース配信部。 1 news distribution device, 2 user terminal, 3 network, 10 article DB, 20 profile DB, 30 article search section, 40 related article group extraction section, 50 article summary section, 60 news creation section, 70 news distribution section.
Claims (14)
当該記事取得手段により取得された複数の記事の中から、予め設定された検索条件に合致する記事を検索する記事検索手段と、
当該記事検索手段により検索された記事が属する、相互に関連する複数の記事からなる関連記事群を、前記複数の記事の中から抽出する関連記事群抽出手段と、
当該関連記事群抽出手段により抽出された関連記事群の要約を生成する記事要約手段と、
を有することを特徴とする記事要約装置。 Article acquisition means for acquiring a plurality of articles;
Article search means for searching for articles that match a preset search condition from among a plurality of articles acquired by the article acquisition means;
Related article group extracting means for extracting a related article group consisting of a plurality of mutually related articles to which the article searched by the article search means belongs,
Article summary means for generating a summary of related article groups extracted by the related article group extraction means;
An article summarizing apparatus characterized by comprising:
前記複数の記事の各々には、当該記事が属する、予め相互に関連付けられた複数の記事からなる記事群を特定するための属性情報が付与されており、
前記関連記事群抽出手段は、前記検索された記事に付与された属性情報に基づいて、当該記事が属する前記記事群を関連記事群として抽出することを特徴とする記事要約装置。 The article summary device according to claim 1,
Each of the plurality of articles is provided with attribute information for specifying an article group including a plurality of articles associated with each other in advance, to which the article belongs,
The related article group extracting means extracts the article group to which the article belongs as a related article group based on attribute information given to the searched article.
前記記事要約手段は、前記関連記事群に属する複数の記事を、時系列順に従って複数の記事群に分け、各記事群を要約して複数の要約部分からなる要約を生成することを特徴とする記事要約装置。 The article summarization apparatus according to claim 1 or 2,
The article summarizing means divides a plurality of articles belonging to the related article group into a plurality of article groups in time series order, and summarizes each article group to generate a summary including a plurality of summary parts. Article summary device.
前記記事要約手段は、前記各記事群をそれぞれの時系列の順番に応じた要約方法で要約することを特徴とする記事要約装置。 The article summary device according to claim 3,
The article summarizing means summarizes each article group by a summarizing method according to the order of each time series.
前記記事要約手段は、所定時点以前の記事群について、所定時点後の記事群よりも簡易な要約部分を生成することを特徴とする記事要約装置。 The article summary device according to claim 4,
The article summarizing unit generates a summary part simpler than an article group after a predetermined time point for an article group before a predetermined time point.
前記関連記事群抽出手段は、前記検索された記事間の関連の有無を判定し、前記検索結果中に相互に関連する所定数以上の記事が含まれる場合に、当該所定数以上の記事が属する関連記事群を抽出することを特徴とする記事要約装置。 The article summary device according to any one of claims 1 to 5,
The related article group extracting means determines whether or not there is a relation between the searched articles, and if the search result includes a predetermined number or more related articles, the predetermined number or more of the articles belong. An article summarization apparatus characterized by extracting a related article group.
前記記事要約手段により生成された要約が掲載されたニュースを作成するニュース作成手段と、
を有することを特徴とするニュース作成装置。 The article summary device according to any one of claims 1 to 6,
News creation means for creating news on which the summary generated by the article summary means is posted;
A news creation apparatus characterized by comprising:
前記記事要約手段によって生成された複数の要約部分を、それぞれの時系列の順番に応じた表示形態でレイアウトし、複数の要約部分からなる要約が掲載されたニュースを作成するニュース作成手段と、
を有することを特徴とするニュース作成装置。 The article summary device according to any one of claims 3 to 5,
A plurality of summary parts generated by the article summary means are laid out in a display form corresponding to the order of each time series, and a news creation means for creating a news on which a summary composed of a plurality of summary parts is posted;
A news creation apparatus characterized by comprising:
前記記事要約手段により生成された要約、および、前記検索された記事のうち前記所定数以上の記事以外の記事が掲載されたニュースを作成するニュース作成手段と、
を有することを特徴とするニュース作成装置。 The article summary device according to claim 6;
A news creation means for creating a summary generated by the article summarizing means and news in which articles other than the predetermined number or more of the searched articles are posted;
A news creation apparatus characterized by comprising:
前記ニュース作成手段は、前記要約または記事を所定ページ数内にレイアウトすることを特徴とするニュース作成装置。 The news creation device according to any one of claims 7 to 9,
The news creation device, wherein the news creation means lays out the summary or article within a predetermined number of pages.
前記記事検索手段は、前記ニュースが配信される利用者毎に設定された検索条件に基づいて利用者毎に記事を検索し、
前記ニュース作成手段は、利用者毎にニュースを作成することを特徴とするニュース作成装置。 The news creation device according to any one of claims 7 to 10,
The article search means searches for articles for each user based on search conditions set for each user to whom the news is distributed,
The news creation device, wherein the news creation means creates news for each user.
当該ニュース作成装置により作成されたニュースを利用者に配信するニュース配信手段と、
を有することを特徴とするニュース配信装置。 The news creation device according to any one of claims 7 to 11,
News distribution means for distributing news created by the news creation device to users;
A news distribution apparatus comprising:
複数の記事を取得する記事取得ステップと、
当該記事取得ステップで取得された複数の記事の中から、予め設定された検索条件に合致する記事を検索する記事検索ステップと、
当該記事検索ステップで検索された記事が属する、相互に関連する複数の記事からなる関連記事群を、前記複数の記事の中から抽出する関連記事群抽出ステップと、
当該関連記事群抽出ステップで抽出された関連記事群の要約を生成する記事要約ステップと、
を有することを特徴とする記事要約方法。 An article summarization method executed by an article summarization apparatus,
An article acquisition step for acquiring multiple articles;
An article search step for searching for articles that match a preset search condition from a plurality of articles acquired in the article acquisition step;
A related article group extracting step of extracting a related article group consisting of a plurality of mutually related articles to which the article searched in the article searching step belongs;
An article summary step for generating a summary of the related article group extracted in the related article group extraction step;
An article summarizing method characterized by comprising:
複数の記事を取得する記事取得ステップと、
当該記事取得ステップで取得された複数の記事の中から、予め設定された検索条件に合致する記事を検索する記事検索ステップと、
当該記事検索ステップで検索された記事が属する、相互に関連する複数の記事からなる関連記事群を、前記複数の記事の中から抽出する関連記事群抽出ステップと、
当該関連記事群抽出ステップで抽出された関連記事群の要約を生成する記事要約ステップと、
を実行させることを特徴とする記事要約プログラム。 On the computer,
An article acquisition step for acquiring multiple articles;
An article search step for searching for articles that match a preset search condition from a plurality of articles acquired in the article acquisition step;
A related article group extracting step of extracting a related article group consisting of a plurality of mutually related articles to which the article searched in the article searching step belongs;
An article summary step for generating a summary of the related article group extracted in the related article group extraction step;
An article summarization program characterized in that it is executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004057583A JP2005250648A (en) | 2004-03-02 | 2004-03-02 | Article summarizing device and news distributing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004057583A JP2005250648A (en) | 2004-03-02 | 2004-03-02 | Article summarizing device and news distributing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005250648A true JP2005250648A (en) | 2005-09-15 |
Family
ID=35031093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004057583A Pending JP2005250648A (en) | 2004-03-02 | 2004-03-02 | Article summarizing device and news distributing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005250648A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007140951A (en) * | 2005-11-18 | 2007-06-07 | Nippon Telegr & Teleph Corp <Ntt> | Data editing device and its program |
KR20150076341A (en) * | 2013-12-26 | 2015-07-07 | 주식회사 케이티 | Apparatus and method for creating summary of news |
JP2016081308A (en) * | 2014-10-16 | 2016-05-16 | ココロプラン株式会社 | Compacted information provision system |
JP2018147411A (en) * | 2017-03-08 | 2018-09-20 | 株式会社Spectee | Data processing device, data processing method, data processing system, and program |
-
2004
- 2004-03-02 JP JP2004057583A patent/JP2005250648A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007140951A (en) * | 2005-11-18 | 2007-06-07 | Nippon Telegr & Teleph Corp <Ntt> | Data editing device and its program |
JP4550723B2 (en) * | 2005-11-18 | 2010-09-22 | 日本電信電話株式会社 | Data editing apparatus and its program |
KR20150076341A (en) * | 2013-12-26 | 2015-07-07 | 주식회사 케이티 | Apparatus and method for creating summary of news |
KR102205793B1 (en) * | 2013-12-26 | 2021-01-21 | 주식회사 케이티 | Apparatus and method for creating summary of news |
JP2016081308A (en) * | 2014-10-16 | 2016-05-16 | ココロプラン株式会社 | Compacted information provision system |
JP2018147411A (en) * | 2017-03-08 | 2018-09-20 | 株式会社Spectee | Data processing device, data processing method, data processing system, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8656266B2 (en) | Identifying comments to show in connection with a document | |
US9779122B2 (en) | Optimizing a content index for target audience queries | |
US9165085B2 (en) | System and method for publishing aggregated content on mobile devices | |
CN101916252B (en) | Navigation of the content space of a document set | |
EP2130115B1 (en) | Searching and indexing on a user device | |
US9251130B1 (en) | Tagging annotations of electronic books | |
US7634632B2 (en) | Aggregating data from different sources | |
CN101796795B (en) | Distributed system | |
US9495457B2 (en) | Batch crawl and fast crawl clusters for question and answer search engine | |
US20090094189A1 (en) | Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content | |
US20200218726A1 (en) | Search results based on subscription information | |
US9934224B2 (en) | Document editor with research citation insertion tool | |
US8001154B2 (en) | Library description of the user interface for federated search results | |
US9361384B2 (en) | Image extraction service for question and answer search engine | |
JP2008507041A (en) | Personalize the ordering of place content in search results | |
JP5555809B2 (en) | System and method for television search assistant | |
CN101404017A (en) | Intelligently sorted search results | |
JP2008089717A (en) | Content distribution apparatus, method, and program | |
CN107870915B (en) | Indication of search results | |
US8473487B1 (en) | Document search in affiliated libraries | |
US20150186514A1 (en) | Central aggregator architechture for question and answer search engine | |
JP2002288214A (en) | Search system and search service | |
US20070271245A1 (en) | System and method for searching a database | |
KR20190109628A (en) | Method for providing personalized article contents and apparatus for the same | |
JP2005250648A (en) | Article summarizing device and news distributing device |