JP2006139599A - Information distribution device, system, program, and method - Google Patents
Information distribution device, system, program, and method Download PDFInfo
- Publication number
- JP2006139599A JP2006139599A JP2004329497A JP2004329497A JP2006139599A JP 2006139599 A JP2006139599 A JP 2006139599A JP 2004329497 A JP2004329497 A JP 2004329497A JP 2004329497 A JP2004329497 A JP 2004329497A JP 2006139599 A JP2006139599 A JP 2006139599A
- Authority
- JP
- Japan
- Prior art keywords
- data
- character string
- tag
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、コンピュータネットワーク上で公開されているニュース等の記事(本来「記事」とは、主として事実を忠実に記述した文章をいうが、ここでは内容が事実であるか否かは問わないものとする。)の中から利用者の目的に合致した記事を収集して配信する情報配信装置、情報配信システム、情報配信プログラムおよび情報配信方法に関する。 The present invention is an article such as news published on a computer network (originally "article" is mainly a sentence that faithfully describes the fact, but here it does not matter whether the content is fact or not. In particular, the present invention relates to an information distribution apparatus, an information distribution system, an information distribution program, and an information distribution method for collecting and distributing articles that match a user's purpose.
インターネット上ではワールドワイドウェブ(WWW;World Wide Web)システムを使って多くの記事が日々公開されている。このインターネット上で配信されている記事の量は莫大なものであり、各利用者が目的とする記事以外の記事も多く含んでいる。そこで、例えば、マスコミ各社のホームページや、ヤフージャパン(Yahoo! JAPAN)やグー(Goo)などの各大手ポータルサイトのホームページなどでは、キーワードを入力することによって利用者の目的に合致した記事を検索可能にしている。 Many articles are published every day on the Internet using the World Wide Web (WWW) system. The amount of articles distributed on the Internet is enormous and includes many articles other than articles intended by each user. So, for example, you can search for articles that match the user's purpose by entering keywords on the homepages of the media companies or the homepages of major portal sites such as Yahoo! JAPAN and Goo. I have to.
また、近年では、この多くの記事の中から、利用者の特定の目的に合致した記事のみの配信を受けたいという要求が多い。例えば、特許文献1には、利用者のメールアドレスとニュース情報の検索ワード等をコンピュータに登録しておき、この検索ワード等に基づいて世界各国のニュースの中からニュース情報を選別して収集し、これらのニュース情報を所定時間内において随時振り分けて電子メールにより配信する技術が記載されている。
In recent years, there are many requests for receiving only articles that meet a specific purpose of the user from among these many articles. For example, in
特許文献1では、ニュース情報の対象はTVニュース、通信社からの情報、新聞記事、雑誌情報、会社発表、証券取引市場の情報などであり、ニュース情報はこれらの情報の中から予め抽出され、コンピュータデータ化されたものである旨記載されている。このようなニュース情報は、配信用に手作業により予めフォーマットされたものであれば容易に検索ワード等に基づいて選別して配信することは可能である。
In
ところが、既存のインターネット上でウェブ(Web)ページにより公開されている記事から利用者の目的に合致した記事を自動的に収集して配信することは容易ではない。インターネット上でニュース記事を公開するウェブページは、ハイパーテキストマークアップランゲージ(HTML;HyperText Markup Language)というマークアップ言語を使用して書かれている。マークアップ言語とは、文書の一部を「タグ」と呼ばれる特別な文字列で囲うことにより、文書の構造や、修飾情報を、文書中に記述していく記述言語である。 However, it is not easy to automatically collect and distribute articles that match the user's purpose from articles published on a web page on the existing Internet. Web pages for publishing news articles on the Internet are written using a markup language called Hyper Text Markup Language (HTML). The markup language is a description language in which a part of a document is surrounded by a special character string called “tag” to describe the structure of the document and modification information in the document.
ウェブページが記事の内容を示す文字列のみから構成されるものであれば、自動的にこの記事の内容を示す文字列の中から利用者の目的に合致した記事の文字列を収集し、配信用にフォーマットして配信することは容易である。ところが、上記のように実際には記事を公開するウェブページには、記事の内容を示す文字列だけでなく、その文章の構造等を記述するためのタグを示す文字列を含む。そのため、記事の文章を示す一連の文字列の中にタグを示す文字列が混在することになり、この中から利用者の目的に合致した記事を自動的に収集し、配信することは困難である。 If the web page consists of only the character string indicating the content of the article, automatically collect and distribute the character string of the article that matches the purpose of the user from the character string indicating the content of this article. It is easy to format for distribution. However, as described above, a web page that actually publishes an article includes not only a character string indicating the content of the article but also a character string indicating a tag for describing the structure of the sentence. For this reason, a string that indicates a tag is mixed in a series of character strings that indicate the text of an article, and it is difficult to automatically collect and distribute articles that match the user's purpose. is there.
そこで、本発明においては、インターネットやイントラネット等のコンピュータネットワーク上でウェブページにより公開されているニュース等の記事の中から利用者の目的に合致した記事を自動的に収集して配信することが可能な情報配信装置、情報配信システム、情報配信プログラムおよび情報配信方法を提供することを目的とする。 Therefore, in the present invention, it is possible to automatically collect and distribute articles that meet the user's purpose from articles such as news published on a web page on a computer network such as the Internet or an intranet. An object is to provide an information distribution apparatus, an information distribution system, an information distribution program, and an information distribution method.
本発明の情報配信装置は、コンピュータネットワーク上で公開されている記事を含むウェブページのURL(ユーアールエル;ユニフォームリソースロケーター(Uniform Resource Locator))を記憶するURL記憶手段と、利用者ごとにキーワードおよび配信先の電子メールアドレスを記憶する利用者情報記憶手段と、URL記憶手段に記憶されたURLに基づいて記事を含むウェブページのデータを収集するデータ収集手段と、データ収集手段により収集したデータを蓄積するデータ蓄積手段と、データ蓄積手段に蓄積したデータの中でタグを示す文字列を除いて利用者情報記憶手段に記憶されたキーワードが含まれる部分およびこの部分の前後それぞれ所定文字数分の文字列データを抽出するデータ抽出手段と、データ抽出手段により抽出した文字列データを結合して文章化するデータ結合手段と、データ結合手段により文章化した文章データを含む電子メールを作成するメール作成手段と、メール作成手段により作成した電子メールを利用者情報記憶手段に配信先として記憶された電子メールアドレス宛てに送信するメール送信手段とを有するものである。 The information distribution apparatus according to the present invention includes URL storage means for storing a URL of a web page including an article published on a computer network (URL; Uniform Resource Locator), a keyword for each user, User information storage means for storing the e-mail address of the delivery destination, data collection means for collecting data of web pages including articles based on the URL stored in the URL storage means, and data collected by the data collection means The data storage means to be stored, the part of the data stored in the data storage means that includes the keyword stored in the user information storage means except for the character string indicating the tag, and the characters for a predetermined number of characters before and after this part Extracted by data extraction means for extracting column data and data extraction means Data combining means for combining character string data into text, mail creating means for creating an e-mail containing text data documented by the data combining means, and user information storage means for creating the e-mail by the mail creating means And e-mail transmitting means for transmitting to an e-mail address stored as a delivery destination.
また、本発明の情報配信方法は、コンピュータネットワーク上で公開されている記事を含むウェブページのデータを収集するデータ収集ステップと、データ収集ステップにより収集したデータを蓄積するデータ蓄積ステップと、データ蓄積ステップにより蓄積したデータの中でタグを示す文字列を除いて利用者ごとのキーワードが含まれる部分およびこの部分の前後それぞれ所定文字数分の文字列データを抽出するデータ抽出ステップと、データ抽出ステップにより抽出した文字列データを結合して文章化するデータ結合ステップと、データ結合ステップにより文章化した文章データを含む電子メールを作成するメール作成ステップと、メール作成ステップにより作成した電子メールを利用者ごとの配信先の電子メールアドレス宛てに送信するメール送信ステップとを含む。 The information distribution method of the present invention includes a data collection step for collecting data of a web page including articles published on a computer network, a data accumulation step for accumulating data collected by the data collection step, and a data accumulation A data extraction step for extracting a character string data corresponding to a predetermined number of characters before and after the portion including the keyword for each user except the character string indicating the tag in the data accumulated in the step, and the data extraction step A data merging step that combines the extracted character string data into a sentence, a mail creation step that creates an e-mail containing sentence data transcribed by the data merging step, and an e-mail created by the mail creation step for each user Send to the email address of the destination And a mail transmitting step.
上記本発明の情報配信装置および情報配信方法によれば、コンピュータネットワーク上でウェブページにより公開されている記事が収集され、この収集されたウェブページのデータの中でタグを示す文字列を除いてキーワードが含まれる部分およびこの部分の前後それぞれ所定文字数分の文字列データが抽出され、文章化されて、文章データを含む電子メールとして利用者ごとの配信先の電子メールアドレス宛てに送信される。この電子メールに含まれる文章データは、キーワードを中心としてタグの部分を除く前後所定文字数分の記事部分の文字列により構成されるので、この電子メールを受信した利用者は、この前後所定文字数分の文字列により記事の内容を把握することが可能となる。なお、タグを示す文字列を含めて前後所定文字数分の文字列を抽出して文章化した場合には、記事部分の文字列がタグを示す文字列分少なくなるので、記事の内容を把握することはできなくなる。 According to the information distribution apparatus and the information distribution method of the present invention, articles published on a web page on a computer network are collected, and a character string indicating a tag is excluded from data of the collected web page. Character string data corresponding to a predetermined number of characters is extracted from the part including the keyword and before and after this part, and is converted into a sentence, which is sent as an e-mail containing the sentence data to the e-mail address of the distribution destination for each user. Since the text data included in this e-mail is composed of a character string of a predetermined number of characters before and after the tag portion with the keyword at the center, the user who has received this e-mail It becomes possible to grasp the content of the article by the character string. In addition, if a character string of a predetermined number of characters before and after including a character string indicating a tag is extracted and converted into a sentence, the character string of the article part is reduced by the character string indicating the tag, so the content of the article is grasped I can't do that.
ここで、タグを示す文字列とは、例えば、W3C(ダブリュースリーシー(WWWコンソーシアム;World Wide Web Consortium))が作成している規格であるマークアップ言語の一つであるHTMLにより記述されるウェブページにおいて、要素の位置を明示し、属性を収納するために記述される文字列である。タグには、開始タグ、終了タグ、空要素タグの種類がある。いずれのタグも、HTMLでは大なり記号「<」と小なり記号「>」とにより囲まれたものである。すなわち、タグを示す文字列とは、この大なり記号「<」および小なり記号「>」により囲まれた部分の文字列を指す。 Here, the character string indicating the tag is, for example, a web described in HTML which is one of markup languages which is a standard created by W3C (WWW Consortium). This is a character string that is described to clearly indicate the position of an element and store attributes in a page. The tag includes a start tag, an end tag, and an empty element tag. Each tag is surrounded by a greater-than symbol “<” and a less-than symbol “>” in HTML. That is, the character string indicating the tag indicates a character string in a portion surrounded by the greater-than symbol “<” and the less-than symbol “>”.
また、タグを示す文字列以外にも、空白を示す文字列は記事の内容を把握するためには不要であるため、データ抽出手段は、タグを示す文字列に加えて空白を示す文字列を除くものであることが望ましい。これにより、電子メールに含まれる文章データは、キーワードを中心としてタグの部分および空白の文字列を除く前後所定文字数分の記事部分の文字列により構成されるので、この電子メールを受信した利用者は、記事の内容を把握するのに不要な空白を示す文字列を除くキーワードの前後所定文字数分の文字列により記事の内容を把握することが可能となる。 In addition to the character string indicating the tag, since the character string indicating the blank is not necessary for grasping the content of the article, the data extracting means adds the character string indicating the blank in addition to the character string indicating the tag. It is desirable to exclude. As a result, the text data included in the e-mail is composed of the character string of the article part for a predetermined number of characters before and after the tag part and blank character string, with the keyword as the center, so that the user who received this e-mail Makes it possible to grasp the content of an article by a character string of a predetermined number of characters before and after a keyword excluding a character string indicating a blank unnecessary for grasping the content of the article.
また、メール作成手段は、データ蓄積手段に蓄積したデータの中でデータ抽出手段により抽出したキーワードを含む文字列を開始タグおよび終了タグにより囲んで形成しているリンクタグからリンク先のURLを取得して電子メールに含めるものであることが望ましい。これにより、前述のように電子メールに含めて送信するキーワードを含む文章データに、このキーワードに関連するウェブページのリンク先のURLが含まれるので、この電子メールを受信した利用者は、文章データにより記事の内容を把握することができることに加えて、このリンク先のURLによりその記事の出所となるウェブページを閲覧することが可能となる。なお、開始タグおよび終了タグにより囲んで形成しているリンクタグとは、リンクを設定するためのタグであり、例えば、HTMLでは、開始タグ「<a href="(リンク先のURL)">」と終了タグ「</a>」とにより囲んで形成される。 Further, the mail creation means obtains the link destination URL from the link tag formed by enclosing the character string including the keyword extracted by the data extraction means among the data stored in the data storage means with the start tag and the end tag. And should be included in the email. Thus, as described above, the text data including the keyword to be included and transmitted in the e-mail includes the URL of the link destination of the web page related to this keyword. In addition to being able to grasp the content of the article, it is possible to browse the web page that is the source of the article by the URL of the link destination. The link tag enclosed by the start tag and the end tag is a tag for setting a link. For example, in HTML, the start tag “<a href="(URL of link destination)”> "And an end tag" </a> ".
本発明の情報配信プログラムは、コンピュータを、コンピュータネットワーク上で公開されている記事を含むウェブページのURLを記憶するURL記憶手段と、利用者ごとにキーワードおよび配信先の電子メールアドレスを記憶する利用者情報記憶手段と、URL記憶手段に記憶されたURLに基づいて記事を含むウェブページのデータを収集するデータ収集手段と、データ収集手段により収集したデータを蓄積するデータ蓄積手段と、データ蓄積手段に蓄積したデータの中でタグを示す文字列を除いて利用者情報記憶手段に記憶されたキーワードが含まれる部分およびこの部分の前後それぞれ所定文字数分の文字列データを抽出するデータ抽出手段と、データ抽出手段により抽出した文字列データを結合して文章化するデータ結合手段と、データ結合手段により文章化した文章データを含む電子メールを作成するメール作成手段と、メール作成手段により作成した電子メールを利用者情報記憶手段に配信先として記憶された電子メールアドレス宛てに送信するメール送信手段として機能させるためのものである。このプログラムを実行したコンピュータによれば、上記本発明の情報配信装置と同様の作用、効果を奏することができる。 The information distribution program according to the present invention uses a URL storage means for storing a URL of a web page including an article published on a computer network, and a keyword and a distribution destination e-mail address for each user. Person information storage means, data collection means for collecting web page data including articles based on the URL stored in the URL storage means, data storage means for storing data collected by the data collection means, and data storage means A data extraction means for extracting a character string data corresponding to a predetermined number of characters before and after the portion including the keyword stored in the user information storage means except the character string indicating the tag in the data stored in Data combining means for combining text data extracted by the data extracting means into a sentence; Mail creating means for creating an e-mail containing sentence data sentenced by the data combining means, and mail for sending the e-mail created by the mail creating means to an e-mail address stored as a delivery destination in the user information storage means It is for functioning as a transmission means. According to the computer which executed this program, the same operation and effect as the above-mentioned information distribution device of the present invention can be produced.
(1)本発明によれば、コンピュータネットワーク上でウェブページにより公開されている記事を収集し、この収集したウェブページのデータの中でタグを示す文字列を除いて利用者の目的とするキーワードが含まれる部分およびこの部分の前後それぞれ所定文字数分の文字列データを抽出し、文章化して、文章データを含む電子メールとして利用者ごとの配信先の電子メールアドレス宛てに自動的に送信することが可能となる。この電子メールに含まれる文章データは、利用者の目的とするキーワードを中心としてタグの部分を除く前後所定文字数分の記事部分の文字列により構成されるので、この電子メールを受信した利用者は、この前後所定文字数分の文字列により記事の内容を把握することができる。 (1) According to the present invention, an article published by a web page on a computer network is collected, and a keyword intended by a user is removed from the collected web page data except for a character string indicating a tag. The character string data for the specified number of characters before and after this part is extracted, converted into text, and automatically sent to the destination email address for each user as an email containing the text data Is possible. The text data included in the e-mail is composed of a character string of an article part of a predetermined number of characters before and after the tag part centered on the keyword intended by the user. The contents of the article can be grasped by a character string of a predetermined number of characters before and after this.
(2)データ抽出を、タグを示す文字列に加えて空白を示す文字列を除いて行う構成により、記事の内容を把握するのに不要な空白を示す文字列を除くキーワードの前後所定文字数分の文字列により記事の内容を把握することが可能となる。 (2) By a configuration in which data extraction is performed by removing a character string indicating a blank in addition to a character string indicating a tag, a predetermined number of characters before and after a keyword excluding a character string indicating a blank unnecessary to grasp the content of an article It becomes possible to grasp the content of the article by the character string.
(3)メール作成を、データ蓄積により蓄積したデータの中でデータ抽出により抽出したキーワードを含む文字列を開始タグおよび終了タグにより囲んで形成しているリンクタグからリンク先のURLを取得して電子メールに含めることで行う構成により、電子メールに含まれる文章データに、キーワードに関連するウェブページのリンク先のURLが含まれるので、この電子メールを受信した利用者は、文章データにより記事の内容を把握することができることに加えて、このリンク先のURLによりその記事の出所となるウェブページを閲覧することが可能となる。 (3) The URL of the link destination is acquired from the link tag formed by enclosing the character string including the keyword extracted by data extraction in the data accumulated by the data accumulation by the start tag and the end tag. Since the text data included in the e-mail includes the URL of the link destination of the web page related to the keyword, the user who received this e-mail can read the article by the text data. In addition to being able to grasp the contents, it is possible to browse the web page from which the article originated by the URL of the link destination.
図1は本発明の実施の形態におけるニュース配信システムの全体構成図、図2は図1のニュース配信装置のブロック図である。 FIG. 1 is an overall configuration diagram of a news distribution system according to an embodiment of the present invention, and FIG. 2 is a block diagram of the news distribution apparatus of FIG.
図1において、本発明の実施の形態における情報配信システムとしてのニュース配信システムは、コンピュータネットワークとしてのインターネット(図示せず。)上でニュース等の記事を公開している複数の情報提供装置としてのウェブサーバ2a,2b,2c等と、これらのウェブサーバ2a〜2cから記事を収集して配信する情報配信装置としてのニュース配信装置1とから構成される。なお、図1に示す利用者端末3a,3b,3cは、ニュース配信装置1から送信された電子メールを受信して表示することが可能なパーソナルコンピュータ、ハンディコンピュータ、携帯情報端末(PDA;Personal Digital Assistance)や携帯電話装置等である。
In FIG. 1, a news distribution system as an information distribution system according to an embodiment of the present invention is a plurality of information providing apparatuses that publish articles such as news on the Internet (not shown) as a computer network. The
図2に示すように、ニュース配信装置1は、ウェブサーバ2a〜2c等により公開されている記事を含むウェブページのURLを記憶するURL記憶手段10と、利用者ごとに記事を検索するためのキーワードおよび配信先の電子メールアドレスを記憶する利用者情報記憶手段11と、ウェブサーバ2a〜2c等から記事を含むウェブページのデータを収集するデータ収集手段12と、データ収集手段12により収集したデータを蓄積するデータ蓄積手段13とを有する。
As shown in FIG. 2, the
また、ニュース配信装置1は、利用者情報記憶手段11に記憶されたキーワードに基づいてデータ蓄積手段13からデータを抽出するデータ抽出手段14と、データ抽出手段14により抽出したデータを結合するデータ結合手段15と、データ結合手段15により結合したデータを含む電子メールを作成するメール作成手段16と、メールアドレス作成手段16により作成した電子メールを利用者情報記憶手段11に記憶された利用者ごとの配信先の電子メールアドレス宛てに送信するメール送信手段17とを有する。
The
表1はURL記憶手段10に記憶されるURL情報の例を示している。表1に示すように、記事を含むウェブページのURLは、各URLの見出しとなる各サイト名に関連付けてURL記憶手段10に記憶される。URL記憶手段10へのURLの登録、変更や削除等は、通常、ニュース配信装置1の管理者が行うが、利用者端末3a〜3c等の利用者が任意に行える構成とすることも可能である。
表2は利用者情報記憶手段11に記憶される利用者情報の例を示している。表2に示すように、利用者情報記憶手段11には、利用者ごとに利用者情報としての氏名、電子メールアドレス、キーワードや、利用状態を示す情報等がそれぞれ関連付けて記憶される。なお、利用状態を示す情報は、各利用者が一時的に電子メールの配信を停止するように設定した場合には「停止中」となり、電子メールの配信を受けるように設定した場合には「利用中」となる。また、図示しないが、これらの項目の他に、職業、会社名、住所、電話番号やファクシミリ番号等を含ませることも可能である。利用者情報記憶手段11への各項目の登録、変更や削除等は、ニュース配信装置1の管理者および利用者端末3a〜3c等の利用者が任意に行える。
データ収集手段12は、例えば1日に1回等、所定時間ごとにURL記憶手段10に記憶されたURLに基づいてウェブサーバ2a〜2c等から記事を含むウェブページのデータを収集するものである。データ収集手段12により収集されたウェブページのデータは、データ蓄積手段13に蓄積される。図3はデータ蓄積手段13に蓄積されるウェブページのデータの例を示している。図3に示すように、ウェブページのデータには、記事の内容を示す文字列の他、大なり記号「<」および小なり記号「>」により囲まれたタグを示す文字列が含まれている。
The
データ抽出手段14は、データ蓄積手段13に蓄積したデータの中でタグを示す文字列と空白を示す文字列を除いて利用者情報記憶手段11に記憶されたキーワードが含まれる部分およびこの部分の前後それぞれ所定文字数分の文字列データを抽出するものである。すなわち、図3に示すようなウェブページのデータのうち、大なり記号「<」および小なり記号「>」により囲まれたタグを示す文字列「<ul>」、「<li>」、「<a href="http://headlines.○○○.co.jp/hl?a=20041109-00000011-cnet-sci">」、「</a>」、「<small>」、「</small>」等の部分と空白を示す文字列を除いた残りの文字列「○○○3次元メモリチップをついに発表--ゲーム機への採用に照準(○○NET Japan)」、「-」、「18時52分」、「○○○フォト、年賀状プリントサービス開始。割引やプレゼントも」等の部分からキーワードを検索し、該当するキーワード部分およびこのキーワード部分の前後それぞれ所定文字数の文字列データを抽出する。 The data extraction means 14 includes a part including the keyword stored in the user information storage means 11 except for a character string indicating a tag and a character string indicating a blank in the data stored in the data storage means 13, and Character string data for a predetermined number of characters before and after is extracted. That is, in the data of the web page as shown in FIG. 3, the character strings “<ul>”, “<li>”, “<” indicating tags surrounded by the greater than symbol “<” and the less than symbol “>”. <a href="http://headlines.XXXXX.co.jp/hl?a=20041109-00000011-cnet-sci"> "," </a> "," <small> "," </ The rest of the character string “○○○ three-dimensional memory chip is finally announced except for the small>” part and the character string that indicates a space--Aiming for adoption in game consoles (○ NET Japan) ”,“-” , “18:52”, “XX photo, New Year's card print service started. Discounts and gifts are also available”, search for keywords, and the corresponding keyword part and string data of a predetermined number of characters before and after this keyword part. To extract.
ここで、本実施形態においては、所定文字数としてキーワード部分の前後それぞれ30文字を抽出するものとする。30文字よりも少ない文字数で抽出するとその文章の内容を理解することが困難となり、逆に30文字よりも多い文字数で抽出すると文章が長いためにキーワードが目立たなくなる。なお、所定文字数はキーワード部分の前と後とでそれぞれ異なる文字数の文字を抽出する構成とすることも可能である。また、抽出する文字数についてはニュース配信装置1の管理者および利用者端末3a〜3c等の利用者が任意に設定することが可能である。さらに、データ抽出手段14は、タグを示す文字列および空白を示す文字列の他、記事の内容には無関係なその他の記号等の文字列を除いて所定文字数分の文字列データを抽出する構成とすることも可能である。
Here, in this embodiment, 30 characters before and after the keyword portion are extracted as the predetermined number of characters. Extracting with fewer than 30 characters makes it difficult to understand the content of the sentence, and conversely extracting with more than 30 characters makes the keyword inconspicuous because the sentence is long. The predetermined number of characters may be configured to extract characters having different numbers before and after the keyword portion. The number of characters to be extracted can be arbitrarily set by the administrator of the
データ結合手段15は、データ抽出手段14により抽出した文字列データを結合して文章化するものである。本実施形態においては、データ結合手段15は、抽出された文字列データを単純に結合することにより文章化するが、これに限らず他の処理を施してより読みやすい文章データへと文章化する構成とすることも可能である。
The data combination means 15 combines the character string data extracted by the data extraction means 14 into a sentence. In the present embodiment, the
メール作成手段16は、データ結合手段15により文章化した文章データを含む電子メールを作成するものである。図4はメール作成手段16により作成する電子メールの本文の例を示している。また、メール作成手段16は、データ蓄積手段13に蓄積したデータの中で、データ抽出手段14により抽出したキーワードを含む文字列を開始タグ「< a href="......">」および終了タグ「</a>」により囲んで形成しているリンクタグからリンク先のURL21を取得し、電子メール本文中に、各文章データ22に隣接して配置している。
The
さらに、メール作成手段16は、キーワードを見やすくするために、文書データの各キーワードに装飾を施す構成とすることも可能である。装飾は、例えば、通常のテキスト形式の電子メールの場合には、キーワード部分に記号等を付したり、HTML形式の電子メールの場合には、キーワード部分に色を付したり、下線を付したりすることができる。 Further, the mail creating means 16 may be configured to decorate each keyword of the document data in order to make the keyword easy to see. For example, in the case of an e-mail in a normal text format, the decoration is given a symbol or the like in the keyword part, and in the case of an HTML e-mail, the keyword part is colored or underlined. Can be.
メール送信手段17は、メール作成手段16により作成した電子メールを利用者情報記憶手段11に配信先として記憶された電子メールアドレス宛てに送信するものである。なお、メール送信手段17は、利用者情報記憶手段11に記憶されている利用者のうち、利用状態を示す情報が利用中となっている利用者に対してのみ電子メールを送信する。
The mail transmission means 17 transmits the electronic mail created by the mail creation means 16 to the electronic mail address stored in the user information storage means 11 as a delivery destination. The
次に、上記構成のニュース配信システムの処理手順について説明する。図5は本実施形態におけるニュース配信システムのフロー図である。まず、初期設定として、各利用者は、利用者端末3a〜3cによりニュース配信装置1にアクセスし、キーワードおよび利用者情報の登録を行うものとする。また、管理者は、URL記憶手段10へURL情報の登録を行うものとする。
Next, a processing procedure of the news distribution system having the above configuration will be described. FIG. 5 is a flowchart of the news distribution system in the present embodiment. First, as an initial setting, each user accesses the
(ステップS101)ニュース配信装置1は、データ収集手段12により、一定時間ごとにURL記憶手段10に記憶されたURLに基づいてウェブサーバ2a〜2c等から記事を含むウェブページのデータを収集し、データ蓄積手段13に蓄積(キャッシュ)する。このとき、蓄積した内容が前回蓄積した内容と同じ場合には、そのウェブページについては以下の処理を行わない。
(Step S101) The
(ステップS102)ニュース配信装置1は、データ抽出手段14により、データ蓄積手段13に蓄積されたデータから利用者情報記憶手段11に記憶されている利用者ごとにキーワードを検索する。このとき、データ抽出手段14は、データ蓄積手段13に蓄積されたデータからタグを示す文字列と空白を示す文字列を除いてキーワードを検索する。
(Step S <b> 102) In the
(ステップS103)ニュース配信装置1は、該当するキーワードがあった場合、データ抽出手段14により、このキーワードを抽出するとともに、このキーワードの前後それぞれ30文字分の文字列データを抽出する。このとき、データ抽出手段14は、タグを示す文字列と空白を示す文字列を除いてキーワードの前後それぞれ30文字分の文字列データを抽出する。なお、ステップS102において該当するキーワードがなかった場合、ニュース配信装置1は、そのキーワードについては以下の処理を行わない。
(Step S103) When there is a corresponding keyword, the
(ステップS104)ニュース配信装置1は、データ結合手段15により、抽出されたキーワードおよび前後それぞれ30文字分の文字列データを結合して文章化する。ここで文章化された文章データが、前回のものと同じものである場合、その文章データについては以下の処理を行わない。
(Step S104) The
(ステップS105)ニュース配信装置1は、メール作成手段16により、文章化された文章データ22を含む電子メールを作成する(図4参照。)。このとき、メール作成手段16は、電子メールに検索対象としたキーワードに関する情報を付加する。また、メール作成手段16は、データ蓄積手段13に蓄積したデータの中で、データ抽出手段14により抽出したキーワードを含む文字列を囲んで形成しているリンクタグから各文章データ22に関連するリンク先のURL21を取得し、各文章データに隣接して配置する。
(Step S105) The
(ステップS106)ニュース配信装置1は、メール送信手段17により、この作成された電子メールを利用者情報記憶手段11に配信先として記憶された各利用者の電子メールアドレス宛てに送信する。
(Step S <b> 106) The
以上のように、本実施形態におけるニュース配信システムによれば、定期的にインターネット上でニュース等の記事を公開している複数のウェブサーバ2a〜2cから自動的に記事が収集され、利用者ごとに登録されたキーワードに基づいて、利用者ごとに登録された電子メールアドレス宛てに送信される。この電子メールに含まれる文章データ22は、各利用者の目的とするキーワードを中心としてタグおよび空白の部分を除く前後30文字分の記事部分の文字列により構成されるので、この電子メールを受信した各利用者は、この文章データ22のキーワードを中心とする前後30文字数分の文字列により記事の内容を容易に把握することができる。
As described above, according to the news distribution system in the present embodiment, articles are automatically collected from the plurality of
また、この電子メールには、各文章データ22のキーワードに関連するウェブページのリンク先のURL21が含まれるので、この電子メールを受信した利用者は、文章データ22により記事の内容を把握することができることに加えて、このリンク先のURL21によりその記事の出所となる各ウェブサーバ2a〜2cのウェブページを閲覧することが可能である。
Further, since the
本発明の情報配信装置、情報配信システム、情報配信プログラムおよび情報配信方法は、インターネットやイントラネット等のコンピュータネットワーク上でウェブページにより公開されているニュース等の記事の中から利用者の目的に合致した記事を自動的に収集して配信する装置、システム、プログラムおよび方法として有用である。 The information distribution apparatus, the information distribution system, the information distribution program, and the information distribution method of the present invention match the purpose of the user from articles such as news published on a web page on a computer network such as the Internet or an intranet. It is useful as an apparatus, system, program, and method for automatically collecting and distributing articles.
1 ニュース配信装置
2a,2b,2c ウェブサーバ
3a,3b,3c 利用者端末
10 URL記憶手段
11 利用者情報記憶手段
12 データ収集手段
13 データ蓄積手段
14 データ抽出手段
15 データ結合手段
16 メール作成手段
17 メール送信手段
DESCRIPTION OF
Claims (10)
利用者ごとにキーワードおよび配信先の電子メールアドレスを記憶する利用者情報記憶手段と、
前記URL記憶手段に記憶されたURLに基づいて前記記事を含むウェブページのデータを収集するデータ収集手段と、
同データ収集手段により収集したデータを蓄積するデータ蓄積手段と、
同データ蓄積手段に蓄積したデータの中でタグを示す文字列を除いて前記利用者情報記憶手段に記憶されたキーワードが含まれる部分およびこの部分の前後それぞれ所定文字数分の文字列データを抽出するデータ抽出手段と、
同データ抽出手段により抽出した文字列データを結合して文章化するデータ結合手段と、
同データ結合手段により文章化した文章データを含む電子メールを作成するメール作成手段と、
同メール作成手段により作成した電子メールを前記利用者情報記憶手段に配信先として記憶された電子メールアドレス宛てに送信するメール送信手段と
を有する情報配信装置。 URL storage means for storing the URL of a web page containing an article published on a computer network;
User information storage means for storing a keyword and a destination e-mail address for each user;
Data collection means for collecting data of a web page including the article based on the URL stored in the URL storage means;
Data storage means for storing data collected by the data collection means;
Excluding the character string indicating the tag from the data stored in the data storage means, the part containing the keyword stored in the user information storage means and the character string data for a predetermined number of characters before and after this part are extracted. Data extraction means;
Data combining means for combining the character string data extracted by the data extracting means into a sentence;
A mail creating means for creating an e-mail including sentence data converted into sentences by the data combining means;
An information distribution apparatus comprising: an e-mail generated by the e-mail generation unit; and a mail transmission unit that transmits the e-mail addressed to an e-mail address stored as a distribution destination in the user information storage unit.
コンピュータネットワーク上で公開されている記事を含むウェブページのURLを記憶するURL記憶手段と、
利用者ごとにキーワードおよび配信先の電子メールアドレスを記憶する利用者情報記憶手段と、
前記URL記憶手段に記憶されたURLに基づいて前記記事を含むウェブページのデータを収集するデータ収集手段と、
同データ収集手段により収集したデータを蓄積するデータ蓄積手段と、
同データ蓄積手段に蓄積したデータの中でタグを示す文字列を除いて前記利用者情報記憶手段に記憶されたキーワードが含まれる部分およびこの部分の前後それぞれ所定文字数分の文字列データを抽出するデータ抽出手段と、
同データ抽出手段により抽出した文字列データを結合して文章化するデータ結合手段と、
同データ結合手段により文章化した文章データを含む電子メールを作成するメール作成手段と、
同メール作成手段により作成した電子メールを前記利用者情報記憶手段に配信先として記憶された電子メールアドレス宛てに送信するメール送信手段と
して機能させるための情報配信プログラム。 Computer
URL storage means for storing the URL of a web page containing an article published on a computer network;
User information storage means for storing a keyword and a destination e-mail address for each user;
Data collection means for collecting data of a web page including the article based on the URL stored in the URL storage means;
Data storage means for storing data collected by the data collection means;
Excluding the character string indicating the tag from the data stored in the data storage means, the part containing the keyword stored in the user information storage means and the character string data for a predetermined number of characters before and after this part are extracted. Data extraction means;
Data combining means for combining the character string data extracted by the data extracting means into a sentence;
A mail creating means for creating an e-mail including sentence data converted into sentences by the data combining means;
An information distribution program for causing an e-mail created by the e-mail creating means to function as a mail sending means for sending to an e-mail address stored as a delivery destination in the user information storage means.
同データ収集ステップにより収集したデータを蓄積するデータ蓄積ステップと、
同データ蓄積ステップにより蓄積したデータの中でタグを示す文字列を除いて利用者ごとのキーワードが含まれる部分およびこの部分の前後それぞれ所定文字数分の文字列データを抽出するデータ抽出ステップと、
同データ抽出ステップにより抽出した文字列データを結合して文章化するデータ結合ステップと、
同データ結合ステップにより文章化した文章データを含む電子メールを作成するメール作成ステップと、
同メール作成ステップにより作成した電子メールを利用者ごとの配信先の電子メールアドレス宛てに送信するメール送信ステップと
を含む情報配信方法。 A data collection step for collecting data of web pages including articles published on a computer network;
A data accumulation step for accumulating data collected by the data collection step;
A data extraction step for extracting a character string data for a predetermined number of characters before and after the portion including the keyword for each user except the character string indicating the tag in the data accumulated in the data accumulation step,
A data combining step of combining the character string data extracted by the data extraction step into a sentence;
An email creation step for creating an email containing text data documented by the data combining step;
An information delivery method including an email transmission step of sending an email created by the email creation step to an email address of a delivery destination for each user.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004329497A JP2006139599A (en) | 2004-11-12 | 2004-11-12 | Information distribution device, system, program, and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004329497A JP2006139599A (en) | 2004-11-12 | 2004-11-12 | Information distribution device, system, program, and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006139599A true JP2006139599A (en) | 2006-06-01 |
Family
ID=36620381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004329497A Pending JP2006139599A (en) | 2004-11-12 | 2004-11-12 | Information distribution device, system, program, and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006139599A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008077649A (en) * | 2006-09-08 | 2008-04-03 | Ricoh Co Ltd | System, method, and computer program product using http protocol to extract information from remote device |
JP2021077393A (en) * | 2021-01-26 | 2021-05-20 | 株式会社Xaion Data | Method and program for efficiently structuring and correcting open data |
-
2004
- 2004-11-12 JP JP2004329497A patent/JP2006139599A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008077649A (en) * | 2006-09-08 | 2008-04-03 | Ricoh Co Ltd | System, method, and computer program product using http protocol to extract information from remote device |
JP2021077393A (en) * | 2021-01-26 | 2021-05-20 | 株式会社Xaion Data | Method and program for efficiently structuring and correcting open data |
JP7116940B2 (en) | 2021-01-26 | 2022-08-12 | 株式会社Xaion Data | Method and program for efficiently structuring and correcting open data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7809710B2 (en) | System and method for extracting content for submission to a search engine | |
CA2610208C (en) | Learning facts from semi-structured text | |
RU2245577C2 (en) | Electronic message board and mail server | |
US8321396B2 (en) | Automatically extracting by-line information | |
US20110219017A1 (en) | System and methods for citation database construction and for allowing quick understanding of scientific papers | |
JP2006309515A (en) | Information delivery method and information delivery server | |
JP2012133515A (en) | Information processor, information processing method, program and information processing system | |
JP4500285B2 (en) | Spam removal method | |
JP2007233584A (en) | Impression determination system, advertisement article generation system, impression determination method, advertisement article generation method, impression determination program, and advertisement article generation program | |
EP1128290A2 (en) | A method and system for summarizing and presenting information from results of a search in very large full-text databases | |
EP2561452A1 (en) | Semantically ranking content in a website | |
JP2010015456A (en) | Information management system, advertisement output method and program | |
JP2001209655A (en) | Information providing device, information updating method, recording medium having information providing program recorded thereon and information providing system | |
JP2006139599A (en) | Information distribution device, system, program, and method | |
JP5292139B2 (en) | Advertisement providing device | |
JP2008186431A (en) | Information retrieval system, information retrieval device, information retrieval result output method and program | |
JP2007011663A (en) | Information processor, information processing method, and information processing program | |
CN102236656A (en) | System and method for providing target data through turning page | |
JP2011060022A (en) | Content data providing device | |
JP4759540B2 (en) | Advertisement search device, advertisement search control method, and advertisement search control program | |
JP5506479B2 (en) | Blog article creation system, apparatus and method | |
JP6731873B2 (en) | Information processing apparatus, information processing method, and program | |
JP2006318138A (en) | Web system, server computer for web system, and computer program | |
CN112597405A (en) | Event external information source extraction method based on microblog platform | |
JP2004192335A (en) | E-mail collecting/searching system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080805 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081209 |