JP2013020460A - Summary preparation device and method - Google Patents

Summary preparation device and method Download PDF

Info

Publication number
JP2013020460A
JP2013020460A JP2011153487A JP2011153487A JP2013020460A JP 2013020460 A JP2013020460 A JP 2013020460A JP 2011153487 A JP2011153487 A JP 2011153487A JP 2011153487 A JP2011153487 A JP 2011153487A JP 2013020460 A JP2013020460 A JP 2013020460A
Authority
JP
Japan
Prior art keywords
page
url
text
citation
quoted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011153487A
Other languages
Japanese (ja)
Other versions
JP5523405B2 (en
Inventor
Manabu Satsusano
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2011153487A priority Critical patent/JP5523405B2/en
Publication of JP2013020460A publication Critical patent/JP2013020460A/en
Application granted granted Critical
Publication of JP5523405B2 publication Critical patent/JP5523405B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

PROBLEM TO BE SOLVED: To prepare a useful summary on the basis of a part that actually interests many users by simple processing.SOLUTION: A summary based on the part that actually interests many users can be prepared, and the use thereof is not limited because the summary can be prepared without depending upon the length of an original sentence and the number of sentences by specifying a quotation part from a link side page including a URL of a page to be the basis of the summary and performing simple processing for preparing the summary because the quotation part actually attracts a quoting person.

Description

本発明は、言語処理技術に関する。   The present invention relates to a language processing technique.

近年、ウェブページ(本出願において単に「ページ」とも呼ぶ)の普及増大や処理技術の発達に伴い、ニュース記事などの要約を自動で作成する技術が登場している。例えば、ウェブ検索結果で表示されるページごとの要約(「スニペット」などと呼ばれる)として、検索キーワードの前後所定文字数を抜き出す例が見られ、また、ページなどのドキュメントを先頭から所定文字数取り出して要約とするなどの単純な手法が普及している。   In recent years, with the spread of web pages (also simply referred to as “pages” in the present application) and the development of processing technologies, technologies for automatically creating summaries such as news articles have appeared. For example, an example of extracting a predetermined number of characters before and after a search keyword as a summary for each page (called “snippet”) displayed in the web search result can be seen, and a document such as a page is extracted from the beginning and a summary is extracted. Simple methods such as

特開2009−140411号JP 2009-140411 A

ところで、上記のような従来技術は、簡易な処理で負荷は少ないが、要約の基とする文書やページ(「原文」と呼ぶこととする)のみに基づいて要約を作成するため、作成された要約については、原文のなかで多くの人が実際に興味を持つ部分が含まれているとは限らず、有用性に問題があった。   By the way, the conventional technology as described above was created because the summary is created based only on the document or page (hereinafter referred to as the “original text”) on which the summary is based, although the processing is simple and the load is small. As for the summary, there were problems in usability because not all parts of the original text were actually interesting.

なお、要約としての網羅性と読みやすさの両立のために、要約対象文章中の文と類似した類似文をウェブ上の文章から抽出し、この類似文の出現頻度と、類似文同士の連結パターンの出現頻度とを利用して要約文章を作成する工夫も提案されている(例えば、特許文献1参照)。しかし、この提案は、ある程度の長さとなる複数の文を基に、複雑かつ機械的な処理の結果を出力するもので、短い原文には不向きで用途が限られ、処理負荷も大きいうえ、ユーザの実際の興味に基づくものではない点でも、従来技術の課題を解決するものではなかった。   In order to achieve both comprehensiveness and readability as a summary, a similar sentence similar to the sentence in the sentence to be summarized is extracted from the sentence on the web, and the frequency of appearance of this similar sentence and the connection between similar sentences are extracted. A device for creating a summary sentence using the appearance frequency of a pattern has also been proposed (see, for example, Patent Document 1). However, this proposal outputs the result of complicated and mechanical processing based on a plurality of sentences of a certain length, which is not suitable for short original sentences, has limited use, and has a heavy processing load. However, it was not based on the actual interests of the company, but did not solve the problems of the prior art.

上記の課題に対し、本発明の目的は、簡易な処理で、多くのユーザが実際に興味を持つ部分を基に有用な要約を作成することである。   In order to solve the above problems, an object of the present invention is to create a useful summary based on a part that many users are actually interested in by simple processing.

上記の目的をふまえ、本発明の一態様(1)である要約作成装置は、要約作成の基となるページのURLを取得するURL取得手段と、前記URLに係る前記ページ内の文字列を原文として取得する原文取得手段と、取得された前記URLを含むページを引用先ページとして抽出する引用先ページ抽出手段と、抽出された前記引用先ページ内の文字列を引用先テキストとして取得する引用先テキスト取得手段と、取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定する照合特定手段と、特定された前記引用部分に基づいて要約を作成する要約作成手段と、を有することを特徴とする。   Based on the above object, the summary creation device according to one aspect (1) of the present invention provides a URL acquisition means for acquiring a URL of a page as a basis for creating a summary, and a character string in the page related to the URL as a text. A source text acquisition unit that acquires as a citation destination page, a citation destination page extraction unit that extracts a page including the acquired URL as a citation destination page, and a citation destination that acquires a character string in the extracted citation destination page A text acquisition means, a collation specifying means for specifying a citation part by comparing the acquired original text and the quoted text, a summary creation means for creating a summary based on the specified citation part, It is characterized by having.

本発明の他の態様(4)である要約作成方法は、上記態様を方法のカテゴリで捉えたもので、要約作成の基となるページのURLを取得するURL取得処理と、前記URLに係る前記ページ内の文字列を原文として取得する原文取得処理と、取得された前記URLを含むページを引用先ページとして抽出する引用先ページ抽出処理と、抽出された前記引用先ページ内の文字列を引用先テキストとして取得する引用先テキスト取得処理と、取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定する照合特定処理と、特定された前記引用部分に基づいて要約を作成する要約作成処理と、をコンピュータが実行することを特徴とする。   Another aspect (4) of the present invention is a summary creation method that captures the above aspects in the category of the method, a URL acquisition process for acquiring a URL of a page that is a basis of the summary creation, and the URL related to the URL Source text acquisition processing for acquiring a character string in a page as a source text, citation destination page extraction processing for extracting a page including the acquired URL as a citation destination page, and quoting a character string in the extracted citation destination page A citation destination text acquisition process to be acquired as a destination text, a verification specification process for specifying a citation portion by comparing the acquired original text and the citation destination text, and a summary based on the specified citation portion. The summary creation process to be created is executed by a computer.

本発明の他の態様(5)である要約作成プログラムは、上記態様をコンピュータ・プログラムのカテゴリで捉えたもので、コンピュータを制御することにより、要約作成の基となるページのURLを取得させ、前記URLに係る前記ページ内の文字列を原文として取得させ、取得された前記URLを含むページを引用先ページとして抽出させ、抽出された前記引用先ページ内の文字列を引用先テキストとして取得させ、取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定させ、特定された前記引用部分に基づいて要約を作成させることを特徴とする。   Another aspect (5) of the present invention is a summary creation program that captures the above aspect in the category of a computer program. By controlling the computer, the URL of a page that is the basis of the summary creation is acquired. A character string in the page related to the URL is acquired as a source text, a page including the acquired URL is extracted as a citation destination page, and a character string in the extracted citation destination page is acquired as a citation destination text. The obtained original text and the quoted text are collated to identify a cited part, and a summary is created based on the identified cited part.

このように、要約の基となるページのURLを含むリンク側ページから引用部分を特定して要約を作成する簡単な処理を行うことにより、引用部分は実際に引用者が関心を惹かれた部分であることから、多くのユーザが実際に興味を持つ部分に基づく要約を作成できるうえ、原文の長さや文章の数にも依存せず要約が作成できるので用途も限られることなく様々なページで適用できる。   In this way, by performing a simple process of creating a summary by identifying the quoted part from the linked page that contains the URL of the page that is the basis of the summary, the quoted part is the part that the quoter is actually interested in Therefore, it is possible to create a summary based on the part that many users are actually interested in, and it is possible to create a summary without depending on the length of the original text or the number of sentences. Applicable.

本発明の他の態様(2)は、上記いずれかの態様において、前記照合特定手段は、前記引用先テキストのうち前記URLの前後所定量を前記照合の対象とすることを特徴とする。   Another aspect (2) of the present invention is characterized in that, in any one of the above aspects, the collation specifying means sets a predetermined amount before and after the URL in the quoted text as the object of collation.

このように、引用先テキストのうちURLの前後所定量を照合の対象とすることにより、URLから所定量離れた位置にある原文の内容と関係の薄いと思われるテキスト部分は対象から省くことが可能となり、照合負荷を軽減し要約の精度も改善できる。   In this way, by setting a predetermined amount before and after the URL in the quoted text as a target of collation, a text portion that seems to have little relation to the content of the original text located at a predetermined amount away from the URL can be omitted from the target. This makes it possible to reduce the verification load and improve the accuracy of summarization.

本発明の他の態様(3)は、上記いずれかの態様において、前記照合特定手段は、前記引用先テキストのうち所定の引用符号に係る部分については他の部分より優先して前記引用部分として特定することを特徴とする。   According to another aspect (3) of the present invention, in any one of the aspects described above, the collation specifying means determines the part related to a predetermined reference sign in the reference text as the reference part in preference to the other part. It is characterized by specifying.

このように、引用先テキストのうち、カギ括弧や引用符、HTMLの強調タグなど所定の引用符号に係る部分については、選択基準のスコアを大きくするなど、他の部分より優先して要約に用いることにより、ブログなどを書いた人が特に引用符号で強調した部分に基づいて、より印象的な部分を含んだ的確で高精度な優れた要約が得られる。   As described above, in the quoted text, the part related to a predetermined quotation mark such as the brackets, quotation marks, and HTML emphasis tag is used in the summary in preference to the other parts such as increasing the score of the selection criterion. This makes it possible to obtain an excellent summary with high accuracy and accuracy, including a more impressive part based on the part highlighted by the quotation mark by the person who wrote the blog.

なお、上記の各態様と異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。上記の各態様と異なるカテゴリについては、「手段」を「処理」又は「ステップ」のように適宜読み替えるものとする。また、処理やステップの実行順序は上記のものに限定されず、適宜変更したりまとめて処理するなど、変更可能である。さらに、方法やプログラムのカテゴリにおいて、個々の処理を実行する「コンピュータ」は共通でもよいし処理ごとに異なってもよい。   It should be noted that categories different from the above-described aspects (methods for apparatuses, programs for methods, etc.) and more specific aspects described below are also included in the present invention. For categories different from the above-described aspects, “means” is appropriately read as “processing” or “step”. Further, the order of execution of processes and steps is not limited to the above, and can be changed as appropriate or can be processed collectively. Furthermore, in the category of methods and programs, “computers” that execute individual processes may be common or may be different for each process.

本発明によれば、簡易な処理で、多くのユーザが実際に興味を持つ部分を基に有用な要約を作成することができる。   According to the present invention, it is possible to create a useful summary based on a portion where many users are actually interested in a simple process.

本発明の実施形態の構成を示す機能ブロック図。The functional block diagram which shows the structure of embodiment of this invention. 本発明の実施形態における引用先ページ(ブログなど)を例示する図。The figure which illustrates the quotation destination page (blog etc.) in embodiment of this invention. 本発明の実施形態における処理手順を示すフローチャート。The flowchart which shows the process sequence in embodiment of this invention. 本発明の実施形態の作用例を示す概念図。The conceptual diagram which shows the operation example of embodiment of this invention. 本発明の実施形態における引用先ページの他の例を示す図。The figure which shows the other example of the quotation destination page in embodiment of this invention.

次に、本発明の一例として、本発明を実施するための形態(「実施形態」と呼ぶ)について図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。   Next, as an example of the present invention, a mode for carrying out the present invention (referred to as “embodiment”) will be described with reference to the drawings. It should be noted that assumptions common to those already described in the background art and problems are omitted as appropriate.

〔1.構成〕
本実施形態は、図1(構成図)に示す要約作成装置1(「本装置」又は「本装置1」とも呼ぶ)に関するもので、本装置1は、対象とするページの要約を、そのページの引用先(例えば図2)を活用して作成するものである。本実施形態では、端末Tを用いるウェブサイト管理者が、ニュースサーバNS内の記事の要約を本装置1に要求するものとする。図1に示すように本装置1は、コンピュータの構成として少なくとも、CPUなどの演算制御部6と、主メモリや補助記憶装置等の記憶装置7と、通信ネットワークN(例えば、インターネット、携帯電話網、PHS網など)との通信手段8(通信ゲートウェイ装置、携帯電話網やPHS網との通信回路、無線LANアダプタなど)と、を有する。
[1. Constitution〕
The present embodiment relates to a summary creation device 1 (also referred to as “this device” or “this device 1”) shown in FIG. 1 (configuration diagram). It is created by utilizing the quotation destination (for example, FIG. 2). In the present embodiment, it is assumed that the website administrator using the terminal T requests the apparatus 1 to summarize the articles in the news server NS. As shown in FIG. 1, the apparatus 1 includes at least an arithmetic control unit 6 such as a CPU, a storage device 7 such as a main memory and an auxiliary storage device, and a communication network N (for example, the Internet, a mobile phone network). Communication means 8 (communication gateway device, mobile phone network, communication circuit with PHS network, wireless LAN adapter, etc.).

また、端末Tは、据置型PC、モバイルPC、タブレットPC、スマートフォン、携帯電話端末などの電子情報機器で、上記のようなコンピュータの構成に加え、図示は省略するが、液晶表示パネルやタッチパネル、押しボタンなどを用いた入出力部を有する。図1に示す端末Tは、要約の作成をさせるウェブサイト管理者が用いるもので、一般のウェブサイト閲覧者などエンドユーザが用いる端末については図示を省略する。   The terminal T is an electronic information device such as a stationary PC, a mobile PC, a tablet PC, a smartphone, and a mobile phone terminal. In addition to the configuration of the computer as described above, although not illustrated, a liquid crystal display panel, a touch panel, It has an input / output unit using push buttons. The terminal T shown in FIG. 1 is used by a website administrator who creates a summary, and illustration of a terminal used by an end user such as a general website viewer is omitted.

また、本装置1では、記憶装置7に記憶(インストール)した所定のコンピュータ・プログラムが演算制御部6を制御することで、図1に示す各手段などの要素(20,30など)を実現する。それら各要素のうち、情報の記憶手段は、記憶装置7において各種のデータベース(「DB」とも表す)やファイル、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現でき、図示はしないが、各手段による処理の素材や結果を記憶する。   Further, in the present apparatus 1, elements (20, 30, etc.) such as each means shown in FIG. 1 are realized by a predetermined computer program stored (installed) in the storage device 7 controlling the arithmetic control unit 6. . Among these elements, information storage means can be realized in any format such as various databases (also referred to as “DB”), files, arrays, variables such as various stacks, registers, system setting values in the storage device 7, Although not shown, the material and result of processing by each means are stored.

なお、図中の矢印は、データや制御などの流れについて主要な方向を補助的に示すもので、方向の限定を意味するものではない。例えばウェブデータをある方向に取得するには、先立って逆方向のページリクエスト送信がある。また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段であるが、これらは説明のために整理した機能単位であり、実際のハードウェア要素やソフトウェアモジュールとの一致は問わない。   In addition, the arrow in a figure shows the main direction supplementarily about flows, such as data and control, and does not mean limitation of a direction. For example, in order to acquire web data in a certain direction, there is a page request transmission in the reverse direction in advance. In addition, each means other than the storage means is a processing means for realizing and executing the following information processing functions / actions, but these are functional units arranged for explanation, actual hardware elements and It doesn't matter if it matches the software module.

〔2.主な作用と効果〕
図3のフローチャートは、上記のように構成した本実施形態において、要求を受けて本装置1が要約を作成する処理手順を示すもので、破線及び破線矢印は、前の処理ステップに基づく情報を後の処理ステップで利用する利用関係を表す。この処理手順では、まず、URL取得手段20が、要約作成の基となるページ(以下「原ページ」と呼ぶ)のURLを取得する(ステップS2)。
[2. Main actions and effects)
The flowchart of FIG. 3 shows a processing procedure in which the present apparatus 1 generates a summary in response to a request in the present embodiment configured as described above. A broken line and a broken line arrow indicate information based on the previous processing step. Represents the usage relationship used in later processing steps. In this processing procedure, first, the URL acquisition means 20 acquires the URL of a page (hereinafter referred to as “original page”) that is a basis for creating a summary (step S2).

取得するURLについては、例えば、端末Tからの作成要求において、ニュースサーバNS上の記事であって要約作成の対象とする記事のURLを個別に指定してもよいし、予め作成対象として設定されている所定範囲(例えば所定ディレクトリ内など)の記事ごとに、URL取得手段20がニュースサーバNSから取得してもよい。それら以外でも、何らかの条件(所定以上の閲覧数など)を満たした記事のURLを自動検出して対象とするなど、任意の取得の態様でよい。また、本出願において「URL」とは、狭義のURLに限らず、WWW(ワールド・ワイド・ウェブ)などのデータ群中でページを特定する識別情報を意味し、IPアドレスなどでもよい。   As for the URL to be acquired, for example, in the creation request from the terminal T, the URL of the article on the news server NS that is the subject of the summary creation may be individually specified or set as the creation target in advance. The URL acquisition unit 20 may acquire from the news server NS for each article within a predetermined range (for example, in a predetermined directory). Other than these, any acquisition mode may be used, such as automatically detecting the URL of an article that satisfies some condition (such as the number of browsing more than a predetermined number). In the present application, “URL” is not limited to a narrowly defined URL, but means identification information for specifying a page in a data group such as WWW (World Wide Web), and may be an IP address or the like.

続いて、原文取得手段30が、上記のように取得されたURLに係る原ページ内の文字列(例えば、ニュース記事のタイトルと本文など)を、ニュースサーバNSから原文として取得する(ステップS3)。また、引用先ページ抽出手段40が、取得されたURLを含むページを引用先ページとして、典型的にはウェブ上から抽出する(ステップS4)。引用先ページの例は、ブログサーバBSなどの提供するブログ記事やコメント、ミニブログの投稿メッセージ(いわゆる「つぶやき」など)などを表するウェブページであるが、そのURLを含む商業記事などのページでもよい。   Subsequently, the original text acquisition means 30 acquires a character string (for example, the title and body of a news article) in the original page related to the URL acquired as described above as the original text from the news server NS (step S3). . Further, the citation destination page extraction unit 40 typically extracts a page including the acquired URL as a citation destination page from the web (step S4). An example of a cited page is a web page representing a blog article or comment provided by the blog server BS or the like, a post message of a mini blog (so-called “tweet”, etc.), etc., but a page such as a commercial article including its URL But you can.

また、「ページ」とは、図4に例示するページDA,DB,DCのような個々のページ全体に限らず、図5に例示するように、電子掲示板やミニブログなどの単一のウェブページP内に記事やコメントといった要素が複数含まれる場合における個々の要素、すなわちページの部分でもよい。図5の例では、ウェブページPにはAさん、Bさん、Cさん、Dさん、といった複数のユーザが投稿した記事があり、それらの中から、原ページの記事のURLを含む記事C1とC3(破線の楕円で示す)のみを引用先ページとして抽出している。   Further, the “page” is not limited to individual pages such as pages DA, DB, and DC illustrated in FIG. 4, but as illustrated in FIG. 5, a single web page such as an electronic bulletin board or a miniblog. Individual elements when a plurality of elements such as articles and comments are included in P, that is, page portions may be used. In the example of FIG. 5, there are articles posted by a plurality of users such as Mr. A, Mr. B, Mr. C, and Mr. D on the web page P, and among them, an article C1 including the URL of the article on the original page Only C3 (indicated by a broken line ellipse) is extracted as a cited page.

また、それら引用先ページを抽出する手法も自由であるが、典型的には、URLを検索キーとしてウェブ検索要求を検索サーバSSへ送信し、その検索結果を利用することが考えられる。そして、引用先テキスト取得手段50が、抽出された引用先ページ内の文字列を引用先テキストとして取得する(ステップS5)。抽出する文字列について、ブログサイトなどのページのうち、定型的要素(広告欄、会社概要、ヘルプへのリンクなど)を除き、ブログ記事やコメントなど正味の部分を選択的に抽出すれば要約の精度が高まる。   In addition, although the method of extracting these citation pages can be freely selected, it is typically considered that a web search request is transmitted to the search server SS using the URL as a search key and the search result is used. Then, the citation destination text acquisition unit 50 acquires the extracted character string in the citation destination page as the citation destination text (step S5). For the text to be extracted, except for the typical elements (advertising column, company profile, links to help, etc.) of pages such as blog sites, the net part such as blog articles and comments can be selectively extracted. Increases accuracy.

そして、照合特定手段60が、取得された原文と引用先テキストとを照合することにより、引用部分を特定する(ステップS6)。引用部分を特定する基準も自由であるが、典型的には、原文内の文字列で、かつ、所定割合以上の引用先テキストに含まれる部分を引用部分として特定する。例えば、図4の例では、原ページD1内の原文に含まれる「テレビ離れ」という文字列が(図中、破線の楕円で示す)、原ページD1のURL(図中、破線の下線で示す)を含む引用先ページDA,DB,DCにも存在するので(図中、破線矢印の先に破線の楕円で示す)、引用部分として特定できる。   And the collation specific | specification means 60 identifies a quotation part by collating the acquired original text and quotation text (step S6). The criteria for specifying the citation part are also free, but typically, a part that is a character string in the original text and is included in the citation destination text of a predetermined ratio or more is specified as the citation part. For example, in the example of FIG. 4, the character string “television television” included in the original text in the original page D1 (indicated by a dashed ellipse in the figure) is the URL of the original page D1 (indicated by an underline in the broken line in the figure). ) Including the quotation destination pages DA, DB, and DC (indicated by a dashed ellipse at the end of the broken arrow in the figure), it can be specified as a quotation portion.

また、要約作成手段70が、特定された引用部分に基づいて要約を作成する(ステップS7)。引用部分に「基づいて」とは、図4において一点鎖線で示すように、特定した引用部分をそのまま要約(図中、破線の矩形で示す)とするものでもよいし、特定した複数の引用部分をつなぎ合わせるなど加工するものでもよく、また、引用部分のうち原文との一致部分の量(例えば連続して一致している文字数やバイト数など)の多いものを採用するなども含む趣旨である。要約の「作成」は、引用部分をそのまま要約として出力装置や処理の後工程、機能の呼び出し元であるプロセスやルーチンなどに出力する処理でもよい。   Moreover, the summary creation means 70 creates a summary based on the identified citation part (step S7). "Based on the quoted part" means that the identified quoted part can be used as a summary (indicated by a broken-line rectangle in the figure) as shown by a one-dot chain line in FIG. 4, or a plurality of identified quoted parts It may be processed such as by joining together, and it also includes the adoption of a large amount of matching parts with the original text (for example, the number of consecutively matched characters and bytes). . The “creation” of the summary may be a process of outputting the quoted part as a summary as it is to an output device, a subsequent process, a process or a routine that is a function caller, or the like.

以上のように、要約の基となるページのURLを含むリンク側ページから引用部分を特定して要約を作成する簡単な処理を行うことにより、引用部分は実際に引用者が関心を惹かれた部分であることから、多くのユーザが実際に興味を持つ部分に基づく要約を作成できるうえ、原文の長さや文章の数にも依存せず要約が作成できる。   As mentioned above, the citation was actually attracted by the citation by identifying the citation from the linked page that contains the URL of the page that is the basis of the summary and creating a summary. Since it is a part, it is possible to create a summary based on a part that many users are actually interested in, and to create a summary regardless of the length of the original text or the number of sentences.

〔3.引用部分の特定〕
特に、照合特定手段60は、引用先テキストのうちURLの前後所定量を照合の対象とすることが望ましい。例えば、図2に例示するブログ記事では、引用されている記事のURL(図中、破線の楕円で示す)の直前100文字と直後100文字は記事内容に関連あるテレビの話題であるが、それよりもさらに前や後は、野良猫対策や同窓会など無関係な話題となっている。
[3. (Specification of quoted part)
In particular, it is desirable that the collation specifying unit 60 uses a predetermined amount before and after the URL in the quoted text as a collation target. For example, in the blog article illustrated in FIG. 2, the 100 characters immediately before and 100 characters immediately after the URL of the cited article (indicated by a dashed ellipse in the figure) are TV topics related to the article content. Even before and after, it has become an irrelevant topic such as stray cat measures and alumni associations.

このように、引用されているURLに関する内容はそのURLの直前や直後に記載されることが一般的であることから、引用先テキストのうちURLの前後所定量を照合の対象とすることにより、URLから所定量離れた位置にある原文の内容と関係の薄いと思われるテキスト部分は対象から省くことが可能となり、照合負荷を軽減し要約の精度も改善できる。もちろん、URLの前後所定量は、100文字に限らず、他の文字数や行数、データのバイト数、空行までなど、自由に定めてよい。直前又は直後の少なくとも一方でもよいし、直前と直後で量が互いに異なってもよい(例えば、直前100文字、直後は200文字など)。   As described above, since the content related to the cited URL is generally described immediately before or after the URL, by using a predetermined amount before and after the URL in the quoted text, A text portion that seems to have little relation to the content of the original text located at a predetermined distance from the URL can be omitted from the target, reducing the collation load and improving the accuracy of the summary. Of course, the predetermined amount before and after the URL is not limited to 100 characters, and may be freely determined such as the number of other characters, the number of lines, the number of bytes of data, and even blank lines. It may be at least one immediately before or after, or the amount may be different between immediately before and after (for example, 100 characters immediately before, 200 characters immediately after, etc.).

図5に例示したように単一のページ内の複数個所に同一のURLが存在する場合は、個々のURLを基準に前記所定量を照合の対象とする。この場合、照合の対象とする文字列の「所定量」は、単一のページ内にURLが一カ所のみの場合(上記の例では100文字)と同じでもよいが、より少ない量(例えば20文字など)としてもよい。このようにすれば、複数の投稿の一部ずつが抜粋として単一のページに含まれるため100文字も前後にずれれば他の投稿となる場合や、そもそも個々の投稿文字数に限りがある場合(例えば140文字など)など、話題が短いスパンで切り替わるような投稿やページの構成である場合にも、原文の内容と関係が薄いと思われるテキスト部分を対象から確実に省けるので、要約の優れた精度が維持できる。   As illustrated in FIG. 5, when the same URL exists at a plurality of locations in a single page, the predetermined amount is set as a target of collation based on each URL. In this case, the “predetermined amount” of the character string to be collated may be the same as the case where there is only one URL in a single page (100 characters in the above example), but a smaller amount (for example, 20 Character). If you do this, a part of multiple posts will be included in a single page as excerpts, so if you shift 100 characters back and forth, it will become another post, or if the number of individual post characters is limited in the first place (For example, 140 characters, etc.) Even if the topic is a post or page structure that switches in a short span, the text portion that seems to have little relation to the original text can be reliably excluded from the target, so the summary is excellent Accuracy can be maintained.

また、照合特定手段60は、引用先テキストのうち所定の引用符号(例えば、カギ括弧や引用符、HTMLの強調タグなど)に係る部分については、選択基準のスコアを大きくするなど、他の部分より優先して引用部分として特定し、要約に用いることが望ましい。例えば、図4の例では、引用先ページDAでは、原文を引用している引用部分に「テレビ離れのきっかけ」とカギ括弧が附され、同様に、引用先ページDBでは引用部分の行頭に引用符「>>」が、引用先ページDCでも引用符であるダブルクオート「"」が附されている。   Further, the collation specifying means 60 may increase the selection criterion score for a portion related to a predetermined quotation mark (for example, brackets, quotation marks, HTML emphasis tag, etc.) in the citation destination text. It is desirable to specify it as a cited part with higher priority and use it in the summary. For example, in the example of FIG. 4, in the cited page DA, the quote part that quotes the original text is attached with the bracket of “behind the television” and similarly, the cited page DB is quoted at the beginning of the cited part. A double quote "" "which is a quotation mark in the quotation destination page DC is added to the quotation mark" >> ".

このような引用符号に係る部分について、他の部分より優先して引用部分として特定する基準や態様は自由であるが、原文のうち、引用先ページの何割以上に含まれる部分を引用部分とする、などの選択基準の場合に、引用符号に係る部分については2件や3件分など通常の1件より重みを増してカウントするようにすれば演算負荷が軽減される。   For the parts related to such quotation marks, the criteria and mode for specifying the quotation part in preference to the other parts are free, but in the original text, the part included in more than 10% of the cited page is referred to as the quotation part. In the case of the selection criterion such as “Yes”, the calculation load is reduced if the portion related to the quotation mark is counted with a weight increased from that of a normal case such as two or three cases.

このように、引用先テキストのうち所定の引用符号に係る部分について他の部分より優先して引用部分として特定し、要約に用いることにより、ブログなどを書いた人が特に引用符号で強調した部分に基づいて、より印象的な部分を含んだ的確で高精度な優れた要約が得られる。   In this way, the part related to a given quotation mark in the cited text is identified as the quotation part in preference to the other parts, and used for summarization, so that the person who wrote the blog etc. emphasized with the quotation mark in particular Based on the above, an excellent summary with high precision and accuracy can be obtained.

〔4.他の実施形態〕
なお、上記実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本出願における構成図、データの図、フローチャートなどは例示に過ぎず、各要素の有無、その配置や処理実行などの順序、具体的内容などは適宜変更可能である。
[4. Other embodiments]
In addition, the said embodiment is only an illustration and this invention includes what is illustrated below and other embodiment other than that. For example, the configuration diagrams, data diagrams, flowcharts, and the like in the present application are merely examples, and the presence / absence of each element, the order of the arrangement and processing execution, and the specific contents can be changed as appropriate.

一例として、上記実施形態では、要約作成の基礎となる引用先ページとして、インターネット上において、ブログサーバBSなどに記憶されているブログなどのSNS(ソーシャル・ネットワーキング・サービス)のページを例示したが、引用先ページについては、イントラネット上のページや、単なる電子掲示板に代表されるソーシャルメディアなど自由である。   As an example, in the above embodiment, an SNS (social networking service) page such as a blog stored in a blog server BS or the like is exemplified on the Internet as a reference page that is a basis for creating a summary. As for the cited page, a page on the intranet or social media represented by a simple electronic bulletin board is free.

また、上記実施形態で作成された要約は、端末Tを用いるウェブサイト管理者が、例えばニュースサーバNSが提供するニュースのウェブサイトのトピックス一覧表示などに利用できるが、本発明で作成する要約の用途はそのような業務に限られない。例えば、一般のエンドユーザが各記事の概要把握のため、個人のパーソナルコンピュータ(PC)のブラウザから本装置1へアクセスして本発明による要約を利用したり、PCに本発明に係るプログラムをインストールして要約を得るなどしてもよい。   The summary created in the above embodiment can be used by a website administrator using the terminal T, for example, to display a list of topics of news websites provided by the news server NS. Applications are not limited to such operations. For example, a general end user accesses the apparatus 1 from a browser of a personal computer (PC) to use the summary according to the present invention or installs a program according to the present invention on a PC in order to grasp the outline of each article. You may get a summary.

また、図1などに示した個々の手段を、相互に別個独立の設備で実現する構成も一般的であるし、サーバでも端末でも機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。例えば、図1に示した本装置や各サーバは、適宜一体化してもよい。さらに、本発明に関する手段などの各要素は、コンピュータの演算制御部に限らず物理的な電子回路など他の情報処理機構で実現してもよい。   In addition, a configuration in which the individual means shown in FIG. 1 and the like are realized by separate and independent facilities is also common, and depending on the function of the server or the terminal, an external platform or the like may be connected to an API (Application Program Interface). ) And network computing (so-called cloud etc.), and the configuration can be flexibly changed. For example, the apparatus and each server shown in FIG. 1 may be integrated as appropriate. Furthermore, each element such as means relating to the present invention may be realized by other information processing mechanisms such as a physical electronic circuit as well as a computer control unit.

1 要約作成装置(本装置)
6 演算制御部
7 記憶装置
8 通信手段
20 URL取得手段
30 原文取得手段
40 引用先ページ抽出手段
50 引用先テキスト取得手段
60 照合特定手段
70 要約作成手段
BS ブログサーバ
D1 原ページ
DA,DB,DC 引用先ページ
N 通信ネットワーク
NS ニュースサーバ
SS 検索サーバ
T 端末
1 Summary creation device (this device)
6 Arithmetic Control Unit 7 Storage Device 8 Communication Unit 20 URL Acquisition Unit 30 Original Text Acquisition Unit 40 Citation Destination Page Extraction Unit 50 Citation Destination Text Acquisition Unit 60 Collation Identification Unit 70 Summary Creation Unit BS Blog Server D1 Original Page DA, DB, DC Citation Previous page N Communication network NS News server SS Search server T Terminal

Claims (5)

要約作成の基となるページのURLを取得するURL取得手段と、
前記URLに係る前記ページ内の文字列を原文として取得する原文取得手段と、
取得された前記URLを含むページを引用先ページとして抽出する引用先ページ抽出手段と、
抽出された前記引用先ページ内の文字列を引用先テキストとして取得する引用先テキスト取得手段と、
取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定する照合特定手段と、
特定された前記引用部分に基づいて要約を作成する要約作成手段と、
を有することを特徴とする要約作成装置。
URL acquisition means for acquiring the URL of the page that is the basis for the summary creation;
Original text acquisition means for acquiring a character string in the page related to the URL as the original text;
Citation page extraction means for extracting a page including the acquired URL as a citation page;
A quoted text acquisition means for acquiring a character string in the extracted quoted page as a quoted text;
A collation specifying means for identifying a citation part by collating the acquired original text with the quoted text;
A summary creation means for creating a summary based on the identified cited part;
A summary creation device characterized by comprising:
前記照合特定手段は、前記引用先テキストのうち前記URLの前後所定量を前記照合の対象とすることを特徴とする請求項1記載の要約作成装置。   2. The summary creation device according to claim 1, wherein the collation specifying unit uses a predetermined amount before and after the URL in the quoted text as a target of collation. 前記照合特定手段は、前記引用先テキストのうち所定の引用符号に係る部分については他の部分より優先して前記引用部分として特定することを特徴とする請求項1又は2記載の要約作成装置。   3. The summary creation device according to claim 1, wherein the collation specifying unit specifies a portion related to a predetermined reference code in the reference text as the reference portion in preference to other portions. 要約作成の基となるページのURLを取得するURL取得処理と、
前記URLに係る前記ページ内の文字列を原文として取得する原文取得処理と、
取得された前記URLを含むページを引用先ページとして抽出する引用先ページ抽出処理と、
抽出された前記引用先ページ内の文字列を引用先テキストとして取得する引用先テキスト取得処理と、
取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定する照合特定処理と、
特定された前記引用部分に基づいて要約を作成する要約作成処理と、
をコンピュータが実行することを特徴とする要約作成方法。
URL acquisition processing for acquiring the URL of the page that is the basis for creating the summary;
An original text acquisition process for acquiring a character string in the page related to the URL as an original text;
A citation page extraction process for extracting a page including the acquired URL as a citation page;
A quoted text acquisition process for acquiring a character string in the extracted quoted page as a quoted text;
A collation specifying process for identifying a citation part by collating the acquired original text with the quoted text;
A summary creation process for creating a summary based on the identified cited part;
A method for creating a summary, characterized in that a computer executes.
コンピュータを制御することにより、
要約作成の基となるページのURLを取得させ、
前記URLに係る前記ページ内の文字列を原文として取得させ、
取得された前記URLを含むページを引用先ページとして抽出させ、
抽出された前記引用先ページ内の文字列を引用先テキストとして取得させ、
取得された前記原文と前記引用先テキストとを照合することにより、引用部分を特定させ、
特定された前記引用部分に基づいて要約を作成させる
ことを特徴とする要約作成プログラム。
By controlling the computer
Get the URL of the page that is the basis of the summary creation,
The character string in the page related to the URL is acquired as the original text,
The page including the acquired URL is extracted as a citation page,
The extracted character string in the cited page is acquired as the cited text,
By collating the acquired original text and the cited text, the citation part is specified,
A summary creation program for creating a summary based on the identified cited part.
JP2011153487A 2011-07-12 2011-07-12 Summary creating apparatus and method Active JP5523405B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011153487A JP5523405B2 (en) 2011-07-12 2011-07-12 Summary creating apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011153487A JP5523405B2 (en) 2011-07-12 2011-07-12 Summary creating apparatus and method

Publications (2)

Publication Number Publication Date
JP2013020460A true JP2013020460A (en) 2013-01-31
JP5523405B2 JP5523405B2 (en) 2014-06-18

Family

ID=47691830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011153487A Active JP5523405B2 (en) 2011-07-12 2011-07-12 Summary creating apparatus and method

Country Status (1)

Country Link
JP (1) JP5523405B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015064650A (en) * 2013-09-24 2015-04-09 ビッグローブ株式会社 Information processing apparatus, article information creation method, and program
JP2019207695A (en) * 2017-05-19 2019-12-05 アバイア インコーポレーテッド Real-time speech feed to agent greeting

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016082A (en) * 2001-06-29 2003-01-17 Just Syst Corp Apparatus, method and program for creating of link collection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016082A (en) * 2001-06-29 2003-01-17 Just Syst Corp Apparatus, method and program for creating of link collection

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015064650A (en) * 2013-09-24 2015-04-09 ビッグローブ株式会社 Information processing apparatus, article information creation method, and program
JP2019207695A (en) * 2017-05-19 2019-12-05 アバイア インコーポレーテッド Real-time speech feed to agent greeting

Also Published As

Publication number Publication date
JP5523405B2 (en) 2014-06-18

Similar Documents

Publication Publication Date Title
US9563611B2 (en) Merging web page style addresses
CN105095394A (en) Method and device for web page generation
CN105868290B (en) Method and device for displaying search results
WO2014154033A1 (en) Method and apparatus for extracting web page content
WO2016094101A1 (en) Webpage content storage and review
US20080282150A1 (en) Finding important elements in pages that have changed
JP4905249B2 (en) Bookmark service method and bookmark service server
JP5523405B2 (en) Summary creating apparatus and method
US20130179832A1 (en) Method and apparatus for displaying suggestions to a user of a software application
TW201011581A (en) Web page serving architecture
Jones Student Government Association to hold virtual presidential, vice presidential debate.
Young OU football: Defense (Red) 21, Offense (White) 0--2021 Spring Game Scoring Summary.
Franco Birds to stay off campus
Nichols FITZPATRICK, Insha. Who Was Accused In the Salem Witch Trials?: Tituba.
Weaver Volunteers staging Wampum Wine and Beer Festival
Brothers Pioneer girl perspectives: exploring Laura Ingalls Wilder
Huntley Now That's Funny! The Art and Craft of Writing Comedy
White Burke, Fauzia. Online Marketing for Busy Authors: A Step-by-Step Guide
Ledbetter The birth of Alibaba, the huge digital marketplace.
Hornaday In'Letters From Baghdad,'a glimpse of prescience about the modern Middle East.
Boyd What Ifs? of American History.
Ott Real World.
Burroughs The Exiled Generations
Kaufman The sensation of being in love
Woods Jane Pickeringe's Lute Book. Heringman.(Avie AV0002)

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130627

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130704

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140408

R150 Certificate of patent or registration of utility model

Ref document number: 5523405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250