JP2005196572A - Summary making method of multiple documents - Google Patents
Summary making method of multiple documents Download PDFInfo
- Publication number
- JP2005196572A JP2005196572A JP2004003241A JP2004003241A JP2005196572A JP 2005196572 A JP2005196572 A JP 2005196572A JP 2004003241 A JP2004003241 A JP 2004003241A JP 2004003241 A JP2004003241 A JP 2004003241A JP 2005196572 A JP2005196572 A JP 2005196572A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- documents
- viewpoint
- group
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数文書の要約作成方法に関するものである。 The present invention relates to a method for creating a summary of a plurality of documents.
近年、World Wide Web上の検索エンジンを用いて様々な調べ物をすることが日常的な知的情報活動になっている。Webを国語辞典や百科事典のように使って、知らない言葉や事柄について調べることは、そのような知的情報活動の主な例である。これは、既存の辞典や事典には新語や専門用語が収録されていないことが多いのに対して、Webには新しい情報や専門性が高い情報が多く流通しているというWebの特性のためである。 In recent years, it has become a daily intellectual information activity to perform various investigations using a search engine on the World Wide Web. Using the Web like a Japanese dictionary or encyclopedia to look up unknown words and matters is a major example of such intellectual information activities. This is because the existing dictionaries and encyclopedias often do not contain new words or technical terms, but because the Web has a lot of new information and highly specialized information in circulation. It is.
Webが普及し始めた当初に比べれば検索エンジンの性能は向上し、目的の情報が簡単に見つかることも多くなった。しかし、検索要求内容によっては依然として何をキーワードとして入力してよいのか分からない場合や、膨大な検索結果から欲しい情報をどうやって選択すればよいか分からない場合がある。また、Webには統制がないため、誤字、誤解、虚偽といった低品質の情報を排除する必要がある。 Compared to the beginning when the Web began to spread, the performance of search engines has improved, and the target information has been easily found. However, depending on the contents of the search request, there is a case where it is still unknown what to input as a keyword, or a case where it is not known how to select desired information from a huge search result. Moreover, since there is no control in the Web, it is necessary to exclude low-quality information such as typographical errors, misunderstandings, and falsehoods.
上記の問題を解決するために、本願発明者らはWebを事典的に利用することを目的とした検索サイト「Cyclone」(下記非特許文献1、2、11、12、13、特許文献1参照)を構築し、継続的に評価実験や問題点の改善を行っている。Cycloneには、見出し語とその説明情報をWebページ群から抽出してコンテンツを自動構築する機能と、その構築されたコンテンツを利用するための検索機能がある。
In order to solve the above problem, the inventors of the present application search site “Cyclone” intended to use the Web encyclopedically (see Non-Patent
図6は、新型肺炎「SARS」を入力した場合の従来のCycloneの検索結果例である。 FIG. 6 is a search result example of a conventional Cyclone when a new type of pneumonia “SARS” is input.
画面の下半分には、複数のWebページから個別に抽出(抜粋)された説明段落が、抽出元のページタイトルと一緒に3件提示されている。説明段落は専門分野に基づいて分類され、さらに説明としての尤度に基づいて上から順位付けされて表示されている。また、見出し語(検索語)を入力するボックスの下には、検索結果を絞り込むための分野名や関連語、複合語が提示されている。 In the lower half of the screen, three explanation paragraphs individually extracted (extracted) from a plurality of Web pages are presented together with the page title of the extraction source. The explanatory paragraphs are classified based on specialized fields, and are further ranked and displayed based on the likelihood as an explanation. In addition, field names, related words, and compound words for narrowing down search results are presented below boxes for entering headwords (search words).
そこで、提示された説明段落を順番に読んだり、分野名や関連語を利用して必要な情報に絞り込むことで、既存の検索エンジンよりも効率的に入力キーワードに関する希望の説明情報を取得することができる。 Therefore, the desired explanation information about the input keyword can be obtained more efficiently than existing search engines by reading the provided explanation paragraphs in turn or by narrowing down to necessary information using field names and related terms. Can do.
しかし、一般的に人間が編纂する辞典や事典は、一つの見出し語に関して多面的な観点から過不足のない簡潔な説明を記述するようにしている。例えば、岩波情報科学辞典(下記非特許文献9参照)では、本質的な特徴を表す内包的定義、例示による外延的定義、同義語などの観点を必須項目とし、必要に応じて任意の観点を記述している。 However, dictionaries and encyclopedias that are generally compiled by human beings describe a concise explanation of a single headword from a multifaceted perspective. For example, in the Iwanami Information Science Dictionary (see Non-Patent Document 9 below), the essential items include inclusive definitions representing essential features, extended definitions by examples, synonyms, etc. It is described.
それに対して、図6に示された複数の説明は異なるWebページから個別に抜粋された情報であるため、相互に関連性がない。すなわち、一方の説明に含まれる情報が他の説明に存在しなかったり、逆に同じような情報が複数の説明に含まれていたりする。そこで、多面的な観点から説明情報を取得するためには、複数の説明段落を横断的に閲覧する必要があり、その結果、同じような内容の説明を何度も読むといった無駄が生じてしまう。 On the other hand, the plurality of descriptions shown in FIG. 6 are information extracted individually from different Web pages, and are not related to each other. That is, information included in one description does not exist in the other description, or conversely, similar information is included in a plurality of descriptions. Therefore, in order to obtain explanation information from a multifaceted viewpoint, it is necessary to browse a plurality of explanation paragraphs, resulting in the waste of reading explanations of the same content many times. .
また、ページをスクロールしたり何度もクリックして次のページを見ないと欲しい情報が手に入らない場合、ユーザは検索サイトの利用を中断する可能性もある。従って、最初のページに簡潔に概要を示してユーザの興味を引くためにも、説明情報を要約して提示することは有効な手段である。 In addition, if the user does not get the information he wants without scrolling the page or clicking on the next page to view the next page, the user may stop using the search site. Therefore, it is an effective means to summarize and present the explanatory information in order to briefly outline the first page and attract the user's interest.
そこで、本発明では、一つの見出し語に関する複数の説明段落を統合し、過不足ない説明情報を生成するための要約手法を提供する。具体的には複数文書要約(下記非特許文献4、5、7参照)に相当する処理である。その結果、携帯端末など一度に表示できる文字数が制限される環境においても利便性を向上させることができる。
本願発明者らが構築した検索サイト「Cyclone」は、Webから言葉や事柄に関する良質な説明段落を抽出することで、入力キーワードに関する事典的な情報を効率的に提示することができる。この時、現状では複数のWebページから個別に抽出された説明段落の一覧が提示される。 The search site “Cyclone” constructed by the inventors of the present application can efficiently present encyclopedia information related to input keywords by extracting high-quality explanatory paragraphs related to words and matters from the Web. At this time, a list of explanation paragraphs individually extracted from a plurality of Web pages is presented at present.
しかしながら、上述したように提示される説明段落の間には関連性がないため、入力キーワードに関して十分な説明を取得するためには、複数の段落を読む必要があり、その結果、同じような内容を何度も読まなければならない場合がある。 However, since there is no relationship between the explanation paragraphs presented as described above, it is necessary to read a plurality of paragraphs in order to obtain sufficient explanation about the input keyword, and as a result, the same contents May have to be read many times.
また、単一文書を対象にした要約に比べると、複数文書の要約に関する研究は新しく、一般的なモデルが確率されていない。 Compared to single-document summaries, research on multi-document summaries is new and no general model has been established.
そこで、本発明では、上記した検索サイト「Cyclone」の既存機能に加えて、新たに「要約」機能を導入した。 Therefore, in the present invention, in addition to the existing function of the search site “Cyclone”, a “summary” function is newly introduced.
ここでは、一つの見出し語について(各分野ごとに)複数の説明段落を統合する。原理的にオフライン、オンラインどちらの段階でも要約機能を適用することができる。本発明の実施例では、応答時間を考慮し、オフラインで事前に要約を生成する。 Here, a plurality of explanatory paragraphs are integrated (for each field) for one headword. In principle, the summary function can be applied at both offline and online stages. In the embodiment of the present invention, the summary is generated in advance offline in consideration of the response time.
オンライン検索を行う場合、ユーザが入力したキーワードや質問文が見出し語になかった場合に、文字列が部分的に一致する見出し語や概念的に類似する見出し語を提示することで、ユーザを必要な情報に自然に誘導することができる。しかし、本発明の焦点からは外れるためこの誘導の詳細は割愛する。 When performing an online search, if the keyword or question text entered by the user is not found in the headword, the user is required to present a headword that partially matches the character string or conceptually similar headword Natural information can be guided naturally. However, the details of this guidance are omitted because they are out of the focus of the present invention.
本発明は、上記に鑑みて、複数の説明段落から過不足ない単一の説明情報を自動生成することができる複数文書の要約作成方法を提供することを目的とする。 SUMMARY OF THE INVENTION In view of the above, an object of the present invention is to provide a multi-document summary creation method capable of automatically generating a single piece of explanation information from a plurality of explanation paragraphs.
ここでは、ある入力キーワードに関する複数の説明段落を「定義」や「目的」といった説明の観点に基づいて解析し、観点ごとに代表的な説明文を選択し統合することで最終的な説明情報を構築する。 Here, multiple explanation paragraphs about a certain input keyword are analyzed based on the viewpoint of explanation such as “definition” and “purpose”, and the final explanation information is obtained by selecting and integrating representative explanation sentences for each viewpoint. To construct.
また、評価実験によって提案手法の有効性を示す。 The effectiveness of the proposed method is shown by an evaluation experiment.
本発明は、上記目的を達成するために、
〔1〕複数の文書から抽出した説明情報から、要約処理の最小単位としての単文を検出し分割する単文特定処理と、この特定処理によって抽出された単文を照合して、同一の観点に対応する類似した単文同士を同一グループに分類する照合処理と、この照合処理で構成されたグループから代表的な単文を1つ以上選出する選出処理と、この選出処理で各グループから選出された代表文をグループ(観点)名とともに箇条書きで表示する生成・提示処理とを施し、複数の文書から抽出した説明情報を統合・要約して、対象の用語について過不足ない簡潔な説明情報をコンピュータにより自動生成することを特徴とする。
In order to achieve the above object, the present invention provides
[1] A single sentence specifying process that detects and divides a single sentence as a minimum unit of summary processing from explanatory information extracted from a plurality of documents, and a single sentence extracted by this specifying process are collated to correspond to the same viewpoint. A collation process for classifying similar single sentences into the same group, a selection process for selecting one or more representative single sentences from the group configured by the collation process, and representative sentences selected from each group by this selection process. Generates and presents information that is displayed in bulleted lists along with the group (viewpoint) name, integrates and summarizes the explanation information extracted from multiple documents, and automatically generates concise explanation information with no excess or deficiency for the target term It is characterized by doing.
〔2〕上記〔1〕記載の複数文書の要約作成方法において、前記特定処理において重文を複数の単文に分割した場合、分割された2つ目以降の単文の文頭には先頭文の主語を補完することを特徴とする。 [2] In the method for creating a summary of a plurality of documents described in [1] above, when a heavy sentence is divided into a plurality of single sentences in the specifying process, the subject of the first sentence is supplemented at the head of the second and subsequent single sentences. It is characterized by doing.
〔3〕上記〔1〕記載の複数文書の要約作成方法において、前記照合処理において、前記単文を観点に基づいて分類するために、それぞれの観点に固有の定型表現を予め作成し、この定型表現を含む文を対応するグループに分類することを特徴とする。 [3] In the multi-document summary creation method described in [1] above, in the collation process, in order to classify the simple sentences based on viewpoints, a fixed expression unique to each viewpoint is created in advance, and the fixed expression Are classified into corresponding groups.
〔4〕上記〔1〕記載の複数文書の要約作成方法において、前記観点が定義、略語、例示、目的、同義語、書籍、製品、利点、欠点、歴史、要素、機能であることを特徴とする。 [4] The multiple document summary creation method according to [1] above, wherein the viewpoint is definition, abbreviation, illustration, purpose, synonym, book, product, advantage, defect, history, element, function. To do.
〔5〕上記〔1〕記載の複数文書の要約作成方法において、前記照合処理において、分類されなかった単文を既に分類された単文グループと比較し、類似度が高い単文が属する観点に分類することを特徴とする。 [5] In the multiple document summarization method described in [1] above, in the collation process, a simple sentence that has not been classified is compared with a simple sentence group that has already been classified, and classified into viewpoints to which simple sentences with high similarity belong. It is characterized by.
〔6〕上記〔5〕記載の複数文書の要約作成方法において、前記定義、略語、例示、目的、同義語、書籍、製品、利点、欠点、歴史、要素、機能の観点に当てはまらず、かつ既に分類されたどの単文グループとも類似度が低い単文を「その他」として分類することを特徴とする。 [6] In the method for creating a summary of a plurality of documents described in [5] above, the definition, abbreviations, examples, purposes, synonyms, books, products, advantages, disadvantages, history, elements, functions are not applied, and already A single sentence having a low similarity to any classified single sentence group is classified as “others”.
〔7〕上記〔5〕記載の複数文書の要約作成方法において、前記類似度の計算には語の重複度を用いることを特徴とする。 [7] In the method for creating a summary of a plurality of documents described in [5] above, word similarity is used for calculating the similarity.
〔8〕上記〔1〕記載の複数文書の要約作成方法において、前記選出処理において、グループ全体の傾向を反映しつつ、かつ良質な文を選択することを特徴とする。 [8] The summary creation method for a plurality of documents according to [1], wherein the selection process selects a high-quality sentence while reflecting a tendency of the entire group.
〔9〕上記〔8〕記載の複数文書の要約作成方法において、基準を定量化し、それらを結合したスコアに基づいて代表文を選出することを特徴とする。 [9] The multi-document summary creation method according to [8], wherein the reference is quantified and a representative sentence is selected based on a score obtained by combining the criteria.
〔10〕上記〔8〕記載の複数文書の要約作成方法において、前記代表文を選出を、
(a)単文の抽出元の説明段落の尤度の順位の高さを考慮し、
(b)前記グループに含まれる単文に共通して現れる語を多く含む文を代表文の候補とし、
(c)この代表文の候補のうち、目的に適した文字数の文を代表文として選ぶことを特徴とする。
[10] In the method for creating a summary of a plurality of documents described in [8] above, selecting the representative sentence,
(A) Considering the high likelihood ranking of the explanation paragraph from which the single sentence is extracted,
(B) A sentence including many words that appear in common in a single sentence included in the group is set as a candidate for a representative sentence.
(C) Of the candidates for the representative sentence, a sentence having the number of characters suitable for the purpose is selected as the representative sentence.
〔11〕上記〔8〕記載の複数文書の要約作成方法において、前記基準が単文が抽出された元の説明段落の順位を考慮するものであることを特徴とする。 [11] The multi-document summary creation method according to [8] above, wherein the criterion considers the rank of the original explanatory paragraph from which a single sentence is extracted.
〔12〕上記〔8〕記載の複数文書の要約作成方法において、前記基準がグループに含まれる単文に共通して現れる語を多く含む文とするものであることを特徴とする。 [12] The multi-document summary creation method according to [8] above, wherein the criterion is a sentence including many words that appear in common in a single sentence included in the group.
〔13〕上記〔8〕記載の複数文書の要約方作成法において、前記基準が説明の文字数を考慮するものであることを特徴とする。 [13] In the method for creating a summary method for a plurality of documents described in [8] above, the criterion is based on the number of explanatory characters.
〔14〕上記〔5〕記載の複数文書の要約作成方法において、前記「その他」からは他の前記観点から既に選択された単文との語の重複がなるべく少ない単文を優先的に選択することを特徴とする。 [14] In the method for creating a summary of a plurality of documents described in [5] above, the “others” is to preferentially select a single sentence that has as few overlapping words as possible from other single sentences already selected from the above viewpoints. Features.
〔15〕上記〔5〕記載の複数文書の要約作成方法において、前記「その他」から複数の単文を選択する場合には、まず、最初の1件を選択し、既に選択された単文との語の重複が少ない単文を次に選択し、この処理を再帰的に行うことで多様な単文を選択することを特徴とする。 [15] In the method for creating a summary of a plurality of documents described in [5] above, when selecting a plurality of simple sentences from the “others”, first, the first one is selected, and a word with the already selected simple sentence is selected. Next, a simple sentence with less duplication is selected next, and various simple sentences are selected by performing this process recursively.
〔16〕上記〔1〕記載の複数文書の要約作成方法において、前記生成・提示処理は、各グループから選択された代表文をグループ(観点)名とともに箇条書きで表示することを特徴とする。 [16] In the method for creating a summary of a plurality of documents described in [1], the generation / presentation process displays a representative sentence selected from each group in an itemized list together with a group (viewpoint) name.
〔17〕上記〔16〕記載の複数文書の要約作成方法において、前記生成処理では単文特定処理で抽出された単文の文末表現を置換することで、文字数を少なくしたり、文末らしい表現に修正することを特徴とする。 [17] In the multiple document summary creation method described in [16] above, the generation process replaces the sentence end expression of the single sentence extracted in the single sentence specifying process, thereby reducing the number of characters or correcting the expression to a sentence end-like expression. It is characterized by that.
〔18〕上記〔16〕記載の複数文書の要約作成方法において、前記提示処理ではそのグループに属する他の説明文や抽出元の説明段落にリンクをはり、ユーザが選択した観点だけに絞り込むことを特徴とする。 [18] In the method for creating a summary of a plurality of documents described in [16] above, in the presenting process, links are made to other explanatory texts belonging to the group and explanatory paragraphs of extraction sources so as to narrow down only to the viewpoint selected by the user. Features.
〔19〕上記〔16〕記載の複数文書の要約作成方法において、選択処理におけるスコアが高い代表文から順番に提示することを特徴とする。 [19] The multi-document summary creation method according to [16] above, wherein the representative sentences are presented in order from the highest score in the selection process.
World Wide Web上の莫大な情報から要領よく必要な知識を抽出する技術への需要は高い。本発明は用語の説明を過不足なく生成するものであり、検索のみならず、コンテンツの作成にも応用できるなど利用範囲が広く、商業的な価値も高い。 There is a great demand for a technique for extracting necessary knowledge from a vast amount of information on the World Wide Web. The present invention generates term descriptions without excess or deficiency, and has a wide range of use such as being applicable not only to search but also to creation of content, and has high commercial value.
Webを辞典や事典のように使って言葉や事柄について調べ物をすることを目的とし、複数のWebページから抽出した説明文や文章を統合さらに要約して、対象の用語について過不足ない簡潔な説明情報を自動生成する方法を提案する。本発明によって既存のWeb検索エンジンを用いる場合よりも対象の用語に関する説明を効率的に取得することが可能になる。 The purpose is to look up words and matters using the Web like a dictionary or encyclopedia, and to integrate and summarize explanations and sentences extracted from multiple Web pages, so that the target terms are concise A method for automatically generating explanatory information is proposed. According to the present invention, it is possible to efficiently obtain explanations about the target term as compared with the case of using an existing Web search engine.
ここでは、本発明の複数文書の要約作成方法について説明する。 Here, the multi-document summary creation method of the present invention will be described.
なお、既存の単一文書の要約作成方法については、非特許文献4に開示されている。 An existing method for creating a summary of a single document is disclosed in Non-Patent Document 4.
本発明では、上記の手順に基づいて説明情報を対象にした複数文書要約のモデルを作成した。すなわち、上述した検索サイトCycloneの組織化処理によって、得られた複数の説明段落を入力とし、説明段落中の単文(ユニット)を説明の「観点」に対応するグループに分類する。そして、各グループを代表する単文(ユニット)を統合して最終的な説明情報を生成し、ユーザに提示する。 In the present invention, a multi-document summary model for explanatory information is created based on the above procedure. That is, by the above-described organization process of the search site Cyclone, a plurality of explanation paragraphs obtained are input, and simple sentences (units) in the explanation paragraph are classified into groups corresponding to the “viewpoint” of the explanation. Then, final explanatory information is generated by integrating simple sentences (units) representing each group and presented to the user.
ただし、用意すべき観点は、見出し語の種別によって変化する。例えば、専門用語と動植物では説明の観点が異なる。現行のCycloneには、専門用語、事柄、人名、動植物など様々な種別の見出し語が約60万語収録されている。ここでは、専門用語を対象にモデルの実装と評価を行った。 However, the viewpoint to be prepared varies depending on the type of headword. For example, technical terms and animals and plants differ in terms of explanation. The current Cyclone contains about 600,000 headwords of various types such as technical terms, matters, names of people, animals and plants. Here, we implemented and evaluated the model for technical terms.
既存の複数文書要約モデルは新聞記事などを対象としているため、記事の内容やジャンルによっては観点をあらかじめ用意することが困難な場合がある。それに対して、本発明のような専門用語説明の場合は人手によって観点をある程度列挙することが可能である。 Since the existing multi-document summary model is intended for newspaper articles and the like, it may be difficult to prepare a viewpoint in advance depending on the content and genre of the article. On the other hand, in the case of explanation of technical terms as in the present invention, it is possible to enumerate viewpoints to some extent by hand.
以下、本発明を適用した検索サイトCycloneの概要について説明する。 Hereinafter, an outline of the search site Cyclone to which the present invention is applied will be described.
図1は本発明にかかる事典的検索サイトCycloneの概要を示す図、図2はそのシステム構成図、図3は本発明の要約作成ステップを示す図である。 FIG. 1 is a diagram showing an outline of an encyclopedia search site Cyclone according to the present invention, FIG. 2 is a system configuration diagram thereof, and FIG. 3 is a diagram showing a summary creation step of the present invention.
図2において、1はWeb、2は新語検出部、3は見出し語の候補収集部、4はWeb1上の見出し語を含むページを検索する検索処理部、5はHTMLタグを用いて検索されたページから見出し語に関する説明を段落単位で抽出する抽出処理部、6は組織化処理部(機能は後述)、7は要約作成部、8は見出し語抽出部、9は事典コンテンツ、10はコンピュータ、11はサーバ、12はブラウザである。
In FIG. 2, 1 is a Web, 2 is a new word detecting unit, 3 is a candidate word collecting unit, 4 is a search processing unit for searching a page including a head word on
図1〜図3に基づいて本発明を適用した検索サイトCycloneの機能について説明する。事典コンテンツ9を構築するオフライン処理と、ユーザがコンテンツを検索するオンライン処理に分かれるが、ここでは、本発明の複数文書要約作成方法にかかるオフライン処理についてのみ説明する。 The function of the search site Cyclone to which the present invention is applied will be described with reference to FIGS. Although it is divided into offline processing for constructing encyclopedia content 9 and online processing for a user to search for content, only the offline processing according to the multi-document summary creation method of the present invention will be described here.
そこで、事典コンテンツ9を構築するオフライン処理では、まず、新語検出部2で「新語検出」を行い、次に、見出し語の候補収集部3で新しい見出し語の候補をWeb1から自動的に収集する。次に、各見出し語の候補に対して検索処理部4、抽出処理部5、組織化処理部6により、「検索処理」「抽出処理」「組織化処理」を順番に実行し、目的の用語の説明を専門分野ごとに分類する。これを行うことで、「パイプライン(処理/油送管)」のように、同じ見出し語でも分野によって意味が異なる多義語の説明を区別することができる。
Therefore, in the offline processing for constructing the encyclopedia content 9, first, “new word detection” is performed by the new
ここで、上記した検索処理では、Web1上の見出し語を含むページを検索する。次いで、抽出処理では、検索されたページからHTMLタグを用いて見出し語に関する説明を段落単位で抽出する。次いで、組織化処理では、(a)特定分野への関連度、(b)「説明らしい」言語表現を含むかどうか、(c)「説明らしい」HTMLレイアウトかどうか、(d)ページの信頼度という4つの尺度を統合したスコアを計算して、その値に基づいて段落を分野に分類し、尤度に基づき順位付けする。 ここまでの処理で見出し語に関する複数の説明段落の抽出がなされる。
Here, in the search process described above, a page including a headword on the
最後に、関連語抽出部8による「関連語抽出処理」によって、見出し語を特徴付ける語を取得する。これらの語は、オンライン検索時にユーザの情報要求を絞り込むために利用する。
Finally, the word that characterizes the headword is acquired by the “related word extraction process” by the related
関連語抽出処理の基本原理は、各見出し語の組織化処理後の説明段落に頻出する語を検出することである。ここで、適切な語を検出する処理と検出した語を評価する尺度が必要になる。そこで、まず段落を日本語形態素解析器「茶筌」で形態素解析して、品詞情報に基づいて(複合)語を構成し、関連語の候補とする。具体的には、名詞、動詞連用形、未知語、記号の連続を語として抽出する。さらに、段落における出現頻度と抽出元の段落に対する組織化処理で得たスコアを統合して関連語としてソートし、上位の値を示す関連語から優先的に提示する。すなわち、特定分野に関連が高く、信頼度も高い良質の説明段落によく現れる語が優先的に提示され、ユーザの情報検索時に有効に活用される。 The basic principle of the related word extraction process is to detect words frequently appearing in the explanatory paragraph after the organization process of each headword. Here, a process for detecting an appropriate word and a scale for evaluating the detected word are required. Therefore, the paragraph is first subjected to morphological analysis using a Japanese morphological analyzer “tea bowl”, and a (compound) word is constructed based on the part of speech information to make a candidate for a related word. Specifically, a sequence of nouns, verb conjunctive forms, unknown words, and symbols is extracted as words. Furthermore, the appearance frequency in the paragraph and the score obtained by the organization process for the extraction source paragraph are integrated and sorted as a related word, and presented preferentially from the related word indicating the higher value. That is, words that frequently appear in a high-quality explanatory paragraph that is highly related to a specific field and that have high reliability are preferentially presented, and are effectively used when a user searches for information.
本発明では、このようにして得られた見出し語の複数の説明段落を基に、要約作成部7で複数文書要約を行い、事典コンテンツ9に説明段落を1つに統合して過不足のない簡潔な説明情報を自動生成する。 In the present invention, based on a plurality of explanation paragraphs of the headwords obtained in this way, the summary creation unit 7 summarizes a plurality of documents, and the explanation contents 9 are integrated into one explanation paragraph so that there is no excess or deficiency. Automatically generate concise descriptive information.
以下、本発明にかかる複数文書の要約手順について図3を参照しながら詳述する。
(1)特定処理(ステップS1)
特定処理では、要約処理に利用する最小単位を検出する。本発明では、後述の照合処理において「観点」に対応するグループを構成するため、この「観点」に対応する単位を説明段落から抽出する必要がある。
Hereinafter, a procedure for summarizing a plurality of documents according to the present invention will be described in detail with reference to FIG.
(1) Specific process (step S1)
In the specific process, the minimum unit used for the summary process is detected. In the present invention, a group corresponding to the “viewpoint” is formed in the collation process described later, and therefore, a unit corresponding to the “viewpoint” needs to be extracted from the explanation paragraph.
本発明では、単文が一つの観点に対応する最小単位であると仮定している。そこで、特定処理の中核は、説明段落を単文に分割することである。 In the present invention, it is assumed that a simple sentence is a minimum unit corresponding to one viewpoint. Therefore, the core of the specific process is to divide the explanation paragraph into single sentences.
通常、文章には重文や複文が多く用いられので、これらをコンピュータにより単文に分割することは依然として困難な問題である。本発明では、「CaboCha」(上記非特許文献10参照)を用いて説明段落中の各文を係り受け解析し、文構造に基づく規則(上記非特許文献6参照)を適用することで、単文抽出を行う。 Usually, many sentences and compound sentences are used as sentences, and it is still a difficult problem to divide them into simple sentences by a computer. In the present invention, each sentence in the explanation paragraph is subjected to dependency analysis using “CaboCha” (see Non-Patent Document 10), and a rule based on the sentence structure (see Non-Patent Document 6) is applied. Perform extraction.
ただし、単文に分割しただけでは、後方の文には主語が欠落してしまう。例えば、以下の重文を2つの単文に分割した場合、2つ目の文頭には「XMLとは、」を補完しなければならない。 However, the subject is lost in the sentence behind by simply dividing it into simple sentences. For example, when the following sentence is divided into two simple sentences, “What is XML?” Must be supplemented to the beginning of the second sentence.
「XMLとは、eXtensible Markup Languageの略であり、マークアップ言語の一種である。」
これを単文に分割すると、
「XMLとは、eXtensible Markup Languageの略であり、」
「(XMLとは、)マークアップ言語の一種である。」
しかし、どのような文でも常に先頭文の主語を後続の文頭に補完すればよい訳ではない。どの要素をどのような場合に補完すればよいかを決定することは難しい。このような問題に対しては、単文分割におけるゼロ主語補完の手法(上記非特許文献10参照)が適用可能である。
(2)照合処理(ステップS2)
上記特定処理によって抽出された単文は、単一の観点に対応すると仮定する。また、照合処理によって類似する単文同士が同一のグループにまとめられる。そこで、照合処理で構成されるグループもまた単一の観点に対応する。
“XML is an abbreviation for eExtensible Markup Language and is a kind of markup language.”
When this is divided into simple sentences,
“XML is an abbreviation for eExtensible Markup Language,”
“(XML) is a kind of markup language.”
However, in any sentence, it is not always necessary to complement the subject of the first sentence to the beginning of the subsequent sentence. It is difficult to decide which elements should be complemented in what cases. For such a problem, a method of zero subject complementation in single sentence division (see
(2) Collation process (step S2)
It is assumed that the single sentence extracted by the specific process corresponds to a single viewpoint. In addition, similar single sentences are grouped together in the same group by collation processing. Therefore, the group configured by the matching process also corresponds to a single viewpoint.
現在、以下に示す12種類の観点を用意している。 Currently, the following 12 types of viewpoints are prepared.
定義、略語、例示、目的、同義語、書籍、製品、利点、欠点、歴史、要素、機能
単文をこのような観点に基づいて分類するために、2つの異なる方法を併用した。まず、それぞれの観点に固有の定型表現を予め作成しておき、その定型表現を含む文を対応するグループに自動的に分類する。ここでの定型表現は観点「定義」における「○○(見出し語)とは」や観点「例示」における「例えば」などの頻出表現のことをさす。これらの表現を用いて単文の初期分類を行う。
Definitions, abbreviations, examples, purposes, synonyms, books, products, benefits, drawbacks, history, elements, functions Two different methods were used in combination to classify simple sentences based on this perspective. First, a fixed expression unique to each viewpoint is created in advance, and sentences including the fixed expression are automatically classified into corresponding groups. The fixed expression here refers to a frequent expression such as “What is XX (headword)” in the viewpoint “definition” and “for example” in the viewpoint “example”. Using these expressions, initial sentence classification is performed.
しかし、予め用意されたこの定型表現を含まない(もしくは若干異なる表現が使われた)単文も存在する。そこで、次の段階では定型表現による分類では対応できなたった未分類の単文を既に分類された単文グループと比較し、類似度が高い単文が属するグループに分類する。類似度の計算には語の重複度を用いた。そこで、未分類の単文は、初期分類で構成されたグループの中で、最も多くの語を共有するグループに分類される。具体的にはDice係数準拠の計算によって文の長さによる正規化を行う。しかし、全ての語を使うのではなく、形態素解析によって助詞などの機能語を削除する。 However, there is a simple sentence that does not include this standard expression prepared in advance (or a slightly different expression is used). Therefore, in the next stage, uncategorized simple sentences that could not be dealt with by the regular expression classification are compared with already classified simple sentence groups, and classified into groups to which simple sentences with high similarity belong. The word overlap was used for the similarity calculation. Therefore, the uncategorized simple sentences are classified into groups that share the most words among the groups configured by the initial classification. Specifically, normalization based on the length of the sentence is performed by calculation based on the Dice coefficient. However, not all words are used, but function words such as particles are deleted by morphological analysis.
見出し語「XML」に関する具体例を以下に示す。
(a)XMLとは、拡張可能なマーク付け言語のことです。
A specific example regarding the headword “XML” is shown below.
(A) XML is an extensible markup language.
→定義
(b)eXtensible Markup Languageの略
→略語
(c)1998年にW3Cにより標準化勧告され、
→歴史
(d)XMLとは、Extensible Markup Languageの略称です。
→ Definition (b) Abbreviation of eExtensible Markup Language → Abbreviation (c) Standardized by W3C in 1998 ,
→ History (d) XML is an abbreviation for Extensible Markup Language.
→略語
(e)このXMLの標準化は、W3Cで勧告された。
→ Abbreviation (e) The standardization of this XML was recommended by the W3C.
→???
この例では、初期分類によって(a)〜(d)の単文が、下線を施した語や表現が定型表現に相当し、これによって該当する観点グループに分類されたことを示している。しかし、(e)は観点グループ固有の定型表現を含まないため分類できなかった。そこで、語の分布に基づいて、既に分類された単文との類似度を計算する。その結果、(e)は(c)と最も類似度が高いため「歴史」に分類された。
→? ? ?
In this example, the simple sentences (a) to (d) in the initial classification indicate that the underlined words and expressions correspond to the fixed expressions and are classified into the corresponding viewpoint groups. However, (e) could not be classified because it did not contain a fixed expression specific to the viewpoint group. Therefore, the similarity with the already classified simple sentences is calculated based on the word distribution. As a result, (e) was classified as “history” because it had the highest similarity with (c).
また、上記の処理を行ってもいずれの観点にも分類されない単文は「その他」に分類する。
(3)選出処理(ステップS3)
上記選出処理では、上記照合処理で構成されたグループから代表的な文を1つ以上選出する。ここでは、グループ全体の傾向を反映しつつ、かつ良質な文を選択することが重要である。
In addition, simple sentences that are not classified in any viewpoint even if the above processing is performed are classified as “others”.
(3) Selection process (step S3)
In the selection process, one or more representative sentences are selected from the group configured by the matching process. Here, it is important to select a good sentence while reflecting the trend of the entire group.
具体的には、以下に示す種々の基準をそれぞれ定量化し、それらを結合したスコアに基づいて代表文を選択する。 Specifically, various criteria shown below are quantified, and a representative sentence is selected based on a score obtained by combining them.
(a)尤度に基づき順位付されて表示されるCycloneの検索結果においては上位の説明ほど良質である可能性が高いため、単文が抽出された元の説明段落の順位を考慮する。 (A) In the Cyclone search results that are ranked and displayed based on the likelihood, it is likely that the higher-level explanation is of higher quality, so the order of the original explanatory paragraph from which the single sentence is extracted is taken into consideration.
(b)そのグループに含まれる単文に共通して現れる語を多く含む文を代表とする。これにより、説明段落や単文の抽出誤りによって生じた少数派の語(ノイズ)を最終的な要約から排除することができる。 (B) A sentence including many words that appear in common in a single sentence included in the group is represented. As a result, minority words (noise) caused by extraction paragraphs or simple sentence extraction errors can be excluded from the final summary.
(c)説明の文字数を考慮する。携帯端末などの利用環境によっては、表示文字数が最も強い制約になる場合がある。従って、なるべく短い文を代表文として選ぶ。 (C) Consider the number of characters in the description. Depending on the usage environment such as a portable terminal, the number of displayed characters may be the strongest constraint. Therefore, a sentence as short as possible is selected as a representative sentence.
以上3つの基準は互いに異なる範囲を取るため、経験的に重みを調整した上で結合している。 Since the above three criteria have different ranges, they are combined after adjusting weights empirically.
「その他」には、対応する観点が判別不能な単文が多数混在しているか、もしくは説明文としてふさわしくないノイズが含まれる。冗長な要約になることを避けるために、「その他」からは一般(「その他」以外)の観点から既に選択された単文との語の重複がなるべく少ない単文を優先的に選択する。 “Others” includes a large number of single sentences whose corresponding viewpoints cannot be distinguished, or noise that is not suitable as an explanatory sentence. In order to avoid redundant summarization, a simple sentence is selected preferentially from “others” in terms of general (other than “others”) with as little word overlap as possible.
「その他」から複数の単文を選択する場合には、まず、最初の1件を選出し、既に選出された単文との語の重複が少ない単文を次に選出する。この処理を再帰的に行うことで多様な単文を選出する。
(4)生成・提示処理(ステップS4)
生成・提示処理では、各グループから選出された代表文をグループ(観点)名とともに箇条書きで表示する。ここでは、選択処理におけるスコアが高い代表文から順番に提示する。図4と図5は、それぞれ、見出し語「XML」に関するコンピュータ分野の説明段落とそれらを要約した結果である。この例では、397文字という少ない文字数で多面的な観点から見出し語について概観できる要約が生成された。
When selecting a plurality of simple sentences from “Others”, first, the first one is selected, and then a single sentence with less word overlap with the already selected simple sentence is selected. Various simple sentences are selected by performing this process recursively.
(4) Generation / presentation processing (step S4)
In the generation / presentation process, representative sentences selected from each group are displayed in an itemized list together with the group (viewpoint) name. Here, the sentences are presented in order from the representative sentence with the highest score in the selection process. FIG. 4 and FIG. 5 show the explanatory paragraphs in the computer field concerning the headword “XML” and the results of summarizing them, respectively. In this example, a summary was generated that allows an overview of the headword from a multifaceted viewpoint with a small number of 397 characters.
生成処理には更に工夫の余地がある。例えば、単文特定処理で抽出された単文の文末表現〔例えば、前述の(c)の「〜標準化勧告され、」〕を置換することで、文字数を少なくしたり、文末らしい表現に修正することができる。しかし、単なる抜粋の範囲を逸脱して説明内容を改変することは、ページの著作権を侵害する可能性がある。研究目的として許容される範囲とWeb上で実際に運用する場合の制約について注意しなければならない。 There is room for further improvement in the generation process. For example, it is possible to reduce the number of characters or correct the expression to the end of the sentence by replacing the end sentence expression of the single sentence extracted by the single sentence specifying process (for example, “to be standardized” in (c) above). it can. However, changing the contents of the explanation outside the scope of the mere excerpt may infringe the copyright of the page. You must be careful about the allowable range for research purposes and the restrictions when actually operating on the Web.
また、提示処理における工夫として「定義」や「目的」等の観点名から、そのグループに属する他の説明文や抽出元の説明段落にリンクをはり、ユーザが選択した観点だけに絞り込むといった誘導の手法がある。例えば、図5の「書籍」の説明は、XMLに関する書籍の販売情報のページから抽出されたものである。この説明を手掛かりにして書籍の販売情報を素早く取得することができる。 In addition, as a contrivance in the presentation process, a link is made from a viewpoint name such as “definition” or “purpose” to other explanatory texts belonging to the group or an explanatory paragraph of the extraction source, and narrowed down only to the viewpoint selected by the user. There is a technique. For example, the description of “book” in FIG. 5 is extracted from a page of book sales information about XML. Using this explanation as a clue, sales information on books can be quickly acquired.
次に、その評価実験について説明する。 Next, the evaluation experiment will be described.
要約手法の評価は判定者の主観に依存する部分が大きいため工学的に評価することが困難である。一方、新聞記事などを対象にした評価用テストコレクション(上記非特許文献3参照)は存在する。また、要約手法そのものの評価ではなく、別のタスク(情報検索における適合文書の選択など)に応用した場合の性能向上度によって、間接的かつ客観的に要約手法を評価する方法も存在する。 Since the evaluation of the summarization method largely depends on the subjectivity of the judge, it is difficult to evaluate it from the engineering viewpoint. On the other hand, there is an evaluation test collection for newspaper articles and the like (see Non-Patent Document 3 above). There is also a method for evaluating the summarization method indirectly and objectively based on the degree of performance improvement when applied to another task (such as selection of relevant documents in information retrieval) instead of evaluation of the summarization method itself.
しかし、本発明で対象にしている用語説明に関する要約はあまり前例がないため、評価手法の問題点を洗い出すことも念頭に置いて、小規模ながら独自にテストデータを作成して評価に利用した。また、要約手法そのものに関する評価実験だけを行った。 However, since there is no precedent for summarizing the explanation of terms used in the present invention, we have created test data on a small scale and used it for evaluation in consideration of identifying problems in the evaluation method. In addition, only the evaluation experiment on the summarization method itself was conducted.
評価の基準や尺度には複数の選択肢がある。例えば「自動生成された要約が既存の用語辞典の説明にどの程度近づいたか」という基準がある。しかし、本発明の要約手法の入力としてCycloneの検索結果を用いるため、既存の辞典にしかない、もしくは既存の辞典にはない観点が存在した場合にはこの基準では評価が難しくなる。 There are multiple options for evaluation criteria and scales. For example, there is a criterion “how close an automatically generated summary is to the explanation of an existing terminology dictionary”. However, since the search result of Cyclone is used as the input of the summarization method of the present invention, it is difficult to evaluate with this standard when there is a viewpoint that is only in the existing dictionary or not in the existing dictionary.
そこで、本発明では判定者による人手判定と本発明による要約結果を基に以下の2種類の尺度を用いて評価実験を行った。この2種類の尺度はトレードオフの関係にあり、同時に改善することが難しい尺度である。 Therefore, in the present invention, an evaluation experiment was performed using the following two types of scales based on the manual determination by the determiner and the summary result of the present invention. These two types of measures are in a trade-off relationship and are difficult to improve at the same time.
(1)要約率
Cycloneの検索結果(説明段落)をどれだけ短縮することができたか。
(1) Summarization rate How much the search result (explanation paragraph) of Cyclone was shortened?
(2)網羅率
Cycloneの検索結果(説明段落)に含まれる説明の観点のうち、幾つの観点を要約に含めることができたか。
(2) Coverage rate Of the viewpoints of explanation included in the search results (explanation paragraph) of Cyclone, how many viewpoints could be included in the summary?
評価実験に用いた見出し語とその実験結果を表1に示す。 Table 1 shows the headwords used in the evaluation experiment and the experimental results.
判定者は、本発明による要約処理の結果を見ずに、Cycloneの検索結果上位50件だけを吟味して単文単位に観点を付与した。判定者に付与を依頼した30種類の観点を以下に示す。 The examiner examined only the top 50 search results of Cyclone without giving a result of the summary processing according to the present invention, and gave a viewpoint to a single sentence unit. The 30 types of viewpoints requested to be given to the judge are shown below.
定義、例示、上位概念、下位概念、要素、性質、属性、機能、目的、歴史、現在、予測、原因、結果、同義語、反意語、略語、訳語、間接的説明、比較、比喩、製品、書籍、別の意味(多義語の場合)、読み、入手方法、利点、欠点、語源、その他
判定者が虚偽の説明に対して観点を付与することがないよう、上記既存の辞典に掲載された説明等を見せることで対象の用語に関する知識を与え、1つの単文に対して1つ以上の観点を付与するようにした。対象見出し語が多義語で上記既存の用語辞典以外の意味で使われている説明には観点「別の意味」を付与し、事実上、評価の対象外とした。
Definition, example, superordinate concept, subordinate concept, element, nature, attribute, function, purpose, history, present, prediction, cause, result, synonym, antonym, abbreviation, translation, indirect explanation, comparison, metaphor, product, book , Other meanings (in the case of polysemy), reading, obtaining methods, advantages, disadvantages, etymology, etc. Descriptions published in the above existing dictionary so that the judge does not give a point of view for false explanations The knowledge about the target term was given by showing etc., and one or more viewpoints were given to one simple sentence. The explanation that the target headword is an ambiguous word and is used in a meaning other than the existing terminology dictionary is given a viewpoint of “another meaning” and is effectively excluded from the evaluation.
判定者に示した観点の中には、本発明の照合処理において必要となる典型表現を予め設定できなかったために、Cycloneがそもそも出力できないものも含まれる。これらの観点は、Cycloneによる要約処理の結果には決して含まれないため、網羅率を下げる要因となった。 Among the viewpoints shown to the judge, there are those that Cyclone cannot output in the first place because the typical expression required in the collation processing of the present invention cannot be set in advance. Since these viewpoints are never included in the result of the summary processing by Cyclone, it has become a factor of lowering the coverage rate.
その結果と考察について説明する。 The results and discussion will be explained.
表1に実験結果として要約率と網羅率を示す。各観点のグループから出力する代表文の件数(N)を1,2,3と変化させた。ただし「その他」からは常に代表文を5件選出した。要約率は式(1)で計算した。要約率が小さいほど良い結果であることを示す。 Table 1 shows the summary rate and coverage rate as experimental results. The number of representative sentences (N) output from each viewpoint group was changed to 1, 2, and 3. However, 5 representative sentences were always selected from “Others”. The summarization rate was calculated by equation (1). A smaller summarization rate indicates better results.
自動要約の文字数/要約しない場合にユーザが読む文字数 …(1)
ここで、「要約しない場合にユーザが読む文字数」は、Cycloneの検索結果をユーザが上から順番に読んだ場合に、本発明による自動要約に含まれる観点に対応する文を全て読むまでの文字数である。その場合、自動要約に含まれる観点を全て読めば、説明段落を50読む前でも閲覧を終了すると仮定した。また、観点が同じであれば、要約に含まれる文と同一である必要はない。
Number of characters for automatic summarization / number of characters read by user when not summarizing (1)
Here, “the number of characters read by the user when not summarizing” refers to the number of characters until all sentences corresponding to the viewpoint included in the automatic summarization according to the present invention are read when the user reads the Cyclone search results from the top. It is. In that case, it is assumed that if all the viewpoints included in the automatic summary are read, the browsing is ended even before reading the explanation paragraph 50 times. Moreover, if the viewpoint is the same, it is not necessary to be the same as the sentence included in the summary.
網羅率は式(2)で計算した。網羅率が大きいほど良い結果であることを示す。 The coverage rate was calculated by equation (2). The larger the coverage rate, the better the result.
要約に含まれた観点数/判定者が付与した観点数 …(2)
なお、提案する要約手法の網羅率を以下の2通りの方法で評価した。
The number of viewpoints included in the summary / the number of viewpoints given by the judge ... (2)
The coverage rate of the proposed summarization method was evaluated by the following two methods.
(1)A:要約に含まれた観点数として判定者が付与した観点が含まれ、かつ観点名も正しかった場合のみ正解と見なした。 (1) A: Only when the viewpoint given by the determiner was included as the number of viewpoints included in the summary and the viewpoint name was also correct, it was regarded as a correct answer.
(2)B:観点名の適否は考慮しない(要約に含まれた観点数として判定者が付与した観点がいくつ含まれたか)。 (2) B: Appropriateness of the viewpoint name is not taken into consideration (how many viewpoints given by the determiner are included as the number of viewpoints included in the summary).
更に、上記Bと比較するための基準値として、以下の単純な要約手法による網羅率も計算した。 Furthermore, as a reference value for comparison with B, the coverage rate by the following simple summarization method was also calculated.
(3)C:Cyclone検索結果の上位から、提案する要約手法の結果と同じ文字数を抜粋する(ただし、抜粋する点が文中の場合は文末まで出力する)。 (3) From the top of the C: Cyclone search result, extract the same number of characters as the result of the proposed summarization method (however, if the extracted point is in the sentence, it is output to the end of the sentence).
上記Cは単一文書の要約における「リード法」(文書の先頭から一定文字数を抜粋する単純な手法)に相当する。また、上記Cの手法は観点名を付与するとができないため、上記Bと同様に観点名の適否は考慮しない。 The above C corresponds to the “read method” (simple method of extracting a certain number of characters from the beginning of the document) in the summary of a single document. Further, since the method C cannot assign a viewpoint name, whether the viewpoint name is appropriate is not considered as in the case of B.
表1の結果について考察する。まず、Nの値を増やすことによって、要約率は大きくなり、逆に網羅率は高くなったことが分かる。 Consider the results in Table 1. First, it can be seen that increasing the value of N increases the summarization rate and conversely increases the coverage rate.
要約率はNによって変動するものの、およそ10%前後となり、元の情報をかなり短縮できたことが分かる。つまり、同じ量の情報を取得するために、ユーザは10分の1程度の労力を使うだけでよいということになる。他方で、上記方法Aの網羅率は平均して20%代という低い値となった。しかし、観点名の適否を考慮しない上記方法Bでは、上記方法Aに比べて網羅率が2倍以上になった。 Although the summarization rate varies depending on N, it is about 10%, and it can be seen that the original information can be considerably shortened. That is, in order to acquire the same amount of information, the user only has to use about one-tenth of the labor. On the other hand, the coverage of Method A was on average as low as 20%. However, in the method B that does not consider the suitability of the viewpoint name, the coverage rate is more than doubled compared to the method A.
上記方法Bと上記方法Cを比較すると、総じて本発明の方法の網羅率が高く、本発明の方法が同じ文字数でユーザにより多くの情報を与えることが分かった。両者の差異はまだ小さいものの、要素技術を改善していくことで、この差は今後広がる可能性がある。 Comparing the method B and the method C, it was found that the coverage rate of the method of the present invention is generally high, and the method of the present invention gives more information to the user with the same number of characters. Although the difference between the two is still small, this difference may widen in the future by improving the elemental technology.
さらに、網羅率を観点ごとに分析した。ここでは、Cycloneの検索結果で6つ以上の見出し語に含まれた観点を対象に、上記方法BにおいてN=1とした場合のみを以下に示す。 Furthermore, the coverage rate was analyzed for each viewpoint. Here, only the case where N = 1 in the above-mentioned method B is shown below, targeting the viewpoints included in six or more headwords in the search result of Cyclone.
定義(7/7)、例示(4/4)、同義語(1/6)、性質(3/7)、機能(1/7)、目的(3/6)、歴史(4/6)、間接的説明(5/7)、比較(1/7)、書籍(5/6)
この結果より、「例示」や「同義語」など、既存の辞典に含まれやすい観点を中心に網羅率を改善する必要がある。
Definition (7/7), example (4/4), synonym (1/6), nature (3/7), function (1/7), purpose (3/6), history (4/6), Indirect explanation (5/7), comparison (1/7), book (5/6)
From this result, it is necessary to improve the coverage rate mainly from the viewpoint of being easily included in the existing dictionary such as “example” and “synonym”.
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、これらを本発明の範囲から排除するものではない。 In addition, this invention is not limited to the said Example, Based on the meaning of this invention, a various deformation | transformation is possible and these are not excluded from the scope of the present invention.
本発明は、Webから事典的なコンテンツを検索するサイトにおいて、複数文書から効率よく、過不足のない簡潔な用語説明に関する要約の作製に適している。 The present invention is suitable for creating a summary of a simple term explanation that is efficient from a plurality of documents and has no excess or deficiency in a site that retrieves encyclopedia content from the Web.
1 Web
2 新語検出部
3 見出し語の候補収集部
4 検索処理部
5 抽出処理部
6 組織化処理部
7 要約作成部
8 見出し語抽出部
9 事典コンテンツ
10 コンピュータ
11 サーバ
12 ブラウザ
1 Web
2 New word detection unit 3 Headword candidate collection unit 4
Claims (19)
(b)該特定処理によって抽出された単文を照合して、同一の観点に対応する類似した単文同士を同一グループに分類する照合処理と、
(c)該照合処理で構成されたグループから代表的な単文を1つ以上選出する選出処理と、
(d)該選出処理で各グループから選出された代表文をグループ(観点)名とともに箇条書きで表示する生成・提示処理とを施し、
(e)複数の文書から抽出した説明情報を統合・要約して、対象の用語について過不足ない簡潔な説明情報をコンピュータにより自動生成することを特徴とする複数文書の要約作成方法。 (A) a single sentence specifying process for detecting and dividing a single sentence as a minimum unit of the summary process from the description information extracted from a plurality of documents;
(B) a collation process for collating simple sentences extracted by the specific process and classifying similar single sentences corresponding to the same viewpoint into the same group;
(C) a selection process for selecting one or more representative single sentences from the group configured by the matching process;
(D) A generation / presentation process of displaying a representative sentence selected from each group in the selection process together with a group (viewpoint) name in an itemized form,
(E) A method for creating a summary of a plurality of documents, wherein the explanation information extracted from a plurality of documents is integrated / summarized, and concise explanation information about the target term is automatically generated by a computer.
(a)単文の抽出元の説明段落の尤度の順位の高さを考慮し、
(b)前記グループに含まれる単文に共通して現れる語を多く含む文を代表文の候補とし、
(c)該代表文の候補のうち、目的に適した文字数の文を代表文として選ぶことを特徴とする複数文書の要約作成方法。 9. The multiple document summary creation method according to claim 8, wherein the representative sentence is selected.
(A) Considering the high likelihood ranking of the explanation paragraph from which the single sentence is extracted,
(B) A sentence including many words that appear in common in a single sentence included in the group is set as a candidate for a representative sentence.
(C) A method for creating a summary of a plurality of documents, wherein a sentence having a character number suitable for a purpose is selected as a representative sentence from the representative sentence candidates.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004003241A JP2005196572A (en) | 2004-01-08 | 2004-01-08 | Summary making method of multiple documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004003241A JP2005196572A (en) | 2004-01-08 | 2004-01-08 | Summary making method of multiple documents |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005196572A true JP2005196572A (en) | 2005-07-21 |
Family
ID=34818210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004003241A Pending JP2005196572A (en) | 2004-01-08 | 2004-01-08 | Summary making method of multiple documents |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005196572A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007117031A1 (en) * | 2006-04-05 | 2007-10-18 | I-Business Center Corporation | Response generating apparatus, method, and program |
JP2010277409A (en) * | 2009-05-29 | 2010-12-09 | Toshiba Corp | Representative sentence extracting device and program |
JP2011243078A (en) * | 2010-05-20 | 2011-12-01 | Yahoo Japan Corp | Article management device |
JP2012104041A (en) * | 2010-11-12 | 2012-05-31 | Nippon Telegr & Teleph Corp <Ntt> | Text data summarization apparatus, text data summarization method and text data summarization program |
JP2014071644A (en) * | 2012-09-28 | 2014-04-21 | Ntt Docomo Inc | Information processor |
JP2017097488A (en) * | 2015-11-19 | 2017-06-01 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
JP2018097562A (en) * | 2016-12-13 | 2018-06-21 | 株式会社東芝 | Information processing device, information processing method and information processing program |
JP2022173178A (en) * | 2021-05-08 | 2022-11-18 | ソフネック株式会社 | Intended information extraction program, intended information extraction apparatus, and intended information extraction method |
JP7246458B1 (en) | 2021-10-01 | 2023-03-27 | ネイバー コーポレーション | Document summarization method and system using huge language model |
-
2004
- 2004-01-08 JP JP2004003241A patent/JP2005196572A/en active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007117031A1 (en) * | 2006-04-05 | 2007-10-18 | I-Business Center Corporation | Response generating apparatus, method, and program |
JP2008310370A (en) * | 2006-04-05 | 2008-12-25 | I Business Center:Kk | Retrieval server, retrieval method, and program for making computer function as retrieval server |
US8271485B2 (en) | 2006-04-05 | 2012-09-18 | I-Business Center Corporation | Reply generation apparatus and method and program for causing computer to function as reply generating apparatus |
JP2010277409A (en) * | 2009-05-29 | 2010-12-09 | Toshiba Corp | Representative sentence extracting device and program |
JP2011243078A (en) * | 2010-05-20 | 2011-12-01 | Yahoo Japan Corp | Article management device |
JP2012104041A (en) * | 2010-11-12 | 2012-05-31 | Nippon Telegr & Teleph Corp <Ntt> | Text data summarization apparatus, text data summarization method and text data summarization program |
JP2014071644A (en) * | 2012-09-28 | 2014-04-21 | Ntt Docomo Inc | Information processor |
JP2017097488A (en) * | 2015-11-19 | 2017-06-01 | ヤフー株式会社 | Information processing device, information processing method, and information processing program |
JP2018097562A (en) * | 2016-12-13 | 2018-06-21 | 株式会社東芝 | Information processing device, information processing method and information processing program |
WO2018110029A1 (en) * | 2016-12-13 | 2018-06-21 | 株式会社東芝 | Information processing device, information processing method and information processing program |
CN110168527A (en) * | 2016-12-13 | 2019-08-23 | 株式会社东芝 | Information processing unit, information processing method and message handling program |
US11334715B2 (en) | 2016-12-13 | 2022-05-17 | Kabushiki Kaisha Toshiba | Topic-identifying information processing device, topic-identifying information processing method, and topic-identifying computer program product |
CN110168527B (en) * | 2016-12-13 | 2023-07-14 | 株式会社东芝 | Information processing device, information processing method, and information processing program |
JP2022173178A (en) * | 2021-05-08 | 2022-11-18 | ソフネック株式会社 | Intended information extraction program, intended information extraction apparatus, and intended information extraction method |
JP7312354B2 (en) | 2021-05-08 | 2023-07-21 | ソフネック株式会社 | Intention information extraction program, intention information extraction device, and intention information extraction method |
JP7246458B1 (en) | 2021-10-01 | 2023-03-27 | ネイバー コーポレーション | Document summarization method and system using huge language model |
JP2023053867A (en) * | 2021-10-01 | 2023-04-13 | ネイバー コーポレーション | Method and system for summarizing document using hyperscale language model |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6505150B2 (en) | Article and method of automatically filtering information retrieval results using test genre | |
US7814102B2 (en) | Method and system for linking documents with multiple topics to related documents | |
US7958128B2 (en) | Query-independent entity importance in books | |
US20050203970A1 (en) | System and method for document collection, grouping and summarization | |
US20070185847A1 (en) | Methods and apparatus for filtering search results | |
US20040098385A1 (en) | Method for indentifying term importance to sample text using reference text | |
JP2010055618A (en) | Method and system for providing search based on topic | |
JPWO2009096523A1 (en) | Information analysis apparatus, search system, information analysis method, and information analysis program | |
JPH07325827A (en) | Automatic hyper text generator | |
EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
US20110093257A1 (en) | Information retrieval through indentification of prominent notions | |
Tang et al. | Overview of the NTCIR-9 Crosslink Task: Cross-lingual Link Discovery. | |
Sardinha | An assessment of metaphor retrieval methods | |
JP2005196572A (en) | Summary making method of multiple documents | |
Shah et al. | DOM-based keyword extraction from web pages | |
US6973423B1 (en) | Article and method of automatically determining text genre using surface features of untagged texts | |
Pembe et al. | Automated querybiased and structure-preserving text summarization on web documents | |
JP4621680B2 (en) | Definition system and method | |
Liu et al. | The CIST Summarization System at TAC 2011. | |
Sariki et al. | A book recommendation system based on named entities | |
JP4428703B2 (en) | Information retrieval method and system, and computer program | |
Kavila et al. | Extractive text summarization using modified weighing and sentence symmetric feature methods | |
Van den Hoven et al. | Beyond reported history: Strikes that never happened | |
Fujii et al. | Toward the automatic compilation of multimedia encyclopedias: associating images with term descriptions on the web | |
Abdou et al. | Unsupervised automatic keywords and keyphrases extractor for web documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080513 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080916 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081022 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090203 |