JP2005196572A - Summary making method of multiple documents - Google Patents

Summary making method of multiple documents Download PDF

Info

Publication number
JP2005196572A
JP2005196572A JP2004003241A JP2004003241A JP2005196572A JP 2005196572 A JP2005196572 A JP 2005196572A JP 2004003241 A JP2004003241 A JP 2004003241A JP 2004003241 A JP2004003241 A JP 2004003241A JP 2005196572 A JP2005196572 A JP 2005196572A
Authority
JP
Japan
Prior art keywords
sentence
documents
viewpoint
group
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004003241A
Other languages
Japanese (ja)
Inventor
Atsushi Fujii
敦 藤井
Tetsuya Ishikawa
徹也 石川
Mariko Watanabe
まり子 渡邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2004003241A priority Critical patent/JP2005196572A/en
Publication of JP2005196572A publication Critical patent/JP2005196572A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a summary making method of a plurality of documents which can generate automatically single explanation information without exaggeration and without omission from a plurality of explanation paragraphs. <P>SOLUTION: The system of this method unites/summarizes explanation paragraphs extracted from a plurality of web pages through following processes: a simple sentence specifying processing which detects simple sentences as the smallest units of summarization processing from explanation paragraphs extracted from a plurality of web pages and divides them; a comparison processing which compares the simple sentences extracted by the specifying processing and classifies similar simple sentences corresponding to the same viewpoint into the same group; a selection processing which selects one or more typical simple sentences from the groups organized by the comparison processing; and a generation/presentation processing which displays by items the representative sentences selected from each group together with group (viewpoint) name. The system automatically generates by computer concise explanation information without exaggeration and without omission about the target terms, by integrating/summarizing the explanation paragraphs extracted from the plurality of web pages. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、複数文書の要約作成方法に関するものである。   The present invention relates to a method for creating a summary of a plurality of documents.

近年、World Wide Web上の検索エンジンを用いて様々な調べ物をすることが日常的な知的情報活動になっている。Webを国語辞典や百科事典のように使って、知らない言葉や事柄について調べることは、そのような知的情報活動の主な例である。これは、既存の辞典や事典には新語や専門用語が収録されていないことが多いのに対して、Webには新しい情報や専門性が高い情報が多く流通しているというWebの特性のためである。   In recent years, it has become a daily intellectual information activity to perform various investigations using a search engine on the World Wide Web. Using the Web like a Japanese dictionary or encyclopedia to look up unknown words and matters is a major example of such intellectual information activities. This is because the existing dictionaries and encyclopedias often do not contain new words or technical terms, but because the Web has a lot of new information and highly specialized information in circulation. It is.

Webが普及し始めた当初に比べれば検索エンジンの性能は向上し、目的の情報が簡単に見つかることも多くなった。しかし、検索要求内容によっては依然として何をキーワードとして入力してよいのか分からない場合や、膨大な検索結果から欲しい情報をどうやって選択すればよいか分からない場合がある。また、Webには統制がないため、誤字、誤解、虚偽といった低品質の情報を排除する必要がある。   Compared to the beginning when the Web began to spread, the performance of search engines has improved, and the target information has been easily found. However, depending on the contents of the search request, there is a case where it is still unknown what to input as a keyword, or a case where it is not known how to select desired information from a huge search result. Moreover, since there is no control in the Web, it is necessary to exclude low-quality information such as typographical errors, misunderstandings, and falsehoods.

上記の問題を解決するために、本願発明者らはWebを事典的に利用することを目的とした検索サイト「Cyclone」(下記非特許文献1、2、11、12、13、特許文献1参照)を構築し、継続的に評価実験や問題点の改善を行っている。Cycloneには、見出し語とその説明情報をWebページ群から抽出してコンテンツを自動構築する機能と、その構築されたコンテンツを利用するための検索機能がある。   In order to solve the above problem, the inventors of the present application search site “Cyclone” intended to use the Web encyclopedically (see Non-Patent Documents 1, 2, 11, 12, 13, and Patent Document 1 below). ) And continuously improve evaluation experiments and problems. Cyclone has a function for automatically constructing content by extracting headwords and their explanation information from a group of Web pages, and a search function for using the constructed content.

図6は、新型肺炎「SARS」を入力した場合の従来のCycloneの検索結果例である。   FIG. 6 is a search result example of a conventional Cyclone when a new type of pneumonia “SARS” is input.

画面の下半分には、複数のWebページから個別に抽出(抜粋)された説明段落が、抽出元のページタイトルと一緒に3件提示されている。説明段落は専門分野に基づいて分類され、さらに説明としての尤度に基づいて上から順位付けされて表示されている。また、見出し語(検索語)を入力するボックスの下には、検索結果を絞り込むための分野名や関連語、複合語が提示されている。   In the lower half of the screen, three explanation paragraphs individually extracted (extracted) from a plurality of Web pages are presented together with the page title of the extraction source. The explanatory paragraphs are classified based on specialized fields, and are further ranked and displayed based on the likelihood as an explanation. In addition, field names, related words, and compound words for narrowing down search results are presented below boxes for entering headwords (search words).

そこで、提示された説明段落を順番に読んだり、分野名や関連語を利用して必要な情報に絞り込むことで、既存の検索エンジンよりも効率的に入力キーワードに関する希望の説明情報を取得することができる。   Therefore, the desired explanation information about the input keyword can be obtained more efficiently than existing search engines by reading the provided explanation paragraphs in turn or by narrowing down to necessary information using field names and related terms. Can do.

しかし、一般的に人間が編纂する辞典や事典は、一つの見出し語に関して多面的な観点から過不足のない簡潔な説明を記述するようにしている。例えば、岩波情報科学辞典(下記非特許文献9参照)では、本質的な特徴を表す内包的定義、例示による外延的定義、同義語などの観点を必須項目とし、必要に応じて任意の観点を記述している。   However, dictionaries and encyclopedias that are generally compiled by human beings describe a concise explanation of a single headword from a multifaceted perspective. For example, in the Iwanami Information Science Dictionary (see Non-Patent Document 9 below), the essential items include inclusive definitions representing essential features, extended definitions by examples, synonyms, etc. It is described.

それに対して、図6に示された複数の説明は異なるWebページから個別に抜粋された情報であるため、相互に関連性がない。すなわち、一方の説明に含まれる情報が他の説明に存在しなかったり、逆に同じような情報が複数の説明に含まれていたりする。そこで、多面的な観点から説明情報を取得するためには、複数の説明段落を横断的に閲覧する必要があり、その結果、同じような内容の説明を何度も読むといった無駄が生じてしまう。   On the other hand, the plurality of descriptions shown in FIG. 6 are information extracted individually from different Web pages, and are not related to each other. That is, information included in one description does not exist in the other description, or conversely, similar information is included in a plurality of descriptions. Therefore, in order to obtain explanation information from a multifaceted viewpoint, it is necessary to browse a plurality of explanation paragraphs, resulting in the waste of reading explanations of the same content many times. .

また、ページをスクロールしたり何度もクリックして次のページを見ないと欲しい情報が手に入らない場合、ユーザは検索サイトの利用を中断する可能性もある。従って、最初のページに簡潔に概要を示してユーザの興味を引くためにも、説明情報を要約して提示することは有効な手段である。   In addition, if the user does not get the information he wants without scrolling the page or clicking on the next page to view the next page, the user may stop using the search site. Therefore, it is an effective means to summarize and present the explanatory information in order to briefly outline the first page and attract the user's interest.

そこで、本発明では、一つの見出し語に関する複数の説明段落を統合し、過不足ない説明情報を生成するための要約手法を提供する。具体的には複数文書要約(下記非特許文献4、5、7参照)に相当する処理である。その結果、携帯端末など一度に表示できる文字数が制限される環境においても利便性を向上させることができる。
特開2003−085181号公報 Atsushi Fujii and Tetsuya Ishikawa.Utilizing the World Wide Web as an encyclopedia:Extracting term descriptions from semi−structured texts.In Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics,pp.488−495,2000. Atsushi Fujii and Tetsuya Ishikawa.Organizing encyclopedic knowledge based on the Web and its application to question answering.In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics,pp.196−203,2001. Takahiro Fukushima,Hidetsugu Nanba,and Manabu Okumura.Text summarization challenge 2:Text summarization evaluation at NTCIR workshop 3.In Proceedings of the Third NTCIR Workshop on Research in Information Retrieval,Automatic Text Summarization and Question Answering,2003. Inderjeet Mani.Automatic Summarization,chapter 7,pp.169−208.John Benjamins,2001. Dragomir R.Radev and Kathleen R.McKeown.Generating natural language summaries from multiple on−line sources. Computational Linguistics,Vol.24,No.3,p.469−500,1998. 武石英二,林良彦.接続構造解析に基づく日本語複文の分割.情報処理学会論文誌,Vol.33,No.5,pp.652−663,1992. 奥村学,難波英嗣.テキスト自動要約に関する最近の話題.自然言語処理,Vol.9,No.4,pp.97−116,2002. 江原暉将,金淵培.確率モデルによるゼロ主語の補完.自然言語処理,Vol.3,No.4,pp.67−86,1996. 長尾真.辞典形式での専門分野の知識の体系的構築法.人工知能学会誌,Vol.7,No.2,pp.320−328,1992. 工藤拓,松本裕治.チャンキングの段階適用による日本語係り受け解析.情報処理学会論文誌,Vol.43,No.6,pp.1834−1842,2002. 藤井敦,伊藤克亘,石川徹也.WWWは百科事典として使えるか?−大規模コーパスの構築−.情報処理学会研究報告,2002−NL−149,pp.7−14,2002. 藤井敦.Web情報を用いた事典検索サイトの構築.情報の科学と技術,Vol.53,No.4,pp.201−204,2003. 藤井敦,石川徹也.World Wide Webを用いた事典知識情報の抽出と組織化.電子情報通信学会論文誌,Vol.J85−D−II,No.2,pp.300−307,2002.
Therefore, the present invention provides a summarization technique for integrating a plurality of explanation paragraphs related to one headword and generating explanation information with no excess or deficiency. Specifically, this is processing corresponding to multiple document summarization (see Non-Patent Documents 4, 5, and 7 below). As a result, convenience can be improved even in an environment where the number of characters that can be displayed at one time is limited, such as a portable terminal.
JP 2003-085181 A Atsushi Fujii and Tetsuya Ishikawa. Unifying the World Wide Web as an encyclopedia: Extracting term descriptions from semi-structured texts. In Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, p. 488-495, 2000. Atsushi Fujii and Tetsuya Ishikawa. Organizing engineering group based on the Web and its application to question answering. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, pp. 196-203, 2001. Takahiro Fukushima, Hidetsugu Nanba, and Manabu Okumura. 2. Text summation challenge 2: Text summation evaluation at NTCIR workshop In Proceedings of the Third NTCIR Workshop on Research in Information Retrieval, Automatic Text Summarization and Question Answering, 2003. Inderjeet Mani. Automatic Summarization, chapter 7, pp. 169-208. John Benjamins, 2001. Dragomir R.D. Radev and Kathleen R.M. McKeown. Generating natural language summaries from multiple on-line sources. Computational Linguistics, Vol. 24, no. 3, p. 469-500, 1998. Takeshi Quartz, Hayashi Yoshihiko. Japanese compound sentence division based on connection structure analysis. IPSJ Journal, Vol. 33, no. 5, pp. 652-663, 1992. Okumura Manabu, Namba Eigo. Recent topics on automatic text summarization. Natural language processing, Vol. 9, no. 4, pp. 97-116, 2002. Masaru Ehara, Kim Jin-an. Completion of zero subject by probabilistic model. Natural language processing, Vol. 3, No. 4, pp. 67-86, 1996. Nagao Makoto. A systematic method of constructing specialized knowledge in a dictionary format. Japanese Society for Artificial Intelligence, Vol. 7, no. 2, pp. 320-328, 1992. Taku Kudo and Yuji Matsumoto. Japanese dependency analysis by applying chunking stage. IPSJ Journal, Vol. 43, no. 6, pp. 1834-1842, 2002. Satoshi Fujii, Katsunobu Ito, Tetsuya Ishikawa. Can the WWW be used as an encyclopedia? -Construction of large-scale corpus-. Information Processing Society of Japan Research Report, 2002-NL-149, pp. 7-14, 2002. Jun Fujii. Construction of an encyclopedia search site using Web information. Information Science and Technology, Vol. 53, no. 4, pp. 201-204, 2003. Jun Fujii and Tetsuya Ishikawa. Encyclopedia knowledge information extraction and organization using World Wide Web. IEICE Transactions, Vol. J85-D-II, No. 2, pp. 300-307, 2002.

本願発明者らが構築した検索サイト「Cyclone」は、Webから言葉や事柄に関する良質な説明段落を抽出することで、入力キーワードに関する事典的な情報を効率的に提示することができる。この時、現状では複数のWebページから個別に抽出された説明段落の一覧が提示される。   The search site “Cyclone” constructed by the inventors of the present application can efficiently present encyclopedia information related to input keywords by extracting high-quality explanatory paragraphs related to words and matters from the Web. At this time, a list of explanation paragraphs individually extracted from a plurality of Web pages is presented at present.

しかしながら、上述したように提示される説明段落の間には関連性がないため、入力キーワードに関して十分な説明を取得するためには、複数の段落を読む必要があり、その結果、同じような内容を何度も読まなければならない場合がある。   However, since there is no relationship between the explanation paragraphs presented as described above, it is necessary to read a plurality of paragraphs in order to obtain sufficient explanation about the input keyword, and as a result, the same contents May have to be read many times.

また、単一文書を対象にした要約に比べると、複数文書の要約に関する研究は新しく、一般的なモデルが確率されていない。   Compared to single-document summaries, research on multi-document summaries is new and no general model has been established.

そこで、本発明では、上記した検索サイト「Cyclone」の既存機能に加えて、新たに「要約」機能を導入した。   Therefore, in the present invention, in addition to the existing function of the search site “Cyclone”, a “summary” function is newly introduced.

ここでは、一つの見出し語について(各分野ごとに)複数の説明段落を統合する。原理的にオフライン、オンラインどちらの段階でも要約機能を適用することができる。本発明の実施例では、応答時間を考慮し、オフラインで事前に要約を生成する。   Here, a plurality of explanatory paragraphs are integrated (for each field) for one headword. In principle, the summary function can be applied at both offline and online stages. In the embodiment of the present invention, the summary is generated in advance offline in consideration of the response time.

オンライン検索を行う場合、ユーザが入力したキーワードや質問文が見出し語になかった場合に、文字列が部分的に一致する見出し語や概念的に類似する見出し語を提示することで、ユーザを必要な情報に自然に誘導することができる。しかし、本発明の焦点からは外れるためこの誘導の詳細は割愛する。   When performing an online search, if the keyword or question text entered by the user is not found in the headword, the user is required to present a headword that partially matches the character string or conceptually similar headword Natural information can be guided naturally. However, the details of this guidance are omitted because they are out of the focus of the present invention.

本発明は、上記に鑑みて、複数の説明段落から過不足ない単一の説明情報を自動生成することができる複数文書の要約作成方法を提供することを目的とする。   SUMMARY OF THE INVENTION In view of the above, an object of the present invention is to provide a multi-document summary creation method capable of automatically generating a single piece of explanation information from a plurality of explanation paragraphs.

ここでは、ある入力キーワードに関する複数の説明段落を「定義」や「目的」といった説明の観点に基づいて解析し、観点ごとに代表的な説明文を選択し統合することで最終的な説明情報を構築する。   Here, multiple explanation paragraphs about a certain input keyword are analyzed based on the viewpoint of explanation such as “definition” and “purpose”, and the final explanation information is obtained by selecting and integrating representative explanation sentences for each viewpoint. To construct.

また、評価実験によって提案手法の有効性を示す。   The effectiveness of the proposed method is shown by an evaluation experiment.

本発明は、上記目的を達成するために、
〔1〕複数の文書から抽出した説明情報から、要約処理の最小単位としての単文を検出し分割する単文特定処理と、この特定処理によって抽出された単文を照合して、同一の観点に対応する類似した単文同士を同一グループに分類する照合処理と、この照合処理で構成されたグループから代表的な単文を1つ以上選出する選出処理と、この選出処理で各グループから選出された代表文をグループ(観点)名とともに箇条書きで表示する生成・提示処理とを施し、複数の文書から抽出した説明情報を統合・要約して、対象の用語について過不足ない簡潔な説明情報をコンピュータにより自動生成することを特徴とする。
In order to achieve the above object, the present invention provides
[1] A single sentence specifying process that detects and divides a single sentence as a minimum unit of summary processing from explanatory information extracted from a plurality of documents, and a single sentence extracted by this specifying process are collated to correspond to the same viewpoint. A collation process for classifying similar single sentences into the same group, a selection process for selecting one or more representative single sentences from the group configured by the collation process, and representative sentences selected from each group by this selection process. Generates and presents information that is displayed in bulleted lists along with the group (viewpoint) name, integrates and summarizes the explanation information extracted from multiple documents, and automatically generates concise explanation information with no excess or deficiency for the target term It is characterized by doing.

〔2〕上記〔1〕記載の複数文書の要約作成方法において、前記特定処理において重文を複数の単文に分割した場合、分割された2つ目以降の単文の文頭には先頭文の主語を補完することを特徴とする。   [2] In the method for creating a summary of a plurality of documents described in [1] above, when a heavy sentence is divided into a plurality of single sentences in the specifying process, the subject of the first sentence is supplemented at the head of the second and subsequent single sentences. It is characterized by doing.

〔3〕上記〔1〕記載の複数文書の要約作成方法において、前記照合処理において、前記単文を観点に基づいて分類するために、それぞれの観点に固有の定型表現を予め作成し、この定型表現を含む文を対応するグループに分類することを特徴とする。   [3] In the multi-document summary creation method described in [1] above, in the collation process, in order to classify the simple sentences based on viewpoints, a fixed expression unique to each viewpoint is created in advance, and the fixed expression Are classified into corresponding groups.

〔4〕上記〔1〕記載の複数文書の要約作成方法において、前記観点が定義、略語、例示、目的、同義語、書籍、製品、利点、欠点、歴史、要素、機能であることを特徴とする。   [4] The multiple document summary creation method according to [1] above, wherein the viewpoint is definition, abbreviation, illustration, purpose, synonym, book, product, advantage, defect, history, element, function. To do.

〔5〕上記〔1〕記載の複数文書の要約作成方法において、前記照合処理において、分類されなかった単文を既に分類された単文グループと比較し、類似度が高い単文が属する観点に分類することを特徴とする。   [5] In the multiple document summarization method described in [1] above, in the collation process, a simple sentence that has not been classified is compared with a simple sentence group that has already been classified, and classified into viewpoints to which simple sentences with high similarity belong. It is characterized by.

〔6〕上記〔5〕記載の複数文書の要約作成方法において、前記定義、略語、例示、目的、同義語、書籍、製品、利点、欠点、歴史、要素、機能の観点に当てはまらず、かつ既に分類されたどの単文グループとも類似度が低い単文を「その他」として分類することを特徴とする。   [6] In the method for creating a summary of a plurality of documents described in [5] above, the definition, abbreviations, examples, purposes, synonyms, books, products, advantages, disadvantages, history, elements, functions are not applied, and already A single sentence having a low similarity to any classified single sentence group is classified as “others”.

〔7〕上記〔5〕記載の複数文書の要約作成方法において、前記類似度の計算には語の重複度を用いることを特徴とする。   [7] In the method for creating a summary of a plurality of documents described in [5] above, word similarity is used for calculating the similarity.

〔8〕上記〔1〕記載の複数文書の要約作成方法において、前記選出処理において、グループ全体の傾向を反映しつつ、かつ良質な文を選択することを特徴とする。   [8] The summary creation method for a plurality of documents according to [1], wherein the selection process selects a high-quality sentence while reflecting a tendency of the entire group.

〔9〕上記〔8〕記載の複数文書の要約作成方法において、基準を定量化し、それらを結合したスコアに基づいて代表文を選出することを特徴とする。   [9] The multi-document summary creation method according to [8], wherein the reference is quantified and a representative sentence is selected based on a score obtained by combining the criteria.

〔10〕上記〔8〕記載の複数文書の要約作成方法において、前記代表文を選出を、
(a)単文の抽出元の説明段落の尤度の順位の高さを考慮し、
(b)前記グループに含まれる単文に共通して現れる語を多く含む文を代表文の候補とし、
(c)この代表文の候補のうち、目的に適した文字数の文を代表文として選ぶことを特徴とする。
[10] In the method for creating a summary of a plurality of documents described in [8] above, selecting the representative sentence,
(A) Considering the high likelihood ranking of the explanation paragraph from which the single sentence is extracted,
(B) A sentence including many words that appear in common in a single sentence included in the group is set as a candidate for a representative sentence.
(C) Of the candidates for the representative sentence, a sentence having the number of characters suitable for the purpose is selected as the representative sentence.

〔11〕上記〔8〕記載の複数文書の要約作成方法において、前記基準が単文が抽出された元の説明段落の順位を考慮するものであることを特徴とする。   [11] The multi-document summary creation method according to [8] above, wherein the criterion considers the rank of the original explanatory paragraph from which a single sentence is extracted.

〔12〕上記〔8〕記載の複数文書の要約作成方法において、前記基準がグループに含まれる単文に共通して現れる語を多く含む文とするものであることを特徴とする。   [12] The multi-document summary creation method according to [8] above, wherein the criterion is a sentence including many words that appear in common in a single sentence included in the group.

〔13〕上記〔8〕記載の複数文書の要約方作成法において、前記基準が説明の文字数を考慮するものであることを特徴とする。   [13] In the method for creating a summary method for a plurality of documents described in [8] above, the criterion is based on the number of explanatory characters.

〔14〕上記〔5〕記載の複数文書の要約作成方法において、前記「その他」からは他の前記観点から既に選択された単文との語の重複がなるべく少ない単文を優先的に選択することを特徴とする。   [14] In the method for creating a summary of a plurality of documents described in [5] above, the “others” is to preferentially select a single sentence that has as few overlapping words as possible from other single sentences already selected from the above viewpoints. Features.

〔15〕上記〔5〕記載の複数文書の要約作成方法において、前記「その他」から複数の単文を選択する場合には、まず、最初の1件を選択し、既に選択された単文との語の重複が少ない単文を次に選択し、この処理を再帰的に行うことで多様な単文を選択することを特徴とする。   [15] In the method for creating a summary of a plurality of documents described in [5] above, when selecting a plurality of simple sentences from the “others”, first, the first one is selected, and a word with the already selected simple sentence is selected. Next, a simple sentence with less duplication is selected next, and various simple sentences are selected by performing this process recursively.

〔16〕上記〔1〕記載の複数文書の要約作成方法において、前記生成・提示処理は、各グループから選択された代表文をグループ(観点)名とともに箇条書きで表示することを特徴とする。   [16] In the method for creating a summary of a plurality of documents described in [1], the generation / presentation process displays a representative sentence selected from each group in an itemized list together with a group (viewpoint) name.

〔17〕上記〔16〕記載の複数文書の要約作成方法において、前記生成処理では単文特定処理で抽出された単文の文末表現を置換することで、文字数を少なくしたり、文末らしい表現に修正することを特徴とする。   [17] In the multiple document summary creation method described in [16] above, the generation process replaces the sentence end expression of the single sentence extracted in the single sentence specifying process, thereby reducing the number of characters or correcting the expression to a sentence end-like expression. It is characterized by that.

〔18〕上記〔16〕記載の複数文書の要約作成方法において、前記提示処理ではそのグループに属する他の説明文や抽出元の説明段落にリンクをはり、ユーザが選択した観点だけに絞り込むことを特徴とする。   [18] In the method for creating a summary of a plurality of documents described in [16] above, in the presenting process, links are made to other explanatory texts belonging to the group and explanatory paragraphs of extraction sources so as to narrow down only to the viewpoint selected by the user. Features.

〔19〕上記〔16〕記載の複数文書の要約作成方法において、選択処理におけるスコアが高い代表文から順番に提示することを特徴とする。   [19] The multi-document summary creation method according to [16] above, wherein the representative sentences are presented in order from the highest score in the selection process.

World Wide Web上の莫大な情報から要領よく必要な知識を抽出する技術への需要は高い。本発明は用語の説明を過不足なく生成するものであり、検索のみならず、コンテンツの作成にも応用できるなど利用範囲が広く、商業的な価値も高い。   There is a great demand for a technique for extracting necessary knowledge from a vast amount of information on the World Wide Web. The present invention generates term descriptions without excess or deficiency, and has a wide range of use such as being applicable not only to search but also to creation of content, and has high commercial value.

Webを辞典や事典のように使って言葉や事柄について調べ物をすることを目的とし、複数のWebページから抽出した説明文や文章を統合さらに要約して、対象の用語について過不足ない簡潔な説明情報を自動生成する方法を提案する。本発明によって既存のWeb検索エンジンを用いる場合よりも対象の用語に関する説明を効率的に取得することが可能になる。   The purpose is to look up words and matters using the Web like a dictionary or encyclopedia, and to integrate and summarize explanations and sentences extracted from multiple Web pages, so that the target terms are concise A method for automatically generating explanatory information is proposed. According to the present invention, it is possible to efficiently obtain explanations about the target term as compared with the case of using an existing Web search engine.

ここでは、本発明の複数文書の要約作成方法について説明する。   Here, the multi-document summary creation method of the present invention will be described.

なお、既存の単一文書の要約作成方法については、非特許文献4に開示されている。   An existing method for creating a summary of a single document is disclosed in Non-Patent Document 4.

本発明では、上記の手順に基づいて説明情報を対象にした複数文書要約のモデルを作成した。すなわち、上述した検索サイトCycloneの組織化処理によって、得られた複数の説明段落を入力とし、説明段落中の単文(ユニット)を説明の「観点」に対応するグループに分類する。そして、各グループを代表する単文(ユニット)を統合して最終的な説明情報を生成し、ユーザに提示する。   In the present invention, a multi-document summary model for explanatory information is created based on the above procedure. That is, by the above-described organization process of the search site Cyclone, a plurality of explanation paragraphs obtained are input, and simple sentences (units) in the explanation paragraph are classified into groups corresponding to the “viewpoint” of the explanation. Then, final explanatory information is generated by integrating simple sentences (units) representing each group and presented to the user.

ただし、用意すべき観点は、見出し語の種別によって変化する。例えば、専門用語と動植物では説明の観点が異なる。現行のCycloneには、専門用語、事柄、人名、動植物など様々な種別の見出し語が約60万語収録されている。ここでは、専門用語を対象にモデルの実装と評価を行った。   However, the viewpoint to be prepared varies depending on the type of headword. For example, technical terms and animals and plants differ in terms of explanation. The current Cyclone contains about 600,000 headwords of various types such as technical terms, matters, names of people, animals and plants. Here, we implemented and evaluated the model for technical terms.

既存の複数文書要約モデルは新聞記事などを対象としているため、記事の内容やジャンルによっては観点をあらかじめ用意することが困難な場合がある。それに対して、本発明のような専門用語説明の場合は人手によって観点をある程度列挙することが可能である。   Since the existing multi-document summary model is intended for newspaper articles and the like, it may be difficult to prepare a viewpoint in advance depending on the content and genre of the article. On the other hand, in the case of explanation of technical terms as in the present invention, it is possible to enumerate viewpoints to some extent by hand.

以下、本発明を適用した検索サイトCycloneの概要について説明する。   Hereinafter, an outline of the search site Cyclone to which the present invention is applied will be described.

図1は本発明にかかる事典的検索サイトCycloneの概要を示す図、図2はそのシステム構成図、図3は本発明の要約作成ステップを示す図である。   FIG. 1 is a diagram showing an outline of an encyclopedia search site Cyclone according to the present invention, FIG. 2 is a system configuration diagram thereof, and FIG. 3 is a diagram showing a summary creation step of the present invention.

図2において、1はWeb、2は新語検出部、3は見出し語の候補収集部、4はWeb1上の見出し語を含むページを検索する検索処理部、5はHTMLタグを用いて検索されたページから見出し語に関する説明を段落単位で抽出する抽出処理部、6は組織化処理部(機能は後述)、7は要約作成部、8は見出し語抽出部、9は事典コンテンツ、10はコンピュータ、11はサーバ、12はブラウザである。   In FIG. 2, 1 is a Web, 2 is a new word detecting unit, 3 is a candidate word collecting unit, 4 is a search processing unit for searching a page including a head word on Web 1, and 5 is searched using an HTML tag. An extraction processing unit that extracts descriptions of headwords from a page in units of paragraphs, 6 is an organization processing unit (functions will be described later), 7 is a summary creation unit, 8 is a headword extraction unit, 9 is encyclopedia content, 10 is a computer, 11 is a server and 12 is a browser.

図1〜図3に基づいて本発明を適用した検索サイトCycloneの機能について説明する。事典コンテンツ9を構築するオフライン処理と、ユーザがコンテンツを検索するオンライン処理に分かれるが、ここでは、本発明の複数文書要約作成方法にかかるオフライン処理についてのみ説明する。   The function of the search site Cyclone to which the present invention is applied will be described with reference to FIGS. Although it is divided into offline processing for constructing encyclopedia content 9 and online processing for a user to search for content, only the offline processing according to the multi-document summary creation method of the present invention will be described here.

そこで、事典コンテンツ9を構築するオフライン処理では、まず、新語検出部2で「新語検出」を行い、次に、見出し語の候補収集部3で新しい見出し語の候補をWeb1から自動的に収集する。次に、各見出し語の候補に対して検索処理部4、抽出処理部5、組織化処理部6により、「検索処理」「抽出処理」「組織化処理」を順番に実行し、目的の用語の説明を専門分野ごとに分類する。これを行うことで、「パイプライン(処理/油送管)」のように、同じ見出し語でも分野によって意味が異なる多義語の説明を区別することができる。   Therefore, in the offline processing for constructing the encyclopedia content 9, first, “new word detection” is performed by the new word detection unit 2, and then new headword candidates are automatically collected from the Web 1 by the headword candidate collection unit 3. . Next, the search processing unit 4, the extraction processing unit 5, and the organization processing unit 6 sequentially execute “search processing”, “extraction processing”, and “organization processing” for each headword candidate to obtain the target term. Categorize descriptions by specialty. By doing this, it is possible to distinguish between explanations of multiple terms having different meanings depending on the field even with the same headword, such as “pipeline (processing / oil feeding pipe)”.

ここで、上記した検索処理では、Web1上の見出し語を含むページを検索する。次いで、抽出処理では、検索されたページからHTMLタグを用いて見出し語に関する説明を段落単位で抽出する。次いで、組織化処理では、(a)特定分野への関連度、(b)「説明らしい」言語表現を含むかどうか、(c)「説明らしい」HTMLレイアウトかどうか、(d)ページの信頼度という4つの尺度を統合したスコアを計算して、その値に基づいて段落を分野に分類し、尤度に基づき順位付けする。 ここまでの処理で見出し語に関する複数の説明段落の抽出がなされる。   Here, in the search process described above, a page including a headword on the Web 1 is searched. Next, in the extraction process, explanations about headwords are extracted from the retrieved page in units of paragraphs using HTML tags. Next, in the organizing process, (a) the degree of relevance to a specific field, (b) whether or not it includes a “descriptive” language expression, (c) whether or not it is an “descriptive” HTML layout, and (d) the reliability of the page The score that integrates these four measures is calculated, the paragraphs are classified into fields based on the values, and ranked based on the likelihood. Through the processing so far, a plurality of explanation paragraphs related to the headword are extracted.

最後に、関連語抽出部8による「関連語抽出処理」によって、見出し語を特徴付ける語を取得する。これらの語は、オンライン検索時にユーザの情報要求を絞り込むために利用する。   Finally, the word that characterizes the headword is acquired by the “related word extraction process” by the related word extraction unit 8. These words are used to narrow down the user's information request during online search.

関連語抽出処理の基本原理は、各見出し語の組織化処理後の説明段落に頻出する語を検出することである。ここで、適切な語を検出する処理と検出した語を評価する尺度が必要になる。そこで、まず段落を日本語形態素解析器「茶筌」で形態素解析して、品詞情報に基づいて(複合)語を構成し、関連語の候補とする。具体的には、名詞、動詞連用形、未知語、記号の連続を語として抽出する。さらに、段落における出現頻度と抽出元の段落に対する組織化処理で得たスコアを統合して関連語としてソートし、上位の値を示す関連語から優先的に提示する。すなわち、特定分野に関連が高く、信頼度も高い良質の説明段落によく現れる語が優先的に提示され、ユーザの情報検索時に有効に活用される。   The basic principle of the related word extraction process is to detect words frequently appearing in the explanatory paragraph after the organization process of each headword. Here, a process for detecting an appropriate word and a scale for evaluating the detected word are required. Therefore, the paragraph is first subjected to morphological analysis using a Japanese morphological analyzer “tea bowl”, and a (compound) word is constructed based on the part of speech information to make a candidate for a related word. Specifically, a sequence of nouns, verb conjunctive forms, unknown words, and symbols is extracted as words. Furthermore, the appearance frequency in the paragraph and the score obtained by the organization process for the extraction source paragraph are integrated and sorted as a related word, and presented preferentially from the related word indicating the higher value. That is, words that frequently appear in a high-quality explanatory paragraph that is highly related to a specific field and that have high reliability are preferentially presented, and are effectively used when a user searches for information.

本発明では、このようにして得られた見出し語の複数の説明段落を基に、要約作成部7で複数文書要約を行い、事典コンテンツ9に説明段落を1つに統合して過不足のない簡潔な説明情報を自動生成する。   In the present invention, based on a plurality of explanation paragraphs of the headwords obtained in this way, the summary creation unit 7 summarizes a plurality of documents, and the explanation contents 9 are integrated into one explanation paragraph so that there is no excess or deficiency. Automatically generate concise descriptive information.

以下、本発明にかかる複数文書の要約手順について図3を参照しながら詳述する。
(1)特定処理(ステップS1)
特定処理では、要約処理に利用する最小単位を検出する。本発明では、後述の照合処理において「観点」に対応するグループを構成するため、この「観点」に対応する単位を説明段落から抽出する必要がある。
Hereinafter, a procedure for summarizing a plurality of documents according to the present invention will be described in detail with reference to FIG.
(1) Specific process (step S1)
In the specific process, the minimum unit used for the summary process is detected. In the present invention, a group corresponding to the “viewpoint” is formed in the collation process described later, and therefore, a unit corresponding to the “viewpoint” needs to be extracted from the explanation paragraph.

本発明では、単文が一つの観点に対応する最小単位であると仮定している。そこで、特定処理の中核は、説明段落を単文に分割することである。   In the present invention, it is assumed that a simple sentence is a minimum unit corresponding to one viewpoint. Therefore, the core of the specific process is to divide the explanation paragraph into single sentences.

通常、文章には重文や複文が多く用いられので、これらをコンピュータにより単文に分割することは依然として困難な問題である。本発明では、「CaboCha」(上記非特許文献10参照)を用いて説明段落中の各文を係り受け解析し、文構造に基づく規則(上記非特許文献6参照)を適用することで、単文抽出を行う。   Usually, many sentences and compound sentences are used as sentences, and it is still a difficult problem to divide them into simple sentences by a computer. In the present invention, each sentence in the explanation paragraph is subjected to dependency analysis using “CaboCha” (see Non-Patent Document 10), and a rule based on the sentence structure (see Non-Patent Document 6) is applied. Perform extraction.

ただし、単文に分割しただけでは、後方の文には主語が欠落してしまう。例えば、以下の重文を2つの単文に分割した場合、2つ目の文頭には「XMLとは、」を補完しなければならない。   However, the subject is lost in the sentence behind by simply dividing it into simple sentences. For example, when the following sentence is divided into two simple sentences, “What is XML?” Must be supplemented to the beginning of the second sentence.

「XMLとは、eXtensible Markup Languageの略であり、マークアップ言語の一種である。」
これを単文に分割すると、
「XMLとは、eXtensible Markup Languageの略であり、」
「(XMLとは、)マークアップ言語の一種である。」
しかし、どのような文でも常に先頭文の主語を後続の文頭に補完すればよい訳ではない。どの要素をどのような場合に補完すればよいかを決定することは難しい。このような問題に対しては、単文分割におけるゼロ主語補完の手法(上記非特許文献10参照)が適用可能である。
(2)照合処理(ステップS2)
上記特定処理によって抽出された単文は、単一の観点に対応すると仮定する。また、照合処理によって類似する単文同士が同一のグループにまとめられる。そこで、照合処理で構成されるグループもまた単一の観点に対応する。
“XML is an abbreviation for eExtensible Markup Language and is a kind of markup language.”
When this is divided into simple sentences,
“XML is an abbreviation for eExtensible Markup Language,”
“(XML) is a kind of markup language.”
However, in any sentence, it is not always necessary to complement the subject of the first sentence to the beginning of the subsequent sentence. It is difficult to decide which elements should be complemented in what cases. For such a problem, a method of zero subject complementation in single sentence division (see Non-Patent Document 10 above) can be applied.
(2) Collation process (step S2)
It is assumed that the single sentence extracted by the specific process corresponds to a single viewpoint. In addition, similar single sentences are grouped together in the same group by collation processing. Therefore, the group configured by the matching process also corresponds to a single viewpoint.

現在、以下に示す12種類の観点を用意している。   Currently, the following 12 types of viewpoints are prepared.

定義、略語、例示、目的、同義語、書籍、製品、利点、欠点、歴史、要素、機能
単文をこのような観点に基づいて分類するために、2つの異なる方法を併用した。まず、それぞれの観点に固有の定型表現を予め作成しておき、その定型表現を含む文を対応するグループに自動的に分類する。ここでの定型表現は観点「定義」における「○○(見出し語)とは」や観点「例示」における「例えば」などの頻出表現のことをさす。これらの表現を用いて単文の初期分類を行う。
Definitions, abbreviations, examples, purposes, synonyms, books, products, benefits, drawbacks, history, elements, functions Two different methods were used in combination to classify simple sentences based on this perspective. First, a fixed expression unique to each viewpoint is created in advance, and sentences including the fixed expression are automatically classified into corresponding groups. The fixed expression here refers to a frequent expression such as “What is XX (headword)” in the viewpoint “definition” and “for example” in the viewpoint “example”. Using these expressions, initial sentence classification is performed.

しかし、予め用意されたこの定型表現を含まない(もしくは若干異なる表現が使われた)単文も存在する。そこで、次の段階では定型表現による分類では対応できなたった未分類の単文を既に分類された単文グループと比較し、類似度が高い単文が属するグループに分類する。類似度の計算には語の重複度を用いた。そこで、未分類の単文は、初期分類で構成されたグループの中で、最も多くの語を共有するグループに分類される。具体的にはDice係数準拠の計算によって文の長さによる正規化を行う。しかし、全ての語を使うのではなく、形態素解析によって助詞などの機能語を削除する。   However, there is a simple sentence that does not include this standard expression prepared in advance (or a slightly different expression is used). Therefore, in the next stage, uncategorized simple sentences that could not be dealt with by the regular expression classification are compared with already classified simple sentence groups, and classified into groups to which simple sentences with high similarity belong. The word overlap was used for the similarity calculation. Therefore, the uncategorized simple sentences are classified into groups that share the most words among the groups configured by the initial classification. Specifically, normalization based on the length of the sentence is performed by calculation based on the Dice coefficient. However, not all words are used, but function words such as particles are deleted by morphological analysis.

見出し語「XML」に関する具体例を以下に示す。
(a)XMLとは、拡張可能なマーク付け言語のことです。
A specific example regarding the headword “XML” is shown below.
(A) XML is an extensible markup language.

→定義
(b)eXtensible Markup Languageの略
→略語
(c)1998年にW3Cにより標準化勧告され、
→歴史
(d)XMLとは、Extensible Markup Languageの略称です。
→ Definition (b) Abbreviation of eExtensible Markup Language → Abbreviation (c) Standardized by W3C in 1998 ,
→ History (d) XML is an abbreviation for Extensible Markup Language.

→略語
(e)このXMLの標準化は、W3Cで勧告された。
→ Abbreviation (e) The standardization of this XML was recommended by the W3C.

→???
この例では、初期分類によって(a)〜(d)の単文が、下線を施した語や表現が定型表現に相当し、これによって該当する観点グループに分類されたことを示している。しかし、(e)は観点グループ固有の定型表現を含まないため分類できなかった。そこで、語の分布に基づいて、既に分類された単文との類似度を計算する。その結果、(e)は(c)と最も類似度が高いため「歴史」に分類された。
→? ? ?
In this example, the simple sentences (a) to (d) in the initial classification indicate that the underlined words and expressions correspond to the fixed expressions and are classified into the corresponding viewpoint groups. However, (e) could not be classified because it did not contain a fixed expression specific to the viewpoint group. Therefore, the similarity with the already classified simple sentences is calculated based on the word distribution. As a result, (e) was classified as “history” because it had the highest similarity with (c).

また、上記の処理を行ってもいずれの観点にも分類されない単文は「その他」に分類する。
(3)選出処理(ステップS3)
上記選出処理では、上記照合処理で構成されたグループから代表的な文を1つ以上選出する。ここでは、グループ全体の傾向を反映しつつ、かつ良質な文を選択することが重要である。
In addition, simple sentences that are not classified in any viewpoint even if the above processing is performed are classified as “others”.
(3) Selection process (step S3)
In the selection process, one or more representative sentences are selected from the group configured by the matching process. Here, it is important to select a good sentence while reflecting the trend of the entire group.

具体的には、以下に示す種々の基準をそれぞれ定量化し、それらを結合したスコアに基づいて代表文を選択する。   Specifically, various criteria shown below are quantified, and a representative sentence is selected based on a score obtained by combining them.

(a)尤度に基づき順位付されて表示されるCycloneの検索結果においては上位の説明ほど良質である可能性が高いため、単文が抽出された元の説明段落の順位を考慮する。   (A) In the Cyclone search results that are ranked and displayed based on the likelihood, it is likely that the higher-level explanation is of higher quality, so the order of the original explanatory paragraph from which the single sentence is extracted is taken into consideration.

(b)そのグループに含まれる単文に共通して現れる語を多く含む文を代表とする。これにより、説明段落や単文の抽出誤りによって生じた少数派の語(ノイズ)を最終的な要約から排除することができる。   (B) A sentence including many words that appear in common in a single sentence included in the group is represented. As a result, minority words (noise) caused by extraction paragraphs or simple sentence extraction errors can be excluded from the final summary.

(c)説明の文字数を考慮する。携帯端末などの利用環境によっては、表示文字数が最も強い制約になる場合がある。従って、なるべく短い文を代表文として選ぶ。   (C) Consider the number of characters in the description. Depending on the usage environment such as a portable terminal, the number of displayed characters may be the strongest constraint. Therefore, a sentence as short as possible is selected as a representative sentence.

以上3つの基準は互いに異なる範囲を取るため、経験的に重みを調整した上で結合している。   Since the above three criteria have different ranges, they are combined after adjusting weights empirically.

「その他」には、対応する観点が判別不能な単文が多数混在しているか、もしくは説明文としてふさわしくないノイズが含まれる。冗長な要約になることを避けるために、「その他」からは一般(「その他」以外)の観点から既に選択された単文との語の重複がなるべく少ない単文を優先的に選択する。   “Others” includes a large number of single sentences whose corresponding viewpoints cannot be distinguished, or noise that is not suitable as an explanatory sentence. In order to avoid redundant summarization, a simple sentence is selected preferentially from “others” in terms of general (other than “others”) with as little word overlap as possible.

「その他」から複数の単文を選択する場合には、まず、最初の1件を選出し、既に選出された単文との語の重複が少ない単文を次に選出する。この処理を再帰的に行うことで多様な単文を選出する。
(4)生成・提示処理(ステップS4)
生成・提示処理では、各グループから選出された代表文をグループ(観点)名とともに箇条書きで表示する。ここでは、選択処理におけるスコアが高い代表文から順番に提示する。図4と図5は、それぞれ、見出し語「XML」に関するコンピュータ分野の説明段落とそれらを要約した結果である。この例では、397文字という少ない文字数で多面的な観点から見出し語について概観できる要約が生成された。
When selecting a plurality of simple sentences from “Others”, first, the first one is selected, and then a single sentence with less word overlap with the already selected simple sentence is selected. Various simple sentences are selected by performing this process recursively.
(4) Generation / presentation processing (step S4)
In the generation / presentation process, representative sentences selected from each group are displayed in an itemized list together with the group (viewpoint) name. Here, the sentences are presented in order from the representative sentence with the highest score in the selection process. FIG. 4 and FIG. 5 show the explanatory paragraphs in the computer field concerning the headword “XML” and the results of summarizing them, respectively. In this example, a summary was generated that allows an overview of the headword from a multifaceted viewpoint with a small number of 397 characters.

生成処理には更に工夫の余地がある。例えば、単文特定処理で抽出された単文の文末表現〔例えば、前述の(c)の「〜標準化勧告され、」〕を置換することで、文字数を少なくしたり、文末らしい表現に修正することができる。しかし、単なる抜粋の範囲を逸脱して説明内容を改変することは、ページの著作権を侵害する可能性がある。研究目的として許容される範囲とWeb上で実際に運用する場合の制約について注意しなければならない。   There is room for further improvement in the generation process. For example, it is possible to reduce the number of characters or correct the expression to the end of the sentence by replacing the end sentence expression of the single sentence extracted by the single sentence specifying process (for example, “to be standardized” in (c) above). it can. However, changing the contents of the explanation outside the scope of the mere excerpt may infringe the copyright of the page. You must be careful about the allowable range for research purposes and the restrictions when actually operating on the Web.

また、提示処理における工夫として「定義」や「目的」等の観点名から、そのグループに属する他の説明文や抽出元の説明段落にリンクをはり、ユーザが選択した観点だけに絞り込むといった誘導の手法がある。例えば、図5の「書籍」の説明は、XMLに関する書籍の販売情報のページから抽出されたものである。この説明を手掛かりにして書籍の販売情報を素早く取得することができる。   In addition, as a contrivance in the presentation process, a link is made from a viewpoint name such as “definition” or “purpose” to other explanatory texts belonging to the group or an explanatory paragraph of the extraction source, and narrowed down only to the viewpoint selected by the user. There is a technique. For example, the description of “book” in FIG. 5 is extracted from a page of book sales information about XML. Using this explanation as a clue, sales information on books can be quickly acquired.

次に、その評価実験について説明する。   Next, the evaluation experiment will be described.

要約手法の評価は判定者の主観に依存する部分が大きいため工学的に評価することが困難である。一方、新聞記事などを対象にした評価用テストコレクション(上記非特許文献3参照)は存在する。また、要約手法そのものの評価ではなく、別のタスク(情報検索における適合文書の選択など)に応用した場合の性能向上度によって、間接的かつ客観的に要約手法を評価する方法も存在する。   Since the evaluation of the summarization method largely depends on the subjectivity of the judge, it is difficult to evaluate it from the engineering viewpoint. On the other hand, there is an evaluation test collection for newspaper articles and the like (see Non-Patent Document 3 above). There is also a method for evaluating the summarization method indirectly and objectively based on the degree of performance improvement when applied to another task (such as selection of relevant documents in information retrieval) instead of evaluation of the summarization method itself.

しかし、本発明で対象にしている用語説明に関する要約はあまり前例がないため、評価手法の問題点を洗い出すことも念頭に置いて、小規模ながら独自にテストデータを作成して評価に利用した。また、要約手法そのものに関する評価実験だけを行った。   However, since there is no precedent for summarizing the explanation of terms used in the present invention, we have created test data on a small scale and used it for evaluation in consideration of identifying problems in the evaluation method. In addition, only the evaluation experiment on the summarization method itself was conducted.

評価の基準や尺度には複数の選択肢がある。例えば「自動生成された要約が既存の用語辞典の説明にどの程度近づいたか」という基準がある。しかし、本発明の要約手法の入力としてCycloneの検索結果を用いるため、既存の辞典にしかない、もしくは既存の辞典にはない観点が存在した場合にはこの基準では評価が難しくなる。   There are multiple options for evaluation criteria and scales. For example, there is a criterion “how close an automatically generated summary is to the explanation of an existing terminology dictionary”. However, since the search result of Cyclone is used as the input of the summarization method of the present invention, it is difficult to evaluate with this standard when there is a viewpoint that is only in the existing dictionary or not in the existing dictionary.

そこで、本発明では判定者による人手判定と本発明による要約結果を基に以下の2種類の尺度を用いて評価実験を行った。この2種類の尺度はトレードオフの関係にあり、同時に改善することが難しい尺度である。   Therefore, in the present invention, an evaluation experiment was performed using the following two types of scales based on the manual determination by the determiner and the summary result of the present invention. These two types of measures are in a trade-off relationship and are difficult to improve at the same time.

(1)要約率
Cycloneの検索結果(説明段落)をどれだけ短縮することができたか。
(1) Summarization rate How much the search result (explanation paragraph) of Cyclone was shortened?

(2)網羅率
Cycloneの検索結果(説明段落)に含まれる説明の観点のうち、幾つの観点を要約に含めることができたか。
(2) Coverage rate Of the viewpoints of explanation included in the search results (explanation paragraph) of Cyclone, how many viewpoints could be included in the summary?

評価実験に用いた見出し語とその実験結果を表1に示す。   Table 1 shows the headwords used in the evaluation experiment and the experimental results.

Figure 2005196572
各見出し語について、Cycloneの検索結果のうちコンピュータ分野の説明段落50件を要約処理の入力とした。50件に限定したのは判定者による人手判定のコストを増やさないことがその理由である。
Figure 2005196572
For each headword, 50 description paragraphs in the computer field among the search results of Cyclone were used as input for the summary process. The reason for limiting to 50 is that the cost of manual judgment by the judge is not increased.

判定者は、本発明による要約処理の結果を見ずに、Cycloneの検索結果上位50件だけを吟味して単文単位に観点を付与した。判定者に付与を依頼した30種類の観点を以下に示す。   The examiner examined only the top 50 search results of Cyclone without giving a result of the summary processing according to the present invention, and gave a viewpoint to a single sentence unit. The 30 types of viewpoints requested to be given to the judge are shown below.

定義、例示、上位概念、下位概念、要素、性質、属性、機能、目的、歴史、現在、予測、原因、結果、同義語、反意語、略語、訳語、間接的説明、比較、比喩、製品、書籍、別の意味(多義語の場合)、読み、入手方法、利点、欠点、語源、その他
判定者が虚偽の説明に対して観点を付与することがないよう、上記既存の辞典に掲載された説明等を見せることで対象の用語に関する知識を与え、1つの単文に対して1つ以上の観点を付与するようにした。対象見出し語が多義語で上記既存の用語辞典以外の意味で使われている説明には観点「別の意味」を付与し、事実上、評価の対象外とした。
Definition, example, superordinate concept, subordinate concept, element, nature, attribute, function, purpose, history, present, prediction, cause, result, synonym, antonym, abbreviation, translation, indirect explanation, comparison, metaphor, product, book , Other meanings (in the case of polysemy), reading, obtaining methods, advantages, disadvantages, etymology, etc. Descriptions published in the above existing dictionary so that the judge does not give a point of view for false explanations The knowledge about the target term was given by showing etc., and one or more viewpoints were given to one simple sentence. The explanation that the target headword is an ambiguous word and is used in a meaning other than the existing terminology dictionary is given a viewpoint of “another meaning” and is effectively excluded from the evaluation.

判定者に示した観点の中には、本発明の照合処理において必要となる典型表現を予め設定できなかったために、Cycloneがそもそも出力できないものも含まれる。これらの観点は、Cycloneによる要約処理の結果には決して含まれないため、網羅率を下げる要因となった。   Among the viewpoints shown to the judge, there are those that Cyclone cannot output in the first place because the typical expression required in the collation processing of the present invention cannot be set in advance. Since these viewpoints are never included in the result of the summary processing by Cyclone, it has become a factor of lowering the coverage rate.

その結果と考察について説明する。   The results and discussion will be explained.

表1に実験結果として要約率と網羅率を示す。各観点のグループから出力する代表文の件数(N)を1,2,3と変化させた。ただし「その他」からは常に代表文を5件選出した。要約率は式(1)で計算した。要約率が小さいほど良い結果であることを示す。   Table 1 shows the summary rate and coverage rate as experimental results. The number of representative sentences (N) output from each viewpoint group was changed to 1, 2, and 3. However, 5 representative sentences were always selected from “Others”. The summarization rate was calculated by equation (1). A smaller summarization rate indicates better results.

自動要約の文字数/要約しない場合にユーザが読む文字数 …(1)
ここで、「要約しない場合にユーザが読む文字数」は、Cycloneの検索結果をユーザが上から順番に読んだ場合に、本発明による自動要約に含まれる観点に対応する文を全て読むまでの文字数である。その場合、自動要約に含まれる観点を全て読めば、説明段落を50読む前でも閲覧を終了すると仮定した。また、観点が同じであれば、要約に含まれる文と同一である必要はない。
Number of characters for automatic summarization / number of characters read by user when not summarizing (1)
Here, “the number of characters read by the user when not summarizing” refers to the number of characters until all sentences corresponding to the viewpoint included in the automatic summarization according to the present invention are read when the user reads the Cyclone search results from the top. It is. In that case, it is assumed that if all the viewpoints included in the automatic summary are read, the browsing is ended even before reading the explanation paragraph 50 times. Moreover, if the viewpoint is the same, it is not necessary to be the same as the sentence included in the summary.

網羅率は式(2)で計算した。網羅率が大きいほど良い結果であることを示す。   The coverage rate was calculated by equation (2). The larger the coverage rate, the better the result.

要約に含まれた観点数/判定者が付与した観点数 …(2)
なお、提案する要約手法の網羅率を以下の2通りの方法で評価した。
The number of viewpoints included in the summary / the number of viewpoints given by the judge ... (2)
The coverage rate of the proposed summarization method was evaluated by the following two methods.

(1)A:要約に含まれた観点数として判定者が付与した観点が含まれ、かつ観点名も正しかった場合のみ正解と見なした。   (1) A: Only when the viewpoint given by the determiner was included as the number of viewpoints included in the summary and the viewpoint name was also correct, it was regarded as a correct answer.

(2)B:観点名の適否は考慮しない(要約に含まれた観点数として判定者が付与した観点がいくつ含まれたか)。   (2) B: Appropriateness of the viewpoint name is not taken into consideration (how many viewpoints given by the determiner are included as the number of viewpoints included in the summary).

更に、上記Bと比較するための基準値として、以下の単純な要約手法による網羅率も計算した。   Furthermore, as a reference value for comparison with B, the coverage rate by the following simple summarization method was also calculated.

(3)C:Cyclone検索結果の上位から、提案する要約手法の結果と同じ文字数を抜粋する(ただし、抜粋する点が文中の場合は文末まで出力する)。   (3) From the top of the C: Cyclone search result, extract the same number of characters as the result of the proposed summarization method (however, if the extracted point is in the sentence, it is output to the end of the sentence).

上記Cは単一文書の要約における「リード法」(文書の先頭から一定文字数を抜粋する単純な手法)に相当する。また、上記Cの手法は観点名を付与するとができないため、上記Bと同様に観点名の適否は考慮しない。   The above C corresponds to the “read method” (simple method of extracting a certain number of characters from the beginning of the document) in the summary of a single document. Further, since the method C cannot assign a viewpoint name, whether the viewpoint name is appropriate is not considered as in the case of B.

表1の結果について考察する。まず、Nの値を増やすことによって、要約率は大きくなり、逆に網羅率は高くなったことが分かる。   Consider the results in Table 1. First, it can be seen that increasing the value of N increases the summarization rate and conversely increases the coverage rate.

要約率はNによって変動するものの、およそ10%前後となり、元の情報をかなり短縮できたことが分かる。つまり、同じ量の情報を取得するために、ユーザは10分の1程度の労力を使うだけでよいということになる。他方で、上記方法Aの網羅率は平均して20%代という低い値となった。しかし、観点名の適否を考慮しない上記方法Bでは、上記方法Aに比べて網羅率が2倍以上になった。   Although the summarization rate varies depending on N, it is about 10%, and it can be seen that the original information can be considerably shortened. That is, in order to acquire the same amount of information, the user only has to use about one-tenth of the labor. On the other hand, the coverage of Method A was on average as low as 20%. However, in the method B that does not consider the suitability of the viewpoint name, the coverage rate is more than doubled compared to the method A.

上記方法Bと上記方法Cを比較すると、総じて本発明の方法の網羅率が高く、本発明の方法が同じ文字数でユーザにより多くの情報を与えることが分かった。両者の差異はまだ小さいものの、要素技術を改善していくことで、この差は今後広がる可能性がある。   Comparing the method B and the method C, it was found that the coverage rate of the method of the present invention is generally high, and the method of the present invention gives more information to the user with the same number of characters. Although the difference between the two is still small, this difference may widen in the future by improving the elemental technology.

さらに、網羅率を観点ごとに分析した。ここでは、Cycloneの検索結果で6つ以上の見出し語に含まれた観点を対象に、上記方法BにおいてN=1とした場合のみを以下に示す。   Furthermore, the coverage rate was analyzed for each viewpoint. Here, only the case where N = 1 in the above-mentioned method B is shown below, targeting the viewpoints included in six or more headwords in the search result of Cyclone.

定義(7/7)、例示(4/4)、同義語(1/6)、性質(3/7)、機能(1/7)、目的(3/6)、歴史(4/6)、間接的説明(5/7)、比較(1/7)、書籍(5/6)
この結果より、「例示」や「同義語」など、既存の辞典に含まれやすい観点を中心に網羅率を改善する必要がある。
Definition (7/7), example (4/4), synonym (1/6), nature (3/7), function (1/7), purpose (3/6), history (4/6), Indirect explanation (5/7), comparison (1/7), book (5/6)
From this result, it is necessary to improve the coverage rate mainly from the viewpoint of being easily included in the existing dictionary such as “example” and “synonym”.

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、これらを本発明の範囲から排除するものではない。   In addition, this invention is not limited to the said Example, Based on the meaning of this invention, a various deformation | transformation is possible and these are not excluded from the scope of the present invention.

本発明は、Webから事典的なコンテンツを検索するサイトにおいて、複数文書から効率よく、過不足のない簡潔な用語説明に関する要約の作製に適している。   The present invention is suitable for creating a summary of a simple term explanation that is efficient from a plurality of documents and has no excess or deficiency in a site that retrieves encyclopedia content from the Web.

本発明にかかる事典的検索サイトCycloneの概要を示す図である。It is a figure which shows the outline | summary of the encyclopedia search site Cyclone concerning this invention. 本発明にかかる事典的検索サイトCycloneのシステム構成図である。It is a system configuration | structure figure of encyclopedia search site Cyclone concerning this invention. 本発明にかかる要約作成フローチャートである。It is a summary preparation flowchart concerning this invention. 検索サイトCycloneの「XML」のコンピュータ分野に関する説明段落を示す図である。It is a figure which shows the description paragraph regarding the computer field of "XML" of search site Cyclone. 本発明にかかる検索サイトCycloneの「XML」のコンピュータ分野に関する説明段落を要約した結果を示す図である。It is a figure which shows the result of having summarized the description paragraph regarding the computer field of "XML" of the search site Cyclone concerning this invention. 新型肺炎「SARS」を入力した場合の従来のCycloneの検索結果例である。It is a search result example of conventional Cyclone when new type pneumonia "SARS" is input.

符号の説明Explanation of symbols

1 Web
2 新語検出部
3 見出し語の候補収集部
4 検索処理部
5 抽出処理部
6 組織化処理部
7 要約作成部
8 見出し語抽出部
9 事典コンテンツ
10 コンピュータ
11 サーバ
12 ブラウザ
1 Web
2 New word detection unit 3 Headword candidate collection unit 4 Search processing unit 5 Extraction processing unit 6 Organization processing unit 7 Summary creation unit 8 Headword extraction unit 9 Encyclopedia content 10 Computer 11 Server 12 Browser

Claims (19)

(a)複数の文書から抽出した説明情報から、要約処理の最小単位としての単文を検出し分割する単文特定処理と、
(b)該特定処理によって抽出された単文を照合して、同一の観点に対応する類似した単文同士を同一グループに分類する照合処理と、
(c)該照合処理で構成されたグループから代表的な単文を1つ以上選出する選出処理と、
(d)該選出処理で各グループから選出された代表文をグループ(観点)名とともに箇条書きで表示する生成・提示処理とを施し、
(e)複数の文書から抽出した説明情報を統合・要約して、対象の用語について過不足ない簡潔な説明情報をコンピュータにより自動生成することを特徴とする複数文書の要約作成方法。
(A) a single sentence specifying process for detecting and dividing a single sentence as a minimum unit of the summary process from the description information extracted from a plurality of documents;
(B) a collation process for collating simple sentences extracted by the specific process and classifying similar single sentences corresponding to the same viewpoint into the same group;
(C) a selection process for selecting one or more representative single sentences from the group configured by the matching process;
(D) A generation / presentation process of displaying a representative sentence selected from each group in the selection process together with a group (viewpoint) name in an itemized form,
(E) A method for creating a summary of a plurality of documents, wherein the explanation information extracted from a plurality of documents is integrated / summarized, and concise explanation information about the target term is automatically generated by a computer.
請求項1記載の複数文書の要約作成方法において、前記特定処理において重文を複数の単文に分割した場合、分割された2つ目以降の単文の文頭には先頭文の主語を補完することを特徴とする複数文書の要約作成方法。   2. The method for creating a summary of a plurality of documents according to claim 1, wherein when the heavy sentence is divided into a plurality of single sentences in the specifying process, the subject of the first sentence is supplemented at the head of the second and subsequent single sentences. Multi-document summary creation method. 請求項1記載の複数文書の要約作成方法において、前記照合処理において、前記単文を観点に基づいて分類するために、それぞれの観点に固有の定型表現を予め作成し、該定型表現を含む文を対応するグループに分類することを特徴とする複数文書の要約作成方法。   The summary creation method for a plurality of documents according to claim 1, wherein in the collation process, in order to classify the single sentence based on a viewpoint, a fixed expression unique to each viewpoint is generated in advance, and a sentence including the fixed expression is included. A method for creating a summary of a plurality of documents, which is classified into corresponding groups. 請求項1記載の複数文書の要約作成方法において、前記観点が定義、略語、例示、目的、同義語、書籍、製品、利点、欠点、歴史、要素、機能であることを特徴とする複数文書の要約作成方法。   2. The multiple document summarization method according to claim 1, wherein said viewpoint is definition, abbreviation, illustration, purpose, synonym, book, product, advantage, defect, history, element, function. Summarization method. 請求項1記載の複数文書の要約作成方法において、前記照合処理において、分類されなかった単文を既に分類された単文グループと比較し、類似度が高い単文が属する観点に分類することを特徴とする複数文書の要約作成方法。   2. The multi-document summary creation method according to claim 1, wherein, in the collation process, a simple sentence that has not been classified is compared with a single sentence group that has already been classified, and is classified into a viewpoint to which a single sentence having a high degree of similarity belongs. How to create a summary of multiple documents. 請求項5記載の複数文書の要約作成方法において、前記定義、略語、例示、目的、同義語、書籍、製品、利点、欠点、歴史、要素、機能の観点に当てはまらず、かつ既に分類されたどの単文グループとも類似度が低い単文を「その他」として分類することを特徴とする複数文書の要約作成方法。   6. The multiple document summarization method according to claim 5, wherein the definition, abbreviation, example, purpose, synonym, book, product, advantage, defect, history, element, function, and any of those already classified A method for creating a summary of a plurality of documents, wherein simple sentences having a low similarity to a single sentence group are classified as “others”. 請求項5記載の複数文書の要約作成方法において、前記類似度の計算には語の重複度を用いることを特徴とする複数文書の要約作成方法。   6. The multi-document summary creation method according to claim 5, wherein word similarity is used in the similarity calculation. 請求項1記載の複数文書の要約作成方法において、前記選出処理において、グループ全体の傾向を反映しつつ、かつ良質な文を選択することを特徴とする複数文書の要約作成方法。   2. The multi-document summary creation method according to claim 1, wherein in the selection process, a high-quality sentence is selected while reflecting a tendency of the entire group. 請求項8記載の複数文書の要約作成方法において、基準を定量化し、それらを結合したスコアに基づいて代表文を選出することを特徴とする複数文書の要約作成方法。   9. The multi-document summary creation method according to claim 8, wherein the criteria are quantified and a representative sentence is selected based on a score obtained by combining the criteria. 請求項8記載の複数文書の要約作成方法において、前記代表文の選出を、
(a)単文の抽出元の説明段落の尤度の順位の高さを考慮し、
(b)前記グループに含まれる単文に共通して現れる語を多く含む文を代表文の候補とし、
(c)該代表文の候補のうち、目的に適した文字数の文を代表文として選ぶことを特徴とする複数文書の要約作成方法。
9. The multiple document summary creation method according to claim 8, wherein the representative sentence is selected.
(A) Considering the high likelihood ranking of the explanation paragraph from which the single sentence is extracted,
(B) A sentence including many words that appear in common in a single sentence included in the group is set as a candidate for a representative sentence.
(C) A method for creating a summary of a plurality of documents, wherein a sentence having a character number suitable for a purpose is selected as a representative sentence from the representative sentence candidates.
請求項8記載の複数文書の要約作成方法において、前記基準が単文が抽出された元の説明段落の順位を考慮するものであることを特徴とする複数文書の要約作成方法。   9. The multi-document summary creation method according to claim 8, wherein the criteria consider the rank of the original explanatory paragraph from which a single sentence is extracted. 請求項8記載の複数文書の要約作成方法において、前記基準がグループに含まれる単文に共通して現れる語を多く含む文とするものであることを特徴とする複数文書の要約作成方法。   9. The multi-document summary creation method according to claim 8, wherein the reference is a sentence including many words appearing in common in a single sentence included in the group. 請求項8記載の複数文書の要約方作成法において、前記基準が説明の文字数を考慮するものであることを特徴とする複数文書の要約作成方法。   9. The method for creating a summary of a plurality of documents according to claim 8, wherein the criterion is based on the number of explanatory characters. 請求項5記載の複数文書の要約作成方法において、前記「その他」からは他の前記観点から既に選択された単文との語の重複がなるべく少ない単文を優先的に選択することを特徴とする複数文書の要約作成方法。   6. The multiple document summary creation method according to claim 5, wherein a plurality of simple sentences are selected preferentially from said "others" with as few overlapping words as possible from other single sentences already selected from said viewpoint. How to summarize documents. 請求項5記載の複数文書の要約作成方法において、前記「その他」から複数の単文を選択する場合には、まず、最初の1件を選択し、既に選択された単文との語の重複が少ない単文を次に選択し、この処理を再帰的に行うことで多様な単文を選択することを特徴とする複数文書の要約作成方法。   6. In the method for creating a summary of a plurality of documents according to claim 5, when selecting a plurality of simple sentences from the “others”, first, the first one is selected, and there is little overlap of words with the already selected simple sentences. A method of creating a summary of a plurality of documents, wherein a single sentence is selected next, and various simple sentences are selected by performing this process recursively. 請求項1記載の複数文書の要約作成方法において、前記生成・提示処理は、各グループから選択された代表文をグループ(観点)名とともに箇条書きで表示することを特徴とする複数文書の要約作成方法。   The summary creation method for a plurality of documents according to claim 1, wherein the generation / presentation processing displays a representative sentence selected from each group in an itemized list together with a group (viewpoint) name. Method. 請求項16記載の複数文書の要約作成方法において、前記生成処理では単文特定処理で抽出された単文の文末表現を置換することで、文字数を少なくしたり、文末らしい表現に修正することを特徴とする複数文書の要約作成方法。   17. The multi-document summary creation method according to claim 16, wherein the generation process replaces a sentence end expression of a single sentence extracted by a single sentence specifying process, thereby reducing the number of characters or correcting the expression to a sentence end-like expression. To create multiple document summaries. 請求項16記載の複数文書の要約作成方法において、前記提示処理ではそのグループに属する他の説明文や抽出元の説明段落にリンクをはり、ユーザが選択した観点だけに絞り込むことを特徴とする複数文書の要約作成方法。   17. The method for creating a summary of a plurality of documents according to claim 16, wherein in the presenting process, links are made to other explanatory texts belonging to the group and explanatory paragraphs of the extraction source so as to narrow down only to the viewpoint selected by the user. How to summarize documents. 請求項16記載の複数文書の要約作成方法において、選択処理におけるスコアが高い代表文から順番に提示することを特徴とする複数文書の要約作成方法。   17. The method for creating a summary of a plurality of documents according to claim 16, wherein the summaries are presented in order from a representative sentence having a high score in the selection process.
JP2004003241A 2004-01-08 2004-01-08 Summary making method of multiple documents Pending JP2005196572A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004003241A JP2005196572A (en) 2004-01-08 2004-01-08 Summary making method of multiple documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004003241A JP2005196572A (en) 2004-01-08 2004-01-08 Summary making method of multiple documents

Publications (1)

Publication Number Publication Date
JP2005196572A true JP2005196572A (en) 2005-07-21

Family

ID=34818210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004003241A Pending JP2005196572A (en) 2004-01-08 2004-01-08 Summary making method of multiple documents

Country Status (1)

Country Link
JP (1) JP2005196572A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117031A1 (en) * 2006-04-05 2007-10-18 I-Business Center Corporation Response generating apparatus, method, and program
JP2010277409A (en) * 2009-05-29 2010-12-09 Toshiba Corp Representative sentence extracting device and program
JP2011243078A (en) * 2010-05-20 2011-12-01 Yahoo Japan Corp Article management device
JP2012104041A (en) * 2010-11-12 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> Text data summarization apparatus, text data summarization method and text data summarization program
JP2014071644A (en) * 2012-09-28 2014-04-21 Ntt Docomo Inc Information processor
JP2017097488A (en) * 2015-11-19 2017-06-01 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP2018097562A (en) * 2016-12-13 2018-06-21 株式会社東芝 Information processing device, information processing method and information processing program
JP2022173178A (en) * 2021-05-08 2022-11-18 ソフネック株式会社 Intended information extraction program, intended information extraction apparatus, and intended information extraction method
JP7246458B1 (en) 2021-10-01 2023-03-27 ネイバー コーポレーション Document summarization method and system using huge language model

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117031A1 (en) * 2006-04-05 2007-10-18 I-Business Center Corporation Response generating apparatus, method, and program
JP2008310370A (en) * 2006-04-05 2008-12-25 I Business Center:Kk Retrieval server, retrieval method, and program for making computer function as retrieval server
US8271485B2 (en) 2006-04-05 2012-09-18 I-Business Center Corporation Reply generation apparatus and method and program for causing computer to function as reply generating apparatus
JP2010277409A (en) * 2009-05-29 2010-12-09 Toshiba Corp Representative sentence extracting device and program
JP2011243078A (en) * 2010-05-20 2011-12-01 Yahoo Japan Corp Article management device
JP2012104041A (en) * 2010-11-12 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> Text data summarization apparatus, text data summarization method and text data summarization program
JP2014071644A (en) * 2012-09-28 2014-04-21 Ntt Docomo Inc Information processor
JP2017097488A (en) * 2015-11-19 2017-06-01 ヤフー株式会社 Information processing device, information processing method, and information processing program
JP2018097562A (en) * 2016-12-13 2018-06-21 株式会社東芝 Information processing device, information processing method and information processing program
WO2018110029A1 (en) * 2016-12-13 2018-06-21 株式会社東芝 Information processing device, information processing method and information processing program
CN110168527A (en) * 2016-12-13 2019-08-23 株式会社东芝 Information processing unit, information processing method and message handling program
US11334715B2 (en) 2016-12-13 2022-05-17 Kabushiki Kaisha Toshiba Topic-identifying information processing device, topic-identifying information processing method, and topic-identifying computer program product
CN110168527B (en) * 2016-12-13 2023-07-14 株式会社东芝 Information processing device, information processing method, and information processing program
JP2022173178A (en) * 2021-05-08 2022-11-18 ソフネック株式会社 Intended information extraction program, intended information extraction apparatus, and intended information extraction method
JP7312354B2 (en) 2021-05-08 2023-07-21 ソフネック株式会社 Intention information extraction program, intention information extraction device, and intention information extraction method
JP7246458B1 (en) 2021-10-01 2023-03-27 ネイバー コーポレーション Document summarization method and system using huge language model
JP2023053867A (en) * 2021-10-01 2023-04-13 ネイバー コーポレーション Method and system for summarizing document using hyperscale language model

Similar Documents

Publication Publication Date Title
US6505150B2 (en) Article and method of automatically filtering information retrieval results using test genre
US7814102B2 (en) Method and system for linking documents with multiple topics to related documents
US7958128B2 (en) Query-independent entity importance in books
US20050203970A1 (en) System and method for document collection, grouping and summarization
US20070185847A1 (en) Methods and apparatus for filtering search results
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
JP2010055618A (en) Method and system for providing search based on topic
JPWO2009096523A1 (en) Information analysis apparatus, search system, information analysis method, and information analysis program
JPH07325827A (en) Automatic hyper text generator
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20110093257A1 (en) Information retrieval through indentification of prominent notions
Tang et al. Overview of the NTCIR-9 Crosslink Task: Cross-lingual Link Discovery.
Sardinha An assessment of metaphor retrieval methods
JP2005196572A (en) Summary making method of multiple documents
Shah et al. DOM-based keyword extraction from web pages
US6973423B1 (en) Article and method of automatically determining text genre using surface features of untagged texts
Pembe et al. Automated querybiased and structure-preserving text summarization on web documents
JP4621680B2 (en) Definition system and method
Liu et al. The CIST Summarization System at TAC 2011.
Sariki et al. A book recommendation system based on named entities
JP4428703B2 (en) Information retrieval method and system, and computer program
Kavila et al. Extractive text summarization using modified weighing and sentence symmetric feature methods
Van den Hoven et al. Beyond reported history: Strikes that never happened
Fujii et al. Toward the automatic compilation of multimedia encyclopedias: associating images with term descriptions on the web
Abdou et al. Unsupervised automatic keywords and keyphrases extractor for web documents

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080916

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081022

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203