JP5388038B2 - Document summarization apparatus, document processing apparatus, and program - Google Patents
Document summarization apparatus, document processing apparatus, and program Download PDFInfo
- Publication number
- JP5388038B2 JP5388038B2 JP2009297708A JP2009297708A JP5388038B2 JP 5388038 B2 JP5388038 B2 JP 5388038B2 JP 2009297708 A JP2009297708 A JP 2009297708A JP 2009297708 A JP2009297708 A JP 2009297708A JP 5388038 B2 JP5388038 B2 JP 5388038B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- language
- document
- language expression
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文書を要約する文書要約装置等や、文書における関連する箇所を特定する文書処理装置等に関する。 The present invention relates to a document summarization device for summarizing documents, a document processing device for specifying related portions in a document, and the like.
従来、文書を自動的に要約する文書要約に関する研究がなされている(例えば、非特許文献1参照)。 Conventionally, research on document summarization that automatically summarizes documents has been made (see, for example, Non-Patent Document 1).
しかしながら、従来の文書要約は、要約元の文書に存在する単語等を用いて要約を行っていたため、端的な要約を生成することができないこともあった。 However, since the conventional document summarization is performed using words or the like existing in the document of the summarization source, it may not be possible to generate a brief summary.
また、従来の文書処理では、文書における関連する箇所を自動的に知ることができないという問題もあった。 In addition, the conventional document processing has a problem in that it cannot automatically know a related portion in the document.
本発明は、上記課題を解決するためになされたものであり、その一の目的は、要約元の文書に含まれない表現をも用いて要約を自動生成することができる文書要約装置等を提供することである。 The present invention has been made to solve the above-mentioned problems, and one object of the present invention is to provide a document summarization apparatus and the like that can automatically generate summaries using expressions that are not included in the original document. It is to be.
また、本発明の他の目的は、文書における関連する箇所を特定する文書処理装置等を提供することである。 Another object of the present invention is to provide a document processing apparatus and the like for specifying a related portion in a document.
上記目的の少なくとも一つを達成するため、本発明による文書要約装置は、要約元の文書である要約元文書が記憶される要約元文書記憶部と、要約元文書から言語表現を抽出する抽出部と、抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部と、第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部と、要約元文書に含まれる言語表現と、第2の取得部が取得した言語表現とを少なくとも用いて、要約候補が要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、要約候補に関連しているものに要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部と、算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、要約元文書の要約を選択する選択部と、選択部が選択した要約を出力する出力部と、を備えたものである。 In order to achieve at least one of the above objects, a document summarization apparatus according to the present invention includes a summarization source document storage unit that stores a summarization source document that is a summarization source document, and an extraction unit that extracts a linguistic expression from the summarization source document. A first acquisition unit that acquires a plurality of summary candidates that are language expressions related to the language expression extracted by the extraction unit; and a second acquisition unit that acquires language expressions related to the summary candidates acquired by the first acquisition unit. The acquisition unit, the linguistic expression included in the summary source document, and the linguistic expression acquired by the second acquisition unit are used at least, and the higher the value that the summary candidate is related to the linguistic expression included in the summary source document. And a calculation unit that calculates a precision that is so high that there is no language expression other than the language expression included in the source document for the summary candidate, and the calculation unit calculates for each summary candidate. Recalled and recalled By using the the Decision, those having a selector for selecting summary Summary original document, and an output unit for outputting a summary selection unit selects, the.
このような構成により、要約元文書に含まれる言語表現に関連する要約候補の中から、より適切であると考えられるものを選択した要約を出力することができる。したがって、要約元文書に含まれていない言語表現が要約となることもある。その結果、従来の文書要約の手法よりも端的で適切な要約を出力することができうる。 With such a configuration, it is possible to output a summary selected from the summary candidates related to the language expression included in the summary source document, which is considered to be more appropriate. Therefore, a linguistic expression that is not included in the source document may be a summary. As a result, it is possible to output a simpler and more appropriate summary than the conventional document summarization technique.
また、本発明による文書要約装置では、抽出部が抽出する言語表現は、フレーズ以上の長さを有するものであり、第1の取得部は、抽出部が抽出した言語表現に類似する文書を、複数の文書を有するデータベースから検索し、検索結果の文書集合に偏って出現する言語表現を取得してもよい。
このような構成により、情報検索的な手法を用いて抽出された言語表現に関連する言語表現である要約候補を取得することができる。
Further, in the document summarizing apparatus according to the present invention, the language expression extracted by the extraction unit has a length equal to or longer than the phrase, and the first acquisition unit extracts a document similar to the language expression extracted by the extraction unit, It is also possible to search from a database having a plurality of documents, and obtain language expressions that appear biased in the document set of search results.
With such a configuration, it is possible to acquire summary candidates that are language expressions related to language expressions extracted using an information retrieval method.
また、本発明による文書要約装置では、第1の取得部は、抽出部が抽出した言語表現と共起の高い言語表現である要約候補を取得してもよい。
このような構成により、抽出された言語表現と共起の高いもの、すなわち、その抽出された言語表現から連想されると考えられる言語表現である要約候補を取得することができる。
In the document summarization apparatus according to the present invention, the first acquisition unit may acquire a summary candidate that is a language expression having high co-occurrence with the language expression extracted by the extraction unit.
With such a configuration, it is possible to acquire a summary candidate that is highly co-occurring with the extracted language expression, that is, a language expression that is considered to be associated with the extracted language expression.
また、本発明による文書要約装置では、関連する言語表現のペアであるペア情報を複数有する情報である関連辞書情報が記憶される関連辞書情報記憶部をさらに備え、第1の取得部は、抽出部が抽出した言語表現とペア情報によって対応付けられている言語表現である要約候補を取得してもよい。 The document summarization apparatus according to the present invention further includes a related dictionary information storage unit that stores related dictionary information that is information having a plurality of pair information that is a pair of related language expressions, and the first acquisition unit is an extraction unit. A summary candidate that is a language expression associated with the language expression extracted by the unit by pair information may be acquired.
このような構成により、抽出された言語表現と関連辞書によって関連づけられているもの、すなわち、その抽出された言語表現から推察することができる言語表現である要約候補を取得することができる。その関連づけは、例えば、類似の関連であってもよく、上位下位の関連であってもよく、原因結果の関連であってもよくその他の関連であってもよい。 With such a configuration, it is possible to obtain a summary candidate that is associated with the extracted language expression by the related dictionary, that is, a language expression that can be inferred from the extracted language expression. The association may be, for example, a similar association, an upper-lower association, a causal association, or another association.
また、本発明による文書要約装置では、要約元文書に含まれる言語表現ごとの重要度を算出する重要度算出部をさらに備え、算出部は、重要度算出部が算出した重要度を、要約元文書に含まれる言語表現の重みとして用いて、リコール及びプレシジョンを算出してもよい。
このような構成により、要約元文書において重要な箇所を重視した文書要約を行うことができる。すなわち、要約元文書において重要な箇所が、そうでない箇所よりも、より要約に影響を与えるようにすることができる。
The document summarization apparatus according to the present invention further includes an importance calculation unit that calculates importance for each language expression included in the summary source document, and the calculation unit displays the importance calculated by the importance calculation unit as the summary source. The recall and precision may be calculated using the weight of the language expression included in the document.
With this configuration, it is possible to perform document summarization that places importance on important parts in the summary source document. That is, it is possible to make an important part of the summary source document affect the summary more than a part that is not so.
また、本発明による文書要約装置では、選択部は、リコール、プレシジョン、要約候補、要約候補の属性情報を少なくとも素性として用い、素性の値及び要約候補の適否を教師データとする機械学習によって選択を行ってもよい。
このような構成により、教師ありの機械学習法を用いて、要約候補から要約を選択することができる。
In the document summarization apparatus according to the present invention, the selection unit uses the recall, precision, summary candidate, and summary candidate attribute information as at least features, and selects by machine learning using feature values and suitability of summary candidates as teacher data. You may go.
With such a configuration, a summary can be selected from summary candidates using a supervised machine learning method.
また、本発明による文書要約装置では、要約元文書において、言語表現の関連を特定する関連特定部をさらに備え、選択部は、関連特定部が特定した言語表現間の関連に関する情報をも素性として用いて機械学習を行ってもよい。
このような構成により、機械学習法において、要約元文書における言語表現間の関連に関する情報をも考慮することができるようになる。
In the document summarizing apparatus according to the present invention, the summary source document further includes a relation specifying unit for specifying the relation between the language expressions, and the selection unit also uses information on the relation between the language expressions specified by the relation specifying unit as a feature. Machine learning may be performed.
With this configuration, in the machine learning method, it is possible to consider information related to the relationship between language expressions in the summary source document.
また、本発明による文書要約装置では、関連特定部は、要約元文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する関連言語表現取得手段と、関連言語表現取得手段が取得した関連言語表現が要約元文書に含まれるかどうか判断する判断手段と、判断手段によって、関連言語表現が要約元文書に含まれると判断された場合に、要約元文書中の関連言語表現と、関連言語表現の取得元である要約元文書中の言語表現との関連を特定する特定手段と、を備えてもよい。
このような構成により、要約元文書に含まれる言語表現に関連する関連言語表現を取得することによって、要約元文書における言語表現間の関連を特定することができる。
Further, in the document summarizing apparatus according to the present invention, the related specifying unit acquires the related language expression acquiring means for acquiring the related language expression that is a language expression related to the language expression included in the source document, and the related language expression acquiring means acquires A determination unit that determines whether the related language expression is included in the summary source document, and when the determination unit determines that the related language expression is included in the summary source document, And specifying means for specifying a relationship with the language expression in the summary source document from which the related language expression is acquired.
With such a configuration, by acquiring a related language expression related to a language expression included in the summary source document, it is possible to specify a relationship between the language expressions in the summary source document.
また、本発明による文書要約装置では、出力部が出力した要約に関連する言語表現を取得する第3の取得部と、抽出部が抽出した言語表現のうち、第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、出力部は、特定部が特定した言語表現をも出力してもよい。
このような構成により、要約元文書に含まれる言語表現のうち、出力される要約と関連のないもの、すなわち、その要約によって適切に要約されていないものも出力することができる。
In the document summarizing apparatus according to the present invention, the third acquisition unit that acquires a language expression related to the summary output by the output unit, and the language acquired by the third acquisition unit among the language expressions extracted by the extraction unit A specifying unit that specifies what is not included in the expression, and the output unit may output the language expression specified by the specifying unit.
With this configuration, it is possible to output language expressions included in the summary source document that are not related to the output summary, that is, those that are not appropriately summarized by the summary.
また、本発明による文書要約装置では、出力部が出力した要約に関連する言語表現を取得する第3の取得部と、抽出部が抽出した言語表現のうち、第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、特定部が特定した言語表現に対しても、第1の取得部による要約候補の取得、第2の取得部による要約候補に関連する言語表現の取得、算出部によるリコール及びプレシジョンの算出、選択部による要約の選択、出力部による選択された要約の出力の各処理が行われてもよい。
このような構成により、要約元文書に含まれる言語表現のうち、出力される要約と関連のないもの、すなわち、その要約によって適切に要約されていないものについて、再度、要約を行い、その結果も出力することができる。
In the document summarizing apparatus according to the present invention, the third acquisition unit that acquires a language expression related to the summary output by the output unit, and the language acquired by the third acquisition unit among the language expressions extracted by the extraction unit A specific part for specifying what is not included in the expression, and for the linguistic expression specified by the specific part, acquisition of summary candidates by the first acquisition part, and summary candidates by the second acquisition part Each processing of obtaining a language expression to be performed, calculating a recall and precision by the calculation unit, selecting a summary by the selection unit, and outputting the selected summary by the output unit may be performed.
With such a configuration, the linguistic expressions included in the source document for summarization are those that are not related to the summary that is output, that is, those that are not properly summarized by the summary, and the result is also summarized. Can be output.
また、本発明による文書処理装置は、文書が記憶される文書記憶部と、前記文書において、言語表現の関連を特定する関連特定部と、前記関連特定部が特定した関連を示す情報を出力する出力部と、を備えたものである。
このような構成により、文書における言語表現の関連を示す情報を出力することができる。その結果、例えば、その情報によって、文書において関連する箇所を知ることができるようになる。
In addition, the document processing apparatus according to the present invention outputs a document storage unit in which a document is stored, a relationship specifying unit that specifies a language expression relationship in the document, and information indicating a relationship specified by the relationship specifying unit. And an output unit.
With such a configuration, it is possible to output information indicating the relationship of language expressions in a document. As a result, for example, it becomes possible to know a related portion in the document based on the information.
また、本発明による文書処理装置では、関連特定部は、文書記憶部で記憶されている文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する関連言語表現取得手段と、前記関連言語表現取得手段が取得した関連言語表現が文書記憶部で記憶されている文書に含まれるかどうか判断する判断手段と、前記判断手段によって、関連言語表現が文書に含まれると判断された場合に、文書中の関連言語表現と、関連言語表現の取得元である文書中の言語表現との関連を特定する特定手段とを備えてもよい。
このような構成により、文書に含まれる言語表現に関連する関連言語表現を取得することによって、その文書における言語表現間の関連を特定することができる。
Further, in the document processing apparatus according to the present invention, the related specifying unit acquires a related language expression that is a language expression related to a language expression included in the document stored in the document storage unit, A determination unit that determines whether or not the related language expression acquired by the related language expression acquisition unit is included in the document stored in the document storage unit; and the determination unit determines that the related language expression is included in the document In addition, there may be provided a specifying means for specifying a relation between the related language expression in the document and the language expression in the document from which the related language expression is acquired.
With such a configuration, by acquiring the related language expression related to the language expression included in the document, the relationship between the language expressions in the document can be specified.
本発明による文書要約装置等によれば、要約元の文書に含まれない表現をも用いて要約を自動生成することができる。また、本発明による文書処理装置等によれば、文書における言語表現の関連を示す情報を出力することができる。 According to the document summarizing apparatus and the like according to the present invention, it is possible to automatically generate a summary using an expression that is not included in the document of the summarization source. In addition, according to the document processing apparatus and the like according to the present invention, it is possible to output information indicating the relation of language expression in a document.
以下、本発明による文書要約装置、文書処理装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。 Hereinafter, a document summarizing apparatus and a document processing apparatus according to the present invention will be described using embodiments. In the following embodiments, components and steps denoted by the same reference numerals are the same or equivalent, and repetitive description may be omitted.
(実施の形態1)
本発明の実施の形態1による文書要約装置について、図面を参照しながら説明する。本実施の形態による文書要約装置は、要約元文書に含まれる言語表現に関連する言語表現である要約を取得するものである。
(Embodiment 1)
A document summarizing apparatus according to Embodiment 1 of the present invention will be described with reference to the drawings. The document summarization apparatus according to the present embodiment acquires a summary that is a linguistic expression related to a linguistic expression included in a summary source document.
図1は、本実施の形態による文書要約装置1の構成を示すブロック図である。本実施の形態による文書要約装置1は、要約元文書記憶部11と、抽出部12と、関連辞書情報記憶部13と、第1の取得部14と、第2の取得部15と、算出部16と、関連特定部17と、選択部18と、出力部19と、第3の取得部20と、特定部21とを備える。 FIG. 1 is a block diagram showing a configuration of a document summarizing apparatus 1 according to this embodiment. The document summarizing apparatus 1 according to the present embodiment includes a summary source document storage unit 11, an extraction unit 12, a related dictionary information storage unit 13, a first acquisition unit 14, a second acquisition unit 15, and a calculation unit. 16, an association identification unit 17, a selection unit 18, an output unit 19, a third acquisition unit 20, and an identification unit 21.
要約元文書記憶部11では、要約元の文書である要約元文書が記憶される。要約元文書は、要約を生成する対象となる文書のことである。すなわち、本実施の形態による文書要約装置1では、要約元文書の要約を生成することになる。その要約元文書は、例えば、一文の文書であってもよく、複数の文を含む文書であってもよい。後者の場合には、例えば、要約元文書は、1または複数の段落を有する文書であってもよい。その要約元文書の内容は問わない。なお、その要約元文書は、通常、テキスト情報である。 The summary source document storage unit 11 stores a summary source document that is a summary source document. The summary source document is a document for which a summary is generated. That is, the document summarization apparatus 1 according to the present embodiment generates a summary of the summary source document. The summary source document may be, for example, a single sentence document or a document including a plurality of sentences. In the latter case, for example, the summary source document may be a document having one or a plurality of paragraphs. The content of the summary source document does not matter. Note that the summary source document is usually text information.
抽出部12は、要約元文書から言語表現を抽出する。ここで、言語表現は、例えば、単語であってもよく、フレーズ以上の長さを有するものであってもよい。後述する第1の取得部14において、共起や関連辞書情報を用いた取得を行う場合には、言語表現は単語であることが好適である。一方、その第1の取得部において、情報検索的考え方を用いた取得を行う場合には、言語表現はフレーズ以上の長さを有するものである。なお、フレーズ以上の長さを有するものとは、フレーズであってもよく、一の文であってもよく、2以上の文であってもよく、段落であってもよく、それら以外の、文書におけるフレーズ以上の範囲であってもよい。フレーズは、例えば、一の文において読点やコンマによって区切られる範囲であってもよく、その他の範囲であってもよい。抽出部12が抽出した1または2以上の言語表現は、図示しない記録媒体において記憶されてもよい。 The extraction unit 12 extracts a language expression from the summary source document. Here, the language expression may be, for example, a word or a phrase having a length equal to or longer than a phrase. When the first acquisition unit 14 described later performs acquisition using co-occurrence or related dictionary information, the language expression is preferably a word. On the other hand, when the first acquisition unit performs acquisition using an information retrieval concept, the language expression has a length equal to or longer than the phrase. The phrase having a length equal to or longer than a phrase may be a phrase, a single sentence, two or more sentences, a paragraph, The range may be more than the phrase in the document. The phrase may be, for example, a range delimited by a reading mark or a comma in one sentence, or may be another range. One or more language expressions extracted by the extraction unit 12 may be stored in a recording medium (not shown).
抽出部12が単語を抽出する場合には、その抽出する単語の品詞があらかじめ決められていてもよく、そうでなくてもよい。前者の場合には、例えば、抽出部12は、名詞の単語を抽出してもよく、動詞の単語を抽出してもよく、形容詞の単語を抽出してもよく、副詞の単語を抽出してもよく、その他の種類の単語を抽出してもよく、任意の2以上の品詞の単語(例えば、名詞の単語と動詞の単語)を抽出してもよい。また、2以上の名詞が連続している場合には、それを一の名詞であるとして抽出してもよく、そうでなくてもよい。なお、抽出部12は、その単語の抽出を行う際に、要約元文書を読み出して形態素解析を行い、その形態素解析の結果を用いて、単語の抽出を行ってもよい。形態素解析を行うことによって、単語の区切りや、単語の品詞を知ることができるからである。本実施の形態では、第1の取得部14において、共起や関連辞書情報を用いた取得を行う場合には、抽出部12が名詞の単語を抽出するものとして説明する。抽出部12が単語を抽出する場合には、通常、抽出部12は2以上の単語を抽出する。例えば、要約元文書が1以上の文である場合に、抽出部12は、その1以上の文に含まれる複数の単語をそれぞれ抽出してもよい。 When the extraction unit 12 extracts a word, the part of speech of the extracted word may or may not be determined in advance. In the former case, for example, the extraction unit 12 may extract a noun word, a verb word, an adjective word, or an adverb word. Alternatively, other types of words may be extracted, and arbitrary two or more parts of speech words (for example, noun words and verb words) may be extracted. Moreover, when two or more nouns are continuous, they may be extracted as one noun, or not. Note that when extracting the word, the extraction unit 12 may read the summary source document, perform morphological analysis, and extract the word using the result of the morphological analysis. This is because, by performing morphological analysis, it is possible to know word breaks and word parts of speech. In the present embodiment, when the first acquisition unit 14 performs acquisition using co-occurrence or related dictionary information, the extraction unit 12 will be described as extracting a noun word. When the extraction unit 12 extracts words, the extraction unit 12 normally extracts two or more words. For example, when the summary source document is one or more sentences, the extraction unit 12 may extract a plurality of words included in the one or more sentences, respectively.
なお、形態素解析として、日本語の場合には、例えば、奈良先端科学技術大学院大学で開発された「ChaSen(茶筌)」(http://chasen.naist.jp)等が知られている。また、英語の場合には、英単語に品詞を付与するソフトウェアとして、例えば、「TnT」(http://www.coli.uni−saarland.de/〜thorsten/tnt/)や「Brill Tagger」(http://www.cs.jhu.edu/〜brill/)等が知られている。Brillのものについては、例えば、次の文献を参照されたい。
文献:Eric Brill、「Transformation−Based Error−Driven Learning and Natural Language Processing:A Case Study in Part−of−Speech Tagging」、Computational Linguistics,Vol.21,No.4,p.543−565、1995年
As morphological analysis, in the case of Japanese, for example, “ChaSen” (http://chasen.naist.jp) developed at Nara Institute of Science and Technology is known. In the case of English, examples of software that gives parts of speech to English words include “TnT” (http://www.coli.uni-saarland.de/˜thorsen/tnt/) and “Brill Tagger” ( http://www.cs.jhu.edu/˜brill/) and the like are known. See, for example, the following document for the Brill version.
Literature: Eric Brill, “Transformation-Based Error-Driving Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging”, Computational L. 21, no. 4, p. 543-565, 1995
抽出部12がフレーズ以上の長さを有するものを抽出する場合には、読点「、」や句点「。」、改行コード等を手がかり句として用いて、そのフレーズ以上の長さを有するものを抽出してもよい。例えば、抽出部12がフレーズを抽出する場合には、文書の始点、読点または句点から始まり、文書の終点、読点または句点で終わる範囲を抽出してもよい。なお、その抽出される範囲の始点と終点以外には、読点や句点が含まれないものとする。また、例えば、抽出部12が一文を抽出する場合には、文書の始点または句点から始まり、文書の終点または句点で終わる範囲を抽出してもよい。なお、その抽出される範囲の始点と終点以外には、句点が含まれないものとする。また、例えば、抽出部12が一の段落を抽出する場合には、文書の始点または改行コードから始まり、文書の終点または改行コードで終わる範囲を抽出してもよい。なお、その抽出される範囲の始点と終点以外には、改行コードは含まれないものとする。また、抽出部12がこれら以外の方法によってフレーズ以上の長さを有する言語表現を抽出してもよいことは言うまでもない。なお、抽出部12が一文を抽出するものであり、要約元文書記憶部11において一文である要約元文書が記憶されている場合には、抽出部12は、その要約元文書の全体である一文を抽出してもよい。このように、抽出部12による抽出には、要約元文書の一部を抽出することと、要約元文書の全部を抽出することの両方が含まれるものとする。本実施の形態では、第1の取得部14において、情報検索的考え方を用いた取得を行う場合には、抽出部12が一文を抽出するものとして説明する。抽出部12がフレーズ以上の長さを有するものを抽出する場合には、通常、抽出部12は1以上の「フレーズ以上の長さを有するもの」を抽出する。例えば、要約元文書が2以上の文である場合に、抽出部12は、その2以上の文に含まれる複数の文をそれぞれ抽出してもよい。 When the extraction unit 12 extracts a phrase having a length equal to or longer than the phrase, a phrase having a length equal to or longer than the phrase is extracted by using a punctuation mark “,”, a punctuation mark “.”, A line feed code, or the like as a clue phrase. May be. For example, when the extraction unit 12 extracts a phrase, a range that starts from the start point, reading point, or phrase of the document and ends at the end point, reading point, or phrase of the document may be extracted. It should be noted that there is no punctuation or punctuation other than the start point and end point of the extracted range. Further, for example, when the extraction unit 12 extracts a sentence, a range starting from the start point or phrase of the document and ending at the end point or phrase of the document may be extracted. In addition, punctuation points are not included except for the start point and end point of the extracted range. Further, for example, when the extraction unit 12 extracts one paragraph, a range that starts from the document start point or line feed code and ends at the document end point or line feed code may be extracted. Note that a line feed code is not included except for the start point and end point of the extracted range. Moreover, it cannot be overemphasized that the extraction part 12 may extract the linguistic expression which has the length more than a phrase by methods other than these. When the extraction unit 12 extracts one sentence and the summary source document that is one sentence is stored in the summary source document storage unit 11, the extraction unit 12 selects one sentence that is the entire summary source document. May be extracted. As described above, the extraction by the extraction unit 12 includes both extraction of a part of the summary source document and extraction of the entire summary source document. In the present embodiment, the first acquisition unit 14 will be described assuming that the extraction unit 12 extracts one sentence when performing acquisition using an information retrieval concept. When the extraction unit 12 extracts a thing having a length equal to or longer than a phrase, the extraction part 12 normally extracts one or more “those having a length equal to or longer than the phrase”. For example, when the summary source document is two or more sentences, the extraction unit 12 may extract a plurality of sentences included in the two or more sentences, respectively.
また、抽出部12が2以上の言語表現を抽出した場合に、同じ言語表現が重複して抽出されることもある。その場合には、抽出された言語表現に対するユニーク処理を行って、抽出された言語表現の重複を解消してもよい。 Further, when the extraction unit 12 extracts two or more language expressions, the same language expression may be extracted in duplicate. In that case, unique processing for the extracted language expressions may be performed to eliminate duplication of the extracted language expressions.
関連辞書情報記憶部13では、関連辞書情報が記憶される。関連辞書情報は、複数のペア情報を有する情報である。ペア情報は、関連する言語表現のペアを有する情報である。このペア情報に含まれる言語表現は、例えば、単語であってもよく、フレーズであってもよく、その他の長さのものであってもよいが、通常、単語である。また、その単語の品詞が決まっていてもよい。その品詞は、例えば、名詞であってもよく、動詞であってもよく、その他の品詞であってもよく、任意の2以上の品詞の組合せであってもよい。また、その関連辞書情報において、各ペア情報に関連の種類が対応付けられていてもよい。関連の種類は、例えば、類似語や類義語(例えば、飲み物と飲料)であってもよく、上位下位(例えば、飲み物とコーヒー)であってもよく、原因結果(例えば、豪雨と洪水)であってもよく、ライバルや対義語(例えば、上と下)であってもよく、製品とメーカー(例えば、掃除機とA社)であってもよく、事象と方法(例えば、爆発と爆弾)であってもよく、事象とツール(例えば、授業と教科書)であってもよく、事象と防ぐもの(例えば、病気と薬)であってもよく、物と材料(例えば、缶とアルミニウム)であってもよく、その他の種類の関連であってもよい。関連辞書情報は、例えば、図5で示されるものである。図5で示されるように、ペア情報には、関連する2個の単語(言語表現)が含まれる。また、そのペア情報に対して、関連の種類も対応付けられている。図5では、飲み物に対して、飲料、ドリンクは類似の関連であることが示されている。また、飲み物に対して、コーヒー、紅茶は、下位の関係であることが示されている。また、飲み物に対して、飲食物は、上位の関係であることが示されている。なお、類似の関係には方向性がないが、下位、上位の関係には方向性があることになる。例えば、飲み物の下位がコーヒーであって、その逆ではない、ということになる。また、関連辞書情報において、ペア情報に関連性の度合いを示す情報が含まれてもよい。その情報は、例えば、関連性が高いほど、高くなる値であってもよい。また、この関連辞書情報に含まれるペア情報で対応付けられている2個の言語表現は、何らかの関連があるものであれば、どのような関連で対応するものであってもよい。後述するように、その2個の言語表現は、通常、一方の言語表現から他方の言語表現を推論的に導くことができるものであるが、それに限定されるものではなく、例えば、一方の言語表現から他方の言語表現を連想的に導くことができるものであってもよい。 The related dictionary information storage unit 13 stores related dictionary information. The related dictionary information is information having a plurality of pair information. The pair information is information having a pair of related language expressions. The language expression included in the pair information is, for example, a word, a phrase, or other length, but is usually a word. Moreover, the part of speech of the word may be determined. The part of speech may be, for example, a noun, a verb, another part of speech, or a combination of any two or more parts of speech. Further, in the related dictionary information, a related type may be associated with each pair information. The type of association may be, for example, similar terms or synonyms (for example, drinks and beverages), upper or lower order (for example, drinks and coffee), and cause / effect (for example, heavy rain and flood). May be rivals or synonyms (eg, top and bottom), products and manufacturers (eg, vacuum cleaner and company A), events and methods (eg, explosions and bombs) Well, it can be events and tools (eg lessons and textbooks), events and prevention (eg illness and medicine), and things and materials (eg cans and aluminum). Other types of associations may be possible. The related dictionary information is, for example, shown in FIG. As shown in FIG. 5, the pair information includes two related words (language expression). Further, the type of association is also associated with the pair information. FIG. 5 shows that beverages and drinks have similar relationships with drinks. It is also shown that coffee and tea have a lower relationship with drinks. Moreover, it is shown that food and drinks are in a superior relationship with respect to drinks. Note that similar relationships do not have directionality, but lower and upper relationships have directionality. For example, the lower part of a drink is coffee and not the other way around. In the related dictionary information, the pair information may include information indicating the degree of relevance. The information may be, for example, a value that increases as the relevance increases. Further, the two language expressions associated with the pair information included in the related dictionary information may correspond in any relationship as long as they have some relationship. As will be described later, the two linguistic expressions are usually ones that can speculatively derive the other linguistic expression from one linguistic expression, but are not limited thereto. It may be capable of associatively deriving the other language expression from the expression.
なお、その関連辞書情報を生成する方法は問わない。例えば、手作業で作成してもよく、あるいは、機械的に作成してもよい。後者の場合には、例えば、次の文献に記載されている手法などを用いてもよい。その文献に記載されている手法は、自動的に類似語のリストを生成するものである。
文献:風間淳一、Stijn De Saeger、鳥澤健太郎、村田真樹、「係り受けの確率的クラスタリングを用いた大規模類似語リストの作成」、言語処理学会第15回年次大会,p.84−87,2009年3月
The method for generating the related dictionary information is not limited. For example, it may be created manually or mechanically. In the latter case, for example, a method described in the following document may be used. The technique described in that document automatically generates a list of similar words.
References: Shinichi Kazama, Stijn De Saeger, Kentaro Torizawa, Maki Murata, “Creating a Large-scale Similar Word List Using Dependent Stochastic Clustering”, 15th Annual Conference of the Association for Language Processing, p. 84-87, March 2009
第1の取得部14は、抽出部12が抽出した言語表現に関連する言語表現である要約候補を取得する。通常、第1の取得部14は、複数の要約候補を抽出する。第1の取得部14は、抽出された一の言語表現ごとに、要約候補を取得してもよく(例えば、抽出された言語表現A1から、要約候補B1,B2,B3を取得してもよい)、あるいは、抽出された二以上の言語表現を一括して用いて、要約候補を取得してもよい(例えば、抽出された言語表現A1,A2から、要約候補B1,B2,B3を取得してもよい)。第1の取得部14は、連想的知識や、推論的知識を用いて、抽出された言語表現に対応する言語表現である要約候補を取得するものである。すなわち、抽出された言語表現から連想される言語表現や、抽出された言語表現から推論的に導かれる言語表現が、要約候補として取得されることになる。なお、要約候補である言語表現は、通常、単語であるが、それ以上の長さを有するもの、例えば、フレーズであってもよい。第1の取得部14によって取得された要約候補は、図示しない記録媒体で記憶されてもよい。 The first acquisition unit 14 acquires summary candidates that are language expressions related to the language expression extracted by the extraction unit 12. Normally, the first acquisition unit 14 extracts a plurality of summary candidates. The first acquisition unit 14 may acquire summary candidates for each extracted language expression (for example, may acquire summary candidates B1, B2, and B3 from the extracted language expression A1). ) Alternatively, summary candidates may be acquired by collectively using two or more extracted language expressions (for example, abstract candidates B1, B2, B3 are acquired from the extracted language expressions A1, A2). May be). The 1st acquisition part 14 acquires the summary candidate which is a linguistic expression corresponding to the extracted linguistic expression using associative knowledge or speculative knowledge. In other words, a language expression associated with the extracted language expression and a language expression that is speculatively derived from the extracted language expression are acquired as summary candidates. Note that the linguistic expression that is a summary candidate is usually a word, but it may be longer than that, for example, a phrase. The summary candidate acquired by the first acquisition unit 14 may be stored in a recording medium (not shown).
その要約候補の取得方法として、例えば、(1)共起を用いる方法、(2)関連辞書情報を用いる方法、(3)情報検索的考え方を用いる方法がある。以下、その各方法について説明する。説明の便宜上、(1)(2)の方法の場合には、抽出部12によって、単語である言語表現が抽出されているものとして説明を行う。また、(3)の方法の場合には、抽出部12によって、フレーズ以上の長さを有する言語表現が抽出されているものとして説明を行う。なお、(1)〜(3)以外の方法によって、抽出部12が抽出した言語表現に関連する言語表現を取得してもよいことは言うまでもない。 As a summary candidate acquisition method, there are, for example, (1) a method using co-occurrence, (2) a method using related dictionary information, and (3) a method using an information retrieval concept. Hereinafter, each method will be described. For convenience of explanation, in the case of the methods (1) and (2), the explanation is made on the assumption that the linguistic expression that is a word is extracted by the extraction unit 12. In the case of the method (3), description will be made assuming that the extraction unit 12 has extracted a language expression having a length longer than the phrase. Needless to say, language expressions related to the language expression extracted by the extraction unit 12 may be acquired by methods other than (1) to (3).
(1)共起を用いる方法
この方法では、第1の取得部14は、抽出部12が抽出した言語表現と共起の高い言語表現である要約候補を取得する。まず、共起について説明する。言語表現Aと、言語表現Bとが共起するとは、決められた長さの範囲内(例えば、一文の範囲内、一段落の範囲内、一ページの範囲内、一の文書の範囲内、一のウェブページの範囲内等)において、同時に出現することである。共起が高いとは、共起を示す尺度が高いことである。共起を示す尺度としては、例えば、共起頻度や共起率、Simpson係数、コサイン距離等が存在する。言語表現Aと言語表現Bとの共起頻度とは、決められた長さの範囲内において、言語表現A,Bが同時に出現する数である。共起率については後述する。また、Simpson係数は、共起率の分母を、後述するX,Yの最小値にしたものである。また、コサイン距離は、共起率の分母を、後述するXとYの積の絶対値の自乗根にしたものである。なお、これらの共起を示す尺度についてはすでに公知である。したがって、共起の代表的な尺度である共起率についての説明のみを行い、それ以外の共起の尺度に関する説明を省略する。また、上記以外の共起の尺度を用いてもよいことは言うまでもない。例えば、後述するX,Y,Zについて、Z/XとZ/Yを共起の尺度として用いるようにしてもよい。
(1) Method Using Co-occurrence In this method, the first acquisition unit 14 acquires summary candidates that are language expressions having high co-occurrence with the language expression extracted by the extraction unit 12. First, co-occurrence will be described. The linguistic expression A and the linguistic expression B co-occur within a predetermined length range (for example, within one sentence, within one paragraph, within one page, within one document, within one document, In the web page range). High co-occurrence means that the scale indicating co-occurrence is high. As a scale indicating co-occurrence, for example, co-occurrence frequency, co-occurrence rate, Simpson coefficient, cosine distance, and the like exist. The co-occurrence frequency of the language expression A and the language expression B is the number that the language expressions A and B appear at the same time within a predetermined length range. The co-occurrence rate will be described later. The Simpson coefficient is obtained by setting the denominator of the co-occurrence rate to the minimum values of X and Y described later. The cosine distance is obtained by setting the denominator of the co-occurrence rate to the square root of the absolute value of the product of X and Y described later. In addition, the scale which shows these co-occurrence is already well-known. Therefore, only the description of the co-occurrence rate, which is a representative measure of co-occurrence, will be given, and the description of the other co-occurrence measures will be omitted. It goes without saying that other co-occurrence measures may be used. For example, for X, Y, and Z described later, Z / X and Z / Y may be used as a scale for co-occurrence.
共起率は、言語表現Aの出現数をXとして、言語表現Bの出現数をYとして、言語表現A,Bが同時に出現する数をZとすると、
共起率=Z/(X+Y−Z)
となる。なお、言語表現Aの出現数Xは、例えば、言語表現Aを検索キーとして検索した場合における、ヒットした、決められた長さの範囲(例えば、一文)の数である。Y,Zに関しても同様である。例えば、その範囲が一文である場合には、検索キー「言語表現A」の検索でヒットした文数がXである。また、例えば、その範囲が一文である場合には、検索キー「言語表現A AND 言語表現B」の検索でヒットした文数がZである。
The co-occurrence rate is expressed as follows: X is the number of appearances of language expression A, Y is the number of appearances of language expression B, and Z is the number of appearances of language expressions A and B simultaneously.
Co-occurrence rate = Z / (X + Y−Z)
It becomes. The number of appearances X of the language expression A is, for example, the number of determined length ranges (for example, one sentence) when the language expression A is searched using the search key. The same applies to Y and Z. For example, when the range is one sentence, the number of sentences hit by the search of the search key “language expression A” is X. For example, when the range is one sentence, the number of sentences hit in the search of the search key “language expression A AND language expression B” is Z.
なお、その共起率を算出する際には、多くの文書を有するデータベースが必要になる。そのデータベースは、例えば、文書要約装置1が保持していてもよく、あるいは、装置外に存在してもよい。後者の場合には、例えば、そのデータベースは、ウェブサイトであってもよく、あるいは、所定のサーバが有するデータベースであってもよい。また、その共起率を算出する際の検索等の処理は、第1の取得部14がそのデータベースにアクセスすることによって行ってもよく、あるいは、第1の取得部14は、外部の装置やサーバに対して、抽出された言語表現を渡し、その外部の装置やサーバにおいて生成された、抽出された言語表現と共起する言語表現や共起率を受け取るだけであってもよい。 In calculating the co-occurrence rate, a database having many documents is required. For example, the database may be held by the document summarization apparatus 1 or may exist outside the apparatus. In the latter case, for example, the database may be a website or a database possessed by a predetermined server. In addition, processing such as search when calculating the co-occurrence rate may be performed by the first acquisition unit 14 accessing the database, or the first acquisition unit 14 may be an external device or It is also possible to simply pass the extracted language expression to the server and receive the language expression and the co-occurrence rate that co-occur with the extracted language expression generated in the external device or server.
第1の取得部14は、抽出部12が抽出した言語表現と共起する言語表現と、その共起率とを取得する。この処理は、例えば、第1の取得部14が、抽出された言語表現と、あらゆる言語表現との共起率を算出することによって行われる。その処理で用いられるあらゆる言語表現は、例えば、あらかじめ図示しない記録媒体で記憶されている単語群であってもよく、あるいは、共起率の算出時に用いられるデータベースから抽出した単語群であってもよい。そして、共起率の高い言語表現を、抽出された言語表現に関連する要約候補として取得する。なお、共起率が高い言語表現とは、例えば、しきい値以上の共起率である言語表現であってもよく、あるいは、共起率の高いものからあらかじめ決められた個数の言語表現であってもよい。なお、その2個の条件を合わせて用いてもよい。例えば、共起率の高い言語表現は、しきい値以上の共起率である言語表現であって、かつ、共起率の高いものからあらかじめ決められた個数内の言語表現であってもよい。そのしきい値は、例えば、共起率の最大値にあらかじめ決められた1未満の数(例えば、0.9や0.8など)を掛けた値であってもよく、あらかじめ決められた値であってもよい。このことは、共起率以外の共起の尺度を用いて、抽出された言語表現と共起の高い言語表現を取得する場合にも同様である。すなわち、この段落の説明において、共起率を適宜、他の共起の尺度に置き換えてもよい。 The first acquisition unit 14 acquires a language expression that co-occurs with the language expression extracted by the extraction unit 12 and the co-occurrence rate. This process is performed, for example, by the first acquisition unit 14 calculating the co-occurrence rate between the extracted language expression and any language expression. Any language expression used in the processing may be, for example, a word group stored in a recording medium (not shown) in advance, or a word group extracted from a database used when calculating the co-occurrence rate. Good. Then, a language expression having a high co-occurrence rate is acquired as a summary candidate related to the extracted language expression. The linguistic expression having a high co-occurrence rate may be, for example, a linguistic expression having a co-occurrence rate equal to or higher than a threshold, or a predetermined number of linguistic expressions having a high co-occurrence rate. There may be. The two conditions may be used together. For example, a linguistic expression having a high co-occurrence rate may be a linguistic expression having a co-occurrence rate equal to or higher than a threshold value, and may be a linguistic expression within a predetermined number from those having a high co-occurrence rate. . The threshold value may be, for example, a value obtained by multiplying the maximum value of the co-occurrence rate by a number less than 1 (for example, 0.9 or 0.8). It may be. The same applies to the case of acquiring a language expression having a high co-occurrence with the extracted language expression using a scale of co-occurrence other than the co-occurrence rate. That is, in the description of this paragraph, the co-occurrence rate may be appropriately replaced with another co-occurrence scale.
なお、抽出部12が2以上の言語表現を抽出した場合には、各言語表現に対して共起率の高い言語表現である要約候補が取得される。また、そのような場合には、同じ要約候補が重複して取得されることもあるため、要約候補の取得が終了した後に、要約候補に対するユニーク処理を行い、要約候補の重複を解消してもよい。 When the extraction unit 12 extracts two or more language expressions, summary candidates that are language expressions having a high co-occurrence rate are acquired for each language expression. In such a case, the same summary candidate may be obtained in duplicate, so after the summary candidate acquisition is completed, unique processing is performed on the summary candidate to eliminate the summary candidate duplication. Good.
また、上記説明では、第1の取得部14が2個の言語表現に関する共起率を用いて要約候補を取得する場合について説明したが、第1の取得部14は、3個以上の言語表現に関する共起率を用いて要約候補を取得してもよい。例えば、抽出部12が2以上の言語表現を抽出した場合に、第1の取得部14は、その2以上の言語表現から選択した2個の言語表現と共起率の高い言語表現である要約候補を取得してもよい。その場合の共起率は、言語表現Aの出現数をXとして、言語表現Bの出現数をYとして、言語表現Cの出現数をZとして、言語表現A,Bの同時の出現数をPとして、言語表現B,Cの同時の出現数をQとして、言語表現C,Aの同時の出現数をRとして、言語表現A,B,Cの同時の出現数をSとすると、
共起率=S/(X+Y+Z−P−Q−R+S)
となる。この場合には、第1の取得部14は、抽出された2以上の言語表現におけるすべての2個の言語表現の組合せについて、上述のように3個の言語表現に関する共起率を用いて要約候補を取得してもよい。その場合には、共起率を求める3個の言語表現のうち、抽出部12が抽出した2個の言語表現が共起しないまたは共起率の非常に小さい言語表現である場合には、その2個の言語表現を含む3個の言語表現に対して求められるすべての共起率が非常に小さい値となる。その場合には、要約候補を取得しなくてもよいため、共起率にあらかじめ決められたしきい値を設定することによって、足切りを行うようにしてもよい。また、4個以上の言語表現に関する共起率を用いて要約候補を取得する場合も、同様にして行うことができる。また、第1の取得部14は、2個の言語表現の共起率を用いた要約候補の取得と、3個以上の言語表現の共起率を用いた要約候補の取得との両方を行って要約候補を取得してもよい。
In the above description, the case where the first acquisition unit 14 acquires summary candidates using the co-occurrence ratios related to two language expressions has been described. However, the first acquisition unit 14 includes three or more language expressions. A summary candidate may be acquired using the co-occurrence rate for. For example, when the extraction unit 12 extracts two or more language expressions, the first acquisition unit 14 summarizes two language expressions selected from the two or more language expressions and a language expression having a high co-occurrence rate. Candidates may be acquired. The co-occurrence rate in this case is as follows: the number of appearances of language expressions A is X, the number of appearances of language expression B is Y, the number of appearances of language expression C is Z, and the number of simultaneous appearances of language expressions A and B is P Assuming that the number of simultaneous occurrences of the language expressions B and C is Q, the number of simultaneous appearances of the language expressions C and A is R, and the number of simultaneous appearances of the language expressions A, B, and C is S,
Co-occurrence rate = S / (X + Y + ZPQR + S)
It becomes. In this case, the first acquisition unit 14 summarizes all the combinations of two language expressions in the two or more extracted language expressions using the co-occurrence ratios for the three language expressions as described above. Candidates may be acquired. In that case, among the three language expressions for which the co-occurrence rate is calculated, if the two language expressions extracted by the extraction unit 12 are not co-occurring or are language expressions having a very small co-occurrence rate, All the co-occurrence rates required for three language expressions including two language expressions are very small values. In this case, since summary candidates do not have to be acquired, the threshold may be cut by setting a predetermined threshold value for the co-occurrence rate. Further, when a summary candidate is acquired using a co-occurrence rate regarding four or more language expressions, the same can be done. Further, the first acquisition unit 14 performs both acquisition of summary candidates using the co-occurrence rates of two language expressions and acquisition of summary candidates using the co-occurrence rates of three or more language expressions. Summary candidates may be acquired.
また、あらゆる言語表現の組合せについてあらかじめ共起率を算出し、その共起率が高い組合せを保持しておくことによって、ある言語表現Aと共起率の高い言語表現を、その組合せから取得するようにしてもよい。具体的には、言語表現Aと共起率の高い言語表現B,C,D…が言語表現Aに対応付けられて保持されており、抽出部12によって言語表現Aが抽出された場合には、第1の取得部14は、その言語表現Aで検索することによって、その言語表現Aに対応する言語表現B,C,D…を取得してもよい。 In addition, by calculating the co-occurrence rate in advance for every combination of language expressions and holding the combination having a high co-occurrence rate, a language expression having a high co-occurrence rate with a certain language expression A is acquired from the combination. You may do it. Specifically, language expressions B, C, D... Having a high co-occurrence rate with language expression A are held in association with language expression A, and when language expression A is extracted by extraction unit 12. The first acquisition unit 14 may acquire the language expressions B, C, D... Corresponding to the language expression A by searching with the language expression A.
また、通常、ある言語表現に対して共起率の高い言語表現を取得する際には、元の言語表現を含めない。しかし、第1の取得部14は、抽出された言語表現そのものを、要約候補として取得してもよい。その場合に、第1の取得部14は、抽出された言語表現であって、その言語表現そのものとの共起率の高いもののみを要約候補として取得してもよく、あるいは、抽出された言語表現すべてを、共起率が高いとして要約候補にしてもよい。なお、共起率に関して説明したことは、共起率以外の共起の尺度についても、適宜、適用できるものである。 Also, when acquiring a linguistic expression having a high co-occurrence rate for a certain linguistic expression, the original linguistic expression is not included. However, the first acquisition unit 14 may acquire the extracted language expression itself as a summary candidate. In that case, the first acquisition unit 14 may acquire only the extracted language expressions that have a high co-occurrence rate with the language expression itself as summary candidates, or the extracted language All the expressions may be candidates for summarization with a high co-occurrence rate. In addition, what was demonstrated regarding the co-occurrence rate is applicable also suitably about the scale of co-occurrence other than a co-occurrence rate.
(2)関連辞書情報を用いる方法
この方法では、第1の取得部14は、抽出部12が抽出した言語表現とペア情報によって対応付けられている言語表現である要約候補を取得する。抽出された言語表現とペア情報によって対応付けられている言語表現とは、例えば、抽出された言語表現がAである場合に、そのAを含むペア情報に含まれるAではない言語表現(すなわち、Aとペアになっている言語表現)のことである。したがって、第1の取得部14は、抽出された言語表現を検索キーとして関連辞書情報を検索し、ヒットしたペア情報から、検索キーである言語表現とペアになっている言語表現を取得することによって、要約候補を取得することができる。例えば、関連辞書情報が図5で示されるものであり、抽出された言語表現が「飲み物」であれば、第1の取得部14は、その「飲み物」を検索キーとして、ペア情報の左側のカラムを検索する。そして、ヒットしたペア情報から、右側のカラムの言語表現、例えば、「飲料」「ドリンク」「コーヒー」「紅茶」「飲食物」…を要約候補として取得する。その取得の際に、第1の取得部14は、検索でヒットしたすべてのペア情報から要約候補を取得してもよく、あるいは、検索でヒットしたペア情報のうち、一部のペア情報から要約候補を取得してもよい。後者の場合には、例えば、ペア情報において、そのペア情報に含まれる2個の言語表現の関連性の度合いを示す情報が存在するのであれば、その情報によって示される関連性の度合いの高いものを要約候補として取得してもよい。その関連性の度合いが、関連性が強いほど高い値となる指標によって示される場合には、前述の共起の高いものを要約候補として取得する場合と同様にして、抽出された言語表現と関連性の強い要約候補を取得することができる。なお、その関連性の度合いを示す情報は、例えば、ペア情報が類似する言語表現のペアである場合には、類似度であってもよい。
(2) Method Using Related Dictionary Information In this method, the first acquisition unit 14 acquires summary candidates that are language expressions associated with the language expression extracted by the extraction unit 12 by pair information. The language expression associated with the extracted language expression by pair information is, for example, when the extracted language expression is A, a language expression other than A included in the pair information including A (that is, (Language expression paired with A). Therefore, the first acquisition unit 14 searches the related dictionary information using the extracted language expression as a search key, and acquires the language expression paired with the language expression that is the search key from the pair information that has been hit. Thus, a summary candidate can be acquired. For example, if the related dictionary information is as shown in FIG. 5 and the extracted language expression is “drink”, the first acquisition unit 14 uses the “drink” as a search key to the left of the pair information. Search for a column. Then, from the hit pair information, the language expression in the right column, for example, “beverage” “drink” “coffee” “tea” “food” is acquired as a summary candidate. At the time of acquisition, the first acquisition unit 14 may acquire summary candidates from all the pair information hit in the search, or summarize from a part of the pair information among the pair information hit in the search. Candidates may be acquired. In the latter case, for example, in the pair information, if there is information indicating the degree of relevance between the two language expressions included in the pair information, the information having a high degree of relevance indicated by the information May be acquired as a summary candidate. If the degree of relevance is indicated by an index that increases as the relevance increases, it is related to the extracted linguistic expression in the same way as the above-mentioned case of obtaining a co-occurrence as a summary candidate. A strong summary candidate can be acquired. Note that the information indicating the degree of relevance may be the degree of similarity, for example, when the pair information is a pair of language expressions that are similar.
(3)情報検索的考え方を用いる方法
この方法では、第1の取得部14は、抽出部12が抽出した言語表現に類似する文書を、複数の文書を有するデータベースから検索する。そして、第1の取得部14は、その検索結果の文書集合に偏って出現する言語表現(この言語表現は通常、単語であるが、単語以上の長さを有するものであってもよい)を取得する。なお、この方法については、例えば、特開2007−241794で開示されているため、その文献を参照されたい。なお、以下その方法について簡単に説明する。
(3) Method Using Information Retrieval Concept In this method, the first acquisition unit 14 searches a database having a plurality of documents for documents similar to the language expression extracted by the extraction unit 12. The first acquisition unit 14 then displays a linguistic expression that appears biased in the document set of the search results (this linguistic expression is usually a word, but may have a length longer than the word). get. Since this method is disclosed in, for example, Japanese Patent Laid-Open No. 2007-241794, refer to that document. The method will be briefly described below.
[文書集合に偏って出現する言語表現の取得方法]
文書の検索対象となるデータベースに含まれる文書群をCとする。この文書群Cは、データベース全体でもよく、あるいは、その一部であってもよい。また、ここでの文書は、文であってもよく、段落であってもよく、それ以上の長さを有するものであってもよい。また、抽出部12が抽出した言語表現に類似する文書の集合を、文書群Bとする。また、その文書群Bに偏って出現する言語表現の集合を単語群Aとする。なお、この説明では、第1の取得部14が取得する言語表現を単語であるとしている。また、単語群Aに含まれる要素である単語をaとする。
[Acquisition of language expressions that appear biased in the document set]
Let C be a group of documents included in a database to be searched for documents. The document group C may be the entire database or a part thereof. In addition, the document here may be a sentence, a paragraph, or a document having a longer length. A set of documents similar to the language expression extracted by the extraction unit 12 is defined as a document group B. A set of linguistic expressions that appear biased in the document group B is defined as a word group A. In this description, the language expression acquired by the first acquisition unit 14 is a word. A word that is an element included in the word group A is a.
(取得方法1:出現率の比を用いる場合)
まず、第1の取得部14は、文書群C中のaの出現率と、文書群B中のaの出現率を求める。
C中のaの出現率=C中のaの出現回数/C中の単語総数
B中のaの出現率=B中のaの出現回数/B中の単語総数
(Acquisition method 1: When using ratio of appearance rate)
First, the first acquisition unit 14 obtains the appearance rate of a in the document group C and the appearance rate of a in the document group B.
Appearance rate of a in C = Number of appearances of a in C / Total number of words in C Appearance rate of a in B = Number of appearances of a in B / Total number of words in B
次に、第1の取得部14は、「出現率の比=B中のaの出現率/C中のaの出現率」を求めて、この値が大きいものほど、文書群Bに偏って出現する単語とする。そして、その出現率の比の大きい単語aを1以上取得することによって、その1以上のaの集合である単語群Aを取得することができる。この単語群Aが、文書集合に偏って出現する言語表現(単語)の集合となる。 Next, the first acquisition unit 14 obtains “appearance rate ratio = appearance rate of a in B / appearance rate of a in C”, and the larger this value is, the more biased the document group B is. The word that appears. Then, by acquiring one or more words a having a large appearance ratio, the word group A that is a set of the one or more a can be acquired. This word group A is a set of linguistic expressions (words) that appear biased in the document set.
(取得方法2:有意差検定を利用する場合)
・二項検定の場合の説明
aのCでの出現数をNとする。aのBでの出現数をN1とする。また、N2=N−N1とする。
aがCに現れたときにそれがB中に現れる確率を0.5と仮定して、Nの総出現のうち、N2回以下、aがCに出現してBに出現しなかった確率を求める。
(Acquisition method 2: When using significant difference test)
-Explanation for binomial test Let N be the number of occurrences of C in a. Let N1 be the number of occurrences of a at B. Further, N2 = N−N1.
Assuming that the probability that it appears in B when a appears in C is 0.5, the probability that a appears in C and does not appear in B out of N total occurrences of N times or less. Ask.
この確率は、
P1=ΣC(N1+N2,x)*0.5^(x)*0.5^(N1+N2−x)
(ただし、Σは、x=0からx=N2の和であり、C(X,Y)は、X個の異なったものからY個のものを取り出す場合の数であり、^は、指数を意味する。)
で表され、この確率の値が十分小さければ、N1とN2は等価でない、すなわち、N1がN2に比べて有意に大きいことと判断できる。
This probability is
P1 = ΣC (N1 + N2, x) * 0.5 ^ (x) * 0.5 ^ (N1 + N2-x)
(Where Σ is the sum of x = 0 to x = N2, C (X, Y) is the number when Y out of X different ones are taken out, and ^ is the exponent means.)
If this probability value is sufficiently small, it can be determined that N1 and N2 are not equivalent, that is, N1 is significantly larger than N2.
5%検定ならP1が5%よりも小さいこと、10%検定ならP1が10%よりも小さいこと、が有意に大きいかどうかの判断基準になる。 In the case of 5% test, P1 is smaller than 5%, and in the case of 10% test, P1 is smaller than 10%.
N1がN2に比べて有意に大きいと判断されたものを文書群Bに偏って出現する単語とする。また、P1が小さいものほど、文書群Bによく偏って出現する単語とする。 Words in which N1 is determined to be significantly larger than N2 are words that appear biased in the document group B. Further, the smaller P1 is, the more frequently the word appears in the document group B.
・カイ二乗検定の場合の説明
B中のaの出現回数をN1、B中の単語の総出現数をF1、
CにあってBにない、aの出現回数をN2、
CにあってBにない、単語の総出現数をF2とする。
Explanation for chi-square test N1 is the number of occurrences of a in B, F1 is the total number of occurrences of words in B,
The number of occurrences of a that is in C and not in B is N2,
Let F2 be the total number of words that are in C but not in B.
N=N1+N2として、
カイ二乗値=(N*(F1*(N2−F2)−(N1−F1)*F2)^2)/((F1+F2)*(N−(F1+F2))*N1*N2)
を求める。
As N = N1 + N2,
Chi-square value = (N * (F1 * (N2-F2)-(N1-F1) * F2) ^ 2) / ((F1 + F2) * (N- (F1 + F2)) * N1 * N2)
Ask for.
そして、このカイ二乗値が大きいほどR1(=N1/F1)とR2(=N2/F2)は有意差があると言え、カイ二乗値が3.84よりも大きいとき危険率5%の有意差があると言え、カイ二乗値が6.63よりも大きいとき危険率1%の有意差があると言える。
N1>N2で、かつ、カイ二乗値が大きいものほど、文書群Bによく偏って出現する単語とする。
And it can be said that R1 (= N1 / F1) and R2 (= N2 / F2) are more significant as the chi-square value is larger. When the chi-square value is larger than 3.84, a significant difference of 5% of the risk rate When the chi-square value is larger than 6.63, it can be said that there is a significant difference of 1% of the risk rate.
As N1> N2 and the larger the chi-square value, the word appears more biased in the document group B.
・比の検定、正確に言うと、比率の差の検定の説明
p=(F1+F2)/(N1+N2)
p1=R1
p2=R2
として、
Z=|p1−p2|/sqrt(p*(1−p)*(1/N1+1/N2))
(ただしsqrtはルートを意味する)
を求め、そして、Zが大きいほど、R1とR2は有意差があると言え、Zが1.96よりも大きいとき危険率5%の有意差があると言え、Zが2.58よりも大きいとき危険率1%の有意差があると言える。
N1>N2で、かつ、Zが大きいものほど、文書群Bによく偏って出現する単語とする。
Test of ratio, more precisely, description of ratio difference test p = (F1 + F2) / (N1 + N2)
p1 = R1
p2 = R2
As
Z = | p1-p2 | / sqrt (p * (1-p) * (1 / N1 + 1 / N2))
(However, sqrt means root)
R1 and R2 can be said to have a significant difference as Z increases, and it can be said that there is a significant difference of 5% when Z is greater than 1.96, and Z is greater than 2.58. Sometimes it can be said that there is a significant difference of 1% risk.
As N1> N2 and Z is larger, the word appears more biased in the document group B.
これら三つの検定の方法と、先の単純に、B中のaの出現率/C中のaの出現率を求めて判定する方法を組み合わせてもよい。
例えば、危険率5%以上有意差があるもののうち、B中のaの出現率/C中のaの出現率、の値が大きいものほど文書群Bによく偏って出現する単語としてもよい。
These three test methods may be combined with the method of simply determining the appearance rate of a in B / the appearance rate of a in C.
For example, out of those having a significant difference of 5% or more in risk ratio, the higher the value of the appearance rate of a in B / appearance rate of a in C, the words that appear more biased in the document group B may be used.
[抽出された言語表現に類似する文書の検索]
情報検索の基礎知識として以下の式がある。ここで、Score(D)が大きいものを取る。
[Search for documents similar to the extracted language expression]
There is the following formula as basic knowledge of information retrieval. Here, a score having a large Score (D) is taken.
・基本的な方法(TF・IDF法)の説明
score(D)=Σ(tf(w,D)*log(N/df(w)))
ここで、w∈Wで加算を行う。また、Wは抽出部12が抽出した言語表現に含まれる単語の集合である。tf(w,D)は文書Dでのwの出現回数であり、df(w)は全文書でWが出現した文書の数である。また、Nは文書の総数である。
そして、score(D)が高い文書を検索結果として出力する。その検索結果である文書の集合が、前述の文書群Bとなる。
-Description of basic method (TF / IDF method) score (D) = Σ (tf (w, D) * log (N / df (w)))
Here, addition is performed with wεW. W is a set of words included in the language expression extracted by the extraction unit 12. tf (w, D) is the number of occurrences of w in document D, and df (w) is the number of documents in which W appears in all documents. N is the total number of documents.
Then, a document with a high score (D) is output as a search result. The set of documents that are the search results is the document group B described above.
・RobertsonらのOkapi weightingの説明
文献:村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均、「位置情報と分野情報を用いた情報検索」、自然言語処理(言語処理学会誌),7巻,2号,p.141〜160、2000年4月
の(1)式が性能がよいことが知られている。これの式(1)のΣで積を取る前のtf項とidf項の積がOkapiのウェイティング法になって、この値を単語の重みに使う。
Robertson et al.'S explanation of Okapi weighting Literature: Masaki Murata, Ma Aoi, Kiyotaka Uchimoto, Hiromi Osaku, Masao Uchiyama, Hitoshi Isahara, “Information Retrieval Using Location Information and Field Information”, Natural Language Processing (Language Processing Society of Japan) Journal, Vol. 7, No. 2, p. 141 to 160, the formula (1) of April 2000 is known to have good performance. The product of the tf term and the idf term before taking the product by Σ in the equation (1) is the Okapi weighting method, and this value is used as the word weight.
Okapiの式なら
score(D)=Σ(tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w)))
となる。ただし、w ∈Wで加算であり、lengthは文書Dの長さ、deltaは文書の長さの平均である。文書の長さは、文書のバイト数、また、文書に含まれる単語数などを使う。
In the case of the Okapi equation, score (D) = Σ (tf (w, D) / (tf (w, D) + length / delta) * log (N / df (w)))
It becomes. Where w ∈ W and addition, length is the length of the document D, and delta is the average of the document lengths. The length of the document uses the number of bytes of the document or the number of words included in the document.
さらに、以下の情報検索を行うこともできる。
Okapiの参考文献:S.E.Robertson,S.Walker,S.Jones,M.M.Hancock−Beaulieu,and M.Gatford Okapi at TREC−3,TREC−3,1994年
SMARTの参考文献:Amit Singhal AT&T at TREC−6,TREC−6,1997
Further, the following information search can be performed.
Okapi reference: S.M. E. Robertson, S.M. Walker, S .; Jones, M.M. M.M. Hancock-Beaulieu, and M.M. Gatford Okapi at TREC-3, TREC-3, 1994 SMART reference: Amit Singhal AT & T at TREC-6, TREC-6, 1997
より高度な情報検索の方法として、tf・idfを使うだけの式でなく、これらのOkapiやSMARTの式を用いてもよい。
これらの方法では、tf・idfだけでなく、文書の長さなども利用して、より高精度な情報検索を行うことができる。
As a more advanced information retrieval method, not only an equation using tf · idf but also these Okapi and SMART equations may be used.
In these methods, not only tf · idf but also the length of a document can be used to perform more accurate information retrieval.
今回の検索方法では、さらに、Rocchio's formulaを使うことができる。
文献:J.J.Rocchio,「Relevance feedback in information retrieval」,「The SMART retrieval System」,「Edited by G. Salton」,Prentice Hall, Inc.,p.313−323,1971年
In this search method, Locchio's formula can be used.
Literature: J.M. J. et al. Rocchio, “Relevance feedback back in information retry”, “The SMART retry system”, “Edited by G. Salton”, Prentice Hall, Inc. , P. 313-323, 1971
この方法は、log(N/df(w))の代わりに、
{E(t)+k_af*(RatioC(t)−RatioD(t))}*log(N/df(w))
を使う。
E(t)=1(元の検索にあったキーワード)
=0(それ以外)
RatioC(t)は文書群Bでのtの出現率
RatioD(t)は文書群Cでのtの出現率
In this method, instead of log (N / df (w))
{E (t) + k_af * (RatioC (t) −RatioD (t))} * log (N / df (w))
use.
E (t) = 1 (keyword in the original search)
= 0 (other than that)
RatioC (t) is the appearance rate of t in the document group B. RatioD (t) is the appearance rate of t in the document group C.
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど、抽出部12が抽出した言語表現に含まれる単語をより多く含む文書として取り出すものである。 The score (D) is obtained by replacing log (N / df (w)) with the above equation, and the larger the value, the more the word included in the language expression extracted by the extraction unit 12 as a document including more words. It is something to take out.
なお、第1の取得部14は、上記(1)〜(3)のいずれかの方法で要約候補を取得してもよく、あるいは、(1)〜(3)の任意の2以上の方法を組み合わせて要約候補を取得してもよい。後者の場合であって、(3)の方法と、(1)及び/または(2)の方法とが組み合わされた場合には、抽出部12は、共起やペア情報を用いた要約候補の取得で用いられる言語表現(通常は単語)と、情報検索的考え方を用いた要約候補の取得で用いられる言語表現(通常は文など)との両方を抽出するものであってもよい。また、重複した要約候補が取得された場合には、ユニーク処理を行ってもよい。 In addition, the 1st acquisition part 14 may acquire a summary candidate by the method in any one of said (1)-(3), or arbitrary 2 or more methods of (1)-(3). A summary candidate may be acquired in combination. In the latter case, when the method (3) is combined with the methods (1) and / or (2), the extraction unit 12 selects a summary candidate using co-occurrence or pair information. It is also possible to extract both a linguistic expression (usually a word) used in acquisition and a linguistic expression (usually a sentence etc.) used in acquiring summary candidates using an information retrieval concept. Further, when duplicate summary candidates are acquired, unique processing may be performed.
また、第1の取得部14は、上述のようにして取得した要約候補に加えて、要約元文書に含まれる言語表現を、要約候補として取得してもよく、あるいは、取得しなくてもよい。前者の場合であって、抽出部12が単語である言語表現を抽出している場合には、例えば、第1の取得部14は、その抽出部12が抽出した単語である言語表現そのものを、要約候補に加えるようにしてもよい。また、前者の場合であって、抽出部12が単語である言語表現を抽出していない場合には、例えば、第1の取得部14は、その抽出部12が抽出したフレーズ以上の長さを有する言語表現から、単語である要約候補を取得してもよい。この場合には、抽出部12に関する箇所で説明したように、第1の取得部14は、そのフレーズ以上の長さを有する言語表現に対して形態素解析を行うことによって、単語である要約候補を取得してもよい。また、その取得する単語の品詞は、あらかじめ決められたものであってもよい。 The first acquisition unit 14 may or may not acquire the language expression included in the summary source document as a summary candidate in addition to the summary candidate acquired as described above. . In the former case, when the extraction unit 12 extracts a linguistic expression that is a word, for example, the first acquisition unit 14 converts the linguistic expression itself that is the word extracted by the extraction unit 12, You may make it add to a summary candidate. In the former case, when the extraction unit 12 does not extract a linguistic expression that is a word, for example, the first acquisition unit 14 sets a length longer than the phrase extracted by the extraction unit 12. You may acquire the summary candidate which is a word from the language expression which has. In this case, as described in the section related to the extraction unit 12, the first acquisition unit 14 performs a morphological analysis on a linguistic expression having a length equal to or longer than the phrase, thereby obtaining a summary candidate that is a word. You may get it. The part of speech of the acquired word may be determined in advance.
なお、後述するリコールやプレシジョンの算出において用いられるRelatedWord_Iが、要約候補の集合と異なる場合には、第1の取得部14が、そのRelatedWord_Iの取得をも行ってもよい。すなわち、第1の取得部14は、要約候補の集合を取得すると共に、抽出された言語表現に関連する言語表現であるRelatedWord_Iの取得をも行ってもよい。このRelatedWord_Iの取得も、抽出された言語表現との関連が異なる以外は、要約候補の集合の取得と同様にして行うことができる。なお、RelatedWord_Iについては後述する。 In addition, when the RelatedWord_I used in the calculation of recall and precision described later is different from the summary candidate set, the first acquisition unit 14 may also acquire the RelatedWord_I. That is, the first acquisition unit 14 may acquire a summary word set and also acquire RelatedWord_I that is a language expression related to the extracted language expression. The acquisition of RelatedWord_I can be performed in the same manner as the acquisition of a summary candidate set, except that the relation with the extracted language expression is different. The Related Word_I will be described later.
第2の取得部15は、第1の取得部14が取得した要約候補に関連する言語表現を取得する。通常、第2の取得部15は、要約候補に関連する複数の言語表現を取得する。また、第1の取得部14が複数の要約候補を取得した場合には、第2の取得部15は、各要約候補について、関連する言語表現の取得を行う。第2の取得部15も、第1の取得部14と同様に、連想的知識や、推論的知識を用いて、要約候補に関連する言語表現を取得するものである。すなわち、取得された要約候補から連想される言語表現や、取得された要約候補から推論的に導かれる言語表現が取得されることになる。なお、このようにして取得された言語表現は、通常、単語であるが、それ以上の長さを有するもの、例えば、フレーズであってもよい。第2の取得部15によって取得された言語表現は、図示しない記録媒体で記憶されてもよい。その言語表現の取得方法として、例えば、前述した(1)共起を用いる方法、(2)関連辞書情報を用いる方法がある。それらの方法については前述の通りであり、その説明を省略する。なお、(2)の方法を用いる場合には、第2の取得部15は、関連辞書情報記憶部13で記憶されている関連辞書情報を用いて、言語表現の取得を行ってもよい。また、第2の取得部15は、上記(1)(2)のいずれかの方法で言語表現を取得してもよく、あるいは、その両方を用いて言語表現を取得してもよい。また、一の要約候補に関連する言語表現として、重複した言語表現が取得された場合には、ユニーク処理を行ってもよい。なお、(1)(2)以外の方法によって、要約候補に関連する言語表現を取得してもよいことは言うまでもない。この第2の取得部15による言語表現の取得の処理によって、要約候補と、その要約候補に関連する1以上の言語表現との対が取得されることになる。また、第2の取得部15が言語表現を取得する方法は、第1の取得部14が要約候補を取得する方法と同じであってもよく、あるいは、異なっていてもよい。前者の場合には、例えば、第1の取得部14及び第2の取得部15が、(1)共起を用いる方法によって言語表現の取得を行ってもよい。また、後者の場合には、例えば、第1の取得部14は、(1)共起を用いる方法によって要約候補を取得し、第2の取得部15は、(2)関連辞書情報を用いる方法によって言語表現を取得してもよい。 The second acquisition unit 15 acquires a language expression related to the summary candidate acquired by the first acquisition unit 14. Usually, the second acquisition unit 15 acquires a plurality of language expressions related to summary candidates. When the first acquisition unit 14 acquires a plurality of summary candidates, the second acquisition unit 15 acquires a related language expression for each summary candidate. Similarly to the first acquisition unit 14, the second acquisition unit 15 acquires language expressions related to summary candidates using associative knowledge and speculative knowledge. That is, a language expression associated with the acquired summary candidate and a language expression derived speculatively from the acquired summary candidate are acquired. In addition, although the linguistic expression acquired in this way is usually a word, it may be longer, for example, a phrase. The language expression acquired by the second acquisition unit 15 may be stored in a recording medium (not shown). As a method for acquiring the language expression, for example, there are (1) a method using co-occurrence and (2) a method using related dictionary information. These methods are as described above, and the description thereof is omitted. When the method (2) is used, the second acquisition unit 15 may acquire the language expression using the related dictionary information stored in the related dictionary information storage unit 13. Further, the second acquisition unit 15 may acquire the language expression by any one of the methods (1) and (2), or may acquire the language expression using both of them. Further, when a duplicate language expression is acquired as a language expression related to one summary candidate, unique processing may be performed. Needless to say, language expressions related to summary candidates may be acquired by methods other than (1) and (2). A pair of a summary candidate and one or more language expressions related to the summary candidate is acquired by the process of acquiring the language expression by the second acquisition unit 15. Further, the method by which the second acquisition unit 15 acquires the language expression may be the same as or different from the method by which the first acquisition unit 14 acquires the summary candidate. In the former case, for example, the first acquisition unit 14 and the second acquisition unit 15 may acquire language expressions by a method using (1) co-occurrence. In the latter case, for example, the first acquisition unit 14 acquires (1) summary candidates by the method using co-occurrence, and the second acquisition unit 15 (2) uses the related dictionary information. The language expression may be acquired by
また、第2の取得部15は、第1の取得部14が取得した要約候補が要約元文書に含まれる言語表現である場合(例えば、抽出部12が抽出した言語表現である場合)には、その要約候補に関連する言語表現として、その要約候補そのものを取得してもよく、あるいは、そのようにしなくてもよい。前者のようにすることによって、後述するリコールやプレシジョンがよりよい値になりうる。 Further, the second acquisition unit 15, when the summary candidate acquired by the first acquisition unit 14 is a linguistic expression included in the summary source document (for example, when it is a linguistic expression extracted by the extraction unit 12). The summary candidate itself may or may not be acquired as a linguistic expression related to the summary candidate. By making it like the former, the recall and precision mentioned later can become a better value.
算出部16は、要約元文書に含まれる言語表現と、第2の取得部15が取得した言語表現とを少なくとも用いて、リコールと、プレシジョンとを算出する。リコールは、再現率に類似するものであり、要約候補が要約元文書に含まれる言語表現と関連しているほど高い値となるものである。なお、このリコールは、ここで定義されたとおりのものであって、再現率に類似しているが、厳密には再現率と異なるものである。プレシジョンは、適合率に類似するものであり、要約候補に関連しているものに要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるものである。なお、このプレシジョンは、ここで定義されたとおりのものであって、適合率に類似しているが、厳密には適合率と異なるものである。算出部16は、そのリコールやプレシジョンを算出する際に、要約候補をも用いてもよい。 The calculation unit 16 calculates a recall and a precision using at least the language expression included in the summary source document and the language expression acquired by the second acquisition unit 15. The recall is similar to the recall rate, and becomes a higher value as the summary candidate is related to the linguistic expression included in the summary source document. Note that this recall is as defined here and is similar to the recall, but strictly different from the recall. The precision is similar to the relevance ratio, and is so high that nothing related to the summary candidate other than the language expression included in the summary source document exists. Note that this precision is as defined here and is similar to the precision, but strictly different from the precision. The calculation unit 16 may also use summary candidates when calculating the recall and precision.
ここで、要約候補を評価する方法について説明する。端的な要約のよさを計る基準として、次の3つが存在する。 Here, a method for evaluating summary candidates will be described. There are the following three standards for measuring good summary.
(i)端的な要約から十分に文書の内容を連想及び/または推論できるものほど、よい要約である。すなわち、要約候補が要約元文書に含まれる言語表現と関連しているほど、よりよい要約候補であることになる。 (I) The better the summary, the better it can be associated and / or inferred from the brief summary. That is, the more a summary candidate is associated with a linguistic expression included in the summary source document, the better the summary candidate.
(ii)端的な要約から連想及び/または推論されるものに、要約元文書にないものが生じないものほどよい要約である。すなわち、要約候補に関連しているものに要約元文書に含まれる言語表現以外のものが存在しないほど、よりよい要約候補であることになる。 (Ii) A summary that is associative and / or inferred from a brief summary that does not occur in the source document does not occur. That is, the better the summary candidate is, the more relevant the summary candidate is than the language expression included in the summary source document.
(iii)端的な要約が短いほどよい要約である。 (Iii) A shorter summary is a better summary.
上記(i)は、要約元文書に含まれる言語表現を正解データとして、その正解データをどれだけ漏らさずに取り出せるかを示しているため、再現率に類似することになり、前述のように、リコールと呼ぶことにする。そのリコールは、例えば、次式によって算出してもよい。
ここで、InputWordは、要約元文書に含まれる言語表現の集合である。その言語表現は、通常、単語である。抽出部12が単語である言語表現を抽出する場合には、そのInputWordに含まれる言語表現である単語の品詞は、抽出部12が抽出する言語表現である単語の品詞と同じであるとする。一方、抽出部12がフレーズ以上の長さを有する言語表現を抽出する場合には、そのInputWordに含まれる言語表現である単語の品詞は、別途、自由に決めることができる。例えば、その品詞は名詞であってもよい。なお、抽出部12が単語である言語表現を抽出する場合には、算出部16は、InputWordとして、その抽出された単語群を用いることができる。一方、抽出部12が単語の言語表現を抽出しない場合には、要約元文書からInputWordを取得する処理を算出部16が行ってもよい。また、RelatedWord_Cは、一の要約候補に関連する言語表現の集合である。このRelatedWord_Cは、第2の取得部15によって取得されたものである。また、Count{U}は、集合Uの要素数をカウントする関数である。算出部16は、上記のリコールの式を用いることによって、要約候補ごとに、リコールを算出する。 Here, InputWord is a set of language expressions included in the summary source document. The linguistic expression is usually a word. When the extraction unit 12 extracts a linguistic expression that is a word, it is assumed that the part of speech of the word that is the language expression included in the InputWord is the same as the part of speech of the word that is the language expression extracted by the extraction unit 12. On the other hand, when the extraction unit 12 extracts a linguistic expression having a length equal to or longer than the phrase, the part of speech of the word that is the linguistic expression included in the InputWord can be determined freely. For example, the part of speech may be a noun. When the extraction unit 12 extracts a linguistic expression that is a word, the calculation unit 16 can use the extracted word group as the InputWord. On the other hand, when the extraction unit 12 does not extract a linguistic expression of a word, the calculation unit 16 may perform processing for acquiring InputWord from the summary source document. Further, RelatedWord_C is a set of language expressions related to one summary candidate. This RelatedWord_C is acquired by the second acquisition unit 15. Count {U} is a function for counting the number of elements in the set U. The calculation unit 16 calculates a recall for each summary candidate by using the above recall formula.
なお、リコールは、上述の意味合いを示す値であれば、上記の式(1)以外で算出されるものであってもよい。例えば、次式で算出されてもよい。RelatedWord_Iは、InputWordに関連する言語表現の集合である。なお、このRelatedWord_Iは、第1の取得部14によって取得されてもよく、あるいは、他の図示しない構成要素によって取得されてもよい。また、このRelatedWord_Iは、要約候補の集合と一致していてもよく、あるいは、そうでなくてもよい。後者の場合には、例えば、要約候補の集合は、共起を用いて取得されたものであり、RelatedWord_Iは、関連辞書情報を用いて取得されたものであってもよい。また、例えば、要約候補の集合は、上位下位の関連辞書情報を用いて取得されたものであり、RelatedWord_Iは、原因結果の関連辞書情報を用いて取得されたものであってもよい。
上記(ii)は、要約元文書に含まれる言語表現を正解データとして、その正解データをどれだけ逸脱していないかを示しているため、適合率に類似することになり、前述のように、プレシジョンと呼ぶことにする。そのプレシジョンは、例えば、次式によって算出してもよい。算出部16は、次式を用いることによって、要約候補ごとに、プレシジョンを算出する。
なお、プレシジョンも、上述の意味合いを示す値であれば、上記の式以外で算出されるものであってもよい。例えば、次式で算出されてもよい。
また、上記の式(2)(3)の「InputWord∪RelatedWord_Iの集合」において、含まれる言語表現のユニーク処理を行ってもよく、あるいは、行わなくてもよい。ユニーク処理を行った場合には、「InputWord∪RelatedWord_Iの集合」において、異なる言語表現のみが含まれるようになるが、一方、ユニーク処理を行わない場合には、「InputWord∪RelatedWord_Iの集合」において、「のべ」の言語表現が含まれることになり、重複されたカウントがなされることになる。なお、その「のべ」のカウントでよい場合には、Count{RelatedWord_C∩(InputWord∪RelatedWord_I)}=Count{RelatedWord_C∩InputWord}+Count{RelatedWord_C∩RelatedWord_I}とできる。また、「のべ」のカウントを行う場合には、プレシジョンが1を超えることがありうる。 In addition, the unique processing of the included language expression may or may not be performed in the “set of InputWord∪RelatedWord_I” in the above formulas (2) and (3). When unique processing is performed, only different language expressions are included in the “set of InputWordWRelatedWord_I”. On the other hand, when the unique processing is not performed, in “set of InputWord∪RelatedWord_I”, The language expression “Nobe” will be included, and a duplicate count will be made. If the “no” count is sufficient, Count {RelatedWord_C∩ (InputWord_RelatedWord_I)} = Count {RelatedWord_C∩InputWord} + Count {RelatedWord_C∩RelatedWord_I}. In addition, when the “total” count is performed, the precision may exceed 1.
上記(iii)は、文書要約で一般的に用いられる基準である。なお、本実施の形態による文書要約装置1の場合、システムの設計によって、出力される要約の長さが決まることがある。例えば、1個の単語である要約が出力される場合や、2個の単語である要約が出力される場合などがある。そのような場合には、この(iii)の基準は、用いなくてもよいことになる。 The above (iii) is a standard generally used in document summarization. In the case of the document summarization apparatus 1 according to the present embodiment, the length of the summary to be output may be determined depending on the system design. For example, there is a case where a summary that is one word is output, or a case that a summary that is two words is output. In such a case, the criterion (iii) may not be used.
前述したように、算出部16は、要約元文書に含まれる言語表現の集合と、第2の取得部15が取得した要約候補に関連する言語表現と、場合によっては、第1の取得部14が取得した要約候補の集合を用いて、要約候補ごとに、リコールとプレシジョンとを算出する。したがって、この算出部16による算出の結果、要約候補と、リコール及びプレシジョンとの対応を得ることができる。その要約候補と、リコール等とを対応付ける情報は、図示しない記録媒体で記憶されてもよい。 As described above, the calculation unit 16 includes a set of linguistic expressions included in the summary source document, linguistic expressions related to the summary candidates acquired by the second acquisition unit 15, and in some cases, the first acquisition unit 14. Recall and precision are calculated for each summary candidate using the set of summary candidates obtained by. Therefore, as a result of calculation by the calculation unit 16, it is possible to obtain correspondence between the summary candidate and the recall and precision. Information associating the summary candidate with the recall or the like may be stored in a recording medium (not shown).
関連特定部17は、要約元文書において、言語表現の関連を特定する。その言語表現の関連を特定する方法として、例えば、(A)前述の(1)〜(3)の方法を用いる方法、(B)機械学習を用いる方法がある。以下、その各方法について説明する。なお、(A)(B)以外の方法によって、関連特定部17が要約元文書における言語表現の関連を特定してもよいことは言うまでもない。 The relation specifying unit 17 specifies the relation of language expression in the summary source document. For example, there are (A) a method using the methods (1) to (3) described above and (B) a method using machine learning. Hereinafter, each method will be described. Needless to say, the relation specifying unit 17 may specify the relation of the language expression in the summary source document by a method other than (A) and (B).
(A)前述の(1)〜(3)の方法を用いる方法
この方法について、図2を参照して説明する。図2は、その関連特定部17の構成を示すブロック図である。関連特定部17は、関連言語表現取得手段22と、判断手段23と、特定手段24とを備える。
(A) Method using the above-described methods (1) to (3) This method will be described with reference to FIG. FIG. 2 is a block diagram showing a configuration of the relation specifying unit 17. The association identification unit 17 includes an associated language expression acquisition unit 22, a determination unit 23, and an identification unit 24.
関連言語表現取得手段22は、要約元文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する。要約元文書に含まれる言語表現は、例えば、単語であってもよく、あるいは、フレーズ以上の長さを有するものであってもよい。関連言語表現を取得する際に、前述の(1)(2)の方法を用いるのであれば、要約元文書に含まれる言語表現は、例えば、単語(前述のように、品詞が決まっていてもよく、そうでなくてもよい)となり、前述の(3)の方法を用いるのであれば、要約元文書に含まれる言語表現は、フレーズ以上の長さを有するもの、例えば、フレーズや一文、段落等になる。 The related language expression acquisition unit 22 acquires a related language expression that is a language expression related to the language expression included in the summary source document. The linguistic expression included in the summary source document may be, for example, a word or may have a length longer than a phrase. If the above methods (1) and (2) are used when acquiring the related language expression, the language expression included in the summary source document is, for example, a word (as described above, even if the part of speech is determined). If the above method (3) is used, the language expression included in the summary source document has a length longer than the phrase, for example, a phrase, a sentence, a paragraph Etc.
また、関連言語表現取得手段22は、通常、要約元文書に含まれる一の言語表現に対して、複数の関連言語表現を取得する。また、関連言語表現取得手段22は、要約元文書に含まれる各言語表現に対して、関連言語表現を取得する処理を行う。関連言語表現取得手段22も、第1の取得部14と同様に、連想的知識や、推論的知識を用いて、言語表現に関連する関連言語表現を取得するものである。すなわち、要約元文書に含まれる言語表現から連想される言語表現や、要約元文書に含まれる言語表現から推論的に導かれる言語表現が取得されることになる。なお、このようにして取得された言語表現は、通常、単語であるが、それ以上の長さを有するもの、例えば、フレーズであってもよい。関連言語表現取得手段22によって取得された言語表現は、図示しない記録媒体で記憶されてもよい。その言語表現の取得方法として、例えば、前述した(1)共起を用いる方法、(2)関連辞書情報を用いる方法、(3)情報検索的考え方を用いる方法がある。それらの方法については前述の通りであり、その説明を省略する。なお、(2)の方法を用いる場合には、関連言語表現取得手段22は、関連辞書情報記憶部13で記憶されている関連辞書情報を用いて、言語表現の取得を行ってもよい。また、関連言語表現取得手段22は、上記(1)〜(3)のいずれかの方法で言語表現を取得してもよく、あるいは、その(1)〜(3)の任意の2以上の方法を用いて言語表現を取得してもよい。また、一の言語表現に関連する言語表現として、重複した言語表現が取得された場合には、ユニーク処理を行ってもよい。なお、(1)〜(3)以外の方法によって、言語表現に関連する言語表現を取得してもよいことは言うまでもない。この関連言語表現取得手段22による言語表現の取得の処理によって、要約元文書に含まれる言語表現と、その言語表現に関連する1以上の関連言語表現との対が取得されることになる。 Further, the related language expression acquisition unit 22 normally acquires a plurality of related language expressions for one language expression included in the summary source document. Further, the related language expression acquisition unit 22 performs a process of acquiring the related language expression for each language expression included in the summary source document. Similarly to the first acquisition unit 14, the related language expression acquisition unit 22 acquires related language expressions related to the language expression using associative knowledge or speculative knowledge. That is, a linguistic expression associated with the linguistic expression included in the summarizing source document and a linguistic expression derived speculatively from the linguistic expression included in the summarizing source document are acquired. In addition, although the linguistic expression acquired in this way is usually a word, it may be longer, for example, a phrase. The language expression acquired by the related language expression acquisition unit 22 may be stored in a recording medium (not shown). As a method for acquiring the linguistic expression, for example, there are (1) a method using co-occurrence, (2) a method using related dictionary information, and (3) a method using an information retrieval concept. These methods are as described above, and the description thereof is omitted. When the method (2) is used, the related language expression acquisition unit 22 may acquire the language expression using the related dictionary information stored in the related dictionary information storage unit 13. Moreover, the related language expression acquisition means 22 may acquire a language expression by any one of the methods (1) to (3), or any two or more methods (1) to (3). The language expression may be acquired using. Further, when a duplicate language expression is acquired as a language expression related to one language expression, unique processing may be performed. Needless to say, language expressions related to language expressions may be acquired by methods other than (1) to (3). By the process of acquiring the language expression by the related language expression acquiring unit 22, a pair of the language expression included in the summary source document and one or more related language expressions related to the language expression is acquired.
判断手段23は、関連言語表現取得手段22が取得した関連言語表現が要約元文書に含まれるかどうか判断する。判断手段23は、例えば、関連言語表現を検索キーとして、要約元文書を検索することにより、その判断を行ってもよい。その検索でヒットした場合には、関連言語表現が要約元文書に含まれることになり、その検索でヒットしなかった場合には、関連言語表現が要約元文書に含まれないことになる。なお、判断手段23は、その検索でヒットした、要約元文書におけるすべての関連言語表現の箇所を特定することが好適である。 The determination unit 23 determines whether the related language expression acquired by the related language expression acquisition unit 22 is included in the summary source document. For example, the determination unit 23 may perform the determination by searching the summary source document using the related language expression as a search key. If the search results in a hit, the related language expression is included in the summary source document. If the search does not result in a hit, the related language expression is not included in the summary source document. It is preferable that the determination unit 23 specifies all the related language expression locations in the summary source document that have been hit by the search.
特定手段24は、判断手段23によって、取得された関連言語表現が要約元文書に含まれると判断された場合に、要約元文書中の関連言語表現と、その関連言語表現の取得元である要約元文書中の言語表現との関連を特定する。2個の言語表現の関連を特定するとは、例えば、その2個の言語表現の位置を示す情報を対応付けて蓄積することであってもよく、その2個の言語表現を対応付けて蓄積することであってもよく、要約元文書そのものに、関連する言語表現を指し示す情報(例えば、関連する言語表現の位置を示す情報を有するタグを付与することなど)を追記することであってもよく、2個の言語表現が関連していることを示すことができる方法であれば、その関連の特定方法は問わない。また、2個の言語表現の関連を特定することには、その2個の言語表現の位置関係の特定だけでなく、両者の関連の種類を示す情報(例えば、共起の関係や、上位下位の関係、原因結果の関係等)の特定が含まれてもよい。言語表現の位置を示す情報は、例えば、要約元文書における先頭や後端からの文字数を示すものであってもよく、先頭や後端からの単語数を示すものであってもよく、その言語表現の含まれる文のIDを示すものであってもよく、その他の情報であってもよい。特定手段24は、例えば、関連言語表現取得手段22から、ある言語表現(これを言語表現Aとする)またはその位置を示す情報と、その言語表現Aに関連する1以上の関連言語表現と、その言語表現Aと関連言語表現との関連の種類を示す情報とを受け取り、また、判断手段23から、関連言語表現取得手段22が取得した言語表現Aに関連する関連言語表現であって、要約元文書に含まれる関連言語表現を受け取ってもよい。なお、判断手段23から、要約元文書に含まれる関連言語表現の位置を示す情報も受け取ってもよい。そして、特定手段24は、判断手段34から受け取った関連言語表現と、言語表現Aまたはその位置を示す情報と、その関連言語表現と言語表現Aとの関連を示す情報とを有する情報を図示しない記録媒体に蓄積してもよい。その情報には、さらに、要約元文書に含まれる関連言語表現の位置を示す情報が含まれてもよい。例えば、要約元文書が「机に向かい教科書と授業のノートを開いた。今日の復習と明日の予習をする必要がある。」である場合に、関連言語表現取得手段22が、要約元文書に含まれる単語「授業」と、その単語「授業」に類似する関連言語表現「講座」「セミナー」「講義」「予習」…と、その単語「授業」とツールの関係を有する関連言語表現「ソフト」「ノート」「教科書」「制服」…とを取得したとする。また、判断手段34が、関連言語表現のうち、「予習」「ノート」「教科書」が要約元文書に含まれると判断したとする。すると、特定手段24は、「(要約元に含まれる言語表現) (要約元文書に含まれる関連言語表現) (その関連の種類)」である「授業 予習 類似」「授業 ノート ツール」「授業 教科書 ツール」を図示しない記録媒体に蓄積してもよい。また、特定手段24は、その処理を、判断手段23から受け取ったすべての関連言語表現について行ってもよい。また、特定手段24は、それらの処理を、要約元文書に含まれるすべての言語表現について行ってもよい。 When the determining unit 23 determines that the acquired related language expression is included in the summary source document, the specifying unit 24 includes the related language expression in the summary source document and the summary from which the related language expression is acquired. Identify the relationship with the linguistic expression in the original document. Specifying the relationship between the two language expressions may be, for example, storing information indicating the positions of the two language expressions in association with each other, and storing the two language expressions in association with each other. It may also be to add information indicating a related language expression (for example, giving a tag having information indicating a position of the related language expression) to the summary source document itself. Any method can be used as long as it can indicate that two language expressions are related to each other. In addition, specifying the relationship between two language expressions includes not only specifying the positional relationship between the two language expressions, but also information indicating the type of the relationship between the two (for example, co-occurrence relationships, Identification of the relationship between cause and effect). The information indicating the position of the language expression may be, for example, the number of characters from the beginning or the end of the summary source document, or the number of words from the beginning or the end, and the language. It may indicate an ID of a sentence including an expression, or may be other information. The specifying unit 24, for example, from the related language expression acquiring unit 22, information indicating a certain language expression (hereinafter referred to as language expression A) or its position, one or more related language expressions related to the language expression A, Information indicating the type of association between the language expression A and the related language expression, and a related language expression related to the language expression A acquired by the related language expression acquiring means 22 from the judging means 23, and a summary A related language expression included in the original document may be received. Note that information indicating the position of the related language expression included in the summary source document may be received from the determination unit 23. The specifying unit 24 does not illustrate information including the related language expression received from the determining unit 34, information indicating the language expression A or its position, and information indicating the relationship between the related language expression and the language expression A. You may accumulate | store in a recording medium. The information may further include information indicating the position of the related language expression included in the summary source document. For example, when the summary source document is “I went to the desk and opened a textbook and class notes. It is necessary to review today and prepare for tomorrow”, the related language expression acquisition means 22 includes the summary source document in the summary source document. Included word "class" and related language expression similar to the word "class" "course" "seminar" "lecture" "preparation" ... and related language expression "software" that has the relationship between the word "class" and tools ”,“ Notebook ”,“ textbook ”,“ uniform ”, and so on. Further, it is assumed that the determination unit 34 determines that “preparation”, “note”, and “textbook” are included in the summary source document among the related language expressions. Then, the specifying means 24 is “(Language expression included in the summarizing source) (Related language expression included in the summarizing source document) (the type of the relation)”, “Class preparation similar”, “Lesson note tool”, “Lesson textbook” The “tool” may be stored in a recording medium (not shown). Further, the specifying unit 24 may perform the process for all related language expressions received from the determining unit 23. Further, the specifying unit 24 may perform these processes for all language expressions included in the summary source document.
なお、特定手段24は、要約元文書に含まれる言語表現と、その言語表現に対応する関連言語表現とのすべての関連を特定してもよく、そうでなくてもよい。例えば、後の処理において、所定の範囲間の関連(例えば、文間の関連や、段落間の関連等)のみを用いて、その範囲内における関連を用いない場合には、特定手段24は、その範囲内における関連を特定しなくてもよい。例えば、前述の「机に向かい教科書と授業のノートを開いた。今日の復習と明日の予習をする必要がある。」の例の場合に、異なる文に含まれる「授業」と「予習」の関連は特定するが、同一の文に含まれる「授業」と「ノート」の関連や、「授業」と「教科書」の関連は特定しなくてもよい。 The specifying unit 24 may or may not specify all the relationships between the language expression included in the summary source document and the related language expression corresponding to the language expression. For example, in a later process, when only a relation between predetermined ranges (for example, a relation between sentences or a relation between paragraphs) is used and a relation within the range is not used, the specifying unit 24 It is not necessary to specify an association within that range. For example, in the case of the above-mentioned example “I went to the desk and opened the textbook and class notes. I need to review today and prepare for tomorrow.” The relationship is specified, but the relationship between “class” and “note” included in the same sentence and the relationship between “class” and “textbook” need not be specified.
ここで、特定手段24によって特定された2個の言語表現のすべての関連を後述する処理において用いてもよく、あるいは、その一部の関連を後述する処理において用いてもよい。後者の場合には、例えば、特定手段24が言語表現Aと言語表現Bとの関連と、言語表現Cと言語表現Dとの関連とを特定した場合に、言語表現Aと言語表現Bとの関連は、後述する処理において用い、言語表現Cと言語表現Dとの関連は、後述する処理において用いない、というように絞り込みを行ってもよい。特定された2個の言語表現の関連のうち、一部の関連を後述する処理において用いる場合には、(A−1)ルールを用いて絞り込む方法と、(A−2)機械学習を用いて絞り込む方法とがある。以下、その各方法について説明する。なお、(A−1)(A−2)以外の方法によって、特定された2個の言語表現の関連の絞り込みを行ってもよいことは言うまでもない。また、本実施の形態では、特定手段24がその絞り込みをも行う場合について説明するが、他の構成要素、例えば、図示しない絞り込み手段等によって、その絞り込みの処理が行われてもよい。 Here, all the relationships between the two language expressions specified by the specifying unit 24 may be used in the processing described later, or some of the relationships may be used in the processing described later. In the latter case, for example, when the specifying unit 24 specifies the relation between the language expression A and the language expression B and the relation between the language expression C and the language expression D, the language expression A and the language expression B The association may be used in a process described later, and the association between the language expression C and the language expression D may not be used in a process described later. When using a part of the relations between the two specified language expressions in the processing described later, (A-1) a method of narrowing down using rules, and (A-2) using machine learning There is a method to narrow down. Hereinafter, each method will be described. Needless to say, the relation between the two specified language expressions may be narrowed down by a method other than (A-1) and (A-2). Further, in the present embodiment, a case where the specifying unit 24 performs the narrowing down will be described. However, the narrowing process may be performed by other constituent elements, for example, a narrowing unit (not illustrated).
(A−1)ルールを用いて絞り込む方法
この方法では、特定手段24は、特定した2個の言語表現の関連のうち、ルールを用いて、一部の言語表現の関連を選択する。そのルールは、例えば、あらかじめ決められた関連(例えば、共起の関係や、上位下位の関係、原因結果の関係等)を有する関連のみを選択することであってもよく、あらかじめ決められた関連以外の関連のみを選択することであってもよく、その他のルールであってもよい。例えば、特定手段24が、2個の言語表現の位置を示す情報と、両言語表現の関連を示す情報とを蓄積した場合に、その両言語表現の関連を示す情報と、ルールとを用いて、絞り込みを行ってもよい。
(A-1) Method of narrowing down using a rule In this method, the specifying unit 24 selects a relation of a part of language expressions using a rule among the relations of the two specified language expressions. The rule may be, for example, selecting only a relationship having a predetermined relationship (for example, a co-occurrence relationship, a higher / lower relationship, a cause / effect relationship, etc.). It may be to select only an association other than, or another rule. For example, when the specifying unit 24 accumulates information indicating the position of two language expressions and information indicating the relationship between the two language expressions, the information indicating the relationship between the two language expressions and the rule are used. Narrowing may be performed.
(A−2)機械学習を用いて絞り込む方法
この方法では、特定手段24は、機械学習を用いて、特定した2個の言語表現の関連のうち、一部の言語表現の関連を選択する。この機械学習の問題(入力)は、文書と、その文書に含まれる、関連があるとされた2個の言語表現とである。また、その機械学習の解(出力)は、その2個の言語表現の関連の適否である。すなわち、その解の候補(出力の候補)は、2個の言語表現の関連が適切である、あるいは、不適切である、ということになる。その機械学習の素性には、関連する2個の言語表現(この言語表現を言語表現A,Bとする)、言語表現A,Bの間の距離、言語表現A,Bのそれぞれの属性が含まれるものとする。さらに、言語表現A,Bの間の関連を示す情報(例えば、共起の関係や、上位下位の関係、原因結果の関係等)、言語表現A,Bにそれぞれ隣接する言語表現、その隣接する言語表現の属性のうち、任意の1以上のものが素性に含まれてもよい。言語表現Aに隣接する言語表現の場合には、言語表現Aの前に隣接するのか、後に隣接するのか、また、隣接する個数(言語表現Aの隣のみや、2個隣まで等)が定められていてもよい。例えば、言語表現Aの前後に隣接するそれぞれ1個ずつの言語表現を素性として用いると定められていてもよい。言語表現Bについても同様である。また、言語表現の属性は、例えば、言語表現の品詞であってもよく、活用形のある品詞の場合には、活用形も含んでもよく、言語表現の上位語であってもよく、その他の属性であってもよい。また、この方法で用いる素性として、後述する(B)の素性を用いてもよい。
(A-2) Method of narrowing down using machine learning In this method, the specifying unit 24 uses machine learning to select a relation of a part of language expressions from among the relations of the two specified language expressions. The machine learning problem (input) is a document and two language expressions included in the document and considered to be related. The machine learning solution (output) is the suitability of the relationship between the two language expressions. In other words, the solution candidate (output candidate) indicates that the relationship between the two language expressions is appropriate or inappropriate. The features of the machine learning include two related language expressions (the language expressions are A and B), the distance between the language expressions A and B, and the attributes of the language expressions A and B. Shall be. Further, information indicating the relationship between the language expressions A and B (for example, co-occurrence relationship, upper and lower relationship, cause-result relationship, etc.), language expressions adjacent to the language expressions A and B, and their adjacent Any one or more attributes of the language expression may be included in the feature. In the case of a language expression adjacent to the language expression A, whether it is adjacent before or after the language expression A, and the number of adjacent (only next to the language expression A or up to two, etc.) is determined. It may be done. For example, it may be determined that one language expression adjacent to each other before and after the language expression A is used as a feature. The same applies to the language expression B. The attribute of the language expression may be, for example, the part of speech of the language expression. In the case of the part of speech with the inflected form, it may include the inflected form, or may be a broader term of the language expression. It may be an attribute. Further, as a feature used in this method, a feature (B) described later may be used.
また、その機械学習で用いられる教師データ(訓練データ)は、2個の言語表現の関連の適否示す情報(すなわち、関連しているか、関連していないかの情報)と、前述の問題(すなわち、文書と、その文書に含まれる2個の言語表現)から取得された、前述の素性の各値とである。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とは、同じであるほうが好適である。文書の分野とは、例えば、報道の分野、特許の分野、経済の分野、政治の分野、技術の分野などであり、さらにもっと詳細に分かれていてもよい。 Also, the teacher data (training data) used in the machine learning includes information indicating whether or not the relation between the two language expressions is appropriate (that is, information regarding whether or not they are related) and the above-described problem (that is, that is not related). , And the values of the aforementioned features acquired from the document and two language expressions included in the document). It is preferable that the field of the summary source document and the field of the document used in the machine learning teacher data are the same. The field of documents is, for example, the field of reporting, the field of patents, the field of economy, the field of politics, the field of technology, etc., and may be further divided in more detail.
教師データを用いた学習の後に、判断の対象となる、要約元文書と、その要約元文書において特定された2個の言語表現とを入力すると、その2個の言語表現に関する素性の各値が取得され、その2個の言語表現の関連が適切なものであるかどうかと、その確信度とが出力される。したがって、特定手段24は、適切であると判断された2個の言語表現の関連を残し、不適切であると判断された2個の言語表現の関連を破棄してもよい。また、特定手段24は、適切であると判断された2個の言語表現のうち、確信度が高いもののみを残して、その他を破棄してもよい。確信度が高いものとは、確信度が最も高いものから所定の個数のものであってもよく、確信度がしきい値以上のものであってもよい。そのしきい値は、あらかじめ決められたものであってもよく、最大の確信度に1よりも小さい係数(例えば、0.9や0.8など)をかけた値であってもよい。 After learning using the teacher data, when a summary source document to be judged and two language expressions specified in the summary source document are input, each value of the features related to the two language expressions is obtained. It is acquired, and whether or not the relationship between the two language expressions is appropriate and the certainty level are output. Therefore, the specifying unit 24 may leave the relationship between the two language expressions determined to be appropriate and discard the relationship between the two language expressions determined to be inappropriate. Further, the specifying unit 24 may leave only the ones with high certainty among the two language expressions determined to be appropriate, and discard the others. The thing with a high certainty factor may be a predetermined number from the one with the highest certainty factor, or the certainty factor may be a threshold value or more. The threshold value may be determined in advance, or may be a value obtained by multiplying the maximum certainty factor by a coefficient smaller than 1 (for example, 0.9 or 0.8).
なお、ここでは、教師データとして2個の言語表現の関連の適否を示す情報を用いる場合について説明したが、それに代えて、2個の言語表現の関連が表示された要約元文書において、その2個の言語表現の関連を表示することの適否を示す情報を用いてもよい。なお、2個の言語表現の関連が表示された要約元文書とは、例えば、その2個の関連する言語表現が線や矢印で結ばれた要約元文書や、2個の関連する言語表現に対して同じ強調表示がなされた要約元文書、2個の関連する言語表現に対して同じ文字や記号の付与された要約元文書等である。なお、強調表示とは、例えば、色を付与することであってもよく、網掛けをすることであってもよく、下線の付与や太字にすること、斜体にすること、点滅させることなどであってもよい。また、同じ文字や記号を付与するとは、例えば、2個の関連する言語表現のそれぞれの右や左に、(1)や(2)等の文字を付与したり、□や△等の記号を付与したりすることであってもよい。それらの文字や記号は、上付きや下付きによって表示されてもよい。また、その2個の関連する言語表現の関連の種類も表示されるようにしてもよい。例えば、線や矢印によって2個の言語表現の関連を表示する場合には、その線や矢印に対応付けて関連の種類を表示してもよい。また、強調表示によって2個の言語表現の関連を表示する場合には、強調表示の種類ごとに関連を変更してもよい。例えば、斜体は共起の関連であり、下線は上位下位の関連である等である。また、文字や記号を付与することによって2個の言語表現の関連を表示する場合には、その付与する文字や記号に関連の種類を含めるようにしてもよい。例えば、「(1)共起」「(2)上位下位」等の文字や記号が関連する2個の言語表現のそれぞれに付与されてもよい。このようにすることで、2個の言語表現に関連があったとしても、その関連を表示することが適切であるかどうかを含めて、関連の適否が判断されることになる。例えば、たとえ上位下位の関係のある2個の言語表現であったとしても、両者が長い文書の先頭付近と後端付近にそれぞれ位置する場合には、両者の関連を表示することが適切でないと判断することもできる。 Here, a case has been described where information indicating the appropriateness of the relationship between two language expressions is used as teacher data. Instead, in the summary source document displaying the relationship between two language expressions, Information indicating the suitability of displaying the association of individual language expressions may be used. The summary source document displaying the relationship between two language expressions is, for example, a summary source document in which the two related language expressions are connected by a line or an arrow, or two related language expressions. A summary source document with the same highlighting, two summary language documents with the same characters and symbols assigned to two related language expressions, and the like. The highlighting may be, for example, giving a color or shading, giving an underline, making it bold, making it italic, blinking, etc. There may be. In addition, the same character or symbol is given, for example, a character such as (1) or (2) is given to the right or left of two related language expressions, or a symbol such as □ or Δ is given. It may be giving. Those characters and symbols may be displayed as superscripts or subscripts. In addition, the types of association between the two related language expressions may be displayed. For example, when a relation between two language expressions is displayed by a line or an arrow, the type of relation may be displayed in association with the line or the arrow. Further, when displaying the relationship between two language expressions by highlighting, the relationship may be changed for each type of highlighting. For example, italics are co-occurrence relationships, underscores are upper and lower relationships, and so on. In addition, when a relation between two linguistic expressions is displayed by adding a character or a symbol, the type of the relationship may be included in the character or symbol to be added. For example, it may be given to each of two language expressions related to characters and symbols such as “(1) co-occurrence” and “(2) high-order low-order”. By doing in this way, even if there is a relation between two language expressions, it is determined whether or not the relation is appropriate, including whether or not it is appropriate to display the relation. For example, even if the two language expressions have a high-level and low-level relationship, it is not appropriate to display the relationship between the two when they are located near the beginning and the rear end of a long document, respectively. It can also be judged.
(A−2の変形例)関連の集合を選択する方法
この方法では、特定手段24は、機械学習を用いて、2個の言語表現の関連の集合のうち、一の集合を選択する。この機械学習の方法では、個々の関連について判断を行うのではなく、関連の集合について判断を行うことになる。なお、関連の集合そのものについての判断であってもよく、あるいは、その関連の集合を要約元文書において表示したものについての判断であってもよい。2個の言語表現の関連を要約元文書で表示する方法は、前述の通りである。この機械学習の問題は、文書と、その文書に含まれる、2個の言語表現の関連の集合である。また、その機械学習の解は、その2個の言語表現の関連の集合の適否である。すなわち、その解の候補は、2個の言語表現の関連の集合が適切である、あるいは、不適切である、ということになる。なお、2個の言語表現の関連の集合は、例えば、特定手段24が特定したすべての関連から、ルールを用いて生成したものである。そのルールは、例えば、あらかじめ決められた関連の種類を削除するものであってもよく、あらかじめ決められた関連の種類のみを抽出するものであってもよい。そのあらかじめ決められた関連の種類は、複数の関連の種類であってもよい。なお、その素性は、前述の(A−2)で説明した素性であってもよく、さらにその素性に、含まれる関連の種類の個数、関連の個数、ある関連の種類の有無、関連する2個の言語表現間の距離の平均や合計の任意の1以上のものが含まれてもよい。
(Modification of A-2) Method for Selecting Related Set In this method, the specifying unit 24 uses machine learning to select one set from two related sets of language expressions. In this machine learning method, a determination is made not for individual associations but for a set of associations. Note that the determination may be made on the related set itself, or may be made on the display of the related set in the summary source document. The method for displaying the relationship between the two language expressions in the summary source document is as described above. This machine learning problem is a document and a set of relations between two language expressions included in the document. The machine learning solution is the suitability of the related set of the two language expressions. That is, the candidate solution is that a related set of two language expressions is appropriate or inappropriate. Note that the set of relations of the two language expressions is generated using, for example, a rule from all the relations specified by the specifying unit 24. The rule may be, for example, a rule that deletes a predetermined related type, or a rule that extracts only a predetermined related type. The predetermined association type may be a plurality of association types. The feature may be the feature described in the above (A-2). Further, the feature includes the number of related types included, the number of related items, the presence / absence of a certain related type, and related 2 items. Any one or more averages or totals of distances between the linguistic expressions may be included.
また、その機械学習で用いられる教師データは、2個の言語表現の関連の集合の適否を示す情報、あるいは、2個の言語表現の関連の集合を要約元文書において表示したものの適否を示す情報と、前述の問題(すなわち、文書と、その文書に含まれる2個の言語表現の集合)から取得された、前述の素性の各値とである。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とは、同じであるほうが好適である。 The teacher data used in the machine learning is information indicating the suitability of a related set of two language expressions, or information indicating the suitability of a display of a related set of two language expressions in a summary source document. And the values of the above-described features acquired from the above-described problem (that is, the document and a set of two language expressions included in the document). It is preferable that the field of the summary source document and the field of the document used in the machine learning teacher data are the same.
教師データを用いた学習の後に、判断の対象となる、要約元文書と、その要約元文書において特定された2個の言語表現のすべての関連から、前述のルールと同じルールを用いて生成した、2個の言語表現の関連のいくつかの集合とを入力すると、その集合に関する素性の各値が取得され、その各集合が適切なものであるかどうかと、その確信度とが出力される。したがって、特定手段24は、適切であると判断された集合を選択して、それ以外の集合を破棄してもよい。適切であると判断された集合が2以上存在する場合には、確信度を用いた絞り込みを行ってもよい。例えば、適切であると判断された集合のうちの最も確信度の高いものを残すようにしてもよい。 After learning using the teacher data, it was generated using the same rule as the previous rule from the summary source document to be judged and all the relations of the two language expressions specified in the summary source document. If you input several sets of relations between two linguistic expressions, the values of the features related to the set are obtained, and whether each set is appropriate and its certainty level are output. . Therefore, the specifying unit 24 may select a set determined to be appropriate and discard other sets. When there are two or more sets determined to be appropriate, narrowing down using the certainty factor may be performed. For example, you may make it leave the thing with the highest certainty among the sets judged to be appropriate.
例えば、判断の対象となる関連の集合(すなわち、要約元文書に含まれるすべての関連を特定したものから、ルールを用いて生成された関連の集合)として、20個の関連の集合と、10個の関連の集合とが存在したとする。また、機械学習において、関連の数の多い集合は不適切であると学習されていたとする。すると、その関連の集合として、10個の関連の集合のほうが適切であると判断され、20個の関連の集合のほうが不適切であると判断されることになる。その結果、例えば、特定手段24は、10個の関連の集合を選択し、20個の関連の集合を破棄してもよい。 For example, as a set of relations to be determined (that is, a set of relations generated by using a rule from specifying all relations included in the summary source document), a set of 20 relations and 10 Suppose that there is a set of associations. In machine learning, it is assumed that a set having a large number of associations is learned to be inappropriate. Then, as the set of relations, it is determined that the set of 10 relations is more appropriate, and the set of 20 relations is determined to be inappropriate. As a result, for example, the specifying unit 24 may select 10 association sets and discard the 20 association sets.
(B)機械学習を用いる方法
この方法では、関連特定部17は、機械学習を用いて要約元文書における言語表現の関連を特定する。この機械学習の問題は、文書と、その文書に含まれる2個の言語表現とである。また、その機械学習の解は、その2個の言語表現の関連の有無である。すなわち、その解の候補は、2個の言語表現に関連がある、あるいは、関連がない、ということになる。その機械学習の素性には、2個の言語表現(この言語表現を言語表現A,Bとする)、言語表現A,Bの間の距離、言語表現A,Bのそれぞれの属性が含まれるものとする。さらに、言語表現A,Bの間の関係を示す情報(例えば、共起の関係や、上位下位の関係、原因結果の関係等)、言語表現A,Bにそれぞれ隣接する言語表現、その隣接する言語表現の属性のうち、任意の1以上のものが素性に含まれてもよい。言語表現Aに隣接する言語表現の場合には、言語表現Aの前に隣接するのか、後に隣接するのか、また、隣接する個数(言語表現Aの隣のみや、2個隣まで等)が定められていてもよい。また、この方法で用いる素性として、前述の(A−2)の素性を用いてもよい。
(B) Method Using Machine Learning In this method, the relationship identifying unit 17 identifies the relationship of language expressions in the summary source document using machine learning. The problem of this machine learning is a document and two language expressions included in the document. The machine learning solution is whether or not the two language expressions are related. That is, the solution candidate is related to or unrelated to the two language expressions. The features of the machine learning include two language expressions (this language expression is called language expressions A and B), the distance between the language expressions A and B, and the attributes of the language expressions A and B. And Further, information indicating the relationship between the language expressions A and B (for example, co-occurrence relationship, upper and lower relationship, cause-result relationship, etc.), language expressions adjacent to the language expressions A and B, respectively Any one or more attributes of the language expression may be included in the feature. In the case of a language expression adjacent to the language expression A, whether it is adjacent before or after the language expression A, and the number of adjacent (only next to the language expression A or up to two, etc.) is determined. It may be done. Further, as the feature used in this method, the feature (A-2) described above may be used.
また、その機械学習で用いられる教師データは、2個の言語表現が関連を有するものであるかどうかを示す情報と、前述の問題(すなわち、文書と、その文書に含まれる2個の言語表現)から取得された、前述の素性の各値とである。その教師データの数は、多い方が好適であることは当然であり、例えば、最低100個以上はあったほうがよく、通常、1万個以上ある方がよいと考えられる。他の教師データについても同様である。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とは、同じであるほうが好適である。 In addition, the teacher data used in the machine learning includes information indicating whether or not two language expressions are related to each other, and the above-described problem (that is, the document and the two language expressions included in the document). ) And the above-described feature values obtained from (1). Naturally, it is naturally preferable that the number of the teacher data is large. For example, it is preferable that the number of teacher data is at least 100, and usually 10,000 or more is considered preferable. The same applies to other teacher data. It is preferable that the field of the summary source document and the field of the document used in the machine learning teacher data are the same.
教師データを用いた学習の後に、判断の対象となる要約元文書と、その要約元文書から抽出した任意の2個の言語表現とを入力すると、その2個の言語表現に関する素性の各値が取得され、その2個の言語表現が関連を有するかどうかと、その確信度とが出力される。したがって、関連特定部17は、要約元文書に含まれるすべての2個の言語表現のペアについてその処理を行い、関連を有すると判断された2個の言語表現の関連を特定してもよい。2個の言語表現の関連を特定することについては、前述の特定手段24による方法と同様であり、その説明を省略する。また、特定手段24と同様に、機械学習で関連する言語表現を特定する場合においても、関連特定部17は、要約元文書に含まれる言語表現と、その言語表現に対応する関連言語表現とのすべての関連を特定してもよく、そうでなくてもよい。 After learning using the teacher data, when a summary source document to be determined and two arbitrary language expressions extracted from the summary source document are input, each value of the features related to the two language expressions is obtained. It is acquired and whether or not the two linguistic expressions are related and the certainty factor is output. Therefore, the relationship specifying unit 17 may perform processing for all pairs of two language expressions included in the summary source document, and specify the relationship between the two language expressions determined to be related. Specifying the relationship between the two language expressions is the same as the method using the specifying unit 24 described above, and a description thereof is omitted. Similarly to the specifying unit 24, when specifying a related language expression by machine learning, the related specifying unit 17 determines whether a language expression included in the summary source document and a related language expression corresponding to the language expression are included. All associations may or may not be identified.
選択部18は、算出部16が要約候補ごとに算出したリコールとプレシジョンとを用いて、要約元文書の要約を選択する。すなわち、要約候補ごとのリコール及びプレシジョンを用いて、選択部18は、要約元文書の要約として適切な要約候補を選択する。そして、その選択した要約候補が、要約元文書の要約となる。選択部18は、1個の要約を選択してもよく、あるいは、2個以上の要約を選択してもよい。また、選択部18が選択した要約は、図示しない記録媒体において記憶されてもよい。その要約を選択する方法として、例えば、(あ)ルールを用いる方法、(い)機械学習を用いる方法がある。以下、その各方法について説明する。なお、(あ)(い)以外の方法によって、選択部18が要約の選択を行ってもよいことは言うまでもない。 The selection unit 18 selects a summary of the summary source document using the recall and precision calculated by the calculation unit 16 for each summary candidate. That is, using the recall and precision for each summary candidate, the selection unit 18 selects an appropriate summary candidate as the summary of the summary source document. Then, the selected summary candidate becomes the summary of the summary source document. The selection unit 18 may select one summary, or may select two or more summaries. The summary selected by the selection unit 18 may be stored in a recording medium (not shown). As a method for selecting the summary, there are, for example, (a) a method using rules and (ii) a method using machine learning. Hereinafter, each method will be described. Needless to say, the selection unit 18 may select the summary by a method other than (A) and (I).
(あ)ルールを用いる方法
この方法では、選択部18は、要約候補と、リコールと、プレシジョンとの組合せから、ルールを用いて、要約を選択する。そのルールは、例えば、リコールとプレシジョンとに関するルールであってもよく、リコールとプレシジョンとを引数とする関数の値に関するルールであってもよく、あるいは、その他のルールであってもよい。
(A) Method Using Rules In this method, the selection unit 18 selects a summary using a rule from a combination of a summary candidate, a recall, and a precision. The rule may be, for example, a rule related to recall and precision, a rule related to a function value having the recall and precision as arguments, or another rule.
例えば、選択部18は、リコールが最大値である要約候補のうち、プレシジョンが最大値である要約候補を要約として選択してもよい。具体的には、選択部18は、要約候補と、リコールと、プレシジョンとの組合せをリコールの降順になるようにソートし、そのソート後に、リコールが同じ値である組合せについて、プレシジョンの降順になるようにソートする。そして、選択部18は、1番目の組合せに含まれる要約候補を要約として選択してもよい。なお、N個(Nは2以上の整数)の要約を選択する場合には、そのソートの後に、1番目からN番目までの要約候補を要約として選択してもよい。また、例えば、選択部18は、プレシジョンが最大値である要約候補のうち、リコールが最大値である要約候補を要約として選択してもよい。この場合には、リコールとプレシジョンとを入れ替えることによって、前述の方法と同様にして要約を選択できる。また、例えば、選択部18は、リコールとプレシジョンとを引数として有する関数であるF値が最大値である要約候補を要約として選択してもよい。具体的には、選択部18は、要約候補と、リコールと、プレシジョンとの組合せごとに、F値を算出し、そのF値の昇順になるようにソートする。そして、選択部18は、1番目または1番目からN番目の組合せに含まれる要約候補を要約として選択してもよい。ここで、F値は、次式で算出される。
(い)機械学習を用いる方法
この方法では、選択部18は、機械学習によって選択を行う。この機械学習の問題は、要約候補と、その要約候補のリコール、その要約候補のプレシジョンである。また、その問題に、要約元文書、要約元文書において関連特定部17によって関連が特定された2個の言語表現、2個の言語表現の集合等のうち、任意の1以上のものが含まれてもよい。また、その機械学習の解は、要約候補の適否である。すなわち、その解の候補は、要約候補が適切である、あるいは、要約候補が不適切である、ということになる。その機械学習の素性には、要約候補、その要約候補のリコール、その要約候補のプレシジョン、要約候補の属性情報が少なくとも含まれるものとする。要約候補の属性情報とは、要約候補の品詞であってもよく、要約候補の上位語であってもよく、その他の属性の情報であってもよい。さらに、要約候補の長さ(例えば、文字数であってもよく、単語数であってもよい)、要約候補の取得の元となった言語表現、その言語表現の属性(例えば、品詞や上位語など)のうち、任意の1以上のものが素性に含まれてもよい。なお、素性において要約候補の取得元の言語表現やその言語表現に関する情報をも用いる場合には、第1の取得部14は、抽出部12によって抽出された言語表現(この言語表現が、要約候補の取得元の言語表現となる)と、その言語表現に対して取得した要約候補とを対応付けておくようにしてもよい。また、その要約候補についてユニーク処理を行う場合には、一の要約候補に一以上の取得元の言語表現が対応するようにユニーク処理を行うことが好適である。また、選択部18は、関連特定部17が特定した言語表現間の関連に関する情報をも素性として用いて機械学習を行ってもよい。関連特定部17が特定した言語表現間の関連に関する情報とは、例えば、要約候補の取得元の言語表現に関して、関連特定部17によって特定された関連に関するスコア(後述する)、要約候補の取得元となった言語表現が複数存在する場合には、その複数の言語表現に対するそのスコアの平均や合計値、最大値、最小値、要約候補の取得元の言語表現(または、その言語表現の含まれる文や段落等の文書範囲)が他の言語表現や文書範囲と関連するその関連の種類、その関連の種類の数、要約候補の取得元の言語表現が関連している、要約元文書における他の言語表現や、その言語表現の属性のうち、任意の1以上のものであってもよい。また、第1の取得部14で要約候補を取得する際の関連の種類(例えば、共起や上位下位、原因結果等)ごと、あるいはそれらの任意の2以上の組合せごとのリコールや、プレシジョン、また第2の取得部15で要約候補に関連する言語表現を取得する際の関連の種類(例えば、共起や上位下位、原因結果等)ごと、あるいはそれらの任意の2以上の組合せごとのリコールやプレシジョンのうち、任意の1以上のものが素性に含まれてもよい。その任意の2以上の組合せは、機械学習で最も効果的な組合せになるように設定を行ってもよい。また、要約候補に関連する言語表現、すなわち、第2の取得部15が取得した言語表現のうち、要約元文書に含まれる言語表現や、その言語表現の属性(例えば、品詞や上位語)、その要約候補と要約元文書に含まれる言語表現との関連の種類(例えば、共起や上位下位、原因結果等)、その要約候補と関連する言語表現であって、要約元文書に含まれる言語表現の個数のうち、任意の1以上のものが素性に含まれてもよい。
(I) Method Using Machine Learning In this method, the selection unit 18 performs selection by machine learning. The problem of machine learning is a summary candidate, recall of the summary candidate, and precision of the summary candidate. In addition, the problem includes any one or more of the summarization source document, the two language expressions whose relations are specified by the relation specifying unit 17 in the summarization source document, and the set of two language expressions. May be. The machine learning solution is the suitability of summary candidates. That is, the candidate for the solution is that the summary candidate is appropriate or the summary candidate is inappropriate. The feature of the machine learning includes at least a summary candidate, a recall of the summary candidate, a precision of the summary candidate, and attribute information of the summary candidate. The summary candidate attribute information may be a part of speech of the summary candidate, a broader word of the summary candidate, or information of other attributes. Further, the length of the summary candidate (for example, the number of characters or the number of words), the language expression from which the summary candidate was acquired, and attributes of the language expression (for example, part of speech or broader word) Etc.) may be included in the feature. In addition, when the language expression from which the summary candidate is acquired and information related to the language expression are also used in the feature, the first acquisition unit 14 uses the language expression extracted by the extraction unit 12 (this language expression is the summary candidate). And the summary candidate acquired for the language expression may be associated with each other. When performing unique processing for the summary candidate, it is preferable to perform the unique processing so that one summary candidate corresponds to one or more acquisition source language expressions. In addition, the selection unit 18 may perform machine learning using information related to the relationship between the linguistic expressions specified by the relationship specifying unit 17 as a feature. The information related to the relationship between the language expressions specified by the relationship specifying unit 17 includes, for example, a score (to be described later) related to the relationship specified by the relationship specifying unit 17 regarding the language expression from which the summary candidate is acquired, and the acquisition source of the summary candidate. If there are multiple linguistic expressions, the average or total value, maximum value, minimum value, and linguistic expression from which the summary candidates are acquired (or the linguistic expressions are included) The document range (sentences, paragraphs, etc.) is related to other language expressions or document ranges, the type of the relationship, the number of types of the relationship, and the language expression from which the summary candidates are obtained Any one or more of the linguistic expressions and attributes of the linguistic expressions may be used. In addition, recall, precision, etc. for each type of association (for example, co-occurrence, upper / lower order, cause / result, etc.) or any combination of two or more of them when the first acquisition unit 14 acquires summary candidates. In addition, recall for each type of association (for example, co-occurrence, upper / lower order, cause / result, etc.) or any combination of two or more of them when the language expression related to the summary candidate is acquired by the second acquisition unit 15 Any one or more of the precisions may be included in the feature. Any two or more combinations may be set so as to be the most effective combination in machine learning. In addition, among the language expressions related to the summary candidates, that is, the language expressions acquired by the second acquisition unit 15, the language expressions included in the summary source document, the attributes of the language expressions (for example, parts of speech and broader terms), The type of association between the summary candidate and the language expression included in the summary document (for example, co-occurrence, upper and lower order, cause / result, etc.), the language expression associated with the summary candidate, and the language included in the summary source document Any one or more of the numbers of expressions may be included in the feature.
ここで、関連特定部17によって特定された関連に関するスコアについて説明する。このスコアの算出は、選択部18によって行われてもよく、あるいは、他の構成要素によって行われてもよい。ここでは、選択部18がスコアの算出を行う場合について説明する。このスコアは、要約元文書のあらかじめ決められた文書の範囲ごとに算出されるものとする。例えば、その文書の範囲は、文であってもよく、段落であってもよく、その他の範囲(例えば、何らかの区切り記号によって区切られる節や章などの範囲等)であってもよい。また、関連特定部17は、その要約元文書において、言語表現の関連を特定しているものとする。そして、選択部18は、ある文書の範囲(これを文書の範囲Aとする)のスコアを、関連特定部17によって特定された、その文書の範囲Aに含まれる言語表現と、他の文書の範囲に含まれる言語表現との関連の数としてもよい。すなわち、他の文書の範囲に含まれる言語表現と関連している言語表現を多く有する文書の範囲ほど、より高スコアとなるようにしてもよい。例えば、論文の評価において、他の論文でより多く引用されたものほどより評価が高いとする考え方があるが、このスコアも、それと類似のものである。例えば、要約元文書が文書の範囲A,B,C,Dを含む場合であって、文書の範囲Aに含まれる言語表現と、文書の範囲B,C,Dに含まれる言語表現との関連の数が、15であったとする。すると、文書の範囲Aのスコアは、「15」となる。また、文書の範囲Bに含まれる言語表現と、文書の範囲A,C,Dに含まれる言語表現との関連の数が、5であったとする。すると、文書の範囲Bのスコアは、「5」となる。例えば、関連特定部17が特定した関連が「授業 ノート ツール」で示される場合には、選択部18は、単語「授業」「ノート」がそれぞれ含まれる文書の範囲を特定し、そして、その文書の範囲間の関連の数を1だけインクリメントする、という処理をすべての特定された関連について実行することによって、文書の範囲間の関連数を算出してもよい。なお、その文書の範囲Aのスコアに、文書の範囲Aの内部における言語表現間の関連の数を含めてもよい。例えば、前述の例の場合であって、文書の範囲Aの内部において2個の言語表現の関連の数が「3」である場合には、文書の範囲Aのスコアを「18(=15+3)」としてもよい。また、関連の種類に応じて重み付けを行ってもよい。例えば、共起の関連であれば一つの関連を「2」にカウントし、上位下位の関連であれば一つの関連を「0.5」にカウントしてもよい。 Here, the score related to the relationship specified by the relationship specifying unit 17 will be described. The calculation of the score may be performed by the selection unit 18 or may be performed by other components. Here, a case where the selection unit 18 calculates a score will be described. This score is calculated for each predetermined document range of the summary source document. For example, the range of the document may be a sentence, a paragraph, or another range (for example, a range such as a section or a chapter delimited by some delimiter). Further, it is assumed that the relation specifying unit 17 specifies the relation of language expression in the summary source document. Then, the selection unit 18 sets the score of a certain document range (this is the document range A) as the language expression included in the document range A specified by the association specifying unit 17 and other documents. It is good also as the number of relation with the linguistic expression contained in the range. In other words, a document range that has more language expressions related to language expressions included in other document ranges may have a higher score. For example, in the evaluation of a paper, there is an idea that a paper that is cited more frequently in other papers has a higher evaluation, but this score is also similar thereto. For example, when the summarization source document includes document ranges A, B, C, and D, the relationship between the language expression included in the document range A and the language expression included in the document ranges B, C, and D Is 15 in number. Then, the score of the document range A is “15”. Further, it is assumed that the number of associations between the linguistic expressions included in the document range B and the linguistic expressions included in the document ranges A, C, and D is 5. Then, the score of the document range B is “5”. For example, when the relation specified by the relation specifying unit 17 is indicated by “class lesson tool”, the selection unit 18 specifies a range of documents each including the words “class” and “note”, and the document The number of associations between document ranges may be calculated by performing the process of incrementing the number of associations between ranges of 1 for all identified associations. The score of the range A of the document may include the number of associations between language expressions in the range A of the document. For example, in the case of the above-described example, when the number of relations between two language expressions is “3” within the document range A, the score of the document range A is “18 (= 15 + 3)”. It is good also as. Moreover, you may weight according to the kind of relationship. For example, one association may be counted as “2” if it is a co-occurrence relationship, and one relationship may be counted as “0.5” if it is an upper-lower relationship.
また、その機械学習で用いられる教師データは、要約候補の適否を示す情報と、前述の問題(すなわち、要約候補と、リコール及びプレシジョンと、必要に応じたその他の情報)から取得された、前述の素性の各値とである。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とが同じである方が好適であることは、前述の機械学習の場合と同様である。 In addition, the teacher data used in the machine learning includes the information indicating the suitability of the summary candidate and the above-described problem (that is, the summary candidate, the recall and the precision, and other information as necessary). And each feature value. Note that it is preferable that the field of the summary source document is the same as the field of the document used in the machine learning teacher data as in the case of the machine learning described above.
教師データを用いた学習の後に、判断の対象となる、要約候補と、その要約候補のリコール及びプレシジョンと、必要に応じたその他の情報とを入力すると、素性の各値が取得され、その要約候補が適切であるかどうかと、その確信度とを得ることができる。したがって、選択部18は、すべての要約候補について、その要約候補が適切であるかどうかと、その確信度とを得た後に、適切であると判断された要約候補であって、確信度の最も高い要約候補、あるいは、適切であると判断された要約候補であって、確信度の上位からN個(Nは2以上の整数)の要約候補を選択してもよい。前者の場合は、1個の要約のみを選択する場合であり、後者の場合は、N個の要約を選択する場合である。 After learning using the teacher data, if you input the summary candidate, the recall and precision of the summary candidate, and other information as needed, each feature value is acquired and the summary is obtained. Whether a candidate is appropriate and its certainty can be obtained. Therefore, the selection unit 18 obtains whether or not the summary candidate is appropriate and the certainty factor for all the summary candidates. N summary candidates (N is an integer equal to or greater than 2) may be selected from the top of the certainty factors, which are high summary candidates or summary candidates determined to be appropriate. In the former case, only one summary is selected, and in the latter case, N summaries are selected.
出力部19は、選択部18が選択した要約を出力する。この出力を行うことによって、ユーザは、要約の結果を知ることができるようになる。なお、出力部19は、1個の言語表現(要約)のみを出力してもよく、あるいは、2個以上の言語表現(要約)を出力してもよい。後者の場合には、出力部19は、例えば、後述する特定部21が特定した言語表現をも出力してもよく、後述する特定部21が特定した言語表現を、抽出された言語表現と同様にして用いて処理が行われることによって選択された言語表現である要約をも出力してもよい。なお、特定部21が特定した言語表現を出力部19が出力する場合には、その言語表現をも要約と呼ぶものとする。また、出力部19が2個以上の言語表現(要約)を出力する場合には、1回目の出力時には、出力対象となる要約を後述する第3の取得部20に渡す(すなわち、構成要素間での引き渡し)のみであり、2回目以降の最後の出力時に、それまでの出力対象となった要約のすべてを一括してユーザに提示するように出力してもよい。その場合には、以前に出力対象となった要約が、図示しない記録媒体において一時的に記憶されていてもよい。また、選択が機械学習によって行われる場合には、要約の確信度をも出力してもよい。また、2個以上の言語表現を出力する場合、例えば、選択部18が選択した要約と、特定部21が特定した要約を出力する場合や、あるいは、選択部18が2度以上にわたって選択した要約を出力する場合には、その要約間に助詞を補って出力してもよい。その助詞を補う方法について説明する。その助詞を補う場合には、1以上のパターン、例えば、「(要約)の(要約)」「(要約)に(要約)」「(要約)が(要約)」「(要約)が(要約)を(要約)」等を用いて、そのパターンに出力対象の要約を挿入することによって、助詞を補った要約を生成してもよい。 The output unit 19 outputs the summary selected by the selection unit 18. By performing this output, the user can know the result of the summary. Note that the output unit 19 may output only one language expression (summary) or may output two or more language expressions (summary). In the latter case, for example, the output unit 19 may also output the language expression specified by the specifying unit 21 described later, and the language expression specified by the specifying unit 21 described later is the same as the extracted language expression. It is also possible to output a summary that is a linguistic expression selected through processing. In addition, when the output unit 19 outputs the language expression specified by the specifying unit 21, the language expression is also called a summary. Further, when the output unit 19 outputs two or more language expressions (summary), at the first output time, the output target summary is passed to a third acquisition unit 20 (to be described later). At the time of the last output after the second time, all the summaries that have been output can be output so as to be presented to the user all at once. In that case, the summary that was previously output may be temporarily stored in a recording medium (not shown). In addition, when the selection is performed by machine learning, the certainty of the summary may be output. Further, when outputting two or more language expressions, for example, when outputting the summary selected by the selection unit 18 and the summary specified by the specification unit 21, or the summary selected by the selection unit 18 more than once. May be output with a particle supplemented between the summaries. A method for supplementing the particle will be described. When supplementing the particle, one or more patterns, for example, “(summary) (summary)” “(summary) to (summary)” “(summary) is (summary)” “(summary) is (summary) (Summary) "or the like may be used to generate a summary supplementing the particle by inserting the output summary into the pattern.
(イ)出力部19は、ルールを用いて、助詞を補ってもよい。例えば、「(固有名詞)の(一般名詞)」「(普通名詞)が(サ変名詞)」などのようなパターンが用意されていた場合には、出力部19が要約A,Bを出力する際に、要約Aと、要約Bとの品詞を取得し、その品詞を当てはめることができるパターンを選択して、そのパターンに要約を挿入して出力してもよい。 (A) The output unit 19 may supplement a particle using a rule. For example, when patterns such as “(proprietary noun) (general noun)” “(common noun) is (sa-noun)” are prepared, the output unit 19 outputs the summaries A and B. Alternatively, the parts of speech of the summary A and the summary B may be acquired, a pattern to which the part of speech can be applied is selected, and the summary may be inserted into the pattern and output.
(ロ)出力部19は、要約をパターンに挿入し、その挿入後のパターンが自然なものであるかどうか判断し、自然なものである場合に出力してもよい。例えば、出力部19は、「(要約)の(要約)」などのような複数のパターンに、選択されたり、特定されたりした要約を挿入する。その場合に、すべての組合せを網羅するように、要約の挿入を行う。例えば、要約A,Bが出力対象である場合には、出力部19は、「AのB」や、「BのA」「AがB」「BがA」「AにB」「BにA」のように要約の挿入を行う。その後、出力部19は、その要約を挿入した後のものが、自然であるかどうか判断する。その判断は、例えば、要約を挿入した後のパターンでインターネットやその他のデータベースを検索し、検索のヒット数が最も多いものを自然なものであると判断してもよい。そして、出力部19は、自然なものであると判断したものを出力してもよい。また、例えば、その検索にNグラムを用いてもよい。 (B) The output unit 19 may insert the summary into the pattern, determine whether the pattern after the insertion is natural, and output it when it is natural. For example, the output unit 19 inserts selected or specified summaries into a plurality of patterns such as “(summary) (summary)”. In that case, a summary is inserted to cover all combinations. For example, when the summaries A and B are to be output, the output unit 19 outputs “B of A”, “A of B”, “A is B”, “B is A”, “A to B”, and “B”. A summary is inserted as in “A”. Thereafter, the output unit 19 determines whether or not the result after inserting the summary is natural. For example, the Internet or other database may be searched using a pattern after the summary is inserted, and the search having the largest number of hits may be determined to be natural. Then, the output unit 19 may output what is determined to be natural. For example, N-gram may be used for the search.
(ハ)出力部19は、機械学習を用いて、助詞を補った要約を決定して出力してもよい。この機械学習の問題は、2以上の言語表現(要約)と、その言語表現(要約)の挿入されたパターン(すなわち、助詞の補われた2以上の言語表現)とである。また、その機械学習の解は、その要約の挿入されたパターンの適否である。すなわち、その解の候補は、要約の挿入されたパターンが適切である、あるいは、不適切である,ということになる。その機械学習の素性には、言語表現(要約)そのものと、その言語表現(要約)の属性(例えば、品詞や上位語など)と、パターンに言語表現(要約)を挿入したもの(例えば、「AのB」など)とが含まれてもよい。また、さらに、パターンに言語表現(要約)を挿入したものであって、一の言語表現(要約)と助詞のみを含むもの(例えば、「Aの」と「のB」)、前記(ロ)の方法で取得したヒット数のうち、任意の一以上のものが素性に含まれてもよい。 (C) The output unit 19 may determine and output a summary supplemented with a particle using machine learning. The problem of this machine learning is two or more linguistic expressions (summary) and a pattern in which the linguistic expression (summary) is inserted (that is, two or more linguistic expressions supplemented with particles). The machine learning solution is the suitability of the inserted pattern of the summary. That is, the candidate solution is that the pattern into which the summary is inserted is appropriate or inappropriate. The features of the machine learning include the linguistic expression (summary) itself, attributes of the linguistic expression (summary) (for example, parts of speech and broader words), and the language expression (summary) inserted into the pattern (for example, “ A's B "etc.). Further, a linguistic expression (summary) is inserted into the pattern and includes only one linguistic expression (summary) and a particle (for example, “A” and “B”), (b) Any number of hits acquired by the method may be included in the feature.
また、その機械学習で用いられる教師データは、パターンに要約を挿入したものの適否を示す情報と、前述の問題(すなわち、2以上の要約と、その要約の挿入されたパターン)から取得された、前述の素性の各値とである。なお、要約元文書の分野と、この機械学習の教師データで使用する言語表現の分野とは、同じであるほうが好適である。また、パターンに言語表現を挿入する際には、通常、何通りかの方法がありうる。したがって、その何通りかの方法のそれぞれについて、教師データを用意するものとする。例えば、パターン「(要約)の(要約)」であれば、言語表現A,Bを挿入する際に、「AのB」と「BのA」とがある。その場合には、「AのB」に対する適否を示す情報と、素性の各値を教師データとすると共に、「BのA」に対する適否を示す情報と、素性の各値を教師データとするものとする。 In addition, the teacher data used in the machine learning is obtained from information indicating the suitability of the summary inserted in the pattern and the above-described problem (that is, two or more summaries and the pattern in which the summary is inserted). It is each value of the above-mentioned feature. Note that it is preferable that the field of the summary source document and the field of language expression used in the machine learning teacher data are the same. In addition, there are usually several ways to insert a linguistic expression into a pattern. Therefore, teacher data is prepared for each of the several methods. For example, in the case of the pattern “(summary) (summary)”, when the language expressions A and B are inserted, there are “B of A” and “A of B”. In this case, information indicating whether or not “A's B” is appropriate and each value of the feature are used as teacher data, and information indicating whether or not “B's A” are appropriate and each value of the feature are used as teacher data. And
教師データを用いた学習の後に、出力する対象となる要約(言語表現)と、その要約をパターンに挿入したものとを入力すると、素性の各値が取得され、そのパターンに要約を挿入したものが適切であるかどうかと、その確信度とが出力される。この場合にも、パターンに要約を挿入するすべての方法(例えば、要約がC,Dであり、パターンが「(要約)の(要約)」である場合には、「CのD」と「DのC」の両方)について、適切であるかどうかとその確信度とを得るものとする。したがって、出力部19は、適切であると判断され、最も確信度の高いものを出力する。なお、助詞を補って出力するのは、用いている言語が日本語などのように助詞を有するものである場合のみである。英語のように助詞のない言語の場合には、助詞を補う処理そのものを行わなくてもよい。 After learning using teacher data, if you input the summary (language expression) to be output and the summary inserted into the pattern, each value of the feature is acquired, and the summary is inserted into the pattern Whether or not is appropriate and its certainty are output. Again, all methods of inserting a summary into a pattern (eg, if the summary is C, D and the pattern is “(summary) (summary)”) And C ”) are obtained as to whether or not they are appropriate. Therefore, the output unit 19 determines that it is appropriate, and outputs the one with the highest certainty factor. Note that a particle is supplemented and output only when the language being used has a particle such as Japanese. In the case of a language that does not have a particle, such as English, it is not necessary to perform the process of supplementing the particle.
また、出力部19は、要約(前述の助詞が付加されていてもよい)のみを出力してもよく、要約と、その要約である言語表現の取得元である要約元文書の言語表現とを出力してもよく、要約と、その要約の取得元である言語表現と、両者の対応を示すもの(例えば、要約を終点とし、その要約の取得元である言語表現を始点とする矢印など)とを出力してもよく、要約と、その要約の取得元である言語表現と、両者の対応を示すものと、その要約と要約の取得元である言語表現との関連の種類(例えば、共起や上位下位、原因結果等)とを出力してもよく、要約と、その要約の取得元である言語表現と、両者の関連の種類とを出力してもよい。また、出力部19は、要約元文書そのものも出力し、ユーザが、要約元文書と、その要約との両方を一括して知ることができるようにしてもよい。なお、出力部19が助詞を補った要約を出力する場合であっても、後述する第3の取得部20に対しては、助詞を補う前の要約を出力する(渡す)ものとする。 Further, the output unit 19 may output only the summary (the above-mentioned particle may be added), and the summary and the language expression of the summary source document from which the language expression that is the summary is obtained. It may be output, and the summary, the language expression from which the summary is obtained, and the correspondence between them (for example, an arrow with the summary as the end point and the language expression from which the summary is obtained) And the type of association between the summary, the linguistic expression from which the summary was obtained, the correspondence between them, and the linguistic expression from which the summary was obtained (for example, shared Origin, upper / lower order, cause / result, etc.), a summary, a linguistic expression from which the summary is obtained, and a type of the relationship between them may be output. The output unit 19 may also output the summary source document itself so that the user can know both the summary source document and the summary at once. Even when the output unit 19 outputs a summary supplemented with a particle, the summary before supplementing the particle is output (passed) to a third acquisition unit 20 described later.
第3の取得部20は、出力部19が出力した要約に関連する言語表現を取得する。通常、第3の取得部20は、要約候補に関連する複数の言語表現を取得する。また、出力部19が複数の要約を出力した場合には、第3の取得部20は、各要約について、関連する言語表現の取得を行う。第3の取得部20も、第1の取得部14と同様に、連想的知識や、推論的知識を用いて、要約候補に関連する言語表現を取得するものである。すなわち、出力された要約から連想される言語表現や、出力された要約から推論的に導かれる言語表現が取得されることになる。なお、このようにして取得された言語表現は、通常、単語であるが、それ以上の長さを有するもの、例えば、フレーズであってもよい。第3の取得部20によって取得された言語表現は、図示しない記録媒体で記憶されてもよい。その言語表現の取得方法として、例えば、前述した(1)共起を用いる方法、(2)関連辞書情報を用いる方法がある。それらの方法については前述の通りであり、その説明を省略する。なお、(2)の方法を用いる場合には、第3の取得部20は、関連辞書情報記憶部13で記憶されている関連辞書情報を用いて、言語表現の取得を行ってもよい。また、第3の取得部20は、上記(1)(2)のいずれかの方法で言語表現を取得してもよく、あるいは、その両方を用いて言語表現を取得してもよい。また、一の要約に関連する言語表現として、重複した言語表現が取得された場合には、ユニーク処理を行ってもよい。なお、(1)(2)以外の方法によって、要約に関連する言語表現を取得してもよいことは言うまでもない。この第3の取得部20による言語表現の取得の処理によって、要約と、その要約に関連する1以上の言語表現との対が取得されることになる。また、第3の取得部20が言語表現を取得する方法は、第1の取得部14や第2の取得部15が要約候補を取得する方法と同じであってもよく、あるいは、異なっていてもよい。前者の場合には、例えば、第1の取得部14、第2の取得部15及び第3の取得部20が、(1)共起を用いる方法によって言語表現の取得を行ってもよい。また、後者の場合には、例えば、第1の取得部14及び第2の取得部15は、(1)共起を用いる方法によって要約候補を取得し、第3の取得部20は、(2)関連辞書情報を用いる方法によって言語表現を取得してもよい。また、第3の取得部20が、第2の取得部15と同じ方法によって、要約に関連する言語表現を取得する場合には、第2の取得部15が取得した結果と同様の結果を取得することになる。したがって、その場合には、第2の取得部15の取得結果を図示しない記録媒体で保持しておき、第3の取得部20は、その保持されている取得結果から必要なものを選択することによって、要約に関連する言語表現を取得してもよい。 The third acquisition unit 20 acquires a language expression related to the summary output by the output unit 19. Usually, the third acquisition unit 20 acquires a plurality of language expressions related to the summary candidates. When the output unit 19 outputs a plurality of summaries, the third acquisition unit 20 acquires a related language expression for each summary. Similarly to the first acquisition unit 14, the third acquisition unit 20 also acquires linguistic expressions related to summary candidates using associative knowledge and speculative knowledge. In other words, a linguistic expression associated with the output summary and a linguistic expression derived speculatively from the output summary are acquired. In addition, although the linguistic expression acquired in this way is usually a word, it may be longer, for example, a phrase. The language expression acquired by the third acquisition unit 20 may be stored in a recording medium (not shown). As a method for acquiring the language expression, for example, there are (1) a method using co-occurrence and (2) a method using related dictionary information. These methods are as described above, and the description thereof is omitted. When the method (2) is used, the third acquisition unit 20 may acquire language expressions using related dictionary information stored in the related dictionary information storage unit 13. Moreover, the 3rd acquisition part 20 may acquire a linguistic expression by the method in any one of said (1) and (2), or may acquire a linguistic expression using both. In addition, when a duplicate language expression is acquired as a language expression related to one summary, unique processing may be performed. Needless to say, language expressions related to the summary may be acquired by methods other than (1) and (2). By the process of acquiring the language expression by the third acquisition unit 20, a pair of the summary and one or more language expressions related to the summary is acquired. Further, the method by which the third acquisition unit 20 acquires the language expression may be the same as or different from the method by which the first acquisition unit 14 and the second acquisition unit 15 acquire summary candidates. Also good. In the former case, for example, the first acquisition unit 14, the second acquisition unit 15, and the third acquisition unit 20 may acquire language expressions by a method using (1) co-occurrence. In the latter case, for example, the first acquisition unit 14 and the second acquisition unit 15 acquire (1) summary candidates by a method using co-occurrence, and the third acquisition unit 20 (2 ) Language expression may be acquired by a method using related dictionary information. In addition, when the third acquisition unit 20 acquires the language expression related to the summary by the same method as the second acquisition unit 15, the same result as the result acquired by the second acquisition unit 15 is acquired. Will do. Therefore, in that case, the acquisition result of the second acquisition unit 15 is held in a recording medium (not shown), and the third acquisition unit 20 selects a necessary one from the acquired acquisition results. To obtain a linguistic expression related to the summary.
特定部21は、抽出部12が抽出した言語表現のうち、第3の取得部20が取得した言語表現に含まれないものを特定する。例えば、特定部21は、抽出部12が抽出した各言語表現を検索キーとして、第3の取得部20が取得した言語表現の集合を検索し、ヒットした場合には、その検索キーを特定せず、ヒットしなかった場合には、その検索キーを、抽出された言語表現であって、第3の取得部20が取得した言語表現に含まれないものとして特定してもよい。なお、言語表現を特定するとは、結果として、特定されなかった言語表現と、特定された言語表現とを区別できるのであれば、その方法は問わない。例えば、特定部21は、特定対象となる言語表現を、図示しない記録媒体に蓄積してもよく、あるいは、特定対象となる言語表現に対して、フラグ等を設定してもよい。なお、特定部21が特定する言語表現は、通常、単語である。したがって、抽出部12によって、フレーズ以上の長さを有する言語表現が抽出されている場合であっても、この特定部21による特定を行うために、それとは別途、抽出部12によって、単語である言語表現の抽出も行われていることが好適である。 The specifying unit 21 specifies language expressions extracted by the extracting unit 12 that are not included in the language expressions acquired by the third acquiring unit 20. For example, the specifying unit 21 searches the set of language expressions acquired by the third acquiring unit 20 using each language expression extracted by the extracting unit 12 as a search key, and if a hit is found, specifies the search key. If no hit is found, the search key may be specified as an extracted language expression that is not included in the language expression acquired by the third acquisition unit 20. Note that specifying the language expression is not limited as long as the language expression that is not specified can be distinguished from the specified language expression as a result. For example, the specifying unit 21 may accumulate the language expression to be specified in a recording medium (not shown), or may set a flag or the like for the language expression to be specified. The language expression specified by the specifying unit 21 is usually a word. Therefore, even if a language expression having a length equal to or longer than the phrase is extracted by the extraction unit 12, the extraction unit 12 separately identifies the language expression in order to perform the specification by the specification unit 21. It is preferable that linguistic expressions are also extracted.
この特定部21が特定する言語表現は、抽出部12によって抽出された言語表現であって、出力部19が出力する要約と関連のない言語表現である。したがって、出力部19が出力する要約によって取り落とされた言語表現であって、要約元文書に含まれる言語表現が、特定部21によって特定されることになる。その特定部21によって特定された言語表現を用いる方法としては、例えば、(α)そのまま出力する方法、(β)再度、要約に用いる方法がある。 The linguistic expression specified by the specifying unit 21 is a linguistic expression extracted by the extracting unit 12 and is not related to the summary output by the output unit 19. Therefore, the linguistic expression dropped by the summary output from the output unit 19 and included in the summary source document is specified by the specifying unit 21. As a method of using the linguistic expression specified by the specifying unit 21, for example, there are (α) a method of outputting as it is, and (β) a method of using again for summarization.
(α)そのまま出力する方法の場合には、特定部21が特定した言語表現を、前述のように、出力部19が要約として出力する場合がある。例えば、要約元文書「首都で爆弾が爆発した。死傷者が出た。反政府運動がきっかけである。」に対して選択された要約が「テロ」であり、特定部21が特定した言語表現が「首都」である場合には、出力部19は、要約「テロ」「首都」を出力してもよい。 (Α) In the case of the method of outputting as it is, the output unit 19 may output the language expression specified by the specifying unit 21 as a summary as described above. For example, the summary selected for the summarizing original document “bomb exploded in the capital city. Casualties came out, triggered by the anti-government movement” was “terrorism”, and the language expression specified by the specifying unit 21 Is the “capital”, the output unit 19 may output the summary “terrorism” and “capital”.
(β)再度、要約に用いる方法の場合には、特定部21が特定した言語表現に対しても、第1の取得部14による要約候補の取得、第2の取得部15による要約候補に関連する言語表現の取得、算出部16によるリコール及びプレシジョンの算出、選択部18による要約の選択、出力部19による選択された要約の出力の各処理を行ってもよい。その後、さらに、その2度目に出力された要約に関連する言語表現の第3の取得部20による取得と、抽出部12によって抽出された言語表現のうち、第3の取得部20が1回目及び2回目に取得した言語表現に含まれないものの特定と、その特定された言語表現に対応する要約を生成する一連の処理が繰り返して実行されてもよい。このようにすることで、要約元文書が長いものであり、一の言語表現で端的に要約できない場合であっても、複数の言語表現を用いて適切に要約を行うことができるようになりうる。なお、例えば、要約を生成する処理を繰り返す回数はあらかじめ決められていてもよく、あるいは、特定部21によって特定される言語表現があらかじめ決められた数以下になるまで、要約を生成する処理が繰り返されてもよい。 (Β) Again, in the case of the method used for summarization, the acquisition of summary candidates by the first acquisition unit 14 and the summary candidates by the second acquisition unit 15 are also related to the language expression specified by the specification unit 21. The processing of obtaining the language expression to be performed, calculating the recall and precision by the calculation unit 16, selecting the summary by the selection unit 18, and outputting the selected summary by the output unit 19 may be performed. Thereafter, further, the third acquisition unit 20 acquires the language expression related to the summary output for the second time by the third acquisition unit 20 and the language expression extracted by the extraction unit 12. A series of processes for generating a summary that corresponds to the language expression that is not included in the language expression acquired the second time and that corresponds to the specified language expression may be executed repeatedly. In this way, even if the summarization source document is long and cannot be simply summarized with one language expression, it is possible to appropriately summarize using a plurality of language expressions. For example, the number of times of repeating the process of generating the summary may be determined in advance, or the process of generating the summary is repeated until the language expression specified by the specifying unit 21 is equal to or less than the predetermined number. May be.
次に、本実施の形態による文書要約装置1の動作について、図3のフローチャートを用いて説明する。なお、このフローチャートでは、特定部21が特定した言語表現を出力部19が出力する場合について説明する。 Next, the operation of the document summarizing apparatus 1 according to the present embodiment will be described using the flowchart of FIG. In this flowchart, the case where the output unit 19 outputs the language expression specified by the specifying unit 21 will be described.
(ステップS101)抽出部12は、要約元文書記憶部11で記憶されている要約元文書を読み出し、その要約元文書から言語表現を抽出する。その抽出された言語表現は、図示しない記録媒体で記憶されてもよい。 (Step S101) The extraction unit 12 reads the summary source document stored in the summary source document storage unit 11, and extracts a language expression from the summary source document. The extracted language expression may be stored in a recording medium (not shown).
(ステップS102)第1の取得部14は、抽出部12が抽出した各言語表現に対して、要約候補を取得する。なお、その取得の方法は、前述の(1)〜(3)の任意の1以上の組合せであってもよい。また、その取得された要約候補は、図示しない記録媒体で記憶されてもよい。 (Step S102) The first acquisition unit 14 acquires summary candidates for each language expression extracted by the extraction unit 12. In addition, the acquisition method may be any one or more combinations of (1) to (3) described above. Further, the obtained summary candidate may be stored in a recording medium (not shown).
(ステップS103)算出部16は、カウンタiを1に設定する。 (Step S103) The calculation unit 16 sets the counter i to 1.
(ステップS104)第2の取得部15は、i番目の要約候補に関連する言語表現を取得する。なお、その取得の方法は、前述の(1)(2)の任意の1以上の組合せであってもよい。また、その取得された言語表現は、図示しない記録媒体で記憶されてもよい。 (Step S104) The second acquisition unit 15 acquires a language expression related to the i-th summary candidate. The acquisition method may be any one or more combinations of (1) and (2) described above. Further, the acquired language expression may be stored in a recording medium (not shown).
(ステップS105)算出部16は、i番目の要約候補について、ステップ104で取得された言語表現と、抽出部12が抽出した言語表現とを用いて、i番目の要約候補に対応するリコールやプレシジョンの値を算出する。なお、算出部16は、場合によっては、第1の取得部14が取得した要約候補の集合をも用いて、そのリコール等の算出を行ってもよい。その算出されたリコール等は、図示しない記録媒体で記憶されてもよい。 (Step S105) The calculation unit 16 uses the linguistic expression acquired in step 104 and the linguistic expression extracted by the extraction unit 12 for the i-th summary candidate, and recalls and precisions corresponding to the i-th summary candidate. Is calculated. Note that the calculation unit 16 may calculate the recall or the like using the summary candidate set acquired by the first acquisition unit 14 in some cases. The calculated recall or the like may be stored in a recording medium (not shown).
(ステップS106)算出部16は、カウンタiを1だけインクリメントする。 (Step S106) The calculation unit 16 increments the counter i by 1.
(ステップS107)算出部16は、i番目の要約候補が存在するかどうか判断する。そして、存在する場合には、ステップS104に戻り、そうでない場合には、ステップS108に進む。 (Step S107) The calculation unit 16 determines whether or not the i-th summary candidate exists. And when it exists, it returns to step S104, and when that is not right, it progresses to step S108.
(ステップS108)選択部18は、算出部16が算出したリコール等を用いて、要約候補から要約を選択する。なお、その選択は、前述のように、ルールを用いて行ってもよく、機械学習によって行ってもよい。機械学習を用いる場合であって、要約元文書において特定された関連に関する情報をも用いる場合には、関連特定部17は、前述のように、要約元文書において関連を特定する処理を行ってもよい。その処理については、図4のフローチャートを用いて後述する。なお、要約元文書において関連を特定する処理は、このステップS108よりも以前に実行されるのであれば、その処理の実行のタイミングは問わない。 (Step S108) The selection unit 18 selects a summary from the summary candidates using the recall or the like calculated by the calculation unit 16. Note that the selection may be performed using rules as described above, or may be performed by machine learning. In the case of using machine learning and also using information related to the relationship specified in the summary source document, the relationship specification unit 17 may perform the process of specifying the relationship in the summary source document as described above. Good. This process will be described later with reference to the flowchart of FIG. If the process for specifying the association in the summary source document is executed before step S108, the execution timing of the process is not limited.
(ステップS109)出力部19は、選択部18が選択した要約を図示しない記録媒体に蓄積すると共に、第3の取得部20に引き渡す。 (Step S <b> 109) The output unit 19 accumulates the summary selected by the selection unit 18 in a recording medium (not shown) and delivers it to the third acquisition unit 20.
(ステップS110)第3の取得部20は、出力部19から受け取った要約に関連する言語表現を取得する。なお、その取得の方法は、前述の(1)(2)の任意の1以上の組合せであってもよい。また、その取得された言語表現は、図示しない記録媒体で記憶されてもよい。 (Step S <b> 110) The third acquisition unit 20 acquires a language expression related to the summary received from the output unit 19. The acquisition method may be any one or more combinations of (1) and (2) described above. Further, the acquired language expression may be stored in a recording medium (not shown).
(ステップS111)特定部21は、抽出された言語表現であって、第3の取得部20によって取得されなかった言語表現を特定する。その特定された言語表現は、図示しない記録媒体で記憶されてもよい。 (Step S <b> 111) The specifying unit 21 specifies the extracted language expression that has not been acquired by the third acquisition unit 20. The specified linguistic expression may be stored in a recording medium (not shown).
(ステップS112)出力部19は、ステップS109で蓄積した要約と、特定部21が特定した要約とをユーザに対して出力する。なお、その出力の際に、助詞を補ってもよいことは前述の通りである。そして、要約を生成する一連の処理は終了となる。 (Step S112) The output unit 19 outputs the summary accumulated in step S109 and the summary specified by the specifying unit 21 to the user. As described above, the particle may be supplemented in the output. Then, a series of processes for generating the summary is completed.
図4は、関連特定部17が要約元文書における言語表現の関連を特定する処理の詳細を示すフローチャートである。なお、図4のフローチャートでは、前述の(A)の方法によって関連を特定する場合について説明するが、関連特定部17が機械学習によって関連を特定してもよいことは前述の通りである。 FIG. 4 is a flowchart showing details of a process in which the relation specifying unit 17 specifies the relation of the language expression in the summary source document. In the flowchart of FIG. 4, the case where the relation is specified by the above-described method (A) will be described. However, as described above, the relation specifying unit 17 may specify the relation by machine learning.
(ステップS201)関連言語表現取得手段22は、要約元文書における言語表現を特定する。その特定された言語表現は、図示しない記録媒体で記憶されてもよい。 (Step S201) The related language expression acquisition means 22 specifies the language expression in the summary source document. The specified linguistic expression may be stored in a recording medium (not shown).
(ステップS202)関連言語表現取得手段22は、ステップS201で特定した各言語表現に対して、その言語表現に関連する関連言語表現を取得する。その取得された関連言語表現は、図示しない記録媒体で記憶されてもよい。なお、関連言語表現が蓄積される際には、その関連言語表現の取得元である、要約元文書に含まれる言語表現と対応付けて蓄積されることが好適である。 (Step S202) The related language expression acquisition unit 22 acquires, for each language expression specified in Step S201, a related language expression related to the language expression. The acquired related language expression may be stored in a recording medium (not shown). When the related language expression is stored, it is preferable to store the related language expression in association with the language expression included in the summary source document from which the related language expression is acquired.
(ステップS203)判断手段23は、カウンタiを1に設定する。 (Step S203) The judging means 23 sets the counter i to 1.
(ステップS204)判断手段23は、ステップS202で取得された関連言語表現のうち、i番目の関連言語表現が要約元文書に含まれるかどうか判断する。そして、含まれる場合には、ステップS205に進み、そうでない場合には、ステップS206に進む。 (Step S204) The determination unit 23 determines whether or not the i-th related language expression is included in the summary source document among the related language expressions acquired in Step S202. If included, the process proceeds to step S205, and if not, the process proceeds to step S206.
(ステップS205)特定手段24は、i番目の関連言語表現と、その関連言語表現の取得元である要約元文書中の言語表現との関連を特定する。 (Step S205) The specifying unit 24 specifies the relationship between the i-th related language expression and the language expression in the summary source document from which the related language expression is acquired.
(ステップS206)判断手段23は、カウンタiを1だけインクリメントする。 (Step S206) The judging means 23 increments the counter i by 1.
(ステップS207)判断手段23は、ステップS202で取得された関連言語表現に、i番目の関連言語表現が含まれるかどうか判断する。そして、含まれる場合には、ステップS204に戻り、そうでない場合には、要約元文書において関連を特定する一連の処理は終了となる。 (Step S207) The determination unit 23 determines whether or not the i-th related language expression is included in the related language expression acquired in Step S202. If it is included, the process returns to step S204. If not, the series of processes for specifying the association in the summary source document ends.
次に、本実施の形態による文書要約装置1の動作について、具体例を用いて説明する。この具体例では、関連は共起であるとする。したがって、この具体例の場合には、関連辞書情報記憶部13を用いないため、文書要約装置1は、関連辞書情報記憶部13を備えていなくてもよい。また、リコールは、前述の式(1)で算出し、プレシジョンは、前述の式(3)で算出する場合について説明する。また、言語表現は、名詞の単語であるとする。なお、連続した名詞は、一の名詞として取り扱うものとする。また、この具体例では、選択部18は、ルールを用いて選択を行うものとする。そのルールは、リコールが最大値である要約候補のうち、プレシジョンが最大値である要約候補を要約として選択する、というものであるとする。したがって、この具体例の場合には、関連特定部17を用いないため、文書要約装置1は、関連特定部17を備えていなくてもよい。 Next, the operation of the document summarizing apparatus 1 according to this embodiment will be described using a specific example. In this specific example, the association is assumed to be co-occurrence. Therefore, in the case of this specific example, the related dictionary information storage unit 13 is not used, and therefore the document summarizing apparatus 1 may not include the related dictionary information storage unit 13. Further, the case where the recall is calculated by the above-described equation (1) and the precision is calculated by the above-described equation (3) will be described. The language expression is a noun word. Note that consecutive nouns are handled as one noun. In this specific example, the selection unit 18 performs selection using a rule. The rule is that a summary candidate with the maximum precision is selected as a summary among the summary candidates with the maximum recall value. Therefore, in the case of this specific example, since the relation specifying unit 17 is not used, the document summarizing apparatus 1 may not include the relation specifying unit 17.
要約元文書記憶部11では、要約元文書「できるだけ良い企業に内定をもらうため、面接の練習を毎日行う。」が記憶されているとする。そして、文書要約の処理が開始されると、抽出部12は、その要約元文書に対して形態素解析を行い、品詞が名詞である形態素「企業」「内定」「ため」「面接」「練習」「毎日」を抽出して、図示しない記録媒体に蓄積する(ステップS101)。次に、第1の取得部14は、抽出された各名詞と共起する単語(共起語)を、共起頻度の上位50語まで取得し、図示しない記録媒体に蓄積する(ステップS102)。なお、この具体例では、共起は、一文の範囲で判断されるものとする。抽出された各名詞に対して、次のように共起語が得られた。この共起語が要約候補である。なお、ユニーク処理後の要約候補の数は、「241個」であった。 It is assumed that the summarization source document storage unit 11 stores the summarization source document “Practice interviews every day to get a job offer from the best possible company”. When the document summarization process is started, the extraction unit 12 performs morpheme analysis on the summary source document, and the morpheme “corporation”, “informed”, “for”, “interview”, “practice” whose part of speech is a noun. “Daily” is extracted and stored in a recording medium (not shown) (step S101). Next, the 1st acquisition part 14 acquires the word (co-occurrence word) which co-occurs with each extracted noun to the top 50 words of co-occurrence frequency, and accumulate | stores it in the recording medium which is not shown in figure (step S102). . In this specific example, the co-occurrence is determined within the range of one sentence. Co-occurrence words were obtained for each extracted noun as follows. This co-occurrence word is a summary candidate. The number of summary candidates after the unique processing was “241”.
企業:社会,紹介,客,多く,個人,提供,責任,情報,日本,皆様…
内定:企業,女性,就職活動,情報,説明会,試験,学生,会社,書籍,雑誌…
ため:共起語なし
面接:自己PR,質問,転職,際,会社,採用,今日,ポイント,履歴書,試験…
練習:今日,成果,参加,毎日,試合,時間,私,日,日々,曲…
毎日:更新,生活,維持,仕事,食事,熟女,チェック,私,情報,メール…
Company: Society, Introduction, Customer, Many, Individual, Offer, Responsibility, Information, Japan, Everyone ...
Job offer: company, woman, job hunting, information, briefing, exam, student, company, book, magazine ...
Because: No co-occurrence words Interview: Self-promotion, questions, job changes, company, recruitment, today, points, resume, exam ...
Practice: Today, Achievements, Participation, Daily, Match, Time, Me, Day, Daily, Song…
Every day: update, life, maintenance, work, meal, mature woman, check, me, information, email…
次に、第2の取得部15は、各要約候補の共起語を取得し、算出部16は、リコールとプレシジョンとを算出する(ステップS103〜S107)。ここでは、要約候補「自己PR」「就職活動」について、リコール等を算出する処理を具体的に説明する。 Next, the second acquisition unit 15 acquires a co-occurrence word of each summary candidate, and the calculation unit 16 calculates a recall and a precision (steps S103 to S107). Here, processing for calculating a recall or the like for the summary candidates “self PR” and “job hunting” will be specifically described.
第2の取得部15は、要約候補「自己PR」に関連する単語として、その要約候補「自己PR」の共起語であり、共起頻度の上位50語までの単語を取得するものとする。すると、次の共起語が得られた。
「自己PR」の共起語:面接ポイント,履歴書,書き,志望動機,自信,例文,自己分析,私,エントリーシート,日記,考え,記入,セオリー,自分,版,雇用条件,効果,あなた,職務経歴書,例,言葉,仕方,面接対策,入力,掲載,仕事,就職活動,アピール,就職,作成,内容,相手,具体,方法,魅力,自己紹介,写真,テーマ,登録画面,希望日,下部,差,転職,究極,学生,メール,質問,投稿,欄,事務系職種
The second acquisition unit 15 acquires, as words related to the summary candidate “self-PR”, words that are co-occurrence words of the summary candidate “self-PR” and have words up to the top 50 words of the co-occurrence frequency. . Then, the following co-occurrence word was obtained.
Co-occurrence words of “self-PR”: interview points, resume, writing, motivation, confidence, example sentences, self-analysis, I, entry sheet, diary, thought, entry, theory, self, edition, employment conditions, effect, you , Job history, examples, words, methods, interview measures, input, publication, work, job hunting, appeal, job hunting, creation, content, partner, concrete, method, attractiveness, self-introduction, photo, theme, registration screen, hope Day, bottom, difference, job change, ultimate, student, email, question, post, column, office type
この場合には、InputWordの個数は、「企業」「内定」「ため」「面接」「練習」「毎日」の「6個」である。したがって、Count{InputWord}=6である。また、RelatedWord、すなわち、「自己PR」の共起語は前述のように「50個」であるため、Count{RelatedWord}=50となる。また、InputWordと、RelatedWordとの共通部分は、「面接」のみであるため、Count{RelatedWord∩InputWord}=1となる。また、RelatedWordとCandidateと共通する単語は、31個であったとする。すると、Count{RelatedWord∩(InputWord∪Candidate)}=32となる。したがって、算出部16は、リコール=1/6=0.167と、プレシジョン=32/50=0.640とを算出し、それらを要約候補「自己PR」に対応付けて蓄積する。 In this case, the number of InputWords is “6”: “Company”, “Unofficial”, “For”, “Interview”, “Practice”, and “Everyday”. Therefore, Count {InputWord} = 6. Also, since the co-occurrence words of “Related Word”, that is, “self PR” is “50” as described above, Count {Related Word} = 50. In addition, since the common part between InputWord and RelatedWord is only “interview”, Count {RelatedWord∩InputWord} = 1. In addition, it is assumed that 31 words are common to RelatedWord and Candidate. Then, Count {RelatedWord∩ (InputWord∪Candidate)} = 32. Therefore, the calculation unit 16 calculates recall = 1/6 = 0.167 and precision = 32/50 = 0.640, and stores them in association with the summary candidate “self-PR”.
次に、要約候補「就職活動」について、リコール等が算出される処理について説明する。第2の取得部15は、要約候補「就職活動」の共起語を、共起頻度の上位50語まで取得する。すると、次の共起語が得られたとする。
「就職活動」の共起語:学生,情報,機能,ML,応援,支援,内定,求人情報,基本,時期,個人,多数,私,皆さん,皆様,サポート,開始,サイト,あなた,誰,自分,大学生,アドバイス,成功,提供,面接,先輩,役,高校生,みなさん,現在,本格,就職,会社情報,紹介,際,転職,苦戦,就職難,仕事,利用,企業,クリエイティブ系,調剤薬局,流れ,為,今,毎日,資料,ドラッグストア
Next, a process for calculating a recall or the like for the summary candidate “job hunting activity” will be described. The second acquisition unit 15 acquires the co-occurrence words of the summary candidate “job hunting activity” up to the top 50 words of the co-occurrence frequency. Then, the following co-occurrence word is obtained.
Co-occurrence words for “job hunting”: student, information, function, ML, support, support, job offer, basic, time, individual, many, me, you, everyone, support, start, site, you, who, Self, university student, advice, success, offer, interview, senior, role, high school student, everyone, now, full-time, employment, company information, introduction, when, job change, hardship, job, use, company, creative, dispensing Pharmacy, flow, for now, every day, document, drugstore
この場合も、Count{InputWord}=6であり、Count{RelatedWord}=50である。また、InputWordと、RelatedWordとの共通部分は、「企業」「内定」「面接」「毎日」の「4個」であるため、Count{RelatedWord∩InputWord}=4となる。また、RelatedWordとCandidateと共通する単語は、48個であったとする。すると、Count{RelatedWord∩(InputWord∪Candidate)}=52となる。したがって、算出部16は、リコール=4/6=0.667と、プレシジョン=52/50=1.040とを算出し、それらを要約候補「就職活動」に対応付けて蓄積する。なお、ここでは、Count{RelatedWord∩(InputWord∪Candidate)}を算出する際に、InputWord∪Candidateにおいてユニーク処理を行わず、「のべ」の単語を用いたため、プレシジョンが「1」の値を超えることになっている。 Again, Count {InputWord} = 6 and Count {RelatedWord} = 50. In addition, since the common part of InputWord and RelatedWord is “4” of “company”, “internal offer”, “interview”, and “everyday”, Count {RelatedWord∩InputWord} = 4. Also, assume that there are 48 words in common with RelatedWord and Candidate. Then, Count {Related Word ∩ (Input Word id Candidate)} = 52. Therefore, the calculation unit 16 calculates recall = 4/6 = 0.667 and precision = 52/50 = 1.040, and stores them in association with the summary candidate “job hunting activity”. Note that here, when calculating Count {RelatedWord∩ (InputWord∪Candidate)}, the unique process is not performed in InputWord∪Candidate, and the word “No.” is used, so the precision exceeds the value of “1”. It is supposed to be.
なお、第2の取得部15は、要約候補「自己PR」「就職活動」の場合と同様に、残りの239個の要約候補についても、共起語の取得を行い、算出部16は、各要約候補について、リコールとプレシジョンを算出する処理を行う。 The second acquisition unit 15 acquires co-occurrence words for the remaining 239 summary candidates as in the case of the summary candidates “self-PR” and “job hunting”. For the summary candidate, a process of calculating recall and precision is performed.
その後、選択部18は、要約の選択を行う(ステップS108)。前述のように、選択部18は、リコールが最も高い値である要約候補の中から、プレシジョンが最も高い値である要約候補を要約として選択する。この場合には、「就職活動」が選択され、出力部19に渡されたとする。すると、出力部19は、その要約「就職活動」を第3の取得部20に渡すと共に、図示しない記録媒体に蓄積する(ステップS109)。 Thereafter, the selection unit 18 selects a summary (step S108). As described above, the selection unit 18 selects, as a summary, a summary candidate having the highest precision value from the summary candidates having the highest recall value. In this case, it is assumed that “job hunting” is selected and passed to the output unit 19. Then, the output unit 19 passes the summary “job hunting” to the third acquisition unit 20 and accumulates it in a recording medium (not shown) (step S109).
第3の取得部20は、出力部19から受け取った要約「就職活動」の共起語を、共起頻度の上位50語まで取得する(ステップS110)。ここでは、前述の第2の取得部15の場合と同様に、「就職活動」の共起語が取得され、特定部21に渡される。特定部21は、抽出部12が抽出した単語「企業」「内定」「ため」「面接」「練習」「毎日」を図示しない記録媒体から読み出し、その単語のうち、「就職活動」の共起語に含まれないものを特定する(ステップS111)。この場合には、「ため」「練習」が特定され、出力部19に渡される。出力部19は、それらの単語を受け取ると、要約元文書「できるだけ良い企業に内定をもらうため、面接の練習を毎日行う。」の要約として、「就職活動」「ため」「練習」を出力する(ステップS112)。その出力は、ディスプレイへの表示であってもよい。また、その出力の際に、例えば、「就職活動のための練習」というように、助詞を補ってもよいことは前述の通りである。 The third acquisition unit 20 acquires the co-occurrence words of the summary “job hunting activity” received from the output unit 19 up to the top 50 words of the co-occurrence frequency (step S110). Here, as in the case of the second acquisition unit 15 described above, a co-occurrence word of “job hunting” is acquired and passed to the specifying unit 21. The identification unit 21 reads out the words “company”, “unsettled”, “for interview”, “interview”, “practice”, and “everyday” extracted by the extraction unit 12 from a recording medium (not shown), and among the words, co-occurrence of “job hunting” Those not included in the word are specified (step S111). In this case, “for” and “practice” are specified and passed to the output unit 19. Upon receiving these words, the output unit 19 outputs “job hunting”, “for” and “practice” as a summary of the summarizing source document “Perform interviews every day to get a job offer from the best possible company”. (Step S112). The output may be a display on a display. In addition, as described above, the particle may be supplemented at the time of output, for example, “practice for job hunting”.
ここで、リコールを優先して要約を選択する理由と、プレシジョンの算出において、上記の式(4)ではなく、式(3)を用いる理由について説明する。以下の実験では、次の2つの基準でスコアの算出を行った。 Here, the reason why priority is given to recall and the summary is selected, and the reason why Expression (3) is used instead of Expression (4) above in the calculation of precision will be described. In the following experiment, the score was calculated according to the following two criteria.
基準1:リコールの高い順で並び替える。リコールが同じ値のものはプレシジョンが高いものを優先する。
基準2:F値の高い順で並び替える。F値が同じ値のものはプレシジョンが高いものを優先する。
Criterion 1: Sort in descending order of recall. Those with the same recall value have higher priority.
Criterion 2: Sort in descending order of F value. Those with the same F value have priority over those with high precision.
評価のための要約元文書の例文は24個であり、それぞれ正解の要約も用意した。そして、A評価と、A+B評価によって評価を行った。A評価は、あらかじめ用意した正解の要約に近いものを正解としない評価手法である。一方、A+B評価は、あらかじめ用意した正解の要約に近いものを正解とする評価手法である。そして、一定順位(1位、5位、10位)以内に正解があることを許した際の単純な正解率と、MRRとを算出した。MRRは、次式で算出される評価値である。
ここで、Nは評価する対象の数(=24)であり、rは、評価する対象の正確の順位である。また、前述の式(3)でプレシジョンを算出した場合の評価値を「新評価値」として、前述の式(4)でプレシジョンを算出した場合の評価値を「旧評価値」とした。その結果は、次のようになった。なお、評価する対象が正解であれば、「1」が付与され、正解でなければ「0」が付与され、その値をすべての評価対象に対して合計してNで割ったものが正解率である。 Here, N is the number of objects to be evaluated (= 24), and r is the exact rank of the objects to be evaluated. Further, the evaluation value when the precision was calculated by the above-described formula (3) was set as “new evaluation value”, and the evaluation value when the precision was calculated by the above-described formula (4) was set as “old evaluation value”. The result was as follows. If the object to be evaluated is a correct answer, “1” is given, and if it is not correct, “0” is given, and the sum of the values for all evaluation objects is divided by N. It is.
◎1位までを正解としたときのA評価の正解率
・新評価値(F値が高い順) 0.125
・新評価値(リコールが高い順) 0.125
・旧評価値(F値が高い順) 0.042
・旧評価値(リコールが高い順) 0.125
◎1位までを正解としたときのA+B評価の正解率
・新評価値(F値が高い順) 0.292
・新評価値(リコールが高い順) 0.292
・旧評価値(F値が高い順) 0.167
・旧評価値(リコールが高い順) 0.292
◎5位までを正解としたときのA評価の正解率
・新評価値(F値が高い順) 0.208
・新評価値(リコールが高い順) 0.208
・旧評価値(F値が高い順) 0.250
・旧評価値(リコールが高い順) 0.125
◎5位までを正解としたときのA+B評価の正解率
・新評価値(F値が高い順) 0.708
・新評価値(リコールが高い順) 0.708
・旧評価値(F値が高い順) 0.625
・旧評価値(リコールが高い順) 0.333
◎10位までを正解としたときのA評価の正解率
・新評価値(F値が高い順) 0.208
・新評価値(リコールが高い順) 0.250
・旧評価値(F値が高い順) 0.292
・旧評価値(リコールが高い順) 0.292
◎10位までを正解としたときのA+B評価の正解率
・新評価値(F値が高い順) 0.750
・新評価値(リコールが高い順) 0.792
・旧評価値(F値が高い順) 0.667
・旧評価値(リコールが高い順) 0.750
◎MRRのA評価の結果
・新評価値(F値が高い順) 0.1528
・新評価値(リコールが高い順) 0.1535
・旧評価値(F値が高い順) 0.1174
・旧評価値(リコールが高い順) 0.1047
◎MRRのA+B評価の結果
・新評価値(F値が高い順) 0.4372
・新評価値(リコールが高い順) 0.4448
・旧評価値(F値が高い順) 0.3292
・旧評価値(リコールが高い順) 0.3999
◎ Accuracy rate of A evaluation when 1st place is regarded as correct ・ New evaluation value (in descending order of F value) 0.125
・ New evaluation value (in order of recall) 0.125
・ Old evaluation value (in order of F value) 0.042
・ Old evaluation value (in order of highest recall) 0.125
◎ Accuracy rate of A + B evaluation when 1st place is the correct answer ・ New evaluation value (in order of F value) 0.292
・ New evaluation value (in order of high recall) 0.292
・ Old evaluation value (in order of F value) 0.167
・ Old evaluation value (in order of highest recall) 0.292
◎ Accuracy rate of A evaluation when the correct answer is ranked up to 5th place ・ New evaluation value (in descending order of F value) 0.208
・ New evaluation value (in order of high recall) 0.208
・ Old evaluation value (in order of F value) 0.250
・ Old evaluation value (in order of highest recall) 0.125
◎ Accuracy rate of A + B evaluation with 5th place as correct answer ・ New evaluation value (in order of F value) 0.708
・ New evaluation value (in order of recall) 0.708
・ Old evaluation value (in descending order of F value) 0.625
・ Old evaluation value (in order of recall) 0.333
◎ Accuracy rate of A evaluation when the correct answer is 10th place ・ New evaluation value (in order of F value) 0.208
・ New evaluation value (in order of high recall) 0.250
・ Old evaluation value (in descending order of F value) 0.292
・ Old evaluation value (in order of highest recall) 0.292
◎ Accuracy rate of A + B evaluation when the correct answer is 10th place ・ New evaluation value (in order of F value) 0.750
・ New evaluation value (in order of recall) 0.792
・ Old evaluation value (in descending order of F value) 0.667
・ Old evaluation value (in order of recall) 0.750
◎ Results of MRR A evaluation ・ New evaluation values (in descending order of F value) 0.1528
・ New evaluation value (in order of highest recall) 0.1535
・ Old evaluation value (in descending order of F value) 0.1174
・ Old evaluation values (in order of recall) 0.1047
◎ Results of MRR A + B evaluation ・ New evaluation values (in descending order of F value) 0.4372
・ New evaluation value (in order of high recall) 0.4448
・ Old evaluation value (in order of F value) 0.3292
・ Old evaluation value (in order of recall) 0.3999
まず、新評価値におけるリコール優先と、F値優先との違いについて説明する。要約元文書が「バットでボールを打つ。ボールが打たれたらグラブで捕る。」である場合について説明する。この場合には、抽出される名詞は「バット」「ボール」「ボール」「グラブ」となる。また、要約候補ごとのリコールやプレシジョン、F値は、次のようになる。 First, the difference between the recall priority in the new evaluation value and the F value priority will be described. The case where the summary original document is “hit a ball with a bat. When a ball is hit, catch it with a grab” will be described. In this case, the extracted nouns are “bat”, “ball”, “ball”, and “grab”. The recall, precision and F value for each summary candidate are as follows.
◎リコール優先
1 ミット リコール:1.000 プレシジョン:0.840 F値:0.913
2 打球 リコール:1.000 プレシジョン:0.720 F値:0.837
3 スパイク リコール:1.000 プレシジョン:0.700 F値:0.824
4 バット リコール:0.750 プレシジョン:1.720 F値:1.045
5 グラブ リコール:0.750 プレシジョン:1.600 F値:1.021
6 素振り リコール:0.750 プレシジョン:0.680 F値:0.713
7 グローブ リコール:0.750 プレシジョン:0.620 F値:0.679
8 スイング リコール:0.750 プレシジョン:0.580 F値:0.654
9 芯 リコール:0.750 プレシジョン:0.560 F値:0.641
10 野球 リコール:0.750 プレシジョン:0.460 F値:0.570
◎F値優先
1 バット リコール:0.750 プレシジョン:1.720 F値:1.045
2 グラブ リコール:0.750 プレシジョン:1.600 F値:1.021
3 ミット リコール:1.000 プレシジョン:0.840 F値:0.913
4 打球 リコール:1.000 プレシジョン:0.720 F値:0.837
5 スパイク リコール:1.000 プレシジョン:0.700 F値:0.824
6 素振り リコール:0.750 プレシジョン:0.680 F値:0.713
7 グローブ リコール:0.750 プレシジョン:0.620 F値:0.679
8 スイング リコール:0.750 プレシジョン:0.580 F値:0.654
9 芯 リコール:0.750 プレシジョン:0.560 F値:0.641
10 シュート リコール:0.500 プレシジョン:0.700 F値:0.583
◎ Recall priority 1 Mitt Recall: 1.000 Precision: 0.840 F value: 0.913
2 Hitting Ball Recall: 1.000 Precision: 0.720 F-number: 0.837
3 Spike Recall: 1.000 Precision: 0.700 F-number: 0.824
4 Butt recall: 0.750 Precision: 1.720 F-number: 1.045
5 Grab recall: 0.750 Precision: 1.600 F-number: 1.021
6 Elementary recall: 0.750 Precision: 0.680 F-number: 0.713
7 Globe Recall: 0.750 Precision: 0.620 F-number: 0.679
8 Swing Recall: 0.750 Precision: 0.580 F-number: 0.654
9 cores Recall: 0.750 Precision: 0.560 F value: 0.641
10 Baseball Recall: 0.750 Precision: 0.460 F-number: 0.570
◎ F value priority 1 Butt recall: 0.750 Precision: 1.720 F value: 1.045
2 Grab recall: 0.750 Precision: 1.600 F value: 1.021
3 Mits Recall: 1.000 Precision: 0.840 F-number: 0.913
4 Hitting Ball Recall: 1.000 Precision: 0.720 F-number: 0.837
5 Spike Recall: 1.000 Precision: 0.700 F-number: 0.824
6 Elementary recall: 0.750 Precision: 0.680 F-number: 0.713
7 Globe Recall: 0.750 Precision: 0.620 F-number: 0.679
8 Swing Recall: 0.750 Precision: 0.580 F-number: 0.654
9 cores Recall: 0.750 Precision: 0.560 F value: 0.641
10 Shoot Recall: 0.500 Precision: 0.700 F-number: 0.583
上記結果において、リコールを優先した場合とF値を優先した場合では、リコールを優先した場合の方が高いMRR値を持ち、優位であるという結果になった。結果の違いが一番顕著に現れている例が上記のものである。この結果を見ると、リコール優先の方では10位に正解の「野球」という単語が得られたが、F値優先では10位以内には入らなかった。また、入力の一文目にある「バットでボールを打つ。」の箇所を現す「打球」という単語もリコール優先では2位となっており、この点からもリコール優先で順位付けをした方がよい結果となっていると考えられる。 In the above results, when priority is given to recall and priority is given to F value, priority is given to recall, which has a higher MRR value and results. The example in which the difference in the results is most noticeable is the above. Looking at this result, the correct word “baseball” was obtained in the 10th place in the recall priority, but it was not in the 10th place in the F value priority. In addition, the word “hit ball”, which represents the “striking ball with bat” in the first sentence of the input, is second in recall priority, and it is better to rank in priority from this point as well. It is thought that it is a result.
また、F値はリコールとプレシジョンの調和平均であるため、少なからずプレシジョンの影響が発生する。そして、プレシジョンには、「要約元文書の名詞から得られる共起語」も正解としており、入力文から得られる単語の意味とは離れた単語も僅かながら含まれている。しかし、リコールでは「要約元文書から得られた名詞」のみを正解としている。このことから、リコールの方がプレシジョン(≒F値)より純度の高い正解といえる。この差が、リコールを優先させた方が若干でもよい結果になった理由であると考えられる。 Further, since the F value is a harmonic average of recall and precision, there is a considerable influence of precision. The precision also includes “co-occurrence words obtained from nouns in the summary source document” as correct answers, and includes words that are slightly different from the meanings of words obtained from input sentences. However, in the recall, only “nouns obtained from the source document” are correct. From this, it can be said that the recall is a correct answer with higher purity than the precision (≈F value). This difference is considered to be the reason why the priority is given to the recall.
次に、プレシジョンの新評価値と旧評価値との違いについて説明する。要約元文書が「食事制限をし、毎日ジョギングなどの運動を行う。」の場合には、抽出される名詞は「食事制限」「毎日ジョギング」「運動」となる。また、要約候補ごとのリコールやプレシジョン、F値は、次のようになる。 Next, the difference between the new evaluation value and the old evaluation value will be described. In the case where the summarizing source document is “Restrict meals and perform exercise such as jogging every day”, the extracted nouns are “meal restriction”, “daily jogging”, and “exercise”. The recall, precision and F value for each summary candidate are as follows.
◎新評価値
1 ダイエット
リコール:0.667 プレシジョン:0.620 F値:0.642
2 有酸素運動
リコール:0.667 プレシジョン:0.500 F値:0.571
3 脂肪燃焼
リコール:0.667 プレシジョン:0.500 F値:0.571
4 減量
リコール:0.667 プレシジョン:0.420 F値:0.515
5 消費エネルギー
リコール:0.667 プレシジョン:0.360 F値:0.468
6 プロモデル
リコール:0.667 プレシジョン:0.180 F値:0.283
7 食事制限
リコール:0.333 プレシジョン:1.240 F値:0.525
8 運動
リコール:0.333 プレシジョン:1.240 F値:0.525
9 筋トレ
リコール:0.333 プレシジョン:0.540 F値:0.412
10 リバウンド
リコール:0.333 プレシジョン:0.500 F値:0.400
◎旧評価値
1 ダイエット
リコール:0.667 プレシジョン:0.040 F値:0.075
2 消費エネルギー
リコール:0.667 プレシジョン:0.040 F値:0.075
3 脂肪燃焼
リコール:0.667 プレシジョン:0.040 F値:0.075
4 プロモデル
リコール:0.667 プレシジョン:0.040 F値:0.075
5 減量
リコール:0.667 プレシジョン:0.040 F値:0.075
6 有酸素運動
リコール:0.667 プレシジョン:0.040 F値:0.075
7 ストレッチ
リコール:0.333 プレシジョン:0.020 F値:0.038
8 二重まぶた
リコール:0.333 プレシジョン:0.020 F値:0.038
9 エクササイズ
リコール:0.333 プレシジョン:0.020 F値:0.038
10 継続
リコール:0.333 プレシジョン:0.020 F値:0.038
◎ New Evaluation Value 1 Diet Recall: 0.667 Precision: 0.620 F-number: 0.642
2 Aerobic Recall: 0.667 Precision: 0.500 F value: 0.571
3 Fat burning Recall: 0.667 Precision: 0.500 F value: 0.571
4 Weight loss Recall: 0.667 Precision: 0.420 F value: 0.515
5 Energy consumption Recall: 0.667 Precision: 0.360 F value: 0.468
6 Pro Model Recall: 0.667 Precision: 0.180 F-number: 0.283
7 Meal restriction Recall: 0.333 Precision: 1.240 F value: 0.525
8 Movement Recall: 0.333 Precision: 1.240 F-number: 0.525
9 muscle recall: 0.333 Precision: 0.540 F value: 0.412
10 Rebound Recall: 0.333 Precision: 0.500 F-number: 0.400
◎ Old evaluation value 1 Diet recall: 0.667 Precision: 0.040 F value: 0.075
2 Energy consumption Recall: 0.667 Precision: 0.040 F value: 0.075
3 Fat burning Recall: 0.667 Precision: 0.040 F value: 0.075
4 Pro Model Recall: 0.667 Precision: 0.040 F-number: 0.075
5 Weight loss Recall: 0.667 Precision: 0.040 F value: 0.075
6 Aerobic Recall: 0.667 Precision: 0.040 F value: 0.075
7 Stretch Recall: 0.333 Precision: 0.020 F-number: 0.038
8 Double eyelid Recall: 0.333 Precision: 0.020 F value: 0.038
9 Exercise Recall: 0.333 Precision: 0.020 F-number: 0.038
10 Continuation Recall: 0.333 Precision: 0.020 F-number: 0.038
両方とも、1位には理想の正解である「ダイエット」が得られている。しかし、旧評価値の結果を見ると、1位から6位までのスコアがすべて同じ、つまり同率となっている。一方、新評価値の結果は、同率で1位ということにはなっていない。このことから、新評価値の結果のほうが実用性等も考慮すると優位な結果であるといえる。 In both cases, “Diet”, which is an ideal correct answer, is obtained in the first place. However, looking at the results of the old evaluation values, the scores from 1st to 6th are all the same, that is, the same rate. On the other hand, the result of the new evaluation value is not the first place at the same rate. From this, it can be said that the result of the new evaluation value is a superior result considering practicality and the like.
以上の実験結果から、最もよいルールは、プレシジョンの算出に「新評価値」、すなわち、式(3)を用いて、「リコールを優先させる」方法であるといえる。なお、このたびの実験では、そのような結果が出たが、もっと評価数を増やしたりして異なる実験を行った場合には、必ずしもそのような結果になるとは限らないと考えられる。したがって、選択部18がルールを用いて要約を選択する際のルールは、種々のものがありうると考えられる。 From the above experimental results, it can be said that the best rule is a method of “prioritizing recall” using “new evaluation value”, that is, Expression (3), for calculating the precision. In this experiment, such a result was obtained. However, when a different experiment is performed by increasing the number of evaluations, it is not necessarily the case. Therefore, it is considered that there may be various rules when the selection unit 18 selects a summary using a rule.
以上のように、本実施の形態による文書要約装置1によれば、要約元文書に含まれない言語表現を用いて、要約を自動生成することができる。したがって、例えば、要約元文書「爆弾が爆発した。死傷者が出た。反政府運動がきっかけである。」に対して、端的な要約「テロ」を生成することができるようになる。また、そのようにして端的な要約を生成した場合には、情報の取り落としが発生することが考えられる。したがって、第2の取得部15及び特定部21を用いることによって、そのような取り落としをも特定することができ、さらに、その取り落とした言語表現を出力したり、その取り落とした言語表現に対する要約を生成したりすることができる。 As described above, according to the document summarization apparatus 1 according to the present embodiment, it is possible to automatically generate a summary using a language expression that is not included in the summary source document. Therefore, for example, it becomes possible to generate a brief summary “terrorism” for the summary source document “bomb explodes. Casualties are incurred. In addition, when a brief summary is generated in this way, it is possible that information is dropped. Therefore, by using the second acquisition unit 15 and the specifying unit 21, it is possible to specify such a dropout, and further output the dropped language expression or generate a summary for the dropped language expression. You can do it.
なお、要約元文書の内容には、重要な箇所とそうでない箇所とがある。そして、重要な箇所ほど、正確に内容を復元できる要約のほうがよいと考えられる。したがって、リコールとプレシジョンの算出では、重要な言語表現ほど重視するようにしてもよい。したがって、図6で示されるように、文書要約装置1は、重要度算出部25をさらに備え、算出部16は、重要度算出部25が算出した重要度を、要約元文書に含まれる言語表現の重みとして用いて、リコール及びプレシジョンを算出してもよい。重要度を重みとして用いてリコール等を算出するとは、リコール等の算出において、要約元文書に含まれる言語表現の数をカウントする際に、ある言語表現のカウントを、「1」からその重要度に代えることを言う。したがって、重要度が「1」「2」「3」の3個の言語表現の数をカウントする場合には、重みがなければ「3」となるが、重要度の重みを考慮すると、「6」となる。 The contents of the summary source document include an important part and a part that is not so. And it is considered better for the summary that the content can be accurately restored for the important part. Therefore, in the calculation of recall and precision, the more important language expressions may be emphasized. Therefore, as shown in FIG. 6, the document summarization apparatus 1 further includes an importance level calculation unit 25, and the calculation unit 16 expresses the importance level calculated by the importance level calculation unit 25 in the language expression included in the summary source document. The recall and precision may be calculated by using as the weight. Calculation of recall etc. using importance as a weight means that when calculating the number of language expressions included in the summary source document in the calculation of recall etc., the count of a certain language expression is changed from “1” to its importance. Say to replace. Therefore, when the number of the three language expressions having importance “1”, “2”, and “3” is counted, “3” is obtained if there is no weight. "
なお、重要度算出部25は、要約元文書に含まれる言語表現ごとの重要度を算出する。その重要度を算出する方法は問わない。例えば、重要度算出部25は、(I)TF・IDFである重要度を算出してもよく、(II)機械学習によって重要度を算出してもよい。 The importance calculation unit 25 calculates the importance for each language expression included in the summary source document. The method for calculating the importance is not limited. For example, the importance calculation unit 25 may calculate (I) the importance that is TF / IDF, or (II) calculate the importance by machine learning.
(I)TF・IDFを用いる方法では、重要度算出部25は、重要度として、TF・IDFを算出する。この場合には、別途、TF・IDFを算出するために用いられるコーパスが存在する。そのコーパスは、文書要約装置1における図示しない記録媒体において保持されていてもよく、あるいは、重要度算出部25がアクセス可能な、文書要約装置1の外部で保持されていてもよい。なお、そのコーパスに含まれる文書と、要約元文書との分野とは、同じであるほうが好適である。なお、TF・IDFを算出する方法は、すでに公知であるため、その詳細な方法を省略する。 (I) In the method using TF / IDF, the importance calculation unit 25 calculates TF / IDF as the importance. In this case, there is a separate corpus that is used to calculate TF / IDF. The corpus may be held in a recording medium (not shown) in the document summarizing apparatus 1 or may be held outside the document summarizing apparatus 1 accessible by the importance degree calculation unit 25. It is preferable that the fields of the document included in the corpus and the summary source document are the same. In addition, since the method of calculating TF * IDF is already well-known, the detailed method is abbreviate | omitted.
(II)機械学習を用いる方法では、重要度算出部25は、機械学習を用いて、要約元文書における言語表現の重要度を算出する。その機械学習の素性には、言語表現と、その言語表現の属性(例えば、品詞や上位語等)とが少なくとも含まれるものとする。さらに、その言語表現の共起語、その共起語の属性、その言語表現のTF、その言語表現のIDF、その言語表現のTF・IDFのうち、任意の1以上のものが素性に含まれてもよい。また、共起語に代えて、言語表現に関連辞書情報によって関連づけられる言語表現を用いてもよい。 (II) In the method using machine learning, the importance calculation unit 25 uses machine learning to calculate the importance of language expression in the summary source document. The feature of the machine learning includes at least a language expression and attributes of the language expression (for example, part of speech or broader word). Furthermore, the feature includes any one or more of the co-occurrence words of the language expression, the attributes of the co-occurrence word, the TF of the language expression, the IDF of the language expression, and the TF / IDF of the language expression. May be. Further, instead of the co-occurrence word, a language expression associated with the language expression by the related dictionary information may be used.
その機械学習で用いられる教師データは、言語表現が重要であるかどうかを示す情報と、その言語表現に対する前述の素性の各値である。なお、要約元文書の分野と、この機械学習の教師データで使用する文書の分野とは、同じであるほうが好適である。 The teacher data used in the machine learning includes information indicating whether or not the language expression is important, and values of the above-described features for the language expression. It is preferable that the field of the summary source document and the field of the document used in the machine learning teacher data are the same.
教師データを用いた学習の後に、要約元文書から抽出した任意の言語表現について、素性の各値を取得し、その素性の各値を入力することによって、その言語表現が重要であるかどうかと、その確信度とを得ることができる。したがって、重要度算出部25は、例えば、重要と判断された言語表現の重要度を「2」に設定し、重要でないと判断された言語表現の重要度を「1」に設定してもよい。また、重要度算出部25は、例えば、重要と判断された言語表現については、「1+確信度」を重要度として用い、重要でないと判断された言語表現については、「1−確信度」を重要度として用いてもよい。なお、重要であると判断された言語表現の重要度のほうが、重要でないと判断された言語表現の重要度よりも高い値となるのであれば、この重要度の算出の方法は問わない。また、機械学習において、教師データ自体を重要であるかどうかではなく、多段階の重要度、例えば、1〜5の5段階の整数の重要度で示すようにしてもよい。なお、数値の大きい方が重要であるとする。その場合には、教師データとして、多段階の重要度と、素性の各値とを用いることになる。また、学習の際には、例えば、サポートベクター回帰(SVR:Support Vector Regression)を用いてもよい。また、重要度算出部25は、前述の(い)において説明したスコアを、要約元文書に含まれる言語表現の重要度として算出してもよい。例えば、ある文書の範囲のスコアが「3」と判断された場合には、その文書の範囲に含まれる言語表現については、重要度を「3」としてもよい。なお、関連特定部17によってすでにそのスコアが算出されている場合には、重要度算出部25は、そのスコアを取得するだけであってもよい。また、そのスコアを、正規化してもよい。例えば、スコアの最大値を取得し、すべてのスコアをその最大値で割ることによって、スコアの最大値が1になるようにしてもよい。 For each language expression extracted from the source document after learning using the teacher data, by acquiring each feature value and entering each feature value, whether the language expression is important , You can get that confidence. Therefore, for example, the importance calculation unit 25 may set the importance of the language expression determined to be important to “2”, and may set the importance of the language expression determined to be unimportant to “1”. . Further, the importance calculation unit 25 uses, for example, “1 + confidence” as the importance for the language expression determined to be important, and sets “1-confidence” for the language expression determined as not important. It may be used as importance. If the importance level of the language expression determined to be important is higher than the importance level of the language expression determined to be not important, the method of calculating the importance level is not limited. Further, in machine learning, the teacher data itself may be indicated not by whether it is important, but by multi-level importance, for example, five levels of integer importance of 1 to 5. It is assumed that a larger value is more important. In that case, multi-level importance and feature values are used as teacher data. In learning, for example, support vector regression (SVR) may be used. Further, the importance level calculation unit 25 may calculate the score described in (i) above as the importance level of the language expression included in the summary source document. For example, when the score of a certain document range is determined to be “3”, the importance may be set to “3” for the language expression included in the document range. Note that, when the score has already been calculated by the association specifying unit 17, the importance calculating unit 25 may only acquire the score. Further, the score may be normalized. For example, the maximum score value may be set to 1 by acquiring the maximum score value and dividing all the scores by the maximum value.
なお、関連特定部17によって、要約元文書の範囲ごとにスコアを算出した場合に、例えば、そのスコアの高い箇所のみを用いて、要約の生成を行ってもよい。すなわち、要約元文書記憶部11で記憶されている要約元文書のうち、選択された一部を用いて要約の生成を行ってもよい。その場合の選択の方法として、例えば、前述のスコアを用いてもよい。 In addition, when the score is calculated for each range of the summary source document by the association specifying unit 17, for example, the summary may be generated using only a portion having a high score. That is, a summary may be generated using a selected part of the summary source documents stored in the summary source document storage unit 11. As a selection method in that case, for example, the above-described score may be used.
また、本実施の形態では、取り落とした言語表現を特定部21によって特定し、その言語表現を出力したり、その言語表現に対して再度、要約を作成したりする処理を行う場合について説明したが、それらの処理を行わなくてもよい。その場合には、文書要約装置1は、第3の取得部20や、特定部21を備えていなくてもよい。 Further, in the present embodiment, a case has been described in which the language expression that has been dropped is specified by the specifying unit 21 and the language expression is output or a process of creating a summary again for the language expression is performed. These processes may not be performed. In that case, the document summarization apparatus 1 may not include the third acquisition unit 20 or the specifying unit 21.
また、本実施の形態では、関連特定部17によって、要約元文書に含まれる言語表現の関連を特定し、その関連に関する情報をも、要約の選択において用いる場合について説明したが、そうでなくてもよい。要約の選択において、要約元文書における言語表現間の関連に関する情報を用いない場合には、文書要約装置1は、関連特定部17を備えていなくてもよい。 Further, in the present embodiment, the case where the relation specifying unit 17 specifies the relation of the linguistic expression included in the summary source document and the information related to the relation is also used in the selection of the summary has been described. Also good. In the selection of the summary, when the information regarding the relationship between the linguistic expressions in the summary source document is not used, the document summarizing apparatus 1 may not include the relationship specifying unit 17.
また、本実施の形態による文書要約装置1は、関連辞書情報記憶部13を備えており、その関連辞書情報記憶部13で記憶されている関連辞書情報を用いて、ある言語表現に関連する言語表現を取得する場合について説明したが、関連辞書情報を用いた関連する言語表現の取得を行わない場合には、文書要約装置1は、関連辞書情報記憶部13を備えていなくてもよい。 Further, the document summarizing apparatus 1 according to the present embodiment includes a related dictionary information storage unit 13, and uses the related dictionary information stored in the related dictionary information storage unit 13 to use a language related to a certain language expression. Although the case where the expression is acquired has been described, the document summarization apparatus 1 may not include the related dictionary information storage unit 13 when the related language expression is not acquired using the related dictionary information.
(実施の形態2)
本発明の実施の形態2による文書処理装置3について、図面を参照しながら説明する。本実施の形態による文書処理装置3は、関連する箇所を特定するものである。
(Embodiment 2)
A document processing apparatus 3 according to Embodiment 2 of the present invention will be described with reference to the drawings. The document processing apparatus 3 according to the present embodiment specifies a related part.
図7は、本実施の形態による文書処理装置3の構成を示すブロック図である。本実施の形態による文書処理装置3は、文書記憶部31と、関連辞書情報記憶部32と、出力部36と、関連特定部37とを備える。 FIG. 7 is a block diagram showing the configuration of the document processing apparatus 3 according to this embodiment. The document processing apparatus 3 according to the present embodiment includes a document storage unit 31, a related dictionary information storage unit 32, an output unit 36, and a related identification unit 37.
文書記憶部31では、文書が記憶される。この文書は、本実施の形態による文書処理装置3によって、関連する箇所を特定する対象となる文書である。なお、要約元文書が、関連する箇所を特定する対象となる文書になった以外、この文書記憶部31は、実施の形態1の要約元文書記憶部11と同様のものであり、その詳細な説明を省略する。 The document storage unit 31 stores a document. This document is a document that is a target for specifying a related portion by the document processing apparatus 3 according to the present embodiment. The document storage unit 31 is the same as the summary source document storage unit 11 of the first embodiment, except that the summary source document is a document for specifying a related portion. Description is omitted.
関連辞書情報記憶部32では、関連辞書情報が記憶される。この関連辞書情報記憶部32は、実施の形態1の関連辞書情報記憶部13と同様のものであり、その詳細な説明を省略する。 The related dictionary information storage unit 32 stores related dictionary information. The related dictionary information storage unit 32 is the same as the related dictionary information storage unit 13 of the first embodiment, and a detailed description thereof is omitted.
関連特定部37は、文書記憶部31で記憶されている文書において、言語表現の関連を特定する。この関連特定部37は、実施の形態1の関連特定部17と同様のものであり、その詳細な説明を省略する。なお、実施の形態1における関連特定部17と同様に、本実施の形態による関連特定部37でも、前述の(A)(B)の方法で関連を特定してもよい。また、それ以外の方法によって関連を特定してもよいことは言うまでもない。なお、本実施の形態では、以下、関連特定部37が(A)の方法によって関連を特定する場合について説明する。すなわち、関連特定部37が、取得手段33と、判断手段34と、特定手段35とを有する場合について説明する。 The relation specifying unit 37 specifies the relation of language expression in the document stored in the document storage unit 31. The relationship identification unit 37 is the same as the relationship identification unit 17 of the first embodiment, and a detailed description thereof is omitted. Similar to the relationship specifying unit 17 in the first embodiment, the relationship specifying unit 37 according to the present embodiment may also specify the relationship by the methods (A) and (B) described above. It goes without saying that the association may be specified by other methods. In the present embodiment, hereinafter, a case will be described in which the relationship identifying unit 37 identifies a relationship by the method (A). That is, the case where the relation specifying unit 37 includes the acquisition unit 33, the determination unit 34, and the specifying unit 35 will be described.
取得手段33は、文書記憶部31で記憶されている文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する。この取得手段33は、実施の形態1の関連言語表現取得手段22と同様のものであり、その詳細な説明を省略する。 The acquisition unit 33 acquires a related language expression that is a language expression related to the language expression included in the document stored in the document storage unit 31. The acquisition unit 33 is the same as the related language expression acquisition unit 22 of the first embodiment, and a detailed description thereof is omitted.
判断手段34は、取得手段33が取得した関連言語表現が文書記憶部31で記憶されている文書に含まれるかどうか判断する。この判断手段34は、実施の形態1の判断手段23と同様のものであり、その詳細な説明を省略する。 The determination unit 34 determines whether the related language expression acquired by the acquisition unit 33 is included in the document stored in the document storage unit 31. The determination unit 34 is the same as the determination unit 23 of the first embodiment, and a detailed description thereof is omitted.
特定手段35は、判断手段34によって、関連言語表現が文書に含まれると判断された場合に、文書中の関連言語表現と、関連言語表現の取得元である文書中の言語表現との関連を特定する。この特定手段35は、実施の形態1の特定手段24と同様のものであり、その詳細な説明を省略する。 When the determination unit 34 determines that the related language expression is included in the document, the specifying unit 35 associates the relationship between the related language expression in the document and the language expression in the document from which the related language expression is acquired. Identify. The specifying unit 35 is the same as the specifying unit 24 of the first embodiment, and a detailed description thereof is omitted.
出力部36は、関連特定部37が特定した関連を示す情報を出力する。この関連を示す情報は、例えば、関連が特定された2個の言語表現を対にした情報であってもよく、関連が特定された2個の言語表現を矢印や線で結ぶ情報であってもよく、特定手段35が関連を特定する際に蓄積した情報であってもよく、その他の関連を示す情報であってもよい。また、その出力対象となる情報には、関連の種類を示す情報が含まれてもよい。例えば、言語表現Aと言語表現Bとの関連が特定され、その関連は共起であり、言語表現Cと言語表現Dとの関連が特定され、その関連は上位下位である場合には、言語表現Aと言語表現Bとの関連を示す情報と、その関連が共起であることを示す情報とが出力されると共に、言語表現Cと言語表現Dとの関連を示す情報と、その関連が上位下位であることを示す情報とが出力されてもよい。この出力部36による出力がなされることによって、ユーザは、文書記憶部31で記憶されている文書における言語表現間の関連を知ることができるようになる。 The output unit 36 outputs information indicating the relationship specified by the relationship specifying unit 37. The information indicating the relation may be, for example, information obtained by pairing two linguistic expressions whose relations are specified, and is information that connects the two linguistic expressions whose relations are specified by arrows or lines. Alternatively, it may be information accumulated when the specifying unit 35 specifies the relation, or may be information indicating other relation. The information to be output may include information indicating the type of association. For example, if the relationship between the language expression A and the language expression B is specified, the relationship is co-occurrence, the relationship between the language expression C and the language expression D is specified, and the relationship is higher and lower, the language Information indicating the relationship between the expression A and the language expression B and information indicating that the relationship is co-occurrence are output, information indicating the relationship between the language expression C and the language expression D, and the relationship Information indicating that it is upper and lower may be output. As a result of the output by the output unit 36, the user can know the relationship between language expressions in the document stored in the document storage unit 31.
次に、本実施の形態による文書処理装置3の動作について、図8のフローチャートを用いて説明する。なお、このフローチャートでは、前述の(A)の方法によって関連を特定する場合について説明するが、関連特定部37が機械学習によって関連を特定してもよいことは前述の通りである。
(ステップS301)取得手段33は、文書記憶部31で記憶されている文書における言語表現を特定する。その特定された言語表現は、図示しない記録媒体で記憶されてもよい。
Next, the operation of the document processing apparatus 3 according to this embodiment will be described using the flowchart of FIG. In this flowchart, the case where the relationship is specified by the method (A) described above will be described. However, as described above, the relationship specifying unit 37 may specify the relationship by machine learning.
(Step S <b> 301) The acquisition unit 33 specifies the language expression in the document stored in the document storage unit 31. The specified linguistic expression may be stored in a recording medium (not shown).
(ステップS302)取得手段33は、ステップS301で特定した各言語表現に対して、その言語表現に関連する関連言語表現を取得する。その取得された関連言語表現は、図示しない記録媒体で記憶されてもよい。なお、関連言語表現が蓄積される際には、その関連言語表現の取得元である、文書に含まれる言語表現と対応付けて蓄積されることが好適である。 (Step S302) The acquisition unit 33 acquires, for each language expression specified in Step S301, a related language expression related to the language expression. The acquired related language expression may be stored in a recording medium (not shown). When the related language expression is accumulated, it is preferable that the related language expression is accumulated in association with the language expression included in the document from which the related language expression is acquired.
(ステップS303)判断手段34は、カウンタiを1に設定する。 (Step S303) The judging means 34 sets the counter i to 1.
(ステップS304)判断手段34は、ステップS302で取得された関連言語表現のうち、i番目の関連言語表現が文書記憶部31で記憶されている文書に含まれるかどうか判断する。そして、含まれる場合には、ステップS305に進み、そうでない場合には、ステップS306に進む。 (Step S <b> 304) The determination unit 34 determines whether or not the i-th related language expression among the related language expressions acquired in Step S <b> 302 is included in the document stored in the document storage unit 31. If it is included, the process proceeds to step S305. If not, the process proceeds to step S306.
(ステップS305)特定手段35は、i番目の関連言語表現と、その関連言語表現の取得元である、文書記憶部31で記憶されている文書中の言語表現との関連を特定する。 (Step S305) The specifying unit 35 specifies the relationship between the i-th related language expression and the language expression in the document stored in the document storage unit 31 from which the related language expression is acquired.
(ステップS306)判断手段34は、カウンタiを1だけインクリメントする。 (Step S306) The judging means 34 increments the counter i by 1.
(ステップS307)判断手段34は、ステップS302で取得された関連言語表現に、i番目の関連言語表現が含まれるかどうか判断する。そして、含まれる場合には、ステップS304に戻り、そうでない場合には、ステップS308に進む。 (Step S307) The determination unit 34 determines whether or not the i-th related language expression is included in the related language expression acquired in Step S302. If it is included, the process returns to step S304; otherwise, the process proceeds to step S308.
(ステップS308)出力部36は、関連特定部37が特定した関連、すなわち、特定手段35が特定した関連を示す情報を出力する。そして、文書における言語表現間の関連を特定して出力する一連の処理は終了となる。 (Step S308) The output unit 36 outputs information indicating the relationship specified by the relationship specifying unit 37, that is, the relationship specified by the specifying unit 35. Then, a series of processes for specifying and outputting the relationship between the linguistic expressions in the document is completed.
次に、本実施の形態による文書処理装置3の動作について、具体例を用いて説明する。この具体例では、言語表現は、名詞の単語であるとする。また、実施の形態1と同様に、連続した名詞は一の名詞として取り扱う。また、ある文に含まれる名詞と、他の文に含まれる名詞との関連のみを特定し、一文に含まれる名詞間の関連は特定しないものとする。 Next, the operation of the document processing apparatus 3 according to the present embodiment will be described using a specific example. In this specific example, it is assumed that the language expression is a noun word. As in the first embodiment, consecutive nouns are handled as one noun. Further, only the relationship between nouns included in one sentence and nouns included in another sentence is specified, and the relationship between nouns included in one sentence is not specified.
文書記憶部31では、次の文が記憶されていたとする。なお、各文の先頭に示されている数字は、文を識別する文IDである。
0:バブル崩壊は、身から出たサビ
1:だが「市場の論理」万能のグローバル化はどうか
2:時として、各国の事情や経済格差を無視して押し寄せるグローバリゼーションの大波におぼれかかった国は多い
3:断固拒否したマレーシアの例もあるが、わが国も伝統や独自の価値観を加味して、もっと柔軟なシステムの構築ができなかったか
4:政財界リーダーたちの責任は重いし、雇用創出やニューエコノミーの創造が急がれるべきだ
Assume that the document storage unit 31 stores the following sentence. The number shown at the beginning of each sentence is a sentence ID for identifying the sentence.
0: Bubble bursts from rust 1: But what about the globalization of “market logic”? 2: Sometimes countries that have drowned in the storm of globalization ignoring the circumstances and economic disparities of each country Many 3: Malaysia has refused a lot, but couldn't Japan build a more flexible system by adding tradition and unique values? 4: The politics and business leaders are responsible, creating jobs, The creation of a new economy should be rushed
また、この具体例では、取得手段33が関連辞書情報を用いた関連する名詞の取得を行うものとする。その関連辞書情報では、2単語の関連性が示されている。すなわち、「単語 関連する単語(関連語) その関連のスコア」の情報が関連事象情報に含まれるものとする。また、その関連の種類は、次に示されるものである。 In this specific example, it is assumed that the acquisition unit 33 acquires related nouns using related dictionary information. In the related dictionary information, the relevance of two words is shown. That is, it is assumed that information of “word related word (related word) and related score” is included in the related event information. The types of the relation are as follows.
Sims:類似語
Troubles:トラブル
Methods:方法
Hypos:下位語
Hypers:上位語
Tools:ツール
Causes:原因
Prevents対策
Requires:必須
Relations:関連あり
Averts:防ぐ
Nears:近距離
Sights:名物・見所
Famous:名物
Rivals:ライバル
Yukari−Hito:ゆかりの人物
Yukari_Tera:ゆかりの寺・神社
Sells:製品・商品
Makers:メーカー等
FD_Potencys:食材効能
FD_Effects:効く食材
FD_Unlooks:意外な食材
CK_Potencys:料理効能
CK_Effects:効く料理
CK_Unlooks:意外な料理
Nutr_Potencys:栄養効能
Nutr_Effects:効く栄養素
Component:成分
Ingredients:含む食材
Seasons:旬
FD_Seasons:旬の食材
SubFDs:代用食品
Materials:材料
InvMaterials:材料(逆引き)
Parts:部品・部分
InvParts:部品・部分(逆引き)
Gods:仏像・神様
GodTeras:所蔵する寺、祀る神社
Sims: Similar words Troubles: Trouble Methods: Method Hypos: Broader term Hypers: Broader term Tools: Tool Causes: Causes Currents Countermeasures Requirements: Required Relations: Related Averts: Prevent Nears: Proximity Famous: Famous / Family Names Rival Yukari-Hito: Yukari no Yurikai_Tera: Yukari no Tera / Shrine Shells: Products / Products Makers: Manufacturers, etc. Nutr_Potencys: Nutritional efficacy Nutr_Ef ects: effective against nutrient Component: component Ingredients: ingredients including Seasons: Shun FD_Seasons: seasonal ingredients SubFDs: substitute food Materials: material InvMaterials: material (reverse)
Parts: Parts / parts InvParts: Parts / parts (reverse lookup)
Gods: Buddha statue, God GodTeras: Temples to be held, Sacred Shrine
また、この具体例では、ある単語に対して関連語を取得するだけでなく、逆引きも使用するものとする。例えば、「爆弾」という単語が、「爆発」という単語に対し「方法」という関連を持つとする。このとき、単に「爆弾 爆発 Methods」という関連を得るだけでなく、「爆発 爆弾 Methods(逆引き)」という関連も取得する。この逆引きの結果は、この具体例では、各関係に「Rev」を付加させることで区別している。つまり今回の例の場合、「爆発 爆弾 RevMethods」というように表記される。なお、この逆引きが行われるのは、方向性を有する関連の場合についてのみである。例えば、類似語の場合には、方向性がないため、RevSimsという関連は取得されないことになる。 Further, in this specific example, not only a related word is acquired for a certain word, but also reverse lookup is used. For example, it is assumed that the word “bomb” has an association “method” with the word “explosion”. At this time, not only the relationship “bomb explosion methods” is obtained, but also the relationship “explosion bomb methods (reverse lookup)” is acquired. In this specific example, the result of this reverse lookup is distinguished by adding “Rev” to each relationship. That is, in this example, it is expressed as “explosion bomb RevMethods”. Note that this reverse lookup is performed only in the case of a relationship having directionality. For example, in the case of similar words, since there is no directionality, the association RevSims is not acquired.
まず、取得手段33は、文書記憶部31で記憶されている文書から名詞を取得する(ステップS301)。その結果、次のように名詞が取得されることになる。なお、ここでは、文ごとに名詞を取得している。 First, the acquisition unit 33 acquires a noun from the document stored in the document storage unit 31 (step S301). As a result, nouns are acquired as follows. Here, nouns are acquired for each sentence.
0:バブル崩壊,身
1:市場,論理,万能
2:各国,事情,経済格差,無視,大波,国
3:拒否,マレーシア,例,わが国,伝統,価値観,加味,システム,構築
4:政財界リーダー,責任,雇用創出,創造
0: Bubble collapse, body 1: market, logic, versatile 2: countries, circumstances, economic disparity, neglect, large wave, country 3: denial, Malaysia, eg, Japan, tradition, values, consideration, system, construction 4: political and business world Leader, responsibility, job creation, creation
次に、取得手段33は、関連辞書情報を参照して、各名詞に対する関連語(関連言語表現)を取得する(ステップS302)。例えば、「バブル崩壊」に対しては、Troubles:トラブルの逆引きで、「市場」が得られる。したがって、取得手段33は、取得元の単語の含まれていた文ID、その取得元の単語、取得した単語(関連語)、その関係を示す情報である「0 バブル崩壊 市場 RevTroubles」を図示しない記録媒体に蓄積する。この処理を、前述の取得したすべての単語について、また、すべての関連とその逆引きとについて実行する。 Next, the acquisition unit 33 refers to the related dictionary information and acquires a related word (related language expression) for each noun (step S302). For example, for “bubble collapse”, “markets” can be obtained by reverse troubleshooting. Therefore, the acquisition unit 33 does not illustrate the sentence ID including the acquisition source word, the acquisition source word, the acquired word (related word), and the information indicating the relationship “0 bubble collapse market RevTroubles”. Accumulate on a recording medium. This process is executed for all the previously acquired words and for all the associations and their reverse lookups.
その後、判断手段34は、取得された関連語が元の文書であって、その関連語の取得元の単語が含まれていた文とは異なる文に存在するかどうか判断する(ステップS303,S304)。具体的には、取得手段33が取得した「0 バブル崩壊 市場 RevTroubles」に対しては、判断手段34は、関連語である検索キー「市場」で、文ID「0」以外の文を検索する。この場合には、文ID「1」の「市場」がヒットするため、「0 バブル崩壊 市場 RevTroubles」と、市場が文ID「1」でヒットしたこととを特定手段35に渡す。すると、特定手段35は、取得元の単語を含む文ID、関連語の含まれる文ID、取得元の単語、関連語、その関係を示す情報である「0 1 バブル崩壊 市場 RevTroubles」を図示しない記録媒体に蓄積する(ステップS305)。なお、このような処理が繰り返されることによって、単語と関連語との関連が特定されていく(ステップS304〜S307)。なお、判断手段34による検索は、取得された単語に対してなされてもよい。単語間の関連を特定するため、文書記憶部31で記憶されている文書で検索を行っても、その文書から取得された単語において検索を行っても、実質的に同じだからである。 Thereafter, the determination unit 34 determines whether the acquired related word is an original document and exists in a sentence different from the sentence in which the acquisition source word of the related word was included (steps S303 and S304). ). Specifically, for “0 bubble collapse market RevTroubles” acquired by the acquisition unit 33, the determination unit 34 searches for a sentence other than the sentence ID “0” using the search key “market” which is a related word. . In this case, since the “market” of the sentence ID “1” is hit, “0 bubble collapse market RevTroubles” and the fact that the market hits with the sentence ID “1” are passed to the specifying unit 35. Then, the identification unit 35 does not illustrate the sentence ID including the acquisition source word, the sentence ID including the related word, the acquisition source word, the related word, and the information “0 1 bubble collapse market RevTroubles”. It accumulates in the recording medium (step S305). By repeating such processing, the relationship between the word and the related word is specified (steps S304 to S307). The search by the determination unit 34 may be performed on the acquired word. This is because searching for a document stored in the document storage unit 31 and specifying a word acquired from the document are substantially the same in order to specify a relationship between words.
その後、すべての関連の特定が終了すると出力部36は、蓄積された「0 1 バブル崩壊 市場 RevTroubles」等の情報を読み出し、前の2個の情報、すなわち、取得元の単語の文IDと、関連語の文IDとを用いてソートを行い、その結果を出力する(ステップS308)。その出力結果は、次のようであり、例えば、ディスプレイに表示されるものとする。 Thereafter, when all the related identifications are completed, the output unit 36 reads the accumulated information such as “0 1 bubble collapse market RevTroubles” and the like, and the previous two pieces of information, that is, the sentence ID of the acquisition source word, Sorting is performed using sentence IDs of related words, and the result is output (step S308). The output result is as follows and is displayed on a display, for example.
◎文0 文1
バブル崩壊 市場(RevTroubles)
◎文0 文2
身 大波(Trouble)
バブル崩壊 国(RevTroubles)
バブル崩壊 大波(Trouble)
◎文0 文3
身 拒否(Trouble)
バブル崩壊 わが国(RevTroubles)
◎文1 文0
市場 バブル崩壊(Trouble)
◎文1 文2
市場 国(RevRelations,Relations)
市場 大波(Trouble)
◎文1 文3
市場 構築(Methods)
市場 価値観(Rivals)
万能 価値観(RevMethods)
論理 構築(Methods)
論理 拒否(Trouble)
論理 価値観(Sims)
◎文1 文4
市場 創造(Methods)
論理 創造(RevRequires)
◎文2 文0
大波 身(RevTroubles)
大波 バブル崩壊(RevTroubles)
国 バブル崩壊(Trouble)
◎文2 文1
大波 市場(RevTroubles)
国 市場(RevRelations,Relations)
◎文2 文3
各国 マレーシア(Nears,RevNears)
各国 わが国(Nears,RevNears)
経済格差 価値観(RevTroubles)
経済格差 マレーシア(RevTroubles)
経済格差 わが国(RevTroubles)
無視 拒否(Sims)
国 伝統(RevRelations,Hypos)
国 拒否(Trouble)
国 マレーシア(Sims,Hypos)
国 わが国(Sims)
◎文3 文0
拒否 身(RevTroubles)
わが国 バブル崩壊(Trouble)
◎文3 文1
拒否 論理(RevTroubles)
構築 論理(RevMethods)
構築 市場(RevMethods)
価値観 論理(Sims)
価値観 市場(RevRivals)
価値観 万能(Methods)
◎文3 文2
伝統 国(Hypers,Relations)
拒否 無視(Sims)
拒否 国(RevTroubles)
わが国 各国(Nears,RevNears,Sims)
わが国 経済格差(Trouble)
マレーシア 各国(Nears,RevNears)
マレーシア 経済格差(Trouble)
マレーシア 国(Hypers)
価値観 経済格差(Trouble)
◎文3 文4
伝統 創造(RevMethods,Methods)
例 創造(RevRequires)
拒否 責任(RevTroubles)
構築 創造(Sims)
価値観 創造(Methods)
◎文4 文1
創造 論理(Requires)
創造 市場(RevMethods)
◎文4 文3
創造 例(Requires)
創造 価値観(RevMethods)
創造 構築(Sims)
創造 伝統(RevMethods,Methods)
責任 拒否(Trouble)
◎ Sentence 0 Sentence 1
Bubble Collapse Market (RevTroubles)
◎ Sentence 0 Sentence 2
Trouble
Bubble Collapse Country (RevTroubles)
Bubble Collapse Trouble
◎ Sentence 0 Sentence 3
Trouble
Bubble Collapse Japan (RevTroubles)
◎ Sentence 1 Sentence 0
Market Bubble Collapse
◎ Sentence 1 Sentence 2
Market Country (RevRelations, Relations)
Market Trouble
◎ Sentence 1 Sentence 3
Market building (Methods)
Market Values (Rivals)
Universal Values (RevMethods)
Logic construction (Methods)
Logic Reject (Trouble)
Logic Values (Sims)
◎ Sentence 1 Sentence 4
Market Creation (Methods)
Logic Creation (Revquires)
◎ Sentence 2 Sentence 0
Minami Onami (RevTroubles)
Big Wave Bubble Collapse (RevTroubles)
Country Bubble Collapse (Trouble)
◎ Sentence 2 Sentence 1
Big Wave Market (RevTroubles)
Country Market (RevRelations, Relations)
◎ Sentence 2 Sentence 3
Countries Malaysia (Nears, RevNears)
Countries Japan (Nears, RevNears)
Economic disparity Values (RevTroubles)
Economic disparity Malaysia (RevTroubles)
Economic disparity Japan (RevTroubles)
Ignore Reject (Sims)
Country Tradition (RevRelations, Hypos)
Country Reject (Trouble)
Country Malaysia (Sims, Hypos)
Country Japan (Sims)
◎ Sentence 3 Sentence 0
Rejected (RevTroubles)
Japan Bubble Collapse (Trouble)
◎ Sentence 3 Sentence 1
Reject logic (RevTroubles)
Construction Logic (RevMethods)
Construction Market (RevMethods)
Values Logic (Sims)
Values Market (RevRivals)
Values Universal
◎ Sentence 3 Sentence 2
Traditional countries (Hypers, Relations)
Reject Ignore (Sims)
Rejected country (RevTroubles)
Japan Countries (Nears, RevNears, Sims)
Japan's economic disparity (Trouble)
Malaysia Countries (Nears, RevNears)
Malaysia Economic Disparity (Trouble)
Malaysia (Hypers)
Values Economic Disparity (Trouble)
◎ Sentence 3 Sentence 4
Tradition Creation (RevMethods, Methods)
Example Creation (Revquires)
Responsibility (RevTroubles)
Construction Creation (Sims)
Values Creation (Methods)
◎ Sentence 4 Sentence 1
Creation Logic (Requires)
Creation Market (RevMethods)
◎ Sentence 4 Sentence 3
Creation Example (Requires)
Creation Values (RevMethods)
Creation Construction (Sims)
Creation Tradition (RevMethods, Methods)
Responsibility Refusal (Trouble)
上記の結果において、各文に含まれる単語と、その関連語と、その関連の種類とが示されている。例えば、「◎文4 文3」の箇所においては、文ID「4」の文に含まれる「想像」と、文ID「3」の文に含まれる「例」とが、「Requires」の関連で結ばれていることが示されている。なお、この具体例では、取得したすべての名詞について関連を特定したため、重複した関連の取得が行われることになる。例えば、「構築 創造(Sims)」の関連は、「◎文3 文4」と、「◎文4 文3」との両方に含まれることになっている。一方、この重複を削除して出力するようにしてもよい。例えば、「構築 創造(Sims)」の関連は、「◎文3 文4」についてのみ出力されるようにしてもよい。そのようにするために、例えば、判断手段34が検索を行う際に、取得元の単語が含まれていた文IDよりも大きい値の文IDで識別される文においてのみ検索を行ってもよく、あるいは、すべての関連を取得した後に、重複したものを削除するようにしてもよい。 In the above result, the word included in each sentence, the related word, and the type of the related are shown. For example, in the place of “◎ Sentence 4 Sentence 3”, “Imagination” included in the sentence with the sentence ID “4” and “Example” included in the sentence with the sentence ID “3” are related to “Requires”. It is shown that it is tied with. In this specific example, since the association is specified for all the acquired nouns, duplicate associations are acquired. For example, the relationship of “construction creation (Sims)” is included in both “◎ sentence 3 sentence 4” and “◎ sentence 4 sentence 3”. On the other hand, this duplication may be deleted and output. For example, the relation of “construction creation (Sims)” may be output only for “◎ sentence 3 sentence 4”. In order to do so, for example, when the determination unit 34 performs a search, the search may be performed only in a sentence identified by a sentence ID having a value larger than the sentence ID in which the acquisition source word was included. Alternatively, after all the associations are acquired, duplicates may be deleted.
以上のように、本実施の形態による文書処理装置3によれば、文書における言語表現間の関連を特定することができ、その関連を示す情報を出力することができる。したがって、ユーザは、文書における言語表現間の関連を容易に知ることができるようになる。また、その関連の種類を示す情報も出力される場合には、その関連の種類をも知ることができるようになり、ユーザの利便性が向上されることになる。 As described above, according to the document processing device 3 according to the present embodiment, it is possible to specify a relationship between language expressions in a document and output information indicating the relationship. Therefore, the user can easily know the relationship between the linguistic expressions in the document. Further, when information indicating the type of the relationship is also output, the type of the relationship can be known, and the convenience for the user is improved.
なお、本実施の形態において、関連特定部37が上記(A)の方法によって関連を特定する場合について主に説明したが、前述のように、関連特定部37は、機械学習を用いて関連を特定してもよい。また、関連を特定する際に関連辞書情報を使用しない場合には、文書処理装置3は、関連辞書情報記憶部32を備えていなくてもよい。 In the present embodiment, the case where the relation specifying unit 37 specifies the relation by the method (A) has been mainly described. However, as described above, the relation specifying unit 37 uses the machine learning to relate the relation. You may specify. Further, when the related dictionary information is not used when specifying the relationship, the document processing apparatus 3 may not include the related dictionary information storage unit 32.
なお、上記各実施の形態において、要約元文書や、関連を特定する対象となる文書の言語は問わない。例えば、日本語、英語、フランス語、ロシア語、中国度、ドイツ語、スペイン語等であってもよい。なお、要約元文書の言語と、関連辞書情報や、共起語の取得で用いられるデータベースの言語とは同じであるものとする。また、関連を特定する対象となる文書の言語と、関連辞書情報や、共起語の取得で用いられるデータベースの言語とは同じであるものとする。 In each of the above embodiments, the language of the summary source document or the document whose relationship is to be specified is not limited. For example, Japanese, English, French, Russian, Chinese degrees, German, Spanish, etc. may be used. It is assumed that the language of the summary source document is the same as the language of the database used for acquiring related dictionary information and co-occurrence words. Further, it is assumed that the language of the document whose relation is to be specified is the same as the language of the database used for acquiring related dictionary information and co-occurrence words.
[機械学習に関する説明]
ここで、上記各実施の形態で用いられる機械学習について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、そのセットを用いて学習を行なうことによって、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である。例えば、次の文献を参照されたい。
[Explanation about machine learning]
Here, the machine learning used in each of the above embodiments will be described. The machine learning method prepares many sets of problem-solution pairs, learns what kind of solution the problem will be by learning by using the set, and uses the learning results. It is a method that allows you to guess the solution even when it is a new problem. For example, see the following document.
文献:村田真樹、「機械学習に基づく言語処理」,龍谷大学理工学部.招待講演、2004年(http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1−siryou.pdf)
文献:村田真樹,馬青,内元清貴,井佐原均、「サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳」,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000−78,2001年
文献:村田真樹,内山将夫,内元清貴,馬青,井佐原均、「NSEVAL2J辞書タスクでのCRLの取り組み」、電子情報通信学会言語理解とコミュニケーション研究会 NLC2001−40,2001年
Literature: Maki Murata, “Language Processing Based on Machine Learning”, Faculty of Science and Engineering, Ryukoku University. Invited lecture, 2004 (http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf)
References: Maki Murata, Ma Aoi, Kiyochi Uchimoto, Hitoshi Isahara, “Japanese-English Translation of Tens Aspect Modality Using Support Vector Machine”, IEICE Language Understanding and Communication NLC 2000-78, 2001 Article : Masaki Murata, Masao Uchiyama, Kiyotaka Uchimoto, Mao Ai, Hitoshi Isahara, "CRL's Effort in the NSEVAL2J Dictionary Task", IEICE Language Understanding and Communication Study Group, NLC 2001-40, 2001
機械学習アルゴリズムを動作させるために、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。 In order to operate a machine learning algorithm, when a problem situation is transmitted to a machine, a feature (each element constituting the problem by information used for analysis) is required. The problem is expressed by the feature. For example, in the problem of estimating the tense of Japanese sentence ending expressions, the problem: “He speaks.” --- If the solution “present” is given, an example of a feature is “He speaks.” . "" Speaking. "" Su "". "
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、そのセットを用いて学習を行なうことによって、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも、その問題から素性の集合を取り出して、その素性に対応する解を推測する方法である。なお、ここで、「解」とは、例えば、前述の回答情報であるかどうかや、分類情報などである。 In other words, the machine learning method prepares many sets of feature set-solution pairs, and learns what type of feature set the solution will be by learning using that set. This is a method of using a learning result to extract a set of features from a problem and guessing a solution corresponding to the feature even when the problem is a new problem. Here, the “solution” is, for example, whether or not the answer information is described above, or classification information.
機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いることができる。なお、以下の説明では、文書を分類する場合(問題−解のセットが、文−分類である場合)の機械学習について主に説明するが、それ以外の機械学習についても、同様に適用可能であることは言うまでもない。 As a machine learning method, for example, a k neighborhood method, a simple Bayes method, a decision list method, a maximum entropy method, a support vector machine method, or the like can be used. In the following description, machine learning in the case of classifying documents (when the problem-solution set is sentence-classification) will be mainly described, but the same applies to machine learning other than that. Needless to say.
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって解(分類)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。 The k-nearest neighbor method is a technique for obtaining a solution (classification) by majority decision of k cases using the most similar k cases instead of the most similar case. k is a predetermined integer number, and generally an odd number between 1 and 9 is used.
シンプルベイズ法は、ベイズの定理にもとづいて各解(分類)の確率を推定し、その確率値が最も大きい解を、求める解とする方法である。 The simple Bayes method is a method in which the probability of each solution (classification) is estimated based on Bayes' theorem, and the solution having the largest probability value is determined as a solution to be obtained.
シンプルベイズ法において、文脈bで分類aを出力する確率は、次式で与えられる。
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj(∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi|a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fiを持つ確率を意味する。P(fi|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、上記の2行目の式の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、次式を用いてスムージングを行ったものを用いる。
ただし、freq(fi,a)は、素性fiを持ち、かつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
なお、スムージングは、上記式を用いた方法に限られるものではなく、その他の方法を用いてもよいことは言うまでもない。
However, freq (f i, a) has a feature f i, and the number of cases classified is a, freq (a), the classification means the number of cases is a.
Needless to say, the smoothing is not limited to the method using the above formula, and other methods may be used.
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。 The decision list method uses features and combinations of classification destinations as rules, stores them in the list in a predetermined priority order, and when input to be detected is given, from the highest priority in the list This is a method in which input data is compared with the feature of the rule, and the classification destination of the rule having the same feature is set as the classification destination of the input.
決定リスト方法では、あらかじめ設定しておいた素性fj(∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は、次式によって与えられる。
ただし、fmaxは、次式によって与えられる。
また、P(ai|fj)(ここでPはpの上部にチルダ)は、素性fjを文脈に持つ場合の分類aiの出現の割合である。 Further, P (a i | f j ) (where P is a tilde at the top of p) is a rate of appearance of the classification a i when the feature f j is included in the context.
最大エントロピー法は、あらかじめ設定しておいた素性fj(1≦j≦k)の集合をFとするとき、以下の所定の条件式を満足しながらエントロピーを意味する式を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。 In the maximum entropy method, when a set of preset features f j (1 ≦ j ≦ k) is F, the maximum entropy expression is satisfied while satisfying the following predetermined conditional expression. In this method, a probability distribution p (a, b) is obtained, and the classification having the largest probability value is obtained among the probabilities of the respective classifications obtained according to the probability distribution.
所定の条件式は、次式で与えられる。
また、エントロピーを意味する式は、次式で与えられる。
ただし、A、Bは分類と文脈の集合を意味する。また、gj(a,b)は文脈bに素性fjがあって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai|fj)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。 However, A and B mean a set of classification and context. Further, g j (a, b) means a function that is 1 when the context b has a feature f j and the classification is a, and is 0 otherwise. Further, P (a i | f j ) (where P is a tilde at the top of p) means the rate of occurrence of (a, b) in the known data.
上記の条件式は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化)を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の文献を参照されたい。 In the above conditional expression, the expected value of the frequency of the output and feature pair is obtained by multiplying the probability p and the function g meaning the appearance of the pair of output and feature. And the expected value calculated based on the probability distribution obtained on the left side is the constraint, and entropy maximization (smoothing of the probability distribution) is performed to obtain the probability distribution of the output and the context. For details of the maximum entropy method, refer to the following documents.
文献:Eric Sven Ristad,「Maximum Entropy Modeling for Natural Language」,(ACL/EACL Tutorial Program,Madrid,1997年
文献:Eric Sven Ristad,「Maximum Entropy Modeling Toolkit,Release1.6beta」,(http://www.mnemonic.com/software/memt),1998年
Literature: Eric Sven Ristad, “Maximum Entropy Modeling for Natural Language,” (ACL / EACL Tumor Program, Madrid, 1997, Literature: Electric Sven Ristad, “Maximet. mnemonic.com/software/memt), 1998
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。 The support vector machine method is a method of classifying data composed of two classifications by dividing a space by a hyperplane.
図9にサポートベクトルマシン法のマージン最大化の概念を示す。図9において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図9(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図9(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。 FIG. 9 shows the concept of margin maximization in the support vector machine method. In FIG. 9, a white circle means a positive example, a black circle means a negative example, a solid line means a hyperplane that divides the space, and a broken line means a surface that represents the boundary of the margin area. 9A is a conceptual diagram when the interval between the positive example and the negative example is small (small margin), and FIG. 9B is a conceptual diagram when the interval between the positive example and the negative example is wide (large margin). is there.
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン)が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図9(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。 At this time, if the two classifications consist of positive examples and negative examples, the larger the interval (margin) between the positive examples and the negative examples in the learning data, the lower the possibility of incorrect classification with open data. As shown in FIG. 9B, a hyperplane that maximizes this margin is obtained, and classification is performed using it.
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入)がなされたものが用いられる。 Basically, it is as described above. Usually, an extension of the method that the training data may contain a small number of cases in the inner area of the margin, or an extension that makes the linear part of the hyperplane nonlinear ( A kernel function introduced) is used.
この拡張された方法は、以下の識別関数(f(x))を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
ただし、xは識別したい事例の文脈(素性の集合)を、xiとyj(i=1,…,l,yj∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、 Where x is the context (set of features) to be identified, and x i and y j (i = 1,..., L, y j ε {1, −1}) mean the context and classification destination of the learning data And the function sgn is
sgn(x)=1(x≧0)
−1(otherwise)
であり、また、各αiは、式(M3)と式(M4)の制約のもと、式(M2)を最大にする場合のものである。
-1 (otherwise)
In addition, each α i is for maximizing Expression (M2) under the constraints of Expression (M3) and Expression (M4).
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では、例えば、以下の多項式のものを用いる。
K(x,y)=(x・y+1)d
The function K is called a kernel function, and various functions are used. In this embodiment, for example, the following polynomial is used.
K (x, y) = (x · y + 1) d
ここで、C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi>0となるxiは、サポートベクトルと呼ばれ、通常、式(M1)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。 Here, C and d are constants set experimentally. For example, C was fixed at 1 throughout all treatments. Moreover, two types of 1 and 2 are tried for d. Here, x i satisfying α i > 0 is called a support vector, and the portion taking the sum of the expression (M1) is usually calculated using only this case. That is, only actual cases called support vectors are used for actual analysis.
なお、拡張されたサポートベクトルマシン法の詳細については、次の文献を参照されたい。
文献:Nello Cristianini,John Shawe−Taylor,「An Introduction to Support Vector Machines and other kernel−based learning methods」,Cambridge University Press,2000年
文献:Taku Kudoh,「Tinysvm:Support Vector machines」,(http://cl.aistnara.ac.jp/taku−ku//software/Tiny SVM/index.html),2000年
For details of the extended support vector machine method, refer to the following document.
Literature: Nello Cristianini, John Shawe-Taylor, "An Introduction to Support Vector Machines and other kernel-based learning methods", Cambridge University Press, 2000 years literature: Taku Kudoh, "Tinysvm: Support Vector machines", (http: // cl.aistnara.ac.jp/take-ku//software/Tiny SVM / index.html), 2000
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。 The support vector machine method handles data with two classifications. Therefore, when handling cases with three or more classifications, a pair-wise method or a one-VS rest method is usually used in combination with this.
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。 In the case of data having n classifications, the pairwise method generates every pair (n (n-1) / 2) of two different classification destinations, and determines which is better for each pair. That is, it is a method of obtaining a classification destination by a majority decision of the classification destination by n (n-1) / 2 binary classifications, which is obtained by the support vector machine method processing module.
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき問題が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある解くべき問題が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その解くべき問題の分類先は、aと推定する。 For example, when there are three classification destinations a, b, and c, the one VS rest method generates three sets of classification destination a and other, classification destination b and other, classification destination c and other, The learning process is performed on the set of the support vector machine method. Then, in the estimation process based on the learning result, the learning results of the three sets of support vector machines are used. See how the problem to be estimated is estimated in the three support vector machines, and among the three support vector machines, which is the other classification destination, and the separation plane of the support vector machine This is a method for obtaining a classification destination of a thing farthest from the object. For example, when a problem to be solved is farthest from the separation plane in the support vector machine created by the learning process of “classification destination a and others”, the classification destination of the problem to be solved is estimated as a. .
図示しない解推定手段が推定する、解くべき問題についての、どのような解(分類先)になりやすいかの度合いの求め方は、図示しない機械学習手段が機械学習の手法として用いる様々な方法によって異なる。 How to find out what kind of solution (classification destination) is likely to be solved for a problem to be solved, which is estimated by a solution estimation unit (not shown) is determined by various methods used by a machine learning unit (not shown) as a machine learning method. Different.
例えば、機械学習手段が、機械学習の手法としてk近傍法を用いる場合、機械学習手段は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として学習結果記憶手段に記憶しておく。 For example, when the machine learning means uses the k-nearest neighbor method as the machine learning method, the machine learning means uses the ratio of overlapping features (same features) among a set of features extracted from the examples of the teacher data. The degree of similarity between cases is defined based on the ratio of the number of cases and the defined degree of similarity and the case are stored in the learning result storage means as learning result information.
そして、解推定手段は、解くべき問題の素性(文章群属性情報)が抽出されたときに、学習結果記憶手段において定義された類似度と事例を参照して、抽出された解くべき問題の素性について、その解くべき問題の素性の類似度が高い順にk個の事例を学習結果記憶手段の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、解くべき問題の分類先(解)として推定する。すなわち、解推定手段では、解くべき問題についての、どのような解(分類先)になりやすいかの度合いを、選択したk個の事例での多数決の票数とする。 Then, the solution estimation means refers to the similarity and case defined in the learning result storage means when the feature of the problem to be solved (sentence group attribute information) is extracted, and the feature of the extracted problem to be solved The k cases are selected from the learning result storage means in descending order of the similarity of the features of the problem to be solved, and the classification destination determined by the majority vote in the selected k cases is classified as the problem to be solved. Estimate as the first (solution). That is, in the solution estimation means, the degree of what kind of solution (classification destination) is likely to be obtained for the problem to be solved is set as the number of majority votes in the selected k cases.
また、機械学習手法として、シンプルベイズ法を用いる場合には、図示しない機械学習手段は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として学習結果記憶手段に記憶する。そして、解推定手段は、解くべき問題の素性が抽出されたときに、学習結果記憶手段の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて、解くべき問題の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その解くべき問題の素性の分類(解)と推定する。すなわち、解推定手段では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。 When the simple Bayes method is used as the machine learning method, the machine learning means (not shown) stores a combination of the solution of the case and a set of features as learning result information in the learning result storage means for the case of the teacher data. Remember. Then, when the features of the problem to be solved are extracted, the solution estimation means should solve based on the Bayes' theorem based on the set of the learning result information and the feature set in the learning result storage means. The probability of becoming each classification in the case of a set of problem features is calculated, and the classification having the largest probability value is estimated as the classification (solution) of the problem feature to be solved. That is, in the solution estimation means, the probability of becoming a solution in the case of a set of features of the problem to be solved is set as the probability of being classified.
また、機械学習手法として決定リスト法を用いる場合には、図示しない機械学習手段は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを、予め、何らかの手段により、学習結果記憶手段に記憶させる。そして、解くべき問題の素性が抽出されたときに、解推定手段は、学習結果記憶手段のリストの優先順位の高い順に、抽出された解くべき問題の素性と規則の素性とを比較し、素性が一致した規則の分類先をその解くべき問題の分類先(解)として推定する。 Further, when the decision list method is used as the machine learning technique, the machine learning means (not shown) is a method in which a list in which rules of features and classification destinations are arranged in a predetermined priority order in advance for example of teacher data. Thus, it is stored in the learning result storage means. Then, when the features of the problem to be solved are extracted, the solution estimation means compares the extracted features of the problem to be solved with the features of the rule in descending order of priority in the list of learning result storage means, Is estimated as the classification destination (solution) of the problem to be solved.
また、機械学習手法として最大エントロピー法を使用する場合には、図示しない機械学習手段は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足し、かつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて、学習結果記憶手段に記憶する。そして、解くべき問題の素性が抽出されたときに、解推定手段は、学習結果記憶手段の確率分布を利用して、抽出された解くべき問題の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその解くべき問題の解と推定する。すなわち、解推定手段では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。 When the maximum entropy method is used as the machine learning method, the machine learning means (not shown) specifies a class that can be a solution from the example of the teacher data, satisfies a predetermined conditional expression, and represents an expression indicating entropy. A probability distribution composed of a set of features when maximizing and a binomial classification that can be a solution is obtained and stored in the learning result storage means. Then, when the features of the problem to be solved are extracted, the solution estimation means uses the probability distribution of the learning result storage means to determine the probability of classification that can be the solution for the set of extracted feature features of the problem to be solved. Then, a class that can be a solution having the largest probability value is specified, and the specified class is estimated as a solution of the problem to be solved. That is, in the solution estimation means, the probability of becoming a solution in the case of a set of features of the problem to be solved is set as the probability of being classified.
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、図示しない機械学習手段は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶手段に記憶する。そして、解くべき問題の素性が抽出されたときに、解推定手段は、学習結果記憶手段の超平面を利用して、解くべき問題の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その解くべき問題の解と推定する。すなわち、解推定手段では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、分離平面からのその解くべき問題の事例への距離の大きさとする。 When the support vector machine method is used as the machine learning method, the machine learning means (not shown) identifies a class that can be a solution from the example of the teacher data, divides the class into a positive example and a negative example, In a space whose dimension is a set of case features according to a predetermined execution function using a function, the interval between the positive example and the negative example of the case is maximized, and the positive example and the negative example are divided by a hyperplane. A plane is obtained and stored in the learning result storage means. Then, when the features of the problem to be solved are extracted, the solution estimation means uses the hyperplane of the learning result storage means, and in the space where the set of the features of the problem to be solved is divided by the hyperplane, The classification determined based on the identified result is estimated as the solution of the problem to be solved. That is, in the solution estimation means, the degree of ease of becoming a solution in the case of a set of features of the problem to be solved is set as the magnitude of the distance from the separation plane to the case of the problem to be solved.
また、上記各実施の形態において、ある構成要素が機械学習を用いて処理を行う場合に、その所望の処理が実行されるまでに学習が行われるのであれば、その学習のタイミングは問わない。 In each of the above embodiments, when a certain component performs processing using machine learning, if learning is performed before the desired processing is executed, the learning timing does not matter.
なお、上記各実施の形態において、各装置の有する2以上の記憶部のうち、任意の2以上の記憶部は、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、要約元文書を記憶している領域が要約元文書記憶部11となり、関連辞書情報を記憶している領域が関連辞書情報記憶部13となる。 In each of the above embodiments, any two or more storage units among the two or more storage units included in each device may be realized by the same recording medium, or may be realized by separate recording media. May be. In the former case, for example, the area storing the summary source document is the summary source document storage unit 11, and the area storing the related dictionary information is the related dictionary information storage unit 13.
また、上記各実施の形態において、要約元文書記憶部11、関連辞書情報記憶部13、文書記憶部31、関連辞書情報記憶部32に、要約元文書や関連辞書情報、文書が記憶される過程は問わない。例えば、記録媒体を介して要約元文書等が要約元文書記憶部11等で記憶されるようになってもよく、通信回線等を介して送信された要約元文書が要約元文書記憶部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された要約元文書が要約元文書記憶部11等で記憶されるようになってもよい。要約元文書記憶部11等での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。要約元文書記憶部11等は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。 In each of the above embodiments, the process of storing the summary source document, the related dictionary information, and the document in the summary source document storage unit 11, the related dictionary information storage unit 13, the document storage unit 31, and the related dictionary information storage unit 32 Does not matter. For example, the summary source document or the like may be stored in the summary source document storage unit 11 or the like via a recording medium, and the summary source document transmitted via a communication line or the like may be stored in the summary source document storage unit 11 or the like. Alternatively, the summary source document input via the input device may be stored in the summary source document storage unit 11 or the like. Storage in the summary source document storage unit 11 or the like may be temporary storage in a RAM or the like, or may be long-term storage. The summary original document storage unit 11 and the like can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.).
また、上記各実施の形態において、出力部19や出力部36での出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、その出力が記録媒体への蓄積や、他の構成要素への引き渡し等を行った場合であっても、最終的には、ユーザに知覚されるように、表示されたり印刷されたりすることが好適である。また、出力部19等は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部19等は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。 In each of the above embodiments, the output from the output unit 19 or the output unit 36 may be, for example, displayed on a display device (for example, a CRT or a liquid crystal display), and via a communication line to a predetermined device. Transmission, printing by a printer, audio output by a speaker, accumulation in a recording medium, or delivery to another component may be possible. Even if the output is stored in a recording medium or delivered to another component, it will eventually be displayed or printed so that it can be perceived by the user. Is preferred. Further, the output unit 19 or the like may or may not include a device that performs output (for example, a display device or a printer). The output unit 19 and the like may be realized by hardware, or may be realized by software such as a driver that drives these devices.
また、上記各実施の形態では、文書要約装置1や文書処理装置3がスタンドアロンである場合について説明したが、文書要約装置1等は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部は、通信回線を介して情報を出力してもよい。 In each of the above embodiments, the document summarizing apparatus 1 and the document processing apparatus 3 are described as stand-alone. However, the document summarizing apparatus 1 or the like may be a stand-alone apparatus, or a server in a server / client system. It may be a device. In the latter case, the output unit may output information via a communication line.
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。 In each of the above embodiments, each processing or each function may be realized by centralized processing by a single device or a single system, or distributed processing by a plurality of devices or a plurality of systems. May be realized.
また、上記各実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。 Also, in each of the above embodiments, information related to processing executed by each component, for example, each component received, acquired, selected, generated, transmitted, or received Information and information such as threshold values, mathematical formulas, addresses, etc. used by each component in processing are retained temporarily or over a long period of time on a recording medium (not shown) even if not explicitly stated in the above description. May be. Further, the storage of information in the recording medium (not shown) may be performed by each component or a storage unit (not shown). Further, reading of information from the recording medium (not shown) may be performed by each component or a reading unit (not shown).
また、上記各実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。 In each of the above embodiments, when information used by each component, for example, information such as a threshold value, an address, and various setting values used by each component may be changed by the user Even if it is not specified in the above description, the user may be able to change the information as appropriate, or it may not be. If the information can be changed by the user, the change is realized by, for example, a not-shown receiving unit that receives a change instruction from the user and a changing unit (not shown) that changes the information in accordance with the change instruction. May be. The change instruction received by the receiving unit (not shown) may be received from an input device, information received via a communication line, or information read from a predetermined recording medium, for example. .
また、上記各実施の形態において、文書要約装置1や文書処理装置3に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。 In each of the above embodiments, when two or more constituent elements included in the document summarizing apparatus 1 or the document processing apparatus 3 have a communication device, an input device, or the like, the two or more constituent elements are physically single. You may have devices or you may have separate devices.
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態1における文書要約装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、要約元の文書である要約元文書が記憶される要約元文書記憶部で記憶されている要約元文書から言語表現を抽出する抽出部、抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部、第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部、要約元文書に含まれる言語表現と、第2の取得部が取得した言語表現とを少なくとも用いて、要約候補が要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、要約候補に関連しているものに要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部、算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、要約元文書の要約を選択する選択部、選択部が選択した要約を出力する出力部として機能させるためのプログラムである。 In each of the above embodiments, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory. The software that realizes the document summarization apparatus 1 in the first embodiment is the following program. That is, this program includes a computer that extracts a language expression from a summary source document stored in a summary source document storage unit in which a summary source document that is a summary source document is stored, and a language extracted by the extraction unit. Included in the summary source document is a first acquisition unit that acquires a plurality of summary candidates that are language expressions related to the expression, a second acquisition unit that acquires language expressions related to the summary candidates acquired by the first acquisition unit, At least using the linguistic expression acquired by the second acquisition unit and the linguistic expression acquired by the second acquisition unit, the recall is a value that is high enough to be related to the linguistic expression included in the source document, and Using the recall and precision calculated by the calculation unit for each summary candidate, and a calculation unit that calculates a high value so that there is no language expression included in the summary source document. Selecting section for selecting a summary about the original document is a program for functioning as an output unit for outputting a summary selection unit selects.
また、上記実施の形態2における文書処理装置3を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、文書が記憶される文書記憶部で記憶されている文書に置いて、言語表現の関連を特定する関連特定部、前記関連特定部が特定した関連を示す情報を出力する出力部として機能させるためのプログラムである。 The software that realizes the document processing apparatus 3 in the second embodiment is the following program. That is, this program places a computer on a document stored in a document storage unit in which a document is stored, and a relationship specifying unit that specifies the relationship of language expression, and information indicating the relationship specified by the relationship specifying unit. It is a program for functioning as an output unit for outputting.
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。 In the program, the functions realized by the program do not include functions that can be realized only by hardware. For example, functions that can be realized only by hardware such as a modem or an interface card in an acquisition unit that acquires information, an output unit that outputs information, and the like are not included in at least the functions realized by the program.
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。 Further, this program may be executed by being downloaded from a server or the like, and a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed by Further, this program may be used as a program constituting a program product.
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 Further, the computer that executes this program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
図10は、上記プログラムを実行して、上記実施の形態による文書要約装置1、文書処理装置3を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。 FIG. 10 is a schematic diagram showing an example of the appearance of a computer that executes the program and realizes the document summarization apparatus 1 and the document processing apparatus 3 according to the embodiment. The above-described embodiment can be realized by computer hardware and a computer program executed on the computer hardware.
図10において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。 10, a computer system 900 includes a computer 901 including a CD-ROM (Compact Disk Read Only Memory) drive 905 and an FD (Floppy (registered trademark) Disk) drive 906, a keyboard 902, a mouse 903, a monitor 904, and the like. Is provided.
図11は、コンピュータシステム900の内部構成を示す図である。図11において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。 FIG. 11 is a diagram showing an internal configuration of the computer system 900. In FIG. 11, in addition to the CD-ROM drive 905 and the FD drive 906, a computer 901 is connected to an MPU (Micro Processing Unit) 911, a ROM 912 for storing a program such as a bootup program, and the MPU 911. A RAM (Random Access Memory) 913 that temporarily stores program instructions and provides a temporary storage space, a hard disk 914 that stores application programs, system programs, and data, and an MPU 911 and a ROM 912 are interconnected. And a bus 915. The computer 901 may include a network card (not shown) that provides connection to the LAN.
コンピュータシステム900に、上記実施の形態による文書要約装置1、文書処理装置3の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。 A program for causing the computer system 900 to execute the functions of the document summarization apparatus 1 and the document processing apparatus 3 according to the above-described embodiment is stored in the CD-ROM 921 or FD 922 and inserted into the CD-ROM drive 905 or FD drive 906. May be transferred to the hard disk 914. Instead, the program may be transmitted to the computer 901 via a network (not shown) and stored in the hard disk 914. The program is loaded into the RAM 913 when executed. The program may be loaded directly from the CD-ROM 921, the FD 922, or the network.
プログラムは、コンピュータ901に、上記実施の形態による文書要約装置1、文書処理装置3の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。 The program does not necessarily include an operating system (OS) or a third-party program that causes the computer 901 to execute the functions of the document summarization apparatus 1 and the document processing apparatus 3 according to the above-described embodiment. The program may include only a part of an instruction that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 900 operates is well known and will not be described in detail.
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 Further, the present invention is not limited to the above-described embodiment, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上より、本発明による文書要約装置等によれば、文書を要約できる効果が得られ、文書を自動的に要約する装置等として有用である。また、本発明による文書処理装置等によれば、文書に含まれる関連のある箇所を特定することができ、文書の関連性を自動的に特定する装置等として有用である。 As described above, according to the document summarizing apparatus and the like according to the present invention, the effect of summarizing the document can be obtained, and it is useful as an apparatus for automatically summarizing the document. In addition, according to the document processing apparatus and the like according to the present invention, it is possible to specify a related portion included in a document, and it is useful as an apparatus for automatically specifying the relevance of a document.
1 文書要約装置
3 文書処理装置
11 要約元文書記憶部
12 抽出部
13、32 関連辞書情報記憶部
14 第1の取得部
15 第2の取得部
16 算出部
17、37 関連特定部
18 選択部
19、36 出力部
20 第3の取得部
21 特定部
22 関連言語表現取得手段
23、34 判断手段
24、35 特定手段
25 重要度算出部
31 文書記憶部
33 取得手段
DESCRIPTION OF SYMBOLS 1 Document summarization apparatus 3 Document processing apparatus 11 Summarization original document storage part 12 Extraction part 13, 32 Related dictionary information storage part 14 1st acquisition part 15 2nd acquisition part 16 Calculation part 17, 37 Relation specific part 18 Selection part 19 , 36 Output unit 20 Third acquisition unit 21 Identification unit 22 Related language expression acquisition unit 23, 34 Determination unit 24, 35 Identification unit 25 Importance calculation unit 31 Document storage unit 33 Acquisition unit
Claims (12)
前記要約元文書から言語表現を抽出する抽出部と、
前記抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部と、
前記第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部と、
前記要約元文書に含まれる言語表現と、前記第2の取得部が取得した言語表現とを少なくとも用いて、前記要約候補が前記要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、前記要約候補に関連しているものに前記要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部と、
前記算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、前記要約元文書の要約を選択する選択部と、
前記選択部が選択した要約を出力する出力部と、を備えた文書要約装置。 A summary source document storage unit in which a summary source document that is a summary source document is stored;
An extraction unit for extracting a linguistic expression from the summary source document;
A first acquisition unit that acquires a plurality of summary candidates that are language expressions related to the language expression extracted by the extraction unit;
A second acquisition unit for acquiring a language expression related to the summary candidate acquired by the first acquisition unit;
Using at least the linguistic expression included in the summary source document and the linguistic expression acquired by the second acquisition unit, the higher the value that the summary candidate is associated with the linguistic expression included in the summary source document, A calculation unit that calculates a recall and a precision that is so high that there is no language expression other than the language expression included in the summary source document in relation to the summary candidate;
A selection unit that selects a summary of the source document using the recall and precision calculated by the calculation unit for each summary candidate;
And a document summarization apparatus comprising: an output unit that outputs the summary selected by the selection unit.
前記第1の取得部は、前記抽出部が抽出した言語表現に類似する文書を、複数の文書を有するデータベースから検索し、検索結果の文書集合に偏って出現する言語表現を取得する、請求項1記載の文書要約装置。 The language expression extracted by the extraction unit has a length longer than a phrase,
The first acquisition unit retrieves a document similar to the language expression extracted by the extraction unit from a database having a plurality of documents, and acquires a language expression that appears biased in a document set of search results. 1. The document summarization apparatus according to 1.
前記第1の取得部は、前記抽出部が抽出した言語表現と前記ペア情報によって対応付けられている言語表現である要約候補を取得する、請求項1または請求項3記載の文書要約装置。 A related dictionary information storage unit that stores related dictionary information that is information having a plurality of pair information that is a pair of related language expressions;
4. The document summarization apparatus according to claim 1, wherein the first acquisition unit acquires a summary candidate that is a language expression associated with the language expression extracted by the extraction unit by the pair information.
前記算出部は、前記重要度算出部が算出した重要度を、前記要約元文書に含まれる言語表現の重みとして用いて、リコール及びプレシジョンを算出する、請求項2から請求項4のいずれか記載の文書要約装置。 An importance calculator that calculates the importance of each language expression included in the summary source document;
The calculation unit according to any one of claims 2 to 4, wherein the calculation unit calculates a recall and a precision using the importance calculated by the importance calculation unit as a weight of a language expression included in the summary source document. Document summarization device.
前記選択部は、前記関連特定部が特定した言語表現間の関連に関する情報をも素性として用いて機械学習を行う、請求項6記載の文書要約装置。 The summary source document further includes a relation identifying unit that identifies a relation of language expression,
The document summarization apparatus according to claim 6, wherein the selection unit performs machine learning using information relating to a relationship between language expressions specified by the relationship specifying unit as a feature.
前記要約元文書に含まれる言語表現に関連する言語表現である関連言語表現を取得する関連言語表現取得手段と、
前記関連言語表現取得手段が取得した関連言語表現が前記要約元文書に含まれるかどうか判断する判断手段と、
前記判断手段によって、前記関連言語表現が前記要約元文書に含まれると判断された場合に、当該要約元文書中の関連言語表現と、当該関連言語表現の取得元である要約元文書中の言語表現との関連を特定する特定手段と、を備える、請求項7記載の文書要約装置。 The related identification unit is
A related language expression acquisition means for acquiring a related language expression that is a language expression related to the language expression included in the summary source document;
Determining means for determining whether or not the related language expression acquired by the related language expression acquiring means is included in the summary source document;
When the determining means determines that the related language expression is included in the summary source document, the related language expression in the summary source document and the language in the summary source document from which the related language expression is obtained The document summarizing apparatus according to claim 7, further comprising: a specifying unit that specifies an association with the expression.
前記抽出部が抽出した言語表現のうち、前記第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、
前記出力部は、前記特定部が特定した言語表現をも出力する、請求項2から請求項8のいずれか記載の文書要約装置。 A third acquisition unit for acquiring a linguistic expression related to the summary output by the output unit;
A specifying unit that identifies a language expression extracted by the extraction unit that is not included in the language expression acquired by the third acquisition unit;
9. The document summarization apparatus according to claim 2, wherein the output unit also outputs a language expression specified by the specifying unit.
前記抽出部が抽出した言語表現のうち、前記第3の取得部が取得した言語表現に含まれないものを特定する特定部と、をさらに備え、
前記特定部が特定した言語表現に対しても、前記第1の取得部による要約候補の取得、前記第2の取得部による要約候補に関連する言語表現の取得、前記算出部によるリコール及びプレシジョンの算出、前記選択部による要約の選択、前記出力部による選択された要約の出力の各処理が行われる、請求項2から請求項8のいずれか記載の文書要約装置。 A third acquisition unit for acquiring a linguistic expression related to the summary output by the output unit;
A specifying unit that identifies a language expression extracted by the extraction unit that is not included in the language expression acquired by the third acquisition unit;
For the language expression specified by the specifying unit, acquisition of summary candidates by the first acquisition unit, acquisition of language expressions related to the summary candidates by the second acquisition unit, recall and precision by the calculation unit 9. The document summarization apparatus according to claim 2, wherein calculation, selection of a summary by the selection unit, and output of a selected summary by the output unit are performed.
前記抽出部が、前記要約元文書から言語表現を抽出する抽出ステップと、
前記第1の取得部が、前記抽出ステップで抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得ステップと、
前記第2の取得部が、前記第1の取得ステップで取得した要約候補に関連する言語表現を取得する第2の取得ステップと、
前記算出部が、前記要約元文書に含まれる言語表現と、前記第2の取得ステップで取得した言語表現とを少なくとも用いて、前記要約候補が前記要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、前記要約候補に関連しているものに前記要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出ステップと、
前記選択部が、前記算出ステップで要約候補ごとに算出したリコールとプレシジョンとを用いて、前記要約元文書の要約を選択する選択ステップと、
前記出力部が、前記選択ステップで選択した要約を出力する出力ステップと、を備えた文書要約方法。 A summary source document storage unit that stores summary source documents that are summary source documents, an extraction unit, a first acquisition unit, a second acquisition unit, a calculation unit, a selection unit, and an output unit A document summarization method processed using:
An extraction step in which the extraction unit extracts a linguistic expression from the summary source document;
A first acquisition step in which the first acquisition unit acquires a plurality of summary candidates that are language expressions related to the language expression extracted in the extraction step;
A second acquisition step in which the second acquisition unit acquires a linguistic expression related to the summary candidate acquired in the first acquisition step;
The calculation unit uses at least the language expression included in the summary source document and the language expression acquired in the second acquisition step, and the summary candidate is related to the language expression included in the summary source document. A calculation step of calculating a recall that becomes a higher value as it is, and a precision that is higher as there is no language expression included in the source document in the summary source document,
A selection step in which the selection unit selects a summary of the source document using the recall and precision calculated for each summary candidate in the calculation step;
An output step in which the output unit outputs the summary selected in the selection step.
要約元の文書である要約元文書が記憶される要約元文書記憶部で記憶されている要約元文書から言語表現を抽出する抽出部、
前記抽出部が抽出した言語表現に関連する言語表現である複数の要約候補を取得する第1の取得部、
前記第1の取得部が取得した要約候補に関連する言語表現を取得する第2の取得部、
前記要約元文書に含まれる言語表現と、前記第2の取得部が取得した言語表現とを少なくとも用いて、前記要約候補が前記要約元文書に含まれる言語表現と関連しているほど高い値となるリコールと、前記要約候補に関連しているものに前記要約元文書に含まれる言語表現以外のものが存在しないほど高い値となるプレシジョンとを算出する算出部、
前記算出部が要約候補ごとに算出したリコールとプレシジョンとを用いて、前記要約元文書の要約を選択する選択部、
前記選択部が選択した要約を出力する出力部として機能させるためのプログラム。 Computer
An extraction unit that extracts a linguistic expression from the summary source document stored in the summary source document storage unit in which the summary source document that is the summary source document is stored;
A first acquisition unit that acquires a plurality of summary candidates that are language expressions related to the language expression extracted by the extraction unit;
A second acquisition unit that acquires a linguistic expression related to the summary candidate acquired by the first acquisition unit;
Using at least the linguistic expression included in the summary source document and the linguistic expression acquired by the second acquisition unit, the higher the value that the summary candidate is associated with the linguistic expression included in the summary source document, A calculation unit that calculates a recall and a precision that is so high that nothing related to the summary candidate other than the language expression included in the summary source document exists.
A selection unit that selects a summary of the summary source document using the recall and precision calculated by the calculation unit for each summary candidate;
A program for functioning as an output unit that outputs a summary selected by the selection unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009297708A JP5388038B2 (en) | 2009-12-28 | 2009-12-28 | Document summarization apparatus, document processing apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009297708A JP5388038B2 (en) | 2009-12-28 | 2009-12-28 | Document summarization apparatus, document processing apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011138306A JP2011138306A (en) | 2011-07-14 |
JP5388038B2 true JP5388038B2 (en) | 2014-01-15 |
Family
ID=44349684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009297708A Expired - Fee Related JP5388038B2 (en) | 2009-12-28 | 2009-12-28 | Document summarization apparatus, document processing apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5388038B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9659110B2 (en) | 2011-10-20 | 2017-05-23 | The Boeing Company | Associative memory technology for analysis of requests for proposal |
JP5834883B2 (en) * | 2011-12-20 | 2015-12-24 | 日本電気株式会社 | Causal relation summarizing method, causal relation summarizing apparatus, and causal relation summarizing program |
US10073834B2 (en) * | 2016-02-09 | 2018-09-11 | International Business Machines Corporation | Systems and methods for language feature generation over multi-layered word representation |
JP6747040B2 (en) * | 2016-05-06 | 2020-08-26 | 株式会社リコー | Data analysis device, data analysis method, data analysis program and recording medium |
JP6205466B1 (en) * | 2016-07-19 | 2017-09-27 | ヤフー株式会社 | Generating device, generating method, and generating program |
JP7012298B2 (en) * | 2016-09-21 | 2022-01-28 | ジャパンモード株式会社 | Literature data analysis program and system |
JP6902945B2 (en) * | 2017-07-07 | 2021-07-14 | 株式会社野村総合研究所 | Text summarization system |
JP7017478B2 (en) * | 2018-06-27 | 2022-02-08 | ヤフー株式会社 | Output device, output method and output program |
WO2022113285A1 (en) * | 2020-11-27 | 2022-06-02 | 日本電気株式会社 | Recommendation device, recommendation system, recommendation method, program, and storage medium |
CN116597461B (en) * | 2023-07-14 | 2023-09-22 | 广东信聚丰科技股份有限公司 | Topic knowledge point association method and system based on artificial intelligence |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0682363B2 (en) * | 1987-01-16 | 1994-10-19 | シャープ株式会社 | Document processor |
JPH03278270A (en) * | 1990-03-28 | 1991-12-09 | Ricoh Co Ltd | Abstract document forming device |
JP3442214B2 (en) * | 1996-03-12 | 2003-09-02 | シャープ株式会社 | Keyword extraction method, concept extraction method, keyword extraction device, and concept extraction device |
JP3001047B2 (en) * | 1997-04-17 | 2000-01-17 | 日本電気株式会社 | Document summarization device |
JP4074687B2 (en) * | 1997-07-28 | 2008-04-09 | 株式会社ジャストシステム | Summary sentence creation support system and computer-readable recording medium recording a program for causing a computer to function as the system |
JP2000011003A (en) * | 1998-06-26 | 2000-01-14 | Nippon Telegr & Teleph Corp <Ntt> | Device for summarizing open document and recording medium recording its program |
JP3997678B2 (en) * | 2000-01-19 | 2007-10-24 | 富士ゼロックス株式会社 | Document summarization apparatus and method |
US7607083B2 (en) * | 2000-12-12 | 2009-10-20 | Nec Corporation | Test summarization using relevance measures and latent semantic analysis |
JP2002278949A (en) * | 2001-03-19 | 2002-09-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Device and method for generating title |
JP3682529B2 (en) * | 2002-01-31 | 2005-08-10 | 独立行政法人情報通信研究機構 | Summary automatic evaluation processing apparatus, summary automatic evaluation processing program, and summary automatic evaluation processing method |
JP2003281164A (en) * | 2002-03-20 | 2003-10-03 | Fuji Xerox Co Ltd | Document summarizing device, document summarizing method and document summarizing program |
JP3843320B2 (en) * | 2003-03-03 | 2006-11-08 | 独立行政法人情報通信研究機構 | Specific data extraction method, extraction device, and program |
JP2007011973A (en) * | 2005-07-04 | 2007-01-18 | Sharp Corp | Information retrieval device and information retrieval program |
JP4857448B2 (en) * | 2006-03-10 | 2012-01-18 | 独立行政法人情報通信研究機構 | Information retrieval apparatus and program using multiple meanings |
JP2009140411A (en) * | 2007-12-10 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | Text summarization device and text summarization method |
-
2009
- 2009-12-28 JP JP2009297708A patent/JP5388038B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011138306A (en) | 2011-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5388038B2 (en) | Document summarization apparatus, document processing apparatus, and program | |
Lee et al. | Opinion mining of customer feedback data on the web | |
Petersen et al. | A machine learning approach to reading level assessment | |
Amigó et al. | Overview of replab 2014: author profiling and reputation dimensions for online reputation management | |
US8606815B2 (en) | Systems and methods for analyzing electronic text | |
Argamon et al. | Overview of the international authorship identification competition at PAN-2011. | |
US7877383B2 (en) | Ranking and accessing definitions of terms | |
JP5008024B2 (en) | Reputation information extraction device and reputation information extraction method | |
Moghaddam et al. | AQA: aspect-based opinion question answering | |
JP4911599B2 (en) | Reputation information extraction device and reputation information extraction method | |
Demartini et al. | Dear search engine: what's your opinion about...? sentiment analysis for semantic enrichment of web search results | |
Oliveira et al. | Automatic creation of stock market lexicons for sentiment analysis using stocktwits data | |
Song et al. | Automatic categorization of questions for user-interactive question answering | |
Roy et al. | Discovering and understanding word level user intent in web search queries | |
Dalal et al. | Automatic text classification of sports blog data | |
Shi et al. | A supervised fine-grained sentiment analysis system for online reviews | |
Wilkens et al. | Sw4all: a cefr classified and aligned corpus for language learning | |
Hamdan et al. | Sentiment analysis in scholarly book reviews | |
Žižka et al. | Automatic sentiment analysis using the textual pattern content similarity in natural language | |
JP4552401B2 (en) | Document processing apparatus and method | |
JP5182845B2 (en) | Information extraction apparatus, information extraction method, and information extraction program | |
Ploch et al. | GerNED: A German Corpus for Named Entity Disambiguation. | |
Takale et al. | An intelligent web search using multi-document summarization | |
Artiles et al. | Word Sense Disambiguation based on term to term similarity in a context space | |
Prange et al. | UdS-(retrain| distributional| surface): improving POS tagging for OOV words in German CMC and web data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130823 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130930 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |