JP2010122823A - Text processing system, information processing apparatus, method for processing text and information, and processing program - Google Patents
Text processing system, information processing apparatus, method for processing text and information, and processing program Download PDFInfo
- Publication number
- JP2010122823A JP2010122823A JP2008294778A JP2008294778A JP2010122823A JP 2010122823 A JP2010122823 A JP 2010122823A JP 2008294778 A JP2008294778 A JP 2008294778A JP 2008294778 A JP2008294778 A JP 2008294778A JP 2010122823 A JP2010122823 A JP 2010122823A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- action
- term
- text
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、電子化されたテキスト文書やテキスト文章等の文書からその要約や、その文書で主張する個所としての部分テキストを抽出するテキスト処理システム、前記した文書から前記した部分テキストを抽出する情報処理装置、これら部分テキストを抽出するテキスト処理方法および情報処理方法ならびにこれら部分テキストを抽出するテキスト処理プログラムおよび情報処理プログラムに関する。 The present invention relates to a text processing system that extracts an abstract from a document such as an electronic text document or a text sentence, or a partial text as a portion claimed in the document, and information to extract the partial text from the document. The present invention relates to a processing device, a text processing method and an information processing method for extracting these partial texts, and a text processing program and an information processing program for extracting these partial texts.
人が日常的に使っている言語を自然言語という。自然言語は、プログラミング言語のような人工的に定義された形式言語と比較すると、多様性に富んでいる。自然言語によって記述されたテキスト文章またはテキスト文書は、コンピュータ等の情報処理装置を使用して、数多くの人が日々、大量に作成している。そこで、これらの自然言語によって記述された大量なテキスト文章またはテキスト文書(以下、単に文書と略称する。)から、各人の要求する必要な文書を探し出すテキスト処理が要請されている。 Languages that people use on a daily basis are called natural languages. Natural languages are rich in variety when compared to artificially defined formal languages such as programming languages. A large number of text sentences or text documents written in a natural language are created daily by a large number of people using an information processing device such as a computer. Therefore, there is a demand for text processing for searching for a necessary document requested by each person from a large amount of text sentences or text documents (hereinafter simply referred to as documents) described in these natural languages.
このような要請を実現するために、文書から要約やその文書の主張箇所の文章を生成するテキスト処理システムが注目されている。テキスト処理システムで、文書から要約文章を自動的に生成することを自動テキスト要約という。文書の主張箇所を表わした文書は、テキスト要約と厳密な意味では異なる。しかしながら、本明細書ではこれも広義の要約文書として扱うことにする。 In order to realize such a request, attention has been paid to a text processing system that generates a summary and a sentence of an asserted portion of the document from a document. Automatic text summarization refers to automatically generating summary sentences from a document in a text processing system. The document that represents the claimed part of the document differs in a strict sense from the text summary. However, in the present specification, this is also treated as a broad summary document.
ところで、自動テキスト要約を生成する技術としては、文書から要約文章を構成するであろう重要文を抽出して、これら重要文を連結して、文章として自然になるように整形することが主流となっている。要約文章の元となる重要文の抽出方法としては、形態素解析を用いる手法が主流である。ここで形態素解析とは、文章を構成する最小の意味単位である形態素に分解する処理をいう。 By the way, as a technique for generating automatic text summaries, the mainstream is to extract important sentences that will make up a summary sentence from a document, concatenate these important sentences, and shape them as natural sentences. It has become. As a method for extracting an important sentence from which a summary sentence is based, a technique using morphological analysis is mainly used. Here, the morpheme analysis refers to a process of decomposing the morpheme, which is the smallest semantic unit constituting the sentence.
重要文の抽出には、まず、文書中の各文を形態素解析して、品詞が特定の名詞である用語を抽出する。本明細書で「用語」とは、単語や複合語、句等の総称である。文書から用語を抽出したら、それらの出現頻度から重要用語を特定する。そして、それらの重要用語を含む文を重要文とする。このように出現頻度を用いて重要用語を特定して重要文を抽出する手法は、本発明に関連する第1の関連技術として提案されている(たとえば特許文献1参照)。 To extract important sentences, first, each sentence in a document is analyzed by morphological analysis, and a term whose part of speech is a specific noun is extracted. In this specification, “term” is a general term for words, compound words, phrases, and the like. Once terms are extracted from the document, important terms are identified from their appearance frequency. A sentence including those important terms is designated as an important sentence. A technique for extracting an important sentence by specifying an important term using the appearance frequency is proposed as a first related technique related to the present invention (see, for example, Patent Document 1).
また、出現頻度を単に使用する第1関連技術と異なり、単語の出現密度を求めて重要文を抽出する手法が本発明の第2の関連技術として提案されている(たとえば特許文献2参照)。この第2の関連技術では、まず文書を形態素解析し、要約の種別に応じて要約の手がかりとして必要な単語の集合を文書から抽出する。そして、文書を複数の意味的なまとまりに分割して、単語の集合に含まれる単語の出現密度の高い重要部分を算出する。この算出した重要部分から所与の要約率に応じて文を抽出する。 Also, unlike the first related technique that simply uses the appearance frequency, a technique for obtaining the appearance density of words and extracting an important sentence has been proposed as a second related technique of the present invention (see, for example, Patent Document 2). In the second related technique, a document is first subjected to morphological analysis, and a set of words necessary as a clue for summarization is extracted from the document according to the type of summary. Then, the document is divided into a plurality of semantic groups, and an important portion having a high appearance density of words included in the word set is calculated. A sentence is extracted from the calculated important part according to a given summary rate.
更に、文書の種類に応じた要約文章のシナリオを用意しておいて、文書からシナリオに応じた述語を含む文を重要文とすることが、本発明の第3の関連技術として提案されている(たとえば特許文献3参照)。この第3の関連技術では、抄録等の重要文を作成する論文等の文章について、当該分野の代表的なシナリオを投射し、このシナリオの投射によって筆者が本来いわんとする粗筋や構想であるプロットのみを抽出して重要文を自動的に作成するようにしている。 Furthermore, it is proposed as a third related technique of the present invention that a summary sentence scenario corresponding to the type of document is prepared and a sentence including a predicate corresponding to the scenario is made an important sentence from the document. (For example, refer to Patent Document 3). In this third related technology, a typical scenario in the relevant field is projected on a sentence such as a paper that creates an important sentence such as an abstract, etc., and this scenario is a rough line or concept that the author originally says. An important sentence is automatically created by extracting only the plot.
ところで、比較的長い文書には、要約文章や、それと同等な抄録が付加されていることが多い。そこで本発明の第4の関連技術として、「概要」等の要約文章に関連する小見出しが付いた節を要約文章の一部とすることを提案している(たとえば特許文献4参照)。この第4の関連技術では、たとえば「あらまし」等のように要約処理を施す必要のない部分は、原文書のまま要約結果に反映させることにしている。 By the way, a comparatively long document is often accompanied by a summary sentence or an equivalent abstract. Therefore, as a fourth related technique of the present invention, it is proposed that a section with a subheading related to a summary sentence such as “summary” is made a part of the summary sentence (see, for example, Patent Document 4). In the fourth related technique, for example, a part that does not need to be summarized, such as “summary”, is reflected in the summary result as the original document.
更に、重要なパラグラフを特定するための辞書を用いて、要約文章の候補の一部とすることが本発明の第5の関連技術として提案されている(たとえば特許文献5参照)。この第5の関連技術では、重要なパラグラフを抽出するために利用する見出し語を登録している見出し語辞書をテキストデータとパターンマッチングすることで重要なパラグラフを特定する。そして、重要パラグラフ内から仮要約を特定し、不要個所を削除して要約を自動的に作成する。
しかしながら、第1〜第3の関連技術に示されるように、文書から用語を手掛かりにして文を抽出して重要文を作成する手法では、文書から断片的な文が抽出されることになる。このため、人手により作成される要約文章等の重要文と比べると品質が十分とはいえない。 However, as shown in the first to third related techniques, in the method of creating an important sentence by extracting a sentence from a document by using a term as a clue, a fragmentary sentence is extracted from the document. For this reason, quality cannot be said to be sufficient compared with important sentences such as summary sentences created manually.
また、第4あるいは第5の関連技術に示されるように、文書に存在する要約相当の節やパラグラフを特定する手法では、予め専用の辞書やルールを準備しておく必要がある。あるいは、文書から重要文を作成する個所を特定するための小見出しが、文書を構成する節やパラグラフに付与されている必要がある。このため、重要文を作成する際の対応できる文書が限定されることになるという問題があった。 Further, as shown in the fourth or fifth related technique, in the method of specifying a section or paragraph corresponding to a summary existing in a document, it is necessary to prepare a dedicated dictionary or rule in advance. Alternatively, a subheading for specifying a location where an important sentence is created from a document needs to be given to a section or paragraph constituting the document. For this reason, there is a problem that documents that can be handled when creating an important sentence are limited.
そこで本発明の目的は、電子化された各種のテキスト文書から重要文を抽出する個所を特定することのできるテキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラムを提供することにある。 SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide a text processing system, an information processing apparatus, a text and information processing method, and a processing program capable of specifying a location where an important sentence is extracted from various digitized text documents. is there.
本発明では、(イ)1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出手段と、(ロ)この行為用語抽出手段で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較手段と、(ハ)この行為用語比較手段の比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別手段とをテキスト処理システムが具備する。 In the present invention, (a) text data constituting one document is selected from segment data obtained by dividing the text data into segments as a group of sentence ranges according to a predetermined rule. Action term extraction means for extracting for each segment text information that matches one of the action terms as terms that express the intention, and (b) action terms for each segment extracted by this action term extraction means. Action term comparing means for comparing the action terms according to segments and the integrated action terms as the action terms obtained by integrating all the segments of the text data constituting the one document described above, and (c) this action term comparison From the comparison results of the means, the segment obtained by extracting the segment-specific action terms most similar to the above-mentioned integrated action terms is 1 Part text processing system and a segment discriminating means for discriminating the main part and comprising a segment of the text data of the document of are provided.
また、本発明では、(イ)1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割するセグメント分割手段と、(ロ)前記した請求項1〜請求項15いずれかに記載のテキスト処理システムとを情報処理装置が具備する。
In the present invention, (b) segment dividing means for dividing text data constituting one document into segments as a group of sentences, and (b) any one of
更に本発明では、(イ)1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出ステップと、(ロ)この行為用語抽出ステップで抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較ステップと、(ハ)この行為用語比較ステップの比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別ステップとをテキスト処理方法が具備する。
Further, in the present invention, (a) text data constituting one document is selected from segment data obtained by dividing the text data into segments as a group of sentence ranges according to a predetermined rule, and each sentence is selected. An action term extraction step for extracting for each segment text information that matches one of the action terms as a term that expresses the intention of the action; and (b) an action for each segment extracted in this action term extraction step. An action term comparison step for comparing an action term for each segment as a term with an integrated act term as an act term obtained by integrating all segments of the text data constituting the one document, and (c) this act term Extracting segment-specific action terms that are most similar to the above-mentioned integrated action terms from the comparison result of the comparison step Segment determination step and a text processing method for determining become segment and main part of the
更にまた、本発明では、(イ)1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割するセグメント分割ステップと、(ロ)このセグメント分割ステップによってセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出ステップと、(ハ)この行為用語抽出ステップで抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較ステップと、(ニ)この行為用語比較ステップの比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別ステップとを情報処理方法が具備する。 Furthermore, in the present invention, (a) a segment division step for dividing text data constituting one document into segments as a group of sentences, and (b) dividing into segments by this segment division step. An action term extracting step for extracting, for each segment, text information that is selected from predetermined segment rules according to a predetermined rule and matches one of the action terms as a term that expresses the intention of each sentence. And (c) an action term for each segment extracted in this action term extraction step, and an action term that integrates all segments of the text data constituting the one document described above. An action term comparison step that compares the integrated action terms with (d) this line A segment discriminating step for discriminating a segment obtained by extracting a segment-specific action term most similar to the integrated action term from the comparison result of the term comparison step as a segment that is a main part of the text data of the one document. A processing method is provided.
また、本発明では、コンピュータに、テキスト処理プログラムとして、(イ)1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出処理と、(ロ)この行為用語抽出処理で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較処理と、(ハ)この行為用語比較処理の比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別処理とを実行させる。
Further, according to the present invention, as a text processing program, (a) a predetermined predetermined value is obtained from segment data obtained by dividing text data constituting one document into segments as a group of sentences. An action term extraction process for extracting for each segment text information that matches one of the action terms as a term that is selected according to the rules of and expresses the intention of each sentence; and (b) this action term extraction process Action term comparison that compares the action term by segment as the action term for each segment extracted in
更に、本発明では、コンピュータに、情報処理プログラムとして、(イ)1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割するセグメント分割処理と、(ロ)このセグメント分割ステップによってセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出処理と、(ハ)この行為用語抽出処理で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較処理と、(ニ)この行為用語比較処理による比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別処理とを実行させる。 Further, according to the present invention, as a data processing program, (b) segment division processing that divides text data constituting one document into segments as a group of sentences, and (b) segment division. Text information that matches one of the action terms as a term that is selected from the segment data divided into segments by steps according to a predetermined rule and expresses the intention of each sentence. Action term extraction process for extracting the action term, (c) the segment-specific action term for each segment extracted in the action term extraction process, and all the segments for the text data constituting the one document described above Of action terms comparing action terms integrated with action terms And (d) a segment that is obtained by extracting a segment-specific action term that is most similar to the integrated action term from the comparison result of the action term comparison process, and a segment that is a main part of the text data of one document described above A segment discrimination process for discrimination is executed.
以上説明したように本発明によれば、さまざまな文書の電子化されたテストデータから、その文書の要部となり得る部分テキストを文章としての品質を高く保った状態で抽出することができる。 As described above, according to the present invention, partial text that can be a main part of a document can be extracted from digitized test data of various documents while maintaining a high quality as a sentence.
図1は、本発明のテキスト処理システムのクレーム対応図を示したものである。本発明のテキスト処理システム10は、1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出手段11と、この行為用語抽出手段11で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較手段12と、この行為用語比較手段12の比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別手段13とを備えている。
FIG. 1 shows a claim correspondence diagram of the text processing system of the present invention. The
図2は、本発明の情報処理装置のクレーム対応図を示したものである。本発明の情報処理装置20は、1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割するセグメント分割手段21と、前記した請求項1〜請求項15いずれかに記載のテキスト処理システム22とを備えている。
FIG. 2 is a diagram corresponding to the claims of the information processing apparatus according to the present invention. The
図3は、本発明のテキスト処理方法のクレーム対応図を示したものである。本発明のテキスト処理方法30は、1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出ステップ31と、この行為用語抽出ステップ31で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較ステップ32と、この行為用語比較ステップ32の比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別ステップ33とを備えている。
FIG. 3 shows a correspondence diagram of the text processing method according to the present invention. The
図4は、本発明の情報処理方法のクレーム対応図を示したものである。本発明の情報処理方法40は、1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割するセグメント分割ステップ41と、このセグメント分割ステップ41によってセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出ステップ42と、この行為用語抽出ステップ42で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較ステップ43と、この行為用語比較ステップ43の比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別ステップ44とを備えている。
FIG. 4 is a diagram corresponding to claims of the information processing method of the present invention. An
図5は、本発明のテキスト処理プログラムのクレーム対応図を示したものである。本発明のテキスト処理プログラム50は、コンピュータに、1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出処理51と、この行為用語抽出処理51で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較処理52と、この行為用語比較処理52の比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別処理53とを実行させる。
FIG. 5 shows a claim correspondence diagram of the text processing program of the present invention. The
図6は、本発明の情報処理プログラムのクレーム対応図を示したものである。本発明の情報処理プログラム60は、コンピュータに、1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割するセグメント分割処理61と、このセグメント分割処理61によってセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出処理62と、この行為用語抽出処理62で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記した1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較処理63と、この行為用語比較処理63による比較結果から前記した統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記した1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別処理64とを実行させる。
FIG. 6 shows a claim correspondence diagram of the information processing program of the present invention. The
<発明の第1の実施の形態> <First Embodiment of the Invention>
次に本発明の第1の実施の形態を説明する。 Next, a first embodiment of the present invention will be described.
図7は、本発明の第1の実施の形態によるテキスト処理システムを使用した情報処理装置の構成を表わしたものである。この情報処理装置100は、CPU(Central Processing Unit)101および制御プログラムをその少なくとも一部に格納するメモリ102を備えた制御部103を有している。制御部103は、テキスト処理システム110を構成する次に説明する各部の制御を行うようになっている。
FIG. 7 shows the configuration of the information processing apparatus using the text processing system according to the first embodiment of the present invention. The
文書集合部105は、所定数の文書データを電子的なデータとして蓄積する。セグメント化部106は文書集合部105から読み出した所望の文書のテキストデータである文書データ107を節やパラグラフ等の一まとまりの文章の範囲としてのセグメントに分割し、これらのテキストデータをセグメントデータ108として、テキスト処理システム110に入力するようになっている。テキスト処理システム110は、最適なセグメントとしての核セグメント111を出力部112に供給して外部に送出する。ここで核セグメント111とは、処理の対象となる文書全体とたとえば類似度が最も高い値を持つセグメントをいう。出力部112は核セグメント111を外部に出力するようになっている。
The
ここで本実施の形態のテキスト処理システム110は、入力されたセグメントデータ108から行為用語を抽出する行為用語抽出部121を備えている。本明細書で「行為用語」とは、セグメントに分かれたそれぞれのセグメントデータ108が表わす端的な意味をいう。行為用語抽出部121の抽出した行為用語122は、行為ベクトル生成部123に供給される。行為ベクトル生成部123は、各セグメントごとに抽出した行為用語のベクトルと全セグメントのベクトルを総和した統合ベクトル124を生成するようになっている。
Here, the
行為ベクトル生成部123で生成された統合ベクトル124と各セグメントの行為ベクトル125は、行為ベクトル記憶部126に供給されて格納される。核セグメント判定部128は、行為ベクトル記憶部126内に格納された各セグメントの行為ベクトルと統合ベクトルを比較データ129として比較して、最適なセグメントを特定し、核セグメント111として出力するようになっている。
The integrated vector 124 generated by the action
このようなテキスト処理システム110内の行為用語抽出部121等の各構成部の少なくとも一部は、メモリ102に格納された制御プログラムをCPU101が実行することによってソフトウェア的なデバイスとして実現することができる。また、本実施の形態ではテキスト処理システム110を情報処理装置100の一部として構成しているが、これ以外の構成であってもよい。たとえば文書集合部105、セグメント化部106および出力部112が図示しない通信ネットワークを介して他の図示しない情報処理装置側に存在するものであってもよい。更に、文書集合部105は1つのデータベースとして構成されている必要性はなく、複数のデータベースに分散して存在していても構わない。
At least a part of each component such as the action
次に、本実施の形態の情報処理装置100の動作について、テキスト処理システム110を中心に説明する。
Next, the operation of the
文書集合部105には、人が作成した電子化された文書またはそれらのコピーが蓄積されている。処理の対象となる電子化された文書は、それぞれ1つずつの話題について記述されたものであることが望ましい。これは文書集合部105に格納する文書の種類を強く制限する制約ではない。1つの文書が、全く異なる話題について書かれた複数の文書を結合したものは、テキスト処理システム110の処理の対象とする文書として好ましくない、という程度の制約である。
The
また、文書集合部105に蓄積されている文書は、どのような文書作成アプリケーションソフトウェアで作成され、また、どのようなアプリケーション形式で電子化されているかは問題とされない。文書集合部105から文書のテキストを文書データ107として取り出す際には、該当するアプリケーション形式からテキストを抜き出す既存の技術を用いることができるからである。
Further, it does not matter what kind of document creation application software the document stored in the
本実施の形態では、処理の対象となる文書が学術論文である場合を例に挙げて説明する。学術論文はテキスト処理システム110の処理できる文書の一例であることは当然である。
In this embodiment, a case where a document to be processed is an academic paper will be described as an example. Naturally, an academic paper is an example of a document that can be processed by the
セグメント化部106は、文書集合部105に蓄積されている文書またはこれらの文書から抜き出されたテキストデータを文書データ107として入力し、セグメントに分割する。ここでセグメントとは、パラグラフや節等の「部分」あるいは「断片」をいう。特殊な例としては、プレゼンテーションソフトウェアの文書におけるスライドもセグメントの1つとなる。セグメントは、いずれの単位のものでも構わないが、対象文書の種類に応じて、「単位」を変化させることも可能である。本実施の形態では、一例としてセグメント化部106が文書データ107を「節」に分割するものとして説明を行う。
The
図8は、セグメント化部で分割する前の文書とセグメント化した文書を表わしたものである。ここで同図(A)は図7に示した文書集合部105に蓄積されている所定の文書(元の文書)131を示している。同図(B)は、文書131のテキストデータとしての文書データ107を表わしている。この文書データ107は、この例で、破線で囲んだ第1〜第5のセグメント1321〜1325に分割される。このようにして分割された第1〜第5のセグメント1321〜1325は、図7に示したセグメントデータ108として、図7に示したテキスト処理システム110に入力される。
FIG. 8 shows a document before segmentation by the segmentation unit and a segmented document. Here, FIG. 9A shows a predetermined document (original document) 131 stored in the
テキスト処理システム110では、図7に示した文書集合部105に含まれるすべての文書を順に処理してもよいし、必要な文書のみを順に処理してもよい。また、本テキスト処理システムの利用者が指定する文書のみを順に処理してもよい。
In the
テキスト処理システム110の初段に配置された行為用語抽出部121は、文書の各セグメントを表わすセグメントデータ108から、これらのセグメントがそれぞれ表わす端的な意味を持った用語を抽出する。ここで、端的な意味を表わす用語とは、対象となる文書の言語が日本語の場合、文の最後尾に位置する特定の動詞または特定の名詞である。
The action
特定の動詞の例としては、「ある」や「する」等の特定の例外の自立動詞を除いた自立動詞がある。また、特定の名詞の例としては、一般名詞およびサ変接続名詞および形容動詞の語幹になる名詞(形容動詞語幹名詞)がある。対象となる文書の言語が日本語の場合、文の最後尾に位置する特定の動詞または特定の名詞を、行為用語と呼ぶ。図8に示した行為用語は単なる一例である。行為用語は、判定する核セグメントの種類に応じて変更してもよい。ここで、「核セグメント」は、類似度または出現頻度が予め設定した閾値以上であるセグメントをいう。本実施の形態では、説明の煩雑化を防ぐため、一つの行為用語を抽出する場合について説明するが、複数個の行為用語を抽出してもよい。 Examples of specific verbs include independent verbs excluding specific exceptions such as “Yes” and “Yes”. As examples of specific nouns, there are general nouns, savory connection nouns, and nouns that form stems of adjective verbs (adjective verb stem nouns). When the language of the target document is Japanese, a specific verb or a specific noun located at the end of the sentence is called an action term. The action terms shown in FIG. 8 are merely examples. The action term may be changed according to the type of the nuclear segment to be determined. Here, “nuclear segment” refers to a segment whose similarity or appearance frequency is greater than or equal to a preset threshold value. In the present embodiment, a case where one action term is extracted is described in order to prevent the explanation from becoming complicated, but a plurality of action terms may be extracted.
行為ベクトル生成部123は、行為用語抽出部121によってセグメントごとに抽出された行為用語122を用いて各セグメントの行為用語のベクトルを生成する。また、すべてのセグメントのベクトルを生成したら、これらのベクトルの総和のベクトルである統合ベクトルを生成する。統合ベクトルを生成する際には、各セグメントのベクトルの大きさを1に正規化した上で総和を求めてもよい。
The action
行為ベクトル記憶部126は、行為ベクトル生成部123によって生成された統合ベクトル124と各セグメントの行為ベクトル125を記憶する。
The action
核セグメント判定部128は、行為ベクトル記憶部126に記憶されている各セグメントの行為ベクトルと統合ベクトルを順に比較データ129として比較して最適なセグメントを核セグメント111とする。ここで、最適なセグメントを核セグメント111として特定する手法には各種の方式を採用することができる。たとえば、統合ベクトル124と最もベクトルが近い行為ベクトル125を選択する類似度方式や、統合ベクトル124での頻度の高い行為用語をたくさん含む行為ベクトル125を選択する頻度方式がある。類似度方式では、各セグメントの行為ベクトル125と統合ベクトル124の間の類似度計算にコサイン尺度を用いればよい。頻度方式では、統合ベクトル124での頻度が上位の行為用語が各セグメントの行為ベクトル125に含まれている確率を用いればよい。
The nuclear
以上のようにしてテキスト処理システム110が文書集合部105内の該当する文書すべてについての処理を完了したら、出力部112がこれらの文書について供給された核セグメント111を結果として出力することになる。テキスト処理システム110が文書集合部105内のすべての文書を指定して処理し、出力部112がこれら文書全体の結果を出力してもよい。
When the
このような本実施の形態のテキスト処理システム110によれば、さまざまな文書から、これらの文書の要約となりうる文章として品質の高い部分テキストを抽出することができるという効果がある。文章としての品質が高い理由は、文書中のセグメントを選択するためである。また、本実施の形態で使用するセグメントは文の間のつながりが自然であり、また、それぞれのセグメントはそれぞれ単一のトピックについて記述されていることが多く、文章としてまとまっている傾向があるからである。本実施の形態のテキスト処理システム110がさまざまな文書に対応できる理由は、辞書やルールといった手法を必要としない手法であるためである。また、文書の要部の抽出に小見出しを使わず、文書全体で用いられる行為用語と類似した行為用語を用いているセグメントまたは文書全体で頻度の高い行為用語を多く使っているセグメントを選択するようにしているからである。
According to the
図9は、本発明の第1の実施例におけるテキスト処理システムを使用した情報処理装置の構成を表わしたものである。この図9に示した本実施例の情報処理装置100Aにおけるテキスト処理システム110Aで、図7と同一部分には同一の符号を付しており、これらの説明を適宜省略する。
FIG. 9 shows the configuration of an information processing apparatus using the text processing system in the first embodiment of the present invention. In the
第1の実施例のテキスト処理システム110Aは、行為用語抽出部121Aが第1〜第Mの行為用語リスト1411〜141Mを備えている。ここで符号Mは、1つのセグメントとしての文章に含まれる可能性のある文の総数として予想される値の上限値あるいはこれよりも大きな整数である。また、第1の実施例のテキスト処理システム110Aの行為ベクトル生成部123Aは、第1〜第Mの行為ベクトル1421〜142Mと、文書全体の統合ベクトル143を生成するようになっている。制御部103A内のメモリ102Aには、第1の実施例における情報処理装置101Aの制御を行う制御プログラムが格納されている。第1〜第Mの行為用語リスト1411〜141M、第1〜第Mの行為ベクトル1421〜142Mおよび統合ベクトル143については、後に説明する。
In the
この第1の実施例で文書集合部105には、文書131の一例として図8(A)に示すような学術論文が、1編だけ、同図(B)に示すテキストデータとしての文書データ107として蓄積されているものとする。既に説明したように、任意のセグメントに分割できる自然言語で書かれた一まとまりの電子化された文書データ131であれば、学術論文以外の文書もテキスト処理システム110の対象となる。
In the first embodiment, the
セグメント化部106は、図8(B)に示すように文書データ107を破線で囲んだ第1〜第5のセグメント1321〜1325に分割する。このようなセグメント化部106の分割処理は、節番号を基にしたり、2行以上の改行によって文書をセグメントに分割する既存の方法を用いることができる。本実施例では、第1〜第5のセグメント1321〜1325をそれぞれ破線で囲んで示しているが、実際にはXML(Extensible Markup Language)等の構造化言語を用いて、それぞれのセグメントの範囲を示すことができる。
Segmenting
テキスト処理システム110は、セグメント化部106を介して文書集合部105から学術論文を1編ずつ取り出して以降の処理を行う。本実施例では図8(A)に示す文書データ131についてそのセグメントデータ108がテキスト処理システム110に取り込まれる。文書集合部105に複数の文書131についての文書データ107が格納されている場合には、1編ずつ処理が繰り返されて、これら複数の文書を処理すればよい。
The
本実施例で取り扱う文書131は、一例を挙げると、マイクロソフトワード(登録商標)に代表されるワープロソフトによる保存形式であってもよい。また、アドビシステムズ社の開発したビューアーソフトであるアクロバットリーダ(登録商標)に適用されるPDF(Portable Document Format)という保存形式であってもよい。文書131は他の保存形式のものであってもよいことはもちろんである。
For example, the
図9には示していないが、各種の保存形式で保存した文書データ107を文書集合部105から取り出す際には、各種の保存形式で格納された文書からテキスト情報を抜き出す既存の技術を用いることができる。
Although not shown in FIG. 9, when extracting the
図10は、本実施例のテキスト処理システムにおける行為用語抽出部の処理の様子を表わしたものである。図10に示す処理は、図9に示したメモリ102Aに格納された制御プログラムをCPU101が実行することによって実現する。図8および図9と共に説明する。
FIG. 10 shows a state of processing of the action term extraction unit in the text processing system of the present embodiment. The processing shown in FIG. 10 is realized by the
まず、行為用語抽出部121Aはセグメント化部106から1編の文書データ107が第1〜第5のセグメント1321〜1325に分割された場合におけるその文書全体を読み込む(ステップS201)。そして処理の対象となるセグメント132が未処理で残っているか、すなわちセグメントデータ108が未処理状態で残っているかどうかをチェックする(ステップS202)。行為用語抽出部121Aが第1〜第5のセグメント1321〜1325について何らの処理も行っていない現在の状態では(Y)、今回処理の対象となる第1のセグメント1321を構成する文章を文に分割する(ステップS203)。文章を文という単位で分割するためには、第1のセグメント1321のセグメントデータ108としてのテキストデータの中から読点やピリオドを探し出し、その個所で文を分割する従来の方法を使えばよい。
First, the act
第1のセグメント1321を構成する文章から先頭の1つの文(のテキストデータ)を分割によって取り出すと、この1つの文(のテキストデータ)から行為用語を特定する(ステップS204)。行為用語の特定方法は後に説明する。本実施例では一文から抽出する行為用語を一単語とするが、二単語以上でも構わない。また抽出する行為用語は単語ではなく複合語や句でも構わない。行為用語を特定すると、これを第1のセグメント1321について用意された第1の行為用語リスト1411に記入する(ステップS205)。
Upon removal by splitting the head of one sentence (text data) from the text which constitutes the
このようにして第1のセグメント1321の第1の文についての行為用語を第1のセグメント1321について用意された第1の行為用語リスト1411に格納したら、行為用語抽出部121Aは第1のセグメント1321に残りの文が存在するかをチェックする(ステップS206)。残りの文がある場合には(Y)、ステップS203に戻って、第1のセグメント1321における残りの文章から第2の文を抽出(分割)する。そして、この第2の文を基にして行為用語を特定し(ステップS204)、第1のセグメント1321について用意された第1の行為用語リスト1411にこの第2の文の行為用語を追加して格納する(ステップS205)。
Once this way by storing the act terms for the
以下、同様にして、たとえば第1のセグメント1321のセグメントデータ108に4つの文のテキストデータが存在していた場合には、これら4つの文のテキストデータそれぞれから行為用語が特定されて第1のセグメント1321について用意された第1の行為用語リスト1411にこれらが格納される(ステップS205)。この後、ステップS206に進むと、第1のセグメント1321には文が残っていないことが判明する(N)。そこで、この場合には、処理がステップS202に進む。
Hereinafter, similarly, for example, when there are four sentence text data in the
ステップS202では、セグメントデータ108について未処理のセグメントが存在するかのチェックが行われる。本実施例ではセグメントデータ108が第1〜第5のセグメント1321〜1325を有している。今、第1のセグメント1321の処理が終了したので、まだ第2のセグメント1322以降のセグメントが残っている(Y)。そこで、今度は第2のセグメント1322について第1の文が分割される(ステップS203)。そして、この第1の文について行為用語が特定される(ステップS204)。この行為用語は、第2のセグメント1321について用意された第2の行為用語リスト1412に格納される(ステップS205)。
In step S202, it is checked whether there is an unprocessed segment in the
以下、同様にして第2のセグメント1322についても、その中の全部の文について1つずつ行為用語が特定され(ステップS204)、第2のセグメント1322について用意された第2の行為用語リスト1412にこれらが格納される(ステップS205)。この後、ステップS206に進むと、第2のセグメント1322には文が残っていないことが判明する(N)。そこで、この場合には、処理がステップS202に進む。
Similarly, for the
このようにして第5のセグメント1325まで同様の処理が終了すると、第1〜第5のセグメント1321〜1325のそれぞれについて用意された第1〜第5の行為用語リスト1411〜1415には、該当するセグメントごとの行為用語がリストアップされることになる。この時点で、処理はステップS202に戻るが、この例ではセグメントデータ108の後に続く残りのセグメントが存在しない(N)。そこで、この時点で行為用語抽出部121Aの処理が終了する(エンド)。
In this manner, when the fifth processing similar to the
図11は、図10のステップS204で示した行為用語を特定する処理の様子を表わしたものである。図11に示す処理は、図9に示したメモリ102Aに格納された制御プログラムをCPU101が実行することによって実現する。図8〜図10と共に説明する。
FIG. 11 shows a process of specifying the action term shown in step S204 of FIG. The processing shown in FIG. 11 is realized by the
一つの文から行為用語を特定するために、行為用語抽出部121Aは、まず対象の一つの文を形態素解析する(ステップS221)。形態素解析は既知の技術を用いればよい。たとえば、その一つの文が「テキスト文書から自動的に要約や主張箇所の文章を作成することへの要求が高まっている。」という記述だとする。
In order to identify an action term from one sentence, the action
図12は、形態素解析の結果を示したものである。この形態素解析の結果を示した表で、表層語とは、対象文の中での活用済みの部分文字列であり、基本形とは表層語の活用基本形である。行為用語抽出部121Aは、形態素解析結果の形態素数をカウンタiに代入する(図11ステップS222)。
FIG. 12 shows the result of morphological analysis. In the table showing the result of this morphological analysis, the surface word is a partial character string already used in the target sentence, and the basic form is a basic form of using the surface word. The action
この図12で特定しようとする行為用語は、処理の対象となる文における端的な意味を表わす用語である。この分の対象となる文書の言語が日本語の場合、行為用語は、文の最後尾に位置する特定の動詞または特定の名詞となる。このような行為用語を迅速に特定するため、最後尾の形態素から順に品詞をチェックする。形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列である。このチェックのために、カウンタiは最後尾の形態素を示す番号となっている。 The action term to be specified in FIG. 12 is a term representing a simple meaning in the sentence to be processed. When the language of the target document is Japanese, the action term is a specific verb or a specific noun located at the end of the sentence. In order to quickly identify such action terms, the part of speech is checked in order from the last morpheme. A morpheme is a minimum character string that is meaningless if it is made finer than this. For this check, the counter i is a number indicating the last morpheme.
図11に戻って説明する。カウンタiは1ずつ減少することになるが、まず、現在の値「i」が値「0」よりも大きいかのチェックが行われる(ステップS223)。これは、その一つの文の先頭までの処理が終了したかを判別するためである。最初は現在の値「i」が値「0」よりも大きい(Y)。そこで行為用語抽出部121Aは、このi番目の品詞が行為用語となる条件に合致しているかチェックする(ステップS224)。合致していれば(Y)、そのi番目の品詞の基本形を行為用語と特定して(ステップS225)、一連の処理を終了する(エンド)。
Returning to FIG. The counter i is decremented by one. First, it is checked whether the current value “i” is larger than the value “0” (step S223). This is to determine whether the processing up to the beginning of the one sentence has been completed. Initially, the current value “i” is greater than the value “0” (Y). Therefore, the action
この最後尾の形態素が行為用語としての条件に合致していなかった場合には(ステップS224:N)、現在の値「i」を「1」だけ減算して、その文の中で注目する形態素を先頭方向に1つだけ移動させる(ステップS226)。そして、ステップS223に戻って、現在の値「i」が値「0」よりも大きいかチェックする。このようにして、現在の値「i」が値「0」よりも大きい間は、ステップS224でi番目の品詞の基本形を行為用語と特定されるまで、同様の処理が繰り返されることになる。ステップS223で現在の値「i」が値「0」以下となった場合には(N)、その一つの文には行為用語が見当たらなかったことになる(ステップS227)。そこで、この場合には該当する行為用語が「なし」ということで一連の処理が終了する(エンド)。 If the last morpheme does not meet the condition as the action term (step S224: N), the current value “i” is subtracted by “1”, and the morpheme to be noticed in the sentence is displayed. Is moved by one in the head direction (step S226). Then, the process returns to step S223 to check whether the current value “i” is larger than the value “0”. In this manner, while the current value “i” is larger than the value “0”, the same processing is repeated until the basic form of the i-th part of speech is identified as the action term in step S224. If the current value “i” becomes equal to or less than “0” in step S223 (N), it means that no action term was found in that one sentence (step S227). Therefore, in this case, a series of processing ends because the corresponding action term is “none” (end).
ところで、ステップS204で行為用語と判断する条件は、現在チェックしている形態素(i番目)の品詞が特定の動詞または特定の名詞であることである。本実施例では、特定の動詞の例として、「ある」や「する」等の特定の例外の自立動詞を除く自立動詞とし、特定の名詞の例として、一般名詞およびサ変接続名詞および形容動詞語幹名詞とする。例外とする自立動詞には、「ある」や「する」の他に、たとえば「いる」、「でる」、「なる」、「よる」、「みる」、「やる」、「できる」、「いう」、「行なう」、「言う」、「つく」がある。図12に示す形態素解析結果で示すと、ステップS224で行為用語としての条件に合致するものは、番号「1」、「2」、「4」、「6」、「8」、「9」、「11」、「13」、「18」および「20」の各形態素となる。 By the way, the condition for determining an action term in step S204 is that the morpheme (i-th) part of speech currently being checked is a specific verb or a specific noun. In this example, as specific verbs, self-verb, excluding specific exceptions such as “Yes” and “Yes”, are used, and as examples of specific nouns, general nouns, sa-variant connected nouns and adjective verb stems It is a noun. Independent verbs that are exceptions include, for example, “is”, “de”, “be”, “become”, “see”, “do”, “do”, “do” ”,“ Do ”,“ Say ”, and“ Take ”. As shown in the morphological analysis results shown in FIG. 12, the numbers “1”, “2”, “4”, “6”, “8”, “9”, The morphemes are “11”, “13”, “18”, and “20”.
ところで、図12に示した処理を実行した場合、文ごとに行為用語を形態素の最後尾から順にチェックすることにしている。このため、この例で最初に見つかる条件に合致する用語は番号「20」のものであり、この形態素の品詞は「自立動詞」である。 By the way, when the process shown in FIG. 12 is executed, the action terms are checked in order from the tail of the morpheme for each sentence. For this reason, the term that matches the condition first found in this example is that of the number “20”, and the part of speech of this morpheme is “independent verb”.
ステップS225では、番号「20」の表層語が「高まっ」となっているために、これが基本形の「高まる」に変更されて、行為用語は「高まる」となる。 In step S225, since the surface word of the number “20” is “increased”, this is changed to “increased” in the basic form, and the action term becomes “increased”.
以上のようにして行為用語抽出部121Aによる行為用語の抽出が終了すると、行為ベクトル生成部123Aに処理が移る。
When the action term extraction by the action
図13は、行為用語抽出部と行為ベクトル生成部の処理の様子を表わしたものである。ここでは、図9に示す数値Mが「3」であるとして、1編の文書データ107が第1〜第3のセグメント1321〜1323に分割されたものとして、説明を簡略化する。
FIG. 13 illustrates the processing of the action term extraction unit and the action vector generation unit. Here, assuming that the numerical value M shown in FIG. 9 is “3”, the description is simplified on the assumption that one
既に説明したように、行為用語抽出部121Aによって第1〜第3のセグメント1321〜1323から第1〜第3の行為用語リスト1411〜1413が抽出される。たとえば、第1のセグメント1321には5文があり、行為用語抽出部121Aによって第1の行為用語のリスト1411が抽出される。次に行為ベクトル生成部123Aは、第1の行為用語のリスト1411から第1の行為ベクトル1421というベクトルを生成する。
As already described, the first to
数学の世界でベクトルは、成分とその値の組の集合で表わされる。コンピュータによる処理では値が「0」の組は意味がない。このため、図13に示すような値が「0」以外の組のみを持つハッシュテーブルで表わすことが一般的である。図13の行為ベクトルでは、成分を「見出し語」とし、値を「頻度」としている。ハッシュテーブルは配列とは異なり、見出し語数に関わらず一定時間で見出し語の値(この場合は頻度)を参照することができるので、ベクトルを表現するのに適している。 In the mathematical world, a vector is represented by a set of components and their values. In the processing by the computer, a group with a value “0” is meaningless. For this reason, it is common to represent a hash table having only values other than “0” as shown in FIG. In the action vector of FIG. 13, the component is “headword” and the value is “frequency”. Unlike an array, the hash table is suitable for expressing a vector because the value of the entry word (frequency in this case) can be referred to in a fixed time regardless of the number of entry words.
行為ベクトル生成部123Aは、第1〜第3の行為用語リスト1411〜1413に含まれる用語を順にハッシュテーブルとしての第1〜第3の行為ベクトル1421〜1423に登録する。未登録の用語(見出し語)の場合は頻度を「1」とし、既に登録済みの用語の場合は頻度を「1」だけ加算する。このようにして第1〜第3の行為用語リスト1411〜1413のそれぞれについて第1〜第3の行為ベクトル1421〜1423を生成する。
It acts
第1〜第3の行為ベクトル1421〜1423を生成したら、これら第1〜第3の行為ベクトル1421〜1423の和を求めて、文書全体の統合ベクトル143を生成する。このような処理過程で文書全体の統合ベクトル143を生成する代わりに、処理の最初から空の統合ベクトル143を用意しておき、第1〜第3の行為ベクトル1421〜1423のそれぞれを作成する際に第1〜第3の行為ベクトル1421〜1423の「頻度」をそのまま合算するようにしてもよい。あるいは、第1〜第3のセグメント1321〜1323の頻度を「1」と解釈して統合ベクトル143を作成してもよい。
When the first to
行為ベクトル生成部123Aは、以上のようにして第1〜第3の行為ベクトル1421〜1423とこれらの統合ベクトル143を作成したら、これらを図9に示した行為ベクトル記憶部126に記憶させる。行為ベクトル生成部123Aから行為ベクトル記憶部126への第1〜第3の行為ベクトル1421〜1423の記憶は、統合ベクトル143を作成した段階で統合ベクトル143と共に一括して行ってもよいし、第1〜第3の行為ベクトル1421〜1423の記憶を個々に行い、統合ベクトル143の記憶をその後に行うようにしてもよい。
When the action
図9に示した核セグメント判定部128は、行為ベクトル記憶部126に記憶されている第1〜第Mのセグメント1321〜132Mの第1〜第Mの行為ベクトル1421〜142Mと統合ベクトル143を順に比較して類似度を計算する。そして、最も類似度の高いセグメントを核セグメント111とする。
Nuclear
第1〜第Mの行為ベクトル1421〜142Mと統合ベクトル143との類似度計算は、コサイン尺度を用いる。コサイン尺度とは、次の式(1)で表わされるベクトル間の類似度を計算する一般的な指標である。
The cosine scale is used to calculate the similarity between the first to
図14は、コサイン尺度を用いて各セグメントの行為ベクトルと統合ベクトルの類似度を計算した例を示したものである。この図14では、図9に示す数値Mが「4」であるとして、すなわち1編の文書データが4つのセグメントに分割されるものとして、説明を簡略化する。 FIG. 14 shows an example in which the similarity between the action vector of each segment and the integrated vector is calculated using a cosine scale. In FIG. 14, the description is simplified on the assumption that the numerical value M shown in FIG. 9 is “4”, that is, one document data is divided into four segments.
統合ベクトル143は、第1〜第4の行為ベクトル1421〜1424における「頻度」をそのまま合算している。この図14には類似度(cos(Si,V))も示している。ここで、「Si」は、第iの行為ベクトル142iを表わしており、「V」は統合ベクトル143を表わしている。第1の行為ベクトル1421と統合ベクトル143の類似度cos(S1,V)は「0.47」であり、第2の行為ベクトル1421と統合ベクトル143の類似度cos(S2,V)は「0.67」である。また、第3の行為ベクトル1421と統合ベクトル143の類似度cos(S3,V)は「0.56」であり、第4の行為ベクトル1424と統合ベクトル143の類似度cos(S4,V)は「0.62」である。
The
このように図14に示した例では、第2の行為ベクトル1421と統合ベクトル143の類似度cos(S2,V)が最高の「0.67」という値になっている。したがって、図9に示した核セグメント判定部128は、第2の行為ベクトル1421に係わる第2のセグメント1322を核セグメント111Aと判断する。
In the example shown this way in Fig. 14, it has a value of "0.67" of the similarity cos (S2, V) is the best of the
核セグメント判定部128によって文書の核セグメント111Aが特定されると、出力部112によって該当する文書の核セグメントが出力される。核セグメントの出力形式は、セグメントの番号でも構わないし、セグメントそのものでも構わない。
When the core segment 111A of the document is specified by the core
なお、第1の実施例では核セグメント判定部128が第1〜第4の行為ベクトル1421〜142Mと統合ベクトル143の類似度を判別し、最も高い値を持つセグメント132を核セグメント111Aとしたが、これに限るものではない。たとえば最も類似度が高くかつ予め設定した閾値以上のセグメントを核セグメント111Aとしてもよい。また、予め定めた閾値以上の類似度を持つセグメントの中から、文書中のセグメントの位置がもっとも前方(あるいは後方)に位置するセグメントを核セグメント111Aとしてもよい。
In the first embodiment, the nuclear
また、第1の実施例では文書の言語が日本語の場合を例として挙げ、行為用語は、文の最後尾に位置する特定の動詞または特定の名詞となるものとしたが、これに限るものではない。たとえば英語の場合には、文の最初に出てくる動詞を行為用語とすることができる。たとえば、「This paper proposes a novel approach to accurately searching Web pages for relevant information in problem solving.」という英文があったとする。この場合には、最初の動詞「proposes」を抽出し、その原形である「propose」を行為用語とすることができる。 In the first embodiment, the document language is Japanese as an example, and the action term is a specific verb or a specific noun located at the end of the sentence. is not. For example, in the case of English, a verb appearing at the beginning of a sentence can be used as an action term. For example, suppose there is an English sentence "This paper proposes a novel approach to accurately searching Web pages for relevant information in problem solving." In this case, the first verb “proposes” can be extracted and the original form “propose” can be used as an action term.
このように第1の実施例によれば、言語の種類に応じてそれぞれの文の最後尾や文頭から順にチェックすることにしたので、文章構造を利用して、行為用語を簡単に抽出することができる。 As described above, according to the first embodiment, since the sentence is checked in order from the end or the beginning of the sentence according to the language type, the action terms can be easily extracted using the sentence structure. Can do.
図15は、本発明の第2の実施例におけるテキスト処理システムを使用した情報処理装置の構成を表わしたものである。この図15に示した本実施例の情報処理装置100Bにおけるテキスト処理システム110Bで、図9と同一部分には同一の符号を付しており、これらの説明を適宜省略する。
FIG. 15 shows the configuration of an information processing apparatus using the text processing system in the second embodiment of the present invention. In the
第2の実施例のテキスト処理システム110Bでは、第1の実施例の場合と同一の行為用語抽出部121Aおよび行為ベクトル生成部123Aを使用しており、核セグメント判定部128Bのみの構成が異なっている。また、制御部103Bのメモリ102Bは、第2の実施例に応じた制御プログラムを格納している。そこで、以下の説明では核セグメント判定部128Bの構成とその動作を中心として説明を行う。
The
第2の実施例の核セグメント判定部128Bは、行為ベクトル記憶部126に記憶されている統合ベクトルから頻度の高い行為用語を選択する。そして、各セグメントの行為ベクトルでの該当する行為用語の出現確率を計算して、最も確率の高いセグメントを核セグメントとするようになっている。
The nuclear
次の式(2)は、出現確率を示したものである。ただし、式(2)は出現確率を求める数式の一例であり、これに限るものではない。 The following equation (2) shows the appearance probability. However, Expression (2) is an example of an expression for obtaining the appearance probability, and is not limited to this.
図16は、この第2の実施例における各セグメントの行為ベクトルと統合ベクトルの類似度を計算した例を示したものである。この図16では、図15に示す数値Mが「4」であるとして、すなわち1編の文書データが4つのセグメントに分割されるものとして、説明を簡略化する。 FIG. 16 shows an example of calculating the similarity between the action vector of each segment and the integrated vector in the second embodiment. In FIG. 16, the description is simplified on the assumption that the numerical value M shown in FIG. 15 is “4”, that is, one document data is divided into four segments.
統合ベクトル143は、第1〜第4の行為ベクトル1421〜1424における「頻度」をそのまま合算している。この図16には出現確率(p(Si,V))も示している。ここで、「Si」は、第iの行為ベクトル142iを表わしており、「V」は統合ベクトル143を表わしている。
第1の行為ベクトル1421と統合ベクトル143の出現確率(p(S1,V))は「0.2」であり、第2の行為ベクトル1421と統合ベクトル143の出現確率(p(S2,V))は「0.6」である。また、第3の行為ベクトル1421と統合ベクトル143の出現確率(p(S3,V))は「0.5」であり、第4の行為ベクトル1424と統合ベクトル143の出現確率(p(S4,V))は「0.5」である。
The
The appearance probability (p (S1, V)) of the
このように図16に示した例では、第2の行為ベクトル1421と統合ベクトル143の出現確率(p(S2,V))が最高の「0.6」という値になっている。したがって、図15に示した核セグメント判定部128Bは、第2の行為ベクトル1421に係わる第2のセグメント1322を核セグメント111Bと判断する。
In this way, in the example shown in FIG. 16, the appearance probability (p (S2, V)) of the
核セグメント判定部128によって文書の核セグメント111Bが特定されると、出力部112によって該当する文書の核セグメントが出力される。核セグメントの出力形式は、セグメントの番号でも構わないし、セグメントそのものでも構わない。
When the core segment 111B of the document is specified by the core
なお、第2の実施例では核セグメント判定部128Bが第1〜第4の行為ベクトル1421〜142Mと統合ベクトル143の出現確率を判別し、最も高い値を持つセグメント132を核セグメント111Bとしたが、これに限るものではない。たとえば最も出現確率が高くかつ予め設定した閾値以上のセグメントを核セグメント111としてもよい。また、予め定めた閾値以上の出現確率を持つセグメントの中から、文書中のセグメントの位置が最も前方(あるいは後方)に位置するセグメントを核セグメント111Bとしてもよい。
In the second embodiment, the nuclear
<発明の第2の実施の形態> <Second Embodiment of the Invention>
次に本発明の第2の実施の形態を説明する。 Next, a second embodiment of the present invention will be described.
図17は、本発明の第2の実施の形態によるテキスト処理システムを使用した情報処理装置の構成を表わしたものである。図17で第1の実施の形態の図7と同一部分には同一の符号を付しており、これらの説明を適宜省略する。 FIG. 17 shows the configuration of an information processing apparatus using a text processing system according to the second embodiment of the present invention. In FIG. 17, the same parts as those in FIG. 7 of the first embodiment are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
第2の実施の形態の情報処理装置100Cは、CPU101および制御プログラムをその少なくとも一部に格納するメモリ102Cを備えた制御部103Cを有している。制御部103Cは、テキスト処理システム110Cを構成する各部の制御を行うようになっている。
The information processing apparatus 100C according to the second embodiment includes a
テキスト処理システム110Cは、行為用語抽出部121と、行為ベクトル生成部123と、行為ベクトル記憶部126および核セグメント決定部301から構成されている。すなわち、第2の実施の形態の情報処理装置100Cは第1の実施の形態の情報処理装置100と比較すると、核セグメント判定部128(図7)の代わりに核セグメント決定部301が配置された構成となっている。核セグメント決定部301は、行為ベクトル記憶部126に格納された統合ベクトル124と各セグメントの行為ベクトル125を比較して、最適なセグメントである核セグメントを決定するようになっている。核セグメント決定部301から出力される核セグメント111Cは、出力部112に供給されることになる。
The
このように、第2の実施の形態ではテキスト処理システム110Cで、文書の各セグメントの各文からこれらの文が表わす端的な意味を行為用語として抽出する行為用語抽出部121と、各セグメントごとに抽出した行為用語のベクトルと全セグメントのベクトルを総和した統合ベクトルを生成する行為ベクトル生成部123の動作は第1の実施の形態のテキスト処理システム110と異ならない。そこで、核セグメント決定部301を中心に第2の実施の形態のテキスト処理システム110Cを説明する。
As described above, in the second embodiment, in the
核セグメント決定部301は、図7に示した第1の実施の形態における核セグメント判定部128と同様に、まず、行為ベクトル記憶部126に記憶されている統合ベクトル124と各セグメントの行為ベクトル125を順に比較して最適なセグメントを判定する。この比較は、第1の実施の形態の第1の実施例の場合の核セグメント判定部128と同様に、第1〜第Mの行為ベクトル1421〜142Mと統合ベクトル143を順に比較して「類似度」を計算してもよい。あるいは第1の実施の形態の第2の実施例の場合の核セグメント判定部128と同様に、第1〜第Mの行為ベクトル1421〜142Mにおける「頻度」をそのまま合算するようにしてもよい。
Similar to the nuclear
このような統合ベクトル124と各セグメントの行為ベクトル125の比較によっては最適なセグメントが判定できなかったとする。この場合、第2の実施の形態の核セグメント決定部301は、隣接する複数のセグメントの行為ベクトルの和ベクトルを求める。そして、これらの和ベクトルと統合ベクトルを順に比較して得られた比較データ129Cによって最適なセグメントを判定する。
It is assumed that the optimum segment cannot be determined by comparing the integrated vector 124 and the action vector 125 of each segment. In this case, the core
図18は、核セグメント判定部における隣接する複数のセグメントの行為ベクトルの和ベクトルを求める様子の一例を表わしたものである。図17と共に説明する。この図18では、1編の文書データが4つのセグメントに分割されるものとして、説明を簡略化する。 FIG. 18 shows an example of how the sum vector of action vectors of a plurality of adjacent segments is obtained in the nuclear segment determination unit. This will be described with reference to FIG. In FIG. 18, the description is simplified on the assumption that one document data is divided into four segments.
核セグメント判定部301は、まず第1の行為ベクトル1421と第2の行為ベクトル1422を結合した行為ベクトルとしての第1+第2の行為ベクトルの和ベクトル3111+2を算出する(ステップS401)。次に、第2の行為ベクトル1422と第3の行為ベクトル1423を結合した行為ベクトルとしての第2+第3の行為ベクトルの和ベクトル3112+3を算出する(ステップS402)。更に、第3の行為ベクトル1423と第4の行為ベクトル1424を結合した行為ベクトルとしての第3+第4の行為ベクトルの和ベクトル3113+4を算出する(ステップS403)。
First, the nuclear
このようにして算出された第1+第2の行為ベクトルの和ベクトル3111+2、第2+第3の行為ベクトルの和ベクトル3112+3および第3+第4の行為ベクトルの和ベクトル3113+4と、統合ベクトル124(図16参照)との類似度が、それぞれ「0.76」、「0.87」、「0.76」であったとする。この例の場合、核セグメント判定部301は、第2+第3の行為ベクトルの和ベクトル3112+3である第2のセグメント1322および第3のセグメント1323の組み合わされたものを核セグメント111Cとして決定し、出力部112に供給することになる。
The sum vector 311 1 + 2 of the first + second action vector, the sum vector 311 2 + 3 of the second + third action vector, and the sum vector 311 3+ of the third + fourth action vector thus calculated. Assume that the similarities between 4 and the integrated vector 124 (see FIG. 16) are “0.76”, “0.87”, and “0.76”, respectively. In this example, the nuclear
以上説明したように本発明の第2の実施の形態では、さまざまな文書から該文書の要約となりうる文章として品質の高い部分テキストを抽出することができる、という効果がある。文章として品質の高い部分テキストを抽出できるという理由は、文書中のセグメントまたは隣接するセグメントを選択するためであり、セグメントまたは隣接するセグメントは文間のつながりが自然であり、一つのトピックについて書かれているため文章としてまとまっているからである。また、さまざまな文書に対応できるという理由は、小見出しを使わず、文書全体で用いられる行為用語と類似した行為用語を用いている1つ以上の隣接するセグメントまたは文書全体で頻度の高い行為用語を多く使っている1つ以上の隣接するセグメントを選択するという手法を用いるため、辞書やルールを必要としないからである。 As described above, according to the second embodiment of the present invention, there is an effect that a high-quality partial text can be extracted from various documents as a sentence that can be a summary of the document. The reason why high-quality partial text can be extracted as a sentence is to select a segment in the document or an adjacent segment, and the segment or the adjacent segment has a natural connection between sentences and is written on one topic. This is because they are organized as sentences. Also, the reason for being able to handle various documents is that one or more adjacent segments that use action terms similar to the action terms used throughout the document, without subheadings, or frequent action terms throughout the document. This is because a method of selecting one or more adjacent segments that are frequently used is used, so that a dictionary and rules are not required.
図19は、本発明の第2の実施の形態におけるテキスト処理システムを使用した情報処理装置の構成の具体例を、第3の実施例として表わしたものである。この図19に示した第3の実施例の情報処理装置100Dにおけるテキスト処理システム110Dで、図9あるいは図17と同一部分には同一の符号を付しており、これらの説明を適宜省略する。また、図19でも、1編の文書データが4つのセグメントに分割されるものとして、説明を簡略化する。 FIG. 19 shows a specific example of the configuration of the information processing apparatus using the text processing system according to the second embodiment of the present invention as a third example. In the text processing system 110D in the information processing apparatus 100D of the third embodiment shown in FIG. 19, the same parts as those in FIG. 9 or FIG. 17 are denoted by the same reference numerals, and description thereof will be omitted as appropriate. Also in FIG. 19, the description is simplified on the assumption that one document data is divided into four segments.
第3の実施例のテキスト処理システム110Cでは、図9に示した第1の実施例の場合と同一の行為用語抽出部121Aおよび行為ベクトル生成部123Aを使用している。また、図17に示した核セグメント決定部301を使用している。また、制御部103Dのメモリ102Dは、このような構成の第3の実施例に応じた制御プログラムを格納している。そこで、以下の説明では核セグメント決定部301の動作を中心として説明を行う。
The
核セグメント決定部301は、行為ベクトル記憶部126に記憶されている第1〜第4の行為ベクトル1421〜142Mと統合ベクトル143を順に比較して類似度を算出する。算出された類似度には、該当するセグメントが核セグメントとして決定されるための閾値が設定されている。第3の実施例では、この閾値を「0.7」とするものとする。
The nuclear
第1〜第4の行為ベクトル1421〜142Mと統合ベクトル143の類似度計算は、第1の実施例と同様にコサイン尺度を用いるものとする。コサイン尺度を用いて各セグメントの行為ベクトルと統合ベクトルの類似度を計算した例は第1の実施例と同様に図14のようになる。すなわち、第1の行為ベクトル1421と統合ベクトル143の類似度cos(S1,V)は「0.47」であり、第2の行為ベクトル1421と統合ベクトル143の類似度cos(S2,V)は「0.67」である。また、第3の行為ベクトル1421と統合ベクトル143の類似度cos(S3,V)は「0.56」であり、第4の行為ベクトル1424と統合ベクトル143の類似度cos(S4,V)は「0.62」である。
Similarity calculation between the first to
第1の実施例では、第2の行為ベクトル1421と統合ベクトル143の類似度cos(S2,V)が最高の「0.67」となっており、図9に示した核セグメント判定部128が、第2の行為ベクトル1421に係わる第2のセグメント1322を核セグメント111Aと判断するようにした。第3の実施例では、いずれの行為ベクトルの類似度も閾値である「0.7」未満である。このため、核セグメント判定部301は、隣接するセグメントを結合して、新たな行為ベクトルとして、第1+第2の行為ベクトルの和ベクトル3111+2、第2+第3の行為ベクトルの和ベクトル3112+3および第3+第4の行為ベクトルの和ベクトル3113+4を生成する。そして、これら第1+第2の行為ベクトルの和ベクトル3111+2、第2+第3の行為ベクトルの和ベクトル3112+3および第3+第4の行為ベクトルの和ベクトル3113+4と、統合ベクトル124との類似度を再計算する。
In the first example, the similarity cos (S2, V) between the
これら類似度の再計算の様子は、先の第2の実施の形態における図18に示した例と同様になる。再計算の結果として、第2+第3の行為ベクトルの和ベクトル3112+3と統合ベクトル124との類似度が「0.87」となる。算出された類似度「0.87」は、閾値「0.7」以上となっている。したがって、核セグメント決定部301は、第2+第3の行為ベクトルの和ベクトル3112+3に対応する第2のセグメント1322および第3のセグメント1323を結合セグメントの核セグメント111Dと決定する。
The state of recalculation of these similarities is the same as the example shown in FIG. 18 in the second embodiment. As a result of the recalculation, the similarity between the sum vector 311 2 + 3 of the second and third action vectors and the integrated vector 124 is “0.87”. The calculated similarity “0.87” is equal to or greater than the threshold “0.7”. Therefore, the nucleus
以上説明した第3の実施例では、類似度が最も高い値を持つ結合セグメントを核セグメントとしたが、これに限定するものではない。たとえば、閾値以上の類似度の結合セグメントのうち、文書中の結合セグメントの位置が最も前方(あるいは後方)に位置する結合セグメントを核セグメントとするようにしてもよい。 In the third embodiment described above, the combined segment having the highest similarity is defined as the core segment, but the present invention is not limited to this. For example, a combined segment in which the position of the combined segment in the document is located in the forefront (or the back) among the combined segments having a similarity equal to or higher than a threshold may be used as the core segment.
また、第3の実施例では、隣り合った1つずつのセグメントを結合して結合セグメントを生成する場合について説明したが、これに限定するものではない。すなわち、合計2つのセグメントからなる結合セグメントと統合ベクトル124の間で類似度の大小を比較しても核セグメント111Dが決定できない場合があり、このような場合に、閾値以上の類似度を持つ結合セグメントが出てくるまで順に結合するセグメントを増加してもよい。また、このような結合セグメントのセグメント数を順に増加させる手順を踏まずに、最初から所定数以上のセグメントを結合してもよい。 In the third embodiment, the case where the adjacent segments are combined to generate the combined segment has been described. However, the present invention is not limited to this. That is, there is a case where the core segment 111D cannot be determined by comparing the similarity between the combined segment consisting of a total of two segments and the integrated vector 124. The number of segments to be combined may be increased in order until a segment appears. Further, a predetermined number or more segments may be combined from the beginning without following the procedure for sequentially increasing the number of combined segments.
以上詳細に説明したように、本発明を用いることで、さまざまな文書の要約や主張となる部分テキストを高精度に抽出することが可能となる。これによって、情報検索におけるインデックスやスニペット(snippet)にこの部分テキストを用いることで高精度な検索が可能となり、業務効率の改善が見込むことができる。また、情報調査を行う場合には、調査の結果得られた文書のすべての箇所を閲読する必要がなくなり、調査の高速化による業務効率の改善を見込むことができる。また、本発明は作成した文書の要点の見直しや文書の校正にも利用することが可能となり、業務効率の改善を図ることができる。 As described above in detail, by using the present invention, it is possible to extract a partial text as a summary or assertion of various documents with high accuracy. As a result, by using this partial text for an index or snippet in information search, high-precision search becomes possible, and improvement in business efficiency can be expected. In addition, when conducting an information survey, it is not necessary to read all parts of the document obtained as a result of the survey, and it is possible to expect an improvement in work efficiency by speeding up the survey. In addition, the present invention can be used for reviewing the main points of the created document and proofreading the document, thereby improving work efficiency.
10、22、110、110A、110B、110C、110D テキスト処理システム
11 行為用語抽出手段
12 行為用語比較手段
13 セグメント判別手段
20、100、100A、100B、100C、100D 情報処理装置
21 セグメント分割手段
30 テキスト処理方法
31、42 行為用語抽出ステップ
32、43 行為用語比較ステップ
33、44 セグメント判別ステップ
40 情報処理方法
41 セグメント分割ステップ
50 テキスト処理プログラム
51、62 行為用語抽出処理
52、63 行為用語比較処理
53、64 セグメント判別処理
60 情報処理プログラム
61 セグメント分割処理
101 CPU
102、102A、102B、102C、102D メモリ
103、103A、103B、103C、103D 制御部
105 文書集合部
107 文書データ
108 セグメントデータ
111、111A、111C、111D 核セグメント
112 出力部
121、121A 行為用語抽出部
123、123A 行為ベクトル生成部
125、142 行為ベクトル
126 行為ベクトル記憶部
128 核セグメント判定部
141 行為用語リスト
143 統合ベクトル
301 核セグメント決定部
311 和ベクトル
10, 22, 110, 110A, 110B, 110C, 110D
102, 102A, 102B, 102C,
Claims (21)
この行為用語抽出手段で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較手段と、
この行為用語比較手段の比較結果から前記統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別手段
とを具備することを特徴とするテキスト処理システム。 A term that is selected from segment data obtained by dividing text data constituting a single document into segments as a group of sentence ranges, and that expresses the intention of each sentence in a straightforward manner. Action term extraction means for extracting text information that matches any of the action terms for each segment,
Compare the segment-specific action terms as the action terms for each segment extracted by this action term extraction means with the integrated action terms as the action terms that integrate all the segments of the text data that constitutes the one document. Action term comparison means to
Segment discriminating means for discriminating a segment obtained by extracting a segment-specific action term most similar to the integrated act term from a comparison result of the act term comparing means as a segment that is a main part of the text data of the one document. A text processing system characterized by:
前記請求項1〜請求項15いずれかに記載のテキスト処理システム
とを具備することを特徴とする情報処理装置。 Segment dividing means for dividing text data constituting one document into segments as a group of sentence ranges;
An information processing apparatus comprising the text processing system according to any one of claims 1 to 15.
この行為用語抽出ステップで抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較ステップと、
この行為用語比較ステップの比較結果から前記統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別ステップ
とを具備することを特徴とするテキスト処理方法。 A term that is selected from segment data obtained by dividing text data constituting a single document into segments as a group of sentence ranges, and that expresses the intention of each sentence in a straightforward manner. An action term extraction step that extracts, for each segment, text information that matches any of the act terms as
Compare the action term by segment as the action term for each segment extracted in this action term extraction step with the integrated action term as the action term that integrates all segments of the text data that constitutes the one document. An act term comparison step,
A segment discriminating step for discriminating a segment obtained by extracting a segment-specific action term most similar to the integrated act term from the comparison result of the act term comparing step as a segment that is a main part of the text data of the one document. A text processing method characterized by:
このセグメント分割ステップによってセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出ステップと、
この行為用語抽出ステップで抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較ステップと、
この行為用語比較ステップの比較結果から前記統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別ステップ
とを具備することを特徴とする情報処理方法。 A segment dividing step for dividing text data constituting one document into segments as a group of sentences;
Text information that matches one of the action terms as a term that is selected from the segment data divided into segments by this segment division step according to a predetermined rule and expresses the intention of each sentence. , An action term extraction step to extract for each segment;
Compare the action term by segment as the action term for each segment extracted in this action term extraction step with the integrated action term as the action term that integrates all segments of the text data that constitutes the one document. An act term comparison step,
A segment discriminating step for discriminating a segment obtained by extracting a segment-specific action term most similar to the integrated act term from the comparison result of the act term comparing step as a segment that is a main part of the text data of the one document. An information processing method characterized by:
1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出処理と、
この行為用語抽出処理で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較処理と、
この行為用語比較処理の比較結果から前記統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別処理
とを実行させることを特徴とするテキスト処理プログラム。 On the computer,
A term that is selected from segment data obtained by dividing text data constituting a single document into segments as a group of sentence ranges, and that expresses the intention of each sentence in a straightforward manner. An action term extraction process that extracts text information that matches any of the action terms for each segment,
Compare the segment-specific action terms as the action terms for each segment extracted in this action term extraction process with the integrated action terms as the action terms that integrate all segments of the text data that constitutes the one document. Act term comparison processing,
A segment discriminating process for discriminating a segment obtained by extracting a segment-specific act term that is most similar to the integrated act term from the comparison result of the act term comparing process as a segment that is a main part of the text data of the one document. A text processing program characterized by causing
1編の文書を構成するテキストデータを一まとまりの文章の範囲としてのセグメントに分割するセグメント分割処理と、
このセグメント分割ステップによってセグメントに分割してなるセグメントデータから、予め定められた所定の規則によって選出され、それぞれの文の意図を端的に表現する用語としての行為用語のいずれかに一致するテキスト情報を、各セグメントについて抽出する行為用語抽出処理と、
この行為用語抽出処理で抽出したそれぞれのセグメントごとの行為用語としてのセグメント別行為用語と、前記1編の文書を構成するテキストデータについての全セグメントを統合した行為用語としての統合行為用語とを比較する行為用語比較処理と、
この行為用語比較処理による比較結果から前記統合行為用語に最も似通ったセグメント別行為用語を抽出したセグメントを前記1編の文書のテキストデータについての要部となるセグメントと判別するセグメント判別処理
とを実行させることを特徴とする情報処理プログラム。 On the computer,
Segment division processing for dividing text data constituting one document into segments as a group of sentences,
Text information that matches one of the action terms as a term that is selected from the segment data divided into segments by this segment division step according to a predetermined rule and expresses the intention of each sentence. , Action term extraction processing to extract for each segment;
Compare the segment-specific action terms as the action terms for each segment extracted in this action term extraction process with the integrated action terms as the action terms that integrate all segments of the text data that constitutes the one document. Act term comparison processing,
A segment discriminating process for discriminating a segment obtained by extracting a segment-specific act term that is most similar to the integrated act term from a comparison result of the act term comparing process as a segment that is a main part of the text data of the one document. An information processing program characterized by causing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008294778A JP2010122823A (en) | 2008-11-18 | 2008-11-18 | Text processing system, information processing apparatus, method for processing text and information, and processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008294778A JP2010122823A (en) | 2008-11-18 | 2008-11-18 | Text processing system, information processing apparatus, method for processing text and information, and processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010122823A true JP2010122823A (en) | 2010-06-03 |
Family
ID=42324122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008294778A Pending JP2010122823A (en) | 2008-11-18 | 2008-11-18 | Text processing system, information processing apparatus, method for processing text and information, and processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010122823A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9304984B2 (en) | 2012-03-26 | 2016-04-05 | Hewlett Packard Enterprise Development Lp | Intention statement visualization |
US9411860B2 (en) | 2011-06-28 | 2016-08-09 | Hewlett Packard Enterprise Development Lp | Capturing intentions within online text |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112949A (en) * | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | Information discrimination supporting device and record medium recording similar information discrimination supporting program |
JP2000155762A (en) * | 1998-11-19 | 2000-06-06 | Nec Corp | Method and device for similarity calculation and method and device for similar document retrieval |
JP2001155467A (en) * | 1999-11-29 | 2001-06-08 | Just Syst Corp | Editorial processor, and recording medium in which editorial processing program is stored |
JP2002169834A (en) * | 2000-11-20 | 2002-06-14 | Hewlett Packard Co <Hp> | Computer and method for making vector analysis of document |
JP2003323424A (en) * | 2002-04-30 | 2003-11-14 | Nippon Hoso Kyokai <Nhk> | Subject presuming device, method and program |
JP2006053907A (en) * | 2004-07-14 | 2006-02-23 | Ricoh Co Ltd | Information extraction method, information extraction device, information extraction program, and recording medium recording information extraction program |
JP2008269069A (en) * | 2007-04-17 | 2008-11-06 | Hitachi Ltd | Information processing system and method |
-
2008
- 2008-11-18 JP JP2008294778A patent/JP2010122823A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000112949A (en) * | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | Information discrimination supporting device and record medium recording similar information discrimination supporting program |
JP2000155762A (en) * | 1998-11-19 | 2000-06-06 | Nec Corp | Method and device for similarity calculation and method and device for similar document retrieval |
JP2001155467A (en) * | 1999-11-29 | 2001-06-08 | Just Syst Corp | Editorial processor, and recording medium in which editorial processing program is stored |
JP2002169834A (en) * | 2000-11-20 | 2002-06-14 | Hewlett Packard Co <Hp> | Computer and method for making vector analysis of document |
JP2003323424A (en) * | 2002-04-30 | 2003-11-14 | Nippon Hoso Kyokai <Nhk> | Subject presuming device, method and program |
JP2006053907A (en) * | 2004-07-14 | 2006-02-23 | Ricoh Co Ltd | Information extraction method, information extraction device, information extraction program, and recording medium recording information extraction program |
JP2008269069A (en) * | 2007-04-17 | 2008-11-06 | Hitachi Ltd | Information processing system and method |
Non-Patent Citations (4)
Title |
---|
CSNG200100301012; 鷹尾 誠一 外2名: 'ニュース音声記事データベースにおける観点の自動抽出と構造化' 電子情報通信学会技術研究報告 第100巻 第31号, 20000502, P.89〜96, 社団法人電子情報通信学会 * |
CSNG200501034020; 中野 滋徳 外2名: '提題表現に基づく重要段落抽出' 情報処理学会研究報告 第2004巻 第73号, 20040716, P.159〜166, 社団法人情報処理学会 * |
JPN6013008032; 中野 滋徳 外2名: '提題表現に基づく重要段落抽出' 情報処理学会研究報告 第2004巻 第73号, 20040716, P.159〜166, 社団法人情報処理学会 * |
JPN6013008033; 鷹尾 誠一 外2名: 'ニュース音声記事データベースにおける観点の自動抽出と構造化' 電子情報通信学会技術研究報告 第100巻 第31号, 20000502, P.89〜96, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9411860B2 (en) | 2011-06-28 | 2016-08-09 | Hewlett Packard Enterprise Development Lp | Capturing intentions within online text |
US9304984B2 (en) | 2012-03-26 | 2016-04-05 | Hewlett Packard Enterprise Development Lp | Intention statement visualization |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | A survey of text question answering techniques | |
TWI536181B (en) | Language identification in multilingual text | |
JP5106636B2 (en) | System for extracting terms from documents with text segments | |
KR100999488B1 (en) | Method and apparatus for detecting document plagiarism | |
US9965460B1 (en) | Keyword extraction for relationship maps | |
JP2020126493A (en) | Paginal translation processing method and paginal translation processing program | |
Al-Gaphari et al. | A method to convert Sana’ani accent to Modern Standard Arabic | |
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
KR101023209B1 (en) | Document translation apparatus and its method | |
CN115794995A (en) | Target answer obtaining method and related device, electronic equipment and storage medium | |
JP2006251843A (en) | Synonym pair extracting device, and computer program therefor | |
EP2544100A2 (en) | Method and system for making document modules | |
JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
CN113330430B (en) | Sentence structure vectorization device, sentence structure vectorization method, and recording medium containing sentence structure vectorization program | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JP2010122823A (en) | Text processing system, information processing apparatus, method for processing text and information, and processing program | |
Meinecke et al. | Automated alignment of medieval text versions based on word embeddings | |
Passarotti et al. | Improvements in parsing the index Thomisticus treebank. revision, combination and a feature model for medieval Latin | |
JP7131130B2 (en) | Classification method, device and program | |
Moulay Lakhdar et al. | Building an extractive Arabic text summarization using a hybrid approach | |
JP2001060199A (en) | Device and method for classifying document and computer readable recording medium storing document classfication program | |
Stehouwer | Statistical language models for alternative sequence selection | |
Bhowmik et al. | Development of A Word Based Spell Checker for Bangla Language | |
Rodrigues et al. | Arabic data science toolkit: An api for arabic language feature extraction | |
JP3419748B2 (en) | Dictionary creation device and method, and recording medium recording dictionary creation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110907 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20121016 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130702 |