JP2010170211A - Important sentence extraction program and device - Google Patents
Important sentence extraction program and device Download PDFInfo
- Publication number
- JP2010170211A JP2010170211A JP2009010086A JP2009010086A JP2010170211A JP 2010170211 A JP2010170211 A JP 2010170211A JP 2009010086 A JP2009010086 A JP 2009010086A JP 2009010086 A JP2009010086 A JP 2009010086A JP 2010170211 A JP2010170211 A JP 2010170211A
- Authority
- JP
- Japan
- Prior art keywords
- important
- extraction
- sentence
- category
- target document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の文から構成される文書における重要文を当該文書から抽出する重要文抽出プログラム及び重要文抽出装置に関する。 The present invention relates to an important sentence extraction program and an important sentence extraction apparatus for extracting an important sentence in a document composed of a plurality of sentences from the document.
近年、複数の文から構成される文書の内容を適切に表す重要文を当該文書から抽出する重要文抽出装置が知られている。このように、文書から重要文を抽出することは、文書の全文を読むことなく当該文書の内容を把握するために必要である。 In recent years, an important sentence extraction apparatus that extracts an important sentence that appropriately represents the contents of a document composed of a plurality of sentences from the document is known. Thus, extracting an important sentence from a document is necessary for grasping the contents of the document without reading the whole sentence of the document.
上記したような文書から重要文を抽出する技術として、文書中の重要文を、簡単に且つ高い精度で抽出することができる技術(以下、先行技術と表記)が開示されている(例えば、特許文献1を参照)。この先行技術によれば、例えば文書の分野に対応する重要表現(重要語)を記述した重要表現テーブル(重要語辞書)を用意しておき、当該重要表現を含む文が重要文として抽出される。 As a technique for extracting an important sentence from a document as described above, a technique (hereinafter referred to as a prior art) that can easily extract an important sentence in a document with high accuracy is disclosed (for example, a patent). Reference 1). According to this prior art, for example, an important expression table (important word dictionary) describing important expressions (important words) corresponding to the field of a document is prepared, and sentences including the important expressions are extracted as important sentences. .
しかしながら、上記した先行技術では、文書の分野に対応する重要語が当該文書内に存在しない場合には、当該文書から重要文を抽出することはできない。 However, in the above-described prior art, when an important word corresponding to the field of the document does not exist in the document, an important sentence cannot be extracted from the document.
また、先行技術では、重要語辞書の構造が重要語間の関係を表したもの(つまり、階層構造)ではないため、当該重要語辞書から文書の分野に対応する重要語に関連する重要語を見つけることは困難である。 In the prior art, since the structure of the important word dictionary does not represent the relationship between the important words (that is, the hierarchical structure), the important words related to the important words corresponding to the field of the document are extracted from the important word dictionary. It is difficult to find.
そこで、本発明の目的は、文書の分野に対応する重要語が当該文書内に存在しない場合であっても、当該文書から重要文を抽出することが可能な重要文抽出プログラム及び重要文抽出装置を提供することにある。 Accordingly, an object of the present invention is to provide an important sentence extraction program and an important sentence extraction apparatus capable of extracting an important sentence from the document even when the important word corresponding to the field of the document does not exist in the document. Is to provide.
本発明の1つの態様によれば、文書が分類されるカテゴリの各々に対応する重要語を格納する重要語格納手段であって、前記カテゴリと関連のあるカテゴリが階層構造で表されている重要語格納手段を有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される重要文抽出装置において、前記コンピュータによって実行される重要文抽出プログラムであって、前記コンピュータに、ユーザの操作に応じて、複数の語を含む文から構成される抽出対象文書であって、当該抽出対象文書が分類されるカテゴリが付与された抽出対象文書を入力するステップと、前記入力された抽出対象文書に付与されているカテゴリに対応する第1の重要語を前記重要語格納手段から読み込むステップと、前記読み込まれた第1の重要語が前記入力された抽出対象文書に含まれているかを判定するステップと、前記第1の重要語が前記抽出対象文書に含まれていると判定された場合、当該第1の重要語を第1の抽出用重要語として決定するステップと、前記入力された抽出対象文書に付与されているカテゴリと関連のあるカテゴリに対応する第2の重要語を前記重要語格納手段から読み込むステップと、前記読み込まれた第2の重要語が前記入力された抽出対象文書に含まれているかを判定するステップと、前記第2の重要語が前記抽出対象文書に含まれていると判定された場合、当該第2の重要語を第2の抽出用重要語として決定するステップと、前記決定された第1の抽出用重要語及び第2の抽出用重要語のうち少なくとも1つを含む文を重要文として、前記入力された抽出対象文書から抽出するステップと、前記抽出された重要文に含まれる前記決定された第1の抽出用重要語または第2の抽出用重要語に基づいて、当該重要文の重要度を算出するステップと、前記抽出された重要文を、前記算出された重要度順に出力するステップとを実行させるための重要文抽出プログラムが提供される。 According to one aspect of the present invention, important word storage means for storing important words corresponding to each of categories into which a document is classified, wherein the categories related to the categories are represented in a hierarchical structure. An important sentence extraction apparatus comprising an external storage device having a word storage means and a computer using the external storage device, wherein the important sentence extraction program is executed by the computer, and the computer is operated by a user A step of inputting an extraction target document composed of a sentence including a plurality of words and having a category to which the extraction target document is classified, and the input extraction target document Reading the first important word corresponding to the category assigned to the important word storage means, and the read first important word is A step of determining whether or not the input target document includes the first important word, and if it is determined that the first important word is included in the extraction target document, A step of determining as an important word for extraction, a step of reading a second important word corresponding to a category associated with the category assigned to the input extraction target document from the important word storage means, and the reading Determining whether the second important word is included in the input extraction target document, and if it is determined that the second important word is included in the extraction target document, A key word as a second key word for extraction, and a sentence including at least one of the first key word for extraction and the key word for second extraction as a key sentence, Input extraction Extracting from an elephant document, and calculating the importance of the important sentence based on the determined first important word for extraction or second important word for extraction included in the extracted important sentence And an important sentence extraction program for executing the extracted important sentences in the order of the calculated importance.
本発明によれば、文書の分野に対応する重要語が当該文書内に存在しない場合であっても、当該文書から重要文を抽出することを可能とする。 According to the present invention, it is possible to extract an important sentence from a document even if the important word corresponding to the field of the document does not exist in the document.
以下、図面を参照して、本発明の各実施形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
まず、図1及び図2を参照して、本発明の第1の実施形態について説明する。図1は、本実施形態に係る重要文抽出装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10及び外部記憶装置20は、重要文抽出装置30を構成する。
[First Embodiment]
First, a first embodiment of the present invention will be described with reference to FIGS. FIG. 1 is a block diagram showing a hardware configuration of the important sentence extracting apparatus according to the present embodiment. As shown in FIG. 1, the
本実施形態において、重要文抽出装置30は、例えば複数の文から構成される文書の内容を適切に表す重要文を当該文書から抽出する機能を有する。
In the present embodiment, the important
図2は、図1に示す重要文抽出装置30の主として機能構成を示すブロック図である。図2に示すように、重要文抽出装置30は、抽出対象文書入力部31、重要語決定部32、重要文抽出部33、スコア算出部34及び重要文出力部35を含む。本実施形態において、これらの各部31乃至35は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム(重要文抽出プログラム)21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
FIG. 2 is a block diagram mainly showing a functional configuration of the important
また、重要文抽出装置30は、階層重要語格納部(階層化重要語辞書)22、同義語辞書23及び重要文格納部24を有する。本実施形態において、階層重要語格納部22、同義語辞書23及び重要文格納部24は、例えば外部記憶装置20に格納される。
The important
階層重要語格納部22には、複数の語(文字列)を含む文から構成される文書が分類されるカテゴリの各々に対応する重要語が当該カテゴリに対応付けて格納(記憶)される。この重要語は、例えば対応するカテゴリの内容を適切に表す語として予め定められている。また、階層重要語格納部22においては、文書が分類されるカテゴリ(に対応する重要語)間における関係が階層構造で表されている。つまり、階層重要語格納部22においては、文書が分類されるカテゴリと関連のあるカテゴリが階層構造で表されている。
The hierarchical important
分類される文書が例えば特許文書(特許文献)である場合には、階層重要語格納部22におけるカテゴリとしてはFI(日本国特許庁で付与されているFile Index)が用いられ、当該カテゴリに対応する重要語としては当該FIに対応した説明文(日本国特許庁が定めたもので、以下では「FI説明文」と記す)が用いられる。
If the document to be classified is, for example, a patent document (patent document), FI (File Index assigned by the Japan Patent Office) is used as the category in the hierarchical
なお、階層重要語格納部22の中身は、例えば人手で予め構築されている。また、例えばカテゴリに分類される文書に含まれる語(文字列)の出現頻度に基づいて当該カテゴリに対応する重要語を統計的に決定することにより、階層重要語格納部22が作成される構成であっても構わない。
Note that the contents of the hierarchical important
抽出対象文書入力部31は、重要文を抽出する対象となる文書(以下、抽出対象文書と表記)を入力する。抽出対象文書入力部31は、ユーザの操作に応じて抽出対象文書を入力する。この抽出対象文書は、複数の語を含む複数の文から構成される。また、抽出対象文書には、当該抽出対象文書が分類されるカテゴリが付与されている。
The extraction target
抽出対象文書入力部31によって入力される抽出対象文書としては、上記したように例えば特許文書が含まれる。なお、特許文書は抽出対象文書の一例であり、抽出対象文書はテキストデータであればよい。
As described above, the extraction target document input by the extraction target
同義語辞書23には、例えば階層重要語格納部22に格納されているカテゴリの各々に対応する重要語の同義語が格納されている。同義語辞書23には、例えば階層重要語格納部22に重要語「記憶媒体」が格納されている場合には、当該重要語「記憶媒体」の同義語として「記録装置」及び「記録部材」が格納されている。
In the
重要語決定部32は、抽出対象文書入力部31によって入力された抽出対象文書に付与されているカテゴリに対応する重要語(第1の重要語)を、階層重要語格納部22から読み込む。以下、抽出対象文書入力部31によって入力された抽出対象文書に付与されているカテゴリに対応する重要語を対応重要語と称する。
The important
重要語決定部32は、読み込まれた対応重要語が抽出対象文書入力部31によって入力された抽出対象文書に含まれているか否かを判定する。重要語決定部32は、対応重要語が抽出対象文書に含まれていると判定された場合、当該対応重要語を抽出用重要語(以下、第1の抽出用重要語と表記)として決定する。
The important
なお、重要語決定部32は、上記した同義語辞書23に格納されている対応重要語の同義語が抽出対象文書に含まれている場合には当該対応重要語が当該抽出対象文書に含まれていると判定する。この場合、以降の処理においては、抽出対象文書に含まれている対応重要語の同義語は、当該対応重要語と同様に扱われる。
The important
重要語決定部32は、抽出対象文書入力部31によって入力された抽出対象文書に付与されているカテゴリ(読み込まれた対応重要語に対応するカテゴリ)と関連のあるカテゴリに対応する重要語(第2の重要語)を、階層重要語格納部22から読み込む。以下、抽出対象文書入力部31によって入力された抽出対象文書に付与されているカテゴリと関連のあるカテゴリに対応する重要語を近傍重要語(対応重要語の近傍重要語)と称する。
The important
ここで、近傍重要語には、例えば第1〜第3の重要語が含まれる。第1の重要語は、階層重要語格納部22において抽出対象文書に付与されているカテゴリと同階層に位置する(位置付けられている)カテゴリに対応する重要語である。第2の重要語は、階層重要語格納部22において抽出対象文書に付与されているカテゴリの上位または下位に位置するカテゴリに対応する重要語である。また、第3の重要語は、階層重要語格納部22において抽出対象文書に付与されているカテゴリの上位の上位または下位の下位に位置するカテゴリに対応する重要語である。なお、近傍重要語は、上記した第1〜第3の重要語のうちの例えば第1及び第2の重要語のみであってもよいし、当該第1〜第3の重要語以外の重要語を含んでいても構わない。
Here, the neighboring important words include, for example, first to third important words. The first important word is an important word corresponding to a category located (positioned) in the same hierarchy as the category assigned to the extraction target document in the hierarchical important
重要語決定部32は、読み込まれた近傍重要語が抽出対象文書入力部31によって入力された抽出対象文書に含まれているか否かを判定する。重要語決定部32は、近傍重要語が抽出対象文書に含まれていると判定された場合、当該近傍重要語を抽出用重要語(以下、第2の抽出用重要語と表記)として決定する。
The important
なお、重要語決定部32は、上記した同義語辞書23に格納されている近傍重要語の同義語が抽出対象文書に含まれている場合には当該近傍重要語が当該抽出対象文書に含まれていると判定する。この場合、以降の処理においては、抽出対象文書に含まれている近傍重要語の同義語は、当該近傍重要語と同様に扱われる。
In addition, the important
重要文抽出部33は、重要語決定部32によって決定された抽出用重要語(第1及び第2の抽出用重要語)を含む文を重要文として、抽出対象文書入力部31によって入力された抽出対象文書から抽出する。重要文抽出部33は、重要語決定部32によって決定された抽出用重要語のうち少なくとも1つを含む文を重要文として抽出する。なお、重要文抽出部33による重要文の抽出処理の詳細については後述する。
The important
スコア算出部34は、重要文抽出部33によって抽出された重要文の各々のスコア(重要度)を、当該重要文に含まれる抽出用重要語に基づいて算出する。スコア算出部34は、重要文抽出部33によって抽出された重要文に含まれる重要語が第1の抽出用重要語(対応重要語)であるかまたは第2の抽出用重要語(近傍重要語)であるかに基づいてスコアを算出する。なお、スコア算出部34による重要文のスコアの算出処理の詳細については後述する。
The
スコア算出部34は、重要文抽出部33によって抽出された重要文及び算出された当該重要文のスコアを対応付けて重要文格納部24に格納する。このとき、スコア算出部34は、重要文及び当該重要文のスコアの組を、抽出対象文書(つまり、当該重要文が抽出された文書)に付与されているカテゴリに対応付けて重要文格納部24に格納する。
The
重要文出力部35は、重要文抽出部33によって抽出された重要文を、スコア算出部34によって算出されたスコア順に出力する。具体的には、重要文出力部35は、重要文をスコア順にユーザに対して提示(表示)する。
The important
図3は、図2に示す階層重要語格納部22のデータ構造の一例を示す。図3に示すように、階層重要語格納部22には、文書が分類されるカテゴリ間の関係が階層構造で表されている。また、階層重要語格納部22には、文書が分類されるカテゴリの各々に対応する重要語(当該カテゴリに関する重要語)が格納されている。
FIG. 3 shows an example of the data structure of the hierarchical
なお、図3に示す例では、重要文抽出装置30によって重要文が抽出される文書として特許文書(特許文献)を想定している。つまり、階層重要語格納部22においては、文書が分類されるカテゴリとしてFI、当該カテゴリに対応する重要語としてFI説明文が利用されている。このFIは、例えば特許文書のサーチキーとして用いられる番号である。
In the example illustrated in FIG. 3, a patent document (patent document) is assumed as a document from which an important sentence is extracted by the important
図3を用いて具体的に説明すると、階層重要語格納部22には、例えば文書が分類されるカテゴリに相当するFI「B41J 3/04 101」に対応する重要語としてFI説明文「インクジェット」が格納されている。
Specifically, referring to FIG. 3, the hierarchical key
階層重要語格納部22においては、FI「B41J 3/04 101A」に対応する重要語としてFI説明文「カラー」が格納されている。
The hierarchical key
階層重要語格納部22においては、FI「B41J 3/04 101B」に対応する重要語としてFI説明文「インクミスト」が格納されている。
The hierarchical important
階層重要語格納部22においては、FI「B41J 3/04 101Y」に対応する重要語としてFI説明文「記憶媒体」が格納されている。
The hierarchical key
階層重要語格納部22においては、FI「B41J 3/04 102」に対応する重要語としてFI説明文「インク供給装置」が格納されている。
In the hierarchical important
また、階層重要語格納部22においては、FI「B41J 3/04 102H」に対応する重要語としてFI説明文「ヘッド清掃」が格納されている。
In the hierarchical important
なお、図3に示すように、階層重要語格納部22においては、各FIが階層構造で表されている。図3に示す例では、FI「B41J 3/04 101A」、「B41J 3/04 101B」及び「B41J 3/04 101Y」は、FI「B41J 3/04 101」の下位の階層に位置付けられている。つまり、FI「B41J 3/04 101A」、「B41J 3/04 101B」及び「B41J 3/04 101Y」は、互いに同階層に位置付けられている。
As shown in FIG. 3, in the hierarchical important
また、FI「B41J 3/04 102」は、FI「B41J 3/04 101」と同階層に位置付けられている。 The FI “B41J 3/04 102” is positioned in the same hierarchy as the FI “B41J 3/04 101”.
更に、FI「B41J 3/04 102H」は、FI「B41J 3/04 102」の下位の階層に位置付けられている。 Furthermore, FI “B41J 3/04 102H” is positioned in a lower hierarchy of FI “B41J 3/04 102”.
このように、階層重要語格納部22において、カテゴリ(FI)は、互いに関連のある(上位、下位、または同階層に位置付けられている)FIが階層構造により表されている。
In this way, in the hierarchical important
次に、図4のフローチャートを参照して、本実施形態に係る重要文抽出装置30の重要文抽出処理の処理手順について説明する。なお、重要文抽出装置30に含まれる階層重要語格納部22は、上記した図3に示すデータ構造を有するものとする。
Next, with reference to the flowchart of FIG. 4, the process sequence of the important sentence extraction process of the important
まず、抽出対象文書入力部31は、ユーザの操作に応じて、複数の語を含む複数の文から構成される文書(抽出対象文書)を入力する(ステップS1)。ユーザは、例えば重要文抽出装置30を操作することによって抽出対象文書を指定することができる。抽出対象文書入力部31は、抽出対象文書が分類されるカテゴリ(FI)が付与された抽出対象文書を入力する。
First, the extraction target
ここで、図5は、抽出対象文書入力部31によって入力された抽出対象文書の一例を示す。図5に示す例では、抽出対象文書100は、特許文書である。また、抽出対象文書100に付与されているカテゴリは、FI「B41J 3/04 101B」であるものとする。以下、抽出対象文書入力部31によって図5に示す抽出対象文書100が入力されたものとして説明する。
Here, FIG. 5 shows an example of the extraction target document input by the extraction target
次に、重要語決定部32は、抽出対象文書入力部31によって入力された抽出対象文書100を取得する。重要語決定部32は、取得された抽出対象文書100に付与されているカテゴリに対応する重要語(対応重要語)を階層重要語格納部22から読み込む(ステップS2)。
Next, the important
ここで、このステップS2の処理を上記した図3及び図5を用いて具体的に説明する。図5に示す抽出対象文書100に付与されているカテゴリはFI「B41J 3/04 101B」である。このため、図3に示す階層重要語格納部22によれば、重要語決定部32は、対応重要語として「インクミスト」を当該階層重要語格納部22から読み込む。
Here, the process of step S2 will be specifically described with reference to FIGS. 3 and 5 described above. The category assigned to the
重要語決定部32は、読み込まれた対応重要語が、取得された抽出対象文書100内に存在する(含まれている)か否かを判定する(ステップS3)。図5に示す抽出対象文書100内には対応重要語である「インクミスト」が含まれるため、重要語決定部32は、対応重要語が抽出対象文書100内に存在すると判定する(ステップS3のYES)。
The
重要語決定部32は、対応重要語が抽出対象文書100内に存在すると判定された場合、当該対応重要語(ここでは、「インクミスト」)を抽出用重要語(第1の抽出用重要語)として決定する(ステップS4)。
When it is determined that the corresponding important word is present in the
次に、重要語決定部32は、取得された抽出対象文書100に付与されているカテゴリと関連のあるカテゴリに対応する重要語(近傍重要語)を、階層重要語格納部22から読み込む(ステップS5)。
Next, the important
ここで、近傍重要語には、上記した第1〜第3の重要語が含まれるものとする。上記したように、第1の重要語は、抽出対象文書100に付与されているカテゴリと同階層に位置付けられているカテゴリに対応する重要語である。第2の重要語は、抽出対象文書100に付与されているカテゴリの上位(の階層)または下位(の階層)に位置付けられているカテゴリに対応する重要語である。また、第3の重要語は、抽出対象文書100に付与されているカテゴリの上位の上位(の階層)または下位の下位(の階層)に位置付けられているカテゴリに対応する重要語である。
Here, it is assumed that the first to third important words described above are included in the neighboring important words. As described above, the first important word is an important word corresponding to a category positioned in the same hierarchy as the category assigned to the
この場合において上記した図3を用いて具体的に説明すると、階層重要語格納部22には、抽出対象文書100に付与されているカテゴリであるFI「B41J 3/04 101B」と同階層に位置付けられているカテゴリとしてFI「B41J 3/04 101A」及び「B41J 3/04 101Y」が存在する。したがって、重要語決定部32は、対応重要語の近傍重要語として、FI「B41J 3/04 101A」及び「B41J 3/04 101Y」に対応する「カラー」及び「記憶媒体」を階層重要語格納部22から読み込む。この「カラー」及び「記憶媒体」は、上記した第1の重要語に該当する近傍重要語である。
In this case, specifically, using FIG. 3 described above, the hierarchical
また、階層重要語格納部22には、抽出対象文書100に付与されているカテゴリであるFI「B41J 3/04 101B」の上位の階層に位置付けられているカテゴリとしてFI「B41J 3/04 101」が存在する。したがって、重要語決定部32は、対応重要語の近傍重要語として、FI「B41J 3/04 101」に対応する「インクジェット」を階層重要語格納部22から読み込む。この「インクジェット」は、上記した第2の重要語に該当する近傍重要語である。
Further, in the hierarchy important
重要語決定部32は、読み込まれた対応重要語が、取得された抽出対象文書100内に存在する(含まれている)か否かを判定する(ステップS6)。図5に示す抽出対象文書100内には近傍重要語である「カラー」及び「インクジェット」が含まれるため、重要語決定部32は、近傍重要語が抽出対象文書100内に存在すると判定する(ステップS6のYES)。
The important
なお、図5に示す抽出対象文書100内には、近傍重要語である「記憶媒体」は含まれていない。しかしながら、上記したように同義語辞書23に近傍重要語「記憶媒体」の同義語として「記録装置」及び「記録部材」が格納されているものとすると、重要語決定部32は、当該「記録装置」及び「記録部材」が抽出対象文書100内に含まれているか否かを判定する。この場合、近傍重要語「記憶媒体」の同義語である「記録装置」及び「記録部材」は抽出対象文書100内に含まれているため、近傍重要語が抽出対象文書100内に存在すると判定される。この場合には、抽出対象文書100内に存在する「記録装置」及び「記録部材」は、以降の処理において近傍重要語である「記憶媒体」と同様に扱われる。
Note that the
重要語決定部32は、近傍重要語が抽出対象文書100内に存在すると判定された場合、当該抽出対象文書100内に存在すると判定された近傍重要語を抽出用重要語(第2の抽出用重要語)として決定する(ステップS7)。この場合、重要語決定部32は、近傍重要語「カラー」、「記録装置」、「記録部材」及び「インクジェット」を抽出用重要語として決定する。なお、「記憶媒体」は、近傍重要語であるが、抽出対象文書100内に含まれていないため抽出用重要語として決定されない。
When it is determined that the neighboring important word is present in the
次に、重要文抽出部33は、重要語決定部32によって決定された抽出用重要語(第1及び第2の抽出用重要語のうち少なくとも1つ)を含む文を重要文として、抽出対象文書100から抽出する(ステップS8)。重要文抽出部33は、重要文の抽出処理に際して、必要に応じて抽出対象文書100の構文解析を行う。
Next, the important
ここで、重要文抽出部33による重要文の抽出処理について詳細に説明する。重要文抽出部33は、抽出対象文書100において以下に説明する抽出条件(抽出ルール)に該当する箇所(部分)を重要文として抽出する。
Here, the important sentence extraction processing by the important
上記した抽出条件には、第1及び第2の抽出条件が含まれる。第1の抽出条件によれば、抽出用重要語から始まり、当該抽出用重要語に係る動詞を1つ含む部分が存在する場合には、当該抽出用重要語から動詞までの部分を重要文とする。第2の抽出条件によれば、抽出用重要語の直前に係っている動詞が1つ存在する場合には、当該抽出用重要語に係っている動詞から当該抽出用重要語までを重要文とする。 The extraction conditions described above include the first and second extraction conditions. According to the first extraction condition, if there is a part that starts with an extraction key word and includes one verb related to the key word for extraction, the part from the key word for extraction to the verb is the key sentence. To do. According to the second extraction condition, if there is one verb immediately before the extraction important word, the important words from the verb related to the extraction important word to the extraction important word are important. A sentence.
上記したように重要語決定部33によって決定された抽出用重要語が「インクミスト」、「カラー」、「記録装置」、「記録部材」及び「インクジェット」である場合において図5に示す抽出対象文書100から抽出される重要文について具体的に説明する。
As described above, when the extraction important words determined by the important
まず、抽出用重要語が「インクミスト」である場合について説明すると、図5に示す抽出対象文書100から上記した第1の抽出条件により「インクミストによる不良を防ぐ」が重要文として抽出される。なお、抽出対象文書100においては「インクミストによる不良を防ぎ」とあるが、第1の抽出条件により抽出される重要文においては、当該重要文の文末の動詞は終止形に修正される。
First, the case where the key word for extraction is “ink mist” will be described. From the
また、抽出用重要語が「カラー」である場合について説明すると、図5に示す抽出対象文書100から上記した第2の抽出条件により「インクの予備吐出を行うことができるカラーフィルタ」が重要文として抽出される。また、抽出対象文書100から上記した第1の抽出条件により「カラーフィルタの製造装置を提供する」が重要文として抽出される。
The case where the key word for extraction is “color” will be described. The key sentence is “color filter capable of performing preliminary ink ejection” from the
抽出用重要語が「記録装置」である場合について説明すると、図5に示す抽出対象文書100から上記した第2の抽出条件により「記録を行うインクジェット記録装置」が重要文として抽出される。なお、抽出対象文書100には、「記録を行うインクジェット記録装置」の記載が2箇所存在するが、重要文としては1文が抽出される。
The case where the key word for extraction is “recording device” will be described. “Inkjet recording device for recording” is extracted as an important sentence from the
抽出用重要語が「記録部材」である場合について説明すると、図5に示す抽出対象文書100から上記した第1の抽出条件により「インクジェットヘッドにより被記録部材に向けてインクを吐出する」が重要文として抽出される。ここで抽出される重要文には、抽出用重要語である「インクジェット」も含まれている。この場合、「向けて」も動詞であるが、構文解析を行うことにより、抽出用重要語である「インクジェット」に係る動詞は「吐出する」であるため、上記の重要文が抽出される。
The case where the key word for extraction is “recording member” will be described. It is important that “ink is ejected toward the recording member by the inkjet head” from the
抽出用重要語が「インクジェット」である場合について説明すると、図5に示す抽出対象文書100から上記した第1の抽出条件により「インクジェットヘッドにより被記録部材に向けてインクを吐出する」及び第2の抽出条件により「記録を行うインクジェット記録装置」が重要文として抽出される。また、抽出対象文書100から上記した第1の抽出条件により「インクジェットヘッド120aのノズル面を覆う」、「インクジェットヘッド120aとキャップ部材31aとを相対的に移動させる」及び「インクジェットヘッド120aからインクを吐出させる」が重要文として抽出される。
The case where the key word for extraction is “inkjet” will be described. According to the first extraction condition described above from the
以上により、重要文抽出部33は、抽出対象文書100から、「インクジェットヘッドにより被記録部材に向けてインクを吐出する」、「記録を行うインクジェット記録装置」、「インクミストによる不良を防ぐ」、「インクの予備吐出を行うことができるカラーフィルタ」、「カラーフィルタの製造装置を提供する」、「インクジェットヘッド120aのノズル面を覆う」、「インクジェットヘッド120aとキャップ部材31aとを相対的に移動させる」及び「インクジェットヘッド120aからインクを吐出させる」を重要文として抽出する。
As described above, the important
次に、スコア算出部34は、重要文抽出部33によって抽出された重要文毎のスコアを算出する(ステップS9)。スコア算出部34は、重要文抽出部33によって抽出された重要文毎に、当該重要文に含まれる抽出用重要語に対して予め定められているスコア(以下、単に抽出用重要語のスコアと表記)に基づいて当該重要文のスコアを算出する。
Next, the
この抽出用重要語のスコアは、当該抽出用重要語に対応するカテゴリと抽出対象文書100に付与されているカテゴリとの階層重要語格納部22の階層構造における位置関係に基づいて定められる。例えば抽出用重要語のうち、第1の抽出用重要語(対応重要語)については高いスコアが定められており、第2の抽出用重要語(近傍重要語)については階層構造における位置関係(つまり、抽出対象文書100に付与されているカテゴリとの距離)に応じてスコアが定められている。
The score of the keyword for extraction is determined based on the positional relationship in the hierarchical structure of the hierarchical
なお、以下の説明においては、抽出対象文書100に付与されているカテゴリを対象カテゴリ、当該対象カテゴリの上位の階層に位置付けられているカテゴリを上位階層カテゴリ、当該対象カテゴリの下位の階層に位置付けられているカテゴリを下位階層カテゴリ、当該対象カテゴリと同階層に位置付けられているカテゴリを同階層カテゴリと称する。
In the following description, the category assigned to the
ここでは、対象カテゴリに対応する第1の抽出用重要語(対応重要語)にはスコア「6」が定められているものとする。また、第2の抽出用重要語(近傍重要語)のうち、上位階層カテゴリ及び下位階層カテゴリに対応する第2の抽出用重要語にはスコア「3」、同階層カテゴリに対応する第2の抽出用重要語にはスコア「2」が定められているものとする。 Here, it is assumed that a score “6” is defined for the first extraction important word (corresponding important word) corresponding to the target category. Of the second extraction important words (neighboring important words), the second extraction important word corresponding to the upper hierarchy category and the lower hierarchy category has a score of “3”, and the second extraction important word corresponds to the same hierarchy category. It is assumed that a score “2” is defined for the extraction important word.
なお、図3に示す階層重要語格納部22においては存在しないが、上位階層カテゴリの更に上位の階層に位置付けられているカテゴリに対応する第2の抽出用重要語には例えばスコア「1」が定められている。下位階層カテゴリの更に下位の階層に位置付けられているカテゴリに対応する第2の抽出用重要語についても同様のスコアが定められている。
Although not present in the hierarchical
スコア算出部34は、重要文抽出部33によって抽出された重要文に含まれる抽出用重要語のスコアを加算することによって、当該重要文のスコアを算出する。つまり、重要文のスコアは、上記した抽出用重要語のスコアの例によると、「6×対応重要語(第1の抽出用重要語)の個数+3×上位(または下位)階層カテゴリに対応する近傍重要語(第2の抽出用重要語)の個数+2×同階層カテゴリに対応する近傍重要語(第2の抽出用重要語)の個数(+1×上位(または下位)階層カテゴリの更に上位(または下位)の階層に位置付けられているカテゴリに対応する近傍重要語(第2の抽出用重要語)の個数)」のスコア式により算出される。
The
ここで、上記した重要文抽出部33によって抽出された重要文の各々のスコアの算出処理について具体的に説明する。なお、重要語決定部32によって決定された抽出用重要語である「インクミスト」は対応重要語(第1の抽出用重要語)であり、「カラー」、「記録装置」及び「記録部材」は同階層カテゴリに対応する近傍重要語(第2の抽出用重要語)であり、「インクジェット」は上位階層カテゴリに対応する近傍重要語(第2の抽出用重要語)である。
Here, the score calculation process of each important sentence extracted by the above-described important
また、重要文抽出部33によって抽出された重要文は、上記したように「インクジェットヘッドにより被記録部材に向けてインクを吐出する」、「記録を行うインクジェット記録装置」、「インクミストによる不良を防ぐ」、「インクの予備吐出を行うことができるカラーフィルタ」、「カラーフィルタの製造装置を提供する」、「インクジェットヘッド120aのノズル面を覆う」、「インクジェットヘッド120aとキャップ部材31aとを相対的に移動させる」及び「インクジェットヘッド120aからインクを吐出させる」であるものとする。
The important sentences extracted by the important
重要文が「インクジェットヘッドにより被記録部材に向けてインクを吐出する」である場合には、当該重要文には、上位階層カテゴリに対応する近傍重要語である「インクジェット」及び同階層カテゴリに対応する近傍重要語である「記録部材」が1つずつ含まれている。したがって、この重要文のスコアは、上記したスコア式により3×1+2×1=5となる。 When the important sentence is “Ejecting ink toward the recording member by the ink jet head”, the important sentence corresponds to “inkjet” which is a neighboring important word corresponding to the upper hierarchy category and the same hierarchy category. One “recording member” which is a neighboring important word is included. Therefore, the score of this important sentence is 3 × 1 + 2 × 1 = 5 by the above-described score formula.
重要文が「記録を行うインクジェット記録装置」である場合には、当該重要文には、上位階層カテゴリに対応する近傍重要語である「インクジェット」及び同階層カテゴリに対応する近傍重要語である「記録装置」が1つずつ含まれている。したがって、この重要文のスコアは、上記したスコア式により3×1+2×1=5となる。 When the important sentence is “an inkjet recording apparatus that performs recording”, the important sentence includes “inkjet” that is a neighboring important word corresponding to the upper hierarchical category and “neighboring important words that correspond to the same hierarchical category” One “recording device” is included. Therefore, the score of this important sentence is 3 × 1 + 2 × 1 = 5 by the above-described score formula.
重要文が「インクミストによる不良を防ぐ」である場合には、当該重要文には、対応重要語である「インクミスト」が1つ含まれている。したがって、この重要文のスコアは、上記したスコア式により6×1=6となる。 When the important sentence is “Preventing failure due to ink mist”, the important sentence contains one “ink mist” which is a corresponding important word. Therefore, the score of this important sentence is 6 × 1 = 6 by the above-described score formula.
重要文が「インクの予備吐出を行うことができるカラーフィルタ」である場合には、当該重要文には、同階層カテゴリに対応する近傍重要語である「カラー」が1つ含まれている。したがって、この重要文のスコアは、上記したスコア式により2×1=2となる。 When the important sentence is “a color filter capable of performing preliminary ink ejection”, the important sentence includes one “color” which is a neighboring important word corresponding to the same hierarchical category. Therefore, the score of this important sentence is 2 × 1 = 2 by the above-described score formula.
重要文が「カラーフィルタの製造装置を提供する」である場合には、当該重要文には、同階層カテゴリに対応する近傍重要語である「カラー」が1つ含まれている。したがって、この重要文のスコアは、上記したスコア式により2×1=2となる。 When the important sentence is “provide a color filter manufacturing apparatus”, the important sentence includes one “color” which is a neighboring important word corresponding to the same hierarchical category. Therefore, the score of this important sentence is 2 × 1 = 2 by the above-described score formula.
重要文が「インクジェットヘッド120aのノズル面を覆う」である場合には、当該重要文には、上位階層カテゴリに対応する近傍重要語である「インクジェット」が1つ含まれている。したがって、この重要文のスコアは、上記したスコア式により3×1=3となる。 When the important sentence is “covers the nozzle surface of the inkjet head 120a”, the important sentence includes one “inkjet” which is a neighboring important word corresponding to the upper hierarchical category. Therefore, the score of this important sentence is 3 × 1 = 3 by the above-described score formula.
重要文が「インクジェットヘッド120aとキャップ部材31aとを相対的に移動させる」である場合には、当該重要文には、上位階層カテゴリに対応する近傍重要語である「インクジェット」が1つ含まれている。したがって、この重要文のスコアは、上記したスコア式により3×1=3となる。 When the important sentence is “relatively move the inkjet head 120a and the cap member 31a”, the important sentence includes one “inkjet” which is a neighboring important word corresponding to the upper hierarchy category. ing. Therefore, the score of this important sentence is 3 × 1 = 3 by the above-described score formula.
また、重要文が「インクジェットヘッド120aからインクを吐出させる」である場合には、当該重要文には、上位階層カテゴリに対応する近傍重要語である「インクジェット」が1つ含まれている。したがって、この重要文のスコアは、上記したスコア式により3×1=3となる。 When the important sentence is “discharge ink from the inkjet head 120a”, the important sentence includes one “inkjet” that is a neighboring important word corresponding to the upper hierarchical category. Therefore, the score of this important sentence is 3 × 1 = 3 by the above-described score formula.
なお、1つの重要文に同じ重要語(対応重要語または近傍重要語)が複数含まれている場合であっても、スコアの算出処理においては個数は1つであるものとする。 Even when a single important sentence includes a plurality of the same important words (corresponding important words or neighboring important words), the number is assumed to be one in the score calculation process.
上記したように重要文毎のスコアが算出されると、スコア算出部34は、抽出対象文書100に付与されているカテゴリ(ここでは、FI「B41J 3/04 101B」)、重要文抽出部33によって抽出された重要文及び当該重要文のスコアを対応付けて重要文格納部24に格納する。
When the score for each important sentence is calculated as described above, the
つまり、重要文格納部24には、上記したような重要文の抽出処理が行われる度に、カテゴリ別に当該カテゴリに分類される文書から抽出された重要文及び当該重要文のスコアの組が格納される。
That is, the important
次に、重要文出力部35は、重要文抽出部33によって抽出された重要文を、スコア算出部34によって算出されたスコア順に出力(例えば、ユーザに対して表示等)する(ステップS10)。重要文出力部35は、重要文抽出部33によって抽出された重要文を当該重要文のスコアの値の例えば降順に出力する。
Next, the important
また、重要文出力部35は、重要文抽出部33によって抽出された重要文を全て出力することなく、例えばスコアが5以上の重要文のみを出力しても構わない。
Further, the important
図6は、スコアが5以上の重要文が出力(表示)された場合の一例を示す。図6に示す例では、重要文抽出部33によって抽出された重要文のうち、重要文「インクミストによる不良を防ぐ(スコア6)」、「インクジェットヘッドにより被記録部材に向けてインクを吐出する(スコア5)」及び「記録を行うインクジェット記録装置(スコア5)」がスコアの降順に出力されている。
FIG. 6 shows an example when an important sentence with a score of 5 or more is output (displayed). In the example shown in FIG. 6, among the important sentences extracted by the important
一方、上記したステップS3において対応重要語が抽出対象文書100内に存在しないと判定された場合、ステップS5の処理が実行される。つまり、対応重要語が抽出対象文書100内に存在しない場合には、当該対応重要語は抽出用重要語として決定されない。
On the other hand, when it is determined in step S3 described above that the corresponding important word does not exist in the
また、上記したステップS6において近傍重要語が抽出対象文書100内に存在しないと判定された場合、処理は終了される。なお、ステップS6において近傍重要語が抽出対象文書100内に存在しないと判定された場合であっても、上記したステップS3において対応重要語が抽出対象文書100内に存在すると判定された場合には、当該対応重要語を含む重要文が抽出対象文書100から抽出され、当該重要文が出力される。つまり、対応重要語及び近傍重要語の全てが抽出対象文書100内に存在しない場合には、重要文は出力されることなく処理が終了される。
Further, when it is determined in step S6 described above that there is no neighboring important word in the
上記したように本実施形態においては、抽出対象文書100に付与されたカテゴリに対応する重要語(対応重要語)及び当該カテゴリと関連のあるカテゴリ(上位階層カテゴリ、下位階層カテゴリ及び同階層カテゴリ等)に対応する重要語(近傍重要語)のうち、抽出対象文書100内に存在する重要語を抽出用重要語として決定し、当該抽出用重要語を含む文を重要文として抽出対象文書100から抽出する。
As described above, in the present embodiment, important words (corresponding important words) corresponding to the category assigned to the
これにより、本実施形態においては、抽出対象文書100に付与されたカテゴリに対応する対応重要語が当該抽出対象文書100内に存在しない場合であっても、当該対応重要語に対応するカテゴリと関連のあるカテゴリに対応する近傍重要語を用いて重要文を抽出することができる。
Thereby, in this embodiment, even if the corresponding important word corresponding to the category assigned to the
また、本実施形態においては、上記したように近傍重要語を用いることにより、抽出対象文書100が分類されるカテゴリと関連のないカテゴリの重要語等を用いる場合と比較して重要文の抽出精度を保ちつつ、かつ、対応重要語のみを用いて重要文を抽出する場合と比較してより多くの重要文を抽出することができる。
In the present embodiment, as described above, the use of neighboring important words makes it possible to extract important sentences compared to the case where important words or the like of a category not related to the category into which the
また、本実施形態においては、抽出対象文書100の内容の記述の粒度に対応した重要文の抽出が可能となる。つまり、本実施形態においては、抽出対象文書100の内容の記述粒度が粗い場合には上位階層カテゴリに対応する近傍重要語、一方、記述粒度が細かい場合には下位階層カテゴリに対応する近傍重要語を用いることによって、抽出対象文書100の内容に応じた重要文を抽出することが可能である。また、本実施形態においては、上位及び下位階層カテゴリに対応する近傍重要語または同階層カテゴリに対応する近傍重要語でスコアが異なるため、重要度スコアをきめ細かく表すことが可能となる。
In the present embodiment, it is possible to extract an important sentence corresponding to the granularity of the description of the content of the
なお、本実施形態においてはFI及びFI説明文を用いて特許文書から重要文を抽出するものとして説明したが、本実施形態は、例えばメールサーバに蓄積されたメール群に対しても適用可能である。この場合、メール群がディレクトリ構造で格納されており、各ディレクトリにキーワードが付与されている場合には、当該付与されたキーワードを用いて各ディレクトリ内のメール群から重要文を抽出することができる。 Although the present embodiment has been described on the assumption that an important sentence is extracted from a patent document using FI and FI explanation, this embodiment can also be applied to, for example, a mail group stored in a mail server. is there. In this case, if the mail group is stored in a directory structure and a keyword is assigned to each directory, an important sentence can be extracted from the mail group in each directory using the assigned keyword. .
[第2の実施形態]
次に、図7を参照して、本発明の第2の実施形態について説明する。図7は、本実施形態に係る重要文抽出装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
[Second Embodiment]
Next, a second embodiment of the present invention will be described with reference to FIG. FIG. 7 is a block diagram mainly showing a functional configuration of the important sentence extracting apparatus according to the present embodiment. The same parts as those in FIG. 2 described above are denoted by the same reference numerals, and detailed description thereof is omitted. Here, parts different from FIG. 2 will be mainly described.
また、本実施形態に係る重要文抽出装置のハードウェア構成は、前述した第1の実施形態と同様であるため、適宜、図1を用いて説明する。 The hardware configuration of the important sentence extraction apparatus according to the present embodiment is the same as that of the first embodiment described above, and will be described with reference to FIG. 1 as appropriate.
本実施形態においては、前述した第1の実施形態における重要文の抽出処理に加えて、重要文格納部24に格納された重要文を用いて文書を分類する処理(文書分類処理)を行う点が、前述した第1の実施形態とは異なる。つまり、本実施形態においては、前述した第1の実施形態における重要文の抽出処理が繰り返されることにより、重要文格納部24にカテゴリ別に重要文及び当該重要文のスコアの組が蓄積されていることを前提としている。
In the present embodiment, in addition to the important sentence extraction process in the first embodiment described above, a process for classifying documents (document classification process) using the important sentence stored in the important
図7に示すように、重要文抽出装置40は、分類対象文書入力部41、概念検索部42、カテゴリ分類部43及び分類結果出力部44を含む。本実施形態において、これらの各部41乃至44は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
As illustrated in FIG. 7, the important
また、重要文抽出装置40は、分類結果格納部25を有する。本実施形態において、分類結果格納部25は、例えば外部記憶装置20に格納される。
The important
分類対象文書入力部41は、分類される対象となる文書(以下、分類対象文書と表記)を入力する。分類対象文書入力部41は、ユーザの操作に応じて分類対象文書を入力する。この分類対象文書は、複数の語を含む複数の文から構成される。なお、この分類対象文書には、前述した第1の実施形態における抽出対象文書とは異なりカテゴリは付与されていない。
The classification target
分類対象文書入力部41によって入力される分類対象文書としては、例えば特許文書(特許文献)が含まれる。なお、特許文書は分類対象文書の一例であり、分類対象文書はテキストデータであればよい。
The classification target document input by the classification target
概念検索部42は、重要文格納部24に格納されている重要文を検索キー、分類対象文書入力部41によって入力された分類対象文書を検索対象として、概念検索(自然文検索)を行う。これにより、分類対象文書入力部41によって入力された分類対象文書が重要文格納部24に格納されている重要文に合致するか否かが判定される。なお、概念検索部42は、重要文格納部24に格納されている重要文の全てについて概念検索を行う。
The
カテゴリ分類部43は、概念検索結果に基づいて、分類対象文書入力部41によって入力された分類対象文書(検索対象)が重要文格納部24に格納されている重要文(検索キー)に合致するか否かを判定する。
Based on the concept search result, the
カテゴリ分類部43は、重要文格納部24に格納されているカテゴリに対応付けられている重要文であって、分類対象文書入力部41によって入力された分類対象文書が合致すると判定された重要文に対応付けられているスコアの合計値を当該カテゴリのスコア(確信度)として、当該重要文格納部24に格納されているカテゴリ毎に算出する。つまり、カテゴリ分類部43は、重要文格納部24に格納されている全ての重要文についての概念検索結果に基づいて、重要文格納部24に格納されているカテゴリ別にスコアを算出する。
The
分類結果出力部44は、重要文格納部24に格納されているカテゴリ及び算出された当該カテゴリのスコアを出力する。このとき、分類結果出力部44は、重要文格納部24に格納されているカテゴリの各々を、カテゴリ分類部43によって算出された当該カテゴリのスコア順に出力する。
The classification
また、分類結果出力部44は、出力されたカテゴリ及び当該カテゴリのスコアに基づくユーザの操作に応じて、分類対象文書入力部41によって入力された分類対象文書をカテゴリに分類し、当該分類結果を分類結果格納部25に格納する。
The classification
つまり、ユーザは、分類結果出力部44によって出力されたカテゴリ及び当該カテゴリのスコアを参照して、分類対象文書入力部41によって入力された分類対象文書が分類されるべきカテゴリを指定することができる。つまり、分類対象文書は、分類結果出力部44によって出力されたカテゴリのうちユーザによって指定されたカテゴリに分類される。
That is, the user can specify a category to which the classification target document input by the classification target
図8は、図7に示す重要文格納部24のデータ構造の一例を示す。図8に示すように、重要文格納部24には、カテゴリ名、重要文及びスコア値が対応付けて格納されている。重要文は、対応付けられているカテゴリに分類されている文書から抽出された重要文を示す。スコア値は、対応付けられている重要文のスコアを示す。
FIG. 8 shows an example of the data structure of the important
なお、重要文格納部24には、カテゴリ毎に複数の重要文及びスコアの組が格納される。
The important
図8に示す例では、重要文格納部24には、カテゴリ名「B41J 3/04 101A」に対応付けて重要文1「カラー画像を印刷する」及びスコア値「6」の組が格納されている。また、重要文格納部24には、カテゴリ名「B41J 3/04 101A」に対応付けて重要文2「カラー印刷方法を実行する」及びスコア値「6」の組が格納されている。
In the example illustrated in FIG. 8, the important
重要文格納部24には、カテゴリ名「B41J 3/04 101B」に対応付けて重要文1「インクミストが発生する」及びスコア値「6」の組が格納されている。また、重要文格納部24には、カテゴリ名「B41J 3/04 101B」に対応付けて重要文2「インクジェット記録装置を有する」及びスコア値「5」の組が格納されている。
The important
次に、図9のフローチャートを参照して、本実施形態に係る重要文抽出装置40の文書分類処理の処理手順について説明する。なお、重要文格納部24には、前述した第1の実施形態において説明したような処理によって抽出された重要文及び当該重要文のスコアがカテゴリ別に蓄積されているものとする。
Next, a processing procedure of document classification processing of the important
まず、分類対象文書入力部41は、ユーザの操作に応じて、複数の語を含む複数の文から構成される文書(分類対象文書)を入力する(ステップS21)。ユーザは、例えば重要文抽出装置40を操作することによって分類対象文書を指定することができる。なお、分類対象文書入力部41によって入力された分類対象文書には、カテゴリは付与されていない。
First, the classification target
ここで、図10は、分類対象文書入力部41によって入力された分類対象文書の一例を示す。図10に示す例では、分類対象文書200は、特許文書である。また、分類対象文書200には、前述した図5に示す抽出対象文書100とは異なり、カテゴリは付与されていない。以下、分類対象文書入力部41によって図10に示す分類対象文書200が入力されたものとして説明する。
Here, FIG. 10 shows an example of the classification target document input by the classification target
次に、概念検索部42は、重要文格納部24に格納されている重要文を1つ取得する(ステップS22)。
Next, the
概念検索部42は、取得された重要文を用いて分類対象文書入力部41によって入力された分類対象文書200に対する概念検索(自然文検索)を行う(ステップS23)。この場合、概念検索部42は、重要文を検索キー、分類対象文書200を検索対象として概念検索を行う。概念検索とは、例えば検索したい内容の文章を検索キーとし、当該文章に近い内容の情報を検索する検索手法である。
The
カテゴリ分類部43は、取得された重要文に分類対象文書入力部41によって入力された分類対象文書200が合致するか否かを、概念検索部42による概念検索結果に基づいて判定する(ステップS24)。概念検索における検索結果は、検索対象(分類対象文書200)が検索キー(重要文)に合致する度合い(%)によって表される。カテゴリ分類部43は、概念検索結果における検索対象が検索キーに合致する度合いが一定の値(例えば、70%)以上である場合に、分類対象文書200が重要文に合致すると判定する。
The
分類対象文書200が重要文に合致すると判定された場合(ステップS24のYES)、カテゴリ分類部43は、当該重要文(ステップS23において検索キーとして用いられた重要文)に対応付けて重要文格納部24に格納されているスコア(当該重要文のスコア)を、当該重要文格納部24から取得する。
When it is determined that the
カテゴリ分類部43は、取得された重要文のスコアを、重要文格納部24において概念検索部42によって取得された重要文に対応付けられているカテゴリのスコアに加算する(ステップS25)。
The
一方、分類対象文書200が重要文に合致しないと判定された場合(ステップS24のNO)、後述するステップS26の処理が実行される。
On the other hand, when it is determined that the
なお、上記したステップS22〜ステップS25の処理は、重要文格納部24に格納されている全ての重要文について実行される。これにより、カテゴリ分類部43は、重要文格納部24に格納されているカテゴリに対応付けられている重要文であって、分類対象文書200が合致すると判定された重要文に対応付けられているスコア(重要文のスコア)の合計値を、当該カテゴリのスコアとして算出する。また、上記したステップS22〜ステップS25の処理を全ての重要文について実行されることにより、カテゴリ分類部43は、重要文格納部24に格納されているカテゴリの全てについてスコア(カテゴリ別のスコア)を算出する。
Note that the processes of steps S22 to S25 described above are executed for all important sentences stored in the important
ここで、カテゴリのスコアの算出処理について上記した図8を用いて具体的に説明する。例えば分類対象文書200が図8に示すカテゴリ名「B41J 3/04 101A」に対応付けられている重要文1「カラー画像を印刷する」及び重要文2「カラー印刷方法を実行する」に合致する場合を想定する。この場合、カテゴリ名「B41J 3/04 101A」のスコアは、重要文1「カラー画像を印刷する」に対応付けられているスコア値「6」及び重要文2「カラー印刷方法を実行する」に対応付けられているスコア値「6」の合計、つまり、「12」となる。
The category score calculation process will be specifically described with reference to FIG. For example, the
また、例えば分類対象文書200が図8に示すカテゴリ名「B41J 3/04 101B」に対応付けられている重要文1「インクミストが発生する」には合致せず、重要文2「インクジェット記録装置を有する」に合致する場合想定する。この場合、カテゴリ名「B41J 3/04 101B」のスコアは、重要文2「インクジェット記録装置を有する」に対応付けられているスコア値「5」となる。
Further, for example, the
つまり、重要文格納部24に格納されている全ての重要文について上記したステップS22〜ステップS25の処理が実行されると、全てのカテゴリのスコアが算出される。
That is, when the above-described steps S22 to S25 are executed for all important sentences stored in the important
上記したステップS25の処理が実行されると、重要文格納部24に格納されている全ての重要文について上記したステップS22〜ステップS25の処理が実行されたか否かが判定される(ステップS26)。全ての重要文についてステップS22〜ステップS25の処理が実行されていないと判定された場合には、ステップS22に戻って処理が繰り返される。 When the process of step S25 described above is executed, it is determined whether or not the processes of steps S22 to S25 described above have been executed for all the important sentences stored in the important sentence storage unit 24 (step S26). . If it is determined that the processes in steps S22 to S25 are not executed for all important sentences, the process returns to step S22 and is repeated.
一方、全ての重要文についてステップS22〜ステップS25の処理が実行されたと判定された場合(ステップS26のYES)、つまり、重要文格納部24に格納されているカテゴリ別のスコアが算出された場合、分類結果出力部44は、当該カテゴリ及び当該カテゴリのスコアを出力する。このとき、分類結果出力部44は、重要文格納部24に格納されているカテゴリ(つまり、分類対象文書が分類されるカテゴリ候補)を当該カテゴリ別のスコア順に出力する(ステップS27)。
On the other hand, when it is determined that the processing of steps S22 to S25 has been executed for all important sentences (YES in step S26), that is, when the scores for each category stored in the important
ここで、図11は、分類結果出力部44によってカテゴリ候補が出力(表示)された場合の一例を示す。図11に示す例では、例えばカテゴリ名「B41J 3/04 101A」及び「B41J 3/04 101A」が当該カテゴリのスコア(確信度)とともに当該スコア順に出力されている。つまり、分類結果出力部44によって分類対象文書200が分類されるべき複数のカテゴリ候補がスコア(確信度)順に出力される。
Here, FIG. 11 shows an example when category candidates are output (displayed) by the classification
上記した図11に示すようにカテゴリ候補が出力された場合、ユーザは、当該カテゴリ名(カテゴリ候補)及び当該カテゴリのスコアを参照して分類対象文書200が分類されるべきカテゴリを指定することができる。つまり、カテゴリのスコアが低い場合であっても、ユーザが、当該カテゴリが適切であると考える場合には、分類対象文書200を当該カテゴリに分類することができる。
When category candidates are output as shown in FIG. 11 described above, the user may designate a category into which the
分類結果出力部44は、上記したユーザの操作(指定)に応じて、分類対象文書200が分類されるカテゴリを分類結果として分類結果格納部25に格納する(ステップS28)。
The classification
上記したように本実施形態においては、カテゴリが付与されていない分類対象文書が入力された場合、重要文格納部24に格納されたカテゴリ別の重要文及び当該重要文のスコアを用いて当該分類対象文書が合致する重要文のスコアの合計値を当該カテゴリのスコア(確信度)として算出する。これにより、本実施形態においては、算出されたカテゴリのスコアに基づいて分類対象文書が分類されるべきカテゴリに当該分類対象文書を分類することが可能となる。このとき、カテゴリ毎のスコアを出力することにより、ユーザは、当該スコアが最も高いカテゴリだけでなく2番目以下のカテゴリについても参照して分類対象文書が分類されるべきカテゴリを指定することができる。
As described above, in the present embodiment, when a classification target document to which no category is assigned is input, the classification is performed using the important sentence for each category stored in the important
なお、本実施形態においては、算出されたカテゴリ別のスコアを出力し、当該カテゴリ別のスコアを参照したユーザによって指定されたカテゴリに分類対象文書を分類するものとして説明したが、当該カテゴリ別のスコアに基づいて自動的に分類対象文書が分類される構成であっても構わない。この場合、上記したカテゴリ分類部43は、算出されたカテゴリのスコア(確信度)に基づいて、例えば当該スコアが最も高いカテゴリに分類対象文書を分類する。
In the present embodiment, the calculated score for each category is output, and the classification target document is classified into the category specified by the user referring to the score for each category. A configuration may be adopted in which the classification target documents are automatically classified based on the score. In this case, the above-described
また、本実施形態においては、分類対象文書が入力される際には、重要文格納部24には既にカテゴリ別に重要文及び当該重要文のスコアが蓄積されているものとして説明したが、重要文格納部24内に十分な量の重要文及び当該重要文のスコアが蓄積されていない場合には、例えば文書DB等に蓄積されている大量の文書に対して前述した第1の実施形態における図4に示すような処理を繰り返し実行することによって重要文格納部24を構築した後に分類対象文書に対する分類処理が行われても構わない。
Further, in the present embodiment, it has been described that when a document to be classified is input, the important
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。 Note that the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in each embodiment. Furthermore, you may combine the component covering different embodiment suitably.
10…コンピュータ、20…外部記憶装置、22…階層重要語格納部(重要語格納手段)、23…同義語辞書、24…重要文格納部、25…分類結果格納部、30,40…重要文抽出装置、31…抽出対象文書入力部、32…重要語決定部、33…重要文抽出部、34…スコア算出部、35…重要文出力部、41…分類対象文書入力部、42…概念検索部、43…カテゴリ分類部、44…分類結果出力部。
DESCRIPTION OF
Claims (5)
前記コンピュータに、
ユーザの操作に応じて、複数の語を含む文から構成される抽出対象文書であって、当該抽出対象文書が分類されるカテゴリが付与された抽出対象文書を入力するステップと、
前記入力された抽出対象文書に付与されているカテゴリに対応する第1の重要語を前記重要語格納手段から読み込むステップと、
前記読み込まれた第1の重要語が前記入力された抽出対象文書に含まれているかを判定するステップと、
前記第1の重要語が前記抽出対象文書に含まれていると判定された場合、当該第1の重要語を第1の抽出用重要語として決定するステップと、
前記入力された抽出対象文書に付与されているカテゴリと関連のあるカテゴリに対応する第2の重要語を前記重要語格納手段から読み込むステップと、
前記読み込まれた第2の重要語が前記入力された抽出対象文書に含まれているかを判定するステップと、
前記第2の重要語が前記抽出対象文書に含まれていると判定された場合、当該第2の重要語を第2の抽出用重要語として決定するステップと、
前記決定された第1の抽出用重要語及び第2の抽出用重要語のうち少なくとも1つを含む文を重要文として、前記入力された抽出対象文書から抽出するステップと、
前記抽出された重要文に含まれる前記決定された第1の抽出用重要語または第2の抽出用重要語に基づいて、当該重要文の重要度を算出するステップと、
前記抽出された重要文を、前記算出された重要度順に出力するステップと
を実行させるための重要文抽出プログラム。 An important word storage means for storing important words corresponding to each of the categories into which the document is classified, and an external storage device having important word storage means in which categories related to the categories are represented in a hierarchical structure; In an important sentence extraction device composed of a computer using the external storage device, an important sentence extraction program executed by the computer,
In the computer,
Inputting an extraction target document composed of a sentence including a plurality of words according to a user's operation, to which a category to which the extraction target document is classified is assigned;
Reading a first important word corresponding to a category assigned to the input extraction target document from the important word storage means;
Determining whether the read first important word is included in the input extraction target document;
When it is determined that the first important word is included in the extraction target document, the first important word is determined as a first extraction important word;
Reading a second important word corresponding to a category associated with a category assigned to the input extraction target document from the important word storage means;
Determining whether the read second important word is included in the input extraction target document;
When it is determined that the second important word is included in the extraction target document, the second important word is determined as a second extracting important word;
Extracting from the input extraction target document a sentence including at least one of the determined first and second extraction important words as an important sentence;
Calculating the importance of the important sentence based on the determined first extraction important word or second extracted important word included in the extracted important sentence;
An important sentence extraction program for executing the step of outputting the extracted important sentences in the order of the calculated importance.
前記入力された抽出対象文書に付与されているカテゴリ、前記抽出された重要文及び前記算出された当該重要文の重要度を対応付けて重要文格納手段に格納するステップと、
ユーザの操作に応じて、複数の語を含む文から構成される分類対象文書を入力するステップと、
前記入力された分類対象文書が、前記重要文格納手段に格納された重要文に合致するかを判定するステップと、
前記重要文格納手段に格納されているカテゴリに対応付けられている重要文であって、前記分類対象文書が合致すると判定された重要文に対応付けられている当該重要文の重要度の合計値を当該カテゴリの確信度として、前記重要文格納手段に格納されているカテゴリ毎に算出するステップと、
前記算出されたカテゴリの確信度に基づいて、前記入力された分類対象文書を分類するステップと、
前記分類結果を分類結果格納手段に格納するステップと
を更に実行させるための請求項1記載の重要文抽出プログラム。 In the computer,
Storing the category assigned to the input extraction target document, the extracted important sentence and the calculated importance of the important sentence in association with each other in an important sentence storage unit;
Inputting a classification target document composed of sentences including a plurality of words according to a user operation;
Determining whether the input classification target document matches an important sentence stored in the important sentence storage means;
An important sentence associated with a category stored in the important sentence storage means, and a total value of the importance levels of the important sentences associated with the important sentence determined to match the classification target document For each category stored in the important sentence storage means as the certainty of the category,
Classifying the input classification target document based on the certainty of the calculated category;
The important sentence extraction program according to claim 1, further comprising the step of storing the classification result in a classification result storage means.
前記重要文格納手段に格納されているカテゴリ及び前記算出された当該カテゴリの確信度を出力するステップと、
前記出力されたカテゴリ及び当該カテゴリの確信度に基づく前記ユーザの操作に応じて、前記入力された分類対象文書を当該カテゴリに分類するステップと
を含むことを特徴とする請求項2記載の重要文抽出プログラム。 The step of classifying the classification target document includes:
Outputting the category stored in the important sentence storage means and the certainty factor of the calculated category;
3. The important sentence according to claim 2, further comprising: classifying the input classification target document into the category according to the user's operation based on the output category and the certainty factor of the category. Extraction program.
前記重要文の重要度を算出するステップにおいては、当該重要文に含まれる前記決定された第1の抽出用重要語または第2の抽出用重要語に予め定められているスコアを加算することによって当該重要文の重要度を算出する
ことを特徴とする請求項1記載の重要文抽出プログラム。 The important word corresponding to each of the categories stored in the important word storage means includes a positional relationship in a hierarchical structure between the category corresponding to the important word and the category assigned to the input extraction target document. Based on your score,
In the step of calculating the importance of the important sentence, a predetermined score is added to the determined first extraction important word or the second extraction important word included in the important sentence. The important sentence extraction program according to claim 1, wherein the importance degree of the important sentence is calculated.
ユーザの操作に応じて、複数の語を含む文から構成される抽出対象文書であって、当該抽出対象文書が分類されるカテゴリが付与された抽出対象文書を入力する入力手段と、
前記入力された抽出対象文書に付与されているカテゴリに対応する第1の重要語を前記重要語格納手段から読み込む第1の読込手段と、
前記読み込まれた第1の重要語が前記入力された抽出対象文書に含まれているかを判定する第1の判定手段と、
前記第1の重要語が前記抽出対象文書に含まれていると判定された場合、当該第1の重要語を第1の抽出用重要語として決定する第1の決定手段と、
前記入力された抽出対象文書に付与されているカテゴリと関連のあるカテゴリに対応する第2の重要語を前記重要語格納手段から読み込む第2の読込手段と、
前記第2の読込手段によって読み込まれた第2の重要語が前記入力された抽出対象文書に含まれているかを判定する第2の判定手段と、
前記第2の重要語が前記抽出対象文書に含まれていると前記第2の判定手段によって判定された場合、当該第2の重要語を第2の抽出用重要語として決定する第2の決定手段と、
前記第1の決定手段によって決定された第1の抽出用重要語および第2の決定手段によって決定された第2の抽出用重要語のうち少なくとも1つを含む文を重要文として、前記入力された抽出対象文書から抽出する抽出手段と、
前記抽出された重要文に含まれる前記第1の決定手段によって決定された第1の抽出用重要語または第2の決定手段によって決定された第2の抽出用重要語に基づいて、当該重要文の重要度を算出する算出手段と、
前記抽出された重要文を、前記算出された重要度順に出力する出力手段と
を具備することを特徴とする重要文抽出装置。 Important word storage means for storing important words corresponding to each of categories into which a document is classified, and important word storage means in which categories related to the category are represented in a hierarchical structure;
Input means for inputting an extraction target document composed of a sentence including a plurality of words according to a user's operation, to which a category to which the extraction target document is classified is assigned;
First reading means for reading a first important word corresponding to a category assigned to the input extraction target document from the important word storage means;
First determination means for determining whether or not the read first important word is included in the input extraction target document;
First determination means for determining the first important word as a first extraction important word when it is determined that the first important word is included in the extraction target document;
Second reading means for reading a second important word corresponding to a category associated with a category assigned to the input extraction target document from the important word storage means;
Second determination means for determining whether the second important word read by the second reading means is included in the input extraction target document;
A second determination for determining the second important word as a second extracting important word when the second determining means determines that the second important word is included in the extraction target document; Means,
The sentence including at least one of the first extracting important word determined by the first determining means and the second extracting important word determined by the second determining means is input as the important sentence. Extracting means for extracting from the extraction target document;
Based on the first extraction important word determined by the first determination means or the second extraction important word determined by the second determination means included in the extracted important sentence, the important sentence A calculation means for calculating the importance of
An important sentence extraction apparatus comprising: output means for outputting the extracted important sentences in the order of the calculated importance.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009010086A JP4922319B2 (en) | 2009-01-20 | 2009-01-20 | Important sentence extraction program and important sentence extraction device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009010086A JP4922319B2 (en) | 2009-01-20 | 2009-01-20 | Important sentence extraction program and important sentence extraction device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010170211A true JP2010170211A (en) | 2010-08-05 |
JP4922319B2 JP4922319B2 (en) | 2012-04-25 |
Family
ID=42702327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009010086A Active JP4922319B2 (en) | 2009-01-20 | 2009-01-20 | Important sentence extraction program and important sentence extraction device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4922319B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254900A (en) * | 1997-03-14 | 1998-09-25 | Omron Corp | Automatic document summarizing device and its method |
JP2000172691A (en) * | 1998-12-03 | 2000-06-23 | Mitsubishi Electric Corp | Method and device for mining information and computer- readable recording medium with information mining program recorded therein |
JP2007164583A (en) * | 2005-12-15 | 2007-06-28 | Oki Electric Ind Co Ltd | Apparatus, method, and program for determination |
-
2009
- 2009-01-20 JP JP2009010086A patent/JP4922319B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254900A (en) * | 1997-03-14 | 1998-09-25 | Omron Corp | Automatic document summarizing device and its method |
JP2000172691A (en) * | 1998-12-03 | 2000-06-23 | Mitsubishi Electric Corp | Method and device for mining information and computer- readable recording medium with information mining program recorded therein |
JP2007164583A (en) * | 2005-12-15 | 2007-06-28 | Oki Electric Ind Co Ltd | Apparatus, method, and program for determination |
Also Published As
Publication number | Publication date |
---|---|
JP4922319B2 (en) | 2012-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5716328B2 (en) | Information processing apparatus, information processing method, and information processing program | |
Kissos et al. | OCR error correction using character correction and feature-based word classification | |
JP5870790B2 (en) | Sentence proofreading apparatus and proofreading method | |
US20060241944A1 (en) | Method and system for generating spelling suggestions | |
JP2004348591A (en) | Document search method and device thereof | |
CN1910573A (en) | System for identifying and classifying denomination entity | |
US20060241934A1 (en) | Apparatus and method for translating Japanese into Chinese, and computer program product therefor | |
US20120197908A1 (en) | Method and apparatus for associating a table of contents and headings | |
JP5141560B2 (en) | Information search program, recording medium storing the program, information search device, and information search method | |
JP2007004633A (en) | Language model generation device and language processing device using language model generated by the same | |
JP2007122403A (en) | Device, method, and program for automatically extracting document title and relevant information | |
US7398210B2 (en) | System and method for performing analysis on word variants | |
Bedrick et al. | Robust kaomoji detection in Twitter | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
JP5430312B2 (en) | Data processing apparatus, data name generation method, and computer program | |
JP2005038395A (en) | Database retrieval device | |
JP2001318792A (en) | Intrinsic expression extraction rule generation system and method, recording medium recorded with processing program therefor, and intrinsic expression extraction device | |
JP4900947B2 (en) | Abbreviation extraction method, abbreviation extraction apparatus, and program | |
JP4922319B2 (en) | Important sentence extraction program and important sentence extraction device | |
JP2004334341A (en) | Document retrieval system, document retrieval method, and recording medium | |
JP5733285B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM | |
JP3766406B2 (en) | Machine translation device | |
JP2009176148A (en) | Unknown word determining system, method and program | |
JP5364802B2 (en) | Document search system and document search method | |
Lam-Adesina et al. | Examining and improving the effectiveness of relevance feedback for retrieval of scanned text documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4922319 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150210 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |