JP2013222418A - Passage division method, device and program - Google Patents
Passage division method, device and program Download PDFInfo
- Publication number
- JP2013222418A JP2013222418A JP2012095344A JP2012095344A JP2013222418A JP 2013222418 A JP2013222418 A JP 2013222418A JP 2012095344 A JP2012095344 A JP 2012095344A JP 2012095344 A JP2012095344 A JP 2012095344A JP 2013222418 A JP2013222418 A JP 2013222418A
- Authority
- JP
- Japan
- Prior art keywords
- passage
- document
- vector
- unit
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、電子化された文書の処理に係り、特に電子化書類のパセージ分割技術に関する。 The present invention relates to processing of an electronic document, and more particularly to a passage dividing technique for an electronic document.
近年、文書の電子化やデータベース化が進んだことで、自然言語処理技術も大きく発展し、例えば文書の自動要約や文書検索のための自動キーワード抽出などの研究が多くなされてきた。しかしこれらの技術の対象となる文書はパッセージ毎、すなわち、話題、あるいは内容的、意味的なまとまり単位毎に分割されている、または単一のパッセージしか含まない文書を想定していることが多い。そのため、複数のパッセージを含む文書に対しては、予めパッセージを分割することが有効である。従来、このようなパッセージ分割手法としては、特許文献1や特許文献2に記載のテキストセグメンテーション手法等が知られている。
In recent years, with the progress of computerization of documents and creation of databases, natural language processing technology has greatly developed. For example, much research has been conducted on automatic summarization of documents and automatic keyword extraction for document retrieval. However, it is often assumed that the documents covered by these technologies are passages, that is, documents that are divided into topics, that is, divided into topical or content and semantic units, or that contain only a single passage. . Therefore, for a document including a plurality of passages, dividing the passages in advance is effective. Conventionally, as such a passage division method, a text segmentation method described in
しかし、従来のパッセージ分割、テキストセグメンテーションに関する手法は意味の近い文、すなわちその特徴量が似た文を含む複数のパッセージが、一つの文書に含まれる場合、パッセージを正しく分割することが難しい。その結果、文書の自動要約や文書検索のための自動キーワード抽出などを効率的に進めることができない。 However, in the conventional methods for dividing passages and text segmentation, it is difficult to correctly divide passages when a plurality of passages including sentences having similar meanings, that is, sentences having similar features, are included in one document. As a result, automatic summarization of documents and automatic keyword extraction for document retrieval cannot be efficiently advanced.
本発明の目的は、上記課題に鑑みてなされたものであり、複数のパッセージを含む文書を有効に分割するパッセージ分割方法、装置、及びプログラムを提供することにある。 An object of the present invention is to provide a passage dividing method, apparatus, and program for effectively dividing a document including a plurality of passages.
上記の目的を達成するため、本発明においては、処理部により、ドキュメントをパッセージに分割するパッセージ分割方法であって、処理部は、ドキュメントを文単位に分割し、分割した文をクエリとして、予め記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、作成した特徴量の内の二つの特徴量の類似度が所定の閾値以上である、当該二つの特徴量の共通要素を用いて特徴量を更新するパッセージ分割方法を提供する。 In order to achieve the above object, the present invention provides a passage dividing method in which a processing unit divides a document into passages. The processing unit divides the document into sentence units, and uses the divided sentences as queries. A related document is extracted from a plurality of stored documents to create a feature quantity, and the two feature quantities in the created feature quantities have a similarity equal to or greater than a predetermined threshold. There is provided a passage dividing method for updating feature amounts using the common elements.
又、上記の目的を達成するため、本発明においては、入力されるドキュメントをパッセージに分割するパッセージ分割装置であって、処理部と記憶部とを備え、処理部は、ドキュメントを文単位に分割し、分割、記憶した文をクエリとして、予め記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、作成した特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新する構成のパッセージ分割装置を提供する。 In order to achieve the above object, according to the present invention, there is provided a passage dividing apparatus for dividing an input document into passages, comprising a processing unit and a storage unit, and the processing unit divides the document into sentence units. Then, using the divided and stored sentences as queries, extracting related documents from a plurality of documents stored in the storage unit in advance, creating feature amounts, and the two similarities of the created feature amounts are Provided is a passage dividing device configured to update a feature amount using a common element of the feature amount that is equal to or greater than a predetermined threshold.
更に、上記の目的を達成するため、本発明においては、処理部と記憶部とを備え、入力されるドキュメントをパッセージに分割するパッセージ分割装置の処理部で実行されるパッセージ分割プログラムであって、処理部を、ドキュメントを文単位に分割し、分割した文をクエリとして、予め記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出し、抽出した関連するドキュメントを用いて特徴量を作成し、作成した特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新するよう動作させるパッセージ分割プログラムを提供する。 Furthermore, in order to achieve the above object, in the present invention, there is provided a passage dividing program executed by a processing unit of a passage dividing apparatus that includes a processing unit and a storage unit and divides an input document into passages, The processing unit divides the document into sentence units, uses the divided sentence as a query, extracts related documents from a plurality of documents stored in the storage unit in advance, and uses the extracted related documents to determine the feature amount. Provided is a passage dividing program that is operated so as to update a feature quantity using a common element of the feature quantities, in which two similarities of the created feature quantities are equal to or greater than a predetermined threshold.
本発明によれば、意味の近い文、すなわち特徴量が似た文を含む、複数のパッセージが一つの文書に含まれる場合でも、パッセージを正しく分割することが可能となる。 According to the present invention, even when a plurality of passages including sentences having similar meanings, that is, sentences having similar feature quantities, are included in one document, the passages can be correctly divided.
以下、本発明の実施例を図面に従い説明するが、本発明は以下に説明する実施例に限定されるものではない。本明細書において、「文書」と「ドキュメント」とは、同義であることとする。また、「パッセージ」とは、話題、あるいは内容的、意味的なまとまりのある単位を意味する。更に、ドキュメントベクトルとは、蓄積されたドキュメントを次元とするベクトルを意味し、単語ベクトルとは、全ドキュメント中に出現する全ての単語を次元とするベクトルを意味するものとする。そして、本明細書において、文の「特徴量」とは、文の意味を定量的に示すものであり、例えば、ドキュメントベクトル、あるいは単語ベクトルはその一例として説明する。 Examples of the present invention will be described below with reference to the drawings. However, the present invention is not limited to the examples described below. In this specification, “document” and “document” are synonymous. The “passage” means a unit having a topic or content and semantic unit. Further, a document vector means a vector whose dimension is an accumulated document, and a word vector means a vector whose dimension is all words appearing in all documents. In this specification, the “feature amount” of a sentence quantitatively indicates the meaning of the sentence. For example, a document vector or a word vector will be described as an example.
第1の実施例は、類似度計算にドキュメントベクトルを、類似文書検索に単語ベクトルを用いるパッセージ分割方法、装置、及びプログラムの実施例である。本実施例において、ドキュメントベクトルとは、分割装置のコーパス部に含まれる全てのドキュメントを次元とするベクトルである。 The first embodiment is an embodiment of a passage dividing method, apparatus, and program that uses a document vector for similarity calculation and a word vector for similar document search. In this embodiment, the document vector is a vector whose dimensions are all documents included in the corpus unit of the dividing device.
本実施例の詳細を説明するに先立ち、ドキュメントベクトルと単語ベクトルの一例を説明する。
図6にドキュメントベクトルの一例を示す。図6において、コーパス部に含まれるドキュメントの総数を10として例示した。そして、検索の結果得られるドキュメントが、1、3、4、8である場合、ドキュメントベクトルは、同図の(a)に示すドキュメントベクトル601ように表わすことができる。同様に、検索の結果、検索スコアが得られる場合、得られた検索スコアを用いて、同図の(b)に示すようなドキュメントベクトル602として表わすことができる。
Prior to describing the details of this embodiment, an example of a document vector and a word vector will be described.
FIG. 6 shows an example of a document vector. In FIG. 6, the total number of documents included in the corpus is illustrated as 10. When the documents obtained as a result of the search are 1, 3, 4, and 8, the document vector can be expressed as a
図7に単語ベクトルの一例を示した。単語ベクトルとは、全文書中に出現する全ての単語を次元とするベクトルであり、図7の単語ベクトルでは、全てのドキュメントに出現する単語の種類を10として例示した。そして、あるドキュメントに含まれる単語が、3、6、7、8であり、出願頻度がそれぞれ、1、5、3、9である場合、該当する要素に出現頻度を代入することで、同図に示す単語ベクトル701を得る。
FIG. 7 shows an example of a word vector. The word vector is a vector whose dimensions are all words appearing in all documents. In the word vector of FIG. 7, the types of words appearing in all documents are exemplified as 10. Then, if the words included in a document are 3, 6, 7, and 8 and the application frequencies are 1, 5, 3, and 9, respectively, the appearance frequency is substituted into the corresponding element, so that
図1Aは、実施例1に係るパッセージ分割装置の機能ブロックの一例を示す図である。図1Bは、実施例1のパッセージ分割装置を実現するハードウェア構成の一例を示す図である。図1Bのハードウェア構成は、通常の処理部である中央処理部(Central Processing Unit:CPU)11、メモリ、RAM、ROM、ハードディスクドライブ(HDD)、記憶装置等の記憶部12、入出力部13、ネットワークインタフェースである通信部14からなり、これらの各ブロックは、内部バス15によって相互に接続されているコンピュータを示している。
FIG. 1A is a diagram illustrating an example of functional blocks of the passage dividing apparatus according to the first embodiment. FIG. 1B is a diagram illustrating an example of a hardware configuration that implements the passage dividing apparatus according to the first embodiment. 1B includes a central processing unit (CPU) 11 that is a normal processing unit, a memory, a RAM, a ROM, a hard disk drive (HDD), a
図1Aにおいて、パッセージ分割装置100は、制御部101と、入力部102と、文分割部103と、特徴量算出部104と、類似度計算部105と、検索クエリ生成部106と、特徴量更新部107と、パッセージ更新部108と、出力部109と、文記憶部110と、コーパス部111と、特徴量記憶部112と、パッセージ記憶部113と、形態素解析部114とを有する。前提として、コーパス部111には、例えば新聞記事のような文書、ドキュメントがSD個記憶されているものとする。
1A, a
この内、入力部102、出力部109が入出力部13や通信部14に対応し、文記憶部110と、コーパス部111と、特徴量記憶部112と、パッセージ記憶部113が記憶部12のメモリや記憶装置に対応している。その余の制御部101、文分割部103と、特徴量算出部104と、類似度計算部105と、検索クエリ生成部106と、特徴量更新部107と、パッセージ更新部108と、形態素解析部114は、CPU11における、オペレーティングシステム(OS)や、ROM等の記憶部に記憶された各種のプログラムの処理で実現できる。
Among them, the
図1Aに示した実施例1のパッセージ分割装置の各機能ブロックの動きを順次説明する。
まず、パッセージ分割の対象となるドキュメントが入力部102から装置に入力される。文分割部103は、処理部であるCPU11の所定プログラムの実行により、入力されたドキュメントを文単位に分割し、文記憶部110に分割結果である複数の文を記憶する。
The movement of each functional block of the passage dividing apparatus according to the first embodiment shown in FIG.
First, a document to be subjected to passage division is input from the
同様に、特徴量算出部104は、文記憶部110から読み込んだ文各々を用いて、コーパス部111から関連するドキュメントを取得し、得られた複数の関連ドキュメントを、ドキュメントベクトル化して特徴量記憶部112に記憶する。すなわち、特徴量算出部104は、取得した関連ドキュメントに対応する次元に値を代入することで、図6で例示したようなドキュメントベクトルを生成する。
Similarly, the feature
検索クエリ生成部106は、検索クエリを生成し、制御部101に送る機能を持つ。
The search
特徴量算出部104は、制御部101を介して、検索クエリが与えられた場合、当該検索クエリに関連するドキュメントを文記憶部110から取得し、得られた複数の関連ドキュメントをドキュメントベクトル化し、特徴量として、特徴量記憶部に112に記憶すると共に、制御部101を介して、特徴量更新部107に出力する。
When a search query is given via the
類似度計算部105は、制御部101の指定に基づいて、二つのドキュメントベクトルを特徴量記憶部112から読み出し、二つのドキュメントベクトルの類似度を計算する機能を有する。本実施例における類似度の計算方法については後述する。更に、類似度計算部105は、計算して得られた類似度が所定の閾値以上か否かを判断する。
The
検索クエリ生成部106は、制御部101の指定に基づいて、二つのドキュメントベクトルを特徴量記憶部112から読み出し、二つのドキュメントベクトルに共通するドキュメント群をコーパス部111から抽出する。抽出された共通するドキュメント群から検索クエリを生成し、制御部101へ出力する。この検索クエリの生成方法については後述する。
The search
特徴量更新部107は、制御部101の指定に基づいて二つのドキュメントベクトルVi,Vjを特徴量記憶部112から読み出す。また制御部101から一つのドキュメントベクトルVkが特徴量更新部107に入力される。入力された三つのドキュメントベクトルVk,Vi,Vjから信頼度を計算し、信頼度に基づいてVkを修正する。この信頼度については後述する。その後、Vi,Vjを特徴量記憶部112から削除し、Vkを特徴量記憶部112に記憶する。
The feature
パッセージ更新部108は、制御部101の指定に基づいて、文記憶部110またはパッセージ記憶部113の中から二つの文またはパッセージ候補を読み出す。読み出された文またはパッセージ候補を文記憶部110またはパッセージ記憶部113の中から削除し、読み出された文またはパッセージ候補を連結して、その連結結果を、パッセージ候補としてパッセージ記憶部113に記憶する。
The
出力部109は文記憶部110とパッセージ記憶部113からそれぞれ文、パッセージ候補を読み出し、不明パッセージか否かを判定した上で、その判定結果に基づき、パッセージにラベルを付与して出力する。ここで不明パッセージとは、どのパッセージと連結するか判定できなかった文またはパッセージ候補を指す。不明パッセージの判定方法については後述する。
The
図2は本実施例に係るパッセージ分割装置で実行されるパッセージ分割プログラムの動作を示すフロー図である。以下、図2を用いてパッセージ分割プログラムの動作の一例について説明する。
ここでは例として、二つのパッセージを含むドキュメントが入力された場合について述べるが、入力されるドキュメント中のパッセージ数は二つ以上であっても良く、以後の処理は同じであるので、二つのパッセージを含むドキュメントを例にして説明する。
FIG. 2 is a flowchart showing the operation of the passage dividing program executed by the passage dividing apparatus according to this embodiment. Hereinafter, an example of the operation of the passage dividing program will be described with reference to FIG.
Here, as an example, the case where a document including two passages is input will be described. However, the number of passages in the input document may be two or more, and the subsequent processing is the same. An example of a document including
第一のパッセージに含まれる文をa1,a2,…,aN、第二のパッセージに含まれる文をb1,b2,…,bMと定義する。ここでNは第一のパッセージに含まれる文の数(自然数)、Mは第二のパッセージに含まれる文の数(自然数)である。 A 1, a 2 statements contained in the first passage, ..., a N, the statements contained in the second passage b 1, b 2, ..., is defined as b M. Here, N is the number of sentences (natural number) included in the first passage, and M is the number of sentences (natural number) included in the second passage.
まず、ステップ201で入力部102からドキュメントが入力される。
ステップ202では入力されたドキュメントが、文分割部103により文単位に分割され、文記憶部110に記憶される。
First, in
In
ステップ203では文記憶部110に記憶された全ての文a1,a2,…,aN、b1,b2,…,bMを特徴量算出部104に入力し、先に説明した通り、ドキュメントベクトルを得る。ドキュメントベクトルの算出方法としては、例えば、コサイン尺度を用いる方法が挙げられる。コサイン尺度とは二つのベクトルの類似度を計る手法の一つとして用いられるものである。二つのベクトルQ、Pのコサイン尺度は以下の式1で計算される。
In
尚、ここでは類似度計算の例として、コサイン尺度を用いたが、その他の尺度を用いて、類似度を計算しても良い。ドキュメントベクトルの各要素の値としては、図6の(a)、(b)で説明したように、選定されたドキュメントは1、その他のドキュメントは0としても良いし、算出された類似度を用いるなど、なんらかの重み付けを行っても良い。 Although the cosine scale is used here as an example of similarity calculation, the similarity may be calculated using other scales. As described in FIGS. 6A and 6B, the value of each element of the document vector may be 1 for the selected document and 0 for the other documents, or the calculated similarity may be used. For example, some weighting may be performed.
次にステップ204では、特徴量記憶部112に蓄積されているドキュメントベクトルを二つ読み出し、類似度計算部105を用いて、最も類似度の高いドキュメントベクトルの組Vi,Vjを見つける。この場合における類似度の計算方法としては、上述したコサイン尺度等を用いても良いし、二つのドキュメントベクトルの両方に存在する要素、すなわち共通要素の数などを用いても良い。
Next, in
ステップ205では、類似度計算部105が、ステップ204で算出した最大類似度が、予め設定した閾値以上か否かを判定する。閾値は予め設定した固定値でも良いし、ステップ204で類似度を計算した際に、計算した類似度の平均や分散を計算しておき、これを用いても良い。
In
ステップ206およびステップ207は検索クエリ生成部106にて行われる。ステップ206では、ステップ204で算出された最大類似度が閾値以上である場合、ドキュメントベクトルの組Vi,Vjの共通要素を抽出し、これをドキュメントベクトルの共通要素Vijとする。
Step 206 and step 207 are performed by the search
ステップ207では、ステップ206で得られた共通要素Vijから検索クエリを生成する。検索クエリの生成方法としては、例えばTFIDFを用いた方法が挙げられる。TFIDFとは単語に関する重みの一種である。TF(Term Frequency)とIDF(InVerse Document Frequency)はそれぞれ次の式で表され、TFIDFはTFとIDFの積で求められる。
In
ドキュメントdに対して、形態素解析部114を用いて形態素解析を行い、TFIDFが大きい順にSW個の単語を抽出し、これを検索クエリとする。TFIDF以外でも、例えば出現頻度の多さで重要度を決めても良いし、ドキュメントのタイトルをクエリとしても良いし、その他の方法で検索クエリを生成しても良い。
The document d, performs morphological analysis by using the
ステップ208では、ステップ207で生成された検索クエリを、制御部101を介して特徴量算出部104に入力し、特徴量算出部104において、新たなドキュメントベクトルV’ijを得る。
In
続いて、新たに得られたドキュメントベクトルV’ijの信頼度の計算等を実行するステップ209およびステップ210を実行する。これらのステップ209およびステップ210は、図1に示した特徴量更新部107にて実行される。まず、ステップ209では、ステップ208で得られたドキュメントベクトルV’ijの信頼度を計算し、その結果に応じて、ドキュメントベクトルのベクトルサイズを修正する。
Subsequently,
本実施例において信頼度とは、ドキュメントベクトルV’ijに共通要素Vijの要素がどれだけ含まれているかを数値化した指標である。信頼度の算出としては、例えばドキュメントベクトルV’ijがドキュメントベクトルの組Vi,Vjの共通要素Vijの要素をいくつ含んでいるかを数え上げ、共通要素Vijの要素数で割る方法が挙げられる。その他にも、共通要素Vijの要素が重要度によって重み付けされている場合、重み付けされた重要度の高さに応じて信頼度を算出しても良い。何れにしろ、この信頼度が、所定の値より低い場合、得られたドキュメントベクトルV’ijのベクトルサイズを増減する等の信頼度のフィードバックを行う。 In the present embodiment, the reliability is an index obtained by quantifying how many elements of the common element V ij are included in the document vector V ′ ij . The calculation of reliability, for example, the document vector V 'ij is counting whether include any number of elements of the common elements V ij pair V i, V j of document vectors, and a method of dividing the number of elements common elements V ij It is done. In addition, when the elements of the common element V ij are weighted by importance, the reliability may be calculated according to the weighted importance. In any case, when the reliability is lower than a predetermined value, feedback of reliability such as increasing or decreasing the vector size of the obtained document vector V ′ ij is performed.
ステップ210では、共通要素Vijを生成した際のドキュメントベクトルVi,Vjを、特徴量記憶部112から削除し、新たに得られたドキュメントベクトルV’ijを特徴量記憶部112に記憶させる。
In
ステップ211では、本実施例のパッセージ分割方法のために、パッセージ更新部108にて、Vi,Vjに対応する二つの文またはパッセージ候補を連結する。一度も連結されていない文は文記憶部110に記憶されている。文が連結された場合、連結前の文を文記憶部110から削除する。パッセージ候補と文が連結された場合、あるいはパッセージ候補同士が連結された場合には、連結前の文の削除のみならず、連結前のパッセージ候補をパッセージ記憶部113から削除する。連結された文またはパッセージ候補は新たなパッセージ候補としてパッセージ記憶部113に記憶する。
In
本実施例のパッセージ分割方法、装置においては、図2のフローにおいて、ステップ204からステップ211を繰り返すことで、目的とするパッセージを作成する。そして、ステップ205において、二つのドキュメントベクトルの最大類似度が所定の閾値未満の場合、パッセージの作成を終了するため、ステップ212を実行する。
In the passage dividing method and apparatus of the present embodiment, the target passage is created by repeating
ステップ212は、出力部109にて実行され、不明パッセージの判定とパッセージの出力を行うステップである。不明パッセージの判定方法の一例として、文またはパッセージ候補の中に含まれる形態素数を調べる方法がある。文またはパッセージ候補の中に含まれる形態素数が少ない場合、ドキュメントベクトルが適切に作成されず、連結が難しい場合がある。よって、スッテプ21において、残された文またはパッセージ候補に含まれる形態素数がある閾値以下の場合、出力部409は、不明パッセージのラベルをつけて出力し、処理フローを終了する。
Step 212 is a step that is executed by the
図3は本実施例において、ドキュメントベクトルの類似度に応じて、文が連結されていく様子を模式的に示した一例である。図2のステップ205における閾値は“10”とする。
一度目の類似度算出結果が301である。結果301の中で最も類似度が高いのは、a2とa3の組の類似度40である。
FIG. 3 is an example schematically showing how sentences are connected according to the similarity of document vectors in this embodiment. The threshold value in
The first similarity calculation result is 301. The highest similarity in the
よってこの組に対して図2のステップ205からステップ211の処理を行い、再度図2のステップ204に戻る。連結された結果をa23と表す。同様に結果302ではb1とb2、結果303ではa1とa23が類似度の最も高い組として選定され、図2のステップ205から図2のステップ211の処理が行われる。閾値を10と設定したので、結果304で選ばれる組はなく、パッセージの作成が完了する。
Therefore, the process from
以上詳述した実施例1によれば、意味の近い文、すなわち、特徴量が似た文を含む複数のパッセージが、一つの文書に含まれる場合でも、複数のパッセージを正しく分割することが可能となり、更には、文書の自動要約や文書検索のための自動キーワード抽出など。 According to the first embodiment described above in detail, even when a plurality of passages including sentences having similar meanings, that is, sentences having similar feature values, are included in one document, the plurality of passages can be correctly divided. Furthermore, automatic summarization of documents and automatic keyword extraction for document retrieval.
実施例2は類似度計算に単語ベクトルを、類似文書検索にも単語ベクトルを用いたパッセージ分割方法、装置、及びプログラムの実施例である。
図4は実施例2に係るパッセージ分割装置の機能ブロック図である。同図のパッセージ分割装置のハードウェア構成も、実施例1の図1Aの装置同様、図1Bに示したコンピュータ等で実現できることは言うまでもなく、ここではハードウェア構成の図示説明を省略する。
The second embodiment is an embodiment of a passage dividing method, apparatus, and program using a word vector for similarity calculation and a word vector for similar document search.
FIG. 4 is a functional block diagram of the passage dividing apparatus according to the second embodiment. It goes without saying that the hardware configuration of the passage dividing apparatus shown in the figure can also be realized by the computer shown in FIG. 1B as in the apparatus shown in FIG. 1A of the first embodiment.
入力部402と、文分割部403と、パッセージ更新部408と、出力部409と、文記憶部410と、特徴量記憶部412と、パッセージ記憶部413と、形態素解析部414とは実施例1の対応するブロックと共通であるので、実施例1と異なる、コーパス部411と、特徴量算出部404と、類似度計算部405と、検索クエリ生成部406と、特徴量更新部407についてのみ説明する。なお、形態素解析部414は特徴量算出部404に接続される。
The
コーパス部411には、例えば新聞記事などのドキュメントの集合やシソーラス、あるいはその両方を用いる。 For the corpus 411, for example, a collection of documents such as newspaper articles, a thesaurus, or both are used.
特徴量算出部404は、文記憶部410から読み込んだ文に対し、形態素解析部414を用いて形態素解析を行い、文を単語ベクトルへ変換する。単語ベクトルの要素数が十分でない場合にはコーパス部411を使用して要素数を増やす方法が有効である。例えばコーパスとしてシソーラスを用いた場合、入力文から得られた各単語をクエリとして類義語を検索し、結果として得られた類義語を単語ベクトルに追加する。またコーパスとしてドキュメントの集合を用いた場合、入力文から得られた単語ベクトルに、コーパス内の各ドキュメントから抽出した単語ベクトルを追加することができる。
The feature
単語ベクトルの要素を追加する方法の他の例として、上位数件のドキュメントからTFIDF等を用いて重要語を抜き出し、単語ベクトルに追加する方法が挙げられる。これに限らず、他の方法で文に関連する単語を得て追加して、単語ベクトルの要素数を十分にしてもよい。そして、得られた単語ベクトルを特徴量記憶部412に記憶する。また検索クエリ生成部406から、制御部401を介して単語ベクトルが特徴量算出部404に与えられた場合も、同様の方法で単語ベクトルの要素数を拡充し、特徴量記憶部112に記憶すると共に、制御部401を介して特徴量更新部407へ単語ベクトルを出力する。
Another example of the method of adding word vector elements is a method of extracting important words from the top several documents using TFIDF or the like and adding them to the word vector. However, the number of elements of the word vector may be sufficient by obtaining and adding words related to the sentence by other methods. Then, the obtained word vector is stored in the feature
本実施例の類似度計算部405は、制御部401の指定に基づいて、二つの単語ベクトルを特徴量記憶部412から読み出し、二つの単語ベクトルの類似度を計算する。類似度の計算方法としては、例えば、上述したコサイン尺度等が挙げられる。
The
本実施例の検索クエリ生成部406は、制御部401の指定に基づいて、二つの単語ベクトルを特徴量記憶部412から読み出し、二つの単語ベクトルに共通する単語群をコーパス411から抽出する。抽出された共通する単語群から単語ベクトルを作成し、制御部401を介して特徴量算出部404に出力する。
The search
特徴量更新部407は、制御部401の指定に基づいて二つの単語ベクトルVi,Vjを特徴量記憶部412から読み出す。また制御部401から一つの単語ベクトルVkが入力される。入力された三つの単語ベクトルVk,Vi,Vjから信頼度を計算し、信頼度に基づいてVkのベクトルサイズを修正する。その後Vi,Vjを特徴量記憶部412から削除し、Vkを特徴量記憶部412に記憶する。
The feature
図5は実施例2に係るプログラムの動作を示した処理フロー図である。実施例1では、類似度計算としてドキュメントベクトルを用いているが、実施例2では上述の通り、単語ベクトルを用いており、その点が実施例1と異なるが、それ以外の動作は実施例1と同様である。 FIG. 5 is a processing flowchart illustrating the operation of the program according to the second embodiment. In the first embodiment, a document vector is used for similarity calculation. In the second embodiment, as described above, a word vector is used, which differs from that in the first embodiment, but the other operations are the same as in the first embodiment. It is the same.
実施例2によれば、意味の近い文、即ち、特徴量が似た文を含む複数のパッセージが、一つの文書に含まれる場合でも、パッセージを正しく分割することが可能となる。 According to the second embodiment, even when a plurality of passages including sentences having similar meanings, that is, sentences having similar feature amounts, are included in one document, the passages can be correctly divided.
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 In addition, this invention is not limited to an above-described Example, Various modifications are included. For example, the above-described embodiments have been described in detail in order to explain the present invention in an easy-to-understand manner, and are not necessarily limited to those having all the configurations described. Moreover, it is possible to add the structure of another Example to the structure of a certain Example. Further, it is possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.
上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、それぞれの機能を実現するプログラムを実行することによりソフトウェアで実現する場合を例示して説明したが、各機能を実現するプログラム、テーブル、ファイル等の情報はメモリのみならず、ハードディスク、SSD(Solid State DriVe)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体におくことができるし、必要に応じてネットワーク等を介してダウンロード、インストールすることも可能である。 Each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit. In addition, each configuration, function, and the like have been described by exemplifying a case where they are realized by software by executing a program that realizes each function. However, information on programs, tables, files, and the like that realize each function It can be stored not only in memory but also in storage devices such as hard disks and SSDs (Solid State DriVe), or recording media such as IC cards, SD cards, and DVDs, and can be downloaded and installed via a network or the like as necessary. It is also possible to do.
11 CPU
12 記憶部
13 入出力部
14 通信部
100、400 パッセージ分割装置
101、401 制御部
102、402 入力部
103、403 文分割部
104、404 特徴量算出部
105、405 類似度計算部
106、406 検索クエリ生成部
107、407 特徴量更新部
108、408 パッセージ更新部
109、409 出力部
110、410 文記憶部
111、411 コーパス部
112、412 特徴量記憶部
113、413 パッセージ記憶部
114、414 形態素解析部
11 CPU
12
Claims (15)
前記処理部は、
前記ドキュメントを文単位に分割し、
分割した前記文をクエリとして、予め記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、
作成した前記特徴量の内の二つの特徴量の類似度が所定の閾値以上である、当該二つの特徴量の共通要素を用いて特徴量を更新する、
ことを特徴とするパッセージ分割方法。 A passage dividing method for dividing a document into passages by a processing unit,
The processor is
Dividing the document into sentence units,
Using the divided sentence as a query, extracting a related document from a plurality of previously stored documents, creating a feature amount,
Updating the feature amount using a common element of the two feature amounts, wherein the similarity between the two feature amounts of the created feature amounts is equal to or greater than a predetermined threshold;
A passage dividing method characterized by the above.
前記処理部は、
前記特徴量として、ドキュメントベクトルを用いる、
ことを特徴とするパッセージ分割方法。 The passage dividing method according to claim 1,
The processor is
A document vector is used as the feature amount.
A passage dividing method characterized by the above.
前記処理部は、
前記二つの特徴量である、二つのドキュメントベクトルVi,Vjの類似度が所定の閾値以上である場合、二つの前記ドキュメントベクトルVi,Vjの共通要素Vijを抜き出し、検索クエリを生成する、
ことを特徴とするパッセージ分割方法。 The passage dividing method according to claim 2,
The processor is
When the similarity between two document vectors V i and V j which are the two feature quantities is equal to or greater than a predetermined threshold, a common element V ij of the two document vectors V i and V j is extracted and a search query is obtained. Generate,
A passage dividing method characterized by the above.
前記処理部は、
生成した前記検索クエリを用いて、新たなドキュメントベクトルV’ijを得る、
ことを特徴とするパッセージ分割方法。 The passage dividing method according to claim 3,
The processor is
A new document vector V ′ ij is obtained using the generated search query.
A passage dividing method characterized by the above.
前記処理部は、
前記新たなドキュメントベクトルV’ijが、前記共通要素Vijの要素を含む度合いに対応して、前記新たなドキュメントベクトルV’ijのベクトルサイズを修正する、
ことを特徴とするパッセージ分割方法。 It is the passage division | segmentation method of Claim 4, Comprising:
The processor is
The new document vector V 'ij is the corresponding to the degree that contains the elements of the common elements V ij, the new document vector V' to modify the vector size ij,
A passage dividing method characterized by the above.
前記処理部は、
前記新たなドキュメントベクトルV’ijに対応する前記文、あるいはパッセージ候補を連結して、新たなパッセージ候補とする、
ことを特徴とするパッセージ分割方法。 It is the passage division | segmentation method of Claim 4, Comprising:
The processor is
Concatenating the sentence or passage candidate corresponding to the new document vector V ′ ij into a new passage candidate;
A passage dividing method characterized by the above.
前記処理部は、
前記特徴量として、単語ベクトルを用いる、
ことを特徴とするパッセージ分割方法。 The passage dividing method according to claim 1,
The processor is
A word vector is used as the feature amount.
A passage dividing method characterized by the above.
前記二つの特徴量である、二つの単語ベクトルVi,Vjの類似度が所定の閾値以上である場合、二つの前記単語ベクトルVi,Vjの共通要素Vijを抜き出し、検索クエリを生成し、
生成した前記検索クエリを用いて、新たな単語ベクトルV’ijを得る、
ことを特徴とするパッセージ分割方法。 It is the passage division | segmentation method of Claim 7, Comprising:
When the similarity between the two word vectors V i and V j that are the two feature quantities is equal to or greater than a predetermined threshold, a common element V ij of the two word vectors V i and V j is extracted, and a search query is obtained. Generate
A new word vector V ′ ij is obtained using the generated search query.
A passage dividing method characterized by the above.
前記処理部は、
前記新たな単語ベクトルV’ijが、前記共通要素Vijの要素を含む度合いに対応して、前記新たな単語ベクトルV’ijのベクトルサイズを修正する、
ことを特徴とするパッセージ分割方法。 The passage dividing method according to claim 8,
The processor is
The new word vector V 'ij is, in response to the degree that contains the elements of the common element V ij, the new word vector V' to modify the vector size ij,
A passage dividing method characterized by the above.
前記処理部は、
前記新たな単語ベクトルV’ijに対応する前記文、あるいはパッセージ候補を連結して、新たなパッセージ候補とする、
ことを特徴とするパッセージ分割方法。 It is the passage division | segmentation method of Claim 9, Comprising:
The processor is
Concatenating the sentence or passage candidate corresponding to the new word vector V ′ ij into a new passage candidate;
A passage dividing method characterized by the above.
処理部と記憶部とを備え、
前記処理部は、
前記ドキュメントを文単位に分割し、
分割した前記文をクエリとして、予め前記記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、
作成した前記特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新する、
ことを特徴とするパッセージ分割装置。 A passage dividing device for dividing an input document into passages,
A processing unit and a storage unit;
The processor is
Dividing the document into sentence units,
Using the divided sentence as a query, extracting a related document from a plurality of documents stored in the storage unit in advance, creating a feature amount,
Updating the feature value using a common element of the feature value, wherein two similarities of the created feature values are equal to or greater than a predetermined threshold;
Passage dividing apparatus characterized by the above.
前記処理部は、
前記特徴量として、関連する前記ドキュメントに基づく、ドキュメントベクトルあるいは単語ベクトルを用いる、
ことを特徴とするパッセージ分割装置。 The passage dividing apparatus according to claim 11,
The processor is
As the feature amount, a document vector or a word vector based on the related document is used.
Passage dividing apparatus characterized by the above.
前記処理部は、
前記二つの特徴量である、二つのドキュメントベクトル、或いは単語ベクトルVi,Vjの類似度が所定の閾値以上である場合、二つの前記ドキュメントベクトル、或いは単語ベクトルVi,Vjの共通要素Vijを抜き出し、検索クエリを生成し、
生成した前記検索クエリを用いて、新たなドキュメントベクトル、或いは単語ベクトルV’ijを得、
前記新たなドキュメントベクトル、或いは単語ベクトルV’ijが、前記共通要素Vijの要素を含む度合いに対応して、前記新たなドキュメントベクトル、或いは単語ベクトルV’ijのベクトルサイズを修正する、
ことを特徴とするパッセージ分割装置。 The passage dividing apparatus according to claim 12, wherein
The processor is
When the similarity between two document vectors or word vectors V i and V j that are the two feature quantities is equal to or greater than a predetermined threshold, the common elements of the two document vectors or word vectors V i and V j Extract V ij , generate a search query,
A new document vector or word vector V ′ ij is obtained using the generated search query,
The new document vector, or word vector V 'is ij, the common element in response to the degree that contains the elements of V ij, the new document vector, or word vector V' to modify the vector size ij,
Passage dividing apparatus characterized by the above.
前記処理部は、
前記新たなドキュメントベクトルV’ijに対応する前記文、あるいはパッセージ候補を連結し、新たに連結されたパッセージ候補を前記記憶部に記憶する、
ことを特徴とするパッセージ分割装置。 The passage dividing apparatus according to claim 13,
The processor is
Concatenating the sentence or passage candidate corresponding to the new document vector V ′ ij and storing the newly connected passage candidate in the storage unit;
Passage dividing apparatus characterized by the above.
前記処理部を、
前記ドキュメントを文単位に分割し、
分割した前記文をクエリとして、予め前記記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出し、
抽出した前記関連するドキュメントを用いて特徴量を作成し、
作成した前記特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新する、
よう動作させる、
ことを特徴とするパッセージ分割プログラム。 A passage dividing program that includes a processing unit and a storage unit, and that is executed by a processing unit of a passage dividing device that divides a passage of an input document,
The processing unit is
Dividing the document into sentence units,
Using the divided sentences as queries, extracting related documents from a plurality of documents stored in the storage unit in advance,
Create a feature using the extracted related document,
Updating the feature value using a common element of the feature value, wherein two similarities of the created feature values are equal to or greater than a predetermined threshold;
Make it work,
A passage dividing program characterized by that.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012095344A JP5869948B2 (en) | 2012-04-19 | 2012-04-19 | Passage dividing method, apparatus, and program |
CN201210548190.1A CN103377187B (en) | 2012-04-19 | 2012-12-17 | Paragraph segmentation and paragraph segmentation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012095344A JP5869948B2 (en) | 2012-04-19 | 2012-04-19 | Passage dividing method, apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013222418A true JP2013222418A (en) | 2013-10-28 |
JP5869948B2 JP5869948B2 (en) | 2016-02-24 |
Family
ID=49462320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012095344A Expired - Fee Related JP5869948B2 (en) | 2012-04-19 | 2012-04-19 | Passage dividing method, apparatus, and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5869948B2 (en) |
CN (1) | CN103377187B (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649762A (en) * | 2016-12-27 | 2017-05-10 | 竹间智能科技(上海)有限公司 | Intention recognition method and system based on inquiry question and feedback information |
CN108009151A (en) * | 2017-11-29 | 2018-05-08 | 深圳中泓在线股份有限公司 | Newsletter archive automatic segmentation method and apparatus, server and readable storage medium storing program for executing |
JP2018124914A (en) * | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | Passage type questioning and answering device, method, and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948518B (en) * | 2019-03-18 | 2023-06-09 | 武汉汉王大数据技术有限公司 | Neural network-based PDF document content text paragraph aggregation method |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145790A (en) * | 2002-10-28 | 2004-05-20 | Advanced Telecommunication Research Institute International | Segmentation method of document and computer program therefor |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003288362A (en) * | 2002-03-27 | 2003-10-10 | Seiko Epson Corp | Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method |
JP2004164036A (en) * | 2002-11-08 | 2004-06-10 | Hewlett Packard Co <Hp> | Method for evaluating commonality of document |
CN101231634B (en) * | 2007-12-29 | 2011-05-04 | 中国科学院计算技术研究所 | Autoabstract method for multi-document |
CN101620596B (en) * | 2008-06-30 | 2012-02-15 | 东北大学 | Multi-document auto-abstracting method facing to inquiry |
CN102004724B (en) * | 2010-12-23 | 2012-06-20 | 哈尔滨工业大学 | Document paragraph segmenting method |
-
2012
- 2012-04-19 JP JP2012095344A patent/JP5869948B2/en not_active Expired - Fee Related
- 2012-12-17 CN CN201210548190.1A patent/CN103377187B/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145790A (en) * | 2002-10-28 | 2004-05-20 | Advanced Telecommunication Research Institute International | Segmentation method of document and computer program therefor |
Non-Patent Citations (1)
Title |
---|
JPN6015040262; 望月源、外2名: '語彙的連鎖に基づくパッセージ検索' 自然言語処理 第6巻,第3号, 19990410, pp.101〜126, 言語処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649762A (en) * | 2016-12-27 | 2017-05-10 | 竹间智能科技(上海)有限公司 | Intention recognition method and system based on inquiry question and feedback information |
JP2018124914A (en) * | 2017-02-03 | 2018-08-09 | 日本電信電話株式会社 | Passage type questioning and answering device, method, and program |
CN108009151A (en) * | 2017-11-29 | 2018-05-08 | 深圳中泓在线股份有限公司 | Newsletter archive automatic segmentation method and apparatus, server and readable storage medium storing program for executing |
Also Published As
Publication number | Publication date |
---|---|
JP5869948B2 (en) | 2016-02-24 |
CN103377187A (en) | 2013-10-30 |
CN103377187B (en) | 2016-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8775442B2 (en) | Semantic search using a single-source semantic model | |
JP5116775B2 (en) | Information retrieval method and apparatus, program, and computer-readable recording medium | |
Deshpande et al. | Text summarization using clustering technique | |
JP5216063B2 (en) | Method and apparatus for determining categories of unregistered words | |
KR101828995B1 (en) | Method and Apparatus for clustering keywords | |
CN107844493B (en) | File association method and system | |
KR101651780B1 (en) | Method and system for extracting association words exploiting big data processing technologies | |
KR102059743B1 (en) | Method and system for providing biomedical passage retrieval using deep-learning based knowledge structure construction | |
JP5869948B2 (en) | Passage dividing method, apparatus, and program | |
JP2009217689A (en) | Information processor, information processing method, and program | |
JP5497105B2 (en) | Document retrieval apparatus and method | |
JP7388256B2 (en) | Information processing device and information processing method | |
JP5362807B2 (en) | Document ranking method and apparatus | |
JP2017068742A (en) | Relevant document retrieval device, model creation device, method and program therefor | |
CN113449063B (en) | Method and device for constructing document structure information retrieval library | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
KR102519955B1 (en) | Apparatus and method for extracting of topic keyword | |
TWI636370B (en) | Establishing chart indexing method and computer program product by text information | |
Wu et al. | A new approach to query segmentation for relevance ranking in web search | |
WO2022130579A1 (en) | Similarity determination program, similarity determination device, and similarity determination method | |
Ren et al. | Role-explicit query extraction and utilization for quantifying user intents | |
JP2011159100A (en) | Successive similar document retrieval apparatus, successive similar document retrieval method and program | |
JP5199968B2 (en) | Keyword type determination device, keyword type determination method, and keyword type determination program | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model | |
WO2013150633A1 (en) | Document processing system and document processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140908 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151006 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5869948 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |