JP2013222418A - Passage division method, device and program - Google Patents

Passage division method, device and program Download PDF

Info

Publication number
JP2013222418A
JP2013222418A JP2012095344A JP2012095344A JP2013222418A JP 2013222418 A JP2013222418 A JP 2013222418A JP 2012095344 A JP2012095344 A JP 2012095344A JP 2012095344 A JP2012095344 A JP 2012095344A JP 2013222418 A JP2013222418 A JP 2013222418A
Authority
JP
Japan
Prior art keywords
passage
document
vector
unit
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012095344A
Other languages
Japanese (ja)
Other versions
JP5869948B2 (en
Inventor
Yasuki Kakishita
容弓 柿下
Hideharu Hattori
英春 服部
Tomokazu Murakami
智一 村上
Osamu Konichi
修 今一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2012095344A priority Critical patent/JP5869948B2/en
Priority to CN201210548190.1A priority patent/CN103377187B/en
Publication of JP2013222418A publication Critical patent/JP2013222418A/en
Application granted granted Critical
Publication of JP5869948B2 publication Critical patent/JP5869948B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To solve such a problem that in the conventional method, it is difficult to correctly divide a passage when a plurality of passages containing sentences with kindred meaning and similar feature quantity are included in one document.SOLUTION: A passage division device 100, under control of a control unit 101, divides a document input from an input unit 102 into sentence units at a sentence division unit 103. A feature quantity calculation unit 104, with the divided sentence as a query, performs associative retrieval of a document which is stored beforehand in a corpus unit 111 and acquires a document vector. A similarity calculation unit 105 retrieves two document vectors whose similarity becomes maximum, and when the similarity is equal to or larger than a prescribed threshold, a retrieval query generation unit 106 consolidates the two sentences to generate a query as a common element. The feature quantity calculation unit 104 regenerates a document vector by using this query. A feature quantity update unit 107 updates the feature quantity on the basis of its reliability, and connects corresponding sentences sequentially to make a passage while updating the feature quantity.

Description

本発明は、電子化された文書の処理に係り、特に電子化書類のパセージ分割技術に関する。   The present invention relates to processing of an electronic document, and more particularly to a passage dividing technique for an electronic document.

近年、文書の電子化やデータベース化が進んだことで、自然言語処理技術も大きく発展し、例えば文書の自動要約や文書検索のための自動キーワード抽出などの研究が多くなされてきた。しかしこれらの技術の対象となる文書はパッセージ毎、すなわち、話題、あるいは内容的、意味的なまとまり単位毎に分割されている、または単一のパッセージしか含まない文書を想定していることが多い。そのため、複数のパッセージを含む文書に対しては、予めパッセージを分割することが有効である。従来、このようなパッセージ分割手法としては、特許文献1や特許文献2に記載のテキストセグメンテーション手法等が知られている。   In recent years, with the progress of computerization of documents and creation of databases, natural language processing technology has greatly developed. For example, much research has been conducted on automatic summarization of documents and automatic keyword extraction for document retrieval. However, it is often assumed that the documents covered by these technologies are passages, that is, documents that are divided into topics, that is, divided into topical or content and semantic units, or that contain only a single passage. . Therefore, for a document including a plurality of passages, dividing the passages in advance is effective. Conventionally, as such a passage division method, a text segmentation method described in Patent Literature 1 and Patent Literature 2 is known.

特開2009−15795号公報JP 2009-15595 A 特開2004−145790号公報JP 2004-145790 A

しかし、従来のパッセージ分割、テキストセグメンテーションに関する手法は意味の近い文、すなわちその特徴量が似た文を含む複数のパッセージが、一つの文書に含まれる場合、パッセージを正しく分割することが難しい。その結果、文書の自動要約や文書検索のための自動キーワード抽出などを効率的に進めることができない。   However, in the conventional methods for dividing passages and text segmentation, it is difficult to correctly divide passages when a plurality of passages including sentences having similar meanings, that is, sentences having similar features, are included in one document. As a result, automatic summarization of documents and automatic keyword extraction for document retrieval cannot be efficiently advanced.

本発明の目的は、上記課題に鑑みてなされたものであり、複数のパッセージを含む文書を有効に分割するパッセージ分割方法、装置、及びプログラムを提供することにある。   An object of the present invention is to provide a passage dividing method, apparatus, and program for effectively dividing a document including a plurality of passages.

上記の目的を達成するため、本発明においては、処理部により、ドキュメントをパッセージに分割するパッセージ分割方法であって、処理部は、ドキュメントを文単位に分割し、分割した文をクエリとして、予め記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、作成した特徴量の内の二つの特徴量の類似度が所定の閾値以上である、当該二つの特徴量の共通要素を用いて特徴量を更新するパッセージ分割方法を提供する。   In order to achieve the above object, the present invention provides a passage dividing method in which a processing unit divides a document into passages. The processing unit divides the document into sentence units, and uses the divided sentences as queries. A related document is extracted from a plurality of stored documents to create a feature quantity, and the two feature quantities in the created feature quantities have a similarity equal to or greater than a predetermined threshold. There is provided a passage dividing method for updating feature amounts using the common elements.

又、上記の目的を達成するため、本発明においては、入力されるドキュメントをパッセージに分割するパッセージ分割装置であって、処理部と記憶部とを備え、処理部は、ドキュメントを文単位に分割し、分割、記憶した文をクエリとして、予め記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、作成した特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新する構成のパッセージ分割装置を提供する。   In order to achieve the above object, according to the present invention, there is provided a passage dividing apparatus for dividing an input document into passages, comprising a processing unit and a storage unit, and the processing unit divides the document into sentence units. Then, using the divided and stored sentences as queries, extracting related documents from a plurality of documents stored in the storage unit in advance, creating feature amounts, and the two similarities of the created feature amounts are Provided is a passage dividing device configured to update a feature amount using a common element of the feature amount that is equal to or greater than a predetermined threshold.

更に、上記の目的を達成するため、本発明においては、処理部と記憶部とを備え、入力されるドキュメントをパッセージに分割するパッセージ分割装置の処理部で実行されるパッセージ分割プログラムであって、処理部を、ドキュメントを文単位に分割し、分割した文をクエリとして、予め記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出し、抽出した関連するドキュメントを用いて特徴量を作成し、作成した特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新するよう動作させるパッセージ分割プログラムを提供する。   Furthermore, in order to achieve the above object, in the present invention, there is provided a passage dividing program executed by a processing unit of a passage dividing apparatus that includes a processing unit and a storage unit and divides an input document into passages, The processing unit divides the document into sentence units, uses the divided sentence as a query, extracts related documents from a plurality of documents stored in the storage unit in advance, and uses the extracted related documents to determine the feature amount. Provided is a passage dividing program that is operated so as to update a feature quantity using a common element of the feature quantities, in which two similarities of the created feature quantities are equal to or greater than a predetermined threshold.

本発明によれば、意味の近い文、すなわち特徴量が似た文を含む、複数のパッセージが一つの文書に含まれる場合でも、パッセージを正しく分割することが可能となる。   According to the present invention, even when a plurality of passages including sentences having similar meanings, that is, sentences having similar feature quantities, are included in one document, the passages can be correctly divided.

第1の実施例のパッセージ分割装置の一機能構成を示す図である。It is a figure which shows one function structure of the passage division | segmentation apparatus of 1st Example. 第1の実施例のパッセージ分割装置の一ハードウェア構成を示す図である。It is a figure which shows one hardware constitutions of the passage division | segmentation apparatus of a 1st Example. 第1の実施例に係る、パッセージ分割プログラムの動作の一例を示す図である。It is a figure which shows an example of operation | movement of the passage division | segmentation program based on 1st Example. 第1の実施例に係る、ドキュメントベクトルの類似度に応じて文が連結される様子を示す図である。It is a figure which shows a mode that a sentence is connected according to the similarity of a document vector based on a 1st Example. 第2の実施例のパッセージ分割装置の一機能構成を示す図である。It is a figure which shows one function structure of the passage division | segmentation apparatus of a 2nd Example. 第2の実施例に係る、パッセージ分割プログラムの動作の一例を示す図である。It is a figure which shows an example of operation | movement of the passage division | segmentation program based on 2nd Example. 各実施例に係る、ドキュメントベクトルの一例を説明するための図である。It is a figure for demonstrating an example of a document vector based on each Example. 各実施例に係る、単語ベクトルの一例を説明するための図である。It is a figure for demonstrating an example of a word vector based on each Example.

以下、本発明の実施例を図面に従い説明するが、本発明は以下に説明する実施例に限定されるものではない。本明細書において、「文書」と「ドキュメント」とは、同義であることとする。また、「パッセージ」とは、話題、あるいは内容的、意味的なまとまりのある単位を意味する。更に、ドキュメントベクトルとは、蓄積されたドキュメントを次元とするベクトルを意味し、単語ベクトルとは、全ドキュメント中に出現する全ての単語を次元とするベクトルを意味するものとする。そして、本明細書において、文の「特徴量」とは、文の意味を定量的に示すものであり、例えば、ドキュメントベクトル、あるいは単語ベクトルはその一例として説明する。   Examples of the present invention will be described below with reference to the drawings. However, the present invention is not limited to the examples described below. In this specification, “document” and “document” are synonymous. The “passage” means a unit having a topic or content and semantic unit. Further, a document vector means a vector whose dimension is an accumulated document, and a word vector means a vector whose dimension is all words appearing in all documents. In this specification, the “feature amount” of a sentence quantitatively indicates the meaning of the sentence. For example, a document vector or a word vector will be described as an example.

第1の実施例は、類似度計算にドキュメントベクトルを、類似文書検索に単語ベクトルを用いるパッセージ分割方法、装置、及びプログラムの実施例である。本実施例において、ドキュメントベクトルとは、分割装置のコーパス部に含まれる全てのドキュメントを次元とするベクトルである。   The first embodiment is an embodiment of a passage dividing method, apparatus, and program that uses a document vector for similarity calculation and a word vector for similar document search. In this embodiment, the document vector is a vector whose dimensions are all documents included in the corpus unit of the dividing device.

本実施例の詳細を説明するに先立ち、ドキュメントベクトルと単語ベクトルの一例を説明する。
図6にドキュメントベクトルの一例を示す。図6において、コーパス部に含まれるドキュメントの総数を10として例示した。そして、検索の結果得られるドキュメントが、1、3、4、8である場合、ドキュメントベクトルは、同図の(a)に示すドキュメントベクトル601ように表わすことができる。同様に、検索の結果、検索スコアが得られる場合、得られた検索スコアを用いて、同図の(b)に示すようなドキュメントベクトル602として表わすことができる。
Prior to describing the details of this embodiment, an example of a document vector and a word vector will be described.
FIG. 6 shows an example of a document vector. In FIG. 6, the total number of documents included in the corpus is illustrated as 10. When the documents obtained as a result of the search are 1, 3, 4, and 8, the document vector can be expressed as a document vector 601 shown in FIG. Similarly, when a search score is obtained as a result of the search, the obtained search score can be used to represent a document vector 602 as shown in FIG.

図7に単語ベクトルの一例を示した。単語ベクトルとは、全文書中に出現する全ての単語を次元とするベクトルであり、図7の単語ベクトルでは、全てのドキュメントに出現する単語の種類を10として例示した。そして、あるドキュメントに含まれる単語が、3、6、7、8であり、出願頻度がそれぞれ、1、5、3、9である場合、該当する要素に出現頻度を代入することで、同図に示す単語ベクトル701を得る。   FIG. 7 shows an example of a word vector. The word vector is a vector whose dimensions are all words appearing in all documents. In the word vector of FIG. 7, the types of words appearing in all documents are exemplified as 10. Then, if the words included in a document are 3, 6, 7, and 8 and the application frequencies are 1, 5, 3, and 9, respectively, the appearance frequency is substituted into the corresponding element, so that A word vector 701 shown in FIG.

図1Aは、実施例1に係るパッセージ分割装置の機能ブロックの一例を示す図である。図1Bは、実施例1のパッセージ分割装置を実現するハードウェア構成の一例を示す図である。図1Bのハードウェア構成は、通常の処理部である中央処理部(Central Processing Unit:CPU)11、メモリ、RAM、ROM、ハードディスクドライブ(HDD)、記憶装置等の記憶部12、入出力部13、ネットワークインタフェースである通信部14からなり、これらの各ブロックは、内部バス15によって相互に接続されているコンピュータを示している。   FIG. 1A is a diagram illustrating an example of functional blocks of the passage dividing apparatus according to the first embodiment. FIG. 1B is a diagram illustrating an example of a hardware configuration that implements the passage dividing apparatus according to the first embodiment. 1B includes a central processing unit (CPU) 11 that is a normal processing unit, a memory, a RAM, a ROM, a hard disk drive (HDD), a storage unit 12 such as a storage device, and an input / output unit 13. The communication unit 14 is a network interface, and each of these blocks represents a computer connected to each other by an internal bus 15.

図1Aにおいて、パッセージ分割装置100は、制御部101と、入力部102と、文分割部103と、特徴量算出部104と、類似度計算部105と、検索クエリ生成部106と、特徴量更新部107と、パッセージ更新部108と、出力部109と、文記憶部110と、コーパス部111と、特徴量記憶部112と、パッセージ記憶部113と、形態素解析部114とを有する。前提として、コーパス部111には、例えば新聞記事のような文書、ドキュメントがS個記憶されているものとする。 1A, a passage dividing apparatus 100 includes a control unit 101, an input unit 102, a sentence dividing unit 103, a feature amount calculating unit 104, a similarity calculating unit 105, a search query generating unit 106, and a feature amount updating. Unit 107, passage update unit 108, output unit 109, sentence storage unit 110, corpus unit 111, feature amount storage unit 112, passage storage unit 113, and morpheme analysis unit 114. As a premise, it is assumed that the corpus unit 111 stores, for example, a document such as a newspaper article and SD documents.

この内、入力部102、出力部109が入出力部13や通信部14に対応し、文記憶部110と、コーパス部111と、特徴量記憶部112と、パッセージ記憶部113が記憶部12のメモリや記憶装置に対応している。その余の制御部101、文分割部103と、特徴量算出部104と、類似度計算部105と、検索クエリ生成部106と、特徴量更新部107と、パッセージ更新部108と、形態素解析部114は、CPU11における、オペレーティングシステム(OS)や、ROM等の記憶部に記憶された各種のプログラムの処理で実現できる。   Among them, the input unit 102 and the output unit 109 correspond to the input / output unit 13 and the communication unit 14, and the sentence storage unit 110, the corpus unit 111, the feature amount storage unit 112, and the passage storage unit 113 are stored in the storage unit 12. Supports memory and storage devices. The remaining control unit 101, sentence division unit 103, feature amount calculation unit 104, similarity calculation unit 105, search query generation unit 106, feature amount update unit 107, passage update unit 108, and morpheme analysis unit 114 can be realized by processing of various programs stored in a storage unit such as an operating system (OS) or a ROM in the CPU 11.

図1Aに示した実施例1のパッセージ分割装置の各機能ブロックの動きを順次説明する。
まず、パッセージ分割の対象となるドキュメントが入力部102から装置に入力される。文分割部103は、処理部であるCPU11の所定プログラムの実行により、入力されたドキュメントを文単位に分割し、文記憶部110に分割結果である複数の文を記憶する。
The movement of each functional block of the passage dividing apparatus according to the first embodiment shown in FIG.
First, a document to be subjected to passage division is input from the input unit 102 to the apparatus. The sentence dividing unit 103 divides the input document into sentence units by executing a predetermined program of the CPU 11 which is a processing unit, and stores a plurality of sentences as division results in the sentence storage unit 110.

同様に、特徴量算出部104は、文記憶部110から読み込んだ文各々を用いて、コーパス部111から関連するドキュメントを取得し、得られた複数の関連ドキュメントを、ドキュメントベクトル化して特徴量記憶部112に記憶する。すなわち、特徴量算出部104は、取得した関連ドキュメントに対応する次元に値を代入することで、図6で例示したようなドキュメントベクトルを生成する。   Similarly, the feature amount calculation unit 104 acquires a related document from the corpus unit 111 using each of the sentences read from the sentence storage unit 110, converts the obtained plurality of related documents into a document vector, and stores the feature amount. Store in the unit 112. That is, the feature amount calculation unit 104 generates a document vector as illustrated in FIG. 6 by substituting a value into a dimension corresponding to the acquired related document.

検索クエリ生成部106は、検索クエリを生成し、制御部101に送る機能を持つ。   The search query generation unit 106 has a function of generating a search query and sending it to the control unit 101.

特徴量算出部104は、制御部101を介して、検索クエリが与えられた場合、当該検索クエリに関連するドキュメントを文記憶部110から取得し、得られた複数の関連ドキュメントをドキュメントベクトル化し、特徴量として、特徴量記憶部に112に記憶すると共に、制御部101を介して、特徴量更新部107に出力する。   When a search query is given via the control unit 101, the feature amount calculation unit 104 acquires a document related to the search query from the sentence storage unit 110, converts the obtained plurality of related documents into a document vector, As a feature value, the feature value is stored in the feature value storage unit 112 and output to the feature value update unit 107 via the control unit 101.

類似度計算部105は、制御部101の指定に基づいて、二つのドキュメントベクトルを特徴量記憶部112から読み出し、二つのドキュメントベクトルの類似度を計算する機能を有する。本実施例における類似度の計算方法については後述する。更に、類似度計算部105は、計算して得られた類似度が所定の閾値以上か否かを判断する。   The similarity calculation unit 105 has a function of reading two document vectors from the feature amount storage unit 112 based on the designation of the control unit 101 and calculating the similarity of the two document vectors. A method for calculating similarity in this embodiment will be described later. Further, the similarity calculation unit 105 determines whether or not the similarity obtained by the calculation is equal to or greater than a predetermined threshold value.

検索クエリ生成部106は、制御部101の指定に基づいて、二つのドキュメントベクトルを特徴量記憶部112から読み出し、二つのドキュメントベクトルに共通するドキュメント群をコーパス部111から抽出する。抽出された共通するドキュメント群から検索クエリを生成し、制御部101へ出力する。この検索クエリの生成方法については後述する。   The search query generation unit 106 reads two document vectors from the feature amount storage unit 112 based on the designation of the control unit 101, and extracts a document group common to the two document vectors from the corpus unit 111. A search query is generated from the extracted common document group and output to the control unit 101. A method for generating this search query will be described later.

特徴量更新部107は、制御部101の指定に基づいて二つのドキュメントベクトルV,Vを特徴量記憶部112から読み出す。また制御部101から一つのドキュメントベクトルVが特徴量更新部107に入力される。入力された三つのドキュメントベクトルV,V,Vから信頼度を計算し、信頼度に基づいてVを修正する。この信頼度については後述する。その後、V,Vを特徴量記憶部112から削除し、Vを特徴量記憶部112に記憶する。 The feature amount update unit 107 reads two document vectors V i and V j from the feature amount storage unit 112 based on the designation of the control unit 101. Also, one document vector V k is input from the control unit 101 to the feature amount update unit 107. The reliability is calculated from the three input document vectors V k , V i and V j , and V k is corrected based on the reliability. This reliability will be described later. Thereafter, V i and V j are deleted from the feature amount storage unit 112, and V k is stored in the feature amount storage unit 112.

パッセージ更新部108は、制御部101の指定に基づいて、文記憶部110またはパッセージ記憶部113の中から二つの文またはパッセージ候補を読み出す。読み出された文またはパッセージ候補を文記憶部110またはパッセージ記憶部113の中から削除し、読み出された文またはパッセージ候補を連結して、その連結結果を、パッセージ候補としてパッセージ記憶部113に記憶する。   The passage update unit 108 reads out two sentences or passage candidates from the sentence storage unit 110 or the passage storage unit 113 based on the designation of the control unit 101. The read sentence or passage candidate is deleted from the sentence storage unit 110 or the passage storage unit 113, the read sentence or passage candidate is connected, and the connection result is stored in the passage storage unit 113 as a passage candidate. Remember.

出力部109は文記憶部110とパッセージ記憶部113からそれぞれ文、パッセージ候補を読み出し、不明パッセージか否かを判定した上で、その判定結果に基づき、パッセージにラベルを付与して出力する。ここで不明パッセージとは、どのパッセージと連結するか判定できなかった文またはパッセージ候補を指す。不明パッセージの判定方法については後述する。   The output unit 109 reads a sentence and a passage candidate from the sentence storage unit 110 and the passage storage unit 113, determines whether the passage is an unknown passage, and outputs a label with a label based on the determination result. Here, the unknown passage refers to a sentence or a passage candidate that cannot be determined as to which passage to connect. A method for determining the unknown passage will be described later.

図2は本実施例に係るパッセージ分割装置で実行されるパッセージ分割プログラムの動作を示すフロー図である。以下、図2を用いてパッセージ分割プログラムの動作の一例について説明する。
ここでは例として、二つのパッセージを含むドキュメントが入力された場合について述べるが、入力されるドキュメント中のパッセージ数は二つ以上であっても良く、以後の処理は同じであるので、二つのパッセージを含むドキュメントを例にして説明する。
FIG. 2 is a flowchart showing the operation of the passage dividing program executed by the passage dividing apparatus according to this embodiment. Hereinafter, an example of the operation of the passage dividing program will be described with reference to FIG.
Here, as an example, the case where a document including two passages is input will be described. However, the number of passages in the input document may be two or more, and the subsequent processing is the same. An example of a document including

第一のパッセージに含まれる文をa,a,…,a、第二のパッセージに含まれる文をb,b,…,bと定義する。ここでNは第一のパッセージに含まれる文の数(自然数)、Mは第二のパッセージに含まれる文の数(自然数)である。 A 1, a 2 statements contained in the first passage, ..., a N, the statements contained in the second passage b 1, b 2, ..., is defined as b M. Here, N is the number of sentences (natural number) included in the first passage, and M is the number of sentences (natural number) included in the second passage.

まず、ステップ201で入力部102からドキュメントが入力される。
ステップ202では入力されたドキュメントが、文分割部103により文単位に分割され、文記憶部110に記憶される。
First, in step 201, a document is input from the input unit 102.
In step 202, the input document is divided into sentence units by the sentence dividing unit 103 and stored in the sentence storage unit 110.

ステップ203では文記憶部110に記憶された全ての文a,a,…,a、b,b,…,bを特徴量算出部104に入力し、先に説明した通り、ドキュメントベクトルを得る。ドキュメントベクトルの算出方法としては、例えば、コサイン尺度を用いる方法が挙げられる。コサイン尺度とは二つのベクトルの類似度を計る手法の一つとして用いられるものである。二つのベクトルQ、Pのコサイン尺度は以下の式1で計算される。 In step 203, all the sentences a 1 , a 2 ,..., A N , b 1 , b 2 ,..., B M stored in the sentence storage unit 110 are input to the feature quantity calculation unit 104, as described above. Get the document vector. As a method for calculating the document vector, for example, a method using a cosine scale can be cited. The cosine scale is used as one of methods for measuring the similarity between two vectors. The cosine measure of the two vectors Q and P is calculated by Equation 1 below.

Figure 2013222418
本実施例においては、上述の通り、類似するドキュメントの検索に単語ベクトルを用いる。そこで、例えば、コーパス部111に記憶された各ドキュメントに対して、含まれる単語の出現頻度を要素とする単語ベクトルW(0≦i<S)を作成しておく。入力された文についても同様に単語ベクトル化し、Wcurrentとする。単語ベクトルWcurrentと、単語ベクトルW(0≦i<S)のコサイン尺度を計算し、得られた類似度が高いドキュメントからL番目(Lは所定の自然数)までのドキュメントを得て、ドキュメントベクトル化し、特徴量記憶部112に蓄積する。
Figure 2013222418
In this embodiment, as described above, word vectors are used for searching for similar documents. Therefore, for example, for each document stored in the corpus unit 111, a word vector W i (0 ≦ i <S D ) having the appearance frequency of the included word as an element is created. Similarly, the input sentence is converted into a word vector, and is set as W current . The cosine measure of the word vector W current and the word vector W i (0 ≦ i <S D ) is calculated, and the obtained documents from the high similarity to the Lth (L is a predetermined natural number) are obtained. The document is vectorized and stored in the feature amount storage unit 112.

尚、ここでは類似度計算の例として、コサイン尺度を用いたが、その他の尺度を用いて、類似度を計算しても良い。ドキュメントベクトルの各要素の値としては、図6の(a)、(b)で説明したように、選定されたドキュメントは1、その他のドキュメントは0としても良いし、算出された類似度を用いるなど、なんらかの重み付けを行っても良い。   Although the cosine scale is used here as an example of similarity calculation, the similarity may be calculated using other scales. As described in FIGS. 6A and 6B, the value of each element of the document vector may be 1 for the selected document and 0 for the other documents, or the calculated similarity may be used. For example, some weighting may be performed.

次にステップ204では、特徴量記憶部112に蓄積されているドキュメントベクトルを二つ読み出し、類似度計算部105を用いて、最も類似度の高いドキュメントベクトルの組V,Vを見つける。この場合における類似度の計算方法としては、上述したコサイン尺度等を用いても良いし、二つのドキュメントベクトルの両方に存在する要素、すなわち共通要素の数などを用いても良い。 Next, in step 204, two document vectors stored in the feature amount storage unit 112 are read out, and the similarity calculation unit 105 is used to find a set of document vectors V i and V j having the highest similarity. As a method for calculating the similarity in this case, the above-described cosine scale or the like may be used, or the elements existing in both of the two document vectors, that is, the number of common elements may be used.

ステップ205では、類似度計算部105が、ステップ204で算出した最大類似度が、予め設定した閾値以上か否かを判定する。閾値は予め設定した固定値でも良いし、ステップ204で類似度を計算した際に、計算した類似度の平均や分散を計算しておき、これを用いても良い。   In step 205, the similarity calculation unit 105 determines whether or not the maximum similarity calculated in step 204 is greater than or equal to a preset threshold value. The threshold value may be a fixed value set in advance, or when the similarity is calculated in step 204, the average or variance of the calculated similarity may be calculated and used.

ステップ206およびステップ207は検索クエリ生成部106にて行われる。ステップ206では、ステップ204で算出された最大類似度が閾値以上である場合、ドキュメントベクトルの組V,Vの共通要素を抽出し、これをドキュメントベクトルの共通要素Vijとする。 Step 206 and step 207 are performed by the search query generation unit 106. In step 206, if the maximum similarity calculated in step 204 is greater than or equal to the threshold value, the common elements of the document vector sets V i and V j are extracted and set as the common elements V ij of the document vector.

ステップ207では、ステップ206で得られた共通要素Vijから検索クエリを生成する。検索クエリの生成方法としては、例えばTFIDFを用いた方法が挙げられる。TFIDFとは単語に関する重みの一種である。TF(Term Frequency)とIDF(InVerse Document Frequency)はそれぞれ次の式で表され、TFIDFはTFとIDFの積で求められる。 In step 207, a search query is generated from the common element V ij obtained in step 206. An example of a search query generation method is a method using TFIDF. TFIDF is a kind of weight related to words. TF (Term Frequency) and IDF (Inverse Document Frequency) are respectively expressed by the following equations, and TFIDF is obtained by the product of TF and IDF.

Figure 2013222418
ここでnはドキュメントdにおける単語iの出現回数、|D|は総ドキュメント数、|{d:t∈d}|は単語tを含むドキュメント数である。本実施例においては、総ドキュメント数Dはコーパス部111に記憶されている全ドキュメント数に相当する。
Figure 2013222418
Here, n i is the number of occurrences of the word i in the document d, | D | is the total number of documents, and | {d: t i εd} | is the number of documents including the word t i . In the present embodiment, the total document number D corresponds to the total number of documents stored in the corpus unit 111.

ドキュメントdに対して、形態素解析部114を用いて形態素解析を行い、TFIDFが大きい順にS個の単語を抽出し、これを検索クエリとする。TFIDF以外でも、例えば出現頻度の多さで重要度を決めても良いし、ドキュメントのタイトルをクエリとしても良いし、その他の方法で検索クエリを生成しても良い。 The document d, performs morphological analysis by using the morphological analysis unit 114 extracts S W number of words in order TFIDF is large, a search query for this. In addition to TFIDF, for example, the importance may be determined by the frequency of appearance, the document title may be used as a query, or a search query may be generated by other methods.

ステップ208では、ステップ207で生成された検索クエリを、制御部101を介して特徴量算出部104に入力し、特徴量算出部104において、新たなドキュメントベクトルV’ijを得る。 In step 208, the search query generated in step 207 is input to the feature amount calculation unit 104 via the control unit 101, and the feature amount calculation unit 104 obtains a new document vector V′ij .

続いて、新たに得られたドキュメントベクトルV’ijの信頼度の計算等を実行するステップ209およびステップ210を実行する。これらのステップ209およびステップ210は、図1に示した特徴量更新部107にて実行される。まず、ステップ209では、ステップ208で得られたドキュメントベクトルV’ijの信頼度を計算し、その結果に応じて、ドキュメントベクトルのベクトルサイズを修正する。 Subsequently, Step 209 and Step 210 for executing the calculation of the reliability of the newly obtained document vector V ′ ij and the like are executed. These step 209 and step 210 are executed by the feature amount updating unit 107 shown in FIG. First, in step 209, the reliability of the document vector V ′ ij obtained in step 208 is calculated, and the vector size of the document vector is corrected according to the result.

本実施例において信頼度とは、ドキュメントベクトルV’ijに共通要素Vijの要素がどれだけ含まれているかを数値化した指標である。信頼度の算出としては、例えばドキュメントベクトルV’ijがドキュメントベクトルの組V,Vの共通要素Vijの要素をいくつ含んでいるかを数え上げ、共通要素Vijの要素数で割る方法が挙げられる。その他にも、共通要素Vijの要素が重要度によって重み付けされている場合、重み付けされた重要度の高さに応じて信頼度を算出しても良い。何れにしろ、この信頼度が、所定の値より低い場合、得られたドキュメントベクトルV’ijのベクトルサイズを増減する等の信頼度のフィードバックを行う。 In the present embodiment, the reliability is an index obtained by quantifying how many elements of the common element V ij are included in the document vector V ′ ij . The calculation of reliability, for example, the document vector V 'ij is counting whether include any number of elements of the common elements V ij pair V i, V j of document vectors, and a method of dividing the number of elements common elements V ij It is done. In addition, when the elements of the common element V ij are weighted by importance, the reliability may be calculated according to the weighted importance. In any case, when the reliability is lower than a predetermined value, feedback of reliability such as increasing or decreasing the vector size of the obtained document vector V ′ ij is performed.

ステップ210では、共通要素Vijを生成した際のドキュメントベクトルV,Vを、特徴量記憶部112から削除し、新たに得られたドキュメントベクトルV’ijを特徴量記憶部112に記憶させる。 In step 210, the document vectors V i and V j when the common element V ij is generated are deleted from the feature amount storage unit 112, and the newly obtained document vector V ′ ij is stored in the feature amount storage unit 112. .

ステップ211では、本実施例のパッセージ分割方法のために、パッセージ更新部108にて、V,Vに対応する二つの文またはパッセージ候補を連結する。一度も連結されていない文は文記憶部110に記憶されている。文が連結された場合、連結前の文を文記憶部110から削除する。パッセージ候補と文が連結された場合、あるいはパッセージ候補同士が連結された場合には、連結前の文の削除のみならず、連結前のパッセージ候補をパッセージ記憶部113から削除する。連結された文またはパッセージ候補は新たなパッセージ候補としてパッセージ記憶部113に記憶する。 In step 211, for the passage dividing method of this embodiment, the passage update unit 108 concatenates two sentences or passage candidates corresponding to V i and V j . A sentence that has never been linked is stored in the sentence storage unit 110. When the sentence is connected, the sentence before connection is deleted from the sentence storage unit 110. When the passage candidate and the sentence are connected, or when the passage candidates are connected to each other, not only the sentence before connection but also the passage candidate before connection is deleted from the passage storage unit 113. The connected sentence or passage candidate is stored in the passage storage unit 113 as a new passage candidate.

本実施例のパッセージ分割方法、装置においては、図2のフローにおいて、ステップ204からステップ211を繰り返すことで、目的とするパッセージを作成する。そして、ステップ205において、二つのドキュメントベクトルの最大類似度が所定の閾値未満の場合、パッセージの作成を終了するため、ステップ212を実行する。   In the passage dividing method and apparatus of the present embodiment, the target passage is created by repeating step 204 to step 211 in the flow of FIG. In step 205, if the maximum similarity between the two document vectors is less than the predetermined threshold, step 212 is executed to end the creation of the passage.

ステップ212は、出力部109にて実行され、不明パッセージの判定とパッセージの出力を行うステップである。不明パッセージの判定方法の一例として、文またはパッセージ候補の中に含まれる形態素数を調べる方法がある。文またはパッセージ候補の中に含まれる形態素数が少ない場合、ドキュメントベクトルが適切に作成されず、連結が難しい場合がある。よって、スッテプ21において、残された文またはパッセージ候補に含まれる形態素数がある閾値以下の場合、出力部409は、不明パッセージのラベルをつけて出力し、処理フローを終了する。   Step 212 is a step that is executed by the output unit 109 to determine the unknown passage and output the passage. As an example of a method for determining an unknown passage, there is a method for examining the number of morphemes included in a sentence or a passage candidate. When the number of morphemes contained in a sentence or passage candidate is small, a document vector may not be created properly and connection may be difficult. Therefore, when the number of morphemes included in the remaining sentence or passage candidate is equal to or smaller than a certain threshold in step 21, the output unit 409 outputs the unknown passage with a label, and ends the processing flow.

図3は本実施例において、ドキュメントベクトルの類似度に応じて、文が連結されていく様子を模式的に示した一例である。図2のステップ205における閾値は“10”とする。
一度目の類似度算出結果が301である。結果301の中で最も類似度が高いのは、aとaの組の類似度40である。
FIG. 3 is an example schematically showing how sentences are connected according to the similarity of document vectors in this embodiment. The threshold value in step 205 in FIG.
The first similarity calculation result is 301. The highest similarity in the result 301 is the similarity 40 of the set of a 2 and a 3 .

よってこの組に対して図2のステップ205からステップ211の処理を行い、再度図2のステップ204に戻る。連結された結果をa23と表す。同様に結果302ではbとb、結果303ではaとa23が類似度の最も高い組として選定され、図2のステップ205から図2のステップ211の処理が行われる。閾値を10と設定したので、結果304で選ばれる組はなく、パッセージの作成が完了する。 Therefore, the process from step 205 to step 211 in FIG. The ligated Results are expressed as a 23. Similarly, b 1 and b 2 are selected in the result 302, and a 1 and a 23 are selected as the set having the highest similarity in the result 303, and the processing from step 205 in FIG. 2 to step 211 in FIG. 2 is performed. Since the threshold is set to 10, there is no set selected in the result 304, and the creation of the passage is completed.

以上詳述した実施例1によれば、意味の近い文、すなわち、特徴量が似た文を含む複数のパッセージが、一つの文書に含まれる場合でも、複数のパッセージを正しく分割することが可能となり、更には、文書の自動要約や文書検索のための自動キーワード抽出など。   According to the first embodiment described above in detail, even when a plurality of passages including sentences having similar meanings, that is, sentences having similar feature values, are included in one document, the plurality of passages can be correctly divided. Furthermore, automatic summarization of documents and automatic keyword extraction for document retrieval.

実施例2は類似度計算に単語ベクトルを、類似文書検索にも単語ベクトルを用いたパッセージ分割方法、装置、及びプログラムの実施例である。
図4は実施例2に係るパッセージ分割装置の機能ブロック図である。同図のパッセージ分割装置のハードウェア構成も、実施例1の図1Aの装置同様、図1Bに示したコンピュータ等で実現できることは言うまでもなく、ここではハードウェア構成の図示説明を省略する。
The second embodiment is an embodiment of a passage dividing method, apparatus, and program using a word vector for similarity calculation and a word vector for similar document search.
FIG. 4 is a functional block diagram of the passage dividing apparatus according to the second embodiment. It goes without saying that the hardware configuration of the passage dividing apparatus shown in the figure can also be realized by the computer shown in FIG. 1B as in the apparatus shown in FIG. 1A of the first embodiment.

入力部402と、文分割部403と、パッセージ更新部408と、出力部409と、文記憶部410と、特徴量記憶部412と、パッセージ記憶部413と、形態素解析部414とは実施例1の対応するブロックと共通であるので、実施例1と異なる、コーパス部411と、特徴量算出部404と、類似度計算部405と、検索クエリ生成部406と、特徴量更新部407についてのみ説明する。なお、形態素解析部414は特徴量算出部404に接続される。   The input unit 402, the sentence division unit 403, the passage update unit 408, the output unit 409, the sentence storage unit 410, the feature amount storage unit 412, the passage storage unit 413, and the morpheme analysis unit 414 are described in the first embodiment. Therefore, only the corpus unit 411, the feature amount calculation unit 404, the similarity calculation unit 405, the search query generation unit 406, and the feature amount update unit 407, which are different from the first embodiment, are described. To do. Note that the morpheme analysis unit 414 is connected to the feature amount calculation unit 404.

コーパス部411には、例えば新聞記事などのドキュメントの集合やシソーラス、あるいはその両方を用いる。   For the corpus 411, for example, a collection of documents such as newspaper articles, a thesaurus, or both are used.

特徴量算出部404は、文記憶部410から読み込んだ文に対し、形態素解析部414を用いて形態素解析を行い、文を単語ベクトルへ変換する。単語ベクトルの要素数が十分でない場合にはコーパス部411を使用して要素数を増やす方法が有効である。例えばコーパスとしてシソーラスを用いた場合、入力文から得られた各単語をクエリとして類義語を検索し、結果として得られた類義語を単語ベクトルに追加する。またコーパスとしてドキュメントの集合を用いた場合、入力文から得られた単語ベクトルに、コーパス内の各ドキュメントから抽出した単語ベクトルを追加することができる。   The feature quantity calculation unit 404 performs morpheme analysis on the sentence read from the sentence storage unit 410 using the morpheme analysis unit 414, and converts the sentence into a word vector. When the number of elements of the word vector is not sufficient, a method of increasing the number of elements using the corpus unit 411 is effective. For example, when a thesaurus is used as a corpus, synonyms are searched by using each word obtained from the input sentence as a query, and the resulting synonyms are added to the word vector. When a set of documents is used as the corpus, a word vector extracted from each document in the corpus can be added to the word vector obtained from the input sentence.

単語ベクトルの要素を追加する方法の他の例として、上位数件のドキュメントからTFIDF等を用いて重要語を抜き出し、単語ベクトルに追加する方法が挙げられる。これに限らず、他の方法で文に関連する単語を得て追加して、単語ベクトルの要素数を十分にしてもよい。そして、得られた単語ベクトルを特徴量記憶部412に記憶する。また検索クエリ生成部406から、制御部401を介して単語ベクトルが特徴量算出部404に与えられた場合も、同様の方法で単語ベクトルの要素数を拡充し、特徴量記憶部112に記憶すると共に、制御部401を介して特徴量更新部407へ単語ベクトルを出力する。   Another example of the method of adding word vector elements is a method of extracting important words from the top several documents using TFIDF or the like and adding them to the word vector. However, the number of elements of the word vector may be sufficient by obtaining and adding words related to the sentence by other methods. Then, the obtained word vector is stored in the feature amount storage unit 412. Also, when a word vector is given from the search query generation unit 406 to the feature amount calculation unit 404 via the control unit 401, the number of elements of the word vector is expanded by the same method and stored in the feature amount storage unit 112. At the same time, the word vector is output to the feature amount updating unit 407 via the control unit 401.

本実施例の類似度計算部405は、制御部401の指定に基づいて、二つの単語ベクトルを特徴量記憶部412から読み出し、二つの単語ベクトルの類似度を計算する。類似度の計算方法としては、例えば、上述したコサイン尺度等が挙げられる。   The similarity calculation unit 405 according to the present embodiment reads two word vectors from the feature amount storage unit 412 based on the designation of the control unit 401, and calculates the similarity between the two word vectors. Examples of the similarity calculation method include the cosine scale described above.

本実施例の検索クエリ生成部406は、制御部401の指定に基づいて、二つの単語ベクトルを特徴量記憶部412から読み出し、二つの単語ベクトルに共通する単語群をコーパス411から抽出する。抽出された共通する単語群から単語ベクトルを作成し、制御部401を介して特徴量算出部404に出力する。   The search query generation unit 406 of this embodiment reads two word vectors from the feature amount storage unit 412 based on the designation of the control unit 401 and extracts a word group common to the two word vectors from the corpus 411. A word vector is created from the extracted common word group, and is output to the feature amount calculation unit 404 via the control unit 401.

特徴量更新部407は、制御部401の指定に基づいて二つの単語ベクトルV,Vを特徴量記憶部412から読み出す。また制御部401から一つの単語ベクトルVが入力される。入力された三つの単語ベクトルV,V,Vから信頼度を計算し、信頼度に基づいてVのベクトルサイズを修正する。その後V,Vを特徴量記憶部412から削除し、Vを特徴量記憶部412に記憶する。 The feature amount update unit 407 reads two word vectors V i and V j from the feature amount storage unit 412 based on the designation of the control unit 401. Also, one word vector V k is input from the control unit 401. The reliability is calculated from the three input word vectors V k , V i , and V j, and the vector size of V k is corrected based on the reliability. Thereafter, V i and V j are deleted from the feature amount storage unit 412, and V k is stored in the feature amount storage unit 412.

図5は実施例2に係るプログラムの動作を示した処理フロー図である。実施例1では、類似度計算としてドキュメントベクトルを用いているが、実施例2では上述の通り、単語ベクトルを用いており、その点が実施例1と異なるが、それ以外の動作は実施例1と同様である。   FIG. 5 is a processing flowchart illustrating the operation of the program according to the second embodiment. In the first embodiment, a document vector is used for similarity calculation. In the second embodiment, as described above, a word vector is used, which differs from that in the first embodiment, but the other operations are the same as in the first embodiment. It is the same.

実施例2によれば、意味の近い文、即ち、特徴量が似た文を含む複数のパッセージが、一つの文書に含まれる場合でも、パッセージを正しく分割することが可能となる。   According to the second embodiment, even when a plurality of passages including sentences having similar meanings, that is, sentences having similar feature amounts, are included in one document, the passages can be correctly divided.

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。   In addition, this invention is not limited to an above-described Example, Various modifications are included. For example, the above-described embodiments have been described in detail in order to explain the present invention in an easy-to-understand manner, and are not necessarily limited to those having all the configurations described. Moreover, it is possible to add the structure of another Example to the structure of a certain Example. Further, it is possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.

上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、それぞれの機能を実現するプログラムを実行することによりソフトウェアで実現する場合を例示して説明したが、各機能を実現するプログラム、テーブル、ファイル等の情報はメモリのみならず、ハードディスク、SSD(Solid State DriVe)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体におくことができるし、必要に応じてネットワーク等を介してダウンロード、インストールすることも可能である。   Each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit. In addition, each configuration, function, and the like have been described by exemplifying a case where they are realized by software by executing a program that realizes each function. However, information on programs, tables, files, and the like that realize each function It can be stored not only in memory but also in storage devices such as hard disks and SSDs (Solid State DriVe), or recording media such as IC cards, SD cards, and DVDs, and can be downloaded and installed via a network or the like as necessary. It is also possible to do.

11 CPU
12 記憶部
13 入出力部
14 通信部
100、400 パッセージ分割装置
101、401 制御部
102、402 入力部
103、403 文分割部
104、404 特徴量算出部
105、405 類似度計算部
106、406 検索クエリ生成部
107、407 特徴量更新部
108、408 パッセージ更新部
109、409 出力部
110、410 文記憶部
111、411 コーパス部
112、412 特徴量記憶部
113、413 パッセージ記憶部
114、414 形態素解析部
11 CPU
12 storage unit 13 input / output unit 14 communication unit 100, 400 passage division device 101, 401 control unit 102, 402 input unit 103, 403 sentence division unit 104, 404 feature amount calculation unit 105, 405 similarity calculation unit 106, 406 search Query generation unit 107, 407 Feature amount update unit 108, 408 Passage update unit 109, 409 Output unit 110, 410 Sentence storage unit 111, 411 Corpus unit 112, 412 Feature amount storage unit 113, 413 Passage storage unit 114, 414 Morphological analysis Part

Claims (15)

処理部により、ドキュメントをパッセージに分割するパッセージ分割方法であって、
前記処理部は、
前記ドキュメントを文単位に分割し、
分割した前記文をクエリとして、予め記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、
作成した前記特徴量の内の二つの特徴量の類似度が所定の閾値以上である、当該二つの特徴量の共通要素を用いて特徴量を更新する、
ことを特徴とするパッセージ分割方法。
A passage dividing method for dividing a document into passages by a processing unit,
The processor is
Dividing the document into sentence units,
Using the divided sentence as a query, extracting a related document from a plurality of previously stored documents, creating a feature amount,
Updating the feature amount using a common element of the two feature amounts, wherein the similarity between the two feature amounts of the created feature amounts is equal to or greater than a predetermined threshold;
A passage dividing method characterized by the above.
請求項1に記載のパッセージ分割方法であって、
前記処理部は、
前記特徴量として、ドキュメントベクトルを用いる、
ことを特徴とするパッセージ分割方法。
The passage dividing method according to claim 1,
The processor is
A document vector is used as the feature amount.
A passage dividing method characterized by the above.
請求項2に記載のパッセージ分割方法であって、
前記処理部は、
前記二つの特徴量である、二つのドキュメントベクトルV,Vの類似度が所定の閾値以上である場合、二つの前記ドキュメントベクトルV,Vの共通要素Vijを抜き出し、検索クエリを生成する、
ことを特徴とするパッセージ分割方法。
The passage dividing method according to claim 2,
The processor is
When the similarity between two document vectors V i and V j which are the two feature quantities is equal to or greater than a predetermined threshold, a common element V ij of the two document vectors V i and V j is extracted and a search query is obtained. Generate,
A passage dividing method characterized by the above.
請求項3に記載のパッセージ分割方法であって、
前記処理部は、
生成した前記検索クエリを用いて、新たなドキュメントベクトルV’ijを得る、
ことを特徴とするパッセージ分割方法。
The passage dividing method according to claim 3,
The processor is
A new document vector V ′ ij is obtained using the generated search query.
A passage dividing method characterized by the above.
請求項4に記載のパッセージ分割方法であって、
前記処理部は、
前記新たなドキュメントベクトルV’ijが、前記共通要素Vijの要素を含む度合いに対応して、前記新たなドキュメントベクトルV’ijのベクトルサイズを修正する、
ことを特徴とするパッセージ分割方法。
It is the passage division | segmentation method of Claim 4, Comprising:
The processor is
The new document vector V 'ij is the corresponding to the degree that contains the elements of the common elements V ij, the new document vector V' to modify the vector size ij,
A passage dividing method characterized by the above.
請求項4に記載のパッセージ分割方法であって、
前記処理部は、
前記新たなドキュメントベクトルV’ijに対応する前記文、あるいはパッセージ候補を連結して、新たなパッセージ候補とする、
ことを特徴とするパッセージ分割方法。
It is the passage division | segmentation method of Claim 4, Comprising:
The processor is
Concatenating the sentence or passage candidate corresponding to the new document vector V ′ ij into a new passage candidate;
A passage dividing method characterized by the above.
請求項1に記載のパッセージ分割方法であって、
前記処理部は、
前記特徴量として、単語ベクトルを用いる、
ことを特徴とするパッセージ分割方法。
The passage dividing method according to claim 1,
The processor is
A word vector is used as the feature amount.
A passage dividing method characterized by the above.
請求項7に記載のパッセージ分割方法であって、
前記二つの特徴量である、二つの単語ベクトルV,Vの類似度が所定の閾値以上である場合、二つの前記単語ベクトルV,Vの共通要素Vijを抜き出し、検索クエリを生成し、
生成した前記検索クエリを用いて、新たな単語ベクトルV’ijを得る、
ことを特徴とするパッセージ分割方法。
It is the passage division | segmentation method of Claim 7, Comprising:
When the similarity between the two word vectors V i and V j that are the two feature quantities is equal to or greater than a predetermined threshold, a common element V ij of the two word vectors V i and V j is extracted, and a search query is obtained. Generate
A new word vector V ′ ij is obtained using the generated search query.
A passage dividing method characterized by the above.
請求項8に記載のパッセージ分割方法であって、
前記処理部は、
前記新たな単語ベクトルV’ijが、前記共通要素Vijの要素を含む度合いに対応して、前記新たな単語ベクトルV’ijのベクトルサイズを修正する、
ことを特徴とするパッセージ分割方法。
The passage dividing method according to claim 8,
The processor is
The new word vector V 'ij is, in response to the degree that contains the elements of the common element V ij, the new word vector V' to modify the vector size ij,
A passage dividing method characterized by the above.
請求項9に記載のパッセージ分割方法であって、
前記処理部は、
前記新たな単語ベクトルV’ijに対応する前記文、あるいはパッセージ候補を連結して、新たなパッセージ候補とする、
ことを特徴とするパッセージ分割方法。
It is the passage division | segmentation method of Claim 9, Comprising:
The processor is
Concatenating the sentence or passage candidate corresponding to the new word vector V ′ ij into a new passage candidate;
A passage dividing method characterized by the above.
入力されるドキュメントをパッセージに分割するパッセージ分割装置であって、
処理部と記憶部とを備え、
前記処理部は、
前記ドキュメントを文単位に分割し、
分割した前記文をクエリとして、予め前記記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、
作成した前記特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新する、
ことを特徴とするパッセージ分割装置。
A passage dividing device for dividing an input document into passages,
A processing unit and a storage unit;
The processor is
Dividing the document into sentence units,
Using the divided sentence as a query, extracting a related document from a plurality of documents stored in the storage unit in advance, creating a feature amount,
Updating the feature value using a common element of the feature value, wherein two similarities of the created feature values are equal to or greater than a predetermined threshold;
Passage dividing apparatus characterized by the above.
請求項11に記載のパッセージ分割装置であって、
前記処理部は、
前記特徴量として、関連する前記ドキュメントに基づく、ドキュメントベクトルあるいは単語ベクトルを用いる、
ことを特徴とするパッセージ分割装置。
The passage dividing apparatus according to claim 11,
The processor is
As the feature amount, a document vector or a word vector based on the related document is used.
Passage dividing apparatus characterized by the above.
請求項12に記載のパッセージ分割装置であって、
前記処理部は、
前記二つの特徴量である、二つのドキュメントベクトル、或いは単語ベクトルV,Vの類似度が所定の閾値以上である場合、二つの前記ドキュメントベクトル、或いは単語ベクトルV,Vの共通要素Vijを抜き出し、検索クエリを生成し、
生成した前記検索クエリを用いて、新たなドキュメントベクトル、或いは単語ベクトルV’ijを得、
前記新たなドキュメントベクトル、或いは単語ベクトルV’ijが、前記共通要素Vijの要素を含む度合いに対応して、前記新たなドキュメントベクトル、或いは単語ベクトルV’ijのベクトルサイズを修正する、
ことを特徴とするパッセージ分割装置。
The passage dividing apparatus according to claim 12, wherein
The processor is
When the similarity between two document vectors or word vectors V i and V j that are the two feature quantities is equal to or greater than a predetermined threshold, the common elements of the two document vectors or word vectors V i and V j Extract V ij , generate a search query,
A new document vector or word vector V ′ ij is obtained using the generated search query,
The new document vector, or word vector V 'is ij, the common element in response to the degree that contains the elements of V ij, the new document vector, or word vector V' to modify the vector size ij,
Passage dividing apparatus characterized by the above.
請求項13に記載のパッセージ分割装置であって、
前記処理部は、
前記新たなドキュメントベクトルV’ijに対応する前記文、あるいはパッセージ候補を連結し、新たに連結されたパッセージ候補を前記記憶部に記憶する、
ことを特徴とするパッセージ分割装置。
The passage dividing apparatus according to claim 13,
The processor is
Concatenating the sentence or passage candidate corresponding to the new document vector V ′ ij and storing the newly connected passage candidate in the storage unit;
Passage dividing apparatus characterized by the above.
処理部と記憶部とを備え、入力されるドキュメントをパッセージを分割するパッセージ分割装置の処理部で実行されるパッセージ分割プログラムであって、
前記処理部を、
前記ドキュメントを文単位に分割し、
分割した前記文をクエリとして、予め前記記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出し、
抽出した前記関連するドキュメントを用いて特徴量を作成し、
作成した前記特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新する、
よう動作させる、
ことを特徴とするパッセージ分割プログラム。
A passage dividing program that includes a processing unit and a storage unit, and that is executed by a processing unit of a passage dividing device that divides a passage of an input document,
The processing unit is
Dividing the document into sentence units,
Using the divided sentences as queries, extracting related documents from a plurality of documents stored in the storage unit in advance,
Create a feature using the extracted related document,
Updating the feature value using a common element of the feature value, wherein two similarities of the created feature values are equal to or greater than a predetermined threshold;
Make it work,
A passage dividing program characterized by that.
JP2012095344A 2012-04-19 2012-04-19 Passage dividing method, apparatus, and program Expired - Fee Related JP5869948B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012095344A JP5869948B2 (en) 2012-04-19 2012-04-19 Passage dividing method, apparatus, and program
CN201210548190.1A CN103377187B (en) 2012-04-19 2012-12-17 Paragraph segmentation and paragraph segmentation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012095344A JP5869948B2 (en) 2012-04-19 2012-04-19 Passage dividing method, apparatus, and program

Publications (2)

Publication Number Publication Date
JP2013222418A true JP2013222418A (en) 2013-10-28
JP5869948B2 JP5869948B2 (en) 2016-02-24

Family

ID=49462320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012095344A Expired - Fee Related JP5869948B2 (en) 2012-04-19 2012-04-19 Passage dividing method, apparatus, and program

Country Status (2)

Country Link
JP (1) JP5869948B2 (en)
CN (1) CN103377187B (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649762A (en) * 2016-12-27 2017-05-10 竹间智能科技(上海)有限公司 Intention recognition method and system based on inquiry question and feedback information
CN108009151A (en) * 2017-11-29 2018-05-08 深圳中泓在线股份有限公司 Newsletter archive automatic segmentation method and apparatus, server and readable storage medium storing program for executing
JP2018124914A (en) * 2017-02-03 2018-08-09 日本電信電話株式会社 Passage type questioning and answering device, method, and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948518B (en) * 2019-03-18 2023-06-09 武汉汉王大数据技术有限公司 Neural network-based PDF document content text paragraph aggregation method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145790A (en) * 2002-10-28 2004-05-20 Advanced Telecommunication Research Institute International Segmentation method of document and computer program therefor

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288362A (en) * 2002-03-27 2003-10-10 Seiko Epson Corp Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method
JP2004164036A (en) * 2002-11-08 2004-06-10 Hewlett Packard Co <Hp> Method for evaluating commonality of document
CN101231634B (en) * 2007-12-29 2011-05-04 中国科学院计算技术研究所 Autoabstract method for multi-document
CN101620596B (en) * 2008-06-30 2012-02-15 东北大学 Multi-document auto-abstracting method facing to inquiry
CN102004724B (en) * 2010-12-23 2012-06-20 哈尔滨工业大学 Document paragraph segmenting method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145790A (en) * 2002-10-28 2004-05-20 Advanced Telecommunication Research Institute International Segmentation method of document and computer program therefor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015040262; 望月源、外2名: '語彙的連鎖に基づくパッセージ検索' 自然言語処理 第6巻,第3号, 19990410, pp.101〜126, 言語処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649762A (en) * 2016-12-27 2017-05-10 竹间智能科技(上海)有限公司 Intention recognition method and system based on inquiry question and feedback information
JP2018124914A (en) * 2017-02-03 2018-08-09 日本電信電話株式会社 Passage type questioning and answering device, method, and program
CN108009151A (en) * 2017-11-29 2018-05-08 深圳中泓在线股份有限公司 Newsletter archive automatic segmentation method and apparatus, server and readable storage medium storing program for executing

Also Published As

Publication number Publication date
JP5869948B2 (en) 2016-02-24
CN103377187A (en) 2013-10-30
CN103377187B (en) 2016-09-28

Similar Documents

Publication Publication Date Title
US8775442B2 (en) Semantic search using a single-source semantic model
JP5116775B2 (en) Information retrieval method and apparatus, program, and computer-readable recording medium
Deshpande et al. Text summarization using clustering technique
JP5216063B2 (en) Method and apparatus for determining categories of unregistered words
KR101828995B1 (en) Method and Apparatus for clustering keywords
CN107844493B (en) File association method and system
KR101651780B1 (en) Method and system for extracting association words exploiting big data processing technologies
KR102059743B1 (en) Method and system for providing biomedical passage retrieval using deep-learning based knowledge structure construction
JP5869948B2 (en) Passage dividing method, apparatus, and program
JP2009217689A (en) Information processor, information processing method, and program
JP5497105B2 (en) Document retrieval apparatus and method
JP7388256B2 (en) Information processing device and information processing method
JP5362807B2 (en) Document ranking method and apparatus
JP2017068742A (en) Relevant document retrieval device, model creation device, method and program therefor
CN113449063B (en) Method and device for constructing document structure information retrieval library
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
KR102519955B1 (en) Apparatus and method for extracting of topic keyword
TWI636370B (en) Establishing chart indexing method and computer program product by text information
Wu et al. A new approach to query segmentation for relevance ranking in web search
WO2022130579A1 (en) Similarity determination program, similarity determination device, and similarity determination method
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
JP2011159100A (en) Successive similar document retrieval apparatus, successive similar document retrieval method and program
JP5199968B2 (en) Keyword type determination device, keyword type determination method, and keyword type determination program
Tsapatsoulis Web image indexing using WICE and a learning-free language model
WO2013150633A1 (en) Document processing system and document processing method

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140908

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160108

R150 Certificate of patent or registration of utility model

Ref document number: 5869948

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees