JP5869948B2 - Passage division method, apparatus, and program - Google Patents

Passage division method, apparatus, and program Download PDF

Info

Publication number
JP5869948B2
JP5869948B2 JP2012095344A JP2012095344A JP5869948B2 JP 5869948 B2 JP5869948 B2 JP 5869948B2 JP 2012095344 A JP2012095344 A JP 2012095344A JP 2012095344 A JP2012095344 A JP 2012095344A JP 5869948 B2 JP5869948 B2 JP 5869948B2
Authority
JP
Japan
Prior art keywords
passage
document
unit
vector
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012095344A
Other languages
Japanese (ja)
Other versions
JP2013222418A (en
Inventor
容弓 柿下
容弓 柿下
英春 服部
英春 服部
村上 智一
智一 村上
修 今一
修 今一
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2012095344A priority Critical patent/JP5869948B2/en
Publication of JP2013222418A publication Critical patent/JP2013222418A/en
Application granted granted Critical
Publication of JP5869948B2 publication Critical patent/JP5869948B2/en
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、電子化された文書の処理に係り、特に電子化書類のパセージ分割技術に関する。 The present invention relates to the electronic document processing, and more particularly Paseji resolution techniques of electronic documents.

近年、文書の電子化やデータベース化が進んだことで、自然言語処理技術も大きく発展し、例えば文書の自動要約や文書検索のための自動キーワード抽出などの研究が多くなされてきた。 In recent years, it has advanced electronic and database of the document, also largely developed natural language processing technology, for example, research such as automatic keyword extraction for automatic summarization and document retrieval of documents have been made many. しかしこれらの技術の対象となる文書はパッセージ毎、すなわち、話題、あるいは内容的、意味的なまとまり単位毎に分割されている、または単一のパッセージしか含まない文書を想定していることが多い。 But subject to document every passage of these techniques, i.e., the topic or contents, the often assumes a document that contains only semantic units are divided for each unit, or a single passage, . そのため、複数のパッセージを含む文書に対しては、予めパッセージを分割することが有効である。 Therefore, for the document including a plurality of passages, it is effective to divide the pre-passage. 従来、このようなパッセージ分割手法としては、特許文献1や特許文献2に記載のテキストセグメンテーション手法等が知られている。 Conventionally, as such a passage dividing technique, the text segmentation method, etc. it is known as described in Patent Documents 1 and 2.

特開2009−15795号公報 JP 2009-15795 JP 特開2004−145790号公報 JP 2004-145790 JP

しかし、従来のパッセージ分割、テキストセグメンテーションに関する手法は意味の近い文、すなわちその特徴量が似た文を含む複数のパッセージが、一つの文書に含まれる場合、パッセージを正しく分割することが難しい。 However, the conventional passage division, statement technique about text segmentation close meaningful, that is, a plurality of passages, including a statement of the characteristic amount is similar, if included in one document, it is difficult to properly divide the passage. その結果、文書の自動要約や文書検索のための自動キーワード抽出などを効率的に進めることができない。 As a result, it is impossible to proceed with an automatic keyword extraction for summarization and document retrieval of documents efficiently.

本発明の目的は、上記課題に鑑みてなされたものであり、複数のパッセージを含む文書を有効に分割するパッセージ分割方法、装置、及びプログラムを提供することにある。 An object of the present invention has been made in view of the above problems, there passages dividing method effectively partitions the document including a plurality of passages, apparatus, and to provide a program.

上記の目的を達成するため、本発明においては、処理部により、ドキュメントをパッセージに分割するパッセージ分割方法であって、処理部は、ドキュメントを文単位に分割し、分割した文をクエリとして、予め記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、作成した特徴量の内の二つの特徴量の類似度が所定の閾値以上である、当該二つの特徴量の共通要素を用いて特徴量を更新するパッセージ分割方法を提供する。 To achieve the above object, in the present invention, by the processing unit, a passage dividing method for dividing the document into passages, processing unit divides the document into sentences, the divided sentences as queries in advance a plurality of documents is stored, extracts the associated document, creates a feature quantity similarity between two feature amounts of the feature quantity that was created is equal to or greater than the predetermined threshold value, the two feature amounts It provides a passage dividing method of updating the feature amount using the common elements.

又、上記の目的を達成するため、本発明においては、入力されるドキュメントをパッセージに分割するパッセージ分割装置であって、処理部と記憶部とを備え、処理部は、ドキュメントを文単位に分割し、分割、記憶した文をクエリとして、予め記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、作成した特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新する構成のパッセージ分割装置を提供する。 Further, in order to achieve the above object, in the present invention, there is provided a passage dividing device for dividing the document to be input to the passages, provided with a processing unit and a memory unit, processing unit, divides the document into sentences and, dividing, the stored sentence as a query, a plurality of documents stored in advance in the storage unit, and extract the relevant document, creates a feature quantity, the two similarity of the feature amount created equal to or greater than a predetermined threshold, to provide a passage division device configured to update the feature amount using the common elements of the feature quantity.

更に、上記の目的を達成するため、本発明においては、処理部と記憶部とを備え、入力されるドキュメントをパッセージに分割するパッセージ分割装置の処理部で実行されるパッセージ分割プログラムであって、処理部を、ドキュメントを文単位に分割し、分割した文をクエリとして、予め記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出し、抽出した関連するドキュメントを用いて特徴量を作成し、作成した特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新するよう動作させるパッセージ分割プログラムを提供する。 Furthermore, in order to achieve the above object, in the present invention, provided with a processing unit and a storage unit, a passage dividing program executed in the process section of the passage dividing device for dividing the document to be inputted to the passage, the processing unit divides the document into sentences, the divided statement as a query, a plurality of documents stored in advance in the storage unit, and extract the relevant documents, the extracted feature amount using the associated document was create two similarity of the created feature quantity is greater than a predetermined threshold value, to provide a passage dividing program for operating to update the feature amount using the common elements of the feature quantity.

本発明によれば、意味の近い文、すなわち特徴量が似た文を含む、複数のパッセージが一つの文書に含まれる場合でも、パッセージを正しく分割することが可能となる。 According to the present invention, close sentence meaningless, i.e. including a statement that the feature amount similar, even when a plurality of passages are included in a single document, it is possible to correctly divide the passage.

第1の実施例のパッセージ分割装置の一機能構成を示す図である。 Is a diagram showing an functional configuration of a passage dividing apparatus of the first embodiment. 第1の実施例のパッセージ分割装置の一ハードウェア構成を示す図である。 Is a diagram illustrating an hardware configuration of passages dividing apparatus of the first embodiment. 第1の実施例に係る、パッセージ分割プログラムの動作の一例を示す図である。 According to the first embodiment, and shows an example of the operation of the passage dividing program. 第1の実施例に係る、ドキュメントベクトルの類似度に応じて文が連結される様子を示す図である。 According to the first embodiment, and shows a state in which sentences are connected in accordance with the similarity of the document vector. 第2の実施例のパッセージ分割装置の一機能構成を示す図である。 Is a diagram showing an functional configuration of a passage dividing apparatus of the second embodiment. 第2の実施例に係る、パッセージ分割プログラムの動作の一例を示す図である。 According to the second embodiment, and shows an example of the operation of the passage dividing program. 各実施例に係る、ドキュメントベクトルの一例を説明するための図である。 According to the embodiments is a diagram for explaining an example of a document vector. 各実施例に係る、単語ベクトルの一例を説明するための図である。 According to the embodiments is a diagram for explaining an example of word vectors.

以下、本発明の実施例を図面に従い説明するが、本発明は以下に説明する実施例に限定されるものではない。 EXAMPLES The following explains Examples of the present invention in accordance with the accompanying drawings, the present invention is not limited to the embodiments set forth herein. 本明細書において、「文書」と「ドキュメント」とは、同義であることとする。 As used herein, the term "document" and "document" is to be synonymous. また、「パッセージ」とは、話題、あるいは内容的、意味的なまとまりのある単位を意味する。 In addition, the "passage", refers to the topic or terms of content, there is a semantic units units. 更に、ドキュメントベクトルとは、蓄積されたドキュメントを次元とするベクトルを意味し、単語ベクトルとは、全ドキュメント中に出現する全ての単語を次元とするベクトルを意味するものとする。 Furthermore, the document vector means a vector that the stored document as the dimension, the word vectors, is intended to mean a vector of all the words that appear in all documents and dimensions. そして、本明細書において、文の「特徴量」とは、文の意味を定量的に示すものであり、例えば、ドキュメントベクトル、あるいは単語ベクトルはその一例として説明する。 Then, in the present specification, the "feature amount" of the sentence, which indicates the meaning of the sentence quantitatively, for example, the document vector or word vector, is described as an example.

第1の実施例は、類似度計算にドキュメントベクトルを、類似文書検索に単語ベクトルを用いるパッセージ分割方法、装置、及びプログラムの実施例である。 First embodiment, the document vector similarity calculation, passage dividing method using a word vector similar document search, which is an embodiment of the apparatus, and a program. 本実施例において、ドキュメントベクトルとは、分割装置のコーパス部に含まれる全てのドキュメントを次元とするベクトルである。 In this embodiment, the document vector, all documents in the corpus of the division device is a vector whose dimension.

本実施例の詳細を説明するに先立ち、ドキュメントベクトルと単語ベクトルの一例を説明する。 Before describing the details of the present embodiment, an example of a document vector and word vector.
図6にドキュメントベクトルの一例を示す。 Figure 6 shows an example of a document vector. 図6において、コーパス部に含まれるドキュメントの総数を10として例示した。 6, illustrated the total number of documents in the corpus section as 10. そして、検索の結果得られるドキュメントが、1、3、4、8である場合、ドキュメントベクトルは、同図の(a)に示すドキュメントベクトル601ように表わすことができる。 Then, the search results obtained document, if it is 1,3,4,8, document vector can be represented as a document vector 601 shown in the same figure (a). 同様に、検索の結果、検索スコアが得られる場合、得られた検索スコアを用いて、同図の(b)に示すようなドキュメントベクトル602として表わすことができる。 Similarly, the result of the search, it is possible if the search score is obtained using the obtained search score, represented as a document vector 602 as shown in the same figure (b).

図7に単語ベクトルの一例を示した。 It shows an example of word vectors in FIG. 単語ベクトルとは、全文書中に出現する全ての単語を次元とするベクトルであり、図7の単語ベクトルでは、全てのドキュメントに出現する単語の種類を10として例示した。 The word vector, a vector for all the words that appear in all documents and dimensions, the word vector of Figure 7, and illustrates the type of words that appear in all documents as 10. そして、あるドキュメントに含まれる単語が、3、6、7、8であり、出願頻度がそれぞれ、1、5、3、9である場合、該当する要素に出現頻度を代入することで、同図に示す単語ベクトル701を得る。 The words included in a document is a 3,6,7,8, each application frequency, if it is 1,5,3,9, by substituting frequency to the appropriate element, FIG. obtaining a word vector 701 shown in.

図1Aは、実施例1に係るパッセージ分割装置の機能ブロックの一例を示す図である。 Figure 1A is a diagram showing an example of functional blocks of the passage dividing device according to the first embodiment. 図1Bは、実施例1のパッセージ分割装置を実現するハードウェア構成の一例を示す図である。 Figure 1B is a diagram showing an example of a hardware configuration for realizing a passage dividing device of the first embodiment. 図1Bのハードウェア構成は、通常の処理部である中央処理部(Central Processing Unit:CPU)11、メモリ、RAM、ROM、ハードディスクドライブ(HDD)、記憶装置等の記憶部12、入出力部13、ネットワークインタフェースである通信部14からなり、これらの各ブロックは、内部バス15によって相互に接続されているコンピュータを示している。 Hardware configuration of Figure 1B includes a central processing unit which is a normal processor (Central Processing Unit: CPU) 11, a memory, RAM, ROM, a hard disk drive (HDD), a storage unit 12 such as a memory device, input-output unit 13 , made from the communication unit 14 is a network interface, each of these blocks indicates the computers connected to each other by an internal bus 15.

図1Aにおいて、パッセージ分割装置100は、制御部101と、入力部102と、文分割部103と、特徴量算出部104と、類似度計算部105と、検索クエリ生成部106と、特徴量更新部107と、パッセージ更新部108と、出力部109と、文記憶部110と、コーパス部111と、特徴量記憶部112と、パッセージ記憶部113と、形態素解析部114とを有する。 1A, the passage divider 100 includes a control unit 101, an input unit 102, a sentence dividing unit 103, a feature amount calculation unit 104, a similarity calculation unit 105, a search query generation unit 106, characteristic value update has a section 107, a passage updating unit 108, an output unit 109, a sentence storage section 110, a corpus 111, a feature storage unit 112, a passage storage unit 113, and a morphological analysis unit 114. 前提として、コーパス部111には、例えば新聞記事のような文書、ドキュメントがS 個記憶されているものとする。 As a prerequisite, the corpus 111, for example a document such as a newspaper article, a document is assumed to be S D number stored.

この内、入力部102、出力部109が入出力部13や通信部14に対応し、文記憶部110と、コーパス部111と、特徴量記憶部112と、パッセージ記憶部113が記憶部12のメモリや記憶装置に対応している。 Among this, the input unit 102, an output unit 109 corresponds to the input-output unit 13, a communication section 14, a sentence storage section 110, a corpus 111, a feature storage unit 112, passages storage unit 113 of the storage section 12 It corresponds to a memory or a storage device. その余の制御部101、文分割部103と、特徴量算出部104と、類似度計算部105と、検索クエリ生成部106と、特徴量更新部107と、パッセージ更新部108と、形態素解析部114は、CPU11における、オペレーティングシステム(OS)や、ROM等の記憶部に記憶された各種のプログラムの処理で実現できる。 Its remaining of the control unit 101, a sentence dividing unit 103, a feature amount calculation unit 104, a similarity calculation unit 105, a search query generation unit 106, a characteristic value update section 107, a passage updating unit 108, the morphological analysis unit 114, in the CPU 11, an operating system (OS) and can be realized in the process of the various programs stored in the storage unit such as a ROM.

図1Aに示した実施例1のパッセージ分割装置の各機能ブロックの動きを順次説明する。 Sequentially illustrating the movement of the functional blocks of the passage dividing device of the first embodiment shown in FIG. 1A.
まず、パッセージ分割の対象となるドキュメントが入力部102から装置に入力される。 First, the target document passages divided is inputted from the input unit 102 to the device. 文分割部103は、処理部であるCPU11の所定プログラムの実行により、入力されたドキュメントを文単位に分割し、文記憶部110に分割結果である複数の文を記憶する。 Sentence division unit 103, by executing the CPU11 of the predetermined program is a processing unit, divides the document input to the sentence, and stores a plurality of sentences are divided result to the sentence storage section 110.

同様に、特徴量算出部104は、文記憶部110から読み込んだ文各々を用いて、コーパス部111から関連するドキュメントを取得し、得られた複数の関連ドキュメントを、ドキュメントベクトル化して特徴量記憶部112に記憶する。 Similarly, the feature value calculation section 104 uses the statement each read from sentence storage unit 110, acquires the relevant documents from the corpus 111, a plurality of related documents obtained, document vectorization to feature storage stored in the section 112. すなわち、特徴量算出部104は、取得した関連ドキュメントに対応する次元に値を代入することで、図6で例示したようなドキュメントベクトルを生成する。 That is, the feature amount calculation unit 104 substitutes the value in the dimension corresponding to the obtained related documents, to generate a document vector as illustrated in Figure 6.

検索クエリ生成部106は、検索クエリを生成し、制御部101に送る機能を持つ。 Search query generation unit 106 generates a search query, with the function of sending to the control unit 101.

特徴量算出部104は、制御部101を介して、検索クエリが与えられた場合、当該検索クエリに関連するドキュメントを文記憶部110から取得し、得られた複数の関連ドキュメントをドキュメントベクトル化し、特徴量として、特徴量記憶部に112に記憶すると共に、制御部101を介して、特徴量更新部107に出力する。 Feature amount calculation unit 104, via the control unit 101, when the search query is given, and obtains a document relating to the search query from sentence storage unit 110, and the document vector of a plurality of related documents obtained, as the feature amount, and stores the 112 feature storage unit, via the control unit 101, and outputs the characteristic value update section 107.

類似度計算部105は、制御部101の指定に基づいて、二つのドキュメントベクトルを特徴量記憶部112から読み出し、二つのドキュメントベクトルの類似度を計算する機能を有する。 Similarity calculation unit 105, based on specification of the control unit 101 reads the two documents vector from the feature amount storage unit 112 has a function of calculating the similarity between two documents vector. 本実施例における類似度の計算方法については後述する。 It will be described later calculation method of the similarity in the present embodiment. 更に、類似度計算部105は、計算して得られた類似度が所定の閾値以上か否かを判断する。 Further, the similarity calculation unit 105, the similarity obtained by the calculation is determined whether more than a predetermined threshold value.

検索クエリ生成部106は、制御部101の指定に基づいて、二つのドキュメントベクトルを特徴量記憶部112から読み出し、二つのドキュメントベクトルに共通するドキュメント群をコーパス部111から抽出する。 Search query generation unit 106, based on specification of the control unit 101 reads the two documents vector from the feature amount storage unit 112, extracts a set of documents that are common to the two documents vector from the corpus 111. 抽出された共通するドキュメント群から検索クエリを生成し、制御部101へ出力する。 Generating a search query from the extracted common document group, and outputs to the control unit 101. この検索クエリの生成方法については後述する。 It will be described later generation method of the search query.

特徴量更新部107は、制御部101の指定に基づいて二つのドキュメントベクトルV ,V を特徴量記憶部112から読み出す。 Characteristic value update section 107 reads two document vectors V i, the V j from the feature amount storage unit 112 based on specification of the control unit 101. また制御部101から一つのドキュメントベクトルV が特徴量更新部107に入力される。 The one document vector V k is input to the feature amount updating unit 107 from the control unit 101. 入力された三つのドキュメントベクトルV ,V ,V から信頼度を計算し、信頼度に基づいてV を修正する。 Three Document vector V k input, V i, to calculate the reliability of V j, modifies when V k based on the reliability. この信頼度については後述する。 It will be described later this confidence. その後、V ,V を特徴量記憶部112から削除し、V を特徴量記憶部112に記憶する。 Then, remove V i, the V j from the feature amount storage unit 112 stores when V k in the feature amount storage unit 112.

パッセージ更新部108は、制御部101の指定に基づいて、文記憶部110またはパッセージ記憶部113の中から二つの文またはパッセージ候補を読み出す。 Passage updating unit 108, based on specification of the control unit 101 reads the two sentences or passage candidates from the sentence storage section 110 or the passages storage unit 113. 読み出された文またはパッセージ候補を文記憶部110またはパッセージ記憶部113の中から削除し、読み出された文またはパッセージ候補を連結して、その連結結果を、パッセージ候補としてパッセージ記憶部113に記憶する。 Remove the read statement or passage candidates from the sentence storage section 110 or the passages storage unit 113, by connecting the read statement or passage candidates, the concatenation, the passages storage unit 113 as a passage a candidate Remember.

出力部109は文記憶部110とパッセージ記憶部113からそれぞれ文、パッセージ候補を読み出し、不明パッセージか否かを判定した上で、その判定結果に基づき、パッセージにラベルを付与して出力する。 The output unit 109 respectively sentence from sentence storage section 110 and the passages storage unit 113, reads the passage candidates, after determining whether the unknown passage or not, based on the determination result, and outputs the applied labels to passage. ここで不明パッセージとは、どのパッセージと連結するか判定できなかった文またはパッセージ候補を指す。 Here, the unknown passage, refers to a sentence or passage candidates could not be determined whether connected with any passage. 不明パッセージの判定方法については後述する。 It will be described later method of determining the unknown passage.

図2は本実施例に係るパッセージ分割装置で実行されるパッセージ分割プログラムの動作を示すフロー図である。 Figure 2 is a flow diagram illustrating the operation of the passage divided program executed by the passage dividing device according to this embodiment. 以下、図2を用いてパッセージ分割プログラムの動作の一例について説明する。 Hereinafter, an example of the operation of the passage dividing program will be described with reference to FIG.
ここでは例として、二つのパッセージを含むドキュメントが入力された場合について述べるが、入力されるドキュメント中のパッセージ数は二つ以上であっても良く、以後の処理は同じであるので、二つのパッセージを含むドキュメントを例にして説明する。 In our example, if we describe the case where a document containing two passages is input, passage number in the document to be input it may be two or more, since the subsequent processing is the same, the two passages documents that contain will be described as an example.

第一のパッセージに含まれる文をa ,a ,…,a 、第二のパッセージに含まれる文をb ,b ,…,b と定義する。 A 1, a 2 statements contained in the first passage, ..., a N, the statements contained in the second passage b 1, b 2, ..., is defined as b M. ここでNは第一のパッセージに含まれる文の数(自然数)、Mは第二のパッセージに含まれる文の数(自然数)である。 Where N is the number of sentences contained in the first passage (natural number), M is the number of sentences contained in the second passage (natural number).

まず、ステップ201で入力部102からドキュメントが入力される。 First, the document is input from the input unit 102 at step 201.
ステップ202では入力されたドキュメントが、文分割部103により文単位に分割され、文記憶部110に記憶される。 Step 202 the input document is divided by the sentence dividing unit 103 into sentences, stored in the sentence memory unit 110.

ステップ203では文記憶部110に記憶された全ての文a ,a ,…,a 、b ,b ,…,b を特徴量算出部104に入力し、先に説明した通り、ドキュメントベクトルを得る。 Step 203 All statements a 1 stored in the sentence memory unit 110 in, a 2, ... as, a N, b 1, b 2, type ..., a b M to the feature amount calculating unit 104, previously described to obtain the document vector. ドキュメントベクトルの算出方法としては、例えば、コサイン尺度を用いる方法が挙げられる。 The method of calculating the document vector, for example, a method of using the cosine measure. コサイン尺度とは二つのベクトルの類似度を計る手法の一つとして用いられるものである。 The cosine measure is used as a method to measure the similarity of two vectors. 二つのベクトルQ、Pのコサイン尺度は以下の式1で計算される。 Two vectors Q, cosine measure of P is calculated by Equation 1 below.

本実施例においては、上述の通り、類似するドキュメントの検索に単語ベクトルを用いる。 In the present embodiment, as described above, use of the word vectors in the search for documents similar. そこで、例えば、コーパス部111に記憶された各ドキュメントに対して、含まれる単語の出現頻度を要素とする単語ベクトルW (0≦i<S )を作成しておく。 Therefore, for example, previously created for each document stored in the corpus 111, the word and the word frequency contained element vector W i a (0 ≦ i <S D) . 入力された文についても同様に単語ベクトル化し、W currentとする。 Similarly words vectorized also input sentence, and W current. 単語ベクトルW currentと、単語ベクトルW (0≦i<S )のコサイン尺度を計算し、得られた類似度が高いドキュメントからL番目(Lは所定の自然数)までのドキュメントを得て、ドキュメントベクトル化し、特徴量記憶部112に蓄積する。 A word vector W current, the cosine measure of word vector W i (0 ≦ i <S D) was calculated, L th from the obtained similarity is high document (L is a predetermined natural number) to obtain the document up, documented vectorized and stored in the feature amount storage unit 112.

尚、ここでは類似度計算の例として、コサイン尺度を用いたが、その他の尺度を用いて、類似度を計算しても良い。 As an example of similarity calculation here, was used cosine measure, using other measures may be calculated similarity. ドキュメントベクトルの各要素の値としては、図6の(a)、(b)で説明したように、選定されたドキュメントは1、その他のドキュメントは0としても良いし、算出された類似度を用いるなど、なんらかの重み付けを行っても良い。 The value of each element of the document vector, in FIG. 6 (a), as described in (b), is selected document 1, to other documents may be 0, using the calculated degree of similarity etc., may be subjected to some kind of weighting.

次にステップ204では、特徴量記憶部112に蓄積されているドキュメントベクトルを二つ読み出し、類似度計算部105を用いて、最も類似度の高いドキュメントベクトルの組V ,V を見つける。 In step 204, it reads two documents vector stored in the feature storage unit 112, by using the similarity calculation unit 105 finds the set V i, V j of a high document vector most similarity. この場合における類似度の計算方法としては、上述したコサイン尺度等を用いても良いし、二つのドキュメントベクトルの両方に存在する要素、すなわち共通要素の数などを用いても良い。 As the method of calculating the similarity in the case, may be used cosine measure, etc. described above, elements present in both of the two documents vector, i.e. may be used and the number of common elements.

ステップ205では、類似度計算部105が、ステップ204で算出した最大類似度が、予め設定した閾値以上か否かを判定する。 In step 205, the similarity calculation unit 105, the maximum degree of similarity calculated in step 204, whether the threshold value or more set in advance is determined. 閾値は予め設定した固定値でも良いし、ステップ204で類似度を計算した際に、計算した類似度の平均や分散を計算しておき、これを用いても良い。 It threshold may be a fixed value set in advance, when calculating the degree of similarity in step 204, the calculated similarity of the mean and variance advance calculated, this may be used.

ステップ206およびステップ207は検索クエリ生成部106にて行われる。 Step 206 and step 207 is performed in the search query generation unit 106. ステップ206では、ステップ204で算出された最大類似度が閾値以上である場合、ドキュメントベクトルの組V ,V の共通要素を抽出し、これをドキュメントベクトルの共通要素V ijとする。 In step 206, if the maximum similarity calculated in step 204 is equal to or greater than the threshold value, extract the common elements of the set V i, V j of document vectors, this is the common element V ij document vector.

ステップ207では、ステップ206で得られた共通要素V ijから検索クエリを生成する。 In step 207, it generates a search query from a common element V ij obtained in step 206. 検索クエリの生成方法としては、例えばTFIDFを用いた方法が挙げられる。 As a method of generating a search query, a method using, for example, TFIDF. TFIDFとは単語に関する重みの一種である。 The TFIDF is a kind of weight for word. TF(Term Frequency)とIDF(InVerse Document Frequency)はそれぞれ次の式で表され、TFIDFはTFとIDFの積で求められる。 TF (Term Frequency) and IDF (InVerse Document Frequency) is respectively represented by the following formula, TFIDF is determined by the product of TF and IDF.

ここでn はドキュメントdにおける単語iの出現回数、|D|は総ドキュメント数、|{d:t ∈d}|は単語t を含むドキュメント数である。 Where n i is the number of occurrences of the word i in document d, | D | total number of documents, | {d: t i ∈d } | is the number of documents that contain the word t i. 本実施例においては、総ドキュメント数Dはコーパス部111に記憶されている全ドキュメント数に相当する。 In the present embodiment, the total number of documents D corresponds to the total number of documents stored in the corpus 111.

ドキュメントdに対して、形態素解析部114を用いて形態素解析を行い、TFIDFが大きい順にS 個の単語を抽出し、これを検索クエリとする。 The document d, performs morphological analysis by using the morphological analysis unit 114 extracts S W number of words in order TFIDF is large, a search query for this. TFIDF以外でも、例えば出現頻度の多さで重要度を決めても良いし、ドキュメントのタイトルをクエリとしても良いし、その他の方法で検索クエリを生成しても良い。 Other than TFIDF, for example, may be determined the importance of a multi-of frequency of occurrence, to a document of title may be as a query, may generate a search query in other ways.

ステップ208では、ステップ207で生成された検索クエリを、制御部101を介して特徴量算出部104に入力し、特徴量算出部104において、新たなドキュメントベクトルV' ijを得る。 In step 208, a search query generated in step 207, and input to the feature amount calculating unit 104 via the control unit 101, the feature amount calculating section 104 to obtain a new document vector V 'ij.

続いて、新たに得られたドキュメントベクトルV' ijの信頼度の計算等を実行するステップ209およびステップ210を実行する。 Subsequently, it executes step 209 and step 210 executes the calculation or the like of the reliability of the newly obtained document vector V 'ij. これらのステップ209およびステップ210は、図1に示した特徴量更新部107にて実行される。 These steps 209 and step 210 is executed by the feature amount updating unit 107 shown in FIG. まず、ステップ209では、ステップ208で得られたドキュメントベクトルV' ijの信頼度を計算し、その結果に応じて、ドキュメントベクトルのベクトルサイズを修正する。 First, in step 209, the reliability of the resulting document vector V 'ij at step 208 to calculate, according to the result, to modify the vector size of the document vector.

本実施例において信頼度とは、ドキュメントベクトルV' ijに共通要素V ijの要素がどれだけ含まれているかを数値化した指標である。 The confidence in this embodiment, an index element common elements V ij is digitizing it contains much to a document vector V 'ij. 信頼度の算出としては、例えばドキュメントベクトルV' ijがドキュメントベクトルの組V ,V の共通要素V ijの要素をいくつ含んでいるかを数え上げ、共通要素V ijの要素数で割る方法が挙げられる。 The calculation of reliability, for example, the document vector V 'ij is counting whether include any number of elements of the common elements V ij pair V i, V j of document vectors, and a method of dividing the number of elements common elements V ij It is. その他にも、共通要素V ijの要素が重要度によって重み付けされている場合、重み付けされた重要度の高さに応じて信頼度を算出しても良い。 Besides, the common case where elements of the element V ij is weighted by importance, may calculate the reliability in accordance with the height of the weighted importance. 何れにしろ、この信頼度が、所定の値より低い場合、得られたドキュメントベクトルV' ijのベクトルサイズを増減する等の信頼度のフィードバックを行う。 In any case, the reliability is lower than a predetermined value, a feedback reliability, such as increasing or decreasing the vector size of the resulting document vector V 'ij.

ステップ210では、共通要素V ijを生成した際のドキュメントベクトルV ,V を、特徴量記憶部112から削除し、新たに得られたドキュメントベクトルV' ijを特徴量記憶部112に記憶させる。 In step 210, the common elements V ij document vector V i when generated, and the V j, remove from the feature amount storage unit 112 stores the document vector V 'ij newly obtained feature amount storage unit 112 .

ステップ211では、本実施例のパッセージ分割方法のために、パッセージ更新部108にて、V ,V に対応する二つの文またはパッセージ候補を連結する。 In step 211, for the passage dividing method of this embodiment, by passages updating unit 108, V i, connecting the two statements or passage candidates corresponding to V j. 一度も連結されていない文は文記憶部110に記憶されている。 Statements that have never been connected is stored in the sentence memory unit 110. 文が連結された場合、連結前の文を文記憶部110から削除する。 If the statement is linked, deleting the sentence before connecting the sentence storage unit 110. パッセージ候補と文が連結された場合、あるいはパッセージ候補同士が連結された場合には、連結前の文の削除のみならず、連結前のパッセージ候補をパッセージ記憶部113から削除する。 If passage candidates and statement is connected, or if the passage candidate each other are connected not only remove the sentence before connecting, deleting the passage candidates before connecting the passages storage unit 113. 連結された文またはパッセージ候補は新たなパッセージ候補としてパッセージ記憶部113に記憶する。 Linked sentence or passage candidates stored in the passage memory unit 113 as a new passage candidates.

本実施例のパッセージ分割方法、装置においては、図2のフローにおいて、ステップ204からステップ211を繰り返すことで、目的とするパッセージを作成する。 Passage division method of this embodiment, the device, in the flow of FIG. 2, by repeating step 211 from step 204, to create a passage of interest. そして、ステップ205において、二つのドキュメントベクトルの最大類似度が所定の閾値未満の場合、パッセージの作成を終了するため、ステップ212を実行する。 Then, in step 205, if the maximum similarity between two documents vector is less than the predetermined threshold value, for terminating the creation of passages, it executes step 212.

ステップ212は、出力部109にて実行され、不明パッセージの判定とパッセージの出力を行うステップである。 Step 212 is executed by the output unit 109, a step of outputting the unknown passage of determination and passages. 不明パッセージの判定方法の一例として、文またはパッセージ候補の中に含まれる形態素数を調べる方法がある。 As an example of the unknown passage determination method, there is a method to examine the number of morphemes contained in the sentence or passage candidates. 文またはパッセージ候補の中に含まれる形態素数が少ない場合、ドキュメントベクトルが適切に作成されず、連結が難しい場合がある。 If the number of morphemes contained in the sentence or passage candidates is small, the document vectors are not properly created, it may coupling difficult. よって、スッテプ21において、残された文またはパッセージ候補に含まれる形態素数がある閾値以下の場合、出力部409は、不明パッセージのラベルをつけて出力し、処理フローを終了する。 Therefore, in Suttepu 21, when remaining sentence or threshold below which there is a number of morphemes contained in passages candidate output unit 409, and outputs the label of the unknown passage, the processing flow is ended.

図3は本実施例において、ドキュメントベクトルの類似度に応じて、文が連結されていく様子を模式的に示した一例である。 Figure 3 In this embodiment, depending on the similarity of a document vector, how the sentence will be connected is an example schematically showing. 図2のステップ205における閾値は“10”とする。 Threshold in step 205 of FIG. 2 is a "10".
一度目の類似度算出結果が301である。 First time the similarity calculation result is 301. 結果301の中で最も類似度が高いのは、a とa の組の類似度40である。 Result 301 The highest similarity among is a set of similarity 40 of a 2 and a 3.

よってこの組に対して図2のステップ205からステップ211の処理を行い、再度図2のステップ204に戻る。 Therefore performs steps 205 from step 211 of FIG. 2 with respect to this set, the flow returns to step 204 of FIG. 2 again. 連結された結果をa 23と表す。 The ligated Results are expressed as a 23. 同様に結果302ではb とb 、結果303ではa とa 23が類似度の最も高い組として選定され、図2のステップ205から図2のステップ211の処理が行われる。 Similarly results 302 in b 1 and b 2, the results 303 a 1 and a 23 are selected as the highest set of similarity, the process of step 211 of FIG. 2 is performed from step 205 of FIG. 閾値を10と設定したので、結果304で選ばれる組はなく、パッセージの作成が完了する。 Since the threshold is set to 10, no pairs chosen in the result 304, passage of creation is completed.

以上詳述した実施例1によれば、意味の近い文、すなわち、特徴量が似た文を含む複数のパッセージが、一つの文書に含まれる場合でも、複数のパッセージを正しく分割することが可能となり、更には、文書の自動要約や文書検索のための自動キーワード抽出など。 According to the first embodiment described the above, close sentence meaningless, i.e., a plurality of passages, including a statement by the feature is similar, even if contained in a single document, can be divided into a plurality of passages correctly next, even, such as automatic keyword extraction for summarization and document retrieval of documents.

実施例2は類似度計算に単語ベクトルを、類似文書検索にも単語ベクトルを用いたパッセージ分割方法、装置、及びプログラムの実施例である。 The Example 2 word vector similarity calculation, passage dividing method using the word vectors in the similar document search, which is an embodiment of the apparatus, and a program.
図4は実施例2に係るパッセージ分割装置の機能ブロック図である。 Figure 4 is a functional block diagram of a passage dividing apparatus according to the second embodiment. 同図のパッセージ分割装置のハードウェア構成も、実施例1の図1Aの装置同様、図1Bに示したコンピュータ等で実現できることは言うまでもなく、ここではハードウェア構成の図示説明を省略する。 Also the hardware configuration of the passage dividing apparatus in the figure, similar apparatus of FIG. 1A in Example 1, it goes without saying that can be realized by a computer or the like shown in FIG. 1B, not shown description of the hardware configuration here.

入力部402と、文分割部403と、パッセージ更新部408と、出力部409と、文記憶部410と、特徴量記憶部412と、パッセージ記憶部413と、形態素解析部414とは実施例1の対応するブロックと共通であるので、実施例1と異なる、コーパス部411と、特徴量算出部404と、類似度計算部405と、検索クエリ生成部406と、特徴量更新部407についてのみ説明する。 An input unit 402, a sentence dividing unit 403, a passage updating unit 408, an output unit 409, a sentence storage section 410, a feature storage unit 412, a passage storage unit 413, the morphological analysis unit 414 Example 1 because of a the corresponding block in common, different from the first embodiment, the corpus 411, a feature amount calculation unit 404, a similarity calculation unit 405, a search query generation unit 406, the characteristic value update section 407 only description to. なお、形態素解析部414は特徴量算出部404に接続される。 Incidentally, the morphological analysis unit 414 is connected to the feature quantity calculation unit 404.

コーパス部411には、例えば新聞記事などのドキュメントの集合やシソーラス、あるいはその両方を用いる。 The corpus unit 411, for example documents of the set and thesaurus, such as newspaper articles or both, used.

特徴量算出部404は、文記憶部410から読み込んだ文に対し、形態素解析部414を用いて形態素解析を行い、文を単語ベクトルへ変換する。 Feature amount calculation unit 404, to read text from the text storage unit 410, performs a morphological analysis by using the morphological analysis unit 414, converts the text into word vectors. 単語ベクトルの要素数が十分でない場合にはコーパス部411を使用して要素数を増やす方法が有効である。 If the number of elements of word vectors is not sufficient method for increasing the number of elements using the corpus 411 is valid. 例えばコーパスとしてシソーラスを用いた場合、入力文から得られた各単語をクエリとして類義語を検索し、結果として得られた類義語を単語ベクトルに追加する。 For example, in the case of using the thesaurus as corpus, it searches the synonyms for each word obtained from the input sentence as a query, to add synonyms resulting word vector. またコーパスとしてドキュメントの集合を用いた場合、入力文から得られた単語ベクトルに、コーパス内の各ドキュメントから抽出した単語ベクトルを追加することができる。 In the case of using a collection of documents as a corpus word vector obtained from the input sentence, it is possible to add a word vectors extracted from each document in the corpus.

単語ベクトルの要素を追加する方法の他の例として、上位数件のドキュメントからTFIDF等を用いて重要語を抜き出し、単語ベクトルに追加する方法が挙げられる。 As another example of how to add elements of word vectors, extracted key words with TFIDF like from a few top-ranked document, and a method of adding the word vectors. これに限らず、他の方法で文に関連する単語を得て追加して、単語ベクトルの要素数を十分にしてもよい。 Not limited thereto, and add to give the words related sentences in other ways, may be sufficiently the number of elements of a word vector. そして、得られた単語ベクトルを特徴量記憶部412に記憶する。 Then, stored in the feature storage unit 412 the resulting word vector. また検索クエリ生成部406から、制御部401を介して単語ベクトルが特徴量算出部404に与えられた場合も、同様の方法で単語ベクトルの要素数を拡充し、特徴量記憶部112に記憶すると共に、制御部401を介して特徴量更新部407へ単語ベクトルを出力する。 Also from the search query generation unit 406, even if the word vector via the control unit 401 is given to the feature quantity calculation unit 404, to expand the number of elements of word vectors in the same manner, stored in the feature storage unit 112 together, and it outputs the word vectors to the feature amount updating unit 407 via the control unit 401.

本実施例の類似度計算部405は、制御部401の指定に基づいて、二つの単語ベクトルを特徴量記憶部412から読み出し、二つの単語ベクトルの類似度を計算する。 Similarity calculation unit 405 of this embodiment, based on specification of the control unit 401 reads out from the feature amount storage unit 412 a two word vectors, to calculate the similarity of two word vectors. 類似度の計算方法としては、例えば、上述したコサイン尺度等が挙げられる。 The method of calculating the similarity, for example, the cosine measure, etc. described above.

本実施例の検索クエリ生成部406は、制御部401の指定に基づいて、二つの単語ベクトルを特徴量記憶部412から読み出し、二つの単語ベクトルに共通する単語群をコーパス411から抽出する。 Search query generation unit 406 of this embodiment, based on specification of the control unit 401 reads out from the feature amount storage unit 412 a two word vectors, to extract a group of words that are common to the two word vector from the corpus 411. 抽出された共通する単語群から単語ベクトルを作成し、制御部401を介して特徴量算出部404に出力する。 Create word vectors from the extracted common word group, and outputs the feature quantity calculation unit 404 via the control unit 401.

特徴量更新部407は、制御部401の指定に基づいて二つの単語ベクトルV ,V を特徴量記憶部412から読み出す。 Characteristic value update section 407 reads out two words vector V i, the V j from the feature amount storage unit 412 based on specification of the control unit 401. また制御部401から一つの単語ベクトルV が入力される。 The single word vector V k is input from the control unit 401. 入力された三つの単語ベクトルV ,V ,V から信頼度を計算し、信頼度に基づいてV のベクトルサイズを修正する。 Three word vector V k input, V i, to calculate the reliability of V j, modifies the vector size V k based on the reliability. その後V ,V を特徴量記憶部412から削除し、V を特徴量記憶部412に記憶する。 Then remove V i, the V j from the feature amount storage unit 412 stores when V k in the feature amount storage unit 412.

図5は実施例2に係るプログラムの動作を示した処理フロー図である。 Figure 5 is a process flow diagram illustrating the operation of the program according to the second embodiment. 実施例1では、類似度計算としてドキュメントベクトルを用いているが、実施例2では上述の通り、単語ベクトルを用いており、その点が実施例1と異なるが、それ以外の動作は実施例1と同様である。 In the first embodiment, is used a document vector as similarity calculation, as described above in Example 2, and using a word vector differs the point is that of Example 1, other operations Example 1 is the same as that.

実施例2によれば、意味の近い文、即ち、特徴量が似た文を含む複数のパッセージが、一つの文書に含まれる場合でも、パッセージを正しく分割することが可能となる。 According to Example 2, close sentence meaningless, i.e., a plurality of passages, including a statement by the feature is similar, even if contained in a single document, it is possible to correctly divide the passage.

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。 The present invention is not limited to the embodiments described above, but includes various modifications. 例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。 For example, embodiments described above are those described in detail in order to better illustrate the present invention but are not necessarily limited to those having all of the structure of the description. また、ある実施例の構成に他の実施例の構成を加えることが可能である。 Further, it is possible to add a configuration of another embodiment to the configuration of an embodiment. また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 A part of the configuration of each embodiment may be added, deleted, or replaced for other configurations.

上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。 Each configuration described above, functions, processing unit, the processing unit or the like, part or all, for example may be implemented by hardware such as by designing an integrated circuit. また、上記の各構成、機能等は、それぞれの機能を実現するプログラムを実行することによりソフトウェアで実現する場合を例示して説明したが、各機能を実現するプログラム、テーブル、ファイル等の情報はメモリのみならず、ハードディスク、SSD(Solid State DriVe)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体におくことができるし、必要に応じてネットワーク等を介してダウンロード、インストールすることも可能である。 Further, the above constitutions, functions, etc., has been described as an example the case of realizing by software by executing a program for realizing the respective functions, the program for realizing each function, a table, the information such as a file not memory only, a hard disk, SSD (Solid State DriVe) storage device such as, or, IC card, SD card, to be able to put on a recording medium such as a DVD, downloaded via a network or the like, if necessary, install it is also possible to.

11 CPU 11 CPU
12 記憶部13 入出力部14 通信部100、400 パッセージ分割装置101、401 制御部102、402 入力部103、403 文分割部104、404 特徴量算出部105、405 類似度計算部106、406 検索クエリ生成部107、407 特徴量更新部108、408 パッセージ更新部109、409 出力部110、410 文記憶部111、411 コーパス部112、412 特徴量記憶部113、413 パッセージ記憶部114、414 形態素解析部 12 storage unit 13 input-output unit 14 communication unit 100, 400 Passage split device 101, 401 control unit 102, 402 input unit 103,403 sentence dividing unit 104,404 feature calculation unit 105,405 similarity calculator 106, 406 search query generation unit 107, 407 characteristic value update section 108,408 passages updating unit 109,409 output unit 110, 410 sentence storage unit 111,411 corpus portion 112,412 feature storage unit 113,413 passages storage unit 114,414 morphological analysis part

Claims (14)

  1. 処理部により、ドキュメントをパッセージに分割するパッセージ分割方法であって、 The processing unit, a passage dividing method for dividing the document into passages,
    前記処理部は、 Wherein the processing unit,
    前記ドキュメントを文単位に分割し、 Dividing the document to the sentence,
    分割した前記文をクエリとして、予め記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、 The divided the statement as a query, a plurality of documents stored in advance, extracts the associated document, creates a feature quantity,
    作成した前記特徴量の内の二つの特徴量の類似度が所定の閾値以上である、当該二つの特徴量の共通要素を用いて特徴量を更新 Two features of similarity among the feature amount created is equal to or greater than a predetermined threshold value, and updates the feature amount using the common elements of the two feature quantities,
    前記特徴量の類似度が所定の閾値以上である、当該二つの特徴量に対応する前記文、あるいはパッセージ候補を連結して新たなパッセージ候補とし、 Similarity of the feature amount is equal to or greater than a predetermined threshold, the sentence corresponding to the two feature quantities or by connecting passages candidates, as a new passage candidates,
    前記特徴量の更新は前記新たなパッセージ候補の特徴量を得るものである Updating of the feature amount is to obtain a characteristic quantity of the new passage candidates
    ことを特徴とするパッセージ分割方法。 Passage division wherein the.
  2. 請求項1に記載のパッセージ分割方法であって、 A passage dividing method according to claim 1,
    前記処理部は、 Wherein the processing unit,
    前記特徴量として、ドキュメントベクトルを用いる、 As the feature amount, using a document vector,
    ことを特徴とするパッセージ分割方法。 Passage division wherein the.
  3. 請求項2に記載のパッセージ分割方法であって、 A passage dividing method according to claim 2,
    前記処理部は、 Wherein the processing unit,
    前記二つの特徴量である、二つのドキュメントベクトルV ,V の類似度が所定の閾値以上である場合、二つの前記ドキュメントベクトルV ,V の共通要素V ijを抜き出し、検索クエリを生成 The are two feature amounts, two document vectors V i, if the similarity of V j is greater than a predetermined threshold value, two of the document vector V i, extracting the common elements V ij of V j, the search query generated,
    生成した前記検索クエリを用いて、新たなドキュメントベクトルV' ij を得る、 Generated by using the search query, obtain a new document vector V 'ij,
    ことを特徴とするパッセージ分割方法。 Passage division wherein the.
  4. 請求項3に記載のパッセージ分割方法であって、 A passage dividing method according to claim 3,
    前記処理部は、 Wherein the processing unit,
    前記新たなドキュメントベクトルV' ij が、前記共通要素V ij の要素を含む度合いに対応して、前記新たなドキュメントベクトルV' ij のベクトルサイズを修正する、 The new document vector V 'ij is the corresponding to the degree that contains the elements of the common elements V ij, the new document vector V' to modify the vector size ij,
    ことを特徴とするパッセージ分割方法。 Passage division wherein the.
  5. 請求項3に記載のパッセージ分割方法であって、 A passage dividing method according to claim 3,
    前記処理部は、 Wherein the processing unit,
    前記新たなドキュメントベクトルV' ij に対応する前記文、あるいはパッセージ候補 The statement corresponding to the new document vector V 'ij or passage candidates,
    として、二つの前記ドキュメントベクトルV ,V に対応する前記文、あるいはパッセージ候補を連結して、新たなパッセージ候補とする、 As the sentence corresponding to two of the document vector V i, V j or by connecting the passage candidates, as a new passage candidates,
    ことを特徴とするパッセージ分割方法。 Passage division wherein the.
  6. 請求項1に記載のパッセージ分割方法であって、 A passage dividing method according to claim 1,
    前記処理部は、 Wherein the processing unit,
    前記特徴量として、単語ベクトルを用いる、 As the feature amount, using the word vectors,
    ことを特徴とするパッセージ分割方法。 Passage division wherein the.
  7. 請求項6に記載のパッセージ分割方法であって、 A passage dividing method according to claim 6,
    前記二つの特徴量である、二つの単語ベクトルV ,V の類似度が所定の閾値以上である場合、二つの前記単語ベクトルV ,V の共通要素V ij を抜き出し、検索クエリを生成し、 The are two feature amounts, two words vector V i, if the similarity of V j is greater than a predetermined threshold value, the two said word vector V i, extracting the common elements V ij of V j, the search query generated,
    生成した前記検索クエリを用いて、新たな単語ベクトルV' ij を得る、 Generated by using the search query, obtain a new word vector V 'ij,
    ことを特徴とするパッセージ分割方法。 Passage division wherein the.
  8. 請求項7に記載のパッセージ分割方法であって、 A passage dividing method according to claim 7,
    前記処理部は、 Wherein the processing unit,
    前記新たな単語ベクトルV' ij が、前記共通要素V ij の要素を含む度合いに対応して、前記新たな単語ベクトルV' ij のベクトルサイズを修正する、 The new word vector V 'ij is, in response to the degree that contains the elements of the common element V ij, the new word vector V' to modify the vector size ij,
    ことを特徴とするパッセージ分割方法。 Passage division wherein the.
  9. 請求項8に記載のパッセージ分割方法であって、 A passage dividing method according to claim 8,
    前記処理部は、 Wherein the processing unit,
    前記新たな単語ベクトルV' ij に対応する前記文、あるいはパッセージ候補として、二つの前記単語ベクトルV ,V に対応する前記文、あるいはパッセージ候補を連結して、新たなパッセージ候補とする、 The statement corresponding to the new word vector V 'ij or as passages candidates, the statement corresponding to two of said word vector V i, V j or by connecting the passage candidates, as a new passage candidates,
    ことを特徴とするパッセージ分割方法。 Passage division wherein the.
  10. 入力されるドキュメントをパッセージに分割するパッセージ分割装置であって、 A document input to a passage dividing device for dividing the passage,
    処理部と記憶部とを備え、 Comprising a processing unit and a memory unit,
    前記処理部は、 Wherein the processing unit,
    前記ドキュメントを文単位に分割し、 Dividing the document to the sentence,
    分割した前記文をクエリとして、予め前記記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出して、特徴量を作成し、 The divided the statement as a query, a plurality of documents stored in advance in the storage unit, and extract the relevant document, creates a feature quantity,
    作成した前記特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新し、 Two similarity of the feature amount created is equal to or greater than a predetermined threshold value, and updates the feature amount using the common elements of the feature quantity,
    前記特徴量の類似度が所定の閾値以上である、当該二つの特徴量に対応する文またはパッセージ候補を連結して新たなパッセージ候補とし、 Similarity of the feature amount is equal to or greater than a predetermined threshold value, by connecting the sentence or passage candidates corresponding to the two feature amounts as a new passage candidates,
    前記特徴量の更新は前記新たなパッセージ候補の特徴量を得るものである Updating of the feature amount is to obtain a characteristic quantity of the new passage candidates
    ことを特徴とするパッセージ分割装置。 Passage dividing device, characterized in that.
  11. 請求項10に記載のパッセージ分割装置であって、 A passage dividing apparatus according to claim 10,
    前記処理部は、 Wherein the processing unit,
    前記特徴量として、関連する前記ドキュメントに基づく、ドキュメントベクトルあるいは単語ベクトルを用いる、 As the feature amount, based on the associated said document, using a document vector or word vector,
    ことを特徴とするパッセージ分割装置。 Passage dividing device, characterized in that.
  12. 請求項11に記載のパッセージ分割装置であって、 A passage dividing apparatus according to claim 11,
    前記処理部は、 Wherein the processing unit,
    前記二つの特徴量である、二つのドキュメントベクトル、或いは単語ベクトルV ,V の類似度が所定の閾値以上である場合、二つの前記ドキュメントベクトル、或いは単語ベクトルV ,V の共通要素V ij を抜き出し、検索クエリを生成し、 Common elements of the are two feature amounts, two document vectors, or word vector V i, if the similarity of V j is greater than a predetermined threshold value, two of the document vector, or word vector V i, V j withdrawn V ij, to generate a search query,
    生成した前記検索クエリを用いて、新たなドキュメントベクトル、或いは単語ベクトルV' ij を得、 Generated by using the search query, obtain a new document vector, or a word vector V 'ij,
    前記新たなドキュメントベクトル、或いは単語ベクトルV' ij が、前記共通要素V ij の要素を含む度合いに対応して、前記新たなドキュメントベクトル、或いは単語ベクトルV' ij のベクトルサイズを修正する、 The new document vector, or word vector V 'is ij, the common element in response to the degree that contains the elements of V ij, the new document vector, or word vector V' to modify the vector size ij,
    ことを特徴とするパッセージ分割装置。 Passage dividing device, characterized in that.
  13. 請求項12に記載のパッセージ分割装置であって、 A passage dividing apparatus according to claim 12,
    前記処理部は、 Wherein the processing unit,
    前記新たなドキュメントベクトルV' ij に対応する前記文、あるいはパッセージ候補として、二つの前記ドキュメントベクトルV ,V に対応する前記文、あるいはパッセージ候補を連結し、新たに連結されたパッセージ候補を前記記憶部に記憶する、 The statement corresponding to the new document vector V 'ij or as passages candidates, two of the document vector V i, the sentence corresponding to V j, or connecting passages candidates, the newly linked passages candidate stored in the storage unit,
    ことを特徴とするパッセージ分割装置。 Passage dividing device, characterized in that.
  14. 処理部と記憶部とを備え、入力されるドキュメントをパッセージに分割するパッセージ分割装置の処理部で実行されるパッセージ分割プログラムであって、 Comprising a processing unit and a storage unit, a passage dividing program executed in the process section of the passage dividing device for dividing the document to be inputted to the passage,
    前記処理部を、 Said processing unit,
    前記ドキュメントを文単位に分割し、 Dividing the document to the sentence,
    分割した前記文をクエリとして、予め前記記憶部に記憶されている複数のドキュメントから、関連するドキュメントを抽出し、 The divided the statement as a query, a plurality of documents stored in advance in the storage unit, and extract the relevant document,
    抽出した前記関連するドキュメントを用いて特徴量を作成し、 Create a feature amount using the extracted the related documents and,
    作成した前記特徴量の内の二つの類似度が所定の閾値以上である、当該特徴量の共通要素を用いて特徴量を更新し、 Two similarity of the feature amount created is equal to or greater than a predetermined threshold value, and updates the feature amount using the common elements of the feature quantity,
    前記特徴量の類似度が所定の閾値以上である、当該二つの特徴量に対応する文またはパッセージ候補を連結して新たなパッセージ候補とし、 Similarity of the feature amount is equal to or greater than a predetermined threshold value, by connecting the sentence or passage candidates corresponding to the two feature amounts as a new passage candidates,
    前記特徴量の更新は前記新たなパッセージ候補の特徴量を得るものである Updating of the feature amount is to obtain a characteristic quantity of the new passage candidates
    よう動作させる、 To work as,
    ことを特徴とするパッセージ分割プログラム。 Passage dividing program, characterized in that.
JP2012095344A 2012-04-19 2012-04-19 Passage division method, apparatus, and program Active JP5869948B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012095344A JP5869948B2 (en) 2012-04-19 2012-04-19 Passage division method, apparatus, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012095344A JP5869948B2 (en) 2012-04-19 2012-04-19 Passage division method, apparatus, and program
CN201210548190.1A CN103377187B (en) 2012-04-19 2012-12-17 Paragraph Paragraph dividing and dividing means

Publications (2)

Publication Number Publication Date
JP2013222418A JP2013222418A (en) 2013-10-28
JP5869948B2 true JP5869948B2 (en) 2016-02-24

Family

ID=49462320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012095344A Active JP5869948B2 (en) 2012-04-19 2012-04-19 Passage division method, apparatus, and program

Country Status (2)

Country Link
JP (1) JP5869948B2 (en)
CN (1) CN103377187B (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288362A (en) * 2002-03-27 2003-10-10 Seiko Epson Corp Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method
JP2004145790A (en) * 2002-10-28 2004-05-20 Advanced Telecommunication Research Institute International Segmentation method of document and computer program therefor
JP2004164036A (en) * 2002-11-08 2004-06-10 Hewlett Packard Co <Hp> Method for evaluating commonality of document
CN101231634B (en) * 2007-12-29 2011-05-04 中国科学院计算技术研究所 Autoabstract method for multi-document
CN101620596B (en) * 2008-06-30 2012-02-15 东北大学 A multi-document summarization method for query
CN102004724B (en) * 2010-12-23 2012-06-20 哈尔滨工业大学 Document paragraph segmenting method

Also Published As

Publication number Publication date
JP2013222418A (en) 2013-10-28
CN103377187A (en) 2013-10-30
CN103377187B (en) 2016-09-28

Similar Documents

Publication Publication Date Title
CN101449271B (en) Annotate search
US20070033001A1 (en) Identifying documents which form translated pairs, within a document collection
US8645289B2 (en) Structured cross-lingual relevance feedback for enhancing search results
Urvoy et al. Tracking web spam with html style similarities
JP5990178B2 (en) System and a method for keyword extraction
JPH11110416A (en) Method and device for retrieving document from data base
JP2005251206A (en) Word collection method and system for use in word segmentation
WO2008106667A1 (en) Searching heterogeneous interrelated entities
Sugiyama et al. Exploiting potential citation papers in scholarly paper recommendation
US8838650B2 (en) Method and apparatus for preprocessing a plurality of documents for search and for presenting search result
JP5316158B2 (en) The information processing apparatus, full-text search method, full-text search program, and a recording medium
JP2009110513A (en) Automatic generation of ontologies using word affinities
US20130060769A1 (en) System and method for identifying social media interactions
JP2007257644A (en) Program, method and device for acquiring translation word based on translation word candidate character string prediction
CN101055585A (en) System and method for clustering documents
JP5382651B2 (en) Word pair acquisition apparatus, the word pair acquisition method, and a program
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
US8781817B2 (en) Phrase based document clustering with automatic phrase extraction
JP2005174336A (en) Learning and use of generalized string pattern for information extraction
US20090319513A1 (en) Similarity calculation device and information search device
US8095538B2 (en) Annotation index system and method
JP2003288362A (en) Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method
US20120095984A1 (en) Universal Search Engine Interface and Application
KR20080066965A (en) Apparatus, method, and storage medium storing program for determining naturalness of array of words
Wu et al. Searching services" on the Web": A public Web services discovery approach

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140908

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160108

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5869948

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150