JP2007316743A - Partial document retrieving program, method and device - Google Patents

Partial document retrieving program, method and device Download PDF

Info

Publication number
JP2007316743A
JP2007316743A JP2006143005A JP2006143005A JP2007316743A JP 2007316743 A JP2007316743 A JP 2007316743A JP 2006143005 A JP2006143005 A JP 2006143005A JP 2006143005 A JP2006143005 A JP 2006143005A JP 2007316743 A JP2007316743 A JP 2007316743A
Authority
JP
Japan
Prior art keywords
document
partial
partial document
search
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006143005A
Other languages
Japanese (ja)
Other versions
JP2007316743A5 (en
JP4904920B2 (en
Inventor
Susumu Endo
進 遠藤
Takayuki Baba
孝之 馬場
Shuichi Shiitani
秀一 椎谷
Yusuke Uehara
祐介 上原
Shigemi Osada
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006143005A priority Critical patent/JP4904920B2/en
Publication of JP2007316743A publication Critical patent/JP2007316743A/en
Publication of JP2007316743A5 publication Critical patent/JP2007316743A5/ja
Application granted granted Critical
Publication of JP4904920B2 publication Critical patent/JP4904920B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document retrieving device easily reusing documents. <P>SOLUTION: A partial document extracting portion 2 extracts continuous paragraphs having similar appearance frequency of a word, a paragraph having a form of explaining words, a range which is frequently reused more than a set value, continuous pages including continuous numbers at the end of a title, continuous pages of similar screen configuration of the pages, and continuous pages of similar color configuration of the pages from the document input from a document acquiring portion 1 as the partial document, and the information is saved in a storing device 7 by a partial document saving portion 3. A partial document retrieving portion 4 retrieves the partial document information of the storing device 7 according to retrieval conditions input to a retrieval condition input portion 5, and outputs the partial documents satisfying the retrieval conditions from a retrieval result output portion 6. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、作成され蓄積されている文書の中から、新規文書の作成に利用できそうな部分を探し出し、容易に再利用可能とする部分文書検索装置に関する。   The present invention relates to a partial document search apparatus that searches a part that is likely to be used for creating a new document from documents that have been created and stored, and that can be easily reused.

従来、オフィス等で多くの文書が作成されており、蓄積されている。新規文書を作成する際には、既存の文書を一部修正したり、既存の文書から一部を抜き出して利用したりといった再利用が行われている。   Conventionally, many documents have been created and accumulated in offices and the like. When creating a new document, the existing document is partially modified or reused by extracting a part from the existing document and using it.

これにより、新規文書の作成の負荷が軽減されると同時に、質の良い文書を元に文書を作成することで文書の質の向上も望める。   As a result, the burden of creating a new document is reduced, and at the same time, the quality of the document can be improved by creating a document based on a good quality document.

蓄積されている既存の文書から目的の文書を探し出すことを容易にするため、蓄積されている文書から属性情報や検索式などに基づいて抽出した部分集合の文書から、単語を抽出してその出現頻度を求め、この出現頻度に基づいて単語をランキング付けして、その一部を関連キーワードとして検索条件として検索を行うことが提案されている(例えば、特許文献1参照)。   In order to make it easier to find the target document from the existing documents that have been stored, words are extracted from a subset of documents that have been extracted from the stored documents based on attribute information, search expressions, etc., and their appearance It has been proposed to obtain a frequency, rank words based on the appearance frequency, and perform a search using a part of the word as a related keyword as a search condition (see, for example, Patent Document 1).

また、文書内の図や表などのオブジェクトのサムネイル画像や文書内での位置情報を保存しておき、ユーザの指定する表や図形といったオブジェクトの種類に応じたオブジェクトのサムネイル画像の一覧を表示し、この一覧から選択されたオブジェクトを表示して再利用させることが提案されている(例えば、特許文献2参照)。
特開平11−25108号公報 特開2001−273314号公報
In addition, thumbnail images of objects such as diagrams and tables in the document and position information in the document are saved, and a list of thumbnail images of objects corresponding to the type of object such as tables and figures specified by the user is displayed. It has been proposed to display and reuse an object selected from this list (see, for example, Patent Document 2).
Japanese Patent Laid-Open No. 11-25108 JP 2001-273314 A

文書を再利用する場合には、文書全体が必要なわけではなく、その一部だけが必要になることが多い。しかしながら、特許文献1に記載のようなものでは、検索された文書からもう一度検索して必要箇所を探し、さらにその部分をコピーして新しい文書に貼り付けるなどしなければならず、手間がかかっていた。   When reusing a document, the entire document is not necessarily required, but only a part thereof is often required. However, in the case of the one described in Patent Document 1, it is necessary to search again from the searched document to find a necessary portion, and to copy the portion and paste it on a new document. It was.

また、特許文献2に記載のようなものでは、テキストは対象となっておらず、テキストの部分の再利用をするには、特許文献1のようにしなければならない。   Moreover, in the thing as described in Patent Document 2, the text is not a target, and in order to reuse the text portion, it must be as in Patent Document 1.

また、再利用したいものが、ある事柄を数行程度で表した文章とか、ある事柄を3ページ程度で表したプレゼンテーション資料のように長さを限定したい場合、文書サイズや部分要約では目的の部分の長さまでは分からないので、検索された文書の対象の部分を確認しなければならなかった。   Also, if you want to limit the length of something that you want to reuse, such as a sentence that represents a certain matter in several lines, or a presentation material that represents a certain matter in about three pages, The length of no one knows, so we had to check the target part of the retrieved document.

そこで、本発明は、文書を容易に再利用することができる文書検索装置を提供することを目的とする。   SUMMARY OF THE INVENTION An object of the present invention is to provide a document search apparatus that can easily reuse a document.

上記課題を解決する発明は、文書の中から関連する記載の範囲を抽出して部分文書とし、抽出した部分文書の情報を保存しておき、該保存された情報から入力された検索条件に一致する前記部分文書を検索して出力するものである。   The invention that solves the above-described problem is to extract a related description range from a document as a partial document, store the information of the extracted partial document, and match a search condition input from the stored information The partial document to be searched is retrieved and output.

この発明では、文書から該文書の一部分である部分文書が抽出されて保存され、この部分文書から検索条件に一致するものが検索され出力される。したがって、検索された部分文書をそのまま利用することができる。   In the present invention, a partial document that is a part of the document is extracted from the document and stored, and a document that matches the search condition is retrieved from the partial document and output. Therefore, the retrieved partial document can be used as it is.

ここで、単語の出現頻度が類似する連続した段落またはページを前記関連する記載の範囲とすることとした。   Here, continuous paragraphs or pages having similar word frequencies are defined as the related description range.

このようにすれば、単語の出現頻度が類似する連続した段落またはページが部分文書とされ、関連する記載の範囲を良好に抽出することができる。   In this way, continuous paragraphs or pages with similar word frequencies are used as partial documents, and the related description ranges can be extracted well.

また、言葉を説明する形式になっている段落またはページを前記関連する記載の範囲とすることとした。   In addition, paragraphs or pages that are in the form of explaining words are included in the scope of the related description.

このようにすれば、言葉を説明する形式になっている段落またはページが部分文書とされ、関連する記載の範囲を良好に抽出することができる。   In this way, a paragraph or page in a format that explains words is regarded as a partial document, and a related description range can be satisfactorily extracted.

また、再利用された回数が設定された回数より多い範囲を前記関連する記載の範囲とすることとした。   Further, a range in which the number of times of reuse is greater than the set number of times is set as the range of the related description.

このようにすれば、再利用された回数が設定された回数より多い範囲が部分文書とされ、関連する記載の範囲を良好に抽出することができる。   In this way, a range in which the number of times of reuse is greater than the set number of times is set as a partial document, and a related description range can be extracted satisfactorily.

また、各ページにタイトルが付けられている文書において、前記タイトルの内容に関連性がある連続したページを前記関連する記載の範囲とすることとした。   In addition, in a document in which a title is assigned to each page, consecutive pages related to the content of the title are set as the range of the related description.

このようにすれば、タイトルの内容に関連性がある連続したページが部分文書とされ、関連する記載の範囲を良好に抽出することができる。   In this way, continuous pages related to the contents of the title are made partial documents, and the related description range can be extracted well.

また、ページの画面構成が類似している連続したページを前記関連する記載の範囲とすることとした。   Further, continuous pages having similar page screen configurations are set as the related description range.

このようにすれば、ページの画面構成が類似している連続したページが部分文書とされ、関連する記載の範囲を良好に抽出することができる。   In this way, continuous pages with similar screen configurations are used as partial documents, and the related description ranges can be extracted well.

また、ページの色構成が類似している連続したページを前記関連する記載の範囲とすることとした。   Further, continuous pages having similar page color configurations are set as the related description range.

このようにすれば、ページの色構成が類似している連続したページが部分文書とされ、関連する記載の範囲を良好に抽出することができる。   In this way, continuous pages with similar page color configurations are used as partial documents, and the related description ranges can be satisfactorily extracted.

また、前記部分文書の情報として部分文書の長さを保存し、前記検索条件として部分文書の長さを入力させることとした。   Further, the length of the partial document is stored as the partial document information, and the length of the partial document is input as the search condition.

このようにすれば、部分文書の長さも含めた検索条件で部分文書が検索され、必要な長さの部分文書を検索することができる。   In this way, a partial document is searched under a search condition including the length of the partial document, and a partial document having a required length can be searched.

本発明によれば、文書から該文書の一部分である部分文書を抽出して保存し、この部分文書から検索条件に一致するものを検索して出力する。したがって、検索された部分文書をそのまま利用することができ、文書を容易に再利用することができる。   According to the present invention, a partial document that is a part of the document is extracted from the document and stored, and a document that matches the search condition is retrieved from the partial document and output. Therefore, the retrieved partial document can be used as it is, and the document can be easily reused.

また、関連する記載の範囲として、単語の出現頻度が類似する連続した段落またはページや、言葉を説明する形式になっている段落またはページや、再利用された回数が設定された回数より多い範囲や、各ページにタイトルが付けられている文書において前記タイトルの内容に関連性がある連続したページや、ページの画面構成が類似する連続したページや、ページの色構成が類似する連続したページを部分文書とすれば、関連する記載の範囲を良好に抽出することができ、文書を容易に再利用することができる。   In addition, as the range of related descriptions, continuous paragraphs or pages with similar word frequencies, paragraphs or pages in a format that explains words, and ranges where the number of reuses is greater than the set number of times Or, in a document with a title on each page, a continuous page related to the content of the title, a continuous page with a similar page screen configuration, or a continuous page with a similar page color configuration. If it is a partial document, the range of related description can be extracted well, and the document can be easily reused.

また、部分文書の情報として部分文書の長さを保存し、この長さにより検索可能としているので、必要な長さの部分文書を検索することができ、文書を容易に再利用することができる。   In addition, since the length of the partial document is stored as the partial document information and can be searched based on this length, the partial document having the required length can be searched, and the document can be easily reused. .

以下、本発明を図面を参照して説明する。
図1は本発明の一実施形態の部分文書検索装置を示す図である。
The present invention will be described below with reference to the drawings.
FIG. 1 is a diagram showing a partial document search apparatus according to an embodiment of the present invention.

図1において、本実施形態の部分文書検索装置は、再利用のための検索対象となる文書を取得する文書取得部1と、取得した文書から一部分を部分文書として抽出する部分文書抽出部2と、抽出した部分文書の情報を記憶装置7に保存する部分文書情報保存部3と、入力された検索条件に従って部分文書を検索する部分文書検索部4と、部分文書を検索する条件を入力する検索条件入力部5と、検索された部分文書の情報を出力する検索結果出力部6とを備えている。   In FIG. 1, a partial document search apparatus according to this embodiment includes a document acquisition unit 1 that acquires a document to be searched for reuse, and a partial document extraction unit 2 that extracts a part from the acquired document as a partial document. The partial document information storage unit 3 that stores the extracted partial document information in the storage device 7, the partial document search unit 4 that searches the partial document according to the input search conditions, and the search that inputs the conditions for searching the partial documents A condition input unit 5 and a search result output unit 6 that outputs information of the searched partial documents are provided.

このような部分文書検索装置において、利用者からの指示により、文書取得部1は、再利用のための検索対象となる文書を取得し、部分文書抽出部2により部分文書を抽出し、部分文書情報保存部3で部分文書の情報を記憶装置7に保存する。   In such a partial document search apparatus, in response to an instruction from a user, the document acquisition unit 1 acquires a document to be searched for reuse, extracts the partial document by the partial document extraction unit 2, and extracts the partial document. The information storage unit 3 stores the partial document information in the storage device 7.

具体的には、図2のフローチャートに示すように、文書取得部1は、利用者から指示された、コンピュータに蓄積されている全ての文書、あるフォルダ以下の文書、または文書管理システムに登録されている文書などの文書から一つの文書を取得し、部分文書抽出部2に入力する(S11)。   Specifically, as shown in the flowchart of FIG. 2, the document acquisition unit 1 is registered in all documents stored in the computer, documents in a certain folder, or a document management system instructed by the user. One document is acquired from the document such as the existing document, and is input to the partial document extraction unit 2 (S11).

部分文書抽出部2は、文書を入力されると、内容の類似性による部分文書の抽出を行う(S12)。   When the document is input, the partial document extraction unit 2 extracts the partial document based on the similarity of contents (S12).

これは、文書が複数のトピックで成り立っている場合に、その各トピックに関連して内容が類似している範囲をそれぞれ部分文書として抽出しようとするものである。トピックに関連して内容が類似する範囲を判別する方法として、単語の出現頻度による方法を使う。   In this case, when a document is composed of a plurality of topics, a range of similar contents related to each topic is extracted as a partial document. A method based on the appearance frequency of words is used as a method of discriminating a range of similar contents related to a topic.

予めトピックとして抽出したいジャンルに関連する単語をジャンルごとに分類した辞書を作成し、各文書の各段落(プレゼンテーション用文書の場合は各ページ)から作成した辞書にある単語を抽出し、各段落(あるいは各ページ)がどのジャンルの単語から構成されているかを取得する。   Create a dictionary in which words related to the genre that you want to extract as topics in advance are classified for each genre, extract words in the dictionary created from each paragraph (each page in the case of a document for presentation) of each document, Or, each page) is acquired from which genre of words.

次に、前後の段落でのジャンルの構成を比較し、類似している場合は同じトピックについて記載されていると判定し、一つの部分文書とする。   Next, the composition of the genre in the preceding and following paragraphs is compared, and if they are similar, it is determined that the same topic is described, and a partial document is obtained.

類似の判定方法としては、各ジャンルの単語の出現頻度はベクトルとみなすことができるため、各段落での各ジャンルの単語の出現頻度をベクトルとし、ジャンルごとにそのベクトル間の距離を計算し、予め設定された閾値以下の場合、類似しているとみなす。   As a similar determination method, since the appearance frequency of words of each genre can be regarded as a vector, the appearance frequency of words of each genre in each paragraph is set as a vector, the distance between the vectors is calculated for each genre, If they are below a preset threshold, they are considered to be similar.

ベクトル間の距離の計算にはユークリッド距離を使用することができる。次元数nの二つのベクトルu,v間のユークリッド距離は以下の式で計算可能である。   The Euclidean distance can be used to calculate the distance between vectors. The Euclidean distance between two vectors u and v of dimension number n can be calculated by the following equation.

また、類似度の判定にLSI(Latent Semantic Indexing)法を用いることもできる。   Further, the LSI (Latent Semantic Indexing) method can be used to determine the similarity.

LSI法は、特異値分解を利用した検索手法である。単語数t、文書数dとした場合に、全文書の単語の出現頻度を行列として表したものをHtdとした場合、特異値分解により
td=Utrrrrd
という三つの行列の積として分解する。ここで、Drrは対角行列であり、次元数rは行列の階数になる。
The LSI method is a search method using singular value decomposition. When the number of words is t and the number of documents is d, and H td is the expression frequency of words in all documents as a matrix, H td = U tr D rr V rd by singular value decomposition.
It is decomposed as the product of three matrices. Here, D rr is a diagonal matrix, and the dimension number r is the rank of the matrix.

ここで、Vrdは、階数×文書数の行列になる。この各列のベクトルが各文書の特徴になる。このベクトル間の距離が小さいほど文書が類似しているとみなすことができる。 Here, V rd will rank × document number of the matrix. Each column vector becomes a feature of each document. The smaller the distance between the vectors, the more similar the documents can be considered.

すなわち、各ジャンルの単語について各段落(または各ページ)の単語の出現頻度によりベクトルを求め、ベクトル間の距離が予め設定された閾値以下の場合、類似しているとみなす。ベクトル間の距離は、上述のユークリッド距離を用いることができる。   That is, for words of each genre, vectors are obtained from the appearance frequency of words in each paragraph (or each page), and are considered similar if the distance between the vectors is equal to or less than a preset threshold. The Euclidean distance described above can be used as the distance between the vectors.

また、予め各段落(または各ページ)がどのジャンルに属するかを判定し、同じジャンルの段落(またはページ)が続いていれば、それらをまとめて部分文書としてもよい。   In addition, it is possible to determine in advance which genre each paragraph (or each page) belongs to, and if paragraphs (or pages) of the same genre continue, they may be combined into a partial document.

この場合、各段落(または各ページ)から、ジャンルごとに分類した辞書にある単語の出現頻度を取得し、ジャンルごとの単語の出現頻度が予め設定された閾値以上である場合、その段落(またはページ)をそのジャンルに属するものとする。どのジャンルの単語の出現頻度も閾値を超えない場合は、部分文書としない。   In this case, the appearance frequency of a word in the dictionary classified by genre is acquired from each paragraph (or each page), and if the appearance frequency of the word for each genre is equal to or higher than a preset threshold, the paragraph (or Page) belongs to the genre. If the appearance frequency of words of any genre does not exceed the threshold, it is not regarded as a partial document.

例として、以下のような文書を内容の類似性で部分文書を抽出する場合を説明する。基本的な動作は文字だけの文書だけでなく、文字と画像が混ざった文書でも同様に可能である。   As an example, a case will be described in which partial documents are extracted from the following documents with content similarity. The basic operation is possible not only for text-only documents but also for text-image mixed documents.

「当研究所では、大量の画像や映像、音声等のマルチメディア情報の中から有用な情報を抽出するための手法としてマルチメディア検索技術を開発しています。マルチメディア検索では仮想3次元空間に情報を配置し、その空間を概観しウォークスルーしながら欲しい情報を検索することができます。
また、家庭やオフィスで人をサポートするロボット技術の開発も行っています。各種センサから得られる情報を元に現実空間を認識し、高度な姿勢制御アルゴリズムにより安定した二足歩行を行うことができます。」
“Our laboratory is developing multimedia search technology as a method for extracting useful information from a large amount of multimedia information such as images, video, and sound. You can search for the information you want by placing information, overviewing the space and walking through it.
We are also developing robot technology that supports people at home and in the office. Real space can be recognized based on information obtained from various sensors, and stable bipedal walking can be performed with advanced posture control algorithms. "

この文書では、マルチメディア検索とロボットという二つの異なるトピックが含まれている。   This document contains two different topics: multimedia search and robots.

最初の段落では、「画像」、「映像」、「音声」、「マルチメディア情報」などの「マルチメディア情報」のジャンルに登録された単語が現れ、この段落はマルチメディア情報関連のトピックと判定される。   In the first paragraph, words registered in the genre of “multimedia information” such as “image”, “video”, “sound”, “multimedia information” appear, and this paragraph is determined to be a topic related to multimedia information Is done.

次の段落では、「ロボット」、「姿勢制御」、「二足歩行」などの「ロボット」のジャンルに登録された単語が現れ、この段落はロボット関連のトピックと判定され、この二つの段落では、それぞれの段落のトピックが異なるため、別々の部分文書とされる。   In the next paragraph, words registered in the genre of “robot” such as “robot”, “posture control”, “biped walking” appear, and this paragraph is determined as a topic related to robots. , Because the topic of each paragraph is different, it is a separate partial document.

次に、部分文書抽出部2は、説明文による部分文書の抽出を行う(S13)。   Next, the partial document extraction unit 2 extracts a partial document based on the explanatory text (S13).

段落(プレゼンテーション用文書の場合はそのページ)が、「〜とは、」などの特定のキーワード(事柄)を解説する形式になっている場合、その段落を一つの部分文書とする。   When a paragraph (the page in the case of a presentation document) has a format that explains a specific keyword (thing) such as “to”, the paragraph is set as one partial document.

また、キーワードをより詳細に説明する場合など、一つの段落で説明が完了しない場合も考えられる。このため、以下の方法で連続した段落に説明が続いているかを判定し、説明が続いていると判定されたら、それらを一つの部分文書とする。   Also, there may be a case where the description is not completed in one paragraph, such as when describing the keyword in more detail. For this reason, it is determined whether or not the explanation is continued in the following paragraphs by the following method, and if it is determined that the explanation is continued, they are set as one partial document.

後続の段落(またはページ)と前の段落(またはページ)で出現する単語が類似している場合、説明が続いていると判定する。   If the words appearing in the subsequent paragraph (or page) and the previous paragraph (or page) are similar, it is determined that the explanation continues.

類似性の判定としては、各段落の単語の出現頻度をベクトルとし、各ベクトルのユークリッド距離が閾値以下の場合に類似しているとしたり、単語の出現頻度のベクトルの次元数を上述のLSI法により圧縮してそのユークリッド距離が閾値以下の場合に類似しているとしたりする。   The similarity is determined by using the word appearance frequency of each paragraph as a vector and similar when the Euclidean distance of each vector is equal to or less than a threshold, or by determining the number of dimensions of the word appearance frequency vector by the LSI method described above. It is assumed that it is similar to the case where the Euclidean distance is equal to or smaller than the threshold value.

なお、後続の段落(またはページ)に最初のキーワードが含まれている場合、閾値の値を上げるようにしてもよい。   If the first keyword is included in the subsequent paragraph (or page), the threshold value may be increased.

例として、以下のような文書を説明文により部分文書を抽出する場合を説明する。基本的な動作は文字だけの文書だけでなく、文字と画像が混ざった文書でも同様に可能である。   As an example, a case will be described in which a partial document is extracted from the following document using an explanatory text. The basic operation is possible not only for text-only documents but also for text-image mixed documents.

「マルチメディア検索では、画像の配置に自己組織化マップという手法を使用する。
自己組織化マップとは、ニューラルネットワークをベースとした教師なし学習方法であり、元の多次元ベクトル空間の分布をなるべく保ったまま、二次元空間に配置することができる。学習を繰り返すことで、元のベクトル空間で密度が高い部分は、二次元空間の広い範囲に配置され、ベクトル空間で密度が低い部分は、二次元空間の狭い範囲に配置される。
自己組織化マップを使用することで、元の多次元ベクトル空間の大雑把な密度分布を二次元空間上で把握することが可能になる。また、類似している物同士をなるべく近くに配置することで探しやすくすることも可能である。
次に、マルチメディア検索では、画像が表示された仮想空間上をウォークスルーして、欲しい情報を探し出す。単にウォークスルーするだけでなく、キーワード等を利用してキーワードに合致する画像を手前に目立つように表示することも可能である。」
“Multimedia search uses a technique called self-organizing map for image layout.
The self-organizing map is an unsupervised learning method based on a neural network, and can be arranged in a two-dimensional space while keeping the distribution of the original multidimensional vector space as much as possible. By repeating learning, a portion having a high density in the original vector space is arranged in a wide range of the two-dimensional space, and a portion having a low density in the vector space is arranged in a narrow range of the two-dimensional space.
By using the self-organizing map, it is possible to grasp the rough density distribution of the original multidimensional vector space on the two-dimensional space. It is also possible to make it easier to find similar objects by arranging them as close as possible.
Next, in multimedia search, the user walks through a virtual space where an image is displayed to find desired information. In addition to simply walking through, it is also possible to display an image matching the keyword prominently in the foreground using a keyword or the like. "

この文書では、二段落目で「自己組織化マップ」というキーワードを説明している。この段落では、「配置」、「ベクトル空間」、「二次元空間」、「分布」、「密度」などの単語が出現している。続く段落では、説明の元となっている「自己組織化マップ」というキーワードが出現しているだけでなく、「配置」、「ベクトル空間」、「二次元空間」、「分布」、「密度」などの単語が同様に出現している。これにより、この二つの段落は連続していて、「自己組織化マップ」を説明していると判定される。   In this document, the keyword “self-organizing map” is explained in the second paragraph. In this paragraph, words such as “placement”, “vector space”, “two-dimensional space”, “distribution”, “density” appear. In the following paragraph, not only the keyword “self-organizing map”, which is the source of the explanation, but also “placement”, “vector space”, “two-dimensional space”, “distribution”, “density” Words such as appear as well. Thus, it is determined that the two paragraphs are continuous and explain the “self-organizing map”.

その次の段落では、一転して上述の単語は出現せず、「表示」、「ウォークスルー」、「キーワード」等の単語が出現するため、この段落は連続していないと判定され、「自己組織化マップとは、」から「配置することで探しやすくすることも可能である。」までを一つの部分文書として抽出する。   In the next paragraph, the above-mentioned word does not appear in turn, and words such as “display”, “walk-through”, and “keyword” appear. Therefore, it is determined that this paragraph is not continuous, An organized map is extracted from “from” to “can be easily searched by arranging” as one partial document.

次に、部分文書抽出部2は、再利用の頻度による部分文書の抽出を行う(S14)。   Next, the partial document extraction unit 2 extracts partial documents based on the reuse frequency (S14).

利用者がある程度の期間文書作成を行っている場合、または複数の利用者が同じテーマで文書作成を行っている場合、利用者が同じ範囲を何度も再利用することが考えられる。このように再利用された回数が多い範囲を部分文書とする。   When a user has created a document for a certain period of time, or when a plurality of users are creating a document with the same theme, the user may reuse the same range many times. A range in which the number of times of reuse is large is set as a partial document.

この場合、利用者が行ったキーボード入力やマウス操作を監視し、文書編集中にコピー&ペーストやファイルの挿入などで各文書のどの部分が新しい文書に挿入されたかを記録する。この結果、予め設定された閾値以上新しい文書に挿入された範囲を部分文書とする。   In this case, the keyboard input and mouse operation performed by the user are monitored, and which part of each document is inserted into the new document by copy and paste or file insertion during document editing is recorded. As a result, a range inserted in a new document that is equal to or greater than a preset threshold is set as a partial document.

次に、部分文書抽出部2は、ページ間の関連性による部分文書の抽出を行う(S15)。   Next, the partial document extraction unit 2 extracts partial documents based on the relevance between pages (S15).

複数ページの文書で、各ページのタイトルが連番である等の関連性がある場合、関連した範囲を部分文書とする。   In the case of a multi-page document where the title of each page is a serial number or the like, the related range is set as a partial document.

例えば、タイトルが「検索手法(1)」、「検索手法(2)」、「検索手法(3)」などとなっている場合、この三つのページは関連しているとみなし、一つの部分文書とする。   For example, if the title is “search method (1)”, “search method (2)”, “search method (3)”, etc., these three pages are regarded as related, and one partial document And

関連性を判断する方法は、各ページのタイトルに使用されている文章を単語に分割し、前後のページで同じ単語が使われている割合を算出し、予め設定された閾値以上の場合にタイトルの文章が類似しており、関連していると判定する。   The method of determining the relevance is to divide the text used in the title of each page into words, calculate the percentage of the same word used in the previous and next pages, and if it is above a preset threshold, the title Are determined to be similar and related.

簡単な計算方法としては、二つのタイトル文章の単語数をそれぞれt1、t2とし、共通して使われている単語の数をcとした場合、類似度sを
s=((c/t1)+(c/t2))/2
とする。sは0から1の間の値を持ち、値が大きいほど類似しているとみなすことができる。
As a simple calculation method, when the number of words in two title sentences is t 1 and t 2 and the number of commonly used words is c, the similarity s is expressed as s = ((c / t 1 ) + (c / t 2 )) / 2
And s has a value between 0 and 1, and a larger value can be considered to be more similar.

また、タイトルの文章中の括弧内の数字のみを抽出し、その数値が一つずつ増加している範囲を関連しているとみなしてもよい。   Alternatively, only the numbers in parentheses in the title sentence may be extracted, and the range in which the numbers increase one by one may be regarded as related.

また、上述のLSI法を用い、ページのタイトルの文章に含まれる単語の出現頻度を特徴ベクトル化し、ベクトル間のユークリッド距離を計算し、予め設定された閾値以下である場合に、タイトルの文章が類似しており、関連しているとみなしてもよい。   In addition, using the LSI method described above, the appearance frequency of words included in the sentence of the title of the page is converted into a feature vector, the Euclidean distance between the vectors is calculated, and when the title sentence is equal to or less than a preset threshold, They may be considered similar and related.

また、ページ間の見た目により関連性を判定してもよい。一つの図を何ページにも渡って説明するような場合、同じような図が何度も出現する場合がある。このような場合、ページから色や形などの特徴を抽出して、その類似性により関連しているかを判定する。   Further, the relevance may be determined based on the appearance between pages. When explaining one figure over many pages, a similar figure may appear many times. In such a case, features such as color and shape are extracted from the page, and it is determined whether they are related by their similarity.

色の類似性には色ヒストグラムという手法を利用することができる。色ヒストグラムは、画像中の各画素の色をいくつかの色区分のいずれかに分類し、色区分された各色に分類された画素の割合により類似性を判定する。   A technique called a color histogram can be used for color similarity. In the color histogram, the color of each pixel in the image is classified into any of several color categories, and the similarity is determined based on the ratio of the pixels classified into each color segmented.

レイアウトの類似性には色レイアウトという手法を利用することができる。色レイアウトは、画像をいくつかの部分領域に分割し、それぞれの領域の平均色を算出し、各領域での平均色の類似性により類似性を判定する。   For layout similarity, a color layout technique can be used. In the color layout, an image is divided into several partial areas, the average color of each area is calculated, and the similarity is determined based on the similarity of the average color in each area.

また、ページの構造を解析して、各ページのどの位置に図形が配置されていて、どの位置にテキストが配置されているかという特徴を利用することもできる。この形の類似性の判定にはウェーブレット(Wavelet)変換が利用できる。ウェーブレット変換では、画像を解析し、画面上の位置とその位置における縦横斜め方向の周波数(細かい変化があるか、大きな変化があるかといった情報)を出力する。   In addition, by analyzing the structure of the page, it is possible to use the feature that the figure is arranged at which position on each page and the text is arranged at which position. Wavelet transform can be used to determine this form of similarity. In the wavelet transform, an image is analyzed, and a position on the screen and a frequency in the vertical and horizontal directions at the position (information on whether there is a small change or a large change) are output.

これらの見た目の特徴を抽出する方法の出力はベクトルとして表現できるため、類似度の算出には上述のユークリッド距離を使うことができる。   Since the output of the method for extracting the appearance features can be expressed as a vector, the above-mentioned Euclidean distance can be used for calculating the similarity.

これらの部分文書抽出のための処理は、上述の方法全てを実行してもかまわないし、複数の方法を組み合わせて実行してもかまわないし、どれか一つの方法だけにより部分文書を抽出してもよい。また、一つの文書から複数の部分文書を抽出しても、各部分文書の範囲に重なっている部分があってもかまわない。   These partial document extraction processes may execute all of the above-described methods, may be executed in combination with a plurality of methods, or may extract partial documents by any one method. Good. In addition, a plurality of partial documents may be extracted from one document, or there may be a portion overlapping the range of each partial document.

複数の部分文書抽出方法で同一の範囲の部分文書が抽出された場合は、それらをまとめて一つの部分文書としてもかまわない。   When partial documents in the same range are extracted by a plurality of partial document extraction methods, they may be combined into one partial document.

部分文書抽出部2は、このようにして抽出した部分文書の情報を部分文書情報保存部3に出力して記憶装置7に保存させる(S16)。   The partial document extraction unit 2 outputs the partial document information extracted in this way to the partial document information storage unit 3 and stores it in the storage device 7 (S16).

なお、それぞれの部分文書は、元文書とは独立した新しい文書を作成してもかまわないし、元文書中の位置や長さなどの情報だけを保存するようにしてもよい。   For each partial document, a new document independent of the original document may be created, or only information such as the position and length in the original document may be stored.

保存する情報としては、各文書情報(ファイル名(URL:Uniform Resource Locater)、作成日付、タイトル、作成者等)と各部分文書の情報(文書のID、文書中の位置、長さ、部分文書抽出方法、テキスト、画像等)があげられる。   Information to be stored includes each document information (file name (URL: Uniform Resource Locater), creation date, title, creator, etc.) and information of each partial document (document ID, position in document, length, partial document) Extraction method, text, image, etc.).

検索処理を高速化するために、予め検索用のインデックスを作成しておいてもかまわない。方法としては、一般的なテキスト検索方法(Nグラム法や形態素解析による全文検索方法等)や画像類似検索方法等を利用できる。   In order to speed up the search process, a search index may be created in advance. As a method, a general text search method (N-gram method, full-text search method by morphological analysis, etc.), an image similarity search method, or the like can be used.

また、文書を再利用している場合、部分文書単位では再利用した部分が多数現れる可能性がある。このため、複数の文書間で類似した内容の部分文書が抽出された場合、検索結果としてはどれか一つの部分文書のみを提示することが考えられる。   Further, when the document is reused, there is a possibility that many reused parts appear in the partial document unit. For this reason, when partial documents having similar contents among a plurality of documents are extracted, it is conceivable that only one partial document is presented as a search result.

この場合、上述の部分文書の情報としては代表の一つの部分文書の情報のみを登録し、その部分文書に類似した部分文書の情報は別のテーブルに保存することで検索処理を高速化することができる。なお、部分文書間の類似性を判定するには、上述の単語の出現頻度による類似性の判定やページの見た目による類似性の判定を利用できる。   In this case, only the information of one representative partial document is registered as the partial document information described above, and the partial document information similar to the partial document is stored in a separate table to speed up the search process. Can do. In order to determine the similarity between partial documents, the above-described similarity determination based on the appearance frequency of words and similarity determination based on the appearance of a page can be used.

次に、部分文書抽出部2は、利用者から指示された全ての文書を処理したかを判定し(S17)、全て処理していなければ、S11に戻り次の文書を取得する。全て処理したら終了する。   Next, the partial document extraction unit 2 determines whether all the documents instructed by the user have been processed (S17). If all the documents have not been processed, the process returns to S11 to acquire the next document. When all processing is complete, the process ends.

このようにして、利用者の指定した文書から部分文書が抽出され、その情報が記憶装置7に保存される。   In this way, the partial document is extracted from the document designated by the user, and the information is stored in the storage device 7.

図3は、一つの文書から各部分文書抽出方法により抽出される部分文書の例を示す図である。   FIG. 3 is a diagram illustrating an example of partial documents extracted from each document by each partial document extraction method.

図3の例では、再利用頻度で抽出された部分文書の一部が、内容の類似性によりまたは説明文により部分文書として抽出されており、ページ間の関連性で抽出された部分文書と同一のものが内容の類似性により抽出された部分文書となっている。   In the example of FIG. 3, a part of the partial document extracted with the reuse frequency is extracted as a partial document by the similarity of contents or by the explanatory text, and is the same as the partial document extracted by the relevance between pages. Is a partial document extracted by similarity of contents.

図4は、図3の例で抽出された部分文書による部分文書情報のデータ構成例を示す図である。この例では、ページ間の関連性と内容の類似性で抽出された同一の部分文書の情報が一つにまとめられている(5行目)。   FIG. 4 is a diagram illustrating a data configuration example of partial document information based on the partial document extracted in the example of FIG. In this example, the information of the same partial documents extracted by the relevance between pages and the similarity of contents are combined into one (5th line).

図5は、このように保存された部分文書の情報から、部分文書を検索する処理を説明するためのフローチャートである。   FIG. 5 is a flowchart for explaining a process of searching for a partial document from the partial document information thus stored.

検索条件入力部5は、利用者から検索の要求を受け付けると、図6に示すような検索条件入力画面を表示し、キーワードや類似画像や部分文書の長さや部分文書抽出時の方法などの検索条件の入力を要求する(S21)。   Upon receiving a search request from the user, the search condition input unit 5 displays a search condition input screen as shown in FIG. 6 and searches for keywords, similar images, partial document lengths, partial document extraction methods, and the like. An input of conditions is requested (S21).

部分文書の長さは、部分文書抽出処理により抽出された部分文書の長さである。長さが短いもの(簡潔)、長いもの(詳細)等、必要な情報の長さを入力することで、適切な長さの部分文書を検索することができる。   The length of the partial document is the length of the partial document extracted by the partial document extraction process. By inputting the length of necessary information such as a short one (concise) or a long one (details), a partial document having an appropriate length can be searched.

プレゼンテーション資料のようにページ数がはっきりしているタイプの文書の場合、長さの指定はページ数が好ましい。   In the case of a document with a clear number of pages, such as a presentation material, the number of pages is preferable for specifying the length.

部分文書としてページの一部も含む場合は、その領域のサイズ(あるいは、領域サイズの1ページに占める割合)などを指定できるようにしてもよい。   When a part of a page is included as a partial document, the size of the area (or the ratio of the area size to one page) may be designated.

また、文字中心の文書を含む場合は、長さとして行数を指定できるようにしてもよい。   In addition, when a text-centered document is included, the number of lines may be designated as the length.

検索時に部分文書の長さを指定することにより、詳しく説明している部分、簡単に説明している部分、3ページ程度で説明している部分のような、必要な部分の長さを指定して検索を行うことができる。   By specifying the length of the partial document when searching, specify the length of the necessary part, such as the part explained in detail, the part explained briefly, the part explained about 3 pages Search.

検索条件が入力されると、検索条件入力部5は、入力された検索条件を部分文書検索部4に入力する。   When the search condition is input, the search condition input unit 5 inputs the input search condition to the partial document search unit 4.

部分文書検索部4は、入力された検索条件に従って記憶装置7に保存されている部分文書情報から部分文書を検索し、検索条件にマッチする部分文書情報を取得し(S22)、検索結果として取得した部分文書情報を、検索結果出力部6に入力する。   The partial document search unit 4 searches the partial document information stored in the storage device 7 according to the input search condition, acquires partial document information that matches the search condition (S22), and acquires it as a search result. The partial document information is input to the search result output unit 6.

検索結果出力部6は、入力された部分文書情報に基づいて、例えば図7に示すような検索結果表示画面を出力する(S23)。   The search result output unit 6 outputs a search result display screen as shown in FIG. 7, for example, based on the input partial document information (S23).

図7の例では、部分文書の情報として、元文書のファイル名、部分文書の長さ、元文書の長さ、要約テキスト、サムネイル画像等を表示している。   In the example of FIG. 7, the file name of the original document, the length of the partial document, the length of the original document, the summary text, the thumbnail image, etc. are displayed as the partial document information.

元文書の長さと部分文書の長さの比から、部分文書と元文書の関連性を判定し、再利用のし易さ等の判定を行うことができる。   From the ratio between the length of the original document and the length of the partial document, it is possible to determine the relevance between the partial document and the original document and to determine the ease of reuse.

例えば、部分文書の長さより元文書の長さが大変長い場合は、元の文書は長いが指定したキーワードに関連している部分は少ないため、キーワードと文書全体との関連性は低いことが分かる。   For example, if the length of the original document is much longer than the length of the partial document, the relationship between the keyword and the entire document is low because the original document is long but there are few parts related to the specified keyword. .

逆に、部分文書の長さと元文書の長さがあまり違わない場合には、文書全体が関連していることが分かる。   On the contrary, when the length of the partial document and the length of the original document are not so different, it is understood that the whole document is related.

また、キーワードに関連した短い部分文書が一つの文書中に多数ある場合は、文書全体はキーワードと関連しているが、引用しにくいことなどが分かる。   In addition, when there are many short partial documents related to a keyword in one document, it can be understood that the entire document is related to the keyword but is difficult to quote.

このような画面表示中に、検索結果出力部6は、利用者が画面上の「ページを引用」と表示されたボタンをクリックして部分文書のコピーを選択したかを判定し(S24)、選択されていれば、対応する部分文書の内容をクリップボードにコピーする(S25)。   During such screen display, the search result output unit 6 determines whether the user has selected the copy of the partial document by clicking the button labeled “Cite page” on the screen (S24), If selected, the contents of the corresponding partial document are copied to the clipboard (S25).

部分文書のコピーが選択されていなければ、検索結果出力部6は、利用者が画面上の部分文書のサムネイル画像をクリックして部分文書の表示を選択したかを判定し(S26)、選択されていれば、対応するアプリケーションを起動して部分文書を表示させる(S27)。   If the copy of the partial document is not selected, the search result output unit 6 determines whether the user has selected the display of the partial document by clicking the thumbnail image of the partial document on the screen (S26). If so, the corresponding application is activated to display the partial document (S27).

部分文書の表示が選択されていなければ、検索結果出力部6は、利用者が画面上の「検索画面」と表示されたボタンをクリックして再検索を選択したかを判定し(S28)、選択されていれば、S21に戻って検索条件入力部5により検索画面を表示させる。選択されていなければ、S24に戻って部分文書のコピーが選択されたか判定する。   If the display of the partial document is not selected, the search result output unit 6 determines whether the user has selected the re-search by clicking the button labeled “Search screen” on the screen (S28), If it is selected, the process returns to S21 and the search condition input unit 5 displays the search screen. If not selected, the process returns to S24 to determine whether a copy of the partial document is selected.

このように、文書の一部分を部分文書として抽出して保存し、保存されている部分文書から利用者の条件により検索し、検索結果の表示画面からワンクリックで部分文書の内容をクリップボードにコピーしているので、検索された文書の中から目的の箇所を探すなどの文書再利用時の手間を削減させることができる。   In this way, a part of the document is extracted and saved as a partial document, searched from the saved partial document according to the user's conditions, and the content of the partial document is copied to the clipboard with one click from the search result display screen. Therefore, it is possible to reduce the trouble of reusing a document such as searching for a target portion from the retrieved documents.

なお、図7の検索結果画面で、「類似文書を表示」と表示されたボタンをクリックすると、上述の複数の文書間で類似した内容の部分文書が抽出され、部分文書の情報としては代表の一つの部分文書の情報のみを登録し、その部分文書に類似した部分文書の情報は別のテーブルに保存している場合の、別のテーブルに保存している部分文書の情報が表示され、下線が付いている元文書のファイル名をクリックすると、対応するアプリケーションが起動され元文書が表示される。   When a button labeled “Display similar documents” is clicked on the search result screen of FIG. 7, partial documents having similar contents between the plurality of documents described above are extracted. When only the information of one partial document is registered and the information of the partial document similar to that partial document is saved in another table, the information of the partial document saved in another table is displayed and underlined. When the file name of the original document with is clicked, the corresponding application is started and the original document is displayed.

図8は、検索結果表示画面の他の例を示す図である。図8の例では、検索結果の各部分文書のサムネイル画像が横方向に一列に並べられる。縦位置が異なるものが別の部分文書であり縦方向に検索結果順に並べられる。図では画像しか表示していないが、各画像の上や左に部分文書の情報を表示してもよい。   FIG. 8 is a diagram illustrating another example of the search result display screen. In the example of FIG. 8, the thumbnail images of the partial documents as search results are arranged in a line in the horizontal direction. Documents with different vertical positions are different partial documents, arranged in the vertical direction in the order of search results. Although only images are displayed in the figure, partial document information may be displayed above or to the left of each image.

この表示では、右上のウィンドウ中の矢印のボタンをクリックすることで視点を上下左右に移動することができ、「Z+」のボタンをクリックすることでズームアップし、「Z−」のボタンをクリックすることでズームバックすることができ、一部の部分文書付近を拡大して表示させたり、全体を俯瞰して表示させたりすることができる。   In this display, you can move the viewpoint up, down, left and right by clicking the arrow buttons in the upper right window, zoom in by clicking the “Z +” button, and click the “Z−” button. By doing so, it is possible to zoom back and display a portion of the partial document in an enlarged manner, or display the whole in an overhead view.

次に、本実施形態の部分文書検索装置の部分文書から雛形文書を作成する処理について説明する。   Next, processing for creating a template document from a partial document of the partial document search apparatus according to the present embodiment will be described.

例えば、会社の技術紹介など複数のトピックからなる文書を作成する場合、各トピックを説明する部分文書をつなぎ合わせて一つの文書を作成したい場合がある。このような場合、既存の紹介資料を再利用しようとしても同じトピックを紹介している文書が見つかるとは限らないため、部分文書を検索してつなぎ合わせるという作業が必要となる。   For example, when creating a document composed of a plurality of topics such as a company technology introduction, it may be desired to create a single document by connecting partial documents that explain each topic. In such a case, a document that introduces the same topic is not necessarily found even if the existing introduction material is reused. Therefore, it is necessary to search and connect the partial documents.

また、同じトピックを紹介している既存文書が見つかったとしても、紹介する相手や説明時間によって適切な説明の長さや説明文の内容が異なる場合がある(概要を短時間で説明したい場合、より詳細な技術内容まで踏み込んで説明する場合など)。   Even if an existing document introducing the same topic is found, the length of the appropriate description and the content of the description may differ depending on the person introduced and the explanation time. For example, when explaining detailed technical details).

そこで、必要なトピック項目を列挙することで、トピックに関連した部分文書を検索し、検索された部分文書から雛形文書を作成することができるようになっている。   Therefore, by enumerating necessary topic items, partial documents related to the topic can be searched, and a template document can be created from the searched partial documents.

図9は、雛形文書作成の流れを示す図である。まず利用者は、作成したい文書に必要なトピック項目を列挙した目次文書を作成する。そして、本実施形態の部分文書検索装置に雛形文書作成の指示を行う。   FIG. 9 is a diagram showing a flow of creating a template document. First, the user creates a table of contents document listing the topic items necessary for the document to be created. Then, a template document creation instruction is given to the partial document search apparatus of the present embodiment.

検索条件入力部5は、雛形文書作成の指示を受けると、図10のフローチャートに示すように、図9の2.に示すような画面を表示し、目次文書と各トピックの長さの入力を要求する(S31)。   When the search condition input unit 5 receives an instruction to create a template document, as shown in the flowchart of FIG. A screen as shown in FIG. 6 is displayed, and input of the table of contents document and the length of each topic is requested (S31).

目次文書と各トピックの長さを入力されると、検索条件入力部5は、目次文書で指定された項目から検索に使用するキーワードを抽出する(S32)。キーワード抽出には、形態素解析法などが利用できる。   When the table of contents document and the length of each topic are input, the search condition input unit 5 extracts keywords used for the search from the items specified in the table of contents document (S32). For keyword extraction, a morphological analysis method or the like can be used.

図9の例では、例えば、トピック1から「クロスメディア」、「検索」が、トピック2から「類似」、「画像」、「検索」が、トピック3から「オフィス文書」、「検索」が、トピック4から「映像」、「検索」がキーワードとして抽出される。   In the example of FIG. 9, for example, “cross media” and “search” from topic 1 are “similar”, “image”, and “search” from topic 2, and “office document” and “search” are from topic 3 From the topic 4, “video” and “search” are extracted as keywords.

それぞれのトピック項目ごとにキーワードを抽出したら、検索条件入力部5は、抽出したトピック項目ごとのキーワードと各トピックの長さを部分文書検索部4に入力する。   When keywords are extracted for each topic item, the search condition input unit 5 inputs the keyword for each extracted topic item and the length of each topic to the partial document search unit 4.

部分文書検索部4は、トピックごとに入力されたキーワードと長さを使って部分文書を検索する(S33)。   The partial document search unit 4 searches for a partial document using the keyword and length input for each topic (S33).

次に、部分文書検索部4は、検索結果として得られたトピックごとの部分文書から、適切な組み合わせの部分文書を選択する(S34)。   Next, the partial document search unit 4 selects an appropriate combination of partial documents from the partial documents for each topic obtained as a search result (S34).

トピックごとに検索された部分文書は、長さが同じでも説明のレベルが異なる場合があるため、以下の方法により適切な組み合わせを選択する。
(1)同一の文書で使用されている
部分文書の元文書が同一の文書である場合、これらの部分文書の組み合わせは適切な組み合わせであるとする。上述した部分文書の抽出時に類似した部分文書が抽出されている場合、類似した部分文書の中に元文書が同一の文書であるものがあれば、適切な組み合わせであるとする。
(2)類似した用法、単語が使用されている
トピックが異なる場合でも、同様の言葉で説明されている場合は、適切な組み合わせであるとする。上述の形態素解析を用いて単語を抽出し、共通の単語が使われている場合、適切な組み合わせであるとする。また、同様に形態素解析を用いて文の語尾を抽出し、同様の語尾(ですます調、である調の別など)のものを適切な組み合わせであるとしてもよい。
(3)類似した画面構成、色使いが使用されている
画面構成が類似している、あるいは画面の色使いが似ているものを適切な組み合わせとして選択する。画面構成の類似性や色使いの類似性の判断については、上述した部分文書抽出時のページの見た目の類似性の判断に用いた方法を使うことができる。
Since the partial documents searched for each topic may have the same length but may have different levels of explanation, an appropriate combination is selected by the following method.
(1) When the original documents of partial documents used in the same document are the same document, it is assumed that the combination of these partial documents is an appropriate combination. When similar partial documents are extracted at the time of extracting the partial documents described above, if there are similar partial documents whose original documents are the same document, it is assumed that the combination is appropriate.
(2) Similar usage, words are used Even if the topics are different, if they are explained in similar words, it is assumed that the combination is appropriate. If a word is extracted using the morphological analysis described above and a common word is used, it is assumed that the combination is appropriate. Similarly, sentence endings may be extracted using morphological analysis, and the same endings (in other words, different keys) may be combined appropriately.
(3) Similar screen configuration and color usage are used. The screen configuration is similar or the screen color usage is similar is selected as an appropriate combination. For the determination of the similarity of the screen configuration and the similarity of the color usage, the method used for the above-described determination of the appearance similarity of the page at the time of partial document extraction can be used.

部分文書検索部4は、このようにして適切な組み合わせとして選択した各トピックの部分文書を検索結果出力部6に入力する。   The partial document search unit 4 inputs the partial documents of each topic selected as an appropriate combination in this way to the search result output unit 6.

検索結果出力部6は、入力されたトピックごとの部分文書を、例えば図9の4.の上の図のようにサムネイル画像を横方向に並べて表示する(S35)。   The search result output unit 6 outputs the input partial document for each topic, for example, 4. The thumbnail images are displayed side by side in the horizontal direction as shown in FIG.

なお、適切な部分文書を複数選択してもよいようにし、例えば図9の4.の下の図のように、縦方向に複数の候補を並べて表示し、利用者に選択させるようにしてもよい。   It should be noted that a plurality of appropriate partial documents may be selected. As shown in the lower figure, a plurality of candidates may be displayed side by side in the vertical direction so that the user can select them.

そして、検索結果出力部6は、利用者が、複数候補がある場合は複数の候補の中から一つの部分文書を選択し、雛形文書作成の指示を入力すると、利用者が作成した目次文書と選択された部分文書をつなぎ合わせて雛形文書を作成し(S36)、対応するアプリケーションを起動して、雛形文書を表示させる。   Then, when there are a plurality of candidates, the search result output unit 6 selects one partial document from the plurality of candidates, and inputs a template document creation instruction. The selected partial documents are connected to create a template document (S36), and the corresponding application is activated to display the template document.

このようにして、利用者が作成した目次の項目に関連する部分文書がそれぞれ検索され、検索された部分文書の中から適切な組み合わせの部分文書が選択され、選択された部分文書により雛形文書が作成され、目次の項目を作成するだけで利用者の目的に合った雛形文書を作成することができる。   In this way, the partial documents related to the table of contents items created by the user are respectively searched, and an appropriate combination of partial documents is selected from the searched partial documents, and the template document is generated by the selected partial documents. A template document suitable for the user's purpose can be created simply by creating a table of contents item.

なお、本実施形態においては、部分文書の適切な組み合わせを選択して表示するようにしたが、単純にキーワードの類似順、あるいは再利用頻度順など何らかの順番に規定数のみ提示し、利用者に選択させるようにしてもよい。   In this embodiment, an appropriate combination of partial documents is selected and displayed. However, only a prescribed number is presented in a certain order such as the similarity order of keywords or the order of reuse frequency to the user. You may make it select.

このように本実施形態においては、文書の一部分を部分文書として抽出して保存し、保存されている部分文書から利用者の条件により検索し、検索結果の表示画面からワンクリックで部分文書の内容をクリップボードにコピーしているので、検索された文書の中から目的の箇所を探すなどの文書再利用時の手間を削減させることができる。   As described above, in this embodiment, a part of a document is extracted and saved as a partial document, searched from the saved partial document according to the user's condition, and the content of the partial document is displayed with one click from the search result display screen. Is copied to the clipboard, so that it is possible to reduce the trouble of reusing a document such as searching for a target portion from the retrieved documents.

本発明の一実施形態の部分文書検索装置を示す図であり、そのブロック図である。It is a figure which shows the partial document search device of one Embodiment of this invention, and is the block diagram. 本実施形態の部分文書抽出処理を説明するためのフローチャートである。It is a flowchart for demonstrating the partial document extraction process of this embodiment. 本実施形態の部分文書抽出の例を示す図である。It is a figure which shows the example of the partial document extraction of this embodiment. 本実施形態の部分文書情報のデータ構成例を示す図である。It is a figure which shows the example of a data structure of the partial document information of this embodiment. 本実施形態の部分文書検索処理を説明するためのフローチャートである。It is a flowchart for demonstrating the partial document search process of this embodiment. 本実施形態の検索条件入力画面の例を示す図である。It is a figure which shows the example of the search condition input screen of this embodiment. 本実施形態の検索結果表示画面の例を示す図である。It is a figure which shows the example of the search result display screen of this embodiment. 本実施形態の検索結果表示画面の他の例を示す図である。It is a figure which shows the other example of the search result display screen of this embodiment. 本実施形態の雛形文書作成の流れを示す図である。It is a figure which shows the flow of template document preparation of this embodiment. 本実施形態の雛形文書作成処理を説明するためのフローチャートである。It is a flowchart for demonstrating the template document preparation process of this embodiment.

符号の説明Explanation of symbols

1 文書取得部
2 部分文書抽出部
3 部分文書情報保存部
4 部分文書検索部
5 検索条件入力部
6 検索結果出力部
7 記憶装置
DESCRIPTION OF SYMBOLS 1 Document acquisition part 2 Partial document extraction part 3 Partial document information preservation | save part 4 Partial document search part 5 Search condition input part 6 Search result output part 7 Storage device

Claims (10)

コンピュータに、文書の中から関連する記載の範囲を抽出して部分文書とするステップ、
抽出した部分文書の情報を保存するステップ、
該保存された情報から入力された検索条件に一致する前記部分文書を検索して出力するステップ、
を実行させるためのプログラム。
Extracting a related description range from a document to a computer to form a partial document;
Storing the extracted partial document information;
Searching and outputting the partial document that matches the input search condition from the stored information;
A program for running
前記コンピュータに、単語の出現頻度が類似する連続した段落またはページを前記関連する記載の範囲とするステップ、
を更に実行させることを特徴とする請求項1に記載のプログラム。
Making the computer a series of paragraphs or pages with similar word frequencies, the scope of the related description;
The program according to claim 1, further comprising:
前記コンピュータに、言葉を説明する形式になっている段落またはページを前記関連する記載の範囲とするステップ、
を更に実行させることを特徴とする請求項1または請求項2に記載のプログラム。
Making the computer a paragraph or page in a format that explains words, the scope of the related description;
The program according to claim 1 or 2, wherein the program is further executed.
前記コンピュータに、再利用された回数が設定された回数より多い範囲を前記関連する記載の範囲とするステップ、
を更に実行させることを特徴とする請求項1から請求項3のいずれかに記載のプログラム。
A step in which a range in which the number of times of reuse is set in the computer is larger than a set number of times is the range of the related description;
The program according to any one of claims 1 to 3, wherein the program is further executed.
前記コンピュータに、各ページにタイトルが付けられている文書において、前記タイトルの内容に関連性がある連続したページを前記関連する記載の範囲とするステップ、
を更に実行させることを特徴とする請求項1から請求項4のいずれかに記載のプログラム。
In the computer, in a document in which a title is assigned to each page, a continuous page related to the content of the title is included in the related description range;
The program according to any one of claims 1 to 4, wherein the program is further executed.
前記コンピュータに、ページの画面構成が類似している連続したページを前記関連する記載の範囲とするステップ、
を更に実行させることを特徴とする請求項1から請求項5のいずれかに記載のプログラム。
The step of setting the related description to a range of pages that are similar to the computer in the screen configuration of pages,
The program according to any one of claims 1 to 5, wherein the program is further executed.
前記コンピュータに、ページの色構成が類似している連続したページを前記関連する記載の範囲とするステップ、
を更に実行させることを特徴とする請求項1から請求項6のいずれかに記載のプログラム。
Making the computer the range of the said description that the continuous page where the color composition of a page is similar,
The program according to any one of claims 1 to 6, wherein the program is further executed.
前記コンピュータに、前記部分文書の情報として部分文書の長さを保存するステップ、
前記検索条件として部分文書の長さを入力させるステップ、
を更に実行させることを特徴とする請求項1から請求項7のいずれかに記載のプログラム。
Storing the length of the partial document as information of the partial document in the computer;
Inputting a length of a partial document as the search condition;
The program according to any one of claims 1 to 7, wherein the program is further executed.
文書の中から関連する記載の範囲を抽出して部分文書とする部分文書抽出部と、
抽出した部分文書の情報を保存する部分文書情報保存部と、
該保存された情報から入力された検索条件に一致する前記部分文書を検索する部分文書検索部と、
を備えることを特徴とする部分文書検索装置。
A partial document extraction unit that extracts a related description range from a document to form a partial document;
A partial document information storage unit for storing extracted partial document information;
A partial document search unit that searches for the partial document that matches the search condition input from the stored information;
A partial document search device comprising:
文書の中から関連する記載の範囲を抽出して部分文書とするステップと、
抽出した部分文書の情報を保存するステップと、
該保存された情報から入力された検索条件に一致する前記部分文書を検索して出力するステップと、
を実行することを特徴とする部分文書検索方法。
Extracting a range of related descriptions from a document to form a partial document;
Storing the extracted partial document information;
Searching and outputting the partial document that matches the input search condition from the stored information; and
The partial document search method characterized by performing this.
JP2006143005A 2006-05-23 2006-05-23 Template document creation program, template document creation method, and template document creation device Expired - Fee Related JP4904920B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006143005A JP4904920B2 (en) 2006-05-23 2006-05-23 Template document creation program, template document creation method, and template document creation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006143005A JP4904920B2 (en) 2006-05-23 2006-05-23 Template document creation program, template document creation method, and template document creation device

Publications (3)

Publication Number Publication Date
JP2007316743A true JP2007316743A (en) 2007-12-06
JP2007316743A5 JP2007316743A5 (en) 2009-03-12
JP4904920B2 JP4904920B2 (en) 2012-03-28

Family

ID=38850568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006143005A Expired - Fee Related JP4904920B2 (en) 2006-05-23 2006-05-23 Template document creation program, template document creation method, and template document creation device

Country Status (1)

Country Link
JP (1) JP4904920B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010140209A (en) * 2008-12-11 2010-06-24 Nec Corp Retrieval system, retrieval method, and program
WO2010150900A1 (en) * 2009-06-24 2010-12-29 日本電気株式会社 Feature extraction device, feature extraction method, and program
JP2011048791A (en) * 2009-08-28 2011-03-10 Fujitsu Ltd Device, method and program for providing information
JP2015022655A (en) * 2013-07-22 2015-02-02 株式会社東芝 Electronic apparatus, method, and program
JP2015049669A (en) * 2013-08-30 2015-03-16 京セラドキュメントソリューションズ株式会社 Material evaluation program and material evaluation system
JP2016071406A (en) * 2014-09-26 2016-05-09 大日本印刷株式会社 Label grant device, label grant method, and program

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101054A (en) * 1991-10-04 1993-04-23 Fujitsu Ltd Document preparation supporting system by synthesizing component
JPH05159101A (en) * 1991-11-01 1993-06-25 Fuji Xerox Co Ltd Device and method for recognizing logical structure and contents of document
JPH07271569A (en) * 1994-03-31 1995-10-20 Hitachi Software Eng Co Ltd Program specification preparation system
JPH0923228A (en) * 1995-07-07 1997-01-21 Nec Corp Protocol multiplex communication system
JPH09160896A (en) * 1995-12-01 1997-06-20 Matsushita Electric Ind Co Ltd Multimedia editing device
JPH09231228A (en) * 1996-02-21 1997-09-05 Sharp Corp File retrieval device
JP2004259031A (en) * 2003-02-26 2004-09-16 Canon Inc Document management device
JP2005115702A (en) * 2003-10-08 2005-04-28 Fuji Xerox Co Ltd Document display device, program, and method for displaying document

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101054A (en) * 1991-10-04 1993-04-23 Fujitsu Ltd Document preparation supporting system by synthesizing component
JPH05159101A (en) * 1991-11-01 1993-06-25 Fuji Xerox Co Ltd Device and method for recognizing logical structure and contents of document
JPH07271569A (en) * 1994-03-31 1995-10-20 Hitachi Software Eng Co Ltd Program specification preparation system
JPH0923228A (en) * 1995-07-07 1997-01-21 Nec Corp Protocol multiplex communication system
JPH09160896A (en) * 1995-12-01 1997-06-20 Matsushita Electric Ind Co Ltd Multimedia editing device
JPH09231228A (en) * 1996-02-21 1997-09-05 Sharp Corp File retrieval device
JP2004259031A (en) * 2003-02-26 2004-09-16 Canon Inc Document management device
JP2005115702A (en) * 2003-10-08 2005-04-28 Fuji Xerox Co Ltd Document display device, program, and method for displaying document

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010140209A (en) * 2008-12-11 2010-06-24 Nec Corp Retrieval system, retrieval method, and program
WO2010150900A1 (en) * 2009-06-24 2010-12-29 日本電気株式会社 Feature extraction device, feature extraction method, and program
US8706724B2 (en) 2009-06-24 2014-04-22 Nec Corporation Feature extraction device and feature extraction method
JP2011048791A (en) * 2009-08-28 2011-03-10 Fujitsu Ltd Device, method and program for providing information
JP2015022655A (en) * 2013-07-22 2015-02-02 株式会社東芝 Electronic apparatus, method, and program
US9607080B2 (en) 2013-07-22 2017-03-28 Kabushiki Kaisha Toshiba Electronic device and method for processing clips of documents
JP2015049669A (en) * 2013-08-30 2015-03-16 京セラドキュメントソリューションズ株式会社 Material evaluation program and material evaluation system
US9747326B2 (en) 2013-08-30 2017-08-29 Kyocera Document Solutions Inc. Non-transitory computer-readable recording medium that stores document evaluation program that evaluates consistency in document
JP2016071406A (en) * 2014-09-26 2016-05-09 大日本印刷株式会社 Label grant device, label grant method, and program

Also Published As

Publication number Publication date
JP4904920B2 (en) 2012-03-28

Similar Documents

Publication Publication Date Title
CN102741838B (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
JP5212610B2 (en) Representative image or representative image group display system, method and program thereof, and representative image or representative image group selection system, method and program thereof
CN111753060A (en) Information retrieval method, device, equipment and computer readable storage medium
JP4363792B2 (en) Information retrieval system and method
US20110191336A1 (en) Contextual image search
US20090300046A1 (en) Method and system for document classification based on document structure and written style
US20030120681A1 (en) Classification of information sources using graphic structures
US8296302B2 (en) Method and system for extending content
JP2004178605A (en) Information retrieval device and its method
US10698917B2 (en) Managing electronic slide decks
KR20080031262A (en) Relationship networks
JP2004178604A (en) Information retrieval system and its method
JP2007241888A (en) Information processor, processing method, and program
JP4904920B2 (en) Template document creation program, template document creation method, and template document creation device
US11372873B2 (en) Managing electronic slide decks
US10656814B2 (en) Managing electronic documents
JP2000148748A (en) Japanese syllbary-to-chinese character conversion and image retrieval and display system
CN112148886A (en) Method and system for constructing content knowledge graph
US20190082236A1 (en) Determining Representative Content to be Used in Representing a Video
JP2004348771A (en) Technical document retrieval device
JP2007279978A (en) Document retrieval device and document retrieval method
KR20030062585A (en) Multimedia data description of content-based image retrieval
JP4544047B2 (en) Web image search result classification presentation method and apparatus, program, and storage medium storing program
KR100933269B1 (en) Search method and system using color keyword
Yan Intelligent Multimedia Databases and Information Retrieval: Advancing Applications and Technologies: Advancing Applications and Technologies

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110421

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111226

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees