JP2007065745A - Document search method and document search device, and program - Google Patents

Document search method and document search device, and program Download PDF

Info

Publication number
JP2007065745A
JP2007065745A JP2005247662A JP2005247662A JP2007065745A JP 2007065745 A JP2007065745 A JP 2007065745A JP 2005247662 A JP2005247662 A JP 2005247662A JP 2005247662 A JP2005247662 A JP 2005247662A JP 2007065745 A JP2007065745 A JP 2007065745A
Authority
JP
Japan
Prior art keywords
keyword
document
search
supplement information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005247662A
Other languages
Japanese (ja)
Inventor
Shusuke Ishiwatari
秀典 石渡
Manabu Inoue
学 井ノ上
Takanari Ueda
隆也 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005247662A priority Critical patent/JP2007065745A/en
Publication of JP2007065745A publication Critical patent/JP2007065745A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document search method capable of solving the problems associated with similar document search. <P>SOLUTION: A document suitable for a user's search intention with a simple operation can be acquired by a search using keywords in the document and information relevant to the document and the keywords. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は文書検索方法、特にある文書に類似した文書を簡易な操作で検索するための文書検索方法に関する。   The present invention relates to a document search method, and more particularly to a document search method for searching a document similar to a certain document with a simple operation.

昨今、検索技術の進展によりWebページの検索,ドキュメント検索など種々の場面で検索が利用されるようになってきている。検索の際に検索条件を与える一つの手法として、ある文書を与えてこれに内容が類似した文書を検索する類似文書検索という手法が開発されている(例えば、特許文献1参照)。   In recent years, search has come to be used in various scenes such as Web page search and document search due to the progress of search technology. As one method for providing a search condition at the time of search, a method called similar document search has been developed in which a certain document is given and a document similar in content is searched for (see, for example, Patent Document 1).

しかしながら、一般に類似文書検索では類似性を判定するアルゴリズムが利用者から隠蔽されているため、場合によっては、検索結果が得られた根拠がわかりづらいことがある。
特開平9−269952号公報
However, generally, in the similar document search, an algorithm for determining similarity is concealed from the user, and in some cases, it may be difficult to understand the basis for obtaining the search result.
Japanese Patent Laid-Open No. 9-269952

そこで本発明は、文書中に出現する語句のうち重要なものを提示するとともに、これに関連した情報も提示し、これらの中から検索条件を指定することができる文書検索方法を提供することを目的とする。   Therefore, the present invention provides a document search method that presents important words / phrases that appear in a document, and also presents information related to the words / phrases, and can specify a search condition from these. Objective.

上記問題を解決するために、本発明である請求項1に記載の文書検索方法は、文書からキーワードを抽出するキーワード抽出工程と、前記文書を表示する文書表示工程と、前記キーワードを前記文書の内部に表示するキーワード表示工程と、前記キーワードに情報を追加するキーワード補足情報を生成するキーワード補足情報生成工程と、前記キーワード補足情報を前記文書の外部に表示するキーワード補足情報表示工程と、利用者が前記キーワードおよび前記キーワード補足情報の一部または全ての中から、検索に用いる条件を選択する検索条件選択工程と、利用者が検索処理を指示する検索処理指示工程と、選択された検索条件を使用して検索を行う検索工程とを備える。   In order to solve the above problem, the document search method according to claim 1 according to the present invention includes a keyword extraction step of extracting a keyword from a document, a document display step of displaying the document, and the keyword in the document. A keyword display step for displaying inside, a keyword supplement information generation step for generating keyword supplement information for adding information to the keyword, a keyword supplement information display step for displaying the keyword supplement information outside the document, and a user A search condition selection step for selecting a condition to be used for a search from a part or all of the keyword and the keyword supplementary information, a search processing instruction step for a user to instruct a search process, and the selected search condition And a search step for performing a search using.

本発明では、文書中のキーワードと、文書やキーワードに関連した情報を表示し、そのうちの任意個を簡単な操作によって選択でき、これを使って検索できるようにしたため、利用者の検索意図に合った文書を簡易な操作で取得することができる。   In the present invention, the keywords in the document and the information related to the documents and keywords are displayed, and any of them can be selected by a simple operation and can be searched using this. Documents can be acquired with a simple operation.

<実施形態1>
以下、図を参照しながら本発明の検索方法を詳細に説明する。
<Embodiment 1>
Hereinafter, the search method of the present invention will be described in detail with reference to the drawings.

図1は、本発明の文書検索装置装置の機能的構成を示す図である。図1において、109は文書を読み取る文書読取部である。110は読み取った文書を保持する文書保持部である。101は読み取った文書を表示する文書表示部である。111は読み取った文書を解析する文書解析部である。102は読み取った保持文書からキーワードを抽出するキーワード抽出部である。103は抽出されたキーワードを文書内部に表示するキーワード表示部である。104はキーワードに情報を追加する展開キーワードを生成する展開キーワード生成部である。105は展開キーワードを文書の外部に表示する展開キーワード表示部である。112は展開キーワードを導出する際に使用する連想語辞書である。106は利用者がキーワードおよび展開キーワードの一部または全ての中から検索に用いる条件を選択する検索条件選択部である。107は利用者が検索処理を指示する検索処理指示部である。108は選択された検索条件を使用して検索を行う検索部である。   FIG. 1 is a diagram showing a functional configuration of a document search apparatus according to the present invention. In FIG. 1, reference numeral 109 denotes a document reading unit that reads a document. A document holding unit 110 holds a read document. A document display unit 101 displays the read document. A document analysis unit 111 analyzes the read document. A keyword extraction unit 102 extracts a keyword from the read retained document. A keyword display unit 103 displays the extracted keywords inside the document. Reference numeral 104 denotes a development keyword generation unit that generates a development keyword for adding information to the keyword. Reference numeral 105 denotes an expanded keyword display unit that displays expanded keywords outside the document. Reference numeral 112 denotes an associative word dictionary used when deriving expansion keywords. Reference numeral 106 denotes a search condition selection unit that selects a condition to be used for a search from a part or all of the keyword and the expanded keyword. Reference numeral 107 denotes a search processing instruction unit for a user to instruct search processing. A search unit 108 performs a search using the selected search condition.

図2は、本発明の文書検索装置のハードウェア構成を示すブロック図である。図2において、201はコンピュータ装置200全体を制御する中央処理装置である。202は中央処理装置のワークエリアとして利用される主記憶装置である。203は文書表示部101、キーワード表示部103、展開キーワード表示部105でデータを表示するための表示装置である。204は検索処理指示部107において利用者が指示した操作を受けデータを入力するポインティングデバイスやキーボードなどの入力装置である。205は、キーワードとなる単語を格納するキーワード辞書およびキーワードと関連する単語を格納する連想語辞書112等のデータを格納する外部記憶装置である。また、外部記憶装置205は、本実施の形態の文書検索装置の処理を実行するプログラムを格納する。   FIG. 2 is a block diagram showing a hardware configuration of the document search apparatus according to the present invention. In FIG. 2, reference numeral 201 denotes a central processing unit that controls the entire computer apparatus 200. A main storage device 202 is used as a work area of the central processing unit. A display device 203 displays data on the document display unit 101, the keyword display unit 103, and the expanded keyword display unit 105. Reference numeral 204 denotes an input device such as a pointing device or a keyboard for inputting data in response to an operation instructed by the user in the search processing instruction unit 107. Reference numeral 205 denotes an external storage device that stores data such as a keyword dictionary that stores words as keywords and an associative word dictionary 112 that stores words associated with the keywords. Also, the external storage device 205 stores a program that executes the processing of the document search device of the present embodiment.

図3は、本発明の文書検索装置による具体的な処理の流れを示すフローチャートである。以下に図3の流れを記す。図3に示すフローチャートは、中央処理装置201が外部記憶装置205より読み出されたプログラムを実行することにより各機能の処理が行われる。   FIG. 3 is a flowchart showing a specific processing flow by the document search apparatus of the present invention. The flow of FIG. 3 is described below. In the flowchart shown in FIG. 3, processing of each function is performed by the central processing unit 201 executing a program read from the external storage device 205.

利用者の指示に応じて、検索対象とする文書を文書読取部109でスキャンする(S301)。そして、スキャンされたデータを文書保持部110に記録する(S302)。なお、S301、S302の処理の代わりとして、スキャン済みの文書データを直接文書保持部110に与えてもよい。   In response to the user's instruction, the document to be searched is scanned by the document reading unit 109 (S301). Then, the scanned data is recorded in the document holding unit 110 (S302). Note that scanned document data may be directly provided to the document holding unit 110 as an alternative to the processing of S301 and S302.

そして、スキャンされたデータを文書解析部111において解析し、テキストデータを抽出する(S303)。S303において抽出したテキストデータとスキャン画像中の位置との対応関係を認識する(S304)。なお、S303、S304は既存の文書解析技術を用いることによって達成可能である。   Then, the scanned data is analyzed by the document analysis unit 111, and text data is extracted (S303). The correspondence between the text data extracted in S303 and the position in the scanned image is recognized (S304). Note that S303 and S304 can be achieved by using an existing document analysis technique.

キーワード抽出部102において、文書解析部111で解析された結果に基づいて、テキストデータからキーワードを抽出する(S305)。なお、キーワードの抽出はキーワード辞書に登録されている単語をテキストデータから抽出することによって達成される。   The keyword extraction unit 102 extracts keywords from the text data based on the result analyzed by the document analysis unit 111 (S305). Note that keyword extraction is achieved by extracting words registered in the keyword dictionary from text data.

さらに、展開キーワード生成部104の処理により、連想語辞書112を参照することにより、各キーワードに対して、関連語や連想語等の展開キーワードをそれぞれ求める(S306)。ここで、関連語とは、類義語・上位語・下位語などであり、例えば「PC」の関連語としては「パソコン」、「コンピュータ」などが挙げられる。連想語としては、「ファーストフード」における「安い」、「便利」といった語などがある。   Further, by referring to the associative word dictionary 112 by the processing of the expansion keyword generating unit 104, expansion keywords such as related words and association words are obtained for each keyword (S306). Here, the related terms are synonyms, broader terms, narrower terms, and the like. For example, “PC” includes “personal computer”, “computer”, and the like. Associative words include words such as “cheap” and “convenient” in “fast food”.

スキャンされた文書を文書表示部101でディスプレイ上に表示する(S307)。また、キーワード抽出部102で抽出されたキーワードを、キーワード表示部103において、選択可能であることを示すように強調表示する。さらに展開キーワード生成部104で生成された展開キーワードは、展開キーワード表示部105で文書の横に並べて同様に表示する。なお、展開キーワードの表示位置に制約はないので、横ではなく文書の周囲に並べても良い。   The scanned document is displayed on the display by the document display unit 101 (S307). The keyword extracted by the keyword extraction unit 102 is highlighted in the keyword display unit 103 so as to indicate that it can be selected. Further, the expanded keywords generated by the expanded keyword generation unit 104 are displayed side by side in the expanded keyword display unit 105 in the same manner. Since there is no restriction on the display position of the expanded keyword, it may be arranged around the document instead of horizontally.

検索条件選択部106において、利用者がポインティングデバイスにより選択したキーワードを特定することにより、検索条件を決定する(S308)。   The search condition selection unit 106 determines the search condition by specifying the keyword selected by the user using the pointing device (S308).

検索処理指示部107では、検索条件選択部106において選択された検索条件をもとに、検索処理を指示する(S309)。なお、検索部108において行われる検索処理は、全文検索、キーワード検索、概念検索など、どのような処理でも構わない。S308において、それぞれに応じた検索条件を生成すればこれらの検索処理を実現することが可能となる。   The search processing instruction unit 107 instructs search processing based on the search condition selected by the search condition selection unit 106 (S309). The search process performed in the search unit 108 may be any process such as full-text search, keyword search, and concept search. In S308, if search conditions corresponding to each are generated, these search processes can be realized.

図3で示した処理における利用者のUIイメージを図4に示す。(a)に示すように「テキスト表示エリア」に検索対象となる文書のスキャン結果が表示され、テキスト内に含まれるキーワードには下線が引かれる。また、下線が引かれた全キーワードに対する連想語が「展開キーワード表示エリア」に表示される。   FIG. 4 shows a user UI image in the processing shown in FIG. As shown in (a), the scan result of the document to be searched is displayed in the “text display area”, and the keywords included in the text are underlined. In addition, associative words for all underlined keywords are displayed in the “expanded keyword display area”.

図4(a)では、テキスト表示エリア内の「文書」というキーワードに対して「ドキュメント」、「OCR」に対して「文字認識」、「検索」に対して「サーチ」という展開キーワードが連想され、展開キーワード表示エリアに表示されている(本実施の形態では、各キーワードに対して1つの展開キーワードが表示されているが、複数の展開キーワードが表示されることも考えられる)。   In FIG. 4A, the expansion keyword “document” is associated with the keyword “document” in the text display area, “character recognition” with respect to “OCR”, and “search” with respect to “search”. Are displayed in the expanded keyword display area (in this embodiment, one expanded keyword is displayed for each keyword, but a plurality of expanded keywords may be displayed).

図4(b)は、図4(a)の表示状態から、キーワードとして、キーワードおよび展開キーワードから「OCR」と「文字認識」を選択し検索する場合のUIが示されている。図4(b)のように対象となるキーワードを選択し、検索ボタンを選択することで検索処理を実行することが可能となる。   FIG. 4B shows a UI in the case where “OCR” and “character recognition” are selected and searched as keywords from the display state of FIG. 4A as keywords. As shown in FIG. 4B, it is possible to execute a search process by selecting a target keyword and selecting a search button.

<実施形態2>
本発明を実施する第2の形態の基本的な構成は実施形態1に準じる。ただし、展開キーワードではなく、関連するカテゴリから検索条件を導出する点が異なる。
<Embodiment 2>
The basic configuration of the second embodiment for implementing the present invention is the same as that of the first embodiment. However, the difference is that the search condition is derived not from the expansion keyword but from the related category.

図8は、本発明を実施する装置の機能的構成を示す図である。図8において、809は文書を読み取る文書読取部である。810は読み取った文書を保持する文書保持部である。801は読み取った文書を表示する文書表示部である。811は読み取った文書を解析する文書解析部である。802は読み取った保持文書からキーワードを抽出するキーワード抽出部である。803は抽出されたキーワードを文書内部に表示するキーワード表示部である。804は文書分類を行う文書分類部である。805は分類されたカテゴリを表示する分類カテゴリ表示部である。806は利用者がキーワードおよび展開キーワードの一部または全ての中から検索に用いる条件を選択する検索条件選択部である。807は利用者が検索処理を指示する検索処理指示部である。808は選択された検索条件を使用して検索を行う検索部である。   FIG. 8 is a diagram showing a functional configuration of an apparatus for carrying out the present invention. In FIG. 8, reference numeral 809 denotes a document reading unit that reads a document. A document holding unit 810 holds a read document. A document display unit 801 displays the read document. A document analysis unit 811 analyzes the read document. A keyword extraction unit 802 extracts a keyword from the read retained document. A keyword display unit 803 displays the extracted keywords inside the document. A document classification unit 804 performs document classification. A classification category display unit 805 displays the classified categories. Reference numeral 806 denotes a search condition selection unit that selects a condition used for a search from a part or all of a keyword and a developed keyword by a user. Reference numeral 807 denotes a search processing instruction unit for a user to instruct search processing. A search unit 808 performs a search using the selected search condition.

図5は、本発明の文書検索装置による具体的な処理の流れを示すフローチャートである。以下に図5の流れを記す。図5に示すフローチャートは、中央処理装置201が外部記憶装置205より読み出されたプログラムを実行することにより各機能の処理が行われる。   FIG. 5 is a flowchart showing a specific processing flow by the document search apparatus of the present invention. The flow of FIG. 5 is described below. In the flowchart shown in FIG. 5, processing of each function is performed by the central processing unit 201 executing a program read from the external storage device 205.

利用者の指示に応じて、検索対象とする文書を文書読取部809でスキャンする(S501)。スキャンされたデータを文書保持部810に記録する(S502)。なお、S501、S502の処理の代わりに、スキャン済みの文書データを直接文書保持部810に与えてもよい。スキャンされたデータを文書解析部811において解析し、テキストデータを抽出する(S503)。   In response to a user instruction, the document reading unit 809 scans a document to be searched (S501). The scanned data is recorded in the document holding unit 810 (S502). Note that scanned document data may be directly provided to the document holding unit 810 instead of the processing of S501 and S502. The scanned data is analyzed by the document analysis unit 811 and text data is extracted (S503).

S503において抽出されたテキストデータとスキャン画像中の位置との対応関係を認識する(S504)。なお、S503、S504は既存の文書解析技術によればよい。   The correspondence between the text data extracted in S503 and the position in the scanned image is recognized (S504). Note that S503 and S504 may be based on an existing document analysis technique.

さらに、文書分類部804において、抽出されたテキストデータを複数のカテゴリに分類する(S505)。この分類は、予め文書に登録された属性情報を参照するなど既存の方法によって達成される。そして、キーワード抽出部802において、テキストからキーワードを抽出し、さらに各分類カテゴリとキーワードの対応付けを求める(S506)。キーワードの抽出は実施形態1と同様である。分類カテゴリとキーワードの関連付けは、例えば、対応関係を示した辞書を用いて行う。   Further, the document classification unit 804 classifies the extracted text data into a plurality of categories (S505). This classification is achieved by an existing method such as referring to attribute information registered in the document in advance. Then, the keyword extraction unit 802 extracts keywords from the text, and further obtains associations between the classification categories and the keywords (S506). Keyword extraction is the same as in the first embodiment. The association between the classification category and the keyword is performed using, for example, a dictionary showing a correspondence relationship.

スキャンされた文書を文書表示部801でディスプレイ上に表示する。また、分類カテゴリ表示部805により、分類カテゴリの名称を文書の外部に選択可能であることを示すように表示する(S507)。外部に表示された分類カテゴリの名称がユーザの指示により選択されたことが検出されると、それに対応するキーワードのみをキーワード表示部803において文書中で強調表示する(あるいは、初期状態時に全キーワードを強調表示しておき、選択した分類カテゴリに関係しないキーワードの強調表示を解除する方法でも良い)。   The scanned document is displayed on the display by the document display unit 801. The classification category display unit 805 displays the classification category name so that it can be selected outside the document (S507). When it is detected that the name of the classification category displayed externally is selected by the user's instruction, only the corresponding keyword is highlighted in the document in the keyword display unit 803 (or all keywords are displayed in the initial state. It is also possible to highlight the keywords that are not related to the selected category and remove the highlighting).

検索条件選択部806により、利用者がポインティングデバイスにより選択したキーワードおよび分類カテゴリから検索条件が決定される(S508)。   The search condition selection unit 806 determines the search condition from the keyword and classification category selected by the user using the pointing device (S508).

検索処理指示部807では、検索条件選択部806において選択された検索条件に基づいて、検索処理を指示する(S509)。   The search processing instruction unit 807 instructs search processing based on the search condition selected by the search condition selection unit 806 (S509).

図5で示した処理における利用者のUIイメージを図6に示す。図6(a)に示すように、「テキスト表示エリア」に検索対象となる文書のスキャン結果が表示される。また、テキストをカテゴリに分類し、分類結果が「分類カテゴリ表示エリア」に表示される。そして、分類された複数のカテゴリおよび各カテゴリに関するキーワードが抽出され、テキスト内に含まれるキーワードには下線が引かれる表示がなされる。図6では、テキストに関連するカテゴリとして「チェコ」、「ホテル」、「海外旅行」の3つのキーワードが分類カテゴリ表示エリアに表示されている。   FIG. 6 shows a user UI image in the processing shown in FIG. As shown in FIG. 6A, the scan result of the document to be searched is displayed in the “text display area”. Further, the text is classified into categories, and the classification results are displayed in the “category category display area”. Then, a plurality of classified categories and keywords related to each category are extracted, and the keywords included in the text are displayed underlined. In FIG. 6, three keywords “Czech Republic”, “Hotel”, and “Overseas Travel” are displayed in the category display area as categories related to the text.

図6(b)は、分類カテゴリの中から「チェコ」を選択し、それに対応するキーワードのみが文書中で強調表示された場合を示している(最初に全キーワードを強調表示しておき、選択した分類カテゴリに関係しないキーワードの強調表示を解除する方法でも良い)。   FIG. 6B shows a case where “Czech Republic” is selected from the classification categories, and only the corresponding keywords are highlighted in the document (first, all keywords are highlighted and selected). Or unhighlighted keywords that are not related to the category you ’ve chosen).

<実施形態3>
本発明を実施する第3の形態の基本的な構成は、実施形態1と実施形態2を組み合わせ、文書の外側に分類カテゴリと展開キーワードの両方を表示する。本形態における利用者のUIイメージを図7に示す。分類カテゴリ表示エリアに示されている分類カテゴリに関連する展開キーワードが展開キーワード表示エリアに表示される。
<Embodiment 3>
The basic configuration of the third embodiment for carrying out the present invention is a combination of the first and second embodiments, and displays both the classification category and the expansion keyword outside the document. FIG. 7 shows a user UI image in this embodiment. The expanded keywords related to the classified categories shown in the classified category display area are displayed in the expanded keyword display area.

<実施形態4>
本発明を実施する第4の形態の基本的な構成は実施形態1に準じる。ただし、文書中の語でキーワードとして抽出されていないものを、利用者が指定して検索語に追加する点、またこのキーワードに対する展開キーワードを追加して展開キーワード表示エリアに表示する点が異なる。
<Embodiment 4>
The basic configuration of the fourth mode for carrying out the present invention is the same as that of the first embodiment. However, it is different in that a word that is not extracted as a keyword in a document is specified by a user and added to a search word, and a development keyword corresponding to this keyword is added and displayed in a development keyword display area.

<実施形態5>
本発明を実施する第5の形態の基本的な構成は実施形態1に準じる。ただし、キーワードだけではなく、キーイメージ(文書中の主な画像)も抽出し選択可能な点が異なる。
<Embodiment 5>
The basic configuration of the fifth embodiment for carrying out the present invention is the same as that of the first embodiment. However, not only the keyword but also the key image (main image in the document) can be extracted and selected.

<実施形態6>
本発明を実施する第6の形態の基本的な構成は実施形態1に準じる。ただし、スキャン文書ではなく通常のアプリケーション文書であっても実施可能である点が異なる。
<Embodiment 6>
The basic configuration of the sixth embodiment for carrying out the present invention is the same as that of the first embodiment. However, it is different in that it can be implemented even with a normal application document instead of a scanned document.

<ハードウェア構成>
なお、前述した外部記憶装置から読み出されたプログラムを実行することにより、前述した実施形態の機能が実現されるだけでない。そのプログラムに基づき、コンピュータ上で稼動しているOperating System(OS)などが実際の処理の一部または全部を行い、その処理によっても前述した実施実施の機能が実現される。
<Hardware configuration>
The functions of the above-described embodiment are not only realized by executing the program read from the above-described external storage device. Based on the program, an operating system (OS) or the like running on the computer performs part or all of the actual processing, and the above-described implementation function is also realized by the processing.

実施形態1における装置の機能的構成を示す図である。It is a figure which shows the functional structure of the apparatus in Embodiment 1. FIG. 本発明を実施する装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the apparatus which implements this invention. 実施形態1における具体的な処理の流れを示す図である。FIG. 3 is a diagram illustrating a specific processing flow in the first embodiment. 実施形態1における利用者のUIを示す図である。It is a figure which shows UI of the user in Embodiment 1. FIG. 実施形態2における具体的な処理の流れを示す図である。FIG. 10 is a diagram illustrating a specific processing flow in the second embodiment. 実施形態2における利用者のUIを示す図である。It is a figure which shows UI of the user in Embodiment 2. FIG. 実施形態3における利用者のUIを示す図である。It is a figure which shows UI of the user in Embodiment 3. 実施形態2における装置の機能的構成を示す図である。It is a figure which shows the functional structure of the apparatus in Embodiment 2. FIG.

符号の説明Explanation of symbols

101 文書表示部
102 キーワード抽出部
103 キーワード表示部
104 展開キーワード生成部
105 展開キーワード表示部
106 検索条件選択部
107 検索処理指示部
108 検索部
109 文書読取部
110 文書保持部
111 文書解析部
112 連想語辞書
200 コンピュータ装置全体
201 中央処理装置
202 主記憶装置
203 表示装置
204 入力装置
205 外部記憶装置
801 文書表示部
802 キーワード抽出部
803 キーワード表示部
804 文書分類部
805 分類カテゴリ表示部
806 検索条件選択部
807 検索処理指示部
808 検索部
809 文書読取部
810 文書保持部
811 文書解析部
DESCRIPTION OF SYMBOLS 101 Document display part 102 Keyword extraction part 103 Keyword display part 104 Expansion keyword generation part 105 Expansion keyword display part 106 Search condition selection part 107 Search process instruction part 108 Search part 109 Document reading part 110 Document holding part 111 Document analysis part 112 Associative word Dictionary 200 Overall computer device 201 Central processing unit 202 Main storage device 203 Display device 204 Input device 205 External storage device 801 Document display unit 802 Keyword extraction unit 803 Keyword display unit 804 Document classification unit 805 Classification category display unit 806 Search condition selection unit 807 Search processing instruction unit 808 Search unit 809 Document reading unit 810 Document holding unit 811 Document analysis unit

Claims (7)

文書からキーワードを抽出するキーワード抽出工程と
前記文書を表示する文書表示工程と
前記キーワードを前記文書の内部に表示するキーワード表示工程と
前記キーワードに情報を追加するキーワード補足情報を生成するキーワード補足情報生成工程と
前記キーワード補足情報を前記文書の外部に表示するキーワード補足情報表示工程と
利用者が前記キーワードおよび前記キーワード補足情報の一部または全ての中から、検索に用いる条件を選択する検索条件選択工程と
利用者が検索処理を指示する検索処理指示工程と
選択された検索条件を使用して検索を行う検索工程とを備えることを特徴とする文書検索方法。
A keyword extraction step for extracting a keyword from a document; a document display step for displaying the document; a keyword display step for displaying the keyword in the document; and keyword supplement information generation for generating keyword supplement information for adding information to the keyword A keyword supplement information display step for displaying the keyword supplement information outside the document; and a search condition selection step for a user to select a condition used for the search from a part or all of the keyword and the keyword supplement information. A document search method comprising: a search process instruction process in which a user instructs a search process; and a search process for performing a search using a selected search condition.
請求項1において、キーワード補足情報はキーワードの関連語や連想語であり、キーワード補足情報生成工程はキーワードの関連語や連想語を求める工程であることを特徴とする請求項1記載の文書検索方法。   2. The document retrieval method according to claim 1, wherein the keyword supplement information is a keyword related word or associative word, and the keyword supplement information generating step is a step of obtaining a keyword related word or associative word. . 請求項1において、キーワード補足情報は前記文書の分類カテゴリであり、キーワード補足情報生成工程は文書の分類処理を行う工程であることを特徴とする請求項1記載の文書検索方法。   2. The document retrieval method according to claim 1, wherein the keyword supplement information is a classification category of the document, and the keyword supplement information generation step is a step of performing document classification processing. 請求項1乃至3において、文書中に存在する語句を新たにキーワードとして指定するキーワード追加指定工程を更に備えることを特徴とする請求項1乃至3記載の文書検索方法。   4. The document search method according to claim 1, further comprising a keyword addition specifying step of newly specifying a word / phrase existing in the document as a keyword. 請求項1において、文書中に存在する画像の中から重要な画像であるキーイメージを抽出するキーイメージ抽出工程を更に備え、検索条件選択工程はキーイメージをも選択対象とし、検索工程は画像も検索条件として使用することができることを特徴とする請求項1記載の文書検索方法。   The key image extraction step of extracting a key image, which is an important image, from images existing in a document according to claim 1, wherein the search condition selection step also selects a key image, The document search method according to claim 1, wherein the document search method can be used as a search condition. 文書からキーワードを抽出するキーワード抽出手段と
前記文書を表示する文書表示手段と
前記キーワードを前記文書の内部に表示するキーワード表示手段と
前記キーワードに情報を追加するキーワード補足情報を生成するキーワード補足情報生成手段と
前記キーワード補足情報を前記文書の外部に表示するキーワード補足情報表示手段と
利用者が前記キーワードおよび前記キーワード補足情報の一部または全ての中から、検索に用いる条件を選択する検索条件選択手段と
利用者が検索処理を指示する検索処理指示手段と
選択された検索条件を使用して検索を行う検索手段とを備えることを特徴とする文書検索装置。
Keyword extraction means for extracting a keyword from a document, document display means for displaying the document, keyword display means for displaying the keyword inside the document, and keyword supplement information generation for generating keyword supplement information for adding information to the keyword Means, Keyword supplement information display means for displaying the keyword supplement information outside the document, and Search condition selection means for the user to select a condition to be used for a search from a part or all of the keyword and the keyword supplement information A document search apparatus comprising: search processing instruction means for a user to instruct search processing; and search means for performing a search using a selected search condition.
請求項1から5のいずれか1に記載の文書検索方法に含まれる各工程を、コンピュータに実行させるためのプログラム。
A program for causing a computer to execute each step included in the document search method according to any one of claims 1 to 5.
JP2005247662A 2005-08-29 2005-08-29 Document search method and document search device, and program Withdrawn JP2007065745A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005247662A JP2007065745A (en) 2005-08-29 2005-08-29 Document search method and document search device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005247662A JP2007065745A (en) 2005-08-29 2005-08-29 Document search method and document search device, and program

Publications (1)

Publication Number Publication Date
JP2007065745A true JP2007065745A (en) 2007-03-15

Family

ID=37927926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005247662A Withdrawn JP2007065745A (en) 2005-08-29 2005-08-29 Document search method and document search device, and program

Country Status (1)

Country Link
JP (1) JP2007065745A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011503700A (en) * 2007-11-02 2011-01-27 マイクロソフト コーポレーション Syndicating search queries using web ads
JP2011164855A (en) * 2010-02-08 2011-08-25 Fujitsu Toshiba Mobile Communications Ltd Information processor
JP2012226738A (en) * 2011-04-18 2012-11-15 Palo Alto Research Center Inc Retrieval method for related document derived upon the basis of significant entity
JP2016177827A (en) * 2016-05-16 2016-10-06 株式会社メルコホールディングス Information processing system, information processing apparatus, information processing method, and information processing program
JP2020024559A (en) * 2018-08-07 2020-02-13 Zホールディングス株式会社 Information processing program, information processing apparatus, and information processing method
WO2021125252A1 (en) * 2019-12-20 2021-06-24 昭和電工株式会社 Information processing device, reading comprehension support method, and program
US11789953B2 (en) 2018-03-23 2023-10-17 Semiconductor Energy Laboratory Co., Ltd. Document search system, document search method, program, and non-transitory computer readable storage medium

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011503700A (en) * 2007-11-02 2011-01-27 マイクロソフト コーポレーション Syndicating search queries using web ads
JP2011164855A (en) * 2010-02-08 2011-08-25 Fujitsu Toshiba Mobile Communications Ltd Information processor
JP2012226738A (en) * 2011-04-18 2012-11-15 Palo Alto Research Center Inc Retrieval method for related document derived upon the basis of significant entity
JP2016177827A (en) * 2016-05-16 2016-10-06 株式会社メルコホールディングス Information processing system, information processing apparatus, information processing method, and information processing program
US11789953B2 (en) 2018-03-23 2023-10-17 Semiconductor Energy Laboratory Co., Ltd. Document search system, document search method, program, and non-transitory computer readable storage medium
JP2020024559A (en) * 2018-08-07 2020-02-13 Zホールディングス株式会社 Information processing program, information processing apparatus, and information processing method
JP7231354B2 (en) 2018-08-07 2023-03-01 ヤフー株式会社 Information processing program, information processing apparatus, and information processing method
WO2021125252A1 (en) * 2019-12-20 2021-06-24 昭和電工株式会社 Information processing device, reading comprehension support method, and program

Similar Documents

Publication Publication Date Title
US20060173682A1 (en) Information retrieval system, method, and program
JP6828335B2 (en) Search program, search device and search method
JP2007065745A (en) Document search method and document search device, and program
JP2005135113A (en) Electronic equipment, related word extracting method, and program
JP2006189924A (en) Image display program and image display apparatus
JP5119671B2 (en) Audio output device and audio output program
JP2011065255A (en) Data processing apparatus, data name generation method and computer program
JPH09198395A (en) Document retrieval device
JP2008293109A (en) Text processor and program
JP2005182460A (en) Information processor, annotation processing method, information processing program, and recording medium having information processing program stored therein
JP2010067021A (en) Machine translation device and machine translation program
JP2008225676A (en) Dictionary retrieving device and its control program
JP2006330995A (en) Document processor
US20100312544A1 (en) Electronic apparatus with dictionary function background
JP4607671B2 (en) Translation support program, method and apparatus
JP5379416B2 (en) Language processing apparatus and language processing method
JP4980604B2 (en) Document search apparatus, document search method, document search program, and recording medium
JPH08212230A (en) Document retrieval method and device therefor
JP2004151957A (en) Document search support program
JPH08137892A (en) Method and device for document retrieval
JP2005228033A (en) Document search device and method
JP2004295301A (en) Document retrieval device
JP2007171275A (en) Language processor and language processing method
KR102519955B1 (en) Apparatus and method for extracting of topic keyword
JP4960401B2 (en) Image display program and image display apparatus

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081104