JP2005227975A - Document search device and method - Google Patents

Document search device and method Download PDF

Info

Publication number
JP2005227975A
JP2005227975A JP2004035184A JP2004035184A JP2005227975A JP 2005227975 A JP2005227975 A JP 2005227975A JP 2004035184 A JP2004035184 A JP 2004035184A JP 2004035184 A JP2004035184 A JP 2004035184A JP 2005227975 A JP2005227975 A JP 2005227975A
Authority
JP
Japan
Prior art keywords
search
document
specific expression
role
search result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004035184A
Other languages
Japanese (ja)
Inventor
Akio Yamashita
明男 山下
Takeshi Nagamine
猛志 永峯
Katsunori Yoshiji
克典 芳地
Mamiko Oka
満美子 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004035184A priority Critical patent/JP2005227975A/en
Publication of JP2005227975A publication Critical patent/JP2005227975A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To focus on a role of a unique expression in a text for performing search with less noise. <P>SOLUTION: A unique expression extraction part 12 extracts the unique expression in the text and stores a document ID, a unique expression (appearance form), a unique expression (standard form), a category, an offset, length, and a role in a unique expression storage part 13. A search condition input part 14 inputs a search condition designating arbitrary one from a search character string, a category, an instruction expression search flag, a role, and a document ID. Using the search condition in the search condition storage part 15, a search part 16 searches for the unique expression record stored in the unique expression storage part 13 and stores the search result in a search result storage part 17. An output part 18 emphasizes and displays a part of the search result in a document by referring to the search result of the search result storage part 17 and document contents of the document storage part 11 to output the search result part. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

この発明は、検索者の意図に合致した検索ノイズの少ない検索結果を提供する技術に関する。   The present invention relates to a technique for providing a search result with less search noise that matches a searcher's intention.

従来の強調表示は、指定された条件に適合する文字列を強調するものであり、たとえば、検索条件中の文字列(単語)と適合する文書中の文字列を強調表示するものであった(たとえば、Google、商標、ConceptBase Search、商標)。また、適合した箇所を目次のように別画面で一覧表示し、目次画面から出現箇所へジャンプする機能を備えたものも合った(たとえば、DocuWorks 6.0、商標)。   Conventional highlighting emphasizes a character string that matches a specified condition, for example, highlights a character string in a document that matches a character string (word) in a search condition ( For example, Google, trademark, ConceptBase Search, trademark). In addition, a screen having a function of displaying a list of compatible locations on a separate screen like a table of contents and jumping from the table of contents screen to the appearance location is also suitable (for example, DocuWorks 6.0, trademark).

ところで、従来の検索は表層の文字列に対する検索・強調表示であり、ユーザの意図に合致したものに絞り込むことは困難であった。文字列のメタデータを考慮しユーザの意図に合致した検索を行なうことが望まれている。
(従来技術の課題として、表層の文字列に対する強調表示であり、文字列が担う役割といった表層には現れないメタデータに対する強調表示では無かった。
また、指示表現(これ、同社など)は、単純比較では検索条件に適合していることが判定できず、強調表示の対象にはなっていなかった。)
By the way, the conventional search is a search / highlight display for the character string on the surface layer, and it has been difficult to narrow down to a search that matches the user's intention. It is desired to perform a search that matches the user's intention in consideration of the metadata of the character string.
(As a problem of the prior art, highlighting for character strings on the surface layer is not highlighting for metadata that does not appear on the surface layer such as the role played by the character strings.
In addition, the instruction expression (this, the company, etc.) cannot be determined to be suitable for the search condition by the simple comparison, and has not been highlighted. )

なおこの発明と関連する特許文献としては以下のものがある。   Patent documents related to this invention include the following.

特許文献1は、組織名称と組織構成に関する情報を含む組織データと、氏名と所属組織に関する情報を含む人データを、その過去の変更履歴とともに人事DBに記憶することを開示している。文書データは、その属性情報とともに文書DBに記憶される。記憶された文書データを検索するための検索条件として、文書の属性情報が入力されると、入力された検索条件を人事DBに記憶された変更履歴を基に有効な検索条件に補正し、あるいは限定する。過去の組織名で検索しても適切に検索を行なえる。しかしながら、この提案は、属性情報に基づいて検索を行うものであり、また、固有表現を抽出したり、その役割を考慮したりするものではない。   Patent Document 1 discloses storing organization data including information related to an organization name and organization structure, and human data including information related to a name and an affiliated organization, together with the past change history, in the personnel affairs DB. The document data is stored in the document DB together with the attribute information. When document attribute information is input as a search condition for searching stored document data, the input search condition is corrected to a valid search condition based on the change history stored in the personnel database, or limit. Even if you search by past organization name, you can search appropriately. However, this proposal performs a search based on attribute information, and does not extract a specific expression or consider its role.

特許文献2は、テキストから単語インデックスを作成する際に、従来のように単語の見出しとその単語を含むテキストの情報だけでなく、その単語の品詞、属性の情報を追加登録することによって、品詞,属性(たとえば、固有表現)を検索条件とした検索を可能とし、特に多義性のある単語を検索キーとしたときの検索過剰を抑制する。また、単語の品詞や追加された属性に基づいて多義性のある語を展開してインデックスに登録し、多義性のある語を正しく展開した単語インデックスを生成する。これにより、検索キーと異表記でも同義の語を検索することができて検索漏れを低減でき、かつ、ユーザ自身が検索キーを同義語に展開して検索する場合に比べて検索負荷を抑えることができる。   In Patent Document 2, when creating a word index from text, the part of speech and attribute information of the word as well as the information of the word headline and the text including the word as well as the part of speech and attribute information are registered. , Search using an attribute (for example, a specific expression) as a search condition is possible, and excessive search is suppressed particularly when an ambiguous word is used as a search key. In addition, based on the part of speech of the word and the added attribute, the word with ambiguousness is expanded and registered in the index, and a word index in which the ambiguous word is correctly expanded is generated. This makes it possible to search for synonymous words even if they are different from the search key, reduce search omissions, and reduce the search load compared to the case where the user himself / herself expands the search key into synonyms and searches. Can do.

しかしながら、この提案は固有表現の役割に着目するものではない。   However, this proposal does not focus on the role of specific expressions.

特許文献3は、データベースに登録すべき文書の記述から固有名詞を抽出し、抽出された固有名詞を登録すべき文書の付加情報として付加してデータベースに登録する。データベースに対して検索をするための入力を受け付けると、受け付けられた入力によりデータベースを検索し、検索され得られた文書の検索するための入力との適合度をスコアとして算出し、検索され得られた文書が有する付加情報が一致するごとに得られた文書についてスコアを加算して固有名詞スコアとして算出する。算出された固有名詞スコアはその固有名詞とともに表示される。   Patent Document 3 extracts a proper noun from the description of a document to be registered in a database, adds the extracted proper noun as additional information of the document to be registered, and registers it in the database. When an input for searching the database is received, the database is searched by the received input, and the degree of fitness with the input for searching the retrieved document is calculated as a score. A score is added to a document obtained every time additional information included in the document matches, and a proper noun score is calculated. The calculated proper noun score is displayed together with the proper noun.

この提案も固有表現の役割に着目するものではない。
特開平10−27180号公報 特開平11−39347号公報 特開2001−273328公報
This proposal also does not focus on the role of specific expressions.
JP-A-10-27180 Japanese Patent Laid-Open No. 11-39347 JP 2001-273328 A

この発明は、以上の事情を考慮してなされたものであり、ユーザの意図に合致した検索結果を得ることができる検索技術を提供することを目的としている。   The present invention has been made in consideration of the above circumstances, and an object thereof is to provide a search technique capable of obtaining a search result that matches a user's intention.

この発明の具体的の構成例では、上述の目的を達成するために、文書中に存在する固有表現を検索する際に、固有表現の文章内での役割(主体、対象、属性)を指定し、固有表現と役割とに合う対象を検索し、検索ノイズの少ない検索を実現する。また、文章内容の理解に必要な箇所の検出・表示も可能とし、読解を支援する。   In a specific configuration example of the present invention, in order to achieve the above-described object, when searching for a specific expression existing in a document, a role (subject, object, attribute) in the sentence of the specific expression is specified. Search for objects that match the proper expression and role, and realize search with less search noise. In addition, it enables detection and display of parts necessary for understanding the text content, and supports reading comprehension.

さらにこの発明を説明する。   The present invention will be further described.

この発明の一側面によれば、上述の目的を達成するために、文書検索装置に:文書を登録する文書登録手段と;登録された文書を格納する文書格納手段と;上記文書格納手段に格納されている文書を固有表現と固有表現の文中の役割とに基づいて検索する検索手段と;上記検索手段による検索結果を出力する検索結果出力手段とを設けるようにしている。   According to one aspect of the present invention, in order to achieve the above object, in a document search apparatus: a document registration unit for registering a document; a document storage unit for storing a registered document; and a storage in the document storage unit A search means for searching for a document that is stored based on the specific expression and the role of the specific expression in the sentence; and a search result output means for outputting a search result by the search means.

この構成においては、固有表現の役割に着目してノイズの少ない検索を行なうことが可能になる。   In this configuration, it is possible to perform a search with less noise by paying attention to the role of the unique expression.

固有表現(固有名ともいう)は、人名、組織名、地名、通貨、日付等、文中の重要な表現単位である。   A proper expression (also called a proper name) is an important expression unit in a sentence, such as a person name, an organization name, a place name, a currency, and a date.

この構成において、上記検索結果出力手段は、上記検索手段により検索された固有表現を強調表示して提示する。該当する固有表現自体を強調表示しても良いし、該当する固有表現を含む文章単位やパラグラフ単位を強調表示しても良い。該当する固有表現を含む文書全体を表示するのでなく、その要約を表示したり、該当する文章やパラグラフを表示するのでもよい。要約、該当文章、該当パラグラフを表示する際に該当する固有表現を強調表示しても良い。   In this configuration, the search result output means highlights and presents the unique expression searched by the search means. The corresponding specific expression itself may be highlighted, or a sentence unit or paragraph unit including the corresponding specific expression may be highlighted. Instead of displaying the entire document including the corresponding specific expression, it is also possible to display the summary or display the corresponding sentence or paragraph. When displaying the summary, the corresponding sentence, and the corresponding paragraph, the corresponding specific expression may be highlighted.

また、上記検索手段は、上記固有表現に基づいて一次的な検索結果を出力し、上記役割が適合する検索結果のみマークし、マークされた検索結果を最終的な検索結果をして上記検索結果出力手段により出力するようにしてもよい。具体的には、固有表現に基づいて「ON」のマークを付し、役割に適合しないものについては「ON」を「OFF」にリセットする。もちろんこれに限定されない。この場合、役割の指定をリセットした場合には、上記役割に適合しなかったものにもマークを付せば良い。   In addition, the search means outputs a primary search result based on the specific expression, marks only the search result that matches the role, makes the marked search result the final search result, and outputs the search result. You may make it output by an output means. Specifically, an “ON” mark is given based on the specific expression, and “ON” is reset to “OFF” for those that do not match the role. Of course, it is not limited to this. In this case, when the designation of the role is reset, a mark that does not match the above-described role may be added.

また、上記検索手段は、上記固有表現のカテゴリを指定して検索を行なうようにしてもよい。カテゴリは例えば組織、人名、地名等であるが、さらにブレークダウンしてもよい。   The search means may perform a search by designating a category of the specific expression. The category is, for example, an organization, a person name, or a place name, but may be further broken down.

また、上記検索手段は、上記固有表現の文字列を指定して検索を行なうようにしてもよい。   The search means may perform a search by designating a character string of the unique expression.

また、上記文中の役割は、例えば、動作や状態の主体としての役割、動作や状態の客体としての役割、およびその他の役割である。   Also, the roles in the above sentence are, for example, a role as a subject of action and state, a role as an object of action and state, and other roles.

上記文中の役割は、例えば、助詞および助詞に相当する語句により決定されるが、これに限定されない。   The role in the sentence is determined by, for example, particles and phrases corresponding to particles, but is not limited thereto.

また、この発明の他の側面によれば、上述の目的を達成するために、文書検索装置に:文書を入力する文書手段と;上記文書入力手段により入力された文書を固有表現と固有表現の文中の役割とに基づいて検索する検索手段と;上記検索手段による検索結果を出力する検索結果出力手段とを設けるようにしている。   According to another aspect of the present invention, in order to achieve the above-described object, the document search apparatus includes: a document unit for inputting a document; a document input by the document input unit; Search means for searching based on the role in the sentence; and search result output means for outputting the search result by the search means are provided.

この構成においても、固有表現の文書の役割に着目してノイズの少ない検索を行なうことが可能になる。   Even in this configuration, it is possible to perform a search with less noise by paying attention to the role of the document of the unique expression.

なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。   The present invention can be realized not only as an apparatus or a system but also as a method. Of course, a part of the invention can be configured as software. Of course, software products used to cause a computer to execute such software are also included in the technical scope of the present invention.

この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。   These and other aspects of the invention are set forth in the appended claims and will be described in detail below with reference to examples.

この発明によれば、固有表現の文中の役割に着目してノイズの少ない検索を行なうことが可能になる。   According to the present invention, it is possible to perform a search with less noise by paying attention to the role in the sentence of the specific expression.

以下、この発明の実施例について説明する。   Examples of the present invention will be described below.

図1は、この発明を適用した文書検索装置の実施例を全体として示しており、この図において、文書検索装置は、文書登録部10、文書格納部11、固有表現抽出部12、固有表現格納部13、検索条件入力部14、検索条件格納部15、検索部16、検索結果格納部17および出力部18等を含んで構成されている。図に示す各機能ブロックの一部は実際にはコンピュータ100にコンピュータプログラムとして実装される。   FIG. 1 shows an overall embodiment of a document search apparatus to which the present invention is applied. In this figure, the document search apparatus includes a document registration unit 10, a document storage unit 11, a specific expression extraction unit 12, a specific expression storage. A unit 13, a search condition input unit 14, a search condition storage unit 15, a search unit 16, a search result storage unit 17, an output unit 18, and the like. A part of each functional block shown in the figure is actually mounted on the computer 100 as a computer program.

文書登録部10は、1または複数の文書を入力するものである。ユーザにより指定された文書を入力しても良いし、送出先が指定した文書をそのまま受け取って入力しても良いし、あるいは、キーワードや単語ベクトル等を用いて文書を分類して所定の分類グループの文書を入力しても良い。文書登録部10により入力された文書は文書格納部11に格納される。格納された文書は例えば図8に示すようなものであり、文書IDが振られる。なお、事例の文等に含まれる会社名、商品名はいずれも商標であり、また人名は実在の人物を表示するものではなく架空のものである。文書は、文書属性と文書コンテンツと個別に管理しても良い。   The document registration unit 10 inputs one or a plurality of documents. The document specified by the user may be input, the document specified by the destination may be received and input as it is, or the document is classified using keywords, word vectors, etc., and a predetermined classification group You may enter the document. The document input by the document registration unit 10 is stored in the document storage unit 11. The stored document is, for example, as shown in FIG. 8, and a document ID is assigned. Note that the company name and the product name included in the sentence of the case are trademarks, and the person name is fictitious rather than displaying a real person. Documents may be managed separately from document attributes and document content.

固有表現抽出部12は、文書中の固有表現(固有名ともいう)を抽出するものである。固有表現は、人名、組織名、地名、通貨、日付等、文中の重要な表現単位である。固有表現抽出部12は、例えば、図2に示すように、形態素解析部121、形態素解析辞書記憶部122、ルール適用部123およびルール記憶部124等を含んで構成される。   The specific expression extraction unit 12 extracts a specific expression (also referred to as a specific name) in the document. The proper expression is an important expression unit in a sentence such as a person name, an organization name, a place name, a currency, and a date. For example, as shown in FIG. 2, the specific expression extraction unit 12 includes a morpheme analysis unit 121, a morpheme analysis dictionary storage unit 122, a rule application unit 123, a rule storage unit 124, and the like.

固有表現抽出部12の入力は例えば図3に示すようなものであり、形態素解析辞書記憶部122の形態素解析辞書は例えば図4に示すようなエントリを持つ。形態素解析部121は形態素解析辞書を用いて入力例(図3)から図5に示すような解析結果を得る。図5において「/」は形態素間の区切りを示し、「<」、「>」で囲む部分は品詞を表す。図では、開始位置や長さは省略している。形態素解析結果はルール適用部123に入力されてルール記憶部124の抽出ルールを参照して固有表現が抽出される。図6は抽出ルールの例を示し、例えばルール番号5により「姓」と「名」が結合されて「PERSON」のカテゴリが付される。抽出結果は図7に示すようになる。この例では、各固有表現が抽出され、<ORGANIZATION>、<PERSON>、<CURRENCY>、<DATE>、<PLACE>等のカテゴリが付される。   The input of the specific expression extraction unit 12 is as shown in FIG. 3, for example, and the morpheme analysis dictionary in the morpheme analysis dictionary storage unit 122 has an entry as shown in FIG. The morpheme analysis unit 121 obtains an analysis result as shown in FIG. 5 from the input example (FIG. 3) using the morpheme analysis dictionary. In FIG. 5, “/” indicates a delimiter between morphemes, and a portion surrounded by “<” and “>” indicates a part of speech. In the figure, the starting position and length are omitted. The morpheme analysis result is input to the rule application unit 123, and a specific expression is extracted with reference to the extraction rule in the rule storage unit 124. FIG. 6 shows an example of the extraction rule. For example, “last name” and “first name” are combined by the rule number 5 to give the category “PERSON”. The extraction result is as shown in FIG. In this example, each unique expression is extracted and given a category such as <ORGANIZATION>, <PERSON>, <CURRENT>, <DATE>, <PLACE>, and the like.

さらに固有表現抽出処理について説明する。図9は、固有表現抽出部12の処理を示しており、この図において、対象となる個々の文書を順次に取り出し、文書内容(図8に示す)に対して固有表現抽出を行う(S10)。抽出された固有表現の情報を固有表現格納部13に格納する(S11)。固有表現の情報は、例えば、文書ID、固有表現(出現形)、固有表現(標準形)、カテゴリ、オフセット、長さであるが、これに限定されない。固有表現(標準形)は、図10の標準標記テーブル125を検索して決めることができる。図12に示す役割テーブル(役割・助詞(相当語句)対応表)」127を参照し、役割に関する助詞(相当語句)が、抽出した固有表現に続いていれば、その固有表現の役割として対応する役割も登録する(S12)。図11に示す指示表現テーブル126の指示表現が抽出されたら、これも固有表現格納部13に格納する(S13)。そのカテゴリはPRONOUNとする。指示表現テーブルで指定されたカテゴリを持つ固有表現を固有表現格納部13から検索し、もっとも近い固有表現のレコード番号を参照先として登録する。以上の処理を文書単位に実行する(S14)。標準表記テーブル125(図10)、指示表現テーブル126(図11)、役割テーブル127(図12)はコンピュータ100の記憶部19に記憶される。   Further, the specific expression extraction process will be described. FIG. 9 shows the process of the specific expression extraction unit 12. In this figure, individual target documents are sequentially extracted, and the specific expression is extracted from the document contents (shown in FIG. 8) (S10). . The extracted specific expression information is stored in the specific expression storage unit 13 (S11). The specific expression information includes, for example, a document ID, a specific expression (appearance form), a specific expression (standard form), a category, an offset, and a length, but is not limited thereto. The specific expression (standard form) can be determined by searching the standard title table 125 of FIG. If the role table (role / particle (equivalent phrase) correspondence table) 127 shown in FIG. 12 is followed by a role related particle (equivalent phrase) following the extracted specific expression, it corresponds to the role of the specific expression. The role is also registered (S12). When the instruction expression of the instruction expression table 126 shown in FIG. 11 is extracted, it is also stored in the specific expression storage unit 13 (S13). The category is PRONOUN. A specific expression having a category specified in the instruction expression table is searched from the specific expression storage unit 13, and the record number of the closest specific expression is registered as a reference destination. The above processing is executed for each document (S14). The standard notation table 125 (FIG. 10), the instruction expression table 126 (FIG. 11), and the role table 127 (FIG. 12) are stored in the storage unit 19 of the computer 100.

抽出された固有表現(指示表現を含む)は図13に示すように固有表現格納部13に格納される。この例では、抽出された固有表現に対して、レコード番号、所属する文書ID、固有表現(出現形)、固有表現(標準形)、カテゴリ、オフセット、長さ、役割、参照先等が与えられる。   The extracted specific expressions (including the instruction expression) are stored in the specific expression storage unit 13 as shown in FIG. In this example, a record number, a document ID to which it belongs, a specific expression (appearance form), a specific expression (standard form), a category, an offset, a length, a role, a reference destination, and the like are given to the extracted specific expression. .

図1に戻る。検索条件入力部14は例えば所定のグラフィカルユーザインタフェース(GUI)を用いてユーザにより入力される。管理者等により、予め固定した検索条件が指定される場合もある。以下の例では、検索条件入力部14から、「検索文字列」、「カテゴリ」、「指示表現検索フラグ」(指示表現を用いて検索するかどうかの指定)、「役割」、「文書ID」のうちの任意の1つを指定した検索条件を入力する(図16〜図22)。「文書ID」は、文書名でもよいし、他の文書属性を用いた検索でも良い。検索条件は検索条件格納部15に格納される。検索部16は、検索条件格納部15の検索条件を用いて、固有表現格納部13に格納されている固有表現のレコードを検索し、検索結果を検索結果格納部17に格納する。   Returning to FIG. The search condition input unit 14 is input by a user using, for example, a predetermined graphical user interface (GUI). A search condition fixed in advance may be designated by an administrator or the like. In the following example, “search character string”, “category”, “instruction expression search flag” (specifying whether to search using the instruction expression), “role”, “document ID” are input from the search condition input unit 14. A search condition designating any one of them is input (FIGS. 16 to 22). The “document ID” may be a document name or a search using other document attributes. The search condition is stored in the search condition storage unit 15. The search unit 16 searches for the record of the specific expression stored in the specific expression storage unit 13 using the search condition of the search condition storage unit 15, and stores the search result in the search result storage unit 17.

出力部18は、検索結果格納部17の検索結果および文書格納部11の文書内容を参照して文書を、検索結果部分(検索された固有表現部分)を強調表示して、出力する(図16〜図22参照)。もちろん、該当する文書の全文でなく、要約を自動生成し、これに検索された固有表現部分を強調表示して出力するようにしても良い。   The output unit 18 refers to the search result of the search result storage unit 17 and the document content of the document storage unit 11 and outputs the document with the search result portion (the searched unique expression portion) highlighted (FIG. 16). To FIG. 22). Of course, it is also possible to automatically generate a summary instead of the full text of the corresponding document, and to output the highlighted unique expression portion.

さらに図14を参照して検索部16の処理を説明する。図14において、検索条件入力部14は、ユーザが例えばGUIを通して設定した検索条件を、検索条件格納部15に登録する(S20)。検索部16は、検索条件格納部15の検索文字列、カテゴリ、文書IDに適合する、文書あるいは文書内での出現箇所を検索し、その結果を検索結果格納部17に、そのレコード番号と表示フラグ(登録時はON)を図15に示すように格納する(S21)。なお、検索条件格納部15の検索条件に文書IDが指定されていない場合には固有表現格納部13の全レコードに対して検索を実行する。文書IDが指定されていた場合には、その文書IDのレコード群に対して検索を実行する。また、検索条件格納部15の検索条件で指示表現検索フラグがONであれば、検索された固有表現のレコード番号を持ち、カテゴリがPRONOUNで文書IDが同じである指示表現のレコードも検索して結果を検索結果格納部17に登録する。検索条件格納部15の検索条件で役割が指定されていれば、検索された固有表現のレコードの中で更に、指定された役割でないレコードの表示フラグをOFFにする(先に述べたように表示フラグはONとして登録されている)。検索結果格納部17の検索結果レコードの表示フラグのON/OFFを切り替えて役割指定した場合の検索結果としない場合の検索結果とを即座に比較することもできる。   Furthermore, the process of the search part 16 is demonstrated with reference to FIG. 14, the search condition input unit 14 registers the search condition set by the user through the GUI, for example, in the search condition storage unit 15 (S20). The search unit 16 searches for a document or an appearance location in the document that matches the search character string, category, and document ID in the search condition storage unit 15, and displays the result in the search result storage unit 17 as its record number. The flag (ON during registration) is stored as shown in FIG. 15 (S21). If no document ID is specified in the search condition of the search condition storage unit 15, the search is executed for all the records in the specific expression storage unit 13. If the document ID is designated, a search is executed for the record group of the document ID. Also, if the instruction expression search flag is ON in the search condition of the search condition storage unit 15, the record of the instruction expression having the record number of the searched unique expression, the category of PRONOUN, and the same document ID is also searched. The result is registered in the search result storage unit 17. If a role is specified in the search condition of the search condition storage unit 15, the display flag of the record that is not the specified role is further turned OFF in the searched unique expression record (display as described above). The flag is registered as ON). It is also possible to immediately compare a search result when the role is specified by switching ON / OFF of the display flag of the search result record in the search result storage unit 17 and a search result when the role is not specified.

さらに検索例を用いて検索処理を説明する。   Further, the search process will be described using a search example.

[カテゴリを指定した検索]
図16(a)は、特定のカテゴリ(この例では「ORGANIZATION」)の固有表現を検索条件とするものである。検索結果は図16(b)に示すようになり、役割を指定していないので、表示フラグは当初の「ON」のままであり、レコード番号1(文書ID=1、図13参照)、レコード番号6(文書ID=2)、レコード番号7(文書ID=2)、レコード番号8(文書ID=3)、レコード番号9(文書ID=3)、レコード番号10(文書ID=3)、レコード番号13(文書ID=3)が検索され、かつ表示される。図16(c)に示すように、組織名のカテゴリの固有表現を強調表示して文書が表示される。図では強調部分に下線を付したが、色を変える、ブリンク属性を付す等種々採用できる。矢印等のマークを付しても良い。
[Search by category]
FIG. 16A uses a specific expression of a specific category (in this example, “ORGANIZATION”) as a search condition. The search result is as shown in FIG. 16B, and since the role is not specified, the display flag remains “ON” at the beginning, record number 1 (document ID = 1, see FIG. 13), record Number 6 (document ID = 2), record number 7 (document ID = 2), record number 8 (document ID = 3), record number 9 (document ID = 3), record number 10 (document ID = 3), record The number 13 (document ID = 3) is retrieved and displayed. As shown in FIG. 16C, the document is displayed with the specific expression of the category of the organization name highlighted. In the figure, the emphasized portion is underlined, but various changes such as changing the color or attaching a blink attribute can be employed. You may attach marks, such as an arrow.

[カテゴリと役割を指定した検索]
図17の例は、特定のカテゴリに加えて役割を検索条件に含めるものである。この例では、カテゴリが「ORGANIZATION」であり(図17(a))、役割が「主体」である。図16の場合と同様に、レコード番号1、6、7、8、9、10、13が検索結果に含まれる。ただし、役割が「主体」と指定されているので、それ以外の役割のレコード番号7、10、13は表示フラグが「OFF」にリセットされる。したがって、図17(c)の出力例では、図16(c)に較べて一部の固有表現の強調表示がリセットされる。
[Search by category and role]
The example of FIG. 17 includes a role in a search condition in addition to a specific category. In this example, the category is “ORGANIZATION” (FIG. 17A), and the role is “subject”. As in the case of FIG. 16, record numbers 1, 6, 7, 8, 9, 10, and 13 are included in the search results. However, since the role is designated as “subject”, the display flag is reset to “OFF” for the record numbers 7, 10 and 13 of the other roles. Therefore, in the output example of FIG. 17C, the highlighting of a part of the unique expressions is reset as compared with FIG.

[文字列および役割を指定した検索]
図18の例は、検索条件に「富士ゼロックス」(商標)という文字列(キーワード)、「主体」という役割、文書ID=2を含ませている(図18(a))。検索結果は図18(b)に示すとおりであり、出力結果は図18(c)に示すとおりである。
[Search by specifying character string and role]
In the example of FIG. 18, the search condition includes the character string (keyword) “Fuji Xerox” (trademark), the role “subject”, and the document ID = 2 (FIG. 18A). The search result is as shown in FIG. 18B, and the output result is as shown in FIG.

[すべてのカテゴリを指定した検索]
図19の例は、検索条件(図19(a)参照)を、すべてのカテゴリにしたものである。この場合、図19(b)に示すように、すべての固有表現が強調表示される。
[Search by specifying all categories]
In the example of FIG. 19, the search conditions (see FIG. 19A) are all categories. In this case, as shown in FIG. 19B, all the unique expressions are highlighted.

[文字列を指定した検索]
図20の例は、検索条件を文字列の指定のみにしたものである(図20(a)参照)。この場合は、図20(b)に示すように、当該文字列(この例では「富士ゼロックス株式会社」または「富士ゼロックス」。出現形。商標)が強調表示される。
[Search by specifying a character string]
In the example of FIG. 20, the search condition is only the designation of a character string (see FIG. 20A). In this case, as shown in FIG. 20B, the character string (in this example, “Fuji Xerox Co., Ltd.” or “Fuji Xerox”. Appearance form. Trademark) is highlighted.

[カテゴリおよび文書IDを指定した検索]
図21の例は、検索条件にカテゴリおよび文書IDを指定したものである(図21(a)参照)。この場合、図21(b)に示すように、当該指定された文書が、当該指定カテゴリの固有表現を強調表示されて表示される。
[Search by category and document ID]
In the example of FIG. 21, a category and a document ID are designated as search conditions (see FIG. 21A). In this case, as shown in FIG. 21B, the designated document is displayed with the specific expression of the designated category highlighted.

[文字列および文書IDを指定した検索]
図22の例は、検索条件に文字列および文書IDを指定したものである(図22(a)参照)。この場合、図22(b)に示すように、当該指定された文書が、当該指定文字列(出現形)を強調表示されて表示される。
[Search by specifying character string and document ID]
In the example of FIG. 22, a character string and a document ID are specified as a search condition (see FIG. 22A). In this case, as shown in FIG. 22B, the designated document is displayed with the designated character string (appearance form) highlighted.

なお、指示表現検索を指定して指示表現検索フラグがONになると指示表現部分も強調表示される。   Note that when the instruction expression search is designated and the instruction expression search flag is turned ON, the instruction expression portion is also highlighted.

なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例では、コンピュータ100に文書検索装置を実装したが、図23や図24に示すように文書検索装置をクライアントサーバの形態で実装しても良い。図23の例では、検索条件入力部14および出力部18がクライアントコンピュータ200に配置され、残りがサーバコンピュータ300に配置されている。また図24の例では、文書登録部10もクライアントコンピュータ200に配置されている。また、図25に示すように、ユーザが文書入力部20を介して文書を指定して入力して即座に固有名抽出を行なって出力するようにしても良い。例えば、所定の文書処理アプリケーションのプラグインとして文書検索装置のプログラムを実装して、処理中の文書の固有名抽出を行なうようにしても良い。   The present invention is not limited to the above-described embodiments, and various modifications can be made without departing from the spirit of the invention. For example, in the above example, the document search device is mounted on the computer 100, but the document search device may be mounted in the form of a client server as shown in FIGS. In the example of FIG. 23, the search condition input unit 14 and the output unit 18 are arranged in the client computer 200, and the rest are arranged in the server computer 300. In the example of FIG. 24, the document registration unit 10 is also arranged in the client computer 200. Also, as shown in FIG. 25, the user may specify and input a document via the document input unit 20 and immediately extract and output the unique name. For example, a program for a document search apparatus may be installed as a plug-in for a predetermined document processing application so as to extract a unique name of a document being processed.

この発明の実施例を全体として示すブロック図である。It is a block diagram which shows the Example of this invention as a whole. 上述実施例の固有表現抽出部の構成例を説明するブロック図である。It is a block diagram explaining the example of a structure of the specific expression extraction part of the above-mentioned Example. 上述実施例の固有表現抽出部に入力される文書の例を説明する図である。It is a figure explaining the example of the document input into the specific expression extraction part of the above-mentioned Example. 上述実施例の固有表現抽出部で用いる形態素解析辞書の例を説明する図である。It is a figure explaining the example of the morphological analysis dictionary used by the specific expression extraction part of the above-mentioned Example. 上述実施例の固有表現抽出部における形態素解析結果の例を説明する図であうr。It is a figure explaining the example of the morphological analysis result in the specific expression extraction part of the above-mentioned Example. 上述実施例の固有表現抽出部による固有名抽出ルールの説明する図である。It is a figure explaining the specific name extraction rule by the specific expression extraction part of the above-mentioned Example. 上述実施例の固有表現抽出部による固有名抽出結果を簡略化して説明する図である。It is a figure which simplifies and demonstrates the specific name extraction result by the specific expression extraction part of the above-mentioned Example. 上述実施例の入力文書の例を説明する図である。It is a figure explaining the example of the input document of the above-mentioned Example. 上述実施例の固有表現抽出部の動作を説明するフローチャートである。It is a flowchart explaining operation | movement of the specific expression extraction part of the above-mentioned Example. 上述実施例の固有表現抽出部で用いる標準表記テーブルを説明する図である。It is a figure explaining the standard description table used with the specific expression extraction part of the above-mentioned example. 上述実施例の固有表現抽出部で用いる指示表現テーブルを説明する図である。It is a figure explaining the instruction | indication expression table used with the specific expression extraction part of the above-mentioned Example. 上述実施例の固有表現抽出部で用いる役割テーブル(役割・助詞対応)を説明する図である。It is a figure explaining the role table (role and particle correspondence) used by the specific expression extraction part of the above-mentioned embodiment. 上述実施例の固有表現抽出部により抽出された固有表現レコードを説明する図である。It is a figure explaining the specific expression record extracted by the specific expression extraction part of the above-mentioned Example. 上述実施例の検索部の動作を説明するフローチャートである。It is a flowchart explaining operation | movement of the search part of the said Example. 上述検索部で検索されたレコードを説明する図である。It is a figure explaining the record searched in the above-mentioned search part. 上述検索部による検索例を説明する図である。It is a figure explaining the example of a search by the above-mentioned search part. 上述検索部による他の検索例を説明する図である。It is a figure explaining the other example of a search by the above-mentioned search part. 上述検索部による他の検索例を説明する図である。It is a figure explaining the other example of a search by the above-mentioned search part. 上述検索部による他の検索例を説明する図である。It is a figure explaining the other example of a search by the above-mentioned search part. 上述検索部による他の検索例を説明する図である。It is a figure explaining the other example of a search by the above-mentioned search part. 上述検索部による他の検索例を説明する図である。It is a figure explaining the other example of a search by the above-mentioned search part. 上述検索部による他の検索例を説明する図である。It is a figure explaining the other example of a search by the above-mentioned search part. 上述実施例の変形例を説明するブロック図である。It is a block diagram explaining the modification of the said Example. 上述実施例の他の変形例を説明するブロック図である。It is a block diagram explaining the other modification of the above-mentioned Example. 上述実施例の他の変形例を説明するブロック図である。It is a block diagram explaining the other modification of the above-mentioned Example.

符号の説明Explanation of symbols

10 文書登録部
11 文書格納部
12 固有表現抽出部
13 固有表現格納部
14 検索条件入力部
15 検索条件格納部
16 検索部
17 検索結果格納部
18 出力部
100 コンピュータ
121 形態素解析部
122 形態素解析辞書記憶部
123 ルール適用部
124 ルール記憶部
200 クライアントコンピュータ
300 サーバコンピュータ
DESCRIPTION OF SYMBOLS 10 Document registration part 11 Document storage part 12 Specific expression extraction part 13 Specific expression storage part 14 Search condition input part 15 Search condition storage part 16 Search part 17 Search result storage part 18 Output part 100 Computer 121 Morphological analysis part 122 Morphological analysis dictionary memory | storage Unit 123 rule application unit 124 rule storage unit 200 client computer 300 server computer

Claims (10)

文書を登録する文書登録手段と、
登録された文書を格納する文書格納手段と、
上記文書格納手段に格納されている文書を固有表現と固有表現の文中の役割とに基づいて検索する検索手段と、
上記検索手段による検索結果を出力する検索結果出力手段とを有することを特徴とする文書検索装置。
A document registration means for registering a document;
Document storage means for storing registered documents;
Search means for searching for a document stored in the document storage means based on the specific expression and the role of the specific expression in the sentence;
A document search apparatus comprising: search result output means for outputting a search result obtained by the search means.
上記検索結果出力手段は、上記検索手段により検索された固有表現を強調表示して提示する請求項1記載の文書検索装置。   The document search apparatus according to claim 1, wherein the search result output means highlights and presents the specific expression searched by the search means. 上記検索手段は、上記固有表現に基づいて一次的な検索結果を出力し、上記役割が適合する検索結果のみマークし、マークされた検索結果を最終的な検索結果をして上記検索結果出力手段により出力する請求項1または2記載の文書検索装置。   The search means outputs a primary search result based on the specific expression, marks only the search result that matches the role, and makes the marked search result the final search result, and the search result output means. The document search apparatus according to claim 1, wherein the document search apparatus outputs the data according to claim 1. 上記検索手段は、上記固有表現のカテゴリを指定して検索を行なう請求項1、2または3記載の文書検索装置。   4. The document search apparatus according to claim 1, wherein the search means performs a search by specifying a category of the specific expression. 上記検索手段は、上記固有表現の文字列を指定して検索を行なう請求項1、2または3記載の文書検索装置。   4. The document search apparatus according to claim 1, wherein the search means performs a search by designating a character string of the unique expression. 上記文中の役割は、動作や状態の主体、動作や状態の客体、およびその他である請求項1、2、3、4または5記載の文書検索装置。   The document retrieval apparatus according to claim 1, 2, 3, 4, or 5, wherein the role in the sentence is a subject of an action or a state, an object of the action or a state, and others. 上記文中の役割は、助詞および助詞に相当する語句により決定される請求項1、2、3、4、5または6記載の文書検索装置。   7. The document search apparatus according to claim 1, wherein a role in the sentence is determined by a particle and a phrase corresponding to the particle. 文書を入力する文書手段と、
上記文書入力手段により入力された文書を固有表現と固有表現の文中の役割とに基づいて検索する検索手段と、
上記検索手段による検索結果を出力する検索結果出力手段とを有することを特徴とする文書検索装置。
A document means for inputting a document;
Search means for searching for a document input by the document input means based on the specific expression and the role in the sentence of the specific expression;
A document search apparatus comprising: search result output means for outputting a search result obtained by the search means.
文書登録手段が文書を登録するステップと、
文書格納手段が登録された文書を格納するステップと、
検索手段が上記文書格納手段に格納されている文書を固有表現と固有表現の文中の役割とに基づいて検索するステップと、
検索結果出力手段が上記検索手段による検索結果を出力するステップとを有することを特徴とする文書検索方法。
A document registration means for registering the document;
A step of storing a registered document by a document storage means;
A step of searching for a document stored in the document storage unit based on a specific expression and a role of the specific expression in a sentence;
A document search method comprising: a search result output unit outputting a search result obtained by the search unit.
文書登録手段が文書を登録するステップと、
文書格納手段が登録された文書を格納するステップと、
検索手段が上記文書格納手段に格納されている文書を固有表現と固有表現の文中の役割とに基づいて検索するステップと、
検索結果出力手段が上記検索手段による検索結果を出力するステップとをコンピュータに実行させるために用いられることを特徴とする文書検索用コンピュータプログラム。
A document registration means for registering the document;
A step of storing a registered document by a document storage means;
A step of searching for a document stored in the document storage unit based on a specific expression and a role of the specific expression in a sentence;
A computer program for document search, wherein the search result output means is used for causing a computer to execute a step of outputting a search result obtained by the search means.
JP2004035184A 2004-02-12 2004-02-12 Document search device and method Pending JP2005227975A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004035184A JP2005227975A (en) 2004-02-12 2004-02-12 Document search device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004035184A JP2005227975A (en) 2004-02-12 2004-02-12 Document search device and method

Publications (1)

Publication Number Publication Date
JP2005227975A true JP2005227975A (en) 2005-08-25

Family

ID=35002655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004035184A Pending JP2005227975A (en) 2004-02-12 2004-02-12 Document search device and method

Country Status (1)

Country Link
JP (1) JP2005227975A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022000772A (en) * 2017-11-28 2022-01-04 富士フイルムビジネスイノベーション株式会社 Document processing apparatus and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022000772A (en) * 2017-11-28 2022-01-04 富士フイルムビジネスイノベーション株式会社 Document processing apparatus and program

Similar Documents

Publication Publication Date Title
US8812301B2 (en) Linguistically-adapted structural query annotation
JP4654780B2 (en) Question answering system, data retrieval method, and computer program
US10552467B2 (en) System and method for language sensitive contextual searching
JP3820242B2 (en) Question answer type document search system and question answer type document search program
JP4347226B2 (en) Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method
JP2010157178A (en) Computer system for creating term dictionary with named entities or terminologies included in text data, and method and computer program therefor
WO2005059771A1 (en) Translation judgment device, method, and program
JP2012520528A (en) System and method for automatic semantic labeling of natural language text
JPH09198395A (en) Document retrieval device
JP2005115468A (en) Text mining apparatus, text mining method and text mining program
JP4361299B2 (en) Evaluation expression extraction apparatus, program, and storage medium
JP4057962B2 (en) Question answering apparatus, question answering method and program
JP4428703B2 (en) Information retrieval method and system, and computer program
JP2005228033A (en) Document search device and method
JP2005202924A (en) Translation determination system, method, and program
JP2006119697A (en) Question answering system, question answering method, and question answering program
JP2005227975A (en) Document search device and method
JP2005234772A (en) Documentation management system and method
JP4496797B2 (en) Document management apparatus and method
JP2004220226A (en) Document classification method and device for retrieved document
JP7302267B2 (en) Search program, search method and search device
JP2004152041A (en) Program, recording medium and apparatus for extracting key phrase
JP5691558B2 (en) Example sentence search device, processing method, and program
JP2002366556A (en) Information retrieving method
JP2009059290A (en) Device, method, and program for supporting preparation of foreign language document

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090925

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100223