JP7106021B2 - Document retrieval device, program and new attribute value addition method - Google Patents

Document retrieval device, program and new attribute value addition method Download PDF

Info

Publication number
JP7106021B2
JP7106021B2 JP2021569274A JP2021569274A JP7106021B2 JP 7106021 B2 JP7106021 B2 JP 7106021B2 JP 2021569274 A JP2021569274 A JP 2021569274A JP 2021569274 A JP2021569274 A JP 2021569274A JP 7106021 B2 JP7106021 B2 JP 7106021B2
Authority
JP
Japan
Prior art keywords
search
attribute value
unit
document
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021569274A
Other languages
Japanese (ja)
Other versions
JPWO2021171546A1 (en
Inventor
勇之 相川
洋平 岡登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021171546A1 publication Critical patent/JPWO2021171546A1/ja
Application granted granted Critical
Publication of JP7106021B2 publication Critical patent/JP7106021B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、文書検索装置、プログラム及び新規属性値追加方法に関する。 The present disclosure relates to a document search device, program, and new attribute value addition method.

登録されている文書を検索して、ユーザが所望する文書を見つけ出す方法として、ユーザが入力したキーワードを含む文書を見つけ出す全文検索と、予め用意された属性値をユーザが選択することで、その属性値に関連付けられている文書を見つけ出す属性検索とが知られている。 As a method of searching registered documents to find a document desired by a user, a full-text search for finding a document containing a keyword entered by the user and an attribute value prepared in advance by the user selecting the attribute Attribute searching, which finds documents associated with a value, is known.

例えば、特許文献1には、ユーザの作成した文書に含まれる属性情報であるメタ情報の内、出現頻度の高いものを検索条件の候補とすることで、その検索条件を用いて属性検索を行うことができるようにする文書検索装置が開示されている。 For example, in Patent Document 1, among meta information, which is attribute information included in a document created by a user, meta information with a high appearance frequency is used as a search condition candidate, and an attribute search is performed using that search condition. A document retrieval device is disclosed that enables

特開2008-234214号公報JP 2008-234214 A

しかしながら、従来の技術は、メタ情報の内、出現頻度の高いものを検索条件の候補とするだけであり、ユーザが行なった検索の内容が反映されていない。 However, the conventional technology only selects meta information with a high appearance frequency as a search condition candidate, and does not reflect the contents of a search performed by a user.

そこで、本開示の一又は複数の態様は、ユーザが行なった検索の内容に応じて、属性値を新たに追加することができるようにすることを目的とする。 Accordingly, an object of one or more aspects of the present disclosure is to enable a new attribute value to be added according to the content of a search performed by a user.

本開示の一態様に係る文書検索装置は、文書記憶部に記憶されている複数の文書の各々と、前記複数の文書の各々の属性値とを関連付ける属性検索索引情報を参照して、前記文書記憶部を検索することで、一又は複数の文書を見つけ出す検索部と、前記検索部による検索が行われた日時である検索日時と、前記検索部で見つけ出された一又は複数の文書とを示す検索イベントを検索履歴として記憶する検索履歴記憶部と、前記検索履歴を解析することで、新規属性値を生成するとともに、前記新規属性値に関連付ける文書を関連文書として特定し、前記新規属性値及び前記関連文書を、前記属性検索索引情報に追加する新規属性値追加部と、を備えることを特徴とする。 A document search device according to an aspect of the present disclosure refers to attribute search index information that associates each of a plurality of documents stored in a document storage unit with an attribute value of each of the plurality of documents, a search unit that finds one or more documents by searching a storage unit; a search date and time that is the date and time when the search is performed by the search unit; and one or more documents found by the search unit. a search history storage unit for storing, as a search history, search events indicated by the search history; generating a new attribute value by analyzing the search history; identifying a document associated with the new attribute value as a related document; and a new attribute value adding unit for adding the related document to the attribute search index information.

本開示の一態様に係るプログラムは、コンピュータを、文書記憶部に記憶されている複数の文書の各々と、前記複数の文書の各々の属性値とを関連付ける属性検索索引情報を参照して、前記文書記憶部を検索することで、一又は複数の文書を見つけ出す検索部、前記検索部による検索が行われた日時である検索日時と、前記検索部で見つけ出された一又は複数の文書とを示す検索イベントを検索履歴として記憶する検索履歴記憶部、及び、前記検索履歴を解析することで、新規属性値を生成するとともに、前記新規属性値に関連付ける文書を関連文書として特定し、前記新規属性値及び前記関連文書を、前記属性検索索引情報に追加する新規属性値追加部、として機能させることを特徴とする。 A program according to an aspect of the present disclosure causes a computer to refer to attribute search index information that associates each of a plurality of documents stored in a document storage unit with an attribute value of each of the plurality of documents, a search unit that finds one or more documents by searching a document storage unit, a search date that is the date and time when the search is performed by the search unit, and one or more documents that are found by the search unit; a search history storage unit for storing search events shown as a search history; and analyzing the search history to generate a new attribute value, identify a document associated with the new attribute value as a related document, and identify the document associated with the new attribute value as a related document. It is characterized by functioning as a new attribute value addition unit that adds the value and the related document to the attribute search index information.

本開示の一態様に係る新規属性値追加方法は、検索部が、文書記憶部に記憶されている複数の文書の各々と、前記複数の文書の各々の属性値とを関連付ける属性検索索引情報を参照して、前記文書記憶部の検索を実行することで、一又は複数の文書を見つけ出し、検索履歴記憶部が、前記検索が実行された日時である検索日時と、前記検索で見つけ出された一又は複数の文書とを示す検索イベントを検索履歴として記憶し、新規属性値追加部が、前記検索履歴を解析することで、新規属性値を生成するとともに、前記新規属性値に関連付ける文書を関連文書として特定し、前記新規属性値追加部が、前記新規属性値及び前記関連文書を、前記属性検索索引情報に追加することを特徴とする。 A new attribute value adding method according to an aspect of the present disclosure is such that a search unit creates attribute search index information that associates each of a plurality of documents stored in a document storage unit with an attribute value of each of the plurality of documents. One or more documents are found by referencing and performing a search of the document store, and a search history store stores the search date and time, which is the date and time when the search was performed, and the documents found in the search. A search event indicating one or a plurality of documents is stored as a search history, and a new attribute value addition unit analyzes the search history to generate a new attribute value and associate a document to be associated with the new attribute value. The document is specified as a document, and the new attribute value adding unit adds the new attribute value and the related document to the attribute search index information.

本開示の一又は複数の態様によれば、ユーザが行なった検索の内容に応じて、属性値を新たに追加することができる。 According to one or more aspects of the present disclosure, attribute values can be newly added according to the content of a search performed by a user.

実施の形態1~3に係る文書検索装置の構成を概略的に示すブロック図である。1 is a block diagram schematically showing the configuration of a document retrieval device according to Embodiments 1-3; FIG. 検索画面画像の一例を示す概略図である。It is a schematic diagram showing an example of a search screen image. (A)及び(B)は、属性及び属性値を説明するための表である。(A) and (B) are tables for explaining attributes and attribute values. 属性検索索引情報の第1の例を示す概略図である。FIG. 4 is a schematic diagram showing a first example of attribute search index information; 検索履歴の一例を示す概略図である。It is a schematic diagram showing an example of a search history. 実施の形態1における検索イベントペア抽出部の構成を概略的に示すブロック図である。4 is a block diagram schematically showing the configuration of a search event pair extraction unit according to Embodiment 1; FIG. 時間的に連続する検索イベントペアに含まれている、二つの検索イベントの関係を説明するための概略図である。FIG. 4 is a schematic diagram for explaining the relationship between two search events included in a temporally continuous search event pair; (A)~(D)は、候補属性値に関連付けられている文書の分布例を示す概略図である。(A)-(D) are schematic diagrams showing example distributions of documents associated with candidate attribute values. 更新後の属性検索索引情報の第1の例を示す概略図である。FIG. 4 is a schematic diagram showing a first example of updated attribute search index information; (A)及び(B)は、ハードウェア構成例を示すブロック図である。(A) and (B) are block diagrams showing hardware configuration examples. 文書検索装置における検索処理を示すフローチャートである。4 is a flowchart showing search processing in the document search device; 新規属性値追加部が新規属性値を抽出して、属性検索索引情報に追加する処理を示すフローチャートである。FIG. 10 is a flow chart showing processing in which a new attribute value addition unit extracts a new attribute value and adds it to attribute search index information; FIG. 実施の形態1における検索イベントペア抽出部が、対象検索イベントペアを抽出する処理を示すフローチャートである。4 is a flow chart showing a process of extracting a target search event pair by a search event pair extraction unit according to Embodiment 1. FIG. 更新後の属性検索索引情報の第2の例を示す概略図である。FIG. 11 is a schematic diagram showing a second example of updated attribute search index information; 検索画面画像の変形例を示す概略図である。It is a schematic diagram showing a modification of the search screen image. 実施の形態2における検索イベントペア抽出部の構成を概略的に示すブロック図である。FIG. 12 is a block diagram schematically showing the configuration of a search event pair extraction unit according to Embodiment 2; FIG. 実施の形態2における検索イベントペア抽出部が、対象検索イベントペアを抽出する処理を示すフローチャートである。FIG. 13 is a flow chart showing a process of extracting a target search event pair by a search event pair extraction unit according to Embodiment 2; FIG. 実施の形態4に係る文書検索装置の構成を概略的に示すブロック図である。FIG. 12 is a block diagram schematically showing the configuration of a document retrieval device according to Embodiment 4;

実施の形態1.
図1は、実施の形態1に係る文書検索装置100の構成を概略的に示すブロック図である。
文書検索装置100は、入力部101と、検索入力処理部102と、文書データベース(以下、文書DB)103と、検索部110と、検索結果表示処理部120と、表示部121と、検索履歴処理部122と、検索履歴記憶部123と、新規属性値追加部130とを備える。
Embodiment 1.
FIG. 1 is a block diagram schematically showing the configuration of a document retrieval device 100 according to Embodiment 1. As shown in FIG.
The document search device 100 includes an input unit 101, a search input processing unit 102, a document database (hereinafter referred to as a document DB) 103, a search unit 110, a search result display processing unit 120, a display unit 121, and search history processing. It includes a section 122 , a search history storage section 123 , and a new attribute value addition section 130 .

入力部101は、ユーザから、指示の入力を受け付ける。
例えば、入力部101は、ユーザから、文書を検索するための検索用のキーワードである検索キーワードの入力、及び、検索用の属性値である検索属性値の入力の少なくとも何れか一方を受ける。属性値は、文書の書誌情報又は記載内容の分類を表す値である。
The input unit 101 receives an instruction input from the user.
For example, the input unit 101 receives at least one of an input of a search keyword, which is a keyword for searching documents, and an input of a search attribute value, which is an attribute value for searching, from the user. The attribute value is a value representing the classification of the bibliographic information or description content of the document.

検索入力処理部102は、表示部121に、検索画面画像を表示させて、その検索画面画像において、入力部101を介して、ユーザから、指示の入力を受ける。 The search input processing unit 102 causes the display unit 121 to display a search screen image, and receives an instruction input from the user via the input unit 101 on the search screen image.

図2は、検索画面画像の一例を示す概略図である。
図2に示されているように、検索画面画像140は、第1の属性値選択領域140aと、第2の属性値選択領域140bと、検索キーワード入力領域140cと、検索実行指示入力領域140dと、検索結果表示領域140eとを備える。
FIG. 2 is a schematic diagram showing an example of a search screen image.
As shown in FIG. 2, the search screen image 140 includes a first attribute value selection area 140a, a second attribute value selection area 140b, a search keyword input area 140c, and a search execution instruction input area 140d. , and a search result display area 140e.

第1の属性値選択領域140aは、ユーザが第1の属性に含まれる第1の属性値を選択する領域である。例えば、ユーザは、入力部101を用いて、第1の属性値選択領域140aのプルダウンメニューから、第1の属性値を選択する。第1の属性及び第1の属性値については、後述する。
第2の属性値選択領域140bは、ユーザが第2の属性に含まれる第2の属性値を選択する領域である。例えば、ユーザは、入力部101を用いて、第2の属性値選択領域140bのプルダウンメニューから、第2の属性値を選択する。第2の属性及び第2の属性値については、後述する。
The first attribute value selection area 140a is an area where the user selects a first attribute value included in the first attribute. For example, the user uses the input unit 101 to select the first attribute value from the pull-down menu of the first attribute value selection area 140a. The first attribute and first attribute value will be described later.
The second attribute value selection area 140b is an area where the user selects a second attribute value included in the second attribute. For example, the user uses the input unit 101 to select the second attribute value from the pull-down menu of the second attribute value selection area 140b. The second attribute and second attribute value will be described later.

なお、第1の属性値選択領域140aで選択された第1の属性値を、第1の検索属性値ともいい、第2の属性値選択領域140bで選択された第2の属性値を、第2の検索属性値ともいう。 The first attribute value selected in the first attribute value selection area 140a is also referred to as the first search attribute value, and the second attribute value selected in the second attribute value selection area 140b is referred to as the second attribute value. It is also called a search attribute value of 2.

検索キーワード入力領域140cは、ユーザが検索キーワードを入力する領域である。例えば、ユーザは、入力部101を用いて、検索キーワード入力領域140cに、検索キーワードを入力する。
検索実行指示入力領域140dは、ユーザが文書検索装置100に文書の検索の実行指示を入力する領域である。例えば、ユーザは、第1の属性値選択領域140a、第2の属性値選択領域140b及び検索キーワード入力領域140cの少なくとも何れか一つの領域において、属性値の選択及び検索キーワードの入力の少なくとも何れか一方を行い、入力部101を用いて、検索実行指示入力領域140dを押下することで、文書検索装置100に文書の検索を実行させることができる。
The search keyword input area 140c is an area where the user inputs a search keyword. For example, the user uses the input unit 101 to enter a search keyword in the search keyword input area 140c.
The search execution instruction input area 140 d is an area where the user inputs an instruction to execute a document search to the document search apparatus 100 . For example, the user selects an attribute value and/or inputs a search keyword in at least one of the first attribute value selection area 140a, the second attribute value selection area 140b, and the search keyword input area 140c. By doing one of the above and pressing the search execution instruction input area 140d using the input unit 101, the document search apparatus 100 can be caused to execute a document search.

検索結果表示領域140eは、文書検索装置100で実行された文書の検索結果が表示される。検索結果表示領域140eについては、後述する。 The search result display area 140e displays the search result of the document executed by the document search apparatus 100. FIG. The search result display area 140e will be described later.

図3(A)及び(B)は、本実施の形態における属性及び属性値を説明するための表である。
図3(A)は、第1の属性及び第1の属性の属性値である第1の属性値を示す表である。
図3(A)に示されているように、本実施の形態では、第1の属性は「機種」であり、第1の属性値は、第1の属性である「機種」を識別するための機種識別情報としての「機種名」である。ここでは、「機種名」は、「製品A」、「製品B」又は「製品C」である。
FIGS. 3A and 3B are tables for explaining attributes and attribute values in this embodiment.
FIG. 3A is a table showing first attributes and first attribute values that are attribute values of the first attributes.
As shown in FIG. 3A, in this embodiment, the first attribute is "model", and the first attribute value is to identify the first attribute "model". is a "model name" as model identification information. Here, the "model name" is "product A", "product B" or "product C".

図3(B)は、第2の属性及び第2の属性の属性値である第2の属性値を示す表である。
図3(B)に示されているように、本実施の形態では、第2の属性は「問合せ区分」であり、第2の属性値は、第2の属性である「問合せ区分」を識別するための問合せ区分識別情報としての「問合せ区分名」である。ここでは、「問合せ区分名」は、「設置について」、「機能と使い方」、「お手入れ」又は「困ったときには」である。
FIG. 3B is a table showing second attributes and second attribute values that are attribute values of the second attributes.
As shown in FIG. 3B, in this embodiment, the second attribute is "query category" and the second attribute value identifies the second attribute "query category". "Inquiry segment name" as query segment identification information for Here, the "inquiry category name" is "about installation", "function and usage", "maintenance" or "in case of trouble".

検索入力処理部102は、ユーザから入力を受けた第1の属性値、第2の属性値及び検索キーワードの少なくとも何れか一つを検索部110に与える。
また、検索入力処理部102は、ユーザから入力を受けた第1の属性値、第2の属性値及び検索キーワードの少なくとも何れか一つを検索条件として、検索履歴処理部122に与える。
The search input processing unit 102 provides the search unit 110 with at least one of the first attribute value, the second attribute value, and the search keyword input by the user.
Further, the search input processing unit 102 provides the search history processing unit 122 with at least one of the first attribute value, the second attribute value, and the search keyword input by the user as a search condition.

図1に戻り、文書DB103は、文書検索装置100で検索を行なう複数の文書を記憶する文書記憶部である。 Returning to FIG. 1, the document DB 103 is a document storage unit that stores a plurality of documents to be searched by the document search device 100. FIG.

検索部110は、検索入力処理部102から、検索属性値及び検索キーワードの少なくとも何れか一つを受け取り、文書DB103を検索することで、受け取った内容に関連する一又は複数の文書を、文書DB103から見つけ出す。
なお、本実施の形態では、検索部110は、第1の属性値、第2の属性値及び検索キーワードの少なくとも何れか一つを用いて検索を行うことができるようにされているが、本実施の形態は、このような例に限定されない。検索部110は、少なくとも一つの属性値を用いて、文書DB103を検索することができるようにされていればよい。
The search unit 110 receives at least one of a search attribute value and a search keyword from the search input processing unit 102 and searches the document DB 103 to retrieve one or more documents related to the received content. find out from
Note that in the present embodiment, the search unit 110 can perform a search using at least one of the first attribute value, the second attribute value, and the search keyword. Embodiments are not limited to such examples. The search unit 110 only needs to be able to search the document DB 103 using at least one attribute value.

検索部110は、全文検索索引記憶部111と、全文検索部112と、属性検索索引記憶部113と、属性検索部114と、検索結果生成部115とを備える。
全文検索索引記憶部111は、検索キーワードと、その検索キーワードを含む文書とを対応付ける全文検索索引情報を記憶する。検索キーワードが入力されるたびに、文書DB103に記憶されている全ての文書の各々にアクセスして、検索キーワードを用いて検索を行なうと、文書数が多くなるにつれて、検索時間が長くなる。このため、予め文書DB103に記憶されている全ての文書を、想定される検索キーワードで予め検索した結果から、例えば、検索キーワードと、その検索キーワードを含む文書とを対応付ける全文検索牽引情報を準備しておくことで、全文検索を効率的に行うことができる。なお、全文検索索引情報に記憶される検索キーワードは、単語単位、文字単位、又は、これらの組み合わせ等、何れの方式であってもよい。なお、全文検索索引情報を記憶する全文検索索引記憶部111は、必ずしも必要なものではなく、省略されてもよい。
The search unit 110 includes a full-text search index storage unit 111 , a full-text search unit 112 , an attribute search index storage unit 113 , an attribute search unit 114 and a search result generation unit 115 .
The full-text search index storage unit 111 stores full-text search index information that associates search keywords with documents containing the search keywords. If each time a search keyword is entered, all documents stored in the document DB 103 are accessed and searched using the search keyword, the search time increases as the number of documents increases. For this reason, based on the results of pre-searching all the documents stored in the document DB 103 in advance using an assumed search keyword, for example, full-text search traction information that associates a search keyword with a document containing that search keyword is prepared. By doing so, full-text search can be performed efficiently. The search keywords stored in the full-text search index information may be in word units, character units, or combinations thereof. Note that the full-text search index storage unit 111 for storing full-text search index information is not necessarily required, and may be omitted.

全文検索部112は、検索入力処理部102から与えられる検索キーワードを用いて、文書DB103を検索することで、検索キーワードを含む文書を見つけ出す。
例えば、全文検索部112は、全文検索索引記憶部111に記憶されている全文検索索引情報を参照することで、検索入力処理部102から与えられる検索キーワードを含む文書を特定する。そして、全文検索部112は、特定された文書の内、検索キーワードを含む部分のテキストを特定する。全文検索部112は、特定された文書、及び、特定されたテキストを検索結果生成部115に与える。
The full-text search unit 112 searches the document DB 103 using the search keyword given from the search input processing unit 102 to find documents containing the search keyword.
For example, the full-text search unit 112 refers to the full-text search index information stored in the full-text search index storage unit 111 to identify documents containing the search keyword given from the search input processing unit 102 . Then, the full-text search unit 112 identifies the text of the part containing the search keyword in the identified document. The full-text search unit 112 provides the identified document and the identified text to the search result generation unit 115 .

属性検索索引記憶部113は、属性値と文書とを関連付ける属性検索索引情報を記憶する。
図4は、実施の形態1における属性検索索引情報の第1の例を示す概略図である。
図4に示されているように、属性検索索引情報141は、文書列141aと、属性値列141bとを備える。
文書列141aは、文書を識別するための文書識別情報である文書IDを格納する。
属性値列141bは、同じ行の文書IDで識別される文書に関連付ける第1の属性値及び第2の属性値の少なくとも何れか一方を格納する。
The attribute search index storage unit 113 stores attribute search index information that associates attribute values with documents.
FIG. 4 is a schematic diagram showing a first example of attribute search index information according to the first embodiment.
As shown in FIG. 4, the attribute search index information 141 has a document column 141a and an attribute value column 141b.
The document column 141a stores document IDs, which are document identification information for identifying documents.
The attribute value column 141b stores at least one of the first attribute value and the second attribute value associated with the document identified by the document ID in the same row.

図1に戻り、属性検索部114は、検索入力処理部102から与えられる第1の属性値及び第2の属性値の少なくとも何れか一方を用いて、文書DB103を検索することで、一又は複数の文書を見つけ出す。
例えば、属性検索部114は、属性検索索引記憶部113に記憶されている属性検索索引情報を参照することで、検索入力処理部102から与えられる第1の属性値及び第2の属性値の少なくとも何れか一方に関連付けられている文書を特定する。そして、属性検索部114は、特定された文書を検索結果生成部115に与える。
Returning to FIG. 1, the attribute search unit 114 uses at least one of the first attribute value and the second attribute value given from the search input processing unit 102 to search the document DB 103 to obtain one or more find the document of
For example, the attribute search unit 114 refers to the attribute search index information stored in the attribute search index storage unit 113 so that at least the first attribute value and the second attribute value given from the search input processing unit 102 are Identify the documents associated with either. The attribute search unit 114 then provides the identified document to the search result generation unit 115 .

検索結果生成部115は、全文検索部112及び属性検索部114の少なくとも何れか一方から与えられる情報を用いて、検索結果を生成する。
例えば、検索結果生成部115は、全文検索部112のみで検索が行なわれた場合には、言い換えると、キーワード検索のみが行なわれた場合には、全文検索部112から与えられる特定された文書に関連付けられている属性値を属性検索索引記憶部113に記憶されている属性検索索引情報から特定する。そして、検索結果生成部115は、特定された属性値と、全文検索部112から与えられる特定された文書及び特定されたテキストとを検索結果として、検索結果表示処理部120に与える。
また、属性検索部114のみで検索が行われた場合には、言い換えると、属性検索のみが行なわれた場合には、検索結果生成部115は、属性検索部114から与えられる特定された文書を検索結果として、検索結果表示処理部120に与える。
さらに、全文検索部112及び属性検索部114で検索が行われた場合には、言い換えると、キーワード検索と、属性検索とが併用された場合には、検索結果生成部115は、上述のように、キーワード検索のみが行なわれた場合における特定された属性値、特定された文書及び特定されたテキストと、属性検索のみが行なわれた場合における特定された文書との両方を検索結果として、検索結果表示処理部120に与える。このように全文検索と属性検索とを併用する構成とすることにより、利用者が自由な検索キーワードを指定できるがやや正確性に欠けることのある全文検索と、予め決められた属性値により正確な検索ができる属性検索の双方の利点を生かした検索が可能となる。
The search result generation unit 115 generates search results using information provided from at least one of the full-text search unit 112 and the attribute search unit 114 .
For example, when the search is performed only by the full-text search unit 112, in other words, when only the keyword search is performed, the search result generation unit 115 selects the specified document given from the full-text search unit 112. Associated attribute values are specified from the attribute search index information stored in the attribute search index storage unit 113 . Then, the search result generation unit 115 gives the specified attribute value and the specified document and specified text given from the full-text search unit 112 to the search result display processing unit 120 as search results.
Further, when a search is performed only by the attribute search unit 114, in other words, when only an attribute search is performed, the search result generation unit 115 selects the specified document given from the attribute search unit 114. It is given to the search result display processing unit 120 as a search result.
Furthermore, when the search is performed by the full-text search unit 112 and the attribute search unit 114, in other words, when the keyword search and the attribute search are used together, the search result generation unit 115 performs the above-described , both the specified attribute value, the specified document and the specified text when only the keyword search is performed, and the specified document when only the attribute search is performed, the search result It is given to the display processing unit 120 . By combining full-text search and attribute search in this way, the user can freely specify search keywords, but full-text search, which may be somewhat lacking in accuracy, and accurate attribute values by predetermined attribute values. It is possible to perform a search that makes use of the advantages of both attribute searches that can be searched.

検索結果表示処理部120は、検索結果生成部115から与えられる検索結果に基づいて、その検索結果を示す検索結果部分画像を生成する。検索結果表示処理部120は、生成された検索結果部分画像を、表示部121に表示されている検索画面画像の一部として表示させる。 Search result display processing unit 120 generates a search result partial image representing the search result based on the search result provided from search result generation unit 115 . The search result display processing unit 120 displays the generated search result partial image as part of the search screen image displayed on the display unit 121 .

例えば、検索結果表示処理部120は、図2に示されている検索画面画像140において、検索結果部分画像を、検索結果表示領域140eに表示する。
検索結果表示領域140eは、番号列140e-1と、文書参照ボタン列140e-2と、テキスト列140e-3と、機種列140e-4と、問合せ区分列140e-5とを備える。
For example, the search result display processing unit 120 displays the search result partial image in the search result display area 140e in the search screen image 140 shown in FIG.
The search result display area 140e includes a number column 140e-1, a document reference button column 140e-2, a text column 140e-3, a model column 140e-4, and an inquiry category column 140e-5.

番号列140e-1は、検索結果生成部115から与えられる検索結果に含まれている文書を識別するための文書番号を表示する。文書番号は、検索結果表示領域140eの上から順に連番が付されている。 The number column 140 e - 1 displays document numbers for identifying documents included in the search results given from the search result generator 115 . The document numbers are sequentially numbered from the top of the search result display area 140e.

文書参照ボタン列140e-2は、ユーザが、入力部101を介して、対応する文書を表示部121に表示する指示を入力する表示指示入力領域である文書参照ボタンを表示する。
文書参照ボタン列140e-2に表示されている文書参照ボタンが、入力部101を介して押下されると、検索結果表示処理部120は、文書DB103から対応する文書を読み出して、表示部121に表示させることで、ユーザに閲覧又は参照させる。
The document reference button row 140e-2 displays document reference buttons, which are display instruction input areas for the user to input an instruction to display the corresponding document on the display section 121 via the input section 101. FIG.
When a document reference button displayed in the document reference button row 140e-2 is pressed via the input unit 101, the search result display processing unit 120 reads the corresponding document from the document DB 103 and displays it on the display unit 121. Displaying it allows the user to browse or refer to it.

テキスト列140e-3は、検索結果生成部115から与えられる検索結果に含まれているテキストを表示する。なお、属性検索のみで見つけられた文書には、テキストが検索結果に含まれていないので、このような場合には、テキスト列140e-3は、空欄とされる。 The text column 140e-3 displays the text included in the search results given from the search result generator 115. FIG. It should be noted that text is not included in the search results for documents found only by attribute search, so in such a case, the text column 140e-3 is left blank.

機種列140e-4は、検索結果生成部115から与えられる検索結果に含まれている第1の属性値である機種名を表示する。
問合せ区分列140e-5は、検索結果生成部115から与えられる検索結果に含まれている第2の属性値である問合せ区分名を表示する。
The model column 140e-4 displays the model name, which is the first attribute value included in the search results given from the search result generator 115. FIG.
The query category column 140e-5 displays the query category name, which is the second attribute value included in the search results given from the search result generator 115. FIG.

また、検索結果表示処理部120は、検索部110により検索が行われた日時である検索日時と、検索結果生成部115から与えられる検索結果に含まれている文書である検索結果の文書と、ユーザに参照された文書である参照文書とを検索結果表示情報として検索履歴処理部122に与える。参照文書は、ユーザに閲覧された閲覧文書ともいう。 In addition, the search result display processing unit 120 includes the search date and time when the search is performed by the search unit 110, the document of the search result which is the document included in the search result given from the search result generation unit 115, Reference documents, which are documents referred to by the user, are given to the search history processing unit 122 as search result display information. A reference document is also referred to as a browsed document that has been browsed by a user.

表示部121は、各種画面画像を表示する。例えば、表示部121は、検索画面画像を表示する。 The display unit 121 displays various screen images. For example, the display unit 121 displays a search screen image.

検索履歴処理部122は、検索入力処理部102から与えられる検索条件と、検索結果表示処理部120から与えられる検索結果表示情報とを、検索イベントとして、検索履歴記憶部123に記憶されている検索履歴に格納する。 The search history processing unit 122 uses the search condition given from the search input processing unit 102 and the search result display information given from the search result display processing unit 120 as a search event to search stored in the search history storage unit 123. Store in history.

検索履歴記憶部123は、検索履歴を記憶する。
図5は、検索履歴の一例を示す概略図である。
図5に示されているように、検索履歴142は、検索イベント毎に、検索日時と、検索条件と、検索結果の文書と、参照文書とを記録している。なお、以下では、検索結果の文書のことを検索イベントで示される文書ともいう。
The search history storage unit 123 stores search histories.
FIG. 5 is a schematic diagram showing an example of search history.
As shown in FIG. 5, the search history 142 records the date and time of search, search conditions, documents of search results, and reference documents for each search event. In the following description, a document as a search result is also referred to as a document indicated by a search event.

図1に示されている新規属性値追加部130は、検索履歴を解析することで、新規属性値を生成するとともに、新規属性値に関連付ける文書を関連文書として特定し、新規属性値及び関連文書を、属性検索索引情報に追加する。
例えば、新規属性値追加部130は、検索履歴を解析することで、文書DB103に記憶されている文書から、ユーザの検索意図に合致する特徴キーワードを抽出して、抽出された特徴キーワードを用いて新規属性値を生成する。
The new attribute value addition unit 130 shown in FIG. 1 analyzes the search history to generate a new attribute value, identify a document to be associated with the new attribute value as a related document, and add the new attribute value and the related document. to the attribute search index information.
For example, the new attribute value adding unit 130 analyzes the search history to extract characteristic keywords that match the user's search intention from documents stored in the document DB 103, and uses the extracted characteristic keywords to Generate new attribute values.

新規属性値追加部130は、検索イベントペア抽出部131と、属性値選択部132と、特徴キーワード抽出部133と、新規属性値生成部134とを備える。
検索イベントペア抽出部131は、検索履歴記憶部123に記憶されている検索履歴を解析して、予め定められたイベント抽出条件を満たす、二つの検索イベントである対象検索イベントペアを抽出する。
The new attribute value addition unit 130 includes a search event pair extraction unit 131 , an attribute value selection unit 132 , a characteristic keyword extraction unit 133 and a new attribute value generation unit 134 .
The search event pair extraction unit 131 analyzes the search history stored in the search history storage unit 123 and extracts a target search event pair, which is two search events that satisfy predetermined event extraction conditions.

図6は、検索イベントペア抽出部131の構成を概略的に示すブロック図である。
検索イベントペア抽出部131は、検索イベントペア選択部131aと、検索日時連続性判定部131bと、検索前後文書集合比較部131cとを備える。
FIG. 6 is a block diagram schematically showing the configuration of the search event pair extraction unit 131. As shown in FIG.
The search event pair extraction unit 131 includes a search event pair selection unit 131a, a search date/time continuity determination unit 131b, and a pre-search and post-search document set comparison unit 131c.

検索イベントペア選択部131aは、検索履歴に格納されている検索イベントの検索日時に基づいて、時間的に連続する二つの検索イベントを選択し、選択された二つの検索イベントにより、検索イベントペアを生成する。例えば、検索履歴に、検索イベントA、検索イベントB及び検索イベントCが、検索日時においてこの順番で格納されている場合には、検索イベントペア選択部131aは、検索イベントA及び検索イベントBからなる検索イベントペア、並びに、検索イベントB及び検索イベントCからなる検索イベントペアを生成する。 The search event pair selection unit 131a selects two temporally consecutive search events based on the search dates and times of the search events stored in the search history, and selects a search event pair based on the selected two search events. Generate. For example, when search event A, search event B, and search event C are stored in the search history in this order in terms of search date and time, the search event pair selection unit 131a consists of search event A and search event B. A search event pair and a search event pair consisting of search event B and search event C are generated.

検索日時連続性判定部131bは、検索イベントペア選択部131aにより生成された検索イベントペアから、検索日時の差が予め定められた閾値以上となっている検索イベントペアを除外することで、検索日時が近い検索イベントのペアである短時間検索イベントペアを特定する。予め定められた閾値は、例えば、10分とする。 The search date/time continuity determination unit 131b excludes search event pairs whose search date/time difference is greater than or equal to a predetermined threshold from the search event pairs generated by the search event pair selection unit 131a. Identify short search event pairs that are pairs of search events that are close to each other. The predetermined threshold is, for example, 10 minutes.

検索前後文書集合比較部131cは、検索日時連続性判定部131bで特定された短時間検索イベントペアの各々から、時間的に後の検索イベントに対応する検索結果が、時間的に前の検索イベントに対応する検索結果を絞り込んでいるペアを、検索イベントペア抽出部131で抽出する対象検索イベントペアとして特定する。 The pre- and post-search document collection comparison unit 131c compares the search result corresponding to the temporally later search event from each of the short-time search event pairs specified by the search date/time continuity determination unit 131b to the temporally earlier search event. , are specified as target search event pairs to be extracted by the search event pair extracting unit 131 .

図7は、時間的に連続する検索イベントペアに含まれている、二つの検索イベントの関係を説明するための概略図である。
ここで、図7に示されている第1の検索結果は、検索イベントペアの内、時間的に前の検索イベントに対応する検索結果の文書である。一方、第2の検索結果は、その検索イベントペアの内、時間的に後の検索イベントに対応する検索結果の文書である。
FIG. 7 is a schematic diagram for explaining the relationship between two search events included in a temporally continuous search event pair.
Here, the first search result shown in FIG. 7 is the document of the search result corresponding to the temporally earlier search event in the search event pair. On the other hand, the second search result is the document of the search result corresponding to the later search event in the search event pair.

図7に示されている符号G1は、第1の検索結果に含まれるが、第2の検索結果には含まれない文書を示す。
符号G2は、第1の検索結果に含まれ、かつ、第2の検索結果にも含まれる文書を示す。
符号G3は、第2の検索結果に含まれるが、第1の検索結果には含まれない文書を示す。
符号G4は、文書DB103に記憶されている複数の文書の内、第1の検索結果にも、第2の検索結果にも含まれない文書を示す。
Reference G1 shown in FIG. 7 indicates documents included in the first search result but not included in the second search result.
Reference G2 indicates a document included in the first search result and also included in the second search result.
Reference G3 indicates documents included in the second search result but not included in the first search result.
Reference G4 indicates a document that is not included in either the first search result or the second search result among the plurality of documents stored in the document DB 103 .

ここで、検索前後文書集合比較部131cは、下記の(1)式で示される第1の条件、下記の(2)式で示される第2の条件、及び、下記の(3)式で示される第3の条件を満たす短時間検索イベントペアを、対象検索イベントペアとして特定する。
G2N>Th1 (1)
G2N÷(G1N+G2N)<Th2 (2)
G3N÷(G2N+G3N)<Th3 (3)
但し、G1Nは、符号G1の文書の数であり、G2Nは、符号G2の文書の数であり、G3Nは、符号G3の文書の数である。
また、Th1は、予め定められた第1の閾値であり、例えば、30である。Th2は、予め定められた第2の閾値であり、例えば、0.6である。Th3は、予め定められた第3の閾値であり、例えば、0.1である。
Here, the pre-search and post-search document set comparison unit 131c sets the first condition represented by the following formula (1), the second condition represented by the following formula (2), and the following formula (3). A short-time search event pair that satisfies the third condition is specified as a target search event pair.
G2N>Th1 (1)
G2N÷(G1N+G2N)<Th2 (2)
G3N÷(G2N+G3N)<Th3 (3)
However, G1N is the number of G1 documents, G2N is the number of G2 documents, and G3N is the number of G3 documents.
Also, Th1 is a predetermined first threshold, and is 30, for example. Th2 is a predetermined second threshold, for example, 0.6. Th3 is a predetermined third threshold, for example, 0.1.

第1の条件を満たすことにより、第1の検索結果と、第2の検索結果とに関連性があることが推定される。
第2の条件と第3の条件とを満たすことにより、第2の検索結果をもたらす検索条件が、第1の検索結果をもたらす検索条件をより細分化した検索条件であることが推定される。
これらの条件を満たすことで、ユーザがこれらの二回の検索により、絞り込みを行なったことを推定することができる。
By satisfying the first condition, it is estimated that the first search result and the second search result are related.
By satisfying the second condition and the third condition, it is presumed that the search condition that yields the second search result is a more detailed search condition than the search condition that yields the first search result.
By satisfying these conditions, it can be inferred that the user has narrowed down through these two searches.

以上のように、検索イベントペア抽出部131が、対象検索イベントペアを抽出するイベント抽出条件は、検索イベントペアに含まれている二つの検索イベントの検索日時の差が予め定められた値(ここでは、閾値となる時間)未満であることを条件とする第1のイベント抽出条件と、検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントが、時間的に前の検索イベントで示される文書を絞り込んでいることを条件とする第2のイベント抽出条件とを含んでいる。
そして、第2のイベント抽出条件は、検索イベントペアに含まれている二つの検索イベントの両方で重複して示される文書の数である第1の数が、予め定められた第1の閾値よりも多く、第1の数を、検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書の数で割った値が、予め定められた第2の閾値よりも少なく、かつ、検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書の数から第1の数を引いた値を、検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書の数で割った値が、予め定められた第3の閾値よりも少ないこと、である。
As described above, the event extraction condition for the search event pair extraction unit 131 to extract the target search event pair is a predetermined value (here, Then, the first event extraction condition that the condition is less than the threshold time), and the temporally later search event of the two search events included in the search event pair is and a second event extraction condition on the condition that the document indicated by the previous search event is narrowed down.
The second event extraction condition is that the first number, which is the number of documents duplicated in both of the two search events included in the search event pair, exceeds a predetermined first threshold. a predetermined second A value obtained by subtracting the first number from the number of documents indicated by the temporally later search event, of the two search events that are less than the threshold and included in the search event pair, is added to the search event pair. A value obtained by dividing by the number of documents indicated by the temporally later search event of the two included search events is less than a predetermined third threshold.

以上により、図1に示されている検索イベントペア抽出部131は、検索イベントペアから、短い時間で二回の検索が行われ、かつ、ユーザが文書の絞り込みを行なった検索イベントのペアを、対象検索イベントペアとして抽出することができる。 As described above, the search event pair extraction unit 131 shown in FIG. It can be extracted as a target search event pair.

属性値選択部132は、検索イベントペア抽出部131で抽出された対象検索イベントペアで示される文書に関連付けられている属性値から、予め定められている選択条件を満たす属性値を、新規の属性値を生成する対象とする対象属性値として選択する。 The attribute value selection unit 132 selects an attribute value that satisfies a predetermined selection condition from the attribute values associated with the document indicated by the target search event pair extracted by the search event pair extraction unit 131 as a new attribute. Select as the target attribute value for which you want to generate a value.

ここでも、図7を用いて、属性値選択部132での処理を説明する。
属性値選択部132は、対象検索イベントペアの各々に含まれている二つの検索対象イベントの検索結果の文書に関連付けられている属性値の各々を、候補属性値として特定する。そして、属性値選択部132は、図7に示されている符号G1~G4の各々の文書における、候補属性値に関連付けられている文書の分布を特定する。
そして、属性値選択部132は、特定した分布が、例えば、図8(A)に示されているようになっている候補属性値を、対象属性値として選択する。
Again, the processing in the attribute value selection unit 132 will be explained using FIG.
The attribute value selection unit 132 identifies each of the attribute values associated with the documents of the search results of the two search target events included in each of the target search event pairs as candidate attribute values. Then, the attribute value selection unit 132 identifies the distribution of documents associated with candidate attribute values in each of the documents G1 to G4 shown in FIG.
Then, the attribute value selection unit 132 selects, as the target attribute value, the candidate attribute value whose specified distribution is shown in FIG. 8A, for example.

図8(A)~(D)は、候補属性値に関連付けられている文書の分布例を示す概略図である。
図8(A)~(D)において、符号G1~G4の各々の棒グラフは、符号G1~G4の各々の文書の数を示しており、その棒グラフの内の斜線を引いた部分が、候補属性値に関連付けられている文書の数である。
FIGS. 8(A)-(D) are schematic diagrams showing example distributions of documents associated with candidate attribute values.
In FIGS. 8A to 8D, each bar graph with symbols G1 to G4 indicates the number of documents with each symbol G1 to G4. The number of documents associated with the value.

図8(A)は、候補属性値に関連付けられている文書が、符号G1及び符号G2の文書に多く含まれているが、符号G3及び符号G4の文書にはあまり含まれていない分布である。
このような分布を示す候補属性値は、ユーザが絞り込みを行なった両方の検索条件に関連するが、これらの両方の検索条件で十分に区別ができておらず、このような候補属性値を細分化することにより、ユーザの検索条件に対応する属性値を追加できる可能性がある。
FIG. 8A shows a distribution in which many documents associated with candidate attribute values are included in documents with codes G1 and G2, but not many documents are included in documents with codes G3 and G4. .
Candidate attribute values exhibiting such a distribution are relevant to both user-refined search terms, but are not sufficiently differentiated in both of these search terms. , it may be possible to add attribute values corresponding to the user's search criteria.

図8(B)は、候補属性値に関連付けられている文書が、符号G1の文書に多く含まれているが、符号G2~符号G4の文書にはあまり含まれていない分布である。
このような分布を示す候補属性値は、ユーザが絞り込みを行なった2回目の検索の絞り込みの意図とは無関係の属性値である可能性が高い。
FIG. 8(B) shows a distribution in which many documents associated with candidate attribute values are included in documents with code G1, but not so many in documents with codes G2 to G4.
Candidate attribute values exhibiting such a distribution are highly likely to be attribute values unrelated to the user's intention of narrowing down the second search.

図8(C)は、候補属性値に関連付けられている文書が、符号G2の文書に多く含まれているが、符号G1、符号G3及び符号G4の文書にはあまり含まれていない分布である。
このような分布を示す候補属性値は、1回目の検索には無関係であり、ユーザが絞り込みを行なった2回目の検索意図に一致している可能性が高い。このような候補属性値を使用することで、ユーザが十分に検索を行うことができるため、新たな属性値を抽出する必要性がない。
FIG. 8(C) shows a distribution in which many documents associated with candidate attribute values are included in documents with code G2, but not so many in documents with codes G1, G3, and G4. .
Candidate attribute values showing such a distribution are irrelevant to the first search, and are highly likely to match the user's second search intent for narrowing down. By using such candidate attribute values, the user can perform a search sufficiently, so there is no need to extract new attribute values.

図8(D)は、候補属性値に関連付けられている文書が、符号G1~符号G4の文書にはあまり含まれていない分布である。
このような分布を示す候補属性値は、ユーザの検索とは無関係の属性値である可能性が高い。
FIG. 8(D) shows a distribution in which documents associated with candidate attribute values are rarely included in documents G1 to G4.
Candidate attribute values exhibiting such a distribution are highly likely to be attribute values unrelated to user searches.

属性値選択部132は、特定した分布が、図8(A)に示されているようになっている候補属性値を対象属性値として選択するために、下記の(4)式で示される第4の条件、下記の(5)式で示される第5の条件、及び、下記の(6)式で示される第6の条件を満たす候補属性値を対象属性値として選択する。
(R1+R2)÷(R3+R4)>Th4 (4)
R1÷G1N>Th5、かつ、R2÷G2N>Th5 (5)
R1÷R2>Th6、又は、R2÷R1>Th6 (6)
但し、R1は、符号G1の文書の内の候補属性値に関連付けられている文書の数であり、R2は、符号G2の文書の内の候補属性値に関連付けられている文書の数である。
また、Th4は、予め定められた第4の閾値であり、例えば、10である。Th5は、予め定められた第5の閾値であり、例えば、0.8である。Th6は、予め定められた第6の閾値であり、例えば、0.9である。
The attribute value selection unit 132 selects, as the target attribute value, the candidate attribute value whose specified distribution is as shown in FIG. A candidate attribute value that satisfies the condition 4, the fifth condition represented by the following formula (5), and the sixth condition represented by the following formula (6) is selected as the target attribute value.
(R1+R2)÷(R3+R4)>Th4 (4)
R1÷G1N>Th5 and R2÷G2N>Th5 (5)
R1/R2>Th6 or R2/R1>Th6 (6)
However, R1 is the number of documents associated with the candidate attribute value among the documents of code G1, and R2 is the number of documents associated with the candidate attribute value of the documents of code G2.
Th4 is a predetermined fourth threshold value, for example, 10. Th5 is a predetermined fifth threshold, eg, 0.8. Th6 is a predetermined sixth threshold, for example, 0.9.

第4の条件を満たすことにより、候補属性値に関連付けられている文書が、符号G1及び符号G2の文書に大きく偏っていることを検出することができる。
第5の条件を満たすことにより、候補属性値に関連付けられている文書が、符号G1及び符号G2の文書の中で、大部分を占めることを検出することができる。
第6の条件を満たすことにより、候補属性値に関連付けられている文書が、符号G1及び符号G2の文書の中で偏りがないことを検出することができる。
By satisfying the fourth condition, it can be detected that the documents associated with the candidate attribute values are heavily biased toward the documents with the codes G1 and G2.
By satisfying the fifth condition, it can be detected that the documents associated with the candidate attribute value occupy most of the documents with the codes G1 and G2.
By satisfying the sixth condition, it can be detected that the documents associated with the candidate attribute values are not biased among the documents G1 and G2.

なお、属性値選択部132は、上記の第4の条件~第6の条件を満たす候補属性値が複数ある場合には、(R1+R2)が最も多い候補属性値、又は、R2が最も多い候補属性値等、予め定められた方法で一つの候補属性値を対象属性値として選択する。 Note that when there are a plurality of candidate attribute values that satisfy the fourth to sixth conditions, the attribute value selection unit 132 selects (R1+R2) as the largest candidate attribute value or R2 as the largest candidate attribute value. One candidate attribute value is selected as the target attribute value by a predetermined method such as value.

以上のように選択条件は、対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書の中で、選択条件を判断する対象となっている属性値である候補属性値に関連付けられている文書の数を、文書DB103に記憶されている複数の文書から、対象検索イベントペアに含まれている二つの検索イベントにおいて時間的に前の検索イベントで示される文書を除いた文書の内、候補属性値に関連付けられている文書の数で割った値が、予め定められた第4の閾値よりも高く、対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書から、時間的に後の検索イベントで示される文書を除いた文書である第1の文書の数に対する、その第1の文書の中で、候補属性値に関連付けられている文書である第2の文書の数の割合が、予め定められた第5の閾値よりも高く、対象検索イベントペアに含まれている二つの検索イベントで重複して示されている文書である第3の文書の数に対する、その第3の文書の中で、候補属性値に関連付けられている文書である第4の文書の数の割合が、第5の閾値よりも高く、かつ、第4の文書の数に対する第2の文書の数の割合、又は、第2の文書の数に対する第4の文書の数の割合が、予め定められた第6の閾値よりも大きい、という条件である。 As described above, the selection condition is the attribute for which the selection condition is determined in the document indicated by the temporally previous search event of the two search events included in the target search event pair. The number of documents associated with the candidate attribute value, which is the value, is determined from a plurality of documents stored in the document DB 103 in the two search events included in the target search event pair in the temporally previous search event. Among the documents excluding the indicated document, the value obtained by dividing by the number of documents associated with the candidate attribute value is higher than a predetermined fourth threshold, and the two included in the target search event pair Among search events, the number of first documents that are documents indicated by temporally earlier search events excluding documents indicated by temporally later search events and the ratio of the number of second documents that are documents associated with the candidate attribute value is higher than a predetermined fifth threshold, and the two search events included in the target search event pair overlap The ratio of the number of fourth documents, which are documents associated with candidate attribute values among the third documents, to the number of third documents, which are documents shown as higher than the threshold and the ratio of the number of the second documents to the number of the fourth documents or the ratio of the number of the fourth documents to the number of the second documents is a predetermined sixth threshold The condition is that it is greater than

図1に示されている特徴キーワード抽出部133は、属性値選択部132により対象属性値が選択された対象検索イベントペアから、特徴的なキーワードである特徴キーワードを抽出する。
例えば、特徴キーワード抽出部133は、対象属性値が選択された対象検索イベントペアの内、時間的に後の検索イベントで示される文書に含まれている複数のキーワードから、予め定められたキーワード抽出条件を満たすキーワードを特徴キーワードとして抽出する。
The characteristic keyword extraction unit 133 shown in FIG. 1 extracts characteristic keywords, which are characteristic keywords, from the target search event pair whose target attribute value is selected by the attribute value selection unit 132 .
For example, the feature keyword extraction unit 133 extracts a predetermined keyword from a plurality of keywords included in a document indicated by a later search event in a target search event pair whose target attribute value is selected. Keywords that satisfy the conditions are extracted as characteristic keywords.

ここでは、特徴キーワード抽出部133は、公知の手法であるtf(term frequency)-idf(inverse document frequency)重みを用いて、特徴キーワードを抽出する。tf-idf重みは、多くの文書に出現するキーワードほど、その値が小さくなり、特定の文書にしか出現しないキーワードほど、その値が大きくなる。 Here, the feature keyword extracting unit 133 extracts feature keywords using a known technique of tf (term frequency)-idf (inverse document frequency) weight. The tf-idf weight has a smaller value for a keyword that appears in more documents, and a larger value for a keyword that appears only in a specific document.

ここでも図7を用いて説明を行う。
特徴キーワード抽出部133は、対象検索イベントペアにおいて、符号G1の文書に含まれている全てのキーワードを第1のキーワードとして抽出する。次に、特徴キーワード抽出部133は、第1のキーワードの各々についてtf-idf重みを算出する。そして、特徴キーワード抽出部133は、tf-idf重みの降順で、第1のキーワードを並べた第1の重み付きキーワードリストを生成する。第1の重み付きキーワードリストは、符号G1の文書に多く出現し、他の文書にはあまり出現しない第1のキーワードほど、上位に配置されるリストとなる。
次に、特徴キーワード抽出部133は、第1の重み付きキーワードリストにおいて、上位から、予め定められたN1個の第1のキーワードを特定する。
ここで、N1は、予め定められた正の整数であり、例えば、20である。なお、特徴キーワード抽出部133は、リストに含まれているキーワードがN1に満たない場合には、全てのキーワードを抽出すればよい。
Again, description will be made with reference to FIG.
The feature keyword extracting unit 133 extracts all keywords included in the document of code G1 in the target search event pair as first keywords. Next, the feature keyword extraction unit 133 calculates the tf-idf weight for each of the first keywords. Then, the feature keyword extraction unit 133 generates a first weighted keyword list in which the first keywords are arranged in descending order of tf-idf weight. In the first weighted keyword list, a first keyword that appears more frequently in the document of code G1 and less frequently appears in other documents is placed at a higher rank.
Next, the feature keyword extraction unit 133 identifies N1 predetermined first keywords from the top in the first weighted keyword list.
Here, N1 is a predetermined positive integer, such as 20. If the number of keywords included in the list is less than N1, the characteristic keyword extraction unit 133 may extract all keywords.

また、特徴キーワード抽出部133は、対象検索イベントペアにおいて、符号G2の文書に含まれている全てのキーワードを第2のキーワードとして抽出する。次に、特徴キーワード抽出部133は、第2のキーワードの各々についてtf-idf重みを算出する。そして、特徴キーワード抽出部133は、tf-idf重みの降順で、第2のキーワードを並べた第2の重み付きキーワードリストを生成する。第2の重み付きキーワードリストは、符号G2の文書に多く出現し、他の文書にはあまり出現しない第2のキーワードほど、上位に配置されるリストとなる。 In addition, the feature keyword extraction unit 133 extracts all keywords included in the document of code G2 in the target search event pair as second keywords. Next, the feature keyword extraction unit 133 calculates the tf-idf weight for each of the second keywords. Then, the characteristic keyword extraction unit 133 generates a second weighted keyword list in which the second keywords are arranged in descending order of tf-idf weight. The second weighted keyword list is a list in which second keywords appearing more often in the document of code G2 and less frequently appearing in other documents are arranged at higher ranks.

次に、特徴キーワード抽出部133は、第2の重み付きキーワードリストにおいて、上位から、予め定められたM1個の第2のキーワードを特定する。特徴キーワード抽出部133は、特定された第2のキーワードの内、上記のように特定された第1のキーワードに一致するキーワードを除いた残りの第2のキーワードを、残存第2のキーワードとして特定する。そして、特徴キーワード抽出部133は、残存第2のキーワードの内、上位から、予め定められたM2個の第2のキーワードを特徴キーワードとして抽出する。 Next, the characteristic keyword extraction unit 133 identifies M1 predetermined second keywords from the top in the second weighted keyword list. The characteristic keyword extracting unit 133 identifies, among the identified second keywords, the remaining second keywords excluding the keywords that match the first keywords identified as described above, as remaining second keywords. do. Then, the feature keyword extracting unit 133 extracts a predetermined M2 second keywords from the top of the remaining second keywords as feature keywords.

ここで、M1は、予め定められた正の整数であり、例えば、20である。M2も、予め定められた正の整数であり、例えば、5である。
なお、特徴キーワード抽出部133は、リストに含まれているキーワードがM1又はM2に満たない場合には、全てのキーワードを抽出すればよい。
Here, M1 is a predetermined positive integer, such as 20. M2 is also a predetermined positive integer, eg, 5.
It should be noted that the feature keyword extraction unit 133 may extract all keywords when the number of keywords included in the list is less than M1 or M2.

以上のように、キーワード抽出条件は、対象属性値が選択された対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書に含まれている複数のキーワードから、対象属性値が選択された対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書から特定された一又は複数のキーワードを除いた残りのキーワードにおいて、重要度が高い順に予め定められた数のキーワードを抽出するという条件である。 As described above, the keyword extraction condition is the two search events included in the target search event pair in which the target attribute value is selected. one or more keywords identified from the document indicated by the temporally earlier search event of the two search events included in the target search event pair whose target attribute value was selected from the keywords of The condition is to extract a predetermined number of keywords from the remaining keywords in descending order of importance.

図1に示されている新規属性値生成部134は、属性値選択部132で選択された対象属性値と、特徴キーワード抽出部133で抽出された特徴キーワードとから、予め定められた方法を用いて、新規属性値を生成する。例えば、新規属性値生成部134は、対象属性値が「困ったときには」であり、特徴キーワードが「ドラム」である場合には、新規属性値として「困ったときには(ドラム)」を生成する。また、新規属性値生成部134は、対象属性値が「困ったときには」であり、特徴キーワードが「ドラム」及び「騒音」である場合には、新規属性値として「困ったときには(ドラム、騒音)」を生成する。このように、複数の特徴キーワードがある場合には、新規属性値生成部134は、複数の特徴キーワードを列記すればよい。
なお、図3に示されているように、複数の属性がある場合には、新規属性値を生成する際に用いられた対象属性値が含まれている属性に、新規属性値が追加される。
The new attribute value generation unit 134 shown in FIG. 1 uses a predetermined method from the target attribute value selected by the attribute value selection unit 132 and the feature keyword extracted by the feature keyword extraction unit 133. to generate a new attribute value. For example, when the target attribute value is "when in trouble" and the feature keyword is "drums", the new attribute value generating unit 134 generates "when in trouble (drums)" as the new attribute value. In addition, when the target attribute value is "when in trouble" and the characteristic keywords are "drums" and "noise", the new attribute value generation unit 134 sets the new attribute value as "when in trouble (drums, noise )”. In this way, when there are multiple characteristic keywords, the new attribute value generation unit 134 may list the multiple characteristic keywords.
As shown in FIG. 3, when there are multiple attributes, the new attribute value is added to the attribute containing the target attribute value used when generating the new attribute value. .

そして、新規属性値生成部134は、新規属性値を、属性検索索引記憶部113に記憶されている属性検索索引情報に追加する。
ここで、新規属性値に関連付けられる文書(関連文書ともいう)は、対象属性値が選択された対象検索イベントペアにおける、G2の文書(図7参照)である。言い換えると、対象属性値が選択された対象検索イベントペアに含まれている二つの検索イベントの両方で重複して示されている文書が、新規属性値に関連付けられる文書となる。例えば、上記例の新規属性値「困ったときには(ドラム)」を追加した際における対象検索イベントにおいて、図4に示されている文書D002が、図7に示されているG2の文書に含まれ、文書D003が、図7に示されているG2以外の文書、例えば、G1の文書であった場合、図9の更新後の属性検索索引情報141#1に示されているように、文書D002の属性値「困ったときには」は、「困ったときには(ドラム)」に入れ替えられるが、文書D003の属性値「困ったときには」は、維持される。
The new attribute value generator 134 then adds the new attribute value to the attribute search index information stored in the attribute search index storage unit 113 .
Here, the document associated with the new attribute value (also referred to as related document) is the G2 document (see FIG. 7) in the target search event pair for which the target attribute value is selected. In other words, a document whose target attribute value is duplicated in both of the two search events included in the selected target search event pair becomes the document associated with the new attribute value. For example, in the target search event when adding the new attribute value "When in trouble (drum)" in the above example, the document D002 shown in FIG. 4 is included in the document G2 shown in FIG. , document D003 is a document other than G2 shown in FIG. is replaced with "when in trouble (drum)", the attribute value "in case of trouble" of the document D003 is maintained.

以上に記載された検索入力処理部102、検索部110、検索結果表示処理部120、検索履歴処理部122及び新規属性値追加部130の一部又は全部は、例えば、図10(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU(Central Processing Unit)等のプロセッサ11とにより構成することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。 Some or all of the search input processing unit 102, the search unit 110, the search result display processing unit 120, the search history processing unit 122, and the new attribute value addition unit 130 described above are shown in FIG. As described above, it can be composed of a memory 10 and a processor 11 such as a CPU (Central Processing Unit) that executes programs stored in the memory 10 . Such a program may be provided through a network, or recorded on a recording medium and provided. That is, such programs may be provided as program products, for example.

また、検索入力処理部102、検索部110、検索結果表示処理部120、検索履歴処理部122及び新規属性値追加部130の一部又は全部は、例えば、図10(B)に示されているように、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等の処理回路12で構成することもできる。 Part or all of the search input processing unit 102, the search unit 110, the search result display processing unit 120, the search history processing unit 122, and the new attribute value addition unit 130 are shown in FIG. 10B, for example. As such, the processing circuit 12 can be a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

以上のように、検索入力処理部102、検索部110、検索結果表示処理部120、検索履歴処理部122及び新規属性値追加部130は、処理回路網により構成することができる。
なお、入力部101は、キーボード及びマウス等の入力装置により実現することができる。
文書DB103、全文検索索引記憶部111、属性検索索引記憶部113及び検索履歴記憶部123は、HDD(Hard Disc Drive)等の記憶装置により実現することができる。
表示部121は、ディスプレイ等の表示装置により実現することができる。
言い換えると、文書検索装置100は、コンピュータにより実現することができる。
As described above, the search input processing unit 102, search unit 110, search result display processing unit 120, search history processing unit 122, and new attribute value addition unit 130 can be configured by a processing circuit network.
Note that the input unit 101 can be realized by an input device such as a keyboard and a mouse.
The document DB 103, the full-text search index storage unit 111, the attribute search index storage unit 113, and the search history storage unit 123 can be realized by a storage device such as an HDD (Hard Disc Drive).
The display unit 121 can be realized by a display device such as a display.
In other words, the document retrieval device 100 can be realized by a computer.

図11は、文書検索装置100における検索処理を示すフローチャートである。
まず、検索入力処理部102は、検索画面画像を表示部121に表示させて、入力部101を介して、全文検索用のキーワード、属性検索用の第1の属性値及び属性検索用の第2の属性値の少なくとも何れか一つの入力を受け付ける(S10)。
FIG. 11 is a flow chart showing retrieval processing in the document retrieval apparatus 100. As shown in FIG.
First, the search input processing unit 102 displays a search screen image on the display unit 121, and inputs a keyword for full-text search, a first attribute value for attribute search, and a second attribute value for attribute search through the input unit 101. receives input of at least one of the attribute values of (S10).

次に、検索部110は、ステップS10で入力された内容に基づいて、文書DB103に記憶されている文書の検索を実行する(S11)。
そして、検索部110は、実行した検索の結果である検索結果を生成する(S12)。
Next, the search unit 110 searches for documents stored in the document DB 103 based on the content input in step S10 (S11).
Then, the search unit 110 generates a search result, which is the result of the executed search (S12).

次に、検索結果表示処理部120は、検索画面画像の一部に検索結果を表示する(S13)。 Next, the search result display processing unit 120 displays the search result in part of the search screen image (S13).

次に、検索履歴処理部122は、検索入力処理部102から与えられる検索条件と、検索結果表示処理部120から与えられる検索結果表示情報とを、検索イベントとして、検索履歴記憶部123に記憶されている検索履歴に格納する(S14)。 Next, the search history processing unit 122 stores the search condition given from the search input processing unit 102 and the search result display information given from the search result display processing unit 120 as a search event in the search history storage unit 123. stored in the search history (S14).

図12は、新規属性値追加部130が新規属性値を生成して、属性検索索引情報に追加する処理を示すフローチャートである。
まず、検索イベントペア抽出部131は、検索履歴記憶部123に記憶されている検索履歴を解析して、対象検索イベントペアを抽出する(S20)。ここでの処理については、図13を用いて詳細に説明する。
FIG. 12 is a flow chart showing a process in which the new attribute value adding unit 130 generates a new attribute value and adds it to the attribute search index information.
First, the search event pair extraction unit 131 analyzes the search history stored in the search history storage unit 123 and extracts a target search event pair (S20). The processing here will be described in detail with reference to FIG. 13 .

次に、属性値選択部132は、検索イベントペア抽出部131で特定された対象検索イベントペアの中から、未選択の一つの対象検索イベントペアを選択する(S21)。 Next, the attribute value selection unit 132 selects one unselected target search event pair from the target search event pairs identified by the search event pair extraction unit 131 (S21).

次に、属性値選択部132は、選択された対象検索イベントペアにおける検索結果の文書に関連付けられている第1の属性値及び第2の属性値の中で、予め定められた条件を満たす属性値である対象属性値があるか否かを判断する(S22)。対象属性値がある場合(S22でYes)には、処理はステップS23に進み、対象属性値がない場合(S22でNo)には、処理はステップS21に戻る。 Next, the attribute value selection unit 132 selects an attribute that satisfies a predetermined condition among the first attribute value and the second attribute value associated with the document of the search result in the selected target search event pair. It is determined whether or not there is a target attribute value that is a value (S22). If there is a target attribute value (Yes in S22), the process proceeds to step S23, and if there is no target attribute value (No in S22), the process returns to step S21.

ステップS22では、特徴キーワード抽出部133は、ステップS22において検出された対象属性値が選択された対象検索イベントペアから、特徴キーワードを抽出する。 In step S22, the feature keyword extraction unit 133 extracts feature keywords from the target search event pair for which the target attribute value detected in step S22 was selected.

次に、新規属性値生成部134は、ステップS22で検出された対象属性値と、ステップS23で抽出された特徴キーワードとを用いて、新規属性値を生成し、その新規属性値を、属性検索索引記憶部113に記憶されている属性検索索引情報に追加する(S24)。 Next, the new attribute value generation unit 134 generates a new attribute value using the target attribute value detected in step S22 and the feature keyword extracted in step S23, and uses the new attribute value for attribute search. It is added to the attribute search index information stored in the index storage unit 113 (S24).

次に、属性値選択部132は、全ての対象検索イベントペアを選択したか否かを判断する(S25)。未だ選択していない対象検索イベントペアが残っている場合(S25でNo)には、処理はステップS21に戻り、全ての対象検索イベントペアを選択した場合(S25でYes)には、処理は終了する。 Next, the attribute value selection unit 132 determines whether or not all target search event pairs have been selected (S25). If unselected target search event pairs remain (No in S25), the process returns to step S21, and if all target search event pairs have been selected (Yes in S25), the process ends. do.

図13は、実施の形態1における検索イベントペア抽出部131が、対象検索イベントペアを抽出する処理を示すフローチャートである。
まず、検索イベントペア選択部131aは、検索履歴記憶部123に記憶されている検索履歴から、時間的に連続する二件の検索イベントを選択し、選択された二件の検索イベントにより、検索イベントペアを生成する(S30)。
FIG. 13 is a flow chart showing a process of extracting a target search event pair by the search event pair extraction unit 131 according to the first embodiment.
First, the search event pair selection unit 131a selects two temporally consecutive search events from the search history stored in the search history storage unit 123, and selects a search event pair based on the selected two search events. A pair is generated (S30).

次に、検索イベントペア選択部131aは、生成された検索イベントペアの中から、一つの検索イベントペアを選択する(S31)。 Next, the search event pair selection unit 131a selects one search event pair from the generated search event pairs (S31).

次に、検索日時連続性判定部131bは、検索イベントペア選択部131aで選択された検索イベントペアに含まれている二つの検索イベントの検索日時が短時間内であるか否かを判断する(S32)。例えば、検索日時連続性判定部131bは、その二つの検索イベントの検索日時の差が予め定められた閾値未満である場合に、二つの検索イベントの検索日時が短時間内であると判断すればよい。二つの検索イベントの検索日時が短時間内である場合(S32でYes)には、処理はステップS33に進み、二つの検索イベントの検索日時が短時間内ではない場合(S33でNo)には、処理はステップS31に戻る。 Next, the search date and time continuity determination unit 131b determines whether or not the search dates and times of the two search events included in the search event pair selected by the search event pair selection unit 131a are within a short period of time ( S32). For example, if the search date/time continuity determination unit 131b determines that the search dates/times of the two search events are within a short period of time when the difference between the search dates/times of the two search events is less than a predetermined threshold, good. If the search dates and times of the two search events are within a short period of time (Yes in S32), the process proceeds to step S33. , the process returns to step S31.

ステップS33では、検索前後文書集合比較部131cは、ステップS32で検索日時が短時間内である、言い換えると、近接して検索が行なわれたと判断された対象検索イベントペアである短時間検索イベントペアに含まれている二つの検索イベントにおいて、時間的に後の検索イベントが、時間的に前の検索イベントを絞り込んでいるか否かを判断する。二つの検索イベントが絞り込んでいる場合(S33でYes)には、処理はステップS34に進み、二つの検索イベントが絞り込んでいない場合(S33でNo)には、処理はステップS31に戻る。 In step S33, the pre-search and post-search document set comparison unit 131c selects the short-time search event pair that is the target search event pair determined in step S32 that the search date and time are within a short time, that is, that the search is performed close to each other. In the two search events included in , it is determined whether the temporally later search event narrows down the temporally earlier search event. If the two search events have been narrowed down (Yes in S33), the process proceeds to step S34, and if the two search events have not been narrowed down (No in S33), the process returns to step S31.

ステップS34では、ステップS31で選択された検索イベントペアを対象検索イベントペアとして抽出する。
そして、検索イベントペア選択部131aは、全ての検索イベントペアを選択したか否かを判断する(S35)。未だ選択していない検索イベントペアがある場合(S35でNo)には、処理はステップS31に戻り、全ての検索イベントペアを選択した場合(S35でYes)には、処理は終了する。
In step S34, the search event pair selected in step S31 is extracted as a target search event pair.
Then, the retrieved event pair selection unit 131a determines whether or not all retrieved event pairs have been selected (S35). If there are search event pairs that have not been selected yet (No in S35), the process returns to step S31, and if all search event pairs have been selected (Yes in S35), the process ends.

なお、図13におけるステップS32及びS33での処理が行われる順番は、入れ替わっていてもよい。 Note that the order in which the processes in steps S32 and S33 in FIG. 13 are performed may be changed.

以上のように、実施の形態1によれば、ユーザが行なった検索の内容に応じて、属性値を新たに追加することができる。 As described above, according to the first embodiment, it is possible to newly add an attribute value according to the content of the search performed by the user.

なお、以上に記載した実施の形態1においては、図4及び図9を用いて説明したように、新規属性値を追加する際に、新規属性値を生成する際に用いられた対象検索イベントペアの両方の検索結果で重複して示されている文書(即ち、図7のG2の文書)に関連付けられている対象属性値を、新規属性値に入れ替えているが、実施の形態1は、このような例に限定されない。例えば、新規属性値を生成する際に用いられた対象検索イベントペアの両方の検索結果で重複して示されている文書に、対象属性値に加えて、新規属性値を関連付けてもよい。 In the first embodiment described above, as described with reference to FIGS. 4 and 9, when adding a new attribute value, the target search event pair used to generate the new attribute value The target attribute value associated with the document (that is, the document of G2 in FIG. 7) that is duplicated in both search results is replaced with a new attribute value. It is not limited to such examples. For example, in addition to the target attribute value, the new attribute value may be associated with documents that are duplicated in the search results of both of the target search event pairs used to generate the new attribute value.

具体的には、上記例の新規属性値「困ったときには(ドラム)」を追加した際における対象検索イベントにおいて、図4に示されている文書D002が、図7に示されているG2の文書に含まれ、文書D003が、図7に示されているG2以外の文書、例えば、G1の文書であった場合、図14の更新後の属性検索索引情報141#2に示されているように、文書D002の属性値に、「困ったときには」の他に「困ったときには(ドラム)」が追加されてもよい。 Specifically, in the target search event when adding the new attribute value "When in trouble (drum)" in the above example, the document D002 shown in FIG. , and document D003 is a document other than G2 shown in FIG. 7, for example, a document of G1, as shown in the updated attribute search index information 141#2 in FIG. , "When in trouble (drum)" may be added to the attribute value of the document D002 in addition to "When in trouble".

このような場合、例えば、図15に示されている検索画面画像140#1のように、第1の属性値選択領域140a#1及び第2の属性値選択領域140b#1は、プルダウンメニューではなく、チェックボックスとされていることが望ましい。 In such a case, for example, like the search screen image 140#1 shown in FIG. It is desirable to have it as a check box rather than a check box.

実施の形態2.
図1に示されているように、実施の形態2に係る文書検索装置200は、入力部101と、検索入力処理部102と、文書DB103と、検索部110と、検索結果表示処理部120と、表示部121と、検索履歴処理部122と、検索履歴記憶部123と、新規属性値追加部230とを備える。
実施の形態2における文書検索装置200の入力部101、検索入力処理部102、文書DB103、検索部110、検索結果表示処理部120、表示部121、検索履歴処理部122及び検索履歴記憶部123は、実施の形態1における文書検索装置100の入力部101、検索入力処理部102、文書DB103、検索部110、検索結果表示処理部120、表示部121、検索履歴処理部122及び検索履歴記憶部123と同様である。
Embodiment 2.
As shown in FIG. 1, the document search device 200 according to the second embodiment includes an input unit 101, a search input processing unit 102, a document DB 103, a search unit 110, and a search result display processing unit 120. , a display unit 121 , a search history processing unit 122 , a search history storage unit 123 , and a new attribute value addition unit 230 .
The input unit 101, the search input processing unit 102, the document DB 103, the search unit 110, the search result display processing unit 120, the display unit 121, the search history processing unit 122, and the search history storage unit 123 of the document search device 200 according to the second embodiment are , input unit 101, search input processing unit 102, document DB 103, search unit 110, search result display processing unit 120, display unit 121, search history processing unit 122, and search history storage unit 123 of document search device 100 in Embodiment 1 is similar to

実施の形態2における新規属性値追加部230も、検索履歴を解析することで、新規属性値を生成するとともに、関連文書を特定し、その新規属性値及び関連文書を属性検索索引情報に追加する。 The new attribute value addition unit 230 in the second embodiment also analyzes the search history to generate new attribute values, specify related documents, and add the new attribute values and related documents to the attribute search index information. .

新規属性値追加部230は、検索イベントペア抽出部231と、属性値選択部132と、特徴キーワード抽出部133と、新規属性値生成部134とを備える。
実施の形態2における新規属性値追加部230の属性値選択部132、特徴キーワード抽出部133及び新規属性値生成部134は、実施の形態1における新規属性値追加部130の属性値選択部132、特徴キーワード抽出部133及び新規属性値生成部134と同様である。
The new attribute value addition unit 230 includes a search event pair extraction unit 231 , an attribute value selection unit 132 , a characteristic keyword extraction unit 133 and a new attribute value generation unit 134 .
The attribute value selection unit 132, the characteristic keyword extraction unit 133, and the new attribute value generation unit 134 of the new attribute value addition unit 230 in Embodiment 2 are equivalent to the attribute value selection unit 132 of the new attribute value addition unit 130 in Embodiment 1, It is the same as the feature keyword extraction unit 133 and the new attribute value generation unit 134 .

検索イベントペア抽出部231は、検索履歴記憶部123に記憶されている検索履歴を解析して、予め定められた条件を満たす、二つの検索イベントである対象検索イベントペアを抽出する。 The search event pair extraction unit 231 analyzes the search history stored in the search history storage unit 123 and extracts a target search event pair that is two search events that satisfy a predetermined condition.

図16は、実施の形態2における検索イベントペア抽出部231の構成を概略的に示すブロック図である。
検索イベントペア抽出部231は、検索イベントペア選択部131aと、検索日時連続性判定部131bと、検索前後文書集合比較部131cと、閲覧有無判定部231dとを備える。
FIG. 16 is a block diagram schematically showing the configuration of the search event pair extraction unit 231 according to the second embodiment.
The search event pair extraction unit 231 includes a search event pair selection unit 131a, a search date/time continuity determination unit 131b, a pre- and post-search document set comparison unit 131c, and a browse presence/absence determination unit 231d.

実施の形態2における検索イベントペア抽出部231の検索イベントペア選択部131a、検索日時連続性判定部131b及び検索前後文書集合比較部131cは、実施の形態1における検索イベントペア抽出部231の検索イベントペア選択部131a、検索日時連続性判定部131b及び検索前後文書集合比較部131cと同様である。
但し、検索日時連続性判定部131bは、短時間検索イベントペアを閲覧有無判定部231dに与える。また、検索前後文書集合比較部131cは、短時間検索イベントペアの代わりに、閲覧短時間検索イベントペアを用いて、実施の形態1と同様の処理を行う。
The search event pair selection unit 131a, the search date/time continuity determination unit 131b, and the pre-search document set comparison unit 131c of the search event pair extraction unit 231 in the second embodiment are similar to the search event pair extraction unit 231 in the first embodiment. This is the same as the pair selection unit 131a, the search date/time continuity determination unit 131b, and the pre-search and post-search document set comparison unit 131c.
However, the search date/time continuity determination unit 131b provides the short-time search event pair to the browse presence/absence determination unit 231d. In addition, the pre-search and post-search document set comparison unit 131c performs the same processing as in the first embodiment using the browsing short-time search event pair instead of the short-time search event pair.

閲覧有無判定部231dは、検索日時連続性判定部131bから与えられる短時間検索イベントペアの内、ユーザから閲覧された文書を検索結果の文書に含むペアを、閲覧短時間検索イベントペアとして特定する。例えば、閲覧有無判定部231dは、検索履歴142に含まれている参照情報を確認することにより、短時間検索イベントペアに含まれる二つの検索イベントの少なくとも何れか一方において参照文書に文書IDが格納されている場合には、ユーザから閲覧されたと判断する。
閲覧有無判定部231dは、特定された閲覧短時間検索イベントペアを検索前後文書集合比較部131cに与える。
The browsing presence/absence determining unit 231d identifies, as a short browsing search event pair, a pair including the document browsed by the user in the search result document among the short-time search event pairs given from the search date/time continuity judging unit 131b. . For example, the browse presence/absence determination unit 231d confirms the reference information included in the search history 142, so that the document ID is stored in the reference document in at least one of the two search events included in the short-time search event pair. If so, it is determined that it has been viewed by the user.
The browse presence/absence determination unit 231d provides the specified browse short-time search event pair to the pre-search and post-search document set comparison unit 131c.

図17は、実施の形態2における検索イベントペア抽出部231が、対象検索イベントペアを抽出する処理を示すフローチャートである。
図17に示されているフローチャートに含まれているステップの内、図13に示されているフローチャートに含まれているステップと同様の処理については、図13に示されている符号と同じ符号が付されている。
FIG. 17 is a flowchart showing a process of extracting a target search event pair by the search event pair extraction unit 231 according to the second embodiment.
Among the steps included in the flowchart shown in FIG. 17, processing similar to steps included in the flowchart shown in FIG. attached.

図17におけるステップS30~S32の処理については、図13におけるステップS30~S32の処理と同様である。但し、ステップS32において、二つの検索イベントの検索日時が短時間内である場合(S32でYes)には、処理はステップS40に進む。 The processing of steps S30 to S32 in FIG. 17 is the same as the processing of steps S30 to S32 in FIG. However, in step S32, if the search dates and times of the two search events are within a short period of time (Yes in S32), the process proceeds to step S40.

ステップS40では、閲覧有無判定部231dは、検索日時連続性判定部131bから与えられる短時間検索イベントペアの検索結果の何れかの文書が、ユーザから閲覧されたか否かを判断する。そして、ユーザが何れかの文書を閲覧した場合(S40でYes)には、処理は、ステップS34に進み、ユーザが何れの文書も閲覧していない場合(S40でNo)には、処理はステップS31に戻る。 In step S40, the browsing presence/absence determination unit 231d determines whether or not any document in the search results of the short-time search event pair provided from the search date/time continuity determination unit 131b has been browsed by the user. Then, if the user has viewed any document (Yes in S40), the process proceeds to step S34, and if the user has not viewed any document (No in S40), the process proceeds to step S34. Return to S31.

図17におけるステップS33~S35の処理については、図13におけるステップS33~S35の処理と同様である。但し、ステップS33において、検索前後文書集合比較部131cは、ステップS40で閲覧された文書を含む短時間検索イベントペアである閲覧短時間検索イベントペアに含まれている二つの検索イベントにおいて、時間的に後の検索イベントが、時間的に前の検索イベントを絞り込んでいるか否かを判断する。 The processing of steps S33 to S35 in FIG. 17 is the same as the processing of steps S33 to S35 in FIG. However, in step S33, the pre-search and post-search document set comparing unit 131c temporally Then, it is determined whether or not the later search event narrows down the earlier search event in terms of time.

以上のように、実施の形態2では、イベント抽出条件は、検索イベントペアに含まれている二つの検索イベントで示される少なくとも一つの文書が閲覧されたことを条件とする第3のイベント抽出条件をさらに含んでいる。
なお、図17におけるステップS32、S40及びS33での処理を行う順番は、図17に示されている順番に特定されず、どのような順番で行ってもよい。
As described above, in the second embodiment, the event extraction condition is the third event extraction condition that at least one document indicated by two search events included in a search event pair has been browsed. further includes
Note that the order of performing the processes in steps S32, S40 and S33 in FIG. 17 is not specified as the order shown in FIG. 17, and may be performed in any order.

以上のように、実施の形態2によれば、ユーザが文書を閲覧した検索イベントのみについて、対象属性値の有無が判断されるため、ユーザが検索結果を利用した検索イベントのみに限定して解析が行われ、新規属性値が追加される。 As described above, according to the second embodiment, the presence or absence of the target attribute value is determined only for the search event in which the user browsed the document. is performed and a new attribute value is added.

実施の形態3.
図1に示されているように、実施の形態3に係る文書検索装置300は、入力部101と、検索入力処理部102と、文書DB103と、検索部110と、検索結果表示処理部120と、表示部121と、検索履歴処理部122と、検索履歴記憶部123と、新規属性値追加部330とを備える。
実施の形態3における文書検索装置300の入力部101、検索入力処理部102、文書DB103、検索部110、検索結果表示処理部120、表示部121、検索履歴処理部122及び検索履歴記憶部123は、実施の形態1における文書検索装置100の入力部101、検索入力処理部102、文書DB103、検索部110、検索結果表示処理部120、表示部121、検索履歴処理部122及び検索履歴記憶部123と同様である。
Embodiment 3.
As shown in FIG. 1, the document search device 300 according to the third embodiment includes an input unit 101, a search input processing unit 102, a document DB 103, a search unit 110, and a search result display processing unit 120. , a display unit 121 , a search history processing unit 122 , a search history storage unit 123 , and a new attribute value addition unit 330 .
The input unit 101, the search input processing unit 102, the document DB 103, the search unit 110, the search result display processing unit 120, the display unit 121, the search history processing unit 122, and the search history storage unit 123 of the document search device 300 according to the third embodiment are , input unit 101, search input processing unit 102, document DB 103, search unit 110, search result display processing unit 120, display unit 121, search history processing unit 122, and search history storage unit 123 of document search device 100 in Embodiment 1 is similar to

新規属性値追加部330は、検索イベントペア抽出部131と、属性値選択部132と、特徴キーワード抽出部333と、新規属性値生成部134とを備える。
実施の形態3における新規属性値追加部330の検索イベントペア抽出部131、属性値選択部132及び新規属性値生成部134は、実施の形態1における新規属性値追加部130の検索イベントペア抽出部131、属性値選択部132及び新規属性値生成部134と同様である。
The new attribute value addition unit 330 includes a search event pair extraction unit 131 , an attribute value selection unit 132 , a characteristic keyword extraction unit 333 and a new attribute value generation unit 134 .
The search event pair extraction unit 131, the attribute value selection unit 132, and the new attribute value generation unit 134 of the new attribute value addition unit 330 in Embodiment 3 are the same as the search event pair extraction unit of the new attribute value addition unit 130 in Embodiment 1. 131 , the attribute value selection unit 132 and the new attribute value generation unit 134 .

実施の形態3における特徴キーワード抽出部333は、属性値選択部132により対象属性値が選択された対象検索イベントペアから、特徴的なキーワードである特徴キーワードを抽出する。
実施の形態3でも特徴キーワード抽出部333は、公知の手法であるtf-idf重みを用いて、特徴キーワードを抽出する。
The characteristic keyword extracting unit 333 according to Embodiment 3 extracts characteristic keywords, which are characteristic keywords, from the target search event pair whose target attribute value is selected by the attribute value selecting unit 132 .
In the third embodiment as well, the characteristic keyword extracting unit 333 extracts characteristic keywords using tf-idf weighting, which is a known technique.

ここでも図7を用いて説明を行う。
特徴キーワード抽出部333は、対象検索イベントペアにおいて、符号G1の文書に含まれている全てのキーワードを第1のキーワードとして抽出する。
次に、特徴キーワード抽出部133は、第1のキーワードの各々についてtf-idf重みを算出する。そして、特徴キーワード抽出部133は、tf-idf重みの降順で、第1のキーワードを並べた第1の重み付きキーワードリストを生成する。
次に、特徴キーワード抽出部333は、第1の重み付きキーワードリストにおいて、上位から、予め定められたN1個の第1のキーワードを特定する。
Again, description will be made with reference to FIG.
The feature keyword extracting unit 333 extracts all keywords included in the document of code G1 in the target search event pair as first keywords.
Next, the feature keyword extraction unit 133 calculates the tf-idf weight for each of the first keywords. Then, the feature keyword extraction unit 133 generates a first weighted keyword list in which the first keywords are arranged in descending order of tf-idf weight.
Next, the feature keyword extraction unit 333 identifies N1 predetermined first keywords from the top in the first weighted keyword list.

また、特徴キーワード抽出部333は、対象検索イベントペアにおいて、符号G2の文書に含まれている全てのキーワードを第2のキーワードとして抽出する。次に、特徴キーワード抽出部333は、第2のキーワードの各々についてtf-idf重みを算出する。そして、特徴キーワード抽出部333は、tf-idf重みの降順で、第2のキーワードを並べた第2の重み付きキーワードリストを生成する。 In addition, the feature keyword extraction unit 333 extracts all keywords included in the document G2 in the target search event pair as second keywords. Next, the feature keyword extraction unit 333 calculates the tf-idf weight for each of the second keywords. Then, the feature keyword extraction unit 333 generates a second weighted keyword list in which the second keywords are arranged in descending order of tf-idf weight.

次に、特徴キーワード抽出部333は、第2の検索結果に対応する検索条件に検索キーワードが含まれている場合には、第2の検索結果に対応する検索条件に含まれている検索キーワードの内、第1の検索結果に対応する検索条件に含まれている検索キーワードと一致しない検索キーワードを、増分検索キーワードとする。なお、第1の検索結果に対応する検索条件において検索キーワードが含まれていない場合には、第2の検索結果に対応する検索条件に含まれている全ての検索キーワードが増分検索キーワードとなる。 Next, when the search keyword is included in the search conditions corresponding to the second search result, the characteristic keyword extraction unit 333 extracts the search keyword included in the search condition corresponding to the second search result. Among them, a search keyword that does not match the search keyword included in the search condition corresponding to the first search result is set as an incremental search keyword. If no search keyword is included in the search conditions corresponding to the first search result, all search keywords included in the search conditions corresponding to the second search result are incremental search keywords.

次に、特徴キーワード抽出部333は、第2の重み付きキーワードリストに含まれている第2のキーワードの内、増分検索キーワードと一致するキーワードの重みを大きくする。例えば、特徴キーワード抽出部333は、そのキーワード重みを、予め定められた割合(例えば、2倍)で大きくして、第2の重み付きキーワードリストを更新することで、更新重み付きキーワードリストを生成する。 Next, the characteristic keyword extracting unit 333 increases the weight of the second keywords included in the second weighted keyword list that match the incremental search keyword. For example, the characteristic keyword extraction unit 333 increases the keyword weight by a predetermined ratio (for example, two times) and updates the second weighted keyword list to generate an updated weighted keyword list. do.

次に、特徴キーワード抽出部333は、更新重み付きキーワードリストにおいて、上位から、予め定められたM1個の第2のキーワードを特定する。特徴キーワード抽出部333は、特定された第2のキーワードの内、上記のように特定された第1のキーワードと一致するキーワードを除いた残りの第2のキーワードを、残存第2のキーワードとして特定する。そして、特徴キーワード抽出部333は、残存第2のキーワードの内、上位から、予め定められたM2個の第2のキーワードを特徴キーワードとして抽出する。 Next, the feature keyword extraction unit 333 identifies M1 predetermined second keywords from the top in the updated weighted keyword list. The characteristic keyword extracting unit 333 identifies, among the identified second keywords, the remaining second keywords excluding the keywords that match the identified first keywords as remaining second keywords. do. Then, the feature keyword extracting unit 333 extracts a predetermined M2 second keywords from the top of the remaining second keywords as feature keywords.

以上のように、実施の形態3における特徴キーワード抽出部333は、キーワード抽出条件を判断する際に、対象属性値が選択された対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書に含まれている複数のキーワードから、対象属性値が選択された対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書から特定された一又は複数のキーワードを除いた残りのキーワードにおいて、対象属性値が選択された対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで用いられた検索キーワードの内、時間的に前の検索イベントで用いられた検索キーワードと一致しない検索キーワードと一致するキーワードの重要度を、予め定められた方法で高める。 As described above, when the characteristic keyword extraction unit 333 in Embodiment 3 determines the keyword extraction condition, the time The temporally earlier search event of the two search events included in the target search event pair in which the target attribute value is selected from the multiple keywords included in the document indicated by the later search event In the remaining keywords excluding one or more keywords specified from the document indicated by, the temporally later search of the two search events included in the target search event pair whose target attribute value is selected Among the search keywords used in the event, the importance of keywords matching search keywords that do not match the search keywords used in the previous search event in terms of time is increased by a predetermined method.

以上のように、実施の形態3においては、全文検索に用いられたキーワードの内、絞り込むために用いられたキーワードが特徴キーワードとして選択されやすくなる。 As described above, in Embodiment 3, the keywords used for narrowing down the search are more likely to be selected as feature keywords from among the keywords used for the full-text search.

なお、特徴キーワード抽出部333での特徴キーワードの抽出方法については、上記の例に限定されない。
例えば、特徴キーワード抽出部333は、下記のようにして、特徴キーワードを抽出してもよい。
Note that the method of extracting feature keywords in the feature keyword extraction unit 333 is not limited to the above example.
For example, the characteristic keyword extraction unit 333 may extract characteristic keywords as follows.

ここでも図7を用いて説明を行う。
特徴キーワード抽出部333は、対象検索イベントペアにおいて、符号G1の文書に含まれている全てのキーワードを第1のキーワードとして抽出する。次に、特徴キーワード抽出部133は、第1のキーワードの各々についてtf-idf重みを算出する。そして、特徴キーワード抽出部133は、tf-idf重みの降順で、第1のキーワードを並べた第1の重み付きキーワードリストを生成する。
次に、特徴キーワード抽出部333は、第1の重み付きキーワードリストにおいて、上位から、予め定められたN1個の第1のキーワードを特定する。
Again, description will be made with reference to FIG.
The feature keyword extracting unit 333 extracts all keywords included in the document of code G1 in the target search event pair as first keywords. Next, the feature keyword extraction unit 133 calculates the tf-idf weight for each of the first keywords. Then, the feature keyword extraction unit 133 generates a first weighted keyword list in which the first keywords are arranged in descending order of tf-idf weight.
Next, the feature keyword extraction unit 333 identifies N1 predetermined first keywords from the top in the first weighted keyword list.

次に、特徴キーワード抽出部333は、対象検索イベントペアにおいて、符号G2の文書に含まれている全てのキーワードを第2のキーワードとして抽出する。次に、特徴キーワード抽出部333は、第2のキーワードの各々についてtf-idf重みを算出する。そして、特徴キーワード抽出部133は、tf-idf重みの降順で、第2のキーワードを並べた第2の重み付きキーワードリストを生成する。 Next, the feature keyword extracting unit 333 extracts all keywords included in the document of code G2 in the target search event pair as second keywords. Next, the feature keyword extraction unit 333 calculates the tf-idf weight for each of the second keywords. Then, the characteristic keyword extraction unit 133 generates a second weighted keyword list in which the second keywords are arranged in descending order of tf-idf weight.

次に、特徴キーワード抽出部333は、第2の重み付きキーワードリストにおいて、上位から、予め定められたM1個の第2のキーワードを特定する。特徴キーワード抽出部333は、特定された第2のキーワードの内、上記のようにして特定された第1のキーワードと一致するキーワードを除いた残りの第2のキーワードを、残存第2のキーワードとして特定する。 Next, the feature keyword extraction unit 333 identifies M1 predetermined second keywords from the top in the second weighted keyword list. The characteristic keyword extracting unit 333 selects the remaining second keywords from the identified second keywords, excluding the keywords that match the first keywords identified as described above, as remaining second keywords. Identify.

そして、特徴キーワード抽出部333は、残存第2のキーワードの中に、第2の検索結果に対応する検索条件に含まれている検索キーワードと一致するものがある場合には、そのような第2のキーワードを特徴キーワードとして特定する。
一方、特徴キーワード抽出部333は、残存第2のキーワードの中に、第2の検索結果に対応する検索条件に含まれている検索キーワードと一致するものがない場合には、残存第2のキーワードの内、上位から、予め定められたM2個の第2のキーワードを特徴キーワードとして抽出する。
Then, if there is a search keyword included in the search condition corresponding to the second search result among the remaining second keywords, the characteristic keyword extraction unit 333 extracts such second search result. are identified as feature keywords.
On the other hand, if there is no remaining second keyword that matches the search keyword included in the search condition corresponding to the second search result, the characteristic keyword extraction unit 333 extracts the remaining second keyword. Among them, M2 predetermined second keywords are extracted as feature keywords from the top.

以上のように、この変形例では、キーワード抽出条件は、対象属性値が選択された対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書に含まれている複数のキーワードから、対象属性値が選択された対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書から特定された一又は複数のキーワードを除いた残りのキーワードにおいて、対象属性値が選択された対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで用いられた検索用のキーワードと一致するキーワードがある場合には、その一致するキーワードを抽出するという条件であり、その一致するキーワードがない場合には、残りのキーワードにおいて、重要度が高い順に予め定められた数のキーワードを抽出するという条件である。 As described above, in this modified example, the keyword extraction condition is the document indicated by the temporally later search event of the two search events included in the target search event pair in which the target attribute value is selected. Among the two search events included in the target search event pair whose target attribute value is selected from the included keywords, one or more specified from the document indicated by the temporally earlier search event match the search keyword used in the temporally later search event of the two search events included in the target search event pair whose target attribute value is selected for the remaining keywords excluding the If there is a matching keyword, extract the matching keyword, and if there is no matching keyword, extract a predetermined number of keywords in descending order of importance from the remaining keywords. This is the condition.

実施の形態4.
図18は、実施の形態4に係る文書検索装置400の構成を概略的に示すブロック図である。
文書検索装置400は、入力部101と、検索入力処理部402と、文書DB103と、検索部410と、検索結果表示処理部120と、表示部121と、検索履歴処理部422と、検索履歴記憶部423と、新規属性値追加部430とを備える。
実施の形態4に係る文書検索装置400の入力部101、文書DB103、検索結果表示処理部120及び表示部121は、実施の形態1に係る文書検索装置400の入力部101、文書DB103、検索結果表示処理部120及び表示部121と同様である。
Embodiment 4.
FIG. 18 is a block diagram schematically showing the configuration of a document retrieval device 400 according to Embodiment 4. As shown in FIG.
The document search device 400 includes an input unit 101, a search input processing unit 402, a document DB 103, a search unit 410, a search result display processing unit 120, a display unit 121, a search history processing unit 422, and a search history storage. 423 and a new attribute value addition unit 430 .
The input unit 101, the document DB 103, the search result display processing unit 120, and the display unit 121 of the document search device 400 according to the fourth embodiment are the same as the input unit 101, the document DB 103, and the search result of the document search device 400 according to the first embodiment. It is similar to the display processing unit 120 and the display unit 121 .

検索入力処理部402は、表示部121に検索画面画像を表示させる前に、ユーザ認証を行うためのユーザ認証画面画像(図示せず)を表示部121に表示させて、ユーザにユーザ認証を行うか否かの入力を受け付ける。
ユーザがユーザ認証を行う場合には、検索入力処理部402は、入力部101を介して、ユーザからユーザ認証を行うために必要な情報であるユーザ認証情報の入力を受け付ける。ユーザ認証情報は、例えば、ユーザを識別するためのユーザ識別情報であるユーザIDを含み、ユーザのパスワードが含まれていてもよい。
ここで、ユーザがユーザ認証を行わなかった場合の文書検索装置400での処理は、実施の形態1に係る文書検索装置100と同様であるため、以下では、ユーザがユーザ認証を行った場合の処理を主に説明する。
The search input processing unit 402 causes the display unit 121 to display a user authentication screen image (not shown) for performing user authentication before displaying the search screen image on the display unit 121, thereby performing user authentication to the user. Accepts an input as to whether or not
When the user performs user authentication, the search input processing unit 402 receives input of user authentication information, which is information required for user authentication, from the user via the input unit 101 . The user authentication information includes, for example, a user ID, which is user identification information for identifying the user, and may include the user's password.
Here, the processing in the document retrieval apparatus 400 when the user does not perform user authentication is the same as that of the document retrieval apparatus 100 according to the first embodiment. Processing will be mainly described.

検索入力処理部402は、ユーザが認証を行った場合も、ユーザが認証を行わなかった場合も、実施の形態1と同様に、表示部121に、検索画面画像を表示させて、その検索画面画像において、入力部101を介して、ユーザから、指示の入力を受け付ける。 The search input processing unit 402 causes the display unit 121 to display the search screen image and displays the search screen image in the same manner as in the first embodiment regardless of whether the user is authenticated or not. In the image, an instruction input is received from the user via the input unit 101 .

検索入力処理部402は、ユーザから入力を受けた第1の属性値、第2の属性値及び検索キーワードの少なくとも何れか一つを検索部410に与える。ユーザが認証を行った場合には、検索入力処理部402は、ユーザIDについても、検索部410に与える。
また、検索入力処理部402は、ユーザから入力を受けた第1の属性値、第2の属性値及び検索キーワードの少なくとも何れか一つを検索条件として、検索履歴処理部422に与える。ユーザが認証を行った場合には、検索入力処理部402は、ユーザIDについても、検索履歴処理部422に与える。
The search input processing unit 402 provides the search unit 410 with at least one of the first attribute value, the second attribute value, and the search keyword input by the user. When the user has been authenticated, the search input processing unit 402 also gives the user ID to the search unit 410 .
Further, the search input processing unit 402 provides the search history processing unit 422 with at least one of the first attribute value, the second attribute value, and the search keyword input by the user as a search condition. When the user is authenticated, the search input processing section 402 also gives the user ID to the search history processing section 422 .

検索部410は、検索入力処理部402から、第1の属性値、第2の属性値及び検索キーワードの少なくとも何れか一つを受け取り、文書DB103を検索することで、受け取った内容に関連する文書を、文書DB103から見つけ出す。ここで、検索部410は、ユーザが認証を行った場合には、検索入力処理部402からユーザIDも取得する。 The search unit 410 receives at least one of the first attribute value, the second attribute value, and the search keyword from the search input processing unit 402, and searches the document DB 103 to retrieve documents related to the received content. is found from the document DB 103 . Here, the search unit 410 also acquires the user ID from the search input processing unit 402 when the user has been authenticated.

検索部410は、全文検索索引記憶部111と、全文検索部112と、属性検索索引記憶部113と、属性検索部414と、検索結果生成部115と、個別属性検索索引記憶部416とを備える。
実施の形態4における検索部410の全文検索索引記憶部111、全文検索部112、属性検索索引記憶部113及び検索結果生成部115は、実施の形態1における検索部110の全文検索索引記憶部111、全文検索部112、属性検索索引記憶部113及び検索結果生成部115と同様である。
The search unit 410 includes a full-text search index storage unit 111, a full-text search unit 112, an attribute search index storage unit 113, an attribute search unit 414, a search result generation unit 115, and an individual attribute search index storage unit 416. .
The full-text search index storage unit 111, the full-text search unit 112, the attribute search index storage unit 113, and the search result generation unit 115 of the search unit 410 according to the fourth embodiment are the same as the full-text search index storage unit 111 of the search unit 110 according to the first embodiment. , the full text search unit 112 , the attribute search index storage unit 113 and the search result generation unit 115 .

個別属性検索索引記憶部416は、デフォルトの属性検索索引情報である初期属性検索索引情報と、ユーザID毎の属性検索索引情報である個別属性検索索引情報とを記憶する。初期属性検索索引情報は、新規属性値追加部430により新規属性値が追加される前に属性検索索引記憶部113に記憶されていた属性検索索引情報と同じ情報であるものとする。 The individual attribute search index storage unit 416 stores initial attribute search index information, which is default attribute search index information, and individual attribute search index information, which is attribute search index information for each user ID. The initial attribute search index information is assumed to be the same information as the attribute search index information stored in the attribute search index storage unit 113 before the new attribute value addition unit 430 adds the new attribute value.

属性検索部414は、検索入力処理部402から、ユーザIDを伴わずに、第1の属性値及び第2の属性値の少なくとも何れか一方を受け取った場合には、実施の形態1と同様に、属性検索索引記憶部113に記憶されている属性検索索引情報を用いて、属性検索を実行する。 When the attribute search unit 414 receives at least one of the first attribute value and the second attribute value without the user ID from the search input processing unit 402, as in the first embodiment, , the attribute search is executed using the attribute search index information stored in the attribute search index storage unit 113 .

一方、属性検索部414は、検索入力処理部402から、ユーザIDを伴って、第1の属性値及び第2の属性値の少なくとも何れか一方を受け取った場合には、個別属性検索索引記憶部416に、受け取ったユーザIDに対応する個別属性検索索引情報が記憶されているか否かを確認する。
そのような個別属性検索索引情報が記憶されている場合には、属性検索部414は、その個別属性検索索引情報を用いて、属性検索を実行する。
そのような個別属性検索索引情報が記憶されていない場合には、属性検索部414は、初期属性検索索引情報を複製して、受け取ったユーザIDに対応付けることで、そのユーザIDの個別属性検索索引情報を新たに生成して、その個別属性検索索引情報を用いて、属性検索を実行する。
On the other hand, when the attribute search unit 414 receives at least one of the first attribute value and the second attribute value together with the user ID from the search input processing unit 402, the individual attribute search index storage unit At 416, it is checked whether individual attribute search index information corresponding to the received user ID is stored.
When such individual attribute search index information is stored, the attribute search unit 414 uses the individual attribute search index information to execute an attribute search.
If such individual attribute search index information is not stored, the attribute search unit 414 duplicates the initial attribute search index information and associates it with the received user ID to obtain the individual attribute search index for that user ID. Information is newly generated, and an attribute search is executed using the individual attribute search index information.

そして、属性検索部414は、ユーザ認証が行われたか否かにかかわらず、特定された文書を検索結果生成部115に与える。
なお、全文検索部112は、ユーザ認証が行われた場合には、ユーザIDも検索結果生成部115に与え、検索結果生成部115は、そのユーザIDに対応する個別属性検索情報から、関連付けられている属性値を取得すればよい。
Then, the attribute search unit 414 provides the specified document to the search result generation unit 115 regardless of whether user authentication has been performed.
In addition, when the user is authenticated, the full-text search unit 112 also gives the user ID to the search result generation unit 115, and the search result generation unit 115 uses the individual attribute search information corresponding to the user ID to associate You just need to get the attribute value

検索履歴処理部422は、検索入力処理部102から与えられる検索条件と、検索結果表示処理部120から与えられる検索結果表示情報とを、検索イベントとして、検索履歴記憶部423に記憶されている検索履歴に格納する。ここで、検索履歴処理部422は、検索入力処理部402からユーザIDも与えられた場合には、その検索イベントにユーザIDを含めて、検索履歴に格納する。 The search history processing unit 422 uses the search condition given from the search input processing unit 102 and the search result display information given from the search result display processing unit 120 as a search event to search stored in the search history storage unit 423. Store in history. Here, when the search history processing unit 422 also receives the user ID from the search input processing unit 402, the search history processing unit 422 includes the user ID in the search event and stores it in the search history.

検索履歴記憶部423は、検索履歴を記憶する。実施の形態4における検索履歴は、ユーザIDも検索イベントに含まれている。 The search history storage unit 423 stores search histories. In the search history according to Embodiment 4, the user ID is also included in the search event.

新規属性値追加部430は、ユーザ認証が行われていない場合には、実施の形態1と同様に、検索履歴に含まれている全ての検索イベントを解析することで、新規属性値を生成するとともに、関連文書を特定し、その新規属性値及び関連文書を、属性検索索引情報に追加する。 If user authentication has not been performed, the new attribute value addition unit 430 generates a new attribute value by analyzing all search events included in the search history, as in the first embodiment. Also, identify related documents and add the new attribute values and related documents to the attribute search index information.

一方、新規属性値追加部430は、ユーザ認証が行われている場合には、検索履歴に格納されているユーザIDに対応付けられている検索イベントを解析して、新規属性値を生成するとともに、関連文書を特定し、その新規属性値及び関連文書を、そのユーザIDに対応する個別属性検索索引情報に追加する。 On the other hand, when the user is authenticated, the new attribute value adding unit 430 analyzes the search event associated with the user ID stored in the search history, and generates a new attribute value. , specifies the related document, and adds the new attribute value and the related document to the individual attribute search index information corresponding to the user ID.

新規属性値追加部430は、検索イベントペア抽出部431と、属性値選択部132と、特徴キーワード抽出部133と、新規属性値生成部434とを備える。
実施の形態4における新規属性値追加部430の属性値選択部132及び特徴キーワード抽出部133は、実施の形態1における新規属性値追加部130と同様である。
The new attribute value addition unit 430 includes a search event pair extraction unit 431 , an attribute value selection unit 132 , a characteristic keyword extraction unit 133 and a new attribute value generation unit 434 .
The attribute value selection unit 132 and the characteristic keyword extraction unit 133 of the new attribute value addition unit 430 according to the fourth embodiment are the same as the new attribute value addition unit 130 according to the first embodiment.

ユーザ認証が行われなかった場合の検索イベントペア抽出部431での処理は、実施の形態1と同様である。
検索イベントペア抽出部431は、ユーザ認証が行われた場合には、検索履歴に格納されている検索イベントの内、認証されたユーザIDを含む検索イベントを解析して、予め定められた条件を満たす、対象検索イベントペアを抽出する。検索イベントペア抽出部431での具体的な処理は、認証されたユーザIDを含む検索イベントを用いる点を除いて、実施の形態1での処理と同様である。
The processing in the search event pair extraction unit 431 when user authentication has not been performed is the same as in the first embodiment.
When the user is authenticated, the search event pair extraction unit 431 analyzes the search event including the authenticated user ID among the search events stored in the search history, and satisfies a predetermined condition. Extract the target search event pair that satisfies. Specific processing in the search event pair extraction unit 431 is the same as the processing in the first embodiment, except that search events including authenticated user IDs are used.

新規属性値生成部434は、ユーザ認証が行われていない場合には、属性値選択部132で選択された対象属性値と、特徴キーワード抽出部133で抽出された特徴キーワードとを用いて、新規属性値を生成し、その新規属性値を属性検索索引記憶部113に記憶されている属性検索索引情報に追加する。 If user authentication has not been performed, the new attribute value generation unit 434 generates a new An attribute value is generated, and the new attribute value is added to the attribute search index information stored in the attribute search index storage unit 113. FIG.

一方、新規属性値生成部434は、ユーザ認証が行われている場合には、属性値選択部132で選択された対象属性値と、特徴キーワード抽出部133で抽出された特徴キーワードとを用いて、新規属性値を生成し、その新規属性値を、個別属性検索索引記憶部416に記憶されている、ユーザ認証されたユーザIDに対応付けられている個別属性検索索引情報に追加する。 On the other hand, when the user is authenticated, the new attribute value generation unit 434 uses the target attribute value selected by the attribute value selection unit 132 and the feature keyword extracted by the feature keyword extraction unit 133 to , generates a new attribute value and adds the new attribute value to the individual attribute search index information associated with the user-authenticated user ID stored in the individual attribute search index storage unit 416 .

以上のように、実施の形態4によれば、ユーザID毎に個別に新規属性値を追加することができる。 As described above, according to the fourth embodiment, a new attribute value can be added individually for each user ID.

以上に記載された実施の形態1~4では、文書検索装置100~400内に文書DB103、全文検索索引記憶部111、属性検索索引記憶部113及び個別属性検索索引記憶部416が備えられているが、実施の形態1~4は、このような例に限定されない。例えば、文書検索装置100~400が、図示しないネットワークに接続され、図示しない通信部である通信装置を介してネットワークと通信を行うことができるようにされている場合には、文書DB103、全文検索索引記憶部111、属性検索索引記憶部113及び個別属性検索索引記憶部416の一部又は全部は、そのネットワークに接続されている他の装置、例えば、サーバ等が備えていてもよい。
また、入力部101及び表示部121に関しても、そのネットワークに接続されている他の装置に設けられていてもよい。この場合、検索入力処理部102、402は、ネットワークを介して、検索画面画像を、その他の装置に送り、検索に必要な情報を取得し、検索結果表示処理部120は、検索結果部分画像を、その他の装置に送り、検索結果を表示させればよい。
In the first to fourth embodiments described above, document DB 103, full text search index storage unit 111, attribute search index storage unit 113, and individual attribute search index storage unit 416 are provided in document search devices 100 to 400. However, Embodiments 1 to 4 are not limited to such examples. For example, when the document retrieval apparatuses 100 to 400 are connected to a network (not shown) and are capable of communicating with the network via a communication unit (not shown), the document DB 103, full-text search, A part or all of the index storage unit 111, the attribute search index storage unit 113 and the individual attribute search index storage unit 416 may be provided by another device such as a server connected to the network.
Also, the input unit 101 and the display unit 121 may be provided in another device connected to the network. In this case, the search input processing units 102 and 402 send the search screen image to other devices via the network to acquire information necessary for the search, and the search result display processing unit 120 displays the search result partial image. , to other devices to display the search results.

なお、以上に記載された実施の形態3は、実施の形態1に、実施の形態3の特徴を組み合わせているが、実施の形態3は、このような例に限定されない。例えば、実施の形態2に実施の形態3の特徴を組み合わせてもよい。
また、実施の形態4についても、実施の形態2又は実施の形態3に実施の形態4の特徴を組み合わせてもよい。
Although the third embodiment described above combines features of the third embodiment with the first embodiment, the third embodiment is not limited to such an example. For example, the features of the third embodiment may be combined with the second embodiment.
Also, in the fourth embodiment, the features of the fourth embodiment may be combined with the second or third embodiment.

100,200,300,400 文書検索装置、 101 入力部、 102 検索入力処理部、 103 文書DB、 110,410 検索部、 111 全文検索索引記憶部、 112 全文検索部、 113 属性検索索引記憶部、 114,414 属性検索部、 115 検索結果生成部、 416 個別属性検索索引記憶部、 120 検索結果表示処理部、 121 表示部、 122 検索履歴処理部、 123 検索履歴記憶部、 130,230,330,430 新規属性値追加部、 131,231,431 検索イベントペア抽出部、 132 属性値選択部、 133,333 特徴キーワード抽出部、 134,434 新規属性値生成部。 100,200,300,400 document search device 101 input unit 102 search input processing unit 103 document DB 110,410 search unit 111 full text search index storage unit 112 full text search unit 113 attribute search index storage unit 114, 414 attribute search unit, 115 search result generation unit, 416 individual attribute search index storage unit, 120 search result display processing unit, 121 display unit, 122 search history processing unit, 123 search history storage unit, 130, 230, 330, 430 new attribute value addition unit 131,231,431 search event pair extraction unit 132 attribute value selection unit 133,333 feature keyword extraction unit 134,434 new attribute value generation unit.

Claims (15)

文書記憶部に記憶されている複数の文書の各々と、前記複数の文書の各々の属性値とを関連付ける属性検索索引情報を参照して、前記文書記憶部を検索することで、一又は複数の文書を見つけ出す検索部と、
前記検索部による検索が行われた日時である検索日時と、前記検索部で見つけ出された一又は複数の文書とを示す検索イベントを検索履歴として記憶する検索履歴記憶部と、
前記検索履歴を解析することで、新規属性値を生成するとともに、前記新規属性値に関連付ける文書を関連文書として特定し、前記新規属性値及び前記関連文書を、前記属性検索索引情報に追加する新規属性値追加部と、を備えること
を特徴とする文書検索装置。
one or more of a search unit for locating documents;
a search history storage unit that stores, as a search history, a search date and time, which is the date and time when a search was performed by the search unit, and a search event indicating one or more documents found by the search unit;
By analyzing the search history, a new attribute value is generated, a document associated with the new attribute value is specified as a related document, and the new attribute value and the related document are added to the attribute search index information. and an attribute value addition unit.
前記新規属性値追加部は、
前記検索履歴から、検索日時が連続する二つの検索イベントである検索イベントペアを特定し、前記特定された検索イベントペアから、予め定められたイベント抽出条件を満たす検索イベントペアを対象検索イベントペアとして抽出する検索イベントペア抽出部と、
前記対象検索イベントペアで示される文書に関連付けられている属性値から、予め定められた選択条件を満たす属性値を対象属性値として選択する属性値選択部と、
前記対象属性値が選択された前記対象検索イベントペアの内、時間的に後の検索イベントで示される文書に含まれている複数のキーワードから、予め定められたキーワード抽出条件を満たすキーワードを特徴キーワードとして抽出する特徴キーワード抽出部と、
前記対象属性値及び前記特徴キーワードから、予め定められた方法で前記新規属性値を生成するとともに、前記対象属性値が選択された前記対象検索イベントペアに含まれている二つの検索イベントの両方で重複して示されている文書を、前記関連文書として特定し、前記新規属性値及び前記関連文書を前記属性検索索引情報に追加する新規属性値生成部と、を備えること
を特徴とする請求項1に記載の文書検索装置。
The new attribute value adding unit
From the search history, a search event pair, which is two search events with consecutive search dates and times, is specified, and from the specified search event pairs, a search event pair that satisfies a predetermined event extraction condition is set as a target search event pair. a search event pair extraction unit for extraction;
an attribute value selection unit that selects, as a target attribute value, an attribute value that satisfies a predetermined selection condition from the attribute values associated with the document indicated by the target search event pair;
Among the target search event pairs for which the target attribute value is selected, keywords that satisfy predetermined keyword extraction conditions are selected from a plurality of keywords included in documents indicated by later search events in terms of time as feature keywords. A feature keyword extraction unit that extracts as
generating the new attribute value by a predetermined method from the target attribute value and the characteristic keyword, and in both two search events included in the target search event pair from which the target attribute value is selected; and a new attribute value generating unit that identifies a document shown in duplicate as the related document, and adds the new attribute value and the related document to the attribute search index information. 1. The document retrieval device according to 1.
前記イベント抽出条件は、
前記検索イベントペアに含まれている二つの検索イベントの検索日時の差が予め定められた値未満であることを条件とする第1のイベント抽出条件と、
前記検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントが、時間的に前の検索イベントで示される文書を絞り込んでいることを条件とする第2のイベント抽出条件と、を含むこと
を特徴とする請求項2に記載の文書検索装置。
The event extraction condition is
a first event extraction condition on condition that a difference between search dates and times of two search events included in the search event pair is less than a predetermined value;
A second event extraction under the condition that, of the two search events included in the search event pair, the temporally later search event narrows down the document indicated by the temporally earlier search event. 3. The document retrieval device according to claim 2, comprising: a condition;
前記第2のイベント抽出条件は、
前記検索イベントペアに含まれている二つの検索イベントの両方で重複して示される文書の数である第1の数が、予め定められた第1の閾値よりも多く、
前記第1の数を、前記検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書の数で割った値が、予め定められた第2の閾値よりも少なく、かつ、
前記検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書の数から前記第1の数を引いた値を、前記検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書の数で割った値が、予め定められた第3の閾値よりも少ないこと、であること
を特徴とする請求項3に記載の文書検索装置。
The second event extraction condition is
a first number, which is the number of documents duplicated in both of the two search events included in the search event pair, is greater than a predetermined first threshold;
A value obtained by dividing the first number by the number of documents indicated by a temporally earlier search event out of two search events included in the search event pair is a predetermined second threshold. less than and
The search event pair includes a value obtained by subtracting the first number from the number of documents indicated by the temporally later search event of the two search events included in the search event pair. 4. A value obtained by dividing by the number of documents indicated by the temporally later search event of the two search events is less than a predetermined third threshold. Document retrieval device as described.
前記イベント抽出条件は、前記検索イベントペアに含まれている二つの検索イベントで示される少なくとも一つの文書が閲覧されたことを条件とする第3のイベント抽出条件を、さらに含むこと
を特徴とする請求項3又は4に記載の文書検索装置。
wherein the event extraction conditions further include a third event extraction condition on condition that at least one document indicated by two search events included in the search event pair has been viewed. 5. The document retrieval device according to claim 3 or 4.
前記選択条件は、
前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書の中で、前記選択条件を判断する対象となっている属性値に関連付けられている文書の数を、前記文書記憶部に記憶されている前記複数の文書から、前記対象検索イベントペアに含まれている二つの検索イベントにおいて時間的に前の検索イベントで示される文書を除いた文書の内、前記選択条件を判断する対象となっている属性値に関連付けられている文書の数で割った値が、予め定められた第4の閾値よりも高く、
前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書から、時間的に後の検索イベントで示される文書を除いた文書である第1の文書の数に対する、前記第1の文書の中で、前記選択条件を判断する対象となっている属性値に関連付けられている文書である第2の文書の数の割合が、予め定められた第5の閾値よりも高く、
前記対象検索イベントペアに含まれている二つの検索イベントで重複して示されている文書である第3の文書の数に対する、前記第3の文書の中で、前記選択条件を判断する対象となっている属性値に関連付けられている文書である第4の文書の数の割合が、前記第5の閾値よりも高く、かつ、
前記第4の文書の数に対する前記第2の文書の数の割合、又は、前記第2の文書の数に対する前記第4の文書の数の割合が、予め定められた第6の閾値よりも大きい、という条件であること
を特徴とする請求項2から5の何れか一項に記載の文書検索装置。
The selection condition is
Among the two search events included in the target search event pair, it is associated with the attribute value for which the selection condition is to be determined in the document indicated by the temporally previous search event. The number of documents is the number of documents excluding the document indicated by the temporally previous search event in the two search events included in the target search event pair from the plurality of documents stored in the document storage unit. Among them, a value obtained by dividing by the number of documents associated with the attribute value for which the selection condition is to be determined is higher than a predetermined fourth threshold,
A first document which is a document obtained by excluding the document indicated by the temporally later search event from the document indicated by the temporally earlier search event, out of the two search events included in the target search event pair. The ratio of the number of second documents among the first documents, which are documents associated with the attribute value for which the selection condition is to be determined, to the number of documents is a predetermined number. higher than a threshold of 5,
the number of third documents that are duplicated in two search events included in the target search event pair, among the third documents as targets for determining the selection condition; a percentage of the number of fourth documents that are documents associated with the attribute value that is higher than the fifth threshold, and
A ratio of the number of the second documents to the number of the fourth documents or a ratio of the number of the fourth documents to the number of the second documents is larger than a predetermined sixth threshold 6. The document retrieval device according to any one of claims 2 to 5, wherein the condition is that .
前記キーワード抽出条件は、前記対象属性値が選択された前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書に含まれている複数のキーワードから、前記対象属性値が選択された前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書から特定された一又は複数のキーワードを除いた残りのキーワードにおいて、重要度が高い順に予め定められた数のキーワードを抽出するという条件であること
を特徴とする請求項2から6の何れか一項に記載の文書検索装置。
The keyword extraction condition is a plurality of keywords included in a document indicated by a temporally later search event out of two search events included in the target search event pair in which the target attribute value is selected. , excludes one or more keywords specified from the document indicated by the temporally previous search event of the two search events included in the target search event pair in which the target attribute value is selected from 7. The document retrieval device according to any one of claims 2 to 6, wherein the condition is that a predetermined number of keywords are extracted from the remaining keywords in descending order of importance.
検索用の属性値である検索属性値の入力を受け付ける入力部をさらに備え、
前記検索部は、
前記属性検索索引情報を記憶する属性検索索引記憶部と、
前記属性検索索引情報を参照して、前記文書記憶部から、前記検索属性値に関連付けられている文書を見つけ出す属性検索部と、を備えること
を特徴とする請求項1から7の何れか一項に記載の文書検索装置。
further comprising an input unit that receives input of a search attribute value that is an attribute value for searching,
The search unit is
an attribute search index storage unit that stores the attribute search index information;
8. An attribute search unit that refers to the attribute search index information and finds a document associated with the search attribute value from the document storage unit. The document retrieval device described in .
検索用の属性値である検索属性値の入力を受け付ける入力部をさらに備え、
前記検索部は、
前記属性検索索引情報を記憶する属性検索索引記憶部と、
前記属性検索索引情報を参照して、前記文書記憶部から、前記検索属性値に関連付けられている文書を見つけ出す属性検索部と、を備えること
を特徴とする請求項2から6の何れか一項に記載の文書検索装置。
further comprising an input unit that receives input of a search attribute value that is an attribute value for searching,
The search unit is
an attribute search index storage unit that stores the attribute search index information;
7. An attribute search unit that refers to the attribute search index information and finds a document associated with the search attribute value from the document storage unit. The document retrieval device described in .
前記入力部は、さらに、検索用のキーワードである検索キーワードの入力を受け付け、
前記検索部は、
前記文書記憶部を検索することで、前記検索キーワードを含む文書を見つけ出す全文検索部と、
前記属性検索部で見つけ出された文書、及び、前記全文検索部で見つけ出された文書の少なくとも何れか一方を、前記一又は複数の文書とする検索結果生成部と、をさらに備えること
を特徴とする請求項9に記載の文書検索装置。
The input unit further receives input of a search keyword that is a keyword for searching,
The search unit is
a full-text search unit for searching the document storage unit for documents containing the search keyword;
a search result generation unit that sets at least one of the documents found by the attribute search unit and the documents found by the full-text search unit as the one or more documents. 10. The document retrieval device according to claim 9.
前記キーワード抽出条件は、前記対象属性値が選択された前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書に含まれている複数のキーワードから、前記対象属性値が選択された前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書から特定された一又は複数のキーワードを除いた残りのキーワードにおいて、重要度が高い順に予め定められた数のキーワードを抽出するという条件であり、
前記特徴キーワード抽出部は、前記キーワード抽出条件を判断する際に、前記残りのキーワードにおいて、前記対象属性値が選択された前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで用いられた検索キーワードの内、時間的に前の検索イベントで用いられた検索キーワードと一致しない検索キーワードと一致するキーワードの重要度を、予め定められた方法で高めること
を特徴とする請求項10に記載の文書検索装置。
The keyword extraction condition is a plurality of keywords included in a document indicated by a temporally later search event out of two search events included in the target search event pair in which the target attribute value is selected. , excludes one or more keywords specified from the document indicated by the temporally previous search event of the two search events included in the target search event pair in which the target attribute value is selected from A condition that extracts a predetermined number of keywords from the remaining keywords in descending order of importance,
When determining the keyword extraction condition, the characteristic keyword extracting unit determines, in the remaining keywords, the temporal among the search keywords used in the later search event, the importance of keywords that match the search keywords that do not temporally match the search keywords used in the previous search event are increased by a predetermined method. 11. The document retrieval device according to claim 10.
前記キーワード抽出条件は、前記対象属性値が選択された前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで示される文書に含まれている複数のキーワードから、前記対象属性値が選択された前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に前の検索イベントで示される文書から特定された一又は複数のキーワードを除いた残りのキーワードにおいて、前記対象属性値が選択された前記対象検索イベントペアに含まれている二つの検索イベントの内、時間的に後の検索イベントで用いられた検索用のキーワードと一致するキーワードがある場合には、前記一致するキーワードを抽出するという条件であり、前記一致するキーワードがない場合には、前記残りのキーワードにおいて、重要度が高い順に予め定められた数のキーワードを抽出するという条件であること
を特徴とする請求項10に記載の文書検索装置。
The keyword extraction condition is a plurality of keywords included in a document indicated by a temporally later search event out of two search events included in the target search event pair in which the target attribute value is selected. , excludes one or more keywords specified from the document indicated by the temporally previous search event of the two search events included in the target search event pair in which the target attribute value is selected from Among the remaining keywords, among the two search events included in the target search event pair in which the target attribute value is selected, a keyword that matches the search keyword used in the later search event in terms of time. If there is, the condition is to extract the matching keyword, and if there is no matching keyword, the condition is to extract a predetermined number of keywords in descending order of importance among the remaining keywords. 11. The document retrieval device according to claim 10, wherein:
前記入力部は、ユーザを識別するためのユーザ識別情報の入力も受け付けることができるようにされており、
前記ユーザ識別情報が入力された場合には、前記検索部は、前記ユーザ識別情報に対応付けられており、前記文書記憶部に記憶されている前記複数の文書の各々と、前記複数の文書の各々の属性値とを関連付ける個別属性検索索引情報を用いて、前記文書記憶部を検索し、
前記ユーザ識別情報が入力された場合には、前記検索履歴記憶部は、前記ユーザ識別情報に対応付けて前記検索イベントを記憶し、
前記ユーザ識別情報が入力された場合には、前記新規属性値追加部は、前記検索履歴の内、前記ユーザ識別情報に対応付けられている検索イベントを解析して、前記新規属性値を生成するとともに、前記関連文書を特定し、前記新規属性値及び前記関連文書を、前記ユーザ識別情報に対応付けられている前記個別属性検索索引情報に追加すること
を特徴とする請求項8から12の何れか一項に記載の文書検索装置。
The input unit can also accept input of user identification information for identifying a user,
When the user identification information is input, the search unit stores each of the plurality of documents associated with the user identification information and stored in the document storage unit, and searching the document storage unit using individual attribute search index information that associates each attribute value;
when the user identification information is input, the search history storage unit stores the search event in association with the user identification information;
When the user identification information is input, the new attribute value addition unit analyzes a search event associated with the user identification information in the search history and generates the new attribute value. and specifying the related document, and adding the new attribute value and the related document to the individual attribute search index information associated with the user identification information. 1. The document retrieval device according to claim 1.
コンピュータを、
文書記憶部に記憶されている複数の文書の各々と、前記複数の文書の各々の属性値とを関連付ける属性検索索引情報を参照して、前記文書記憶部を検索することで、一又は複数の文書を見つけ出す検索部、
前記検索部による検索が行われた日時である検索日時と、前記検索部で見つけ出された一又は複数の文書とを示す検索イベントを検索履歴として記憶する検索履歴記憶部、及び、
前記検索履歴を解析することで、新規属性値を生成するとともに、前記新規属性値に関連付ける文書を関連文書として特定し、前記新規属性値及び前記関連文書を、前記属性検索索引情報に追加する新規属性値追加部、として機能させること
を特徴とするプログラム。
the computer,
one or more of a search unit for locating documents,
a search history storage unit that stores, as a search history, a search date and time, which is the date and time when a search was performed by the search unit, and a search event indicating one or more documents found by the search unit;
By analyzing the search history, a new attribute value is generated, a document associated with the new attribute value is specified as a related document, and the new attribute value and the related document are added to the attribute search index information. A program characterized by functioning as an attribute value adding unit.
検索部が、文書記憶部に記憶されている複数の文書の各々と、前記複数の文書の各々の属性値とを関連付ける属性検索索引情報を参照して、前記文書記憶部の検索を実行することで、一又は複数の文書を見つけ出し、
検索履歴記憶部が、前記検索が実行された日時である検索日時と、前記検索で見つけ出された一又は複数の文書とを示す検索イベントを検索履歴として記憶し、
新規属性値追加部が、前記検索履歴を解析することで、新規属性値を生成するとともに、前記新規属性値に関連付ける文書を関連文書として特定し、
前記新規属性値追加部が、前記新規属性値及び前記関連文書を、前記属性検索索引情報に追加すること
を特徴とする新規属性値追加方法。
A search unit refers to attribute search index information that associates each of a plurality of documents stored in a document storage unit with an attribute value of each of the plurality of documents, and executes a search of the document storage unit. to find one or more documents,
A search history storage unit stores, as a search history, a search event indicating a search date and time, which is the date and time when the search was performed, and one or more documents found in the search,
A new attribute value addition unit analyzes the search history to generate a new attribute value and identifies a document to be associated with the new attribute value as a related document,
A new attribute value adding method , wherein the new attribute value adding unit adds the new attribute value and the related document to the attribute search index information.
JP2021569274A 2020-02-28 2020-02-28 Document retrieval device, program and new attribute value addition method Active JP7106021B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/008265 WO2021171546A1 (en) 2020-02-28 2020-02-28 Document search device, program, and method for adding new attribute value

Publications (2)

Publication Number Publication Date
JPWO2021171546A1 JPWO2021171546A1 (en) 2021-09-02
JP7106021B2 true JP7106021B2 (en) 2022-07-25

Family

ID=77491270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021569274A Active JP7106021B2 (en) 2020-02-28 2020-02-28 Document retrieval device, program and new attribute value addition method

Country Status (2)

Country Link
JP (1) JP7106021B2 (en)
WO (1) WO2021171546A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018530A (en) 2003-06-27 2005-01-20 Toshiba Corp Information processor, information processing program, and information processing method
JP2005196336A (en) 2004-01-05 2005-07-21 Dainippon Printing Co Ltd Keyword setting device and keyword retrieval device or the like
JP2009237912A (en) 2008-03-27 2009-10-15 Toshiba Corp Search keyword improvement apparatus, server and method
US20190121882A1 (en) 2017-10-19 2019-04-25 Yahoo Holdings, Inc. Systems, devices, and methods for content indexing and querying in a search system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018530A (en) 2003-06-27 2005-01-20 Toshiba Corp Information processor, information processing program, and information processing method
JP2005196336A (en) 2004-01-05 2005-07-21 Dainippon Printing Co Ltd Keyword setting device and keyword retrieval device or the like
JP2009237912A (en) 2008-03-27 2009-10-15 Toshiba Corp Search keyword improvement apparatus, server and method
US20190121882A1 (en) 2017-10-19 2019-04-25 Yahoo Holdings, Inc. Systems, devices, and methods for content indexing and querying in a search system

Also Published As

Publication number Publication date
WO2021171546A1 (en) 2021-09-02
JPWO2021171546A1 (en) 2021-09-02

Similar Documents

Publication Publication Date Title
CA2571172C (en) Interactive web information retrieval using graphical word indicators
US9652537B2 (en) Identifying terms associated with queries
Li et al. A two-dimensional click model for query auto-completion
US20080104542A1 (en) Apparatus and Method for Conducting Searches with a Search Engine for Unstructured Data to Retrieve Records Enriched with Structured Data and Generate Reports Based Thereon
JPWO2009019860A1 (en) Content search device
CN103765418B (en) Information search system and method
US20080228752A1 (en) Technical correlation analysis method for evaluating patents
KR20080045659A (en) Information processing device, method, and program
KR100898459B1 (en) Method for classifying query and system thereof
JPWO2011090036A1 (en) Trend information search device, trend information search method and program
JP6219967B2 (en) System and method for retrieving labeled non-text items
US9552415B2 (en) Category classification processing device and method
JP2009500764A (en) Information retrieval method and apparatus reflecting information value
JPWO2017203672A1 (en) Item recommendation method, item recommendation program and item recommendation device
JP5548900B2 (en) Web page recommendation method using multiple attributes
JP5500070B2 (en) Data classification system, data classification method, and data classification program
JP4912384B2 (en) Document search device, document search method, and document search program
JP7106021B2 (en) Document retrieval device, program and new attribute value addition method
Charjan et al. Pattern Discovery For Text Mining Using Pattern Taxonomy
KR20230014035A (en) Method and device for recommending related documents through user search intent analysis
JP5915724B2 (en) Information processing method, display method, information processing apparatus, display apparatus, information processing program, display program
JP6394213B2 (en) Search program, search method, and information processing apparatus
JP7346818B2 (en) Information processing device and program
JPH1185794A (en) Retrieval word input device and recording medium recording retrieval word input program
JP2002324077A (en) Apparatus and method for document retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211119

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220712

R150 Certificate of patent or registration of utility model

Ref document number: 7106021

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150