JP7339148B2 - Search support device - Google Patents

Search support device Download PDF

Info

Publication number
JP7339148B2
JP7339148B2 JP2019229225A JP2019229225A JP7339148B2 JP 7339148 B2 JP7339148 B2 JP 7339148B2 JP 2019229225 A JP2019229225 A JP 2019229225A JP 2019229225 A JP2019229225 A JP 2019229225A JP 7339148 B2 JP7339148 B2 JP 7339148B2
Authority
JP
Japan
Prior art keywords
search
document data
user
unit
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019229225A
Other languages
Japanese (ja)
Other versions
JP2021096761A (en
Inventor
憲幸 阿部
可奈子 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2019229225A priority Critical patent/JP7339148B2/en
Publication of JP2021096761A publication Critical patent/JP2021096761A/en
Application granted granted Critical
Publication of JP7339148B2 publication Critical patent/JP7339148B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の一側面は、検索支援装置に関する。 One aspect of the present invention relates to a search support device.

従来、ユーザにより入力された検索キーワードに基づいて検索を行い、検索によりヒットした文書をユーザに提示する検索システムが知られている。このような検索システムにおいてユーザの所望する文書が検索によりヒットするためには、ユーザが適切な検索キーワードを入力する必要がある。しかし、必ずしもユーザが適切な検索キーワード(例えば、専門用語等)を知っているとは限らない。 2. Description of the Related Art Conventionally, there has been known a search system that performs a search based on a search keyword input by a user and presents documents hit by the search to the user. In such a search system, in order for a document desired by the user to be hit by search, the user needs to enter an appropriate search keyword. However, the user does not necessarily know appropriate search keywords (eg, technical terms, etc.).

特許文献1には、ユーザにより入力された検索キーワードに関連する関連キーワードをユーザに提示する仕組みが開示されている。特許文献1に記載の手法は、ユーザが入力した検索キーワードによる文書データベースの検索結果として得られた文書を第一のグループとし、検索結果として得られなかった文書を第二グループとする。そして、第一のグループの文書中から任意のキーワードが抽出され、当該キーワードを含む第一のグループの文書数が多く、当該キーワードを含む第二のグループの文書数が少ない程、当該キーワードに対してより高い評価が与えられる。そして、評価の高いキーワードが、関連キーワードとしてユーザに提示される。 Patent Literature 1 discloses a mechanism for presenting related keywords related to a search keyword input by the user to the user. According to the method described in Patent Document 1, documents obtained as search results of a document database using a search keyword input by a user are assigned to the first group, and documents not obtained as search results are assigned to the second group. Then, an arbitrary keyword is extracted from the documents in the first group. given a higher rating. Then, highly rated keywords are presented to the user as related keywords.

特開2009-217406号公報Japanese Patent Application Laid-Open No. 2009-217406

上述した検索システムの一形態として、複数のパートに分かれた文書を検索するシステムが存在する。例えば質問文と回答文とがペアになった文書からユーザの所望する文書を検索するFAQ検索システム等が存在する。このようなFAQ検索システムに対して、特許文献1に開示された仕組みを適用することは可能である。しかし、特許文献1に開示された仕組みは、FAQ検索システムのように検索対象となる文書データが複数のパートに分かれている点に着目した工夫を施したものではなく、ユーザの検索効率を高める観点において改善の余地がある。 As one form of the above-described retrieval system, there is a system for retrieving documents divided into a plurality of parts. For example, there is an FAQ search system that searches for a document desired by a user from documents in which question sentences and answer sentences are paired. It is possible to apply the mechanism disclosed in Patent Document 1 to such an FAQ search system. However, the mechanism disclosed in Patent Literature 1 does not focus on the fact that the document data to be searched is divided into a plurality of parts like the FAQ search system, and improves the user's search efficiency. There is room for improvement in terms of

そこで、本発明の一側面は、複数のパートに分かれた文書の検索効率を向上させることができる検索支援装置を提供することを目的とする。 SUMMARY OF THE INVENTION Accordingly, it is an object of one aspect of the present invention to provide a search support apparatus capable of improving search efficiency for a document divided into a plurality of parts.

本発明の一側面に係る検索支援装置は、互いに関連付けられた第1文字列情報と第2文字列情報とをそれぞれ含む複数の文書データの検索を支援する検索支援装置であって、ユーザにより入力された検索キーワードを取得する取得部と、第1文字列情報及び第2文字列情報の両方を検索対象として、検索キーワードを用いて複数の文書データを検索することにより、検索キーワードに関連する文書データである一以上の関連文書を取得する検索部と、一以上の関連文書の第1文字列情報から、一以上の関連文書を特徴付ける特徴語を抽出する抽出部と、抽出部により抽出された特徴語をユーザに提示する提示部と、を備える。 A search support device according to one aspect of the present invention is a search support device that supports a search for a plurality of document data each including first character string information and second character string information that are associated with each other, wherein a user inputs a document related to the search keyword by searching a plurality of document data using the search keyword with both the first character string information and the second character string information as search targets; a retrieval unit that acquires one or more related documents as data; an extraction unit that extracts characteristic words that characterize the one or more related documents from the first character string information of the one or more related documents; a presenting unit for presenting the feature word to the user.

本発明の一側面に係る検索支援装置では、文書データの全体(第1文字列情報及び第2文字列情報)を検索範囲とすることにより、文書データの一部を検索範囲とする場合と比較して、多くの関連文書を検索により取得することができる。一方、特徴語を抽出する際には、文書データの一部(第1文字列情報)を抽出範囲とすることにより、限定された特徴語を抽出することができる。すなわち、関連文書を検索する際にはカバレッジを重視してより多くの関連文書を取得する一方で、特徴語を抽出する際には検索範囲を限定的にすることによって、より精度の高い特徴語をユーザに提示することが可能となる。そして、ユーザは、このような特徴語を新たな検索キーワード(又は追加の検索キーワード)として用いて検索を行うことにより、ユーザが所望する文書データを見つけるための検索処理を効率良く行うことができる。従って、上記検索支援装置によれば、複数のパートに分かれた文書の検索効率を向上させることができる。 In the search support device according to one aspect of the present invention, by setting the entire document data (the first character string information and the second character string information) as the search range, compared with the case where part of the document data is set as the search range By doing so, many related documents can be obtained by searching. On the other hand, when extracting characteristic words, it is possible to extract limited characteristic words by setting part of the document data (first character string information) as an extraction range. That is, when retrieving related documents, emphasis is placed on coverage and more related documents are acquired, while when extracting feature words, the search range is limited to obtain feature words with higher accuracy. can be presented to the user. By performing a search using such feature words as new search keywords (or additional search keywords), the user can efficiently search for document data desired by the user. . Therefore, according to the search support device, it is possible to improve the efficiency of searching a document divided into a plurality of parts.

本発明の一側面によれば、複数のパートに分かれた文書の検索効率を向上させることができる検索支援装置を提供することができる。 According to one aspect of the present invention, it is possible to provide a search support device capable of improving search efficiency for a document divided into a plurality of parts.

実施形態に係る検索支援装置の機能構成を示す図である。It is a figure which shows the functional structure of the search assistance apparatus which concerns on embodiment. 検索支援装置によるサジェスト機能の一例を示す図である。It is a figure which shows an example of the suggestion function by a search assistance apparatus. 文書DBに記憶された文書データ及び前処理部により抽出されたキーワードの一例を示す図である。FIG. 3 is a diagram showing an example of document data stored in a document DB and keywords extracted by a preprocessing unit; 検索支援装置の動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation|movement of a search assistance apparatus. 検索支援装置のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of a search assistance apparatus.

以下、添付図面を参照して、本発明の一実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明を省略する。 An embodiment of the present invention will be described in detail below with reference to the accompanying drawings. In the description of the drawings, the same or corresponding elements are denoted by the same reference numerals, and overlapping descriptions are omitted.

図1は、一実施形態に係る検索支援装置10の機能構成を示す図である。検索支援装置10は、互いに関連付けられた第1文字列情報と第2文字列情報とをそれぞれ含む複数の文書データの検索を支援する装置である。本実施形態では一例として、第1文字列情報は、質問文を示す情報である。また、第2文字列情報は、当該質問文に対する回答文を示す情報である。すなわち、検索支援装置10は、質問文と回答文とのペアからなる文書データを検索するFAQ検索システムにおいて、ユーザの検索処理を支援する装置である。より具体的には、本実施形態では一例として、検索支援装置10は、ユーザが入力中の検索キーワードを取得し、当該検索キーワードに応じた特徴語を追加の検索キーワードとしてユーザに提示するサジェスト機能を提供する。 FIG. 1 is a diagram showing the functional configuration of a search support device 10 according to one embodiment. The search support device 10 is a device that supports searching for a plurality of document data each including first character string information and second character string information that are associated with each other. As an example in this embodiment, the first character string information is information indicating a question sentence. Also, the second character string information is information indicating an answer to the question. That is, the search support device 10 is a device that supports a user's search processing in an FAQ search system that searches for document data consisting of pairs of question sentences and answer sentences. More specifically, as an example in the present embodiment, the search support device 10 acquires a search keyword being input by the user, and has a suggestion function that presents the user with a feature word corresponding to the search keyword as an additional search keyword. I will provide a.

図2は、検索支援装置10によるサジェスト機能の一例を示す図である。図2は、例えばウェブページ等に表示された検索ウィンドウW1及びサジェストウィンドウW2を示している。検索ウィンドウW1は、ユーザによって検索キーワードが入力される領域である。この例では、検索ウィンドウW1に検索キーワード「回線契約」が入力されている。サジェストウィンドウW2は、検索支援装置10(後述する提示部15)によりユーザに提示される一以上の特徴語が表示される領域である。一例として、サジェストウィンドウW2は、ユーザにより検索キーワードが入力されたことに応じて、検索ウィンドウW1の真下に表示される。 FIG. 2 is a diagram showing an example of the suggestion function of the search support device 10. As shown in FIG. FIG. 2 shows a search window W1 and a suggestion window W2 displayed on, for example, a web page. The search window W1 is an area where the user inputs a search keyword. In this example, the search keyword "line contract" is entered in the search window W1. The suggestion window W2 is an area in which one or more feature words presented to the user by the search support device 10 (presentation unit 15 described later) are displayed. As an example, the suggestion window W2 is displayed directly below the search window W1 in response to the user's input of a search keyword.

図2の例では、サジェストウィンドウW2に、2つの特徴語「ファミリー割引」及び「家族」のそれぞれが、追加の検索キーワード(すなわち、元の検索キーワード「回線契約」と共に用いる検索キーワード)としてユーザに提示されている。仮にユーザが入力した検索キーワードのみを用いて検索を行った場合、ユーザが所望する文書データ以外の文書データを含む多くの文書データがヒットしてしまい、その中からユーザが所望する文書データを発見するために多くの手間がかかる場合がある。そこで、検索支援装置10は、適切に絞り込みを行うための追加のキーワード(すなわち、特徴語)を用いた検索をユーザに提案することにより、ユーザの検索効率を向上させる。 In the example of FIG. 2, two characteristic words "family discount" and "family" are displayed in the suggestion window W2 to the user as additional search keywords (that is, search keywords used together with the original search keyword "line contract"). Presented. If a search is performed using only the search keyword input by the user, many document data including document data other than the document data desired by the user are hit, and the document data desired by the user is found among them. It can take a lot of work to do. Therefore, the search support device 10 improves the user's search efficiency by proposing to the user a search using an additional keyword (that is, a feature word) for appropriately narrowing down.

検索支援装置10は、一以上のコンピュータ装置によって構成される。検索支援装置10の形態は特定の形態に限定されない。例えば、検索支援装置10は、ユーザが所持するスマートフォン、タブレット端末、パーソナルコンピュータ等の端末であってもよいし、上述したような端末(クライアント端末)と通信可能に構成され、当該端末からの検索要求を処理するように構成されたサーバ装置であってもよい。 The search support device 10 is composed of one or more computer devices. The form of the search support device 10 is not limited to a specific form. For example, the search support device 10 may be a terminal such as a smartphone, a tablet terminal, or a personal computer owned by the user, or may be configured to be capable of communicating with the terminal (client terminal) as described above. It may also be a server device configured to process the request.

図1に示されるように、文書DB10aと、検索支援装置10は、前処理部11と、取得部12と、検索部13と、抽出部14と、提示部15と、を備えている。 As shown in FIG. 1 , the document DB 10 a and the search support device 10 are provided with a preprocessing section 11 , an acquisition section 12 , a search section 13 , an extraction section 14 and a presentation section 15 .

文書DB10aは、検索対象となる複数の文書データを記憶するデータベースである。上述したように、各文書データは、互いに関連付けられた質問文と回答文とを含む文字列情報である。図3の上部は、文書データの一例を示している。図3に例示される文書データは、質問文「ファミリー割引を申込みできる家族の範囲は、どこまでですか?」と当該質問文に対する回答文「主回線の契約者から三親等以内の方です。」とを含んでいる。 The document DB 10a is a database that stores a plurality of document data to be searched. As described above, each document data is character string information including a question sentence and an answer sentence that are associated with each other. The upper part of FIG. 3 shows an example of document data. The document data exemplified in FIG. 3 consists of a question sentence "What is the range of family members who can apply for a family discount?" and

前処理部11は、複数の文書データの各々について、文書データの質問文に含まれる一以上のキーワードを抽出し、抽出された一以上のキーワードを当該文書データに関連付ける前処理を実行する。ここで、キーワードは、一以上の単語からなる文字列である。キーワードは、後述する抽出部14により抽出される特徴語の候補となる文字列である。前処理部11は、例えば形態素解析等の公知のテキスト解析技術を用いることにより、文書データの質問文に含まれるキーワードを抽出する。 The preprocessing unit 11 extracts one or more keywords included in the question sentence of the document data for each of the plurality of document data, and executes preprocessing for associating the extracted one or more keywords with the document data. Here, a keyword is a character string consisting of one or more words. A keyword is a character string that is a candidate for a feature word extracted by the extraction unit 14, which will be described later. The preprocessing unit 11 extracts keywords included in the question sentence of the document data by using a known text analysis technique such as morphological analysis.

本実施形態では一例として、前処理部11は、名詞又は名詞列を上記キーワードとして抽出する。図3の例では、前処理部11によって、文書データの質問文から、それぞれ名詞である「家族」、「範囲」、及び「どこ」と、連続する2つの名詞「ファミリー」及び「割引」を結合した名詞列である「ファミリー割引」と、がキーワードとして抽出されている。特定のサービス名称等の専門用語は、「ファミリー割引」のように複数(ここでは一例として2つ)の名詞を結合した名称である場合がある。よって、上記のように名詞列をキーワードとして抽出することにより、意味のある単語のまとまりを1つのキーワードとして抽出することができる。 In this embodiment, as an example, the preprocessing unit 11 extracts nouns or noun strings as the keywords. In the example of FIG. 3, the preprocessing unit 11 extracts the nouns "family", "range", and "where" from the question sentence of the document data, and the two consecutive nouns "family" and "discount". "Family Discount", which is a combined noun string, is extracted as a keyword. A technical term such as a specific service name may be a name that combines a plurality of (here, two as an example) nouns, such as "family discount". Therefore, by extracting a noun string as a keyword as described above, a group of meaningful words can be extracted as one keyword.

前処理部11は、ある文書データから上記処理により抽出された一以上のキーワードを、当該文書データに関連付ける。例えば、前処理部11は、文書DB10aに記憶されている文書データのレコード(質問文を格納する質問文フィールドと回答文を格納する回答文フィールドとを有するデータ構造)に対して、上記処理により抽出された一以上のキーワードを格納するキーワードフィールドを追加する。すなわち、前処理部11は、各文書データに対して、図3に示される質問文、回答文、及びキーワードが相互に関連付けられたデータ構造を生成する。 The preprocessing unit 11 associates one or more keywords extracted from certain document data by the above process with the document data. For example, the preprocessing unit 11 performs the above processing on a record of document data stored in the document DB 10a (data structure having a question text field for storing a question text and an answer text field for storing an answer text). Add a keyword field to store one or more extracted keywords. That is, the preprocessing unit 11 generates a data structure in which the question sentences, answer sentences, and keywords shown in FIG. 3 are associated with each other for each piece of document data.

取得部12は、ユーザにより入力された検索キーワードを取得する。本実施形態では、取得部12は、図2に示される検索ウィンドウW1に入力された(入力途中の)検索キーワード(ここでは「回線契約」)をリアルタイムに取得するように構成されている。ここで、「入力途中の検索キーワード」とは、ユーザが検索ウィンドウW等に対する検索キーワードの入力を開始してから、検索キーワードを確定するまで(すなわち、検索キーワードを用いた検索実行を指示する操作を行うまで)の間に入力済みの検索キーワードである。 Acquisition unit 12 acquires a search keyword input by a user. In this embodiment, the acquisition unit 12 is configured to acquire in real time a search keyword (here, "line contract") input (in the middle of input) in the search window W1 shown in FIG. Here, the term "search keyword in the middle of input" refers to the period from when the user starts inputting a search keyword into the search window W or the like until the user determines the search keyword (that is, an operation for instructing execution of a search using the search keyword). ) is the search keyword that has been entered.

検索部13は、取得部12により取得された検索キーワードを用いて文書DB10aに記憶された複数の文書データを検索することにより、当該検索キーワードに関連する文書データである一以上の関連文書を取得する。検索部13は、各文書データの質問文及び回答文の両方を検索対象として、上記検索を実行する。このような検索処理により、例えば、質問文又は回答文に検索キーワードが含まれている文書データが、関連文書として取得される。なお、検索部13が実行する検索アルゴリズムとしては、公知の任意の検索アルゴリムを用い得る。検索部13は、カバレッジを重視して、文書データに含まれる全ての文字列を検索対象として検索を行うことにより、なるべく多くの関連文書を取得するように構成されている。 The search unit 13 searches for a plurality of document data stored in the document DB 10a using the search keyword acquired by the acquisition unit 12, thereby acquiring one or more related documents that are document data related to the search keyword. do. The search unit 13 performs the above-described search with both the question sentence and the answer sentence of each document data as search targets. Through such search processing, for example, document data in which a search keyword is included in a question sentence or an answer sentence is acquired as a related document. Any known search algorithm can be used as the search algorithm executed by the search unit 13 . The search unit 13 is configured to obtain as many related documents as possible by conducting a search with all character strings included in document data as a search target, with emphasis on coverage.

抽出部14は、検索部13により取得された一以上の関連文書の質問文から、特徴語を抽出する。本実施形態では、抽出部14は、一以上の関連文書に関連付けられた一以上のキーワード(すなわち、前処理部11によって抽出されたキーワード(図2参照))のうちから一以上の特徴語を抽出する。 The extraction unit 14 extracts characteristic words from the question sentences of the one or more related documents acquired by the search unit 13 . In this embodiment, the extraction unit 14 extracts one or more characteristic words from among one or more keywords associated with one or more related documents (that is, the keywords extracted by the preprocessing unit 11 (see FIG. 2)). Extract.

本実施形態では、上述したように、前処理部11が、各文書データの質問文から、特徴語の候補である一以上のキーワードを予め抽出している。この場合、抽出部14は、当該一以上のキーワードのうちから特徴語を抽出することができる。すなわち、抽出部14は、特徴語を抽出する処理を実行する際に、その準備処理として、関連文書の質問文に含まれるキーワード(特徴語の候補)を抽出する必要がない。すなわち、前処理部11が前処理を予め実行していることにより、上記準備処理を省略することができる。その結果、抽出部14による特徴語の抽出処理が高速化される。 In this embodiment, as described above, the preprocessing unit 11 preliminarily extracts one or more keywords, which are feature word candidates, from the question text of each document data. In this case, the extraction unit 14 can extract characteristic words from the one or more keywords. In other words, the extraction unit 14 does not need to extract keywords (characteristic word candidates) included in the question sentences of the related documents as a preparatory process when executing the process of extracting characteristic words. That is, since the preprocessing unit 11 executes the preprocessing in advance, the preparatory processing can be omitted. As a result, the extraction processing of characteristic words by the extraction unit 14 is sped up.

特徴語は、検索部13により取得された一以上の関連文書を特徴付けるキーワード(一以上の単語からなる文字列)である。例えば、特徴語は、上記一以上の関連文書において特に出現し易いキーワードである。抽出部14は、公知の任意のアルゴリズムを実行することにより、このような特徴語を抽出することができる。本実施形態では一例として、抽出部14は、関連文書におけるキーワードの出現割合(第1出現割合)と、文書DB10aに記憶された複数の文書データ全体におけるキーワードの出現割合(第2出現割合)と、に基づく評価値を算出する。そして、抽出部14は、キーワード毎の評価値に基づいて、上記一以上のキーワードのうちから特徴語を抽出する。 A feature word is a keyword (character string consisting of one or more words) that characterizes one or more related documents acquired by the search unit 13 . For example, a feature word is a keyword that is particularly likely to appear in the one or more related documents. The extraction unit 14 can extract such feature words by executing any known algorithm. In this embodiment, as an example, the extraction unit 14 extracts the appearance ratio (first appearance ratio) of the keyword in the related document and the appearance ratio (second appearance ratio) of the keyword in the entire plurality of document data stored in the document DB 10a. , to calculate the evaluation value based on. Then, the extraction unit 14 extracts characteristic words from the one or more keywords based on the evaluation value for each keyword.

キーワードの第1出現割合は、一以上の関連文書のうち当該キーワードを含む関連文書の数「N1」を、検索部13により取得された一以上の関連文書の総数「Nr」で割った値「N1/Nr」である。また、キーワードの第2出現割合は、複数の文書データのうち当該キーワードを含む文書データの数「N2」を、文書DB10aに格納されている複数の文書データの総数「Na」で割った値「N2/Na」である。第1出現割合又は第2出現割合の計算において、文書データにキーワードが含まれるか否かは、文書データの質問文のみを対象として判断されてもよいし、文書データの質問文及び回答文の両方を対象として判断されてもよい。前者の場合には、質問文にキーワードを含む文書データのみが、当該キーワードを含む文書データとしてカウントされる。一方、後者の場合には、質問文及び回答文の少なくとも一方にキーワードを含む文書データが、当該キーワードを含む文書データとしてカウントされる。 The first appearance ratio of a keyword is the value "Nr" obtained by dividing the number "N1" of related documents containing the keyword among the one or more related documents by the total number "Nr" of the one or more related documents acquired by the search unit 13. N1/Nr”. The second appearance ratio of a keyword is obtained by dividing the number "N2" of document data containing the keyword among the plurality of document data by the total number "Na" of the plurality of document data stored in the document DB 10a. N2/Na”. In the calculation of the first appearance ratio or the second appearance ratio, whether or not the keyword is included in the document data may be determined based on only the question sentence of the document data, or the question sentence and the answer sentence of the document data. Both may be considered. In the former case, only document data containing a keyword in the question sentence is counted as document data containing the keyword. On the other hand, in the latter case, document data containing a keyword in at least one of the question sentence and answer sentence is counted as document data containing the keyword.

上述した第1出現割合及び第2出現割合に基づく評価値の算出方法は特定の方法に限定されないが、一例として、抽出部14は、キーワード毎に、JLHスコアを上記評価値として算出する。JLHスコアは、下記式(1)~(3)により求まるスコアである。
式(1):JLHスコア=絶対割合変化×相対割合変化
式(2):絶対割合変化=第1出現割合-第2出現割合
式(3):相対割合変化=第1出現割合/第2出現割合
The method of calculating the evaluation value based on the first appearance ratio and the second appearance ratio described above is not limited to a specific method, but as an example, the extraction unit 14 calculates the JLH score as the evaluation value for each keyword. The JLH score is a score determined by the following formulas (1) to (3).
Formula (1): JLH score = absolute percentage change × relative percentage change formula (2): absolute percentage change = first occurrence rate - second occurrence rate formula (3): relative percentage change = first occurrence rate / second occurrence ratio

具体例として、以下の状況について考える。
・検索部13により取得された関連文書の総数(Nr)=84
・文書DB10aに格納された文書データの総数(Na)=2403
・84個の関連文書のうち「ファミリー割引」を含む文書数(N1)=10
・2403個の文書データのうち「ファミリー割引」を含む文書数(N2)=23
As a concrete example, consider the following situation.
・Total number of related documents (Nr) acquired by the search unit 13 = 84
・Total number of document data stored in the document DB 10a (Na)=2403
・Number of documents including “Family Discount” out of 84 related documents (N1) = 10
・Number of documents including “Family Discount” out of 2403 document data (N2) = 23

この場合、第1出現割合「N1/Nr」は「0.1190(=10/84)」であり、第2出現割合「N2/Na」は「0.009571(=23/2403)」である。従って、絶対割合変化は、上記式(2)により、「0.1095(=0.1190-0.009571)」と算出される。また、相対割合変化は、上記式(3)により、「12.43(=0.1190/0.009571)」と算出される。よって、キーワード「ファミリー割引」の評価値(JLHスコア)は、上記式(1)により、「1.361(=0.1095×12.43)」と算出される。 In this case, the first appearance ratio "N1/Nr" is "0.1190 (=10/84)", and the second appearance ratio "N2/Na" is "0.009571 (=23/2403)". . Therefore, the absolute rate change is calculated as "0.1095 (=0.1190-0.009571)" by the above formula (2). Also, the relative ratio change is calculated as "12.43 (=0.1190/0.009571)" by the above formula (3). Therefore, the evaluation value (JLH score) of the keyword “family discount” is calculated as “1.361 (=0.1095×12.43)” by the above formula (1).

提示部15は、抽出部14により抽出された特徴語をユーザに提示する。図2に示したように、本実施形態では一例として、提示部15は、サジェストウィンドウW2を介して、ユーザが入力した検索キーワードと共に使用する追加の検索キーワード(効率良く検索絞り込みを行うためのキーワード)として、特徴語をユーザに提示する。 The presentation unit 15 presents the feature words extracted by the extraction unit 14 to the user. As shown in FIG. 2, in this embodiment, as an example, the presentation unit 15 adds an additional search keyword (a keyword for efficiently narrowing down the search) to be used together with the search keyword input by the user via the suggestion window W2. ), the feature words are presented to the user.

図4に示されるフローチャートを参照して、検索支援装置10の処理の一例について説明する。 An example of the processing of the search support device 10 will be described with reference to the flowchart shown in FIG.

ステップS1において、前処理部11は、複数の文書データの各々について、文書データの質問文に含まれる一以上のキーワードを抽出し、抽出された一以上のキーワードを当該文書データに関連付ける前処理を実行する。 In step S1, the preprocessing unit 11 extracts one or more keywords included in the question sentence of the document data for each of a plurality of document data, and performs preprocessing for associating the extracted one or more keywords with the document data. Execute.

ステップS2において、取得部12は、ユーザにより入力された検索キーワードを取得する。本実施形態では、取得部12は、図2に示される検索ウィンドウW1に入力された(入力途中の)検索キーワード(ここでは「回線契約」)をリアルタイムに取得する。 In step S2, the acquisition unit 12 acquires the search keyword input by the user. In this embodiment, the acquisition unit 12 acquires in real time a search keyword (here, "line contract") input (in the middle of input) in the search window W1 shown in FIG.

ステップS3において、検索部13は、ステップS2において取得部12により取得された検索キーワードを用いて文書DB10aに記憶された複数の文書データを検索することにより、当該検索キーワードに関連する文書データである一以上の関連文書を取得する。検索部13は、各文書データの質問文及び回答文の両方を検索対象として、上記検索を実行する。 In step S3, the search unit 13 searches for a plurality of document data stored in the document DB 10a using the search keyword acquired by the acquisition unit 12 in step S2, and finds document data related to the search keyword. Get one or more related documents. The search unit 13 performs the above-described search with both the question sentence and the answer sentence of each document data as search targets.

ステップS4において、抽出部14は、ステップS3において検索部13により取得された一以上の関連文書の質問文から、特徴語を抽出する。具体的には、抽出部14は、一以上の関連文書に関連付けられた一以上のキーワード(すなわち、ステップS1において前処理部11によって抽出されたキーワード)のうちから一以上の特徴語を抽出する。 In step S4, the extraction unit 14 extracts characteristic words from the question sentences of the one or more related documents acquired by the search unit 13 in step S3. Specifically, the extraction unit 14 extracts one or more feature words from one or more keywords associated with one or more related documents (that is, the keywords extracted by the preprocessing unit 11 in step S1). .

ステップS5において、提示部15は、抽出部14により抽出された特徴語をユーザに提示する。 In step S5, the presentation unit 15 presents the feature words extracted by the extraction unit 14 to the user.

提示部15によって特徴語がユーザに提示された後、検索支援装置10は以下のように動作してもよい。すなわち、提示部15によってサジェストウィンドウW2に提示された提示キーワード(例えば、「回線契約 ファミリー割引」)がユーザによって選択されると、取得部12が、当該提示キーワードを取得する。そして、検索部13が、質問文及び回答文の両方を検索対象として、当該提示キーワードを用いて、文書DB10aに格納された複数の文書データを検索する。続いて、検索部13は、検索によりヒットした文書データを検索スコア(検索部13が使用する検索アルゴリズムに応じて付与されるスコア)順にソートし、上位N個(Nは予め定められた数)の文書データを検索結果としてユーザに提示する。以上により、ユーザは、所望の文書データを得るための適切な検索キーワード(専門用語等)を知らない場合であっても、検索支援装置10から提供される追加の検索キーワード(特徴語)を用いた検索を実行することにより、所望の文書データを効率良く発見することが可能となる。 After the feature word is presented to the user by the presentation unit 15, the search support device 10 may operate as follows. That is, when the user selects a presentation keyword (for example, "line contract family discount") presented in the suggestion window W2 by the presentation unit 15, the acquisition unit 12 acquires the presentation keyword. Then, the search unit 13 searches for a plurality of document data stored in the document DB 10a using both the question sentence and the answer sentence as search targets and using the presented keywords. Subsequently, the search unit 13 sorts the document data hit by the search in the order of search scores (scores given according to the search algorithm used by the search unit 13), and ranks the top N (N is a predetermined number). document data is presented to the user as a search result. As described above, even if the user does not know the appropriate search keyword (technical term, etc.) for obtaining desired document data, the user can use the additional search keyword (feature word) provided by the search support device 10. It is possible to efficiently find the desired document data by executing the search using the relevant information.

以上説明した検索支援装置10では、検索部13が、文書データの全体(質問文及び回答文)を検索範囲とすることにより、文書データの一部を検索範囲とする場合と比較して、多くの関連文書を検索により取得することができる。一方、抽出部14が特徴語を抽出する際には、文書データの一部(第1文字列情報)を抽出範囲とすることにより、限定された特徴語を抽出することができる。すなわち、関連文書を検索する際にはカバレッジを重視してより多くの関連文書を取得する一方で、特徴語を抽出する際には検索範囲を限定的にすることによって、より精度の高い特徴語をユーザに提示することが可能となる。そして、ユーザは、このような特徴語を新たな検索キーワード(又は追加の検索キーワード)として用いて検索を行うことにより、ユーザが所望する文書データを見つけるための検索処理を効率良く行うことができる。従って、検索支援装置10によれば、複数のパートに分かれた文書の検索効率を向上させることができる。 In the search support device 10 described above, the search unit 13 sets the entire document data (question sentences and answer sentences) as the search range. related documents can be obtained by searching. On the other hand, when the extraction unit 14 extracts feature words, it is possible to extract limited feature words by setting part of the document data (first character string information) as an extraction range. That is, when retrieving related documents, emphasis is placed on coverage and more related documents are acquired, while when extracting feature words, the search range is limited to obtain feature words with higher accuracy. can be presented to the user. By performing a search using such feature words as new search keywords (or additional search keywords), the user can efficiently search for document data desired by the user. . Therefore, according to the search support device 10, it is possible to improve the efficiency of searching a document divided into a plurality of parts.

一般に、質問文と回答文とがペアになった文書においては、回答文よりも質問文の方が短く、コンパクトにまとまっていることが多い。さらに、回答文よりも質問文にユーザが検索したい内容(知りたい内容)に関するキーワード(特徴語)が含まれていることが多い。このような性質を利用して特徴語の抽出範囲を質問文に限定することにより、ユーザが検索したい内容に関する特徴語を精度良く抽出することができる。言い換えれば、回答文を特徴語の抽出範囲から除外することにより、ユーザが検索したい内容とは無関係の特徴語が抽出される可能性を低減できる。 In general, in a document in which a question sentence and an answer sentence are paired, the question sentence is shorter than the answer sentence and is often compactly organized. Furthermore, in many cases, a keyword (characteristic word) related to the content that the user wants to search (content that the user wants to know) is included in the question rather than in the answer. By limiting the extraction range of feature words to question sentences using such properties, feature words related to the content that the user wants to search can be extracted with high accuracy. In other words, by excluding answer sentences from the extraction range of feature words, it is possible to reduce the possibility of extracting feature words unrelated to the content that the user wants to search.

また、検索支援装置10は、前処理部11を備えている。そして、抽出部14は、一以上の関連文書に関連付けられた一以上のキーワード(すなわち、前処理部11により予め抽出されたキーワード)のうちから特徴語を抽出する。前処理部11によって予め上記前処理を実行しておくことにより、抽出部14による特徴語の抽出処理を簡略化することができ、当該抽出処理を高速化することができる。その結果、ユーザに対して高速に特徴語を提示することができる。より具体的には、図2に例示したサジェスト機能等のように、ユーザが検索キーワードを入力している途中の段階で、タイムリーにユーザに追加のキーワード(特徴語)を提示すること等が可能となる。 The search support device 10 also includes a preprocessing unit 11 . Then, the extraction unit 14 extracts feature words from one or more keywords associated with one or more related documents (that is, keywords extracted in advance by the preprocessing unit 11). By executing the preprocessing in advance by the preprocessing unit 11, the feature word extraction processing by the extraction unit 14 can be simplified, and the extraction processing can be speeded up. As a result, feature words can be presented to the user at high speed. More specifically, it is possible to present additional keywords (characteristic words) to the user in a timely manner while the user is entering a search keyword, such as the suggestion function illustrated in FIG. It becomes possible.

また、取得部12は、ユーザが入力途中の検索キーワードを取得し、提示部15は、上記検索キーワードと共に検索に用いる追加の検索キーワードとして、特徴語をユーザに提示する。本実施形態では、取得部12は、検索ウィンドウW1に入力された検索キーワードを、当該検索キーワードによる検索実行を指示する操作がされる前の段階で取得する。そして、提示部15は、サジェストウィンドウW2に、当該検索キーワードと共に用いる追加の検索キーワードとして特徴語を提示する。上記構成によれば、検索精度を向上させるための追加の検索キーワードをユーザにタイムリーに提示するサジェスト機能を提供することができる。 The acquisition unit 12 acquires a search keyword that is being input by the user, and the presentation unit 15 presents the user with a feature word as an additional search keyword used for searching together with the search keyword. In this embodiment, the acquisition unit 12 acquires the search keyword input to the search window W1 before an operation is performed to instruct execution of a search using the search keyword. And the presentation part 15 presents a characteristic word as an additional search keyword used with the said search keyword to the suggestion window W2. According to the above configuration, it is possible to provide a suggestion function of timely presenting additional search keywords to the user for improving search accuracy.

なお、上記実施形態において、前処理部11は省略されてもよい。すなわち、図4に示されるフローチャートにおけるステップS1は省略されてもよい。この場合、ステップS4において、抽出部14は、一以上の関連文書の質問文から特徴語を抽出するための準備処理として、当該一以上の関連文書に対して、上述した前処理部11による前処理に相当する処理を実行すればよい。ただし、上述したように、前処理部11により特徴語の候補であるキーワードを予め抽出しておくことにより、抽出部14の準備処理を省略することができる。その結果、サジェストウィンドウW2に特徴語が提示されるまでの時間を短縮することができ、ユーザの利便性を向上させることができる。 Note that the preprocessing unit 11 may be omitted in the above embodiment. That is, step S1 in the flowchart shown in FIG. 4 may be omitted. In this case, in step S4, the extracting unit 14 performs preprocessing by the preprocessing unit 11 on the one or more related documents as preparatory processing for extracting characteristic words from the question sentences of the one or more related documents. A process corresponding to the process may be executed. However, as described above, the preparatory processing of the extraction unit 14 can be omitted by extracting keywords, which are candidates for feature words, in advance by the preprocessing unit 11 . As a result, the time until the feature word is presented in the suggestion window W2 can be shortened, and the user's convenience can be improved.

また、上記実施形態では、検索対象となる文書データは、質問文と回答文とを含んでいたが、検索支援装置10は、質問文及び回答文以外のペア(第1文字列情報及び第2文字列情報)を含む文書データを検索対象とする場合に適用されてもよい。 In the above-described embodiment, the document data to be searched includes a question sentence and an answer sentence, but the search support device 10 uses pairs other than the question sentence and the answer sentence (the first character string information and the second This may be applied when document data including character string information) is to be searched.

なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。 It should be noted that the block diagrams used in the description of the above embodiments show blocks in units of functions. These functional blocks (components) are implemented by any combination of at least one of hardware and software. Also, the method of realizing each functional block is not particularly limited. That is, each functional block may be implemented using one device physically or logically coupled, or directly or indirectly using two or more physically or logically separated devices (e.g. , wired, wireless, etc.) and may be implemented using these multiple devices. A functional block may be implemented by combining software in the one device or the plurality of devices.

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。 Functions include judging, determining, determining, calculating, calculating, processing, deriving, examining, searching, checking, receiving, transmitting, outputting, accessing, resolving, selecting, choosing, establishing, comparing, assuming, expecting, assuming, Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc. can't

例えば、本開示の一実施の形態における検索支援装置10は、本開示の通信制御方法を行うコンピュータとして機能してもよい。図5は、本開示の一実施の形態に係る検索支援装置10のハードウェア構成の一例を示す図である。上述の検索支援装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。 For example, the search support device 10 according to one embodiment of the present disclosure may function as a computer that performs the communication control method of the present disclosure. FIG. 5 is a diagram showing an example of the hardware configuration of the search support device 10 according to one embodiment of the present disclosure. The search support device 10 described above may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。検索支援装置10のハードウェア構成は、図1に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。 Note that in the following description, the term "apparatus" can be read as a circuit, device, unit, or the like. The hardware configuration of the search support device 10 may be configured to include one or more of the devices shown in FIG. 1, or may be configured without some of the devices.

検索支援装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。 Each function in the search support device 10 is performed by causing the processor 1001 to perform calculations, controlling communication by the communication device 1004, and controlling the It is realized by controlling at least one of data reading and writing in 1002 and storage 1003 .

プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。 The processor 1001, for example, operates an operating system to control the entire computer. The processor 1001 may be configured by a central processing unit (CPU) including an interface with peripheral devices, a control device, an arithmetic device, registers, and the like.

また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、抽出部14は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。 The processor 1001 also reads programs (program codes), software modules, data, etc. from at least one of the storage 1003 and the communication device 1004 to the memory 1002, and executes various processes according to these. As the program, a program that causes a computer to execute at least part of the operations described in the above embodiments is used. For example, the extraction unit 14 may be implemented by a control program stored in the memory 1002 and running on the processor 1001, and other functional blocks may be implemented in the same way. Although it has been explained that the above-described various processes are executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001. FIG. Processor 1001 may be implemented by one or more chips. Note that the program may be transmitted from a network via an electric communication line.

メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る通信制御方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。 The memory 1002 is a computer-readable recording medium, and is composed of at least one of, for example, ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), and RAM (Random Access Memory). may be The memory 1002 may also be called a register, cache, main memory (main storage device), or the like. The memory 1002 can store executable programs (program codes), software modules, etc. for implementing a communication control method according to an embodiment of the present disclosure.

ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。 The storage 1003 is a computer-readable recording medium, for example, an optical disc such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disc, a magneto-optical disc (for example, a compact disc, a digital versatile disc, a Blu-ray disk), smart card, flash memory (eg, card, stick, key drive), floppy disk, magnetic strip, and/or the like. Storage 1003 may also be called an auxiliary storage device. The storage medium described above may be, for example, a database, server, or other suitable medium including at least one of memory 1002 and storage 1003 .

通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。 The communication device 1004 is hardware (transmitting/receiving device) for communicating between computers via at least one of a wired network and a wireless network, and is also called a network device, a network controller, a network card, a communication module, or the like.

入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。 The input device 1005 is an input device (for example, keyboard, mouse, microphone, switch, button, sensor, etc.) that receives input from the outside. The output device 1006 is an output device (eg, display, speaker, LED lamp, etc.) that outputs to the outside. Note that the input device 1005 and the output device 1006 may be integrated (for example, a touch panel).

また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。 Devices such as the processor 1001 and the memory 1002 are connected by a bus 1007 for communicating information. The bus 1007 may be configured using a single bus, or may be configured using different buses between devices.

また、検索支援装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。 Further, the search support device 10 includes hardware such as a microprocessor, a digital signal processor (DSP), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). , and part or all of each functional block may be implemented by the hardware. For example, processor 1001 may be implemented using at least one of these pieces of hardware.

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。 Although the present embodiments have been described in detail above, it will be apparent to those skilled in the art that the present embodiments are not limited to the embodiments described herein. This embodiment can be implemented as modifications and changes without departing from the spirit and scope of the present invention defined by the description of the claims. Therefore, the description in this specification is for the purpose of illustration and explanation, and does not have any restrictive meaning with respect to the present embodiment.

本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。 The processing procedures, sequences, flowcharts, etc. of each aspect/embodiment described in this disclosure may be rearranged as long as there is no contradiction. For example, the methods described in this disclosure present elements of the various steps using a sample order, and are not limited to the specific order presented.

入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 Input/output information and the like may be stored in a specific location (for example, memory), or may be managed using a management table. Input/output information and the like can be overwritten, updated, or appended. The output information and the like may be deleted. The entered information and the like may be transmitted to another device.

判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 The determination may be made by a value represented by one bit (0 or 1), by a true/false value (Boolean: true or false), or by numerical comparison (for example, a predetermined value).

本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。 Each aspect/embodiment described in the present disclosure may be used alone, may be used in combination, or may be used by switching according to execution. In addition, the notification of predetermined information (for example, notification of “being X”) is not limited to being performed explicitly, but may be performed implicitly (for example, not notifying the predetermined information). good too.

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。 Software, whether referred to as software, firmware, middleware, microcode, hardware description language or otherwise, includes instructions, instruction sets, code, code segments, program code, programs, subprograms, and software modules. , applications, software applications, software packages, routines, subroutines, objects, executables, threads of execution, procedures, functions, and the like.

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。 Software, instructions, information, etc. may also be sent and received over a transmission medium. For example, the software uses wired technology (coaxial cable, fiber optic cable, twisted pair, Digital Subscriber Line (DSL), etc.) and/or wireless technology (infrared, microwave, etc.) to create websites, Wired and/or wireless technologies are included within the definition of transmission medium when sent from a server or other remote source.

本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。 Information, signals, etc. described in this disclosure may be represented using any of a variety of different technologies. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description may refer to voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. may be represented by a combination of

また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。 In addition, the information, parameters, etc. described in the present disclosure may be expressed using absolute values, may be expressed using relative values from a predetermined value, or may be expressed using other corresponding information. may be represented.

上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々な情報要素は、あらゆる好適な名称によって識別できるので、これらの様々な情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。 The names used for the parameters described above are not limiting names in any way. Further, the formulas, etc., using these parameters may differ from those expressly disclosed in this disclosure. The various names assigned to these various information elements are not limiting names in any way, as the various information elements can be identified by any suitable name.

本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 As used in this disclosure, the phrase "based on" does not mean "based only on," unless expressly specified otherwise. In other words, the phrase "based on" means both "based only on" and "based at least on."

本開示において使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみが採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 Any reference to elements using the "first," "second," etc. designations used in this disclosure does not generally limit the quantity or order of those elements. These designations may be used in this disclosure as a convenient method of distinguishing between two or more elements. Thus, reference to a first and second element does not imply that only two elements can be employed or that the first element must precede the second element in any way.

本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。 Where "include," "including," and variations thereof are used in this disclosure, these terms are inclusive, as is the term "comprising." is intended. Furthermore, the term "or" as used in this disclosure is not intended to be an exclusive OR.

本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。 In this disclosure, where articles have been added by translation, such as a, an, and the in English, the disclosure may include the plural nouns following these articles.

本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。 In the present disclosure, the term "A and B are different" may mean "A and B are different from each other." The term may also mean that "A and B are different from C". Terms such as "separate," "coupled," etc. may also be interpreted in the same manner as "different."

10…検索支援装置、10a…文書DB、11…前処理部、12…取得部、13…検索部、14…抽出部、15…提示部。 DESCRIPTION OF SYMBOLS 10... Search assistance apparatus, 10a... Document DB, 11... Pre-processing part, 12... Acquisition part, 13... Search part, 14... Extraction part, 15... Presentation part.

Claims (3)

互いに関連付けられた第1文字列情報と第2文字列情報とをそれぞれ含む複数の文書データの検索を支援する検索支援装置であって、
ユーザにより入力された検索キーワードを取得する取得部と、
前記第1文字列情報及び前記第2文字列情報の両方を検索対象として、前記検索キーワードを用いて前記複数の文書データを検索することにより、前記検索キーワードに関連する前記文書データである一以上の関連文書を取得する検索部と、
前記一以上の関連文書の前記第1文字列情報から、前記一以上の関連文書を特徴付ける特徴語を抽出する抽出部と、
前記抽出部により抽出された前記特徴語を前記ユーザに提示する提示部と、
を備え
前記第1文字列情報は、質問文を示す情報であり、
前記第2文字列情報は、前記質問文に対する回答文を示す情報である、検索支援装置。
A search support device for supporting search of a plurality of document data each including first character string information and second character string information associated with each other,
an acquisition unit that acquires a search keyword input by a user;
One or more of the document data related to the search keyword by searching the plurality of document data using the search keyword with both the first character string information and the second character string information as search targets a search unit for acquiring documents related to
an extraction unit that extracts characteristic words that characterize the one or more related documents from the first character string information of the one or more related documents;
a presentation unit that presents the feature word extracted by the extraction unit to the user;
with
The first character string information is information indicating a question sentence,
The search support device , wherein the second character string information is information indicating an answer sentence to the question sentence .
前記複数の文書データの各々について、前記文書データの前記第1文字列情報に含まれる、一以上の単語からなる一以上のキーワードを抽出し、抽出された前記一以上のキーワードを前記文書データに関連付ける前処理を実行する前処理部を更に備え、
前記抽出部は、前記一以上の関連文書に関連付けられた前記一以上のキーワードのうちから前記特徴語を抽出する、請求項1に記載の検索支援装置。
for each of the plurality of document data, extracting one or more keywords consisting of one or more words included in the first character string information of the document data, and applying the extracted one or more keywords to the document data; further comprising a preprocessing unit that executes preprocessing to associate,
2. The search support device according to claim 1 , wherein said extraction unit extracts said characteristic word from said one or more keywords associated with said one or more related documents.
前記取得部は、前記ユーザが入力途中の前記検索キーワードを取得し、
前記提示部は、前記検索キーワードと共に検索に用いる追加の検索キーワードとして、前記特徴語を前記ユーザに提示する、請求項1又は2に記載の検索支援装置。
The acquisition unit acquires the search keyword being input by the user,
3. The search support device according to claim 1 , wherein said presenting unit presents said characteristic word to said user as an additional search keyword used for searching together with said search keyword.
JP2019229225A 2019-12-19 2019-12-19 Search support device Active JP7339148B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019229225A JP7339148B2 (en) 2019-12-19 2019-12-19 Search support device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019229225A JP7339148B2 (en) 2019-12-19 2019-12-19 Search support device

Publications (2)

Publication Number Publication Date
JP2021096761A JP2021096761A (en) 2021-06-24
JP7339148B2 true JP7339148B2 (en) 2023-09-05

Family

ID=76431506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019229225A Active JP7339148B2 (en) 2019-12-19 2019-12-19 Search support device

Country Status (1)

Country Link
JP (1) JP7339148B2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107793A (en) 2003-09-30 2005-04-21 Sony Corp Keyword extracting device, keyword extracting method and computer program
JP2009009461A (en) 2007-06-29 2009-01-15 Fujifilm Corp Keyword inputting-supporting system, content-retrieving system, content-registering system, content retrieving and registering system, methods thereof, and program
WO2015132970A1 (en) 2014-03-07 2015-09-11 楽天株式会社 Search device, search method, program, and storage medium
JP2016024765A (en) 2014-07-24 2016-02-08 ソフトバンク株式会社 Information retrieval device and information retrieval program
JP2016192067A (en) 2015-03-31 2016-11-10 株式会社日立ソリューションズ Searcher device
JP2019008367A (en) 2017-06-20 2019-01-17 日本電信電話株式会社 Question word weight calculation apparatus, question answer retrieval apparatus, question word weight calculation method, question answer retrieval method, program and record medium
JP2019082860A (en) 2017-10-30 2019-05-30 富士通株式会社 Generation program, generation method and generation device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232877A (en) * 1997-02-18 1998-09-02 Dainippon Printing Co Ltd Collation device for character string and data base system
JP3558854B2 (en) * 1998-02-18 2004-08-25 シャープ株式会社 Data retrieval device and computer-readable recording medium

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107793A (en) 2003-09-30 2005-04-21 Sony Corp Keyword extracting device, keyword extracting method and computer program
JP2009009461A (en) 2007-06-29 2009-01-15 Fujifilm Corp Keyword inputting-supporting system, content-retrieving system, content-registering system, content retrieving and registering system, methods thereof, and program
WO2015132970A1 (en) 2014-03-07 2015-09-11 楽天株式会社 Search device, search method, program, and storage medium
JP2016024765A (en) 2014-07-24 2016-02-08 ソフトバンク株式会社 Information retrieval device and information retrieval program
JP2016192067A (en) 2015-03-31 2016-11-10 株式会社日立ソリューションズ Searcher device
JP2019008367A (en) 2017-06-20 2019-01-17 日本電信電話株式会社 Question word weight calculation apparatus, question answer retrieval apparatus, question word weight calculation method, question answer retrieval method, program and record medium
JP2019082860A (en) 2017-10-30 2019-05-30 富士通株式会社 Generation program, generation method and generation device

Also Published As

Publication number Publication date
JP2021096761A (en) 2021-06-24

Similar Documents

Publication Publication Date Title
JP6095621B2 (en) Mechanism, method, computer program, and apparatus for identifying and displaying relationships between answer candidates
US20220083874A1 (en) Method and device for training search model, method for searching for target object, and storage medium
US9519703B2 (en) Refining search results for a compound search query
US20080077397A1 (en) Dictionary creation support system, method and program
JP2020017272A (en) Method, apparatus, server, and storage medium for picture retrieval
JP2020135891A (en) Methods, apparatus, devices and media for providing search suggestions
CN109710834B (en) Similar webpage detection method and device, storage medium and electronic equipment
CN109800427B (en) Word segmentation method, device, terminal and computer readable storage medium
US20180246896A1 (en) Corpus Specific Generative Query Completion Assistant
JP2006178599A (en) Document retrieval device and method
JP7339148B2 (en) Search support device
WO2020039808A1 (en) Machine translation control device
CN113672154B (en) Page interaction method, medium, device and computing equipment
JP7477359B2 (en) Writing device
JP7216199B2 (en) dialogue system
JP7320058B2 (en) dialogue system
JP7412575B2 (en) information processing equipment
JP2001005830A (en) Information processor, its method and computer readable memory
JP7490670B2 (en) Search Device
KR101761175B1 (en) Method of mining a frequent pattern, apparatus performing the same and storage medium storing a program performing the same
JP6976447B2 (en) Machine translation controller
US20180052819A1 (en) Predicting terms by using model chunks
JP2019139577A (en) Data retrieval method, data retrieval apparatus, and program
JP2018194903A (en) Retrieval system, terminal apparatus, information processing apparatus, retrieval method and program
CN113407815B (en) Method and device for generating scene theme

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230824

R150 Certificate of patent or registration of utility model

Ref document number: 7339148

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150