JP2021157220A - Natural language processing device and program - Google Patents

Natural language processing device and program Download PDF

Info

Publication number
JP2021157220A
JP2021157220A JP2020053959A JP2020053959A JP2021157220A JP 2021157220 A JP2021157220 A JP 2021157220A JP 2020053959 A JP2020053959 A JP 2020053959A JP 2020053959 A JP2020053959 A JP 2020053959A JP 2021157220 A JP2021157220 A JP 2021157220A
Authority
JP
Japan
Prior art keywords
vector
word
industry
company
search query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020053959A
Other languages
Japanese (ja)
Inventor
純一郎 牧
Junichiro Maki
純一郎 牧
敏 飛田
Satoshi Hida
敏 飛田
修一 渡邉
Shuichi Watanabe
修一 渡邉
洋祐 堀
Yosuke Hori
洋祐 堀
淳 永島
Atsushi Nagashima
淳 永島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2020053959A priority Critical patent/JP2021157220A/en
Publication of JP2021157220A publication Critical patent/JP2021157220A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a natural language processing device and a program which compensate insufficient comprehensiveness in keyword retrieval.SOLUTION: In a retrieval system, a natural language processing device (server 100) includes: a first accepting unit (retrieval query receiving unit 172) which accepts a retrieval query for a data base which manages a plurality of sentences associated with classification words; and a retrieval unit 162 which retrieves a sentence which matches a condition of the retrieval query or a condition of the classification words of a dispersed vector similar to the dispersed vector of the retrieval query.SELECTED DRAWING: Figure 18

Description

本発明は、テキストデータの検索技術に関する。 The present invention relates to a text data retrieval technique.

さまざまな分野における情報収集の方法において、検索クエリとしてキーワードを入力してデータベースを検索することが広く行われている。一般的にキーワードはユーザの判断に基づいて選定されるため、ユーザのセンスによって設定される検索クエリは異なる。また、同義語や類義語が多くある場合、いずれの語を用いるかによって検索結果は異なってくる。 In the method of collecting information in various fields, it is widely practiced to search a database by inputting a keyword as a search query. Generally, keywords are selected based on the user's judgment, so the search query set according to the user's sense is different. Also, if there are many synonyms or synonyms, the search results will differ depending on which word is used.

特開2002−297636号公報JP-A-2002-297636

従来のキーワード検索で、目的に合ったテキストを抽出しようとする場合、人的要因に依存するため不確実な面がある。つまり、目的に合ったテキストを取り漏らしてしまうという網羅性不足の問題がある。 When trying to extract text that suits the purpose with conventional keyword search, there is an uncertain aspect because it depends on human factors. In other words, there is a problem of lack of completeness that the text suitable for the purpose is omitted.

本発明は、上記課題認識に基づいて完成された発明であり、その主たる目的は、キーワード検索における網羅性の不足を補うことである。 The present invention is an invention completed based on the above-mentioned problem recognition, and its main purpose is to make up for the lack of completeness in keyword search.

本発明のある態様における自然言語処理装置は、分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、検索クエリを受け付ける第1受付部と、検索クエリの条件、または検索クエリの分散ベクトルと類似する分散ベクトルの分類語の条件に適合するセンテンスを検索する検索部と、を備えることを特徴とする。 The natural language processing device in a certain aspect of the present invention is similar to the first reception unit that accepts a search query and the condition of the search query or the distribution vector of the search query with respect to the database that manages a plurality of sentences associated with the classification words. It is characterized by including a search unit for searching a sentence that matches the condition of the classification word of the dispersion vector to be used.

本発明によれば、キーワード検索における網羅性の不足を補うことができる。 According to the present invention, it is possible to make up for the lack of completeness in keyword search.

本実施形態の検索システムにおけるネットワーク構成図である。It is a network configuration diagram in the search system of this embodiment. 企業テーブルのデータ構造図である。It is a data structure diagram of a company table. 事業特性ワードテーブルのデータ構造図である。It is a data structure diagram of the business characteristic word table. 業種テーブルのデータ構造図である。It is a data structure diagram of the industry table. 単語テーブルのデータ構成図である。It is a data structure diagram of a word table. 企業ベクトル記憶部のデータ構成図である。It is a data structure diagram of a company vector storage part. 事業特性ワードベクトル記憶部のデータ構成図である。It is a data structure diagram of the business characteristic word vector storage part. 業種ベクトル記憶部のデータ構成図である。It is a data composition diagram of the industry vector storage unit. 検索クエリの受付画面図である。It is a reception screen figure of a search query. 検索結果画面に含まれる企業情報ボックスの図である。It is a figure of the company information box included in the search result screen. 検索クエリの受付画面図である。It is a reception screen figure of a search query. 検索クエリの受付画面図である。It is a reception screen figure of a search query. 類似語リストのデータ構成図である。It is a data structure diagram of a similar word list. 事業特性ワードリストのデータ構成図である。It is a data structure diagram of the business characteristic word list. 業種リストのデータ構成図である。It is a data composition diagram of the industry list. 検索結果画面に含まれる企業情報ボックスの図である。It is a figure of the company information box included in the search result screen. 検索結果画面に含まれる企業情報ボックスの図である。It is a figure of the company information box included in the search result screen. サーバの機能ブロック図である。It is a functional block diagram of a server. データ格納部の機能ブロック図である。It is a functional block diagram of a data storage part. 準備フェーズ処理の過程を示すフローチャート図である。It is a flowchart which shows the process of the preparation phase processing. 分散表現モデル生成処理の過程を示すフローチャート図である。It is a flowchart which shows the process of the distributed representation model generation processing. 企業ベクトル算出処理の過程を示すフローチャート図である。It is a flowchart which shows the process of a company vector calculation process. 事業特性ワードベクトル算出処理の過程を示すフローチャート図である。It is a flowchart which shows the process of business characteristic word vector calculation processing. 業種ベクトル算出処理の過程を示すフローチャート図である。It is a flowchart which shows the process of the industry vector calculation process. 利用フェーズ処理の過程を示すフローチャート図である。It is a flowchart which shows the process of the utilization phase processing. リスト生成処理の過程を示すフローチャート図である。It is a flowchart which shows the process of a list generation process. 画面生成処理の過程を示すフローチャート図である。It is a flowchart which shows the process of a screen generation process. 検索結果画面に含まれる企業情報ボックスの図である。It is a figure of the company information box included in the search result screen.

図1は、本実施形態における検索システムネットワーク構成図である。
本実施形態における検索システムは、サーバ100とユーザ端末200を含む。ユーザ端末200は、ネットワーク(たとえば、インターネット、LANや専用線など)を介してサーバ100と接続する。サーバ100は企業データベース120を有している。
FIG. 1 is a search system network configuration diagram according to the present embodiment.
The search system in this embodiment includes a server 100 and a user terminal 200. The user terminal 200 connects to the server 100 via a network (for example, the Internet, a LAN, a dedicated line, etc.). The server 100 has a corporate database 120.

ユーザが企業データベース120で管理されている企業情報を検索する場合、ユーザ端末200においてユーザ操作によって検索クエリが入力され、その検索クエリがサーバ100へ送られる。そして、検索クエリに基づいて抽出された企業情報がユーザ端末200へ返され、ユーザ端末200に表示される。 When a user searches for company information managed in the company database 120, a search query is input by a user operation on the user terminal 200, and the search query is sent to the server 100. Then, the company information extracted based on the search query is returned to the user terminal 200 and displayed on the user terminal 200.

本実施形態では、分散表現モデルを使って検索機能を高める。分散表現モデルでは、単語を高い次元の実数ベクトルで表す。分散表現モデルは、自然言語の文章を構造化し大規模に集積したコーパスとよばれるデータベースに基づく学習処理によって得られる。この技術は、自然言語処理の分野においてよく知られている。分散表現モデルとして得られる単語の実数ベクトルを、分散ベクトルあるいは単語ベクトルということがある。以下では、単語ベクトルという。 In this embodiment, the search function is enhanced by using the distributed representation model. In the distributed representation model, words are represented by high-dimensional real vectors. The distributed representation model is obtained by learning processing based on a database called a corpus, which is a large-scale collection of structured natural language sentences. This technique is well known in the field of natural language processing. The real number vector of a word obtained as a distributed representation model is sometimes called a distributed vector or a word vector. In the following, it is called a word vector.

代表的な例としてWord2vecが知られている。Word2vecでは、「近傍に出現する単語が似ている単語同士は意味的に近い」という前提に立ち、文において対象単語の近傍(たとえば前後5単語あるいは前後10単語)に出現する別の単語を探索するという問題を解く。ここでいう前後5単語とは、対象単語の5個前の単語から1個前までの単語と対象単語の1個後の単語から5個後までの単語の計10の単語の範囲のことである。学習手段としては、ニューラルネットワークが用いられる。大きなコーパスを用いた学習の過程で、近傍に出現する単語が似ている単語同士の単語ベクトルは、似た値を示すように変化する。 Word2vec is known as a typical example. In Word2vec, based on the premise that "words that appear in the vicinity are similar to each other are semantically close", search for another word that appears in the vicinity of the target word (for example, 5 words before and after or 10 words before and after) in the sentence. Solve the problem of doing. The five words before and after here are the range of a total of 10 words, from the word 5 before the target word to the word before 1 and the word after 1 to 5 after the target word. be. A neural network is used as the learning means. In the process of learning using a large corpus, the word vectors of words that appear in the vicinity and have similar words change to show similar values.

分散表現モデルでは、単語ベクトルによって単語同士の類似関係を示すだけでなく、センテンスの類似関係も示すことができる。複数の単語を含むセンテンスにおいて、これらの単語の単語ベクトルからそのセンテンスの文ベクトルを生成することが行われている。あるセンテンスの文ベクトルと別のセンテンスの文ベクトルが近似する場合、これらのセンテンスは内容が近しいことを示している。この例で、分散表現モデルは、分散表現モデル記憶部130に格納されている。 In the distributed representation model, not only the similarity between words can be shown by the word vector, but also the similarity of sentences can be shown. In a sentence containing a plurality of words, a sentence vector of the sentence is generated from the word vector of these words. When the sentence vector of one sentence is similar to the sentence vector of another sentence, these sentences indicate that the contents are close to each other. In this example, the distributed representation model is stored in the distributed representation model storage unit 130.

本実施形態では、企業情報の事業内容センテンスに付随するタグのタグベクトルに基づいて検索クエリと関連が強いタグを選びだす。そして、検索クエリを補足する条件としてタグを表す文字列を用いる。 In the present embodiment, a tag strongly related to the search query is selected based on the tag vector of the tag attached to the business content sentence of the company information. Then, a character string representing the tag is used as a condition for supplementing the search query.

大まかな手順としては、準備フェーズと利用フェーズに分かれる。準備フェーズでは、従来技術を用いて企業データベース120に基づく分散表現モデルを生成する。つまり、企業データベース120にある単語の単語ベクトルを生成する。次に、企業データベース120で用いられているタグについてタグベクトルを生成して、分散表現モデルに加える。これにより、分散表現モデルをタグの表現にまで拡張する。 The general procedure is divided into a preparation phase and a usage phase. In the preparatory phase, a distributed representation model based on the enterprise database 120 is generated using the prior art. That is, the word vector of the word in the company database 120 is generated. Next, a tag vector is generated for the tag used in the enterprise database 120 and added to the distributed representation model. This extends the distributed representation model to tag representation.

利用フェーズでは、具体的な検索クエリを受け付けて、分散表現モデルを参照して検索クエリに関連するタグを選び出す。そして、そのタグの文字表現を検索条件として活用する。このとき、タグの文字表現を関連語句として選び出して、関連語句記憶部140に記憶させる。具体的処理については、以下で詳述する。 In the usage phase, a specific search query is accepted and the tags related to the search query are selected by referring to the distributed representation model. Then, the character expression of the tag is used as a search condition. At this time, the character expression of the tag is selected as the related phrase and is stored in the related phrase storage unit 140. The specific processing will be described in detail below.

図2は、企業テーブルのデータ構造図である。
企業テーブルは、企業データベース120において管理される。企業テーブルは、企業毎のレコードを有する。企業テーブルのレコードには、企業ID、企業名、事業内容センテンス、事業特性ワードID、主業種IDおよび副業種IDなどが設定されている。事業内容センテンスのフィールドには、一文のみが設定されてもよいし、複数の文が設定されてもよい。事業特性ワードと業種がタグに相当する。この例では、一つの企業につき、2つまで業種のタグを設定できるようになっている。業種のタグを1つしか設定しない場合には、主業種の方を使用する。企業テーブルは、準備フェーズの前に用意される。
FIG. 2 is a data structure diagram of the company table.
The company table is managed in the company database 120. The company table has a record for each company. In the record of the company table, a company ID, a company name, a business content sentence, a business characteristic word ID, a main industry ID, a sub-industry ID, and the like are set. Only one sentence may be set in the field of the business content sentence, or a plurality of sentences may be set. Business characteristics Words and industries correspond to tags. In this example, up to two industry tags can be set for one company. If only one industry tag is set, the main industry is used. The company table is prepared before the preparation phase.

図3は、事業特性ワードテーブルのデータ構造図である。
事業特性ワードテーブルは、企業データベース120において管理される。事業特性ワードテーブルは、事業特性ワード毎のレコードを有する。事業特性ワードテーブルのレコードには、事業特性ワードIDおよび事業特性ワードが設定される。事業特性ワードテーブルは、準備フェーズの前に用意される。
FIG. 3 is a data structure diagram of the business characteristic word table.
The business characteristic word table is managed in the company database 120. The business characteristic word table has a record for each business characteristic word. A business characteristic word ID and a business characteristic word are set in the record of the business characteristic word table. The business characteristic word table is prepared before the preparation phase.

図4は、業種テーブルのデータ構造図である。
業種テーブルは、企業データベース120において管理される。業種テーブルは、業種毎のレコードを有する。業種テーブルのレコードには、業種IDおよび業種名が設定される。業種テーブルは、準備フェーズの前に用意される。
FIG. 4 is a data structure diagram of the industry table.
The industry table is managed in the company database 120. The industry table has records for each industry. An industry ID and an industry name are set in the record of the industry table. The industry table is prepared before the preparation phase.

図5は、単語テーブルのデータ構成図である。
単語テーブルは、分散表現モデルに含まれる。単語テーブルは、単語毎のレコードを有する。単語テーブルのレコードには、単語および単語ベクトルが設定される。単語テーブルは、準備フェーズにおいて生成される。
FIG. 5 is a data structure diagram of a word table.
The word table is included in the distributed representation model. The word table has a record for each word. Words and word vectors are set in the records of the word table. The word table is generated during the preparation phase.

図6は、企業ベクトル記憶部のデータ構成図である。
企業ベクトルとは、企業の事業内容センテンス全体の分散表現ベクトルに相当する。企業ベクトルは、事業内容センテンスに含まれる単語の単語ベクトルから生成される。企業ベクトル記憶部は、分散表現モデル格納部130に含まれる。企業ベクトルは、準備フェーズにおいて算出される。企業ベクトルは、事業特性ワードベクトルおよび業種ベクトルの算出の基礎になる。
FIG. 6 is a data structure diagram of the company vector storage unit.
The company vector corresponds to the distributed representation vector of the entire business content sentence of the company. The company vector is generated from the word vector of the words contained in the business content sentence. The company vector storage unit is included in the distributed representation model storage unit 130. The enterprise vector is calculated in the preparatory phase. The company vector is the basis for calculating the business characteristic word vector and the industry vector.

図7は、事業特性ワードベクトル記憶部のデータ構成図である。
事業特性ワードベクトルは、事業特性ワードの実践的な意義を示す。事業特性ワードベクトルは、事業特性ワードが設定された企業の企業ベクトルから生成されるものであって、事業特性ワードに相当する単語(たとえば、「地域」)の単語ベクトルとは異なる。事業特性ワードが実際にどのような企業に設定されやすいかによってその意義が決まるという運用上の特性が、事業特性ワードベクトルによって数値化される。事業特性ワードベクトルは、準備フェーズにおいて算出される。
FIG. 7 is a data structure diagram of the business characteristic word vector storage unit.
The business characteristic word vector shows the practical meaning of the business characteristic word. The business characteristic word vector is generated from the company vector of the company in which the business characteristic word is set, and is different from the word vector of the word corresponding to the business characteristic word (for example, "region"). The operational characteristic that the meaning is determined by what kind of company the business characteristic word is actually likely to be set in is quantified by the business characteristic word vector. The business characteristic word vector is calculated in the preparatory phase.

事業特性ワードベクトル記憶部は、事業特性ワードIDと事業特性ワードベクトルを対応付けて記憶する。事業特性ワードベクトル記憶部は、分散表現モデル格納部130に含まれる。事業特性ワードIDは、タグIDの例であり、事業特性ワードベクトルは、タグベクトルの例である。 The business characteristic word vector storage unit stores the business characteristic word ID and the business characteristic word vector in association with each other. The business characteristic word vector storage unit is included in the distributed representation model storage unit 130. The business characteristic word ID is an example of a tag ID, and the business characteristic word vector is an example of a tag vector.

図8は、業種ベクトル記憶部のデータ構成図である。
業種ベクトルは、業種タグの実践的な意義を示す。業種ベクトルは、業種タグが設定された企業の企業ベクトルから生成されるものであって、業種名に相当する句(たとえば、「自動車販売業」)の意味ベクトルとは異なる。業種タグが実際にどのような企業に設定されやすいかによってその意義が決まるという運用上の特性が、業種ベクトルによって数値化される。業種ベクトルは、準備フェーズにおいて算出される。
FIG. 8 is a data structure diagram of the industry vector storage unit.
The industry vector shows the practical significance of the industry tag. The industry vector is generated from the company vector of the company to which the industry tag is set, and is different from the meaning vector of the phrase corresponding to the industry name (for example, "automobile sales business"). The operational characteristic that the meaning is determined by what kind of company the industry tag is actually likely to be set to is quantified by the industry vector. The industry vector is calculated in the preparatory phase.

業種ベクトル記憶部は、業種IDと業種ベクトルを対応付けて記憶する。業種ベクトル記憶部は、分散表現モデル格納部130に含まれる。業種IDは、タグIDの例であり、業種ベクトルは、タグベクトルの例である。 The industry vector storage unit stores the industry ID and the industry vector in association with each other. The industry vector storage unit is included in the distributed representation model storage unit 130. The industry ID is an example of a tag ID, and the industry vector is an example of a tag vector.

図9は、検索クエリの受付画面図である。
検索クエリの受付画面は、サーバ100で生成され、ユーザ端末200において表示される。この受付画面は、検索クエリの入力領域300の他、スライダー302と、類似語の表示領域304と、事業特性ワードの表示領域306と、業種の表示領域308とを含む。
FIG. 9 is a screen view of a search query reception screen.
The search query reception screen is generated by the server 100 and displayed on the user terminal 200. In addition to the search query input area 300, this reception screen includes a slider 302, a display area 304 for similar words, a display area 306 for business characteristic words, and a display area 308 for the type of business.

類似語の表示領域304には、検索クエリとして入力された語句との類似度が基準値以上である類似語が表示される。類似語は、事業内容センテンスに含まれるすべての単語の中から選ばれる。この基準値を第1基準値という。事業特性ワードの表示領域306には、検索クエリとして入力された語句との類似度が基準値以上である事業特性ワードが表示される。この基準値を第2基準値という。事業特性ワードは、予め設定されている。その中から類似するものが選ばれる。業種の表示領域308には、検索クエリとして入力された語句との類似度が基準値以上である業種が表示される。この基準値を第3基準値という。業種も、予め設定されている。その中から類似するものが選ばれる。 In the similar word display area 304, similar words whose degree of similarity to the phrase input as the search query is equal to or higher than the reference value are displayed. Similar words are selected from all the words contained in the business content sentence. This reference value is called the first reference value. In the display area 306 of the business characteristic word, the business characteristic word whose similarity with the word / phrase input as the search query is equal to or higher than the reference value is displayed. This reference value is called the second reference value. The business characteristic word is set in advance. Similar ones are selected from them. In the industry display area 308, the industry whose similarity with the word / phrase input as the search query is equal to or higher than the reference value is displayed. This reference value is called the third reference value. The type of business is also set in advance. Similar ones are selected from them.

スライダー302が示すスライダー値は、第1基準値、第2基準値および第3基準値を示す。この例では、スライダー値が最大値であり、第1基準値、第2基準値および第3基準値も最大値である。「自動車」との類似度が第1基準値以上の類似語、同じく第2基準値以上の事業特性ワードおよび同じく第3基準値以上の業種が存在せず、いずれも表示されない。この場合には、入力領域300に入力された検索クエリで検索が行われる。 The slider value indicated by the slider 302 indicates a first reference value, a second reference value, and a third reference value. In this example, the slider value is the maximum value, and the first reference value, the second reference value, and the third reference value are also the maximum values. There are no similar words whose degree of similarity to "automobile" is equal to or higher than the first reference value, business characteristic words having the same degree of similarity to the second reference value or higher, and industries having the same degree of similarity to the third reference value or higher, and none of them is displayed. In this case, the search is performed by the search query input in the input area 300.

図10は、検索結果画面に含まれる企業情報ボックスの図である。
図9の状態における検索結果として表示される企業情報ボックスを示している。事業内容センテンス、事業特性ワード名、主業種名および副業種名のテキストの中に、「自動車」を含む企業情報が企業データベース120から抽出される。抽出された企業情報に含まれる企業名が表示領域322に表示される。同じく事業内容センテンスが表示領域324に表示される。同じく事業特性ワードが表示領域326に表示される。同じく主業種が表示領域328に表示される。同じく副業種が表示領域330に表示される。この例以外にも「自動車」を含む企業情報があれば、検索結果画面においてボックス一覧として表示される。なお、検索結果画面は、検索クエリの受付画面の下方にならんで表示される。検索クエリが入力されると、自動的に検索が行われて検索結果画面が表示される。
FIG. 10 is a diagram of a company information box included in the search result screen.
The company information box displayed as the search result in the state of FIG. 9 is shown. Company information including "automobile" is extracted from the company database 120 in the texts of the business content sentence, the business characteristic word name, the main industry name, and the sub-industry name. The company name included in the extracted company information is displayed in the display area 322. Similarly, the business content sentence is displayed in the display area 324. Similarly, the business characteristic word is displayed in the display area 326. Similarly, the main industry is displayed in the display area 328. Similarly, the sub-industry is displayed in the display area 330. If there is company information including "automobile" other than this example, it will be displayed as a box list on the search result screen. The search result screen is displayed side by side at the bottom of the search query reception screen. When a search query is entered, the search is automatically performed and the search result screen is displayed.

図11は、スライダー値を小さくしたときの検索クエリの受付画面図である。
ユーザがスライダー302を操作して、スライダー値を小さくすると、第1基準値、第2基準値および第3基準値が小さくなり、条件を満たす類似語、事業特性ワードおよび業種が現れる。
FIG. 11 is a screen view of a search query reception screen when the slider value is reduced.
When the user operates the slider 302 to reduce the slider value, the first reference value, the second reference value, and the third reference value become smaller, and similar words, business characteristic words, and industries that satisfy the conditions appear.

たとえば、「自動車」の単語ベクトルと「バイク」の単語ベクトルとの類似度が、このときのスライダー値が示す第1基準値以上である。「バイク」の単語ベクトルと「中古」の事業特性ワードベクトルの類似度が、このときのスライダー値が示す第2基準値以上である。さらに、「バイク」の単語ベクトルと「自動車販売業」の業種ベクトルの類似度が、このときのスライダー値が示す第3基準値以上である。 For example, the degree of similarity between the word vector of "automobile" and the word vector of "motorcycle" is equal to or higher than the first reference value indicated by the slider value at this time. The similarity between the word vector of "motorcycle" and the business characteristic word vector of "used" is equal to or higher than the second reference value indicated by the slider value at this time. Further, the similarity between the word vector of "motorcycle" and the industry vector of "automobile sales business" is equal to or higher than the third reference value indicated by the slider value at this time.

ここで出現した類似語、事業特性ワードおよび業種名は、企業情報の検索におけるOR条件として付加される。「バイク」、「中古」あるいは「自動車販売業」などを、事業内容センテンス、事業特性ワード名、主業種名および副業種名のテキストの中に含む企業情報が企業データベース120から抽出される。 Similar words, business characteristic words, and industry names that appear here are added as OR conditions in the search for company information. Company information including "motorcycle", "used", "automobile sales business", etc. in the text of the business content sentence, the business characteristic word name, the main industry name, and the sub-industry name is extracted from the company database 120.

図12は、スライダー値をさらに小さくしたときの検索クエリの受付画面図である。
ユーザがスライダー302を操作して、スライダー値をさらに小さくすると、第1基準値、第2基準値および第3基準値がさらに小さくなり、条件を満たす類似語、事業特性ワードおよび業種が増える。
FIG. 12 is a screen view of a search query reception screen when the slider value is further reduced.
When the user operates the slider 302 to further reduce the slider value, the first reference value, the second reference value, and the third reference value become smaller, and the number of similar words, business characteristic words, and industries that satisfy the conditions increases.

これにより増加した「トラック」、「品質」あるいは「自動車製造業」なども、企業情報の検索におけるOR条件として付加される。 The increased "truck", "quality", "automobile manufacturing industry", etc. are also added as OR conditions in the search for corporate information.

このように、スライダー302を操作することによって、検索クエリと関連の強さを調節して、検索条件に付加される類似語、事業特性ワードおよび業種を増減させる。それによって、企業情報の検索における網羅性を調節できる。上述の例では、順に網羅性が高まる。この動作について説明する。 In this way, by operating the slider 302, the strength of the search query and the association is adjusted to increase or decrease the similar words, business characteristic words, and industries added to the search conditions. Thereby, the completeness in the search of corporate information can be adjusted. In the above example, the completeness increases in order. This operation will be described.

図13は、類似語リストのデータ構成図である。
利用フェーズにおいて検索クエリが入力されると、それに応じて類似語リストが生成される。類似語リストは、関連語句記憶部140に記憶される。類似語リストは、各単語に対応付けて、その単語と検索クエリの語句との類似度を記憶している。類似語リストは、類似度の降順にソートされている。
FIG. 13 is a data structure diagram of a similar word list.
When a search query is entered in the usage phase, a similar word list is generated accordingly. The similar word list is stored in the related word / phrase storage unit 140. The similar word list stores the similarity between the word and the phrase of the search query in association with each word. The similar word list is sorted in descending order of similarity.

図11の例では、スライダー302の値が0.7であり、第1基準値も0.7であるので、類似語の「バイク」「タクシー」および「バス」が選別される。図12の例では、スライダー302の値が0.6であり、第1基準値も0.6であるので、類似語の「トラック」「交通」および「鉄道」が加わる。 In the example of FIG. 11, since the value of the slider 302 is 0.7 and the first reference value is also 0.7, the similar terms “motorcycle”, “taxi”, and “bus” are selected. In the example of FIG. 12, since the value of the slider 302 is 0.6 and the first reference value is also 0.6, the similar words “truck”, “traffic” and “railway” are added.

図14は、事業特性ワードリストのデータ構成図である。
利用フェーズにおいて検索クエリが入力されると、それに応じて事業特性ワードリストが生成される。事業特性ワードリストは、関連語句記憶部140に記憶される。事業特性ワードリストは、各事業特性ワードに対応付けて、その事業特性ワードと検索クエリの語句との類似度を記憶している。事業特性ワードリストは、類似度の降順にソートされている。
FIG. 14 is a data structure diagram of a business characteristic word list.
When a search query is entered in the usage phase, a business characteristic word list is generated accordingly. The business characteristic word list is stored in the related word / phrase storage unit 140. The business characteristic word list is associated with each business characteristic word and stores the degree of similarity between the business characteristic word and the phrase of the search query. The business characteristic word list is sorted in descending order of similarity.

図11の例では、第1基準値も0.7であるので、事業特性ワードの「中古」「修理」および「高級」が選別される。図12の例では、第1基準値が0.6であるので、事業特性ワードの「品質」「大衆」および「新品」が加わる。 In the example of FIG. 11, since the first reference value is also 0.7, the business characteristic words “used”, “repair”, and “luxury” are selected. In the example of FIG. 12, since the first reference value is 0.6, the business characteristic words “quality”, “popular”, and “new” are added.

図15は、業種リストのデータ構成図である。
利用フェーズにおいて検索クエリが入力されると、それに応じて業種リストが生成される。業種リストは、関連語句記憶部140に記憶される。業種リストは、各業種に対応付けて、その業種と検索クエリの語句との類似度を記憶している。業種リストは、類似度の降順にソートされている。
FIG. 15 is a data structure diagram of the industry list.
When a search query is entered in the usage phase, an industry list is generated accordingly. The industry list is stored in the related word / phrase storage unit 140. The industry list stores the similarity between the industry and the words and phrases of the search query in association with each industry. The industry list is sorted in descending order of similarity.

図11の例では、第1基準値が0.7であるので、業種の「自動車販売業」「自動車整備業」および「自動車レンタル業」が選別される。図12の例では、第1基準値が0.6であるので、業種の「自動車製造業」「輸送業」および「住宅販売」が加わる。 In the example of FIG. 11, since the first reference value is 0.7, the “automobile sales industry”, “automobile maintenance industry”, and “automobile rental industry” of the industry are selected. In the example of FIG. 12, since the first reference value is 0.6, the industries “automobile manufacturing”, “transportation”, and “house sales” are added.

図16は、図11の状態で検索結果画面に含まれる企業情報ボックスの図である。
この例では、検索クエリの語句に類似する事業特性ワード「高級」の文字列が、事業特性ワード名と一致するので、この企業情報が検索結果として表示される。なお、「高級」の文字列が、事業内容センテンス、主業種名あるいは副業種名に含まれる場合にもヒットする。つまり、事業内容センテンス、主業種名あるいは副業種名も探索範囲とする。ただし、事業内容センテンス、主業種名あるいは副業種名を探索範囲としなくてもよい。
FIG. 16 is a diagram of a company information box included in the search result screen in the state of FIG.
In this example, since the character string of the business characteristic word "luxury" similar to the word of the search query matches the business characteristic word name, this company information is displayed as the search result. It should also be hit when the character string "luxury" is included in the business content sentence, main industry name or sub-industry name. In other words, the business content sentence, the name of the main industry or the name of the sub-industry are also included in the search range. However, it is not necessary to include the business content sentence, the name of the main industry, or the name of the sub-industry as the search range.

図17は、図12の状態で検索結果画面に含まれる企業情報ボックスの図である。
この例では、検索クエリの語句に類似する業種「住宅販売業」の文字列が、主業種名と一致するので、この企業情報が検索結果として表示される。なお、「住宅販売業」の文字列が、事業内容センテンス、事業特性ワードあるいは主業種名に含まれる場合にもヒットする。つまり、事業内容センテンス、事業特性ワードあるいは副業種名も探索範囲とする。ただし、事業内容センテンス、事業特性ワードあるいは副業種名を探索範囲としなくてもよい。
FIG. 17 is a diagram of a company information box included in the search result screen in the state of FIG.
In this example, since the character string of the business type "house sales business" similar to the word of the search query matches the main business type name, this company information is displayed as the search result. It also hits when the character string "house sales business" is included in the business content sentence, business characteristic word, or main industry name. In other words, the business content sentence, business characteristic word, or sub-industry name is also included in the search range. However, the search range does not have to be the business content sentence, business characteristic word, or sub-industry name.

これらの画面例に基づく運用例を示す。たとえば、自動車保険の新しい契約候補者を見つけたいと考えた保険業者が、この検索システムを利用することを想定する。保険業者は、最初に検索クエリとして「自動車」を入力して、図10の検索結果を得る。図10に示した自動車販売業者は、新規な取引ルートにはなりがたい。自動車販売業者を介して自動車保険を勧めることは、従来から広く行われているからである。 An operation example based on these screen examples is shown. For example, suppose an insurer who wants to find a new car insurance policy candidate uses this search system. The insurer first enters "car" as the search query to get the search results in FIG. The automobile dealer shown in FIG. 10 is unlikely to become a new transaction route. This is because it has been widely practiced to recommend car insurance through a car dealer.

そこで、図11のようにスライダー302を操作して網羅性を高めて、再検索された図16の企業情報を得る。「レッドローズ」の企業情報は、「自動車」の文字列を含まないが、「自動車」と関連性が高い事業特性ワード「高級」を介して実質的に「自動車」と関連する。保険業者は、「レッドローズ」の事業内容を見て、「レッドローズ」が派遣するヘルパーが富裕層の顧客の高級車を運転している最中に事故を起こしたときの高額な賠償に備える可能性があると考える。そして、保険業者は、「レッドローズ」へ保険契約を提案できることに気が付く。 Therefore, as shown in FIG. 11, the slider 302 is operated to improve the completeness, and the re-searched company information of FIG. 16 is obtained. The corporate information of "Red Rose" does not include the character string of "automobile", but is substantially related to "automobile" through the business characteristic word "luxury" which is highly related to "automobile". The insurer looks at the business of "Red Rose" and prepares for a large amount of compensation when a helper dispatched by "Red Rose" causes an accident while driving a luxury car of a wealthy customer. I think there is a possibility. Then, the insurer realizes that he can propose an insurance policy to "Red Rose".

次に、図12のようにスライダー302を操作してさらに網羅性を高めて、再検索された図17の企業情報を得る。「イエローレモン」の企業情報に「自動車」の文字列は含まれていないが、「自動車」と関連性が高い業務「住宅販売業」を介して実質的に「自動車」と関連がある。保険業者は、この事業内容を見て、駐車場付きの住宅を購入するのだから、入居者は必ず自動車を持っていると考える。また、地域の事情に詳しい業者を選ぶということは、入居者がその地域の交通事情に詳しくなく、知人も少ないと想像する。したがって、知らない地域で交通事故を起こして他の住人とトラブルになることが心配であるとすれば、保険に加入する動機になると気が付く。このようにして、どんどんビジネス拡大の糸口が見つかる。 Next, as shown in FIG. 12, the slider 302 is operated to further enhance the completeness, and the re-searched company information of FIG. 17 is obtained. Although the corporate information of "Yellow Lemon" does not include the character string "automobile", it is substantially related to "automobile" through the business "house sales business" which is highly related to "automobile". Insurers look at this business and buy a house with a parking lot, so they think that the resident always has a car. Also, choosing a contractor who is familiar with the local circumstances means that the residents are not familiar with the traffic conditions in the area and there are few acquaintances. Therefore, if you are worried about having a traffic accident in an unfamiliar area and having trouble with other residents, you will find that it will motivate you to take out insurance. In this way, clues for business expansion can be found more and more.

この例で、保険業者が「高級」や「住宅販売業」がビジネス拡大のキーとなるということに気がつくということは考え難い。しかし、本実施形態によれば、ありふれた「自動車」という単語から、目的の企業情報に出会えるようになる。 In this example, it is unlikely that insurers will realize that "luxury" and "home sales" are key to business expansion. However, according to this embodiment, it becomes possible to find the target company information from the common word "automobile".

人間による説明文は表記ゆれが多く、人手で付与されたタグ情報は網羅性が担保されないことが多いため、本実施形態によって検索をサポートすることで網羅性を補完することができる。以下、処理の詳細について説明する。 Since there are many notational fluctuations in the explanations by humans and the tag information given by hand is often not guaranteed to be complete, the completeness can be complemented by supporting the search by this embodiment. The details of the processing will be described below.

図18は、サーバ100の機能ブロック図である。
サーバ100の各構成要素は、CPU(Central Processing Unit)および各種コプロセッサなどの演算器、メモリやストレージといった記憶装置、それらを連結する有線または無線の通信線を含むハードウェアと、記憶装置に格納され、演算器に処理命令を供給するソフトウェアによって実現される。コンピュータプログラムは、デバイスドライバ、オペレーティングシステム、それらの上位層に位置する各種アプリケーションプログラム、また、これらのプログラムに共通機能を提供するライブラリによって構成されてもよい。図示した各ブロックは、ハードウェア単位の構成ではなく、機能単位のブロックを示している。
FIG. 18 is a functional block diagram of the server 100.
Each component of the server 100 is stored in a storage device and hardware including a CPU (Central Processing Unit), a computing unit such as various coprocessors, a storage device such as a memory and a storage device, and a wired or wireless communication line connecting them. It is realized by software that supplies processing instructions to the arithmetic unit. A computer program may be composed of a device driver, an operating system, various application programs located on the upper layers thereof, and a library that provides common functions to these programs. Each of the illustrated blocks shows a block for each function, not a configuration for each hardware.

サーバ100は、データ格納部110、データ処理部150および通信部190を含む。通信部190は、ネットワークを介した通信処理を担当する。データ格納部110は各種データを格納する。データ処理部150は、通信部190により取得されたデータおよびデータ格納部110に格納されているデータに基づいて各種処理を実行する。データ処理部150は、通信部190およびデータ格納部110のインタフェースとしても機能する。 The server 100 includes a data storage unit 110, a data processing unit 150, and a communication unit 190. The communication unit 190 is in charge of communication processing via the network. The data storage unit 110 stores various data. The data processing unit 150 executes various processes based on the data acquired by the communication unit 190 and the data stored in the data storage unit 110. The data processing unit 150 also functions as an interface between the communication unit 190 and the data storage unit 110.

通信部190は、データを送信する送信部180とデータを受信する受信部170を含む。
送信部180は、各種画面データを送信する画面データ送信部182を含む。受信部170は、検索クエリ受信部172およびスライダー値受信部174を含む。検索クエリ受信部172は、検索クエリを受信する。スライダー値受信部174は、スライダー値を受信する。
The communication unit 190 includes a transmission unit 180 for transmitting data and a reception unit 170 for receiving data.
The transmission unit 180 includes a screen data transmission unit 182 that transmits various screen data. The receiving unit 170 includes a search query receiving unit 172 and a slider value receiving unit 174. The search query receiving unit 172 receives the search query. The slider value receiving unit 174 receives the slider value.

データ処理部150は、モデル生成部152、企業ベクトル算出部154、事業特性ワードベクトル算出部156、業種ベクトル算出部158、画面データ生成部160および検索部162を含む。
モデル生成部152は、単語ベクトルを算出する分散表現モデル生成処理を実行する。企業ベクトル算出部154は、企業ベクトル算出処理を実行する。事業特性ワードベクトル算出部156は、事業特性ワードベクトル算出処理を実行する。業種ベクトル算出部158は、業種ベクトル算出処理を実行する。画面データ生成部160は、各種画面データを生成する。検索部162は、企業情報の検索を行う。
The data processing unit 150 includes a model generation unit 152, a company vector calculation unit 154, a business characteristic word vector calculation unit 156, an industry vector calculation unit 158, a screen data generation unit 160, and a search unit 162.
The model generation unit 152 executes a distributed representation model generation process for calculating a word vector. The company vector calculation unit 154 executes the company vector calculation process. The business characteristic word vector calculation unit 156 executes the business characteristic word vector calculation process. The industry vector calculation unit 158 executes the industry vector calculation process. The screen data generation unit 160 generates various screen data. The search unit 162 searches for company information.

データ格納部110は、企業データベース120、分散表現モデル格納部130および関連語句記憶部140を含む。 The data storage unit 110 includes a company database 120, a distributed representation model storage unit 130, and a related phrase storage unit 140.

図19は、データ格納部110の機能ブロック図である。
企業データベース120は、企業テーブル格納部122、事業特性ワードテーブル格納部124および業種テーブル格納部126を含む。企業テーブル格納部122は、企業テーブル(図2)を格納する。事業特性ワードテーブル格納部124は、事業特性ワードテーブル(図3)を格納する。業種テーブル格納部126は、業種テーブル(図4)を格納する。
FIG. 19 is a functional block diagram of the data storage unit 110.
The company database 120 includes a company table storage unit 122, a business characteristic word table storage unit 124, and an industry table storage unit 126. The company table storage unit 122 stores the company table (FIG. 2). The business characteristic word table storage unit 124 stores the business characteristic word table (FIG. 3). The industry table storage unit 126 stores the industry table (FIG. 4).

分散表現モデル格納部130は、単語テーブル格納部132、企業ベクトル記憶部134、事業特性ワードベクトル記憶部136および業種ベクトル記憶部138を含む。
単語テーブル格納部132は、単語テーブル(図5)を格納する。企業ベクトル記憶部134については、図6に関連して説明した。事業特性ワードベクトル記憶部136については、図7に関連して説明した。業種ベクトル記憶部138については、図8に関連して説明した。
The distributed representation model storage unit 130 includes a word table storage unit 132, a company vector storage unit 134, a business characteristic word vector storage unit 136, and an industry vector storage unit 138.
The word table storage unit 132 stores the word table (FIG. 5). The company vector storage unit 134 has been described in relation to FIG. The business characteristic word vector storage unit 136 has been described in relation to FIG. The industry vector storage unit 138 has been described in relation to FIG.

関連語句記憶部140は、類似語リスト記憶部142、事業特性ワードリスト記憶部144および業種リスト記憶部146を含む。
類似語リスト記憶部142は、類似語リスト(図13)を記憶する。事業特性ワードリスト記憶部144は、事業特性ワードリスト(図14)を記憶する。業種リスト記憶部146は、業種リスト(図15)を記憶する。
The related word / phrase storage unit 140 includes a similar word list storage unit 142, a business characteristic word list storage unit 144, and an industry list storage unit 146.
The similar word list storage unit 142 stores a similar word list (FIG. 13). The business characteristic word list storage unit 144 stores the business characteristic word list (FIG. 14). The industry list storage unit 146 stores the industry list (FIG. 15).

図20は、準備フェーズ処理の過程を示すフローチャート図である。
まず、モデル生成部152は、分散表現モデル生成処理を実行する。(S20)。分散表現モデル生成処理では、分散表現モデルとして単語テーブル(図5)が生成される。分散表現モデル生成処理については、図21に関連して後述する。
FIG. 20 is a flowchart showing the process of the preparation phase processing.
First, the model generation unit 152 executes the distributed representation model generation process. (S20). In the distributed representation model generation process, a word table (FIG. 5) is generated as a distributed representation model. The distributed representation model generation process will be described later in relation to FIG.

次に、企業ベクトル算出部154は、企業ベクトル算出処理を実行する。(S22)。企業ベクトル算出処理については、図22に関連して後述する。 Next, the company vector calculation unit 154 executes the company vector calculation process. (S22). The company vector calculation process will be described later in relation to FIG.

続いて、事業特性ワードベクトル算出部156は、事業特性ワードベクトル算出処理を実行する(S24)。事業特性ワードベクトル算出処理については、図23に関連して後述する。 Subsequently, the business characteristic word vector calculation unit 156 executes the business characteristic word vector calculation process (S24). The business characteristic word vector calculation process will be described later in relation to FIG.

最後に、業種ベクトル算出部158は、業種ベクトル算出処理を実行する(S26)。業種ベクトル算出処理については、図24に関連して後述する。 Finally, the industry vector calculation unit 158 executes the industry vector calculation process (S26). The industry vector calculation process will be described later in relation to FIG. 24.

図21は、分散表現モデル生成処理の過程を示すフローチャート図である。
モデル生成部152は、企業テーブルからコーパスを生成する(S30)。コーパスとは、自然言語の文章を構造化した大規模データである。コーパスは、データ格納部110に保持される。具体的には、モデル生成部152は、各企業の事業内容センテンスから抽出される文ごとに、形態素解析を行って分かち書き形式に変換する。分かち書きとは、単語の間を余白で空けて区切る文字列である。分かち書き形式のデータが、コーパスとなる。
FIG. 21 is a flowchart showing the process of the distributed representation model generation process.
The model generation unit 152 generates a corpus from the company table (S30). A corpus is a large-scale data that structures sentences in natural language. The corpus is held in the data storage unit 110. Specifically, the model generation unit 152 performs morphological analysis for each sentence extracted from the business content sentence of each company and converts it into a word-separated form. A word-separator is a character string that separates words with a margin. The data in the word-separated format becomes the corpus.

モデル生成部152は、コーパスを用いて単語ベクトルを生成する(S32)。具体的には、モデル生成部152は、たとえばWord2vecの学習処理によって、コーパスに含まれる各単語に関する単語ベクトルを求める。生成された単語ベクトルは、単語テーブル格納部132に格納される。そして、S22の処理へ戻る。 The model generation unit 152 generates a word vector using a corpus (S32). Specifically, the model generation unit 152 obtains a word vector for each word included in the corpus by learning processing of Word2vec, for example. The generated word vector is stored in the word table storage unit 132. Then, the process returns to the process of S22.

図22は、企業ベクトル算出処理の過程を示すフローチャート図である。
企業ベクトル算出部154は、企業毎に以下の処理を繰り返す(S40)。企業ベクトル算出部154は、この企業の事業内容センテンスに含まれる各文の文ベクトルを算出する(S42)。文に含まれる単語の単語ベクトルから、文ベクトルが生成される。生成方法は、例えば平均化である。つまり、文ベクトルは、単語ベクトルの平均ベクトルである。
FIG. 22 is a flowchart showing the process of the company vector calculation process.
The company vector calculation unit 154 repeats the following processing for each company (S40). The company vector calculation unit 154 calculates the sentence vector of each sentence included in the business content sentence of this company (S42). A sentence vector is generated from the word vector of the words contained in the sentence. The generation method is, for example, averaging. That is, the sentence vector is the average vector of the word vectors.

企業ベクトル算出部154は、事業内容センテンスに含まれる各文の文ベクトルの平均を算出して、算出された平均ベクトルを企業ベクトルとする(S44)。企業ベクトル算出部154は、平均化以外の方法で、文ベクトルから企業ベクトルを生成してもよい。算出された企業ベクトルは、企業ベクトル記憶部134に記憶される。 The company vector calculation unit 154 calculates the average of the sentence vectors of each sentence included in the business content sentence, and uses the calculated average vector as the company vector (S44). The company vector calculation unit 154 may generate a company vector from the sentence vector by a method other than averaging. The calculated company vector is stored in the company vector storage unit 134.

まだ処理していない企業が残っていれば(S46のN)、企業ベクトル算出部154は、S40の処理へ戻る。すべての企業について処理が終われば(S46のY)、S24の処理へ戻る。 If there is a company that has not been processed yet (N in S46), the company vector calculation unit 154 returns to the processing in S40. When the processing for all the companies is completed (Y in S46), the process returns to the processing in S24.

図23は、事業特性ワードベクトル算出処理の過程を示すフローチャート図である。
事業特性ワードベクトル算出部156は、事業特性ワード毎に以下の処理を繰り返す(S50)。事業特性ワードベクトル算出部156は、企業テーブルを参照して、この事業特性ワードが設定されている企業を選出する(S52)。
FIG. 23 is a flowchart showing the process of the business characteristic word vector calculation process.
The business characteristic word vector calculation unit 156 repeats the following processing for each business characteristic word (S50). The business characteristic word vector calculation unit 156 refers to the company table and selects a company in which this business characteristic word is set (S52).

事業特性ワードベクトル算出部156は、選出された企業ベクトルの平均ベクトルを算出して、算出された平均ベクトルを、この事業特性ワードの事業特性ワードベクトルとする(S54)。事業特性ワードベクトル算出部156は、平均化以外の方法で、企業ベクトルから事業特性ワードベクトルを生成してもよい。算出された事業特性ワードベクトルは、事業特性ワードベクトル記憶部136に記憶される。 The business characteristic word vector calculation unit 156 calculates the average vector of the selected company vectors, and uses the calculated average vector as the business characteristic word vector of this business characteristic word (S54). The business characteristic word vector calculation unit 156 may generate a business characteristic word vector from the company vector by a method other than averaging. The calculated business characteristic word vector is stored in the business characteristic word vector storage unit 136.

まだ処理していない事業特性ワードが残っていれば(S56のN)、事業特性ワードベクトル算出部156は、S50の処理に戻る。すべての事業特性ワードについて処理
が終われば(S56のY)、S26の処理に戻る。
If the business characteristic word that has not been processed remains (N in S56), the business characteristic word vector calculation unit 156 returns to the processing in S50. When the processing for all the business characteristic words is completed (Y in S56), the processing returns to the processing in S26.

図24は、業種ベクトル算出処理の過程を示すフローチャート図である。
業種ベクトル算出部158は、業種毎に以下の処理を繰り返す(S60)。業種ベクトル算出部158は、企業テーブルを参照して、この業種が設定されている企業を選出する(S62)。
FIG. 24 is a flowchart showing the process of the industry vector calculation process.
The industry vector calculation unit 158 repeats the following processing for each industry (S60). The industry vector calculation unit 158 refers to the company table and selects a company in which this industry is set (S62).

業種ベクトル算出部158は、選出された企業ベクトルの平均ベクトルを算出して、算出された平均ベクトルを、この業種の業種ベクトルとする。業種ベクトル算出部158は、平均化以外の方法で、企業ベクトルから業種ベクトルを生成してもよい。算出された業種ベクトルは、業種ベクトル記憶部138に記憶される。 The industry vector calculation unit 158 calculates the average vector of the selected company vectors, and uses the calculated average vector as the industry vector of this industry. The industry vector calculation unit 158 may generate an industry vector from the company vector by a method other than averaging. The calculated industry vector is stored in the industry vector storage unit 138.

まだ処理していない業種が残っていれば(S66のN)、業種ベクトル算出部158は、S60の処理に戻る。すべての業種について処理が終われば(S66のY)、準備フェーズ処理を終える。 If there is an industry that has not been processed yet (N in S66), the industry vector calculation unit 158 returns to the processing in S60. When the processing for all industries is completed (Y in S66), the preparation phase processing is completed.

図25は、利用フェーズ処理の過程を示すフローチャート図である。
検索クエリ受信部172が、検索クエリの受付画面を表示しているユーザ端末200から検索クエリを受信した場合には(S70のY)、画面データ生成部160は、リスト生成処理を実行する(S72)。リスト生成処理では、類似語リスト(図13)、事業特性ワードリスト(図14)および業種リスト(図15)が生成される。リスト生成処理に関しては、図26に関連して後述する。
FIG. 25 is a flowchart showing the process of the utilization phase processing.
When the search query receiving unit 172 receives the search query from the user terminal 200 displaying the search query reception screen (Y in S70), the screen data generation unit 160 executes the list generation process (S72). ). In the list generation process, a similar word list (FIG. 13), a business characteristic word list (FIG. 14), and an industry list (FIG. 15) are generated. The list generation process will be described later in relation to FIG.

次に、画面データ生成部160は、画面生成処理を実行する(S74)。画面生成処理では、検索クエリの受付画面に、類似語、事業特性ワードおよび業種が表示し直される。さらに企業情報の検索が行われて、検索結果の画面が表示される。画面生成処理に関しては、図27に関連して後述する。 Next, the screen data generation unit 160 executes the screen generation process (S74). In the screen generation process, similar words, business characteristic words, and industries are displayed again on the search query reception screen. Further, the company information is searched and the search result screen is displayed. The screen generation process will be described later in relation to FIG. 27.

続いて、画面データ送信部182は、画面データ送信処理において、画面データをユーザ端末200へ送信する(S76)。そして、S70の処理に戻る。ユーザ端末200は、受信した画面データに基づいて、検索クエリの受付画面および検索結果の画面を表示する。 Subsequently, the screen data transmission unit 182 transmits the screen data to the user terminal 200 in the screen data transmission process (S76). Then, the process returns to the process of S70. The user terminal 200 displays a search query reception screen and a search result screen based on the received screen data.

スライダー値受信部174が、検索クエリの受付画面を表示しているユーザ端末200からスライダー値を受信した場合には(S78のY)、スライダー値に基づいて第1基準値、第2基準値および第3基準値を変更する。この例では、スライダー値をそのまま新たな第1基準値、新たな第2基準値および新たな第3基準値として用いる。 When the slider value receiving unit 174 receives the slider value from the user terminal 200 displaying the search query reception screen (Y in S78), the first reference value, the second reference value, and the slider value are based on the slider value. Change the third reference value. In this example, the slider value is used as it is as a new first reference value, a new second reference value, and a new third reference value.

第1基準値、第2基準値および第3基準値が変更されると、画面データ生成部160は、変更された第1基準値、第2基準値および第3基準値に基づいて、画面生成処理を実行する(S82)。さらに、画面データ送信部182は、画面データ送信処理において、生成し直した画面データを送信する(S84)。ユーザ端末200は、受信した画面データに基づいて、検索クエリの受付画面および検索結果の画面を表示する。そして、S70の処理に戻る。 When the first reference value, the second reference value, and the third reference value are changed, the screen data generation unit 160 generates a screen based on the changed first reference value, the second reference value, and the third reference value. The process is executed (S82). Further, the screen data transmission unit 182 transmits the regenerated screen data in the screen data transmission process (S84). The user terminal 200 displays a search query reception screen and a search result screen based on the received screen data. Then, the process returns to the process of S70.

ユーザ端末200から終了指示を受け付ければ(S86のY)、利用フェーズ処理を終える。ユーザ端末200から終了指示を受け付けなければ、S70の処理へ戻る。 When the end instruction is received from the user terminal 200 (Y in S86), the usage phase processing is completed. If the end instruction is not received from the user terminal 200, the process returns to the process of S70.

図26は、リスト生成処理の過程を示すフローチャート図である。
画面データ生成部160は、全単語について検索クエリとの類似度を算出する(S90)。検索クエリが単語であれば、その単語の単語ベクトルを検索クエリの意味ベクトルとする。検索クエリが句であれば、その句に含まれる単語の単語ベクトルから検索クエリの意味ベクトルを生成する。生成の方法は、たとえば平均化である。そして、各単語の単語ベクトルと検索クエリの意味ベクトルの類似度を求める。画面データ生成部160は、たとえばコサイン類似度を計算する。以下の類似度についても同様である。
FIG. 26 is a flowchart showing the process of list generation processing.
The screen data generation unit 160 calculates the similarity with the search query for all words (S90). If the search query is a word, the word vector of that word is used as the meaning vector of the search query. If the search query is a phrase, the meaning vector of the search query is generated from the word vector of the words contained in the phrase. The method of generation is, for example, averaging. Then, the similarity between the word vector of each word and the meaning vector of the search query is obtained. The screen data generation unit 160 calculates, for example, the cosine similarity. The same applies to the following similarities.

画面データ生成部160は、類似度が高い順に単語をソートして、類似語リストを生成する(S92)。生成された類似語リストは、類似語リスト記憶部142に記憶される。 The screen data generation unit 160 sorts words in descending order of similarity to generate a similar word list (S92). The generated similar word list is stored in the similar word list storage unit 142.

画面データ生成部160は、全事業特性ワードについて検索クエリとの類似度を算出する(S94)。具体的には、画面データ生成部160は、各事業特性ワードの事業特性ワードベクトルと検索クエリの意味ベクトルの類似度を求める。 The screen data generation unit 160 calculates the similarity with the search query for all business characteristic words (S94). Specifically, the screen data generation unit 160 obtains the similarity between the business characteristic word vector of each business characteristic word and the meaning vector of the search query.

画面データ生成部160は、類似度が高い順に事業特性ワードをソートして、事業特性ワードリストを生成する(S96)。生成された事業特性ワードリストは、事業特性ワードリスト記憶部144に記憶される。 The screen data generation unit 160 sorts the business characteristic words in descending order of similarity to generate a business characteristic word list (S96). The generated business characteristic word list is stored in the business characteristic word list storage unit 144.

画面データ生成部160は、全業種について検索クエリとの類似度を算出する(S98)。具体的には、画面データ生成部160は、各業種の業種ベクトルと検索クエリの意味ベクトルの類似度を求める。 The screen data generation unit 160 calculates the degree of similarity with the search query for all industries (S98). Specifically, the screen data generation unit 160 obtains the similarity between the industry vector of each industry and the meaning vector of the search query.

画面データ生成部160は、類似度が高い順に業種をソートして、業種リストを生成する(S100)。生成された業種リストは、業種リスト記憶部146に記憶される。そして、S74の処理へ戻る。 The screen data generation unit 160 sorts the industries in descending order of similarity and generates an industry list (S100). The generated industry list is stored in the industry list storage unit 146. Then, the process returns to the process of S74.

図27は、画面生成処理の過程を示すフローチャート図である。
画面データ生成部160は、第1基準値以上の類似度を有する類似語を、検索クエリの受付画面における類似語の表示領域304に配置する(S110)。画面データ生成部160は、第2基準値以上の類似度を有する事業特性ワードを、検索クエリの受付画面における事業特性ワードの領域306に配置する(S112)。さらに、画面データ生成部160は、第3基準値以上の類似度を有する業種を、検索クエリの受付画面における業種の領域308に配置する(S114)。
FIG. 27 is a flowchart showing the process of screen generation processing.
The screen data generation unit 160 arranges similar words having a degree of similarity equal to or higher than the first reference value in the display area 304 of the similar words on the reception screen of the search query (S110). The screen data generation unit 160 arranges the business characteristic word having a degree of similarity equal to or higher than the second reference value in the area 306 of the business characteristic word on the reception screen of the search query (S112). Further, the screen data generation unit 160 arranges an industry having a degree of similarity equal to or higher than the third reference value in the area 308 of the industry on the search query reception screen (S114).

画面データ生成部160は、これらの類似語、事業特性ワードおよび業種のOR条件で企業情報を検索する(S116)。たとえば、これらの類似語、事業特性ワードおよび業種を探索する文字列とする新たな検索クエリを生成して、この検索クエリをデータベース管理システム(DataBase Management System)に入力する。データベース管理システムは、各企業の企業情報(事業内容センテンス、事業特性ワード、主業種および副業種を表すテキストのセット)を比較対象として、該当する企業情報を選別する。データベース管理システムは、企業データベース120を管理し、企業データベース120に対する操作を行うソフトウェアである。 The screen data generation unit 160 searches for company information based on these similar words, business characteristic words, and OR conditions of the type of business (S116). For example, generate a new search query with these similar words, business characteristic words, and strings to search for the industry, and enter this search query into the database management system (DataBase Management System). The database management system selects the relevant company information by comparing the company information of each company (business content sentence, business characteristic word, set of texts representing the main industry and sub-industry). The database management system is software that manages the corporate database 120 and operates the corporate database 120.

画面データ生成部160は、ヒットした企業情報を表示する企業情報ボックスを検索結果の画面に配置する(S118)。そして、S70の処理へ戻る。 The screen data generation unit 160 arranges a company information box for displaying hit company information on the search result screen (S118). Then, the process returns to the process of S70.

[変形例]
検索クエリの受付画面に表示された類似語、事業特性ワードおよび業種のうち不要なものを削除できるようにしてもよい。ユーザ操作によって、不要な類似語、事業特性ワードまたは業種が指示されると、ユーザ端末200から類似語、事業特性ワードまたは業種の削除要求がサーバ100へ送信される。サーバ100の要求受信部(不図示)が削除要求を受信すると、削除部(不図示)は、類似語リスト、事業特性ワードリストまたは業種リストから不要な類似語、事業特性ワードまたは業種を消去する。そして、サーバ100は、改めてリスト生成処理、画面生成処理および画面データ送信処理を行う。
[Modification example]
It may be possible to delete unnecessary words, business characteristic words, and industries displayed on the search query reception screen. When an unnecessary similar word, business characteristic word or industry is instructed by the user operation, a deletion request for the similar word, business characteristic word or industry is transmitted from the user terminal 200 to the server 100. When the request receiving unit (not shown) of the server 100 receives the deletion request, the deletion unit (not shown) deletes unnecessary similar words, business characteristic words, or industries from the similar word list, business characteristic word list, or industry list. .. Then, the server 100 again performs the list generation process, the screen generation process, and the screen data transmission process.

検索クエリの受付と連動して、自動的に企業情報の検索が行われる例を示したが、ユーザ操作による検索実行の指示を受け付けてから企業情報の検索が行われるようにしてもよい。 Although the example in which the company information is automatically searched in conjunction with the reception of the search query is shown, the company information may be searched after receiving the instruction to execute the search by the user operation.

画面データ生成部160は、検索クエリの受付画面において、類似語の隣に検索クエリと類似語との類似度を配置してもよい。画面データ生成部160は、検索クエリの受付画面において、事業特性ワードの隣に検索クエリと事業特性ワードとの類似度を配置してもよい。画面データ生成部160は、検索クエリの受付画面において、業種の隣に検索クエリと業種との類似度を配置してもよい。 The screen data generation unit 160 may arrange the similarity between the search query and the similar word next to the similar word on the search query reception screen. The screen data generation unit 160 may arrange the similarity between the search query and the business characteristic word next to the business characteristic word on the search query reception screen. The screen data generation unit 160 may arrange the similarity between the search query and the industry next to the industry on the search query reception screen.

検索クエリの受付画面および検索結果の画面が並べて表示される例を示したが、検索クエリの受付画面と検索結果の画面が切り替わって表示されてもよい。 Although the example in which the search query reception screen and the search result screen are displayed side by side is shown, the search query reception screen and the search result screen may be switched and displayed.

サーバ100は、スライダー値を変換して、第1基準値、第2基準値および第3基準値を求めるようにしてもよい。また、第1基準値、第2基準値および第3基準値は、異なる値であってもよい。たとえば、画面データ生成部160は、スライダー値と相関するように第1基準値、第2基準値および第3基準値を算出する。画面データ生成部160は、スライダー値に第1係数を乗じて、第1基準値を求めてもよい。画面データ生成部160は、スライダー値に第2係数を乗じて、第2基準値を求めてもよい。画面データ生成部160は、スライダー値に第3係数を乗じて、第3基準値を求めてもよい。 The server 100 may convert the slider value to obtain the first reference value, the second reference value, and the third reference value. Further, the first reference value, the second reference value and the third reference value may be different values. For example, the screen data generation unit 160 calculates the first reference value, the second reference value, and the third reference value so as to correlate with the slider value. The screen data generation unit 160 may obtain the first reference value by multiplying the slider value by the first coefficient. The screen data generation unit 160 may obtain the second reference value by multiplying the slider value by the second coefficient. The screen data generation unit 160 may obtain the third reference value by multiplying the slider value by the third coefficient.

ベクトルの平均化において、例えばTF−IDF(Term Frequency-Inverse Document Frequency)のような評価指標を用いて、元となる単語ベクトル毎、句ベクトル毎あるいは文ベクトル毎などに重みづけを行ってもよい。 In vector averaging, an evaluation index such as TF-IDF (Term Frequency-Inverse Document Frequency) may be used to weight each original word vector, phrase vector, sentence vector, or the like. ..

企業情報を検索する例を示したが、他の種類の情報を検索するようにしてもよい。たとえば、電子商取引のサイトにおいて商品情報を検索する場合に、商品紹介センテンスに付随する商品分類のタグや商品特性のタグについて、商品分類ベクトルや商品特性ベクトルを算出してもよい。そして、検索クエリに類似する商品分類ベクトルや商品特性ベクトルを使って検索条件を補足するようにしてもよい。 An example of searching for company information is shown, but other types of information may be searched. For example, when searching for product information on an electronic commerce site, a product classification vector or a product characteristic vector may be calculated for a product classification tag or a product characteristic tag attached to a product introduction sentence. Then, the search condition may be supplemented by using a product classification vector or a product characteristic vector similar to the search query.

たとえば、特許文献閲覧のサイトにおいて特許文献を検索する場合に、特許文献に付随する特許分類のタグについて、特許分類ベクトルを算出してもよい。そして、検索クエリに類似する特許分類ベクトルを使って検索条件を補足するようにしてもよい。 For example, when searching for a patent document on a site for browsing patent documents, a patent classification vector may be calculated for the patent classification tag attached to the patent document. Then, the search condition may be supplemented by using a patent classification vector similar to the search query.

たとえば、SNS(Social Networking Service)の投稿サイトにおいて投稿記事を検索する場合に、投稿記事に付随するハッシュタグのような記事分類タグについて、記事分類ベクトルを算出してもよい。そして、検索クエリに類似する記事分類ベクトルを使って検索条件を補足するようにしてもよい。 For example, when searching a posted article on a posting site of SNS (Social Networking Service), an article classification vector may be calculated for an article classification tag such as a hash tag attached to the posted article. Then, the search condition may be supplemented by using an article classification vector similar to the search query.

なお、本発明は上記実施形態や変形例に限定されるものではなく、要旨を逸脱しない範囲で構成要素を変形して具体化することができる。上記実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることにより種々の発明を形成してもよい。また、上記実施形態や変形例に示される全構成要素からいくつかの構成要素を削除してもよい。 The present invention is not limited to the above-described embodiment or modification, and the components can be modified and embodied within a range that does not deviate from the gist. Various inventions may be formed by appropriately combining a plurality of components disclosed in the above embodiments and modifications. In addition, some components may be deleted from all the components shown in the above embodiments and modifications.

図28は、図11の状態で検索結果画面に含まれる企業情報ボックスの図である。
この例では、事業特性ワードが「迅速」であって、検索クエリの語句に類似する事業特性キーワード「中古」、「修理」および「高級」(図11)のいずれとも一致していない。しかし、そのうちの事業特性ワード「高級」の文字列が、事業内容センテンスに含まれるので、この企業情報が検索結果として表示される。「高級」の文字列が、事業内容センテンスに含まれる場合にもヒットすることは、図16に関連して上述したとおりである。
FIG. 28 is a diagram of a company information box included in the search result screen in the state of FIG.
In this example, the business characteristic word is "quick" and does not match any of the business characteristic keywords "used", "repair" and "luxury" (FIG. 11) that are similar to the words in the search query. However, since the character string of the business characteristic word "luxury" is included in the business content sentence, this company information is displayed as the search result. As described above in relation to FIG. 16, a hit is also made when the character string "luxury" is included in the business content sentence.

100 サーバ、110 データ格納部、120 企業データベース、122 企業テーブル格納部、124 事業特性ワードテーブル格納部、126 業種テーブル格納部、130 分散表現モデル格納部、132 単語テーブル格納部、134 企業ベクトル記憶部、136 事業特性ワードベクトル記憶部、138 業種ベクトル記憶部、140 関連語句記憶部、142 類似語リスト記憶部、144 事業特性ワードリスト記憶部、146 業種リスト記憶部、150 データ処理部、152 モデル生成部、154 企業ベクトル算出部、156 事業特性ワードベクトル算出部、158 業種ベクトル算出部、160 画面データ生成部、162 検索部、170 受信部、172 検索クエリ受信部、174 スライダー値受信部、180 送信部、182 画面データ送信部、190 通信部、200 ユーザ端末、300 入力領域、302 スライダー、304 表示領域、306 表示領域、308 表示領域、320 企業情報ボックス、324 表示領域、326 表示領域、328 表示領域、330 表示領域 100 server, 110 data storage, 120 company database, 122 company table storage, 124 business characteristic word table storage, 126 industry table storage, 130 distributed representation model storage, 132 word table storage, 134 company vector storage 136 Business characteristic word vector storage unit, 138 Industry vector storage unit, 140 Related phrase storage unit, 142 Similar word list storage unit, 144 Business characteristic word list storage unit, 146 Industry list storage unit, 150 Data processing unit, 152 Model generation Department, 154 Company vector calculation unit, 156 Business characteristic word vector calculation unit, 158 Industry vector calculation unit, 160 screen data generation unit, 162 search unit, 170 reception unit, 172 search query reception unit, 174 slider value reception unit, 180 transmission Unit, 182 screen data transmission unit, 190 communication unit, 200 user terminal, 300 input area, 302 slider, 304 display area, 306 display area, 308 display area, 320 company information box, 324 display area, 326 display area, 328 display Area, 330 display area

Claims (5)

分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、検索クエリを受け付ける第1受付部と、
前記検索クエリの条件、または前記検索クエリの分散ベクトルと類似する分散ベクトルの分類語の条件に適合するセンテンスを検索する検索部と、を備えることを特徴とする自然言語処理装置。
Regarding the database that manages multiple sentences associated with the classification word, the first reception section that accepts search queries and
A natural language processing apparatus including:
前記分散ベクトル間の類似度に関する基準値の調整指示を受け付ける第2受付部と、
調整された前記基準値に基づいて、前記検索クエリの前記分散ベクトルと類似する前記分散ベクトルの前記分類語を抽出する抽出部と、をさらに備えることを特徴とする請求項1に記載の自然言語処理装置。
A second reception unit that receives a reference value adjustment instruction regarding the similarity between the variance vectors, and
The natural language according to claim 1, further comprising an extraction unit for extracting the taxonomy of the variance vector similar to the variance vector of the search query based on the adjusted reference value. Processing equipment.
前記検索部は、センテンスの文字列に前記分類語の文字列が含まれる場合に、当該センテンスが適合すると判定することを特徴とする請求項1または2に記載の自然言語処理装置。 The natural language processing apparatus according to claim 1 or 2, wherein the search unit determines that the sentence is suitable when the character string of the sentence includes the character string of the classification word. 前記検索部は、センテンスに紐づく前記分類語の文字列に前記検索クエリの文字列が含まれる場合に、当該センテンスが適合すると判定することを特徴とする請求項1〜3のいずれかに記載の自然言語処理装置。 The description according to any one of claims 1 to 3, wherein the search unit determines that the sentence is suitable when the character string of the classification word associated with the sentence includes the character string of the search query. Natural language processing equipment. 分類語に紐づけられる複数のセンテンスを管理するデータベースに関して、検索クエリを受け付ける機能と、
前記検索クエリの条件、または前記検索クエリの分散ベクトルと類似する分散ベクトルの分類語の条件に適合するセンテンスを検索する機能と、を情報処理装置に発揮させることを特徴とするプログラム。
A function that accepts search queries for a database that manages multiple sentences associated with a taxonomy,
A program characterized in that an information processing apparatus is provided with a function of searching for a sentence that matches the conditions of the search query or the conditions of a classification term of a dispersion vector similar to the variance vector of the search query.
JP2020053959A 2020-03-25 2020-03-25 Natural language processing device and program Pending JP2021157220A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020053959A JP2021157220A (en) 2020-03-25 2020-03-25 Natural language processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020053959A JP2021157220A (en) 2020-03-25 2020-03-25 Natural language processing device and program

Publications (1)

Publication Number Publication Date
JP2021157220A true JP2021157220A (en) 2021-10-07

Family

ID=77917738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020053959A Pending JP2021157220A (en) 2020-03-25 2020-03-25 Natural language processing device and program

Country Status (1)

Country Link
JP (1) JP2021157220A (en)

Similar Documents

Publication Publication Date Title
US20180060410A1 (en) System and method of applying globally unique identifiers to relate distributed data sources
US8190556B2 (en) Intellegent data search engine
US7283997B1 (en) System and method for ranking the relevance of documents retrieved by a query
US8131684B2 (en) Adaptive archive data management
US9020950B2 (en) System and method for generating, updating, and using meaningful tags
EP1988476B1 (en) Hierarchical metadata generator for retrieval systems
JP5721818B2 (en) Use of model information group in search
US7555480B2 (en) Comparatively crawling web page data records relative to a template
KR101215791B1 (en) Using reputation measures to improve search relevance
US20120173507A1 (en) Searching through content which is accesible through web-based forms
KR20080114764A (en) System and method for identifying related queries for languages with multiple writing systems
WO2013149220A1 (en) Centralized tracking of user interest information from distributed information sources
TW200849045A (en) Web spam page classification using query-dependent data
CN102375885A (en) Method and device for providing search suggestions corresponding to query sequence
JP2009026195A (en) Article classification apparatus, article classification method and program
US20100042610A1 (en) Rank documents based on popularity of key metadata
KR20100044669A (en) Method, system and computer-readable recording medium for providing information on goods based on image matching
US9552415B2 (en) Category classification processing device and method
AU2011210742A1 (en) Method and system for conducting legal research using clustering analytics
CN110637316A (en) System and method for intelligent prospective object recognition using online resources and neural network processing to classify tissue based on published material
CN111475725A (en) Method, apparatus, device, and computer-readable storage medium for searching for content
CN114254201A (en) Recommendation method for science and technology project review experts
US11941073B2 (en) Generating and implementing keyword clusters
JP5135412B2 (en) Document analysis apparatus and program
Sanderson et al. Nrt-news retrieval tool

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240402

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240618