JP6941803B1 - Search system, search method and search program - Google Patents
Search system, search method and search program Download PDFInfo
- Publication number
- JP6941803B1 JP6941803B1 JP2021111717A JP2021111717A JP6941803B1 JP 6941803 B1 JP6941803 B1 JP 6941803B1 JP 2021111717 A JP2021111717 A JP 2021111717A JP 2021111717 A JP2021111717 A JP 2021111717A JP 6941803 B1 JP6941803 B1 JP 6941803B1
- Authority
- JP
- Japan
- Prior art keywords
- company
- search
- words
- feature
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 過去のビジネスパートナー探索の成果等を効果的に活用でき、ビジネスパートナー探索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的にリストアップする。【解決手段】 検索システム1の管理サーバ20は、企業から情報のアップロードを受け付け、過去の探索における企業の情報及びアップロードされた情報から抽出された企業の特徴語を企業ごとに記憶する特徴語データベース223と、機械学習を行って得られる特徴語の分散表現を特徴語ごとに記憶して学習モデルデータベース224を備え、外部の入力装置からキーワードを取得すると、キーワードに対応する特徴語を持つ企業を特徴語データベース223から検索し、検索された企業の特徴語に基づく分散表現とキーワードに対応する特徴語に基づく分散表現との類似度を計算し、類似度を考慮して検索された企業の特徴語を含む企業リストを生成する。【選択図】 図3PROBLEM TO BE SOLVED: To effectively utilize the results of past business partner search, reduce the burden on a user in business partner search, and effectively list candidate companies suitable as business partners. A management server 20 of a search system 1 accepts information uploads from companies, and stores company information in a past search and company feature words extracted from the uploaded information for each company. It is equipped with a learning model database 224 that stores 223 and distributed expressions of feature words obtained by machine learning for each feature word, and when a keyword is acquired from an external input device, a company with the feature word corresponding to the keyword is found. The characteristics of the company searched by searching from the characteristic word database 223, calculating the similarity between the distributed expression based on the characteristic words of the searched company and the distributed expression based on the characteristic words corresponding to the keywords, and considering the similarity. Generate a list of companies that include words. [Selection diagram] Fig. 3
Description
本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索システム、検索方法及び検索プログラムに関する。 The present invention relates to a search system, a search method, and a search program that generate a company list for the purpose of searching for a business partner.
近年の企業における製品開発は、自社技術だけでなく、社外企業の優れた技術を活用するケースが多く見られる。例えば、多くの大企業や中堅企業が優れた技術を持つ中小・ベンチャー企業をビジネスパートナーにしている。
これまで取引がない新しいビジネスパートナーをインターネットで探す場合、検索ユーザはパーソナルコンピュータ等の画面に表示されるWebブラウザ上でキーワードを入力し、そのキーワードがヒットした企業をビジネスパートナーの候補としてリストアップする。この際に用いられるキーワードの多くは、商材やその特徴等の製品や材料に関する単語であるが、検索ユーザの経験や知識に基づいて選択されるため、ユーザのスキルや経験の差が検索結果に表れてしまうことが多い。そこで、入力されたキーワードに関連するキーワード技術を企業情報から抽出して両者の類似度を算出した上で企業を検索する技術が知られている(例えば、特許文献1参照)。
In recent years, product development in companies often utilizes not only their own technology but also the excellent technology of external companies. For example, many large and medium-sized companies have small and medium-sized venture companies with excellent technology as business partners.
When searching the Internet for a new business partner with whom there has been no transaction, the search user enters a keyword on the Web browser displayed on the screen of a personal computer or the like, and the companies that hit the keyword are listed as candidates for the business partner. .. Most of the keywords used in this case are words related to products and materials such as products and their characteristics, but since they are selected based on the experience and knowledge of the search user, the difference in user skills and experience is the search result. It often appears in. Therefore, there is known a technique of extracting a keyword technique related to an input keyword from company information, calculating the similarity between the two, and then searching for a company (see, for example, Patent Document 1).
しかしながら、従来のビジネスパートナー探索では、インターネット上で公開されている企業情報をすべて同等のテキストデータとして取り扱ったキーワード検索が行われており、過去のビジネスパートナー探索の成果やビジネスパートナー探索時の個々の事情を考慮したスマートな検索処理になっていない。 However, in the conventional business partner search, keyword search is performed in which all company information published on the Internet is treated as equivalent text data, and the results of past business partner search and individual business partner search are performed. It is not a smart search process that takes circumstances into consideration.
本発明は、このような事情を考慮してなされたものであり、過去のビジネスパートナー探索の成果等を効果的に活用でき、ビジネスパートナー探索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的にリストアップできる検索システム、検索方法及び検索プログラムを提供することを目的とする。 The present invention has been made in consideration of such circumstances, and can effectively utilize the results of the past business partner search, reduce the burden on the user in the business partner search, and is a candidate company suitable as a business partner. It is an object of the present invention to provide a search system, a search method, and a search program that can effectively list the above.
上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索システムであって、所定の期間内に企業から情報のアップロードを受け付ける受付手段と、過去に実施されたビジネスパートナー探索における前記企業に関する情報及び前記受付手段でアップロードが受け付けられた前記情報から抽出された前記企業の特徴を表す複数の特徴語を企業ごとに記憶する特徴語記憶手段と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデル記憶手段と、入力装置から入力されたキーワードを取得する取得手段と、前記キーワードに対応する特徴語を持つ企業を前記特徴語記憶手段から検索する検索手段と、前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手段と、前記類似度を考慮して前記検索手段で検索された前記企業が持つ複数の特徴語を含む企業リストを生成するリスト生成手段とを備えることを特徴とする。 In order to solve the above problems, the present invention is a search system that generates a company list for the purpose of searching for a business partner, and has been implemented in the past as a receiving means for receiving information upload from a company within a predetermined period. A feature word storage means for storing a plurality of feature words representing the characteristics of the company extracted from the information about the company in the business partner search and the information for which upload is accepted by the reception means, and the plurality of features. Acquires a learning model storage means that stores the distributed expression of the feature word obtained by performing machine learning that predicts one feature word from the word for each feature word and uses it as a learning model, and a keyword input from an input device. The acquisition means, the search means for searching the company having the feature word corresponding to the keyword from the feature word storage means, the distributed expression based on the plurality of feature words of the company searched by the search means, and the keyword. A similarity calculation means for calculating the similarity with the distributed expression based on the corresponding feature words, and a company list including a plurality of feature words of the company searched by the search means in consideration of the similarity are generated. It is characterized by including a list generation means.
また、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記検索手段で検索された前記企業が持つ複数の特徴語のそれぞれの分散表現を合成した合成分散表現と前記キーワードに対応する特徴語の分散表現との類似度を計算することを特徴とする。 Further, in the search system according to the present invention, the similarity calculation means corresponds to a synthetic distributed expression obtained by synthesizing each distributed expression of a plurality of characteristic words of the company searched by the search means and the keyword. It is characterized by calculating the degree of similarity with the distributed expression of the feature word.
さらに、本発明に係る上記検索システムにおいて、前記特徴語記憶手段は、前記複数の特徴語のそれぞれについて該特徴語の出現頻度に基づくスコアを対応付けて記憶しており、前記類似度計算手段は、前記キーワードに対応する特徴語に類似する特徴語を前記学習モデルに基づいて計算し、前記キーワードに対応する特徴語及び該特徴語に類似する複数の特徴語とそれらの前記スコアを含む第1のベクトルと、各企業が保有する特徴語とその前記スコアを含む第2のベクトルとの類似度を計算することを特徴とする。 Further, in the search system according to the present invention, the feature word storage means stores a score based on the appearance frequency of the feature word for each of the plurality of feature words in association with each other, and the similarity calculation means , A feature word similar to the feature word corresponding to the keyword is calculated based on the learning model, and the feature word corresponding to the keyword, a plurality of feature words similar to the feature word, and a first score thereof are included. It is characterized in that the similarity between the vector of the above and the feature word owned by each company and the second vector including the score thereof is calculated.
さらにまた、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記第1のベクトルと前記第2のベクトルに含まれる同一の特徴語間のスコアの積の総和に基づいて前記類似度を計算することを特徴とする。 Furthermore, in the search system according to the present invention, the similarity calculation means is based on the sum of the products of the scores between the first vector and the same feature words included in the second vector. Is characterized by calculating.
さらにまた、上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索サーバにおける検索方法であって、所定の期間内に企業から情報のアップロードを受け付ける受付工程と、入力装置から入力されたキーワードを取得する取得工程と、前記キーワードに対応する特徴語を持つ企業を、過去に実施されたビジネスパートナー探索における前記企業に関する情報及び前記受付工程でアップロードが受け付けられた前記情報から抽出された前記企業の特徴を表す複数の特徴語を企業ごとに記憶する特徴語データベースから検索する検索工程と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索工程で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算工程と、前記類似度を考慮して前記検索工程で検索された前記企業が持つ複数の特徴語を含む企業リストを生成するリスト生成工程とを有することを特徴とする。 Furthermore, in order to solve the above problems, the present invention is a search method in a search server that generates a company list for the purpose of searching for a business partner, and includes a reception process that accepts information uploads from companies within a predetermined period. , The acquisition process of acquiring the keyword input from the input device and the company having the feature word corresponding to the keyword were uploaded in the information about the company in the business partner search conducted in the past and the reception process. A search process for searching a feature word database that stores a plurality of feature words representing the characteristics of the company extracted from the information for each company, and machine learning for predicting one feature word from the plurality of feature words are performed. With reference to a learning model database that stores the obtained distributed expressions of the feature words for each feature word and uses them as a learning model, the distributed expressions based on the plurality of feature words of the company searched in the search step and the keywords. A similarity calculation process for calculating the similarity with the distributed expression based on the feature words corresponding to the above, and a company list including a plurality of feature words of the company searched in the search step in consideration of the similarity are generated. It is characterized by having a list generation step to be performed.
さらにまた、上記課題を解決するために、本発明に係るコンピュータ読み取り可能な検索プログラムは、ビジネスパートナー探索を目的として企業リストを生成する検索サーバに、所定の期間内に企業から情報のアップロードを受け付ける受付手順と、入力装置から入力されたキーワードを取得する取得手順と、前記キーワードに対応する特徴語を持つ企業を、過去に実施されたビジネスパートナー探索における前記企業に関する情報及び前記受付手順でアップロードが受け付けられた前記情報から抽出された前記企業の特徴を表す複数の特徴語を企業ごとに記憶する特徴語データベースから検索する検索手順と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索手順で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手順と、前記類似度を考慮して前記検索手順で検索された前記企業が持つ複数の特徴語を含む企業リストを生成するリスト生成手順とを実行させることを特徴とする。 Furthermore, in order to solve the above problems, the computer-readable search program according to the present invention accepts information upload from a company within a predetermined period to a search server that generates a company list for the purpose of searching for a business partner. The reception procedure, the acquisition procedure for acquiring the keyword input from the input device, and the company having the characteristic word corresponding to the keyword can be uploaded by the information about the company in the business partner search conducted in the past and the reception procedure. A search procedure for searching a feature word database that stores a plurality of feature words representing the characteristics of the company extracted from the received information for each company, and machine learning for predicting one feature word from the plurality of feature words. Refer to the learning model database that stores the distributed expression of the feature word obtained by performing the above for each feature word and uses it as a learning model, and the distributed expression based on the plurality of feature words of the company searched by the search procedure. A company including a plurality of feature words of the company searched by the search procedure in consideration of the similarity calculation procedure for calculating the similarity with the distributed expression based on the feature words corresponding to the keyword and the similarity. It is characterized by executing a list generation procedure for generating a list.
本発明によれば、過去のビジネスパートナー探索の成果等を効果的に活用でき、ビジネスパートナー探索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的にリストアップできる。例えば、過去のビジネスパートナー探索における発注企業及び受注企業間の質問及び回答等の書き込みを含む情報から抽出された特徴語を考慮した企業探索ができる。 According to the present invention, it is possible to effectively utilize the results of the past business partner search, reduce the burden on the user in the business partner search, and effectively list candidate companies suitable as business partners. For example, it is possible to search for a company in consideration of characteristic words extracted from information including writing questions and answers between the ordering company and the ordering company in the past business partner search.
以下、図面を参照して、本発明の一実施形態について説明する。
図1は、本発明の一実施形態に係る検索システム1の構成図である。図1に示すように、本実施形態に係る検索システム1は、複数のユーザ端末10と管理サーバ20で構成され、それぞれインターネット等の有線又は無線のネットワーク30で通信可能に接続されている。以下では、ビジネスパートナー企業の探索を含む企業マッチングサービスを提供する企業(以下、「管理企業」という)に上記検索システム1が導入され、SaaS(Software as a Service)型のクラウドサービスによって以下で詳述するビジネスパートナー候補企業の検索やその他の各種処理が行われるものとする。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a configuration diagram of a
ユーザ端末10は、例えば、管理企業のビジネスパートナー探索を行う部署の管理者又はその部署に所属する担当者のパーソナルコンピュータ等である。管理企業がビジネスパートナー探索の依頼を顧客企業(以下、「発注企業」という)から受けると、管理企業の担当者はビジネスパートナー企業に期待する技術等を発注企業の担当者等にヒアリング等を行い、検索のための適切なキーワードを検討する。そして、ユーザ端末10のユーザ(管理企業の担当者等又は別の人員)は、検討されたキーワードを用いて候補企業の検索を行い、ビジネスパートナーの候補企業リストを作成する。具体的には、ユーザ端末10のユーザは、管理サーバ20が管理するWebサイトにアクセスをしてキーワードを入力する。管理サーバ20は、入力されたキーワードに基づいて候補企業の検索を行い、ビジネスパートナーの候補企業リストを生成する。このとき、当該リストはユーザ端末10からアクセスしたWebサイトで表示可能になっている。
The
ここで、ユーザ端末10は、管理企業だけでなく、ビジネスパートナーの探索サービスの提供を受ける発注企業や、候補企業リストに基づいて発注企業が面談を希望する受注候補企業等(以下、「候補企業」という)に導入されていてもよい。この場合、発注企業の担当者等は、それぞれのユーザ端末10から自社の企業情報やビジネスパートナー探索に関する情報(ビジネスパートナー探索の詳細や受注候補企業への質問等)を管理サーバ20にアップロードしたり、管理企業のユーザによって検索された候補企業リストを閲覧することができる。また、受注企業の担当者等は、ユーザ端末10から自社の企業情報やビジネスパートナー探索に関する情報(発注企業等へのアピール文や発注企業からの質問の回答等)を管理サーバ20にアップロードできる。
Here, the
図2は、本発明の一実施形態に係る検索システム1におけるユーザ端末10の構成を示すブロック図である。図2に示すように、ユーザ端末10は、ユーザがキーワードやコマンド等を入力するキーボードやタッチパネル等の入力部11、入力されたキーワードや管理サーバ20で生成された候補企業リスト等のデータを表示するモニタ等の表示部12、各種処理を行う処理部13、及び管理サーバ20やその他の不図示の装置等とネットワーク30を介して通信処理を行う通信部14を備えている。処理部13は、CPUやプログラムを格納したROM、RAM等によって構成され、ROMに記憶されたプログラムに従って各種処理を行う。本実施形態において、ユーザ端末10はパーソナルコンピュータとして説明するが、それ以外に、スマートフォンやタブレット等の通信端末であってもよい。
FIG. 2 is a block diagram showing a configuration of a
図3は、本発明の一実施形態に係る検索システム1における管理サーバ20の構成を示すブロック図である。図3に示すように、管理サーバ20は、ユーザ端末10やその他の不図示の外部装置等とネットワーク30を介して通信処理を行う通信部21、プログラムや各種データ等の情報を記憶する記憶部22、ユーザ端末10で入力されたキーワードに基づいてビジネスパートナー候補企業の検索を行う検索部23、入力されたキーワードと検索された企業の特徴との類似度計算を行う類似度計算部24、計算された類似度を用いてビジネスパートナーの候補企業リストを生成するリスト生成部25を備えている。
FIG. 3 is a block diagram showing the configuration of the
また、管理サーバ20は、ユーザ端末10やその他の外部装置(不図示)から候補企業の技術等に関する情報やその企業の技術等の特徴をタグ付けによって示すための技術タグ情報を取得し、データベースとして記憶部22に記憶させるデータベース構築部26、企業の特徴を示す特徴語を生成する特徴語生成部27、及び特徴語の学習モデルを生成する学習モデル生成部28を備える。また、記憶部22は、候補企業の技術等に関する情報を記憶する企業データベース221、技術タグ情報を記憶する技術タグデータベース222、特徴語を記憶する特徴語データベース223、及び学習モデルを記憶する学習モデルデータベース224を備えている。
In addition, the
本実施形態において、管理サーバ20は、上述の各ユニット(通信部21〜学習モデル生成部28)の処理機能を1つのサーバで実現するようにしているが、この機能を複数のサーバで実現するようにしてもよい。また、各サーバを単一の計算機で構成するようにしてもよいし、物理的に異なる複数の計算機等で構成されるようにしてもよい。
In the present embodiment, the
データベース構築部26は、ユーザ端末10又はその他の外部装置(不図示)から、インターネット上で公開されている企業のホームページや有償・無償のデータベースから選択的に抽出された発注企業や受注候補企業の企業概要、事業概要及び保有技術等に関する企業情報等(以下、「公開企業情報」という)を取得すると、企業ごとに付与される企業IDに対応付けて記憶部22に記憶することで企業データベース221を新規に構築又は記憶情報を更新する。例えば、公開企業情報には、法人名(企業名)、本社の所在地(住所)、企業概要の説明文、事業概要の説明文、保有技術の説明文及び企業ホームページのアドレス(URL)等の公開情報が含まれる。なお、公報企業情報には、公開情報に基づいて管理企業の担当者等が企業概要、事業概要又は保有技術の説明文を起案した文章も含まれる。
The
また、データベース構築部26は、ユーザ端末10又はその他の外部装置(不図示)から、管理企業における過去及び現在のビジネスパートナー探索プロジェクトの案件についてのエントリー情報(受注候補企業からの立候補に関する情報やその際のアピール文等の付加情報等)、過去及び現在のビジネスパートナー探索の過程で発注企業と候補企業との間でなされた質問とその回答に関する情報、及び、候補企業が保有している技術で外部企業への提供が可能な技術(シーズ技術)に関する情報等(以下、「非公開企業情報」という)を取得すると、企業IDに対応付けて記憶部22に記憶することで企業データベース221を新規に構築又は記憶情報を更新する。
In addition, the
さらに、データベース構築部26は、ユーザ端末10又はその他の外部装置(不図示)から、その企業が保有しているISO(登録商標)等の製品・サービスに関する国際規格や国内規格に関するタグ情報(以下、「規格タグ」という)、製品の加工・生産等のための装置・設備に関するタグ情報(以下、「設備タグ」という)、国・地方公共団体や各種業界団体等から表彰を受けた受賞歴等に関するタグ情報(以下、「受賞歴タグ」という)を含む技術タグ情報を取得すると、記憶部22に記憶することで技術タグデータベース(技術タグ辞書)222を新規に構築又は記憶情報を更新する。
Further, the
なお、データベース構築部26による公開企業情報及び非公開企業情報の取得及び企業データベース221への記憶・更新処理、技術タグ情報の取得及び技術タグデータベース222への記憶・更新処理は、後述するキーワード検索や候補企業リストの生成に係る処理と共に行ってもよいし、これらの処理とは独立して行うようにしてもよい。例えば、データベース構築部26は、数か月に1回等、定期的に又は任意のタイミングで外部装置等から公開企業情報、非公開企業情報及び技術タグ情報を取得して企業データベース221及び技術タグデータベース222の記憶情報をアップデートするようにしてもよい。なお、企業データベース221の公開企業情報及び非公開企業情報、及び技術タグデータベース222の技術タグ情報は、後述する特徴語生成処理や学習モデル生成処理等での処理を容易化するためにテキストデータで記憶されている。
The acquisition of public company information and private company information by the
特徴語生成部27は、企業データベース221から企業ごとに公開企業情報及び非公開企業情報を取得して結合テキストデータを生成し、その結合テキストデータに対して形態素解析・不要語除去処理を経て得られた技術関連用語を特徴語として生成し、企業IDに対応付けて記憶部22に記憶させることで特徴語データベース223に新規に記憶又は情報を更新する。図4は、本発明の一実施形態に係る特徴語データベース223のデータ構造例を示す図である。本実施形態において、特徴語データベース223には、特徴語生成部27で生成された特徴語がそのスコアと対応付けて企業ごとに記憶されている。また、各企業が保有する特徴語の個数として、企業ごとにスコアが上位の特徴語をスコアとともに記憶するが、本実施形態では一例として500個の特徴語をそのスコアとともに記憶するものとする。
The feature
ここで特徴語のスコアについて説明する。本実施形態において特徴語のスコアは、企業データベース221に記憶されている全テキストデータにおける各特徴語の出現頻度におけるそれぞれの企業における結合テキストデータから生成される特徴語の出現頻度の割合に所定の係数を乗算した数値で示される。本実施形態は、特に製造業を中心としたビジネスパートナー探索を効果的に行うために、製造業界特有の単語が特徴語として多く格納されており、製造業向けの辞書を含む検索システムとなっている。 Here, the score of the feature word will be described. In the present embodiment, the feature word score is determined by the ratio of the appearance frequency of the feature words generated from the combined text data in each company to the appearance frequency of each feature word in all the text data stored in the company database 221. It is indicated by a numerical value multiplied by a coefficient. In this embodiment, in order to effectively search for business partners especially in the manufacturing industry, many words peculiar to the manufacturing industry are stored as characteristic words, and the search system includes a dictionary for the manufacturing industry. There is.
学習モデル生成部28は、製造業の企業ごとに特許文献、企業の研究開発報告書、技術関連ニュース等の技術に関する公開文献情報(以下、「技術文書」という)に含まれる特徴語について、周辺の複数の特徴語から一の特徴語を予測する深層学習を行ってそれぞれの特徴語を高次元ベクトルで表現した分散表現を生成し、分散表現の特徴語を学習モデルとして学習モデルデータベース224に記憶する。図5は、本発明の一実施形態に係る学習モデルデータベース224のデータ構造例を示す図である。本実施形態において、学習モデルデータベース224には、特徴語データベース223に記憶されている特徴語に基づいて学習モデル生成部28で生成された各特徴語の分散表現が、特徴語ごとにベクトルの次元順に数値で示されて記憶されている。本実施形態では、後述するように各特徴語を少なくとも数百次元以上の高次元ベクトル(具体的には、500次元のベクトル)の分散表現で構築しているため500個の数字が記憶されているが、ベクトルの次元数についてはこれに限られず、適宜変更できるようなシステム設計にすることもできる。学習モデルデータベース224の生成処理の詳細については後述する。
The learning
以下、図面を参照して、本発明の一実施形態に係る管理サーバ20におけるキーワード検索によるビジネスパートナー候補企業のリスト生成処理について説明する。以下の実施形態では、企業マッチングサービスを提供している管理企業に検索システム1が導入されており、発注企業からの企業探索サービスの発注を受けて管理企業のユーザが社内のユーザ端末10を用いてキーワード検索を行って候補企業のリストを生成する管理サーバ20における一連の検索処理について説明する。
Hereinafter, a list generation process of business partner candidate companies by keyword search on the
図6は、本発明の一実施形態に係る検索システム1の管理サーバ20における全体処理を説明するためのフローチャートである。検索システム1において、記憶部22内の企業データベース221、技術タグデータベース222、特徴語データベース223及び学習モデルデータベース224の新規構築及び記憶情報の更新処理(ステップS11)は、ユーザ端末10のユーザが行うキーワード検索処理と同時に、又はその前後にそれぞれ独立的に行うことが可能であるが、以下の実施形態では説明を容易にするために、ユーザ端末10のユーザによるキーワード検索処理に先立って行う形態で説明する。
FIG. 6 is a flowchart for explaining the overall processing in the
[企業データベース221の構築・更新]
管理サーバ20のデータベース構築部26は、ユーザ端末10によるキーワード検索に先立って、ユーザ端末10又はその他の外部装置(不図示)等から候補企業の公開企業情報及び非公開企業情報を取得し、その情報を企業ごとに企業データベース221に新規に記憶又は既存情報の更新を行う。
[Construction / update of corporate database 221]
Prior to the keyword search by the
本実施形態において、公開企業情報は、インターネットを介してアクセス可能な各企業のホームページやプレスリリース、ニュース記事等からそれぞれの企業の技術情報等をテキストデータ形式で取得したものである。なお、公開されている企業情報がHTML形式のようなデータの場合には、ヘッダーやフッター等の不要語を公知の手法等で除去することによってテキストデータに変換することができる。また、取得のタイミングに特に制限はなく、管理者のユーザ端末10やその他の外部装置(不図示)等から常時又は定期的に、或いは任意のタイミングで管理サーバ20にアップロードされ、データベース構築部26がそのデータを企業データベース221に新規に記憶又は記憶されている情報を更新する。
In the present embodiment, the public company information is obtained by acquiring the technical information of each company in text data format from the homepage, press release, news article, etc. of each company accessible via the Internet. When the publicly available company information is data such as HTML format, it can be converted into text data by removing unnecessary words such as headers and footers by a known method or the like. Further, there is no particular limitation on the acquisition timing, and the data is uploaded to the
また、本実施形態において、非公開企業情報は、ビジネスパートナー探索のプロジェクト案件ごとに決められた期間中に、候補企業の担当者等がそれぞれのユーザ端末10から管理サーバ20にアクセスし、データを入力することで管理サーバ20にアップロードされる。例えば、ビジネスパートナー探索プロジェクトの案件情報が候補企業に提示された後、1か月の期間を設け、その期間内だけ発注企業からの質問事項に関する受注候補企業からの回答(すなわち、非公開企業情報)を受け付けてデータ入力を可能にすることができる。なお、当該期間は、これ以外に、各ビジネスパートナー探索プロジェクトが行われている全期間であってもよいし、特に期間を設けずにいつでも入力できるようにしておき、管理者が任意のタイミングで入力の可否を調整できるようにしてもよい。この処理は、管理サーバ20のデータベース構築部26によって制御され、ユーザ端末10で入力された非公開企業情報が管理サーバ20にアップロードされると、企業データベース221に新規に記憶又は既存情報の更新が行われる。ここで、入力される非公開企業情報として、例えば、候補企業の最新の技術や発注企業への技術力のアピール文等の企業のオリジナル情報や発注企業からの質問事項に対する回答情報等が含まれる。
Further, in the present embodiment, the person in charge of the candidate company accesses the
[技術タグデータベース222の構築・更新]
管理サーバ20のデータベース構築部26は、さらにユーザ端末10によるキーワード検索に先立って各企業が保有する潜在的な技術特徴等をタグ付けするための基礎となる技術タグ情報をユーザ端末10又はその他の外部装置(不図示)から取得し、技術タグデータベース222に新規に記憶又は既存情報を更新する。本実施形態では、上記企業データベース221の構築と同時又はそれと前後して技術タグ情報を取得し、技術タグデータベース222を構築する。技術タグ情報には、前述のように、規格タグ、設備タグ及び受賞歴タグが含まれる。
[Construction / update of technical tag database 222]
The
生成される候補企業リストの付属情報として、各企業IDと上記技術タグに関する情報を対応付けて表示可能にすることによって、ユーザは、候補企業の絞り込みのために、その企業が保有する国際規格、設備・装置又は受賞歴を含む技術タグの項目を参照して、一目で候補企業の潜在的な技術力を比較することができる。例えば、規格タグの項目に様々な国際規格等や受賞歴が表示されるような企業は、一目で製品・サービスの品質を重視することに留意していると考えられる企業であり、また他機関等から表彰されるほど技術力が高い企業であると想像でき、さらに設備タグの項目に様々な装置・設備名が表示されるような企業は、装置・設備名を一目見るだけで試作や量産等の対応が可能な企業であるかを推察することができる。また、例えば、クリーンルームの保有がビジネスパートナー企業に要求されるような場合、「クリーンルーム」が特徴語として含まれるが、そのスコアが低い場合はリストアップされた時にユーザ端末10の画面上には特徴語が表示されない場合もある。しかし、そのような場合でも設備タグを参照することで、ユーザは一目でクリーンルームを保有していることを確認できる。また、ユーザは、国際規格や受賞歴等が表示されるので企業の生産体制や信頼性を推測することができる。また、検索するユーザが専門知識を持っていない場合でも、技術タグの項目を一目見るだけで容易にその企業の特徴を確認することができる。
By making it possible to display the information related to each company ID and the above technology tag in association with each other as the attached information of the generated candidate company list, the user can use the international standard owned by the company to narrow down the candidate companies. It is possible to compare the potential technological capabilities of candidate companies at a glance by referring to the items of technology tags including equipment / equipment or award history. For example, a company whose standard tag item displays various international standards and awards is a company that is considered to be paying attention to the quality of products and services at a glance, and other organizations. It can be imagined that the company has high technical capabilities so that it can be commended from the above, and companies that display various equipment / equipment names in the equipment tag item can make prototypes or mass-produce them just by looking at the equipment / equipment names. It is possible to infer whether the company is capable of dealing with such issues. Further, for example, when a business partner company is required to own a clean room, "clean room" is included as a feature word, but when the score is low, the feature is displayed on the screen of the
[特徴語データベース223の構築・更新]
管理サーバ20の特徴語生成部27は、企業データベース221の企業情報(テキストデータ)から企業ごとに特徴語とそのスコアを生成して、それらを特徴語データベース223に新規に記憶又は既存情報を更新する。
[Construction / update of feature word database 223]
The feature
ここで、特徴語生成部27における特徴語生成処理の詳細について説明する。本実施形態は、後述するキーワード検索等の処理に先立って企業データベース221に記憶されている企業情報等から特徴語を生成して特徴語データベース223に記憶する。なお、本処理は後述するキーワード検索時に行うようにしてもよいが、本実施形態では本処理はキーワード検索処理とは独立した処理とし、事前に特徴語を特徴語データベース223に記憶しておき、また独立して逐次特徴語データベース223に記憶される特徴語の更新を行うものとする。
Here, the details of the feature word generation process in the feature
特徴語生成部27は、まず企業データベース221からテキストデータの企業情報(公開企業情報及び非公開企業情報)を呼び出す。次に、特徴語生成部27は、呼び出した企業情報から不要語を除去して特徴語を抽出する。具体的には、特徴語生成部27は、技術用語をまとめた技術辞書(不図示)やその単語の文法上等の属性をまとめた属性辞書(不図示)等を用いて、テキストを形態素に分解・決定する形態素解析を行って、その結果から技術用語を抽出する。この際、同義語やゆらぎ語(例えば、「モーター」と「モータ」)は1つの単語としてまとめるようにする。不要語除去においては、不要語辞書(不図示)を用意して、形態素化されたテキストのうち、助詞や非技術用語(名詞)等を不要語として除去する。不要語を除去した後の単語は技術用語と想定され、特徴量(後述のスコア)が計算される。なお、特徴語生成部27は、抽出した単語(技術用語)に対して、ビジネスパートナー探索における技術的な特徴を表す単語として共通的に用いられて一般化しているような抽象的な単語(例えば、「〇〇装置」の「装置」等)を抽象語として取り除き、残った単語(例えば、「〇〇装置」の「〇〇」の部分)を特徴語として特徴語データベース223に格納(新規に記憶又は情報を更新)する。
The feature
本実施形態において各特徴語にはそのテキスト(特徴語)の特徴を表す指標としてスコアと呼ばれる特徴量(スカラ量)が与えられている。本実施形態では、この指標としてTF−IDF(Term Frequency - Inverse Document Frequency)値を採用している。TF−IDF値はTF値とIDF値との積で、TF値は企業のテキストデータの中での各単語の出現頻度、IDF値は全企業のテキストデータのうち、全企業に対する各単語を含む企業数の割合の逆数に対数をとった値である。このスコアは文書に含まれる単語の重要度を示すもので文書の特徴を判別することができる。具体的には、「ある文書の中で何度も出現する単語、かつ多くの文書に出現しない単語はその文書を特徴付ける重要な単語」と理解できる。ここで、TF−IDF値が高い順番に単語を並び替えると技術単語以外の単語も上位にランクインするため、前述のように技術単語辞書を用意して、その辞書に含まれる単語のみファクターを乗算して特徴語データベース223に格納する。
なお、スコアの指標や次元数についてはこれに限定されるものではなく、実装するシステムの性質や目的によって適宜変更するようにしてもよい。
In the present embodiment, each feature word is given a feature amount (scalar amount) called a score as an index indicating the feature of the text (feature word). In this embodiment, a TF-IDF (Term Frequency --Inverse Document Frequency) value is adopted as this index. The TF-IDF value is the product of the TF value and the IDF value, the TF value is the frequency of appearance of each word in the text data of the company, and the IDF value is the text data of all companies including each word for all companies. It is the logarithmic value of the reciprocal of the ratio of the number of companies. This score indicates the importance of the words contained in the document, and can distinguish the characteristics of the document. Specifically, it can be understood that "words that appear many times in a document and words that do not appear in many documents are important words that characterize the document." Here, if the words are rearranged in descending order of TF-IDF value, words other than technical words are also ranked high, so prepare a technical word dictionary as described above and set the factor only for the words included in the dictionary. Multiply and store in the
The score index and the number of dimensions are not limited to this, and may be appropriately changed depending on the nature and purpose of the system to be implemented.
[学習モデルデータベース224の構築・更新]
管理サーバ20の学習モデル生成部28は、製造業に関する技術文書中に含まれる特徴語を周辺の特徴語から予測させる深層学習を行ってそれぞれの特徴語を高次元ベクトルの分散表現で構築した学習モデル(学習済みモデル)を生成し、学習モデルデータベース224に特徴語ごとに新規に記憶又は記憶情報を更新する。
[Construction / update of learning model database 224]
The learning
ここで、特徴語の高次元ベクトルの分散表現には、文字・単語をベクトル空間に埋め込み、その空間上の一つの点としてとらえる単語分散表現を用いることができる。本実施形態では、Word2Vecを用いた学習済みの埋め込み空間で単語ベクトル空間を表現している。なお、ベクトル空間表現はWord2Vecに限られることはなくDoc2VecやTF−IDF等のその他のベクトル空間モデルを使用するようにしてもよい。 Here, as a distributed expression of a high-dimensional vector of a feature word, a word distributed expression in which characters / words are embedded in a vector space and regarded as one point in the space can be used. In this embodiment, the word vector space is expressed by the learned embedded space using Word2Vec. The vector space representation is not limited to Word2Vec, and other vector space models such as Doc2Vec and TF-IDF may be used.
また、学習モデル生成部28における深層学習は、入力層、中間層及び出力層の多層構造のニューラルネットワークを用いて行われ、文章中の各単語(「中心語」と呼ぶ)に対して入力層に中心語の周辺の単語(「周辺語」と呼ぶ)をワンホット(one-hot)表現へ変換したベクトルを与え、出力層に中心語をワンホット表現へ変換したベクトルを与えて、周辺語から中心語を予測する学習を行う。本実施形態は、例えば、中心のある単語を周辺の単語から予測する教師あり学習法であるCBOW(Continuous Bag of Words)法を用い、入力として周辺語を与え、中心語の予測を出力する学習を行い、学習を通じてある単語の周囲にどのような単語が現れる可能性が高いのかを学習させる。学習が終われば各単語の分散表現が得られる。ここで、分散表現は、中間層への重み行列とする。中間層の次元は100〜1000次元を選ぶのが一般的であるが、本実施形態では500次元を採用する。
Further, deep learning in the learning
前述したように、本実施形態に係る検索システム1では、技術文書として、特許文献、企業の研究開発報告書、技術関連ニュース等の技術に関する公開文献情報を用いて学習を行っている。一方、一般のニュース記事等のように、専門用語が正しく使われていない可能性が高い文書や、学術論文のようなその分野の専門家しか理解できないような専門用語や表現が多く含まれるような文書は学習対象の技術文書から除くようにしている。すなわち、いわゆる「ものづくり」の分野である製造業界におけるビジネスパートナー探索に好適なシステムとなるように、学習対象の技術文書を上記のように限定することで、最適な機械学習が行われるようにしている。
As described above, in the
学習モデル生成処理は、後述する類似度計算処理の直前に行うようにしてもよいが、本実施形態では本処理は類似度計算処理とは独立した処理とし、事前に学習モデルを生成して学習モデルデータベース224に記憶しておき、定期的に(例えば、四半期に一度)学習モデルデータベース224に記憶される学習モデルの更新を行うものとする。
The learning model generation process may be performed immediately before the similarity calculation process described later, but in the present embodiment, this process is a process independent of the similarity calculation process, and a learning model is generated and learned in advance. It is stored in the
また、学習モデルデータベースをユーザの目的にあわせて選択的に使用できるように複数の学習済みモデルを備えたシステムにしてもよい。このようにすることで、例えば、自動車業界と素材・金属業界とで用いられる特徴語「モータ」のニュアンスの違いに対応することができる。また、製造業をさらにいくつかの細部業種に分類してそれぞれの細部業種で別のデータベースを設けたり、製造業を含む複数の業種のデータベースを設けたりして、ビジネスパートナー探索の内容に応じて使用するデータベースを適宜選択できるようにしてもよい。 Further, the system may include a plurality of trained models so that the learning model database can be selectively used according to the user's purpose. By doing so, for example, it is possible to deal with the difference in nuance of the characteristic word "motor" used in the automobile industry and the material / metal industry. In addition, the manufacturing industry is further classified into several detailed industries and a separate database is set up for each detailed industry, or a database for multiple industries including the manufacturing industry is set up, depending on the content of the business partner search. The database to be used may be appropriately selected.
[キーワード候補(特徴語)の提示処理]
ビジネスパートナー候補企業のリストアップをキーワード検索に基づいて行う場合、通常は複数の異なるキーワードを同時に、又は逐次入力し、適切な候補企業がリストアップされるように検索結果を絞り込んでいくという作業が発生する。そこで、本実施形態では、ビジネスパートナー候補企業のリストアップを行うユーザが、ユーザ端末10で一つ目のキーワードを入力し、そのキーワードと一致するテキストデータが企業データベース221に記憶された企業情報に含まれているか、そのキーワードに対応する特徴語が特徴語データベース223に保持されている企業をリストアップする(ステップS12)。この際、管理サーバ20は、入力されたキーワードに基づいて候補企業のリストを生成するが、そのリストに候補企業が持つ複数の特徴語を含めることで、そのユーザが候補企業の絞り込み検索を行う際のキーワード候補をユーザ端末10を介してユーザに示唆することができる。図7は、本発明の一実施形態に係る検索システム1の管理サーバ20における新たなキーワード候補(特徴語)の生成処理(ステップS12)の詳細を説明するためのフローチャートである。
[Keyword candidate (characteristic word) presentation processing]
When listing business partner candidate companies based on keyword search, it is usually necessary to enter multiple different keywords at the same time or sequentially to narrow down the search results so that appropriate candidate companies are listed. appear. Therefore, in the present embodiment, the user who lists the business partner candidate companies inputs the first keyword on the
検索システム1のユーザは、ユーザ端末10を用いて所定のキーワードを入力してその情報を管理サーバ20に検索指示を送信する。本実施形態では、まず「樹脂成型」が一つ目のキーワードとして入力された場合を例に挙げる。管理サーバ20は、通信部21を介してユーザ端末10で入力されたキーワード「樹脂成型」を取得する(ステップS121)。
The user of the
次に、検索部23は、取得したキーワード「樹脂成型」と同一の特徴語「樹脂成型」を持つ企業を記憶部22内の特徴語データベース223の中から検索し、ヒットした企業の企業IDを取得する(ステップS122)。例えば、本実施形態では、図4に示される特徴語「樹脂成型」を保有する複数の企業の企業ID「5398,36588,34589、…」がヒットすることとなり、特徴語「樹脂成型」を保有しない企業の企業IDはヒットしない。
Next, the
次に、リスト生成部25は、検索部23でヒットした企業IDの企業が保有する特徴語のうちスコアの高い特徴語とそのスコアを含む候補企業リストを生成する(ステップS123)。リスト生成部25で生成された候補企業リストは、管理サーバ20が管理するWebサイトにアクセスしたユーザ端末10の画面上に表示される。図8は、本発明の一実施形態に係る候補企業リストのユーザ端末10への表示例を示す図である。図8に示すように、ユーザ端末10には、「樹脂成型」という入力キーワードの他に、「液晶」、「板金」、「赤外線」等の他のキーワードとなり得る特徴語がスコアとともに表示される。そしてユーザは、特徴語「樹脂成型」と掛け合わせて検索するための、別の特徴語「試作」を二つ目のキーワードとして選択することができる。なお、ステップS123で生成された企業リストを提示する場合(ユーザ端末10の画面上に表示させる場合)に、企業IDと特徴語の他に、ユーザ便宜のために、リスト生成部25は、企業データベース221を参照して、企業IDに対応付けられている企業名、住所、URL、事業概要等をあわせて企業リストに含めるようにして生成してもよい。
Next, the
この際、一つ目のキーワード(上記例では「樹脂成型」)と表示される別の特徴語(上記例では「試作」)は類似している場合もあれば、類似していない場合もある。ユーザ端末10のユーザは、どのような複数の視点で検索するか等の検索目的に応じて表示されている特徴語から二つ目のキーワードを適宜選択すればよく、その際にキーワード同士が類似しているか類似していないかは考慮していない。
At this time, another characteristic word (“prototype” in the above example) displayed as the first keyword (“resin molding” in the above example) may or may not be similar. .. The user of the
なお、本実施形態では、一例として、企業ごとにスコアが高い上位10個の特徴語がスコアの高い特徴語から降順に表示されるようにしている。これにより、ユーザは、最初の検索時に予期しないキーワード候補を知ることができる。ここで、ユーザが最初に入力したキーワード「樹脂成型」と同一の特徴語のスコアが低く、上位10個よりも下位の場合は、この特徴語「樹脂成型」は表示されずに別の上位10個の特徴語がその企業の特徴語として表示される。 In the present embodiment, as an example, the top 10 feature words with the highest scores for each company are displayed in descending order from the feature words with the highest score. This allows the user to know unexpected keyword candidates at the time of the first search. Here, if the score of the same feature word as the keyword "resin molding" first entered by the user is low and lower than the top 10, this feature word "resin molding" is not displayed and another top 10 Individual feature words are displayed as feature words of the company.
また、ユーザ端末10に表示される特徴語は、それぞれの企業について表示する特徴語の個数を設定(例えば、スコアが上位X個(Xは自然数)の特徴語に設定)したり、しきい値以上のスコアを有する特徴語をすべて表示するように設定したりすることで、表示画面の錯綜状態を軽減することができる。
上述の処理により、ユーザは二つのキーワード「樹脂成型」及び「試作」を用いてビジネスパートナー候補企業のリストアップを行うことを決定する。
Further, for the feature words displayed on the
By the above process, the user decides to list the candidate business partner companies using the two keywords "resin molding" and "prototype".
なお、上述の実施形態に加えて、ステップS122の処理において、検索部23は、記憶部22内の企業データベース221に記憶されている各企業のテキストデータ(公開企業情報及び非公開企業情報)中に、取得したキーワードと同一のテキストデータを持つ企業を企業ごとに検索し、ヒットした企業の企業IDを取得するようにしてもよい。本実施形態では、各受注候補企業が保有する特徴語は500個に制限しているため、前述の出現頻度が低くスコアが小さな特徴語はデータとして保持されていない。そのため、特徴語データベース223には保持されていないが、企業データベース221のテキストデータには含まれているキーワードがユーザ端末10でキーワードとして入力された場合であっても、次回以降の検索で用いることができる有望な複数のキーワード候補を提示することができる。なお、この場合、リスト生成部25は、上述のステップS123の処理と同様に、ユーザ端末10で入力されたキーワードに一致するテキストデータが含まれていると検索部23で検索された受注候補企業が保有する複数の特徴語を含む企業リストを生成することとなるが、その特徴語の中にはそのキーワードは含まれていない。しかし、ユーザ端末10のユーザはリストアップされた様々な特徴語の中から次に検索する場合に適切だと思われる1又は複数のキーワードを容易に選定することができるようになる。
In addition to the above-described embodiment, in the process of step S122, the
これまでの処理により、企業データベース221には公開企業情報及び非公開企業情報を含む企業情報が記憶され、技術タグデータベース222には設備タグ、標準規格タグ及び受賞歴タグを含む技術タグ情報が記憶され、特徴語データベース223には企業ごとの特徴語とそのスコアが記憶され、学習モデルデータベースには特徴語の学習済みモデルが記憶されている。そして、ユーザ端末10のユーザが1つのキーワードを入力したことにより管理サーバ20において上述の処理が行われ、ユーザ端末10にはその他のキーワード候補が表示されるので、ユーザはよりビジネスパートナー候補企業を検索するための、より適切なキーワードを選択することができる。
By the processing so far, the company database 221 stores the company information including the public company information and the private company information, and the
そこで、以下の実施形態では、ユーザが2つのキーワードを入力してAND(アンド)検索を行うことでビジネスパートナー候補企業のリストを得る処理について説明する。ここで本実施形態では、上記2つのキーワードのAND検索を行うものとする。例えば、ユーザ端末10のユーザは、入力部11で「樹脂成型 試作」と2つのキーワードを両者間にスペースを挟んで入力する。
Therefore, in the following embodiment, a process of obtaining a list of business partner candidate companies by a user inputting two keywords and performing an AND search will be described. Here, in the present embodiment, it is assumed that the AND search of the above two keywords is performed. For example, the user of the
ユーザ端末10で入力された2つのキーワードを管理サーバ20が取得すると(ステップS13)、検索部23は前述のステップS122の処理と同様に、取得したキーワードと同一の特徴語を持つ企業を特徴語データベース223から検索し、その企業の企業IDを取得する(ステップS14)。この際の処理としては、例えば、入力された二つのキーワード(樹脂成型、試作)と同一の特徴語を両方とも保有している企業が検索される。例えば、本実施形態では、図4に示される特徴語「樹脂成型」及び「試作」の両方の特徴語を保有する複数の企業の企業ID「5398,34589,…」がヒットすることとなり、特徴語「樹脂成型」は保有するが特徴語「試作」を保有しない(特徴語として記憶されている500個に含まれていないものとする)企業の企業ID「36588,…」はヒットしない。
When the
[類似度計算処理]
次に、類似度計算部24は、取得した2つのキーワードと検索された企業との類似度を計算する(ステップS15)。図9は、本発明の一実施形態に係る検索システム1の管理サーバ20における類似度計算処理(ステップS15)の詳細を説明するためのフローチャートである。
[Similarity calculation processing]
Next, the
類似度計算部24は、ヒットした企業ごとに、各企業の特徴語の分散表現(高次元ベクトル表現)を学習モデルデータベース224から取得して合成分散表現を生成する(ステップS151)。本実施形態において合成分散表現は、各企業が保有する特徴語に与えられたそれぞれの高次元ベクトル表現を加算することで得られる。具体的には、ヒットした企業ごとに、その企業が保有する特徴語(本実施形態では各企業には500個の特徴語が付与されている)の分散表現をすべて足し合わせた合成分散表現を生成する。この際、各特徴語の分散表現は単純に足し合わせてもよいし、スコアが上位の特徴語は、その企業の特徴がより表されているものと考えて、スコアが下位の特徴語よりも高い重み付けを行って足し合わせて合成分散表現を生成するようにしてもよい。
The
次に、類似度計算部24は、ユーザ端末10で入力された二つのキーワード「樹脂成型」及び「試作」に対応する特徴語の分散表現を学習モデルデータベース224から取得し、それぞれの入力キーワードに対応する特徴語の分散表現から同様に合成分散表現を生成する(ステップS152)。なお、この際の合成処理は、両分散表現を単純に足し合わせてもよいし、一つ目のキーワードに対応する特徴語に二つ目又はそれ以降(三つ以上のキーワードが入力された場合)のキーワードに対応する特徴語よりも高い重み付けを与えて足し合わせるようにしてもよい。
Next, the
そして、類似度計算部24は、ステップS151で生成された企業の合成分散表現ベクトルとステップS152で生成されたキーワードの合成ベクトルの類似度を計算する(ステップS153)。本実施形態では、計算される類似度としてコサイン類似度を用いる。
Then, the
そして、リスト生成部25は、検索部23で検索された企業の企業名と、類似度計算部24で計算されたその企業の類似度を含む企業リストを生成する(ステップS16)。生成された企業リストは、管理サーバ20にアクセスしたユーザ端末10に表示されるWebブラウザで表示可能な形式で出力される。図10は、本発明の一実施形態に係る類似度を含む候補企業リストのユーザ端末10での表示例を示す図である。図10に示すように、ユーザ端末10には、候補企業名が類似度とともに表示される。これにより、候補企業がリストアップされた時点でビジネスパートナーとして相応しいか否かの目安が類似度に基づいて確認できる。そのため、ユーザは従来のようなリストアップした候補企業を全社確認する必要はなく、類似度が上位の企業のみ、或いはしきい値以上の類似度の企業のみ確認するようにすることで、リストアップ後の手間・コストを削減することができる。また、検索結果(出力情報)の標準化が図れるとともに、ユーザの検索目的を酌んだプラスアルファの企業情報を提供できる。なお、企業リスト表示の際には、図8で示したように、ユーザ便宜のために、リスト生成部25は、企業データベース221を参照して、企業IDに対応付けられた企業名、住所、URL及び事業概要等をあわせて企業リストに含めるようにして企業リストを生成するようにしてもよい。
Then, the
また、ビジネスパートナー企業探索における発注企業からの要求事項(リクワイヤメント)に保有規格、保有設備又は特定の表彰の受賞歴の有無等に関する項目があるような場合は、それらが探索上重要な要素であるとして、候補企業がリストアップされた後等に、リスト生成部25が技術タグ情報を参照し、それらの技術タグを保有しない企業をリストアップ対象から外すような処理を行うことも可能である。また、リクワイヤメントに記載されている保有設備等を保有する企業をリストアップの際に、案件によりマッチする企業であるとして、上位に表示するような処理を行うこともできる。
In addition, if the requirements (requirement) from the ordering company in the search for a business partner company include items related to owned standards, owned equipment, or whether or not a specific award has been awarded, those are important factors in the search. Therefore, after the candidate companies are listed, the
[非公開企業情報の取得及び企業データベース221への記憶処理]
ここで、上述した類似度はそのままのレーティングだけではビジネスマッチングシステムとしての信頼性は低い可能性がある。これは単に公開情報等のキーワードだけで類似度を見ているためである。そこで、本実施形態では、過去のビジネスパートナー探索において取得されたプロジェクト案件での入力情報や、さらに実際に発注企業と受注候補企業とが面談に進んでいる等の付加情報を非公開企業情報として企業データベース221に記憶させ、それらを含む結合テキストデータから特徴語を生成することで、より高い信頼性を持つ検索システムを構築している。
[Acquisition of private company information and storage processing in company database 221]
Here, there is a possibility that the reliability as a business matching system is low only by the rating with the above-mentioned similarity as it is. This is because the similarity is viewed only by keywords such as public information. Therefore, in the present embodiment, the input information in the project project acquired in the past business partner search and the additional information such as the fact that the ordering company and the order candidate company are actually proceeding to the interview are used as non-public company information. A search system with higher reliability is constructed by storing it in the company database 221 and generating feature words from the combined text data including them.
前述のとおり、本実施形態に係る検索システム1におけるビジネスパートナー候補企業の探索においては、公開企業情報だけでなく非公開企業情報も重要な位置付けにある。
ここでは、データベース構築部26による非公開企業情報の取得及び企業データベース221への記憶処理の詳細について説明する。
As described above, in the search for business partner candidate companies in the
Here, the details of the acquisition of private company information by the
本実施形態では、所定の時期に限って、管理企業の検索システム1の管理サーバ20に発注企業のユーザ端末又は受注候補企業のユーザ端末10からアクセスし、非公開企業情報をそれぞれ入力又はアップロードすることができる。例えば、受注候補企業のユーザ端末10からビジネスパートナー探索のプロジェクト案件がスタートし、受注企業を募集する期間である1か月間に限って、受注候補企業の担当者等が案件に対する回答を管理サーバ20が管理するWebブラウザを介して入力することができるようにする。なお、当該期間は、これ以外に、各ビジネスパートナー探索プロジェクトが行われている全期間であってもよいし、特に期間を設けずにいつでも入力できるようにしておき、管理者が任意のタイミングで入力の可否を調整できるようにしてもよい。入力された回答情報等は非公開企業情報としてデータベース構築部26によって企業データベース221に記憶され、情報が新規に記憶又は既存情報が更新される。
In the present embodiment, the
一般に、公開企業情報は事業概要やサービス説明等の一般的な情報であって、その企業のコアな技術力に関する情報が書かれていないことも多い。一方で個々のビジネスパートナー探索プロジェクトにおける質問等の回答情報には、その探索案件の募集概要に見合った受注候補企業からのアピール文を含む提案内容が書かれており、それぞれの企業等の様様な事情や技術・開発のトレンド等を加味したその企業に関するより専門的な技術情報がテキスト入力される。そこでこの情報(非公開企業情報)から生成された特徴語については、公開企業情報から生成された特徴語よりも、重み付けを大きくすることでより過去の類似したビジネスパートナー探索で得た情報をより有効に活用した検索システムを構築することができる。具体的には、回答情報中の何回も繰り返し用いられたテキストに対応する特徴語により高い重み付けを与えたシステムにしてもよい。 In general, public company information is general information such as business outlines and service explanations, and often does not contain information on the core technical capabilities of the company. On the other hand, in the answer information such as questions in each business partner search project, the content of the proposal including the appeal statement from the order candidate company that matches the recruitment outline of the search project is written, and it is like each company etc. More specialized technical information about the company, taking into account circumstances, technology and development trends, etc., is entered as text. Therefore, for the feature words generated from this information (private company information), the information obtained in the search for similar business partners in the past can be obtained by increasing the weighting compared to the feature words generated from the public company information. It is possible to build a search system that makes effective use of it. Specifically, a system may be used in which a higher weight is given to the feature words corresponding to the texts used many times in the answer information.
このように本実施形態に係る検索システム1によれば、公開情報等の企業情報をすべて同等のテキストデータとして取り扱うのではなく、過去のビジネスパートナー探索における様々な事情やトレンドを考慮したスマートな探索処理を行うようにすることができる。これにより、過去のビジネスパートナー探索の成果を効果的に活用でき、ビジネスパートナー検索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的に検索できる。
As described above, according to the
[その他の処理]
上述の実施形態では、企業検索のために入力されるキーワード(ステップS121で管理サーバ20が取得するキーワード)と、その取得キーワードに基づいてステップS122で検索され、ステップS123でその取得キーワードとの類似度が計算される候補企業が保有する特徴語との間の類似度を考慮しているが、入力されるキーワードの周辺キーワード(入力キーワードに類似するキーワード)との類似語は考慮していない。そこで、上記類似度計算処理(ステップS123)に代えて、入力されるキーワードの周辺キーワードと候補企業が保有する特徴語との間の類似度を計算する別の実施形態も考えられる。
[Other processing]
In the above-described embodiment, the keyword input for the company search (the keyword acquired by the
具体的には、類似度計算部24において、検索でヒットした企業ごとに、ユーザ端末10で入力され管理サーバ20で取得したキーワードに対応する特徴語の分散表現と類似度が高いキーワードを基底としたベクトル(ベクトル1)と各企業の特徴語を基底としたベクトル(ベクトル2)とのコサイン類似度を計算する。
Specifically, in the
取得キーワードに対応する特徴語の分散表現と類似度が高いキーワードを基底としたベクトル(ベクトル1)は、取得キーワード(例えば、「樹脂成型」)に対応する特徴語の分散表現とコサイン類似度が高い学習モデルの特徴語を類似度計算部24で計算し、取得キーワードに対応する特徴語及びその特徴語に類似する(コサイン類似度が高い)複数の別の特徴語を取得して、それらの特徴語とそれぞれのスコアから構成されるベクトルである。また、二つ以上のキーワードが入力される場合は、例えば、計算された特徴語の分散表現を合成して、ベクトル1を生成する。なお、分散表現の合成の際には、最初のキーワードは二番目以降のキーワードよりも軸となる重要なキーワードであるとみなして、最初のキーワードに対応する特徴語の分散表現の方を二番目以降のキーワードに対応する特徴語の分散表現よりも大きな重みを付けて合成するようにしてもよい。
A vector (vector 1) based on a keyword having a high degree of similarity to the distributed expression of the feature word corresponding to the acquired keyword has a cosine similarity with the distributed expression of the feature word corresponding to the acquired keyword (for example, “resin molding”). The feature words of the high learning model are calculated by the
また、各企業の特徴語を基底としたベクトル(ベクトル2)は、各企業の特徴語とTF−IDF値の組み合わせを要素として持った行列(企業行列)である。本実施形態において、各企業は図4に示すように500個の特徴語を保有しており、企業行列はそれらの特徴語とそれぞれのスコアから構成されるベクトルである。 Further, the vector (vector 2) based on the characteristic word of each company is a matrix (company matrix) having a combination of the characteristic word of each company and the TF-IDF value as an element. In the present embodiment, each company has 500 feature words as shown in FIG. 4, and the company matrix is a vector composed of those feature words and their respective scores.
そして、類似度計算部24は、上記ベクトル1とベクトル2の類似度を計算するが、この際、両ベクトルに含まれる同一の特徴語間のスコアに限って積を計算し、異なる特徴語間の積は考慮しないようにして、特徴語間のスコアの積の総和を算出し、その大きさに基づいて類似度を計算する。
前述したコサイン類似度計算(ステップS153)を通じた候補企業リスト生成では、各企業の特徴語に重み付けがされていないため、幅広く企業をリストアップしたい場合に有効である。一方、上記の各企業の特徴語を基底としたベクトルを用いた類似度計算を通じた候補企業リストの生成は、よりマッチング確度が高い企業を探す場合に有効である。
Then, the
In the candidate company list generation through the cosine similarity calculation (step S153) described above, since the characteristic words of each company are not weighted, it is effective when it is desired to list a wide range of companies. On the other hand, the generation of a candidate company list through similarity calculation using a vector based on the characteristic words of each company described above is effective when searching for a company with a higher matching probability.
なお、リスト生成部25は、類似度計算部24で計算された上記類似度が所定のしきい値以上の場合である等の所定の条件を満たす場合に、その企業を企業リストに含めるようにしてもよい。
また、ユーザ端末10で入力されたキーワードに対応する特徴語や学習モデルが記憶部22内に記憶されていない場合、管理サーバ20はユーザ端末10にエラーを返すような設定にすることができる。このような場合は、エラーが出たキーワードを優先的に特徴語として記憶し、その学習モデルを生成する処理を行うようにすることができる。例えば、入力されたキーワードが学習モデルに登録されていない場合は、そのキーワードを含むコーパス(テキスト)を入力として追加学習する。
The
Further, when the feature word or the learning model corresponding to the keyword input by the
また、前述したステップS12の処理において、二つ以上のキーワード入力でAND演算を行い、三つ目以降のキーワードをユーザに示唆するようにしてもよい。ANDは上記処理と同様にすればよい。また、検索目的に応じて、ステップS13の処理において、二つのキーワードによるAND検索を行っているが、三つ以上のキーワードを用いた場合でも同じ原理で行えばよく、またいずれかのキーワードが含まれていればよいとするOR(オア)検索を行うようにしてもよい。 Further, in the process of step S12 described above, the AND operation may be performed by inputting two or more keywords to suggest the third and subsequent keywords to the user. AND may be the same as the above processing. Further, depending on the search purpose, the AND search is performed by two keywords in the process of step S13, but even if three or more keywords are used, the same principle may be used, and any of the keywords is included. An OR (or) search may be performed as long as it is performed.
また、本実施形態では、管理サーバ20によって提供される機能の全部又は一部がSaaS型のクラウドサービスによって実現される例について説明したが、それらの機能をPaaS(Platform as a Service)、IaaS(Infrastructure as a Service)、又はAPI(Application Programming Interface)等を介して提供するサービスによって実現するようにしてもよい。
Further, in the present embodiment, an example in which all or a part of the functions provided by the
なお、本実施形態で説明した検索システム1の構成、ユーザ端末10及び管理サーバ20の構成は一例であり、本発明の範囲を超えない範囲において変更してもよい。また、管理サーバ20等の処理の流れも一例であり、本発明の範囲を超えない範囲において不要処理ステップの削除や新規処理ステップの追加や処理ステップの入れ替えは可能である。
The configuration of the
1 検索システム
10 ユーザ端末
20 管理サーバ
21 通信部
22 記憶部
23 検索部
24 類似度計算部
25 リスト生成部
26 データベース構築部
27 特徴語生成部
28 学習モデル生成部
30 ネットワーク
221 企業データベース
222 技術タグデータベース
223 特徴語データベース
224 学習モデルデータベース
1
Claims (6)
所定の期間内に企業から情報のアップロードを受け付ける受付手段と、
過去に実施されたビジネスパートナー探索における前記企業に関する情報及び前記受付手段でアップロードが受け付けられた前記情報から抽出された前記企業の特徴を表す複数の特徴語を企業ごとに記憶する特徴語記憶手段と、
前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデル記憶手段と、
入力装置から入力されたキーワードを取得する取得手段と、
前記キーワードに対応する特徴語を持つ企業を前記特徴語記憶手段から検索する検索手段と、
前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手段と、
前記類似度を考慮して前記検索手段で検索された前記企業が持つ複数の特徴語を含む企業リストを生成するリスト生成手段と
を備えることを特徴とする検索システム。 A search system that generates a list of companies for the purpose of searching for business partners.
A reception means that accepts information uploads from companies within a specified period,
As a feature word storage means for storing a plurality of feature words representing the characteristics of the company extracted from the information about the company in the business partner search conducted in the past and the information whose upload was accepted by the reception means for each company. ,
A learning model storage means that stores the distributed expression of the feature word obtained by performing machine learning that predicts one feature word from the plurality of feature words for each feature word and uses it as a learning model.
An acquisition method for acquiring keywords input from an input device,
A search means for searching a company having a characteristic word corresponding to the keyword from the characteristic word storage means, and
A similarity calculation means for calculating the similarity between a distributed expression based on a plurality of characteristic words of the company searched by the search means and a distributed expression based on the characteristic words corresponding to the keyword.
A search system including a list generation means for generating a company list including a plurality of characteristic words of the company searched by the search means in consideration of the similarity.
前記類似度計算手段は、前記キーワードに対応する特徴語に類似する特徴語を前記学習モデルに基づいて計算し、前記キーワードに対応する特徴語及び該特徴語に類似する複数の特徴語とそれらの前記スコアを含む第1のベクトルと、各企業が保有する特徴語とその前記スコアを含む第2のベクトルとの類似度を計算することを特徴とする請求項1に記載の検索システム。 The feature word storage means stores a score based on the frequency of appearance of the feature word for each of the plurality of feature words in association with each other.
The similarity calculation means calculates a feature word similar to the feature word corresponding to the keyword based on the learning model, and the feature word corresponding to the keyword, a plurality of feature words similar to the feature word, and a plurality of feature words thereof. The search system according to claim 1, wherein the similarity between the first vector including the score, the feature word owned by each company, and the second vector including the score is calculated.
所定の期間内に企業から情報のアップロードを受け付ける受付工程と、
入力装置から入力されたキーワードを取得する取得工程と、
前記キーワードに対応する特徴語を持つ企業を、過去に実施されたビジネスパートナー探索における前記企業に関する情報及び前記受付工程でアップロードが受け付けられた前記情報から抽出された前記企業の特徴を表す複数の特徴語を企業ごとに記憶する特徴語データベースから検索する検索工程と、
前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索工程で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算工程と、
前記類似度を考慮して前記検索工程で検索された前記企業が持つ複数の特徴語を含む企業リストを生成するリスト生成工程と
を有することを特徴とする検索方法。 A search method on a search server that generates a company list for the purpose of searching for business partners.
The reception process that accepts information uploads from companies within a specified period,
The acquisition process to acquire the keywords input from the input device, and
A plurality of features representing the characteristics of the company extracted from the information about the company in the business partner search conducted in the past and the information for which the upload was accepted in the reception process. A search process that searches a feature word database that stores words for each company,
In the search step, referring to a learning model database that stores the distributed expression of the feature word obtained by performing machine learning that predicts one feature word from the plurality of feature words for each feature word and uses it as a learning model. A similarity calculation process for calculating the similarity between the distributed expression based on a plurality of characteristic words possessed by the searched company and the distributed expression based on the characteristic words corresponding to the keyword.
A search method comprising a list generation step of generating a company list including a plurality of characteristic words of the company searched in the search step in consideration of the similarity.
所定の期間内に企業から情報のアップロードを受け付ける受付手順と、
入力装置から入力されたキーワードを取得する取得手順と、
前記キーワードに対応する特徴語を持つ企業を、過去に実施されたビジネスパートナー探索における前記企業に関する情報及び前記受付手順でアップロードが受け付けられた前記情報から抽出された前記企業の特徴を表す複数の特徴語を企業ごとに記憶する特徴語データベースから検索する検索手順と、
前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索手順で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手順と、
前記類似度を考慮して前記検索手順で検索された前記企業が持つ複数の特徴語を含む企業リストを生成するリスト生成手順と
を実行させるためのコンピュータ読み取り可能な検索プログラム。 On a search server that generates a list of companies for the purpose of searching for business partners
The reception procedure for accepting information uploads from companies within a specified period,
The acquisition procedure to acquire the keyword input from the input device, and
A plurality of features representing the characteristics of the company extracted from the information about the company in the business partner search conducted in the past and the information for which the upload was accepted in the reception procedure for the company having the characteristic word corresponding to the keyword. A search procedure for searching from a feature word database that stores words for each company,
With reference to a learning model database that stores the distributed expression of the feature word obtained by performing machine learning that predicts one feature word from the plurality of feature words for each feature word and uses it as a learning model, the search procedure is performed. A similarity calculation procedure for calculating the similarity between the distributed expression based on a plurality of characteristic words of the searched company and the distributed expression based on the characteristic word corresponding to the keyword, and
A computer-readable search program for executing a list generation procedure for generating a company list including a plurality of characteristic words of the company searched in the search procedure in consideration of the similarity.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021111717A JP6941803B1 (en) | 2021-07-05 | 2021-07-05 | Search system, search method and search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021111717A JP6941803B1 (en) | 2021-07-05 | 2021-07-05 | Search system, search method and search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6941803B1 true JP6941803B1 (en) | 2021-09-29 |
JP2023008285A JP2023008285A (en) | 2023-01-19 |
Family
ID=77847128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021111717A Active JP6941803B1 (en) | 2021-07-05 | 2021-07-05 | Search system, search method and search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6941803B1 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5398413B2 (en) * | 2009-08-12 | 2014-01-29 | 株式会社野村総合研究所 | Brand recommendation system and brand recommendation program |
JP2019211974A (en) * | 2018-06-04 | 2019-12-12 | 株式会社野村総合研究所 | Company analysis device |
US20200233872A1 (en) * | 2019-01-18 | 2020-07-23 | International Business Machines Corporation | System and method for discovering synergistic companies |
-
2021
- 2021-07-05 JP JP2021111717A patent/JP6941803B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2023008285A (en) | 2023-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8082264B2 (en) | Automated scheme for identifying user intent in real-time | |
Teso et al. | Application of text mining techniques to the analysis of discourse in eWOM communications from a gender perspective | |
US20170097940A1 (en) | Analytical Search Engine | |
CN109753635A (en) | Use high-quality exemplary document automation assistant | |
JP6646184B2 (en) | Searching information storage device | |
US12008047B2 (en) | Providing an object-based response to a natural language query | |
US20160299951A1 (en) | Processing a search query and retrieving targeted records from a networked database system | |
EP2613275B1 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
JP6941802B1 (en) | Search system, search method and search program | |
CN110717008A (en) | Semantic recognition-based search result ordering method and related device | |
McCloskey et al. | Natural language processing analysis of online reviews for small business: extracting insight from small corpora | |
JP6941803B1 (en) | Search system, search method and search program | |
JP6941801B1 (en) | Search system, search method and search program | |
JP2020067864A (en) | Knowledge search device, method for searching for knowledge, and knowledge search program | |
JP2020091539A (en) | Information processing device, information processing method, and information processing program | |
JP7572092B1 (en) | Text generation device, text generation system, text generation method, and program | |
KR102547098B1 (en) | Systems and methods to support overseas direct purchase services | |
JP7498876B1 (en) | Search support system, search support method and program | |
JP7546181B1 (en) | Recruitment support system, recruitment support method and program | |
JP7566196B1 (en) | Job search support system, job search support method and program | |
CN113254622B (en) | Knowledge point query method, knowledge point query device and knowledge point query server | |
Mir et al. | An Adaptive Classification Framework for Handling the Cold Start Problem in Case of News Items | |
JP7234079B2 (en) | SEARCH SUPPORT SYSTEM, SEARCH SUPPORT METHOD, AND PROGRAM | |
US20230281745A1 (en) | Rule watch system | |
JP4385087B2 (en) | Living information support system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210706 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210812 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210820 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6941803 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |