JP2023008284A

JP2023008284A - 検索システム、検索方法及び検索プログラム

Info

Publication number: JP2023008284A
Application number: JP2021111716A
Authority: JP
Inventors: 琢也大迫; Takuya Osako; 康一郎佐野; Koichiro Sano
Original assignee: Linkers Co Ltd
Current assignee: Linkers Co Ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-01-19
Anticipated expiration: 2041-07-05
Also published as: JP6941802B1

Abstract

【課題】ビジネスパートナー探索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的にリストアップする。【解決手段】検索システム１の管理サーバ２０は、企業の特徴を表す複数の特徴語をそのスコアと共に企業ごとに記憶する特徴語データベース２２３と、機械学習を行って得られる特徴語の分散表現を特徴語ごとに学習モデルとして記憶する学習モデルデータベース２２４を備えている。管理サーバ２０は外部の入力装置から入力されたキーワードを取得すると、キーワードに対応する特徴語を持つ企業を特徴語データベース２２３から検索し、その企業の特徴語に基づく分散表現とキーワードに対応する特徴語に基づく分散表現との類似度を計算し、特徴語、スコア及び類似度を含む企業リストを生成する。【選択図】図３

Description

本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索システム、検索方法及び検索プログラムに関する。

近年の企業における製品開発は、自社技術だけでなく、社外企業の優れた技術を活用するケースが多く見られる。例えば、多くの大企業や中堅企業が優れた技術を持つ中小・ベンチャー企業をビジネスパートナーにしている。
これまで取引がない新しいビジネスパートナーをインターネットで探す場合、検索ユーザはパーソナルコンピュータ等の画面に表示されるＷｅｂブラウザ上でキーワードを入力し、そのキーワードがヒットした企業をビジネスパートナーの候補としてリストアップする。この際に用いられるキーワードの多くは、商材やその特徴等の製品や材料に関する単語であるが、検索ユーザの経験や知識に基づいて選択されるため、ユーザのスキルや経験の差が検索結果に表れてしまうことが多い。そこで、入力されたキーワードに関連するキーワード技術を企業情報から抽出して両者の類似度を算出した上で企業を検索する技術が知られている（例えば、特許文献１参照）。

特開２０１９－１３３３６７号公報

しかしながら、ユーザの試行錯誤を経た従来のキーワード検索によってリストアップされる企業は、リストアップされた時点ではビジネスパートナーとして相応しいか否かの優劣はつけられていない。そのため、リストアップされた全ての候補企業の企業情報をユーザが確認して判断しなければ、より適切な候補企業を選択し漏らす可能性があるため、リストアップ後の手間・人的コストがかかる。

本発明は、このような事情を考慮してなされたものであり、ビジネスパートナー探索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的にリストアップできる検索システム、検索方法及び検索プログラムを提供することを目的とする。

上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索システムであって、企業の特徴を表す複数の特徴語を該特徴語の出願頻度に基づくスコアと共に企業ごとに記憶する特徴語記憶手段と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデル記憶手段と、入力装置から入力されたキーワードを取得する取得手段と、前記キーワードに対応する特徴語を持つ企業を前記特徴語記憶手段から検索する検索手段と、前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手段と、前記検索手段で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手段とを備えることを特徴とする。

また、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記検索手段で検索された前記企業が持つ複数の特徴語のそれぞれの分散表現を合成した合成分散表現と前記キーワードに対応する特徴語の分散表現との類似度を計算することを特徴とする。

さらに、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記キーワードに対応する特徴語に類似する特徴語を前記学習モデルに基づいて計算し、前記キーワードに対応する特徴語及び該特徴語に類似する複数の特徴語とそれらのスコアを含む第１のベクトルと、各企業が保有する特徴語とそのスコアを含む第２のベクトルとの類似度を計算することを特徴とする。

さらにまた、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記第１のベクトルと前記第２のベクトルに含まれる同一の特徴語間のスコアの積の総和に基づいて前記類似度を計算することを特徴とする。

さらにまた、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現について、それぞれの特徴語のスコアが上位の特徴語をスコアが下位の特徴語よりも大きく重み付けを行った分散表現とし、前記キーワードに対応する特徴語に基づく分散表現との類似度を計算することを特徴とする。

さらにまた、上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索サーバにおける検索方法であって、入力装置から入力されたキーワードを取得する取得工程と、前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出願頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索工程と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索工程で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算工程と、前記検索工程で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成工程とを有することを特徴とする。

さらにまた、上記課題を解決するために、本発明に係るコンピュータ読み取り可能な検索プログラムは、ビジネスパートナー探索を目的として企業リストを生成する検索サーバに、入力装置から入力されたキーワードを取得する取得手順と、前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出現頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索手順と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索手順で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手順と、前記検索手順で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手順とを実行させることを特徴とする。

本発明によれば、ビジネスパートナー探索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的にリストアップできる。例えば、それぞれの特徴後がその企業の特徴をどの程度表しているかの指標となるスコアと、その企業が入力キーワードとどの程度関連しているかの指標となる類似度とを含むユーザフレンドリーな企業リストをユーザに提供できる。

本発明の一実施形態に係る検索システム１の構成図である。本発明の一実施形態に係る検索システム１におけるユーザ端末１０の構成を示すブロック図である。本発明の一実施形態に係る検索システム１における管理サーバ２０の構成を示すブロック図である。本発明の一実施形態に係る特徴語データベース２２３のデータ構造例を示す図である。本発明の一実施形態に係る学習モデルデータベース２２４のデータ構造例を示す図である。本発明の一実施形態に係る検索システム１の管理サーバ２０における全体処理を説明するためのフローチャートである。本発明の一実施形態に係る検索システム１の管理サーバ２０における新たなキーワード候補（特徴語）の生成処理（ステップＳ１２）の詳細を説明するためのフローチャートである。本発明の一実施形態に係る候補企業リストのユーザ端末１０への表示例を示す図である。本発明の一実施形態に係る検索システム１の管理サーバ２０における類似度計算処理（ステップＳ１５）の詳細を説明するためのフローチャートである。本発明の一実施形態に係る類似度を含む候補企業リストのユーザ端末１０での表示例を示す図である。

以下、図面を参照して、本発明の一実施形態について説明する。
図１は、本発明の一実施形態に係る検索システム１の構成図である。図１に示すように、本実施形態に係る検索システム１は、複数のユーザ端末１０と管理サーバ２０で構成され、それぞれインターネット等の有線又は無線のネットワーク３０で通信可能に接続されている。以下では、ビジネスパートナー企業の探索を含む企業マッチングサービスを提供する企業（以下、「管理企業」という）に上記検索システム１が導入され、ＳａａＳ（Software as a Service）型のクラウドサービスによって以下で詳述するビジネスパートナー候補企業の検索やその他の各種処理が行われるものとする。

ユーザ端末１０は、例えば、管理企業のビジネスパートナー探索を行う部署の管理者又はその部署に所属する担当者のパーソナルコンピュータ等である。管理企業がビジネスパートナー探索の依頼を顧客企業（以下、「発注企業」という）から受けると、管理企業の担当者はビジネスパートナー企業に期待する技術等を発注企業の担当者等にヒアリング等を行い、検索のための適切なキーワードを検討する。そして、ユーザ端末１０のユーザ（管理企業の担当者等又は別の人員）は、検討されたキーワードを用いて候補企業の検索を行い、ビジネスパートナーの候補企業リストを作成する。具体的には、ユーザ端末１０のユーザは、管理サーバ２０が管理するＷｅｂサイトにアクセスをしてキーワードを入力する。管理サーバ２０は、入力されたキーワードに基づいて候補企業の検索を行い、ビジネスパートナーの候補企業リストを生成する。このとき、当該リストはユーザ端末１０からアクセスしたＷｅｂサイトで表示可能になっている。

ここで、ユーザ端末１０は、管理企業だけでなく、ビジネスパートナーの探索サービスの提供を受ける発注企業や、候補企業リストに基づいて発注企業が面談を希望する受注候補企業等（以下、「候補企業」という）に導入されていてもよい。この場合、発注企業の担当者等は、それぞれのユーザ端末１０から自社の企業情報やビジネスパートナー探索に関する情報（ビジネスパートナー探索の詳細や受注候補企業への質問等）を管理サーバ２０にアップロードしたり、管理企業のユーザによって検索された候補企業リストを閲覧することができる。また、受注企業の担当者等は、ユーザ端末１０から自社の企業情報やビジネスパートナー探索に関する情報（発注企業等へのアピール文や発注企業からの質問の回答等）を管理サーバ２０にアップロードできる。

図２は、本発明の一実施形態に係る検索システム１におけるユーザ端末１０の構成を示すブロック図である。図２に示すように、ユーザ端末１０は、ユーザがキーワードやコマンド等を入力するキーボードやタッチパネル等の入力部１１、入力されたキーワードや管理サーバ２０で生成された候補企業リスト等のデータを表示するモニタ等の表示部１２、各種処理を行う処理部１３、及び管理サーバ２０やその他の不図示の装置等とネットワーク３０を介して通信処理を行う通信部１４を備えている。処理部１３は、ＣＰＵやプログラムを格納したＲＯＭ、ＲＡＭ等によって構成され、ＲＯＭに記憶されたプログラムに従って各種処理を行う。本実施形態において、ユーザ端末１０はパーソナルコンピュータとして説明するが、それ以外に、スマートフォンやタブレット等の通信端末であってもよい。

図３は、本発明の一実施形態に係る検索システム１における管理サーバ２０の構成を示すブロック図である。図３に示すように、管理サーバ２０は、ユーザ端末１０やその他の不図示の外部装置等とネットワーク３０を介して通信処理を行う通信部２１、プログラムや各種データ等の情報を記憶する記憶部２２、ユーザ端末１０で入力されたキーワードに基づいてビジネスパートナー候補企業の検索を行う検索部２３、入力されたキーワードと検索された企業の特徴との類似度計算を行う類似度計算部２４、計算された類似度を用いてビジネスパートナーの候補企業リストを生成するリスト生成部２５を備えている。

また、管理サーバ２０は、ユーザ端末１０やその他の外部装置（不図示）から候補企業の技術等に関する情報やその企業の技術等の特徴をタグ付けによって示すための技術タグ情報を取得し、データベースとして記憶部２２に記憶させるデータベース構築部２６、企業の特徴を示す特徴語を生成する特徴語生成部２７、及び特徴語の学習モデルを生成する学習モデル生成部２８を備える。また、記憶部２２は、候補企業の技術等に関する情報を記憶する企業データベース２２１、技術タグ情報を記憶する技術タグデータベース２２２、特徴語を記憶する特徴語データベース２２３、及び学習モデルを記憶する学習モデルデータベース２２４を備えている。

本実施形態において、管理サーバ２０は、上述の各ユニット（通信部２１～学習モデル生成部２８）の処理機能を１つのサーバで実現するようにしているが、この機能を複数のサーバで実現するようにしてもよい。また、各サーバを単一の計算機で構成するようにしてもよいし、物理的に異なる複数の計算機等で構成されるようにしてもよい。

データベース構築部２６は、ユーザ端末１０又はその他の外部装置（不図示）から、インターネット上で公開されている企業のホームページや有償・無償のデータベースから選択的に抽出された発注企業や受注候補企業の企業概要、事業概要及び保有技術等に関する企業情報等（以下、「公開企業情報」という）を取得すると、企業ごとに付与される企業ＩＤに対応付けて記憶部２２に記憶することで企業データベース２２１を新規に構築又は記憶情報を更新する。例えば、公開企業情報には、法人名（企業名）、本社の所在地（住所）、企業概要の説明文、事業概要の説明文、保有技術の説明文及び企業ホームページのアドレス（ＵＲＬ）等の公開情報が含まれる。なお、公報企業情報には、公開情報に基づいて管理企業の担当者等が企業概要、事業概要又は保有技術の説明文を起案した文章も含まれる。

また、データベース構築部２６は、ユーザ端末１０又はその他の外部装置（不図示）から、管理企業における過去及び現在のビジネスパートナー探索プロジェクトの案件についてのエントリー情報（受注候補企業からの立候補に関する情報やその際のアピール文等の付加情報等）、過去及び現在のビジネスパートナー探索の過程で発注企業と候補企業との間でなされた質問とその回答に関する情報、及び、候補企業が保有している技術で外部企業への提供が可能な技術（シーズ技術）に関する情報等（以下、「非公開企業情報」という）を取得すると、企業ＩＤに対応付けて記憶部２２に記憶することで企業データベース２２１を新規に構築又は記憶情報を更新する。

さらに、データベース構築部２６は、ユーザ端末１０又はその他の外部装置（不図示）から、その企業が保有しているＩＳＯ（登録商標）等の製品・サービスに関する国際規格や国内規格に関するタグ情報（以下、「規格タグ」という）、製品の加工・生産等のための装置・設備に関するタグ情報（以下、「設備タグ」という）、国・地方公共団体や各種業界団体等から表彰を受けた受賞歴等に関するタグ情報（以下、「受賞歴タグ」という）を含む技術タグ情報を取得すると、記憶部２２に記憶することで技術タグデータベース（技術タグ辞書）２２２を新規に構築又は記憶情報を更新する。

なお、データベース構築部２６による公開企業情報及び非公開企業情報の取得及び企業データベース２２１への記憶・更新処理、技術タグ情報の取得及び技術タグデータベース２２２への記憶・更新処理は、後述するキーワード検索や候補企業リストの生成に係る処理と共に行ってもよいし、これらの処理とは独立して行うようにしてもよい。例えば、データベース構築部２６は、数か月に１回等、定期的に又は任意のタイミングで外部装置等から公開企業情報、非公開企業情報及び技術タグ情報を取得して企業データベース２２１及び技術タグデータベース２２２の記憶情報をアップデートするようにしてもよい。なお、企業データベース２２１の公開企業情報及び非公開企業情報、及び技術タグデータベース２２２の技術タグ情報は、後述する特徴語生成処理や学習モデル生成処理等での処理を容易化するためにテキストデータで記憶されている。

特徴語生成部２７は、企業データベース２２１から企業ごとに公開企業情報及び非公開企業情報を取得して結合テキストデータを生成し、その結合テキストデータに対して形態素解析・不要語除去処理を経て得られた技術関連用語を特徴語として生成し、企業ＩＤに対応付けて記憶部２２に記憶させることで特徴語データベース２２３に新規に記憶又は情報を更新する。図４は、本発明の一実施形態に係る特徴語データベース２２３のデータ構造例を示す図である。本実施形態において、特徴語データベース２２３には、特徴語生成部２７で生成された特徴語がそのスコアと対応付けて企業ごとに記憶されている。また、各企業が保有する特徴語の個数として、企業ごとにスコアが上位の特徴語をスコアとともに記憶するが、本実施形態では一例として５００個の特徴語をそのスコアとともに記憶するものとする。

ここで特徴語のスコアについて説明する。本実施形態において特徴語のスコアは、企業データベース２２１に記憶されている全テキストデータにおける各特徴語の出現頻度におけるそれぞれの企業における結合テキストデータから生成される特徴語の出現頻度の割合に所定の係数を乗算した数値で示される。本実施形態は、特に製造業を中心としたビジネスパートナー探索を効果的に行うために、製造業界特有の単語が特徴語として多く格納されており、製造業向けの辞書を含む検索システムとなっている。

学習モデル生成部２８は、製造業の企業ごとに特許文献、企業の研究開発報告書、技術関連ニュース等の技術に関する公開文献情報（以下、「技術文書」という）に含まれる特徴語について、周辺の複数の特徴語から一の特徴語を予測する深層学習を行ってそれぞれの特徴語を高次元ベクトルで表現した分散表現を生成し、分散表現の特徴語を学習モデルとして学習モデルデータベース２２４に記憶する。図５は、本発明の一実施形態に係る学習モデルデータベース２２４のデータ構造例を示す図である。本実施形態において、学習モデルデータベース２２４には、特徴語データベース２２３に記憶されている特徴語に基づいて学習モデル生成部２８で生成された各特徴語の分散表現が、特徴語ごとにベクトルの次元順に数値で示されて記憶されている。本実施形態では、後述するように各特徴語を少なくとも数百次元以上の高次元ベクトル（具体的には、５００次元のベクトル）の分散表現で構築しているため５００個の数字が記憶されているが、ベクトルの次元数についてはこれに限られず、適宜変更できるようなシステム設計にすることもできる。学習モデルデータベース２２４の生成処理の詳細については後述する。

以下、図面を参照して、本発明の一実施形態に係る管理サーバ２０におけるキーワード検索によるビジネスパートナー候補企業のリスト生成処理について説明する。以下の実施形態では、企業マッチングサービスを提供している管理企業に検索システム１が導入されており、発注企業からの企業探索サービスの発注を受けて管理企業のユーザが社内のユーザ端末１０を用いてキーワード検索を行って候補企業のリストを生成する管理サーバ２０における一連の検索処理について説明する。

図６は、本発明の一実施形態に係る検索システム１の管理サーバ２０における全体処理を説明するためのフローチャートである。検索システム１において、記憶部２２内の企業データベース２２１、技術タグデータベース２２２、特徴語データベース２２３及び学習モデルデータベース２２４の新規構築及び記憶情報の更新処理（ステップＳ１１）は、ユーザ端末１０のユーザが行うキーワード検索処理と同時に、又はその前後にそれぞれ独立的に行うことが可能であるが、以下の実施形態では説明を容易にするために、ユーザ端末１０のユーザによるキーワード検索処理に先立って行う形態で説明する。

［企業データベース２２１の構築・更新］
管理サーバ２０のデータベース構築部２６は、ユーザ端末１０によるキーワード検索に先立って、ユーザ端末１０又はその他の外部装置（不図示）等から候補企業の公開企業情報及び非公開企業情報を取得し、その情報を企業ごとに企業データベース２２１に新規に記憶又は既存情報の更新を行う。

本実施形態において、公開企業情報は、インターネットを介してアクセス可能な各企業のホームページやプレスリリース、ニュース記事等からそれぞれの企業の技術情報等をテキストデータ形式で取得したものである。なお、公開されている企業情報がHTML形式のようなデータの場合には、ヘッダーやフッター等の不要語を公知の手法等で除去することによってテキストデータに変換することができる。また、取得のタイミングに特に制限はなく、管理者のユーザ端末１０やその他の外部装置（不図示）等から常時又は定期的に、或いは任意のタイミングで管理サーバ２０にアップロードされ、データベース構築部２６がそのデータを企業データベース２２１に新規に記憶又は記憶されている情報を更新する。

また、本実施形態において、非公開企業情報は、ビジネスパートナー探索のプロジェクト案件ごとに決められた期間中に、候補企業の担当者等がそれぞれのユーザ端末１０から管理サーバ２０にアクセスし、データを入力することで管理サーバ２０にアップロードされる。例えば、ビジネスパートナー探索プロジェクトの案件情報が候補企業に提示された後、１か月の期間を設け、その期間内だけ発注企業からの質問事項に関する受注候補企業からの回答（すなわち、非公開企業情報）を受け付けてデータ入力を可能にすることができる。なお、当該期間は、これ以外に、各ビジネスパートナー探索プロジェクトが行われている全期間であってもよいし、特に期間を設けずにいつでも入力できるようにしておき、管理者が任意のタイミングで入力の可否を調整できるようにしてもよい。この処理は、管理サーバ２０のデータベース構築部２６によって制御され、ユーザ端末１０で入力された非公開企業情報が管理サーバ２０にアップロードされると、企業データベース２２１に新規に記憶又は既存情報の更新が行われる。ここで、入力される非公開企業情報として、例えば、候補企業の最新の技術や発注企業への技術力のアピール文等の企業のオリジナル情報や発注企業からの質問事項に対する回答情報等が含まれる。

[技術タグデータベース２２２の構築・更新]
管理サーバ２０のデータベース構築部２６は、さらにユーザ端末１０によるキーワード検索に先立って各企業が保有する潜在的な技術特徴等をタグ付けするための基礎となる技術タグ情報をユーザ端末１０又はその他の外部装置（不図示）から取得し、技術タグデータベース２２２に新規に記憶又は既存情報を更新する。本実施形態では、上記企業データベース２２１の構築と同時又はそれと前後して技術タグ情報を取得し、技術タグデータベース２２２を構築する。技術タグ情報には、前述のように、規格タグ、設備タグ及び受賞歴タグが含まれる。

生成される候補企業リストの付属情報として、各企業ＩＤと上記技術タグに関する情報を対応付けて表示可能にすることによって、ユーザは、候補企業の絞り込みのために、その企業が保有する国際規格、設備・装置又は受賞歴を含む技術タグの項目を参照して、一目で候補企業の潜在的な技術力を比較することができる。例えば、規格タグの項目に様々な国際規格等や受賞歴が表示されるような企業は、一目で製品・サービスの品質を重視することに留意していると考えられる企業であり、また他機関等から表彰されるほど技術力が高い企業であると想像でき、さらに設備タグの項目に様々な装置・設備名が表示されるような企業は、装置・設備名を一目見るだけで試作や量産等の対応が可能な企業であるかを推察することができる。また、例えば、クリーンルームの保有がビジネスパートナー企業に要求されるような場合、「クリーンルーム」が特徴語として含まれるが、そのスコアが低い場合はリストアップされた時にユーザ端末１０の画面上には特徴語が表示されない場合もある。しかし、そのような場合でも設備タグを参照することで、ユーザは一目でクリーンルームを保有していることを確認できる。また、ユーザは、国際規格や受賞歴等が表示されるので企業の生産体制や信頼性を推測することができる。また、検索するユーザが専門知識を持っていない場合でも、技術タグの項目を一目見るだけで容易にその企業の特徴を確認することができる。

［特徴語データベース２２３の構築・更新］
管理サーバ２０の特徴語生成部２７は、企業データベース２２１の企業情報（テキストデータ）から企業ごとに特徴語とそのスコアを生成して、それらを特徴語データベース２２３に新規に記憶又は既存情報を更新する。

ここで、特徴語生成部２７における特徴語生成処理の詳細について説明する。本実施形態は、後述するキーワード検索等の処理に先立って企業データベース２２１に記憶されている企業情報等から特徴語を生成して特徴語データベース２２３に記憶する。なお、本処理は後述するキーワード検索時に行うようにしてもよいが、本実施形態では本処理はキーワード検索処理とは独立した処理とし、事前に特徴語を特徴語データベース２２３に記憶しておき、また独立して逐次特徴語データベース２２３に記憶される特徴語の更新を行うものとする。

特徴語生成部２７は、まず企業データベース２２１からテキストデータの企業情報（公開企業情報及び非公開企業情報）を呼び出す。次に、特徴語生成部２７は、呼び出した企業情報から不要語を除去して特徴語を抽出する。具体的には、特徴語生成部２７は、技術用語をまとめた技術辞書（不図示）やその単語の文法上等の属性をまとめた属性辞書（不図示）等を用いて、テキストを形態素に分解・決定する形態素解析を行って、その結果から技術用語を抽出する。この際、同義語やゆらぎ語（例えば、「モーター」と「モータ」）は１つの単語としてまとめるようにする。不要語除去においては、不要語辞書（不図示）を用意して、形態素化されたテキストのうち、助詞や非技術用語（名詞）等を不要語として除去する。不要語を除去した後の単語は技術用語と想定され、特徴量（後述のスコア）が計算される。なお、特徴語生成部２７は、抽出した単語（技術用語）に対して、ビジネスパートナー探索における技術的な特徴を表す単語として共通的に用いられて一般化しているような抽象的な単語（例えば、「〇〇装置」の「装置」等）を抽象語として取り除き、残った単語（例えば、「〇〇装置」の「〇〇」の部分）を特徴語として特徴語データベース２２３に格納（新規に記憶又は情報を更新）する。

本実施形態において各特徴語にはそのテキスト（特徴語）の特徴を表す指標としてスコアと呼ばれる特徴量（スカラ量）が与えられている。本実施形態では、この指標としてＴＦ－ＩＤＦ（Term Frequency - Inverse Document Frequency）値を採用している。ＴＦ－ＩＤＦ値はＴＦ値とＩＤＦ値との積で、ＴＦ値は企業のテキストデータの中での各単語の出現頻度、ＩＤＦ値は全企業のテキストデータのうち、全企業に対する各単語を含む企業数の割合の逆数に対数をとった値である。このスコアは文書に含まれる単語の重要度を示すもので文書の特徴を判別することができる。具体的には、「ある文書の中で何度も出現する単語、かつ多くの文書に出現しない単語はその文書を特徴付ける重要な単語」と理解できる。ここで、ＴＦ－ＩＤＦ値が高い順番に単語を並び替えると技術単語以外の単語も上位にランクインするため、前述のように技術単語辞書を用意して、その辞書に含まれる単語のみファクターを乗算して特徴語データベース２２３に格納する。
なお、スコアの指標や次元数についてはこれに限定されるものではなく、実装するシステムの性質や目的によって適宜変更するようにしてもよい。

［学習モデルデータベース２２４の構築・更新］
管理サーバ２０の学習モデル生成部２８は、製造業に関する技術文書中に含まれる特徴語を周辺の特徴語から予測させる深層学習を行ってそれぞれの特徴語を高次元ベクトルの分散表現で構築した学習モデル（学習済みモデル）を生成し、学習モデルデータベース２２４に特徴語ごとに新規に記憶又は記憶情報を更新する。

ここで、特徴語の高次元ベクトルの分散表現には、文字・単語をベクトル空間に埋め込み、その空間上の一つの点としてとらえる単語分散表現を用いることができる。本実施形態では、Ｗｏｒｄ２Ｖｅｃを用いた学習済みの埋め込み空間で単語ベクトル空間を表現している。なお、ベクトル空間表現はＷｏｒｄ２Ｖｅｃに限られることはなくＤｏｃ２ＶｅｃやＴＦ－ＩＤＦ等のその他のベクトル空間モデルを使用するようにしてもよい。

また、学習モデル生成部２８における深層学習は、入力層、中間層及び出力層の多層構造のニューラルネットワークを用いて行われ、文章中の各単語（「中心語」と呼ぶ）に対して入力層に中心語の周辺の単語（「周辺語」と呼ぶ）をワンホット（one-hot）表現へ変換したベクトルを与え、出力層に中心語をワンホット表現へ変換したベクトルを与えて、周辺語から中心語を予測する学習を行う。本実施形態は、例えば、中心のある単語を周辺の単語から予測する教師あり学習法であるＣＢＯＷ（Continuous Bag of Words）法を用い、入力として周辺語を与え、中心語の予測を出力する学習を行い、学習を通じてある単語の周囲にどのような単語が現れる可能性が高いのかを学習させる。学習が終われば各単語の分散表現が得られる。ここで、分散表現は、中間層への重み行列とする。中間層の次元は１００～１０００次元を選ぶのが一般的であるが、本実施形態では５００次元を採用する。

前述したように、本実施形態に係る検索システム１では、技術文書として、特許文献、企業の研究開発報告書、技術関連ニュース等の技術に関する公開文献情報を用いて学習を行っている。一方、一般のニュース記事等のように、専門用語が正しく使われていない可能性が高い文書や、学術論文のようなその分野の専門家しか理解できないような専門用語や表現が多く含まれるような文書は学習対象の技術文書から除くようにしている。すなわち、いわゆる「ものづくり」の分野である製造業界におけるビジネスパートナー探索に好適なシステムとなるように、学習対象の技術文書を上記のように限定することで、最適な機械学習が行われるようにしている。

学習モデル生成処理は、後述する類似度計算処理の直前に行うようにしてもよいが、本実施形態では本処理は類似度計算処理とは独立した処理とし、事前に学習モデルを生成して学習モデルデータベース２２４に記憶しておき、定期的に（例えば、四半期に一度）学習モデルデータベース２２４に記憶される学習モデルの更新を行うものとする。

また、学習モデルデータベースをユーザの目的にあわせて選択的に使用できるように複数の学習済みモデルを備えたシステムにしてもよい。このようにすることで、例えば、自動車業界と素材・金属業界とで用いられる特徴語「モータ」のニュアンスの違いに対応することができる。また、製造業をさらにいくつかの細部業種に分類してそれぞれの細部業種で別のデータベースを設けたり、製造業を含む複数の業種のデータベースを設けたりして、ビジネスパートナー探索の内容に応じて使用するデータベースを適宜選択できるようにしてもよい。

［キーワード候補（特徴語）の提示処理］
ビジネスパートナー候補企業のリストアップをキーワード検索に基づいて行う場合、通常は複数の異なるキーワードを同時に、又は逐次入力し、適切な候補企業がリストアップされるように検索結果を絞り込んでいくという作業が発生する。そこで、本実施形態では、ビジネスパートナー候補企業のリストアップを行うユーザが、ユーザ端末１０で一つ目のキーワードを入力し、そのキーワードと一致するテキストデータが企業データベース２２１に記憶された企業情報に含まれているか、そのキーワードに対応する特徴語が特徴語データベース２２３に保持されている企業をリストアップする（ステップＳ１２）。この際、管理サーバ２０は、入力されたキーワードに基づいて候補企業のリストを生成するが、そのリストに候補企業が持つ複数の特徴語を含めることで、そのユーザが候補企業の絞り込み検索を行う際のキーワード候補をユーザ端末１０を介してユーザに示唆することができる。図７は、本発明の一実施形態に係る検索システム１の管理サーバ２０における新たなキーワード候補（特徴語）の生成処理（ステップＳ１２）の詳細を説明するためのフローチャートである。

検索システム１のユーザは、ユーザ端末１０を用いて所定のキーワードを入力してその情報を管理サーバ２０に検索指示を送信する。本実施形態では、まず「樹脂成型」が一つ目のキーワードとして入力された場合を例に挙げる。管理サーバ２０は、通信部２１を介してユーザ端末１０で入力されたキーワード「樹脂成型」を取得する（ステップＳ１２１）。

次に、検索部２３は、取得したキーワード「樹脂成型」と同一の特徴語「樹脂成型」を持つ企業を記憶部２２内の特徴語データベース２２３の中から検索し、ヒットした企業の企業ＩＤを取得する（ステップＳ１２２）。例えば、本実施形態では、図４に示される特徴語「樹脂成型」を保有する複数の企業の企業ＩＤ「５３９８，３６５８８，３４５８９、…」がヒットすることとなり、特徴語「樹脂成型」を保有しない企業の企業ＩＤはヒットしない。

次に、リスト生成部２５は、検索部２３でヒットした企業ＩＤの企業が保有する特徴語のうちスコアの高い特徴語とそのスコアを含む候補企業リストを生成する（ステップＳ１２３）。リスト生成部２５で生成された候補企業リストは、管理サーバ２０が管理するＷｅｂサイトにアクセスしたユーザ端末１０の画面上に表示される。図８は、本発明の一実施形態に係る候補企業リストのユーザ端末１０への表示例を示す図である。図８に示すように、ユーザ端末１０には、「樹脂成型」という入力キーワードの他に、「液晶」、「板金」、「赤外線」等の他のキーワードとなり得る特徴語がスコアとともに表示される。そしてユーザは、特徴語「樹脂成型」と掛け合わせて検索するための、別の特徴語「試作」を二つ目のキーワードとして選択することができる。なお、ステップS１２３で生成された企業リストを提示する場合（ユーザ端末１０の画面上に表示させる場合）に、企業ＩＤと特徴語の他に、ユーザ便宜のために、リスト生成部２５は、企業データベース２２１を参照して、企業ＩＤに対応付けられている企業名、住所、ＵＲＬ、事業概要等をあわせて企業リストに含めるようにして生成してもよい。

この際、一つ目のキーワード（上記例では「樹脂成型」）と表示される別の特徴語（上記例では「試作」）は類似している場合もあれば、類似していない場合もある。ユーザ端末１０のユーザは、どのような複数の視点で検索するか等の検索目的に応じて表示されている特徴語から二つ目のキーワードを適宜選択すればよく、その際にキーワード同士が類似しているか類似していないかは考慮していない。

なお、本実施形態では、一例として、企業ごとにスコアが高い上位１０個の特徴語がスコアの高い特徴語から降順に表示されるようにしている。これにより、ユーザは、最初の検索時に予期しないキーワード候補を知ることができる。ここで、ユーザが最初に入力したキーワード「樹脂成型」と同一の特徴語のスコアが低く、上位１０個よりも下位の場合は、この特徴語「樹脂成型」は表示されずに別の上位１０個の特徴語がその企業の特徴語として表示される。

また、ユーザ端末１０に表示される特徴語は、それぞれの企業について表示する特徴語の個数を設定（例えば、スコアが上位X個（Xは自然数）の特徴語に設定）したり、しきい値以上のスコアを有する特徴語をすべて表示するように設定したりすることで、表示画面の錯綜状態を軽減することができる。
上述の処理により、ユーザは二つのキーワード「樹脂成型」及び「試作」を用いてビジネスパートナー候補企業のリストアップを行うことを決定する。

なお、上述の実施形態に加えて、ステップＳ１２２の処理において、検索部２３は、記憶部２２内の企業データベース２２１に記憶されている各企業のテキストデータ（公開企業情報及び非公開企業情報）中に、取得したキーワードと同一のテキストデータを持つ企業を企業ごとに検索し、ヒットした企業の企業ＩＤを取得するようにしてもよい。本実施形態では、各受注候補企業が保有する特徴語は５００個に制限しているため、前述の出現頻度が低くスコアが小さな特徴語はデータとして保持されていない。そのため、特徴語データベース２２３には保持されていないが、企業データベース２２１のテキストデータには含まれているキーワードがユーザ端末１０でキーワードとして入力された場合であっても、次回以降の検索で用いることができる有望な複数のキーワード候補を提示することができる。なお、この場合、リスト生成部２５は、上述のステップＳ１２３の処理と同様に、ユーザ端末１０で入力されたキーワードに一致するテキストデータが含まれていると検索部２３で検索された受注候補企業が保有する複数の特徴語を含む企業リストを生成することとなるが、その特徴語の中にはそのキーワードは含まれていない。しかし、ユーザ端末１０のユーザはリストアップされた様々な特徴語の中から次に検索する場合に適切だと思われる１又は複数のキーワードを容易に選定することができるようになる。

これまでの処理により、企業データベース２２１には公開企業情報及び非公開企業情報を含む企業情報が記憶され、技術タグデータベース２２２には設備タグ、標準規格タグ及び受賞歴タグを含む技術タグ情報が記憶され、特徴語データベース２２３には企業ごとの特徴語とそのスコアが記憶され、学習モデルデータベースには特徴語の学習済みモデルが記憶されている。そして、ユーザ端末１０のユーザが１つのキーワードを入力したことにより管理サーバ２０において上述の処理が行われ、ユーザ端末１０にはその他のキーワード候補が表示されるので、ユーザはよりビジネスパートナー候補企業を検索するための、より適切なキーワードを選択することができる。

そこで、以下の実施形態では、ユーザが２つのキーワードを入力してＡＮＤ（アンド）検索を行うことでビジネスパートナー候補企業のリストを得る処理について説明する。ここで本実施形態では、上記２つのキーワードのＡＮＤ検索を行うものとする。例えば、ユーザ端末１０のユーザは、入力部１１で「樹脂成型試作」と２つのキーワードを両者間にスペースを挟んで入力する。

ユーザ端末１０で入力された２つのキーワードを管理サーバ２０が取得すると（ステップＳ１３）、検索部２３は前述のステップＳ１２２の処理と同様に、取得したキーワードと同一の特徴語を持つ企業を特徴語データベース２２３から検索し、その企業の企業ＩＤを取得する（ステップＳ１４）。この際の処理としては、例えば、入力された二つのキーワード（樹脂成型、試作）と同一の特徴語を両方とも保有している企業が検索される。例えば、本実施形態では、図４に示される特徴語「樹脂成型」及び「試作」の両方の特徴語を保有する複数の企業の企業ＩＤ「５３９８，３４５８９，…」がヒットすることとなり、特徴語「樹脂成型」は保有するが特徴語「試作」を保有しない（特徴語として記憶されている５００個に含まれていないものとする）企業の企業ＩＤ「３６５８８，…」はヒットしない。

［類似度計算処理］
次に、類似度計算部２４は、取得した２つのキーワードと検索された企業との類似度を計算する（ステップＳ１５）。図９は、本発明の一実施形態に係る検索システム１の管理サーバ２０における類似度計算処理（ステップＳ１５）の詳細を説明するためのフローチャートである。

類似度計算部２４は、ヒットした企業ごとに、各企業の特徴語の分散表現（高次元ベクトル表現）を学習モデルデータベース２２４から取得して合成分散表現を生成する（ステップＳ１５１）。本実施形態において合成分散表現は、各企業が保有する特徴語に与えられたそれぞれの高次元ベクトル表現を加算することで得られる。具体的には、ヒットした企業ごとに、その企業が保有する特徴語（本実施形態では各企業には５００個の特徴語が付与されている）の分散表現をすべて足し合わせた合成分散表現を生成する。この際、各特徴語の分散表現は単純に足し合わせてもよいし、スコアが上位の特徴語は、その企業の特徴がより表されているものと考えて、スコアが下位の特徴語よりも高い重み付けを行って足し合わせて合成分散表現を生成するようにしてもよい。

次に、類似度計算部２４は、ユーザ端末１０で入力された二つのキーワード「樹脂成型」及び「試作」に対応する特徴語の分散表現を学習モデルデータベース２２４から取得し、それぞれの入力キーワードに対応する特徴語の分散表現から同様に合成分散表現を生成する（ステップＳ１５２）。なお、この際の合成処理は、両分散表現を単純に足し合わせてもよいし、一つ目のキーワードに対応する特徴語に二つ目又はそれ以降（三つ以上のキーワードが入力された場合）のキーワードに対応する特徴語よりも高い重み付けを与えて足し合わせるようにしてもよい。

そして、類似度計算部２４は、ステップＳ１５１で生成された企業の合成分散表現ベクトルとステップＳ１５２で生成されたキーワードの合成ベクトルの類似度を計算する（ステップＳ１５３）。本実施形態では、計算される類似度としてコサイン類似度を用いる。

そして、リスト生成部２５は、検索部２３で検索された企業の企業名と、類似度計算部２４で計算されたその企業の類似度を含む企業リストを生成する（ステップＳ１６）。生成された企業リストは、管理サーバ２０にアクセスしたユーザ端末１０に表示されるＷｅｂブラウザで表示可能な形式で出力される。図１０は、本発明の一実施形態に係る類似度を含む候補企業リストのユーザ端末１０での表示例を示す図である。図１０に示すように、ユーザ端末１０には、候補企業名が類似度とともに表示される。これにより、候補企業がリストアップされた時点でビジネスパートナーとして相応しいか否かの目安が類似度に基づいて確認できる。そのため、ユーザは従来のようなリストアップした候補企業を全社確認する必要はなく、類似度が上位の企業のみ、或いはしきい値以上の類似度の企業のみ確認するようにすることで、リストアップ後の手間・コストを削減することができる。また、検索結果（出力情報）の標準化が図れるとともに、ユーザの検索目的を酌んだプラスアルファの企業情報を提供できる。なお、企業リスト表示の際には、図８で示したように、ユーザ便宜のために、リスト生成部２５は、企業データベース２２１を参照して、企業ＩＤに対応付けられた企業名、住所、ＵＲＬ及び事業概要等をあわせて企業リストに含めるようにして企業リストを生成するようにしてもよい。

また、ビジネスパートナー企業探索における発注企業からの要求事項（リクワイヤメント）に保有規格、保有設備又は特定の表彰の受賞歴の有無等に関する項目があるような場合は、それらが探索上重要な要素であるとして、候補企業がリストアップされた後等に、リスト生成部２５が技術タグ情報を参照し、それらの技術タグを保有しない企業をリストアップ対象から外すような処理を行うことも可能である。また、リクワイヤメントに記載されている保有設備等を保有する企業をリストアップの際に、案件によりマッチする企業であるとして、上位に表示するような処理を行うこともできる。

［非公開企業情報の取得及び企業データベース２２１への記憶処理］
ここで、上述した類似度はそのままのレーティングだけではビジネスマッチングシステムとしての信頼性は低い可能性がある。これは単に公開情報等のキーワードだけで類似度を見ているためである。そこで、本実施形態では、過去のビジネスパートナー探索において取得されたプロジェクト案件での入力情報や、さらに実際に発注企業と受注候補企業とが面談に進んでいる等の付加情報を非公開企業情報として企業データベース２２１に記憶させ、それらを含む結合テキストデータから特徴語を生成することで、より高い信頼性を持つ検索システムを構築している。

前述のとおり、本実施形態に係る検索システム１におけるビジネスパートナー候補企業の探索においては、公開企業情報だけでなく非公開企業情報も重要な位置付けにある。
ここでは、データベース構築部２６による非公開企業情報の取得及び企業データベース２２１への記憶処理の詳細について説明する。

本実施形態では、所定の時期に限って、管理企業の検索システム１の管理サーバ２０に発注企業のユーザ端末又は受注候補企業のユーザ端末１０からアクセスし、非公開企業情報をそれぞれ入力又はアップロードすることができる。例えば、受注候補企業のユーザ端末１０からビジネスパートナー探索のプロジェクト案件がスタートし、受注企業を募集する期間である１か月間に限って、受注候補企業の担当者等が案件に対する回答を管理サーバ２０が管理するＷｅｂブラウザを介して入力することができるようにする。なお、当該期間は、これ以外に、各ビジネスパートナー探索プロジェクトが行われている全期間であってもよいし、特に期間を設けずにいつでも入力できるようにしておき、管理者が任意のタイミングで入力の可否を調整できるようにしてもよい。入力された回答情報等は非公開企業情報としてデータベース構築部２６によって企業データベース２２１に記憶され、情報が新規に記憶又は既存情報が更新される。

一般に、公開企業情報は事業概要やサービス説明等の一般的な情報であって、その企業のコアな技術力に関する情報が書かれていないことも多い。一方で個々のビジネスパートナー探索プロジェクトにおける質問等の回答情報には、その探索案件の募集概要に見合った受注候補企業からのアピール文を含む提案内容が書かれており、それぞれの企業等の様様な事情や技術・開発のトレンド等を加味したその企業に関するより専門的な技術情報がテキスト入力される。そこでこの情報（非公開企業情報）から生成された特徴語については、公開企業情報から生成された特徴語よりも、重み付けを大きくすることでより過去の類似したビジネスパートナー探索で得た情報をより有効に活用した検索システムを構築することができる。具体的には、回答情報中の何回も繰り返し用いられたテキストに対応する特徴語により高い重み付けを与えたシステムにしてもよい。

このように本実施形態に係る検索システム１によれば、公開情報等の企業情報をすべて同等のテキストデータとして取り扱うのではなく、過去のビジネスパートナー探索における様々な事情やトレンドを考慮したスマートな探索処理を行うようにすることができる。これにより、過去のビジネスパートナー探索の成果を効果的に活用でき、ビジネスパートナー検索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的に検索できる。

［その他の処理］
上述の実施形態では、企業検索のために入力されるキーワード（ステップＳ１２１で管理サーバ２０が取得するキーワード）と、その取得キーワードに基づいてステップＳ１２２で検索され、ステップＳ１２３でその取得キーワードとの類似度が計算される候補企業が保有する特徴語との間の類似度を考慮しているが、入力されるキーワードの周辺キーワード（入力キーワードに類似するキーワード）との類似語は考慮していない。そこで、上記類似度計算処理（ステップＳ１２３）に代えて、入力されるキーワードの周辺キーワードと候補企業が保有する特徴語との間の類似度を計算する別の実施形態も考えられる。

具体的には、類似度計算部２４において、検索でヒットした企業ごとに、ユーザ端末１０で入力され管理サーバ２０で取得したキーワードに対応する特徴語の分散表現と類似度が高いキーワードを基底としたベクトル（ベクトル１）と各企業の特徴語を基底としたベクトル（ベクトル２）とのコサイン類似度を計算する。

取得キーワードに対応する特徴語の分散表現と類似度が高いキーワードを基底としたベクトル（ベクトル１）は、取得キーワード（例えば、「樹脂成型」）に対応する特徴語の分散表現とコサイン類似度が高い学習モデルの特徴語を類似度計算部２４で計算し、取得キーワードに対応する特徴語及びその特徴語に類似する（コサイン類似度が高い）複数の別の特徴語を取得して、それらの特徴語とそれぞれのスコアから構成されるベクトルである。また、二つ以上のキーワードが入力される場合は、例えば、計算された特徴語の分散表現を合成して、ベクトル１を生成する。なお、分散表現の合成の際には、最初のキーワードは二番目以降のキーワードよりも軸となる重要なキーワードであるとみなして、最初のキーワードに対応する特徴語の分散表現の方を二番目以降のキーワードに対応する特徴語の分散表現よりも大きな重みを付けて合成するようにしてもよい。

また、各企業の特徴語を基底としたベクトル（ベクトル２）は、各企業の特徴語とＴＦ－ＩＤＦ値の組み合わせを要素として持った行列（企業行列）である。本実施形態において、各企業は図４に示すように５００個の特徴語を保有しており、企業行列はそれらの特徴語とそれぞれのスコアから構成されるベクトルである。

そして、類似度計算部２４は、上記ベクトル１とベクトル２の類似度を計算するが、この際、両ベクトルに含まれる同一の特徴語間のスコアに限って積を計算し、異なる特徴語間の積は考慮しないようにして、特徴語間のスコアの積の総和を算出し、その大きさに基づいて類似度を計算する。
前述したコサイン類似度計算（ステップＳ１５３）を通じた候補企業リスト生成では、各企業の特徴語に重み付けがされていないため、幅広く企業をリストアップしたい場合に有効である。一方、上記の各企業の特徴語を基底としたベクトルを用いた類似度計算を通じた候補企業リストの生成は、よりマッチング確度が高い企業を探す場合に有効である。

なお、リスト生成部２５は、類似度計算部２４で計算された上記類似度が所定のしきい値以上の場合である等の所定の条件を満たす場合に、その企業を企業リストに含めるようにしてもよい。
また、ユーザ端末１０で入力されたキーワードに対応する特徴語や学習モデルが記憶部２２内に記憶されていない場合、管理サーバ２０はユーザ端末１０にエラーを返すような設定にすることができる。このような場合は、エラーが出たキーワードを優先的に特徴語として記憶し、その学習モデルを生成する処理を行うようにすることができる。例えば、入力されたキーワードが学習モデルに登録されていない場合は、そのキーワードを含むコーパス（テキスト）を入力として追加学習する。

また、前述したステップＳ１２の処理において、二つ以上のキーワード入力でＡＮＤ演算を行い、三つ目以降のキーワードをユーザに示唆するようにしてもよい。ＡＮＤは上記処理と同様にすればよい。また、検索目的に応じて、ステップＳ１３の処理において、二つのキーワードによるＡＮＤ検索を行っているが、三つ以上のキーワードを用いた場合でも同じ原理で行えばよく、またいずれかのキーワードが含まれていればよいとするＯＲ（オア）検索を行うようにしてもよい。

また、本実施形態では、管理サーバ２０によって提供される機能の全部又は一部がＳａａＳ型のクラウドサービスによって実現される例について説明したが、それらの機能をＰａａＳ（Platform as a Service）、ＩａａＳ（Infrastructure as a Service）、又はＡＰＩ（Application Programming Interface）等を介して提供するサービスによって実現するようにしてもよい。

なお、本実施形態で説明した検索システム１の構成、ユーザ端末１０及び管理サーバ２０の構成は一例であり、本発明の範囲を超えない範囲において変更してもよい。また、管理サーバ２０等の処理の流れも一例であり、本発明の範囲を超えない範囲において不要処理ステップの削除や新規処理ステップの追加や処理ステップの入れ替えは可能である。

１検索システム
１０ユーザ端末
２０管理サーバ
２１通信部
２２記憶部
２３検索部
２４類似度計算部
２５リスト生成部
２６データベース構築部
２７特徴語生成部
２８学習モデル生成部
３０ネットワーク
２２１企業データベース
２２２技術タグデータベース
２２３特徴語データベース
２２４学習モデルデータベース

上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索システムであって、企業の特徴を表す複数の特徴語を該特徴語の出現頻度に基づくスコアと共に企業ごとに記憶する特徴語記憶手段と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデル記憶手段と、入力装置から入力されたキーワードを取得する取得手段と、前記キーワードに対応する特徴語を持つ企業を前記特徴語記憶手段から検索する検索手段と、前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手段と、前記検索手段で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手段とを備えることを特徴とする。

さらにまた、上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索サーバにおける検索方法であって、入力装置から入力されたキーワードを取得する取得工程と、前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出現頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索工程と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索工程で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算工程と、前記検索工程で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成工程とを有することを特徴とする。

Claims

ビジネスパートナー探索を目的として企業リストを生成する検索システムであって、
企業の特徴を表す複数の特徴語を該特徴語の出願頻度に基づくスコアと共に企業ごとに記憶する特徴語記憶手段と、
前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデル記憶手段と、
入力装置から入力されたキーワードを取得する取得手段と、
前記キーワードに対応する特徴語を持つ企業を前記特徴語記憶手段から検索する検索手段と、
前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手段と、
前記検索手段で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手段と
を備えることを特徴とする検索システム。
前記類似度計算手段は、前記検索手段で検索された前記企業が持つ複数の特徴語のそれぞれの分散表現を合成した合成分散表現と前記キーワードに対応する特徴語の分散表現との類似度を計算することを特徴とする請求項１に記載の検索システム。
前記類似度計算手段は、前記キーワードに対応する特徴語に類似する特徴語を前記学習モデルに基づいて計算し、前記キーワードに対応する特徴語及び該特徴語に類似する複数の特徴語とそれらのスコアを含む第１のベクトルと、各企業が保有する特徴語とそのスコアを含む第２のベクトルとの類似度を計算することを特徴とする請求項１に記載の検索システム。
前記類似度計算手段は、前記第１のベクトルと前記第２のベクトルに含まれる同一の特徴語間のスコアの積の総和に基づいて前記類似度を計算することを特徴とする請求項３に記載の検索システム。
前記類似度計算手段は、前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現について、それぞれの特徴語のスコアが上位の特徴語をスコアが下位の特徴語よりも大きく重み付けを行った分散表現とし、前記キーワードに対応する特徴語に基づく分散表現との類似度を計算することを特徴とする請求項１から４のいずれか１項に記載の検索システム。
ビジネスパートナー探索を目的として企業リストを生成する検索サーバにおける検索方法であって、
入力装置から入力されたキーワードを取得する取得工程と、
前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出願頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索工程と、
前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索工程で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算工程と、
前記検索工程で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成工程と
を有することを特徴とする検索方法。
ビジネスパートナー探索を目的として企業リストを生成する検索サーバに、
入力装置から入力されたキーワードを取得する取得手順と、
前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出現頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索手順と、
前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索手順で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手順と、
前記検索手順で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手順と
を実行させるためのコンピュータ読み取り可能な検索プログラム。