JP2023008284A - 検索システム、検索方法及び検索プログラム - Google Patents

検索システム、検索方法及び検索プログラム Download PDF

Info

Publication number
JP2023008284A
JP2023008284A JP2021111716A JP2021111716A JP2023008284A JP 2023008284 A JP2023008284 A JP 2023008284A JP 2021111716 A JP2021111716 A JP 2021111716A JP 2021111716 A JP2021111716 A JP 2021111716A JP 2023008284 A JP2023008284 A JP 2023008284A
Authority
JP
Japan
Prior art keywords
company
characteristic
words
keyword
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021111716A
Other languages
English (en)
Other versions
JP6941802B1 (ja
Inventor
琢也 大迫
Takuya Osako
康一郎 佐野
Koichiro Sano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linkers Co Ltd
Original Assignee
Linkers Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linkers Co Ltd filed Critical Linkers Co Ltd
Priority to JP2021111716A priority Critical patent/JP6941802B1/ja
Application granted granted Critical
Publication of JP6941802B1 publication Critical patent/JP6941802B1/ja
Publication of JP2023008284A publication Critical patent/JP2023008284A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 ビジネスパートナー探索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的にリストアップする。【解決手段】 検索システム1の管理サーバ20は、企業の特徴を表す複数の特徴語をそのスコアと共に企業ごとに記憶する特徴語データベース223と、機械学習を行って得られる特徴語の分散表現を特徴語ごとに学習モデルとして記憶する学習モデルデータベース224を備えている。管理サーバ20は外部の入力装置から入力されたキーワードを取得すると、キーワードに対応する特徴語を持つ企業を特徴語データベース223から検索し、その企業の特徴語に基づく分散表現とキーワードに対応する特徴語に基づく分散表現との類似度を計算し、特徴語、スコア及び類似度を含む企業リストを生成する。【選択図】 図3

Description

本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索システム、検索方法及び検索プログラムに関する。
近年の企業における製品開発は、自社技術だけでなく、社外企業の優れた技術を活用するケースが多く見られる。例えば、多くの大企業や中堅企業が優れた技術を持つ中小・ベンチャー企業をビジネスパートナーにしている。
これまで取引がない新しいビジネスパートナーをインターネットで探す場合、検索ユーザはパーソナルコンピュータ等の画面に表示されるWebブラウザ上でキーワードを入力し、そのキーワードがヒットした企業をビジネスパートナーの候補としてリストアップする。この際に用いられるキーワードの多くは、商材やその特徴等の製品や材料に関する単語であるが、検索ユーザの経験や知識に基づいて選択されるため、ユーザのスキルや経験の差が検索結果に表れてしまうことが多い。そこで、入力されたキーワードに関連するキーワード技術を企業情報から抽出して両者の類似度を算出した上で企業を検索する技術が知られている(例えば、特許文献1参照)。
特開2019-133367号公報
しかしながら、ユーザの試行錯誤を経た従来のキーワード検索によってリストアップされる企業は、リストアップされた時点ではビジネスパートナーとして相応しいか否かの優劣はつけられていない。そのため、リストアップされた全ての候補企業の企業情報をユーザが確認して判断しなければ、より適切な候補企業を選択し漏らす可能性があるため、リストアップ後の手間・人的コストがかかる。
本発明は、このような事情を考慮してなされたものであり、ビジネスパートナー探索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的にリストアップできる検索システム、検索方法及び検索プログラムを提供することを目的とする。
上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索システムであって、企業の特徴を表す複数の特徴語を該特徴語の出願頻度に基づくスコアと共に企業ごとに記憶する特徴語記憶手段と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデル記憶手段と、入力装置から入力されたキーワードを取得する取得手段と、前記キーワードに対応する特徴語を持つ企業を前記特徴語記憶手段から検索する検索手段と、前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手段と、前記検索手段で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手段とを備えることを特徴とする。
また、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記検索手段で検索された前記企業が持つ複数の特徴語のそれぞれの分散表現を合成した合成分散表現と前記キーワードに対応する特徴語の分散表現との類似度を計算することを特徴とする。
さらに、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記キーワードに対応する特徴語に類似する特徴語を前記学習モデルに基づいて計算し、前記キーワードに対応する特徴語及び該特徴語に類似する複数の特徴語とそれらのスコアを含む第1のベクトルと、各企業が保有する特徴語とそのスコアを含む第2のベクトルとの類似度を計算することを特徴とする。
さらにまた、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記第1のベクトルと前記第2のベクトルに含まれる同一の特徴語間のスコアの積の総和に基づいて前記類似度を計算することを特徴とする。
さらにまた、本発明に係る上記検索システムにおいて、前記類似度計算手段は、前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現について、それぞれの特徴語のスコアが上位の特徴語をスコアが下位の特徴語よりも大きく重み付けを行った分散表現とし、前記キーワードに対応する特徴語に基づく分散表現との類似度を計算することを特徴とする。
さらにまた、上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索サーバにおける検索方法であって、入力装置から入力されたキーワードを取得する取得工程と、前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出願頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索工程と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索工程で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算工程と、前記検索工程で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成工程とを有することを特徴とする。
さらにまた、上記課題を解決するために、本発明に係るコンピュータ読み取り可能な検索プログラムは、ビジネスパートナー探索を目的として企業リストを生成する検索サーバに、入力装置から入力されたキーワードを取得する取得手順と、前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出現頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索手順と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索手順で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手順と、前記検索手順で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手順とを実行させることを特徴とする。
本発明によれば、ビジネスパートナー探索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的にリストアップできる。例えば、それぞれの特徴後がその企業の特徴をどの程度表しているかの指標となるスコアと、その企業が入力キーワードとどの程度関連しているかの指標となる類似度とを含むユーザフレンドリーな企業リストをユーザに提供できる。
本発明の一実施形態に係る検索システム1の構成図である。 本発明の一実施形態に係る検索システム1におけるユーザ端末10の構成を示すブロック図である。 本発明の一実施形態に係る検索システム1における管理サーバ20の構成を示すブロック図である。 本発明の一実施形態に係る特徴語データベース223のデータ構造例を示す図である。 本発明の一実施形態に係る学習モデルデータベース224のデータ構造例を示す図である。 本発明の一実施形態に係る検索システム1の管理サーバ20における全体処理を説明するためのフローチャートである。 本発明の一実施形態に係る検索システム1の管理サーバ20における新たなキーワード候補(特徴語)の生成処理(ステップS12)の詳細を説明するためのフローチャートである。 本発明の一実施形態に係る候補企業リストのユーザ端末10への表示例を示す図である。 本発明の一実施形態に係る検索システム1の管理サーバ20における類似度計算処理(ステップS15)の詳細を説明するためのフローチャートである。 本発明の一実施形態に係る類似度を含む候補企業リストのユーザ端末10での表示例を示す図である。
以下、図面を参照して、本発明の一実施形態について説明する。
図1は、本発明の一実施形態に係る検索システム1の構成図である。図1に示すように、本実施形態に係る検索システム1は、複数のユーザ端末10と管理サーバ20で構成され、それぞれインターネット等の有線又は無線のネットワーク30で通信可能に接続されている。以下では、ビジネスパートナー企業の探索を含む企業マッチングサービスを提供する企業(以下、「管理企業」という)に上記検索システム1が導入され、SaaS(Software as a Service)型のクラウドサービスによって以下で詳述するビジネスパートナー候補企業の検索やその他の各種処理が行われるものとする。
ユーザ端末10は、例えば、管理企業のビジネスパートナー探索を行う部署の管理者又はその部署に所属する担当者のパーソナルコンピュータ等である。管理企業がビジネスパートナー探索の依頼を顧客企業(以下、「発注企業」という)から受けると、管理企業の担当者はビジネスパートナー企業に期待する技術等を発注企業の担当者等にヒアリング等を行い、検索のための適切なキーワードを検討する。そして、ユーザ端末10のユーザ(管理企業の担当者等又は別の人員)は、検討されたキーワードを用いて候補企業の検索を行い、ビジネスパートナーの候補企業リストを作成する。具体的には、ユーザ端末10のユーザは、管理サーバ20が管理するWebサイトにアクセスをしてキーワードを入力する。管理サーバ20は、入力されたキーワードに基づいて候補企業の検索を行い、ビジネスパートナーの候補企業リストを生成する。このとき、当該リストはユーザ端末10からアクセスしたWebサイトで表示可能になっている。
ここで、ユーザ端末10は、管理企業だけでなく、ビジネスパートナーの探索サービスの提供を受ける発注企業や、候補企業リストに基づいて発注企業が面談を希望する受注候補企業等(以下、「候補企業」という)に導入されていてもよい。この場合、発注企業の担当者等は、それぞれのユーザ端末10から自社の企業情報やビジネスパートナー探索に関する情報(ビジネスパートナー探索の詳細や受注候補企業への質問等)を管理サーバ20にアップロードしたり、管理企業のユーザによって検索された候補企業リストを閲覧することができる。また、受注企業の担当者等は、ユーザ端末10から自社の企業情報やビジネスパートナー探索に関する情報(発注企業等へのアピール文や発注企業からの質問の回答等)を管理サーバ20にアップロードできる。
図2は、本発明の一実施形態に係る検索システム1におけるユーザ端末10の構成を示すブロック図である。図2に示すように、ユーザ端末10は、ユーザがキーワードやコマンド等を入力するキーボードやタッチパネル等の入力部11、入力されたキーワードや管理サーバ20で生成された候補企業リスト等のデータを表示するモニタ等の表示部12、各種処理を行う処理部13、及び管理サーバ20やその他の不図示の装置等とネットワーク30を介して通信処理を行う通信部14を備えている。処理部13は、CPUやプログラムを格納したROM、RAM等によって構成され、ROMに記憶されたプログラムに従って各種処理を行う。本実施形態において、ユーザ端末10はパーソナルコンピュータとして説明するが、それ以外に、スマートフォンやタブレット等の通信端末であってもよい。
図3は、本発明の一実施形態に係る検索システム1における管理サーバ20の構成を示すブロック図である。図3に示すように、管理サーバ20は、ユーザ端末10やその他の不図示の外部装置等とネットワーク30を介して通信処理を行う通信部21、プログラムや各種データ等の情報を記憶する記憶部22、ユーザ端末10で入力されたキーワードに基づいてビジネスパートナー候補企業の検索を行う検索部23、入力されたキーワードと検索された企業の特徴との類似度計算を行う類似度計算部24、計算された類似度を用いてビジネスパートナーの候補企業リストを生成するリスト生成部25を備えている。
また、管理サーバ20は、ユーザ端末10やその他の外部装置(不図示)から候補企業の技術等に関する情報やその企業の技術等の特徴をタグ付けによって示すための技術タグ情報を取得し、データベースとして記憶部22に記憶させるデータベース構築部26、企業の特徴を示す特徴語を生成する特徴語生成部27、及び特徴語の学習モデルを生成する学習モデル生成部28を備える。また、記憶部22は、候補企業の技術等に関する情報を記憶する企業データベース221、技術タグ情報を記憶する技術タグデータベース222、特徴語を記憶する特徴語データベース223、及び学習モデルを記憶する学習モデルデータベース224を備えている。
本実施形態において、管理サーバ20は、上述の各ユニット(通信部21~学習モデル生成部28)の処理機能を1つのサーバで実現するようにしているが、この機能を複数のサーバで実現するようにしてもよい。また、各サーバを単一の計算機で構成するようにしてもよいし、物理的に異なる複数の計算機等で構成されるようにしてもよい。
データベース構築部26は、ユーザ端末10又はその他の外部装置(不図示)から、インターネット上で公開されている企業のホームページや有償・無償のデータベースから選択的に抽出された発注企業や受注候補企業の企業概要、事業概要及び保有技術等に関する企業情報等(以下、「公開企業情報」という)を取得すると、企業ごとに付与される企業IDに対応付けて記憶部22に記憶することで企業データベース221を新規に構築又は記憶情報を更新する。例えば、公開企業情報には、法人名(企業名)、本社の所在地(住所)、企業概要の説明文、事業概要の説明文、保有技術の説明文及び企業ホームページのアドレス(URL)等の公開情報が含まれる。なお、公報企業情報には、公開情報に基づいて管理企業の担当者等が企業概要、事業概要又は保有技術の説明文を起案した文章も含まれる。
また、データベース構築部26は、ユーザ端末10又はその他の外部装置(不図示)から、管理企業における過去及び現在のビジネスパートナー探索プロジェクトの案件についてのエントリー情報(受注候補企業からの立候補に関する情報やその際のアピール文等の付加情報等)、過去及び現在のビジネスパートナー探索の過程で発注企業と候補企業との間でなされた質問とその回答に関する情報、及び、候補企業が保有している技術で外部企業への提供が可能な技術(シーズ技術)に関する情報等(以下、「非公開企業情報」という)を取得すると、企業IDに対応付けて記憶部22に記憶することで企業データベース221を新規に構築又は記憶情報を更新する。
さらに、データベース構築部26は、ユーザ端末10又はその他の外部装置(不図示)から、その企業が保有しているISO(登録商標)等の製品・サービスに関する国際規格や国内規格に関するタグ情報(以下、「規格タグ」という)、製品の加工・生産等のための装置・設備に関するタグ情報(以下、「設備タグ」という)、国・地方公共団体や各種業界団体等から表彰を受けた受賞歴等に関するタグ情報(以下、「受賞歴タグ」という)を含む技術タグ情報を取得すると、記憶部22に記憶することで技術タグデータベース(技術タグ辞書)222を新規に構築又は記憶情報を更新する。
なお、データベース構築部26による公開企業情報及び非公開企業情報の取得及び企業データベース221への記憶・更新処理、技術タグ情報の取得及び技術タグデータベース222への記憶・更新処理は、後述するキーワード検索や候補企業リストの生成に係る処理と共に行ってもよいし、これらの処理とは独立して行うようにしてもよい。例えば、データベース構築部26は、数か月に1回等、定期的に又は任意のタイミングで外部装置等から公開企業情報、非公開企業情報及び技術タグ情報を取得して企業データベース221及び技術タグデータベース222の記憶情報をアップデートするようにしてもよい。なお、企業データベース221の公開企業情報及び非公開企業情報、及び技術タグデータベース222の技術タグ情報は、後述する特徴語生成処理や学習モデル生成処理等での処理を容易化するためにテキストデータで記憶されている。
特徴語生成部27は、企業データベース221から企業ごとに公開企業情報及び非公開企業情報を取得して結合テキストデータを生成し、その結合テキストデータに対して形態素解析・不要語除去処理を経て得られた技術関連用語を特徴語として生成し、企業IDに対応付けて記憶部22に記憶させることで特徴語データベース223に新規に記憶又は情報を更新する。図4は、本発明の一実施形態に係る特徴語データベース223のデータ構造例を示す図である。本実施形態において、特徴語データベース223には、特徴語生成部27で生成された特徴語がそのスコアと対応付けて企業ごとに記憶されている。また、各企業が保有する特徴語の個数として、企業ごとにスコアが上位の特徴語をスコアとともに記憶するが、本実施形態では一例として500個の特徴語をそのスコアとともに記憶するものとする。
ここで特徴語のスコアについて説明する。本実施形態において特徴語のスコアは、企業データベース221に記憶されている全テキストデータにおける各特徴語の出現頻度におけるそれぞれの企業における結合テキストデータから生成される特徴語の出現頻度の割合に所定の係数を乗算した数値で示される。本実施形態は、特に製造業を中心としたビジネスパートナー探索を効果的に行うために、製造業界特有の単語が特徴語として多く格納されており、製造業向けの辞書を含む検索システムとなっている。
学習モデル生成部28は、製造業の企業ごとに特許文献、企業の研究開発報告書、技術関連ニュース等の技術に関する公開文献情報(以下、「技術文書」という)に含まれる特徴語について、周辺の複数の特徴語から一の特徴語を予測する深層学習を行ってそれぞれの特徴語を高次元ベクトルで表現した分散表現を生成し、分散表現の特徴語を学習モデルとして学習モデルデータベース224に記憶する。図5は、本発明の一実施形態に係る学習モデルデータベース224のデータ構造例を示す図である。本実施形態において、学習モデルデータベース224には、特徴語データベース223に記憶されている特徴語に基づいて学習モデル生成部28で生成された各特徴語の分散表現が、特徴語ごとにベクトルの次元順に数値で示されて記憶されている。本実施形態では、後述するように各特徴語を少なくとも数百次元以上の高次元ベクトル(具体的には、500次元のベクトル)の分散表現で構築しているため500個の数字が記憶されているが、ベクトルの次元数についてはこれに限られず、適宜変更できるようなシステム設計にすることもできる。学習モデルデータベース224の生成処理の詳細については後述する。
以下、図面を参照して、本発明の一実施形態に係る管理サーバ20におけるキーワード検索によるビジネスパートナー候補企業のリスト生成処理について説明する。以下の実施形態では、企業マッチングサービスを提供している管理企業に検索システム1が導入されており、発注企業からの企業探索サービスの発注を受けて管理企業のユーザが社内のユーザ端末10を用いてキーワード検索を行って候補企業のリストを生成する管理サーバ20における一連の検索処理について説明する。
図6は、本発明の一実施形態に係る検索システム1の管理サーバ20における全体処理を説明するためのフローチャートである。検索システム1において、記憶部22内の企業データベース221、技術タグデータベース222、特徴語データベース223及び学習モデルデータベース224の新規構築及び記憶情報の更新処理(ステップS11)は、ユーザ端末10のユーザが行うキーワード検索処理と同時に、又はその前後にそれぞれ独立的に行うことが可能であるが、以下の実施形態では説明を容易にするために、ユーザ端末10のユーザによるキーワード検索処理に先立って行う形態で説明する。
[企業データベース221の構築・更新]
管理サーバ20のデータベース構築部26は、ユーザ端末10によるキーワード検索に先立って、ユーザ端末10又はその他の外部装置(不図示)等から候補企業の公開企業情報及び非公開企業情報を取得し、その情報を企業ごとに企業データベース221に新規に記憶又は既存情報の更新を行う。
本実施形態において、公開企業情報は、インターネットを介してアクセス可能な各企業のホームページやプレスリリース、ニュース記事等からそれぞれの企業の技術情報等をテキストデータ形式で取得したものである。なお、公開されている企業情報がHTML形式のようなデータの場合には、ヘッダーやフッター等の不要語を公知の手法等で除去することによってテキストデータに変換することができる。また、取得のタイミングに特に制限はなく、管理者のユーザ端末10やその他の外部装置(不図示)等から常時又は定期的に、或いは任意のタイミングで管理サーバ20にアップロードされ、データベース構築部26がそのデータを企業データベース221に新規に記憶又は記憶されている情報を更新する。
また、本実施形態において、非公開企業情報は、ビジネスパートナー探索のプロジェクト案件ごとに決められた期間中に、候補企業の担当者等がそれぞれのユーザ端末10から管理サーバ20にアクセスし、データを入力することで管理サーバ20にアップロードされる。例えば、ビジネスパートナー探索プロジェクトの案件情報が候補企業に提示された後、1か月の期間を設け、その期間内だけ発注企業からの質問事項に関する受注候補企業からの回答(すなわち、非公開企業情報)を受け付けてデータ入力を可能にすることができる。なお、当該期間は、これ以外に、各ビジネスパートナー探索プロジェクトが行われている全期間であってもよいし、特に期間を設けずにいつでも入力できるようにしておき、管理者が任意のタイミングで入力の可否を調整できるようにしてもよい。この処理は、管理サーバ20のデータベース構築部26によって制御され、ユーザ端末10で入力された非公開企業情報が管理サーバ20にアップロードされると、企業データベース221に新規に記憶又は既存情報の更新が行われる。ここで、入力される非公開企業情報として、例えば、候補企業の最新の技術や発注企業への技術力のアピール文等の企業のオリジナル情報や発注企業からの質問事項に対する回答情報等が含まれる。
[技術タグデータベース222の構築・更新]
管理サーバ20のデータベース構築部26は、さらにユーザ端末10によるキーワード検索に先立って各企業が保有する潜在的な技術特徴等をタグ付けするための基礎となる技術タグ情報をユーザ端末10又はその他の外部装置(不図示)から取得し、技術タグデータベース222に新規に記憶又は既存情報を更新する。本実施形態では、上記企業データベース221の構築と同時又はそれと前後して技術タグ情報を取得し、技術タグデータベース222を構築する。技術タグ情報には、前述のように、規格タグ、設備タグ及び受賞歴タグが含まれる。
生成される候補企業リストの付属情報として、各企業IDと上記技術タグに関する情報を対応付けて表示可能にすることによって、ユーザは、候補企業の絞り込みのために、その企業が保有する国際規格、設備・装置又は受賞歴を含む技術タグの項目を参照して、一目で候補企業の潜在的な技術力を比較することができる。例えば、規格タグの項目に様々な国際規格等や受賞歴が表示されるような企業は、一目で製品・サービスの品質を重視することに留意していると考えられる企業であり、また他機関等から表彰されるほど技術力が高い企業であると想像でき、さらに設備タグの項目に様々な装置・設備名が表示されるような企業は、装置・設備名を一目見るだけで試作や量産等の対応が可能な企業であるかを推察することができる。また、例えば、クリーンルームの保有がビジネスパートナー企業に要求されるような場合、「クリーンルーム」が特徴語として含まれるが、そのスコアが低い場合はリストアップされた時にユーザ端末10の画面上には特徴語が表示されない場合もある。しかし、そのような場合でも設備タグを参照することで、ユーザは一目でクリーンルームを保有していることを確認できる。また、ユーザは、国際規格や受賞歴等が表示されるので企業の生産体制や信頼性を推測することができる。また、検索するユーザが専門知識を持っていない場合でも、技術タグの項目を一目見るだけで容易にその企業の特徴を確認することができる。
[特徴語データベース223の構築・更新]
管理サーバ20の特徴語生成部27は、企業データベース221の企業情報(テキストデータ)から企業ごとに特徴語とそのスコアを生成して、それらを特徴語データベース223に新規に記憶又は既存情報を更新する。
ここで、特徴語生成部27における特徴語生成処理の詳細について説明する。本実施形態は、後述するキーワード検索等の処理に先立って企業データベース221に記憶されている企業情報等から特徴語を生成して特徴語データベース223に記憶する。なお、本処理は後述するキーワード検索時に行うようにしてもよいが、本実施形態では本処理はキーワード検索処理とは独立した処理とし、事前に特徴語を特徴語データベース223に記憶しておき、また独立して逐次特徴語データベース223に記憶される特徴語の更新を行うものとする。
特徴語生成部27は、まず企業データベース221からテキストデータの企業情報(公開企業情報及び非公開企業情報)を呼び出す。次に、特徴語生成部27は、呼び出した企業情報から不要語を除去して特徴語を抽出する。具体的には、特徴語生成部27は、技術用語をまとめた技術辞書(不図示)やその単語の文法上等の属性をまとめた属性辞書(不図示)等を用いて、テキストを形態素に分解・決定する形態素解析を行って、その結果から技術用語を抽出する。この際、同義語やゆらぎ語(例えば、「モーター」と「モータ」)は1つの単語としてまとめるようにする。不要語除去においては、不要語辞書(不図示)を用意して、形態素化されたテキストのうち、助詞や非技術用語(名詞)等を不要語として除去する。不要語を除去した後の単語は技術用語と想定され、特徴量(後述のスコア)が計算される。なお、特徴語生成部27は、抽出した単語(技術用語)に対して、ビジネスパートナー探索における技術的な特徴を表す単語として共通的に用いられて一般化しているような抽象的な単語(例えば、「〇〇装置」の「装置」等)を抽象語として取り除き、残った単語(例えば、「〇〇装置」の「〇〇」の部分)を特徴語として特徴語データベース223に格納(新規に記憶又は情報を更新)する。
本実施形態において各特徴語にはそのテキスト(特徴語)の特徴を表す指標としてスコアと呼ばれる特徴量(スカラ量)が与えられている。本実施形態では、この指標としてTF-IDF(Term Frequency - Inverse Document Frequency)値を採用している。TF-IDF値はTF値とIDF値との積で、TF値は企業のテキストデータの中での各単語の出現頻度、IDF値は全企業のテキストデータのうち、全企業に対する各単語を含む企業数の割合の逆数に対数をとった値である。このスコアは文書に含まれる単語の重要度を示すもので文書の特徴を判別することができる。具体的には、「ある文書の中で何度も出現する単語、かつ多くの文書に出現しない単語はその文書を特徴付ける重要な単語」と理解できる。ここで、TF-IDF値が高い順番に単語を並び替えると技術単語以外の単語も上位にランクインするため、前述のように技術単語辞書を用意して、その辞書に含まれる単語のみファクターを乗算して特徴語データベース223に格納する。
なお、スコアの指標や次元数についてはこれに限定されるものではなく、実装するシステムの性質や目的によって適宜変更するようにしてもよい。
[学習モデルデータベース224の構築・更新]
管理サーバ20の学習モデル生成部28は、製造業に関する技術文書中に含まれる特徴語を周辺の特徴語から予測させる深層学習を行ってそれぞれの特徴語を高次元ベクトルの分散表現で構築した学習モデル(学習済みモデル)を生成し、学習モデルデータベース224に特徴語ごとに新規に記憶又は記憶情報を更新する。
ここで、特徴語の高次元ベクトルの分散表現には、文字・単語をベクトル空間に埋め込み、その空間上の一つの点としてとらえる単語分散表現を用いることができる。本実施形態では、Word2Vecを用いた学習済みの埋め込み空間で単語ベクトル空間を表現している。なお、ベクトル空間表現はWord2Vecに限られることはなくDoc2VecやTF-IDF等のその他のベクトル空間モデルを使用するようにしてもよい。
また、学習モデル生成部28における深層学習は、入力層、中間層及び出力層の多層構造のニューラルネットワークを用いて行われ、文章中の各単語(「中心語」と呼ぶ)に対して入力層に中心語の周辺の単語(「周辺語」と呼ぶ)をワンホット(one-hot)表現へ変換したベクトルを与え、出力層に中心語をワンホット表現へ変換したベクトルを与えて、周辺語から中心語を予測する学習を行う。本実施形態は、例えば、中心のある単語を周辺の単語から予測する教師あり学習法であるCBOW(Continuous Bag of Words)法を用い、入力として周辺語を与え、中心語の予測を出力する学習を行い、学習を通じてある単語の周囲にどのような単語が現れる可能性が高いのかを学習させる。学習が終われば各単語の分散表現が得られる。ここで、分散表現は、中間層への重み行列とする。中間層の次元は100~1000次元を選ぶのが一般的であるが、本実施形態では500次元を採用する。
前述したように、本実施形態に係る検索システム1では、技術文書として、特許文献、企業の研究開発報告書、技術関連ニュース等の技術に関する公開文献情報を用いて学習を行っている。一方、一般のニュース記事等のように、専門用語が正しく使われていない可能性が高い文書や、学術論文のようなその分野の専門家しか理解できないような専門用語や表現が多く含まれるような文書は学習対象の技術文書から除くようにしている。すなわち、いわゆる「ものづくり」の分野である製造業界におけるビジネスパートナー探索に好適なシステムとなるように、学習対象の技術文書を上記のように限定することで、最適な機械学習が行われるようにしている。
学習モデル生成処理は、後述する類似度計算処理の直前に行うようにしてもよいが、本実施形態では本処理は類似度計算処理とは独立した処理とし、事前に学習モデルを生成して学習モデルデータベース224に記憶しておき、定期的に(例えば、四半期に一度)学習モデルデータベース224に記憶される学習モデルの更新を行うものとする。
また、学習モデルデータベースをユーザの目的にあわせて選択的に使用できるように複数の学習済みモデルを備えたシステムにしてもよい。このようにすることで、例えば、自動車業界と素材・金属業界とで用いられる特徴語「モータ」のニュアンスの違いに対応することができる。また、製造業をさらにいくつかの細部業種に分類してそれぞれの細部業種で別のデータベースを設けたり、製造業を含む複数の業種のデータベースを設けたりして、ビジネスパートナー探索の内容に応じて使用するデータベースを適宜選択できるようにしてもよい。
[キーワード候補(特徴語)の提示処理]
ビジネスパートナー候補企業のリストアップをキーワード検索に基づいて行う場合、通常は複数の異なるキーワードを同時に、又は逐次入力し、適切な候補企業がリストアップされるように検索結果を絞り込んでいくという作業が発生する。そこで、本実施形態では、ビジネスパートナー候補企業のリストアップを行うユーザが、ユーザ端末10で一つ目のキーワードを入力し、そのキーワードと一致するテキストデータが企業データベース221に記憶された企業情報に含まれているか、そのキーワードに対応する特徴語が特徴語データベース223に保持されている企業をリストアップする(ステップS12)。この際、管理サーバ20は、入力されたキーワードに基づいて候補企業のリストを生成するが、そのリストに候補企業が持つ複数の特徴語を含めることで、そのユーザが候補企業の絞り込み検索を行う際のキーワード候補をユーザ端末10を介してユーザに示唆することができる。図7は、本発明の一実施形態に係る検索システム1の管理サーバ20における新たなキーワード候補(特徴語)の生成処理(ステップS12)の詳細を説明するためのフローチャートである。
検索システム1のユーザは、ユーザ端末10を用いて所定のキーワードを入力してその情報を管理サーバ20に検索指示を送信する。本実施形態では、まず「樹脂成型」が一つ目のキーワードとして入力された場合を例に挙げる。管理サーバ20は、通信部21を介してユーザ端末10で入力されたキーワード「樹脂成型」を取得する(ステップS121)。
次に、検索部23は、取得したキーワード「樹脂成型」と同一の特徴語「樹脂成型」を持つ企業を記憶部22内の特徴語データベース223の中から検索し、ヒットした企業の企業IDを取得する(ステップS122)。例えば、本実施形態では、図4に示される特徴語「樹脂成型」を保有する複数の企業の企業ID「5398,36588,34589、…」がヒットすることとなり、特徴語「樹脂成型」を保有しない企業の企業IDはヒットしない。
次に、リスト生成部25は、検索部23でヒットした企業IDの企業が保有する特徴語のうちスコアの高い特徴語とそのスコアを含む候補企業リストを生成する(ステップS123)。リスト生成部25で生成された候補企業リストは、管理サーバ20が管理するWebサイトにアクセスしたユーザ端末10の画面上に表示される。図8は、本発明の一実施形態に係る候補企業リストのユーザ端末10への表示例を示す図である。図8に示すように、ユーザ端末10には、「樹脂成型」という入力キーワードの他に、「液晶」、「板金」、「赤外線」等の他のキーワードとなり得る特徴語がスコアとともに表示される。そしてユーザは、特徴語「樹脂成型」と掛け合わせて検索するための、別の特徴語「試作」を二つ目のキーワードとして選択することができる。なお、ステップS123で生成された企業リストを提示する場合(ユーザ端末10の画面上に表示させる場合)に、企業IDと特徴語の他に、ユーザ便宜のために、リスト生成部25は、企業データベース221を参照して、企業IDに対応付けられている企業名、住所、URL、事業概要等をあわせて企業リストに含めるようにして生成してもよい。
この際、一つ目のキーワード(上記例では「樹脂成型」)と表示される別の特徴語(上記例では「試作」)は類似している場合もあれば、類似していない場合もある。ユーザ端末10のユーザは、どのような複数の視点で検索するか等の検索目的に応じて表示されている特徴語から二つ目のキーワードを適宜選択すればよく、その際にキーワード同士が類似しているか類似していないかは考慮していない。
なお、本実施形態では、一例として、企業ごとにスコアが高い上位10個の特徴語がスコアの高い特徴語から降順に表示されるようにしている。これにより、ユーザは、最初の検索時に予期しないキーワード候補を知ることができる。ここで、ユーザが最初に入力したキーワード「樹脂成型」と同一の特徴語のスコアが低く、上位10個よりも下位の場合は、この特徴語「樹脂成型」は表示されずに別の上位10個の特徴語がその企業の特徴語として表示される。
また、ユーザ端末10に表示される特徴語は、それぞれの企業について表示する特徴語の個数を設定(例えば、スコアが上位X個(Xは自然数)の特徴語に設定)したり、しきい値以上のスコアを有する特徴語をすべて表示するように設定したりすることで、表示画面の錯綜状態を軽減することができる。
上述の処理により、ユーザは二つのキーワード「樹脂成型」及び「試作」を用いてビジネスパートナー候補企業のリストアップを行うことを決定する。
なお、上述の実施形態に加えて、ステップS122の処理において、検索部23は、記憶部22内の企業データベース221に記憶されている各企業のテキストデータ(公開企業情報及び非公開企業情報)中に、取得したキーワードと同一のテキストデータを持つ企業を企業ごとに検索し、ヒットした企業の企業IDを取得するようにしてもよい。本実施形態では、各受注候補企業が保有する特徴語は500個に制限しているため、前述の出現頻度が低くスコアが小さな特徴語はデータとして保持されていない。そのため、特徴語データベース223には保持されていないが、企業データベース221のテキストデータには含まれているキーワードがユーザ端末10でキーワードとして入力された場合であっても、次回以降の検索で用いることができる有望な複数のキーワード候補を提示することができる。なお、この場合、リスト生成部25は、上述のステップS123の処理と同様に、ユーザ端末10で入力されたキーワードに一致するテキストデータが含まれていると検索部23で検索された受注候補企業が保有する複数の特徴語を含む企業リストを生成することとなるが、その特徴語の中にはそのキーワードは含まれていない。しかし、ユーザ端末10のユーザはリストアップされた様々な特徴語の中から次に検索する場合に適切だと思われる1又は複数のキーワードを容易に選定することができるようになる。
これまでの処理により、企業データベース221には公開企業情報及び非公開企業情報を含む企業情報が記憶され、技術タグデータベース222には設備タグ、標準規格タグ及び受賞歴タグを含む技術タグ情報が記憶され、特徴語データベース223には企業ごとの特徴語とそのスコアが記憶され、学習モデルデータベースには特徴語の学習済みモデルが記憶されている。そして、ユーザ端末10のユーザが1つのキーワードを入力したことにより管理サーバ20において上述の処理が行われ、ユーザ端末10にはその他のキーワード候補が表示されるので、ユーザはよりビジネスパートナー候補企業を検索するための、より適切なキーワードを選択することができる。
そこで、以下の実施形態では、ユーザが2つのキーワードを入力してAND(アンド)検索を行うことでビジネスパートナー候補企業のリストを得る処理について説明する。ここで本実施形態では、上記2つのキーワードのAND検索を行うものとする。例えば、ユーザ端末10のユーザは、入力部11で「樹脂成型 試作」と2つのキーワードを両者間にスペースを挟んで入力する。
ユーザ端末10で入力された2つのキーワードを管理サーバ20が取得すると(ステップS13)、検索部23は前述のステップS122の処理と同様に、取得したキーワードと同一の特徴語を持つ企業を特徴語データベース223から検索し、その企業の企業IDを取得する(ステップS14)。この際の処理としては、例えば、入力された二つのキーワード(樹脂成型、試作)と同一の特徴語を両方とも保有している企業が検索される。例えば、本実施形態では、図4に示される特徴語「樹脂成型」及び「試作」の両方の特徴語を保有する複数の企業の企業ID「5398,34589,…」がヒットすることとなり、特徴語「樹脂成型」は保有するが特徴語「試作」を保有しない(特徴語として記憶されている500個に含まれていないものとする)企業の企業ID「36588,…」はヒットしない。
[類似度計算処理]
次に、類似度計算部24は、取得した2つのキーワードと検索された企業との類似度を計算する(ステップS15)。図9は、本発明の一実施形態に係る検索システム1の管理サーバ20における類似度計算処理(ステップS15)の詳細を説明するためのフローチャートである。
類似度計算部24は、ヒットした企業ごとに、各企業の特徴語の分散表現(高次元ベクトル表現)を学習モデルデータベース224から取得して合成分散表現を生成する(ステップS151)。本実施形態において合成分散表現は、各企業が保有する特徴語に与えられたそれぞれの高次元ベクトル表現を加算することで得られる。具体的には、ヒットした企業ごとに、その企業が保有する特徴語(本実施形態では各企業には500個の特徴語が付与されている)の分散表現をすべて足し合わせた合成分散表現を生成する。この際、各特徴語の分散表現は単純に足し合わせてもよいし、スコアが上位の特徴語は、その企業の特徴がより表されているものと考えて、スコアが下位の特徴語よりも高い重み付けを行って足し合わせて合成分散表現を生成するようにしてもよい。
次に、類似度計算部24は、ユーザ端末10で入力された二つのキーワード「樹脂成型」及び「試作」に対応する特徴語の分散表現を学習モデルデータベース224から取得し、それぞれの入力キーワードに対応する特徴語の分散表現から同様に合成分散表現を生成する(ステップS152)。なお、この際の合成処理は、両分散表現を単純に足し合わせてもよいし、一つ目のキーワードに対応する特徴語に二つ目又はそれ以降(三つ以上のキーワードが入力された場合)のキーワードに対応する特徴語よりも高い重み付けを与えて足し合わせるようにしてもよい。
そして、類似度計算部24は、ステップS151で生成された企業の合成分散表現ベクトルとステップS152で生成されたキーワードの合成ベクトルの類似度を計算する(ステップS153)。本実施形態では、計算される類似度としてコサイン類似度を用いる。
そして、リスト生成部25は、検索部23で検索された企業の企業名と、類似度計算部24で計算されたその企業の類似度を含む企業リストを生成する(ステップS16)。生成された企業リストは、管理サーバ20にアクセスしたユーザ端末10に表示されるWebブラウザで表示可能な形式で出力される。図10は、本発明の一実施形態に係る類似度を含む候補企業リストのユーザ端末10での表示例を示す図である。図10に示すように、ユーザ端末10には、候補企業名が類似度とともに表示される。これにより、候補企業がリストアップされた時点でビジネスパートナーとして相応しいか否かの目安が類似度に基づいて確認できる。そのため、ユーザは従来のようなリストアップした候補企業を全社確認する必要はなく、類似度が上位の企業のみ、或いはしきい値以上の類似度の企業のみ確認するようにすることで、リストアップ後の手間・コストを削減することができる。また、検索結果(出力情報)の標準化が図れるとともに、ユーザの検索目的を酌んだプラスアルファの企業情報を提供できる。なお、企業リスト表示の際には、図8で示したように、ユーザ便宜のために、リスト生成部25は、企業データベース221を参照して、企業IDに対応付けられた企業名、住所、URL及び事業概要等をあわせて企業リストに含めるようにして企業リストを生成するようにしてもよい。
また、ビジネスパートナー企業探索における発注企業からの要求事項(リクワイヤメント)に保有規格、保有設備又は特定の表彰の受賞歴の有無等に関する項目があるような場合は、それらが探索上重要な要素であるとして、候補企業がリストアップされた後等に、リスト生成部25が技術タグ情報を参照し、それらの技術タグを保有しない企業をリストアップ対象から外すような処理を行うことも可能である。また、リクワイヤメントに記載されている保有設備等を保有する企業をリストアップの際に、案件によりマッチする企業であるとして、上位に表示するような処理を行うこともできる。
[非公開企業情報の取得及び企業データベース221への記憶処理]
ここで、上述した類似度はそのままのレーティングだけではビジネスマッチングシステムとしての信頼性は低い可能性がある。これは単に公開情報等のキーワードだけで類似度を見ているためである。そこで、本実施形態では、過去のビジネスパートナー探索において取得されたプロジェクト案件での入力情報や、さらに実際に発注企業と受注候補企業とが面談に進んでいる等の付加情報を非公開企業情報として企業データベース221に記憶させ、それらを含む結合テキストデータから特徴語を生成することで、より高い信頼性を持つ検索システムを構築している。
前述のとおり、本実施形態に係る検索システム1におけるビジネスパートナー候補企業の探索においては、公開企業情報だけでなく非公開企業情報も重要な位置付けにある。
ここでは、データベース構築部26による非公開企業情報の取得及び企業データベース221への記憶処理の詳細について説明する。
本実施形態では、所定の時期に限って、管理企業の検索システム1の管理サーバ20に発注企業のユーザ端末又は受注候補企業のユーザ端末10からアクセスし、非公開企業情報をそれぞれ入力又はアップロードすることができる。例えば、受注候補企業のユーザ端末10からビジネスパートナー探索のプロジェクト案件がスタートし、受注企業を募集する期間である1か月間に限って、受注候補企業の担当者等が案件に対する回答を管理サーバ20が管理するWebブラウザを介して入力することができるようにする。なお、当該期間は、これ以外に、各ビジネスパートナー探索プロジェクトが行われている全期間であってもよいし、特に期間を設けずにいつでも入力できるようにしておき、管理者が任意のタイミングで入力の可否を調整できるようにしてもよい。入力された回答情報等は非公開企業情報としてデータベース構築部26によって企業データベース221に記憶され、情報が新規に記憶又は既存情報が更新される。
一般に、公開企業情報は事業概要やサービス説明等の一般的な情報であって、その企業のコアな技術力に関する情報が書かれていないことも多い。一方で個々のビジネスパートナー探索プロジェクトにおける質問等の回答情報には、その探索案件の募集概要に見合った受注候補企業からのアピール文を含む提案内容が書かれており、それぞれの企業等の様様な事情や技術・開発のトレンド等を加味したその企業に関するより専門的な技術情報がテキスト入力される。そこでこの情報(非公開企業情報)から生成された特徴語については、公開企業情報から生成された特徴語よりも、重み付けを大きくすることでより過去の類似したビジネスパートナー探索で得た情報をより有効に活用した検索システムを構築することができる。具体的には、回答情報中の何回も繰り返し用いられたテキストに対応する特徴語により高い重み付けを与えたシステムにしてもよい。
このように本実施形態に係る検索システム1によれば、公開情報等の企業情報をすべて同等のテキストデータとして取り扱うのではなく、過去のビジネスパートナー探索における様々な事情やトレンドを考慮したスマートな探索処理を行うようにすることができる。これにより、過去のビジネスパートナー探索の成果を効果的に活用でき、ビジネスパートナー検索におけるユーザの負担を軽減し、ビジネスパートナーとして相応しい候補企業を効果的に検索できる。
[その他の処理]
上述の実施形態では、企業検索のために入力されるキーワード(ステップS121で管理サーバ20が取得するキーワード)と、その取得キーワードに基づいてステップS122で検索され、ステップS123でその取得キーワードとの類似度が計算される候補企業が保有する特徴語との間の類似度を考慮しているが、入力されるキーワードの周辺キーワード(入力キーワードに類似するキーワード)との類似語は考慮していない。そこで、上記類似度計算処理(ステップS123)に代えて、入力されるキーワードの周辺キーワードと候補企業が保有する特徴語との間の類似度を計算する別の実施形態も考えられる。
具体的には、類似度計算部24において、検索でヒットした企業ごとに、ユーザ端末10で入力され管理サーバ20で取得したキーワードに対応する特徴語の分散表現と類似度が高いキーワードを基底としたベクトル(ベクトル1)と各企業の特徴語を基底としたベクトル(ベクトル2)とのコサイン類似度を計算する。
取得キーワードに対応する特徴語の分散表現と類似度が高いキーワードを基底としたベクトル(ベクトル1)は、取得キーワード(例えば、「樹脂成型」)に対応する特徴語の分散表現とコサイン類似度が高い学習モデルの特徴語を類似度計算部24で計算し、取得キーワードに対応する特徴語及びその特徴語に類似する(コサイン類似度が高い)複数の別の特徴語を取得して、それらの特徴語とそれぞれのスコアから構成されるベクトルである。また、二つ以上のキーワードが入力される場合は、例えば、計算された特徴語の分散表現を合成して、ベクトル1を生成する。なお、分散表現の合成の際には、最初のキーワードは二番目以降のキーワードよりも軸となる重要なキーワードであるとみなして、最初のキーワードに対応する特徴語の分散表現の方を二番目以降のキーワードに対応する特徴語の分散表現よりも大きな重みを付けて合成するようにしてもよい。
また、各企業の特徴語を基底としたベクトル(ベクトル2)は、各企業の特徴語とTF-IDF値の組み合わせを要素として持った行列(企業行列)である。本実施形態において、各企業は図4に示すように500個の特徴語を保有しており、企業行列はそれらの特徴語とそれぞれのスコアから構成されるベクトルである。
そして、類似度計算部24は、上記ベクトル1とベクトル2の類似度を計算するが、この際、両ベクトルに含まれる同一の特徴語間のスコアに限って積を計算し、異なる特徴語間の積は考慮しないようにして、特徴語間のスコアの積の総和を算出し、その大きさに基づいて類似度を計算する。
前述したコサイン類似度計算(ステップS153)を通じた候補企業リスト生成では、各企業の特徴語に重み付けがされていないため、幅広く企業をリストアップしたい場合に有効である。一方、上記の各企業の特徴語を基底としたベクトルを用いた類似度計算を通じた候補企業リストの生成は、よりマッチング確度が高い企業を探す場合に有効である。
なお、リスト生成部25は、類似度計算部24で計算された上記類似度が所定のしきい値以上の場合である等の所定の条件を満たす場合に、その企業を企業リストに含めるようにしてもよい。
また、ユーザ端末10で入力されたキーワードに対応する特徴語や学習モデルが記憶部22内に記憶されていない場合、管理サーバ20はユーザ端末10にエラーを返すような設定にすることができる。このような場合は、エラーが出たキーワードを優先的に特徴語として記憶し、その学習モデルを生成する処理を行うようにすることができる。例えば、入力されたキーワードが学習モデルに登録されていない場合は、そのキーワードを含むコーパス(テキスト)を入力として追加学習する。
また、前述したステップS12の処理において、二つ以上のキーワード入力でAND演算を行い、三つ目以降のキーワードをユーザに示唆するようにしてもよい。ANDは上記処理と同様にすればよい。また、検索目的に応じて、ステップS13の処理において、二つのキーワードによるAND検索を行っているが、三つ以上のキーワードを用いた場合でも同じ原理で行えばよく、またいずれかのキーワードが含まれていればよいとするOR(オア)検索を行うようにしてもよい。
また、本実施形態では、管理サーバ20によって提供される機能の全部又は一部がSaaS型のクラウドサービスによって実現される例について説明したが、それらの機能をPaaS(Platform as a Service)、IaaS(Infrastructure as a Service)、又はAPI(Application Programming Interface)等を介して提供するサービスによって実現するようにしてもよい。
なお、本実施形態で説明した検索システム1の構成、ユーザ端末10及び管理サーバ20の構成は一例であり、本発明の範囲を超えない範囲において変更してもよい。また、管理サーバ20等の処理の流れも一例であり、本発明の範囲を超えない範囲において不要処理ステップの削除や新規処理ステップの追加や処理ステップの入れ替えは可能である。
1 検索システム
10 ユーザ端末
20 管理サーバ
21 通信部
22 記憶部
23 検索部
24 類似度計算部
25 リスト生成部
26 データベース構築部
27 特徴語生成部
28 学習モデル生成部
30 ネットワーク
221 企業データベース
222 技術タグデータベース
223 特徴語データベース
224 学習モデルデータベース

上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索システムであって、企業の特徴を表す複数の特徴語を該特徴語の出頻度に基づくスコアと共に企業ごとに記憶する特徴語記憶手段と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデル記憶手段と、入力装置から入力されたキーワードを取得する取得手段と、前記キーワードに対応する特徴語を持つ企業を前記特徴語記憶手段から検索する検索手段と、前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手段と、前記検索手段で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手段とを備えることを特徴とする。
さらにまた、上記課題を解決するために、本発明は、ビジネスパートナー探索を目的として企業リストを生成する検索サーバにおける検索方法であって、入力装置から入力されたキーワードを取得する取得工程と、前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索工程と、前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索工程で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算工程と、前記検索工程で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成工程とを有することを特徴とする。

Claims (7)

  1. ビジネスパートナー探索を目的として企業リストを生成する検索システムであって、
    企業の特徴を表す複数の特徴語を該特徴語の出願頻度に基づくスコアと共に企業ごとに記憶する特徴語記憶手段と、
    前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデル記憶手段と、
    入力装置から入力されたキーワードを取得する取得手段と、
    前記キーワードに対応する特徴語を持つ企業を前記特徴語記憶手段から検索する検索手段と、
    前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手段と、
    前記検索手段で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手段と
    を備えることを特徴とする検索システム。
  2. 前記類似度計算手段は、前記検索手段で検索された前記企業が持つ複数の特徴語のそれぞれの分散表現を合成した合成分散表現と前記キーワードに対応する特徴語の分散表現との類似度を計算することを特徴とする請求項1に記載の検索システム。
  3. 前記類似度計算手段は、前記キーワードに対応する特徴語に類似する特徴語を前記学習モデルに基づいて計算し、前記キーワードに対応する特徴語及び該特徴語に類似する複数の特徴語とそれらのスコアを含む第1のベクトルと、各企業が保有する特徴語とそのスコアを含む第2のベクトルとの類似度を計算することを特徴とする請求項1に記載の検索システム。
  4. 前記類似度計算手段は、前記第1のベクトルと前記第2のベクトルに含まれる同一の特徴語間のスコアの積の総和に基づいて前記類似度を計算することを特徴とする請求項3に記載の検索システム。
  5. 前記類似度計算手段は、前記検索手段で検索された前記企業が持つ複数の特徴語に基づく分散表現について、それぞれの特徴語のスコアが上位の特徴語をスコアが下位の特徴語よりも大きく重み付けを行った分散表現とし、前記キーワードに対応する特徴語に基づく分散表現との類似度を計算することを特徴とする請求項1から4のいずれか1項に記載の検索システム。
  6. ビジネスパートナー探索を目的として企業リストを生成する検索サーバにおける検索方法であって、
    入力装置から入力されたキーワードを取得する取得工程と、
    前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出願頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索工程と、
    前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索工程で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算工程と、
    前記検索工程で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成工程と
    を有することを特徴とする検索方法。
  7. ビジネスパートナー探索を目的として企業リストを生成する検索サーバに、
    入力装置から入力されたキーワードを取得する取得手順と、
    前記キーワードに対応する特徴語を持つ企業を、該企業の特徴を表す複数の特徴語を該特徴語の出現頻度に基づくスコアと共に企業ごとに記憶する特徴語データベースから検索する検索手順と、
    前記複数の特徴語から一の特徴語を予測する機械学習を行って得られる前記特徴語の分散表現を特徴語ごとに記憶して学習モデルとする学習モデルデータベースを参照して、前記検索手順で検索された前記企業が持つ複数の特徴語に基づく分散表現と前記キーワードに対応する特徴語に基づく分散表現との類似度を計算する類似度計算手順と、
    前記検索手順で検索された前記企業が持つ複数の特徴語、該特徴語のスコア及び類似度を含む企業リストを生成するリスト生成手順と
    を実行させるためのコンピュータ読み取り可能な検索プログラム。
JP2021111716A 2021-07-05 2021-07-05 検索システム、検索方法及び検索プログラム Active JP6941802B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021111716A JP6941802B1 (ja) 2021-07-05 2021-07-05 検索システム、検索方法及び検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021111716A JP6941802B1 (ja) 2021-07-05 2021-07-05 検索システム、検索方法及び検索プログラム

Publications (2)

Publication Number Publication Date
JP6941802B1 JP6941802B1 (ja) 2021-09-29
JP2023008284A true JP2023008284A (ja) 2023-01-19

Family

ID=77847126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021111716A Active JP6941802B1 (ja) 2021-07-05 2021-07-05 検索システム、検索方法及び検索プログラム

Country Status (1)

Country Link
JP (1) JP6941802B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7339708B1 (ja) 2022-09-29 2023-09-06 株式会社トランザック プログラム、事業者情報確認方法及び事業者情報確認システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5398413B2 (ja) * 2009-08-12 2014-01-29 株式会社野村総合研究所 銘柄推奨システム及び銘柄推奨プログラム
JP2019211974A (ja) * 2018-06-04 2019-12-12 株式会社野村総合研究所 企業分析装置
US20200233872A1 (en) * 2019-01-18 2020-07-23 International Business Machines Corporation System and method for discovering synergistic companies

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5398413B2 (ja) * 2009-08-12 2014-01-29 株式会社野村総合研究所 銘柄推奨システム及び銘柄推奨プログラム
JP2019211974A (ja) * 2018-06-04 2019-12-12 株式会社野村総合研究所 企業分析装置
US20200233872A1 (en) * 2019-01-18 2020-07-23 International Business Machines Corporation System and method for discovering synergistic companies

Also Published As

Publication number Publication date
JP6941802B1 (ja) 2021-09-29

Similar Documents

Publication Publication Date Title
US8082264B2 (en) Automated scheme for identifying user intent in real-time
US11042591B2 (en) Analytical search engine
CN109906450A (zh) 用于通过相似性关联对电子信息排名的方法和装置
US20220107980A1 (en) Providing an object-based response to a natural language query
CN111666413B (zh) 基于评论者可信赖度回归预测的商品评论推荐方法
JP6941802B1 (ja) 検索システム、検索方法及び検索プログラム
Marivate et al. An intelligent multi-agent recommender system for human capacity building
CN115860283A (zh) 基于知识工作者画像的贡献度预测方法及装置
JP6941801B1 (ja) 検索システム、検索方法及び検索プログラム
JP6941803B1 (ja) 検索システム、検索方法及び検索プログラム
JP2020067864A (ja) 知識検索装置、知識検索方法、および、知識検索プログラム
JP6773861B1 (ja) 不適合事例検索システムおよび不適合事例検索方法
CN114707510A (zh) 资源推荐信息推送方法、装置、计算机设备及存储介质
Surian et al. The automation of relevant trial registration screening for systematic review updates: an evaluation study on a large dataset of ClinicalTrials. gov registrations
JP6890671B2 (ja) 検索システム、検索方法及び検索アプリケーションソフトウェア
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置
JP7382590B1 (ja) 情報処理装置、情報処理方法及びプログラム
JP7234079B2 (ja) 検索支援システム、検索支援方法、及びプログラム
JP7008102B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP6945680B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN117033584B (zh) 类案文本确定方法、装置及电子设备
JP7385077B1 (ja) 検索支援システム、検索支援方法及びプログラム
EP4280151A1 (en) Data provision device, system, program, method, data analysis device, data management system, method, and recording medium
US20220237568A1 (en) Online employee search tool and recruitment platform
JP6904092B2 (ja) 理解支援方法、理解支援装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210706

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210812

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210820

R150 Certificate of patent or registration of utility model

Ref document number: 6941802

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150