JP6802334B1 - Matching system and program - Google Patents

Matching system and program Download PDF

Info

Publication number
JP6802334B1
JP6802334B1 JP2019142614A JP2019142614A JP6802334B1 JP 6802334 B1 JP6802334 B1 JP 6802334B1 JP 2019142614 A JP2019142614 A JP 2019142614A JP 2019142614 A JP2019142614 A JP 2019142614A JP 6802334 B1 JP6802334 B1 JP 6802334B1
Authority
JP
Japan
Prior art keywords
matching
data
topic
applicant
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019142614A
Other languages
Japanese (ja)
Other versions
JP2021026413A (en
Inventor
亮介 松井
亮介 松井
惇雄 加藤
惇雄 加藤
将吾 田邉
将吾 田邉
稔介 田中
稔介 田中
泰之 佐藤
泰之 佐藤
崇志 大堀
崇志 大堀
紀子 畑
紀子 畑
陽一 馬場
陽一 馬場
田中 秀典
秀典 田中
航 岡田
航 岡田
Original Assignee
株式会社大和総研
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社大和総研 filed Critical 株式会社大和総研
Priority to JP2019142614A priority Critical patent/JP6802334B1/en
Application granted granted Critical
Publication of JP6802334B1 publication Critical patent/JP6802334B1/en
Publication of JP2021026413A publication Critical patent/JP2021026413A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】マッチング対象者の持つ特徴やニーズを的確に反映することができ、かつ、サービス担当者の負担軽減を図ることができるマッチングシステムを提供する。【解決手段】マッチングシステム10は、多数のマッチング対象者の自己データとニーズデータとを結合して結合テキストデータを作成し、これらの結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行してトピック分布(各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値)を求め、求めたトピック分布を用いて、教師あり分類モデルによる機械学習を行うことによりマッチングモデルを構築し、そのマッチングモデルにより希望者と各候補者とのマッチングを行い、各候補者が選定される確度を示すスコアを出力する。【選択図】図1PROBLEM TO BE SOLVED: To provide a matching system capable of accurately reflecting the characteristics and needs of a matching target person and reducing the burden on a service person in charge. SOLUTION: A matching system 10 creates combined text data by combining self-data and needs data of a large number of matching subjects, and uses these combined text data to estimate topics by soft clustering or a neural language model. Matching is performed by executing processing to obtain the topic distribution (topic value indicating the appearance probability of each topic in the combined text data of each matching target person), and using the obtained topic distribution to perform machine learning using a supervised classification model. A model is constructed, matching is performed between the applicant and each candidate by the matching model, and a score indicating the probability that each candidate is selected is output. [Selection diagram] Fig. 1

Description

本発明は、自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムおよびプログラムに係り、例えば、ビジネスパートナーとなる企業を紹介して企業同士を組み合わせるビジネスマッチングを行う場合等に利用できる。 The present invention relates to a matching system and program composed of a computer that executes a matching process that combines natural persons, corporations, non-corporate organizations, or other matching target persons, and introduces, for example, a company that is a business partner. It can be used for business matching that combines each other.

従来、法人についてのビジネスパートナー紹介サービス(以下、ビジネスマッチングサービスという。)において、サービス担当者が紹介候補を選定する際には、サービス担当者がキーワードベースで検索を行って、その検索結果からマッチング相手を選定するキーワードマッチに基づいた手法がよく用いられていた。この際、検索対象とするのは、事前に各法人が記載した企業情報(自己の特徴を示す情報)やニーズ情報をデータベース化したものである。 Conventionally, in the business partner referral service for corporations (hereinafter referred to as business matching service), when the service staff selects referral candidates, the service staff searches on a keyword basis and matches from the search results. A method based on keyword matching to select a partner was often used. At this time, the search target is a database of company information (information indicating one's own characteristics) and needs information described by each corporation in advance.

なお、ビジネスマッチングを行うシステムとしては、従業員が属する企業の企業情報や、経営者が経営する企業の企業情報を記憶しておき、通信端末に表示したWebサイト内での従業員や経営者の行動ログを取得し、行動ログを取得した従業員や経営者に対応付けて記憶している企業情報に基づき、Webサイトの開設企業に紹介する企業を選定する企業マッチングを行う情報提供システムが知られている(特許文献1参照)。 As a system for performing business matching, the company information of the company to which the employee belongs and the company information of the company managed by the manager are stored, and the employee or manager in the website displayed on the communication terminal. Based on the company information that is stored in association with the employees and managers who acquired the action log of the company, the information providing system that performs company matching to select the company to be introduced to the company that opened the website It is known (see Patent Document 1).

また、本発明をビジネスマッチングサービスに適用する場合には、サービス担当者により過去にビジネスパートナーの候補として選定された企業ペアの実績リストを利用して機械学習を行うことができるが、この観点での関連技術としては、客観的なデータに基づいて採用希望者に関する一定の評価を提供し、採用担当者の労力を低減する情報処理装置が知られている(特許文献2参照)。この情報処理装置は、対象会社に対して採用希望者が作成した文書に基づき、予め定まった各ファクタに対する第一評価情報を生成する第一評価部と、採用希望者に関する採用希望者情報および第一評価部からの第一評価情報に基づいて、採用希望者の第二評価情報を生成する第二評価部とを備え、第二評価部は、過去の実績データに基づいて学習する人工知能機能を有している。過去の実績データは、過去の採用希望者に関する採用希望者情報と、当該過去の採用希望者に対する第一評価情報と、当該過去の採用希望者に対する選考結果とを含んでいる。 Further, when the present invention is applied to a business matching service, machine learning can be performed by using a performance list of a company pair selected as a candidate for a business partner in the past by a service person. From this point of view. As a related technique of the above, there is known an information processing device that provides a certain evaluation of a person who wants to be hired based on objective data and reduces the labor of a person in charge of hiring (see Patent Document 2). This information processing device has a first evaluation department that generates first evaluation information for each factor determined in advance based on a document created by the applicant for employment for the target company, and information on the applicant for employment and the first evaluation. It is equipped with a second evaluation department that generates second evaluation information of applicants for employment based on the first evaluation information from one evaluation department, and the second evaluation department has an artificial intelligence function that learns based on past performance data. have. The past performance data includes recruitment applicant information regarding past recruitment applicants, first evaluation information for the past recruitment applicants, and selection results for the past recruitment applicants.

さらに、求職者と求人者とのマッチングを行うシステムとしては、求職者および求人者のプレゼンテーション動画を用いて、理想的かつ効率的な人材マッチングを行う人材マッチング装置が知られている(特許文献3参照)。この人材マッチング装置では、求職者によるプレゼンテーション動画である求職者動画と、求人者によるプレゼンテーション動画である求人者動画とを取得し、求人者および求職者に対して求職者動画および求人者動画を提供するとともに、求人者または求職者が、求職者または求人者に対して関心があることを通知するフォロー情報を取得し、求人者および求職者の双方のフォロー情報に基づき、求人者と求職者とのマッチングを行う。 Further, as a system for matching job seekers and job seekers, a human resources matching device that performs ideal and efficient human resource matching using presentation videos of job seekers and job seekers is known (Patent Document 3). reference). This human resources matching device acquires a job seeker video which is a presentation video by a job seeker and a job seeker video which is a presentation video by a job seeker, and provides the job seeker video and the job seeker video to the job seeker and the job seeker. At the same time, obtain follow-up information notifying that the job seeker or job seeker is interested in the job seeker or job seeker, and based on the follow-up information of both the job seeker and the job seeker, the job seeker and the job seeker Matching.

また、本発明では、マッチングの希望者に対して各候補者が選定される確率または確度を示すスコアを出力するスコアリングモデルを構築するが、この観点での関連技術としては、特定の要件を満たす組織を探す人材と、特定の要件を満たす人材を探す組織とをマッチングするマッチング装置が知られている(特許文献4参照)。このマッチング装置では、人材情報と組織情報との関連性を示すマッチングスコアを算出する。 Further, in the present invention, a scoring model that outputs a score indicating the probability or certainty that each candidate is selected for a matching applicant is constructed, but as a related technique from this viewpoint, specific requirements are satisfied. A matching device that matches a human resource that searches for an organization that meets the requirements with an organization that searches for a human resource that meets a specific requirement is known (see Patent Document 4). In this matching device, a matching score indicating the relationship between human resources information and organizational information is calculated.

特許第6369968号掲載公報Publication of Patent No. 6369966 特開2018−116710号公報JP-A-2018-116710 特許第6480077号掲載公報Publication of Patent No. 6480077 特開2015−164022号公報Japanese Unexamined Patent Publication No. 2015-164022

前述したように、従来のビジネスマッチングサービスでは、キーワードマッチに基づいてマッチング相手を選定する手法がよく用いられていたが、この手法では、以下のような問題点があった。 As described above, in the conventional business matching service, a method of selecting a matching partner based on a keyword match is often used, but this method has the following problems.

企業情報やマッチングニーズを特定のキーワードに変換した上での検索を必要とするため、キーワードへの変換作業が必要となるので、その作業に手間や時間がかかり、サービス担当者の負担が大きいという問題があった。 Since it is necessary to search after converting company information and matching needs into specific keywords, conversion work to keywords is required, which takes time and effort, and the burden on service personnel is heavy. There was a problem.

また、このキーワードへの変換作業は、ノウハウに大きく依存しており、属人的な作業であることから、サービス担当者間で作業内容のばらつきが生じる、すなわちサービス担当者が変われば、作業内容が異なるものとなり、選定結果も違ったものになるという問題があった。 In addition, the conversion work to this keyword relies heavily on know-how and is a personal work, so the work content varies among service personnel, that is, if the service personnel changes, the work content There was a problem that the selection results would be different.

さらに、マッチングニーズをキーワードへ変換した際に、情報の欠落が生じ、所望の検索結果が得られない可能性もあるという問題があった。 Further, when the matching needs are converted into keywords, there is a problem that information is missing and a desired search result may not be obtained.

そして、検索キーワードの変更により、出力結果が大きく異なる可能性があり、機会損失に繋がりやすいという問題もあった。 Then, there is a problem that the output result may be significantly different due to the change of the search keyword, which tends to lead to opportunity loss.

また、検索により得られた結果(選定されたマッチング相手の候補)には、定量的な指標がなく、複数の検索結果(マッチング相手の候補として選定された複数の企業)を同列に扱う必要性があるため、所望の相手を見つける際の負担が大きいという問題がった。すなわち、サービス担当者が候補の絞り込みを行う段階、あるいは、マッチングを希望する企業(ビジネスマッチングサービスの提供を受ける依頼企業)が、サービス担当者から提示された候補の中から、最終的な絞り込みを行う段階のいずれにおいても、定量的な指標がないので、時間や手間がかかるという問題があった。 In addition, the results obtained by the search (selected matching partner candidates) do not have a quantitative index, and it is necessary to treat multiple search results (multiple companies selected as matching partner candidates) in the same line. Therefore, there is a problem that the burden of finding a desired partner is heavy. That is, at the stage where the service person narrows down the candidates, or the company that wants matching (the requesting company that receives the business matching service) narrows down the final candidates from the candidates presented by the service person. Since there is no quantitative index at any of the steps to be performed, there is a problem that it takes time and effort.

また、以上のような問題は、企業と企業とを繋ぐビジネスマッチングサービスに限らず、個人と個人、個人と団体、団体と団体のように、各種のマッチングサービスを行う場合に同様にいえることである。個人と個人、個人と団体、団体と団体のマッチングが混在するサービスには、例えば、不動産売買における売り手と買い手とのマッチングサービスがある。また、個人と個人とのマッチングは、例えば、専門的知識を求める者と専門家(弁護士や税理士等)とのマッチング、婚活支援サービス等であり、個人と団体とのマッチングは、例えば、就職希望者と採用企業とを繋ぐ就職活動や求人活動の支援サービス等であり、団体と団体とのマッチングは、例えば、事業承継の支援サービス、野球チームの練習試合の相手を探す支援サービス等である。 In addition, the above problems are not limited to business matching services that connect companies, but can also be said when various matching services are provided, such as individuals and individuals, individuals and groups, and groups and groups. is there. A service in which individual-to-individual, individual-to-group, and group-to-group matching is mixed includes, for example, a seller-buyer matching service in real estate sales. In addition, matching between individuals is, for example, matching between persons seeking specialized knowledge and specialists (lawyers, tax accountants, etc.), marriage hunting support services, etc., and matching between individuals and groups is, for example, employment. It is a support service for job hunting and recruiting activities that connects applicants and hiring companies, and matching between groups is, for example, a support service for business succession, a support service for finding opponents for practice games of baseball teams, etc. ..

本発明の目的は、マッチング対象者の持つ特徴やニーズを的確に反映することができ、かつ、サービス担当者の負担軽減を図ることができるマッチングシステムおよびプログラムを提供するところにある。 An object of the present invention is to provide a matching system and a program that can accurately reflect the characteristics and needs of a matching target person and can reduce the burden on a service person.

本発明は、大別すると、マッチングの希望者についての希望者データを含めたトピックモデルの再学習を行わない場合(例えば、後述する図8の場合等)と、希望者データを含めてトピックモデルの再学習を行う場合(例えば、後述する図9の場合等)と、既存のマッチング対象者の中で特定目的のマッチングを行う場合(例えば、後述する図10の場合等)との3通りの基本構成がある。 The present invention is roughly classified into a case where the topic model including the applicant data for the matching applicant is not relearned (for example, in the case of FIG. 8 described later) and a topic model including the applicant data. Re-learning (for example, in the case of FIG. 9 described later) and matching for a specific purpose among existing matching target persons (for example, in the case of FIG. 10 described later). There is a basic configuration.

<希望者データを含めたトピックモデルの再学習を行わない場合(例えば、後述する図8の場合等)の本発明の基本構成> <Basic configuration of the present invention when the topic model including the applicant data is not relearned (for example, in the case of FIG. 8 described later)>

本発明は、自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
新たなマッチング対象者としてのマッチングの希望者を含まない多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データと、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータとをそれぞれ結合して得られた多数の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、マッチング対象者の識別情報と関連付けて記憶するとともに、当該トピック推定処理を実行して得られた各トピックにおける各単語の出現確率を記憶するトピックモデル記憶手段と、
マッチングの希望者についての自己データおよびニーズデータを、当該希望者の識別情報と関連付けて記憶する希望者データ記憶手段と、
この希望者データ記憶手段に記憶されているマッチングの希望者についての自己データとニーズデータとを結合し、当該希望者の結合テキストデータを作成する処理を実行する結合テキストデータ作成手段と、
この結合テキストデータ作成手段により作成した希望者の結合テキストデータ、および、トピックモデル記憶手段に記憶されている各トピックにおける各単語の出現確率を用いて、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値を予測する処理を実行する希望者トピック値予測手段と、
この希望者トピック値予測手段により求めた希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値と、トピックモデル記憶手段に記憶されているマッチング相手となる各候補者としてのマッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値とを用いて、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするものである。
The present invention is a matching system configured by a computer that executes a matching process that combines natural persons, corporations, non-corporate organizations, or other matching target persons.
Needs data consisting of self-data consisting of text data describing the characteristics of each of a large number of matching target persons, not including those who wish to match as a new matching target person, and text data describing the needs of the matching partner. Appearance probability of each topic in the combined text data of each matching target person obtained by executing topic estimation processing by soft clustering or neural language model using a large number of combined text data obtained by combining and A topic model storage means that stores the topic value indicating the above in association with the identification information of the matching target person and stores the appearance probability of each word in each topic obtained by executing the topic estimation process.
An applicant data storage means that stores self-data and needs data about a matching applicant in association with the identification information of the applicant, and
A combined text data creating means that combines self-data and needs data of a matching applicant stored in the applicant data storage means and executes a process of creating the combined text data of the applicant.
Appearance of each topic in the applicant's combined text data using the applicant's combined text data created by this combined text data creation means and the appearance probability of each word in each topic stored in the topic model storage means. Applicant topic value prediction means that executes the process of predicting the topic value indicating the probability,
The topic value indicating the appearance probability of each topic in the combined text data of the applicant obtained by this applicant topic value prediction means, and the matching target person as each candidate to be the matching partner stored in the topic model storage means. A matching feature data creation means that executes a process of creating matching feature data for a plurality of pairs of applicants and candidates using a topic value indicating the appearance probability of each topic in the combined text data. ,
Using each of the plurality of matching feature data created by this matching feature data creating means as input data, a matching model that has been learned in advance by two-class classification of whether or not to be selected and stored in the matching model storage means is used. The feature is that it is equipped with a matching processing means that executes a processing that outputs a score indicating the probability that each candidate is selected for a matching applicant by performing a classification process using a supervised classification model. Is what you do.

ここで、「マッチング対象者」には、自然人、法人、法人でない団体、その他の者が含まれる。法人でない団体には、いわゆる任意団体が含まれ、例えば、設立登記前の会社、町内会、政治団体、マンションの管理組合、サークル、学会、地域の野球チームやサッカーチーム等が含まれる。従って、例えば、野球チームやサッカーチーム等の練習試合の相手を探すマッチング処理も、本発明の適用対象となる。また、法人でない団体には、法人内の部署(会社内の部、課、係、工場、事業所、大学内の研究室、学部、学科等)のように、団体内の団体も含まれる。さらに、「マッチング対象者」には、国や地方公共団体も含まれる。 Here, the "matching target person" includes a natural person, a corporation, a non-corporate organization, and other persons. Non-corporate organizations include so-called voluntary organizations, such as pre-establishment companies, neighborhood associations, political organizations, condominium management associations, circles, academic societies, local baseball teams and soccer teams. Therefore, for example, a matching process for searching for an opponent in a practice game such as a baseball team or a soccer team is also an object of the present invention. In addition, non-corporate organizations include organizations within the corporation, such as departments within the corporation (departments, sections, staff, factories, offices, laboratories within the university, faculties, departments, etc.). Furthermore, "matching targets" include national and local governments.

また、例えば、ビジネスパートナーを探す場合は、通常は、企業同士のマッチングであるから、団体(法人であるか否かは問わない)と団体とのマッチングであるが、一方または双方が、個人経営の事務所等であれば、個人(自然人)と団体、個人と個人のマッチングにもなる。また、ビジネスマッチングサービスには、一方が大学やその研究室のような非営利団体である場合も含まれ、従って、産学連携の支援サービスも含まれる。さらには、双方が大学やその研究室のような非営利団体である場合も含まれ、従って、共同研究のパートナーを探す支援サービスも含まれる。 Also, for example, when looking for a business partner, it is usually a match between companies, so it is a match between a group (whether it is a corporation or not) and a group, but one or both are individually managed. In the case of offices, etc., it is also possible to match individuals (natural persons) with groups, and individuals with individuals. Business matching services also include non-profit organizations such as universities and their laboratories, and therefore industry-academia collaboration support services. It also includes non-profit organizations such as universities and their laboratories, and therefore support services for finding partners in collaborative research.

また、ビジネスマッチングの他には、例えば、不動産売買の売り手と買い手とのマッチング、事業承継の支援サービスでの承継元の企業(事業を譲渡する企業)と承継先の企業(事業を引き継ぐ企業)とのマッチング、専門的知識を求める者と専門家(弁護士や税理士等)とのマッチング、婚活支援サービスでのマッチング等があり、これらのマッチングサービスには、個人(自然人)と個人とのマッチング、個人と団体(法人であるか否かは問わない)とのマッチング、団体と団体とのマッチング、それらの混在型のマッチングがあるのは、ビジネスマッチングの場合と同様である。混在型のマッチングというのは、例えば、不動産売買の売り手および買い手の双方について、個人も団体も含める場合等である。 In addition to business matching, for example, matching between sellers and buyers of real estate sales, the successor company (the company that transfers the business) and the successor company (the company that takes over the business) in the business succession support service There are matching with, matching between those who seek specialized knowledge and specialists (lawyers, tax accountants, etc.), matching with marriage hunting support services, etc. These matching services include matching between individuals (natural persons) and individuals. , Matching between individuals and groups (whether or not they are corporations), matching between groups and groups, and matching of these types are the same as in the case of business matching. Mixed matching is, for example, the case where both sellers and buyers of real estate sales include individuals and groups.

また、個人(自然人)と団体(法人であるか否かは問わない)とのマッチングには、例えば、就職活動や求人活動の支援サービスでの就職希望者と採用企業とのマッチング、あるいは、人事異動の支援サービスでの従業員と会社内の部署とのマッチング等がある。従って、マッチングされるマッチング対象者同士は、対等な関係だけではなく、主従関係に置かれる者であってもよい。 In addition, matching between individuals (natural persons) and groups (whether or not they are corporations) includes, for example, matching between job seekers and hiring companies in job hunting and recruiting support services, or personnel affairs. There is matching between employees and departments within the company in the transfer support service. Therefore, the matching target persons to be matched may be not only those who are placed in an equal relationship but also those who are placed in a master-slave relationship.

さらに、「その他」の「マッチング対象者」には、例えば、ロボットや一部の動物のように、マッチングを行ううえで、人とみなせる者を含み、要するに、自己の特徴やニーズを記述したテキストデータを用意できる者であればよい。この際、テキストデータの記述は、必ずしも自分で行うことができる必要はなく、他人(人間)に代理してもらってもよいので、自己の特徴およびニーズを保有していれば、本発明の「マッチング対象者」となり得る。従って、「マッチング対象者」の「者」は、人間や、人間の集合である団体(法人であるか否かは問わない)に限られないので、例えば、人間と家政婦ロボットとのマッチング、人間とペットロボットとのマッチング、ロボット同士のマッチング、人間とペット用の動物とのマッチング、動物と動物園とのマッチング、動物と調教師とのマッチング等にも、本発明を適用することができる。 Furthermore, the "matching target person" of "others" includes a person who can be regarded as a person in matching, for example, a robot or some animals, and in short, a text describing one's own characteristics and needs. Anyone who can prepare the data will do. At this time, the description of the text data does not necessarily have to be done by oneself, and may be represented by another person (human). Therefore, as long as he / she has his / her own characteristics and needs, the "matching" of the present invention Can be the target person. Therefore, the "person" of the "matching target person" is not limited to humans or groups of humans (whether or not they are corporations). For example, matching between humans and housekeeper robots, The present invention can also be applied to matching between humans and pet robots, matching between robots, matching between humans and animals for pets, matching between animals and zoos, matching between animals and trainers, and the like.

また、「ニーズデータ」についての「マッチング相手に対するニーズを記述」とは、マッチング相手に求める事項の記述でもよく、望んでいる自身の将来の状態を示す記述でもよく、マッチング相手に直接的または間接的に向けられた記述であればよい。従って、マッチング相手の行為を中心とした記述でもよく、自身の行為を中心とした記述でもよい。 Further, the "description of the needs for the matching partner" regarding the "needs data" may be a description of the matters required of the matching partner, or a description indicating the desired future state of the matching partner, and may be a description directly or indirectly to the matching partner. Any description may be directed to the target. Therefore, the description may be centered on the actions of the matching partner, or may be a description centered on one's own actions.

さらに、「マッチング処理手段」における「確度を示すスコア」は、確からしさの程度や度合いを示すスコアであり、尤度や確率の値(0〜1、0〜100%)でもよく、あるいは、尤度や確率の値に限らず、閾値処理をした後の値または結果や、何らかのフィルタをかけた後の値または結果を出力してもよく、要するに、程度や度合いを示すスコアを出力すればよい趣旨であり、連続的な数値でもよく、段階的な指標(例えば、「95%以上、90%以上95%未満、85%以上90%未満、…」、あるいは「非常に大、大、やや大、中、やや小、小、非常に小」のような指標)でもよい。そして、「マッチング処理手段」は、出力したスコアを高い順に並べる等の2次的な処理を行う構成としてもよい。 Further, the "score indicating the certainty" in the "matching processing means" is a score indicating the degree or degree of certainty, and may be a value of likelihood or probability (0 to 1, 0 to 100%), or is likely. Not limited to the value of degree and probability, the value or result after threshold processing and the value or result after some filtering may be output. In short, a score indicating the degree or degree may be output. It is a purpose, it may be a continuous numerical value, and it may be a stepwise index (for example, "95% or more, 90% or more and less than 95%, 85% or more and less than 90%, ...", or "Very large, large, slightly large". , Medium, slightly small, small, very small "). Then, the "matching processing means" may be configured to perform secondary processing such as arranging the output scores in descending order.

このような本発明のマッチングシステムにおいては、多数のマッチング対象者の自己データとニーズデータとを結合して結合テキストデータを作成し、これらの結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行してトピック分布(各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値)を求め、求めたトピック分布を用いて、教師あり分類モデルによる機械学習を行うことによりマッチングモデルを構築し、そのマッチングモデルによりマッチングの希望者と各候補者とのマッチングを行うので、手動によるキーワード変換作業が不要となり、属人的な操作の排除を実現することが可能となる。 In such a matching system of the present invention, self-data of a large number of matching subjects and needs data are combined to create combined text data, and these combined text data are used by soft clustering or a neural language model. Execute topic estimation processing to obtain topic distribution (topic value indicating the appearance probability of each topic in the combined text data of each matching target person), and use the obtained topic distribution to perform machine learning using a supervised classification model. Since a matching model is constructed by the matching model and the matching applicant and each candidate are matched by the matching model, manual keyword conversion work becomes unnecessary, and it is possible to eliminate personal operations. ..

このため、従来のようなキーワード変換作業に要する時間や手間が省かれ、サービス担当者の負荷軽減が図られる。また、ノウハウに基づく個人判断を伴う作業がなくなるので、サービス担当者間の作業内容のばらつきを無くすことができ、一律なサービスの提供が可能となる。 For this reason, the time and effort required for the conventional keyword conversion work can be saved, and the load on the service staff can be reduced. In addition, since work that involves individual judgment based on know-how is eliminated, it is possible to eliminate variations in work content among service personnel, and it is possible to provide uniform services.

さらに、トピック推定処理で得られたトピック分布を利用してマッチングモデルの機械学習を行うので、マッチング対象者の登録情報(自己データ、ニーズデータ)を多面的に、かつ、的確に捉えた特徴量(マッチング用特徴データ)を作成し、適切なスコアリングを実施することができる。このため、情報の欠落が抑えられる。従って、従来のキーワードマッチの場合には、マッチングニーズをキーワードへ変換した際に、情報の欠落が生じ、所望の検索結果が得られない可能性もあったが、そのような事態を回避することが可能となる。そして、従来手法では、検索キーワードの変更により、出力結果が大きく異なる可能性があり、機会損失に繋がりやすいという問題もあったが、そのような問題も解消される。 Furthermore, since machine learning of the matching model is performed using the topic distribution obtained by the topic estimation process, the feature amount that accurately and multifacetedly captures the registration information (self-data, needs data) of the matching target person. (Characteristic data for matching) can be created and appropriate scoring can be performed. Therefore, the lack of information can be suppressed. Therefore, in the case of conventional keyword matching, when the matching needs are converted into keywords, information may be lost and the desired search result may not be obtained. However, such a situation should be avoided. Is possible. Then, in the conventional method, there is a problem that the output result may be significantly different due to the change of the search keyword, which tends to lead to a loss of opportunity, but such a problem is also solved.

また、マッチングの希望者に対し、登録されているマッチング対象者の全部を候補者とし、希望者と各候補者とのマッチング確度のスコアリングを実施することができるため、機会損失に陥りにくい。また、スコアの高低を参照し、稼働可能性の高いマッチング対象者の情報を任意の件数閲覧することができる。稼働可能性の高いマッチング対象者とは、例えば、ビジネスマッチングであれば、実際に共同で、提携して、または協力して事業を行う可能性の高いマッチング相手であり、不動産売買のマッチングであれば、実際に売買交渉が開始され、または売買契約が成立する可能性の高いマッチング相手であり、婚活マッチングであれば、実際に付き合い、または結婚する可能性の高いマッチング相手である。 In addition, since it is possible to perform scoring of the matching accuracy between the applicant and each candidate by using all the registered matching target persons as candidates for the matching applicant, it is unlikely to fall into an opportunity loss. In addition, it is possible to browse an arbitrary number of information on matching target persons having a high possibility of operation by referring to the high and low scores. A matching target person with high operability is, for example, a matching partner who is likely to actually jointly, collaborate, or cooperate in business in the case of business matching, and may be a matching of real estate sales. For example, it is a matching partner who is likely to actually start sales negotiations or conclude a sales contract, and in the case of marriage-hunting matching, it is a matching partner who is likely to actually associate or get married.

さらに、登録されているマッチング対象者の全部を候補者とし、機械的にスコアリングを実施することができるため、マッチング対象者の登録が増加しても、それに伴うサービス担当者の負担の増加を回避することが可能となる。 Furthermore, since all the registered matching target persons can be selected as candidates and scoring can be performed mechanically, even if the registration of matching target persons increases, the burden on the service staff will increase accordingly. It becomes possible to avoid it.

また、マッチング用特徴データを作成する際には、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られたトピック分布(各トピックの出現確率を示すトピック値)を用いるので、希望者や各候補者の属性データ(希望者データや各候補者のマッチング対象者データ)として、トピックに相当する情報(例えば、ビジネスマッチングであれば、業種(事業分野)が考えられる。)を用意しておく必要がないので、この点でもサービス担当者の負担軽減が図られ、これらにより前記目的が達成される。 In addition, when creating feature data for matching, the topic distribution (topic value indicating the appearance probability of each topic) obtained by executing topic estimation processing by soft clustering or neural language model is used, so applicants and applicants As the attribute data of each candidate (applicant data and matching target data of each candidate), information corresponding to the topic (for example, in the case of business matching, the type of industry (business field) can be considered) is prepared. Since it is not necessary to keep it, the burden on the service person can be reduced in this respect as well, and the above-mentioned purpose is achieved by these points.

<希望者データを含めてトピックモデルの再学習を行う場合(例えば、後述する図9の場合等)の本発明の基本構成> <Basic configuration of the present invention when the topic model is relearned including the applicant data (for example, in the case of FIG. 9 described later)>

本発明は、自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
新たなマッチング対象者としてのマッチングの希望者を含まない多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データ、および、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータを、マッチング対象者の識別情報と関連付けて記憶するマッチング対象者データ記憶手段と、
マッチングの希望者についての自己データおよびニーズデータを、当該希望者の識別情報と関連付けて記憶する希望者データ記憶手段と、
マッチング対象者データ記憶手段に記憶されている各マッチング対象者の自己データとニーズデータとをそれぞれ結合するとともに、希望者データ記憶手段に記憶されている希望者の自己データとニーズデータとを結合し、希望者を含む多数のマッチング対象者の結合テキストデータを作成する処理を実行する結合テキストデータ作成手段と、
この結合テキストデータ作成手段により作成された希望者を含む多数のマッチング対象者の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルにより、希望者を含む各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を求めるトピック推定処理を実行するトピック推定手段と、
このトピック推定手段によるトピック推定処理で得られた希望者を含む各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、希望者を含む各マッチング対象者の識別情報と関連付けて記憶するトピックモデル記憶手段と、
このトピックモデル記憶手段に記憶されている希望者およびそのマッチング相手となる各候補者としてのマッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を用いて、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするものである。
The present invention is a matching system configured by a computer that executes a matching process that combines natural persons, corporations, non-corporate organizations, or other matching target persons.
Needs consisting of self-data consisting of text data describing the characteristics of each of a large number of matching target persons, not including those who wish to be matched as a new matching target person, and text data describing the needs of the matching partner. A matching target person data storage means that stores data in association with the identification information of the matching target person,
An applicant data storage means that stores self-data and needs data about a matching applicant in association with the identification information of the applicant, and
The self-data and needs data of each matching target person stored in the matching target person data storage means are combined, and the self-data and needs data of the applicant stored in the applicant data storage means are combined. , A combined text data creation means that executes the process of creating combined text data for a large number of matching targets, including applicants.
Using the combined text data of a large number of matching targets including the applicant created by this combined text data creation means, each topic in the combined text data of each matching target including the applicant by soft clustering or a neural language model. A topic estimation means that executes topic estimation processing to obtain a topic value indicating the appearance probability of
The topic value indicating the appearance probability of each topic in the combined text data of each matching target person including the applicant obtained by the topic estimation process by this topic estimation means is associated with the identification information of each matching target person including the applicant. Topic model memory means to memorize,
The applicant and each candidate are stored using the topic value indicating the appearance probability of each topic in the combined text data of the applicant and the matching target as each candidate to be the matching partner stored in this topic model storage means. Matching feature data creation means that executes the process of creating matching feature data for a plurality of pairs consisting of
Using each of the plurality of matching feature data created by this matching feature data creating means as input data, a matching model that has been learned in advance by two-class classification of whether or not to be selected and stored in the matching model storage means is used. The feature is that it is equipped with a matching processing means that executes a processing that outputs a score indicating the probability that each candidate is selected for a matching applicant by performing a classification process using a supervised classification model. Is what you do.

ここで、「マッチング対象者」、「ニーズデータ」についての「マッチング相手に対するニーズを記述」、「マッチング処理手段」における「確度を示すスコア」の意味は、前述した<希望者データを含めたトピックモデルの再学習を行わない場合の本発明の基本構成>と同様である。 Here, the meanings of "description of needs for matching partner" for "matching target person" and "needs data" and "score indicating accuracy" in "matching processing means" are the topics including the above-mentioned <applicant data. This is the same as the basic configuration of the present invention when the model is not retrained.

このような本発明のマッチングシステムにおいては、前述した<希望者データを含めたトピックモデルの再学習を行わない場合の本発明の基本構成>と同様な作用・効果が得られる。 In such a matching system of the present invention, the same actions and effects as the above-mentioned <basic configuration of the present invention when the topic model including the applicant data is not relearned> can be obtained.

<既存のマッチング対象者の中で特定目的のマッチングを行う場合(例えば、後述する図10の場合等)の本発明の基本構成> <Basic configuration of the present invention when matching for a specific purpose is performed among existing matching target persons (for example, in the case of FIG. 10 described later)>

本発明は、自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
特定目的のマッチングを行う既存のマッチング対象者としての特定対象者を含む多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データと、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータとをそれぞれ結合して得られた多数の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、マッチング対象者の識別情報と関連付けて記憶するトピックモデル記憶手段と、
このトピックモデル記憶手段に記憶されている各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を用いて、特定対象者とこの特定対象者のマッチング相手となる各候補者とからなる複数のペア、複数の特定対象者の各々とこれらの複数の特定対象者のマッチング相手となる各候補者とからなる複数のペア、特定対象者と他の複数の特定対象者の各々とからなる複数のペアについての複数のマッチング用特徴データを作成するか、または、特定対象者同士のペアについての1つのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、または、1つのマッチング用特徴データを入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、特定対象者に対して各候補者または他の特定対象者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするものである。
The present invention is a matching system configured by a computer that executes a matching process that combines natural persons, corporations, non-corporate organizations, or other matching target persons.
Self-data consisting of text data describing the characteristics of each of a large number of matching target persons including the specific target person as an existing matching target person who performs matching for a specific purpose, and text data describing the needs for the matching partner. Each of the combined text data of each matching target person obtained by performing topic estimation processing by soft clustering or a neural language model using a large number of combined text data obtained by combining the needs data consisting of A topic model storage means that stores a topic value indicating the appearance probability of a topic in association with the identification information of the matching target person, and
Using the topic value indicating the appearance probability of each topic in the combined text data of each matching target person stored in this topic model storage means, from the specific target person and each candidate to be the matching partner of this specific target person. A plurality of pairs, a plurality of pairs consisting of each of the plurality of specific target persons and each candidate to be a matching partner of the plurality of specific target persons, from each of the specific target person and the other plurality of specific target persons. A matching feature data creation means that creates a plurality of matching feature data for a plurality of pairs, or creates a single matching feature data for a pair of specific target persons.
Each of the plurality of matching feature data created by this matching feature data creating means is used as input data, or one matching feature data is used as input data, and the two-class classification of whether or not to be selected is learned in advance. A score indicating the probability that each candidate or another specific target person will be selected for a specific target person by performing classification processing by a supervised classification model using the matching model stored in the matching model storage means. It is characterized by being provided with a matching processing means for executing a process of outputting.

ここで、「マッチング対象者」、「ニーズデータ」についての「マッチング相手に対するニーズを記述」、「マッチング処理手段」における「確度を示すスコア」の意味は、前述した<希望者データを含めたトピックモデルの再学習を行わない場合の本発明の基本構成>と同様である。 Here, the meanings of "description of needs for matching partner" for "matching target person" and "needs data" and "score indicating accuracy" in "matching processing means" are the topics including the above-mentioned <applicant data. This is the same as the basic configuration of the present invention when the model is not retrained.

また、「特定目的のマッチングを行う既存のマッチング対象者としての特定対象者」は、新たなマッチング対象者としてのマッチングの希望者とは異なり、既にマッチング対象者データ(マッチング対象者の属性データ)が得られていて、そのデータを含めたトピック推定処理が行われ、トピックモデルが構築されている場合のマッチング対象者であり、特定目的で、その者を含めて既存の他のマッチング対象者とのマッチングを行うことが必要となった者である。 In addition, "specific target person as an existing matching target person who performs matching for a specific purpose" is different from a person who desires matching as a new matching target person, and already has matching target person data (attribute data of the matching target person). Is the matching target when the topic estimation process including the data is performed and the topic model is constructed, and for a specific purpose, with other existing matching targets including that person. It is a person who needs to perform matching.

さらに、「特定目的」は、新たなマッチング対象者としてのマッチングの希望者によるマッチングの依頼があった場合と同様に、ある既存のマッチング対象者(特定対象者)により、他の既存のマッチング対象者とのマッチングの依頼があった場合にその依頼に応えるという標準的な特定目的でもよいが、次のような特殊な特定目的も含まれる。 Furthermore, the "specific purpose" is the same as when a matching request is made by a person who wishes to match as a new matching target person, and an existing matching target person (specific target person) causes another existing matching target. It may be a standard specific purpose of responding to a request for matching with a person, but it also includes the following special specific purpose.

例えば、依頼のあった複数の既存のマッチング対象者(例えば、10社、10人等)に対し、既存のマッチング対象者の中から、集団ミーティング等を行うのに適している同数の各候補者(例えば、10社、10人等)を選ぶという特定目的がある。この場合、依頼主である複数の既存のマッチング対象者(例えば、10社、10人等)が、複数の特定対象者であり、各候補者は、複数の特定対象者以外の既存のマッチング対象者である。集団ミーティング等というのは、1対1の組合せではなく、多対多の組合せであり、多対多の適切な組合せを得るために、多数の1対1の組合せ(ペア)についてのスコアを出力することになる。より具体的には、例えば、企業同士の集団見合いに相当する名詞交換会のセッティング、あるいは主従関係がある場合であれば、例えば、複数の採用者(例えば、音楽プロダクション等)と複数の応募者(例えば、音楽家等)とによる合同オーディションのセッティングを行う場合等が挙げられる。なお、同数の各候補者を選ぶというのは、一例であり、同数に限定されるものではなく、依頼主である複数の既存のマッチング対象者の数と、選ぶ各候補者の数との比率は、任意であり、どちらの数が多くてもよい。 For example, for a plurality of existing matching target persons (for example, 10 companies, 10 people, etc.) requested, the same number of candidates suitable for holding a group meeting, etc. from among the existing matching target persons. There is a specific purpose of choosing (for example, 10 companies, 10 people, etc.). In this case, a plurality of existing matching target persons (for example, 10 companies, 10 persons, etc.) who are clients are a plurality of specific target persons, and each candidate is an existing matching target other than the plurality of specific target persons. Is a person. A group meeting, etc. is not a one-to-one combination, but a many-to-many combination, and outputs scores for a large number of one-to-one combinations (pairs) in order to obtain an appropriate many-to-many combination. Will be done. More specifically, for example, if there is a noun exchange meeting setting corresponding to a group match between companies, or if there is a master-slave relationship, for example, a plurality of employers (for example, music production) and a plurality of applicants. For example, when setting up a joint audition with a musician or the like. It should be noted that selecting the same number of candidates is an example, and the number is not limited to the same number. The ratio between the number of existing matching targets who are the clients and the number of each candidate to be selected. Is arbitrary, and either number may be large.

また、特定対象者同士のペアについてマッチングの確度(互いがマッチする確度)を求め、その相性を調査するという特定目的も含まれる。例えば、マッチングの確度を求める対象として、企業Aと企業Bという2つの企業は決まっていて、それらの企業Aと企業Bとが取引や共同作業等を行い得る関係にあるか否かを、データに基づき客観的に判断する依頼があったときに、企業Aと企業Bとの間のスコアを出力する場合等がある。この場合、依頼を持ち込むのは、企業Aまたは企業Bのいずれか一方でもよく、企業Aおよび企業Bの双方の共同依頼でもよく、どちらの場合も、企業Aおよび企業Bは、特定対象者である。 It also includes a specific purpose of finding the matching probability (the probability of matching each other) for a pair of specific target persons and investigating the compatibility. For example, two companies, company A and company B, are determined as targets for obtaining the accuracy of matching, and data is obtained as to whether or not those companies A and company B are in a relationship capable of conducting transactions, collaborative work, etc. When there is a request to make an objective judgment based on the above, the score between company A and company B may be output. In this case, the request may be brought in by either company A or company B, or may be a joint request by both company A and company B. In both cases, company A and company B are specific targets. is there.

さらに、特定対象者と他の複数の特定対象者の各々とからなる複数のペアについてマッチングの確度を求め、それらの相性を調査するという特定目的も含まれる。例えば、マッチングの確度を求める対象として、企業Aとそのマッチング相手となる企業B,C,Dとが決まっていて、企業Aと企業Bとの間のスコア、企業Aと企業Cとの間のスコア、企業Aと企業Dとの間のスコアを出力する場合等がある。この場合、依頼を持ち込むのは、通常、企業Aであるが、企業A,B,C,Dは、いずれも特定対象者である。なお、企業Cが、企業Aと企業Bとのペア(依頼主を含まないペア)についてのスコアの算出を依頼し、それらの相性を調査してもよい。 Furthermore, it also includes a specific purpose of obtaining the accuracy of matching for a plurality of pairs consisting of a specific target person and each of a plurality of other specific target persons, and investigating their compatibility. For example, company A and its matching partners B, C, and D are determined as targets for determining the accuracy of matching, and the score between company A and company B and the score between company A and company C are determined. The score, the score between the company A and the company D may be output. In this case, it is usually the company A that brings in the request, but the companies A, B, C, and D are all specific target persons. In addition, company C may request the calculation of the score for the pair (pair not including the client) between company A and company B, and investigate their compatibility.

このような本発明のマッチングシステムにおいては、前述した<希望者データを含めたトピックモデルの再学習を行わない場合の本発明の基本構成>と同様な作用・効果が得られるうえ、既存のマッチング対象者による特定目的での様々な依頼に対応することが可能となる。 In such a matching system of the present invention, the same actions and effects as the above-mentioned <basic configuration of the present invention when the topic model including the applicant data is not relearned> can be obtained, and the existing matching can be obtained. It is possible to respond to various requests by the target person for a specific purpose.

<トピック値の積、およびトピック値の差の絶対値を、合成変数として用いる構成> <Structure that uses the product of topic values and the absolute value of the difference between topic values as synthetic variables>

また、前述したマッチングシステムにおいて、
マッチング用特徴データ作成手段は、
ペアの双方の各トピック値を用いて、同一のトピックについての双方のトピック値の積からなる合成変数、および、同一のトピックについての双方のトピック値の差の絶対値からなる合成変数を求め、求めた各合成変数をマッチング用特徴データとする処理を実行する構成とされていることが望ましい。
In addition, in the matching system described above,
The means for creating feature data for matching is
Using each topic value of both pairs, find a composite variable consisting of the product of both topic values for the same topic and a composite variable consisting of the absolute value of the difference between both topic values for the same topic. It is desirable that the configuration is such that processing is performed using each of the obtained composite variables as matching feature data.

このようにトピック値の積、およびトピック値の差の絶対値を、合成変数として用いる構成とした場合には、ペアとなるマッチング対象者の双方(希望者と候補者との双方、特定対象者と候補者との双方、または、特定対象者と他の特定対象者との双方)のトピック分布(各トピック値)をそのままマッチング用特徴データとして用いる場合に比べ、適切なスコアリングを行うことが可能となる。 When the product of topic values and the absolute value of the difference between topic values are used as synthetic variables in this way, both of the matching target persons (both applicants and candidates, specific target persons) to be paired. Appropriate scoring can be performed compared to the case where the topic distribution (each topic value) of both the candidate and the candidate or both the specific target person and the other specific target person is used as it is as the matching feature data. It will be possible.

すなわち、ペア双方のトピック分布をそのままマッチング用特徴データとして用いると、学習時において、学習用データに偏りが生じ、偏った学習が行われる可能性がある。より具体的には、例えば、学習用データに、多く現れるパターン(ここでは、多く現れるトピック分布)に対し、比較的高いスコアを与えるマッチングモデル(スコアリングモデル)が構築される可能性がある。これに対し、マッチング対象者のペアの特徴を示すような新たな合成変数を生成することで、偏った学習を回避することが可能となる。 That is, if the topic distributions of both pairs are used as they are as the matching feature data, the learning data may be biased at the time of learning, and biased learning may be performed. More specifically, for example, there is a possibility that a matching model (scoring model) that gives a relatively high score to a pattern that appears frequently (here, a topic distribution that appears frequently) is constructed in the training data. On the other hand, by generating a new synthetic variable that shows the characteristics of the pair of matching subjects, it is possible to avoid biased learning.

ペア双方のトピック値の積は、ペア双方のトピック分布の重なり度合いを表し、ペア双方のトピック値の差の絶対値は、ペア双方のトピック分布の差異・広がりを表していると考えられる。 It is considered that the product of the topic values of both pairs represents the degree of overlap of the topic distributions of both pairs, and the absolute value of the difference between the topic values of both pairs represents the difference / spread of the topic distributions of both pairs.

<TFIDFベクトルまたはその他の単語重要度ベクトルの内積またはコサイン類似度を、マッチング用特徴データに含める構成> <Structure that includes the inner product or cosine similarity of the TFIDF vector or other word importance vector in the matching feature data>

さらに、前述したマッチングシステムにおいて、
各マッチング対象者の結合テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを算出する処理を実行する単語重要度ベクトル算出手段と、
この単語重要度ベクトル算出手段により算出した結合テキストデータについての単語重要度ベクトルを、マッチング対象者の識別情報と関連付けて記憶する単語重要度ベクトル記憶手段とを備え、
マッチング用特徴データ作成手段は、
単語重要度ベクトル記憶手段に記憶されているペアの一方の結合テキストデータについての単語重要度ベクトルと、ペアの他方の結合テキストデータについての単語重要度ベクトルとの内積またはコサイン類似度を求め、求めた単語重要度ベクトルの内積またはコサイン類似度を、マッチング用特徴データに含める処理を実行する構成としてもよい。
Furthermore, in the matching system described above,
A word importance vector calculation means that executes a process of calculating a word importance vector consisting of a TFIDF value or other word importance index values of each word for the combined text data of each matching target person.
The word importance vector storage means for storing the word importance vector of the combined text data calculated by the word importance vector calculation means in association with the identification information of the matching target person is provided.
The means for creating feature data for matching is
Find and find the inner product or cosine similarity between the word importance vector for one combined text data of the pair stored in the word importance vector storage means and the word importance vector for the other combined text data of the pair. The inner product of the word importance vectors or the cosine similarity may be included in the matching feature data to execute the process.

ここで、「単語重要度ベクトル算出手段」による単語重要度ベクトルの算出対象は、新たなマッチング対象者としてのマッチングの希望者がいる場合には、その希望者を含めた各マッチング対象者の結合テキストデータとなる。 Here, the calculation target of the word importance vector by the "word importance vector calculation means" is, if there is a person who wants to match as a new matching target person, the combination of each matching target person including the person who wants to match. It becomes text data.

このようにTFIDFベクトルまたはその他の単語重要度ベクトルの内積またはコサイン類似度を、マッチング用特徴データに含める構成とした場合には、単語重要度により、結合テキストデータに含まれる特徴を、より強調したマッチング用特徴データを作成することが可能となり、より適切なスコアリングを行うことが可能となる。 When the inner product or cosine similarity of the TFIDF vector or other word importance vector is included in the matching feature data in this way, the feature included in the combined text data is further emphasized by the word importance. It becomes possible to create matching feature data, and it becomes possible to perform more appropriate scoring.

また、ペア双方の単語重要度ベクトルは、そのままマッチング用特徴データとして用いることもできるが、ここでは、ペア双方の単語重要度ベクトルの内積またはコサイン類似度を求め、求めた単語重要度ベクトルの内積またはコサイン類似度を、マッチング用特徴データとして用いるので、マッチング用特徴データの次元数を小さくできるとともに、前述したトピック分布で合成変数を生成した場合と同様に、そのまま用いるのではなく、合成変数を生成することで、より適切なスコアリングを行うことが可能となる。 Further, the word importance vectors of both pairs can be used as they are as feature data for matching, but here, the inner product of the word importance vectors of both pairs or the cosine similarity is obtained, and the inner product of the obtained word importance vectors is obtained. Alternatively, since the cosine similarity is used as the matching feature data, the number of dimensions of the matching feature data can be reduced, and the composite variable is used instead of being used as it is as in the case where the composite variable is generated by the topic distribution described above. By generating it, it becomes possible to perform more appropriate scoring.

<ニーズフラグをマッチング用特徴データに含める構成> <Structure that includes the needs flag in the matching feature data>

また、前述したマッチングシステムにおいて、
自己データおよびニーズデータには、マッチング相手に対するニーズの種類を示す少なくとも1つのニーズフラグが付随し、
マッチング用特徴データ作成手段は、
ペアの双方のニーズフラグを、マッチング用特徴データに含める処理を実行する構成としてもよい。
In addition, in the matching system described above,
Self-data and needs data are accompanied by at least one need flag indicating the type of need for the matching partner.
The means for creating feature data for matching is
The needs flags of both pairs may be included in the matching feature data to execute the process.

ここで、「少なくとも1つのニーズフラグ」は、既存のマッチング対象者については、各マッチング対象者についての自己データおよびニーズデータとともに、マッチング対象者の識別情報と関連付けてマッチング対象者データ記憶手段に記憶しておけばよい。また、新たなマッチング対象者としてのマッチングの希望者がいる場合には、マッチングの希望者についての自己データおよびニーズデータとともに、希望者の識別情報と関連付けて希望者データ記憶手段に記憶しておけばよい。 Here, the "at least one need flag" is stored in the matching target person data storage means in association with the identification information of the matching target person together with the self-data and the needs data of each matching target person for the existing matching target person. You should keep it. In addition, if there is a person who wishes to match as a new matching target person, store it in the applicant data storage means in association with the identification information of the applicant together with the self-data and needs data of the applicant for matching. Just do it.

このようにニーズフラグをマッチング用特徴データに含める構成とした場合には、ペア双方(希望者および候補者の双方、特定対象者および候補者の双方、特定対象者および他の特定対象者の双方)の持つニーズの種類がマッチング用特徴データに反映されるので、より適切なスコアリングを行うことが可能となる。 When the needs flag is included in the matching feature data in this way, both pairs (both applicants and candidates, both specific target persons and candidates, both specific target persons and other specific target persons). Since the type of needs of) is reflected in the matching feature data, more appropriate scoring can be performed.

<ニーズフラグによる合成変数をマッチング用特徴データに含める構成> <Structure that includes synthetic variables based on needs flags in matching feature data>

そして、上述したニーズフラグをマッチング用特徴データに含める構成とした場合において、
マッチング用特徴データ作成手段は、
ぺアの双方のニーズフラグを用いて、双方のニーズフラグの論理和、論理積、排他的論理和、否定論理和、否定論理積、否定排他的論理和、算術和、またはその他の合成変数を求め、求めた合成変数をマッチング用特徴データに含める処理を実行する構成としてもよい。
Then, in the case where the above-mentioned needs flag is included in the matching feature data,
The means for creating feature data for matching is
Using both pair needs flags, the logical sum, logical product, exclusive OR, negative logical sum, negative logical product, negative exclusive OR, arithmetic sum, or other composite variable of both needs flags. It may be configured to execute a process of obtaining and including the obtained composite variable in the matching feature data.

このようにニーズフラグによる合成変数をマッチング用特徴データに含める構成とした場合には、前述したトピック分布で合成変数を生成した場合と同様に、ニーズフラグをそのまま用いるのではなく、合成変数を生成して用いることで、より適切なスコアリングを行うことが可能となる。 When the composite variable based on the needs flag is included in the matching feature data in this way, the composite variable is generated instead of using the needs flag as it is, as in the case of generating the composite variable with the topic distribution described above. It becomes possible to perform more appropriate scoring.

<ビジネスマッチングを行う構成> <Structure for business matching>

また、以上に述べたマッチングシステムにおいて、
マッチング対象者は、ビジネスを行う自然人、法人、法人でない団体、またはその他のマッチング対象者であり、
マッチング処理は、ビジネスを行うマッチング対象者同士を組み合わせるビジネスマッチング処理であり、
トピック推定手段は、レイテント・ディリクレ・アロケーションによりトピック推定処理を実行する構成とすることができる。
In addition, in the matching system described above,
Matching targets are natural persons, corporations, non-corporate organizations, or other matching targets who do business.
The matching process is a business matching process that combines matching target persons who conduct business.
The topic estimation means can be configured to execute the topic estimation process by the late tent Dirichlet allocation.

このようにビジネスマッチングを行う構成とした場合には、トピック推定処理で得られる各トピックとして、業種(事業分野)を想定することができるので、結合テキストデータの特徴を的確に反映したマッチング用特徴データを作成することができ、適切なスコアリングを行うことが可能となる。すなわち、ビジネスマッチングを行う場合、自己データとニーズデータとを結合した結合テキストデータには、ビジネスに関連する記述が多いことから、トピックとして、業種(事業分野)を想定することができるので、レイテント・ディリクレ・アロケーション(LDA)で指定するトピック数を、分類したい業種(事業分野)の数に設定することができる。このため、システム構築者の設計イメージと、LDAによるトピック推定処理の結果とを一致させやすいので、適切なシステム設計を行うことが可能となる。なお、LDAにより得られた各トピックが、具体的にどのような業種(事業分野)に対応するのかは問題ではなく、明確な対応関係があるわけではなく、対応関係を知る必要もなく、トピック分布が得られればよい。 In the case of the configuration for performing business matching in this way, the type of industry (business field) can be assumed as each topic obtained by the topic estimation process, so the matching characteristics that accurately reflect the characteristics of the combined text data. Data can be created and appropriate scoring can be performed. In other words, when performing business matching, since there are many business-related descriptions in the combined text data that combines self-data and needs data, it is possible to assume the type of business (business field) as a topic. -The number of topics specified in Dirichlet Allocation (LDA) can be set to the number of industries (business fields) to be classified. Therefore, it is easy to match the design image of the system builder with the result of the topic estimation process by LDA, so that it is possible to perform an appropriate system design. In addition, it does not matter what kind of industry (business field) each topic obtained by LDA corresponds to, there is no clear correspondence, there is no need to know the correspondence, and the topic It suffices if a distribution can be obtained.

<プログラムの発明> <Invention of the program>

そして、本発明のプログラムは、以上に述べたマッチングシステムとして、コンピュータを機能させるためのものである。 The program of the present invention is for operating the computer as the matching system described above.

なお、上記のプログラムまたはその一部は、例えば、光磁気ディスク(MO)、コンパクトディスク(CD)、デジタル・バーサタイル・ディスク(DVD)、フレキシブルディスク(FD)、磁気テープ、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュディスク等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。 The above program or a part thereof may be, for example, an optical magnetic disk (MO), a compact disk (CD), a digital versatile disk (DVD), a flexible disk (FD), a magnetic tape, or a read-only memory (ROM). , Electrically erased and rewritable read-only memory (EEPROM), flash memory, random access memory (RAM), hard disk drive (HDD), solid state drive (SSD), flash disk, etc. It can be stored and distributed, and for example, local area network (LAN), metropolitan area network (MAN), wide area network (WAN), Internet, intranet, extranet, etc. It is possible to transmit using a transmission medium such as a wired network, a wireless communication network, or a combination thereof, and it is also possible to carry it on a carrier. Further, the above program may be a part of another program, or may be recorded on a recording medium together with a separate program.

以上に述べたように本発明によれば、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られたトピック分布を用いて、教師あり分類モデルによる機械学習を行うことによりマッチングモデルを構築し、そのマッチングモデルによりマッチングの希望者と各候補者とのマッチング、あるいは、特定対象者と各候補者とのマッチングや特定対象者間のマッチングを行うので、マッチング対象者の持つ特徴やニーズを的確に反映したマッチング用特徴データを作成して適切なスコアリングを行うことができ、かつ、サービス担当者の負担軽減を図ることができるという効果がある。 As described above, according to the present invention, a matching model is constructed by performing machine learning by a supervised classification model using a topic distribution obtained by executing topic estimation processing by soft clustering or a neural language model. However, the matching model is used to match applicants for matching with each candidate, or to match specific target persons with each candidate or between specific target persons, so that the characteristics and needs of the matching target person can be determined. There is an effect that it is possible to create matching feature data that accurately reflects it and perform appropriate scoring, and it is possible to reduce the burden on the service staff.

本発明の一実施形態のマッチングシステムの全体構成図。The whole block diagram of the matching system of one Embodiment of this invention. 前記実施形態のマッチング対象者データ記憶手段に記憶されているマッチング対象者データの具体例を示す図。The figure which shows the specific example of the matching target person data stored in the matching target person data storage means of the said embodiment. 前記実施形態の結合テキストデータの作成からトピック分布の推定までのデータの具体例を示す図。The figure which shows the specific example of the data from the creation of the combined text data of the said embodiment to the estimation of a topic distribution. 前記実施形態のマッチング用特徴データに含める合成変数の作成方法の説明図。The explanatory view of the method of creating the synthetic variable to be included in the matching feature data of the said embodiment. 前記実施形態の運用時におけるマッチング用特徴データの作成方法の説明図。The explanatory view of the method of creating the characteristic data for matching at the time of operation of the said embodiment. 前記実施形態の学習時におけるマッチング用特徴データの準備方法の説明図。The explanatory view of the preparation method of the feature data for matching at the time of learning of the said embodiment. 前記実施形態の事前に行う学習処理の流れを示すフローチャートの図。The figure of the flowchart which shows the flow of the learning process performed in advance of the said embodiment. 前記実施形態の希望者データを含めたトピックモデルの再学習を行わない場合の運用時の処理の流れを示すフローチャートの図。The figure of the flowchart which shows the flow of processing at the time of operation when the topic model including the applicant data of the said embodiment is not relearned. 前記実施形態の希望者データを含めてトピックモデルの再学習を行う場合の運用時の処理の流れを示すフローチャートの図。The figure of the flowchart which shows the flow of the process at the time of operation at the time of re-learning a topic model including the applicant data of the said embodiment. 本発明の変形の形態の既存のマッチング対象者の中で特定目的のマッチングを行う場合の運用時の処理の流れを示すフローチャートの図。The figure of the flowchart which shows the flow of processing at the time of operation in the case of performing matching for a specific purpose in the existing matching target person of the modified form of this invention.

以下に本発明の一実施形態について図面を参照して説明する。図1には、本実施形態のマッチングシステム10の全体構成が示されている。このマッチングシステム10は、事業者(主として企業であるが、個人や、大学等の非営利団体でもよい。)に対し、ビジネスパートナー(産学連携を含む。)となる事業者を紹介するビジネスマッチングサービスを実施するためのシステムである。 An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 shows the overall configuration of the matching system 10 of the present embodiment. This matching system 10 is a business matching service that introduces a business partner (including industry-academia collaboration) to a business operator (mainly a company, but may be an individual or a non-profit organization such as a university). It is a system for implementing.

図2には、マッチング対象者データ記憶手段42に記憶されているマッチング対象者データの具体例が示され、図3には、結合テキストデータの作成からトピック分布の推定までのデータの具体例が示されている。また、図4には、マッチング用特徴データに含める合成変数の作成方法、図5には、運用時におけるマッチング用特徴データの作成方法、図6には、学習時におけるマッチング用特徴データの準備方法の説明がそれぞれ示されている。さらに、図7には、事前に行う学習処理の流れ、図8には、希望者データを含めたトピックモデルの再学習を行わない場合の運用時の処理の流れ、図9には、希望者データを含めてトピックモデルの再学習を行う場合の運用時の処理の流れがそれぞれフローチャートで示されている。 FIG. 2 shows a specific example of the matching target person data stored in the matching target person data storage means 42, and FIG. 3 shows a specific example of the data from the creation of the combined text data to the estimation of the topic distribution. It is shown. Further, FIG. 4 shows a method of creating synthetic variables to be included in the matching feature data, FIG. 5 shows a method of creating matching feature data during operation, and FIG. 6 shows a method of preparing matching feature data during learning. The explanation of each is shown. Further, FIG. 7 shows a flow of learning processing performed in advance, FIG. 8 shows a flow of processing during operation when the topic model including the applicant data is not relearned, and FIG. 9 shows the applicant. The flow charts show the flow of processing during operation when re-learning the topic model including data.

<マッチングシステム10の全体構成> <Overall configuration of matching system 10>

図1において、マッチングシステム10は、コンピュータにより構成され、本体20と、例えば液晶ディスプレイ等の表示手段70と、例えばマウスやキーボードやタッチパネル等の入力手段80とを備えている。 In FIG. 1, the matching system 10 is composed of a computer and includes a main body 20, a display means 70 such as a liquid crystal display, and an input means 80 such as a mouse, a keyboard, and a touch panel.

本体20は、マッチングに関する各種処理を実行する処理手段30と、この処理手段30による処理に必要となる各種データを記憶する希望者データ記憶手段41、マッチング対象者データ記憶手段42、不要語辞書記憶手段43、トピックモデル記憶手段44、単語重要度ベクトル記憶手段45、マッチングモデル記憶手段46、学習用データ記憶手段47、およびマッチング候補選定実績リスト記憶手段48とを備えて構成されている。 The main body 20 includes a processing means 30 that executes various processes related to matching, a desired person data storage means 41 that stores various data required for processing by the processing means 30, a matching target person data storage means 42, and unnecessary word dictionary storage. The means 43, the topic model storage means 44, the word importance vector storage means 45, the matching model storage means 46, the learning data storage means 47, and the matching candidate selection result list storage means 48 are included.

処理手段30は、入力受付手段31と、結合テキストデータ作成手段32と、トピック推定手段33と、希望者トピック値予測手段34と、単語重要度ベクトル算出手段35と、マッチング用特徴データ作成手段36と、マッチング処理手段37と、学習手段38と、学習用データ準備手段39とを含んで構成されている。 The processing means 30 includes an input receiving means 31, a combined text data creating means 32, a topic estimating means 33, a desired person topic value predicting means 34, a word importance vector calculating means 35, and a matching feature data creating means 36. , The matching processing means 37, the learning means 38, and the learning data preparation means 39.

ここで、処理手段30に含まれる各手段31〜39は、マッチングシステム10の本体20の内部に設けられた中央演算処理装置(CPU)、およびこのCPUの動作手順を規定する1つまたは複数のプログラムにより実現される。また、各記憶手段41〜48としては、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等を採用することができる。なお、希望者データ記憶手段41は、主メモリ上に形成されるだけでもよいが(揮発性メモリでもよいが)、スコアリング後には、希望者データは、新たに登録されるマッチング対象者データとして、それまでに登録されていたマッチング対象者データとともに、不揮発性メモリであるマッチング対象者データ記憶手段42に記憶されて登録される。従って、希望者データ記憶手段41と、マッチング対象者データ記憶手段42とは、説明の便宜上、別々の記憶手段として記載しているが、データ形式は同じであるため、同じ記憶手段にまとめてもよい。 Here, each of the means 31 to 39 included in the processing means 30 is a central processing unit (CPU) provided inside the main body 20 of the matching system 10, and one or a plurality of means defining the operation procedure of the CPU. Realized by the program. Further, as the storage means 41 to 48, for example, a hard disk drive (HDD), a solid state drive (SSD), or the like can be adopted. The applicant data storage means 41 may only be formed on the main memory (although it may be a volatile memory), but after scoring, the applicant data is used as newly registered matching target data. , Together with the matching target person data registered up to that point, it is stored and registered in the matching target person data storage means 42 which is a non-volatile memory. Therefore, the applicant data storage means 41 and the matching target person data storage means 42 are described as separate storage means for convenience of explanation, but since the data formats are the same, they can be combined into the same storage means. Good.

また、図1では、マッチングシステム10は、スタンドアロンの構成で記載されているが、ネットワークを介して通信を行うシステム構成としてもよい。サーバ・クライアント型のマッチングシステム10とする場合には、本体20を1台または複数台のサーバにより構成し、表示手段70および入力手段80は端末側に設けることができる。この際、ネットワークは、インターネットのような外部ネットワークでもよく、イントラネットやLAN等の内部ネットワークでもよく、それらの組合せでもよく、有線であるか、無線であるか、有線・無線の混在型であるかは問わない。端末は、主としてサービス担当者の端末となるが、マッチングの希望者が希望者データ(希望者の属性データ)を自分で直接に入力し、あるいはマッチングの結果(スコアリングの結果)を画面等で直接に参照する場合には、ネットワークをインターネットのような外部ネットワークとし、希望者(マッチング対象者)の端末を設置してもよい。また、システムの構築・維持・更新等の管理を行うシステム管理者の端末も設置することになる。 Further, although the matching system 10 is described in a stand-alone configuration in FIG. 1, it may be a system configuration in which communication is performed via a network. In the case of the server / client type matching system 10, the main body 20 may be composed of one or a plurality of servers, and the display means 70 and the input means 80 may be provided on the terminal side. At this time, the network may be an external network such as the Internet, an internal network such as an intranet or a LAN, or a combination thereof, and whether it is wired, wireless, or a mixture of wired and wireless. Does not matter. The terminal is mainly the terminal of the person in charge of service, but the applicant for matching directly inputs the applicant data (attribute data of the applicant), or the matching result (scoring result) is displayed on the screen or the like. In the case of direct reference, the network may be an external network such as the Internet, and the terminal of the desired person (matching target person) may be installed. In addition, a terminal for a system administrator who manages system construction, maintenance, and updates will also be installed.

<マッチングシステム10の詳細構成> <Detailed configuration of matching system 10>

<入力受付手段31の構成> <Structure of input receiving means 31>

入力受付手段31は、マッチングの希望者(マッチングサービスの提供を受ける依頼者)についての希望者データ(希望者の属性データ、図2参照)の入力を受け付け、希望者データ記憶手段41に記憶させる処理を実行するものである。希望者データの入力は、主として、サービス担当者が、入力手段80を操作し、希望者自身により記述された書類や、希望者から聞き取った情報に基づき行う。マッチングシステム10をネットワーク構成とする場合には、サービス担当者の端末から入力してもよく、希望者自身が操作する希望者の端末から入力してもよい。また、入力受付手段31は、別のコンピュータで入力されてUSBメモリやDVD等の記録媒体に記録されている希望者データを取り込み、希望者データ記憶手段41に記憶させる処理を実行してもよい。 The input receiving means 31 receives the input of the desired person data (attribute data of the desired person, see FIG. 2) for the matching requester (requester who receives the matching service), and stores the desired person data storage means 41. It executes the process. The input of the applicant data is mainly performed by the service person operating the input means 80 based on the documents described by the applicant himself or the information heard from the applicant. When the matching system 10 has a network configuration, it may be input from the terminal of the person in charge of service, or may be input from the terminal of the desired person operated by the desired person himself / herself. Further, the input receiving means 31 may execute a process of taking in the desired person data input by another computer and recorded in a recording medium such as a USB memory or a DVD and storing the desired person data in the desired person data storage means 41. ..

図2に示すように、希望者データは、それまでに(希望者によるマッチングの依頼前に)登録されているマッチング対象者データと同じデータ形式であり、入力受付手段31により新たに付与された案件番号(マッチング対象者の識別情報)と、自己業種(取扱商品)と、自己所在地と、年商と、少なくとも1つ(ここでは、一例として7つとする。)のニーズフラグと、希望業種(マッチング相手の業種)と、希望地域(マッチング相手の所在地)と、自己PR(自由記述形式のテキストデータ)と、ニーズ詳細(自由記述形式のテキストデータ)とを対応させたデータである。 As shown in FIG. 2, the applicant data has the same data format as the matching target person data registered so far (before the request for matching by the applicant), and is newly added by the input receiving means 31. Item number (identification information of matching target person), own industry (handled products), own location, annual sales, at least one (here, seven as an example) need flag, desired industry (here, seven) It is data that corresponds to the industry of the matching partner), the desired area (location of the matching partner), self-promotion (text data in free description format), and needs details (text data in free description format).

ここで、ニーズフラグは、ニーズの種類を示すデータ(該当するか否かの1,0のデータ)であり、図2では、一例として7個設けられているが、ニーズフラグの設置個数は任意であり、1つでも、複数でもよい。また、内容やその粗さの度合いの設定も任意であり、例えば、「売ります」というニーズフラグと、「買います」というニーズフラグとを設けてもよく、さらに細かく、例えば、「部品を売ります」、「材料を売ります」、「部品を買います」、「材料を買います」等のニーズフラグを設けてもよい。なお、例えば、「売ります」と「販売先を求めています」とは同じ内容であり、「買います」と「仕入れ先を求めています」も同じ内容であるため、表現上の相違は問題にならない。 Here, the needs flags are data indicating the types of needs (data of 1,0 whether or not they are applicable), and in FIG. 2, seven are provided as an example, but the number of needs flags installed is arbitrary. It may be one or a plurality. In addition, the content and the degree of roughness thereof can be set arbitrarily. For example, a need flag of "sell" and a need flag of "buy" may be provided, and more finely, for example, "sell parts". Needs flags such as "Masu", "Sell materials", "Buy parts", "Buy materials" may be set. For example, "sell" and "seek a supplier" have the same content, and "buy" and "seek a supplier" have the same content, so the difference in expression is a problem. do not become.

同様に、「弊社にて製造します」というニーズフラグと、「貴社で製造してください」というニーズフラグとを設けてもよく、さらに細かく、例えば、「部品を製造します」、「材料を製造します」、「部品を製造してください」、「材料を製造してください」等のニーズフラグを設けてもよい。その他には、例えば、「システムを構築します」、「システムの構築をお願いします」、「製品・商品を輸送します」、「製品・商品を輸送してください」、「広告を引き受けます」、「広告をお願いします」、「人材を派遣します」、「人材の派遣をお願いします」、「小売りします」、「小売店を求めています」、「全国展開を引き受けます」、「全国展開をお願いしたい」、「不動産を提供します」、「不動産の提供を求めています」、「サービスを提供します」、「サービスの提供を求めています」、「納品は当日または翌日です」、「納期は当日または翌日として欲しい」等のニーズフラグを設けることができる。また、「その他」というニーズフラグを設けてもよい。 Similarly, a need flag of "manufactured by us" and a need flag of "manufacture by your company" may be set, and more finely, for example, "manufacture parts" and "materials". Needs flags such as "manufacture", "manufacture parts", and "manufacture materials" may be provided. In addition, for example, "Build a system", "Please build a system", "Transport products / products", "Transport products / products", "Undertake advertising" , "Please advertise", "Dispatch human resources", "Please dispatch human resources", "Retail", "I am looking for a retail store", "I will undertake nationwide expansion" , "I want to expand nationwide", "I will provide real estate", "I want to provide real estate", "I will provide services", "I want to provide services", "Delivery will be on the same day or Needs flags such as "It's the next day" and "I want the delivery date to be the same day or the next day" can be set. In addition, a needs flag of "other" may be provided.

<結合テキストデータ作成手段32の構成> <Structure of Combined Text Data Creating Means 32>

結合テキストデータ作成手段32は、[α]結合テキストデータの作成処理と、[β]不要な記号やタグ等の除去処理と、[γ]形態素解析で単語に分解し、名詞のみを抽出する処理と、[δ]不要な単語の除去処理とを実行するものである。なお、[α]の処理を実行して得られたデータと、[α]〜[δ]の処理を実行して得られたデータとは、ともに結合テキストデータと呼ぶ。この際、[γ]の処理を経た後は、単語に分解された状態となるが、トピック推定を行ううえで、[α]の処理を実行して得られたデータと同等な情報を持ち合わせているので、説明の便宜上、結合テキストデータと呼ぶ。また、[δ]までの処理を経た結合テキストデータを特に区別して呼ぶときは、処理後の結合テキストデータと呼ぶ。 The combined text data creating means 32 is a process of creating [α] combined text data, [β] removing unnecessary symbols and tags, and [γ] decomposing into words by morphological analysis and extracting only nouns. And [δ] the process of removing unnecessary words is executed. The data obtained by executing the process of [α] and the data obtained by executing the processes of [α] to [δ] are both referred to as combined text data. At this time, after the processing of [γ], it is decomposed into words, but when estimating the topic, it has the same information as the data obtained by executing the processing of [α]. Therefore, for convenience of explanation, it is called combined text data. Further, when the combined text data that has undergone the processing up to [δ] is particularly distinguished and called, it is referred to as the combined text data after processing.

この結合テキストデータ作成手段32による[α]〜[δ]の処理は、希望者データを含めたトピックモデルの再学習を行わない場合(図8参照)の運用時の処理では、希望者データ記憶手段41に記憶されているマッチングの希望者についての希望者データ(希望者の属性データ、図2参照)を用いて実行される。得られた処理後の結合テキストデータは、希望者の識別情報(案件番号)と関連付けて、図示されない結合テキストデータ記憶手段または希望者データ記憶手段41に記憶させておいてもよい。この場合、トピックモデルの再学習を行わないので、希望者以外のマッチング対象者(希望者によるマッチングの依頼前から登録されているマッチング対象者)についての結合テキストデータは必要ないので、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者データを用いた上記[α]〜[δ]の処理は行われない。 In the processing of [α] to [δ] by the combined text data creating means 32, in the processing during operation when the topic model including the applicant data is not relearned (see FIG. 8), the applicant data is stored. It is executed using the applicant data (attribute data of the applicant, see FIG. 2) for the matching applicant stored in the means 41. The obtained combined text data after processing may be stored in the combined text data storage means or the desired person data storage means 41 (not shown) in association with the identification information (case number) of the applicant. In this case, since the topic model is not relearned, the combined text data for the matching target person other than the applicant (the matching target person registered before the matching request by the applicant) is not required, so the matching target person The processing of [α] to [δ] above using each matching target person data stored in the data storage means 42 is not performed.

一方、希望者データを含めてトピックモデルの再学習を行う場合(図9参照)の運用時の処理では、上記[α]〜[δ]の処理は、希望者データ記憶手段41に記憶されている希望者データ(希望者の属性データ、図2参照)を用いて実行されるだけではなく、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者データ(希望者によるマッチングの依頼前から登録されているマッチング対象者の属性データ、図2参照)を用いた上記[α]〜[δ]の処理も実行される。この場合、トピックモデルの再学習を行うので、双方の結合テキストデータが必要だからである。なお、事前の学習処理(希望者によるマッチングの依頼前における学習処理)でマッチング対象者データ記憶手段42に記憶されている各マッチング対象者データを用いて上記[α]〜[δ]の処理を実行して得られた処理後の結合テキストデータが保存されている場合には、その保存されている処理後の結合テキストデータを用いればよいので、運用時の処理で、上記[α]〜[δ]の処理を再度実行する必要はない。 On the other hand, in the operation-time processing when the topic model is relearned including the applicant data (see FIG. 9), the above processes [α] to [δ] are stored in the applicant data storage means 41. Not only is it executed using the desired person data (attribute data of the desired person, see FIG. 2), but also each matching target person data stored in the matching target person data storage means 42 (before the request for matching by the desired person). The above-mentioned processes [α] to [δ] using the attribute data of the matching target person registered from (see FIG. 2) are also executed. In this case, since the topic model is relearned, both combined text data are required. In addition, the above-mentioned processes [α] to [δ] are performed using each matching target person data stored in the matching target person data storage means 42 in the prior learning process (learning process before the request for matching by the desired person). When the combined text data after processing obtained by execution is saved, the saved combined text data after processing may be used. Therefore, in the processing at the time of operation, the above [α] to [ It is not necessary to execute the process of [δ] again.

また、事前の学習処理(希望者によるマッチングの依頼前における学習処理)においても、学習用データ準備手段39による指示を受けて、結合テキストデータ作成手段32による上記[α]〜[δ]の処理が実行される。この場合は、希望者によるマッチングの依頼前の時期であるので、希望者データ記憶手段41に記憶されている希望者データ(希望者の属性データ、図2参照)は、存在しない状態であることから、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者データを用いた上記[α]〜[δ]の処理だけが実行される。上述したように、この事前の学習処理で、上記[α]〜[δ]の処理を実行して得られた処理後の結合テキストデータは、保存しておいてもよい。例えば、得られた処理後の結合テキストデータを、マッチング対象者の識別情報(案件番号)と関連付けて、図示されない結合テキストデータ記憶手段またはマッチング対象者データ記憶手段42に記憶させておいてもよい。なお、本願では、学習は、希望者によるマッチングの依頼後に行われる再学習(希望者データを含めた再学習)と、希望者によるマッチングの依頼前に行われる通常の学習(希望者データが存在しない段階での学習)とがあり、特にこれらを区別するときには、前者の学習を、運用時の学習(再学習)と呼び、後者の学習を、事前の学習と呼ぶものとする。 Further, also in the prior learning process (learning process before the request for matching by the applicant), the above-mentioned [α] to [δ] processes by the combined text data creating means 32 are received by the learning data preparing means 39. Is executed. In this case, since it is the time before the request for matching by the applicant, the applicant data (attribute data of the applicant, see FIG. 2) stored in the applicant data storage means 41 does not exist. Therefore, only the above-mentioned processes [α] to [δ] using each matching target person data stored in the matching target person data storage means 42 are executed. As described above, the combined text data after the processing obtained by executing the above-mentioned processes [α] to [δ] in this prior learning process may be saved. For example, the obtained combined text data after processing may be associated with the identification information (case number) of the matching target person and stored in the combined text data storage means or the matching target person data storage means 42 (not shown). .. In the present application, the learning includes re-learning performed after the request for matching by the applicant (re-learning including the applicant data) and normal learning performed before the request for matching by the applicant (there is the applicant data). There is learning at the stage where it is not done), and especially when distinguishing between them, the former learning is called operational learning (re-learning), and the latter learning is called prior learning.

[α]結合テキストデータの作成処理では、結合テキストデータ作成手段32は、図2に示すように、希望者データや各マッチング対象者データを構成する自己業種(取扱商品)および自己PR(自由記述形式のテキストデータ)を合わせたテキストデータからなる自己データと、希望業種(マッチング相手の業種)およびニーズ詳細(自由記述形式のテキストデータ)を合わせたテキストデータからなるニーズデータとを結合することにより、結合テキストデータを作成する。得られた結合テキストデータは、1つの文書データとして取り扱われる。 [Α] In the combined text data creation process, as shown in FIG. 2, the combined text data creating means 32 comprises a self-industry (handling product) and a self-PR (free description) that constitute the applicant data and each matching target person data. By combining self-data consisting of text data (text data in format) and needs data consisting of text data including desired industry (industry of matching partner) and needs details (text data in free description format). , Create combined text data. The obtained combined text data is treated as one document data.

この際、結合テキストデータ作成手段32は、図3に示すように、句点(。)を挟んで自己業種、自己PR(自由記述形式)、希望業種、ニーズ詳細(自由記述形式)を結合する。なお、ここでは、自己業種を含めて自己データとし、希望業種を含めてニーズデータとしているが、自己業種を含めずに自己PR(自由記述形式)だけを自己データとしてもよく、希望業種を含めずにニーズ詳細(自由記述形式)だけをニーズデータとしてもよい。 At this time, as shown in FIG. 3, the combined text data creating means 32 combines the self-industry, the self-PR (free description format), the desired industry, and the needs details (free description format) with the punctuation mark (.) In between. Here, the self-data includes the self-industry and the needs data includes the desired industry. However, only the self-PR (free description format) may be used as the self-data without including the self-industry, and the desired industry is included. Instead, only the needs details (free description format) may be used as the needs data.

また、結合テキストデータ作成手段32により作成する結合テキストデータは、テキストデータであるから、自己業種や希望業種が選択式の記号や番号(1,2,…等)になっている場合には、それらの業種をテキストデータ(電機、建築・土木、IT、…等)に変換してから結合する。一方、自己業種や希望業種が自由記述形式になっているか、あるいはマッチングサービス提供者側で予め用意した業種の中から選択した業種をテキストで記述するようになっている場合には、既にテキストデータになっているので、そのまま結合することができる。 Further, since the combined text data created by the combined text data creating means 32 is text data, if the own industry or the desired industry is a selectable symbol or number (1, 2, ..., etc.), Convert those industries into text data (electrical, construction / civil engineering, IT, etc.) and then combine them. On the other hand, if your own industry or desired industry is in a free description format, or if the industry selected from the industries prepared in advance by the matching service provider is described in text, the text data is already available. Since it is, it can be combined as it is.

さらに、マッチングサービス提供者側で予め用意した業種の中から選択した業種(記号や番号で選択指定されているか、テキストで記述されているかは問わない。)と、マッチング対象者が自由記述形式で記述した業種とが併用されている場合(予め用意された業種の中に、該当する業種が無いときに、該当する業種を自由記述形式で記述するようになっている場合)には、自由記述形式で記述した業種だけを、自己データやニーズデータに含めてもよい。このようにする場合は、自由記述形式で記述した自己業種や希望業種だけが、自己PR(自由記述形式)やニーズ詳細(自由記述形式)と同等な情報であると考えていることになる。 Furthermore, the industry selected from the industries prepared in advance by the matching service provider (regardless of whether it is selected and specified by a symbol or number or described in text) and the matching target person are in a free description format. If the described industry is used together (when there is no applicable industry among the prepared industries, the corresponding industry is described in the free description format), free description Only the type of industry described in the format may be included in the self-data and needs data. In this case, it is considered that only the self-industry and the desired industry described in the free description format are the same information as the self PR (free description format) and the needs details (free description format).

そして、図2および図3での図示は省略されているが、自由記述形式の「その他」の欄がある場合には、「その他」の欄に記述されたテキストデータを、自己PR(自由記述形式)やニーズ詳細(自由記述形式)と同等な情報であると考え、それも結合して結合テキストデータに含めるようにしてもよい。 Although the illustrations in FIGS. 2 and 3 are omitted, if there is a free description format "other" column, the text data described in the "other" column is self-promoted (free description). The information may be considered to be equivalent to the format) and needs details (free description format), and may be combined and included in the combined text data.

[β]不要な記号やタグ等の除去処理では、結合テキストデータ作成手段32は、[α]の処理で得られた結合テキストデータから、例えば、☆、<br>等を削除する。 [Β] In the process of removing unnecessary symbols, tags, etc., the combined text data creating means 32 deletes, for example, ☆, <br>, etc. from the combined text data obtained in the process of [α].

[γ]形態素解析で単語に分解し、名詞のみを抽出する処理では、結合テキストデータ作成手段32は、図3に示すように、先ず、[β]の処理で得られた結合テキストデータを用いて形態素解析を実行し、結合テキストデータを単語に分解(分割)し、分かち書きにする。この形態素解析は、既存の解析ツールを利用して実行することができる。 In the process of decomposing into words by [γ] morphological analysis and extracting only nouns, the combined text data creating means 32 first uses the combined text data obtained in the process of [β] as shown in FIG. Morphological analysis is performed, and the combined text data is decomposed (divided) into words and divided into words. This morphological analysis can be performed using existing analysis tools.

この際、形態素解析用に、単語や類義語の辞書を作成し、図示されない単語辞書記憶手段や類義語辞書記憶手段に記憶しておいてもよい。単語辞書には、例えば「イヤホン」、「インスタグラム」、「オーガニック」等、既存の解析ツールの辞書に含まれていない単語を登録する。また、類義語辞書には、例えば「バッテリー」、「バッテリ」等の表記のゆれ単語を登録する。 At this time, a dictionary of words and synonyms may be created for morphological analysis and stored in a word dictionary storage means or a synonym dictionary storage means (not shown). In the word dictionary, words that are not included in the dictionary of existing analysis tools such as "earphone", "Instagram", and "organic" are registered. Further, in the synonym dictionary, for example, swaying words such as "battery" and "battery" are registered.

[δ]不要な単語の除去処理では、結合テキストデータ作成手段32は、単語の絞り込みを行う。先ず、単語の品詞や出現回数に基づいて、単語をフィルタリングする。具体的には、名詞の一部(例えば「一般」、「サ変接続」等)だけを残し、他の単語は捨てる。また、全ての結合テキストデータ(全てのマッチング対象者の結合テキストデータ)の集合において、出現回数が、例えば3回未満の単語は捨てる。各単語と出現回数との関係は、図示されない単語出現回数記憶手段に記憶されている。従って、新しいマッチング対象者としての希望者の結合テキストデータが増えた場合には、そこに含まれる単語の出現回数が加算されるので、例えば3回という閾値を超える場合もあり、これにより、捨てられていた単語が活かされるようになる場合もある。また、新しいマッチング対象者としての希望者の結合テキストデータが増えた場合に、その結合テキストデータに全く新出の単語が現れ、その出現回数が、例えば3回という閾値を超えていれば、その新出の単語は、捨てられる単語ではなく、活かされる単語となる。 [Δ] In the unnecessary word removal process, the combined text data creating means 32 narrows down the words. First, the words are filtered based on the part of speech and the number of occurrences of the words. Specifically, only a part of the noun (for example, "general", "sahen connection", etc.) is left, and other words are discarded. In addition, in a set of all combined text data (combined text data of all matching targets), words whose number of occurrences is less than 3, for example, are discarded. The relationship between each word and the number of occurrences is stored in a word appearance number storage means (not shown). Therefore, when the combined text data of the applicant as a new matching target person increases, the number of occurrences of the words contained therein is added, so that the threshold value of, for example, 3 times may be exceeded, thereby discarding. In some cases, the words that have been used will be put to good use. In addition, when the combined text data of the applicant as a new matching target person increases, a completely new word appears in the combined text data, and if the number of appearances exceeds the threshold value of, for example, 3 times, that is the case. New words are not discarded words, but utilized words.

次に、結合テキストデータ作成手段32は、不要語辞書記憶手段43に記憶されている不要語(ノイズ単語)を排除する。具体的には、例えば、「企業」、「ニーズ」、「サポート」等のような業種に関係なく出現すると考えられる単語は、不要語として排除する。また、例えば、「京都」、「関東」、「東日本」等の国内の地名は、不要語として排除する。但し、例えば、「欧州」、「中国」、「大連」等、海外の地名は残しておく。不要語として登録する単語は、例えば、1,000〜2,000単語等である。 Next, the combined text data creating means 32 eliminates unnecessary words (noise words) stored in the unnecessary word dictionary storage means 43. Specifically, for example, words that are considered to appear regardless of the type of business, such as "company", "needs", and "support", are excluded as unnecessary words. In addition, for example, domestic place names such as "Kyoto", "Kanto", and "Eastern Japan" are excluded as unnecessary words. However, overseas place names such as "Europe", "China", and "Dalian" are left. The word to be registered as an unnecessary word is, for example, 1,000 to 2,000 words.

図3の例では、結合テキストデータ作成手段32による以上の[α]〜[δ]の処理を経た後に残る単語は、先頭から順番に、「飲食」、「店舗」、「酒類」、「ブランド」、「飲食」、「食品」、「酒類」、「食品」、「ブランド」、「泡盛」、…となる。従って、図3に示すように、残った各単語とそれらの出現回数との関係が得られ、この関係が、トピック推定を行うために必要な情報となる。すなわち、1つの文書データとして取り扱われる結合テキストデータ(i=00001234)における各単語の出現回数となる。i=00001234は、案件番号であり、マッチング対象者の識別情報であるとともに、結合テキストデータ(文書データ)の番号でもある。案件番号は、連続番号である必要はないが(飛び飛びの番号でもよいが)、次のトピック推定の説明も含め、ここでは、説明の便宜上、番号は、詰めて考えることにする。 In the example of FIG. 3, the words remaining after the above processing of [α] to [δ] by the combined text data creating means 32 are, in order from the beginning, “food and drink”, “store”, “liquor”, and “brand”. , "Food", "Food", "Alcoholic beverages", "Food", "Brand", "Awamori", and so on. Therefore, as shown in FIG. 3, a relationship between each remaining word and the number of times they appear is obtained, and this relationship becomes information necessary for performing topic estimation. That is, it is the number of occurrences of each word in the combined text data (i = 00001234) treated as one document data. i = 00001234 is a matter number, identification information of a matching target person, and a number of combined text data (document data). The matter numbers do not have to be consecutive numbers (although they may be discrete numbers), but for the sake of explanation, the numbers will be packed together here, including the explanation of the next topic estimation.

<トピック推定手段33の構成> <Structure of topic estimation means 33>

トピック推定手段33は、希望者データを含めてトピックモデルの再学習を行う場合(図9参照)に、結合テキストデータ作成手段32により作成された希望者を含む多数のマッチング対象者の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルで、ギブスサンプリング等を行うことにより、希望者を含む各マッチング対象者の結合テキストデータ(i)における各トピックの出現確率を示すトピック値(縦ベクトルπ(i))、および、各トピックにおける各単語の出現確率(行列β)を求めるトピック推定処理を実行し、このトピック推定処理で得られたπ(i)およびβを、トピックモデルとしてトピックモデル記憶手段44に記憶させる処理を実行するものである。 When the topic estimation means 33 retrains the topic model including the applicant data (see FIG. 9), the combined text data of a large number of matching target persons including the applicant created by the combined text data creating means 32. A topic value (vertical vector π (vertical vector π (vertical vector π)) indicating the appearance probability of each topic in the combined text data (i) of each matching target person including the applicant by performing Gibbs sampling or the like by soft clustering or a neural language model. i)) and the topic estimation process for obtaining the appearance probability (matrix β) of each word in each topic are executed, and the topic model storage means using π (i) and β obtained by this topic estimation process as a topic model. The process of storing in 44 is executed.

但し、希望者データを含めてトピックモデルの再学習を行う場合(図9参照)の運用時の処理では、各トピックにおける各単語の出現確率(行列β)は使用しない。 However, the appearance probability (matrix β) of each word in each topic is not used in the operation processing when the topic model is relearned including the applicant data (see FIG. 9).

また、図7に示す事前の学習処理(希望者によるマッチングの依頼前における学習処理)においても、学習用データ準備手段39による指示を受けて、トピック推定手段33によるトピック推定処理が実行され、各結合テキストデータ(i)における各トピックの出現確率を示すトピック値(縦ベクトルπ(i))、および、各トピックにおける各単語の出現確率(行列β)が求められ、このトピック推定処理で得られたπ(i)およびβが、トピックモデルとしてトピックモデル記憶手段44に記憶される。この事前の学習処理では、希望者データは存在せず、従って、希望者の結合テキストデータは作成されないので、結合テキストデータ作成手段32により作成された多数の既登録のマッチング対象者の結合テキストデータを用いて、トピック推定処理が実行される。 Further, also in the preliminary learning process shown in FIG. 7 (learning process before the request for matching by the applicant), the topic estimation process by the topic estimation means 33 is executed in response to the instruction by the learning data preparation means 39, and each of them is executed. The topic value (vertical vector π (i)) indicating the appearance probability of each topic in the combined text data (i) and the appearance probability (matrix β) of each word in each topic are obtained and obtained by this topic estimation process. Π (i) and β are stored in the topic model storage means 44 as a topic model. In this pre-learning process, the applicant data does not exist, and therefore the combined text data of the applicant is not created. Therefore, the combined text data of a large number of registered matching target persons created by the combined text data creating means 32. The topic estimation process is executed using.

トピック推定処理を実行する際のソフトクラスタリングまたはニューラル言語モデルについては、本実施形態では、一例として、レイテント・ディリクレ・アロケーション(LDA:Latent Dirichlet Allocation、潜在的ディリクレ配分法)を採用する。なお、ここでいうニューラル言語モデルの「モデル」は、アルゴリズムおよびパラメータを含めた概念であり、一方、トピックモデル記憶手段44に記憶されるトピックモデルの「モデル」は、学習結果として得られるパラメータ(学習結果データ)を指す概念である。従って、図1に示すように、アルゴリズムにより実現されるトピック推定手段33および希望者トピック値予測手段34と、トピックモデルを記憶するトピックモデル記憶手段44とにより、推定器50が構成されている。 Regarding the soft clustering or neural language model when executing the topic estimation process, in this embodiment, as an example, Latent Dirichlet Allocation (LDA: Latent Dirichlet Allocation) is adopted. The "model" of the neural language model referred to here is a concept including an algorithm and parameters, while the "model" of the topic model stored in the topic model storage means 44 is a parameter (a parameter obtained as a learning result). It is a concept that refers to learning result data). Therefore, as shown in FIG. 1, the estimator 50 is composed of the topic estimation means 33 and the desired topic value prediction means 34 realized by the algorithm, and the topic model storage means 44 for storing the topic model.

また、レイテント・ディリクレ・アロケーション(LDA)の他には、例えば、ファジー・Cミーンズ(Fuzzy c-means)、混合分布モデル、非負値行列因子分解(NMF:Non-negative Matrix Factorization)、pLSI(probabilistic Latent Semantic Indexing)、Doc2Vec、SCDV(Sparse Compose Document Vecotors)等を採用することができる。例えば、Doc2Vecを実装する場合には、既存のGensimと呼ばれるライブラリを用いることができる。 In addition to Latent Dirichlet Allocation (LDA), for example, Fuzzy c-means, mixture distribution model, non-negative Matrix Factorization (NMF), pLSI (probabilistic). Latent Semantic Indexing), Doc2Vec, SCDV (Sparse Compose Document Vecotors) and the like can be adopted. For example, when implementing Doc2Vec, an existing library called Gensim can be used.

ここで、各結合テキストデータ(i)における各トピックの出現確率を示すトピック値は、図7および図9に示すように、K次元の縦ベクトルπ(i)であり、本願では、これをトピック分布と呼んでいる。iは文書番号であり、i=1〜nのとき、nは文書数であるが、この文書数nは、本発明では、結合テキストデータの数(すなわち、マッチング対象者の数)に相当し、本実施形態のビジネスマッチングでは、登録企業数に相当し、例えば、n=約10万社等である。Kはトピック数であり、システムの構築者が指定する。従って、トピック分布は、トピック番号=1〜Kの各トピック値π(i,1),π(i,2),π(i,3),…,π(i,K)により構成される。例えば、本実施形態のビジネスマッチングでは、トピックとして20業種を想定し、K=20等とすることができる。但し、トピック数Kは20に限定されるものではなく、また、トピックとして必ずしも業種を想定しなければならないわけではなく、本実施形態がビジネスマッチングであるから、最も容易に当て嵌めて考えることができる業種を想定してシステム設計を行っているに過ぎない。 Here, the topic value indicating the appearance probability of each topic in each combined text data (i) is a K-dimensional vertical vector π (i) as shown in FIGS. 7 and 9, and this is used as a topic in the present application. We call it the distribution. i is a document number, and when i = 1 to n, n is the number of documents. In the present invention, the number of documents n corresponds to the number of combined text data (that is, the number of matching targets). In the business matching of the present embodiment, it corresponds to the number of registered companies, for example, n = about 100,000 companies. K is the number of topics and is specified by the system builder. Therefore, the topic distribution is composed of each topic value π (i, 1), π (i, 2), π (i, 3), ..., Π (i, K) of the topic number = 1 to K. For example, in the business matching of the present embodiment, 20 industries can be assumed as topics, and K = 20 or the like can be set. However, the number of topics K is not limited to 20, and it is not always necessary to assume an industry as a topic. Since this embodiment is business matching, it is easiest to apply and think about it. The system is only designed assuming the industries that can be used.

また、各トピックにおける各単語の出現確率は、図7および図9に示すように、K行p列の行列βで表すことができる。Kはトピック数である。pは単語数であり、例えば、p=約3,000語等である。 Further, the appearance probability of each word in each topic can be represented by a matrix β of K rows and p columns, as shown in FIGS. 7 and 9. K is the number of topics. p is the number of words, for example, p = about 3,000 words.

図3に示すように、1つの文書データとして取り扱われる結合テキストデータ(i=00001234)から直接に得られる情報は、その結合テキストデータに含まれる各単語とそれらの出現回数との関係を示すデータである。そして、各単語の出現回数が判れば、それぞれの単語の出現回数を、全ての単語の出現回数の和で除することにより、ある1つの結合テキストデータにおける各単語の出現確率が判るので、これが既知の情報となる。トピック推定手段33は、多数の結合テキストデータのそれぞれにおける各単語とそれらの出現回数との関係を示すデータを既知の情報として、それらの既知の情報を用いて、ギブスサンプリング等を行うことにより、各結合テキストデータ(i)におけるトピック分布π(i)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)、および、各トピックにおける各単語の出現確率(K行p列の行列β)を求める。なお、K行p列の行列βと、K次元の縦ベクトルで示されるトピック分布π(i)とが得られているときに、結合テキストデータ(i)における各単語(1〜p番目の単語)の出現確率を算出するには、行列βの転置行列(p行K列)と、トピック分布π(i)(K次元の縦ベクトル)とを、この順で掛ける演算を行うことになる。 As shown in FIG. 3, the information directly obtained from the combined text data (i = 00001234) treated as one document data is data showing the relationship between each word included in the combined text data and the number of times they appear. Is. Then, if the number of occurrences of each word is known, the probability of occurrence of each word in a certain combined text data can be found by dividing the number of occurrences of each word by the sum of the number of occurrences of all words. It becomes known information. The topic estimation means 33 uses data indicating the relationship between each word and the number of occurrences of each word in each of a large number of combined text data as known information, and Gibbs sampling or the like is performed using the known information. The topic distribution π (i) in each combined text data (i) (topic value indicating the appearance probability of each topic of topic number = 1 to K) and the appearance probability of each word in each topic (matrix of K rows and p columns). β) is calculated. When the matrix β of K rows and p columns and the topic distribution π (i) represented by the K-dimensional vertical vector are obtained, each word (1st to pth words) in the combined text data (i) is obtained. ) Appearance probability is calculated by multiplying the transposed matrix of the matrix β (p rows and K columns) and the topic distribution π (i) (K-dimensional vertical vector) in this order.

<希望者トピック値予測手段34の構成> <Structure of Applicant Topic Value Predicting Means 34>

希望者トピック値予測手段34は、希望者データを含めたトピックモデルの再学習を行わない場合(図8参照)に、結合テキストデータ作成手段32により作成した希望者の処理後の結合テキストデータ、および、トピックモデル記憶手段44に記憶されている各トピックにおける各単語の出現確率(K行p列の行列β)を用いて、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値(K次元の縦ベクトルπ(i)で表されるトピック分布)を予測する処理を実行するものである。 When the desired person topic value predicting means 34 does not relearn the topic model including the desired person data (see FIG. 8), the combined text data after processing of the desired person created by the combined text data creating means 32, And, using the appearance probability of each word in each topic stored in the topic model storage means 44 (matrix β of K rows and p columns), a topic value (topic value) indicating the appearance probability of each topic in the combined text data of the applicant. The process of predicting the topic distribution represented by the K-dimensional vertical vector π (i)) is executed.

ここでは、図3に示すように、希望者の結合テキストデータにおける各単語とそれらの出現回数との関係(すなわち、1つの文書データとして取り扱われる希望者の結合テキストデータにおける各単語の出現確率)と、各トピック(トピック番号=1〜K)における各単語(1〜p番目の単語)の出現確率(K行p列の行列β)とが既知の情報である。従って、希望者トピック値予測手段34は、これらの既知の情報から、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値(K次元の縦ベクトルπ(i)で表されるトピック分布)を予測する。 Here, as shown in FIG. 3, the relationship between each word in the combined text data of the applicant and the number of occurrences thereof (that is, the appearance probability of each word in the combined text data of the applicant treated as one document data). And the appearance probability (matrix β of K rows and p columns) of each word (1st to pth words) in each topic (topic number = 1 to K) is known information. Therefore, the applicant topic value prediction means 34 uses the known information as a topic value indicating the appearance probability of each topic in the combined text data of the applicant (topic distribution represented by the K-dimensional vertical vector π (i)). ) Predict.

なお、希望者の結合テキストデータの中に、各トピックにおける各単語の出現確率(K行p列の行列β)として用意されている各単語(1〜p番目の単語)に含まれない新出の単語が存在する場合には、その新出の単語を含めた予測は行うことができないので、その新出の単語は無いものとして、希望者の結合テキストデータにおけるトピック分布の予測を行う。従って、この新出の単語の情報は、その後に行われるトピック推定手段33によるトピック推定処理で、トピックモデル記憶手段44に記憶されるトピックモデルに反映されることになる。 In addition, in the combined text data of the applicant, a new word that is not included in each word (1st to pth words) prepared as the appearance probability of each word in each topic (matrix β of K rows and p columns) If the word is present, the prediction including the new word cannot be performed. Therefore, assuming that the new word does not exist, the topic distribution in the combined text data of the applicant is predicted. Therefore, the information of this newly-developed word is reflected in the topic model stored in the topic model storage means 44 in the topic estimation process performed by the topic estimation means 33 after that.

<単語重要度ベクトル算出手段35の構成> <Structure of word importance vector calculation means 35>

単語重要度ベクトル算出手段35は、希望者を含む各マッチング対象者の結合テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを算出し、得られた単語重要度ベクトルを、マッチング対象者(希望者を含む)の識別情報と関連付けて単語重要度ベクトル記憶手段45に記憶させる処理を実行するものである。なお、単語重要度ベクトルの算出に用いる結合テキストデータは、結合テキストデータ作成手段32による[δ]までの処理を経た後に残った単語の集合である。 The word importance vector calculation means 35 calculates a word importance vector consisting of a TFIDF value of each word or other word importance index values for the combined text data of each matching target including the applicant, and obtains the word. The process of associating the importance vector with the identification information of the matching target person (including the applicant) and storing it in the word importance vector storage means 45 is executed. The combined text data used for calculating the word importance vector is a set of words remaining after the processing up to [δ] by the combined text data creating means 32.

ここで、単語重要度指標値は、本実施形態では、一例として、TFIDF値を採用しているが、これに限定されるものではなく、例えば、Okapi−BM25等でもよい。なお、TF(Term Frequency)は、文書(ここでは、結合テキストデータ)における単語の出現頻度であり、ある1つの結合テキストデータにおける各単語の出現回数を、その結合テキストデータにおける全単語の出現回数の和で除した値である。IDF(Inverse Document Frequency)は、逆文書頻度であり、全文書数(ここでは、結合テキストデータの総数)を、各単語を含む結合テキストデータの数で除した値についてロガリズム(log)をとった値である。 Here, the word importance index value adopts the TFIDF value as an example in the present embodiment, but is not limited to this, and may be, for example, Okapi-BM25 or the like. The TF (Term Frequency) is the frequency of appearance of words in a document (here, combined text data), and the number of occurrences of each word in a certain combined text data is the number of appearances of all words in the combined text data. It is the value divided by the sum of. IDF (Inverse Document Frequency) is the inverse document frequency, and the logarithm is taken for the value obtained by dividing the total number of documents (here, the total number of combined text data) by the number of combined text data including each word. The value.

単語重要度ベクトルは、単語数をpとすると、p次元のベクトルであり、例えば、p=約3,000語等であれば、約3,000次元のベクトルとなる。この単語重要度ベクトルは、正規化(例えば、L2ノルム正規化)の処理を行っておくことが好ましい。 The word importance vector is a p-dimensional vector when the number of words is p. For example, when p = about 3,000 words, it is a vector of about 3,000 dimensions. It is preferable that this word importance vector is subjected to normalization (for example, L2 norm normalization) processing.

<マッチング用特徴データ作成手段36の構成> <Structure of feature data creating means 36 for matching>

マッチング用特徴データ作成手段36は、図2に示すように、結合テキストデータにおけるトピック分布π(i)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)と、結合テキストデータについての単語重要度ベクトル(本実施形態では、一例として、TFIDFベクトルとする。)と、希望者および各候補者についてのニーズフラグや年商とを用いて、マッチング処理手段37およびマッチングモデル記憶手段46からなる識別器60への入力データとなるマッチング用特徴データを作成する処理を実行するものである。但し、図2の下部に記載されているのは、マッチングの希望者と候補者とからなるペアのうちの一方の側のマッチング用特徴データであり、合成変数を作成する前の状態のマッチング用特徴データである。 As shown in FIG. 2, the matching feature data creating means 36 describes the topic distribution π (i) (topic value indicating the appearance probability of each topic of topic number = 1 to K) in the combined text data and the combined text data. Matching processing means 37 and matching model storage means 46 using the word importance vector (in the present embodiment, a TFIDF vector is used as an example) and the needs flags and annual sales for the applicant and each candidate. It executes a process of creating matching feature data which is input data to the classifier 60. However, what is described in the lower part of FIG. 2 is the matching feature data on one side of the pair consisting of the matching applicant and the candidate, and is for matching in the state before the composite variable is created. It is feature data.

より詳細には、マッチング用特徴データ作成手段36は、希望者データを含めたトピックモデルの再学習を行わない場合(図8参照)の運用時の処理では、希望者トピック値予測手段34により求めた希望者の結合テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)と、トピックモデル記憶手段44に記憶されている各候補者の結合テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)と、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている希望者および各候補者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)と、希望者データ記憶手段41に記憶されている希望者データに含まれるニーズフラグや年商と、マッチング対象者データ記憶手段42に記憶されている各候補者のマッチング対象者データに含まれるニーズフラグや年商とを用いて、図5に示すように、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する。 More specifically, the matching feature data creating means 36 is obtained by the desired person topic value predicting means 34 in the operation operation when the topic model including the desired person data is not retrained (see FIG. 8). Topic distribution in the combined text data of the applicant (topic value indicating the appearance probability of each topic) and topic distribution in the combined text data of each candidate stored in the topic model storage means 44 (appearance probability of each topic) The word importance vector (TFIDF vector, etc.) for the combined text data of the applicant and each candidate calculated by the word importance vector calculation means 35 and stored in the word importance vector storage means 45. The needs flags and annual sales included in the applicant data stored in the applicant data storage means 41, and the needs included in the matching target person data of each candidate stored in the matching target person data storage means 42. Using flags and annual sales, as shown in FIG. 5, matching feature data for a plurality of pairs consisting of applicants and each candidate is created.

また、マッチング用特徴データ作成手段36は、希望者データを含めてトピックモデルの再学習を行う場合(図9参照)の運用時の処理では、トピック推定手段33によるトピック推定処理で得られてトピックモデル記憶手段44に記憶されている希望者および各候補者の結合テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)と、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている希望者および各候補者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)と、希望者データ記憶手段41に記憶されている希望者データに含まれるニーズフラグや年商と、マッチング対象者データ記憶手段42に記憶されている各候補者のマッチング対象者データに含まれるニーズフラグや年商とを用いて、図5に示すように、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する。 Further, the matching feature data creating means 36 is obtained by the topic estimation process by the topic estimation means 33 in the operation operation when the topic model is relearned including the applicant data (see FIG. 9). The topic distribution (topic value indicating the appearance probability of each topic) in the combined text data of the applicant and each candidate stored in the model storage means 44, and the word importance vector calculated by the word importance vector calculation means 35. A word importance vector (TFIDF vector, etc.) for the combined text data of the applicant and each candidate stored in the storage means 45, and a needs flag included in the applicant data stored in the applicant data storage means 41. As shown in FIG. 5, the applicant and each candidate are used by using the annual sales and the needs flag and the annual sales included in the matching target data of each candidate stored in the matching target data storage means 42. Create matching feature data for multiple pairs of people.

さらに、マッチング用特徴データ作成手段36は、図7に示す事前の学習処理(希望者によるマッチングの依頼前における学習処理)においても、学習用データ準備手段39による指示を受けて、マッチング用特徴データを作成する。この際、図7に示す事前の学習処理では、希望者によるマッチングの依頼前の段階であるため、希望者は存在しないことから、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成するのではなく、図6に示すように、学習用データとして、多数のマッチング対象者のペア(学習であるから、希望者と候補者とに相当するペア)についてのマッチング用特徴データを作成するが、この詳細については、図7を用いて後述する。具体的には、マッチング用特徴データ作成手段36は、図7に示す事前の学習処理では、トピック推定手段33によるトピック推定処理で得られてトピックモデル記憶手段44に記憶されている各マッチング対象者の結合テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)と、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている各マッチング対象者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)と、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者のマッチング対象者データに含まれるニーズフラグや年商とを用いて、多数のマッチング対象者のペアについてのマッチング用特徴データを作成する。 Further, the matching feature data creating means 36 also receives an instruction from the learning data preparation means 39 in the prior learning process (learning process before the request for matching by the applicant) shown in FIG. 7, and the matching feature data To create. At this time, in the pre-learning process shown in FIG. 7, since there is no applicant because it is a stage before the request for matching by the applicant, it is for matching for a plurality of pairs consisting of the applicant and each candidate. As shown in FIG. 6, instead of creating feature data, matching features for a large number of matching target pair (a pair corresponding to a candidate and a candidate because it is learning) as learning data. Data will be created, the details of which will be described later with reference to FIG. Specifically, in the prior learning process shown in FIG. 7, the matching feature data creating means 36 is obtained by the topic estimation process by the topic estimation means 33 and stored in the topic model storage means 44. The topic distribution (topic value indicating the appearance probability of each topic) in the combined text data of the above, and the combined text of each matching target person calculated by the word importance vector calculation means 35 and stored in the word importance vector storage means 45. A large number of words are used for the word importance vector (TFIDF vector, etc.) for the data, and the needs flags and annual sales included in the matching target person data of each matching target person stored in the matching target person data storage means 42. Create matching feature data for a pair of matching targets.

また、図2では、各案件番号(マッチング対象者の識別情報)についてのマッチング用特徴データ(但し、図2は合成変数を作成する前の状態)は、トピック分布と、単語重要度ベクトル(例えばTFIDFベクトル等)と、ニーズフラグと、年商とで構成されているが、図2中の二点鎖線で示すように、単語重要度ベクトル、ニーズフラグ、年商は、マッチング用特徴データの作成に必須のものではなく、使用しないという選択もできる。また、図2での図示は省略されているが、マッチング用特徴データの作成に、文書長を使用してもよい。この文書長としては、例えば、結合テキストデータ作成手段32による[α]結合テキストデータの作成処理を行った状態、または[β]不要な記号やタグ等の除去処理を行った状態の結合テキストデータの文字数(すなわち、[γ]の形態素解析で単語に分解される前の状態の結合テキストデータの文字数)、あるいは、[δ]までの処理を経た状態の処理後の結合テキストデータの単語の総数等を用いることができる。 Further, in FIG. 2, the matching feature data (however, FIG. 2 shows the state before creating the composite variable) for each matter number (identification information of the matching target person) is the topic distribution and the word importance vector (for example,). It is composed of a TFIDF vector, etc.), a needs flag, and an annual sales. As shown by the two-point chain line in FIG. 2, the word importance vector, the needs flag, and the annual sales are used to create matching feature data. It is not essential for you, and you can choose not to use it. Further, although the illustration in FIG. 2 is omitted, the document length may be used for creating the matching feature data. The document length is, for example, the combined text data in a state in which [α] combined text data is created by the combined text data creating means 32, or [β] is processed in which unnecessary symbols, tags, etc. are removed. (That is, the number of characters in the combined text data before being decomposed into words by the morphological analysis of [γ]), or the total number of words in the combined text data after processing up to [δ]. Etc. can be used.

さらに、図4に示すように、マッチング用特徴データの作成では、合成変数を含めることが、適切なスコアリングを行ううえで効果的である。 Further, as shown in FIG. 4, in the creation of matching feature data, it is effective to include synthetic variables in order to perform appropriate scoring.

図4(A)に示すように、各トピック値により合成変数を作成する場合は、希望者Xのトピック分布π(X)と、候補者Yのトピック分布π(Y)との積からなる合成変数の分布λ(XY)を求め、これをマッチング用特徴データに含めることができる。なお、図4(A)において、λ(XY)=π(X)*π(Y)という表記を行っているが、ベクトルの内積を求めるわけではなく、ベクトルの対応する要素同士の積を求めるという意味である。すなわち、同じトピックについてのトピック値同士の積であるから、トピック番号=1のトピック値同士の積、トピック番号=2のトピック値同士の積、…、トピック番号=K(Kはトピック数)のトピック値同士の積を求める。より正確な表記にすると、λ(XY,1)=π(X,1)*π(Y,1)、λ(XY,2)=π(X,2)*π(Y,2)、…、λ(XY,K)=π(X,K)*π(Y,K)となる。従って、K次元ベクトルであるトピック分布π(X)と、K次元ベクトルであるトピック分布π(Y)とから、K次元ベクトルである合成変数の分布λ(XY)を求めることになる。 As shown in FIG. 4A, when a composite variable is created based on each topic value, a composite consisting of the product of the topic distribution π (X) of the applicant X and the topic distribution π (Y) of the candidate Y. The variable distribution λ (XY) can be obtained and included in the matching feature data. In FIG. 4A, the notation λ (XY) = π (X) * π (Y) is used, but the inner product of the vectors is not calculated, but the product of the corresponding elements of the vector is calculated. It means that. That is, since it is the product of topic values for the same topic, the product of topic values with topic number = 1, the product of topic values with topic number = 2, ..., Topic number = K (K is the number of topics). Find the product of topic values. To be more accurate, λ (XY, 1) = π (X, 1) * π (Y, 1), λ (XY, 2) = π (X, 2) * π (Y, 2), ... , Λ (XY, K) = π (X, K) * π (Y, K). Therefore, the distribution λ (XY) of the composite variable, which is a K-dimensional vector, is obtained from the topic distribution π (X), which is a K-dimensional vector, and the topic distribution π (Y), which is a K-dimensional vector.

また、図4(A)に示すように、希望者Xのトピック分布π(X)と、候補者Yのトピック分布π(Y)との差の絶対値からなる合成変数の分布μ(XY)を求め、これをマッチング用特徴データに含めることができる。差ではなく、差の絶対値としているのは、方向性を無くすためであり、μ(XY)とμ(YX)とを同じにするため(順番を変えても同じになるようにするため)である。この場合は、ベクトルの対応する要素間の差の絶対値を求める。すなわち、同じトピックについてのトピック値間の差の絶対値であるから、トピック番号=1のトピック値間の差の絶対値、トピック番号=2のトピック値間の差の絶対値、…、トピック番号=K(Kはトピック数)のトピック値間の差の絶対値を求める。より正確な表記にすると、μ(XY,1)=|π(X,1)−π(Y,1)|、μ(XY,2)=|π(X,2)−π(Y,2)|、…、μ(XY,K)=|π(X,K)−π(Y,K)|となる。従って、K次元ベクトルであるトピック分布π(X)と、K次元ベクトルであるトピック分布π(Y)とから、K次元ベクトルである合成変数の分布μ(XY)を求めることになる。 Further, as shown in FIG. 4 (A), the distribution μ (XY) of the composite variable consisting of the absolute value of the difference between the topic distribution π (X) of the applicant X and the topic distribution π (Y) of the candidate Y. Can be obtained and included in the matching feature data. The absolute value of the difference, not the difference, is used to eliminate the directionality, and to make μ (XY) and μ (YX) the same (so that they are the same even if the order is changed). Is. In this case, find the absolute value of the difference between the corresponding elements of the vector. That is, since it is the absolute value of the difference between topic values for the same topic, the absolute value of the difference between topic values with topic number = 1, the absolute value of the difference between topic values with topic number = 2, ..., Topic number = Find the absolute value of the difference between the topic values of K (K is the number of topics). To be more accurate, μ (XY, 1) = | π (X, 1) -π (Y, 1) |, μ (XY, 2) = | π (X, 2) -π (Y, 2) ) |, ..., Μ (XY, K) = | π (X, K) -π (Y, K) |. Therefore, the distribution μ (XY) of the composite variable, which is a K-dimensional vector, is obtained from the topic distribution π (X), which is a K-dimensional vector, and the topic distribution π (Y), which is a K-dimensional vector.

なお、図4(A)の例において、トピック分布の積からなる合成変数の分布λ(XY)と、トピック分布の差の絶対値からなる合成変数の分布μ(XY)との双方を、マッチング用特徴データに含めることが好ましいが、積の分布λ(XY)、差の絶対値の分布μ(XY)のうち、いずれか一方を使用してもよい。 In the example of FIG. 4A, both the distribution λ (XY) of the composite variable consisting of the product of the topic distribution and the distribution μ (XY) of the synthetic variable consisting of the absolute value of the difference in the topic distribution are matched. Although it is preferable to include it in the feature data, either one of the product distribution λ (XY) and the absolute value distribution μ (XY) of the difference may be used.

さらに、図4(B)に示すように、各ニーズフラグにより合成変数を作成する場合は、対応するニーズフラグ同士(同じ種類のニーズフラグ同士)の論理和(OR)、論理積(AND)、排他的論理和(XOR)、否定論理和(NOR)、否定論理積(NAND)、否定排他的論理和(NXOR)、算術和等を採用することができる。図4(B)の例では、論理和(OR)、論理積(AND)、算術和による合成変数が示されている。この例は、論理和(OR)、論理積(AND)、算術和等による複数タイプ(3タイプ)の合成変数の全部を使用するという意味ではなく、いずれか1タイプの合成変数を選んで使用すればよいという趣旨で記載している。なお、複数タイプの合成変数を、マッチング用特徴データに含めてもよい。 Further, as shown in FIG. 4B, when a composite variable is created with each need flag, the logical sum (OR), logical product (AND), of the corresponding needs flags (of the same type of needs flags), Exclusive OR (XOR), NOR, Negative OR (NAND), Negative OR (NXOR), Arithmetic and the like can be adopted. In the example of FIG. 4 (B), the composite variables by the logical sum (OR), the logical product (AND), and the arithmetic sum are shown. This example does not mean that all of the multiple types (3 types) of synthetic variables based on logical sum (OR), logical product (AND), arithmetic sum, etc. are used, but one of the synthetic variables is selected and used. It is described to the effect that it should be done. Note that a plurality of types of composite variables may be included in the matching feature data.

そして、各ニーズフラグにより合成変数を作成する場合は、対応するニーズフラグ同士ではなく、異なる種類のニーズフラグに跨って、合成変数を作成してもよい。例えば、ニーズフラグの中に、(1)売ります、(2)買います、のように内容的に関連するニーズフラグがある場合に、(1)および(2)のニーズフラグを用いて、上述した論理和(OR)等による合成変数を作成してもよい。 Then, when creating a composite variable with each need flag, the composite variable may be created across different types of needs flags instead of the corresponding needs flags. For example, when there are needs flags related to the content such as (1) sell, (2) buy, among the needs flags, the needs flags of (1) and (2) are used to describe the above. You may create a composite variable by the logical sum (OR) or the like.

また、図4(C)に示すように、年商により合成変数を作成する場合は、双方の年商の比の値等を採用することができる。比の値による合成変数M(XY)とする場合、希望者Xの年商をS(X)、希望者Yの年商をS(Y)とすると、方向性を持たせて、M(XY)=S(X)/S(Y)、あるいは、M(XY)=S(Y)/S(X)としてもよい。また、方向性を無くすため、M(XY)=S(X)/S(Y)またはS(Y)/S(X)のうちの大きい方の値、あるいは、M(XY)=S(X)/S(Y)またはS(Y)/S(X)のうちの小さい方の値としてもよい。方向性を持たせた場合には、M(XY)とM(YX)とが異なる値となる。 Further, as shown in FIG. 4C, when the composite variable is created by the annual sales, the value of the ratio of the annual sales of both can be adopted. When the composite variable M (XY) is based on the ratio value, if the annual sales of the applicant X is S (X) and the annual sales of the applicant Y is S (Y), then M (XY) is given a direction. ) = S (X) / S (Y), or M (XY) = S (Y) / S (X). Further, in order to eliminate the directionality, the larger value of M (XY) = S (X) / S (Y) or S (Y) / S (X), or M (XY) = S (X). ) / S (Y) or S (Y) / S (X), whichever is smaller. When the directionality is given, M (XY) and M (YX) have different values.

さらに、図4での図示は省略されているが、文書長により合成変数を作成する場合は、双方の文書長の比の値等を採用することができる。比の値による合成変数とする場合、方向性を待たせてもよく、方向性を無くしてもよいのは、上述した年商の場合と同様である。 Further, although the illustration in FIG. 4 is omitted, when the composite variable is created by the document length, the value of the ratio of the document lengths of both can be adopted. When the composite variable is based on the ratio value, the directionality may be kept waiting or the directionality may be lost, as in the case of the annual sales described above.

<マッチング処理手段37の構成> <Structure of Matching Processing Means 37>

マッチング処理手段37は、マッチング用特徴データ作成手段36により作成した複数のマッチング用特徴データの各々(希望者と各候補者とからなる複数のペアのそれぞれのマッチング用特徴データ)を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段46に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するものである。 The matching processing means 37 uses each of the plurality of matching feature data created by the matching feature data creating means 36 (each matching feature data of a plurality of pairs consisting of a desired person and each candidate) as input data. By using the matching model that has been learned in advance by the two-class classification of whether or not to be selected and stored in the matching model storage means 46, the classification process is performed by the supervised classification model, and each of the applicants for matching is subjected to the classification process. It executes a process of outputting a score indicating the probability that a candidate is selected.

この際、スコアは、候補者毎(希望者と候補者とからなるペア毎)に出力される。スコアは、例えば、尤度で出力する場合には、0〜1の範囲の値で出力され、スコアが1に近い程、マッチング相手として相応しい候補者であることを示している。 At this time, the score is output for each candidate (for each pair consisting of the applicant and the candidate). For example, when the score is output with the likelihood, it is output in the range of 0 to 1, and the closer the score is to 1, the more suitable the candidate is as a matching partner.

ここで、「教師あり分類モデル」の「モデル」は、アルゴリズムおよびパラメータを含む概念であり、マッチングモデル記憶手段46に記憶されたマッチングモデルの「モデル」は、学習で得られたパラメータ(学習結果データ)だけの概念である。従って、アルゴリズムにより実現されるマッチング処理手段37と、マッチングモデルを記憶するマッチングモデル記憶手段46とにより、識別器60が構成されている。 Here, the "model" of the "supervised classification model" is a concept including an algorithm and parameters, and the "model" of the matching model stored in the matching model storage means 46 is a parameter (learning result) obtained by learning. It is a concept only for data). Therefore, the discriminator 60 is composed of the matching processing means 37 realized by the algorithm and the matching model storage means 46 for storing the matching model.

また、「教師あり分類モデル」は、選定されるか否かの2クラス分類による機械学習を行うことができる手法であれば、いずれの機械学習手法でもよい。例えば、SGD分類器(SGD Classifier:Stochastic Gradient Descent Classifier)、K近傍法分類器(K-Neighbors Classifier)、単純ベイズ分類器(Naive Bayes Classifier)、サポート・ベクター・マシン分類器(SVC:Support Vector Classifier)、ランダム・フォレスト分類器(Random Forest Classifier)、多層パーセプトロン分類器(MLP Classifier:Multi Layer Perceptron Classifier)、ニューラル・ネットワーク等を採用することができる。 Further, the "supervised classification model" may be any machine learning method as long as it can perform machine learning by two-class classification as to whether or not it is selected. For example, SGD Classifier (SGD Classifier: Stochastic Gradient Descent Classifier), K-Neighbors Classifier (K-Neighbors Classifier), Naive Bayes Classifier (Naive Bayes Classifier), Support Vector Classifier (SVC) ), Random Forest Classifier, Multi Layer Perceptron Classifier (MLP Classifier), neural network, etc. can be adopted.

なお、識別器60は、同じ入力データ(マッチング用特徴データ)を、上記のような複数種類の分類器へ入力し、それぞれから出力されるスコアを統合してもよく(例えば、それぞれの分類器から出力されるスコアの平均値等を統合スコアとしてもよく)、また、統合の際に重み付けをしてもよい(それぞれの分類器から出力されるスコアの加重平均値等を統合スコアとしてもよい)。 The classifier 60 may input the same input data (matching feature data) into a plurality of types of classifiers as described above, and integrate the scores output from each (for example, each classifier). The average value of the scores output from the above may be used as the integrated score), or may be weighted at the time of integration (the weighted average value of the scores output from each classifier may be used as the integrated score). ).

また、マッチング処理手段37は、出力したスコアを、表示手段70に画面表示する処理や、表示手段70がネットワークを介して接続された端末に設けられている場合には、スコアのデータを、ネットワークを介して端末へ送信し、あるいは、電子メールに添付して送信する処理も実行する。さらに、スコアの印刷、音声出力等を、適宜行うようにしてもよい。 Further, the matching processing means 37 displays the output score on the screen on the display means 70, and when the display means 70 is provided on the terminal connected via the network, the score data is displayed on the network. It also executes the process of sending to the terminal via the above, or attaching it to an e-mail and sending it. Further, score printing, voice output, and the like may be performed as appropriate.

また、マッチング処理手段37は、出力したスコアを、数値が高い順に並べる等の2次的な処理を行う構成としてもよい。この2次的な処理には、後述する変形の形態(図10参照)における特定目的のマッチングを行うためのスコアを用いた最適化計算等も含まれる。 Further, the matching processing means 37 may be configured to perform secondary processing such as arranging the output scores in descending order of numerical values. This secondary processing also includes an optimization calculation using a score for performing matching for a specific purpose in a form of deformation (see FIG. 10) described later.

<学習手段38の構成> <Structure of learning means 38>

学習手段38は、学習用データ準備手段39により作成されて学習用データ記憶手段47に記憶されている学習用データ(多数のマッチング用特徴データの各々について、選定・非選定のラベル(タグ)を付したアノテーション後のデータ、図6参照)を用いて、教師あり分類モデルによる学習処理を行い、得られたマッチングモデル(ここでは、学習結果データとしてのパラメータを意味する。)を、マッチングモデル記憶手段46に記憶させる処理を実行するものである。 The learning means 38 is provided with learning data (selection / non-selection labels (tags) for each of a large number of matching feature data) created by the learning data preparation means 39 and stored in the learning data storage means 47. Using the attached annotated data (see FIG. 6), learning processing is performed by a supervised classification model, and the obtained matching model (here, it means a parameter as learning result data) is stored in the matching model. The process of storing in the means 46 is executed.

この学習手段38による学習処理は、図7に示す事前に行う学習処理(希望者によるマチングの依頼前に行う処理)であり、この学習処理で得られるマッチングモデルには、新規モデルも、更新後のモデルも含まれる。 The learning process by the learning means 38 is a learning process (process performed before the requester requests mating) shown in FIG. 7, and the matching model obtained by this learning process includes a new model after updating. Model is also included.

なお、結合テキストデータの数を増やしてトピック推定手段33によるトピック推定処理を再度実行すると、厳密に言えば、各結合テキストデータにおけるトピック分布は、若干、異なる値となるので、それらのトピック分布を用いて作成される各マッチング用特徴データも、若干、異なる状態となる。そして、そのような若干異なる各マッチング用特徴データを用いて学習手段38による学習処理を行えば、マッチングモデル記憶手段46に記憶させるマッチングモデルは、若干異なる状態となる。しかし、追加する結合テキストデータが、1つまたは比較的少数であれば、トピック分布は殆ど変化しないので、マッチングモデル記憶手段46に記憶されているマッチングモデルについては、再学習せずに、そのまま用いることができる。 If the number of combined text data is increased and the topic estimation process by the topic estimation means 33 is executed again, strictly speaking, the topic distributions in each combined text data will have slightly different values. Each matching feature data created using the data is also in a slightly different state. Then, if the learning process by the learning means 38 is performed using each of the slightly different matching feature data, the matching model stored in the matching model storage means 46 will be in a slightly different state. However, if the number of combined text data to be added is one or a relatively small number, the topic distribution hardly changes. Therefore, the matching model stored in the matching model storage means 46 is used as it is without re-learning. be able to.

従って、図9のように希望者データを含めてトピックモデルの再学習を行う場合の運用時の処理では、マッチングモデル記憶手段46に記憶されているマッチングモデルについては、再学習せずに、そのまま用いることができる。 Therefore, in the operation-time processing when the topic model is re-learned including the applicant data as shown in FIG. 9, the matching model stored in the matching model storage means 46 is not re-learned as it is. Can be used.

一方、図9の場合において、トピックモデルの再学習を行うことに加え、マッチングモデル記憶手段46に記憶されているマッチングモデルについても再学習し、更新後のマッチングモデルを用いて、マッチング処理手段37によりスコアを出力するようにしてもよい。この場合のマッチングモデルの再学習では、新たなマッチング対象者としての希望者については、既登録のマッチング対象者との間での選定・非選定のタグ付けを行うことができないので、希望者データは用いずに、既登録のマッチング対象者のマッチング対象者データを用いるだけでよい。つまり、選定・非選定のタグ付けが行われている既登録のマッチング対象者のペアについてのマッチング用特徴データのうち、トピック分布の部分だけを更新してマッチングモデルの再学習を行えばよい。 On the other hand, in the case of FIG. 9, in addition to re-learning the topic model, the matching model stored in the matching model storage means 46 is also re-learned, and the updated matching model is used to relearn the matching processing means 37. The score may be output by. In the re-learning of the matching model in this case, it is not possible to tag the applicant as a new matching target with the registered matching target, so that the applicant data cannot be selected or not. It is sufficient to use the matching target person data of the registered matching target person without using. That is, the matching model may be relearned by updating only the topic distribution part of the matching feature data for the pair of registered matching target persons that have been tagged as selected / unselected.

<学習用データ準備手段39の構成> <Structure of learning data preparation means 39>

学習用データ準備手段39は、学習用データとして、多数のマッチング用特徴データの各々について、選定・非選定のラベル(タグ)を付したアノテーション後のデータ(図6参照)を作成し、タグ付けされた多数のマッチング用特徴データを、マッチング対象者の識別情報のペアと関連付けて学習用データ記憶手段47に記憶させる処理を実行するものである。 The training data preparation means 39 creates, as training data, post-annotation data (see FIG. 6) with selected / non-selected labels (tags) for each of a large number of matching feature data, and tags the data. A process of associating a large number of the matched feature data with the pair of identification information of the matching target person and storing them in the learning data storage means 47 is executed.

この際、学習用データ準備手段39は、結合テキストデータ作成手段32、トピック推定手段33、単語重要度ベクトル算出手段35、およびマッチング用特徴データ作成手段36に指示を出し、それぞれの処理を実行させることにより、多数のマッチング用特徴データを用意する。 At this time, the learning data preparation means 39 gives instructions to the combined text data creation means 32, the topic estimation means 33, the word importance vector calculation means 35, and the matching feature data creation means 36 to execute their respective processes. By doing so, a large number of matching feature data are prepared.

また、各マッチング用特徴データについての選定・非選定のタグ付け処理は、マッチング候補選定実績リスト記憶手段48に記憶されているマッチング候補選定実績リストを用いて実行される。 Further, the selection / non-selection tagging process for each matching feature data is executed using the matching candidate selection result list stored in the matching candidate selection result list storage means 48.

<各記憶手段41〜48の構成> <Structure of each storage means 41 to 48>

希望者データ記憶手段41は、図2に示すように、新たなマッチング対象者としての希望者(マッチングの依頼者)についての属性データ(希望者データ)として、自己業種(取扱商品)と、自己所在地と、年商と、少なくとも1つ(ここでは、一例として7つとする。)のニーズフラグと、希望業種(マッチング相手の業種)と、希望地域(マッチング相手の所在地)と、自己PR(自由記述形式のテキストデータ)と、ニーズ詳細(自由記述形式のテキストデータ)とを、希望者に付与された案件番号(マッチング対象者の識別情報)と関連付けて記憶するものである。 As shown in FIG. 2, the applicant data storage means 41 has its own industry (handling products) and self as attribute data (applicant data) about the applicant (matching requester) as a new matching target. Location, annual sales, at least one (here, seven as an example) needs flag, desired industry (matching partner's industry), desired area (matching partner's location), and self-promotion (freedom) The description format text data) and the needs details (free description format text data) are stored in association with the case number (identification information of the matching target person) given to the applicant.

マッチング対象者データ記憶手段42は、図2に示すように、登録されているマッチング対象者についての属性データ(マッチング対象者データ)として、自己業種(取扱商品)と、自己所在地と、年商と、少なくとも1つ(ここでは、一例として7つとする。)のニーズフラグと、希望業種(マッチング相手の業種)と、希望地域(マッチング相手の所在地)と、自己PR(自由記述形式のテキストデータ)と、ニーズ詳細(自由記述形式のテキストデータ)とを、案件番号(マッチング対象者の識別情報)と関連付けて記憶するものである。従って、このマッチング対象者データ記憶手段42に記憶されるマッチング対象者データは、希望者データ記憶手段41に記憶される希望者データとデータ形式が同じである。 As shown in FIG. 2, the matching target person data storage means 42 has self-industry (handling products), self-location, and annual sales as attribute data (matching target person data) for the registered matching target person. , At least one (here, seven as an example) needs flag, desired industry (matching partner's industry), desired area (matching partner's location), and self-promotion (free description format text data) And the needs details (text data in free description format) are stored in association with the matter number (identification information of the matching target person). Therefore, the matching target person data stored in the matching target person data storage means 42 has the same data format as the desired person data stored in the desired person data storage means 41.

不要語辞書記憶手段43は、結合テキストデータ作成手段32による[δ]不要な単語の除去処理で用いる不要語(ノイズ単語)を記憶するものである。不要語には、例えば、「企業」、「ニーズ」、「サポート」等のような業種に関係なく出現すると考えられる単語と、例えば、「京都」、「関東」、「東日本」等の国内の地名とがある。 The unnecessary word dictionary storage means 43 stores unnecessary words (noise words) used in the [δ] unnecessary word removal process by the combined text data creation means 32. Unnecessary words include words that are considered to appear regardless of industry, such as "company," "needs," and "support," and domestic words such as "Kyoto," "Kanto," and "Eastern Japan." There is a place name.

トピックモデル記憶手段44は、トピック推定手段33によるトピック推定処理で得られた各マッチング対象者(図9の場合には、希望者を含む)の結合テキストデータにおけるトピック分布(トピック番号=1〜Kの各トピックの出現確率を示すトピック値:縦ベクトルπ(i)の各要素であるπ(i,1),π(i,2),…,π(i,K))を、マッチング対象者(図9の場合には、希望者を含む)の識別情報(i)と関連付けて記憶するとともに、このトピック推定処理で得られた各トピック(トピック番号=1〜K)における各単語(1〜p番目の単語)の出現確率(K行p列の行列βの各要素)を記憶するものである。 The topic model storage means 44 is a topic distribution (topic number = 1 to K) in the combined text data of each matching target person (including a desired person in the case of FIG. 9) obtained by the topic estimation process by the topic estimation means 33. Topic value indicating the appearance probability of each topic of: π (i, 1), π (i, 2), ..., π (i, K)), which are elements of the vertical vector π (i), are matched. Each word (1 to 1) in each topic (topic number = 1 to K) obtained by this topic estimation process is stored in association with the identification information (i) (including the applicant in the case of FIG. 9). It stores the appearance probability (each element of the matrix β in the K row and p column) of the p-th word).

単語重要度ベクトル記憶手段45は、単語重要度ベクトル算出手段35により算出した各マッチング対象者(希望者を含む)の結合テキストデータについての単語重要度ベクトル(各単語のTFIDF値またはその他の単語重要度指標値)を、マッチング対象者(希望者を含む)の識別情報と関連付けて記憶するものである。 The word importance vector storage means 45 is a word importance vector (TFIDF value of each word or other word importance) for the combined text data of each matching target person (including the applicant) calculated by the word importance vector calculation means 35. The degree index value) is stored in association with the identification information of the matching target person (including the applicant).

マッチングモデル記憶手段46は、教師あり分類モデルによる識別器60を構成するマッチングモデル(学習結果データとしてのパラメータ)を記憶するものである。このマッチングモデルは、学習手段38による学習処理で得られたものである。 The matching model storage means 46 stores a matching model (parameter as learning result data) that constitutes the classifier 60 based on the supervised classification model. This matching model is obtained by the learning process by the learning means 38.

学習用データ記憶手段47は、図6に示すように、学習用データ準備手段39により作成した学習用データ(マッチングモデルの学習用データ)として、選定・非選定のタグ付けを行った多数のマッチング用特徴データを、マッチング対象者の識別情報のペアと関連付けて記憶するものである。 As shown in FIG. 6, the learning data storage means 47 has a large number of matchings tagged with selection / non-selection as learning data (learning data of a matching model) created by the learning data preparation means 39. Characteristic data is stored in association with a pair of identification information of a matching target person.

マッチング候補選定実績リスト記憶手段48は、過去においてマッチングの希望者の依頼に基づきサービス担当者によりマッチングの候補者として実際に選定されたマッチング対象者の識別情報(案件番号)と、希望者の識別情報(案件番号)との組合せからなるマッチング候補選定実績リストを記憶するものである。 The matching candidate selection result list storage means 48 identifies the matching target person (case number) actually selected as the matching candidate by the service person based on the request of the matching applicant in the past, and the identification of the applicant. It stores a matching candidate selection record list consisting of a combination with information (case number).

<事前に行う学習処理の流れ:図7> <Flow of learning process performed in advance: Fig. 7>

このような本実施形態においては、以下のようにしてマッチングシステム10により、事前の学習処理(マッチングの希望者による依頼がある前の学習処理)が行われる。 In such an embodiment, the matching system 10 performs a preliminary learning process (learning process before a request from a matching applicant) as follows.

図7において、先ず、学習用データ準備手段39により、結合テキストデータ作成手段32に指示を出し、マッチング対象者データ記憶手段42に記憶されている全ての既登録のマッチング対象者についての属性データ(マッチング対象者データ)から、図2および図3に示すように、自己データとして、自己業種および自己PR(自由記述形式のテキストデータ)を取得するとともに、ニーズデータとして、希望業種およびニーズ詳細(自由記述形式のテキストデータ)を取得し、結合テキストデータ作成手段32による[α]の処理を実行し、取得した自己データおよびニーズデータを結合して、全ての既登録のマッチング対象者についての結合テキストデータを作成する(ステップS1)。 In FIG. 7, first, the learning data preparation means 39 issues an instruction to the combined text data creation means 32, and the attribute data (attribute data) for all the registered matching target persons stored in the matching target person data storage means 42 ( As shown in FIGS. 2 and 3 from the matching target person data), the self-industry and self-PR (text data in free description format) are acquired as self-data, and the desired industry and needs details (free) are obtained as needs data. (Text data in description format) is acquired, the process of [α] is executed by the combined text data creating means 32, the acquired self-data and needs data are combined, and the combined text for all the registered matching target persons is obtained. Create data (step S1).

次に、結合テキストデータ作成手段32により、図2および図3に示すように、[α]の処理で得られた結合テキストデータに対し、[β]不要な記号やタグ等の除去処理と、[γ]形態素解析で単語に分解し、名詞のみを抽出する処理と、[δ]不要な単語の除去処理とを実行し、全ての既登録のマッチング対象者についての処理後の結合テキストデータを作成する(ステップS2)。[δ]までの処理を経た状態では、処理後の結合テキストデータは、図3の下部に示すように、各単語とそれらの出現回数との関係を示すデータであり、これにより結合テキストデータにおける各単語の出現確率が得られたことになる。なお、[α]〜[δ]の処理については、結合テキストデータ作成手段32の説明で既に詳述しているので、ここでは詳しい説明を省略する。 Next, as shown in FIGS. 2 and 3, the combined text data creating means 32 removes [β] unnecessary symbols, tags, etc. from the combined text data obtained by the processing of [α]. [Γ] The process of decomposing into words by morphological analysis and extracting only nouns and [δ] the process of removing unnecessary words are executed, and the combined text data after processing for all registered matching targets is executed. Create (step S2). In the state of undergoing the processing up to [δ], the combined text data after the processing is data showing the relationship between each word and the number of times they appear, as shown in the lower part of FIG. 3, thereby in the combined text data. It means that the appearance probability of each word has been obtained. Since the processes of [α] to [δ] have already been described in detail in the description of the combined text data creating means 32, detailed description thereof will be omitted here.

続いて、学習用データ準備手段39により、トピック推定手段33に指示を出し、全ての既登録のマッチング対象者についての処理後の結合テキストデータ(図3の下部参照)を用いて、ソフトクラスタリングまたはニューラル言語モデル(本実施形態では、一例として、LDAとする。)によるトピック推定処理を実行し、各結合テキストデータ(i)における各トピック(トピック番号=1〜K)の出現確率を示すトピック値(K次元の縦ベクトルπ(i))、および、各トピック(トピック番号=1〜K)における各単語(1〜p番目の単語)の出現確率(K行p列の行列β)を求め、得られたπ(i)およびβを、トピックモデルとしてトピックモデル記憶手段44に記憶させる(ステップS3)。 Subsequently, the learning data preparation means 39 issues an instruction to the topic estimation means 33, and soft clustering or using the processed combined text data (see the lower part of FIG. 3) for all the registered matching subjects. A topic value indicating the appearance probability of each topic (topic number = 1 to K) in each combined text data (i) by executing topic estimation processing by a neural language model (in this embodiment, LDA is used as an example). (K-dimensional vertical vector π (i)) and the appearance probability (matrix β of K rows and p columns) of each word (1st to pth words) in each topic (topic number = 1 to K) are obtained. The obtained π (i) and β are stored in the topic model storage means 44 as a topic model (step S3).

以上がトピックモデル記憶手段44に記憶されているトピックモデル(π(i)、β)についての新規モデルの構築およびモデルの更新の処理の流れである。そして、以下では、マッチングモデル記憶手段46に記憶されているマッチングモデルについての新規モデルの構築およびモデルの更新の処理の流れを説明する。 The above is the flow of processing for constructing a new model and updating the model for the topic model (π (i), β) stored in the topic model storage means 44. Then, the flow of the process of constructing a new model and updating the model for the matching model stored in the matching model storage means 46 will be described below.

図7において、先ず、学習用データ準備手段39により、単語重要度ベクトル算出手段35に指示を出し、全ての既登録のマッチング対象者の結合テキストデータ(結合テキストデータ作成手段32による[δ]までの処理を経た後に残った単語の集合)についての単語重要度ベクトル(各単語のTFIDF値またはその他の単語重要度指標値)を算出し、算出した単語重要度ベクトルを、マッチング対象者の識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段45に記憶させる(ステップS4)。なお、図7は、事前の学習処理であるから、マッチングの希望者は存在しないため、ここでは、希望者の結合テキストデータについての単語重要度ベクトルの算出は行われない。 In FIG. 7, first, the learning data preparation means 39 gives an instruction to the word importance vector calculation means 35, and the combined text data of all the registered matching targets (up to [δ] by the combined text data creating means 32). The word importance vector (TFIDF value of each word or other word importance index value) for the word importance vector (set of words remaining after the process of) is calculated, and the calculated word importance vector is used as the identification information of the matching target person. It is stored in the word importance vector storage means 45 in association with (case number) (step S4). Since FIG. 7 is a prior learning process, there is no applicant for matching. Therefore, the word importance vector for the combined text data of the applicant is not calculated here.

次に、学習用データ準備手段39により、マッチング用特徴データ作成手段36に指示を出し、図6に示すように、マッチングモデル記憶手段46に記憶させるマッチングモデルの学習用データとして、多数のマッチング対象者のペアについてのマッチング用特徴データを作成し、作成した多数のペアのマッチング用特徴データを、マッチング対象者の識別情報(案件番号)のペアと関連付けて学習用データ記憶手段47に記憶させる。なお、図7に示す事前の学習処理では、希望者は存在しないので、図5に示す運用時の処理のように希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成するのではない。 Next, the learning data preparation means 39 issues an instruction to the matching feature data creating means 36, and as shown in FIG. 6, a large number of matching targets are used as the learning data of the matching model to be stored in the matching model storage means 46. Matching feature data for a pair of persons is created, and the matching feature data of a large number of created pairs is stored in the learning data storage means 47 in association with the pair of identification information (case number) of the matching target person. Since there is no applicant in the prior learning process shown in FIG. 7, matching feature data for a plurality of pairs consisting of the applicant and each candidate is created as in the operation process shown in FIG. I don't do it.

具体的には、学習用データ準備手段39により、マッチング候補選定実績リスト記憶手段48に記憶されているマッチング候補選定実績リストを用いて、学習用データとしてのマッチング用特徴データを作成するための多数のマッチング対象者の識別情報(案件番号)のぺアを用意する(ステップS5)。マッチング候補選定実績リストには、過去においてマッチングの希望者の依頼に基づきサービス担当者によりマッチングの候補者として実際に選定されたマッチング対象者の識別情報(案件番号)と、希望者の識別情報(案件番号)とのペアが記録されているので、それらのマッチング対象者の識別情報(案件番号)のペアを、正例(正解データ)とし、選定・非選定の別として「1(選定)」のタグ付けを行う。一方、マッチング候補選定実績リストに記録されているペア以外のペアを、負例(不正解データ)とし、選定・非選定の別として「0(非選定)」のタグ付けを行う。これにより、例えば、正例(正解データ)を1万件、負例(不正解データ)を2万件のように用意する。 Specifically, a large number of matching candidate selection result lists for creating matching feature data as learning data by using the matching candidate selection result list stored in the matching candidate selection result list storage means 48 by the learning data preparation means 39. Prepare a pair of identification information (case number) of the matching target person (step S5). The matching candidate selection record list includes the identification information (case number) of the matching target person who was actually selected as the matching candidate by the service person based on the request of the matching applicant in the past, and the identification information of the applicant (case number). Since the pair with the case number) is recorded, the pair of the identification information (case number) of the matching target person is used as a correct example (correct answer data), and "1 (selection)" is used as the selection / non-selection. Tagging. On the other hand, a pair other than the pair recorded in the matching candidate selection record list is regarded as a negative example (incorrect answer data), and "0 (non-selected)" is tagged as a distinction between selection and non-selection. As a result, for example, 10,000 positive examples (correct answer data) and 20,000 negative examples (incorrect answer data) are prepared.

なお、負例(不正解データ)については、ランダムにサンプリングしたマッチング対象者の識別情報(案件番号)を組み合わせたペアであって、かつ、マッチング候補選定実績リストに記録されているペア以外のペアとすることができる。また、ランダムにサンプリングするのではなく、既登録のマッチング対象者の識別情報(案件番号)の全ての組合せ(総当たりの組合せ)のペアから、マッチング候補選定実績リストに記録されているペアを除いたものを、負例(不正解データ)としてもよい。 For negative examples (incorrect answer data), a pair that is a combination of randomly sampled identification information (case number) of the matching target person and is not a pair recorded in the matching candidate selection record list. Can be. In addition, instead of sampling randomly, all combinations (round-robin combinations) of the identification information (case number) of the registered matching target person are excluded from the pairs recorded in the matching candidate selection record list. It may be a negative example (incorrect answer data).

それから、マッチング用特徴データ作成手段36により、学習用データとしてのマッチング用特徴データを作成するために上記のステップS5で用意した全てのマッチング対象者の識別情報(案件番号)のペア(全ての正解ペア、および、全ての不正解ペア)について、トピック推定手段33によるトピック推定処理で得られてトピックモデル記憶手段44に記憶されている各マッチング対象者の結合テキストデータにおけるトピック分布π(i)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)、並びに、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者のマッチング対象者データに含まれるニーズフラグおよび年商を取得し、図4に示すようにして合成変数(ここでは、一例として、トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等とする。)を算出する(ステップS6)。 Then, the pair of identification information (case number) of all the matching target persons prepared in step S5 above for creating the matching feature data as the learning data by the matching feature data creating means 36 (all correct answers). For each pair and all incorrect answers), the topic distribution π (i) in the combined text data of each matching target person obtained by the topic estimation process by the topic estimation means 33 and stored in the topic model storage means 44 ( Topic number = topic value indicating the appearance probability of each topic from 1 to K), and the needs flag and annual sales included in the matching target person data of each matching target person stored in the matching target person data storage means 42. Obtain and set the composite variables as shown in FIG. 4 (here, as an example, the product of the topic distribution, the absolute value of the difference of the topic distribution, the logical sum of the needs flags, the value of the ratio of the annual sales, etc.). Calculate (step S6).

続いて、マッチング用特徴データ作成手段36により、学習用データとしてのマッチング用特徴データを作成するために前述したステップS5で用意した全てのマッチング対象者の識別情報(案件番号)のペア(全ての正解ペア、および、全ての不正解ペア)について、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている各マッチング対象者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)を取得し、単語重要度ベクトルの内積を算出する(ステップS7)。 Subsequently, a pair of identification information (case number) of all matching target persons prepared in step S5 described above for creating matching feature data as learning data by the matching feature data creating means 36 (all). For correct answer pairs and all incorrect answer pairs), the word importance vector for the combined text data of each matching target person calculated by the word importance vector calculation means 35 and stored in the word importance vector storage means 45. (TFIDF vector, etc.) is acquired, and the inner product of the word importance vector is calculated (step S7).

そして、図6に示すように、前述したステップS5で用意した全てのマッチング対象者の識別情報(案件番号)のペア(全ての正解ペア、および、全ての不正解ペア)に、前述したステップS6で算出した合成変数(トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等)、および、上記のステップS7で算出した単語重要度ベクトル(TFIDFベクトル等)の内積を対応付けて、学習用データとしてのマッチング用特徴データとし、これを学習用データ記憶手段47に記憶させる。なお、図6に示すように、合成変数(トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等)ではなく、ペア双方のトピック分布、ペア双方のニーズフラグ、ペア双方の年商を、マッチング用特徴データに含めるようにしてもよく、あるいは図示は省略されているが、単語重要度ベクトルについても、単語重要度ベクトルの内積ではなく、双方の単語重要度ベクトルを、マッチング用特徴データに含めるようにしてもよい。 Then, as shown in FIG. 6, the pair (all correct answer pairs and all incorrect answer pairs) of the identification information (case number) of all the matching target persons prepared in step S5 described above is added to step S6 described above. The composite variables calculated in step 2 (product of topic distribution, absolute value of difference in topic distribution, logical sum of needs flags, value of annual sales ratio, etc.), and word importance vector (TFIDF vector) calculated in step S7 above. Etc.) are associated with each other to obtain matching feature data as learning data, which is stored in the learning data storage means 47. As shown in FIG. 6, it is not a composite variable (product of topic distribution, absolute value of difference in topic distribution, logical sum of needs flags, value of ratio of annual sales, etc.), but topic distribution of both pairs and both pairs. The annual sales of both the needs flag and the pair may be included in the matching feature data, or although the illustration is omitted, the word importance vector is not the inner product of the word importance vectors, but both. The word importance vector may be included in the matching feature data.

その後、学習手段38により、学習用データ準備手段39により作成されて学習用データ記憶手段47に記憶されている学習用データ(多数のマッチング用特徴データの各々について、選定・非選定のタグ付けをしたデータ、図6参照)を用いて、教師あり分類モデルによる学習処理を行い、得られたマッチングモデル(学習結果データとしてのパラメータ)を、マッチングモデル記憶手段46に記憶させる(ステップS8)。 After that, the learning data 38 is created by the learning data preparation means 39 and stored in the learning data storage means 47 (each of a large number of matching feature data is tagged with or without selection). The learning process is performed by the supervised classification model using the obtained data (see FIG. 6), and the obtained matching model (parameter as learning result data) is stored in the matching model storage means 46 (step S8).

<希望者データを含めたトピックモデルの再学習を行わない場合の運用時の処理の流れ:図8> <Process flow during operation when the topic model including applicant data is not relearned: Fig. 8>

図8において、先ず、マッチングの希望者から依頼を受けたサービス担当者、または希望者自身が、入力手段80を操作し、希望者の属性データ(希望者データ)を入力すると、入力受付手段31により、この入力が受け付けられ、入力された希望者データが希望者データ記憶手段41に記憶される(ステップS21)。なお、図1では、図8の場合の処理やデータの流れは、主として実線で示され、一方、後述する図9の場合の処理やデータの流れは、主として点線で示されている。また、前述した図7の事前学習の場合の処理やデータの流れは、主として二点鎖線で示されている。 In FIG. 8, first, when the service person who received the request from the matching applicant or the applicant himself / herself operates the input means 80 and inputs the attribute data (applicant data) of the applicant, the input receiving means 31 This input is accepted, and the input applicant data is stored in the applicant data storage means 41 (step S21). In FIG. 1, the processing and data flow in the case of FIG. 8 are mainly shown by solid lines, while the processing and data flow in the case of FIG. 9 described later are mainly shown by dotted lines. Further, the processing and data flow in the case of the pre-learning in FIG. 7 described above are mainly shown by the alternate long and short dash line.

次に、結合テキストデータ作成手段32により、希望者データ記憶手段41に記憶されているマッチングの希望者についての希望者データ(希望者の属性データ)から、図2および図3に示すように、自己データとして、自己業種および自己PR(自由記述形式のテキストデータ)を取得するとともに、ニーズデータとして、希望業種およびニーズ詳細(自由記述形式のテキストデータ)を取得し、結合テキストデータ作成手段32による[α]の処理を実行し、取得した自己データおよびニーズデータを結合して、希望者についての結合テキストデータを作成する(ステップS22)。 Next, from the applicant data (attribute data of the applicant) of the matching applicant stored in the applicant data storage means 41 by the combined text data creating means 32, as shown in FIGS. 2 and 3, as shown in FIGS. As self-data, self-industry and self-PR (free description format text data) are acquired, and as needs data, desired industry and needs details (free description format text data) are acquired, and the combined text data creation means 32 is used. The process of [α] is executed, and the acquired self-data and needs data are combined to create combined text data for the applicant (step S22).

さらに、結合テキストデータ作成手段32により、図2および図3に示すように、[α]の処理で得られた結合テキストデータに対し、[β]不要な記号やタグ等の除去処理と、[γ]形態素解析で単語に分解し、名詞のみを抽出する処理と、[δ]不要な単語の除去処理とを実行し、希望者についての処理後の結合テキストデータを作成する(ステップS23)。[δ]までの処理を経た状態では、処理後の結合テキストデータは、図3の下部に示すように、各単語とそれらの出現回数との関係を示すデータであり、これにより結合テキストデータにおける各単語の出現確率が得られたことになる。なお、[α]〜[δ]の処理については、結合テキストデータ作成手段32の説明で既に詳述しているので、ここでは詳しい説明を省略する。 Further, as shown in FIGS. 2 and 3, the combined text data creating means 32 removes [β] unnecessary symbols, tags, etc. from the combined text data obtained in the process of [α], and []. γ] The process of decomposing into words by morphological analysis and extracting only nouns and [δ] the process of removing unnecessary words are executed to create processed combined text data for the desired person (step S23). In the state of undergoing the processing up to [δ], the combined text data after the processing is data showing the relationship between each word and the number of times they appear, as shown in the lower part of FIG. 3, thereby in the combined text data. It means that the appearance probability of each word has been obtained. Since the processes of [α] to [δ] have already been described in detail in the description of the combined text data creating means 32, detailed description thereof will be omitted here.

続いて、希望者トピック値予測手段34により、結合テキストデータ作成手段32により作成した希望者の処理後の結合テキストデータ、および、トピックモデル記憶手段44に記憶されている各トピックにおける各単語の出現確率(K行p列の行列β)を用いて、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値(K次元の縦ベクトルπ(i)で表されるトピック分布)を予測する(ステップS24)。行列βは、図7の事前の学習で得られているトピックモデルである。図7の事前の学習で、i=1〜n(nは、マッチング対象者の数であり、本実施形態では企業数となり、文書数に相当する)のn個の結合テキストデータを用いてトピックモデルを構築したとすると、希望者の結合テキストデータは、i=(n+1)番目の結合テキストデータであるから、トピックモデルの学習には用いられていないが、行列βを用いれば、i=(n+1)番目の結合テキストデータにおけるトピック分布π(i)(i=n+1)を予測することができる。但し、i=(n+1)番目の希望者の処理後の結合テキストデータの中に、行列βに存在しない新出の単語(1〜p番目の単語以外の単語)が含まれている場合には、予測することはできないので、その新出の単語は、無いものとして取り扱う。 Subsequently, the combined text data after processing of the applicant created by the applicant topic value predicting means 34 and the combined text data creating means 32, and the appearance of each word in each topic stored in the topic model storage means 44. Using the probability (matrix β of K rows and p columns), predict the topic value (topic distribution represented by the K-dimensional vertical vector π (i)) indicating the appearance probability of each topic in the combined text data of the applicant. (Step S24). The matrix β is a topic model obtained by the prior learning of FIG. In the prior learning of FIG. 7, a topic using n combined text data of i = 1 to n (n is the number of matching targets, which is the number of companies in this embodiment and corresponds to the number of documents). Assuming that a model is constructed, the combined text data of the applicant is the i = (n + 1) th combined text data, so it is not used for learning the topic model, but if the matrix β is used, i = ( The topic distribution π (i) (i = n + 1) in the n + 1) th combined text data can be predicted. However, if the combined text data after processing of the i = (n + 1) th applicant contains a new word (word other than the 1st to pth words) that does not exist in the matrix β, , The new word is treated as nonexistent because it cannot be predicted.

それから、単語重要度ベクトル算出手段35により、希望者の結合テキストデータ(結合テキストデータ作成手段32による[δ]までの処理を経た後に残った単語の集合)についての単語重要度ベクトル(各単語のTFIDF値またはその他の単語重要度指標値)を算出し、算出した単語重要度ベクトルを、希望者の識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段45に記憶させる(ステップS25)。なお、希望者以外のマッチング対象者の結合テキストデータについての単語重要度ベクトルは、図7の事前の学習処理で算出され、単語重要度ベクトル記憶手段45に記憶されている。 Then, the word importance vector calculation means 35 is used to obtain a word importance vector (a set of words remaining after the processing up to [δ] by the combined text data creation means 32) of the applicant (for each word). The TFIDF value or other word importance index value) is calculated, and the calculated word importance vector is stored in the word importance vector storage means 45 in association with the identification information (case number) of the applicant (step S25). The word importance vector for the combined text data of the matching target person other than the desired person is calculated by the prior learning process of FIG. 7 and stored in the word importance vector storage means 45.

続いて、マッチング用特徴データ作成手段36により、図5に示すように、希望者の識別情報(案件番号)と、マッチング相手の候補者となる全ての既登録のマッチング対象者の識別情報(案件番号)とからなる複数のペアを用意する。図5の例では、希望者Xの案件番号が、i=00100001であり、候補者Yの案件番号が、i=00000001〜00100000であるから、1人(1個人、1法人、または1団体)の希望者に対し、既登録者全員である10万の候補者が組み合わされ、10万のペアが用意されている。従って、マッチング用特徴データ作成手段36により、これらの複数のペア(10万のペア)についてのマッチング用特徴データが作成されることになる。 Subsequently, by the matching feature data creating means 36, as shown in FIG. 5, the identification information (case number) of the applicant and the identification information (case) of all the registered matching target persons who are candidates for the matching partner. Prepare multiple pairs consisting of numbers). In the example of FIG. 5, since the case number of the applicant X is i = 00100001 and the case number of the candidate Y is i = 00000001 to 00100000, one person (1 individual, 1 corporation, or 1 group). 100,000 candidates, who are all registered registrants, are combined and 100,000 pairs are prepared for those who wish. Therefore, the matching feature data creating means 36 creates matching feature data for these plurality of pairs (100,000 pairs).

具体的には、マッチング用特徴データ作成手段36により、上記のように用意した複数のペアについて、希望者トピック値予測手段34により求めた希望者の結合テキストデータにおけるトピック分布π(i)(i=n+1)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)と、トピックモデル記憶手段44に記憶されている各候補者の結合テキストデータにおけるトピック分布π(i)(i=1〜n)(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)と、希望者データ記憶手段41に記憶されている希望者データに含まれるニーズフラグおよび年商と、マッチング対象者データ記憶手段42に記憶されている各候補者のマッチング対象者データに含まれるニーズフラグおよび年商とを用いて、図4に示すようにして合成変数(ここでは、一例として、トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等とする。)を算出する(ステップS26)。 Specifically, the topic distribution π (i) (i) in the combined text data of the applicants obtained by the applicant topic value prediction means 34 for the plurality of pairs prepared as described above by the matching feature data creation means 36. = N + 1) (topic value indicating the appearance probability of each topic of topic number = 1 to K) and topic distribution π (i) (i =) in the combined text data of each candidate stored in the topic model storage means 44. Matching target with 1 to n) (topic value indicating the appearance probability of each topic of topic number = 1 to K) and the needs flag and annual sales included in the applicant data stored in the applicant data storage means 41. Using the needs flag and annual sales included in the matching target person data of each candidate stored in the person data storage means 42, a synthetic variable (here, as an example, of a topic distribution) is used as shown in FIG. The product, the absolute value of the difference in the topic distribution, the logical sum of the needs flags, the value of the ratio of the annual sales, etc.) are calculated (step S26).

続いて、マッチング用特徴データ作成手段36により、上記のステップS26で用意した複数のペアについて、単語重要度ベクトル算出手段35により算出されて単語重要度ベクトル記憶手段45に記憶されている希望者および各候補者の結合テキストデータについての単語重要度ベクトル(TFIDFベクトル等)を取得し、単語重要度ベクトルの内積を算出する(ステップS27)。 Subsequently, the applicant and the applicant who are calculated by the matching feature data creating means 36 by the word importance vector calculating means 35 and stored in the word importance vector storing means 45 for the plurality of pairs prepared in step S26 above. A word importance vector (TFIDF vector or the like) for the combined text data of each candidate is acquired, and the inner product of the word importance vectors is calculated (step S27).

そして、マッチング用特徴データ作成手段36により、図5に示すように、前述したステップS26で用意した複数のペア(案件番号のペア)に、前述したステップS26で算出した合成変数(トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等)、および、上記のステップS27で算出した単語重要度ベクトル(TFIDFベクトル等)の内積を対応付けることにより、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する(ステップS28)。なお、図5に示すように、合成変数(トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等)ではなく、ペア双方のトピック分布、ペア双方のニーズフラグ、ペア双方の年商を、マッチング用特徴データに含めるようにしてもよく、あるいは図示は省略されているが、単語重要度ベクトルについても、単語重要度ベクトルの内積ではなく、双方の単語重要度ベクトルを、マッチング用特徴データに含めるようにしてもよい。 Then, as shown in FIG. 5, the matching feature data creating means 36 adds the composite variable (topic distribution product) calculated in step S26 to the plurality of pairs (case number pairs) prepared in step S26 described above. , The absolute value of the difference in topic distribution, the logical sum of the needs flags, the value of the annual sales ratio, etc.), and the inner product of the word importance vector (TFIDF vector, etc.) calculated in step S27 above. Feature data for matching is created for a plurality of pairs consisting of a person and each candidate (step S28). As shown in FIG. 5, it is not a composite variable (product of topic distribution, absolute value of difference in topic distribution, logical sum of needs flags, value of ratio of annual sales, etc.), but topic distribution of both pairs and both pairs. The annual sales of both the needs flag and the pair may be included in the matching feature data, or although the illustration is omitted, the word importance vector is not the inner product of the word importance vectors, but both. The word importance vector may be included in the matching feature data.

その後、マッチング処理手段37により、マッチング用特徴データ作成手段36により作成した複数のペアについてのマッチング用特徴データの各々(希望者と各候補者とからなる複数のペアのそれぞれのマッチング用特徴データ)を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段46に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する(ステップS29)。 After that, each of the matching feature data for the plurality of pairs created by the matching feature data creating means 36 by the matching processing means 37 (each matching feature data of the plurality of pairs consisting of the applicant and each candidate). Is selected as input data, and matching is desired by performing classification processing by a supervised classification model using a matching model that has been learned in advance by two-class classification of whether or not to be selected and stored in the matching model storage means 46. A score indicating the probability that each candidate is selected is output to the person (step S29).

<希望者データを含めてトピックモデルの再学習を行う場合の運用時の処理の流れ:図9> <Process flow during operation when re-learning the topic model including applicant data: Fig. 9>

図9において、先ず、マッチングの希望者から依頼を受けたサービス担当者、または希望者自身が、入力手段80を操作し、希望者の属性データ(希望者データ)を入力すると、入力受付手段31により、この入力が受け付けられ、入力された希望者データが希望者データ記憶手段41に記憶される(ステップS41)。なお、図1では、図9の場合の処理やデータの流れは、主として点線で示され、一方、前述した図8の場合の処理やデータの流れは、主として実線で示さている。また、前述した図7の事前学習の場合の処理やデータの流れは、主として二点鎖線で示されている。 In FIG. 9, first, when the service person who received the request from the matching applicant or the applicant himself / herself operates the input means 80 and inputs the attribute data (applicant data) of the applicant, the input receiving means 31 This input is accepted, and the input applicant data is stored in the applicant data storage means 41 (step S41). In FIG. 1, the processing and data flow in the case of FIG. 9 are mainly shown by dotted lines, while the processing and data flow in the case of FIG. 8 described above are mainly shown by solid lines. Further, the processing and data flow in the case of the pre-learning in FIG. 7 described above are mainly shown by the alternate long and short dash line.

次に、結合テキストデータ作成手段32により、希望者データ記憶手段41に記憶されている希望者データ(マッチングの希望者の属性データ)、および、マッチング対象者データ記憶手段42に記憶されている各マッチング対象者データ(希望者によるマッチングの依頼前から登録されているマッチング対象者の属性データ)から、図2および図3に示すように、自己データとして、自己業種および自己PR(自由記述形式のテキストデータ)を取得するとともに、ニーズデータとして、希望業種およびニーズ詳細(自由記述形式のテキストデータ)を取得し、結合テキストデータ作成手段32による[α]の処理を実行し、取得した自己データおよびニーズデータを結合して、全てのマッチング対象者(希望者を含む)についての結合テキストデータを作成する(ステップS42)。 Next, the combined text data creating means 32 stores the applicant data (attribute data of the matching applicant) stored in the applicant data storage means 41, and each stored in the matching target person data storage means 42. From the matching target person data (attribute data of the matching target person registered before the request for matching by the applicant), as shown in FIGS. 2 and 3, self-industry and self-PR (free description format) are used as self-data. (Text data) is acquired, desired industry and needs details (text data in free description format) are acquired as needs data, the processing of [α] by the combined text data creation means 32 is executed, and the acquired self-data and the acquired self-data and The needs data is combined to create combined text data for all matching target persons (including applicants) (step S42).

さらに、結合テキストデータ作成手段32により、図2および図3に示すように、[α]の処理で得られた結合テキストデータに対し、[β]不要な記号やタグ等の除去処理と、[γ]形態素解析で単語に分解し、名詞のみを抽出する処理と、[δ]不要な単語の除去処理とを実行し、全てのマッチング対象者(希望者を含む)についての処理後の結合テキストデータを作成する(ステップS43)。[δ]までの処理を経た状態では、処理後の結合テキストデータは、図3の下部に示すように、各単語とそれらの出現回数との関係を示すデータであり、これにより全てのマッチング対象者(希望者を含む)についての結合テキストデータにおける各単語の出現確率が得られたことになる。 Further, as shown in FIGS. 2 and 3, the combined text data creating means 32 removes [β] unnecessary symbols, tags, etc. from the combined text data obtained in the process of [α], and []. γ] The process of decomposing into words by morphological analysis and extracting only nouns and [δ] the process of removing unnecessary words are executed, and the combined text after processing for all matching target persons (including applicants) Data is created (step S43). In the state of undergoing the processing up to [δ], the combined text data after the processing is data showing the relationship between each word and the number of times they appear, as shown in the lower part of FIG. 3, thereby all matching targets. It means that the appearance probability of each word in the combined text data for the person (including the applicant) is obtained.

なお、図7に示す事前の学習処理(希望者によるマッチングの依頼前における学習処理)でマッチング対象者データ記憶手段42に記憶されている各マッチング対象者データを用いて上記[α]〜[δ]の処理を実行して得られた処理後の結合テキストデータが保存されている場合には、その保存されている処理後の結合テキストデータを用いればよいので、ステップS42,S43で、希望者以外のマッチング対象者についての上記[α]〜[δ]の処理を再度実行する必要はない。 It should be noted that the above [α] to [δ] are used by using each matching target person data stored in the matching target person data storage means 42 in the prior learning process (learning process before the request for matching by the desired person) shown in FIG. ] Is executed, and the combined text data after the processing is saved, the saved combined text data after the processing may be used. Therefore, in steps S42 and S43, the applicant It is not necessary to re-execute the above-mentioned processes [α] to [δ] for the matching target persons other than the above.

続いて、トピック推定手段33により、結合テキストデータ作成手段32により作成された希望者を含む多数のマッチング対象者の処理後の結合テキストデータ(図3の下部参照)を用いて、ソフトクラスタリングまたはニューラル言語モデルで、ギブスサンプリング等を行うことにより、希望者(i=n+1)を含む各マッチング対象者の結合テキストデータ(i)におけるトピック分布π(i)(i=1〜(n+1))(トピック番号=1〜Kの各トピックの出現確率を示すトピック値であり、K次元の縦ベクトルπ(i))、および、各トピック(トピック番号=1〜K)における各単語(1〜p番目の単語)の出現確率(K行p列の行列β)を求めるトピック推定処理を実行し、このトピック推定処理で得られたπ(i)(i=1〜(n+1))およびβを、トピックモデルとしてトピックモデル記憶手段44に記憶させる(ステップS44)。 Subsequently, the topic estimation means 33 uses the processed combined text data (see the lower part of FIG. 3) of a large number of matching target persons including the applicant created by the combined text data creating means 32, and soft clustering or neural. By performing Gibbs sampling etc. in the language model, the topic distribution π (i) (i = 1 to (n + 1)) (topic) in the combined text data (i) of each matching target including the applicant (i = n + 1). It is a topic value indicating the appearance probability of each topic with numbers = 1 to K, and is a K-dimensional vertical vector π (i)) and each word (1st to pth) in each topic (topic number = 1 to K). A topic estimation process for obtaining the appearance probability of a word) (matrix β in rows K and p columns) is executed, and π (i) (i = 1 to (n + 1)) and β obtained in this topic estimation process are used as a topic model. Is stored in the topic model storage means 44 (step S44).

それから、単語重要度ベクトル算出手段35により、希望者の結合テキストデータ(結合テキストデータ作成手段32による[δ]までの処理を経た後に残った単語の集合)についての単語重要度ベクトル(各単語のTFIDF値またはその他の単語重要度指標値)を算出し、算出した単語重要度ベクトルを、希望者の識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段45に記憶させる(ステップS45)。なお、希望者以外のマッチング対象者の結合テキストデータについての単語重要度ベクトルは、図7の事前の学習処理で算出され、単語重要度ベクトル記憶手段45に記憶されている。 Then, the word importance vector calculation means 35 is used to obtain a word importance vector (a set of words remaining after the processing up to [δ] by the combined text data creation means 32) of the applicant (for each word). The TFIDF value or other word importance index value) is calculated, and the calculated word importance vector is stored in the word importance vector storage means 45 in association with the identification information (case number) of the applicant (step S45). The word importance vector for the combined text data of the matching target person other than the desired person is calculated by the prior learning process of FIG. 7 and stored in the word importance vector storage means 45.

続いて、マッチング用特徴データ作成手段36により、図5に示すように、希望者の識別情報(案件番号)と、マッチング相手の候補者となる全ての既登録のマッチング対象者の識別情報(案件番号)とからなる複数のペアを用意する。前述した図8の場合と同様である。 Subsequently, by the matching feature data creating means 36, as shown in FIG. 5, the identification information (case number) of the applicant and the identification information (case) of all the registered matching target persons who are candidates for the matching partner. Prepare multiple pairs consisting of numbers). This is the same as the case of FIG. 8 described above.

具体的には、マッチング用特徴データ作成手段36により、上記のように用意した複数のペアについて、トピックモデル記憶手段44に記憶されている希望者および各候補者の結合テキストデータにおけるトピック分布π(i)(i=1〜(n+1))(トピック番号=1〜Kの各トピックの出現確率を示すトピック値)と、希望者データ記憶手段41に記憶されている希望者データに含まれるニーズフラグおよび年商と、マッチング対象者データ記憶手段42に記憶されている各候補者のマッチング対象者データに含まれるニーズフラグおよび年商とを用いて、図4に示すようにして合成変数(ここでは、一例として、トピック分布の積、トピック分布の差の絶対値、ニーズフラグの論理和、年商の比の値等とする。)を算出する(ステップS46)。 Specifically, the topic distribution π (in the combined text data of the applicant and each candidate stored in the topic model storage means 44 for the plurality of pairs prepared as described above by the matching feature data creation means 36) i) (i = 1 to (n + 1)) (topic value indicating the appearance probability of each topic of topic number = 1 to K) and a need flag included in the applicant data stored in the applicant data storage means 41. And the annual sales, and the needs flag and the annual sales included in the matching target person data of each candidate stored in the matching target person data storage means 42, as shown in FIG. As an example, the product of the topic distributions, the absolute value of the difference in the topic distributions, the logical sum of the needs flags, the value of the ratio of the annual sales, etc.) are calculated (step S46).

そして、以降のステップS47,S48,S49の処理は、前述した図8のステップS27,S28,S29と同様である。 The subsequent processes of steps S47, S48, and S49 are the same as those of steps S27, S28, and S29 of FIG. 8 described above.

<本実施形態の効果> <Effect of this embodiment>

このような本実施形態によれば、次のような効果がある。すなわち、マッチングシステム10では、多数のマッチング対象者の自己データとニーズデータとを結合して結合テキストデータを作成し、これらの結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行してトピック分布(各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値)を求め、求めたトピック分布を用いて、教師あり分類モデルによる機械学習を行うことによりマッチングモデルを構築し、そのマッチングモデルによりマッチングの希望者と各候補者とのマッチングを行うので、手動によるキーワード変換作業が不要となり、属人的な操作の排除を実現することができる。 According to the present embodiment as described above, there are the following effects. That is, in the matching system 10, combined text data is created by combining the self-data and needs data of a large number of matching subjects, and the combined text data is used to perform topic estimation processing by soft clustering or a neural language model. Execute to obtain the topic distribution (topic value indicating the appearance probability of each topic in the combined text data of each matching target person), and use the obtained topic distribution to perform machine learning with a supervised classification model to create a matching model. Since it is constructed and the matching model is used to match the applicant for matching with each candidate, manual keyword conversion work becomes unnecessary, and personal operations can be eliminated.

このため、従来のようなキーワード変換作業に要する時間や手間を省くことができ、サービス担当者の負荷軽減を図ることができる。また、ノウハウに基づく個人判断を伴う作業がなくなるので、サービス担当者間の作業内容のばらつきを無くすことができ、一律なサービスの提供を実現することができる。 Therefore, it is possible to save the time and effort required for the conventional keyword conversion work, and it is possible to reduce the load on the service staff. In addition, since work that involves individual judgment based on know-how is eliminated, it is possible to eliminate variations in work content among service personnel, and it is possible to realize uniform service provision.

さらに、トピック推定処理で得られたトピック分布を利用してマッチングモデルの機械学習を行うので、マッチング対象者の登録情報(自己データ、ニーズデータ)を多面的に、かつ、的確に捉えた特徴量(マッチング用特徴データ)を作成し、適切なスコアリングを実施することができる。このため、情報の欠落を抑えることができる。従って、従来のキーワードマッチの場合には、マッチングニーズをキーワードへ変換した際に、情報の欠落が生じ、所望の検索結果が得られない可能性もあったが、そのような事態を回避することができる。そして、従来手法では、検索キーワードの変更により、出力結果が大きく異なる可能性があり、機会損失に繋がりやすいという問題もあったが、そのような問題も解消することができる。 Furthermore, since machine learning of the matching model is performed using the topic distribution obtained by the topic estimation process, the feature amount that accurately and multifacetedly captures the registration information (self-data, needs data) of the matching target person. (Characteristic data for matching) can be created and appropriate scoring can be performed. Therefore, the lack of information can be suppressed. Therefore, in the case of conventional keyword matching, when the matching needs are converted into keywords, information may be lost and the desired search result may not be obtained. However, such a situation should be avoided. Can be done. Then, in the conventional method, there is a problem that the output result may be significantly different depending on the change of the search keyword, which tends to lead to opportunity loss, but such a problem can be solved.

また、マッチングの希望者に対し、登録されているマッチング対象者の全部を候補者とし、希望者と各候補者とのマッチング確度のスコアリングを実施することができるため、機会損失に陥りにくい。また、スコアの高低を参照し、稼働可能性の高いマッチング対象者(本実施形態では、実際に共同で、提携して、または協力して事業を行う可能性の高い企業)の情報を任意の件数閲覧することができる。 In addition, since it is possible to perform scoring of the matching accuracy between the applicant and each candidate by using all the registered matching target persons as candidates for the matching applicant, it is unlikely to fall into an opportunity loss. In addition, referring to the high and low scores, information on matching targets with high operability (in this embodiment, companies that are likely to actually jointly, collaborate, or cooperate in business) can be arbitrarily provided. You can browse the number of cases.

さらに、登録されているマッチング対象者の全部を候補者とし、機械的にスコアリングを実施することができるため、マッチング対象者の登録が増加しても、それに伴うサービス担当者の負担の増加を回避することができる。 Furthermore, since all the registered matching target persons can be selected as candidates and scoring can be performed mechanically, even if the registration of matching target persons increases, the burden on the service staff will increase accordingly. It can be avoided.

また、マッチング用特徴データを作成する際には、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られたトピック分布(各トピックの出現確率を示すトピック値)を用いるので、希望者や各候補者の属性データ(希望者データや各候補者のマッチング対象者データ)として、トピックに相当する情報(本実施形態では、業種(事業分野)が考えられる。)を用意しておく必要がないので、この点でもサービス担当者の負担軽減を図ることができる。 In addition, when creating feature data for matching, the topic distribution (topic value indicating the appearance probability of each topic) obtained by executing topic estimation processing by soft clustering or neural language model is used, so applicants and applicants It is necessary to prepare information corresponding to the topic (in this embodiment, an industry (business field) can be considered) as attribute data of each candidate (applicant data and matching target data of each candidate). Since there is no such thing, the burden on the service staff can be reduced in this respect as well.

さらに、マッチング用特徴データ作成手段36は、図4に示すように、トピック値の積、およびトピック値の差の絶対値を、合成変数として用いることができる。このため、希望者と候補者との双方(ペアとなるマッチング対象者の双方)のトピック分布(各トピック値)をそのままマッチング用特徴データとして用いる場合に比べ、適切なスコアリングを行うことができる。 Further, as shown in FIG. 4, the matching feature data creating means 36 can use the product of the topic values and the absolute value of the difference between the topic values as synthetic variables. Therefore, appropriate scoring can be performed as compared with the case where the topic distribution (each topic value) of both the applicant and the candidate (both of the paired matching target persons) is used as it is as the matching feature data. ..

すなわち、ペア双方のトピック分布をそのままマッチング用特徴データとして用いると、学習時において、学習用データに偏りが生じ、偏った学習が行われる可能性がある。より具体的には、例えば、学習用データに、多く現れるパターン(ここでは、多く現れるトピック分布)に対し、比較的高いスコアを与えるマッチングモデル(スコアリングモデル)が構築される可能性がある。これに対し、マッチング対象者のペアの特徴を示すような新たな合成変数を生成することで、偏った学習を回避することができる。 That is, if the topic distributions of both pairs are used as they are as the matching feature data, the learning data may be biased at the time of learning, and biased learning may be performed. More specifically, for example, there is a possibility that a matching model (scoring model) that gives a relatively high score to a pattern that appears frequently (here, a topic distribution that appears frequently) is constructed in the training data. On the other hand, by generating a new synthetic variable that shows the characteristics of the pair of matching target persons, it is possible to avoid biased learning.

なお、ペア双方のトピック値の積は、ペア双方のトピック分布の重なり度合いを表し、ペア双方のトピック値の差の絶対値は、ペア双方のトピック分布の差異・広がりを表していると考えられる。 It is considered that the product of the topic values of both pairs represents the degree of overlap of the topic distributions of both pairs, and the absolute value of the difference between the topic values of both pairs represents the difference / spread of the topic distributions of both pairs. ..

そして、合成変数を用いることによる効果は、次のような実験[1]、[2]を行うことで確認することができた。すなわち、既登録のマッチング対象者(ここでは企業)の属性データ(マッチング対象者データ)を用いて、案件番号(マッチング対象者の識別情報)のペアについてのマッチング用特徴データを多数用意し、それらを学習用データ(70%)と、評価用データ(30%)とに分割した。学習用データ(70%)および評価用データ(30%)の各々には、正例(正解データ)および負例(不正解データ)が含まれている。 The effect of using synthetic variables could be confirmed by conducting the following experiments [1] and [2]. That is, using the attribute data (matching target person data) of the already registered matching target person (company in this case), a large number of matching feature data for the pair of matter numbers (matching target person identification information) are prepared, and they are used. Was divided into training data (70%) and evaluation data (30%). Each of the training data (70%) and the evaluation data (30%) contains a positive example (correct answer data) and a negative example (incorrect answer data).

トピック推定処理用の「ソフトクラスタリングまたはニューラル言語モデル」には、LDAを採用し、マッチング処理用(スコアリング用)の「教師あり分類モデル」には、ランダム・フォレストを採用した。 LDA was adopted for the "soft clustering or neural language model" for topic estimation processing, and random forest was adopted for the "supervised classification model" for matching processing (for scoring).

実験[1]では、ペア双方の7つのニーズフラグを合成変数とすることなく、そのまま7×2=14次元のデータとして、マッチング用特徴データに含めるとともに、ペア双方のトピック分布(トピック数K=20)についても、合成変数とすることなく、そのまま20×2=40次元のデータとして、マッチング用特徴データに含め、合計で54次元のマッチング用特徴データを作成した。 In the experiment [1], the seven needs flags of both pairs were not used as synthetic variables, but were included as 7 × 2 = 14-dimensional data in the matching feature data, and the topic distribution of both pairs (number of topics K =). As for 20), 54-dimensional matching feature data was created in total by including it as 20 × 2 = 40-dimensional data as it is without using it as a composite variable.

一方、実験[2]では、ペア双方の7つのニーズフラグによる合成変数(論理和)を算出し、7次元のデータとして、マッチング用特徴データに含めるとともに、ペア双方のトピック分布(トピック数K=20)についても、2種類の合成変数(積、および、差の絶対値)を算出し、20×2=40次元のデータとして、マッチング用特徴データに含め、さらにペア双方の文書長の合成変数(比の値)を算出し、1次元のデータとして、マッチング用特徴データに含め、合計で48次元のマッチング用特徴データを作成した。 On the other hand, in the experiment [2], the composite variable (logical sum) based on the seven needs flags of both pairs is calculated and included in the matching feature data as 7-dimensional data, and the topic distribution of both pairs (number of topics K =). For 20), two types of composite variables (product and absolute value of difference) are calculated and included in the matching feature data as 20 × 2 = 40-dimensional data, and the composite variable of the document length of both pairs. (Ratio value) was calculated and included in the matching feature data as one-dimensional data to create a total of 48-dimensional matching feature data.

そして、学習用データ(70%)を用いて、マッチングモデル(スコアリング用のモデル)の学習を行った。この際、正例(正解データ)には、選定(=1)のタグ付けを行い、負例(不正解データ)には、非選定(=0)のタグ付けを行っている。 Then, the matching model (model for scoring) was trained using the training data (70%). At this time, the correct example (correct answer data) is tagged with selection (= 1), and the negative example (incorrect answer data) is tagged with non-selection (= 0).

続いて、上記の学習を行って構築したマッチングモデル(スコアリング用のモデル)に対し、評価用データ(30%)を入力し、スコアを得た。スコアが0.5以上になった案件は、選定されたものとして評価し、0.5未満になった案件は、選定されなかったものとして評価した。 Subsequently, evaluation data (30%) was input to the matching model (model for scoring) constructed by performing the above learning, and a score was obtained. Projects with a score of 0.5 or more were evaluated as selected, and projects with a score of less than 0.5 were evaluated as not selected.

実験[1]では、適合率(Precision)=0.767、再現率(Recall)=0.750、F1値(適合率と再現率との調和平均)=0.756となった。また、正確度(Accuracy)=0.833となった。 In the experiment [1], the precision rate (Precision) = 0.767, the recall rate (Recall) = 0.750, and the F1 value (harmonic mean of the precision rate and the recall rate) = 0.756. Moreover, the accuracy (Accuracy) was 0.833.

一方、実験[2]では、適合率(Precision)=0.781、再現率(Recall)=0.803、F1値(適合率と再現率との調和平均)=0.792となった。また、正確度(Accuracy)=0.854となった。 On the other hand, in the experiment [2], the precision rate (Precision) = 0.781, the recall rate (Recall) = 0.803, and the F1 value (harmonic mean of the precision rate and the recall rate) = 0.792. Moreover, the accuracy (Accuracy) was 0.854.

従って、実験[1]および実験[2]の双方において、適合率、再現率、F1値、正確度のいずれについても高い数値が得られたので、本発明の効果が顕著に示されるとともに、実験[2]の方が、実験[1]よりも高い数値であったため、合成変数を用いると、より適切なスコアリングを行うことができることがわかった。 Therefore, in both the experiment [1] and the experiment [2], high values were obtained for all of the precision, recall, F1 value, and accuracy, so that the effect of the present invention was remarkably shown and the experiment was performed. Since the value of [2] was higher than that of the experiment [1], it was found that more appropriate scoring can be performed by using the synthetic variable.

また、マッチングシステム10は、単語重要度ベクトル算出手段35を備えているので、TFIDFベクトルまたはその他の単語重要度ベクトルの内積を、マッチング用特徴データに含めることができる。このため、単語重要度により、結合テキストデータに含まれる特徴を、より強調したマッチング用特徴データを作成することができ、より適切なスコアリングを行うことができる。 Further, since the matching system 10 includes the word importance vector calculating means 35, the inner product of the TFIDF vector or other word importance vectors can be included in the matching feature data. Therefore, depending on the word importance, it is possible to create matching feature data in which the features included in the combined text data are emphasized, and more appropriate scoring can be performed.

さらに、ペア双方の単語重要度ベクトルは、そのままマッチング用特徴データとして用いることもできるが、本実施形態では、ペア双方の単語重要度ベクトルの内積を求め、求めた内積をマッチング用特徴データとして用いることができるので、マッチング用特徴データの次元数を小さくできるとともに、前述したトピック分布で合成変数を生成した場合と同様に、そのまま用いるのではなく、合成変数を生成することで、より適切なスコアリングを行うことができる。 Further, the word importance vectors of both pairs can be used as they are as the matching feature data, but in the present embodiment, the inner product of the word importance vectors of both pairs is obtained, and the obtained inner product is used as the matching feature data. Therefore, the number of dimensions of the matching feature data can be reduced, and a more appropriate score can be obtained by generating the composite variable instead of using it as it is, as in the case of generating the composite variable with the topic distribution described above. You can make a ring.

また、マッチング用特徴データ作成手段36は、ニーズフラグをマッチング用特徴データに含めることができるので、希望者および各候補者の持つニーズの種類がマッチング用特徴データに反映されるため、より適切なスコアリングを行うことができる。 Further, since the matching feature data creating means 36 can include the needs flag in the matching feature data, the types of needs of the applicant and each candidate are reflected in the matching feature data, which is more appropriate. Can perform scoring.

そして、マッチング用特徴データ作成手段36は、ニーズフラグによる合成変数(例えば、双方のニーズフラグの論理和、論理積、排他的論理和、否定論理和、否定論理積、否定排他的論理和、算術和等)をマッチング用特徴データに含めることができるので、前述したトピック分布で合成変数を生成した場合と同様に、ニーズフラグをそのまま用いるのではなく、合成変数を生成して用いることで、より適切なスコアリングを行うことができる。 Then, the matching feature data creating means 36 uses a composite variable based on the needs flags (for example, logical sum, logical product, exclusive logical sum, negative logical sum, negative logical product, negative exclusive logical sum, arithmetic) of both needs flags. Since sum, etc.) can be included in the matching feature data, it is possible to generate and use the composite variable instead of using the needs flag as it is, as in the case of generating the composite variable with the topic distribution described above. Appropriate scoring can be performed.

また、マッチングシステム10は、ビジネスマッチングを行うシステムであるため、トピック推定処理で得られる各トピックとして、業種(事業分野)を想定することができる。このため、結合テキストデータの特徴を的確に反映したマッチング用特徴データを作成することができ、適切なスコアリングを行うことができる。すなわち、ビジネスマッチングを行う場合、自己データとニーズデータとを結合した結合テキストデータには、ビジネスに関連する記述が多いことから、トピックとして、業種(事業分野)を想定することができるので、レイテント・ディリクレ・アロケーション(LDA)で指定するトピック数Kを、分類したい業種(事業分野)の数に設定することができる。このため、システム構築者の設計イメージと、LDAによるトピック推定処理の結果とを一致させやすいので、適切なシステム設計を行うことができる。 Further, since the matching system 10 is a system for performing business matching, it is possible to assume an industry (business field) as each topic obtained by the topic estimation process. Therefore, matching feature data that accurately reflects the features of the combined text data can be created, and appropriate scoring can be performed. In other words, when performing business matching, since there are many business-related descriptions in the combined text data that combines self-data and needs data, it is possible to assume the type of business (business field) as a topic. -The number of topics K specified in Dirichlet Allocation (LDA) can be set to the number of industries (business fields) to be classified. Therefore, it is easy to match the design image of the system builder with the result of the topic estimation process by LDA, so that an appropriate system design can be performed.

<変形の形態> <Form of deformation>

なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。 The present invention is not limited to the above-described embodiment, and modifications and the like within a range in which the object of the present invention can be achieved are included in the present invention.

例えば、前記実施形態では、新たなマッチング対象者として、1人(1個人、1法人、または1団体)の希望者(マッチングの依頼者)が現れたときに、希望者データを含めたトピックモデルの再学習を行わない場合(図8参照)の運用時の処理と、希望者データを含めてトピックモデルの再学習を行う場合(図9参照)の運用時の処理とに分けて、説明を行っていたが、次のような運用を行うことができる。すなわち、1人の希望者が現れる都度に、図9のようにトピックモデルの再学習を行うのではなく、複数の希望者について、図8のようにトピックモデルの再学習を行わずに対応し、ある程度の数の希望者が現れたら、図9のようにトピックモデルの再学習を行って対応してもよい。具体的には、例えば、1人目から9人目までの希望者が現れたときには、図8のようにトピックモデルの再学習を行わずに対応し、10人目の希望者が現れたときに、その10人目の希望者についての希望者データを含めて(当然、1人目から9人目までの希望者についての希望者データも含まれるが、その時には、これらの9人の希望者データは、既に登録済のマッチング対象者データになっていてマッチング対象者データ記憶手段42のほうに記憶されている。)、図9のようにトピックモデルの再学習を行って対応してもよい。 For example, in the above embodiment, when one applicant (one individual, one corporation, or one organization) (matching requester) appears as a new matching target person, a topic model including applicant data is included. The explanation will be divided into the operation-time processing when the re-learning is not performed (see Fig. 8) and the operation-time processing when the topic model is re-learned including the applicant data (see Fig. 9). It was done, but the following operations can be performed. That is, instead of re-learning the topic model as shown in FIG. 9 each time one applicant appears, it is possible to deal with a plurality of applicants without re-learning the topic model as shown in FIG. When a certain number of applicants appear, the topic model may be relearned as shown in FIG. Specifically, for example, when the 1st to 9th applicants appear, the topic model is not relearned as shown in FIG. 8, and when the 10th applicant appears, the request is made. Including the applicant data for the 10th applicant (naturally, the applicant data for the 1st to 9th applicants is also included, but at that time, these 9 applicant data have already been registered. The matching target person data has already been stored and is stored in the matching target person data storage means 42), and the topic model may be relearned as shown in FIG.

また、トピックモデルの更新(再学習)は、いつ行ってもよく、希望者が現れたタイミングで行う必要はない。つまり、必ずしも図9のように運用時の処理として行う必要はない。具体的には、例えば、1人目から10人目までの希望者が現れたときには、図8のようにトピックモデルの再学習を行わずに対応する。そして、11人目の希望者が現れる前に、1人目から10人目までの希望者についての希望者データ(この段階では、10人の希望者データは、既に登録済のマッチング対象者データになっていてマッチング対象者データ記憶手段42のほうに記憶されている。)を含めて再学習を行い、トピックモデルの更新を行う。従って、この場合のトピックモデルの更新は、図7に示す事前の学習に相当する。そして、11人目の希望者が現れたときには、更新後のトピックモデルで対応することになるが、図8のように、11人目の希望者データを含めたトピックモデルの再学習を行わずに対応する。 In addition, the topic model may be updated (re-learned) at any time, and it is not necessary to update the topic model at the timing when the applicant appears. That is, it is not always necessary to perform the process during operation as shown in FIG. Specifically, for example, when the first to tenth applicants appear, the topic model is not re-learned as shown in FIG. Then, before the 11th applicant appears, the applicant data for the 1st to 10th applicants (at this stage, the 10 applicant data are already registered matching target data. The topic model is updated by re-learning including the matching target person data storage means 42). Therefore, updating the topic model in this case corresponds to the prior learning shown in FIG. 7. Then, when the 11th applicant appears, the updated topic model will be used, but as shown in FIG. 8, the topic model including the 11th applicant data will not be re-learned. To do.

さらに、前記実施形態では、図8および図9に示すように、新たなマッチング対象者としてのマッチングの希望者(依頼者)が現れたときに、この希望者と各候補者とのマッチングを行う構成とされていたが、図10に示すように、既登録(既存)のマッチング対象者の中で、特定目的のマッチングを行う構成としてもよい。この特定目的には、標準的な特定目的と、特殊な特定目的とがある。 Further, in the above-described embodiment, as shown in FIGS. 8 and 9, when a new matching target person (requester) appears, the applicant is matched with each candidate. Although it was configured, as shown in FIG. 10, it may be configured to perform matching for a specific purpose among the registered (existing) matching target persons. This specific purpose includes a standard specific purpose and a special specific purpose.

標準的な特定目的は、既登録(既存)のマッチング対象者が、例えば10万社であったとすると、その中の1社が、特定対象者として入力指定され、残りの99,999社が各候補者となり、99,999のペアについてのマッチング用特徴データが作成され、特定対象者に対して各候補者が選定される確度を示すスコアとして、99,999個のスコアが出力される。 As for the standard specific purpose, if the number of registered (existing) matching targets is, for example, 100,000 companies, one of them is designated as a specific target person, and the remaining 99,999 companies are each. Matching feature data for 99,999 pairs will be created as candidates, and 99,999 scores will be output as scores indicating the probability that each candidate will be selected for a specific target person.

特殊な特定目的としては、既登録(既存)のマッチング対象者が、例えば10万社であったとすると、その中の複数社(例えば、10社)が、特定対象者として入力指定され、残りの99,990社が各候補者となり、この残りの99,990社の中から、複数の特定対象者(例えば、10社)が集団ミーティング等を行うのに適している同数(例えば、10社)の各候補者を選ぶ。この場合は、複数の特定対象者(例えば、10社)の各々と、残りの99,990社の各候補者とのマッチング用特徴データが作成され、複数の特定対象者(例えば、10社)の各々に対して各候補者が選定される確度を示すスコアとして、10×99,990個のスコアが出力される。そして、出力されたスコアを用いて、最適化計算処理を行い、複数の特定対象者(例えば、10社)の全てが満足するような同数(例えば、10社)の各候補者を選ぶ。但し、同数というのは、一例であり、同数に限定されるものではない。なお、複数の特定対象者(例えば、10社)のうちの1社に対する上位10位以内のスコアの各候補者は、複数の特定対象者(例えば、10社)のうちの別の1社に対する上位10位以内のスコアの各候補者と一致しないのが通常である。従って、最適化計算処理を行い、選ばれた同数(例えば、10社)の各候補者が、複数の特定対象者(例えば、10社)のいずれから見ても適切なマッチング相手であるようにする。 As a special specific purpose, if the number of registered (existing) matching target persons is, for example, 100,000 companies, a plurality of companies (for example, 10 companies) among them are input-designated as specific target persons, and the rest. 99,990 companies are candidates, and from the remaining 99,990 companies, the same number (for example, 10 companies) suitable for a plurality of specific target persons (for example, 10 companies) to hold a group meeting or the like. Select each candidate. In this case, feature data for matching between each of the plurality of specific target persons (for example, 10 companies) and each candidate of the remaining 99,990 companies is created, and the plurality of specific target persons (for example, 10 companies) are created. As a score indicating the probability that each candidate will be selected for each of the above, 10 × 99,990 scores are output. Then, the optimized calculation process is performed using the output score, and the same number (for example, 10 companies) of each candidate is selected so that all of the plurality of specific target persons (for example, 10 companies) are satisfied. However, the same number is an example and is not limited to the same number. It should be noted that each candidate with a score within the top 10 for one of a plurality of specific target persons (for example, 10 companies) is for another one of a plurality of specific target persons (for example, 10 companies). It usually does not match each candidate with a score within the top ten. Therefore, the optimization calculation process is performed so that each candidate of the same number (for example, 10 companies) selected is an appropriate matching partner from the viewpoint of any of a plurality of specific target persons (for example, 10 companies). To do.

この最適化計算処理のルールは任意であり、例えば、複数の特定対象者A,B,C,D,…(例えば、10社)が指定されたときに、特定対象者Aに対する同数(例えば、10社)の各候補者のスコアの合計値、特定対象者Bに対する同数(例えば、10社)の各候補者のスコアの合計値、特定対象者Cに対する同数(例えば、10社)の各候補者のスコアの合計値…を求め、これらの合計値の合計値が最大になるように、同数(例えば、10社)の各候補者を選ぶことができる。 The rule of this optimization calculation process is arbitrary. For example, when a plurality of specific target persons A, B, C, D, ... (For example, 10 companies) are specified, the same number for the specific target person A (for example, 10 companies) is specified. The total score of each candidate (10 companies), the total score of each candidate with the same number (for example, 10 companies) for the specific target B, and the same number (for example, 10 companies) for each candidate C. The total value of the scores of the persons can be obtained, and the same number of candidates (for example, 10 companies) can be selected so that the total value of these total values is maximized.

また、複数の特定対象者(例えば、10社)の各々に対するスコアの順位が1位の各候補者を選び、重複が生じた場合に、スコアの順位が2位以下の候補者を選ぶといったルールでもよい。例えば、特定対象者Aに対するスコアの順位が1位の候補者、特定対象者Bに対するスコアの順位が1位の候補者、特定対象者Cに対するスコアの順位が1位の候補者、…を選び、選んだ各候補者に重複がなければ、それで同数(例えば、10社)の候補者を決定する。一方、例えば、特定対象者Aに対するスコアの順位が1位の候補者と、特定対象者Bに対するスコアの順位が1位の候補者とが一致していた場合には、候補者が1社足りない状態となるので、特定対象者Aに対するスコアの順位が2位の候補者と、特定対象者Bに対するスコアの順位が2位の候補者とのうち、スコアが大きいほうの候補者を選ぶ。また、例えば、特定対象者Aに対するスコアの順位が1位の候補者と、特定対象者Bに対するスコアの順位が1位の候補者と、特定対象者Cに対するスコアの順位が1位の候補者とが一致していた場合には、候補者が2社足りない状態となるので、特定対象者Aに対するスコアの順位が2位の候補者と、特定対象者Bに対するスコアの順位が2位の候補者と、特定対象者Cに対するスコアの順位が2位の候補者との中から、スコアが大きい候補者を2社選ぶ。この際、特定対象者Aに対するスコアの順位が2位の候補者と、特定対象者Bに対するスコアの順位が2位の候補者と、特定対象者Cに対するスコアの順位が2位の候補者とが一致していた場合には、その候補者を選ぶとともに、候補者が1社足りない状態となるので、特定対象者Aに対するスコアの順位が3位の候補者と、特定対象者Bに対するスコアの順位が3位の候補者と、特定対象者Cに対するスコアの順位が3位の候補者とのうち、スコアが最も大きい候補者を選ぶ。なお、同数ではなく、例えば2倍の数の各候補者を選ぶときには、例えば、複数の特定対象者(例えば、10社)の各々に対するスコアの順位が1位および2位の各候補者を選び、重複が生じた場合には、同様な調整処理を行えばよい。 In addition, a rule that selects each candidate with the highest score ranking for each of a plurality of specific target persons (for example, 10 companies), and selects a candidate with a score ranking of 2nd or lower when duplication occurs. It may be. For example, a candidate having the highest score ranking for the specific target person A, a candidate having the highest score ranking for the specific target person B, a candidate having the highest score ranking for the specific target person C, and so on are selected. If there is no duplication in each of the selected candidates, the same number of candidates (for example, 10 companies) are determined. On the other hand, for example, if the candidate with the highest score ranking for the specific target person A and the candidate with the highest score ranking for the specific target person B match, one candidate is sufficient. Since there is no situation, the candidate with the higher score is selected from the candidate with the second highest score ranking for the specific target person A and the candidate with the second highest score ranking for the specific target person B. Further, for example, a candidate having the highest score ranking for the specific target person A, a candidate having the highest score ranking for the specific target person B, and a candidate having the first highest score ranking for the specific target person C. If they match, the number of candidates is two companies short, so the candidate with the second highest score ranking for the specific target person A and the second highest score ranking for the specific target person B are ranked second. Two companies with the highest scores are selected from the candidates and the candidates with the second highest score ranking for the specific target person C. At this time, the candidate with the second highest score ranking for the specific target person A, the second highest score ranking for the specific target person B, and the second highest score ranking for the specific target person C. If they match, the candidate is selected and one candidate is missing. Therefore, the candidate with the third highest score ranking for the specific target person A and the score for the specific target person B The candidate with the highest score is selected from the candidate with the third highest ranking and the candidate with the third highest score with respect to the specific target person C. When selecting candidates that are not the same number but twice the number, for example, select each candidate whose score rank is 1st and 2nd for each of a plurality of specific target persons (for example, 10 companies). , If duplication occurs, the same adjustment processing may be performed.

図10において、先ず、特定対象者(既存のマッチング対象者の中の1社または複数社)から依頼を受けたサービス担当者、または特定対象者自身が、入力手段80を操作し、特定対象者の識別情報を入力して特定対象者の指定を行うと、入力受付手段31により、この入力が受け付けられる(ステップS61)。なお、この受付時点では、図7の事前の学習処理により、トピックモデルおよびマッチングモデルは既に構築されている。 In FIG. 10, first, the service person in charge of receiving a request from the specific target person (one or more companies among the existing matching target persons) or the specific target person himself operates the input means 80 to operate the specific target person. When the identification information of the above is input and the specific target person is designated, this input is accepted by the input receiving means 31 (step S61). At the time of this reception, the topic model and the matching model have already been constructed by the prior learning process of FIG. 7.

この際、特定対象者(1社)と各候補者との間のスコアを算出するという標準的な特定目的の場合には、その特定対象者(1社)の識別情報を指定すればよく、集団ミーティングや集団面接や合同オーディション等のために複数の特定対象者(例えば、10社)と各候補者との間のスコアを算出するという特殊な特定目的の場合には、それらの複数の特定対象者(例えば、10社)の識別情報を指定すればよい。なお、選ぶ各候補者の数(例えば、同数、2倍の数、3倍の数等、あるいは5社、10社、15社、20社等の数値)も指定する。また、特定対象者(企業)同士の相性を調査するという特殊な特定目的の場合には、ぺア双方の特定対象者の識別情報を指定する。さらに、ある特定対象者(1社)と他の複数の特定対象者(例えば、10社)との相性を調査するという特殊な特定目的の場合には、各ペア双方の特定対象者の識別情報を指定すればよく、例えば、特定対象者Aと他の複数の特定対象者B,C,Dとの相性(AとB、AとC、AとDの各相性)を調査する場合には、特定対象者Aの識別情報と、特定対象者B,C,Dの各識別情報とを指定する。 At this time, in the case of the standard specific purpose of calculating the score between the specific target person (1 company) and each candidate, the identification information of the specific target person (1 company) may be specified. In the case of a special specific purpose of calculating the score between multiple specific target persons (for example, 10 companies) and each candidate for group meetings, group interviews, joint auditions, etc., those multiple identifications The identification information of the target person (for example, 10 companies) may be specified. In addition, the number of each candidate to be selected (for example, the same number, double number, triple number, etc., or numerical values of 5, 10, 15, 20, etc.) is also specified. In addition, in the case of a special specific purpose of investigating the compatibility between specific target persons (companies), the identification information of the specific target persons of both pairs is specified. Furthermore, in the case of a special specific purpose of investigating the compatibility between a specific target person (1 company) and a plurality of other specific target persons (for example, 10 companies), the identification information of the specific target person of both pairs. For example, when investigating the compatibility between the specific target person A and a plurality of other specific target persons B, C, D (the compatibility of A and B, A and C, and A and D), , The identification information of the specific target person A and the identification information of each of the specific target persons B, C, and D are specified.

そして、以降のステップS62,S63,S64,S65の処理は、前述した図8のステップS26,S27,S28,S29と略同様であり、ペアが異なるだけである。すなわち、図8では、新たなマッチング対象者としてのマッチングの希望者がペアに含まれていたが、図10では、特定対象者(既存のマッチング対象者)がペアに含まれている点が異なるだけである。 The subsequent processes of steps S62, S63, S64, and S65 are substantially the same as those of steps S26, S27, S28, and S29 of FIG. 8 described above, except that the pairs are different. That is, in FIG. 8, a person who wishes to match as a new matching target person is included in the pair, but in FIG. 10, a specific target person (existing matching target person) is included in the pair. Only.

また、前記実施形態では、マッチングシステム10は、ビジネスパートナーを紹介するビジネスマッチングを行うシステムであったが、本発明のマッチングシステムは、これに限定されるものではなく、例えば、不動産売買の仲介サービスでの売り手と買い手とのマッチング、事業承継の支援サービスでの承継元の企業(事業を譲渡する企業)と承継先の企業(事業を引き継ぐ企業)とのマッチング、婚活支援サービスでの男女のマッチング、就職希望者と採用企業とのマッチング、進学を希望する高校生と学生を集めたい大学とのマッチング、人事異動を希望する従業員と人材を募集する会社内の部署とのマッチング等を行うシステムでもよく、要するに、自己データおよびニーズデータを用意することができるマッチング対象者同士のマッチングを行うシステムであればよい。この際、自己データおよびニーズデータの用意は、自力で行うことができる必要はなく、代理の者が行ってもよいので、動物であっても、その意思の記述を人間が代理することができる場合には、その動物は、マッチング対象者となり得るため、例えば、動物と動物園とのマッチング、動物と調教師とのマッチング、動物同士のマッチング等を行うシステムも、本発明のマッチングシステムに含まれる。 Further, in the above-described embodiment, the matching system 10 is a system for performing business matching that introduces a business partner, but the matching system of the present invention is not limited to this, for example, an intermediary service for buying and selling real estate. Matching between sellers and buyers, matching between the successor company (the company that transfers the business) and the successor company (the company that takes over the business) in the business succession support service, men and women in the marriage hunting support service A system that performs matching, matching between applicants for employment and hiring companies, matching between high school students who want to go on to school and universities who want to gather students, matching between employees who want to change personnel and departments within the company that recruit human resources, etc. However, in short, any system may be used as long as it is a system for matching between matching target persons who can prepare self-data and needs data. At this time, it is not necessary for the self-data and the needs data to be prepared by oneself, and a substitute person may perform the preparation. Therefore, even if it is an animal, a human can represent the description of its intention. In some cases, the animal can be a matching target, and therefore, for example, a system for matching between an animal and a zoo, matching between an animal and a trainer, matching between animals, and the like is also included in the matching system of the present invention. ..

具体的には、例えば、不動産売買の仲介サービスでの売り手と買い手とのマッチングシステムの場合には、多数の売り手の属性データ(マッチング対象者データ)と、多数の買い手の属性データ(マッチング対象者データ)とを用いて、売り手と買い手との多数のペアのマッチング用特徴データを用意する。そして、これらの多数のペアのマッチング用特徴データに対し、例えば、過去においてマッチング相手の候補者として紹介した実績のあるペアについてのマッチング用特徴データを、正例(正解データ)として選定(=1)のタグ付けを行い、それ以外のペアについてのマッチング用特徴データを、負例(不正解データ)として非選定(=0)のタグ付けを行い、マッチングモデルの学習を行う。なお、売り手や買い手の属性データ(マッチング対象者データ)に含まれる自己データは、不動産の特徴を示しているともいえるが、不動産はニーズデータを持ち得ないので、自己データについても、不動産の特徴ではなく、売り手や買い手の特徴を示しているものと考える。また、売り手や買い手は、個人でも団体でもよいので、不動産売買の仲介サービスは、個人と個人、個人と団体、団体と団体のマッチングが混在した状態となる。 Specifically, for example, in the case of a matching system between a seller and a buyer in a real estate sales brokerage service, a large number of seller attribute data (matching target data) and a large number of buyer attribute data (matching target data). Data) is used to prepare feature data for matching a large number of pairs of sellers and buyers. Then, for the matching feature data of these large numbers of pairs, for example, matching feature data for pairs that have been introduced as candidates for matching partners in the past is selected as a correct example (correct answer data) (= 1). ), And the matching feature data for the other pairs is tagged as a negative example (incorrect answer data) with non-selection (= 0), and the matching model is trained. It can be said that the self-data included in the attribute data (matching target person data) of the seller and the buyer shows the characteristics of the real estate, but since the real estate cannot have the needs data, the self-data is also the characteristics of the real estate. Rather, it is considered to indicate the characteristics of sellers and buyers. Further, since the seller and the buyer may be individuals or groups, the real estate sales brokerage service is in a state where matching of individuals and individuals, individuals and groups, and groups and groups is mixed.

同様に、事業承継の支援サービスでの承継元の企業(事業を譲渡する企業)と承継先の企業(事業を引き継ぐ企業)とのマッチングシステムの場合には、多数の承継元の企業の属性データ(マッチング対象者データ)と、多数の承継先の企業の属性データ(マッチング対象者データ)とを用いて、承継元の企業と承継先の企業との多数のペアのマッチング用特徴データを用意し、マッチングモデルの学習を行う。承継元の企業(事業を譲渡する企業)のニーズデータには、どのような企業に事業を引き継いで欲しいか等の記載がある。 Similarly, in the case of a matching system between the successor company (the company that transfers the business) and the successor company (the company that takes over the business) in the business succession support service, the attribute data of a large number of successor companies. Using (matching target person data) and attribute data of a large number of successor companies (matching target person data), feature data for matching a large number of pairs of the successor company and the successor company is prepared. , Learn the matching model. The needs data of the successor company (the company that transfers the business) includes a description of what kind of company wants the business to be taken over.

また、婚活支援サービスでの男女のマッチングを行うマッチングシステムの場合には、多数の男性の属性データ(マッチング対象者データ)と、多数の女性の属性データ(マッチング対象者データ)とを用いて、多数の男女ペアのマッチング用特徴データを用意する。そして、これらの多数の男女ペアのマッチング用特徴データに対し、例えば、過去においてマッチング相手の候補者として紹介した実績のある男女ペアについてのマッチング用特徴データを、正例(正解データ)として選定(=1)のタグ付けを行い、それ以外の男女ペアについてのマッチング用特徴データを、負例(不正解データ)として非選定(=0)のタグ付けを行い、マッチングモデルの学習を行う。 In addition, in the case of a matching system that matches men and women in the marriage hunting support service, a large number of male attribute data (matching target data) and a large number of female attribute data (matching target data) are used. , Prepare feature data for matching a large number of male and female pairs. Then, for the matching feature data of these large numbers of male and female pairs, for example, matching feature data for male and female pairs that have been introduced as candidates for matching partners in the past is selected as a correct example (correct answer data) (correct answer data). = 1) is tagged, and the matching feature data for other male and female pairs is tagged as a negative example (incorrect answer data) with no selection (= 0), and the matching model is trained.

なお、男女を区別することなく、マッチング対象者のペアについてのマッチング用特徴データを用意し、すなわち、男女ペアのみならず、男性同士のペアや、女性同士のペアのマッチング用特徴データを用意し、マッチングモデルの学習を行ってもよい。同性同士のタグ付けでは、友人として紹介した実績のあるペアについてのマッチング用特徴データを、正例(正解データ)として選定(=1)のタグ付けを行うこと等ができる。運用時におけるマッチング処理の際には、マッチングの希望者が男性であり、女性とのマッチングを希望している場合には、希望者である男性と、登録されている全ての女性とからなる複数のペアについてのマッチング用特徴データを作成し、それらをマッチングモデルに入力し、女性である各候補者が選定される確度を示すスコアを出力すればよい。また、マッチングの希望者が男性であり、女性とのマッチングを希望するとともに、友人を探すことも希望している場合には、希望者である男性と、登録されている全ての男女とからなる複数のペアについてのマッチング用特徴データを作成し、それらをマッチングモデルに入力すればよい。スコアの高い女性は、お付き合いに発展する可能性の高い女性であり、スコアの高い男性は、友人として紹介するのに相応しい男性である。 It should be noted that, without distinguishing between men and women, matching feature data for a pair of matching subjects is prepared, that is, not only a pair of men and women but also a pair of men and a pair of women are prepared for matching feature data. , The matching model may be trained. In tagging between the same sex, it is possible to select (= 1) tagging of matching feature data for a pair that has been introduced as a friend as a correct example (correct answer data). In the matching process at the time of operation, if the person who wants to match is a man and wants to match with a woman, a plurality of men who want to match and all the registered women. Characteristic data for matching for each pair of females may be created, input to the matching model, and a score indicating the probability of each female candidate being selected may be output. Also, if the person who wants to match is a man and wants to match with a woman and also wants to find a friend, it will consist of the man who wants to match and all the registered men and women. Matching feature data for multiple pairs may be created and input into the matching model. A woman with a high score is a woman who is likely to develop into a relationship, and a man with a high score is a man who is suitable for referral as a friend.

また、転属を希望する従業員と、人材を確保したい会社内の部署とのマッチング、診察を希望する病人と、患者を確保したい病院とのマッチング、入学を希望する学生と、学生を募集したい学校とのマッチング等のように、マッチング対象者間に主従関係がある場合のマッチングでも、婚活支援サービスにおいて男女ペアのマッチング用特徴データを用意した場合と同様にして、マッチングモデルの学習を行い、構築されたマッチングモデルでスコアリングを行うことができる。 In addition, matching employees who wish to transfer with departments within the company who want to secure human resources, matching sick people who want medical examinations with hospitals who want to secure patients, students who want to enroll, and schools who want to recruit students Even in the case of matching when there is a master-slave relationship between the matching targets, such as matching with, the matching model is learned in the same way as when the matching feature data for male and female pairs is prepared in the marriage hunting support service. Scoring can be performed with the constructed matching model.

以上のように、本発明のマッチングシステムおよびプログラムは、例えば、ビジネスパートナーとなる企業を紹介して企業同士を組み合わせるビジネスマッチングを行う場合等に用いるのに適している。 As described above, the matching system and program of the present invention are suitable for use, for example, in the case of introducing a company as a business partner and performing business matching in which the companies are combined.

10 マッチングシステム
32 結合テキストデータ作成手段
33 トピック推定手段
34 希望者トピック値予測手段
35 単語重要度ベクトル算出手段
36 マッチング用特徴データ作成手段
37 マッチング処理手段
41 希望者データ記憶手段
42 マッチング対象者データ記憶手段
44 トピックモデル記憶手段
45 単語重要度ベクトル記憶手段
46 マッチングモデル記憶手段
10 Matching system 32 Combined text data creation means 33 Topic estimation means 34 Applicant topic value prediction means 35 Word importance vector calculation means 36 Matching feature data creation means 37 Matching processing means 41 Applicant data storage means 42 Matching target person data storage Means 44 Topic model storage means 45 Word importance vector storage means 46 Matching model storage means

Claims (9)

自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
新たなマッチング対象者としてのマッチングの希望者を含まない多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データと、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータとをそれぞれ結合して得られた多数の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、マッチング対象者の識別情報と関連付けて記憶するとともに、当該トピック推定処理を実行して得られた各トピックにおける各単語の出現確率を記憶するトピックモデル記憶手段と、
マッチングの希望者についての前記自己データおよび前記ニーズデータを、当該希望者の識別情報と関連付けて記憶する希望者データ記憶手段と、
この希望者データ記憶手段に記憶されているマッチングの希望者についての前記自己データと前記ニーズデータとを結合し、当該希望者の結合テキストデータを作成する処理を実行する結合テキストデータ作成手段と、
この結合テキストデータ作成手段により作成した希望者の結合テキストデータ、および、前記トピックモデル記憶手段に記憶されている各トピックにおける各単語の出現確率を用いて、希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値を予測する処理を実行する希望者トピック値予測手段と、
この希望者トピック値予測手段により求めた希望者の結合テキストデータにおける各トピックの出現確率を示すトピック値と、前記トピックモデル記憶手段に記憶されているマッチング相手となる各候補者としてのマッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値とを用いて、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするマッチングシステム。
A matching system consisting of a computer that executes a matching process that combines natural persons, corporations, non-corporate organizations, or other matching targets.
Needs data consisting of self-data consisting of text data describing the characteristics of each of a large number of matching target persons, not including those who wish to match as a new matching target person, and text data describing the needs of the matching partner. Appearance probability of each topic in the combined text data of each matching target person obtained by executing topic estimation processing by soft clustering or neural language model using a large number of combined text data obtained by combining and A topic model storage means that stores the topic value indicating the above in association with the identification information of the matching target person and stores the appearance probability of each word in each topic obtained by executing the topic estimation process.
An applicant data storage means for storing the self-data and the needs data of the matching applicant in association with the identification information of the applicant.
A combined text data creating means that combines the self-data and the needs data of the matching applicant stored in the applicant data storage means and executes a process of creating the combined text data of the applicant.
Using the combined text data of the applicant created by this combined text data creation means and the appearance probability of each word in each topic stored in the topic model storage means, each topic in the combined text data of the applicant is used. Applicant topic value prediction means that executes the process of predicting the topic value indicating the appearance probability,
The topic value indicating the appearance probability of each topic in the combined text data of the applicant obtained by this applicant topic value prediction means, and the matching target person as each candidate to be the matching partner stored in the topic model storage means. Matching feature data creation means that executes a process to create matching feature data for a plurality of pairs of applicants and candidates using a topic value indicating the appearance probability of each topic in the combined text data of When,
Using each of the plurality of matching feature data created by this matching feature data creating means as input data, a matching model that has been learned in advance by two-class classification of whether or not to be selected and stored in the matching model storage means is used. The feature is that it is equipped with a matching processing means that executes a processing that outputs a score indicating the probability that each candidate is selected for a matching applicant by performing a classification process using a supervised classification model. Matching system to do.
自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
新たなマッチング対象者としてのマッチングの希望者を含まない多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データ、および、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータを、マッチング対象者の識別情報と関連付けて記憶するマッチング対象者データ記憶手段と、
マッチングの希望者についての前記自己データおよび前記ニーズデータを、当該希望者の識別情報と関連付けて記憶する希望者データ記憶手段と、
前記マッチング対象者データ記憶手段に記憶されている各マッチング対象者の前記自己データと前記ニーズデータとをそれぞれ結合するとともに、前記希望者データ記憶手段に記憶されている希望者の前記自己データと前記ニーズデータとを結合し、希望者を含む多数のマッチング対象者の結合テキストデータを作成する処理を実行する結合テキストデータ作成手段と、
この結合テキストデータ作成手段により作成された希望者を含む多数のマッチング対象者の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルにより、希望者を含む各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を求めるトピック推定処理を実行するトピック推定手段と、
このトピック推定手段によるトピック推定処理で得られた希望者を含む各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、希望者を含む各マッチング対象者の識別情報と関連付けて記憶するトピックモデル記憶手段と、
このトピックモデル記憶手段に記憶されている希望者およびそのマッチング相手となる各候補者としてのマッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を用いて、希望者と各候補者とからなる複数のペアについてのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、マッチングの希望者に対して各候補者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするマッチングシステム。
A matching system consisting of a computer that executes a matching process that combines natural persons, corporations, non-corporate organizations, or other matching targets.
Needs consisting of self-data consisting of text data describing the characteristics of each of a large number of matching target persons, not including those who wish to be matched as a new matching target person, and text data describing the needs of the matching partner. A matching target person data storage means that stores data in association with the identification information of the matching target person,
An applicant data storage means for storing the self-data and the needs data of the matching applicant in association with the identification information of the applicant.
The self-data of each matching target person stored in the matching target person data storage means and the needs data are combined, and the self-data of the desired person stored in the desired person data storage means and the above-mentioned self-data. A combined text data creation means that combines with needs data and executes a process of creating combined text data of a large number of matching targets including applicants.
Using the combined text data of a large number of matching targets including the applicant created by this combined text data creation means, each topic in the combined text data of each matching target including the applicant by soft clustering or a neural language model. A topic estimation means that executes topic estimation processing to obtain a topic value indicating the appearance probability of
The topic value indicating the appearance probability of each topic in the combined text data of each matching target person including the applicant obtained by the topic estimation process by this topic estimation means is associated with the identification information of each matching target person including the applicant. Topic model memory means to memorize,
The applicant and each candidate are stored using the topic value indicating the appearance probability of each topic in the combined text data of the applicant and the matching target as each candidate to be the matching partner stored in this topic model storage means. Matching feature data creation means that executes the process of creating matching feature data for a plurality of pairs consisting of
Using each of the plurality of matching feature data created by this matching feature data creating means as input data, a matching model that has been learned in advance by two-class classification of whether or not to be selected and stored in the matching model storage means is used. The feature is that it is equipped with a matching processing means that executes a processing that outputs a score indicating the probability that each candidate is selected for a matching applicant by performing a classification process using a supervised classification model. Matching system to do.
自然人、法人、法人でない団体、またはその他のマッチング対象者同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
特定目的のマッチングを行う既存のマッチング対象者としての特定対象者を含む多数のマッチング対象者の各々についての自己の特徴を記述したテキストデータからなる自己データと、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータとをそれぞれ結合して得られた多数の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を、マッチング対象者の識別情報と関連付けて記憶するトピックモデル記憶手段と、
このトピックモデル記憶手段に記憶されている各マッチング対象者の結合テキストデータにおける各トピックの出現確率を示すトピック値を用いて、特定対象者とこの特定対象者のマッチング相手となる各候補者とからなる複数のペア、複数の特定対象者の各々とこれらの複数の特定対象者のマッチング相手となる各候補者とからなる複数のペア、特定対象者と他の複数の特定対象者の各々とからなる複数のペアについての複数のマッチング用特徴データを作成するか、または、特定対象者同士のペアについての1つのマッチング用特徴データを作成する処理を実行するマッチング用特徴データ作成手段と、
このマッチング用特徴データ作成手段により作成した複数のマッチング用特徴データの各々を入力データとして、または、1つのマッチング用特徴データを入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、特定対象者に対して各候補者または他の特定対象者が選定される確度を示すスコアを出力する処理を実行するマッチング処理手段と
を備えたことを特徴とするマッチングシステム。
A matching system consisting of a computer that executes a matching process that combines natural persons, corporations, non-corporate organizations, or other matching targets.
Self-data consisting of text data describing the characteristics of each of a large number of matching target persons including the specific target person as an existing matching target person who performs matching for a specific purpose, and text data describing the needs for the matching partner. Each of the combined text data of each matching target person obtained by performing topic estimation processing by soft clustering or a neural language model using a large number of combined text data obtained by combining the needs data consisting of A topic model storage means that stores a topic value indicating the appearance probability of a topic in association with the identification information of the matching target person, and
Using the topic value indicating the appearance probability of each topic in the combined text data of each matching target person stored in this topic model storage means, from the specific target person and each candidate to be the matching partner of this specific target person. A plurality of pairs, a plurality of pairs consisting of each of the plurality of specific target persons and each candidate to be a matching partner of the plurality of specific target persons, from each of the specific target person and the other plurality of specific target persons. A matching feature data creation means that creates a plurality of matching feature data for a plurality of pairs, or creates a single matching feature data for a pair of specific target persons.
Each of the plurality of matching feature data created by this matching feature data creating means is used as input data, or one matching feature data is used as input data, and is learned in advance by two-class classification as to whether or not it is selected. A score indicating the probability that each candidate or other specific target person will be selected for a specific target person by performing classification processing by a supervised classification model using the matching model stored in the matching model storage means. A matching system characterized by being equipped with a matching processing means for executing a process of outputting.
前記マッチング用特徴データ作成手段は、
前記ペアの双方の各トピック値を用いて、同一のトピックについての双方のトピック値の積からなる合成変数、および、同一のトピックについての双方のトピック値の差の絶対値からなる合成変数を求め、求めた各合成変数を前記マッチング用特徴データとする処理を実行する構成とされている
ことを特徴とする請求項1〜3のいずれかに記載のマッチングシステム。
The matching feature data creation means
Using both topic values of the pair, a composite variable consisting of the product of both topic values for the same topic and a composite variable consisting of the absolute value of the difference between both topic values for the same topic are obtained. The matching system according to any one of claims 1 to 3, wherein a process of using each of the obtained synthetic variables as the matching feature data is executed.
各マッチング対象者の結合テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを算出する処理を実行する単語重要度ベクトル算出手段と、
この単語重要度ベクトル算出手段により算出した結合テキストデータについての単語重要度ベクトルを、マッチング対象者の識別情報と関連付けて記憶する単語重要度ベクトル記憶手段とを備え、
前記マッチング用特徴データ作成手段は、
前記単語重要度ベクトル記憶手段に記憶されている前記ペアの一方の結合テキストデータについての単語重要度ベクトルと、前記ペアの他方の結合テキストデータについての単語重要度ベクトルとの内積またはコサイン類似度を求め、求めた単語重要度ベクトルの内積またはコサイン類似度を、前記マッチング用特徴データに含める処理を実行する構成とされている
ことを特徴とする請求項1〜4のいずれかに記載のマッチングシステム。
A word importance vector calculation means that executes a process of calculating a word importance vector consisting of a TFIDF value or other word importance index values of each word for the combined text data of each matching target person.
The word importance vector storage means for storing the word importance vector of the combined text data calculated by the word importance vector calculation means in association with the identification information of the matching target person is provided.
The matching feature data creation means
The inner product or cosine similarity between the word importance vector for one of the combined text data of the pair and the word importance vector for the other combined text data of the pair stored in the word importance vector storage means. The matching system according to any one of claims 1 to 4, wherein the inner product or cosine similarity of the obtained word importance vector is included in the matching feature data. ..
前記自己データおよび前記ニーズデータには、マッチング相手に対するニーズの種類を示す少なくとも1つのニーズフラグが付随し、
前記マッチング用特徴データ作成手段は、
前記ペアの双方の前記ニーズフラグを、前記マッチング用特徴データに含める処理を実行する構成とされている
ことを特徴とする請求項1〜5のいずれかに記載のマッチングシステム。
The self-data and the needs data are accompanied by at least one needs flag indicating the type of needs for the matching partner.
The matching feature data creation means
The matching system according to any one of claims 1 to 5, wherein a process of including the needs flags of both of the pairs in the matching feature data is executed.
前記マッチング用特徴データ作成手段は、
前記ぺアの双方の前記ニーズフラグを用いて、双方のニーズフラグの論理和、論理積、排他的論理和、否定論理和、否定論理積、否定排他的論理和、算術和、またはその他の合成変数を求め、求めた合成変数を前記マッチング用特徴データに含める処理を実行する構成とされている
ことを特徴とする請求項6に記載のマッチングシステム。
The matching feature data creation means
Using both of the needs flags of the pair, the logical sum, logical product, exclusive OR, negative logical sum, negative logical product, negative exclusive OR, arithmetic sum, or other composition of both needs flags. The matching system according to claim 6, wherein the matching system is configured to obtain a variable and execute a process of including the obtained composite variable in the matching feature data.
前記マッチング対象者は、ビジネスを行う自然人、法人、法人でない団体、またはその他のマッチング対象者であり、
前記マッチング処理は、ビジネスを行うマッチング対象者同士を組み合わせるビジネスマッチング処理であり、
前記トピック推定処理は、レイテント・ディリクレ・アロケーションによる処理であ
ことを特徴とする請求項1〜7のいずれかに記載のマッチングシステム。
The matching target person is a natural person, a corporation, a non-corporate organization, or other matching target person who conducts business.
The matching process is a business matching process that combines matching target persons who conduct business.
Matching system according to claim 1 wherein the topic estimation process, characterized in that Ru processing der that by the Reitento-Dirichlet allocation.
請求項1〜8のいずれかに記載のマッチングシステムとして、コンピュータを機能させるためのプログラム。 A program for operating a computer as the matching system according to any one of claims 1 to 8.
JP2019142614A 2019-08-01 2019-08-01 Matching system and program Active JP6802334B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019142614A JP6802334B1 (en) 2019-08-01 2019-08-01 Matching system and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019142614A JP6802334B1 (en) 2019-08-01 2019-08-01 Matching system and program

Publications (2)

Publication Number Publication Date
JP6802334B1 true JP6802334B1 (en) 2020-12-16
JP2021026413A JP2021026413A (en) 2021-02-22

Family

ID=73740988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019142614A Active JP6802334B1 (en) 2019-08-01 2019-08-01 Matching system and program

Country Status (1)

Country Link
JP (1) JP6802334B1 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7192039B1 (en) 2021-06-14 2022-12-19 株式会社大和総研 Matching system and program
JP2023042033A (en) * 2021-09-14 2023-03-27 ヤフー株式会社 Information processor and information processing method and information processing program
WO2023074457A1 (en) * 2021-10-26 2023-05-04 コニカミノルタ株式会社 Matching system, matching method, program, and trained model
JP7269589B1 (en) 2021-11-24 2023-05-09 イー・アンド・エム株式会社 Information processing device, information processing method and information processing program
KR102600305B1 (en) * 2022-10-07 2023-11-09 주식회사 커피챗 Personalized recommendation system for matching user and conversation partner based on integration of machine learning models and the operation method thereof
KR102600307B1 (en) * 2022-10-11 2023-11-09 주식회사 커피챗 User and conversation partner matching optimization system based on combination of user 's representative activity log extraction method and machine learning model and the operation method thereof
JP7429471B1 (en) 2023-04-11 2024-02-08 株式会社S.I.T.トラベル School/student search method and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
JP6369053B2 (en) * 2014-02-28 2018-08-08 日本電気株式会社 MATCHING DEVICE, MATCHING METHOD, AND PROGRAM
US20170300563A1 (en) * 2016-04-14 2017-10-19 Linkedin Corporation Generating text snippets using supervised machine learning algorithm

Also Published As

Publication number Publication date
JP2021026413A (en) 2021-02-22

Similar Documents

Publication Publication Date Title
JP6802334B1 (en) Matching system and program
US11403597B2 (en) Contextual search ranking using entity topic representations
Mishra et al. Stacked KNN with hard voting predictive approach to assist hiring process in IT organizations
Hancock On the nature of vigilance
Nelson et al. Experience matters: Information acquisition optimizes probability gain
Maki et al. Investigating similarities and differences between volunteer behaviors: Development of a volunteer interest typology
McNeill et al. Risk, responsibility and reconfiguration: Penal adaptation and misadaptation
Bloomfield et al. Re-presenting technology: IT consultancy reports as textual reality constructions
Lund et al. A systematic review of factors related to employment outcomes for adults with visual impairments
JP6369053B2 (en) MATCHING DEVICE, MATCHING METHOD, AND PROGRAM
US11544308B2 (en) Semantic matching of search terms to results
Lawrie et al. Cultural variability in the association between age and well-being: The role of uncertainty avoidance
US20210256367A1 (en) Scoring for search retrieval and ranking alignment
CA3188876A1 (en) Three-party recruiting and matching process involving a candidate, referrer, and hiring entity
Ophir et al. A collaborative way of knowing: Bridging computational communication research and grounded theory ethnography
US20210142292A1 (en) Detecting anomalous candidate recommendations
Rader et al. Bias-corrected estimates for logistic regression models for complex surveys with application to the United States’ Nationwide Inpatient Sample
Davis et al. Coping with conflict: Examining the influence of PSM on perceptions of workplace stressors
Wildman Life-course influences on extended working: Experiences of women in a UK baby-boom birth cohort
Natale et al. Reclaiming the human in machine cultures: Introduction
Jin et al. Confidence scoring of speaking performance: How does fuzziness become exact?
Piva et al. Should I sell my shares to an external buyer? The role of the entrepreneurial team in entrepreneurial exit
Xu Development and initial validation of the constructivist beliefs in the career decision-making scale
Sabbe et al. Walking on thin ice: How and why frontline officers cope with managerialism, accountability, and risk in probation services
Hutton From intuition to database: Translating justice

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201126

R150 Certificate of patent or registration of utility model

Ref document number: 6802334

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250