JP7192039B1 - Matching system and program - Google Patents
Matching system and program Download PDFInfo
- Publication number
- JP7192039B1 JP7192039B1 JP2021098929A JP2021098929A JP7192039B1 JP 7192039 B1 JP7192039 B1 JP 7192039B1 JP 2021098929 A JP2021098929 A JP 2021098929A JP 2021098929 A JP2021098929 A JP 2021098929A JP 7192039 B1 JP7192039 B1 JP 7192039B1
- Authority
- JP
- Japan
- Prior art keywords
- case
- matching
- data
- project
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 234
- 238000000034 method Methods 0.000 claims abstract description 222
- 230000008569 process Effects 0.000 claims abstract description 192
- 239000013598 vector Substances 0.000 claims description 186
- 238000003860 storage Methods 0.000 claims description 182
- 238000013500 data storage Methods 0.000 claims description 78
- 238000009826 distribution Methods 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 18
- 238000013145 classification model Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000001537 neural effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 description 100
- 238000002360 preparation method Methods 0.000 description 48
- 239000011159 matrix material Substances 0.000 description 26
- 238000007781 pre-processing Methods 0.000 description 23
- 239000002131 composite material Substances 0.000 description 21
- 238000000605 extraction Methods 0.000 description 18
- 230000015654 memory Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000000877 morphologic effect Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 6
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000010079 rubber tapping Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 235000020054 awamori Nutrition 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 235000020083 shōchū Nutrition 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】偏った紹介の未然防止、偏った紹介実績に基づくマッチングモデルの再学習の未然防止、効果的なマッチングを行うための適切な案件データの登録の実現、サービス担当者の手間の軽減を図ることができるマッチングシステムを提供する。【解決手段】マッチングシステム10では、ユーザが、入力部110にキーワードを入力すると、連想検索処理が実行され、入力部110と同一の画面上に、関連案件や関連単語が表示され、入力部110に案件識別情報を入力すると、マッチング処理および類似案件検索処理が実行され、入力部110と同一の画面上に、マッチング相手としての推薦案件および対象案件の類似案件が表示される。この際、連想検索処理、マッチング処理、および類似案件検索処理は、いずれも各案件の固有テキストデータを用いて実行される。【選択図】図11[Problems] To prevent biased referrals, prevent re-learning of matching models based on biased referral results, realize registration of appropriate case data for effective matching, and reduce the labor of service personnel. To provide a matching system that can achieve SOLUTION: In a matching system 10, when a user inputs a keyword into an input unit 110, associative search processing is executed, related items and related words are displayed on the same screen as the input unit 110, and the input unit 110 When the item identification information is entered in , matching processing and similar item search processing are executed, and on the same screen as the input unit 110, recommended items as matching partners and similar items to the target item are displayed. At this time, the associative search process, the matching process, and the similar case search process are all executed using the unique text data of each case. [Selection drawing] Fig. 11
Description
本発明は、自然人、法人、法人でない団体、またはその他の案件同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムおよびプログラムに係り、例えば、企業同士を組み合わせるビジネスマッチングシステム等に利用できる。 The present invention relates to a computer-configured matching system and program that executes a matching process that combines natural persons, corporations, non-corporation groups, or other projects, and can be used, for example, in a business matching system that combines companies.
従来のビジネスマッチングサービスでは、事業の提携や協力等を行う相手企業を探すことを希望する企業に対し、主に以下の2つの手法によってサービス担当者が紹介候補の企業を選定していた。 In conventional business matching services, for companies that wish to find partner companies for business tie-ups or cooperation, service personnel select companies that can be introduced mainly by the following two methods.
第1の手法は、サービス担当者がキーワードによる検索を行い、その検索結果からマッチング相手となる企業を選定するというキーワード検索機能に基づく手法である。この第1の手法では、各企業について、自己の特徴を記述したテキストデータからなる自己データと、マッチング相手に対するニーズを記述したテキストデータからなるニーズデータとを用意しておき、それらのテキストデータを検索対象とする。 The first method is a method based on a keyword search function in which a service person performs a keyword search and selects a matching partner company from the search results. In this first method, each company prepares its own data consisting of text data describing its own characteristics and needs data consisting of text data describing needs for a matching partner, and then prepares these text data. Search target.
第2の手法は、マッチング相手を探している企業とその他の任意の企業との2社のマッチング確度を示すスコアを算出し、スコアの高い企業を選出するというAI推薦機能に基づく手法である。すなわち、マッチング相手となる候補企業の選定実績をまとめた過去のデータ(どのような特徴を有する企業に対し、どのような特徴を有する企業がマッチング相手として選定されたのかを示すデータの集合)を学習用データとして機械学習を行うことによりマッチングモデルを構築しておき、このマッチングモデルに対し、マッチング相手を探している企業の情報を入力し、スコアを出力する手法である。この第2の手法を実現するシステムとしては、本願出願人により開発されたマッチングシステムを用いることができる(特許文献1参照)。このマッチングシステムでは、上述した各企業の自己データとニーズデータとをそれぞれ結合し、得られた多数の結合テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理(例えば、LDA:レイテント・ディリクレ・アロケーション等)を実行し、結合テキストデータにおける各トピックの出現確率を示すトピック値を用いてマッチング用特徴データを作成している。 The second method is based on an AI recommendation function that calculates a score that indicates the degree of matching accuracy between a company that is looking for a matching partner and any other company, and selects the company with the highest score. In other words, past data that summarizes the selection results of candidate companies to be matched (a set of data that shows what characteristics companies were selected as matching partners for what characteristics) In this method, a matching model is constructed by performing machine learning as learning data, and information on a company that is looking for a matching partner is input to this matching model, and a score is output. As a system for realizing this second method, a matching system developed by the applicant of the present application can be used (see Patent Document 1). In this matching system, the self-data and needs data of each company described above are combined, and using a large number of combined text data obtained, topic estimation processing by soft clustering or neural language model (for example, LDA: latent Dirichlet allocation, etc.) is executed, and matching feature data is created using topic values that indicate the appearance probability of each topic in the combined text data.
なお、前述した第1の方法を実現するには、キーワードを入力してそのキーワードに関連する企業を抽出するシステムがあればよいことになるが、このような条件を満たすシステムとしては、本願出願人により開発された抽出システムが知られている(特許文献2参照)。この抽出システムは、主として、キーワードを入力してテーマ型ファンドの構成銘柄とする候補銘柄(すなわち、その銘柄の発行企業)を抽出するシステムとして開発されたものであり、関連企業の抽出を行うために、各企業の固有テキストデータとして、各企業が投資家に向けて発信するインベスター・リレーションズ情報(IR情報)や各企業のホームページ情報(HP情報)を用いている。 In order to realize the above-described first method, it is sufficient to have a system for inputting a keyword and extracting companies related to the keyword. An extraction system developed by man is known (see Patent Document 2). This extraction system was developed mainly as a system for extracting candidate stocks (i.e. companies issuing such stocks) to be constituent stocks of theme-type funds by inputting keywords. Investor Relations information (IR information) sent by each company to investors and home page information (HP information) of each company are used as unique text data of each company.
しかしながら、前述した第1、第2の手法では、以下のような問題点があった。 However, the first and second techniques described above have the following problems.
第1の手法のキーワード検索、第2の手法のマッチングモデルによるAI推薦のいずれでも、各企業について記述したテキストデータの内容が検索結果や推薦結果に大きく影響する。従って、ビジネスマッチングという観点から企業の情報を的確に示していないテキストデータや、そもそも情報量の少ないテキストデータでは、望ましい検索結果や推薦結果が得られない。 In both the keyword search of the first method and the AI recommendation by the matching model of the second method, the content of the text data describing each company greatly affects the search results and recommendation results. Therefore, from the viewpoint of business matching, text data that does not accurately represent company information or text data that has a small amount of information in the first place cannot provide desirable search results or recommendation results.
また、第1の手法のキーワード検索や、第2の手法のマッチングモデルの構築に用いられる前述した自己データおよびニーズデータは、マッチングを希望する企業自身が作成する。この際、自己データやニーズデータをどのように記述すれば、ビジネスマッチングの観点から効果的であるのかが不明であったり、自己データとニーズデータとの区別を付けにくいことから、双方に同じ情報を記述したり、いずれか一方を記述しない等の不備が発生するおそれもある。これに対し、マッチングのサービス担当者が、各企業に対し、適切な記述方法を指導することも考えられるが、手間がかかる、サービス担当者の経験や知識等の相違により指導内容に差が出る、サービス担当者による指導の特徴が記述内容に直接に現れてしまう等の不都合が生じる。 Further, the aforementioned self-data and needs data used for the keyword search of the first method and the construction of the matching model of the second method are created by the company itself that desires matching. At this time, it is unclear how to describe self-data and needs data effectively from the viewpoint of business matching, and it is difficult to distinguish between self-data and needs data. or omit one or the other. On the other hand, it is conceivable that the person in charge of the matching service will instruct each company on the appropriate description method, but it will take time and effort, and the content of the guidance will differ depending on the difference in experience and knowledge of the person in charge of the service. , the characteristics of the guidance by the person in charge of service appear directly in the contents of the description.
さらに、第1の手法のキーワード検索を行う場合は、マッチング条件に合致する適切なキーワードを入力する必要があり、サービス担当者のノウハウに大きく影響するため、紹介件数が限られてしまう。また、第1の手法のキーワード検索と、第2の手法のマッチングモデルによるAI推薦とを併用する場合において、上記のようにキーワード検索による紹介件数が限られることから、キーワード検索により選定した企業よりも、マッチングモデルの推薦した企業の紹介が増えてしまう結果となり、紹介実績に偏りが生じる。これにより、偏った紹介実績をマッチングモデルが再学習することで、推薦される企業が似たようなものに偏ってしまう。 Furthermore, when performing a keyword search of the first method, it is necessary to input an appropriate keyword that matches the matching condition, which greatly affects the know-how of the person in charge of service, and thus limits the number of referrals. In addition, when using both the keyword search of the first method and the AI recommendation by the matching model of the second method, the number of introductions by keyword search is limited as described above, so from companies selected by keyword search However, as a result, the number of introductions of companies recommended by the matching model increases, resulting in a bias in the introduction results. As a result, the matching model re-learns the biased referral results, and the recommended companies are biased toward similar ones.
そして、以上のような問題は、企業同士を結び付けるビジネスマッチングシステムに限らず、例えば、未婚の男女を結び付けるお見合い支援を行うマッチングシステム等を含め、広く「案件」同士を組み合わせるマッチングシステムで同様に生じることである。 The above problems are not limited to business matching systems that connect companies. It is what happens.
なお、ビジネスマッチングであれば、企業と企業、企業と個人事業主、個人事業主と個人事業主とのマッチングになり、お見合い支援のマッチングであれば、未婚の男性と女性とのマッチングになるが、データ処理の本質としては、実質的には、それらの者がマッチングを目的として登録した情報同士のマッチングであるということと、それ故に登録する情報の内容が重要であり、マッチングの結果を左右するということと、ペット等の動物や、ロボット等の機械でも、人間がそれらの保有情報を代弁(代理で記述)することができれば、マッチングは行い得ることから、本願では、マッチングの対象(自然人、法人、法人でない団体、動物、ロボット、その他)を「案件」と呼ぶものとする。 In the case of business matching, it is matching between companies and companies, companies and sole proprietors, and sole proprietors and sole proprietors, and in the case of matchmaking support matching, it is matching between unmarried men and women. However, the essence of data processing is that it is the matching of information registered by those persons for the purpose of matching. In addition, matching can be performed even for animals such as pets and machines such as robots if humans can represent (describe) their possessed information. (natural persons, legal persons, unincorporated bodies, animals, robots, etc.) shall be referred to as "Items".
本発明の目的は、偏った紹介の未然防止、偏った紹介実績に基づくマッチングモデルの再学習の未然防止、効果的なマッチングを行うための適切な案件データの登録の実現、サービス担当者の手間の軽減を図ることができるマッチングシステムおよびプログラムを提供するところにある。 The purpose of the present invention is to prevent biased referrals, prevent re-learning of the matching model based on biased referral results, realize registration of appropriate case data for effective matching, and troublesome service personnel. It is to provide a matching system and program that can reduce the
本発明は、各企業の固有テキストデータ(自己データおよびニーズデータ、またはこれらの結合テキストデータ)を用いた3つの処理、すなわち、キーワードによる連想検索処理と、マッチングモデルによるAI推薦のためのマッチング処理と、類似案件検索処理とを繰り返し実行することができるようにして前記目的を達成するものである。 The present invention performs three processes using each company's unique text data (self data and needs data, or combined text data of these): associative search process using keywords, and matching process for AI recommendation using a matching model. , and similar case search processing can be repeatedly executed to achieve the above object.
すなわち、本発明は、自然人、法人、法人でない団体、またはその他の案件同士を組み合わせるマッチング処理を実行するコンピュータにより構成されたマッチングシステムであって、
多数の案件の各々についての自己の特徴を記述したテキストデータからなる自己データ、およびマッチング相手に対するニーズを記述したテキストデータからなるニーズデータ、または、これらの自己データとニーズデータとを結合して得られた結合テキストデータを、各案件に固有の情報を記述した多数の固有テキストデータとして用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各案件の固有テキストデータにおける各トピックの出現確率を示すトピック値を、案件識別情報と関連付けて記憶するとともに、当該トピック推定処理を実行して得られた各トピックにおける各単語の出現確率を記憶するトピックモデル記憶手段と、
キーワードまたは案件識別情報の入力を受け付ける処理を実行する入力受付手段と、
この入力受付手段により案件識別情報の入力を受け付けた場合に、受け付けた案件識別情報の案件をマッチング処理の対象案件とし、トピックモデル記憶手段に記憶されている各案件の固有テキストデータにおける各トピックの出現確率を示すトピック値を用いて、対象案件とこの対象案件のマッチング相手となる各候補案件とからなる複数のペアの各々についてのマッチング用特徴データを作成し、作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、対象案件に対して各候補案件が選定される確度を示すスコアを算出する処理を実行するマッチング手段と、
入力受付手段により案件識別情報の入力を受け付けた場合に、マッチング手段による処理と併せて、各案件の固有テキストデータを用いて算出した対象案件とそれ以外の案件との間の案件類似度の高い順で対象案件の類似案件を抽出する処理を実行する類似案件検索手段と、
入力受付手段によりキーワードの入力を受け付けた場合に、分散表現モデル記憶手段に記憶された単語の分散表現を用いて算出したキーワードとそれ以外の単語との間の一般類似度を最終類似度とするか、または、この一般類似度と、各案件の固有テキストデータを用いて算出したキーワードとそれ以外の単語との間の固有類似度とを用いて最終類似度を算出し、得られた最終類似度の高い順でキーワードの関連単語を決定するとともに、キーワードおよび関連単語の各々が、各案件の固有テキストデータの中に出現する単語別出現回数を求め、求めた単語別出現回数および関連単語の最終類似度を用いて算出したキーワードに対する各案件の関連度の高い順で関連案件を決定する処理を実行する連想検索手段と、
入力受付手段によりキーワードの入力を受け付けた場合には、連想検索手段により決定した関連案件、または、関連案件に加えて関連単語を、入力受付手段によるキーワードまたは案件識別情報の入力部と同一の画面上に表示し、入力受付手段により案件識別情報の入力を受け付けた場合には、マッチング手段により算出したスコアの高い候補案件を、推薦案件として入力部と同一の画面上に表示するとともに、類似案件検索手段により抽出した類似案件を、入力部と同一の画面上に表示する処理を実行する出力手段と
を備えたことを特徴とするものである。
That is, the present invention is a matching system configured by a computer that executes a matching process that combines natural persons, legal persons, non-juristic organizations, or other cases,
Self-data consisting of text data describing the characteristics of each of a large number of projects, and needs data consisting of text data describing needs for matching partners, or obtained by combining these self-data and needs data Using the combined text data obtained as a large number of unique text data that describe information specific to each project, and performing topic estimation processing by soft clustering or neural language models, in the unique text data of each project topic model storage means for storing a topic value indicating the probability of occurrence of each topic in association with item identification information, and storing the probability of occurrence of each word in each topic obtained by executing the topic estimation process;
input receiving means for executing processing for receiving input of keywords or project identification information;
When the input of item identification information is received by the input reception means, the item of the received item identification information is treated as a subject item for matching processing, and each topic in the unique text data of each item stored in the topic model storage means. Using the topic value that indicates the probability of appearance, matching feature data is created for each of a plurality of pairs consisting of a target case and each candidate case that is a matching partner of this target case, and a plurality of created matching feature data are created. Using each of these as input data, using a matching model that has been pre-learned by two-class classification of whether or not it is selected and stored in the matching model storage means, classification processing by a supervised classification model is performed. a matching means for executing a process of calculating a score indicating the probability that each candidate project is selected for
When input of project identification information is received by the input reception means, in addition to processing by the matching means, a high degree of project similarity between the target project calculated using the unique text data of each project and other projects a similar case search means for executing a process of extracting similar cases of the target case in order;
When an input of a keyword is accepted by the input accepting means, the general similarity between the keyword calculated using the distributed representation of the words stored in the distributed representation model storage means and other words is taken as the final similarity. Alternatively, the final similarity obtained by calculating the final similarity using this general similarity and the unique similarity between the keyword calculated using the unique text data of each project and other words In addition to determining the related words of the keyword in descending order of degree, the number of occurrences for each word in which each of the keywords and related words appear in the unique text data of each case is obtained, and the obtained number of occurrences for each word and the number of related words are calculated. an associative search means for executing a process of determining related cases in descending order of the degree of relevance of each case to the keyword calculated using the final similarity;
When the input of a keyword is received by the input reception means, the related matter determined by the associative search means, or the related word in addition to the related matter, is displayed on the same screen as the input unit of the keyword or matter identification information by the input reception means. When the input reception means receives the input of project identification information, candidate projects with high scores calculated by the matching means are displayed as recommended projects on the same screen as the input unit, and similar projects are displayed. and output means for executing processing for displaying similar cases extracted by the search means on the same screen as the input part.
ここで、「出力手段」における「入力部と同一の画面上」は、必ずしも入力部と処理結果の表示部とが同じウィンドウに設けられている必要はなく、例えば、処理結果の表示部が設けられたメインウィンドウと、入力部が設けられた小型ウィンドウ等とが同時に画面表示(重畳表示を含む)されるような場合も、同じ表示手段の画面上に、入力部と処理結果の表示部とが同時期に存在する状態となるので、ここでいう「入力部と同一の画面上」に該当する。また、表示手段の画面サイズが小さい場合や、処理結果として多くの情報を表示部に表示した場合等に、画面をスクロールしなければ、入力部と処理結果の表示部とが、同時に目に入らないような場合も、ここでいう「入力部と同一の画面上」に該当する。 Here, "on the same screen as the input section" in the "output means" does not necessarily mean that the input section and the processing result display section are provided in the same window. When the main window provided with the input section and the small window provided with the input section are simultaneously displayed on the screen (including superimposed display), the input section and the processing result display section can be displayed on the screen of the same display means. exists at the same time, it corresponds to "on the same screen as the input section" here. In addition, when the screen size of the display means is small, or when a large amount of information is displayed on the display section as a result of processing, the input section and the display section of the processing result cannot be seen at the same time unless the screen is scrolled. Even if there is no input section, it corresponds to "on the same screen as the input section".
このような本発明のマッチングシステムにおいては、ユーザ(マッチングサービスの提供を受ける者、またはマッチングサービスを提供するサービス担当者)が、入力部にキーワードを入力すると、連想検索手段による処理が実行され、入力部と同一の画面上に、関連案件が表示されるか、またはこの関連案件の表示に加えて関連単語が表示される。一方、入力部に案件識別情報を入力すると、マッチング手段による処理、および類似案件検索手段による処理が実行され、入力部と同一の画面上に、マッチング相手としての推薦案件、および入力した案件識別情報の対象案件に対する類似案件が表示される。 In such a matching system of the present invention, when a user (a person receiving a matching service or a person in charge of providing a matching service) enters a keyword into the input unit, the associative search means executes processing, Related cases are displayed on the same screen as the input section, or related words are displayed in addition to the display of the related cases. On the other hand, when project identification information is input to the input section, processing by the matching means and processing by the similar project search means are executed, and on the same screen as the input section, a recommended project as a matching partner and the input project identification information are displayed. Similar projects to the target project are displayed.
この際、連想検索手段、マッチング手段、および類似案件検索手段による3つの処理は、いずれも各案件の固有テキストデータ、すなわち同じデータを用いて実行されるので、3つの処理の全てでマッチングに適した処理を実現できることに加え、互いに関連性のある処理内容とすることができる。従って、本発明のマッチングシステムは、既存の3つのシステムを単純に併設したものではなく、各処理でデータの共用や、処理内容の共通化を図ることが可能となる。 At this time, since the three processes by the associative search means, the matching means, and the similar case search means are all executed using the unique text data of each case, that is, the same data, all of the three processes are suitable for matching. In addition to being able to implement the same processing, it is possible to make the processing contents related to each other. Therefore, the matching system of the present invention is not simply a combination of the three existing systems, but enables each process to share data and to standardize the contents of the process.
また、連想検索手段、マッチング手段、および類似案件検索手段による各処理の結果は、これらの各手段による次の処理に活かすことができ、これらの各手段による処理を繰り返すことができるので、ユーザは、多様な検索を行うことができる。 In addition, the results of each process by the associative search means, matching means, and similar case search means can be used for the next process by these means, and the processes by these means can be repeated. , a variety of searches can be performed.
より詳細には、キーワードを入力し、連想検索手段による処理でそのキーワードの関連案件が得られた場合には、その関連案件の案件識別情報を入力すれば、その関連案件に対するマッチング相手としての推薦案件が得られるとともに、その関連案件に対する類似案件が得られる。そして、得られた推薦案件の案件識別情報を入力すれば、その推薦案件に対するマッチング相手としての推薦案件が得られるとともに、その推薦案件に対する類似案件が得られる。また、得られた類似案件の案件識別情報を入力すれば、その類似案件に対するマッチング相手としての推薦案件が得られるとともに、その類似案件に対する類似案件が得られる。このように関連案件、推薦案件、類似案件を横断した繰り返しの検索が可能となり、さらにその間に任意のタイミングで様々なキーワードを入力することが可能となる。 More specifically, when a keyword is entered and a job related to the keyword is obtained through processing by the associative search means, if the job identification information of the related job is entered, the related job can be recommended as a matching partner. A project is obtained, and similar projects to the related project are obtained. Then, by inputting the project identification information of the obtained recommended project, a recommended project as a matching partner for the recommended project can be obtained, and similar projects to the recommended project can be obtained. Further, by inputting the project identification information of the obtained similar project, a recommended project as a matching partner for the similar project can be obtained, and a similar project for the similar project can be obtained. In this way, it is possible to repeatedly search across related projects, recommended projects, and similar projects, and it is also possible to input various keywords at any timing during the search.
このため、ユーザが新規案件の登録を行う者またはその補助・指導・案内を行うサービス担当者であれば、自分または自分が担当する顧客と同じ立場の幾つかの案件(例えば、ある製品や商品を売るという目的でマッチングを希望する企業)についての案件データ(そこに含まれる自己データおよびニーズデータ)の内容を容易に把握することが可能となり、また、どのような内容の案件データを登録すると、どのような内容の案件データを有する案件が、マッチング相手として推薦されるのか(つまり、どのような内容の案件データを有する案件同士のマッチング確度が高いのか)を容易に把握することが可能となるので、それらの検索で参照した情報を、新規案件の案件データを登録する際に活かすことが可能となる。従って、ユーザは、マッチングという観点から適切な案件データを登録し、効果的なマッチングサービスの提供を受けることが可能となる。 For this reason, if the user is a person who registers a new project or a service representative who assists, guides, and guides the user, he or she may be in the same position as the customer he/she is in charge of (for example, a certain product or merchandise). It is possible to easily grasp the contents of the project data (self-data and needs data included in it) regarding companies that wish to match for the purpose of selling the , it is possible to easily grasp what kind of project data is recommended as a matching partner (that is, what kind of project data has a high degree of matching accuracy). Therefore, the information referred to in those searches can be utilized when registering the item data of the new item. Therefore, the user can register suitable job data from the viewpoint of matching and receive effective matching service.
また、このような案件データの検索・参照は、新規案件の登録を行う者が、自身で行うことができるので、サービス担当者の負担を軽減することも可能となる。さらに、例えばサービス窓口や客先等でサービス担当者が検索を行う場合でも、検索で得られた幾つかの参考案件の案件データの内容を、新規案件の登録を行う者に直接に示すことができるので、サービス担当者の負担(補助・指導・案内をする上での手間)を軽減することが可能となる。 In addition, since the person who registers the new item can search and refer to the item data by himself/herself, it is possible to reduce the burden on the person in charge of the service. Furthermore, for example, even when a service representative conducts a search at a service counter or at a customer's site, it is possible to directly show the contents of project data of several reference projects obtained by the search to the person who registers a new project. Therefore, it is possible to reduce the burden on the person in charge of service (time and effort in providing assistance, guidance, and guidance).
また、マッチング手段は、トピック推定処理で得られたトピックモデルの更新や、マッチング用特徴データを用いた学習で得られたマッチングモデルの更新が行われない限り、同じ入力に対しては、同じ出力をすることから、ある案件に対し、いつも同じ案件が同じ順位(同じスコア)で推薦案件として出力されることになる。そして、これが選定実績となり、マッチングモデルの更新に反映されると、偏った紹介を助長することに繋がる。しかし、本発明では、類似案件検索手段による処理を行うと、マッチングを希望する対象案件の類似案件を把握することができ、その類似案件を入力すれば、マッチング手段による処理で、その類似案件に対する推薦案件が出力されるので、対象案件に対する推薦案件だけではなく、対象案件の類似案件に対する推薦案件を出力することもでき、サービス担当者は、それを紹介することもできる。同様に、検索を繰り返せば、対象案件に対する推薦案件の類似案件や、対象案件の類似案件に対する推薦案件の類似案件も出力することができ、サービス担当者は、それらを紹介することもできる。従って、サービス担当者は、様々な角度から紹介する案件を見つけることができるので、ノウハウの少ない担当者でも、マッチング依頼者に対し、マッチング相手として適切な案件を紹介することができるとともに、紹介案件の選定作業の固定化を防ぐことができるので、偏った学習用データによるマッチングモデルの更新の未然防止を図ることが可能となり、これらにより前記目的が達成される。 In addition, the matching means produces the same output for the same input unless the topic model obtained by the topic estimation process or the matching model obtained by learning using the matching feature data is updated. , the same item is always output as a recommended item with the same rank (same score) for a certain item. And if this becomes a selection result and is reflected in the updating of the matching model, it will lead to promoting biased introductions. However, according to the present invention, by performing processing by the similar case search means, it is possible to grasp cases similar to the target case for which matching is desired. Since the recommended cases are output, not only the recommended cases for the target case, but also the recommended cases for similar cases to the target case can be output, and the service staff can introduce them. Similarly, by repeating the search, it is possible to output similar cases of the recommended cases to the target case and similar cases of the recommended cases to the similar cases of the target case, and the service personnel can introduce them. Therefore, since the service staff can find a project to introduce from various angles, even a staff member with little know-how can introduce a suitable project as a matching partner to the matching requester, and the introduction project Therefore, it is possible to prevent the matching model from being updated by biased learning data, thereby achieving the above object.
なお、キーワードを入力すると、連想検索手段による処理で得られた関連案件の出力に加え、そのキーワードの関連単語も出力される構成としてもよく、そのような構成とした場合には、その関連単語を新たなキーワードとして入力することが可能となり、検索上の利便性が高まる。この際、関連単語を、一般類似度と固有類似度とを用いて算出した最終類似度の高い順で決定する構成としてもよく、そのような構成とした場合には、関連単語を、単なる一般的な関連単語(入力したキーワードに対し、一般類似度が高い単語)ではなく、各案件の固有テキストデータの内容を反映した関連単語とすることができ、マッチングという観点から、より一層、効果的な関連単語を、新たなキーワードとして入力することが可能となる。つまり、連想検索手段による処理では、各案件の固有テキストデータを用いて関連案件を決定するが、その関連案件の決定で使用される関連単語の決定にも、各案件の固有テキストデータが用いられることになり、マッチングという観点から、より一層、効果的な処理を実現することができる。 It should be noted that when a keyword is entered, in addition to the output of the related items obtained by the processing by the associative search means, the related words of the keyword may also be output. can be entered as a new keyword, which enhances the convenience of searching. In this case, the related words may be determined in descending order of the final similarity calculated using the general similarity and the specific similarity. Instead of general related words (words with high general similarity to the input keyword), it is possible to use related words that reflect the content of the unique text data of each case, making it even more effective from the viewpoint of matching. related words can be input as new keywords. In other words, in the processing by the associative search means, the related item is determined using the unique text data of each item, and the related word used in determining the related item is also determined using the unique text data of each item. As a result, more effective processing can be realized from the viewpoint of matching.
<トピックモデルの更新を行わずに、新規案件の固有テキストデータを検索に反映させる構成> <Configuration that reflects the unique text data of the new matter in the search without updating the topic model>
また、前述したマッチングシステムにおいて、
トピック推定処理に用いられていない新規案件についての固有テキストデータ、および、トピックモデル記憶手段に記憶されている各トピックにおける各単語の出現確率を用いて、新規案件の固有テキストデータにおける各トピックの出現確率を示すトピック値を予測する処理を実行するトピック値予測手段を備え、
マッチング手段は、
トピック値予測手段により求めた新規案件の固有テキストデータにおける各トピックの出現確率を示すトピック値と、トピックモデル記憶手段に記憶されている新規案件のマッチング相手となる各候補案件の固有テキストデータにおける各トピックの出現確率を示すトピック値とを用いて、新規案件と各候補案件とからなる複数のペアについてのマッチング用特徴データを作成し、作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、新規案件に対して各候補者が選定される確度を示すスコアを出力する処理を実行する構成とされ、
類似案件検索手段は、
新規案件およびそれ以外の各案件の固有テキストデータを用いて算出した新規案件とそれ以外の案件との間の案件類似度を含めて類似案件を抽出する処理を実行する構成とされ、
連想検索手段は、
キーワードおよび関連単語の各々が、新規案件を含めた各案件の固有テキストデータの中に出現する単語別出現回数を求め、求めた単語別出現回数および関連単語の最終類似度を用いて算出したキーワードに対する各案件の関連度の高い順で関連案件を決定する処理を実行する構成とされていてもよい。
Also, in the matching system mentioned above,
Occurrence of each topic in the unique text data of the new issue using the unique text data of the new issue not used in the topic estimation process and the appearance probability of each word in each topic stored in the topic model storage means. A topic value prediction means for executing a process of predicting a topic value indicating a probability;
The matching means are
The topic value indicating the appearance probability of each topic in the unique text data of the new project obtained by the topic value prediction means, and each of the unique text data of each candidate project to be matched with the new project stored in the topic model storage means. matching feature data for a plurality of pairs consisting of a new case and each candidate case using a topic value that indicates the appearance probability of a topic, and using each of the created plurality of matching feature data as input data, Classification processing by a supervised classification model is performed using a matching model pre-learned by two-class classification of whether or not to be selected and stored in a matching model storage means, so that each candidate for a new case is classified. It is configured to execute a process of outputting a score indicating the probability of being selected,
The similar project search means is
It is configured to execute a process of extracting similar projects, including the project similarity between the new project and other projects calculated using the unique text data of the new project and each other project,
The associative search means is
Keywords and related words are calculated using the number of occurrences of each word in the specific text data of each project, including new projects, and the final similarity of related words. It may be configured to execute the process of determining the related cases in the order of the degree of relevance of each case to the high order.
このようにトピック値予測手段を設け、トピックモデルの更新を行わずに、新規案件の固有テキストデータを検索に反映させる構成とした場合には、新規案件の固有テキストデータを含めたトピック推定処理によるトピックモデルの更新を行う前であっても、新規案件を対象案件とするマッチング処理が可能となる。従って、トピックモデルの更新を行う前に、新規案件を含めた状態で、連想検索手段、マッチング手段、および類似案件検索手段による各処理を繰り返す検索を行うことが可能となる。 In this way, if the topic value prediction means is provided and the unique text data of the new item is reflected in the search without updating the topic model, then the topic estimation process including the unique text data of the new item will be performed. Even before the topic model is updated, it is possible to perform matching processing with a new matter as the target matter. Therefore, before updating the topic model, it is possible to perform a search by repeating each process by the associative search means, the matching means, and the similar case search means, including new cases.
<類似案件検索手段による固有テキストデータを用いたベクトル処理の詳細> <Details of vector processing using unique text data by similar project search means>
さらに、前述したマッチングシステムにおいて、
類似案件検索手段は、
トピックモデル記憶手段に記憶されている各案件の固有テキストデータにおける各トピックの出現確率を示すトピック値からなるトピック分布ベクトルと、各案件の固有テキストデータを構成する各単語の分散表現の平均値からなる文章ベクトルと、各案件の固有テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルとのうちの少なくとも1つのベクトルを用いて算出した対象案件とそれ以外の案件との間の案件類似度の高い順で対象案件の類似案件を抽出する処理を実行する構成とされていてもよい。
Furthermore, in the matching system described above,
The similar project search means is
A topic distribution vector consisting of topic values indicating the occurrence probability of each topic in the unique text data of each item stored in the topic model storage means, and the mean value of the distributed expression of each word constituting the unique text data of each item and a word importance vector consisting of the TFIDF value of each word or other word importance index values for the unique text data of each project. It may be configured to execute the process of extracting similar cases of the target case in descending order of the case similarity between the case.
このように類似案件検索手段により固有テキストデータを用いたベクトル処理を行う構成とした場合には、固有テキストデータ(自己データ、ニーズデータ)の記述内容を的確に反映させ、マッチングに役立つ類似案件の抽出処理を実現することができる。 In this way, when the similar project search means performs vector processing using unique text data, the content of description of the unique text data (own data, needs data) is accurately reflected, and similar projects useful for matching are found. An extraction process can be implemented.
<検索履歴表示処理の詳細> <Details of search history display processing>
そして、前述したマッチングシステムにおいて、
入力受付手段により受け付けたキーワードまたは案件識別情報、並びにこれらの入力順を含むログ情報を記憶する検索履歴記憶手段を備え、
入力受付手段は、
検索履歴記憶手段に記憶されているログ情報を用いて、キーワードまたは案件識別情報のいずれの入力を受け付けたのかの入力種別および入力順を示すことに加え、
対象案件に対する推薦案件の案件識別情報の入力を受け付けたのか、対象案件の類似案件の案件識別情報の入力を受け付けたのかを区別する推薦・類似区別情報と、
推薦案件の案件識別情報と類似案件の案件識別情報との入力の受付を繰り返す中で、案件識別情報の入力を受け付けた案件が、マッチングを求める側の案件か、マッチング相手側の案件かという観点から、推薦案件については、案件識別情報の入力を受け付けた案件と反対側の案件とし、類似案件については、案件識別情報の入力を受け付けた案件と同じ側の案件とし、推薦案件に対する推薦案件については、案件識別情報の入力を受け付けた案件と同じ側の案件とすることにより、案件識別情報の入力を受け付けた各案件が、互いに同じ側または反対側のいずれの案件かを区別するサイド情報とのうちの少なくとも一方の情報を含む検索履歴表示処理を実行するか、
または、各案件の案件データに、売・買の別、労働者・使用者の別、男・女の別、その他の対になる情報を示すニーズフラグが含まれている場合に、推薦・類似区別情報とサイド情報とのうちの少なくとも一方の情報を含み、かつ、ニーズフラグを含む検索履歴表示処理を実行する構成としてもよい。
And in the matching system mentioned above,
Search history storage means for storing the keyword or project identification information received by the input reception means and log information including the input order thereof,
The input reception means is
Using the log information stored in the search history storage means, in addition to indicating the input type and input order of whether the input of the keyword or the matter identification information was accepted,
Recommendation/similarity distinguishing information for distinguishing whether input of item identification information of a recommended item for the target item has been received or whether input of item identification information of a similar item to the target item has been received;
While repeatedly accepting input of project identification information for recommended projects and project identification information for similar projects, from the perspective of whether the project for which the input of project identification information is received is a project on the matching requesting side or a matching partner side. Therefore, for recommended projects, the projects on the opposite side of the projects for which input of project identification information was accepted, for similar projects, projects on the same side as the projects for which the input of project identification information was accepted, and for recommended projects for recommended projects is side information that distinguishes whether each matter for which the input of matter identification information is on the same side or on the opposite side by making the matter on the same side as the matter for which the matter identification information has been input. Execute search history display processing including information on at least one of
Alternatively, if the project data of each project contains a needs flag indicating whether it is for sale or purchase, whether it is a worker or an employer, whether it is a man or a woman, or other paired information, recommend or similar A configuration may be adopted in which search history display processing including at least one of the distinguishing information and the side information and including a needs flag is executed.
このようにキーワードまたは案件識別情報のいずれの入力を受け付けたのかの入力種別および入力順を示す通常の検索履歴表示処理を行うだけではなく、推薦・類似区別情報とサイド情報とのうちの少なくとも一方の情報を含む検索履歴表示処理や、さらにニーズフラグを含む検索履歴表示処理を行う構成とした場合には、連想検索手段、マッチング手段、および類似案件検索手段による各処理を繰り返す検索を行う中で、ユーザは、自分が今まで何をしてきたのか、今何をしているのか、さらには今から何をすればよいのかを把握し易くなるので、効率的な検索を行うことが可能となる。 As described above, in addition to the usual search history display processing indicating the input type and input order of which input of keyword or item identification information has been received, at least one of recommendation/similarity distinction information and side information is performed. If the search history display processing including the information of and the search history display processing including the needs flag are performed, during the search that repeats each process by the associative search means, the matching means, and the similar case search means , users can easily understand what they have been doing, what they are doing now, and what they should do from now on, so they can perform efficient searches. .
<新規案件の登録時に参考案件を表示する構成> <Configuration for displaying a reference project when registering a new project>
また、前述したマッチングシステムにおいて、
新規案件の案件データの入力を受け付けて案件識別情報を付与し、受け付けた案件データを、付与した案件識別情報と関連付けて案件データ記憶手段に記憶させる処理を実行する新規案件登録手段を備え、
出力手段は、
新規案件の登録時の参考案件として選択された関連案件、推薦案件、若しくは類似案件の案件識別情報またはその案件データを登録時参考案件記憶手段に記憶させる処理を実行する構成とされ、
新規案件登録手段は、
登録時参考案件記憶手段に記憶されている参考案件の案件識別情報を用いて案件データ記憶手段から参考案件の案件データを取得するか、または登録時参考案件記憶手段に記憶されている参考案件の案件データを取得し、取得した参考案件の案件データを、新規案件の案件データの入力部と同一の画面上に表示する処理を実行する構成とされていてもよい。
Also, in the matching system mentioned above,
a new matter registration means for accepting input of matter data of a new matter, assigning matter identification information, and storing the received matter data in the matter data storage means in association with the given matter identification information;
The output means are
a process of storing the item identification information of a related item, a recommended item, or a similar item selected as a reference item when registering a new item, or the item data thereof in a reference item storage means at the time of registration;
The new project registration means is
Acquiring the case data of the reference case from the case data storage means using the case identification information of the reference case stored in the reference case storage means at the time of registration, or obtaining the case data of the reference case stored in the reference case storage means at the time of registration A configuration may be adopted in which case data is acquired, and the process of displaying the acquired case data of the reference case on the same screen as the input unit for the case data of the new case may be executed.
このように新規案件の登録時に参考案件を表示する構成とした場合には、新規案件の登録を行うユーザは、マッチング用のデータとして適切な案件データ(自己データおよびニーズデータを含む)の入力作業を容易に行うことができる。 In this way, when a reference case is displayed at the time of registering a new case, the user who registers the new case has to input appropriate case data (including self data and needs data) as data for matching. can be easily done.
<連想検索手段により一般類似度と固有類似度とを用いて最終類似度を算出する構成とする場合の固有類似度の算出処理の詳細> <Details of Specific Similarity Calculation Processing in the Case of Using General Similarity and Specific Similarity by Associative Search Means to Calculate Final Similarity>
さらに、前述したマッチングシステムにおいて、
連想検索手段は、
一般類似度と固有類似度とを用いて最終類似度を算出する処理を実行する構成とされ、かつ、
全ての案件のうち、固有テキストデータの中にキーワードおよび一般類似度の高さで選定した一般類似単語の双方が含まれる各案件の集合Pにおける一般類似単語の出現回数によるか、または、集合Pにおけるキーワードの出現回数および一般類似単語の出現回数による集合Pの評価値Psと、
固有テキストデータの中にキーワードが含まれず、かつ、一般類似単語が含まれる各案件の集合Qにおける一般類似単語の出現回数による集合Qの評価値Qsとを用いて、
Ps/(Ps+Qs)により、固有類似度を算出する処理を実行する構成としてもよい。
Furthermore, in the matching system described above,
The associative search means is
configured to execute a process of calculating the final similarity using the general similarity and the unique similarity, and
Based on the number of appearances of general similar words in set P of all projects that include both keywords and general similar words selected by high general similarity in unique text data, or set P An evaluation value Ps of the set P based on the number of occurrences of keywords and the number of occurrences of general similar words in
Using the evaluation value Qs of the set Q based on the number of occurrences of the general similar words in the set Q of each case in which the specific text data does not contain the keyword and contains the general similar words,
A configuration may be adopted in which the process of calculating the unique similarity is performed by Ps/(Ps+Qs).
このように連想検索手段により単語の出現回数を用いて固有類似度を算出する構成とした場合には、各案件の固有テキストデータの記述内容を的確に反映した固有類似度を算出し、その固有類似度を用いて最終類似度を算出し、その最終類似度を用いて関連単語を決定することが可能となる。 In this way, when the associative search means is configured to calculate the unique similarity by using the number of appearances of words, the unique similarity that accurately reflects the description content of the unique text data of each case is calculated, and the unique similarity is calculated. It is possible to calculate a final similarity using the similarity and determine related words using the final similarity.
<キーワードの入力および案件識別情報の入力を同一の入力部で受け付ける構成> <Structure for accepting input of keywords and input of project identification information in the same input unit>
そして、前述したマッチングシステムにおいて、
入力受付手段は、
キーワードの入力および案件識別情報の入力を同一の入力部で受け付けた後、入力部に入力された情報が、キーワードであるか案件識別情報であるかを判断する処理を実行する構成としてもよい。
And in the matching system mentioned above,
The input reception means is
After the input of the keyword and the input of the item identification information are accepted by the same input unit, a process of determining whether the information input to the input unit is the keyword or the item identification information may be executed.
このようにキーワードの入力および案件識別情報の入力を同一の入力部で受け付ける構成とした場合には、入力部を配置し、かつ、検索結果を表示する画面の構成が簡易になり、ユーザによる操作性の向上が図られる。 When the same input unit accepts the input of a keyword and the input of project identification information in this way, the configuration of the screen for disposing the input unit and displaying the search results is simplified, and the operation by the user is simplified. It is possible to improve the quality.
<複数の案件識別情報の同時入力を受け付けることができる構成> <Configuration that can receive simultaneous input of multiple item identification information>
また、前述したマッチングシステムにおいて、
入力受付手段は、
複数の案件識別情報の同時入力を受け付けることができる構成とされ、
マッチング手段は、
入力受付手段により複数の案件識別情報の同時入力を受け付けた場合に、受け付けた複数の案件識別情報の各案件をまとめて1つのマッチング処理の対象案件グループとし、トピックモデル記憶手段に記憶されている各案件の固有テキストデータにおける各トピックの出現確率を示すトピック値を用いて、対象案件グループを構成する複数の対象案件の各々とこれらの複数の対象案件の各々のマッチング相手となる各候補案件とからなる複数のペアの各々についてのマッチング用特徴データを作成し、作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、対象案件グループを構成する複数の対象案件の各々に対して各候補案件が選定される確度を示すスコアを算出し、
対象案件グループを構成する複数の対象案件の各々と、マッチング相手となる複数の候補案件の各々との間の各スコアの合計値が大きくなる複数の候補案件を選択し、選択した複数の候補案件を、推薦案件グループを構成する複数の推薦案件として決定する処理を実行する構成とされ、
類似案件検索手段は、
入力受付手段により複数の案件識別情報の同時入力を受け付けた場合に、マッチング手段による処理と併せて、対象案件グループを構成する複数の対象案件の各々について、各案件の固有テキストデータを用いて算出した対象案件とそれ以外の案件との間の案件類似度の高い順で対象案件の類似案件を抽出する処理を実行する構成とされ、
出力手段は、
入力受付手段により複数の案件識別情報の同時入力を受け付けた場合に、マッチング手段により決定した推薦案件グループを構成する複数の推薦案件を、入力部と同一の画面上に表示するとともに、類似案件検索手段により抽出した対象案件グループを構成する複数の対象案件の各々についての類似案件を、入力部と同一の画面上に表示する処理を実行する構成とされていてもよい。
Also, in the matching system mentioned above,
The input reception means is
It is configured to be able to receive simultaneous input of multiple project identification information,
The matching means are
When simultaneous input of a plurality of item identification information is received by the input reception means, each item of the received plurality of item identification information is grouped together as a target item group for matching processing and stored in the topic model storage means. Using the topic value that indicates the appearance probability of each topic in the unique text data of each project, each of the multiple target projects that make up the target project group and each candidate project that is a matching partner for each of these multiple target projects and each of the plurality of created matching feature data is used as input data, and is pre-learned by two-class classification as to whether or not it is selected, and the matching model is stored. By performing classification processing using a supervised classification model using the matching model stored in the means, a score indicating the probability that each candidate project is selected for each of the multiple target projects that make up the target project group is calculated. calculate,
Select multiple candidate projects that have a large total score between each of the multiple target projects that make up the target project group and each of the multiple candidate projects that are matching partners, and select multiple candidate projects are configured to execute a process of determining as a plurality of recommended cases constituting a recommended case group,
The similar project search means is
When simultaneous input of multiple project identification information is received by the input reception means, calculation is performed using the unique text data of each project for each of the multiple target projects that make up the target project group in conjunction with processing by the matching means It is configured to execute the process of extracting similar cases of the target case in the order of high degree of case similarity between the target case and other cases,
The output means are
When simultaneous input of a plurality of project identification information is received by the input reception means, a plurality of recommended projects constituting a recommended project group determined by the matching means are displayed on the same screen as the input unit, and a similar project search is performed. It may be configured to execute a process of displaying similar cases for each of a plurality of target cases constituting the target case group extracted by the means on the same screen as the input unit.
このように複数の案件識別情報の同時入力を受け付けることができる構成とした場合には、類似案件検索手段により、入力された対象案件グループを構成する複数の対象案件の各々についての類似案件が抽出され、表示されるので、様々な観点から、紹介する案件グループを決定することが可能となり、ノウハウの少ないサービス担当者でも適切な紹介作業を行うことが可能になるとともに、偏った紹介実績を含む学習用データによるマッチングモデルの更新の未然防止を図ることが可能となる。すなわち、マッチング手段は、トピック推定処理で得られたトピックモデルの更新や、マッチング用特徴データを用いた学習で得られたマッチングモデルの更新が行われない限り、同じ入力に対しては、同じ出力をすることから、ある対象案件グループに対し、いつも同じ推薦案件グループが出力されることになる。しかし、本発明により、対象案件グループを構成する複数の対象案件のうちの少なくとも1つの案件を、それらの対象案件の類似案件に変えて検索を行ったり、あるいは、推薦案件グループを構成する複数の推薦案件のうちの少なくとも1つの案件を、それらの推薦案件の類似案件に変えて紹介すること等が可能となる。 In the case where the configuration is such that it is possible to receive simultaneous input of multiple project identification information, the similar project search means extracts similar projects for each of the multiple target projects that make up the input target project group. Since it is displayed and displayed, it is possible to decide the project group to introduce from various viewpoints, and it is possible for even service personnel with little know-how to perform appropriate introduction work, including biased introduction results It is possible to prevent the matching model from being updated by the learning data. That is, the matching means produces the same output for the same input unless the topic model obtained by the topic estimation process or the matching model obtained by learning using the matching feature data is updated. , the same recommended case group is always output for a certain target case group. However, according to the present invention, at least one of the plurality of target cases that make up the target case group is changed to a similar case of those target cases to perform a search, or a plurality of cases that make up the recommended case group are searched. It is possible to change at least one item out of the recommended items to an item similar to those recommended items and introduce it.
<プログラムの発明> <Program Invention>
また、本発明のプログラムは、以上に述べたマッチングシステムとして、コンピュータを機能させるためのものである。 A program of the present invention is for causing a computer to function as the matching system described above.
なお、上記のプログラムまたはその一部は、例えば、光磁気ディスク(MO)、コンパクトディスク(CD)、デジタル・バーサタイル・ディスク(DVD)、フレキシブルディスク(FD)、磁気テープ、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュディスク等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。 Note that the above program or part thereof can be, for example, a magneto-optical disk (MO), a compact disk (CD), a digital versatile disk (DVD), a flexible disk (FD), a magnetic tape, a read-only memory (ROM) , electrically erasable and rewritable read-only memory (EEPROM), flash memory, random access memory (RAM), hard disk drive (HDD), solid state drive (SSD), flash disk, etc. It is possible to store, distribute, etc. by using, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), the Internet, an intranet, an extranet, etc. It can be transmitted over a transmission medium such as a wired network, a wireless communication network, or a combination thereof, or it can be carried on a carrier wave. Furthermore, the above program may be part of another program, or may be recorded on a recording medium together with a separate program.
以上に述べたように本発明によれば、連想検索手段、マッチング手段、および類似案件検索手段による3つの処理を繰り返す検索を行うことができるので、偏った紹介の未然防止、偏った紹介実績に基づくマッチングモデルの再学習の未然防止、効果的なマッチングを行うための適切な案件データの登録の実現、サービス担当者の手間の軽減を図ることができるという効果がある。 As described above, according to the present invention, it is possible to perform a search by repeating the three processes of the associative search means, the matching means, and the similar case search means. It is possible to prevent the re-learning of the matching model based on the system, to realize the registration of appropriate project data for effective matching, and to reduce the labor of the person in charge of the service.
以下に本発明の一実施形態について図面を参照して説明する。図1には、本実施形態のマッチングシステム10の全体構成が示されている。このマッチングシステム10は、事業者(主として企業であるが、個人事業主や、大学等の非営利団体でもよい。)に対し、ビジネスパートナー(産学連携を含む。)となる事業者を紹介するビジネスマッチングサービスを実施するためのシステムである。なお、本願明細書では、個人事業主や、大学等の非営利団体も含めた事業者という意味で「企業」という用語を用いることがある。
An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 shows the overall configuration of a
サービス形態としては、事業者からのマッチングの依頼を受けて、専らサービス担当者が検索を行い、条件に合うマッチング相手を探して依頼者に紹介する形態でもよく、例えばサービス会社の窓口や客先等で、サービス担当者と顧客(依頼者)とが対話をしながら検索を行うことにより、条件に合うマッチング相手を探し、選定した相手方の名称や連絡先等をサービス担当者が依頼者に開示して紹介する形態でもよく、専らマッチングの依頼者が検索(遠隔地からのオンライン検索を含む。)を行い、条件に合うマッチング相手を探し、選定した相手方の名称や連絡先等をサービス担当者(サービス会社)に紹介してもらう形態でもよく、従って、検索を行う主体は、マッチングを希望する事業者、またはその事業者の補助・指導・案内を行うサービス担当者である。 As a form of service, upon receiving a request for matching from a business operator, the person in charge of the service exclusively searches for a matching partner that meets the conditions and introduces it to the requester. etc., the service representative and the customer (requester) conduct a search while talking to each other to search for a matching partner that meets the conditions, and the service representative discloses the name and contact information of the selected partner to the requester. The matching requester may conduct a search (including online search from a remote location), search for a matching partner that meets the conditions, and provide the name and contact information of the selected partner to the person in charge of the service. (Service company) may be introduced. Therefore, the subject of the search is the business operator who wishes to be matched, or the person in charge of the service who assists, guides, and guides the business operator.
図2~図10には、マッチングシステム10による各処理の内容の詳細が示されている。また、図11~図13は、ユーザの操作に伴って実行されるマッチングシステム10の検索機能の説明図である。さらに、図14および図15には、マッチングシステム10の事前処理および運用時の検索処理の全体的な流れが、図16には、トピックモデルの更新等の処理の流れが、図17~図19には、連想検索用、マッチング用、類似案件検索用の各事前処理の流れが、図20~図23には、連想検索処理、マッチング処理、類似案件検索処理、新規案件登録処理の流れが、それぞれフローチャートで示されている。
2 to 10 show details of each process performed by the
<マッチングシステム10の全体構成>
<Overall Configuration of
図1において、マッチングシステム10は、コンピュータにより構成され、本体20と、例えば液晶ディスプレイ等の表示手段80と、例えばマウスやキーボードやタッチパネル等の入力手段90とを備えている。
In FIG. 1, the
本体20は、マッチング並びにそれに付随する連想検索および類似案件検索に関する各種処理を実行する処理手段30と、この処理手段30による処理に必要となる各種データを記憶する記憶手段50とを備えて構成されている。
The
処理手段30は、設定手段31と、分散表現モデル学習手段32と、案件データ準備手段33と、固有テキストデータ準備手段34と、トピック推定手段35と、トピック値予測手段36と、単語重要度ベクトル算出手段37と、マッチング学習用データ準備手段38と、マッチングモデル学習手段39と、入力受付手段40と、連想検索手段41(単語類似度算出手段41A、関連度算出手段41Bを含む)と、マッチング手段42(マッチング用特徴データ作成手段42A、マッチングスコア算出手段42Bを含む)と、類似案件検索手段43(案件類似度算出手段43A、類似案件抽出手段43Bを含む)と、出力手段44と、新規案件登録手段45とを含んで構成されている。 The processing means 30 includes a setting means 31, a distributed representation model learning means 32, an item data preparation means 33, a unique text data preparation means 34, a topic estimation means 35, a topic value prediction means 36, and a word importance vector. Calculation means 37, matching learning data preparation means 38, matching model learning means 39, input reception means 40, associative search means 41 (including word similarity calculation means 41A and relevance calculation means 41B), and matching means 42 (including matching feature data creation means 42A and matching score calculation means 42B); similar case search means 43 (including case similarity calculation means 43A and similar case extraction means 43B); output means 44; It is configured including an item registration means 45 .
ここで、処理手段30に含まれる各手段31~45は、マッチングシステム10の本体20の内部に設けられた中央演算処理装置(CPU)、およびこのCPUの動作手順を規定する1つまたは複数のプログラムにより実現される。これらの各手段31~45の詳細は後述する。
Here, each means 31 to 45 included in the processing means 30 is a central processing unit (CPU) provided inside the
記憶手段50は、設定データ記憶手段51と、分散表現モデル学習用データ記憶手段52と、分散表現モデル記憶手段53と、案件データ記憶手段54と、不要語辞書記憶手段55と、トピックモデル記憶手段56と、単語重要度ベクトル記憶手段57と、マッチング候補選定実績リスト記憶手段58と、マッチング学習用データ記憶手段59と、マッチングモデル記憶手段60と、検索履歴記憶手段61と、モデル別類似度記憶手段62と、一般類似度記憶手段63と、固有類似度記憶手段64と、最終類似度記憶手段65と、関連度記憶手段66と、文章ベクトル記憶手段67と、案件類似度記憶手段68と、登録時参考案件記憶手段69とを含んで構成されている。 The storage means 50 includes setting data storage means 51, distributed representation model learning data storage means 52, distributed representation model storage means 53, case data storage means 54, unnecessary word dictionary storage means 55, and topic model storage means. 56, word importance vector storage means 57, matching candidate selection record list storage means 58, matching learning data storage means 59, matching model storage means 60, search history storage means 61, model similarity storage. means 62, general similarity storage means 63, unique similarity storage means 64, final similarity storage means 65, relevance storage means 66, text vector storage means 67, case similarity storage means 68, It is configured including a reference case storage means 69 at the time of registration.
ここで、記憶手段50に含まれる各記憶手段51~69としては、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等を採用することができるが、揮発性メモリ(主メモリやキャッシュメモリ等の作業用メモリに一時的に確保される記憶領域)でよいものも含まれている。この点については後述する。また、各記憶手段51~69の詳細も後述する。 Here, as each of the storage means 51 to 69 included in the storage means 50, for example, a hard disk drive (HDD), a solid state drive (SSD), etc. can be adopted. (storage area temporarily secured in work memory, etc.). This point will be described later. Details of each of the storage means 51 to 69 will also be described later.
また、図1では、マッチングシステム10は、スタンドアロンの構成で記載されているが、ネットワークを介して通信を行うシステム構成としてもよい。サーバ・クライアント型のマッチングシステム10とする場合には、本体20を1台または複数台のサーバにより構成し、表示手段80および入力手段90は端末側に設けることができる。この際、ネットワークは、インターネットのような外部ネットワークでもよく、イントラネットやLAN等の内部ネットワークでもよく、それらの組合せでもよく、有線であるか、無線であるか、有線・無線の混在型であるかは問わない。端末は、サービス形態により、主としてサービス担当者の端末である場合と、主としてマッチング依頼者(マッチングサービスの提供を受ける者)の端末である場合と、例えばサービス窓口や客先等で互いにそばにいるサービス担当者とマッチング依頼者とが同時に同じ画面を物理的に1つの端末で見る場合と、互いに遠隔地にいるサービス担当者とマッチング依頼者とがオンライン会議のように共有の画面を別々の端末で見る場合とがある。遠隔地にいるマッチング依頼者が自分の案件データを自分で直接に入力し、あるいはマッチングの結果(スコアリングの結果)を画面で直接に参照する場合には、ネットワークをインターネットのような外部ネットワークとし、マッチング依頼者の端末を、サーバである本体20に接続することになる。また、いずれのサービス形態をとる場合でも、システムの構築・維持・更新等の管理を行うシステム管理者の端末を設置することになる。
In addition, in FIG. 1, the
<処理手段30の構成>
<Configuration of
(処理手段30/設定手段31の構成)
設定手段31は、システム管理者による入力手段90からの各種の設定データの入力を受け付け、設定データ記憶手段41に記憶させる処理を実行するものである。
(Configuration of processing means 30/setting means 31)
The setting means 31 receives input of various setting data from the input means 90 by the system administrator, and executes processing for storing the data in the setting data storage means 41 .
また、設定手段31は、ユーザ(サービス担当者)による入力手段90からの各種の設定データの入力を受け付け、設定データ記憶手段41に記憶させる処理を実行してもよい。この場合は、ユーザ(サービス担当者)毎の設定データが、ユーザ識別情報(サービス担当者識別情報)と関連付けられて設定データ記憶手段41に記憶される。例えば、ユーザ毎の設定ファイル等の形式で保存される。なお、ユーザによる設定データは、保存せずに、その都度、入力するものとしてもよく、その場合には、設定データ記憶手段41の一部が、主メモリやキャッシュメモリ等の作業用メモリにより構成されることになる。 Further, the setting means 31 may receive input of various setting data from the input means 90 by the user (person in charge of service) and execute processing for storing the data in the setting data storage means 41 . In this case, setting data for each user (service staff) is stored in the setting data storage means 41 in association with user identification information (service staff identification information). For example, it is saved in a format such as a setting file for each user. It should be noted that the setting data by the user may be input each time without being saved. will be
具体的には、設定データには、単語類似度算出手段41Aにより一般類似単語を決定する際(詳細は後述するが、処理の結果としてN5個(例えば、N5=70)の単語が一般類似単語として選択決定される。)に用いる各分散表現モデルにおけるモデル別類似度Sの個数N3(例えば、N3=100)と、単語類似度算出手段41AによりN5個の一般類似単語の中から選択決定する関連単語の個数N6(例えば、N6=10)と、単語類似度算出手段41Aにより複数の分散表現モデルにおけるモデル別類似度Sを統合して一般類似度Aを求める際に加重調和平均や加重平均を使う場合の各分散表現モデルに対する重み係数の値と、単語類似度算出手段41Aにより固有類似度Bを求める際の後述する式(1)における係数σ,τおよび式(2)における係数φと、単語類似度算出手段41Aにより一般類似度Aと固有類似度Bとを用いて最終類似度FSを求める際に加重調和平均や加重平均を使う場合の一般類似度Aおよび固有類似度Bに対する重み係数の値と、関連度算出手段41Bにより関連度CSを求める際の後述する式(3)における重み係数κ(i)と、案件類似度算出手段43Aにより案件類似度を算出する際の後述する式(4)における重み係数Wtf-idf、Wword2vec、Wtopicとがある。また、出力手段44により画面表示する関連案件(連想検索手段41の処理結果)、推薦案件(マッチング手段42の処理結果)、類似案件(類似案件検索手段43の処理結果)の各表示数(例えば、上位10位以内等)も、設定データである。なお、これらの設定データは、固定値としてもよい。 Specifically, when the word similarity calculation means 41A determines general similar words (details will be described later, as a result of processing, N5 words (for example, N5=70) are included in the setting data. N3 (for example, N3 = 100) of the model-specific similarities S in each distributed representation model used in ), and N5 general similar words are selected and determined by the word similarity calculation means 41A When obtaining general similarity A by integrating the number of related words N6 (for example, N6=10) and similarity by model S in a plurality of distributed representation models by word similarity calculation means 41A, weighted harmonic average or weighted average , and the coefficients σ and τ in the formula (1) and the coefficient φ in the formula (2) when obtaining the unique similarity B by the word similarity calculation means 41A when using , the weight for the general similarity A and the specific similarity B when using the weighted harmonic average or the weighted average when calculating the final similarity FS using the general similarity A and the specific similarity B by the word similarity calculation means 41A A coefficient value, a weighting coefficient κ(i) in Equation (3) when calculating the degree of relevance CS by the degree-of-relevance calculating means 41B, and There are weighting factors Wtf-idf, Wword2vec, and Wtopic in equation (4). In addition, the number of related cases (processing results of the associative searching means 41), recommended cases (processing results of the matching means 42), and similar cases (processing results of the similar case searching means 43) displayed on the screen by the output means 44 (for example, , within the top 10, etc.) are also set data. Note that these setting data may be fixed values.
さらに、設定手段31は、システム管理者による入力手段90の操作で、事前に取得・収集しておいた分散表現モデル学習用のテキストデータを、分散表現モデル学習用データ記憶手段52に記憶させる処理も実行する。 Further, the setting means 31 stores the text data for distributed representation model learning acquired and collected in advance in the distributed representation model learning data storage means 52 by the operation of the input means 90 by the system administrator. Also run
(処理手段30/分散表現モデル学習手段32の構成)
分散表現モデル学習手段32は、分散表現モデル学習用データ記憶手段52に記憶された分散表現モデル学習用のテキストデータを用いて、形態素解析、各種のアルゴリズムによる機械学習を行い、得られた学習結果データ(本実施形態では、単語の分散表現としての高次元の単語ベクトルの集合である重み行列W)を、分散表現モデル記憶手段53(図2参照)に記憶させる処理を実行するものである。学習で得られた分散表現モデルは、図2に示すように、連想検索手段41による処理および類似案件検索手段43による処理で使用されるが、双方の処理で使用する分散表現モデルは共用としてもよく、別々に用意してもよい。本実施形態では、一例として共用とする。なお、公開・提供された学習結果データ(重み行列W)を取得し、分散表現モデル記憶手段53に保存してもよい。
(Configuration of
The distributed representation model learning means 32 uses the text data for distributed representation model learning stored in the distributed representation model learning data storage means 52 to perform morphological analysis and machine learning using various algorithms, and obtains learning results. Data (in this embodiment, a weight matrix W that is a set of high-dimensional word vectors as distributed representations of words) is stored in the distributed representation model storage means 53 (see FIG. 2). The distributed representation model obtained by learning is used in the processing by the associative search means 41 and the process by the similar case search means 43 as shown in FIG. Well, you can prepare them separately. In this embodiment, as an example, they are shared. It should be noted that the disclosed/provided learning result data (weight matrix W) may be acquired and stored in the distributed representation model storage means 53 .
ここで、分散表現モデル学習用のテキストデータには、例えば、ニュースのテキストデータや、ウィキペディア等のインターネットから収集したテキストデータ等を用いる。この分散表現モデル学習用のテキストデータは、N1個(例えば、N1=18億)の単語を含むデータであり、膨大な量のデータである。この中には、重なりのないユニークな単語が、N2個(例えば、N2=115万)含まれている。 Here, text data of news, text data collected from the Internet such as Wikipedia, and the like are used as the text data for distributed representation model learning, for example. The text data for this distributed representation model learning is data containing N1 (for example, N1=1.8 billion) words, and is a huge amount of data. It contains N2 (for example, N2=1,150,000) unique words without overlapping.
また、分散表現モデル記憶手段53(図2参照)に記憶される単語ベクトルとしては、例えば、ワード・ツー・ベック(word2vec)のモデルであるコンティニュアス・バッグ・オブ・ワード(CBOW)やスキップ・グラム(Skip-gram)、あるいは、グローヴ(GloVe)、ファースト・テキスト(fastText)、リカレント・ニューラル・ネットワーク(RNN)の1種であるロング・ショート・ターム・メモリ(LSTM)によるエルモ(ELMo)、さらには、ニューラル・ネットワーク(NN)以外でも、例えば、ライン(LINE)等のアルゴリズムによる単語ベクトルを用いることができる。 The word vectors stored in the distributed representation model storage means 53 (see FIG. 2) include, for example, continuous bag of words (CBOW), which is a word2vec model, and skip Skip-gram or ELMo by Long Short Term Memory (LSTM), a type of GloVe, fastText, Recurrent Neural Network (RNN) Furthermore, word vectors obtained by algorithms other than neural networks (NN), such as LINE, can also be used.
具体的には、図2に示すように、例えばword2vec等による学習で得られた単語ベクトルの集合である重み行列W(行が単語ベクトルになっている。)を利用することができる。この重み行列Wは、ワード・ベクター・ルックアップ・テーブル等と称され、ボキャブラリ数N2(例えば、N2=115万)×ディメンジョン数の行列である。本実施形態では、一例として、3種類のディメンジョン(=100,200,400)で、いずれについてもウィンドウサイズ=12を設定することにより、3タイプの重み行列W1,W2,W3を用意し、3タイプの分散表現モデルとして分散表現モデル記憶手段53(図2参照)に記憶させる。これらの3タイプの分散表現モデルは、各分散表現モデルによるモデル別類似度Sが、後述するように調和平均または加重調和平均等によりアンサンブルされるので、統合された1つのモデルであると考えてもよい。ディメンジョン数は、単語ベクトルの次元数であり、例えばword2vec等のニューラルネットワーク(NN)のアルゴリズムで得られた単語ベクトルの場合には、NNの中間層(隠れ層)のノード数と同等である。 Specifically, as shown in FIG. 2, a weight matrix W (rows are word vectors), which is a set of word vectors obtained by learning by word2vec or the like, can be used. This weight matrix W is called a word vector lookup table or the like, and is a matrix of the number of vocabularies N2 (for example, N2=1,150,000)×the number of dimensions. In the present embodiment, as an example, three types of dimensions (=100, 200, 400) are set to window size = 12 for all of them to prepare three types of weight matrices W1, W2, and W3. The distributed representation model of the type is stored in the distributed representation model storage means 53 (see FIG. 2). These three types of distributed representation models are considered to be one integrated model because the model-specific similarity S by each distributed representation model is ensembled by a harmonic average or a weighted harmonic average as described later. good too. The number of dimensions is the number of dimensions of a word vector, and in the case of word vectors obtained by a neural network (NN) algorithm such as word2vec, it is equivalent to the number of nodes in the intermediate layer (hidden layer) of the NN.
なお、用意する分散表現モデルの数は、1つだけとしてもよく、また、複数の分散表現モデルを用意する場合には、3タイプに限らず、2タイプや4タイプ以上でもよく、例えば、複数種類のディメンジョンの各々について複数種類のウィンドウサイズを設定することにより、4タイプ以上の分散表現モデルを用意してもよい。 Note that the number of distributed representation models to be prepared may be only one, and when a plurality of distributed representation models are prepared, the number of types is not limited to three, and may be two or four or more. Four or more types of distributed representation models may be prepared by setting multiple types of window sizes for each of the types of dimensions.
また、本発明における単語の分散表現として用いる単語ベクトルは、必ずしも各種のアルゴリズムによる機械学習で得られた学習結果データとしての単語ベクトルである必要はなく、例えば、機械学習で得られた学習結果データとしての単語ベクトルを加工、調整、または混合(異なるアルゴリズムによる機械学習で得られた単語ベクトルを混成させる等)して作成した単語ベクトルや、機械学習によらない手法で集計作業等を行って作成した単語ベクトル等としてもよい。 In addition, the word vectors used as distributed representations of words in the present invention are not necessarily word vectors as learning result data obtained by machine learning using various algorithms. For example, learning result data obtained by machine learning Word vectors created by processing, adjusting, or mixing word vectors (such as combining word vectors obtained by machine learning with different algorithms), or created by performing aggregation work, etc. by methods that do not rely on machine learning It may be a word vector or the like.
(処理手段30/案件データ準備手段33の構成)
案件データ準備手段33は、マッチングサービスの提供を受けることを目的として用意された多数の案件(ここでは、企業)についての案件データを、案件識別情報(本実施形態では、案件番号)と関連付けて案件データ記憶手段54に記憶させる処理を実行するものである。これらの案件データは、マッチングサービスを行う既存のシステムで用いていたデータを流用してもよい。なお、案件識別情報は、本実施形態のような数字からなる案件番号に限らず、文字や記号等を含めた識別情報でもよい。
(Configuration of
The case data preparation means 33 associates the case data of a large number of cases (in this case, companies) prepared for the purpose of receiving the matching service with the case identification information (in this embodiment, case numbers). It executes processing to be stored in the case data storage means 54 . Data used in an existing system that provides a matching service may be used as the item data. Note that the project identification information is not limited to the project number consisting of numbers as in the present embodiment, and may be identification information including characters, symbols, and the like.
案件データには、企業情報として、企業名、自己所在地、電話番号、ホームページアドレス、代表者名や担当者名およびそれらの役職、自己業種および主な取扱商品、自己PR(自由記述形式のテキストデータ)、資本金、従業員数、年商(売上高)等が含まれている。また、ビジネスマッチング相手に求めるニーズ情報として、希望業種(相手企業の業種)、希望地域(相手企業の所在地)、ニーズの種類をサービス会社(マッチングサービス提供者)が予め用意した各項目に該当するか否かの選択指定で示すニーズフラグ、ニーズ詳細(自由記述形式のテキストデータ)等が含まれている。このうち、本発明におけるマッチングを実行するうえで重要なデータは、自由記述形式のテキストデータである自己PRおよびニーズ詳細である。本発明(請求項)における「自己データ」は、自己PRを中心とするデータ(自己PRを含んでいればよく、自己PRだけでもよい。)であり、「ニーズデータ」は、ニーズ詳細を中心とするデータ(ニーズ詳細を含んでいればよく、ニーズ詳細だけでもよい。)であり、この点については、図5、図6を用いて後述する。 The project data includes company information such as company name, location, telephone number, website address, representative name, person in charge and their positions, industry and main products handled, self-promotion (text data in free description format). ), capital, number of employees, annual sales (sales), etc. In addition, as the needs information required of the business matching partner, the desired industry (business type of the partner company), desired area (location of the partner company), and the type of needs correspond to each item prepared in advance by the service company (matching service provider). It includes a needs flag, needs details (text data in a free description format), etc. Of these, important data for executing matching in the present invention are self-PR and needs details, which are text data in a free description format. "Self-data" in the present invention (claims) is data centered on self-PR (it may include self-PR or may be only self-PR), and "needs data" is centered on details of needs. (It is sufficient if the details of the needs are included, or only the details of the needs are sufficient.) This point will be described later with reference to FIGS. 5 and 6. FIG.
図5、図10に示すように、ニーズフラグは、ニーズの種類を示すデータ(該当するか否かの1,0のデータ)であり、本実施形態では、一例として7個設けられているが、ニーズフラグの設置個数は任意であり、1つでも、複数でもよい。また、内容やその粗さの度合いの設定も任意であり、例えば、「売ります」というニーズフラグと、「買います」というニーズフラグとを設けてもよく、さらに細かく、例えば、「部品を売ります」、「材料を売ります」、「部品を買います」、「材料を買います」等のニーズフラグを設けてもよい。なお、例えば、「売ります」と「販売先を求めています」とは同じ内容であり、「買います」と「仕入れ先を求めています」も同じ内容であるため、表現上の相違は問題にならない。 As shown in FIGS. 5 and 10, the need flag is data indicating the type of need (data of 1 and 0 indicating whether or not it is applicable), and in this embodiment, seven flags are provided as an example. , the number of needs flags to be set is arbitrary, and may be one or more. In addition, the content and the degree of coarseness can also be set arbitrarily. Need flags such as "buy materials", "buy parts", and "buy materials" may be provided. For example, "sell" and "seeking a buyer" have the same content, and "buy" and "seeking a supplier" have the same content, so the difference in expression is a problem. do not become.
同様に、「弊社にて製造します」というニーズフラグと、「貴社で製造してください」というニーズフラグとを設けてもよく、さらに細かく、例えば、「部品を製造します」、「材料を製造します」、「部品を製造してください」、「材料を製造してください」等のニーズフラグを設けてもよい。その他には、例えば、「システムを構築します」、「システムの構築をお願いします」、「製品・商品を輸送します」、「製品・商品を輸送してください」、「広告を引き受けます」、「広告をお願いします」、「人材を派遣します」、「人材の派遣をお願いします」、「小売りします」、「小売店を求めています」、「全国展開を引き受けます」、「全国展開をお願いしたい」、「不動産を提供します」、「不動産の提供を求めています」、「サービスを提供します」、「サービスの提供を求めています」、「納品は当日または翌日です」、「納期は当日または翌日として欲しい」等のニーズフラグを設けることができる。また、「その他」というニーズフラグを設けてもよい。 Similarly, a needs flag saying "manufacture at our company" and a needs flag saying "manufacture at your company" may be provided. Need flags such as "manufacture", "manufacture parts", and "manufacture materials" may be provided. In addition, for example, "We will build a system", "Please build a system", "We will transport products/merchandise", "Please transport products/merchandise", "We will undertake advertising , "Please do an advertisement", "We will dispatch personnel", "Please dispatch personnel", "We will sell retail", "We are looking for a retail store", "We will undertake nationwide expansion" , "We would like to expand nationwide", "We will provide real estate", "We are looking for real estate", "We will provide services", "We are looking for services", "Delivery will be on the same day or Need flags such as "It is the next day" and "I want the delivery date to be the same day or the next day" can be set. Also, a need flag of "others" may be provided.
(処理手段30/固有テキストデータ準備手段34の構成)
固有テキストデータ準備手段34は、案件データ記憶手段54に記憶されている各案件(各企業)の案件データを用いて、マッチング処理およびそれに付随する連想検索処理および類似案件検索処理に必要となる各案件(各企業)の固有テキストデータを準備する処理を実行し、処理後の固有テキストデータを、案件識別情報(案件番号)と関連付けて案件データ記憶手段54に記憶させる処理を実行するものである。
(Configuration of
The unique text data preparation means 34 uses the job data of each job (each company) stored in the job data storage means 54 to prepare each data necessary for the matching process and the accompanying associative search process and similar job search process. It executes a process of preparing unique text data of the case (each company), and executes a process of storing the processed unique text data in the case data storage means 54 in association with the case identification information (case number). .
なお、処理後の固有テキストデータは、案件データ記憶手段54とは別に、固有テキストデータ記憶手段を設けておき、そこに案件識別情報(案件番号)と関連付けて記憶させてもよい。また、本実施形態では、処理後の固有テキストデータを案件データ記憶手段54に記憶させるが、案件データ記憶手段54に記憶されている処理後の固有テキストデータの部分を、固有テキストデータ記憶手段と呼んでもよい。従って、案件データや処理後の固有テキストデータを記憶するために設置するデータベースの数や、テーブルの数は任意であり、どのようなデータ分割形態をとっていても、案件識別情報(案件番号)により関連付けられていればよい。 Note that the unique text data after processing may be stored in a unique text data storage means separately from the case data storage means 54 in association with the case identification information (case number). In this embodiment, the processed unique text data is stored in the item data storage means 54, but the processed unique text data portion stored in the item data storage means 54 is stored as the unique text data storage means. You can call Therefore, the number of databases and the number of tables to be installed to store the item data and the unique text data after processing is arbitrary, and regardless of the data division format, the item identification information (item number) It is sufficient if they are associated with each other.
固有テキストデータは、連想検索手段41、マッチング手段42、類似案件検索手段43のいずれの処理でも使用される。本実施形態では、マッチング手段42による処理については、図5に示すように、自己データとニーズデータとを結合した結合テキストデータを、固有テキストデータとして使用する。一方、類似案件検索手段43による処理については、図10に示すように、自己データとニーズデータとは結合せずに、別々の状態の自己データおよびニーズデータのそれぞれを固有テキストデータとして使用する。但し、マッチング手段42による処理において、自己データとニーズデータとを結合せずに、別々の状態でそれぞれを固有テキストデータとして使用してもよく、また、類似案件検索手段43による処理において、自己データとニーズデータとを結合した結合テキストデータを、固有テキストデータとして使用してもよい。 The unique text data is used in any of the processes of the associative search means 41, the matching means 42, and the similar case search means 43. FIG. In this embodiment, as shown in FIG. 5, for the processing by the matching means 42, combined text data obtained by combining self data and needs data is used as specific text data. On the other hand, as for the processing by the similar item search means 43, as shown in FIG. 10, the self data and the needs data are not combined, and the self data and the needs data in separate states are used as unique text data. However, in the processing by the matching means 42, the self-data and the needs data may be used separately as unique text data without being combined. You may use the combined text data which combined this and needs data as specific text data.
また、連想検索手段41による処理については、本実施形態では、マッチング手段42による処理で使用する固有テキストデータ(結合テキストデータの状態のもの)を共用で使用する。但し、連想検索手段41による処理において、自己データまたはニーズデータのいずれか一方を固有テキストデータとして使用してもよい。なお、前述した本願出願人により開発された特許文献2の抽出システムは、キーワードを入力してそのキーワードに関連する企業を抽出するシステムであるため、連想検索手段41による処理に応用することができる。この際、特許文献2の抽出システムは、主として、キーワードを入力してテーマ型ファンドの構成銘柄とする候補銘柄(すなわち、その銘柄の発行企業)を抽出するシステムとして開発されたので、関連企業の抽出を行うために、各企業の固有テキストデータとして、各企業が投資家に向けて発信するインベスター・リレーションズ情報(IR情報)や各企業のホームページ情報(HP情報)を用いているが、本発明のマッチングシステムに応用する場合には、IR情報やHP情報を、マッチングを目的として記述された自己データ、ニーズデータ、またはそれらの結合テキストデータに置き換える。
As for the processing by the associative search means 41, in this embodiment, the unique text data (in the state of combined text data) used in the processing by the matching means 42 are shared. However, in the processing by the associative search means 41, either self data or needs data may be used as unique text data. The extraction system of
この固有テキストデータ準備手段34による処理は、事前処理(図14参照)の段階で実行される。また、新規案件の登録時(図23参照)に、新規案件登録手段45からの指示を受けて、トピックモデル等の更新前における新規案件の即時反映処理として、新規案件の固有テキストデータについて実行される。さらに、トピックモデルの更新等の時期が到来した場合(図16参照)にも実行されるが、上記の新規案件の即時反映処理で実行されている処理については、繰り返し実行する必要はない。 The processing by this unique text data preparation means 34 is executed in the stage of preprocessing (see FIG. 14). Also, when registering a new item (see FIG. 23), upon receiving an instruction from the new item registration means 45, it is executed on the unique text data of the new item as immediate reflection processing of the new item before updating the topic model or the like. be. Furthermore, it is also executed when the time for updating the topic model comes (see FIG. 16), but it is not necessary to repeatedly execute the processing that is executed in the instant reflection processing of the new item.
(処理手段30/固有テキストデータ準備手段34の構成:結合テキストデータの作成処理、図5、図6)
固有テキストデータ準備手段34は、[α]結合テキストデータの作成処理と、[β]不要な記号やタグ等の除去処理と、[γ]形態素解析で単語に分解し、名詞のみを抽出する処理と、[δ]不要な単語の除去処理とを実行する。なお、[α]の処理を実行して得られたデータと、[α]~[δ]の処理を実行して得られたデータとは、ともに結合テキストデータ(固有テキストデータ)と呼ぶ。この際、[γ]の処理を経た後は、単語に分解された状態となるが、トピック推定を行ううえで、[α]の処理を実行して得られたデータと同等な情報を持ち合わせているので、説明の便宜上、結合テキストデータ(固有テキストデータ)と呼ぶ。また、[δ]までの処理を経た結合テキストデータ(固有テキストデータ)を特に区別して呼ぶときは、処理後の結合テキストデータ(処理後の固有テキストデータ)と呼ぶ。
(Configuration of processing means 30/unique text data preparation means 34: Combined text data creation processing, FIGS. 5 and 6)
The unique text data preparation means 34 performs [α] processing for creating combined text data, [β] processing for removing unnecessary symbols and tags, and [γ] processing for breaking down into words by morphological analysis and extracting only nouns. and [δ] unnecessary word removal processing are executed. The data obtained by executing the process [α] and the data obtained by executing the processes [α] to [δ] are both called combined text data (unique text data). At this time, after the [γ] process, it will be broken down into words. Therefore, for convenience of explanation, it is called combined text data (unique text data). Also, when the combined text data (unique text data) that has undergone the processing up to [δ] is specifically distinguished, it will be referred to as processed combined text data (unique text data after processing).
[α]結合テキストデータの作成処理では、固有テキストデータ準備手段34は、図5に示すように、案件データを構成する自己業種(取扱商品)および自己PR(自由記述形式のテキストデータ)を合わせたテキストデータからなる自己データと、希望業種(マッチング相手の業種)およびニーズ詳細(自由記述形式のテキストデータ)を合わせたテキストデータからなるニーズデータとを結合することにより、結合テキストデータを作成する。得られた結合テキストデータは、1つの文書データとして取り扱われる。 [α] In the process of creating the combined text data, the unique text data preparation means 34, as shown in FIG. Combined text data is created by combining self-data consisting of text data obtained from the applicant and needs data consisting of text data that combines the desired industry (matching partner industry) and detailed needs (text data in free-description format). . The resulting combined text data is handled as one piece of document data.
この際、固有テキストデータ準備手段34は、図6に示すように、句点(。)を挟んで自己業種、自己PR(自由記述形式)、希望業種、ニーズ詳細(自由記述形式)を結合する。なお、ここでは、自己業種を含めて自己データとし、希望業種を含めてニーズデータとしているが、自己業種を含めずに自己PR(自由記述形式)だけを自己データとしてもよく、希望業種を含めずにニーズ詳細(自由記述形式)だけをニーズデータとしてもよい。 At this time, as shown in FIG. 6, the unique text data preparation means 34 connects self-industry, self-PR (free description format), desired industry, and needs details (free description format) with a full stop (.) in between. Here, self-data includes self-industry and needs data includes desired industry. Needs details (free description format) alone may be used as needs data.
また、固有テキストデータ準備手段34により作成する結合テキストデータは、テキストデータであるから、自己業種や希望業種が選択式の記号や番号(1,2,…等)になっている場合には、それらの業種をテキストデータ(電機、建築・土木、IT、…等)に変換してから結合する。一方、自己業種や希望業種が自由記述形式になっているか、あるいはマッチングサービス提供者側で予め用意した業種の中から選択した業種をテキストで記述するようになっている場合には、既にテキストデータになっているので、そのまま結合することができる。 Also, since the combined text data created by the unique text data preparation means 34 is text data, when the self-industry or the desired industry are selectable symbols or numbers (1, 2, . . . ), Those industries are converted into text data (electrical machinery, construction/civil engineering, IT, etc.) and then combined. On the other hand, if the self-industry and desired industries are in a free-description format, or if the industry selected from the industries prepared in advance by the matching service provider is described in text, text data is already available. , so it can be combined as it is.
さらに、マッチングサービス提供者側で予め用意した業種の中から選択した業種(記号や番号で選択指定されているか、テキストで記述されているかは問わない。)と、マッチング依頼者が自由記述形式で記述した業種とが併用されている場合(予め用意された業種の中に、該当する業種が無いときに、該当する業種を自由記述形式で記述するようになっている場合)には、自由記述形式で記述した業種だけを、自己データやニーズデータに含めてもよい。このようにする場合は、自由記述形式で記述した自己業種や希望業種だけが、自己PR(自由記述形式)やニーズ詳細(自由記述形式)と同等な情報であると考えていることになる。 In addition, the industry selected from among the industries prepared in advance by the matching service provider (whether specified by symbols or numbers or described in text does not matter) and the matching requester in a free description format. If the described industry is used in combination (when there is no corresponding industry among the industries prepared in advance, and the applicable industry is described in a free description format), free description Only the industries described in the format may be included in self data and needs data. In this case, only self-industry and desired industries described in free-description form are considered to be information equivalent to self-PR (free-description form) and detailed needs (free-description form).
そして、図5および図6での図示は省略されているが、自由記述形式の「その他」の欄がある場合には、「その他」の欄に記述されたテキストデータを、自己PR(自由記述形式)やニーズ詳細(自由記述形式)と同等な情報であると考え、それも結合して結合テキストデータに含めるようにしてもよい。 Although not shown in FIGS. 5 and 6, if there is a column for "others" in a free description format, the text data described in the column for "others" can be used as a self-PR (free description). format) and needs details (free description format), and may be combined and included in the combined text data.
[β]不要な記号やタグ等の除去処理では、固有テキストデータ準備手段34は、[α]の処理で得られた結合テキストデータから、例えば、☆、<br>等を削除する。 [β] In the process of removing unnecessary symbols, tags, etc., the specific text data preparation means 34 deletes, for example, ☆, <br>, etc. from the combined text data obtained in the process of [α].
[γ]形態素解析で単語に分解し、名詞のみを抽出する処理では、固有テキストデータ準備手段34は、図6に示すように、先ず、[β]の処理で得られた結合テキストデータを用いて形態素解析を実行し、結合テキストデータを単語に分解(分割)し、分かち書きにする。この形態素解析は、既存の解析ツールを利用して実行することができる。 [γ] In the process of breaking down into words by morphological analysis and extracting only nouns, as shown in FIG. morphological analysis is performed on the combined text data, and the combined text data is broken down into words (segmented) and spaced. This morphological analysis can be performed using existing analysis tools.
この際、形態素解析用に、単語や類義語の辞書を作成し、図示されない単語辞書記憶手段や類義語辞書記憶手段に記憶しておいてもよい。単語辞書には、例えば「イヤホン」、「インスタグラム」、「オーガニック」等、既存の解析ツールの辞書に含まれていない単語を登録する。また、類義語辞書には、例えば「バッテリー」、「バッテリ」等の表記のゆれ単語を登録する。 At this time, a dictionary of words and synonyms may be created for morphological analysis and stored in word dictionary storage means and synonym dictionary storage means (not shown). In the word dictionary, words that are not included in existing analysis tool dictionaries, such as "earphones", "instagram", and "organic", are registered. Also, in the synonym dictionary, words with varying notations such as "battery" and "battery" are registered.
[δ]不要な単語の除去処理では、固有テキストデータ準備手段34は、単語の絞り込みを行う。先ず、単語の品詞や出現回数に基づいて、単語をフィルタリングする。具体的には、名詞の一部(例えば「一般」、「サ変接続」等)だけを残し、他の単語は捨てる。また、全ての案件の結合テキストデータの集合において、出現回数が、例えば3回未満の単語は捨てる。各単語と出現回数との関係は、図示されない単語出現回数記憶手段に記憶されている。従って、新規案件の結合テキストデータが増えた場合には、そこに含まれる単語の出現回数が加算されるので、例えば3回という閾値を超える場合もあり、これにより、捨てられていた単語が活かされるようになる場合もある。また、新規案件の結合テキストデータが増えた場合に、その結合テキストデータに全く新出の単語が現れ、その出現回数が、例えば3回という閾値を超えていれば、その新出の単語は、捨てられる単語ではなく、活かされる単語となる。 [δ] In the process of removing unnecessary words, the unique text data preparation means 34 narrows down the words. First, the words are filtered based on their part of speech and number of occurrences. Specifically, only a part of nouns (eg, "general", "sa-hen connection", etc.) is retained, and other words are discarded. In addition, in the set of combined text data of all projects, words appearing less than three times, for example, are discarded. The relationship between each word and the number of appearances is stored in word appearance number storage means (not shown). Therefore, when the combined text data of a new project increases, the number of occurrences of the words contained therein is added, so that the threshold value of, for example, three times may be exceeded, thereby making use of the discarded words. In some cases, it becomes possible to In addition, when the combined text data of a new case increases, a completely new word appears in the combined text data, and if the number of appearances exceeds a threshold value of, for example, three times, the new word is It is not a word that is thrown away, but a word that is used.
次に、固有テキストデータ準備手段34は、不要語辞書記憶手段55に記憶されている不要語(ノイズ単語)を排除する。具体的には、例えば、「企業」、「ニーズ」、「サポート」等のような業種に関係なく出現すると考えられる単語は、不要語として排除する。また、例えば、「京都」、「関東」、「東日本」等の国内の地名は、不要語として排除する。但し、例えば、「欧州」、「中国」、「大連」等、海外の地名は残しておく。不要語として登録する単語は、例えば、1,000~2,000単語等である。 Next, the unique text data preparation means 34 eliminates unnecessary words (noise words) stored in the unnecessary word dictionary storage means 55 . Specifically, for example, words such as "company", "needs", "support", etc., which are considered to appear regardless of the type of business, are eliminated as unnecessary words. For example, domestic place names such as "Kyoto", "Kanto", and "East Japan" are excluded as unnecessary words. However, overseas place names such as "Europe", "China", "Dalian", etc. are left. The words registered as unnecessary words are, for example, 1,000 to 2,000 words.
図6の例では、固有テキストデータ準備手段34による以上の[α]~[δ]の処理を経た後に残る単語は、先頭から順番に、「飲食」、「店舗」、「酒類」、「ブランド」、「飲食」、「食品」、「酒類」、「食品」、「ブランド」、「泡盛」、…となる。従って、図6に示すように、残った各単語とそれらの出現回数との関係が得られ、この関係が、トピック推定を行うために必要な情報となる。すなわち、1つの文書データとして取り扱われる結合テキストデータ(i=00001234)における各単語の出現回数となる。i=00001234は、案件番号であり、案件識別情報であるとともに、結合テキストデータ(文書データ)の番号でもある。案件番号は、連続番号である必要はないが(飛び飛びの番号でもよいが)、後述するトピック推定の説明も含め、ここでは、説明の便宜上、番号は、詰めて考えることにする。 In the example of FIG. 6, the words remaining after the processing [α] to [δ] by the unique text data preparation means 34 are, in order from the top, "restaurant", "store", "alcohol", "brand ”, “Food and drink”, “Food”, “Alcohol”, “Food”, “Brand”, “Awamori”, and so on. Therefore, as shown in FIG. 6, the relationship between each remaining word and the number of occurrences thereof is obtained, and this relationship provides information necessary for topic estimation. That is, it is the number of occurrences of each word in the combined text data (i=00001234) treated as one document data. i=00001234 is the case number, the case identification information, and the number of the combined text data (document data). The item number does not have to be a consecutive number (although it may be a discontinuous number), but here, for the sake of convenience of explanation, including the explanation of topic estimation that will be described later, the number will be narrowed down.
(処理手段30/固有テキストデータ準備手段34の構成:自己データとニーズデータとを結合せずに別々の固有テキストデータとして使用する場合の処理、図10)
本実施形態の類似案件検索処理では、図10に示すように、自己データとニーズデータとを結合せずに別々の固有テキストデータとして使用するが、処理後の固有テキストデータを作成する手順は、上述した処理後の結合テキストデータを作成する場合と殆ど同様であり、[α]の処理がないだけである。この際、自己データとニーズデータとは、別々の固有テキストデータであるから、それぞれについて[β]~[δ]の処理を実行する。従って、処理後の固有テキストデータは、別々に存在するので、それぞれの処理後の固有テキストデータを、案件識別情報(案件番号)と関連付けて案件データ記憶手段54に記憶させる。つまり、案件データ記憶手段54には、各案件について、処理後の結合テキストデータ、処理後の自己データ、処理後のニーズデータが、それぞれ内容の異なる固有テキストデータとして記憶されることになる。
(Configuration of
In the similar case search processing of this embodiment, as shown in FIG. 10, self data and needs data are used as separate unique text data without being combined. This is almost the same as the case of creating combined text data after processing described above, except that [α] is not processed. At this time, since the self data and the needs data are separate unique text data, the processes [β] to [δ] are executed for each. Therefore, since the unique text data after processing exists separately, each processed unique text data is stored in the case data storage means 54 in association with the case identification information (case number). In other words, the processed combined text data, the processed self data, and the processed needs data are stored in the project data storage means 54 as specific text data with different contents for each project.
なお、結合テキストデータの作成処理では、固有テキストデータ準備手段34は、図5に示すように、自己業種と自己PRとを合わせて自己データとし、希望業種とニーズ詳細とを合わせてニーズデータとしていたが、類似案件検索用の固有テキストデータは、図10に示すように、自己PRだけを自己データとし、ニーズ詳細だけをニーズデータとする。但し、類似案件検索用の固有テキストデータについても、自己業種と自己PRとを合わせて自己データとし、希望業種とニーズ詳細とを合わせてニーズデータとしてもよく、このようにする場合は、結合が行われるので、[α]の処理があるといえる。 In the process of creating combined text data, as shown in FIG. 5, the specific text data preparation means 34 combines the self-industry and self-promotion as self-data, and combines the desired industry and detailed needs as needs data. However, as shown in FIG. 10, the unique text data for searching for similar items includes only self-promotion as self-data and only needs details as needs data. However, with regard to the unique text data for searching for similar projects, it is also possible to combine self-industry and self-promotion to make self-data, and combine desired industries and detailed needs to make needs data. Therefore, it can be said that there is processing [α].
(処理手段30/トピック推定手段35の構成)
トピック推定手段35は、固有テキストデータ準備手段34により作成されて案件データ記憶手段54に記憶されている全ての案件(企業)の固有テキストデータを用いて、ソフトクラスタリングまたはニューラル言語モデルで、ギブスサンプリング等を行うことにより、各案件(各企業)の固有テキストデータ(i)における各トピックの出現確率を示すトピック値(縦ベクトルπ(i))、および、各トピックにおける各単語の出現確率(行列β)を求めるトピック推定処理を実行し、このトピック推定処理で得られたπ(i)およびβを、トピックモデルとしてトピックモデル記憶手段56に記憶させる処理を実行するものである。
(Configuration of processing means 30/topic estimation means 35)
The topic estimation means 35 performs Gibbs sampling using soft clustering or a neural language model using the unique text data of all the projects (companies) created by the unique text data preparation means 34 and stored in the project data storage means 54. etc., the topic value (vertical vector π(i)) indicating the appearance probability of each topic in the unique text data (i) of each project (each company) and the appearance probability of each word in each topic (matrix β) is executed, and π(i) and β obtained by this topic estimation processing are stored in the topic model storage means 56 as a topic model.
この際、本実施形態では、案件データ記憶手段54には、マッチングおよび連想検索に共用の固有テキストデータである結合テキストデータと、類似案件検索用の固有テキストデータである自己データおよびニーズデータとが記憶されているので、これらの3種類の固有テキストデータの各々について別々にトピック推定処理を実行し、それぞれのトピック推定処理で得られたπ(i)およびβを、それぞれのトピックモデルとしてトピックモデル記憶手段56に記憶させる。 At this time, in this embodiment, the case data storage means 54 stores combined text data, which is common text data for matching and associative search, and self data and needs data, which are specific text data for similar case search. Since it is stored, topic estimation processing is executed separately for each of these three types of unique text data, and π(i) and β obtained by each topic estimation processing are used as topic models for each topic model. It is stored in the storage means 56 .
このトピック推定手段35による処理は、事前処理(図14参照)として実行される。また、トピックモデルの更新処理(図16参照)でも実行される。後者の更新時には、案件データ記憶手段54に新規案件(前回更新時から見て、1件に限らず、複数の新規案件が登録されている場合もある。)の固有テキストデータが記憶されているので、新規案件の固有テキストデータも含めて全ての案件の固有テキストデータを用いてトピック推定処理が実行される。 The processing by this topic estimation means 35 is executed as preprocessing (see FIG. 14). It is also executed in topic model update processing (see FIG. 16). At the time of the latter update, the unique text data of the new item (not limited to one item, but may be registered with a plurality of new items since the previous update) is stored in the item data storage means 54. Therefore, the topic estimation process is executed using the unique text data of all issues including the unique text data of the new issue.
トピック推定処理を実行する際のソフトクラスタリングまたはニューラル言語モデルについては、本実施形態では、一例として、レイテント・ディリクレ・アロケーション(LDA:Latent Dirichlet Allocation、潜在的ディリクレ配分法)を採用する。なお、ここでいうニューラル言語モデルの「モデル」は、アルゴリズムおよびパラメータを含めた概念であり、一方、トピックモデル記憶手段56に記憶されるトピックモデルの「モデル」は、学習結果として得られるパラメータ(学習結果データ)を指す概念である。従って、アルゴリズムにより実現されるトピック推定手段35および後述するトピック値予測手段36と、トピックモデルを記憶するトピックモデル記憶手段56とにより、推定器が構成されている。 For the soft clustering or neural language model when performing the topic estimation process, this embodiment adopts Latent Dirichlet Allocation (LDA) as an example. The "model" of the neural language model here is a concept including algorithms and parameters. On the other hand, the "model" of the topic model stored in the topic model storage means 56 is the parameter ( learning result data). Therefore, an estimator is composed of topic estimation means 35 implemented by an algorithm, topic value prediction means 36 described later, and topic model storage means 56 for storing topic models.
また、レイテント・ディリクレ・アロケーション(LDA)の他には、例えば、ファジー・Cミーンズ(Fuzzy c-means)、混合分布モデル、非負値行列因子分解(NMF:Non-negative Matrix Factorization)、pLSI(probabilistic Latent Semantic Indexing)、Doc2Vec、SCDV(Sparse Compose Document Vecotors)等を採用することができる。例えば、Doc2Vecを実装する場合には、既存のGensimと呼ばれるライブラリを用いることができる。 In addition to latent Dirichlet allocation (LDA), for example, fuzzy C-means, mixture distribution model, non-negative matrix factorization (NMF), pLSI (probabilistic Latent Semantic Indexing), Doc2Vec, SCDV (Sparse Compose Document Vecotors), etc. can be adopted. For example, when implementing Doc2Vec, an existing library called Gensim can be used.
ここで、各案件の固有テキストデータ(i)における各トピックの出現確率を示すトピック値は、図18および図19に示すように、K次元の縦ベクトルπ(i)であり、本願では、これをトピック分布と呼んでいる。iは文書番号であり、i=1~nのとき、nは文書数であるが、この文書数nは、本発明では、固有テキストデータの数(すなわち、案件の数)に相当し、本実施形態のビジネスマッチングでは、登録企業数に相当し、例えば、n=約10万社等である。Kはトピック数であり、システムの構築者が指定する。従って、トピック分布は、トピック番号=1~Kの各トピック値π(i,1),π(i,2),π(i,3),…,π(i,K)により構成される。例えば、本実施形態のビジネスマッチングでは、トピックとして20業種を想定し、K=20等とすることができる。但し、トピック数Kは20に限定されるものではなく、また、トピックとして必ずしも業種を想定しなければならないわけではなく、本実施形態がビジネスマッチングであるから、最も容易に当て嵌めて考えることができる業種を想定してシステム設計を行っているに過ぎない。 Here, as shown in FIGS. 18 and 19, the topic value indicating the appearance probability of each topic in the unique text data (i) of each item is a K-dimensional vertical vector π(i). is called the topic distribution. i is the document number, and when i=1 to n, n is the number of documents. In the business matching of the embodiment, it corresponds to the number of registered companies, for example, n=about 100,000 companies. K is the number of topics and is specified by the system builder. Therefore, the topic distribution is composed of topic values π(i, 1), π(i, 2), π(i, 3), . For example, in the business matching of this embodiment, 20 industries can be assumed as topics, and K=20. However, the number of topics K is not limited to 20, and the topic does not necessarily have to be assumed to be a type of industry. We are simply designing the system based on the assumption of the type of industry that can be used.
また、各トピックにおける各単語の出現確率は、図18および図19に示すように、K行p列の行列βで表すことができる。Kはトピック数である。pは単語数であり、例えば、p=約3,000語等である。 18 and 19, the appearance probability of each word in each topic can be represented by a matrix β of K rows and p columns. K is the number of topics. p is the number of words, eg, p=about 3,000 words.
図6に示すように、1つの文書データとして取り扱われる固有テキストデータ(図6の例では、結合テキストデータ)(i=00001234)から直接に得られる情報は、その固有テキストデータに含まれる各単語とそれらの出現回数との関係を示すデータである。そして、各単語の出現回数が判れば、それぞれの単語の出現回数を、全ての単語の出現回数の和で除することにより、ある1つの固有テキストデータにおける各単語の出現確率が判るので、これが既知の情報となる。トピック推定手段35は、多数の固有テキストデータのそれぞれにおける各単語とそれらの出現回数との関係を示すデータを既知の情報として、それらの既知の情報を用いて、ギブスサンプリング等を行うことにより、各固有テキストデータ(i)におけるトピック分布π(i)(トピック番号=1~Kの各トピックの出現確率を示すトピック値)、および、各トピックにおける各単語の出現確率(K行p列の行列β)を求める。なお、K行p列の行列βと、K次元の縦ベクトルで示されるトピック分布π(i)とが得られているときに、固有テキストデータ(i)における各単語(1~p番目の単語)の出現確率を算出するには、行列βの転置行列(p行K列)と、トピック分布π(i)(K次元の縦ベクトル)とを、この順で掛ける演算を行うことになる。以上のことは、固有テキストデータが、結合テキストデータではなく、結合されていない自己データやニーズデータの場合も同様である。 As shown in FIG. 6, the information directly obtained from the unique text data (combined text data in the example of FIG. 6) (i=00001234) handled as one document data is each word contained in the unique text data. and the number of appearances thereof. Then, if the number of appearances of each word is known, by dividing the number of appearances of each word by the sum of the number of appearances of all words, the probability of appearance of each word in one specific text data can be obtained. Known information. The topic estimating means 35 performs Gibbs sampling, etc., using data indicating the relationship between each word and the number of occurrences of each word in each of a large number of unique text data as known information. Topic distribution π(i) in each specific text data (i) (topic value indicating the probability of appearance of each topic with topic number = 1 to K), and probability of appearance of each word in each topic (matrix of K rows and p columns β). Note that when a matrix β of K rows and p columns and a topic distribution π(i) represented by a K-dimensional vertical vector are obtained, each word (1st to p-th word ), the transposed matrix (p rows and K columns) of the matrix β and the topic distribution π(i) (K-dimensional column vector) are multiplied in this order. The above is the same when the specific text data is not the combined text data but the uncombined self data or needs data.
(処理手段30/トピック値予測手段36の構成)
トピック値予測手段36は、トピックモデルの更新前に、新規案件登録手段45からの指示を受けて固有テキストデータ準備手段34により作成されて案件データ記憶手段54に記憶されている新規案件(新規企業)の処理後の固有テキストデータ、および、トピックモデル記憶手段56に記憶されている各トピックにおける各単語の出現確率(K行p列の行列β)(更新前のトピックモデルの行列β)を用いて、新規案件の固有テキストデータにおける各トピックの出現確率を示すトピック値(K次元の縦ベクトルπ(i)で表されるトピック分布)を予測し、予測したπ(i)を、更新前における仮の値としてトピックモデル記憶手段56に記憶させる処理を実行するものである。
(Configuration of processing means 30/topic value prediction means 36)
The topic value prediction means 36 receives an instruction from the new matter registration means 45 and receives an instruction from the new matter registration means 45 to create a new matter (new company ) and the probability of appearance of each word in each topic (matrix β of K rows and p columns) (matrix β of the topic model before updating) in each topic stored in the topic model storage means 56. Then, predict the topic value (topic distribution represented by the K-dimensional vertical vector π(i)) that indicates the appearance probability of each topic in the unique text data of the new project, and predict the predicted π(i) before updating It executes a process of storing the temporary value in the topic model storage means 56 .
この際、トピック値予測手段36は、新規案件(新規企業)の処理後の固有テキストデータ(i=n+1)について、次の3種類のトピック分布π(i)を予測する。すなわち、マッチング処理で用いる固有テキストデータである結合テキストデータにおけるトピック分布π(i)と、類似案件検索処理で用いる固有テキストデータである自己データ、ニーズデータの各々におけるトピック分布π(i)とを予測する。 At this time, the topic value prediction means 36 predicts the following three types of topic distributions π(i) for the unique text data (i=n+1) after processing of the new project (new company). That is, the topic distribution π(i) in the combined text data, which is the unique text data used in the matching process, and the topic distribution π(i) in each of the self data and the needs data, which are the unique text data used in the similar case search process Predict.
このトピック値予測手段36による処理を行う際には、図6に示すように、新規案件の固有テキストデータ(図6の例では、結合テキストデータ)における各単語とそれらの出現回数との関係(すなわち、1つの文書データとして取り扱われる新規案件の固有テキストデータにおける各単語の出現確率)と、各トピック(トピック番号=1~K)における各単語(1~p番目の単語)の出現確率(K行p列の行列β)とが既知の情報である。従って、トピック値予測手段36は、これらの既知の情報から、新規案件の固有テキストデータにおける各トピックの出現確率を示すトピック値(K次元の縦ベクトルπ(i)で表されるトピック分布)を予測する。
When performing the processing by the topic
なお、新規案件の固有テキストデータの中に、各トピックにおける各単語の出現確率(K行p列の行列β)として用意されている各単語(1~p番目の単語)に含まれない新出の単語が存在する場合には、その新出の単語を含めた予測は行うことができないので、その新出の単語は無いものとして、新規案件の固有テキストデータにおけるトピック分布の予測を行う。従って、この新出の単語の情報は、その後に行われるトピック推定手段35によるトピック推定処理(トピックモデルの更新処理)で、トピックモデル記憶手段56に記憶されるトピックモデルに反映されることになる。 In addition, in the unique text data of the new project, new occurrences that are not included in each word (1st to pth words) prepared as the appearance probability of each word in each topic (matrix β of K rows and p columns) If there is such a word, it is not possible to make a prediction including the newly appearing word. Therefore, assuming that the newly appearing word does not exist, the topic distribution in the unique text data of the new case is predicted. Therefore, the information of this newly appearing word is reflected in the topic model stored in the topic model storage means 56 in the subsequent topic estimation processing (topic model update processing) by the topic estimation means 35. .
(処理手段30/単語重要度ベクトル算出手段37の構成)
単語重要度ベクトル算出手段37は、固有テキストデータ準備手段34により作成されて案件データ記憶手段54に記憶されている各案件(各企業)の固有テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを算出し、得られた単語重要度ベクトルを、案件識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段57に記憶させる処理を実行するものである。なお、単語重要度ベクトルの算出に用いる固有テキストデータは、固有テキストデータ準備手段34による[δ]までの処理を経た後に残った単語の集合である。
(Configuration of
The word importance vector calculation means 37 calculates the TFIDF value of each word in the unique text data of each project (each company) created by the unique text data preparation means 34 and stored in the project data storage means 54 or other words. A word importance vector composed of importance index values is calculated, and the obtained word importance vector is stored in the word importance vector storage means 57 in association with the case identification information (case number). . The peculiar text data used for calculating the word importance vector is a set of words remaining after the peculiar text data preparation means 34 has processed up to [δ].
ここで、単語重要度指標値は、本実施形態では、一例として、TFIDF値を採用しているが、これに限定されるものではなく、例えば、Okapi-BM25等でもよい。なお、TF(Term Frequency)は、文書(ここでは、固有テキストデータ)における単語の出現頻度であり、ある1つの固有テキストデータにおける各単語の出現回数を、その固有テキストデータにおける全単語の出現回数の和で除した値である。IDF(Inverse Document Frequency)は、逆文書頻度であり、全文書数(ここでは、固有テキストデータの総数)を、各単語を含む固有テキストデータの数で除した値についてロガリズム(log)をとった値である。 Here, the TFIDF value is used as an example of the word importance index value in this embodiment, but it is not limited to this, and may be Okapi-BM25 or the like. Note that TF (Term Frequency) is the frequency of occurrence of words in a document (here, unique text data). is the value divided by the sum of IDF (Inverse Document Frequency) is the inverse document frequency, and the logarithm (log) is taken for the value obtained by dividing the total number of documents (here, the total number of unique text data) by the number of unique text data containing each word. value.
単語重要度ベクトルは、単語数をpとすると、p次元のベクトルであり、例えば、p=約3,000語等であれば、約3,000次元のベクトルとなる。この単語重要度ベクトルは、正規化(例えば、L2ノルム正規化)の処理を行っておくことが好ましい。 A word importance vector is a p-dimensional vector, where p is the number of words. This word importance vector is preferably subjected to normalization (for example, L2 norm normalization).
本実施形態では、案件データ記憶手段54には、マッチング処理で用いる固有テキストデータである結合テキストデータと、類似案件検索処理で用いる固有テキストデータである自己データおよびニーズデータとが記憶されているので、これらの3種類の固有テキストデータの各々についての単語重要度ベクトルを算出し、それぞれの単語重要度ベクトルを、案件識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段57に記憶させる。なお、マッチング処理および類似案件検索処理で用いる固有テキストデータを、結合テキストデータで統一するか、あるいは、結合していない自己データおよびニーズデータで統一する場合には、マッチング処理用と類似案件検索処理用の単語重要度ベクトルは、共用にすることができる。 In this embodiment, the item data storage means 54 stores combined text data, which is unique text data used in the matching process, and self data and needs data, which are unique text data used in the similar item search process. , a word importance vector for each of these three types of unique text data is calculated, and each word importance vector is stored in the word importance vector storage means 57 in association with the case identification information (case number). In addition, if the unique text data used in the matching process and the similar case search process is unified with the combined text data, or if the self data and the needs data that are not combined are unified, the matching process and the similar case search process The word importance vector for can be shared.
この単語重要度ベクトル算出手段37による処理は、事前処理(図14参照)の段階で実行される。また、新規案件の登録時(図23参照)に、新規案件登録手段45からの指示を受けて、トピックモデル等の更新前における新規案件の即時反映処理として、新規案件の固有テキストデータについての単語重要度ベクトルの算出処理が実行される。さらに、トピックモデルの更新等の時期が到来した場合(図16参照)にも実行されるが、上記の新規案件の即時反映処理で実行されている処理については、繰り返し実行する必要はない。 The processing by this word importance vector calculating means 37 is executed in the stage of pre-processing (see FIG. 14). Also, at the time of registering a new matter (see FIG. 23), in response to an instruction from the new matter registration means 45, as a process for immediate reflection of the new matter before updating the topic model, etc., a word for the unique text data of the new matter Importance vector calculation processing is executed. Furthermore, it is also executed when the time for updating the topic model comes (see FIG. 16), but it is not necessary to repeatedly execute the processing that is executed in the instant reflection processing of the new item.
(処理手段30/マッチング学習用データ準備手段38の構成)
マッチング学習用データ準備手段38は、マッチング学習用データ(マッチングモデル記憶手段60に記憶させるマッチングモデルの学習用データ)として、多数のマッチング用特徴データ(図8参照)の各々について、選定・非選定のラベル(タグ)を付したアノテーション後のデータ(図9参照)を作成し、タグ付けされた多数のマッチング用特徴データを、案件識別情報(案件番号)のペアと関連付けてマッチング学習用データ記憶手段59に記憶させる処理を実行するものである。
(Configuration of
The matching learning data preparation means 38 selects or does not select each of the large number of matching feature data (see FIG. 8) as matching learning data (matching model learning data to be stored in the matching model storage means 60). Annotated data (see Fig. 9) with labels (tags) of is created, and a large number of tagged feature data for matching are associated with a pair of project identification information (project number) to store data for matching learning. It executes processing to be stored in
この際、マッチング学習用データ準備手段38は、多数のマッチング用特徴データを用意するが、マッチング用特徴データの作成方法については、マッチング手段42のマッチング用特徴データ作成手段42Aの説明で図7、図8を用いて詳述する。また、各マッチング用特徴データについての選定・非選定のタグ付け処理は、マッチング候補選定実績リスト記憶手段58に記憶されているマッチング候補選定実績リストを用いて実行される。 At this time, the matching learning data preparation means 38 prepares a large number of matching feature data. A detailed description will be given with reference to FIG. The selection/non-selection tagging process for each feature data for matching is executed using the matching candidate selection result list stored in the matching candidate selection result list storage means 58 .
このマッチング学習用データ準備手段38による処理は、マッチングモデルの初期モデルを構築する事前処理(図14参照)の段階で実行される。また、マッチングモデルの更新時(図16参照)にも実行される。 The processing by the matching learning data preparation means 38 is executed at the stage of preprocessing (see FIG. 14) for constructing the initial model of the matching model. It is also executed when the matching model is updated (see FIG. 16).
(処理手段30/マッチングモデル学習手段39の構成)
マッチングモデル学習手段39は、マッチング学習用データ準備手段38により作成されてマッチング学習用データ記憶手段59に記憶されているマッチング学習用データ(多数のマッチング用特徴データの各々について、選定・非選定のラベル(タグ)を付したアノテーション後のデータ、図9参照)を用いて、教師あり分類モデルによる学習処理を行い、得られたマッチングモデル(ここでは、学習結果データとしてのパラメータを意味する。)を、マッチングモデル記憶手段60に記憶させる処理を実行するものである。
(Configuration of
The matching model learning means 39 prepares the matching learning data created by the matching learning data preparation means 38 and stored in the matching learning data storage means 59 (selected/non-selected data for each of the large number of matching feature data). Annotated data with labels (tags, see FIG. 9) is used to perform learning processing by a supervised classification model, and a matching model obtained (here, it means a parameter as learning result data.) is stored in the matching model storage means 60.
このマッチングモデル学習手段39による処理は、マッチングモデルの初期モデルを構築する事前処理(図14参照)の段階で実行される。また、マッチングモデルの更新時(図16参照)にも実行される。 The processing by the matching model learning means 39 is executed at the stage of preprocessing (see FIG. 14) for constructing the initial model of the matching model. It is also executed when the matching model is updated (see FIG. 16).
なお、固有テキストデータの数を増やしてトピック推定手段35によるトピック推定処理を再度実行すると、厳密に言えば、各固有テキストデータにおけるトピック分布は、若干、異なる値となるので、それらのトピック分布を用いて作成される各マッチング用特徴データも、若干、異なる状態となる。そして、そのような若干異なる各マッチング用特徴データを用いてマッチングモデル学習手段39による学習処理を行えば、マッチングモデル記憶手段60に記憶させるマッチングモデルは、若干異なる状態となる。しかし、追加する固有テキストデータが、1つまたは比較的少数であれば、トピック分布は殆ど変化しないので、マッチングモデル記憶手段60に記憶されているマッチングモデルについては、再学習せずに、そのまま用いることができる。従って、マッチングモデルの更新は、必ずしもトピック推定処理を再度実行することによるトピックモデルの更新と同時期に行う必要はなく、トピックモデルの更新と、マッチングモデルの更新とは、異なるタイミングで行ってよい(図16のステップS14参照)。 Strictly speaking, if the number of unique text data is increased and the topic estimation processing by the topic estimation means 35 is executed again, the topic distributions of the respective unique text data will have slightly different values. Each piece of matching feature data that is created by using them is also in a slightly different state. If the matching model learning means 39 performs learning processing using such slightly different matching feature data, the matching model stored in the matching model storage means 60 will be in a slightly different state. However, if the number of specific text data to be added is one or a relatively small number, the topic distribution hardly changes, so the matching models stored in the matching model storage means 60 are used as they are without re-learning. be able to. Therefore, updating the matching model does not necessarily have to be performed at the same time as updating the topic model by re-executing the topic estimation process, and updating the topic model and updating the matching model may be performed at different timings. (See step S14 in FIG. 16).
(処理手段30/入力受付手段40の構成)
入力受付手段40は、各画面100,200,300(図11、図12、図13参照)に設けられた入力部110でのキーワードまたは案件識別情報(案件番号)の入力を受け付ける処理を実行するものである。
(Configuration of
The
ここで、入力部110へのキーワードの入力には、各画面100,200,300の入力部110への打鍵操作による入力の他、図12の画面200の「類似キーワード」表示部210に表示された各単語(入力されたキーワード、およびそのキーワードに関連する複数の関連単語)を選択することによる選択入力(クリック操作やタップ操作等による入力)が含まれる。各単語のいずれかを選択入力すると、選択した単語が、入力部110に自動表示されるようになっている。また、入力部110への案件識別情報(案件番号)の入力には、各画面100,200,300の入力部110への打鍵操作による入力の他、図12の画面200の「キーワード検索リスト」表示部220に表示された各関連案件の案件識別情報(案件番号)を選択することによる選択入力と、図13の画面300の「推薦案件リスト」表示部320や「類似案件一覧」表示部330に表示された各推薦案件や各類似案件の案件識別情報(案件番号)を選択することによる選択入力とが含まれる。各関連案件、各推薦案件、各類似案件の案件識別情報(案件番号)のいずれかを選択入力すると、選択した案件識別情報(案件番号)が、入力部110に自動表示されるようになっている。
Here, for inputting a keyword to the
また、入力受付手段40は、入力部110に入力された情報が、キーワードであるか案件識別情報(案件番号)であるかを判断し、キーワードであると判断した場合には、連想検索手段41にキーワードを伝達して連想検索処理を実行させ、案件識別情報(案件番号)であると判断した場合には、マッチング手段42および類似案件検索手段43に案件識別情報を伝達してマッチング処理および類似案件検索処理を実行させる。なお、本実施形態では、キーワードの入力と、案件識別情報(案件番号)の入力とを、同一の入力部110で受け付ける構成とされているが、キーワードの入力部と、案件識別情報(案件番号)の入力部とを、別々に設けてもよい。但し、同一の入力部110で受け付ける構成とすることが、ユーザの操作性、利便性向上の観点から好ましい。
The
さらに、入力受付手段40は、入力を受け付けたキーワードまたは案件識別情報(案件番号)のログ情報を、検索履歴記憶手段61に記憶させる。検索履歴記憶手段61は、主メモリ等の揮発性メモリでもよい。この際、マッチングシステム10が、複数のユーザ(サービス担当者またはマッチング依頼者)の操作を同時に受け付けることができる構成(例えば、ネットワーク構成)である場合には、各ユーザの検索履歴のログ情報を、ユーザ識別情報と関連付けて検索履歴記憶手段61に記憶させる。そして、入力受付手段40は、検索履歴記憶手段61に記憶させたログ情報を用いて、各画面100,200,300に設けられた「検索履歴」表示部130(図11では、表示部130の図示が省略されている。)に検索履歴の表示(キーワードまたは案件識別情報を入力順に並べた表示)を行う。なお、同じキーワードや、同じ案件識別情報(案件番号)を続けて入力してもよいが、同じ出力が繰り返されるだけであり、検索履歴には、同じキーワードや、同じ案件識別情報(案件番号)が並ぶことになる。
Further, the
(処理手段30/連想検索手段41の構成)
連想検索手段41は、単語類似度算出手段41Aと、関連度算出手段41Bとを含んで構成されている。
(Configuration of processing means 30/associative search means 41)
The associative search means 41 includes word similarity calculation means 41A and relevance calculation means 41B.
単語類似度算出手段41Aは、入力受付手段40によりキーワードの入力を受け付けた場合に、分散表現モデル記憶手段53に記憶された単語の分散表現を用いて算出したキーワードとそれ以外の単語との間の一般類似度Aと、案件データ記憶手段54に記憶された各案件(各企業)の固有テキストデータを用いて算出したキーワードとそれ以外の単語との間の固有類似度Bとを用いて最終類似度FSを算出し、得られた最終類似度FSの高い順でキーワードの関連単語を決定する処理を実行するものである。より詳細な内容は、後述する。 When an input of a keyword is received by the input receiving means 40, the word similarity calculating means 41A calculates the difference between the keyword calculated using the distributed representation of the words stored in the distributed representation model storing means 53 and other words. and the unique similarity B between the keyword and other words calculated using the unique text data of each project (each company) stored in the project data storage means 54 A process of calculating the degree of similarity FS and determining words related to the keyword in descending order of the obtained final degree of similarity FS is executed. More detailed contents will be described later.
ここで、固有類似度Bを算出する際の各案件の固有テキストデータは、連想検索用の固有テキストデータであり、本実施形態では、マッチング用と共用の固有テキストデータである結合テキストデータである。 Here, the unique text data of each case when calculating the unique similarity B is unique text data for associative search, and in this embodiment, combined text data that is common unique text data for matching. .
なお、単語類似度算出手段41Aは、固有類似度Bを用いずに、一般類似度Aを最終類似度FSとし、キーワードの関連単語を決定してもよい。但し、より効果的なマッチングを行うという観点から、一般類似度Aと固有類似度Bとの双方を用いて最終類似度FSを算出することが好ましい。 Note that the word similarity calculation means 41A may use the general similarity A as the final similarity FS instead of using the unique similarity B to determine the related words of the keyword. However, from the viewpoint of performing more effective matching, it is preferable to calculate the final similarity FS using both the general similarity A and the specific similarity B. FIG.
関連度算出手段41Bは、入力受付手段40により受け付けたキーワードおよびその関連単語の各々が、案件データ記憶手段54に記憶された各案件(各企業)の固有テキストデータの中に出現する単語別出現回数Cを求め、求めた単語別出現回数Cおよび関連単語の最終類似度FSを用いて、キーワードに対する各案件の関連度CSを算出し、関連度CSの高い順で関連案件を決定する処理を実行するものである。より詳細な内容は、後述する。 The degree-of-relevance calculation means 41B calculates the appearance of each of the keywords received by the input receiving means 40 and their related words in the unique text data of each project (each company) stored in the project data storage means 54. The number of occurrences C is obtained, and using the obtained word-by-word appearance frequency C and the final similarity FS of the related words, the degree of relevance CS of each case with respect to the keyword is calculated, and the related cases are determined in descending order of the degree of relevance CS. to execute. More detailed contents will be described later.
(処理手段30/連想検索手段41/単語類似度算出手段41Aの構成:一般類似度Aの算出処理、図2)
単語類似度算出手段41Aは、分散表現モデル記憶手段53(図2参照)に記憶された分散表現モデル(本実施形態では、単語ベクトルの集合からなる重み行列Wであり、3つのタイプの重み行列W1,W2,W3とする。)を用いて、入力受付手段40により受け付けたキーワードと他の単語との間のモデル別類似度Sを算出し、このモデル別類似度Sの大きさで順位付けした単語のうち、予め定められた上位N3(例えば、N3=100)の単語を、モデル別類似単語として選択する。なお、N3は、設定データとして設定データ記憶手段51に記憶されているが、固定値としてもよい。
(Configuration of processing means 30/associative search means 41/word similarity calculation means 41A: calculation processing of general similarity A, FIG. 2)
The word similarity calculation means 41A stores a distributed representation model (in this embodiment, a weight matrix W consisting of a set of word vectors) stored in the distributed representation model storage means 53 (see FIG. 2). W1, W2, and W3) are used to calculate the model-specific similarity S between the keyword received by the input receiving means 40 and other words, and ranking is performed according to the magnitude of this model-specific similarity S. Among the words obtained, a predetermined top N3 (for example, N3=100) words are selected as similar words by model. Although N3 is stored in the setting data storage means 51 as setting data, it may be a fixed value.
より詳細には、単語類似度算出手段41Aは、先ず、図2に示すように、タイプ1~3の各々の分散表現モデルについて、分散表現モデル記憶手段53(図2参照)に記憶されている重み行例W(W1~W3)を用いて、入力受付手段40により受け付けたキーワードについての単語ベクトルV(k,j)と、他の単語についての単語ベクトルV(i,j)との間のコサイン類似度S(i,j)を算出し、モデル別類似度記憶手段62に記憶させる。モデル別類似度記憶手段62は、主メモリ等の揮発性メモリでもよい。図2に示すように、コサイン類似度S(i,j)は、V(k,j)とV(i,j)との内積を、V(k,j)の大きさとV(i,j)の大きさとの積で除した値である。このコサイン類似度S(i,j)の算出処理は、例えばword2vecのモジュール等のように、既存のツールの機能を利用して実行してもよい。
More specifically, the word similarity calculation means 41A first stores distributed representation models of
ここで、kは、入力受付手段40により受け付けたキーワード(単語)の番号である。iは、各単語の番号であり、i=1,2,3,…,k-1,k+1,…,N2-2,N2-1,N2をとり、N2は、ボキャブラリ数(例えば、N2=115万)である。kが抜けているのは、N2個の単語のうち、キーワードの単語を除くという意味であり、キーワードの単語と、それ以外の全ての単語との間で、コサイン類似度S(i,j)を算出するという意味である。jは、分散表現モデルのタイプの番号であり、本実施形態では、j=1,2,3である。なお、分散表現モデルの数は3つに限定されるものではなく、3以外の複数でもよく、また、複数に限定されるものでもなく、1つでもよい。但し、複数の分散表現モデルを用いれば、各分散表現モデル間のモデル別類似度Sのばらつきを吸収し、より適切な単語を、一般類似単語として決定することが可能となる。なお、分散表現モデルの数が1つの場合は、その分散表現モデルにおけるモデル別類似度Sが、一般類似度Aとなり、その分散表現モデルにおけるモデル別類似度Sの上位N3(例えば、N3=100)の単語が、モデル別類似単語であり、かつ、一般類似単語となる。 Here, k is the number of the keyword (word) received by the input receiving means 40 . i is the number of each word, i=1, 2, 3, . . . , k−1, k+1, . 1.15 million). The omission of k means that the keyword words are excluded from the N2 words, and the cosine similarity S(i, j) It means to calculate j is the type number of the distributed representation model, and j=1, 2, 3 in this embodiment. Note that the number of distributed representation models is not limited to three, and may be a plurality other than three, and is not limited to a plurality, and may be one. However, if a plurality of distributed representation models are used, it is possible to absorb variations in model-specific similarity S among the distributed representation models and determine more appropriate words as general similar words. When the number of distributed representation models is one, the model-specific similarity S in the distributed representation model becomes the general similarity A, and the top N3 of the model-specific similarities S in the distributed representation model (for example, N3=100 ) is a model-specific similar word and a general similar word.
従って、図2に示すように、例えば、タイプ1の分散表現モデルについては、重み行例W1を用いて、キーワードの単語についての単語ベクトルV(k,1)と、他の単語についての単語ベクトルV(i,1)との間のコサイン類似度S(i,1)を算出する。同様に、タイプ2の分散表現モデルについては、重み行例W2を用いて、キーワードの単語についての単語ベクトルV(k,2)と、他の単語についての単語ベクトルV(i,2)との間のコサイン類似度S(i,2)を算出する。タイプ3の分散表現モデルも同様である。
Therefore, as shown in FIG. 2, for example, for the
それから、単語類似度算出手段41Aは、タイプ1~3の各々の分散表現モデルについて、モデル別類似度記憶手段62に記憶しているコサイン類似度S(i,j)の中から、大きさが上位N3(例えば、N3=100)位以内のコサイン類似度S(i,j)を選択する。ここで、i=1,2,3,…,k-1,k+1,…,N2-2,N2-1,N2であり、j=1,2,3である。番号iの数は、N2個(例えば115万個)の単語から、番号kのキーワードの単語を1つを除くので、(N2-1)個である。 Then, the word similarity calculation means 41A selects the magnitude Select the cosine similarities S(i,j) within the top N3 (eg, N3=100). , k-1, k+1, . . . , N2-2, N2-1, N2 and j=1, 2, 3. The number of number i is (N2-1) because one word of the keyword number k is excluded from N2 (eg, 1,150,000) words.
例えば、タイプ1のモデルについては、(N2-1)個(例えば、(115万-1)個)のコサイン類似度S(i,1)(i=1,2,3,…,k-1,k+1,…,N2-2,N2-1,N2)の中から、上位N3位以内(例えば、100位以内)のコサイン類似度S(i,1)を選択する。選択されたコサイン類似度S(i,1)は、図2の最下部の表において太線で囲まれている。同様に、タイプ2のモデルについては、(N2-1)個(例えば、(115万-1)個)のコサイン類似度S(i,2)(i=1,2,3,…,k-1,k+1,…,N2-2,N2-1,N2)の中から、上位N3位以内(例えば100位以内)のコサイン類似度S(i,2)を選択する。さらに、タイプ3のモデルについては、(N2-1)個(例えば、(115万-1)個)のコサイン類似度S(i,3)(i=1,2,3,…,k-1,k+1,…,N2-2,N2-1,N2)の中から、上位N3位以内(例えば100位以内)のコサイン類似度S(i,3)を選択する。
For example, for a
そして、タイプ1~3の各分散表現モデルで選択された上位N3位以内(例えば100位以内)のS(i,j)の単語の番号iは、通常、一致していない。つまり、図2の最下部の表に示すように、太枠で囲まれた部分は、ずれている。従って、3タイプ全体で考えた場合には、各分散表現モデルで選択した単語が一致していない場合のずれ分の単語を含め、少なくとも1つの分散表現モデルで選択された単語の数は、N3(例えば100)個よりも大きくなる。この数を、N4(例えば150)とする。
The word number i of S(i,j) within the top N3 (for example, within the 100th) selected by each distributed representation model of
また、N3個(例えば100個)の単語の番号がずれて選択されることにより、全体でN4個(例えば150個)の単語の番号が選択されているので、タイプ1~3の分散表現モデルの各々についてみれば、(N4-N3)個(例えば、150-100=50個)の単語の番号に対応するコサイン類似度S(i,j)が選択されていないため、存在しない状態である。このように、対応するコサイン類似度S(i,j)が存在しない番号の単語については、コサイン類似度S(i,j)=0とみなすものとする。すなわち、実際には、それらのコサイン類似度S(i,j)の値は存在するが、上位N3位以内(例えば100位以内)に入らないような小さな数値であるため、0とみなすことになる。
In addition, since N3 (eg, 100) word numbers are shifted and selected, a total of N4 (eg, 150) word numbers are selected, so distributed representation models of
例えば、図2の最下部の表において、タイプ1の分散表現モデルについては、N4個(例えば150個)の単語の番号iのうち、番号i=k-1のS(k-1,1)が存在しないので、S(k-1,1)=0とみなす。同様に、タイプ2の分散表現モデルについては、N4個(例えば150個)の単語の番号iのうち、番号i=2のS(2,2)と、番号i=N-2のS(N-2,2)とが存在しないので、S(2,2)=S(N-2,2)=0とみなす。また、タイプ3の分散表現モデルについては、N4個(例えば150個)の単語の番号iのうち、番号i=k-1のS(k-1,3)と、番号i=N-2のS(N-2,3)とが存在しないので、S(k-1,3)=S(N-2,3)=0とみなす。
For example, in the table at the bottom of FIG. 2, for the
その後、単語類似度算出手段41Aは、タイプ1~3の各々の分散表現モデルについて、N4個(例えば150個)の番号iの単語毎に、モデル別類似度記憶手段62に記憶しているコサイン類似度S(i,j)の調和平均または加重調和平均(重み付き調和平均)を求めることにより、3つのタイプの分散表現モデルをアンサンブルした一般類似度A(i)を算出する。すなわち、一般類似度A(i)は、S(i,1)、S(i,2)、S(i,3)の調和平均または加重調和平均である。加重調和平均は、例えば、ディメンジョンやウィンドウサイズについて、強調したい分散表現モデルがある場合に、そこに相対的に大きな重みを付けたり、word2vecのCBOWの分散表現モデルとSkip-gramの分散表現モデルとの混成とする場合に、CBOWとSkip-gramとで重みを変える場合等に利用することができる。
After that, the word similarity calculation means 41A calculates the cosine value stored in the model-by-model similarity storage means 62 for each of N4 (for example, 150) words with the number i for each of the distributed representation models of
調和平均または加重調和平均をとると、番号iの単語について、タイプ1~3の各分散表現モデルのコサイン類似度S(i,1),S(i,2),S(i,3)のうちのいずれかの値(少なくとも1つの値)がゼロになった場合には、一般類似度A(i)=0となる。例えば、図2の最下部の表では、タイプ2の分散表現モデルについての番号i=2のS(2,2)=0であるから、番号i=2の単語の一般類似度A(2)=0となる。同様に、タイプ1,3の分散表現モデルについての番号i=k-1のS(k-1,1)=S(k-1,3)=0であるから、番号i=k-1の単語の一般類似度A(k-1)=0となる。また、タイプ2,3の分散表現モデルについての番号i=N-2のS(N-2,2)=S(N-2,3)=0であるから、番号i=N-2の単語の一般類似度A(N-2)=0となる。
Taking the harmonic average or weighted harmonic average, for the word number i, the cosine similarities S(i,1), S(i,2), S(i,3) of each distributed representation model of
続いて、単語類似度算出手段41Aは、アンサンブルした一般類似度A(i)の値がゼロにならなかった単語を選択し、それらを一般類似単語として決定し、一般類似単語およびその一般類似単語についての一般類似度A(i)を、一般類似度記憶手段63に記憶させる。一般類似度記憶手段63は、主メモリ等の揮発性メモリでもよい。なお、複数種類の分散表現モデルをアンサンブルした一般類似度A(i)の値がゼロになることなく、一般類似単語として選択される単語は、タイプ1~3の各分散表現モデルで選択された上位N3位以内(例えば100位以内)のモデル別類似度S(i,j)の番号iのうち、全ての分散表現モデルで選択された番号、すなわち全ての分散表現モデルで重なっている番号の単語である。換言すれば、全ての分散表現モデルについてのモデル別類似単語となっている単語である。この結果、一般類似単語として決定した単語の個数がN5個(例えば70個)になったとする。このN5の値は、当然にN3(例えば100)以下の値となり、N5=N3となるのは、タイプ1~3の全ての分散表現モデルについて上位N3位以内(例えば100位以内)のモデル別類似度S(i,j)の単語の組合せが一致している場合(順位まで一致している必要はない。)のみである。
Subsequently, the word similarity calculation means 41A selects words for which the value of the ensembled general similarity A(i) is not zero, determines them as general similar words, and The general similarity A(i) for is stored in the general similarity storage means 63 . The general similarity storage means 63 may be a volatile memory such as a main memory. In addition, words selected as general similar words without the value of general similarity A(i) obtained by ensemble of multiple types of distributed representation models being zero are selected by each of
以上のように、本実施形態では、一般類似度A(i)は、S(i,1)、S(i,2)、S(i,3)の調和平均または加重調和平均としているが、一般類似度Aを算出するためのモデル別類似度Sの統合方法は、調和平均または加重調和平均に限定されるものではなく、例えば、単純平均、加重平均、相乗平均等でもよい。また、各種平均をとる前に、突出した値を除外するという観点で、各分散表現モデルの番号iの単語のモデル別類似度Sのうちの最大および/または最小のモデル別類似度Sを除いた状態としてから、各種平均をとるようにしてもよい。 As described above, in the present embodiment, the general similarity A(i) is the harmonic average or weighted harmonic average of S(i,1), S(i,2), and S(i,3). The method of integrating the model-specific similarities S for calculating the general similarity A is not limited to harmonic averaging or weighted harmonic averaging, and may be, for example, simple averaging, weighted averaging, geometric averaging, or the like. In addition, before taking various averages, from the viewpoint of excluding outstanding values, the maximum and/or minimum model similarity S among the model similarities S of the word number i of each distributed representation model is excluded. After that, various averages may be taken.
(処理手段30/連想検索手段41/単語類似度算出手段41Aの構成:固有類似度Bの算出処理、図3)
さらに、単語類似度算出手段41Aは、以上のようにして決定したN5個(例えば70個)の各一般類似単語、および、キーワードの単語について、案件テキストデータ記憶手段54に記憶された各案件の固有テキストデータ(本実施形態では、自己データとニーズデータとの結合テキストデータ)との照合を行うことにより、各一般類似単語および/またはキーワードの単語を含む固有テキストデータおよびその案件識別情報(案件番号)を抽出する。なお、抽出した案件識別情報(案件番号)は、図示されない抽出案件記憶手段(主メモリ等の揮発性メモリでもよい。)に記憶しておく。
(Configuration of processing means 30/associative search means 41/word similarity calculation means 41A: processing for calculating inherent similarity B, FIG. 3)
Further, the word similarity calculation means 41A calculates the N5 (for example, 70) general similar words and the keyword words determined as described above for each case stored in the case text data storage means 54. By matching with unique text data (in this embodiment, combined text data of self data and needs data), unique text data containing each general similar word and/or keyword word and its project identification information (project identification information) number). The extracted item identification information (item number) is stored in an unillustrated extracted item storage means (a volatile memory such as a main memory may be used).
そして、単語類似度算出手段41Aは、図3に示すように、N5個(例えば70個)の一般類似単語の全てについて、次の処理を実行する。なお、図3では、N5個の一般類似単語のうちの任意の1つの一般類似単語をβとしている。 Then, as shown in FIG. 3, the word similarity calculation means 41A performs the following processing for all N5 (for example, 70) general similar words. In FIG. 3, any one general similar word out of the N5 general similar words is β.
すなわち、単語類似度算出手段41Aは、全ての案件のうち、固有テキストデータの中にキーワードαおよび一般類似単語βの双方が含まれる各案件の集合Pにおけるキーワードαの出現回数および一般類似単語βの出現回数による集合Pの評価値Ps(但し、後述する式(1)の係数σ=0とし、キーワードαの出現回数を使用せずに一般類似単語βの出現回数だけによる集合Pの評価値Psとしてもよい。)と、固有テキストデータの中にキーワードαが含まれず、かつ、一般類似単語βが含まれる各案件の集合Qにおける一般類似単語βの出現回数による集合Qの評価値Qsとを用いて、Ps/(Ps+Qs)により、固有類似度Bを算出し、算出した固有類似度Bを固有類似度記憶手段64に記憶させる。固有類似度記憶手段64は、主メモリ等の揮発性メモリでもよい。 That is, the word similarity calculation means 41A calculates the number of occurrences of the keyword α and the general similar word β in the set P of all projects that include both the keyword α and the general similar word β in the unique text data. The evaluation value Ps of the set P based on the number of occurrences of (However, the coefficient σ in Equation (1) described later is set to 0, and the evaluation value of the set P based only on the number of occurrences of the general similar word β without using the number of occurrences of the keyword α Ps.), and an evaluation value Qs of the set Q based on the number of occurrences of the general similar word β in the set Q of each case in which the unique text data does not include the keyword α and includes the general similar word β. is used to calculate the inherent similarity B from Ps/(Ps+Qs), and the calculated inherent similarity B is stored in the inherent similarity storage means 64 . The unique similarity storage means 64 may be a volatile memory such as a main memory.
図3において、例えば、キーワードα(例えば「お酒」)を含む案件は、A社、B社、C社、H社、J社であり、一般類似単語β(例えば「焼酎」)を含む案件は、A社、B社、C社、D社、E社、F社、G社であるとする。この場合、キーワードαおよび一般類似単語βの双方を含む案件の集合Pは、A社、B社、C社により構成される。また、キーワードαを含まず、かつ、一般類似単語βを含む案件の集合Qは、D社、E社、F社、G社により構成される。なお、キーワードαに対する一般類似単語βについての固有類似度Bの算出には、H社、J社は関与しない。 In FIG. 3, for example, the projects containing the keyword α (for example, “alcohol”) are companies A, B, C, H, and J, and the projects containing the general similar word β (for example, “shochu”). are A company, B company, C company, D company, E company, F company, and G company. In this case, a set P of cases including both the keyword α and the general similar word β is composed of A company, B company, and C company. Also, a set Q of projects that do not contain the keyword α but contain the general similar word β are composed of D company, E company, F company, and G company. Company H and company J are not involved in the calculation of the unique similarity B for the general similar word β with respect to the keyword α.
集合Pの評価値Psは、次の式(1)により、集合Pに属する各案件(企業)のαの出現回数と、βの出現回数との関数fで算出される。 The evaluation value Ps of the set P is calculated by the following formula (1) using a function f of the number of appearances of α and the number of appearances of β for each project (company) belonging to the set P.
Ps=f(集合Pに属する各案件のαの出現回数,βの出現回数)
=(Aα+Bα+Cα)×σ+(Aβ+Bβ+Cβ)×τ ・・・・(1)
Ps=f (number of appearances of α and number of appearances of β for each case belonging to set P)
=(Aα+Bα+Cα)×σ+(Aβ+Bβ+Cβ)×τ (1)
ここで、Aαは、A社の固有テキストデータにおけるキーワードαの出現回数である。同様に、Bα、Cαは、B社、C社の各固有テキストデータにおけるキーワードαの各出現回数である。Aβ、Bβ、Cβは、A社、B社、C社の各固有テキストデータにおける一般類似単語βの各出現回数である。なお、図3は、一例であるから、より多くの案件が集合Pに属していれば、それらの全ての案件の固有テキストデータにおけるキーワードαや一般類似単語βの各出現回数を加算対象とする。 Here, Aα is the number of appearances of the keyword α in company A's unique text data. Similarly, Bα and Cα are the numbers of appearances of the keyword α in the unique text data of B company and C company, respectively. Aβ, Bβ, and Cβ are the numbers of occurrences of the general similar word β in each of the unique text data of company A, company B, and company C, respectively. FIG. 3 is an example, so if more projects belong to the set P, the number of appearances of the keyword α and the general similar word β in the specific text data of all those projects will be added. .
また、係数σは、σ=0の値をとることができ、その場合は、集合Pに属する各案件の固有テキストデータには、キーワードαおよび一般類似単語βの双方が含まれているが、キーワードαの出現回数は使用しないことになる。係数σ,τは、設定データとして設定データ記憶手段51に記憶されているが、固定値としてもよい。 Also, the coefficient σ can take a value of σ=0. In that case, the unique text data of each case belonging to the set P includes both the keyword α and the general similar word β. The number of appearances of the keyword α is not used. Although the coefficients σ and τ are stored as setting data in the setting data storage means 51, they may be fixed values.
集合Qの評価値Qsは、次の式(2)により、集合Qに属する各案件(企業)のβの出現回数の関数gで算出される。 The evaluation value Qs of the set Q is calculated by the function g of the number of occurrences of β for each project (company) belonging to the set Q, using the following equation (2).
Qs=g(集合Qに属する各案件(企業)のβの出現回数)
=(Dβ+Eβ+Fβ+Gβ)×φ ・・・・・・・・・・・・・・・(2)
Qs=g (number of appearances of β for each project (company) belonging to set Q)
= (Dβ+Eβ+Fβ+Gβ)×φ (2)
ここで、Dβ、Eβ、Fβ、Gβは、D社、E社、F社、G社の各固有テキストデータにおける一般類似単語βの各出現回数である。なお、図3は、一例であるから、より多くの案件が集合Qに属していれば、それらの全ての案件の固有テキストデータにおける一般類似単語βの出現回数を加算対象とする。また、係数φは、設定データとして設定データ記憶手段51に記憶されているが、固定値としてもよい。 Here, Dβ, Eβ, Fβ, and Gβ are the numbers of appearances of the general similar word β in the specific text data of D company, E company, F company, and G company, respectively. Since FIG. 3 is an example, if more projects belong to the set Q, the number of occurrences of the general similar word β in the unique text data of all those projects is added. Although the coefficient φ is stored in the setting data storage means 51 as setting data, it may be a fixed value.
例えば、図3の表のデータ集計例1では、式(1)の係数σ=τ=1という設定とした場合は、Ps=(3+2+2)×1+(2+1+3)×1=13となり、式(2)の係数φ=1という設定とした場合は、Qs=(2+1+2+4)×1=9となる。従って、固有類似度Bは、Ps/(Ps+Qs)=13/(13+9)=0.591となる。 For example, in data aggregation example 1 in the table of FIG. ) is set to φ=1, Qs=(2+1+2+4)×1=9. Therefore, the intrinsic similarity B is Ps/(Ps+Qs)=13/(13+9)=0.591.
図3の表のデータ集計例1で、αの出現回数を用いずにβの出現回数だけで固有類似度Bを算出すべく、式(1)の係数σ=0、τ=1、式(2)の係数φ=1という設定とした場合は、Ps=6、Qs=9となるので、固有類似度Bは、Ps/(Ps+Qs)=6/(6+9)=0.4となる。 In data aggregation example 1 in the table of FIG. When the coefficient φ of 2) is set to 1, Ps=6 and Qs=9, so the inherent similarity B is Ps/(Ps+Qs)=6/(6+9)=0.4.
また、図3の表のデータ集計例1で、集合Pの評価値Psを算出する際に、a,βという2つの単語の出現回数を合計することによる過大な影響を抑えるべく、式(1)の係数σ=τ=0.5、式(2)の係数φ=1という設定とした場合は、Ps=6.5、Qs=9となるので、固有類似度Bは、Ps/(Ps+Qs)=6.5/(6.5+9)=0.419となる。 In addition, in the data aggregation example 1 in the table of FIG. 3, when calculating the evaluation value Ps of the set P, the expression (1 ) of σ = τ = 0.5 and the coefficient φ of Equation (2) = 1, Ps = 6.5 and Qs = 9, so the inherent similarity B is Ps / (Ps + Qs )=6.5/(6.5+9)=0.419.
さらに、ある1つの案件の固有テキストデータにおけるa,βの出現回数の値が突出していると、その1つの案件による影響が過大になるおそれがある。そこで、例えば、閾値(例えば、10回等)を設け、出現回数が閾値を超える場合には、閾値に変更する等の上限調整を行ってもよい。例えば、閾値が10回のときに、Aβ=13であれば、上限であるAβ=10に調整する等である。また、出現回数の平方根を求める等の変換調整を行ってもよい。例えば、Aβ=2であれば、Aβ=√2=1.414に変換調整する等である。 Furthermore, if the value of the number of appearances of a and β in the unique text data of a certain project is outstanding, there is a possibility that the impact of that one project will become excessive. Therefore, for example, a threshold value (for example, 10 times) may be set, and when the number of appearances exceeds the threshold value, upper limit adjustment may be performed such as changing to the threshold value. For example, if Aβ=13 when the threshold is 10 times, the upper limit is adjusted to Aβ=10. Also, conversion adjustment such as obtaining the square root of the number of appearances may be performed. For example, if Aβ=2, it is converted and adjusted to Aβ=√2=1.414.
従って、固有類似度Bは、各案件(各企業)の固有テキストデータを用いて算出されていればよい。このため、本願出願人により開発された前述した特許文献2の抽出システムに記載された方法で固有類似度B(特許文献2では、テキストデータ基準関連度Pword(適合率)と称されている。)を算出してもよい。前述した特許文献2の抽出システムでは、固有類似度Bは、本実施形態のような単語α,βの出現回数を用いる方法ではなく、集合Pに属する案件(企業)の数と、集合Qに属する案件(企業)の数とを用いて固有類似度Bを算出している。よって、前述した特許文献2の抽出システムの方法によれば、固有類似度Bは、一般類似単語βを含む案件のうちのキーワードαも含む案件の比率であるから、図3の表のデータ集計例1では、固有類似度Bは、3社/(3社+4社)=3社/7社=0.429となる。
Therefore, the unique similarity B should be calculated using the unique text data of each project (each company). Therefore, the inherent similarity B (referred to as the text data reference relevance Pword (relevance rate) in Patent Document 2) is obtained by the method described in the extraction system of
なお、図3の表のデータ集計例2の状況で、式(1)の係数σ=τ=1、式(2)の係数φ=1という設定とした場合、あるいは、図3の表のデータ集計例3の状況で、式(1)の係数σ=0、τ=1、式(2)の係数φ=1という設定とした場合は、Ps=6、Qs=8となるので、固有類似度Bは、Ps/(Ps+Qs)=6/(6+8)=0.429となり、前述した特許文献2の抽出システムの方法により算出した固有類似度Bの値と同じ値となる。従って、単語α,βの出現回数が特殊な状況(各案件で均等)になったときに、案件の数を考慮する特許文献2の方法による固有類似度Bの算出値と、出現回数を考慮する本実施形態の方法による固有類似度Bの算出値とが一致する。
In addition, in the situation of data aggregation example 2 in the table of FIG. In the situation of aggregation example 3, if the coefficients σ = 0 and τ = 1 in formula (1) and the coefficient φ = 1 in formula (2) are set, Ps = 6 and Qs = 8, so there is inherent similarity The degree B is Ps/(Ps+Qs)=6/(6+8)=0.429, which is the same value as the unique similarity B calculated by the method of the extraction system of
(処理手段30/連想検索手段41/単語類似度算出手段41Aの構成:最終類似度FSの算出処理)
その後、単語類似度算出手段41Aは、一般類似度記憶手段63に記憶されている各一般類似単語についての一般類似度A(i)と、固有類似度記憶手段64に記憶されている各一般類似単語についての固有類似度B(i)との調和平均または加重調和平均(重み付き調和平均)を求めることにより、各一般類似単語についての最終類似度FS(i)を算出し、この最終類似度FS(i)の大きさで順位付けした各一般類似単語のうち、予め定められた数の上位の単語、または、閾値に対する最終類似度FS(i)の大きさで選択した単語を、関連単語として決定し、決定した各関連単語およびそれらの関連単語の最終類似度FS(i)を最終類似度記憶手段65に記憶させる処理を実行する。本実施形態では、上位N6個(例えば10個)の一般類似単語を、関連単語として選択決定する。N6は、設定データとして設定データ記憶手段51に記憶されているが、固定値としてもよい。
(Configuration of
After that, the word similarity calculation means 41A calculates the general similarity A(i) for each general similar word stored in the general similarity storage means 63 and each general similarity stored in the specific similarity storage means 64. By obtaining the harmonic average or weighted harmonic average (weighted harmonic average) with the unique similarity B (i) for the word, the final similarity FS (i) for each general similar word is calculated, and this final similarity Among the general similar words ranked by the magnitude of FS(i), a predetermined number of top words or words selected by the magnitude of the final similarity FS(i) with respect to the threshold are selected as related words , and stores the determined related words and the final similarity FS(i) of the related words in the final similarity storage means 65 . In this embodiment, top N6 (for example, 10) general similar words are selected and determined as related words. Although N6 is stored in the setting data storage means 51 as setting data, it may be a fixed value.
ここで、iは、一般類似単語として決定された単語の番号であり、i=1,2,3,…,N5をとり、N5(例えば70)は、一般類似単語の個数である。従って、ここでは、番号iは、詰めている。 Here, i is the number of words determined as general similar words, i=1, 2, 3, . Therefore, here the number i is packed.
なお、一般類似度A(i)と固有類似度B(i)とを用いて最終類似度FS(i)を算出する際には、調和平均または加重調和平均ではなく、単純平均、加重平均、相乗平均、二乗平均平方根(RMS)等を求めてもよいが、率の平均をとるという観点では、調和平均または加重調和平均とすることが好ましい。 When calculating the final similarity FS(i) using the general similarity A(i) and the specific similarity B(i), simple average, weighted average, A geometric mean, a root mean square (RMS), or the like may be obtained, but a harmonic mean or a weighted harmonic mean is preferable from the viewpoint of averaging the ratios.
(処理手段30/連想検索手段41/関連度算出手段41Bの構成:関連度CSの算出処理、図4)
関連度算出手段41Bは、案件データ記憶手段54に記憶された全ての案件(企業)の固有テキストデータのうち、単語類似度算出手段41Aにより決定した各関連単語(本実施形態では、一般類似単語βのうち、最終類似度FSが上位N6個(例えば10個)の単語)またはキーワードαのいずれかの単語を含む各固有テキストデータについて、次の処理を実行する。この処理対象となる各固有テキストデータは、当然に、各一般類似単語βまたはキーワードαのいずれかの単語を含む各固有テキストデータの集合の中に含まれるので、ここでの処理対象となる各固有テキストデータの案件識別情報(案件番号)は、単語類似度算出手段41Aにより抽出されて図示されない抽出案件記憶手段に記憶されている案件識別情報(案件番号)の範囲内である。
(Configuration of
The degree-of-relevance calculation means 41B selects each related word (in this embodiment, general similar words Among β, the following processing is performed for each specific text data containing either words with the highest final similarity FS (N6 (eg, 10) words) or keyword α. Since each unique text data to be processed is naturally included in a set of unique text data containing either each general similar word β or keyword α, each unique text data to be processed here The case identification information (case number) of the unique text data is within the range of the case identification information (case number) extracted by the word similarity calculation means 41A and stored in the extracted case storage means (not shown).
すなわち、関連度算出手段41Bは、図4に示すように、各関連単語γ(本実施形態では、N5個(例えば70個)の一般類似単語βのうち、最終類似度FSが上位N6個(例えば10個)の単語)およびキーワードαのそれぞれの単語について、上述した処理対象となる各固有テキストデータの中に出現する単語別出現回数C(i)を求め、次の式(3)により、各関連単語γ(γ1,γ2,…)についての単語別出現回数C(i)に各関連単語γについての最終類似度FS(i)を乗じた値またはこの値に各関連単語γの重み係数κ(i)を乗じた値、並びに、キーワードαについての単語別出現回数C(0)またはこの単語別出現回数C(0)にキーワードαの重み係数κ(0)を乗じた値を合計することにより、キーワードαに対する各案件(各企業)の関連度CSを算出し、算出した関連度CSを、案件識別情報(案件番号)と関連付けて関連度記憶手段66に記憶させる処理を実行する。 That is, as shown in FIG. 4, the degree-of-association calculation means 41B calculates the final degree of similarity FS for the top N6 ( For example, 10 words) and each word of the keyword α, the number of occurrences C(i) for each word appearing in each unique text data to be processed as described above is obtained, and the following equation (3) is obtained. A value obtained by multiplying the word-specific appearance frequency C(i) for each related word γ (γ1, γ2, ...) by the final similarity FS(i) for each related word γ, or a weighting factor for each related word γ to this value sum the value multiplied by κ(i) and the number of occurrences per word C(0) for the keyword α or the value obtained by multiplying this number of occurrences per word C(0) by the weighting factor κ(0) of the keyword α Thus, the degree of relevance CS of each project (each company) with respect to the keyword α is calculated, and the calculated degree of relevance CS is associated with the project identification information (project number) and stored in the degree of relevance storage means 66 .
CS=Σi{κ(i)×FS(i)×C(i)} ・・・・・・・・・(3) CS=Σi{κ(i)×FS(i)×C(i)} (3)
ここで、iは、単語の番号であり、i=0,1,2,3,…,N6をとり、番号i=0は、キーワード(単語α)の番号であり、番号i=1~N6は、関連単語γとして決定された単語の番号であり、N6(例えば10)は、関連単語γの個数である。従って、ここでは、番号iは、詰めている。キーワードα(i=0)についての最終類似度FSは、FS(0)=1とする。 Here, i is the number of the word, i=0, 1, 2, 3, . is the number of words determined as related words γ, and N6 (eg 10) is the number of related words γ. Therefore, here the number i is packed. The final similarity FS for the keyword α(i=0) is FS(0)=1.
κ(i)は、各単語(キーワードα、各関連単語γ)の重み係数であり、いずれも設定データとして、設定データ記憶手段51に記憶されている。原則的には、全ての単語(i=0,1,…,N6)の重み係数について、κ(i)=1としてよい。単語別出現回数C(i)には、重みとしてFS(i)が乗じられているからである。従って、最終類似度FS(i)による重み付けについて、更なる重み付けをする場合等に、1以外の値であるκ(i)を利用することができる。例えば、1番大きいFS(i)または1番大きいC(i)には、κ(i)=3を乗じ、2番目に大きいFS(i)または2番目に大きいC(i)には、κ(i)=2を乗じる等のような更なる重み付けを行うことができる。また、キーワードα(i=0)と、各関連単語γ(i=1~N6)との相対的な重み付けに、κ(i)を利用してもよく、その場合には、κ(0)と、その他のκ(i)(i=1~N6)とを別の値に設定すればよい。この際、キーワードα(i=0)についての最終類似度は、FS(0)=1とし、さらに重み係数κ(0)を乗じているので、κ(0)×FS(0)を1つの重み係数と考えてもよく、あるいは、κ(0)を使用せずに、FS(0)自体を、1とするのではなく、重み係数と考えてもよい。なお、式(3)により求まる関連度CSの値は、案件(企業)を順位付けするための相対的な評価用の数値であるから、κ(i)(i=0,1,…,N6)は、相対的な重み付けをすることができる数値であればよいので、どのようなレベルの値でもよく(例えば、0~1の範囲でも、0~100の範囲でも、どのような範囲をとる数値でもよいという意味である。)、整数である必要もない。 κ(i) is a weighting factor for each word (keyword α, each related word γ), and both are stored in the setting data storage means 51 as setting data. In principle, κ(i)=1 may be set for the weighting factors of all words (i=0, 1, . . . , N6). This is because the word appearance count C(i) is multiplied by FS(i) as a weight. Therefore, κ(i), which is a value other than 1, can be used when further weighting is performed with respect to the final similarity FS(i). For example, the largest FS(i) or largest C(i) is multiplied by κ(i)=3, and the second largest FS(i) or second largest C(i) is multiplied by κ Further weighting can be done, such as multiplying by (i)=2. Also, κ(i) may be used for relative weighting of the keyword α (i=0) and each related word γ (i=1 to N6), in which case κ(0) and other κ(i) (i=1 to N6) may be set to different values. At this time, the final similarity for the keyword α (i=0) is set to FS(0)=1 and further multiplied by the weighting factor κ(0), so κ(0)×FS(0) is one It may be considered a weighting factor, or FS(0) itself may be considered a weighting factor instead of being 1 without using κ(0). Note that the value of the degree of association CS obtained by Equation (3) is a numerical value for relative evaluation for ranking projects (companies). ) can be a numerical value that can be relatively weighted, so it can be a value of any level (for example, a range of 0 to 1, a range of 0 to 100, and any range It means that it can be a number.), and it doesn't have to be an integer either.
より詳細には、図4の例では、関連度算出手段41Bは、処理対象の1つであるA社の固有テキストデータについて、キーワードα(例えば「お酒」)や各関連単語γ(例えば、γ1=「焼酎」、γ2=「泡盛」等)が含まれているか否かを判断している。図4に示すように、A社の固有テキストデータには、「お酒」(キーワードα)が3回出現し、「焼酎」(関連単語γ1)が2回出現し、「泡盛」(関連単語γ2)が2回出現しているので、その他の関連単語γ3,γ4,…の出現も含め、これらの単語のそれぞれが出現する単語別出現回数C(i)(i=0,1,…,N6)を求める。
More specifically, in the example of FIG. 4, the degree-of-
続いて、関連度算出手段41Bは、最終類似度記憶手段65に記憶されている各関連単語γについての最終類似度FS(i)(i=1~N6)を取得し、取得した最終類似度FS(i)と、キーワードα(i=0)についてのFS(0)=1と、上記のようにして求めたA社の固有テキストデータにおける単語別出現回数C(i)(i=0,1,…,N6)と、設定データ記憶手段51に記憶されている重み係数κ(i)(i=0,1,…,N6)とを用いて、式(3)により、キーワードαに対するA社の関連度CSを算出する。 Subsequently, the degree-of-association calculation means 41B acquires the final degree of similarity FS(i) (i=1 to N6) for each related word γ stored in the degree-of-similarity storage means 65, and obtains the final degree of similarity FS (i), FS (0) = 1 for the keyword α (i = 0), and the number of appearances for each word in the unique text data of company A obtained as described above C (i) (i = 0, 1, . . . , N6) and weighting coefficients κ(i) (i=0, 1, . Calculate the degree of relevance CS of the company.
そして、関連度算出手段41Bは、以上の処理を、A社以外の処理対象の案件の固有テキストデータについても同様に実行する。これにより、キーワードαに対する各案件(各企業)の関連度CSが得られるので、関連度CSの高い案件(企業)を、関連案件(関連企業)として決定し、案件データ記憶手段54から、決定した関連案件の案件データを取得する。この際、関連度CSが予め定められた数の上位の案件を関連案件として選択決定してもよく、関連度CSに対する閾値を設けて関連案件を決定してもよい。 Then, the degree-of-association calculating means 41B similarly executes the above processing for the unique text data of the cases to be processed other than the company A. As a result, the degree of relevance CS of each project (each company) with respect to the keyword α is obtained. Acquire the Item data of the related Item. At this time, it is also possible to select and determine the cases with the highest number of related degrees CS as the related cases, or to determine the related cases by setting a threshold value for the related degrees CS.
(処理手段30/マッチング手段42の構成)
マッチング手段42は、マッチング用特徴データ作成手段42Aと、マッチングスコア算出手段42Bとを含んで構成されている。このマッチング手段42には、本願出願人により開発された前述した特許文献1のマッチングシステムまたはその変形システム(固有テキストデータとして、特許文献1に記載された結合テキストデータを使用する代わりに、非結合状態の自己データおよびニーズデータを使用する場合)を適用することができ、本発明は、主として、特許文献1のマッチングシステムの周辺部分を開発したものである。従って、本発明のマッチング処理の有効性については、特許文献1の段落番号[0211]に実験結果として記載されている通りであり、適合率、再現率、F1値、正確度のいずれについても高い数値が得られている。
(Configuration of processing means 30/matching means 42)
The matching means 42 includes matching feature data creating means 42A and matching score calculating means 42B. This matching means 42 includes the matching system of the above-mentioned
マッチング用特徴データ作成手段42Aは、入力受付手段40により案件識別情報(案件番号)の入力を受け付けた場合に、受け付けた案件識別情報(案件番号)の案件をマッチング処理の対象案件とし、トピックモデル記憶手段56に記憶されている各案件の固有テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)を用いて、対象案件とこの対象案件のマッチング相手となる各候補案件とからなる複数のペアの各々についてのマッチング用特徴データを作成する処理を実行するものである。より詳細な内容は、後述する。 When the input receiving means 40 receives the input of the item identification information (item number), the matching characteristic data creating means 42A sets the item of the received item identification information (item number) as the item to be subjected to matching processing, and creates a topic model. Using the topic distribution (the topic value indicating the probability of appearance of each topic) in the unique text data of each case stored in the storage means 56, a plurality of candidate cases consisting of the target case and each candidate case to be matched with this target case is executed to create matching feature data for each of the pairs. More detailed contents will be described later.
マッチングスコア算出手段42Bは、マッチング用特徴データ作成手段42Aにより作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段60に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、対象案件に対して各候補案件が選定される確度(確からしさ)を示すスコア(マッチングスコア)を算出する処理を実行するものである。より詳細な内容は、後述する。 The matching score calculating means 42B uses each of the plurality of matching feature data created by the matching feature data creating means 42A as input data, and is pre-learned by two-class classification as to whether or not it is selected, and stored in the matching model storage means 60. Processing to calculate a score (matching score) that indicates the probability (probability) that each candidate project will be selected for the target project by performing classification processing using a supervised classification model using the matching model stored in is executed. More detailed contents will be described later.
(処理手段30/マッチング手段42/マッチング用特徴データ作成手段42Aの構成:図5、図7、図8)
マッチング用特徴データ作成手段42Aは、図5に示すように、マッチング用の固有テキストデータ(本実施形態では、結合テキストデータ)におけるトピック分布π(i)(トピック番号=1~Kの各トピックの出現確率を示すトピック値)と、マッチング用の固有テキストデータについてのマッチング用の単語重要度ベクトル(本実施形態では、一例として、TFIDFベクトルとする。)と、マッチングの対象案件(対象企業)および各候補案件(各候補企業)についてのニーズフラグや年商とを用いて、マッチングスコア算出手段42Bおよびマッチングモデル記憶手段60からなる識別器への入力データとなるマッチング用特徴データを作成する処理を実行する。但し、図5の下部に記載されているのは、マッチングの対象案件と候補案件とからなるペアのうちの一方の側のマッチング用特徴データ(従って、合成変数を作成する前の状態、単語重要度ベクトルの内積を算出する前の状態)である。
(Configuration of processing means 30/matching means 42/matching feature data creation means 42A: FIGS. 5, 7, and 8)
As shown in FIG. 5, the matching feature
より詳細には、マッチング用特徴データ作成手段42Aは、図8に示すように、運用時(ユーザの検索中)の処理として、トピックモデル記憶手段56に記憶されている対象案件Xおよび各候補案件Yのマッチング用の固有テキストデータ(本実施形態では、結合テキストデータ)におけるトピック分布(各トピックの出現確率を示すトピック値)と、単語重要度ベクトル算出手段37により算出されて単語重要度ベクトル記憶手段57に記憶されている対象案件Xおよび各候補案件Yのマッチング用の固有テキストデータについてのマッチング用の単語重要度ベクトル(TFIDFベクトル等)と、案件データ記憶手段54に記憶されている対象案件Xおよび各候補案件Yの案件データに含まれるニーズフラグや年商とを用いて、対象案件Xと各候補案件Yとからなる複数のペアについてのマッチング用特徴データを作成する。
More specifically, as shown in FIG. 8, the matching feature data creating means 42A, as a process during operation (during user search), extracts the target case X and each candidate case stored in the topic model storage means 56. Topic distribution (topic value indicating the appearance probability of each topic) in unique text data for matching of Y (combined text data in this embodiment) and word importance vector calculated by the word importance vector calculation means 37 are stored. Matching word importance vector (TFIDF vector, etc.) for matching specific text data of target case X and each candidate case Y stored in
ここで、トピックモデル記憶手段56に記憶されている対象案件Xおよび各候補案件Yのマッチング用の固有テキストデータにおけるトピック分布(各トピックの出現確率を示すトピック値)には、トピック推定手段35によるトピック推定処理(トピックモデルの初期モデルの構築時およびモデルの更新時)で得られた各案件のマッチング用の固有テキストデータにおけるトピック分布の他、検索のタイミングにより、トピック値予測手段36によるトピック値予測で得られた新規案件のマッチング用の固有テキストデータにおけるトピック分布(トピックモデルの更新前における仮の値)が含まれることがある。「検索のタイミングにより」というのは、トピックモデルの更新後(新規モデルの構築後を含む)で、かつ、未だその更新後において新規案件の登録がないタイミングでは、トピック値予測手段36によるトピック分布(仮の値)は存在せず、一方、トピックモデルの更新後において新規案件の登録があり、かつ、その次の更新時期が到来していないタイミングでは、トピック値予測手段36によるトピック分布(仮の値)が存在するという意味である。 Here, the topic distribution (topic value indicating the appearance probability of each topic) in the matching specific text data of the target case X and each candidate case Y stored in the topic model storage means 56 is obtained by the topic estimation means 35. In addition to the topic distribution in the unique text data for matching of each case obtained in the topic estimation process (at the time of building the initial model of the topic model and at the time of updating the model), the topic value by the topic value prediction means 36 depending on the timing of the search Topic distribution (provisional values before updating the topic model) in unique text data for matching new projects obtained by prediction may be included. "Depending on the timing of the search" means that the topic distribution by the topic value prediction means 36 after updating the topic model (including after building a new model) and at the timing when no new project is registered after the update. (temporary value) does not exist, and on the other hand, when there is a registration of a new project after the update of the topic model and the timing of the next update has not arrived, the topic distribution (temporary value) by the topic value prediction means 36 (temporary value) exists.
また、図5では、各案件識別情報(各案件番号)についてのマッチング用特徴データ(但し、図5は合成変数を作成する前の状態、単語重要度ベクトルの内積を算出する前の状態)は、トピック分布と、単語重要度ベクトル(例えばTFIDFベクトル等)と、ニーズフラグと、年商とで構成されているが、図5中の二点鎖線で示すように、単語重要度ベクトル、ニーズフラグ、年商は、マッチング用特徴データの作成に必須のものではなく、使用しないという選択もできる。また、図5での図示は省略されているが、マッチング用特徴データの作成に、文書長を使用してもよい。この文書長としては、例えば、固有テキストデータ準備手段34による[α]固有テキストデータの作成処理を行った状態、または[β]不要な記号やタグ等の除去処理を行った状態の固有テキストデータの文字数(すなわち、[γ]の形態素解析で単語に分解される前の状態の固有テキストデータの文字数)、あるいは、[δ]までの処理を経た状態の処理後の固有テキストデータの単語の総数等を用いることができる。 Also, in FIG. 5, the matching feature data for each case identification information (each case number) (however, FIG. 5 shows the state before creating the composite variable, the state before calculating the inner product of the word importance vector) is , topic distribution, word importance vector (for example, TFIDF vector), needs flag, and annual sales. , annual sales are not indispensable for creating matching feature data, and it is possible to choose not to use them. Also, although not shown in FIG. 5, the document length may be used to create the matching feature data. As the document length, for example, [α] the unique text data created by the unique text data preparation means 34, or [β] the unique text data after unnecessary symbols and tags have been removed. (that is, the number of characters in the unique text data before it is broken down into words by the morphological analysis of [γ]), or the total number of words in the unique text data after processing up to [δ] etc. can be used.
さらに、図7に示すように、マッチング用特徴データの作成では、合成変数を含めることが、適切なスコアリングを行ううえで効果的である。 Furthermore, as shown in FIG. 7, it is effective to include synthetic variables in creating matching feature data for proper scoring.
図7(A)に示すように、各トピック値により合成変数を作成する場合は、対象案件Xのトピック分布π(X)と、候補案件Yのトピック分布π(Y)との積からなる合成変数の分布λ(XY)を求め、これをマッチング用特徴データに含めることができる。なお、図7(A)において、λ(XY)=π(X)*π(Y)という表記を行っているが、ベクトルの内積を求めるわけではなく、ベクトルの対応する要素同士の積を求めるという意味である。すなわち、同じトピックについてのトピック値同士の積であるから、トピック番号=1のトピック値同士の積、トピック番号=2のトピック値同士の積、…、トピック番号=K(Kはトピック数)のトピック値同士の積を求める。より正確な表記にすると、λ(XY,1)=π(X,1)*π(Y,1)、λ(XY,2)=π(X,2)*π(Y,2)、…、λ(XY,K)=π(X,K)*π(Y,K)となる。従って、K次元ベクトルであるトピック分布π(X)と、K次元ベクトルであるトピック分布π(Y)とから、K次元ベクトルである合成変数の分布λ(XY)を求めることになる。 As shown in FIG. 7(A), when creating a composite variable from each topic value, a composite variable consisting of the product of the topic distribution π(X) of the target project X and the topic distribution π(Y) of the candidate project Y A distribution of variables λ(XY) can be determined and included in the matching feature data. In FIG. 7A, the notation λ(XY)=π(X)*π(Y) is used, but the inner product of vectors is not obtained, but the product of corresponding elements of vectors is obtained. It means. That is, since it is the product of topic values for the same topic, the product of topic values of topic number = 1, the product of topic values of topic number = 2, ..., the product of topic number = K (K is the number of topics) Multiply topic values together. In more precise notation, λ(XY,1)=π(X,1)*π(Y,1), λ(XY,2)=π(X,2)*π(Y,2), . , λ(XY,K)=π(X,K)*π(Y,K). Therefore, from the topic distribution .pi.(X), which is a K-dimensional vector, and the topic distribution .pi.(Y), which is a K-dimensional vector, the composite variable distribution .lambda.(XY), which is a K-dimensional vector, is obtained.
また、図7(A)に示すように、対象案件Xのトピック分布π(X)と、候補案件Yのトピック分布π(Y)との差の絶対値からなる合成変数の分布μ(XY)を求め、これをマッチング用特徴データに含めることができる。差ではなく、差の絶対値としているのは、方向性を無くすためであり、μ(XY)とμ(YX)とを同じにするため(順番を変えても同じになるようにするため)である。この場合は、ベクトルの対応する要素間の差の絶対値を求める。すなわち、同じトピックについてのトピック値間の差の絶対値であるから、トピック番号=1のトピック値間の差の絶対値、トピック番号=2のトピック値間の差の絶対値、…、トピック番号=K(Kはトピック数)のトピック値間の差の絶対値を求める。より正確な表記にすると、μ(XY,1)=|π(X,1)-π(Y,1)|、μ(XY,2)=|π(X,2)-π(Y,2)|、…、μ(XY,K)=|π(X,K)-π(Y,K)|となる。従って、K次元ベクトルであるトピック分布π(X)と、K次元ベクトルであるトピック分布π(Y)とから、K次元ベクトルである合成変数の分布μ(XY)を求めることになる。 Also, as shown in FIG. 7(A), distribution μ(XY) of a composite variable consisting of the absolute value of the difference between the topic distribution π(X) of the target project X and the topic distribution π(Y) of the candidate project Y can be obtained and included in the matching feature data. The reason why the difference is not the difference but the absolute value of the difference is to eliminate the directivity, and to make μ(XY) and μ(YX) the same (so that they are the same even if the order is changed). is. In this case, find the absolute value of the difference between the corresponding elements of the vectors. That is, since it is the absolute value of the difference between topic values for the same topic, the absolute value of the difference between topic values with topic number=1, the absolute value of the difference between topic values with topic number=2, . Calculate the absolute value of the difference between topic values of =K (K is the number of topics). In more precise notation, μ(XY,1)=|π(X,1)−π(Y,1)|, μ(XY,2)=|π(X,2)−π(Y,2 )|, . . . , μ(XY, K)=|π(X, K)−π(Y, K)| Therefore, the composite variable distribution μ(XY), which is a K-dimensional vector, is obtained from the topic distribution π(X), which is a K-dimensional vector, and the topic distribution π(Y), which is a K-dimensional vector.
なお、図7(A)の例において、トピック分布の積からなる合成変数の分布λ(XY)と、トピック分布の差の絶対値からなる合成変数の分布μ(XY)との双方を、マッチング用特徴データに含めることが好ましいが、積の分布λ(XY)、差の絶対値の分布μ(XY)のうち、いずれか一方を使用してもよい。 In the example of FIG. 7A, both the composite variable distribution λ(XY) consisting of the product of the topic distributions and the composite variable distribution μ(XY) consisting of the absolute values of the differences of the topic distributions are matched. Although it is preferable to include it in the feature data, either one of the product distribution λ(XY) and the difference absolute value distribution μ(XY) may be used.
さらに、図7(B)に示すように、各ニーズフラグにより合成変数を作成する場合は、対応するニーズフラグ同士(同じ種類のニーズフラグ同士)の論理和(OR)、論理積(AND)、排他的論理和(XOR)、否定論理和(NOR)、否定論理積(NAND)、否定排他的論理和(NXOR)、算術和等を採用することができる。図7(B)の例では、論理和(OR)、論理積(AND)、算術和による合成変数が示されている。この例は、論理和(OR)、論理積(AND)、算術和等による複数タイプ(3タイプ)の合成変数の全部を使用するという意味ではなく、いずれか1タイプの合成変数を選んで使用すればよいという趣旨で記載している。なお、複数タイプの合成変数を、マッチング用特徴データに含めてもよい。 Furthermore, as shown in FIG. 7(B), when creating a synthesized variable by each needs flag, the logical sum (OR), logical product (AND), and Exclusive logical sum (XOR), negative logical sum (NOR), negative logical product (NAND), negative exclusive logical sum (NXOR), arithmetic sum, etc. can be employed. In the example of FIG. 7(B), composite variables by logical sum (OR), logical product (AND), and arithmetic sum are shown. This example does not mean that all of multiple types (three types) of composite variables such as logical sum (OR), logical product (AND), arithmetic sum, etc. are used, but one type of composite variable is selected and used. It is described with the intention that it should be done. Multiple types of combined variables may be included in the matching feature data.
そして、各ニーズフラグにより合成変数を作成する場合は、対応するニーズフラグ同士ではなく、異なる種類のニーズフラグに跨って、合成変数を作成してもよい。例えば、ニーズフラグの中に、(1)売ります、(2)買います、のように内容的に関連するニーズフラグがある場合に、(1)および(2)のニーズフラグを用いて、上述した論理和(OR)等による合成変数を作成してもよい。 When creating a combined variable for each need flag, the combined variable may be created across different types of need flags instead of between corresponding need flags. For example, if there are needs flags that are related in terms of content, such as (1) sell, (2) buy, among the need flags, using the need flags (1) and (2), the above A composite variable may be created by a logical sum (OR) or the like.
また、図7(C)に示すように、年商により合成変数を作成する場合は、双方の年商の比の値等を採用することができる。比の値による合成変数M(XY)とする場合、希望者Xの年商をS(X)、希望者Yの年商をS(Y)とすると、方向性を持たせて、M(XY)=S(X)/S(Y)、あるいは、M(XY)=S(Y)/S(X)としてもよい。また、方向性を無くすため、M(XY)=S(X)/S(Y)またはS(Y)/S(X)のうちの大きい方の値、あるいは、M(XY)=S(X)/S(Y)またはS(Y)/S(X)のうちの小さい方の値としてもよい。方向性を持たせた場合には、M(XY)とM(YX)とが異なる値となる。 Also, as shown in FIG. 7(C), when creating a combined variable based on annual sales, a ratio of both annual sales can be used. In the case of a composite variable M(XY) based on the value of the ratio, let the annual sales of applicant X be S(X) and the annual sales of applicant Y be S(Y). )=S(X)/S(Y), or M(XY)=S(Y)/S(X). In order to eliminate directionality, the larger value of M(XY)=S(X)/S(Y) or S(Y)/S(X), or M(XY)=S(X )/S(Y) or S(Y)/S(X), whichever is smaller. If directionality is given, M(XY) and M(YX) will have different values.
さらに、図7での図示は省略されているが、文書長により合成変数を作成する場合は、双方の文書長の比の値等を採用することができる。比の値による合成変数とする場合、方向性を待たせてもよく、方向性を無くしてもよいのは、上述した年商の場合と同様である。 Furthermore, although not shown in FIG. 7, when creating a combined variable based on the document lengths, a ratio of both document lengths can be used. In the case of a composite variable based on a ratio value, the directionality may be waited or may be eliminated, as in the case of the annual sales described above.
単語重要度ベクトル(例えばTFIDFベクトル等)については、対象案件Xの単語重要度ベクトルと、候補案件Yの単語重要度ベクトルとの内積をとる。内積であるから、方向性はない。 As for the word importance vector (such as the TFIDF vector), the inner product of the word importance vector of the target case X and the word importance vector of the candidate case Y is obtained. Since it is an inner product, it has no directionality.
また、本実施形態では、マッチング用の固有テキストデータは、結合テキストデータとしているが、結合していない自己データおよびニーズデータを固有テキストデータとしてもよく、この場合には、対象案件Xに、自己データについてのトピック分布π1(X)と、ニーズデータについてのトピック分布π2(X)とがあり、候補案件Yにも、自己データについてのトピック分布π1(Y)と、ニーズデータについてのπ2(Y)とがある。 In this embodiment, the unique text data for matching is combined text data, but the uncombined self data and needs data may be used as unique text data. There are topic distribution π1(X) about data and topic distribution π2(X) about needs data. ).
この際、トピック分布の積からなる合成変数を求めるには、対象案件Xの自己データと、候補案件Yのニーズデータとを組み合わせてλ1(XY)=π1(X)*π2(Y)とするとともに、候補案件Yの自己データと、対象案件Xのニーズデータとを組み合わせてλ2(XY)=π1(Y)*π2(X)とすることができる。「*」がベクトルの内積ではなく、ベクトルの対応する要素同士の積を意味するのは、前述した通りである。同様に、トピック分布の差の絶対値からなる合成変数は、μ1(XY)=|π1(X)-π2(Y)|、μ2(XY)=|π1(Y)-π2(X)|とすることができる。従って、4つの合成変数λ1(XY)、λ2(XY)、μ1(XY)、μ2(XY)をマッチング用特徴データに含めることができる。なお、合成変数を使用しない場合は、4つのトピック分布π1(X)、π2(X)、π1(Y)、π2(Y)をそのままマッチング用特徴データに含めることになる。 At this time, in order to obtain a composite variable consisting of the product of topic distributions, the self-data of the target project X and the needs data of the candidate project Y are combined to give λ1(XY)=π1(X)*π2(Y). In addition, it is possible to combine the self-data of candidate project Y and the needs data of target project X to obtain λ2(XY)=π1(Y)*π2(X). As described above, "*" means the product of corresponding elements of vectors, not the inner product of vectors. Similarly, composite variables consisting of the absolute values of differences in topic distributions are μ1(XY)=|π1(X)−π2(Y)|, μ2(XY)=|π1(Y)−π2(X)| can do. Therefore, the four composite variables λ1(XY), λ2(XY), μ1(XY), μ2(XY) can be included in the matching feature data. Note that when no composite variable is used, the four topic distributions π1(X), π2(X), π1(Y), and π2(Y) are directly included in the matching feature data.
また、求めた2つの合成変数λ1(XY)とλ2(XY)とを用いて、これらのベクトルの対応する要素同士の平均値からなるλave(XY)という1つの合成変数を求める2段階合成を行ってもよい。同様に、2つの合成変数μ1(XY)とμ2(XY)とを用いて、これらのベクトルの対応する要素同士の平均値からなるμave(XY)という1つの合成変数を求める2段階合成を行ってもよい。このように2段階合成を行った場合には、2つの合成変数λave(XY)、μave(XY)をマッチング用特徴データに含めることになる。 Also, by using the obtained two synthesized variables λ1(XY) and λ2(XY), two-step synthesis is performed to find one synthesized variable λave(XY) consisting of the average value of the corresponding elements of these vectors. you can go Similarly, using two synthesized variables μ1(XY) and μ2(XY), two-step synthesis is performed to find one synthesized variable μave(XY) consisting of the average values of corresponding elements of these vectors. may When two-step synthesis is performed in this manner, the two synthesis variables λave(XY) and μave(XY) are included in the matching feature data.
さらに、マッチング用特徴データ作成手段42Aにより、対象案件Xと候補案件Yとの1つのペア案件について、π1(X)およびπ2(Y)を含むか、またはこれらの合成変数λ1(XY)およびμ1(XY)を含む第1のマッチング用特徴データと、π1(Y)およびπ2(X)を含むか、またはこれらの合成変数λ2(XY)およびμ2(XY)を含む第2のマッチング用特徴データを作成し、これらの第1、第2のマッチング用特徴データを別々に、マッチングスコア算出手段42Bおよびマッチングモデル記憶手段60からなる識別器に入力することにより、第1、第2のマッチングスコアを算出し、その後、これらの第1、第2のマッチングスコアの平均値等を算出して統合後のマッチングスコアを算出してもよい。
Further, the matching feature
このような統合後のマッチングスコアを算出する構成とする場合には、マッチング学習用データ準備手段38により、案件番号Xと案件番号Yとの1つのペアから、2つのマッチング学習用データである第1、第2のマッチング用特徴データを作成する。すなわち、図9において、選定実績のある1つのペア案件から、「1(選定)」というタグが付された2つのマッチング用特徴データを作成し、選定実績のない1つのペア案件から、「0(非選定)」というタグが付された2つのマッチング用特徴データを作成するという準備処理を、全てのペア案件について行い、マッチングモデル学習手段39による学習処理を実行してマッチングモデルを構築する。 In the case of calculating the matching score after such integration, the matching learning data preparation means 38 selects two pieces of matching learning data from one pair of the case number X and the case number Y. 1. Create second matching feature data. That is, in FIG. 9, two pieces of matching feature data tagged with "1 (selected)" are created from one pair case that has been selected, and two matching feature data are created from one pair case that has not been selected. (Non-selected)” is prepared for all pair cases, and the matching model learning means 39 executes the learning process to construct the matching model.
(処理手段30/マッチング手段42/マッチングスコア算出手段42Bの構成)
マッチングスコア算出手段42Bは、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段60に記憶されたマッチングモデルを用いて、「教師あり分類モデル」による分類処理(分類アルゴリズム)を実行するものであり、マッチングモデル記憶手段60とともに、マッチング用の識別器を構成する。この識別器への入力は、マッチング用特徴データ作成手段42Aにより作成したマッチング用特徴データであり、識別器からの出力は、対象案件と候補案件とからなるペア案件が選定される確度(つまり、対象案件に対して候補案件が選定される確度)を示すスコア(マッチングスコア)である。このスコアは、候補案件毎(対象案件と候補案件とからなるペア案件毎)に出力される。スコアは、例えば、尤度で出力する場合には、0~1の範囲の値で出力され、スコアが1に近い程、マッチング相手として相応しい候補案件であることを示している。
(Configuration of
The matching score calculation means 42B performs classification processing (classification algorithm) by a "supervised classification model" using a matching model that has been pre-learned and stored in the matching model storage means 60 in two-class classification based on whether or not it is selected. and constitutes a classifier for matching together with the matching model storage means 60 . The input to this discriminator is the matching feature data created by the matching feature data creating means 42A, and the output from the discriminator is the probability of selecting a pair of cases consisting of a target case and a candidate case (that is, It is a score (matching score) that indicates the probability that a candidate project is selected for a target project. This score is output for each candidate case (each paired case consisting of a target case and a candidate case). For example, when the score is output in terms of likelihood, a value in the range of 0 to 1 is output.
ここで、「教師あり分類モデル」の「モデル」は、アルゴリズムおよびパラメータを含む概念であり、マッチングモデル記憶手段60に記憶されたマッチングモデルの「モデル」は、学習で得られたパラメータ(学習結果データ)だけの概念である。 Here, the "model" of the "supervised classification model" is a concept including an algorithm and parameters, and the "model" of the matching model stored in the matching model storage means 60 is the parameter obtained by learning (learning result data) only.
また、「教師あり分類モデル」は、選定されるか否かの2クラス分類による機械学習を行うことができる手法であれば、いずれの機械学習手法でもよい。例えば、SGD分類器(SGD Classifier:Stochastic Gradient Descent Classifier)、K近傍法分類器(K-Neighbors Classifier)、単純ベイズ分類器(Naive Bayes Classifier)、サポート・ベクター・マシン分類器(SVC:Support Vector Classifier)、ランダム・フォレスト分類器(Random Forest Classifier)、多層パーセプトロン分類器(MLP Classifier:Multi Layer Perceptron Classifier)、ニューラル・ネットワーク等を採用することができる。本実施形態では、ランダム・フォレスト分類器を採用している。 In addition, the “classification model with supervision” may be any machine learning method as long as it is a method capable of performing machine learning based on two-class classification of whether or not to be selected. For example, SGD classifier (SGD Classifier: Stochastic Gradient Descent Classifier), K-neighbors classifier (K-Neighbors Classifier), naive Bayes classifier (Naive Bayes Classifier), support vector machine classifier (SVC: Support Vector Classifier ), Random Forest Classifier, Multi Layer Perceptron Classifier (MLP Classifier), Neural Network, etc. can be employed. This embodiment employs a random forest classifier.
なお、マッチングスコア算出手段42Bとマッチングモデル記憶手段60とにより構成される識別器は、同じ入力データ(マッチング用特徴データ)を、上記のような複数種類の分類器へ入力し、それぞれから出力されるスコアの平均値等を算出して統合スコアを出力する構成としてもよく、また、統合の際に重み付けをしてもよい(それぞれの分類器から出力されるスコアの加重平均値等を統合スコアとしてもよい)。 Note that the classifier configured by the matching score calculation means 42B and the matching model storage means 60 inputs the same input data (matching feature data) to a plurality of types of classifiers as described above, and outputs from each classifier. The integrated score may be output by calculating the average value of the scores output from each classifier, or weighting may be performed during the integration (the integrated score ).
また、マッチングスコア算出手段42Bは、対象案件と各候補案件(対象案件以外の全ての案件)との間のスコア(マッチングスコア)を算出した後、算出したスコアの高い順で推薦案件を決定し、案件データ記憶手段54から、決定した推薦案件の案件データを取得する。この際、スコアが予め定められた数の上位の案件を推薦案件として選択決定してもよく、スコアに対する閾値を設けて推薦案件を決定してもよい。 Also, the matching score calculation means 42B calculates the score (matching score) between the target case and each candidate case (all cases other than the target case), and then determines the recommended cases in descending order of the calculated score. , the item data of the determined recommended item is acquired from the item data storage means 54 . At this time, it is possible to select and determine the proposals with the highest score of a predetermined number as the recommended proposals, or to determine the recommended proposals by setting a threshold for the score.
(処理手段30/類似案件検索手段43の構成)
類似案件検索手段43は、案件類似度算出手段43Aと、類似案件抽出手段43Bとを含んで構成されている。
(Configuration of
The similar case search means 43 includes a case similarity degree calculation means 43A and a similar case extraction means 43B.
案件類似度算出手段43Aは、案件データ記憶手段54に記憶されている各案件の類似案件検索用の固有テキストデータ(本実施形態では、結合していない自己データおよびニーズデータ)を用いて、案件間の類似度を示す案件類似度(本実施形態体では、PRスコアおよびニーズスコア)を算出し、算出した案件類似度を、案件識別情報(案件番号)のペアと関連付けて案件類似度記憶手段68に記憶させる処理を実行するものである。より詳細な内容は、後述する。 The case similarity calculation means 43A uses the unique text data (self data and needs data that are not combined in this embodiment) for searching for similar cases of each case stored in the case data storage means 54 to calculate the case A project similarity (PR score and needs score in this embodiment) indicating the degree of similarity between 68 to store the data. More detailed contents will be described later.
類似案件抽出手段43Bは、入力受付手段40により案件識別情報(案件番号)の入力を受け付けた場合に、案件類似度算出手段43Aにより算出されて案件類似度記憶手段68に記憶されている案件類似度を用いて、入力された対象案件に対する類似案件を抽出する処理を実行するものである。より詳細な内容は、後述する。
When the
(処理手段30/類似案件検索手段43/案件類似度算出手段43Aの構成:図2、図10)
案件類似度算出手段43Aは、図2に示すように、案件データ記憶手段54に記憶されている固有テキストデータに含まれる全ての単語(単語1,単語2,単語3,単語4,単語5,…)に対応する単語ベクトルを分散表現モデル記憶手段53から取得し、ある1つの案件に含まれる全ての単語の単語ベクトルの平均ベクトル(各単語ベクトルの対応する要素同士の平均値からなるベクトル)を算出し、これを当該案件の文章ベクトルとして案件識別情報(案件番号)と関連付けて文章ベクトル記憶手段67に記憶させる処理を実行する。
(Configuration of processing means 30/similar case search means 43/case similarity degree calculation means 43A: FIGS. 2 and 10)
As shown in FIG. 2, the case similarity calculation means 43A calculates all the words (
この際、当該案件の固有テキストデータの中に、同じ単語が複数回出現しても、それらは別の単語として捉え、同じ単語ベクトルを出現回数分だけ用意し、平均値を算出する。例えば、単語1と単語4とが同じ単語であっても、単語1の単語ベクトルと、単語4の単語ベクトルとをそれぞれ用意し、平均値を算出する。そして、この処理を、全ての案件について実行する。
At this time, even if the same word appears multiple times in the specific text data of the item, it is regarded as a different word, and the same word vector is prepared for the number of occurrences, and the average value is calculated. For example, even if
本実施形態では、類似案件検索用の固有テキストデータとして、非結合状態の自己データ、ニーズデータを使用するので、1つの案件につき、2つの文章ベクトルが作成され、文章ベクトル記憶手段67に記憶されるが、結合テキストデータを使用して、1つの案件につき、1つの文章ベクトルを作成してもよい。また、図10に示すように、自己データは、自己業種を含めずに自己PRだけとしているが、自己業種を含めてもよい。ニーズデータは、ニーズ詳細だけとしているが、希望業種(相手企業の業種)を含めてもよい。 In the present embodiment, as unique text data for retrieving similar projects, unbound self data and needs data are used, so two sentence vectors are created for each project and stored in the sentence vector storage means 67. However, the combined text data may be used to create one sentence vector per issue. Also, as shown in FIG. 10, the self-data does not include the self-industry but only the self-PR, but the self-industry may be included. Needs data includes only detailed needs, but may include the desired industry (the industry of the partner company).
また、案件類似度算出手段43Aは、図2および図10に示すように、文章ベクトル記憶手段67に記憶させた各案件の文章ベクトルを用いて、任意のペア案件X,Y(任意の2つの案件番号X,Yの組合せ)の文章ベクトル間の類似度Sword2vec(本実施形態では、コサイン類似度)を算出する。任意のペア案件X,Yは、全ての案件(本実施形態のビジネスマッチングでは、登録企業数に相当し、例えば、n=約10万社等)についての組合せ(n個の中から2個を選ぶ組合せ)である。本実施形態では、1つの案件につき、自己データとニーズデータとについての2つの文章ベクトルが作成されているので、それぞれについて文章ベクトル間の類似度Sword2vecを算出する。なお、本実施形態では、分散表現としてword2vecを採用しているため、添え字にその用語を用いているが、分散表現モデル学習手段32の説明で既に詳述している通り、分散表現はword2vecに限定されるものではない。 2 and 10, the case similarity calculation means 43A uses the sentence vectors of each case stored in the sentence vector storage means 67 to obtain any pair of cases X and Y (any two The similarity Sword2vec (cosine similarity in this embodiment) between the text vectors of the case numbers X and Y) is calculated. Arbitrary pair projects X and Y are combinations (two out of n combination to choose). In the present embodiment, two sentence vectors are created for one case, one for the self data and the other for the needs data, so the similarity Sword2vec between the sentence vectors is calculated for each case. In this embodiment, word2vec is used as the distributed representation, so the term is used for the suffix. is not limited to
さらに、案件類似度算出手段43Aは、図10に示すように、単語重要度ベクトル記憶手段57に記憶されている単語重要度ベクトル(TFIDFベクトル等)を用いて、任意のペア案件X,Y(任意の2つの案件番号X,Yの組合せ)の単語重要度ベクトル間の類似度Stf-idf(本実施形態では、コサイン類似度)を算出する。本実施形態では、単語重要度ベクトル記憶手段57には、類似案件検索用の単語重要度ベクトルとして、自己データとニーズデータとにおける2つの単語重要度ベクトルが記憶されているので、それぞれについて単語重要度ベクトル間の類似度Stf-idfを算出する。 Furthermore, as shown in FIG. 10, the case similarity calculation means 43A uses the word importance vectors (such as the TFIDF vector) stored in the word importance vector storage means 57 to calculate any pair cases X, Y ( A similarity Stf-idf (a cosine similarity in this embodiment) between word importance vectors of two arbitrary case numbers X and Y) is calculated. In this embodiment, the word importance vector storage means 57 stores two word importance vectors for self data and needs data as word importance vectors for searching for similar cases. A similarity Stf-idf between degree vectors is calculated.
また、案件類似度算出手段43Aは、図10に示すように、トピックモデル記憶手段56に記憶されているトピック分布π(i)(K次元の縦ベクトル、Kはトピック数、iは案件番号)を用いて、任意のペア案件X,Y(任意の2つの案件番号X,Yの組合せ)のトピック分布ベクトル間の類似度Stopic(本実施形態では、コサイン類似度)を算出する。本実施形態では、トピックモデル記憶手段56には、類似案件検索用のトピック分布ベクトルとして、自己データとニーズデータとにおける2つのトピック分布ベクトルが記憶されているので、それぞれについてトピック分布ベクトル間の類似度Stopicを算出する。この際、本実施形態では、ニーズデータにおけるトピック分布ベクトルについては、図10に示すように、案件データ記憶手段54に記憶されたニーズフラグの集合からなるニーズベクトルと結合し、トピック分布ベクトル間(ニーズベクトルとの結合ベクトル間)の類似度Stopicを算出する。 10, the item similarity calculation means 43A calculates the topic distribution π(i) (K-dimensional vertical vector, K is the number of topics, and i is the number of items) stored in the topic model storage means 56, as shown in FIG. is used to calculate the similarity Stopic (cosine similarity in this embodiment) between the topic distribution vectors of an arbitrary pair of cases X and Y (a combination of two arbitrary cases numbers X and Y). In this embodiment, the topic model storage means 56 stores two topic distribution vectors for self-data and needs data as topic distribution vectors for searching for similar projects. Calculate the degree Stopic. At this time, in this embodiment, as shown in FIG. 10, the topic distribution vector in the needs data is combined with the needs vector consisting of a set of needs flags stored in the item data storage means 54, and the topic distribution vectors ( The similarity Stopic between the combination vector with the needs vector) is calculated.
さらに、案件類似度算出手段43Aは、図10に示すように、単語重要度ベクトル間の類似度Stf-idf、文章ベクトル間の類似度Sword2vec、トピック分布ベクトル間の類似度Stopic、およびこれらの重み係数であるWtf-idf、Wword2vec、Wtopicを用いて、次の式(4)により、任意のペア案件X,Y(任意の2つの案件番号X,Yの組合せ)の案件類似度を算出し、算出した案件類似度を、ペア案件X,Yの案件識別情報(案件番号X,Y)と関連付けて案件類似度記憶手段68に記憶させる処理を実行するものである。本実施形態では、案件類似度として、自己データを用いたPRスコアと、ニーズデータを用いたニーズスコアとを算出する。Wtf-idf、Wword2vec、Wtopicは、設定データとして設定データ記憶手段51に記憶されているが、固定値としてもよい。 Furthermore, as shown in FIG. 10, the case similarity calculation means 43A calculates the similarity Stf-idf between word importance vectors, the similarity Sword2vec between sentence vectors, the similarity Stopic between topic distribution vectors, and their weights. Using the coefficients Wtf-idf, Wword2vec, and Wtopic, calculate the case similarity of an arbitrary pair case X and Y (a combination of any two case numbers X and Y) according to the following formula (4), The calculated case similarity is associated with the case identification information (case numbers X, Y) of pair cases X, Y and stored in the case similarity storage means 68 . In this embodiment, a PR score using self-data and a needs score using needs data are calculated as the project similarity. Wtf-idf, Wword2vec, and Wtopic are stored in the setting data storage means 51 as setting data, but may be fixed values.
案件類似度(PRスコア、ニーズスコア)
=Stf-idf×Wtf-idf+Sword2vec×Wword2vec+Stopic×Wtopic ・・(4)
Proposal similarity (PR score, needs score)
=Stf-idf×Wtf-idf+Sword2vec×Wword2vec+Stopic×Wtopic (4)
この案件類似度算出手段43Aによる処理は、事前処理(図14参照)の段階で実行される。また、新規案件の登録時(図23参照)に、新規案件登録手段45からの指示を受けて、トピックモデル等の更新前における新規案件の即時反映処理として、新規案件と既存の全ての案件(新規案件以外の全ての案件)との間で実行される。さらに、トピックモデルの更新等の時期が到来した場合(図16参照)にも実行されるが、上記の新規案件の即時反映処理で実行されている処理については、繰り返し実行する必要はない。 The processing by the case similarity calculation means 43A is executed at the stage of pre-processing (see FIG. 14). Also, when registering a new matter (see FIG. 23), upon receiving an instruction from the new matter registration means 45, the new matter and all existing matters ( all projects other than new projects). Furthermore, it is also executed when the time for updating the topic model comes (see FIG. 16), but it is not necessary to repeatedly execute the processing that is executed in the instant reflection processing of the new item.
(処理手段30/類似案件検索手段43/類似案件抽出手段43Bの構成)
類似案件抽出手段43Bは、運用時(ユーザによる検索中)において、入力受付手段40により案件識別情報(案件番号)の入力を受け付けた場合に、案件類似度記憶手段68から、入力を受け付けた案件番号と、その案件番号以外の全ての案件番号との組合せ(ペア案件の案件番号の組合せ)に関連付けられて記憶されている案件類似度を取得し、案件類似度が高い順で、対象案件(入力を受け付けた案件番号の案件)に対する類似案件を抽出し、案件データ記憶手段54から、抽出した類似案件の案件データを取得する処理を実行する。この際、案件類似度が予め定められた数の上位の案件を類似案件として抽出してもよく、案件類似度に対する閾値を設けて類似案件を抽出してもよい。
(Configuration of
During operation (during a search by the user), the similar case extraction means 43B receives the input of case identification information (case number) from the case similarity storage means 68 when the input reception means 40 receives an input of case identification information (case number). Acquire the memorized matter similarity associated with the combination of the matter number and all matter numbers other than the matter number (combination of the matter numbers of the paired matter). Similar cases are extracted for the case of the accepted case number), and the case data of the extracted similar case is acquired from the case data storage means 54 . At this time, cases with a predetermined number of higher order similarities may be extracted as similar cases, or similar cases may be extracted by setting a threshold value for the case similarity.
また、本実施形態では、案件類似度記憶手段68には、案件類似度として、PRスコアと、ニーズスコアとが記憶されているので、PRスコアとニーズスコアとの平均値または加重平均値等を算出して統合スコアを求め、統合スコアにより類似案件の抽出を行ってもよく、PRスコア、ニーズスコアのうちユーザ(サービス担当者またはマッチング依頼者)が選択したスコアにより類似案件の抽出を行ってもよい。なお、統合スコアは、単純平均、加重平均、調和平均、加重調和平均、相乗平均等の各種の方法で求めることができ、加重平均や加重調和平均とする場合の重みは、設定データとして設定データ記憶手段51に記憶してもよく、固定値としてもよい。 In this embodiment, since the PR score and the needs score are stored as the project similarity in the project similarity storage means 68, the average value or weighted average value of the PR score and the needs score is calculated. It is also possible to calculate an integrated score and extract similar projects based on the integrated score. good too. The integrated score can be obtained by various methods such as simple average, weighted average, harmonic average, weighted harmonic average, and geometric average. It may be stored in the storage means 51 or may be a fixed value.
また、PRスコア、ニーズスコアのうち、高い値のほうを選択し、または低い値のほうを選択し、選択したスコアの値に基づき、類似案件の抽出を行ってもよい。 Further, a higher value or a lower value may be selected from the PR score and the needs score, and similar projects may be extracted based on the selected score value.
(処理手段30/出力手段44の構成)
出力手段44は、入力受付手段40によりキーワードの入力を受け付けた場合には、表示手段80において、連想検索手段41により決定した関連案件の案件データ、または、関連案件に加えて関連単語を、入力受付手段40によるキーワードまたは案件識別情報(案件番号)の入力部110と同一の画面(図12の画面200参照)上に表示し、入力受付手段40により案件識別情報(案件番号)の入力を受け付けた場合には、マッチング手段42により算出したスコア(マッチングスコア)の高い候補案件の案件データを、推薦案件の案件データとして入力部110と同一の画面(図13の画面300参照)上に表示するとともに、類似案件検索手段43により案件類似度(本実施形態では、PRスコア、ニーズスコア)を用いて抽出した類似案件の案件データを、入力部110と同一の画面(図13の画面300参照)上に表示する処理を実行するものである。
(Configuration of processing means 30/output means 44)
When the input receiving means 40 receives the input of the keyword, the output means 44 inputs the project data of the related project decided by the associative search means 41 or the related word in addition to the related project on the display means 80. Displayed on the same screen (see
また、出力手段44は、連想検索手段41、マッチング手段42、類似案件検索手段43による処理結果を出力した画面(図12の画面200、図13の画面300参照)上に表示された関連案件、推薦案件、類似案件の中から、ユーザ(サービス担当者または新規案件の登録を行う顧客)が新規案件登録時の参考案件とするために選択した1つまたは複数の案件について、それらの案件識別情報(案件番号)のメモ入力(図示は省略)を受け付け、受け付けた参考案件の案件識別情報(案件番号)を登録時参考案件記憶手段69に記憶させる構成とされている。
In addition, the
(処理手段30/新規案件登録手段45の構成)
新規案件登録手段45は、ユーザ(新規案件の登録を行う顧客、またはその入力を代行するサービス担当者)の操作による入力手段90からの新規案件の案件データの登録のための入力を受け付け、この新規案件についての案件識別情報(案件番号)を自動付与し、受け付けた案件データを、付与した案件識別情報(案件番号)と関連付けて案件データ記憶手段54に記憶させる処理を実行するものである。案件データの内容は、案件データ準備手段33の説明で既に詳述している通りである。
(Configuration of processing means 30/new matter registration means 45)
The new item registration means 45 accepts an input for registering item data of a new item from the
この際、新規案件登録手段45は、登録時参考案件記憶手段69に記憶されている参考案件の案件識別情報(案件番号)を取得し、取得した参考案件の案件識別情報を用いて、案件データ記憶手段54から、参考案件の案件データを取得し、表示手段80において新規案件登録画面(不図示)上に表示する。ユーザは、その表示を見ながら、新規案件(自己の案件)の案件データの登録のための入力作業を行う。また、登録時参考案件記憶手段69に参考案件の案件識別情報(案件番号)が記憶されていなくても、ユーザが参考案件の案件番号を覚えているか、または紙にメモしている場合には、その案件番号を入力すれば、新規案件登録手段45により受け付けられ、案件データ記憶手段54から、参考案件の案件データが取得され、新規案件登録画面(不図示)上に表示される。
At this time, the new
また、新規案件登録手段45は、新規案件の案件データが登録された後に、案件データ記憶手段54に記憶された新規案件の案件データを用いて、新規案件の即時反映処理(図23参照)を実行する。具体的には、固有テキストデータ準備手段34に指示を出し、新規案件の固有テキストデータ(マッチング用および連想検索用の結合テキストデータ、および類似案件検索用の非結合の自己データ、ニーズデータ)を準備する処理([α]~[δ]の処理、図5、図6、図10参照)を実行し、処理後の固有テキストデータを、新規案件の案件識別情報(案件番号)と関連付けて案件データ記憶手段54に記憶させる。 Further, after the new case data is registered, the new case registration means 45 uses the case data of the new case stored in the case data storage means 54 to perform immediate reflection processing of the new case (see FIG. 23). Run. Specifically, an instruction is issued to the unique text data preparation means 34 to prepare the unique text data of the new item (combined text data for matching and associative search, and uncombined self data and needs data for similar item retrieval). Execute the processing to be prepared (processing [α] to [δ], see FIGS. 5, 6, and 10), and associate the post-processing specific text data with the matter identification information (case number) of the new matter to create the matter. Store in the data storage means 54 .
さらに、新規案件登録手段45は、単語重要度ベクトル算出手段37に指示を出し、固有テキストデータ準備手段34により作成されて案件データ記憶手段54に記憶されている新規案件の固有テキストデータ(マッチング用および連想検索用の結合テキストデータ、および類似案件検索用の非結合の自己データ、ニーズデータ)についての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを算出し、得られた単語重要度ベクトルを、新規案件の案件識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段57に記憶させる。この際、単語重要度ベクトルをTFIDF値とする場合には、TF値は、新規案件の固有テキストデータだけで算出することができるが、IDF値の算出には、全ての案件の固有テキストデータが必要となるので、厳密に言えば、新規案件以外の既存の案件のTFIDF値も、若干、値が変化することになる。しかし、既存の案件のTFIDF値は、変更せずにそのままとし、新規案件のTFIDF値だけを算出し、追加記憶してもよい。 Furthermore, the new case registration means 45 instructs the word importance vector calculation means 37 to instruct the new case specific text data (for matching purposes) created by the specific text data preparation means 34 and stored in the case data storage means 54. and combined text data for associative search, and non-combined self data and needs data for similar item search), calculate and obtain a word importance vector consisting of the TFIDF value or other word importance index value of each word The obtained word importance vector is stored in the word importance vector storage means 57 in association with the case identification information (case number) of the new case. At this time, when the word importance vector is set to the TFIDF value, the TF value can be calculated only with the unique text data of the new project, but the calculation of the IDF value requires the unique text data of all the projects. Since it is necessary, strictly speaking, the TFIDF values of the existing projects other than the new projects will also change slightly. However, the TFIDF value of the existing project may be left unchanged, and only the TFIDF value of the new project may be calculated and additionally stored.
また、新規案件登録手段45は、トピック値予測手段36に指示を出し、新規案件の処理後の固有テキストデータ(マッチング用および連想検索用の結合テキストデータ、および類似案件検索用の非結合の自己データ、ニーズデータ)と、トピックモデル記憶手段56に記憶されている各トピックにおける各単語の出現確率(K行p列の行列β)(更新前のトピックモデルの行列β)とを用いて、新規案件の固有テキストデータにおける各トピックの出現確率を示すトピック値(K次元の縦ベクトルπ(i)で表されるトピック分布)を予測し、予測した新規案件のπ(i)を、更新前における仮の値としてトピックモデル記憶手段56に記憶させる。 In addition, the new item registration means 45 issues an instruction to the topic value prediction means 36 so that the unique text data after the processing of the new item (combined text data for matching and associative search, and non-combined self text data for similar item search). data, needs data) and the probability of appearance of each word in each topic (matrix β of K rows and p columns) (matrix β of the topic model before update) in each topic stored in the topic model storage means 56, to create a new Predict the topic value (topic distribution represented by the K-dimensional vertical vector π(i)) that indicates the appearance probability of each topic in the item-specific text data, and predict π(i) of the new item before updating. It is stored in the topic model storage means 56 as a temporary value.
さらに、新規案件登録手段45は、案件類似度算出手段43Aに指示を出し、新規案件の文章ベクトルを作成し、文章ベクトル記憶手段67に記憶させ、さらに、新規案件と既存の全ての案件との間の案件類似度(本実施形態では、PRスコア、ニーズスコア)を算出し、算出した案件類似度を、新規案件と既存の各案件とからなる各ペア案件の案件識別情報(案件番号)と関連付けて案件類似度記憶手段68に記憶させる。 Furthermore, the new case registration means 45 issues an instruction to the case similarity calculation means 43A to create a sentence vector of the new case, store it in the sentence vector storage means 67, and furthermore, add a new case and all the existing cases. The calculated project similarity (PR score, needs score in this embodiment) is calculated, and the calculated project similarity is used as the project identification information (project number) of each pair of projects consisting of a new project and each existing project. The item similarity storage means 68 stores the items in association with each other.
なお、新規案件登録手段45は、案件データの修正も受け付ける。軽微な修正の場合は、案件識別情報(案件番号)を維持して内容の修正入力を受け付けるが、大幅な修正の場合は、新たな案件識別情報(案件番号)を付与し、新規案件と同様な取り扱いとする。
The new
<記憶手段50の構成>
<Structure of
設定データ記憶手段51は、設定手段31により入力を受け付けたシステム管理者またはユーザ(サービス担当者)による各種の設定データを記憶するものである。この設定データの詳細は、設定手段31の説明で既に詳述している通りである。 The setting data storage means 51 stores various setting data by the system administrator or the user (person in charge of service) whose input is received by the setting means 31 . The details of this setting data are as already explained in detail in the explanation of the setting means 31 .
分散表現モデル学習用データ記憶手段52は、分散表現モデル学習用のテキストデータを記憶するものである。この分散表現モデル学習用のテキストデータの詳細は、分散表現モデル学習手段32の説明で既に詳述している通りである。 The distributed representation model learning data storage means 52 stores text data for distributed representation model learning. The details of the text data for learning the distributed representation model have already been described in the description of the distributed representation model learning means 32 .
分散表現モデル記憶手段53は、図2に示すように、分散表現モデル学習手段32による学習処理で得られた学習結果データとしての分散表現モデルを記憶するものである。この分散表現モデルは、本実施形態では、単語の分散表現としての高次元の単語ベクトルの集合である重み行列Wであり、ディメンジョンの異なる3種類のW1,W2,W3が用意されている。 As shown in FIG. 2, the distributed representation model storage means 53 stores the distributed representation model as learning result data obtained by the learning process by the distributed representation model learning means 32 . In this embodiment, this distributed representation model is a weight matrix W that is a set of high-dimensional word vectors as a distributed representation of words, and three types of W1, W2, and W3 with different dimensions are prepared.
案件データ記憶手段54は、各案件の案件データを、案件識別情報(案件番号)と関連付けて記憶するものである。この案件データの詳細は、案件データ準備手段33の説明で既に詳述している通りである。 The case data storage means 54 stores the case data of each case in association with case identification information (case number). The details of this case data are as already explained in detail in the explanation of the case data preparation means 33 .
不要語辞書記憶手段55は、固有テキストデータ準備手段34による[δ]の処理で用いる不要語(ノイズ単語)を記憶するものである。この不要語の詳細は、固有テキストデータ準備手段34の説明で既に詳述している通りである。 The unnecessary word dictionary storage means 55 stores unnecessary words (noise words) used in processing [δ] by the unique text data preparation means 34 . The details of this unnecessary word have already been explained in detail in the description of the unique text data preparation means 34 .
トピックモデル記憶手段56は、トピック推定手段35によるトピック推定処理で得られたトピックモデルとして、図18、図19に示すπ(i)(案件番号iの各案件の固有テキストデータにおける各トピックの出現確率を示すトピック値からなる縦ベクトル)およびβ(各トピックにおける各単語の出現確率からなる行列)を記憶するものである。また、新規案件登録手段45による新規案件の即時反映処理(図23参照)が実行された場合には、トピック値予測手段36による処理で得られた新規案件のπ(i)を、更新前における仮の値として記憶する。 The topic model storage means 56 stores π(i) shown in FIG. 18 and FIG. column vector consisting of topic values indicating probabilities) and β (matrix consisting of the appearance probabilities of each word in each topic). Further, when the immediate reflection processing (see FIG. 23) of the new matter by the new matter registration means 45 is executed, π(i) of the new matter obtained by the processing by the topic value prediction means 36 is Store as a temporary value.
単語重要度ベクトル記憶手段57は、単語重要度ベクトル算出手段37により算出した各案件の固有テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルを、案件識別情報(案件番号)と関連付けて記憶するものである。 The word importance vector storage means 57 stores the word importance vector composed of the TFIDF value or other word importance index value of each word in the unique text data of each case calculated by the word importance vector calculation means 37 for case identification. It is stored in association with information (issue number).
マッチング候補選定実績リスト記憶手段58は、マッチング学習用データ準備手段38による各マッチング用特徴データへの選定・非選定のタグ付け処理を行う際に使用するマッチング候補選定実績リストを記憶するものである。 The matching candidate selection result list storage means 58 stores a matching candidate selection result list used when the matching learning data preparation means 38 performs selection/non-selection tagging processing for each piece of matching feature data. .
マッチング学習用データ記憶手段59は、マッチング学習用データ準備手段38により作成したマッチング学習用データ(マッチングモデルの学習用データであり、選定・非選定のラベル(タグ)を付されたマッチング用特徴データ)を、案件識別情報(案件番号)のペアと関連付けて記憶するものである。 The matching learning data storage means 59 stores the matching learning data created by the matching learning data preparation means 38 (the data for learning of the matching model, and the matching feature data with labels (tags) indicating selection/non-selection. ) are stored in association with a pair of item identification information (item number).
マッチングモデル記憶手段60は、マッチングモデル学習手段39による学習処理で得られたマッチングモデルを記憶するものである。マッチングスコア算出手段42Bとともに、マッチング用の識別器を構成する。 The matching model storage means 60 stores the matching model obtained by the learning process by the matching model learning means 39 . Together with the matching score calculation means 42B, it constitutes a classifier for matching.
検索履歴記憶手段61は、入力受付手段40により受け付けたキーワードまたは案件識別情報(案件番号)のログ情報を記憶するものである。
The search
モデル別類似度記憶手段62は、単語類似度算出手段41Aにより算出したモデル別類似度Sを記憶するものである。 The model similarity storage means 62 stores the model similarity S calculated by the word similarity calculation means 41A.
一般類似度記憶手段63は、単語類似度算出手段41Aにより算出した一般類似度Aを記憶するものである。 The general similarity storage means 63 stores the general similarity A calculated by the word similarity calculation means 41A.
固有類似度記憶手段64は、単語類似度算出手段41Aにより算出した固有類似度Bを記憶するものである。 The unique similarity storage means 64 stores the unique similarity B calculated by the word similarity calculation means 41A.
最終類似度記憶手段65は、単語類似度算出手段41Aにより算出した最終類似度FS
を記憶するものである。
The final similarity storage means 65 stores the final similarity FS calculated by the word similarity calculation means 41A.
is stored.
関連度記憶手段66は、関連度算出手段41Bにより算出した関連度CSを、案件識別情報(案件番号)と関連付けて記憶するものである。 The degree of association storage means 66 stores the degree of association CS calculated by the degree of association calculation means 41B in association with the case identification information (case number).
文章ベクトル記憶手段67は、案件類似度算出手段43Aにより求めた文章ベクトルを、案件識別情報(案件番号)と関連付けて記憶するものである。 The text vector storage means 67 stores the text vector obtained by the case similarity calculation means 43A in association with the case identification information (case number).
案件類似度記憶手段68は、案件類似度算出手段43Aにより算出した案件類似度(PRスコア、ニーズスコア)を、ペア案件の案件識別情報(案件番号)と関連付けて記憶するものである。
The case
登録時参考案件記憶手段69は、出力手段44により受け付けたユーザが選択した新規案件登録時の参考案件の案件識別情報(案件番号)を記憶するものである。
The registration reference
<検索の流れ:図11、図12、図13> <Flow of search: Fig. 11, Fig. 12, Fig. 13>
図11において、ユーザ(サービス担当者、または、新規登録を行う顧客、若しくはマッチング相手の紹介を依頼する既登録の顧客)は、画面100の入力部110にキーワードまたは案件識別情報(案件番号)を入力する。この際、マッチング相手の紹介を依頼する顧客(既に自分の案件番号を有している顧客)またはそのサービス担当者であれば、入力部110に自分(または自分の顧客)の案件番号を入力することになるが、その場合は、画面300が表示されるため、その詳細は、図13を用いて後述する。ここでは、新規登録を行う顧客(未だ自分の案件番号を有していない顧客)またはそのサービス担当者が、自分(または自分の顧客)の情報を新規案件として登録するにあたり、自分と類似する内容(ここでは事業内容)の案件についての案件データが、どのような記述内容になっているのか、あるいは、自分と類似する内容の案件に対し、どのような記述内容の案件がマッチングで推薦されるのか等を確認するため、先ず、入力部110に、キーワード(自分の事業内容に関連する単語)を入力するものとする。
In FIG. 11, a user (a service representative, a customer who newly registers, or a registered customer who requests introduction of a matching partner) enters a keyword or project identification information (project number) in the
入力部110にキーワード(K1、例えば「お酒」)が入力されると、これが入力受付手段40により受け付けられ、図11に示すように連想検索手段41による処理が実行され、出力手段44により、図12に示す画面200が表示される。
When a keyword (K1, for example, "alcohol") is input to the
図12において、画面200には、入力部110と、検索を実行するための「Search」ボタン120と、「検索履歴」表示部130とが設けられている。なお、入力部110には、直前に入力されたキーワード(K1)が表示されたままになっている。また、「検索履歴」表示部130にも、最初に入力されたキーワード(K1)が表示される。
12, the
また、図12の画面200には、「類似キーワード」表示部210が設けられ、この表示部210には、各単語(入力されたキーワード、およびそのキーワードに関連する複数の関連単語)の表示部211が設けられ、これらの表示部211をクリックやタップ等の操作により選択すると、選択された単語(入力されたキーワード、または関連単語)が、入力部110に自動入力されるようになっている。また、各表示部211を選択操作せずに、打鍵入力によりキーワードまたは関連単語、またはその他の単語を入力部110に入力することもできる。なお、再度、同じキーワードを入力・選択入力すると、同じ処理結果が表示されることになる。
Further, the
さらに、図12の画面200には、「キーワード検索リスト」表示部220が設けられ、この表示部220には、各関連案件についての関連度CSの表示部221と、用語(当該関連案件の固有テキストデータに含まれる関連単語)の表示部と、当該関連案件(関連企業)の案件番号(案件識別情報)の表示部222と、ニーズフラグの「売り/買い」の選択情報、自社業種、取扱商品、地域名称、希望地域詳細、希望業種詳細、自己PRのテキストデータ、ニーズ詳細のテキストデータの各表示部とが設けられている。関連度CSの算出、関連案件の決定の処理、関連案件の案件番号を用いて案件データ記憶手段54から関連案件の案件データを取得する処理は、連想検索手段41により実行され、連想検索手段41から受け取った情報を表示手段80の画面上に表示する処理は、出力手段44により実行される。
Further, the
関連案件の案件番号の表示部222をクリックやタップ等の操作により選択すると、選択された関連案件の案件番号が、入力部110に自動入力されるようになっている。また、各表示部222を選択操作せずに、打鍵入力により関連案件の案件番号、またはその他の案件番号を入力部110に入力することもできる。
When a related case
そして、図12の画面200の入力部110に、関連単語の表示部211の選択操作により関連単語が新たなキーワードとして入力されるか、または、打鍵により別のキーワード(K2,K3,…)が入力されると、図11中の点線で示すように、再び、連想検索手段41による処理が実行され、出力手段44により、図12に示す画面200が表示される。一方、画面200の入力部110に、関連案件の案件番号の表示部222の選択操作により関連案件の案件番号(M1、例えば「5678」)が入力されるか、または、打鍵により案件番号(M1)が入力されると、図11中の実線で示すように、マッチング手段42および類似案件検索処理43による各処理が実行され、出力手段44により、図13に示す画面300が表示される。なお、図11中の点線の矢印は、キーワード(単語)の流れを示し、実線の矢印は、案件番号の流れを示している。
12, a related word is input as a new keyword by a selection operation on the related
図13において、画面300には、入力部110と、「Search」ボタン120と、「検索履歴」表示部130とが設けられている。なお、入力部110には、直前に入力された案件番号(M1、例えば「5678」)が表示されたままになっている。また、「検索履歴」表示部130にも、案件番号(M1)が最後に入力された情報として表示される。
In FIG. 13 ,
また、図13の画面300には、入力部110に入力された案件番号(M1)の案件を表示する「対象案件」表示部310と、対象案件の情報を表示するか否かの選択部311とが設けられている。「対象案件」表示部310には、対象案件の案件番号(案件識別情報)の表示部312と、ニーズフラグの「売り/買い」の選択情報、自社業種、取扱商品、地域名称、希望地域詳細、希望業種詳細、自己PRのテキストデータ、ニーズ詳細のテキストデータの各表示部とが設けられている。
The
さらに、図13の画面300には、「推薦案件リスト」表示部320と、マッチング処理による推薦案件の情報を表示するか否かの選択部321とが設けられている。「推薦案件リスト」表示部320には、推薦案件の案件番号(案件識別情報)の表示部322と、ニーズフラグの「売り/買い」の選択情報、自社業種、取扱商品、地域名称、希望地域詳細、希望業種詳細、自己PRのテキストデータ、ニーズ詳細のテキストデータ、スコア(マッチングスコア)の各表示部とが設けられている。マッチングスコアの算出、推薦案件の決定の処理、推薦案件の案件番号を用いて案件データ記憶手段54から推薦案件の案件データを取得する処理は、マッチング手段42により実行され、マッチング手段42から受け取った情報を表示手段80の画面上に表示する処理は、出力手段44により実行される。
Further, the
推薦案件の案件番号の表示部322をクリックやタップ等の操作により選択すると、選択された推薦案件の案件番号が、入力部110に自動入力されるようになっている。また、各表示部322を選択操作せずに、打鍵入力により推薦案件の案件番号、またはその他の案件番号を入力部110に入力することもできる。
When the case
また、図13の画面300には、「類似案件一覧」表示部330と、類似案件の情報を表示するか否かの選択部331とが設けられている。「類似案件一覧」表示部330には、類似案件の案件番号(案件識別情報)の表示部332と、ニーズフラグの「売り/買い」の選択情報、自社業種、取扱商品、地域名称、希望地域詳細、希望業種詳細、自己PRのテキストデータ、ニーズ詳細のテキストデータ、案件類似度(PRスコア、ニーズスコア)の各表示部とが設けられている。案件類似度の算出、類似案件の抽出の処理、類似案件の案件番号を用いて案件データ記憶手段54から類似案件の案件データを取得する処理は、類似案件検索処理43により実行され、類似案件検索処理43から受け取った情報を表示手段80の画面上に表示する処理は、出力手段44により実行される。
Further, the
類似案件の案件番号の表示部332をクリックやタップ等の操作により選択すると、選択された類似案件の案件番号が、入力部110に自動入力されるようになっている。また、各表示部332を選択操作せずに、打鍵入力により類似案件の案件番号、またはその他の案件番号を入力部110に入力することもできる。
When the similar case
そして、図13の画面300の入力部110に、推薦案件の案件番号の表示部322の選択操作により推薦案件の案件番号が入力されるか、類似案件の案件番号の表示部332の選択操作により類似案件の案件番号が入力されるか、または、打鍵により別の案件番号(M2,M3,…)が入力されると、図11中の実線で示すように、再び、マッチング手段42および類似案件検索処理43による各処理が実行され、出力手段44により、図13に示す画面300が表示される。一方、図13の画面300の入力部110に、キーワードが入力されると、図11中の点線で示すように、連想検索手段41による処理が実行され、出力手段44により、図12に示す画面200が表示される。
Then, in the
新規登録を行う顧客(未だ自分の案件番号を有していない顧客)またはそのサービス担当者は、以上のような検索を繰り返しながら、図12の画面200、図13の画面300を参照し、適宜、新規案件(自分の案件)の登録時の参考案件を選んでメモ入力することにより、登録時参考案件記憶手段69に記憶させておくか、または、参考案件の案件番号を覚えるか、若しくは紙にメモしておく。そして、新規案件登録手段45により画面表示された参考案件の案件データを見ながら、新規案件(自分の案件)の案件データの登録のための入力を行うと、新規案件登録手段45により、その新規案件に案件番号が自動付与され、登録処理が実行される。
A customer who newly registers (a customer who does not have his/her case number yet) or the person in charge of the service refers to the
続いて、新規案件の登録を行った後に、新規登録を行った顧客またはそのサービス担当者は、図11に示すように、付与された新規案件の案件番号(Mnew)を入力部110(画面100,200,300のいずれの状態の入力部110でもよい。)に入力し、検索を繰り返すことにより、新規案件(自分の案件)に対する推薦案件、新規案件の類似案件に対する推薦案件、新規案件に対する推薦案件の類似案件等の案件データを画面表示させる。 Subsequently, after registering the new project, the customer who made the new registration or the person in charge of the service inputs the project number (Mnew) of the new project to the input section 110 (screen 100), as shown in FIG. , 200, and 300), and by repeating the search, a recommended case for a new case (your own case), a recommended case for a similar case to the new case, and a recommended case for the new case. Display the item data such as items similar to the item on the screen.
<マッチングシステム10による処理の全体的な流れ:図14、図15> <Overall Flow of Processing by Matching System 10: FIGS. 14 and 15>
図14において、先ず、システム管理者は、作成済の多数の既存の案件データを準備し、案件識別情報(案件番号)と関連付けて案件データ記憶手段54に記憶させる(ステップS1)。運用中の既存のシステムからのデータ移行でもよい。この処理は、案件データ準備手段33により実行される。 In FIG. 14, first, the system administrator prepares a large number of existing project data that have already been created, associates them with project identification information (project number), and stores them in the project data storage means 54 (step S1). Data can be migrated from an existing system in operation. This processing is executed by the case data preparation means 33 .
次に、連想検索用の事前処理(詳細は、図17参照)を実行する(ステップS2)。続いて、マッチング用の事前処理(トピックモデル、マッチングモデルの初期モデルの構築等、図18参照)を実行する(ステップS3)。さらに、類似案件(類似企業)検索用の事前処理(詳細は、図19参照)を実行する(ステップS4)。これらのステップS2~S4の事前処理は、いずれも検索中(運用時)のリアルタイム処理でも実行することができるが、反応速度が遅くなる。 Next, preprocessing for associative search (see FIG. 17 for details) is executed (step S2). Subsequently, preprocessing for matching (construction of topic model, initial model of matching model, etc., see FIG. 18) is executed (step S3). Further, preprocessing for searching for similar items (similar companies) (see FIG. 19 for details) is executed (step S4). These pre-processing steps S2 to S4 can all be executed in real-time processing during searching (at the time of operation), but the reaction speed becomes slower.
図15において、事前処理(ステップS1~S4)の完了後に、運用段階に入ると、ユーザによる検索処理が行われる。検索処理では、先ず、入力受付手段40により、画面100の入力部110(図11参照)で、ユーザによるキーワードまたは案件番号(案件識別情報)の入力を受け付ける(ステップS5)。なお、2回目以降は(後述するステップS11からの戻りでは)、画面200,300の入力部110で入力(選択入力を含む)を受け付ける。
In FIG. 15, after the pre-processing (steps S1 to S4) is completed, when the operation stage is entered, the search processing by the user is performed. In the search process, first, the
次に、入力受付手段40により、入力部110で入力を受け付けた情報がキーワードか否かを判断し(ステップS6)、キーワードである場合には、連想検索手段41による連想検索処理(詳細は、図20参照)を実行し(ステップS7)、キーワードでない場合(すなわち、案件番号である場合)には、マッチング手段42によるマッチング処理(詳細は、図21参照)を実行するとともに(ステップS8)、類似案件検索手段43による類似案件(類似企業)検索処理(詳細は、図22参照)を実行する(ステップS9)。
Next, the input reception means 40 determines whether or not the information received by the
続いて、出力手段44により、連想検索処理の結果(図12参照)を画面表示するか、または、マッチング処理および類似案件(類似企業)検索処理の各結果(図13参照)を画面表示する(ステップS10)。そして、検索を続行する場合には(ステップS11)、前述したステップS5の処理に戻り、ユーザによるキーワードまたは案件番号(案件識別情報)の入力(選択入力を含む)を受け付ける。一方、検索を続行しない場合には、そのまま検索処理を終了するか、または、新規案件登録時の参考案件の案件番号のメモ入力がある場合には、出力手段44により、そのメモ入力を受け付けて検索処理を終了する。 Subsequently, the output means 44 displays the result of the associative search process (see FIG. 12) on the screen, or displays the results of the matching process and the similar job (similar company) search process (see FIG. 13) on the screen (see FIG. 13). step S10). Then, if the search is to be continued (step S11), the process returns to step S5 to accept input (including selection input) of a keyword or project number (project identification information) by the user. On the other hand, if the search is not to be continued, the search processing is terminated as it is, or if there is a memo input of the matter number of the reference matter at the time of registering the new matter, the memo input is accepted by the output means 44. End the search process.
それから、ユーザ(新規に案件データの登録を行う企業、またはそのサービス担当者)が、画面表示された参考案件の案件データの内容を見ながら、自分の案件データを登録するための新規案件登録処理(新規案件の登録の受付、新規案件への案件番号の付与、即時反映処理、図23参照)を実行する(ステップS12)。この処理は、新規案件登録手段45により実行される。そして、新規案件の登録を終えたユーザは、新規の案件データを含めたトピックモデルの更新等の時期の到来前に、新規案件の即時反映処理が行われている状態で、付与された新規案件の案件番号を用いた検索を行う場合は、前述したステップS5の処理に戻り、入力部110に、新規案件の案件番号を入力し、検索を繰り返す。その後、新規の案件データを含めたトピックモデルの更新等の時期が到来した場合には、次の図16の更新処理(ステップS13~S15)へ進む。
Then, the user (the company that newly registers the item data, or the person in charge of the service) looks at the item data of the reference item displayed on the screen, and performs a new item registration process for registering his or her own item data. (reception of registration of a new matter, assignment of a matter number to the new matter, immediate reflection processing, see FIG. 23) is executed (step S12). This processing is executed by the new case registration means 45 . Then, the user who has completed the registration of the new project can immediately reflect the new project before the timing of updating the topic model including the new project data. , the process returns to step S5, the case number of the new case is entered in the
図16に示すように、トピックモデルの更新等の時期は、(1)新規の案件データの登録数が、所定の数に達したとき、(2)新規の案件データの登録が行われる都度、(3)毎日(毎晩)、毎週、毎月等の一定周期、但し、直近の期間中に新規の案件データの登録があることが前提、(4)システム管理者が適当と判断した任意の時期のいずれでもよい。なお、(2)の場合には、新規の案件データの登録後、すぐに更新処理を実行するときは、新規案件登録手段45による新規案件の即時反映処理(図23参照)を行う必要はないが、新規の案件データの登録後、すぐに更新処理を実行するのではなく、例えばその日の夜間バッチ等で更新処理を実行するときは、登録処理と更新処理とにタイムラグがあるので、新規案件登録手段45による新規案件の即時反映処理を行う。 As shown in FIG. 16, the timing of updating the topic model is (1) when the number of new item data registrations reaches a predetermined number, (2) each time new item data is registered, (3) Every day (every night), every week, every month, etc., provided that new project data is registered during the most recent period; Either is fine. In the case of (2), if update processing is to be executed immediately after registering new matter data, there is no need to immediately reflect the new matter by the new matter registration means 45 (see FIG. 23). However, after registering new project data, update processing is not executed immediately. For example, when update processing is executed in the nighttime batch of the same day, there is a time lag between registration processing and update processing, so new project data Immediate reflection processing of the new matter by the registration means 45 is performed.
図16において、更新時期が到来した場合は、先ず、連想検索用の更新処理を実行する(ステップS13)。この処理は、ステップS2の連想検索用の事前処理(詳細は、図17参照)と同様である。但し、分散表現モデルの更新は、頻繁に行う必要はないので、省略してもよい。 In FIG. 16, when it is time to update, first, update processing for associative search is executed (step S13). This processing is the same as the pre-processing for associative search in step S2 (see FIG. 17 for details). However, since it is not necessary to update the distributed representation model frequently, it may be omitted.
次に、マッチング用の更新処理を実行する(ステップS14)。この処理は、ステップS3のマッチング用の事前処理(詳細は、図18参照)と同様である。この際、トピックモデルの更新は行うが、マッチングモデルの更新は省略してもよい。従って、トピックモデルの更新と、マッチングモデルの更新とは、同じ頻度で行う必要はなく、同時期に行う必要もない。 Next, update processing for matching is executed (step S14). This processing is the same as the preprocessing for matching in step S3 (see FIG. 18 for details). At this time, although the topic model is updated, the updating of the matching model may be omitted. Therefore, the update of the topic model and the update of the matching model do not need to be performed with the same frequency, nor need to be performed at the same time.
続いて、類似案件(類似企業)検索用の更新処理を実行する(ステップS15)。この処理は、ステップS4の類似案件(類似企業)検索用の事前処理(詳細は、図19参照)と同様である。この際、新規案件の登録時に即時反映されている処理は省略してもよい。 Subsequently, an update process for searching similar projects (similar companies) is executed (step S15). This processing is the same as the pre-processing for searching for similar items (similar companies) in step S4 (see FIG. 19 for details). At this time, the processing that is immediately reflected at the time of registration of the new item may be omitted.
<ステップS2の連想検索用の事前処理の流れ:図17> <Flow of preprocessing for associative search in step S2: Fig. 17>
図17において、先ず、システム管理者が、入力手段90を操作し、連想検索用の設定データ(N3=例えば100、N6=例えば10、関連案件の表示数等)を入力すると、設定手段31により、この設定データが受け付けられ、設定データ記憶手段51に保存される(ステップS201)。また、マッチング用の設定データ(推薦案件の表示数等)、類似案件検索用の設定データ(Wtf-idf、Wword2vec、Wtopic、類似案件の表示数等)の入力の受付、保存も、設定手段31により、ここで行ってよい。 In FIG. 17, first, when the system administrator operates the input means 90 and inputs setting data for associative search (N3=for example, 100, N6=for example, 10, number of related items to be displayed, etc.), the setting means 31 , this setting data is accepted and stored in the setting data storage means 51 (step S201). The setting means 31 also accepts and saves input of setting data for matching (the number of recommended projects to be displayed, etc.) and setting data for searching similar projects (Wtf-idf, Wword2vec, Wtopic, the number of similar projects to be displayed, etc.). You can go here.
次に、システム管理者は、入力手段90を操作し、事前に取得・収集しておいた分散表現モデル学習用のテキストデータを、分散表現モデル学習用データ記憶手段52に保存する(ステップS202)。この処理は、設定手段31により行う。 Next, the system administrator operates the input means 90 to save the previously acquired and collected text data for learning the distributed representation model in the data storage means 52 for learning the distributed representation model (step S202). . This processing is performed by the setting means 31 .
続いて、分散表現モデル学習手段32により、分散表現モデル学習用データ記憶手段52に記憶されている分散表現モデル学習用のテキストデータを用いて、分散表現モデルの学習処理を実行し、得られた学習結果データ(単語ベクトルで構成された重み行列W)を、分散表現モデル記憶手段53に保存する(ステップS202)。なお、公開・提供された学習結果データ(重み行列W)を取得し、分散表現モデル記憶手段53に保存してもよい。 Subsequently, the distributed representation model learning means 32 executes distributed representation model learning processing using the text data for distributed representation model learning stored in the distributed representation model learning data storage means 52, and obtains The learning result data (weight matrix W composed of word vectors) is stored in the distributed representation model storage means 53 (step S202). It should be noted that the disclosed/provided learning result data (weight matrix W) may be acquired and stored in the distributed representation model storage means 53 .
また、本実施形態では、連想検索用、類似案件検索用の分散表現モデルは共用とするが、共用としない場合でも、このステップS202の処理で、双方の分散表現モデルを用意してよい。 In the present embodiment, the distributed representation model for associative search and for similar item search are shared, but even if they are not shared, the distributed representation models for both may be prepared in the process of step S202.
<ステップS3のマッチング用の事前処理の流れ:図18> <Flow of preprocessing for matching in step S3: FIG. 18>
図18において、固有テキストデータ準備手段34により、案件データ記憶手段54から、全ての案件(ここでは企業)について、自己データ(自己業種、自社PR)、ニーズデータ(希望業種、ニーズ詳細)を取得し、マッチング用および連想検索用(共用)の固有テキストデータ(本実施形態では、結合テキストデータとする。)を作成する(ステップS301)。なお、モデルの更新処理の場合(図16のステップS14)は、新規案件について固有テキストデータを追加作成すればよい。 In FIG. 18, the unique text data preparation means 34 acquires self-data (own industry, company PR) and needs data (desired industry, details of needs) for all projects (in this case, companies) from the project data storage means 54. Then, unique text data (combined text data in this embodiment) for matching and for associative search (common) is created (step S301). In the case of model update processing (step S14 in FIG. 16), unique text data may be additionally created for a new case.
続いて、固有テキストデータ準備手段34により、上記のステップS301の処理で作成した全ての固有テキストデータ(ここでは、結合テキストデータ)について、不要な記号やタグ等の除去、形態素解析で単語に分解、名詞のみ抽出、不要な単語の除去の各処理を実行し、処理後の固有テキストデータを、案件識別情報(案件番号)と関連付けて案件データ記憶手段54に記憶させる(ステップS302)。これらの処理の内容は、固有テキストデータ準備手段34の説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデルの更新処理の場合(図16のステップS14)は、新規案件の固有テキストデータについてだけ、これらの処理を実行すればよい。 Subsequently, the unique text data preparation means 34 removes unnecessary symbols and tags from all the unique text data (here, combined text data) created in the process of step S301, and breaks it down into words by morphological analysis. , extraction of only nouns, and removal of unnecessary words are executed, and the unique text data after processing is stored in the case data storage means 54 in association with the case identification information (case number) (step S302). The contents of these processes have already been described in detail in the description of the inherent text data preparation means 34, so detailed description thereof will be omitted here. In the case of the model update process (step S14 in FIG. 16), these processes should be executed only for the unique text data of the new item.
次に、トピック推定手段35により、案件データ記憶手段54に記憶されているマッチング用の処理後の固有テキストデータ(i=1~n)の全てを用いて、ソフトクラスタリングまたはニューラル言語モデル(ここでは、LDA)によるトピック推定処理を実行し、各案件(各企業)の固有テキストデータ(i=1~n)における各トピック(トピック番号=1~K)の出現確率を示すトピック値π(i)、および各トピックにおける各単語の出現確率βを求め、求めたマッチング用のπ(i)およびβを、トピックモデル記憶手段56に保存する(ステップS303)。このトピック推定処理の内容は、トピック推定手段35の説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデルの更新処理の場合(図16のステップS14)には、文書数に相当する案件数(企業数)nが、追加登録された新規案件の数だけ増えた状態で、トピック推定処理が実行される。 Next, the topic estimating means 35 performs soft clustering or a neural language model (here, , LDA), and the topic value π(i) that indicates the appearance probability of each topic (topic number = 1 to K) in the unique text data (i = 1 to n) of each project (each company) , and the appearance probability β of each word in each topic, and store the obtained π(i) and β for matching in the topic model storage means 56 (step S303). The content of this topic estimation process has already been explained in detail in the explanation of the topic estimation means 35, so a detailed explanation is omitted here. In the case of the model update process (step S14 in FIG. 16), the topic estimation process is started with the number of projects (number of companies) n corresponding to the number of documents increased by the number of newly registered projects. executed.
その後、単語重要度ベクトル算出手段37により、案件データ記憶手段54に記憶されているマッチング用の処理後の固有テキストデータ(ここでは、結合テキストデータ)(i=1~n)の全てを用いて、単語重要度ベクトル(ここでは、TFIDFベクトル)を算出し、算出したマッチング用の単語重要度ベクトルを、案件識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段57に保存する(ステップS304)。この処理の内容は、単語重要度ベクトル算出手段37の説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデルの更新処理の場合(図16のステップS14)は、TD値は、新規案件の固有テキストデータだけで算出できるが、IDF値の算出には、全ての案件の固有テキストデータが必要となるので、新規案件を含めた全ての案件について、単語重要度ベクトルを算出する。 After that, the word importance vector calculation means 37 uses all of the processed unique text data (here, combined text data) (i=1 to n) for matching stored in the case data storage means 54. , the word importance vector (here, the TFIDF vector) is calculated, and the calculated word importance vector for matching is stored in the word importance vector storage means 57 in association with the case identification information (case number) (step S304). ). The details of this process have already been explained in the explanation of the word importance vector calculating means 37, so the detailed explanation is omitted here. In the case of model update processing (step S14 in FIG. 16), the TD value can be calculated using only the unique text data of the new project, but the calculation of the IDF value requires the unique text data of all projects. Therefore, the word importance vector is calculated for all projects including new projects.
続いて、マッチング学習用データ準備手段38により、マッチング候補選定実績リスト記憶手段58に記憶されているマッチング候補選定実績リストに存在するペアを正例(正解データ)とし、マッチング候補選定実績リストに存在するペア以外のペアを負例(不正解データ)とし、マッチング学習用データとしてのマッチング用特徴データ(図9参照)を作成するための多数のペアを用意する(ステップS305)。この処理の内容は、マッチング学習用データ準備手段38の説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデルの更新処理の場合(図16のステップS14)は、トピック推定処理を実行してトピックモデルの更新を行っていても、必ずしもマッチングモデルの更新を行う必要はないので、この処理を省略してもよい。トピックモデルを更新すると各案件のトピック分布が若干変化するので、厳密に言えば、マッチング用特徴データも変化することになるが、選定実績があまり増えていない状況では、マッチングモデルへの影響が小さいからである。 Subsequently, the matching learning data preparation means 38 treats pairs existing in the matching candidate selection result list stored in the matching candidate selection result list storage means 58 as positive examples (correct data), Pairs other than the pairs to be matched are treated as negative examples (incorrect answer data), and a large number of pairs are prepared for creating matching feature data (see FIG. 9) as matching learning data (step S305). The contents of this process have already been described in detail in the description of the matching learning data preparation means 38, so detailed description thereof will be omitted here. In the case of the model update process (step S14 in FIG. 16), even if the topic model is updated by executing the topic estimation process, it is not always necessary to update the matching model, so this process is omitted. You may When the topic model is updated, the topic distribution of each project will change slightly, so strictly speaking, the feature data for matching will also change. It is from.
それから、マッチング学習用データ準備手段38により、上記のステップS305の処理でマッチング学習用データを作成するために用意した全てのペア案件について、トピックモデル記憶手段56から、各トピック値π(i)を取得し、案件データ記憶手段54から、ニーズフラグ、年商を取得し、合成変数(各トピック値の積、差の絶対値、ニーズフラグの論理和、年商の比の値等)を算出する(ステップS306)。さらに、マッチング学習用データ準備手段38により、マッチング学習用データを作成するために用意した全てのペア案件について、単語重要度ベクトル記憶手段57に記憶されているマッチング用の単語重要度ベクトル(ここでは、TFIDFベクトル)の内積を算出した後、マッチング学習用データとしてのマッチング用特徴データ(図9参照)を作成し、ペア案件の案件識別情報(案件番号)と関連付けてマッチング学習用データ記憶手段59に保存する(ステップS307)。これらの処理の内容は、マッチング学習用データ準備手段38の説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデルの更新処理の場合(図16のステップS14)は、上記のステップS305と同様に、マッチングモデルの更新処理を省略してもよい。 Then, the matching learning data preparation means 38 stores each topic value π(i) from the topic model storage means 56 for all pair cases prepared for creating the matching learning data in the process of step S305. Needs flags and annual sales are obtained from the project data storage means 54, and composite variables (product of each topic value, absolute value of difference, logical sum of needs flags, ratio of annual sales, etc.) are calculated. (Step S306). Further, the word importance vector for matching stored in the word importance vector storage means 57 (here, , TFIDF vector) is calculated, matching feature data (see FIG. 9) is created as matching learning data, and is associated with the case identification information (case number) of the pair case, and the matching learning data storage means 59 (step S307). The contents of these processes have already been described in detail in the description of the matching learning data preparation means 38, so detailed description thereof will be omitted here. In the case of model update processing (step S14 in FIG. 16), the matching model update processing may be omitted, as in step S305 above.
続いて、マッチングモデル学習手段38により、マッチング学習用データ記憶手段59に記憶されているマッチング学習用データを用いて、教師あり分類モデル(例えば、ランダムフォレスト)により、選定・非選定の2クラス分類のマッチングモデル(パラメータ)を求め、求めたマッチングモデルをマッチングモデル記憶手段60に記憶させる(ステップS308)。この処理の内容は、マッチングモデル学習手段38の説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデルの更新処理の場合(図16のステップS14)は、上記のステップS305~S307と同様に、マッチングモデルの更新処理を省略してもよい。 Subsequently, the matching model learning means 38 uses the matching learning data stored in the matching learning data storage means 59 to perform two-class classification of selected and unselected by a supervised classification model (for example, random forest). is obtained, and the obtained matching model is stored in the matching model storage means 60 (step S308). The contents of this process have already been described in detail in the description of the matching model learning means 38, so a detailed description will be omitted here. In the case of the model update process (step S14 in FIG. 16), the matching model update process may be omitted as in the above steps S305 to S307.
<ステップS4の類似案件(類似企業)検索用の事前処理の流れ:図19> <Flow of pre-processing for searching similar projects (similar companies) in step S4: Fig. 19>
図19において、固有テキストデータ準備手段34により、案件データ記憶手段54から、全ての案件(ここでは企業)について、自己データ(自己業種、自社PR)、ニーズデータ(希望業種、ニーズ詳細)を取得し、類似案件検索用の2種類の固有テキストデータ(本実施形態では、自己データとニーズデータとの結合は行わない。)を用意する(ステップS401)。この際、自己データとして、自己業種を含めずに自社PRだけを用い、また、ニーズデータとして、希望業種を含めずにニーズ詳細だけを用いてもよく、本実施形態では、そのようにする(図10参照)。なお、モデルの更新処理の場合(図16のステップS15)は、新規案件について固有テキストデータを追加作成すればよい。 In FIG. 19, the unique text data preparation means 34 acquires self-data (own industry, company PR) and needs data (desired industry, details of needs) for all projects (in this case, companies) from the project data storage means 54. Then, two types of unique text data for searching for similar items (in this embodiment, self data and needs data are not combined) are prepared (step S401). At this time, as the self data, only the company's PR may be used without including the own industry, and as the needs data, only the detailed needs may be used without including the desired industry. See Figure 10). In the case of model update processing (step S15 in FIG. 16), unique text data may be additionally created for a new case.
続いて、固有テキストデータ準備手段34により、上記のステップS401の処理で用意した全ての類似案件検索用の2種類の固有テキストデータ(非結合の自己データ、ニーズデータ)について、不要な記号やタグ等の除去、形態素解析で単語に分解、名詞のみ抽出、不要な単語の除去の各処理を実行し、処理後の固有テキストデータを、案件識別情報(案件番号)と関連付けて案件データ記憶手段54に記憶させる(ステップS402)。これらの処理の内容は、固有テキストデータ準備手段34の説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデルの更新処理の場合(図16のステップS15)は、新規案件の固有テキストデータについてだけ、これらの処理を実行すればよい。 Subsequently, the unique text data preparation means 34 removes unnecessary symbols and tags from all the two types of unique text data (non-combined self data and needs data) for searching similar cases prepared in the process of step S401. etc., breaking down into words by morphological analysis, extracting only nouns, and removing unnecessary words. (step S402). The contents of these processes have already been described in detail in the description of the inherent text data preparation means 34, so detailed description thereof will be omitted here. In the case of the model update process (step S15 in FIG. 16), these processes should be executed only for the unique text data of the new item.
次に、トピック推定手段35により、案件データ記憶手段54に記憶されている類似案件検索用の2種類の処理後の固有テキストデータ(i=1~n)の全てを用いて、2種類のそれぞれについて別々に、ソフトクラスタリングまたはニューラル言語モデル(ここでは、LDA)によるトピック推定処理を実行し、各案件(各企業)の類似案件検索用の固有テキストデータ(i=1~n)における各トピック(トピック番号=1~K)の出現確率を示すトピック値π(i)、および各トピックにおける各単語の出現確率βを求め、求めた類似案件検索用の2種類のそれぞれのπ(i)およびβ(つまり、自己データについてのπ(i)およびβ、ニーズデータについてのπ(i)およびβ)を、トピックモデル記憶手段56に保存する(ステップS403)。このトピック推定処理の内容は、トピック推定手段35の説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデルの更新処理の場合(図16のステップS15)には、文書数に相当する案件数(企業数)nが、追加登録された新規案件の数だけ増えた状態で、トピック推定処理が実行される。 Next, the topic estimating means 35 uses all of the two types of processed unique text data (i=1 to n) for searching for similar cases stored in the case data storage means 54 to obtain two types of respective text data. Separately, topic estimation processing by soft clustering or neural language model (here, LDA) is executed, and each topic ( The topic value π(i) indicating the probability of appearance of topic numbers = 1 to K) and the probability of appearance β of each word in each topic are obtained, and the obtained two types of π(i) and β for similar matter search are obtained. (That is, .pi.(i) and .beta. for self data, .pi.(i) and .beta. for needs data) are stored in topic model storage means 56 (step S403). The content of this topic estimation process has already been explained in detail in the explanation of the topic estimation means 35, so a detailed explanation is omitted here. In the case of the model update process (step S15 in FIG. 16), the topic estimation process is started with the number of projects (number of companies) n corresponding to the number of documents increased by the number of newly registered projects. executed.
その後、単語重要度ベクトル算出手段37により、案件データ記憶手段54に記憶されている類似案件検索用の2種類の処理後の固有テキストデータ(ここでは、非結合の自己データ、ニーズデータ)(i=1~n)の全てを用いて、単語重要度ベクトル(ここでは、TFIDFベクトル)を算出し、算出した類似案件検索用の2種類の単語重要度ベクトル(つまり、自己データ、ニーズデータのそれぞれについての単語重要度ベクトル)を、案件識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段57に保存する(ステップS404)。この処理の内容は、単語重要度ベクトル算出手段37の説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデルの更新処理の場合(図16のステップS15)は、TD値は、新規案件の固有テキストデータだけで算出できるが、IDF値の算出には、全ての案件の固有テキストデータが必要となるので、新規案件を含めた全ての案件について、2種類の単語重要度ベクトルを算出する。 After that, the word importance vector calculation means 37 performs two types of processed unique text data (here, unbound self data and needs data) (here, unbound self data and needs data) (i = 1 to n), the word importance vector (here, the TFIDF vector) is calculated, and two types of word importance vectors for searching similar projects (that is, self data and needs data) are calculated. ) is associated with the case identification information (case number) and stored in the word importance vector storage means 57 (step S404). The details of this process have already been explained in the explanation of the word importance vector calculating means 37, so the detailed explanation is omitted here. In the case of model update processing (step S15 in FIG. 16), the TD value can be calculated using only the unique text data of the new project, but the calculation of the IDF value requires the unique text data of all projects. Therefore, two types of word importance vectors are calculated for all projects including new projects.
続いて、案件類似度算出手段43Aにより、類似案件検索用の2種類の処理後の固有テキストデータ(i=1~n)の全てを用いて、固有テキストデータ毎(自己データ毎、ニーズデータ毎)に、図2に示すように、各固有テキストデータを構成する全ての単語の分散表現(ここでは、word2vecによる単語ベクトルとする)の平均値を算出し、これらを各案件の固有テキストデータの文章ベクトルとして案件識別情報(案件番号)と関連付けて文章ベクトル記憶手段67に記憶させる(ステップS405)。この際、各案件(各企業)について、自己データの分散表現の平均値(文章ベクトル)と、ニーズデータの分散表現の平均値(文章ベクトル)とを、別々に算出する。この処理の内容は、案件類似度算出手段43Aの説明で既に詳述しているので、ここでは詳しい説明を省略する。 Subsequently, the project similarity calculation means 43A uses all of the two types of processed unique text data (i=1 to n) for searching for similar projects to calculate each unique text data (each own data, each needs data) ), as shown in Fig. 2, the average value of the distributed representation of all the words that make up each unique text data (here, word vector by word2vec) is calculated, and these are used as the unique text data of each case. The text vector is stored in the text vector storage means 67 in association with the item identification information (item number) (step S405). At this time, for each project (each company), the average value (sentence vector) of the distributed representation of the self data and the average value (sentence vector) of the distributed representation of the needs data are calculated separately. The content of this process has already been described in detail in the description of the case similarity degree calculation means 43A, so a detailed description thereof will be omitted here.
それから、案件類似度算出手段43Aにより、全ての案件(企業)の総当たりの各ペアについて、単語重要度ベクトル記憶手段57に記憶されている単語重要度ベクトル同士の類似度Stf-idf、文章ベクトル記憶手段67に記憶されている文章ベクトル同士の類似度Sword2vec、トピックモデル記憶手段56に記憶されているトピック分布(トピック値)ベクトル同士の類似度Stopicを算出し、これらの各類似度を重み係数(Wtf-idf、Wword2vec、Wtopic)を用いて統合することにより、案件(企業)間の類似度を示す案件類似度を算出し、算出した案件類似度を、ペア案件の案件識別情報(案件番号)と関連付けて案件類似度記憶手段68に記憶させる(ステップS406)。この際、案件類似度として、各ペア案件について、自己データについての類似度を示すPRスコアと、ニーズデータについての類似度を示すニーズスコアとを、別々に算出する。この処理の内容は、案件類似度算出手段43Aの説明で既に詳述しているので、ここでは詳しい説明を省略する。 Then, the project similarity calculation means 43A calculates the degree of similarity Stf-idf between the word importance vectors stored in the word importance vector storage means 57 for each pair in the round robin of all projects (companies), the sentence vector The similarity Sword2vec between sentence vectors stored in the storage means 67 and the similarity Stopic between topic distribution (topic value) vectors stored in the topic model storage means 56 are calculated, and each of these similarities is used as a weighting factor. (Wtf-idf, Wword2vec, Wtopic) to calculate the project similarity that indicates the degree of similarity between projects (companies). ) and stored in the case similarity storage means 68 (step S406). At this time, as the degree of project similarity, for each pair project, a PR score indicating the degree of similarity with respect to self data and a needs score indicating the degree of similarity with respect to needs data are separately calculated. The content of this process has already been described in detail in the description of the case similarity degree calculation means 43A, so a detailed description thereof will be omitted here.
<ステップS7の連想検索処理の流れ:図20> <Flow of associative search processing in step S7: Fig. 20>
図20において、先ず、単語類似度算出手段41Aにより、分散表現モデル記憶手段53に記憶されている各分散表現モデル(本実施形態では、ディメンジョンの異なる3種類の単語ベクトルの集合)について、入力・選択入力されたキーワードと他の単語との間のコサイン類似度等のモデル別類似度Sを算出し、各分散表現モデルについて、モデル別類似度Sが上位N3以内(例えば100位以内)の単語を選択してモデル別類似単語とし、各モデル別類似単語のモデル別類似度Sをモデル別類似度記憶手段62に記憶させる(ステップS701)。この処理の内容は、単語類似度算出手段41Aの説明で既に詳述しているので、ここでは詳しい説明を省略する。なお、モデル別類似単語は、各分散表現モデルでずれている。 In FIG. 20, first, the word similarity calculation means 41A inputs and calculates each distributed representation model (in this embodiment, a set of three types of word vectors with different dimensions) stored in the distributed representation model storage means 53. Calculate the model-specific similarity S such as the cosine similarity between the selected and input keyword and other words, and for each distributed representation model, the words whose model-specific similarity S is within the top N3 (for example, within the 100th) are selected as similar words by model, and the similarity by model S of each similar word by model is stored in the similarity by model storage means 62 (step S701). The details of this process have already been explained in the explanation of the word similarity calculation means 41A, so the detailed explanation is omitted here. Note that the model-specific similar words are shifted in each distributed representation model.
次に、単語類似度算出手段41Aにより、少なくとも1つの分散表現モデルで選択された単語(N4個)の全てについて、対応する単語が選択されていない分散表現モデルの当該単語のモデル別類似度Sをゼロとみなすとともに(図2参照)、全ての分散表現モデル(ここでは、3タイプの分散表現モデル)のモデル別類似度Sの調和平均または加重調和平均等を求めることにより、複数種類の分散表現モデルをアンサンブルした一般類似度Aを算出し、算出した一般類似度Aがゼロにならなかった単語を一般類似単語(N5個)として決定し、各一般類似単語の一般類似度Aを一般類似度記憶手段63に記憶させる(ステップS702)。この処理の内容は、単語類似度算出手段41Aの説明で既に詳述しているので、ここでは詳しい説明を省略する。 Next, for all of the words (N4) selected by at least one distributed representation model, the word similarity calculation means 41A calculates the model-specific similarity S of the word of the distributed representation model for which the corresponding word is not selected. is zero (see FIG. 2), and by obtaining the harmonic average or weighted harmonic average of the similarity S for each model of all distributed representation models (here, three types of distributed representation models), multiple types of variance The general similarity A is calculated by ensemble of the expression model, the words for which the calculated general similarity A is not zero are determined as general similar words (N5 pieces), and the general similarity A of each general similar word is the general similarity stored in the degree storage means 63 (step S702). The details of this process have already been explained in the explanation of the word similarity calculation means 41A, so the detailed explanation is omitted here.
続いて、単語類似度算出手段41Aにより、各一般類似単語(N5個)および入力・選択入力されたキーワードについて、全ての連想検索用の固有テキストデータ(本実施形態では、自己データとニーズデータとの結合テキストデータとする)との照合を行うことにより、それらの単語の少なくとも1つを含む固有テキストデータに関連付けられた案件(ここでは企業)の案件番号を抽出する(ステップS703)。さらに、単語類似度算出手段41Aにより、各一般類似単語(N5個)および入力・選択入力されたキーワードとの照合で抽出した各案件の固有テキストデータを用いて、入力・選択入力されたキーワードと、各一般類似単語(N5個)との間の固有類似度Bを算出し、算出した固有類似度Bを固有類似度記憶手段64に記憶させる(ステップS704)。これらの処理の内容は、単語類似度算出手段41Aの説明で既に詳述しているので、ここでは詳しい説明を省略する。 Subsequently, the word similarity calculation means 41A calculates all of the unique text data for associative search (self data and needs data in this embodiment) for each general similar word (N5) and the input/selected keyword. ) to extract the project number of the project (here, company) associated with the unique text data containing at least one of these words (step S703). Further, the word similarity calculation means 41A compares each general similar word (N5) and the specific text data of each matter extracted by matching with the input/selected keyword, and compares the input/selected keyword with , and each of the general similar words (N5) is calculated, and the calculated inherent similarity B is stored in the inherent similarity storage means 64 (step S704). The contents of these processes have already been described in detail in the description of the word similarity calculation means 41A, so detailed description thereof will be omitted here.
それから、単語類似度算出手段41Aにより、各一般類似単語(N5個)について、一般類似度Aと固有類似度Bとの調和平均または加重調和平均等により最終類似度FSを算出し、最終類似度FSが上位N6以内(例えば10位以内)の単語を、関連単語として決定し、各関連単語の最終類似度FSを最終類似度記憶手段65に記憶させる(ステップS705)。この処理の内容は、単語類似度算出手段41Aの説明で既に詳述しているので、ここでは詳しい説明を省略する。 Then, the word similarity calculation means 41A calculates the final similarity FS by the harmonic average or the weighted harmonic average of the general similarity A and the specific similarity B for each general similar word (N5). Words whose FS are within the top N6 (for example, within the top 10) are determined as related words, and the final similarity FS of each related word is stored in the final similarity storage means 65 (step S705). The details of this process have already been explained in the explanation of the word similarity calculation means 41A, so the detailed explanation is omitted here.
その後、関連度算出手段41Bにより、各関連単語(N6=10個)および入力・選択入力されたキーワードについて、それぞれの単語が連想検索用の各固有テキストデータ(本実施形態では、結合テキストデータ)に出現する単語別出現回数C(i)(i=0,1,2,…,N6)を求め、これに最終類似度FS(i)を乗じ、各単語についてそれらの値を合計して関連度CSを算出し、関連度CSの高い順で関連案件を決定し、各関連案件の関連度CSを関連度記憶手段66に記憶させるとともに、関連案件の案件番号を用いて、案件データ記憶手段54から関連案件の案件データを取得する(ステップS706)。この処理の内容は、関連度算出手段41Bの説明で既に詳述しているので、ここでは詳しい説明を省略する。 After that, the degree-of-association calculation means 41B converts each related word (N6=10) and the input/selected keyword into unique text data for associative search (combined text data in this embodiment). is multiplied by the final degree of similarity FS(i), and these values are summed for each word to obtain the relation Calculate the degree CS, determine the related cases in descending order of the degree of association CS, store the degree of association CS of each related matter in the degree of association storage means 66, and use the matter number of the related matter to store the matter data storage means. The item data of the related item is acquired from 54 (step S706). The details of this process have already been explained in the explanation of the degree-of-association calculation means 41B, so detailed explanation is omitted here.
<ステップS8のマッチング処理の流れ:図21> <Flow of matching processing in step S8: Fig. 21>
図21において、先ず、マッチング用特徴データ作成手段42Aにより、入力部110(図11~図13参照)に入力・選択入力された対象案件(企業)と、推薦の候補となる他の全ての案件(企業)との各ペアについて、トピックモデル記憶手段56から、各トピック値π(i)を取得し、案件データ記憶手段54から、ニーズフラグ、年商を取得し、合成変数(各トピック値の積、差の絶対値、ニーズフラグの論理和、年商の比の値等)を算出する(ステップS801)。さらに、マッチング用特徴データ作成手段42Aにより、入力部110に入力・選択入力された対象案件(企業)と、推薦の候補となる他の全ての案件(企業)との各ペアについて、単語重要度ベクトル記憶手段57に記憶されている単語重要度ベクトル(ここでは、TFIDFベクトル)の内積を算出した後(ステップS802)、マッチング用特徴データ(図8参照)を作成する(ステップS803)。これらの処理の内容は、マッチング用特徴データ作成手段42Aの説明で既に詳述しているので、ここでは詳しい説明を省略する。
In FIG. 21, first, the matching feature data creation means 42A selects and inputs target projects (companies) into the input unit 110 (see FIGS. 11 to 13) and all other projects that are candidates for recommendation. For each pair with (company), each topic value π(i) is acquired from the topic model storage means 56, a needs flag and annual sales are acquired from the item data storage means 54, and a combined variable (each topic value product, absolute value of difference, logical sum of needs flags, ratio of annual sales, etc.) is calculated (step S801). Furthermore, the matching feature
次に、上記のステップS803の処理で作成したマッチング用特徴データを、教師あり分類モデル(例えば、ランダムフォレスト)によるマッチング用の識別器(マッチングスコア算出手段42Bおよびマッチングモデル記憶手段50により構成される識別器)に入力し、入力部110に入力・選択入力された対象案件(企業)に対して各候補案件(候補企業)が選定される確率を示すスコア(マッチングスコア)を出力し、得られたスコアの高い順で推薦案件(推薦企業)を決定し、決定した推薦案件の案件番号を用いて、案件データ記憶手段54から推薦案件の案件データを取得する(ステップS804)。
Next, the matching feature data created in the process of step S803 is used as a classifier for matching (matching score calculation means 42B and matching model storage means 50) by a supervised classification model (for example, random forest). discriminator), and outputs a score (matching score) indicating the probability that each candidate project (candidate company) will be selected for the target project (company) input/selected to the
<ステップS9の類似案件(類似企業)検索処理の流れ:図22> <Flow of similar project (similar company) search processing in step S9: Fig. 22>
図22において、類似案件抽出手段43Bにより、案件類似度記憶手段68から、入力部110(図11~図13参照)で入力・選択入力された案件番号の対象案件(企業)と、他の全ての案件(企業)との間の案件類似度(本実施形態では、PRスコアおよびニーズスコア)を取得する(ステップS901)。 In FIG. 22, the similar project extracting means 43B extracts the target project (company) of the project number input/selectively input by the input unit 110 (see FIGS. 11 to 13) and all others from the project similarity storage means 68. acquires the project similarity (in this embodiment, the PR score and the needs score) with the project (company) (step S901).
続いて、類似案件抽出手段43Bにより、案件類似度の高い順で類似案件を抽出し、抽出した類似案件の案件番号を用いて、案件データ記憶手段54から、類似案件の案件データを取得する(ステップS902)。 Subsequently, the similar case extraction means 43B extracts similar cases in descending order of case similarity, and acquires the case data of the similar cases from the case data storage means 54 using the case numbers of the extracted similar cases ( step S902).
<ステップS12の新規案件登録処理の流れ:図23> <Flow of New Matter Registration Processing in Step S12: FIG. 23>
図23において、新規案件登録手段45により、ユーザによる新規案件の案件データの登録のための入力を受け付け(ステップS1201)、新規案件に対して案件識別情報(案件番号)を自動付与し、受け付けた新規案件の案件データを、付与した新規案件の案件番号と関連付けて案件データ記憶手段54に保存する(ステップS1202)。この際、新規案件登録手段45により、登録時参考案件記憶手段69に記憶されている参考案件の案件識別情報(案件番号)を用いて、案件データ記憶手段54から参考案件の案件データを取得し、表示手段80の画面上に表示する。 In FIG. 23, the new matter registration means 45 receives an input for registering the matter data of the new matter from the user (step S1201), automatically assigns the matter identification information (case number) to the new matter, and accepts it. The project data of the new project is stored in the project data storage means 54 in association with the assigned project number of the new project (step S1202). At this time, the new case registration means 45 acquires the case data of the reference case from the case data storage means 54 using the case identification information (case number) of the reference case stored in the reference case storage means 69 at the time of registration. , is displayed on the screen of the display means 80 .
その後、新規案件登録手段45からの指示により、以下のような更新前における新規案件の即時反映処理を実行する。 After that, according to an instruction from the new item registration means 45, the following immediate reflection processing of the new item before updating is executed.
先ず、新規案件登録手段45からの指示を受けた固有テキストデータ準備手段34により、新規案件(企業)について、案件データ記憶手段54から、自己データ、ニーズデータを取得し、次の固有テキストデータを用意する(ステップS1203)。すなわち、マッチング処理および連想検索処理で用いる固有テキストデータ(自己データとニーズデータとの結合テキストデータ)と、類似案件検索処理で用いる固有テキストデータ(非結合の自己データ、ニーズデータ)とを用意する。 First, the inherent text data preparation means 34, which receives an instruction from the new matter registration means 45, acquires self data and needs data from the matter data storage means 54 for the new matter (company), and then prepares the following inherent text data. Prepare (step S1203). Specifically, unique text data used in matching processing and associative search processing (text data combined with self data and needs data) and unique text data used in similar case search processing (non-combined self data, needs data) are prepared. .
続いて、新規案件登録手段45からの指示を受けた固有テキストデータ準備手段34により、新規案件(企業)の固有テキストデータ(マッチング用および連想検索用(共用)の結合テキストデータ、類似案件検索用の非結合の自己データ、ニーズデータ)について、不要な記号やタグ等の除去、形態素解析で単語に分解、名詞のみ抽出、不要な単語の除去の各処理を実行し、処理後の各固有テキストデータを、案件識別情報(案件番号)と関連付けて案件データ記憶手段54に記憶させる(ステップS1204)。 Subsequently, the unique text data preparation means 34 receiving the instruction from the new item registration means 45 prepares the unique text data of the new item (company) (combined text data for matching and associative search (shared), similar item search). (unconnected self-data, needs data), remove unnecessary symbols and tags, break down into words by morphological analysis, extract only nouns, remove unnecessary words, and each unique text after processing The data is stored in the case data storage means 54 in association with the case identification information (case number) (step S1204).
次に、新規案件登録手段45からの指示を受けた単語重要度ベクトル算出手段37により、新規案件(企業)を含む全ての案件の処理後の固有テキストデータ(i=1~n+1)を用いて、新規案件の処理後の固有テキストデータ(i=n+1)についての次の単語重要度ベクトル(ここでは、TFIDFベクトル)を算出し、案件識別情報(案件番号)と関連付けて単語重要度ベクトル記憶手段57に記憶させる(ステップS1205)。すなわち、マッチング処理で用いる単語重要度ベクトル(結合テキストデータの単語重要度ベクトル)と、類似案件検索処理で用いる単語重要度ベクトル(自己データ、ニーズデータの各々の単語重要度ベクトル)とを算出する。 Next, the word importance vector calculation means 37, which receives the instruction from the new case registration means 45, uses the unique text data (i=1 to n+1) after processing all the cases including the new case (company). , calculates the next word importance vector (here, the TFIDF vector) for the unique text data (i=n+1) after processing of the new matter, associates it with the matter identification information (case number), and stores the word importance vector storage means 57 (step S1205). That is, the word importance vector used in the matching process (the word importance vector of the combined text data) and the word importance vector used in the similar case search process (the word importance vectors of the self data and the needs data) are calculated. .
それから、新規案件登録手段45からの指示を受けたトピック値予測手段36により、新規案件(企業)の処理後の固有テキストデータ(i=n+1)について、次のトピック分布π(i)を予測し、得られたトピック分布π(i)を、案件識別情報(案件番号)と関連付けてトピックモデル記憶手段56に記憶させる(ステップS1206)。すなわち、マッチング処理で用いる結合テキストデータのトピック分布π(i)と、類似案件検索処理で用いる自己データ、ニーズデータの各々のトピック分布π(i)とを予測する。 Then, the topic value prediction means 36 receiving the instruction from the new matter registration means 45 predicts the next topic distribution π(i) for the unique text data (i=n+1) after processing of the new matter (company). , the obtained topic distribution π(i) is stored in the topic model storage means 56 in association with the item identification information (item number) (step S1206). That is, the topic distribution π(i) of the combined text data used in the matching process and the topic distribution π(i) of each of the self data and the needs data used in the similar item search process are predicted.
続いて、新規案件登録手段45からの指示を受けた案件類似度算出手段43Aにより、新規案件(企業)の処理後の固有テキストデータを用いて、その固有テキストデータを構成する全ての単語の分散表現(ここでは、word2vecによる単語ベクトル)の平均値を算出して文章ベクトルとし、得られた文章ベクトルを、案件識別情報(案件番号)と関連付けて文章ベクトル記憶手段67に記憶させる(ステップS1207)。この祭、自己データの分散表現の平均値(文章ベクトル)と、ニーズデータの分散表現の平均値(文章ベクトル)とを、別々に算出する。 Subsequently, the project similarity calculation means 43A, which receives an instruction from the new project registration means 45, uses the processed unique text data of the new project (company) to distribute all the words that make up the unique text data. An average value of the expressions (here, word vectors based on word2vec) is calculated as a sentence vector, and the obtained sentence vector is associated with the case identification information (case number) and stored in the sentence vector storage means 67 (step S1207). . At this time, the average value (sentence vector) of the distributed representation of the self data and the average value (sentence vector) of the distributed representation of the needs data are calculated separately.
さらに、新規案件登録手段45からの指示を受けた案件類似度算出手段43Aにより、新規案件(企業)と、既存の全ての案件との間で、単語重要度ベクトル記憶手段57に記憶されている単語重要度ベクトル同士の類似度Stf-idf、文章ベクトル記憶手段67に記憶されている文章ベクトル同士の類似度Sword2vec、トピックモデル記憶手段56に記憶されているトピック分布(トピック値)ベクトル同士の類似度Stopicを算出し、これらの各類似度を重み係数(Wtf-idf、Wword2vec、Wtopic)を用いて統合することにより、案件間(企業間)の類似度を示す案件類似度を算出し、算出した案件類似度を、ペア案件の案件識別情報(案件番号)と関連付けて案件類似度記憶手段68に記憶させる(ステップS1208)。この際、案件類似度として、自己データについての類似度を示すPRスコアと、ニーズデータについての類似度を示すニーズスコアとを、別々に算出する。 Furthermore, by the project similarity calculation means 43A that receives an instruction from the new project registration means 45, the word importance vector storage means 57 stores the new project (company) and all the existing projects. Similarity between word importance vectors Stf-idf, similarity between sentence vectors stored in sentence vector storage means 67 Sword2vec, similarity between topic distribution (topic value) vectors stored in topic model storage means 56 By calculating the degree Stopic and integrating each of these similarities using weighting coefficients (Wtf-idf, Wword2vec, Wtopic), the project similarity indicating the similarity between projects (between companies) is calculated and calculated The obtained case similarity is associated with the case identification information (case number) of the pair case and stored in the case similarity storage means 68 (step S1208). At this time, as the project similarity, the PR score indicating the similarity of the self data and the needs score indicating the similarity of the needs data are separately calculated.
<本実施形態の効果> <Effects of this embodiment>
このような本実施形態によれば、次のような効果がある。すなわち、マッチングシステム10では、ユーザ(マッチングサービスの提供を受ける者、またはサービス担当者)が、入力部110(図11~図13参照)にキーワードを入力すると、連想検索手段41による処理が実行され、入力部110と同一の画面上に、関連案件の案件データや関連単語を表示することができる。一方、入力部110に案件識別情報(案件番号)を入力すると、マッチング手段42による処理、および類似案件検索手段43による処理が実行され、入力部110と同一の画面上に、対象案件(入力された案件番号の案件)のマッチング相手としての推薦案件の案件データ、および対象案件の類似案件の案件データを表示することができる。
According to this embodiment, the following effects are obtained. That is, in the
この際、連想検索手段41、マッチング手段42、および類似案件検索手段43による3つの処理は、いずれも各案件の固有テキストデータ、すなわち同じデータ(各処理で結合・非結合の選択の自由度はあるが、いずれの処理でも自己データ、ニーズデータを使う。)を用いて実行されるので、3つの処理の全てでマッチングに適した処理を実現できることに加え、互いに関連性のある処理内容とすることができる。従って、マッチングシステム10は、既存の3つのシステムを単純に併設したものではなく、各処理でデータの共用や、処理内容の共通化を図ることができる。
At this time, the three processes by the associative search means 41, the matching means 42, and the similar case search means 43 are all the unique text data of each case, that is, the same data However, in any process, self data and needs data are used.), so in addition to being able to realize processing suitable for matching in all three processes, the processing contents are related to each other. be able to. Therefore, the
また、連想検索手段41、マッチング手段42、および類似案件検索手段43による各処理の結果は、これらの各手段41,42,43による次の処理に活かすことができ、これらの各手段41,42,43による処理を繰り返すことができるので、ユーザは、多様な検索を行うことができる。
Further, the result of each process by the associative search means 41, the matching means 42, and the similar case search means 43 can be utilized in the next process by these
より詳細には、入力部110(図11~図13参照)にキーワードを入力し、連想検索手段41による処理でそのキーワードの関連案件が得られた場合には、その関連案件の案件識別情報(案件番号)を入力部110に入力すれば、その関連案件に対するマッチング相手としての推薦案件を得ることができるとともに、その関連案件に対する類似案件を得ることができる。そして、得られた推薦案件の案件識別情報(案件番号)を入力部110に入力すれば、その推薦案件に対するマッチング相手としての推薦案件を得ることができるとともに、その推薦案件に対する類似案件を得ることができる。また、得られた類似案件の案件識別情報(案件番号)を入力部110に入力すれば、その類似案件に対するマッチング相手としての推薦案件を得ることができるとともに、その類似案件に対する類似案件を得ることができる。マッチングシステム10では、このように関連案件、推薦案件、類似案件を横断した繰り返しの検索を行うことができ、さらにその間に任意のタイミングで様々なキーワードを入力することができる(図11参照)。
More specifically, when a keyword is input to the input unit 110 (see FIGS. 11 to 13), and a related project related to the keyword is obtained through processing by the associative search means 41, the related project identification information ( case number) into the
このため、ユーザが新規案件の登録を行う者またはその補助・指導・案内を行うサービス担当者であれば、自分または自分が担当する顧客と同じ立場の幾つかの案件(例えば、ある製品や商品を売るという目的でマッチングを希望する企業)についての案件データ(そこに含まれる自己データおよびニーズデータ)の内容を容易に把握することができ、また、どのような内容の案件データを登録すると、どのような内容の案件データを有する案件が、マッチング相手として推薦されるのか(つまり、どのような内容の案件データを有する案件同士のマッチング確度が高いのか)を容易に把握することができるので、それらの検索で参照した情報を、新規案件の案件データを登録する際に活かすことができる。従って、ユーザは、マッチングという観点から適切な案件データを登録し、効果的なマッチングサービスの提供を受けることができる。 For this reason, if the user is a person who registers a new project or a service representative who assists, guides, and guides the user, he or she may be in the same position as the customer he/she is in charge of (for example, a certain product or merchandise). You can easily understand the content of the project data (self-data and needs data included in it) about companies that wish to match for the purpose of selling products), and if you register what kind of project data, Since it is possible to easily grasp what kind of project data a project has to be recommended as a matching partner (that is, what kind of project data has a high degree of matching accuracy), The information referred to in those searches can be utilized when registering the item data of a new item. Therefore, the user can register suitable job data from the viewpoint of matching and receive effective matching service.
また、このような案件データの検索・参照は、新規案件の登録を行う者が、自身で行うことができるので、サービス担当者の負担を軽減することもできる。さらに、例えばサービス窓口や客先等でサービス担当者が検索を行う場合でも、検索で得られた幾つかの参考案件の案件データの内容を、新規案件の登録を行う者に直接に示すことができるので、サービス担当者の負担(補助・指導・案内をする上での手間)を軽減することができる。 In addition, since a person who registers a new item can search and refer to such item data by himself/herself, it is possible to reduce the burden on the person in charge of service. Furthermore, for example, even when a service representative conducts a search at a service counter or at a customer's site, it is possible to directly show the contents of project data of several reference projects obtained by the search to the person who registers a new project. Therefore, it is possible to reduce the burden on the person in charge of service (trouble in providing assistance, guidance, and guidance).
また、マッチング手段42は、トピック推定処理で得られたトピックモデルの更新や、マッチング用特徴データを用いた学習で得られたマッチングモデルの更新が行われない限り、同じ入力に対しては、同じ出力をすることから、ある案件に対し、いつも同じ案件が同じ順位(同じスコア)で推薦案件として出力されることになる。そして、これが選定実績となり、マッチングモデルの更新に反映されると、偏った紹介を助長することに繋がる。しかし、マッチングシステム10では、類似案件検索手段43による処理を行うと、対象案件の類似案件を把握することができ、その類似案件を入力すれば、マッチング手段42による処理で、その類似案件に対する推薦案件を出力することができるので、対象案件に対する推薦案件だけではなく、対象案件の類似案件に対する推薦案件を出力することもでき、サービス担当者は、それを紹介することもできる。同様に、検索を繰り返せば、対象案件に対する推薦案件の類似案件や、対象案件の類似案件に対する推薦案件の類似案件も出力することができ、サービス担当者は、それらを紹介することもできる。従って、サービス担当者は、様々な角度から紹介する案件を見つけることができるので、ノウハウの少ない担当者でも、マッチング依頼者に対し、マッチング相手として適切な案件を紹介することができるとともに、紹介案件の選定作業の固定化を防ぐことができるので、偏った学習用データによるマッチングモデルの更新の未然防止を図ることができる。
In addition, the matching means 42 does not update the topic model obtained by the topic estimation process or the matching model obtained by learning using the matching feature data. Since it is output, the same item is always output as a recommended item with the same order (same score) for a certain item. And if this becomes a selection result and is reflected in the updating of the matching model, it will lead to promoting biased introductions. However, in the
さらに、連想検索手段41は、一般類似度Aと、固有テキストデータを用いて算出した固有類似度Bとを用いて最終類似度FSを算出し、最終類似度FSの高い順で関連単語を決定するので、関連単語を、単なる一般的な関連単語(入力したキーワードに対し、一般類似度Aが高い単語)ではなく、固有テキストデータの内容を反映した関連単語とすることができる。このため、マッチングという観点から、より一層、効果的な関連単語を、新たなキーワードとして入力することができる。つまり、連想検索手段41による処理では、関連案件の決定に用いる関連度CSを求める式(3)の中に、固有テキストデータにおける単語別出現回数C(i)が含まれているので、この関連度CSが、固有テキストデータを用いて算出されていることになるが、これに加え、関連案件の決定で使用される関連単語の決定に用いる最終類似度FSにも、固有テキストデータを用いて算出した固有類似度Bが関与するので、マッチングという観点から、より一層、効果的な処理を実現することができる。 Furthermore, the associative search means 41 calculates the final similarity FS using the general similarity A and the specific similarity B calculated using the specific text data, and determines related words in descending order of the final similarity FS. Therefore, the related words can be not just general related words (words with a high general similarity A to the input keyword), but can be related words reflecting the specific text data. Therefore, from the viewpoint of matching, a more effective related word can be input as a new keyword. In other words, in the processing by the associative search means 41, since the expression (3) for obtaining the degree of relevance CS used for determining the related case includes the frequency of occurrence C(i) for each word in the specific text data, this relation In addition to this, the final similarity FS used for determining related words used in determining related cases is also calculated using the unique text data. Since the calculated unique similarity B is involved, more effective processing can be realized from the viewpoint of matching.
また、マッチングシステム10は、トピック値予測手段36を備えているので、トピックモデルの更新を行わずに、新規案件の固有テキストデータを検索に反映させることができる(図23の新規案件の即時反映処理を参照)。このため、新規案件の固有テキストデータを含めたトピック推定処理によるトピックモデルの更新を行う前であっても、新規案件を対象案件とするマッチング処理を行うことができる。従って、トピックモデルの更新を行う前に、新規案件を含めた状態で、連想検索手段41、マッチング手段42、および類似案件検索手段43による各処理を繰り返す検索を行うことができる。換言すれば、トピックモデルの更新を行う前であっても、新規案件の案件識別情報(案件番号)を、入力部110(図11~図13参照)に入力することができ、また、新規案件が、処理結果として画面表示される関連案件、推薦案件、類似案件になり得る状態とすることができる。
In addition, since the
さらに、類似案件検索手段43は、式(4)に示すように、各案件の固有テキストデータにおける各トピックの出現確率を示すトピック値からなるトピック分布ベクトルと、各案件の固有テキストデータを構成する各単語の分散表現の平均値からなる文章ベクトルと、各案件の固有テキストデータについての単語重要度ベクトル(本実施形態では、TFIDFベクトル)とを用いて、対象案件とそれ以外の案件との間の案件類似度(PRスコア、ニーズスコア)を算出し、この案件類似度の高い順で対象案件の類似案件を抽出する構成とされているので、固有テキストデータ(自己データ、ニーズデータ)の記述内容を的確に反映させた、マッチングに役立つ類似案件の抽出処理を実現することができる。 Further, the similar project search means 43 constructs a topic distribution vector composed of topic values indicating the appearance probability of each topic in the unique text data of each project and the unique text data of each project, as shown in Equation (4). Using a sentence vector consisting of the average value of the distributed representation of each word and a word importance vector (TFIDF vector in this embodiment) for the unique text data of each case, The project similarity (PR score, needs score) is calculated, and similar projects to the target project are extracted in order of the high project similarity. It is possible to realize the process of extracting similar cases that accurately reflect the content and are useful for matching.
また、連想検索手段41は、図3に示すように、単語の出現回数を用いて固有類似度Bを算出する構成とされているので、各案件の固有テキストデータの記述内容を、より的確に反映した固有類似度Bを算出することができ、その固有類似度Bを用いて最終類似度FSを算出し、その最終類似度FSを用いて関連単語を決定することができる。このため、マッチングという観点から、より適切な関連単語の決定処理を行うことができる。 Further, as shown in FIG. 3, the associative search means 41 is configured to calculate the unique similarity B using the number of occurrences of words. A reflected inherent similarity B can be calculated, a final similarity FS can be calculated using the inherent similarity B, and related words can be determined using the final similarity FS. Therefore, from the viewpoint of matching, more appropriate related word determination processing can be performed.
さらに、入力受付手段40は、キーワードの入力および案件識別情報(案件番号)の入力を、同一の入力部110(図11~図13参照)で受け付け、いずれの入力であるかを自動判別する構成とされているので、入力部110を配置し、かつ、検索結果を表示する画面の構成が簡易になり、ユーザによる操作性の向上を図ることができる。
Further, the input receiving means 40 receives input of keywords and input of project identification information (project number) by the same input unit 110 (see FIGS. 11 to 13), and automatically determines which input is received. Therefore, the configuration of the screen on which the
そして、入力受付手段40は、検索履歴記憶手段61に記憶させたログ情報を用いて、各画面100,200,300(図11~図13参照)に設けられた「検索履歴」表示部130(図11では、表示部130の図示が省略されている。)に検索履歴の表示を行うので、ユーザは、この表示を見ることで、どのようなキーワードまたは案件識別情報(案件番号)をどのような順序で入力し、検索を行ってきたのかを容易に把握することができる。このため、ユーザの検索作業効率を向上させることができる。
Then, using the log information stored in the search
また、出力手段44は、参考案件の案件識別情報(案件番号)のメモ入力(図示は省略)を受け付け、登録時参考案件記憶手段69に記憶させる構成とされ、新規案件登録手段45は、登録時参考案件記憶手段69に記憶されている参考案件の案件識別情報を用いて、表示手段80に表示された新規案件登録画面(不図示)上において参考案件の案件データを表示する構成とされているので、ユーザは、その表示を見ながら、新規案件(自己の案件)の案件データの登録のための入力作業を行うことができる。このため、適切な案件データを容易に登録することができる。 In addition, the output means 44 receives a memo input (not shown) of the matter identification information (case number) of the reference case and stores it in the reference case storage means 69 at the time of registration. By using the case identification information of the reference case stored in the reference case storage means 69, the case data of the reference case is displayed on the new case registration screen (not shown) displayed on the display means 80. Therefore, the user can perform the input work for registering the item data of the new item (own item) while viewing the display. Therefore, appropriate item data can be easily registered.
<変形の形態> <Mode of deformation>
なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。 It should be noted that the present invention is not limited to the above-described embodiments, and includes modifications within the scope of achieving the object of the present invention.
(検索履歴表示に関する変形の形態:図24)
例えば、前記実施形態では、各画面100,200,300(図11~図13参照)に設けられた「検索履歴」表示部130(図11では、表示部130の図示が省略されている。)には、検索履歴の表示として、キーワードまたは案件識別情報を入力順に並べた表示が行われていたが、図24に示すような検索履歴の表示を行ってもよい。
(Modification of search history display: FIG. 24)
For example, in the above-described embodiment, the "search history" display section 130 (illustration of the
図24において、画面400には、前記実施形態の各画面100,200,300(図11~図13参照)と同様に、入力部110および「Search」ボタン120が設けられているが、前記実施形態の「検索履歴」表示部130(図11では、表示部130の図示が省略されている。)とは異なる「検索履歴」表示部430が設けられている。
In FIG. 24, a
「検索履歴」表示部430には、最下行から上方に向かって入力順に従って、キーワードまたは案件識別情報(案件番号)が並べられている。従って、図24の例は、キーワード「お酒」、案件番号「5678」、案件番号「6006」、…という順序で、入力部110への入力が行われたことを示している。なお、入力順は、最上行から下方に向かっていてもよい。
In the "search history"
また、「検索履歴」表示部430には、3つの列が設けられている。左列には、キーワードが表示され、中央列には、最初に入力された案件識別情報(案件番号)と同じ側の案件識別情報(案件番号)が表示され、右列には、最初に入力された案件識別情報(案件番号)と反対側の案件識別情報(案件番号)が表示される。同じ側・反対側というのは、マッチングを求める側か、マッチング相手側かという観点で区別したサイド情報である。なお、キーワード、同じ側の案件識別情報、反対側の案件識別情報の左右方向の並び順(各列の配置位置)は、図24の例に限定されず、任意であり、3つの情報が列によって区別されていればよい。また、図24の例では、上下方向が入力順(時間情報)を示し、左右方向が、キーワード、同じ側・反対側の案件識別情報の区別を示すようになっているが、上下方向と左右方向との関係を入れ替えてもよい。
In addition, the “search history”
「検索履歴」表示部430では、最初に入力された案件識別情報(案件番号)の案件が起点の案件(企業)となり、中央列と右列との間で、振り分け表示が行われる。図24の例では、案件番号「5678」が起点である。類似案件(類似企業)を選択して入力部110に入力すると、同じ列に表示され、推薦案件(推薦企業)を選択して入力部110に入力すると、反対側の列に表示される。よって、マッチング相手(推薦案件)のマッチング相手(推薦案件)は、元の列に戻る。一旦、キーワードが入力部110に入力されると、この関係はリセットされ、その後において、最初に入力された案件識別情報(案件番号)の案件が新たな起点の案件となる。図24の例では、案件番号「18777」が新たな起点である。なお、類似案件、推薦案件のいずれでもない案件の案件番号を入力部110に打鍵入力することもできるが、この場合も、それまでの関係はリセットされ、打鍵入力した案件番号が、新たな起点となる。
In the "search history"
さらに、「検索履歴」表示部430では、関連案件、類似案件、推薦案件のいずれの案件番号を選択入力したのかを示す文字表示も行われている。例えば、「6006・類似(売)」における「類似」の文字は、その直前に入力された案件番号「5678」の類似案件であることを示している。また、「6006・類似(売)」における「(売)」の文字は、ニーズフラグの情報であり、案件番号「6006」の案件のニーズフラグが「売」であることを示している。
Further, in the "search history"
「検索履歴」表示部430では、ニーズフラグの情報(ここでは、売買の別)と、類似案件の入力か推薦案件の入力かの区別に従った中央列・右列の振り分け表示によるサイド情報との整合性情報も表示される。すなわち、最初に入力した案件番号の案件のニーズフラグが「売」であれば、その案件に対する推薦案件は「買」の案件になり、さらにその推薦案件に対する推薦案件は「売」の案件に戻るのが自然であるため、中央列には「売」の案件番号が並び、右列には「買」の案件番号が並ぶのが自然である。最初に入力した案件番号の案件のニーズフラグが「買」であれば、この関係は全て逆になるのが自然である。従って、最初に入力した案件番号の案件(起点の案件)のニーズフラグに対し、そのような自然な状態が保たれていれば、通常の背景色(例えば白色)に通常色の文字(例えば黒字)を表示する通常表示になる。一方、ニーズフラグが「売買」(「売」と「買」の双方)になっている案件があることと、テキストデータである自己データやニーズデータが必ずしも「売」と「買」とを明確に区別した情報になっていないことから、上記のような自然な状態が保たれない場合があるので、その場合は、逆転が生じたことを示すため、赤色背景または赤字にする等の注意喚起表示が行われる。
In the "search history"
また、ユーザが最初に入力する案件番号の案件(企業)が、自分側(ユーザと同じ側)の案件なのか、マッチング相手側(ユーザと反対側)の案件なのかについては、前者のケースが多いものの、ユーザの意思表示を受け付けない限り、システムは正確にそれを把握することはできない。しかし、いずれのケースであっても、すなわちユーザの検索意図(最初にどちら側を選んだのか)が不明であっても、最初に入力された案件番号が起点になることに変わりはない。この起点の案件のニーズフラグが「売買」のときもあり得るが、その場合は、ニーズフラグの情報から見ても、最初からユーザの検索意図が不明であるため、以降の表示の全部(リセットされるまでの全部)を黄色背景または黄色字にする等により、整合性情報の表示が機能しない旨の注意喚起表示が行われる。 Also, whether the matter (company) of the matter number entered by the user first is the matter of the user (the same side as the user) or the matter of the matching partner (the opposite side of the user) depends on the former case. Although there are many, the system cannot accurately grasp it unless it accepts the user's expression of intention. However, in any case, that is, even if the user's search intention (which side was selected first) is unknown, the case number that was entered first remains the starting point. It is possible that the needs flag of this starting point is "trading", but in that case, the user's search intention is unknown from the beginning even from the information of the needs flag, so all subsequent displays (reset ) is displayed with a yellow background or yellow letters to alert the user that the display of consistency information does not work.
以上より、入力受付手段による「検索履歴」表示部430の表示には、次の(1)~(5)の機能がある。
As described above, the display of the "search history"
(1)キーワードまたは案件識別情報(案件番号)のいずれの入力を受け付けたのかという入力種別および入力順を示す基本機能がある。 (1) There is a basic function that indicates the type of input and the order of input, i.e., whether the input is a keyword or item identification information (item number).
(2)対象案件(入力された案件番号の案件)に対する推薦案件の案件識別情報の入力を受け付けたのか、対象案件の類似案件の案件識別情報の入力を受け付けたのかを区別する推薦・類似区別情報の表示機能がある。図24の例では、「推薦」および「類似」の文字で示されている。但し、推薦・類似区別情報は、文字表示ではなく、例えば、色分け表示や、網掛けの有無、枠囲いの有無等により実現してもよい。 (2) Recommendation/similarity discrimination for distinguishing whether input of project identification information for a recommended project for the target project (project with the input project number) has been received, or whether input of project identification information for a project similar to the target project has been received It has an information display function. In the example of FIG. 24, the characters "recommended" and "similar" are used. However, the recommendation/similarity distinguishing information may be realized by, for example, color-coded display, presence/absence of hatching, presence/absence of a frame, etc., instead of character display.
(3)案件識別情報(案件番号)の入力を受け付けた各案件が、互いに同じ側または反対側のいずれの案件かを区別するサイド情報の表示機能がある。起点の案件から見て、同じ側か反対側かというだけではなく、どの案件から見ても、他の案件が同じ側か反対側かがわかるようになっている。図24の例では、「6667・類似(買)」と「5295・推薦(買)」とが同じ側であることがわかり、「6667・類似(買)」と「11223・推薦(売)」とが反対側であることがわかる。このサイド情報の表示機能は、図24の例では、中央列・右列の振り分け表示で実現されている。但し、サイド情報は、列の振り分け表示ではなく、例えば、色分け表示や、網掛けの有無、枠囲いの有無等により実現してもよい。なお、このサイド情報の表示機能は、推薦案件の推薦案件を同じ側に表示するので、上記(2)の推薦・類似区別情報の表示機能とは異なる機能である。 (3) There is a function of displaying side information for distinguishing whether each case for which the input of the case identification information (case number) is received is on the same side or on the opposite side. It is not only possible to tell whether a project is on the same side or the opposite side as viewed from the starting point project, but it is also possible to see from any project whether other projects are on the same side or the opposite side. In the example of FIG. 24, it can be seen that "6667/similar (buy)" and "5295/recommended (buy)" are on the same side, and "6667/similar (buy)" and "11223/recommended (sell)" are on the same side. is the opposite side. In the example of FIG. 24, this side information display function is realized by sorting display of the center column and the right column. However, the side information may be realized by, for example, color-coded display, presence/absence of shading, presence/absence of frame enclosure, etc., instead of display by sorting columns. Note that this function of displaying side information is different from the function of displaying recommendation/similarity distinguishing information in (2) above, since the recommended items of the recommended items are displayed on the same side.
(4)ニーズフラグの情報の表示機能がある。各案件の案件データに、売・買の別、労働者・使用者の別、男・女の別、その他の対になる情報を示すニーズフラグ(図24の例では、売・買の別)が含まれていることが前提となる。図24の例では、「(売)」、「(買)」、「(売買)」という文字で示されている。但し、ニーズフラグの情報は、文字表示ではなく、例えば、色分け表示や、網掛けの有無、枠囲いの有無等により実現してもよい。 (4) There is a function of displaying information on needs flags. Needs flag indicating whether to buy or sell, whether to buy or not, whether to be a worker or an employer, whether to be a man or a woman, and other paired information in the item data of each item (in the example of Fig. 24, whether to buy or sell) is assumed to be included. In the example of FIG. 24, they are indicated by characters "(sell)", "(buy)", and "(buy)". However, the information of the needs flag may be realized by, for example, color-coded display, presence/absence of hatching, presence/absence of frame enclosure, etc., instead of character display.
(5)ニーズフラグの情報(図24の例では、売買の別)と、同じ側か反対側かを区別するサイド情報(図24の例では、類似案件の入力か推薦案件の入力かの区別に従った中央列・右列の振り分け表示)との整合性情報の表示機能がある。図24の例では、通常の背景色(例えば白色)に通常色の文字(例えば黒字)を表示する通常表示と、赤色背景または赤字にする等により逆転の発生を示す注意喚起表示と、黄色背景または黄色字にする等により整合性情報の表示が機能しない旨を示す注意喚起表示とがある。 (5) Need flag information (in the example of FIG. 24, whether it is trading) and side information that distinguishes whether it is on the same side or on the opposite side (in the example of FIG. 24, distinction between input of similar projects and input of recommended projects) There is a function to display consistency information with the distribution display of the center column and right column according to ). In the example of FIG. 24, a normal display in which normal-colored characters (for example, black characters) are displayed on a normal background color (for example, white), a warning display indicating the occurrence of reversal by making a red background or red characters, etc., and a yellow background. Alternatively, there is a warning display that indicates that the display of consistency information does not work by using yellow letters or the like.
これらの(1)~(5)の機能を伴う検索履歴表示処理を行うことにより、連想検索手段41、マッチング手段42、および類似案件検索手段43による各処理を繰り返す検索を行う中で、ユーザは、自分が今まで何をしてきたのか、今何をしているのか、さらには今から何をすればよいのかを把握し易くなるので、効率的な検索を行うことができる。 By performing search history display processing with these functions (1) to (5), the user can , it becomes easier to grasp what you have done so far, what you are doing now, and what you should do from now on, so you can perform efficient searches.
(新規案件の登録時における参考案件の表示に関する変形の形態:図25)
また、前記実施形態では、出力手段44により参考案件の案件識別情報(案件番号)のメモ入力(不図示)を受け付ける構成とされていたが、図25に示すような流れで、新規案件の登録時に、参考案件の案件データを表示するようにしてもよい。
(Modified form of display of reference cases when registering new cases: Fig. 25)
In the above-described embodiment, the output means 44 is configured to receive a memo input (not shown) of the item identification information (item number) of the reference item. Sometimes, the case data of the reference case may be displayed.
図25において、ユーザ(新規案件の登録を行う顧客(企業)、またはそのサービス担当者)は、検索を行っている最中に、画面200(図12参照)に表示されている関連案件や、画面300(図13参照)に表示されている推薦案件、類似案件を、参考案件として選択することができる。選択操作は、各関連案件、各推薦案件、各類似案件に対応して設けられたチェックボックスやラジオボタン等の選択入力操作でもよく、各関連案件、各推薦案件、各類似案件に対応して設けられたアイコンをドロップエリアにドラッグ&ドロップする操作でもよく、要するに、検索中に画面表示されている案件を直接に画面上で選択できればよい。検索中に画面が入れ替わり、既に選択済の案件が再表示された場合には、その案件のチェックボックスやラジオボタン等は、既に選択入力操作が行われた状態で表示される。また、ドロップエリアの周辺部(図25の例では、下部)には、選択済の案件の案件番号が表示されている。なお、選択取消用のドロップエリアを設けておき、選択取消を行うときには、そこにアイコンをドラッグ&ドロップするようにしてもよい。 In FIG. 25, a user (a customer (company) who registers a new item, or a person in charge of the service) is searching for related items displayed on the screen 200 (see FIG. 12), The recommended items and similar items displayed on the screen 300 (see FIG. 13) can be selected as reference items. The selection operation may be a selection input operation using check boxes or radio buttons provided corresponding to each related item, each recommended item, and each similar item. An operation of dragging and dropping a provided icon to the drop area may be used, and in short, it is sufficient to directly select an item displayed on the screen during a search on the screen. When the screen is switched during the search and the already selected item is displayed again, the check box, radio button, etc. of the item are displayed in a state in which the selection input operation has already been performed. In addition, the case number of the selected case is displayed in the peripheral part of the drop area (lower part in the example of FIG. 25). A drop area for canceling the selection may be provided, and the icon may be dragged and dropped there when canceling the selection.
そして、選択された参考案件の案件識別情報(案件番号)は、前記実施形態のメモ入力(不図示)の場合と同様に、出力手段44により、登録時参考案件記憶手段69に保存される。その後、ユーザが新規案件の登録を行う際に、新規案件登録手段45により、図25に示すような新規案件登録画面500が、表示手段80の画面上に表示される。
Then, the case identification information (case number) of the selected reference case is stored in the reference case storage means 69 at the time of registration by the output means 44 in the same manner as in the memo input (not shown) of the above-described embodiment. Thereafter, when the user registers a new item, the new item registration means 45 displays a new
図25において、新規案件登録画面500には、自己PR入力部510と、ニーズ詳細入力部520と、参考案件表示部530とが設けられている。参考案件表示部530には、案件番号の表示部531と、ニーズフラグの表示部532と、参考案件の自己PRテキストデータを新規案件の自己PR入力部510に自動的にコピー&ペーストするための選択ボタン533と、参考案件の自己PRテキストデータを新規案件のニーズ詳細入力部520に自動的にコピー&ペーストするための選択ボタン534と、参考案件のニーズ詳細テキストデータを新規案件の自己PR入力部510に自動的にコピー&ペーストするための選択ボタン535と、参考案件のニーズ詳細テキストデータを新規案件のニーズ詳細入力部520に自動的にコピー&ペーストするための選択ボタン536とが設けられている。このように選択ボタン533~536が、交差移動できるように設けられているのは、ニーズフラグが「売買」になっている案件(対になる情報の双方を指定している案件)があることと、ユーザが選択した参考案件が、必ずしもユーザ自身(新規登録を行う者)と同じ側の案件であるとは限らないことからである。
In FIG. 25, the new
ユーザは、選択ボタン533~536を選択操作し、参考案件のテキストデータをコピー&ペーストしてから、自分の案件用のテキストデータに編集することができる。また、選択ボタン533~536の選択操作を複数回行うことにより、新規案件の自己PR入力部510に、複数のテキストデータを自動的にコピー&ペーストすることもできる。この場合、上書きではなく、選択した順序で、次々に新規案件の自己PR入力部510に、選択したテキストデータが追加されていく。図25の例では、参考案件(案件番号=15542)の自己PRのテキストデータ「XXXXXXXX」の選択ボタン533と、参考案件(案件番号=8275)のニーズ詳細のテキストデータ「ZZZZZZZZ」の選択ボタン535とが、この順で選択されることにより、「XXXXXXXX」および「ZZZZZZZZ」が、自己PR入力部510にペーストされた状態となっている。新規案件のニーズ詳細入力部520にも同様に、複数のテキストデータを次々に自動的にコピー&ペーストすることができる。なお、選択ボタン533~536を選択操作するのではなく、画面500上で通常のコピー&ペーストの操作を行うことにより、参考案件のテキストデータの一部または全部(選択したコピー範囲)を、新規案件の自己PR入力部510やニーズ詳細入力部520にペーストしてもよい。
The user can select and operate
このように新規案件の登録時に参考案件の案件データ(自己PR、ニーズ詳細を含む)を表示し、ユーザ自身の案件の自己PR、ニーズ詳細の編集に利用することができるようにしておけば、新規案件の登録を行うユーザは、マッチング用のデータとして適切な案件データ(自己PR、ニーズ詳細を含む)の入力作業を容易に行うことができる。 In this way, if the project data (including self-promotion and needs details) of the reference project is displayed when registering a new project so that it can be used to edit the self-promotion and needs details of the user's own project, A user who registers a new project can easily input appropriate project data (including self-promotion and detailed needs) as data for matching.
(複数の案件識別情報の同時入力を受け付けることができる変形の形態:図26)
また、本発明のマッチングシステムは、図26に示すように、複数の案件を同時に入力することができるようにしてもよい。この場合、複数の案件の全てが対象案件となり、複数の対象案件からなる対象案件グループが構成される。そして、対象案件グループに対し、複数の推薦案件からなる推薦案件グループが表示される。この推薦案件グループは、対象案件グループに対し、一体としたマッチング処理により決定された推薦案件の集合であり、原則的には、複数の対象案件のそれぞれに対する個別のマッチング処理で決定された推薦案件を単純に寄せ集めたものではないが、集団マッチングアルゴリズムによっては、結果的に、そのような単純な寄せ集めと同じ表示状態になる場合もある。このように一体としたマッチング処理を行うのは、推薦案件グループを紹介する目的が、具体的には、例えば、複数の企業(対象案件グループ)と、別の複数の企業(推薦案件グループ)との名刺交換会、集団会合等の設定、あるいは、複数の男性(対象案件グループ)と、複数の女性(推薦案件グループ)との集団お見合い、合同飲食会の設定等であるため、1対1のマッチングを考慮するだけでは不十分だからである。一方、類似案件については、検索の利便性や多様性向上の観点から表示するので、一体としての抽出処理により類似案件グループを一体的に抽出するという概念はなく、対象案件グループを構成する複数の対象案件のそれぞれに対し、類似案件が表示される。これにより、対象案件グループを構成する複数の対象案件のうちの少なくとも一部の案件を、それぞれの類似案件に入れ替えて検索を行うことが可能となっている。
(Modified form that can receive simultaneous input of multiple item identification information: FIG. 26)
In addition, the matching system of the present invention may be configured so that a plurality of items can be input at the same time, as shown in FIG. In this case, all of the multiple projects become the target projects, and a target project group is composed of the multiple target projects. Then, a recommended case group including a plurality of recommended cases is displayed for the target case group. This recommended project group is a set of recommended projects determined by an integrated matching process for the target project group. is not a simple collection, but depending on the ensemble matching algorithm, it may result in the same display state as such a simple collection. The purpose of performing the integrated matching process in this way is to introduce a recommended case group. business card exchanges, group meetings, etc., group matchmaking with multiple men (target project group) and multiple women (recommended project group), joint dining parties, etc., so one-on-one This is because it is not enough just to consider the matching of . On the other hand, similar projects are displayed from the viewpoint of improving search convenience and diversity. Similar projects are displayed for each target project. As a result, it is possible to perform a search by replacing at least some of the multiple target cases that constitute the target case group with respective similar cases.
図26において、画面600には、入力部610と、検索を実行するための「Search」ボタン620と、「検索履歴」表示部630と、推薦案件グループを構成する案件数の入力部640とが設けられている。画面600のタイトルは、ビジネスマッチングになっているが、これに限定されるものではなく、例えば、男女の集団カップリング等でもよい。
In FIG. 26,
入力部610には、カンマ区切り、セミコロン区切り(図26の例)、ブランク挿入等により、対象案件グループを構成する複数の対象案件についての案件識別情報(案件番号)を同時に入力する。例えば、入力部610に5つの案件番号を同時に入力し、入力部640に「5」を入力すれば、5案件(5企業または5人)に対し、5案件からなる推薦案件グループが表示される。但し、対象案件グループを構成する対象案件の案件数と、推薦案件グループを構成する推薦案件の案件数とは、必ずしも一致させる必要はなく、例えば、5案件の対象案件グループに対し、10案件の推薦案件グループが表示されるようにしてもよい。なお、5案件の対象案件グループに対し、10案件の1つの推薦案件グループを表示するマッチング処理と、5案件の2つの推薦案件グループ(グループ番号=1,2)を表示するマッチング処理とは、異なる処理である。
In the
また、図26の画面600には、「対象案件」表示部650と、「推薦案件グループ」表示部660と、「類似案件一覧」表示部670と、1対象案件当たりの類似案件の表示数の入力部671とが設けられている。「対象案件」表示部650には、対象案件グループを構成する複数の対象案件の各々の案件データ(案件番号、自己PR、ニーズ詳細を含む)が表示される。
In addition, the
「推薦案件グループ」表示部660には、少なくとも1つの推薦案件グループが表示され、それぞれの推薦案件グループには、グループ番号が付与されている。各推薦案件グループを構成する複数の推薦案件の各々の案件データ(案件番号、自己PR、ニーズ詳細を含む)が表示される。表示される推薦案件グループの数は、システム管理者により入力され、設定データとして設定データ記憶手段51に記憶されているが、固定数としてもよい。また、ユーザが画面600で指定してもよい。なお、入力部640に入力するのは、1つの推薦案件グループを構成する案件の数であるから、ここでいう推薦案件グループの数とは異なる。また、ある推薦案件グループを構成する複数の推薦案件と、別の推薦案件グループを構成する複数の推薦案件とに重なりはない。
At least one recommended case group is displayed in the "recommended case group"
「類似案件一覧」表示部670には、対象案件グループを構成する複数の対象案件のそれぞれに対する複数の類似案件の案件データ(案件番号、自己PR、ニーズ詳細を含む)が表示される。いずれの対象案件に対する類似案件であるかがわかるように、対象案件の案件番号も表示される。1対象案件当たりの類似案件の表示数は、ユーザが入力部671に入力して指定するが、システム管理者が設定データとして入力して設定データ記憶手段51に記憶してもよく、固定数としてもよい。
The "similar case list"
なお、推薦案件グループの決定方法は、前述した特許文献1(本願出願人により開発されたマッチングシステム)に記載されているので、そのアルゴリズムを採用することができる。この集団マッチングアルゴリズムは、対象案件グループを構成する複数の対象案件(企業等)の全ての満足度が高くなるように推薦案件グループの決定を行うが、必ずしも厳密な意味での最適化処理を行う必要はない。要するに、1案件と1案件との間のマッチングスコアは、全てのペア案件について得られるので、それらのスコアを用いて、それぞれの集団マッチングアルゴリズム内において、スコアの合計値が大きくなるように推薦案件グループの決定を行えばよい。 Note that the method of determining the recommended case group is described in the above-mentioned Patent Document 1 (matching system developed by the applicant of the present application), so that algorithm can be adopted. This group matching algorithm determines the recommended project group so that the satisfaction of all the multiple target projects (companies, etc.) that make up the target project group is high, but it does not necessarily perform optimization processing in a strict sense. No need. In short, matching scores between one case and one case are obtained for all pair cases, and using those scores, within each group matching algorithm, recommend cases so that the total value of the score becomes large. Group decisions can be made.
例えば、A社、B社、C社、D社、E社の5案件(Nt案件)の対象案件グループに対し、10案件(Nc案件)の推薦案件グループを決定するものとする。この場合、登録された全ての案件(Na案件)からA社、B社、C社、D社、E社の5案件(Nt案件)を除いた(Na-Nt)案件からなる候補案件群を考える。この候補案件群の任意の1案件と、A社、B社、C社、D社、E社の5案件(Nt案件)との間の5つ(Nt個)のマッチングスコアの合計値を算出する。この合計値の算出を、候補案件群の(Na-Nt)案件の全てについて行う。そして、候補案件群の案件のうち、合計値が1番目に大きい案件、2番目、3番目、…、10番目(Nc番目)に大きい案件を、グループ番号=1の推薦案件グループを構成する10個(Nc個)の推薦案件として決定し、合計値が11番目((Nc+1)番目)から20番目(2×Nc番目)までの案件を、グループ番号=2の推薦案件グループを構成する10個(Nc個)の推薦案件として決定し、合計値が21番目((2×Nc+1)番目)から30番目(3×Nc番目)までの案件を、グループ番号=3の推薦案件グループを構成する10個(Nc個)の推薦案件として決定し、…というマッチング処理を実行する。 For example, it is assumed that a recommended case group of 10 cases (Nc cases) is determined for a target case group of 5 cases (Nt cases) of A company, B company, C company, D company, and E company. In this case, a group of candidate projects consisting of (Na-Nt) projects obtained by excluding 5 projects (Nt projects) of companies A, B, C, D, and E from all registered projects (Na projects) think. Calculate the total value of 5 (Nt) matching scores between any 1 project in this candidate project group and 5 projects (Nt projects) of Company A, Company B, Company C, Company D, and Company E do. This total value is calculated for all (Na-Nt) projects in the candidate project group. Among the projects in the candidate project group, the projects with the largest total value, the second, third, . number (Nc) of recommended projects, and 10 projects that make up a group of recommended projects with a group number of 2 from the 11th ((Nc+1)th) to the 20th (2×Ncth) total value (Nc) recommended cases, and the total value from the 21st ((2×Nc+1)th) to the 30th (3×Ncth) cases constitutes the recommended case group with the group number=3. The number (Nc) of recommended cases is determined, and the matching process of . . . is executed.
また、別の集団マッチングアルゴリズムとしては、例えば、先ず、(Na-Nt)案件からなる候補案件群の中から、A社、B社、C社、D社、E社の5案件(Nt案件)の各々とのマッチングスコアが最も高い5案件(Nt案件)を選択する。つまり、A社とのマッチングスコアが最も高い案件と、B社とのマッチングスコアが最も高い案件と、…を選択する。選択した5案件に重なりがなければ、5案件の全てを推薦案件として決定し、推薦案件として決定すべき残りの案件は5案件となるが、ここでは1案件について重なりがあったとすると、4案件を推薦案件として決定し、残りの案件は6案件となる。次に、A社、B社、C社、D社、E社の5案件(Nt案件)の各々とのマッチングスコアが2番目に高い5案件(Nt案件)を選択する。つまり、A社とのマッチングスコアが2番目に高い案件と、B社とのマッチングスコアが2番目に高い案件と、…を選択する。選択した5案件に重なりがなければ、5案件の全てを推薦案件として追加決定し、推薦案件として決定すべき残りの案件は1案件となるが、ここでも1案件について重なりがあったとすると、4案件を推薦案件として追加決定し、残りの案件は2案件となる。続いて、A社、B社、C社、D社、E社の5案件(Nt案件)の各々とのマッチングスコアが3番目に高い5案件(Nt案件)を選択する。つまり、A社とのマッチングスコアが3番目に高い案件と、B社とのマッチングスコアが3番目に高い案件と、…を選択する。残りの案件は2案件であるから、選択した5案件のうち、マッチングスコアが上位2番目までの案件を選択し、推薦案件として追加決定する。そして、グループ番号=2以降の推薦案件グループの決定では、A社、B社、C社、D社、E社の5案件(Nt案件)の各々とのマッチングスコアが4番目、5番目、6番目、…に高い5案件(Nt案件)を順次選択していく。 As another group matching algorithm, for example, first, five projects (Nt projects) of company A, company B, company C, company D, and company E are selected from a candidate project group consisting of (Na-Nt) projects. 5 projects (Nt projects) with the highest matching score with each of the . In other words, the case with the highest matching score with company A, the case with the highest matching score with company B, and so on are selected. If there is no overlap among the five selected cases, all of the five cases are determined as recommended cases, and the remaining cases that should be decided as recommended cases are five cases. was decided as a recommended project, and the remaining projects are 6 projects. Next, five projects (Nt projects) with the second highest matching score with each of the five projects (Nt projects) of A company, B company, C company, D company, and E company are selected. That is, the case with the second highest matching score with company A, the case with the second highest matching score with company B, and so on are selected. If there is no overlap among the selected 5 projects, all of the 5 projects are additionally determined as recommended projects, and the remaining project to be determined as a recommended project is 1 project. Additional proposals are determined as recommended proposals, and the remaining proposals are two proposals. Subsequently, five projects (Nt projects) with the third highest matching score with each of the five projects (Nt projects) of A company, B company, C company, D company, and E company are selected. That is, the case with the third highest matching score with company A, the case with the third highest matching score with company B, and so on are selected. Since there are two projects remaining, the projects with the second highest matching score among the selected five projects are selected and additionally determined as recommended projects. Then, in the determination of the group number of recommended projects after group number = 2, the matching scores with each of the five projects (Nt projects) of Company A, Company B, Company C, Company D, and Company E are 4th, 5th, and 6th. , , and so on (Nt cases) are sequentially selected.
図26に示すように、複数の案件番号の同時入力を受け付けることができる構成にすると、類似案件検索手段43により、対象案件グループを構成する複数の対象案件の各々についての類似案件が抽出され、「類似案件一覧」表示部670に、それらの類似案件の案件データが表示されるので、様々な観点から、紹介する案件グループを決定することができる。このため、ノウハウの少ないサービス担当者でも適切な紹介作業を行うことができるとともに、偏った紹介実績を含む学習用データによるマッチングモデルの更新の未然防止を図ることができる。
As shown in FIG. 26, when a configuration is adopted in which a plurality of case numbers can be simultaneously input, the similar cases for each of the plurality of target cases constituting the target case group are extracted by the similar case search means 43, Since the item data of these similar items are displayed in the "similar item list"
すなわち、マッチング手段42は、トピック推定処理で得られたトピックモデルの更新や、マッチング用特徴データを用いた学習で得られたマッチングモデルの更新が行われない限り、同じ入力に対しては、同じ出力をすることから、ある対象案件グループに対し、いつも同じ推薦案件グループが出力されることになる。しかし、図26に示すような表示を行うと、対象案件グループを構成する複数の対象案件のうちの少なくとも1つの案件を、それらの対象案件の類似案件に変えて検索を行ったり、あるいは、推薦案件グループを構成する複数の推薦案件のうちの少なくとも1つの案件を、それらの推薦案件の類似案件に変えて紹介すること等が可能となる。 That is, the matching means 42 does not update the topic model obtained by the topic estimation process or the matching model obtained by learning using the matching feature data. Since output is performed, the same recommended case group is always output for a certain target case group. However, when the display as shown in FIG. 26 is performed, at least one of the plurality of target cases that constitute the target case group is changed to a similar case to search or recommend. It is possible to change at least one item out of a plurality of recommended items that constitute the item group to an item similar to those recommended items and introduce the item.
以上のように、本発明のマッチングシステムおよびプログラムは、例えば、企業同士を組み合わせるビジネスマッチングシステム等に用いるのに適している。 As described above, the matching system and program of the present invention are suitable for use in, for example, business matching systems that combine companies.
10 マッチングシステム
36 トピック値予測手段
40 入力受付手段
41 連想検索手段
41A 連想検索手段を構成する単語類似度算出手段
41B 連想検索手段を構成する関連度算出手段
42 マッチング手段
42A マッチング手段を構成するマッチング用特徴データ作成手段
42B マッチング手段を構成するマッチングスコア算出手段
43 類似案件検索手段
43A 類似案件検索手段を構成する案件類似度算出手段
43B 類似案件検索手段を構成する類似案件抽出手段
44 出力手段
45 新規案件登録手段
53 分散表現モデル記憶手段
54 案件データ記憶手段
56 トピックモデル記憶手段
60 マッチングモデル記憶手段
68 案件類似度記憶手段
69 登録時参考案件記憶手段
10
Claims (9)
多数の案件の各々についての自己の特徴を記述したテキストデータからなる自己データ、およびマッチング相手に対するニーズを記述したテキストデータからなるニーズデータ、または、これらの自己データとニーズデータとを結合して得られた結合テキストデータを、各案件に固有の情報を記述した多数の固有テキストデータとして用いて、ソフトクラスタリングまたはニューラル言語モデルによるトピック推定処理を実行して得られた、各案件の固有テキストデータにおける各トピックの出現確率を示すトピック値を、案件識別情報と関連付けて記憶するとともに、当該トピック推定処理を実行して得られた各トピックにおける各単語の出現確率を記憶するトピックモデル記憶手段と、
キーワードまたは案件識別情報の入力を受け付ける処理を実行する入力受付手段と、
この入力受付手段により案件識別情報の入力を受け付けた場合に、受け付けた案件識別情報の案件をマッチング処理の対象案件とし、前記トピックモデル記憶手段に記憶されている各案件の前記固有テキストデータにおける各トピックの出現確率を示すトピック値を用いて、対象案件とこの対象案件のマッチング相手となる各候補案件とからなる複数のペアの各々についてのマッチング用特徴データを作成し、作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、対象案件に対して各候補案件が選定される確度を示すスコアを算出する処理を実行するマッチング手段と、
前記入力受付手段により案件識別情報の入力を受け付けた場合に、前記マッチング手段による処理と併せて、各案件の前記固有テキストデータを用いて算出した前記対象案件とそれ以外の案件との間の案件類似度の高い順で前記対象案件の類似案件を抽出する処理を実行する類似案件検索手段と、
前記入力受付手段によりキーワードの入力を受け付けた場合に、分散表現モデル記憶手段に記憶された単語の分散表現を用いて算出した前記キーワードとそれ以外の単語との間の一般類似度を最終類似度とするか、または、この一般類似度と、各案件の前記固有テキストデータを用いて算出した前記キーワードとそれ以外の単語との間の固有類似度とを用いて最終類似度を算出し、得られた最終類似度の高い順で前記キーワードの関連単語を決定するとともに、前記キーワードおよび前記関連単語の各々が、各案件の前記固有テキストデータの中に出現する単語別出現回数を求め、求めた単語別出現回数および前記関連単語の最終類似度を用いて算出した前記キーワードに対する各案件の関連度の高い順で関連案件を決定する処理を実行する連想検索手段と、
前記入力受付手段によりキーワードの入力を受け付けた場合には、前記連想検索手段により決定した前記関連案件、または、前記関連案件に加えて前記関連単語を、前記入力受付手段によるキーワードまたは案件識別情報の入力部と同一の画面上に表示し、前記入力受付手段により案件識別情報の入力を受け付けた場合には、前記マッチング手段により算出したスコアの高い前記候補案件を、推薦案件として前記入力部と同一の画面上に表示するとともに、前記類似案件検索手段により抽出した前記類似案件を、前記入力部と同一の画面上に表示する処理を実行する出力手段と
を備えたことを特徴とするマッチングシステム。 A matching system configured by a computer that executes matching processing that combines natural persons, legal persons, non-juristic bodies, or other cases,
Self-data consisting of text data describing the characteristics of each of a large number of projects, and needs data consisting of text data describing needs for matching partners, or obtained by combining these self-data and needs data Using the combined text data obtained as a large number of unique text data that describe information specific to each project, and performing topic estimation processing by soft clustering or neural language models, in the unique text data of each project topic model storage means for storing a topic value indicating the probability of occurrence of each topic in association with item identification information, and storing the probability of occurrence of each word in each topic obtained by executing the topic estimation process;
input receiving means for executing processing for receiving input of keywords or project identification information;
When the input receiving means receives the input of the item identification information, the item of the received item identification information is set as the item to be subjected to matching processing, and each item in the unique text data of each item stored in the topic model storage means is matched. Using the topic value that indicates the appearance probability of the topic, create matching feature data for each of a plurality of pairs consisting of the target case and each candidate case that is the matching partner of this target case, and create a plurality of created matching feature data By using each of the feature data as input data and using a matching model that has been pre-learned by two-class classification of whether or not to be selected and stored in a matching model storage means, classification processing by a supervised classification model is performed, a matching means for executing a process of calculating a score indicating the probability that each candidate project is selected with respect to the target project;
When the input receiving means receives the input of the project identification information, in conjunction with the processing by the matching means, the project between the target project calculated using the unique text data of each project and other projects Similar case search means for executing a process of extracting cases similar to the target case in descending order of similarity;
final similarity is the general similarity between the keyword and other words calculated using the distributed representation of the word stored in the distributed representation model storage means when the input of the keyword is received by the input receiving means; Or, using this general similarity and the unique similarity between the keyword and other words calculated using the unique text data of each case, calculate the final similarity, and obtain Related words of the keyword are determined in descending order of the final similarity obtained, and the number of appearances of each word in which the keyword and the related words appear in the specific text data of each project is obtained. an associative search means for executing a process of determining related cases in descending order of the degree of relevance of each case to the keyword calculated using the number of appearances for each word and the final similarity of the related words;
When an input of a keyword is received by the input receiving means, the related item determined by the associative search means or the related word in addition to the related item is added to the keyword or item identification information by the input receiving means. displayed on the same screen as the input unit, and when the input receiving means receives the input of the project identification information, the candidate project with the high score calculated by the matching means is the same as the input unit as the recommended project. and output means for displaying the similar cases extracted by the similar case search means on the same screen as the input unit.
前記マッチング手段は、
前記トピック値予測手段により求めた前記新規案件の前記固有テキストデータにおける各トピックの出現確率を示すトピック値と、前記トピックモデル記憶手段に記憶されている前記新規案件のマッチング相手となる各候補案件の前記固有テキストデータにおける各トピックの出現確率を示すトピック値とを用いて、前記新規案件と前記各候補案件とからなる複数のペアについてのマッチング用特徴データを作成し、作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されて前記マッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、前記新規案件に対して前記各候補案件が選定される確度を示すスコアを出力する処理を実行する構成とされ、
前記類似案件検索手段は、
前記新規案件およびそれ以外の各案件の前記固有テキストデータを用いて算出した前記新規案件とそれ以外の案件との間の案件類似度を含めて類似案件を抽出する処理を実行する構成とされ、
前記連想検索手段は、
前記キーワードおよび前記関連単語の各々が、前記新規案件を含めた各案件の前記固有テキストデータの中に出現する単語別出現回数を求め、求めた単語別出現回数および前記関連単語の最終類似度を用いて算出した前記キーワードに対する各案件の関連度の高い順で関連案件を決定する処理を実行する構成とされている
ことを特徴とする請求項1に記載のマッチングシステム。 The unique text data of the new issue using the unique text data of the new issue not used in the topic estimation process and the appearance probability of each word in each topic stored in the topic model storage means a topic value prediction means for executing a process of predicting a topic value indicating the appearance probability of each topic in
The matching means is
A topic value indicating the appearance probability of each topic in the specific text data of the new project obtained by the topic value prediction means, and a candidate project to be matched with the new project stored in the topic model storage means. creating matching feature data for a plurality of pairs of the new case and each candidate case using the topic value indicating the appearance probability of each topic in the unique text data, and creating a plurality of created matching features; Each of the data is used as input data, and using a matching model that has been pre-learned by two-class classification of whether or not it is selected and stored in the matching model storage means, classification processing by a supervised classification model is performed, and executing a process of outputting a score indicating the probability that each of the candidate projects is selected for the new project,
The similar case search means is
a process for extracting similar cases including the degree of similarity between the new case and the other cases calculated using the unique text data of the new case and each other case,
The associative search means is
Obtaining the number of occurrences of each word in which each of the keywords and the related words appears in the unique text data of each item including the new item, and calculating the final similarity of the obtained number of occurrences of each word and the related words. 2. The matching system according to claim 1, wherein a process for determining related cases is executed in descending order of the degree of relevance of each case to the keyword calculated using the keyword.
前記トピックモデル記憶手段に記憶されている各案件の固有テキストデータにおける各トピックの出現確率を示すトピック値からなるトピック分布ベクトルと、各案件の前記固有テキストデータを構成する各単語の分散表現の平均値からなる文章ベクトルと、各案件の前記固有テキストデータについての各単語のTFIDF値またはその他の単語重要度指標値からなる単語重要度ベクトルとのうちの少なくとも1つのベクトルを用いて算出した前記対象案件とそれ以外の案件との間の案件類似度の高い順で前記対象案件の類似案件を抽出する処理を実行する構成とされている
ことを特徴とする請求項1または2に記載のマッチングシステム。 The similar case search means includes:
A topic distribution vector consisting of a topic value indicating the appearance probability of each topic in the unique text data of each matter stored in the topic model storage means, and an average of the distributed representation of each word constituting the unique text data of each matter. and a word importance vector consisting of the TFIDF value or other word importance index value of each word for the unique text data of each project. 3. The matching system according to claim 1 or 2, wherein a process of extracting similar cases to the target case is executed in descending order of the degree of similarity between the case and other cases. .
前記入力受付手段は、
前記検索履歴記憶手段に記憶されている前記ログ情報を用いて、キーワードまたは案件識別情報のいずれの入力を受け付けたのかの入力種別および入力順を示すことに加え、
前記対象案件に対する前記推薦案件の案件識別情報の入力を受け付けたのか、前記対象案件の前記類似案件の案件識別情報の入力を受け付けたのかを区別する推薦・類似区別情報と、
前記推薦案件の案件識別情報と前記類似案件の案件識別情報との入力の受付を繰り返す中で、案件識別情報の入力を受け付けた案件が、マッチングを求める側の案件か、マッチング相手側の案件かという観点から、前記推薦案件については、案件識別情報の入力を受け付けた案件と反対側の案件とし、前記類似案件については、案件識別情報の入力を受け付けた案件と同じ側の案件とし、前記推薦案件に対する前記推薦案件については、案件識別情報の入力を受け付けた案件と同じ側の案件とすることにより、案件識別情報の入力を受け付けた各案件が、互いに同じ側または反対側のいずれの案件かを区別するサイド情報とのうちの少なくとも一方の情報を含む検索履歴表示処理を実行するか、
または、各案件の案件データに、売・買の別、労働者・使用者の別、男・女の別、その他の対になる情報を示すニーズフラグが含まれている場合に、前記推薦・類似区別情報と前記サイド情報とのうちの少なくとも一方の情報を含み、かつ、前記ニーズフラグを含む検索履歴表示処理を実行する構成とされている
ことを特徴とする請求項1~3のいずれかに記載のマッチングシステム。 Search history storage means for storing the keyword or project identification information received by the input reception means and log information including the input order thereof,
The input receiving means is
Using the log information stored in the search history storage means, in addition to indicating the input type and input order of whether the input of the keyword or the item identification information was accepted,
Recommendation/similarity distinguishing information for distinguishing whether input of item identification information of the recommended item for the target item has been received or input of item identification information of the similar item of the target item has been received;
Whether the input of the item identification information of the recommended items and the item identification information of the similar items is accepted repeatedly, and whether the item whose item identification information is input is the item on the matching requesting side or the matching partner's side. From this point of view, the recommended case is a case on the opposite side of the case for which the input of the case identification information is received, and the similar case is a case on the same side as the case for which the input of the case identification information is received. With respect to the above-mentioned recommended projects for the projects, by making the projects on the same side as the projects for which the input of the project identification information is received, it is possible to determine whether the projects for which the input of the project identification information is on the same side or on the opposite side. Execute a search history display process including at least one of the side information that distinguishes the
Alternatively, if the project data of each project includes a needs flag indicating whether it is a sale/buy, whether it is a worker/employer, whether it is a male/female, or other paired information, the recommendation/recommendation 4. The configuration according to any one of claims 1 to 3, wherein a search history display process including at least one of the similarity distinguishing information and the side information and including the needs flag is executed. Matching system described in.
前記出力手段は、
新規案件の登録時の参考案件として選択された前記関連案件、前記推薦案件、若しくは前記類似案件の案件識別情報またはその案件データを登録時参考案件記憶手段に記憶させる処理を実行する構成とされ、
前記新規案件登録手段は、
前記登録時参考案件記憶手段に記憶されている前記参考案件の案件識別情報を用いて前記案件データ記憶手段から前記参考案件の案件データを取得するか、または前記登録時参考案件記憶手段に記憶されている前記参考案件の案件データを取得し、取得した前記参考案件の案件データを、新規案件の案件データの入力部と同一の画面上に表示する処理を実行する構成とされている
ことを特徴とする請求項1~4のいずれかに記載のマッチングシステム。 a new matter registration means for accepting input of matter data of a new matter, assigning matter identification information, and storing the received matter data in the matter data storage means in association with the given matter identification information;
The output means is
executing a process of storing the item identification information of the related item, the recommended item, or the similar item selected as a reference item when registering a new item or the item data thereof in a reference item storage means upon registration,
The new matter registration means is
obtaining the item data of the reference item from the item data storage means using the item identification information of the reference item stored in the reference item storage means at the time of registration, or acquiring the item data of the reference item stored in the reference item storage means at the time of registration; and acquiring the project data of the reference project that is stored in the system, and displaying the acquired project data of the reference project on the same screen as the input unit for the project data of the new project. The matching system according to any one of claims 1 to 4.
前記一般類似度と前記固有類似度とを用いて前記最終類似度を算出する処理を実行する構成とされ、かつ、
全ての案件のうち、前記固有テキストデータの中に前記キーワードおよび前記一般類似度の高さで選定した一般類似単語の双方が含まれる各案件の集合Pにおける前記一般類似単語の出現回数によるか、または、集合Pにおける前記キーワードの出現回数および前記一般類似単語の出現回数による集合Pの評価値Psと、
前記固有テキストデータの中に前記キーワードが含まれず、かつ、前記一般類似単語が含まれる各案件の集合Qにおける前記一般類似単語の出現回数による集合Qの評価値Qsとを用いて、
Ps/(Ps+Qs)により、前記固有類似度を算出する処理を実行する構成とされている
ことを特徴とする請求項1~5のいずれかに記載のマッチングシステム。 The associative search means is
configured to execute a process of calculating the final similarity using the general similarity and the specific similarity, and
by the number of occurrences of the general similar word in a set P of all cases in which both the keyword and the general similar word selected according to the level of general similarity are included in the specific text data, or Alternatively, an evaluation value Ps of the set P based on the number of appearances of the keyword and the number of appearances of the general similar word in the set P,
Using the evaluation value Qs of the set Q based on the number of occurrences of the general similar word in the set Q of each case in which the keyword is not included in the unique text data and the general similar word is included,
6. The matching system according to any one of claims 1 to 5, wherein the process of calculating the unique similarity is executed by Ps/(Ps+Qs).
キーワードの入力および案件識別情報の入力を同一の入力部で受け付けた後、前記入力部に入力された情報が、キーワードであるか案件識別情報であるかを判断する処理を実行する構成とされている
ことを特徴とする請求項1~6のいずれかに記載のマッチングシステム。 The input receiving means is
After the input of the keyword and the input of the item identification information are accepted by the same input unit, the information input to the input unit is configured to determine whether the information is the keyword or the item identification information. The matching system according to any one of claims 1 to 6, characterized in that
複数の案件識別情報の同時入力を受け付けることができる構成とされ、
前記マッチング手段は、
前記入力受付手段により複数の案件識別情報の同時入力を受け付けた場合に、受け付けた複数の案件識別情報の各案件をまとめて1つのマッチング処理の対象案件グループとし、前記トピックモデル記憶手段に記憶されている各案件の固有テキストデータにおける各トピックの出現確率を示すトピック値を用いて、前記対象案件グループを構成する複数の対象案件の各々とこれらの複数の対象案件の各々のマッチング相手となる各候補案件とからなる複数のペアの各々についてのマッチング用特徴データを作成し、作成した複数のマッチング用特徴データの各々を入力データとして、選定されるか否かの2クラス分類で予め学習されてマッチングモデル記憶手段に記憶されたマッチングモデルを用いて、教師あり分類モデルによる分類処理を行うことにより、前記対象案件グループを構成する複数の対象案件の各々に対して各候補案件が選定される確度を示すスコアを算出し、
前記対象案件グループを構成する複数の対象案件の各々と、マッチング相手となる複数の候補案件の各々との間の各スコアの合計値が大きくなる複数の候補案件を選択し、選択した複数の候補案件を、推薦案件グループを構成する複数の推薦案件として決定する処理を実行する構成とされ、
前記類似案件検索手段は、
前記入力受付手段により複数の案件識別情報の同時入力を受け付けた場合に、前記マッチング手段による処理と併せて、前記対象案件グループを構成する複数の対象案件の各々について、各案件の前記固有テキストデータを用いて算出した前記対象案件とそれ以外の案件との間の案件類似度の高い順で前記対象案件の類似案件を抽出する処理を実行する構成とされ、
前記出力手段は、
前記入力受付手段により複数の案件識別情報の同時入力を受け付けた場合に、前記マッチング手段により決定した前記推薦案件グループを構成する複数の前記推薦案件を、前記入力部と同一の画面上に表示するとともに、前記類似案件検索手段により抽出した前記対象案件グループを構成する複数の対象案件の各々についての前記類似案件を、前記入力部と同一の画面上に表示する処理を実行する構成とされている
ことを特徴とする請求項1~7のいずれかに記載のマッチングシステム。 The input receiving means is
It is configured to be able to receive simultaneous input of multiple project identification information,
The matching means is
When simultaneous input of a plurality of item identification information is accepted by the input receiving means, each item of the received plurality of item identification information is grouped into one item group to be subjected to matching processing and stored in the topic model storage means. Using the topic value that indicates the appearance probability of each topic in the unique text data of each project, each of the plurality of target projects that make up the target project group and each matching partner of each of these multiple target projects Matching feature data is created for each of a plurality of pairs consisting of candidate cases, and each of the created plurality of matching feature data is used as input data, and is learned in advance by two-class classification of whether or not to be selected. Accuracy that each candidate case is selected for each of a plurality of target cases that constitute the target case group by performing classification processing by a supervised classification model using the matching model stored in the matching model storage means. Calculate a score that indicates
Selecting a plurality of candidate projects in which the total value of each score between each of the plurality of target projects constituting the target project group and each of the plurality of candidate projects to be matching partners is large, and selecting the plurality of selected candidates a process for determining a project as a plurality of recommended projects constituting a recommended project group,
The similar case search means is
when simultaneous input of a plurality of item identification information is received by the input receiving means, the unique text data of each item for each of the plurality of target items forming the target item group, together with the processing by the matching means; is configured to execute a process of extracting similar cases of the target case in descending order of the case similarity between the target case and other cases calculated using
The output means is
displaying a plurality of recommended items constituting the recommended item group determined by the matching unit on the same screen as the input unit when the input receiving unit receives simultaneous input of a plurality of items of item identification information; In addition, a process of displaying the similar cases for each of the plurality of target cases constituting the target case group extracted by the similar case search means on the same screen as the input unit is executed. The matching system according to any one of claims 1 to 7, characterized in that:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021098929A JP7192039B1 (en) | 2021-06-14 | 2021-06-14 | Matching system and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021098929A JP7192039B1 (en) | 2021-06-14 | 2021-06-14 | Matching system and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7192039B1 true JP7192039B1 (en) | 2022-12-19 |
JP2022190557A JP2022190557A (en) | 2022-12-26 |
Family
ID=84546054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021098929A Active JP7192039B1 (en) | 2021-06-14 | 2021-06-14 | Matching system and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7192039B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093716A (en) * | 2023-10-19 | 2023-11-21 | 湖南正宇软件技术开发有限公司 | Proposed automatic classification method, device, computer equipment and storage medium |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7534511B1 (en) | 2023-11-01 | 2024-08-14 | 株式会社大和総研 | Dashboard Systems and Programs |
JP7551180B1 (en) | 2023-12-22 | 2024-09-17 | 株式会社テクサー | Method, program and information processing system for providing event information to visitors |
JP7550418B1 (en) | 2024-01-15 | 2024-09-13 | ファーストアカウンティング株式会社 | Information processing device, information processing method, and program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010118064A (en) | 2008-11-14 | 2010-05-27 | Palo Alto Research Center Inc | Computer implemented method |
JP2015164022A (en) | 2014-02-28 | 2015-09-10 | 日本電気株式会社 | Matching device, matching method, and program |
US20170300563A1 (en) | 2016-04-14 | 2017-10-19 | Linkedin Corporation | Generating text snippets using supervised machine learning algorithm |
JP2021026413A (en) | 2019-08-01 | 2021-02-22 | 株式会社大和総研 | Matching system and program |
CN112800209A (en) | 2021-01-28 | 2021-05-14 | 上海明略人工智能(集团)有限公司 | Conversation corpus recommendation method and device, storage medium and electronic equipment |
-
2021
- 2021-06-14 JP JP2021098929A patent/JP7192039B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010118064A (en) | 2008-11-14 | 2010-05-27 | Palo Alto Research Center Inc | Computer implemented method |
JP2015164022A (en) | 2014-02-28 | 2015-09-10 | 日本電気株式会社 | Matching device, matching method, and program |
US20170300563A1 (en) | 2016-04-14 | 2017-10-19 | Linkedin Corporation | Generating text snippets using supervised machine learning algorithm |
JP2021026413A (en) | 2019-08-01 | 2021-02-22 | 株式会社大和総研 | Matching system and program |
CN112800209A (en) | 2021-01-28 | 2021-05-14 | 上海明略人工智能(集团)有限公司 | Conversation corpus recommendation method and device, storage medium and electronic equipment |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117093716A (en) * | 2023-10-19 | 2023-11-21 | 湖南正宇软件技术开发有限公司 | Proposed automatic classification method, device, computer equipment and storage medium |
CN117093716B (en) * | 2023-10-19 | 2023-12-26 | 湖南正宇软件技术开发有限公司 | Proposed automatic classification method, device, computer equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2022190557A (en) | 2022-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7192039B1 (en) | Matching system and program | |
Çalı et al. | Improved decisions for marketing, supply and purchasing: Mining big data through an integration of sentiment analysis and intuitionistic fuzzy multi criteria assessment | |
Abrahams et al. | An integrated text analytic framework for product defect discovery | |
US10303710B2 (en) | Systems and methods for identifying issues in electronic documents | |
US10204121B1 (en) | System and method for providing query recommendations based on search activity of a user base | |
Chehal et al. | Implementation and comparison of topic modeling techniques based on user reviews in e-commerce recommendations | |
US7451124B2 (en) | Method of analyzing documents | |
US20080215571A1 (en) | Product review search | |
Malik et al. | EPR-ML: E-Commerce Product Recommendation Using NLP and Machine Learning Algorithm | |
US20170103439A1 (en) | Searching Evidence to Recommend Organizations | |
KR20160144384A (en) | Context-sensitive search using a deep learning model | |
US20170371965A1 (en) | Method and system for dynamically personalizing profiles in a social network | |
WO2013149220A1 (en) | Centralized tracking of user interest information from distributed information sources | |
JP2008084151A (en) | Information display device and information display method | |
US20200409951A1 (en) | Intelligence Augmentation System for Data Analysis and Decision Making | |
JP2022042882A (en) | Document information extraction device and document information extraction method | |
Cöster et al. | Enhancing web-based configuration with recommendations and cluster-based help | |
Alsalama | A hybrid recommendation system based on association rules | |
Papadakis et al. | Content-based recommender systems taxonomy | |
US20210342344A1 (en) | Weighed Order Decision Making with Visual Representation | |
US20220156285A1 (en) | Data Tagging And Synchronisation System | |
JP2016197332A (en) | Information processing system, information processing method, and computer program | |
JP2020067864A (en) | Knowledge search device, method for searching for knowledge, and knowledge search program | |
Kwan et al. | A comparison study between content-based and popularity-based filtering via implementing a book recommendation system | |
Lu et al. | Clustering e-commerce search engines based on their search interface pages using WISE-Cluster |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7192039 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |