JP2020181495A

JP2020181495A - 変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体

Info

Publication number: JP2020181495A
Application number: JP2019085733A
Authority: JP
Inventors: 武人川村; Taketo Kawamura
Original assignee: NEC Solution Innovators Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2020-11-05
Anticipated expiration: 2039-04-26
Also published as: US20200342176A1; JP7351502B2

Abstract

【課題】テキストデータから、目的変数データ及び説明変数データを自動的に生成可能な変数データ生成装置を提供する。【解決手段】本発明の機械学習用の変数データ生成装置１において、テキストデータ取得手段１１は、テキストデータを取得し、変数グループ分類手段１２は、前記テキストデータを、複数の変数グループに分類し、変数スコア化手段１３は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、変数データ出力手段１４は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する。【選択図】図１

Description

本発明は、変数データ生成装置、予測モデル生成装置、変数データ生産方法、予測モデル生産方法、プログラム及び記録媒体に関する。

近年、機械学習の技術が進み、自動翻訳、音声認識、及び、画像認識（顔認証等）等の分野で利用されている。機械学習は、多量の学習データが必要である。例えば、特許文献１には、機械学習用の学習データを作成するために必要な膨大な量の情報収集に要する労力とコストを抑えるシステムが開示されている。

特開２０１９−０３２８５７号公報

旅行及び保険等のサービス分野では、ガイドの報告書及び営業報告書等のテキストデータがあり、これらのテキストデータを利用すれば、機械学習により、サービス提供に有用な予測モデルを生成できる可能性がある。しかしながら、これらのテキストデータから、機械学習の学習データ（目的変数データ及び説明変数データ）を自動的に生成する技術は無かった。

そこで、本発明は、テキストデータから、目的変数データ及び説明変数データを自動的に生成可能な変数データ生成装置及び変数データ生産方法の提供を目的とする。

前記目的を達成するために、本発明の機械学習用の変数データ生成装置は、テキストデータ取得手段、変数グループ分類手段、変数スコア化手段、及び、変数データ出力手段、を含み、前記テキストデータ取得手段は、テキストデータを取得し、前記変数グループ分類手段は、前記テキストデータを、複数の変数グループに分類し、前記変数スコア化手段は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、前記変数データ出力手段は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、装置である。

本発明の変数データ生産方法は、テキストデータ取得工程、変数グループ分類工程、変数スコア化工程、及び、変数データ出力工程、を含み、前記テキストデータ取得工程は、テキストデータを取得し、前記変数グループ分類工程は、前記テキストデータを、複数の変数グループに分類し、前記変数スコア化工程は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、前記変数データ出力工程は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、方法である。

本発明によれば、機械学習に必要な目的変数データ及び説明変数データを自動的に生成することが可能である。

図１は、実施形態１の装置の一例の構成を示すブロック図である。図２は、実施形態１の装置のハードウエア構成の一例を示すブロック図である。図３は、実施形態１の装置における処理の一例を示すフローチャートである。図４は、実施形態２における変数データ生成装置及び予測モデル生成装置の概念の一例を示す模式図である。図５は、実施形態２の装置におけるガイドレポートの一例を示す模式図である。図６は、実施形態２の装置におけるポジネガテーブルの一例を示す模式図である。図７は、実施形態２の装置における目的変数「ガイド」が、訪日客毎にスコア化されたスコアテーブルの一例を示す表である。図８は、実施形態２の装置における予測モデルから適合度を予測する一例を示す模式図である。図９は、実施形態２の装置における予測モデルから適合度を予測する一例を示す模式図である。図１０は、実施形態２の装置における予測モデルから適合度を予測する一例を示す模式図である。図１１は、実施形態２の装置における予測モデルから適合度を予測する一例を示す模式図である。図１２は、実施形態２の装置におけるレコメンドの内容の一例を示す表である。

本発明の変数データ生成装置において、前記変数スコア化手段は、単語段階評価基準テーブル、及び、単語抽出カウント手段、を含み、前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、前記変数スコア化手段は、前記抽出カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、前記グループのデータをスコア化する、という態様であってもよい。

前記態様の本発明の変数データ生成装置において、前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、という態様であってもよい。

前記態様の本発明の装置において、前記単語抽出カウント手段は、さらに、単語ベクトル化手段を含み、前記単語ベクトル化手段は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、前記単語抽出カウント手段は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語と類義語を抽出する、という態様であってもよい。

前記態様の本発明の装置において、前記単語段階評価基準テーブルにある各単語が、前記単語ベクトル化手段により、ベクトル化されており、前記単語抽出カウント手段は、前記共通する単語のベクトルと前記単語段階評価基準テーブルの各単語のベクトルとを比較し、予め定めた基準に基づき、前記単語段階評価基準テーブルの各単語から、前記共通する単語の類義語を抽出する、という態様であってもよい。

本発明の変数データ生成装置において、前記変数スコア化手段は、単語段階評価基準テーブル生成手段を含み、前記単語段階評価基準テーブル生成手段は、前記テキストデータ取得手段で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書（用語編）に掲載されている単語と共通する単語を抽出し、前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、という態様であってもよい。

本発明の変数データ生成装置において、前記テキストデータ取得手段が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、前記変数グループ分類手段は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、という態様であってもよい。

本発明の予測モデル生成装置は、変数データ生成手段、変数データ入力手段、機械学習手段、及び、予測モデル出力手段を含み、前記変数データ生成手段は、本発明の変数データ生成装置であり、前記変数データ入力手段により、前記変数データ生成手段で生成された目的変数データ及び説明変数データを、前記機械学習手段に入力し、前記機械学習手段は、機械学習により、予測モデルを生成し、前記予測モデル出力手段は、生成された前記予測モデルを出力する、装置である。

本発明の変数データ生産方法において、前記変数スコア化工程は、単語段階評価基準テーブルを使用する単語抽出カウント工程、を含み、前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、前記単語抽出カウント工程は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、前記変数スコア化工程は、前記抽出カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、前記グループのデータをスコア化する、という態様であってもよい。

前記態様の本発明の変数データ生産方法において、前記単語抽出カウント工程は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、という態様であってもよい。

前記態様の本発明の変数データ生産方法において、前記単語抽出カウント工程は、さらに、単語ベクトル化工程を含み、前記単語ベクトル化工程は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、前記単語抽出カウント工程は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語と類義語を抽出する、という態様であってもよい。

前記態様の本発明の変数データ生産方法において、前記単語段階評価基準テーブルにある各単語が、前記単語ベクトル化工程により、ベクトル化されており、前記単語抽出カウント工程は、前記共通する単語のベクトルと前記単語段階評価基準テーブルの各単語のベクトルとを比較し、予め定めた基準に基づき、前記単語段階評価基準テーブルの各単語から、前記共通する単語の類義語を抽出する、という態様であってもよい。

本発明の変数データ生産方法において、前記変数スコア化工程は、単語段階評価基準テーブル生成工程を含み、前記単語段階評価基準テーブル生成工程は、前記テキストデータ取得工程で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書（用語編）に掲載されている単語と共通する単語を抽出し、前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、という態様であってもよい。

本発明の変数データ生産方法において、前記テキストデータ取得工程が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、前記変数グループ分類工程は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、という態様であってもよい。

本発明の予測モデル生産方法は、変数データ生成工程、変数データ入力工程、機械学習工程、及び、予測モデル出力工程を含み、前記変数データ生成工程は、本発明の変数データ生産方法により実施され、前記変数データ入力工程により、前記変数データ生成工程で生成された目的変数データ及び説明変数データを、前記機械学習工程に入力し、前記機械学習工程は、機械学習により、予測モデルを生成し、前記予測モデル出力工程は、生成された前記予測モデルを出力する、という方法である。

本発明のプログラムは、本発明の方法をコンピュータ上で実行可能なプログラムである。

本発明の記録媒体は、本発明のプログラムを記録しているコンピュータ読み取り可能な記録媒体である。

次に、本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。

［実施形態１］
図１は、本実施形態の変数データ生成装置１の一例の構成を示すブロック図である。図１に示すように、本装置１は、テキストデータ取得手段１１、変数グループ分類手段１２、変数スコア化手段１３、及び、変数データ出力手段１４を含む。同図に示すように、変数スコア化手段１３は、単語段階評価基準テーブル１５及び単語抽出カウント手段１６を含んでいても良い。単語抽出カウント手段１６は、単語ベクトル化手段１７を含んでいてもよい。単語ベクトル化手段１７は、単語をベクトル化して数値情報に変換する手段であり、例えば、word2vecが使用できる。

本装置１の形態は、特に制限されないが、サーバ、パーソナルコンピュータ（ＰＣ、例えば、デスクトップ型、ノート型）が挙げられる。また、本装置１の構成手段１１〜１７は、別々の装置がネットワーク（通信回線網）で接続された態様であってもよい。

図２に、本装置１のハードウエア構成のブロック図を例示する。本装置１は、例えば、中央演算装置（ＣＰＵ、ＧＰＵ等）１０１、メモリ１０２、バス１０３、記憶装置１０４、入力装置１０５、表示装置（ディスプレイ）１０６、通信デバイス１０７等を有する。本装置１の各部は、それぞれのインタフェース（Ｉ／Ｆ）により、バス１０３を介して相互に接続されている。

中央演算装置（中央処理装置）１０１は、本装置１の全体の制御を担う。本装置１において、中央演算装置１０１により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、中央演算装置１０１が、テキストデータ取得手段１１、変数グループ分類手段１２、変数スコア化手段１３、及び、変数データ出力手段１４として機能する。なお、本発明では、機械学習を実施するので、中央演算装置１０１は、ＧＰＵが好ましい。

バス１０３は、例えば、外部機器とも接続できる。前記外部機器は、例えば、外部記憶装置（外部データベース等）、プリンター等があげられる。本装置１は、例えば、バス１０３に接続された通信デバイス１０７により、外部ネットワーク（通信回線網）に接続でき、外部ネットワークを介して、他の装置又は機器と接続することもできる。他の装置としては、例えば、管理者の端末（ＰＣ、サーバ、スマートフォン、タブレット等）がある。

本装置１は、例えば、さらに、入力装置１０５、ディスプレイ１０６を有する。入力装置１０５は、例えば、タッチパネル、キーボード、マウス等である。ディスプレイ１０６は、例えば、ＬＥＤディスプレイ、液晶ディスプレイ等が挙げられる。

本装置１において、メモリ１０２及び記憶装置１０４は、管理者からのアクセス情報及びログ情報、並びに、外部データベース（図示せず）から取得した情報を記憶することも可能である。

本装置１において、テキストデータ取得手段１１は、例えば、通信デバイス１０７により、外部ネットワークを介して、テキストデータを取得してもよい。前記外部ネットワークとしては、インターネット回線、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）、電話回線、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＤＴＮ（ＤｅｌａｙＴｏｌｅｒａｎｔＮｅｔｗｏｒｋｉｎｇ）等がある。通信デバイス１０７による通信は、有線でも無線でもよい。無線通信としては、ＷｉＦｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等が挙げられる。前記無線通信としては、各装置が直接通信する形態（ＡｄＨｏｃ通信）、アクセスポイントを介した間接通信のいずれであってもよい。

メモリ１０２は、例えば、メインメモリ（主記憶装置）が挙げられる。メインメモリは、例えば、ＲＡＭ（ランダムアクセスメモリ）である。また、メモリ１０２は、例えば、ＲＯＭ（読み出し専用メモリ）であってもよい。記憶装置１０４は、例えば、記憶媒体と、記憶媒体に読み書きするドライブとの組合せであってもよい。前記記憶媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、ＨＤ（ハードディスク）、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＭＯ、ＤＶＤ、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置１０４は、例えば、記憶媒体とドライブとが一体化されたハードディスクドライブ（ＨＤＤ）であってもよい。

図３のフローチャートに、本装置１の処理の一例を示す。まず、テキストデータ取得手段１１により、テキストデータを取得する（Ｓ１）。変数グループ分類手段１２により、前記テキストデータを、複数の変数グループに分類する（Ｓ２）。変数スコア化手段１３により、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化する（Ｓ３）。変数データ出力手段１４により、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する（Ｓ４）。前記出力された目的変数データ及び説明変数データを、後述する機械学習手段に入力すれば、機械学習手段は、機械学習により、説明変数から目的変数を予測する予測モデルを生成する。

本発明において、機械学習は特に制限されず、例えば、決定木、ランダムフォレスト、ニューラルネットワークを用いた学習（ディープラーニング）等が使用できる。

本発明の変数データ生成装置において、前述のように、変数スコア化手段１３は、単語段階評価基準テーブル１５、及び、単語抽出カウント手段１６を含む態様であってもよい。単語段階評価基準テーブル１５は、単語毎に段階評価基準を含む。単語抽出カウント手段１６は、変数グループのテキストデータから、単語段階評価基準テーブル１５にある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする。変数スコア化手段１３は、抽出カウントされた単語の個数及び単語段階評価基準テーブル１５の段階評価基準を基に、前記グループのデータをスコア化する。スコア化の例は、実施形態２で示す。

本発明の変数データ生成装置１において、前述のように、単語抽出カウント手段１６は、変数グループのテキストデータから、単語段階評価基準テーブル１５にある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、という態様であってもよい。この場合、単語抽出カウント手段１６は、さらに、単語ベクトル化手段１７を含むという態様であってもよい。この場合、単語ベクトル化手段１７は、変数グループのテキストデータと単語段階評価基準テーブル１５の双方に共通する単語をベクトル化（複数次元の数値化）し、単語抽出カウント手段１６は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語と類義語を抽出する、という態様であってもよい。

単語ベクトル化手段１７としては、前述のように、例えば、word2vec等が使用できる。以下、単語のベクトル化の例として、単語「楽しい」を例に挙げて説明する。単語ベクトル化手段１７は、例えば、「楽しい」と共起する他の単語との関係に基づいて、特徴量を演算し、前記演算した特徴量を「楽しい」のベクトルとする。すなわち、前記ベクトルは、単語の定義や意味的特徴が反映された分散表現として生成される。そのため、「楽しい」と類似する単語（類義語）は、前記ベクトルと類似するベクトルになる。

つぎに、前記類義語の抽出について、下記表１を用いて説明する。なお、下記表１は、例示であって、これに限定されない。前記類義語の抽出は、例えば、前述と同様にword2vec等が使用できる。

表１における「楽しい」は、前記変数グループのテキストデータと単語段階評価基準テーブル１５の双方に共通する単語である。まず、前述のように、単語ベクトル化手段１７により、「楽しい」をベクトル化する。つぎに、単語抽出カウント手段１６により、「楽しい」のベクトルと他の単語のベクトルとを比較する。前記他の単語は、特に限定されず、例えば、単語段階評価基準テーブル１５にある各単語でもよいし、外部データベース等にある各単語でもよい。単語段階評価基準テーブル１５にある各単語を使用する場合、前記各単語は、単語ベクトル化手段１７により、ベクトル化される。一方で、外部データベース等にある各単語を使用する場合も同様に、前記各単語は、単語ベクトル化手段１７により、ベクトル化されてもよい。

つぎに、単語抽出カウント手段１６により、予め定めた基準に基づき、「楽しい」の類義語（例えば、「幸せ」、「充実」及び「愉しい」等）が抽出される。前記類義語は、前記他の単語が単語段階評価基準テーブル１５にある各単語の場合、前記単語段階評価基準テーブルの各単語から抽出される。一方で、前記類義語は、前記他の単語が外部データベース等にある各単語の場合、単語段階評価基準テーブル１５にない単語を抽出することができる。前記予め定めた基準とは、特に限定されず、例えば、品詞等である。表１において、項目「採用」とは、前記類義語として採用したか否かを表している。表１において、「幸せ」、「充実」及び「愉しい」は、「楽しい」の類義語として採用されており、採用した類義語の品詞の形態を項目「採用」に表している。また、表１において、項目「順位」とは、後述する類似度に基づき、「楽しい」と類似する単語の順序を表している。さらに、表１において項目「類似度」とは、前記共通する単語と前記各類義語との類似の程度を算出した値を表している。

［実施形態２］
次に、図４から図１２に基づき本発明の変数データ生成装置１及び予測モデル生成装置２の例について説明する。

図４に、変数データ生成装置１と、変数データ生成装置１で生成された変数データを用いて予測モデルを生成する予測モデル生成装置２の概念を示す。同図に示す概念では、テキストデータとして、ガイドデータ（例えば、ガイドレポート）を用いて変数データを生成する。同図に示すように、ガイドデータ（ガイドレポートのテキストデータ）及び旅行会社が保有するテキストデータを、テキストデータ取得手段１１が取得し、変数データ生成装置１により、テキスト分析（変数グループ分類、及び、変数スコア化）する。ガイドデータとしては、例えば、観光内容、買い物、体験（感想）、食事等に関するガイドの報告書データがある。旅行会社保有データは、例えば、旅行内容（訪問先、移動手段、期間、費用等）データ、ガイドデータ、旅行客データ等がある。

図５に、ガイドレポートの一例を示す。図５に示すように、ガイドレポートは、作成年月日、作成したガイドの氏名、旅行日、旅行客（Ａ国からの４名、男性２名、女性２名等）、天気（晴れ時々曇り等）、行程（スポットＡ、スポットＢ、スポットＣ等の訪問したスポット等）、旅行客の印象又は感想（旅行客が感じたこと、又は、ガイドが観察した旅行客の印象等）が記載されている。

テキスト分析では、ポジ（ポジティブ）ネガ（ネガティブ）テーブル（すなわち、単語段階評価基準テーブル１５）に基づき、例えば、ツアー毎にポジネガラベル付きの変数ガイドデータを作成する。本例では、変数ガイドデータが、目的変数となる。

図６に、ポジネガテーブルの例を示す。同図では、単語（ｗｏｒｄ）毎に識別記号（ＩＤ）が付与され、ポジティブ（Ｐ）か、ネガティブ（Ｎ）かが記載されており、ポジティブまたはネガティブ判断の基準となる。例えば、ＩＤがＡ１のｗｏｒｄ「雨」はネガティブ（Ｎ）であり、ＩＤがＡ２のｗｏｒｄ「晴」はポジティブ（Ｐ）となる。また、前記類義語とは、前記共通する単語と類似する単語である。そのため、前記類義語が、前記ポジネガテーブルに記載されていなくても、前記共通する単語に基づき、ポジネガ判断が可能である。図示していないが、例えば、ポジネガテーブルにおいて、単語「楽しい」がポジティブである場合、「楽しい」の類義語である「幸せ」、「充実」及び「愉しい」等も同様にポジティブとなる。

本発明において、単語段階評価基準テーブルは、ポジネガテーブルのように、二段階評価でもよいが、これに限定されず、例えば、三段階評価、五段階評価等の多段階評価であってもよい。

本発明において、ポジネガテーブルは、特に制限されず、例えば、「日本語評価極性辞書（用語編）」（小林のぞみ，乾健太郎，松本裕治，立石健二，福島俊一. 意見抽出のための評価表現の収集. 自然言語処理，Vol.12, No.3, pp.203-222, 2005.）を用いても良い。

図７に目的変数「ガイド」が訪日客毎にスコア化されたスコアテーブルを示す。同図に示すように、スコアは、ガイドデータ及び旅行会社のデータで出現して抽出された単語（ｗｏｒｄ）の数、及び、評価基準（Ｐ＝１、Ｎ＝−１）に基づき、算出されるものである。例えば、ガイドＡのスコアは「８」となっており、関連付けられた訪日客Ａ（中国）に対し、高評価になっている。また、ガイドＦのスコアは「−１」であり、関連付けられた訪日客Ｆ（加国）に対し、低評価（マイナス評価）になっている。同図に示す、訪日客に関するデータは「説明変数」となり、また、スコア化されたガイドデータは、目的変数となり、これらの変数を機械学習（機械学習のフレームワーク）に入力すれば、予測モデルが生成される。

次に、図４に示すように、変数データ生成装置１は、テキスト分析前のガイドデータから説明変数を生成する。前記ガイドデータは、例えば、旅行客情報、ガイド情報及びツアー実施情報等の情報から構成されている。これらの情報は、例えば、ツアー実施後にガイドの報告書及び営業報告書等のテキストデータとして記録される。前記説明変数は、前記ガイドデータを構成する情報であり、且つ、テキスト化されていないデータである。具体的に、前記旅行客情報としては、例えば、国籍、年齢、性別、グループ構成、希望、訪問回数、宿泊先、食事制限等が挙げられる。また、前記ガイド情報としては、例えば、性別、年齢、通訳案内士資格の有無、資格取得時期、ガイド実施経験数等が挙げられる。また、前記ツアー実施情報としては、例えば、ツアー、スポット、ガイド日時、ツアー時間、天気、気温、スポット評価、スポットでの消費金額、消費した物及びサービス等が挙げられる。前記説明変数の生成は、例えば、上記例示した説明変数の中から、最もツアー成功（すなわち、高評価なスコア）に起因する情報を、過去のデータから検出することで、実施される。変数データ生成装置１は、例えば、前記検出された情報に対し、特徴フラグを付与することで、ツアー成功への影響度が高い説明変数を生成できる。

本例において、目的変数（例えば、ツアー毎にポジネガラベルが付いたガイドデータ）に、スポット区分付与をしてもよい。スポット区分とは、スポットを説明する区分のことである。スポット区分付与について、前記スポットとして「明治神宮」を例に挙げて説明する。スポット区分付与は、「明治神宮」に関する説明文を形態素解析して単語を抽出する。前記抽出された単語の中からスポット名である「明治神宮」以外に多く抽出された単語（例えば、神社等）を前記スポット区分として付与する。前記説明文は、例えば、Ｗｅｂｓｉｔｅから取得した情報であってもよく、前記説明文を複数取得してもよい。

なお、図示していないが、説明変数には、オープンデータも付加情報として、追加してもよい。オープンデータとは、例えば、ｗｅｂｓｉｔｅ上で自由に収集できるデータであり、旅行実施の際の年月日、時刻、平日・休日、現地天気、現地気温、日照時間（日の出時間、日の入り時間）等がある。これらのオープンデータも、説明変数としては有用な場合がある。

図４に示すように、目的変数及び説明変数を機械学習のフレームワーク（例えば、ランダムフォレスト）に入力することで、予測モデルを生成することができる。機械学習のフレームワークはオープンソースのものを使用してもよい。また、本例において、レコメンド機能を採用してもよい。レコメンド機能としては、例えば、協調フィルタリングがある。そして、予測モデルを搭載した旅行適合度予測装置が生成される。旅行適合度予測装置は、説明関数に関するデータを入力すれば、適合度を予測（シミュレーション）して、シミュレーション（予測）結果を出力する。その際、レコメンド機能がある場合は、適合度のレコメンド（推奨）の順位をつけて、シミュレーション結果を出力してもよい。

本発明では、旅行内容データ、旅行客データ、及び、旅行ガイドデータの少なくとも一つのデータを目的変数とし、他のデータを説明変数として、それぞれ３通りの機械学習を実施すれば、３つの予測モデルが生成され、３つの予測モデルを旅行適合度予測装置に搭載すれば、図８に示すように、三方向の予測（シミュレーション）が可能となる。本例の旅行適合度予測装置は、例えば、旅行内容データを入力すれば、推奨旅行客及び推奨旅行ガイドの少なくとも一方が出力され、旅行客データを入力すれば、推奨旅行内容及び推奨旅行ガイドの少なくとも一方が出力され、旅行ガイドデータを入力すれば、推奨旅行客及び推奨旅行内容を出力する。したがって、本例の旅行適合度予測装置は、旅行客、旅行ガイド、及び、旅行提供者（旅行会社）において、有用に使用することが可能である。

図９は、入力データとして「旅行客データ」を入力した例である。グループ人数、出身国、性別、年齢及び趣味嗜好等の旅行客データを旅行適合度予測装置に入力すれば、推奨ガイドと推奨旅行内容が出力される。

図１０は、入力データとして「旅行内容データ」を入力した例である。期間（季節）、エリア、訪問先、費用等の旅行内容データを旅行適合度予測装置に入力すれば、推奨旅行客と推奨ガイドが出力される。

図１１は、入力データとして「ガイドデータ」を入力した例である。年齢、性別、使用可能言語、得意地域、得意分野（歴史等）、通訳案内士資格の有無、資格取得時期、ガイド実施経験数等のガイドデータを旅行適合度予測装置に入力すれば、推奨旅行客と推奨旅行内容が出力される。

図１２は、本例の旅行適合度予測装置が出力する予測結果において、旅行客に対するレコメンドの内容を示す。同図に示すように、推奨ガイドが１位から５位まで示されており、かつ、推奨ガイド毎に、推奨スポット（訪問先）が１位から５位まで示されている。なお、図示していないが、本例の旅行適合度予測装置によれば、前記推奨スポットと同様に、ツアー（スポットの組合せ）、天気、気温、ツアー時間及びスポットを訪れる時間等の情報も推奨可能である。本例の旅行適合度予測装置は、前記推奨可能な情報を単独で推奨してもよいし、組み合わせて推奨してもよい。さらに、推奨ガイドＡ等の出力以外に、推奨ガイド等を実施するのに適したガイドデータの形式で出力することも可能である。前記ガイドデータは、例えば、前述と同様である。また、前記予測結果の出力は、同図に示すような旅行客基点だけではなく、例えば、スポットまたはガイドを基点とした出力も可能である。スポット基点としては、例えば、前記スポットに対し、満足度が上がる推奨旅行客の順位及びツアーガイドの順位等が出力される。一方で、ガイド基点としては、例えば、前記ガイドに対し、相性が良い推奨旅行客の順位及びツアースポットの順位等が出力される。

以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。

＜付記＞
上記の実施形態の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
（付記１）
テキストデータ取得手段、変数グループ分類手段、変数スコア化手段、及び、変数データ出力手段、を含み、
前記テキストデータ取得手段は、テキストデータを取得し、
前記変数グループ分類手段は、前記テキストデータを、複数の変数グループに分類し、
前記変数スコア化手段は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、
前記変数データ出力手段は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、
機械学習用の変数データ生成装置。
（付記２）
前記変数スコア化手段は、単語段階評価基準テーブル、及び、単語抽出カウント手段、を含み、
前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、
前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、
前記変数スコア化手段は、前記抽出カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、前記グループのデータをスコア化する、
付記１記載の変数データ生成装置。
（付記３）
前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、
付記２記載の変数データ生成装置。
（付記４）
前記単語抽出カウント手段は、さらに、単語ベクトル化手段を含み、
前記単語ベクトル化手段は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、
前記単語抽出カウント手段は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語の類義語を抽出する、
付記３記載の変数データ生成装置。
（付記５）
前記単語段階評価基準テーブルにある各単語が、前記単語ベクトル化手段により、ベクトル化されており、
前記単語抽出カウント手段は、前記共通する単語のベクトルと前記単語段階評価基準テーブルの各単語のベクトルとを比較し、予め定めた基準に基づき、前記単語段階評価基準テーブルの各単語から、前記共通する単語の類義語を抽出する、付記４記載の変数データ生成装置。
（付記６）
前記変数スコア化手段は、単語段階評価基準テーブル生成手段を含み、
前記単語段階評価基準テーブル生成手段は、前記テキストデータ取得手段で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書（用語編）に掲載されている単語と共通する単語を抽出し、
前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、
付記１から５のいずれかに記載の変数データ生成装置。
（付記７）
前記テキストデータ取得手段が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、
前記変数グループ分類手段は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、
付記１から６のいずれかに記載の変数データ生成装置。
（付記８）
変数データ生成手段、変数データ入力手段、機械学習手段、及び、予測モデル出力手段を含み、
前記変数データ生成手段は、付記１から７のいずれかに記載の変数データ生成装置であり、
前記変数データ入力手段により、前記変数データ生成手段で生成された目的変数データ及び説明変数データを、前記機械学習手段に入力し、
前記機械学習手段は、機械学習により、予測モデルを生成し、
前記予測モデル出力手段は、生成された前記予測モデルを出力する、
予測モデル生成装置。
（付記９）
テキストデータ取得工程、変数グループ分類工程、変数スコア化工程、及び、変数データ出力工程、を含み、
前記テキストデータ取得工程は、テキストデータを取得し、
前記変数グループ分類工程は、前記テキストデータを、複数の変数グループに分類し、
前記変数スコア化工程は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、
前記変数データ出力工程は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、
機械学習用の変数データ生産方法。
（付記１０）
前記変数スコア化工程は、単語段階評価基準テーブルを使用する単語抽出カウント工程、を含み、
前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、
前記単語抽出カウント工程は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、
前記変数スコア化工程は、前記抽出カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、前記グループのデータをスコア化する、
付記９記載の変数データ生産方法。
（付記１１）
前記単語抽出カウント工程は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、
付記１０記載の変数データ生産方法。
（付記１２）
前記単語抽出カウント工程は、さらに、単語ベクトル化工程を含み、
前記単語ベクトル化工程は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、
前記単語抽出カウント工程は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語の類義語を抽出する、
付記１１記載の変数データ生成方法。
（付記１３）
前記単語段階評価基準テーブルにある各単語が、前記単語ベクトル化工程により、ベクトル化されており、
前記単語抽出カウント工程は、前記共通する単語のベクトルと前記単語段階評価基準テーブルの各単語のベクトルとを比較し、予め定めた基準に基づき、前記単語段階評価基準テーブルの各単語から、前記共通する単語の類義語を抽出する、付記１２記載の変数データ生成方法。
（付記１４）
前記変数スコア化工程は、単語段階評価基準テーブル生成工程を含み、
前記単語段階評価基準テーブル生成工程は、前記テキストデータ取得工程で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書（用語編）に掲載されている単語と共通する単語を抽出し、
前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、
付記９から１３のいずれかに記載の変数データ生産方法。
（付記１５）
前記テキストデータ取得工程が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、
前記変数グループ分類工程は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、
付記９から１４のいずれかに記載の変数データ生産方法。
（付記１６）
変数データ生成工程、変数データ入力工程、機械学習工程、及び、予測モデル出力工程を含み、
前記変数データ生成工程は、付記９から１５のいずれかに記載の変数データ生産方法により実施され、
前記変数データ入力工程により、前記変数データ生成工程で生成された目的変数データ及び説明変数データを、前記機械学習工程に入力し、
前記機械学習工程は、機械学習により、予測モデルを生成し、
前記予測モデル出力工程は、生成された前記予測モデルを出力する、
予測モデル生産方法。
（付記１７）
付記９から１６のいずれかに記載の方法をコンピュータ上で実行可能なプログラム。
（付記１８）
付記１７記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。

本発明によれば、機械学習に必要な目的変数データ及び説明変数データを自動的に生成することが可能である。このため、本発明によれば、機械学習を利用して様々な予測モデルを生成でき、機械学習を利用した様々な分野に有用である。

１変数データ生成装置
２予測モデル生成装置
１１テキストデータ取得手段
１２変数グループ分類手段
１３変数スコア化手段
１４変数データ出力手段
１５単語段階評価基準テーブル
１６単語抽出カウント手段
１７単語ベクトル化手段
１０１中央演算装置
１０２メモリ
１０３バス
１０４記憶装置
１０５入力装置
１０６表示装置
１０７通信デバイス

Claims

テキストデータ取得手段、変数グループ分類手段、変数スコア化手段、及び、変数データ出力手段、を含み、
前記テキストデータ取得手段は、テキストデータを取得し、
前記変数グループ分類手段は、前記テキストデータを、複数の変数グループに分類し、
前記変数スコア化手段は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、
前記変数データ出力手段は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、
機械学習用の変数データ生成装置。
前記変数スコア化手段は、単語段階評価基準テーブル、及び、単語抽出カウント手段、を含み、
前記単語段階評価基準テーブルは、単語毎に段階評価基準を含み、
前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントし、
前記変数スコア化手段は、前記抽出カウントされた単語の個数及び前記単語段階評価基準テーブルの段階評価基準を基に、前記グループのデータをスコア化する、
請求項１記載の変数データ生成装置。
前記単語抽出カウント手段は、前記変数グループのテキストデータから、前記単語段階評価基準テーブルにある単語及び前記単語の類義語と共通する単語を抽出し、かつ、前記抽出した共通する単語の個数をカウントする、
請求項２記載の変数データ生成装置。
前記単語抽出カウント手段は、さらに、単語ベクトル化手段を含み、
前記単語ベクトル化手段は、前記変数グループのテキストデータと前記単語段階評価基準テーブルの双方に共通する単語をベクトル化し、
前記単語抽出カウント手段は、前記共通する単語のベクトルと他の単語のベクトルとを比較し、予め定めた基準に基づき、前記共通する単語の類義語を抽出する、
請求項３記載の変数データ生成装置。
前記変数スコア化手段は、単語段階評価基準テーブル生成手段を含み、
前記単語段階評価基準テーブル生成手段は、前記テキストデータ取得手段で取得した複数の日本語テキストデータを形態素解析して単語に分解し、日本語評価極性辞書（用語編）に掲載されている単語と共通する単語を抽出し、
前記抽出された単語及び前記抽出された単語についての日本語評価極性辞書の評価情報を紐づけてテーブルにする、
請求項１から４のいずれか一項に記載の変数データ生成装置。
前記テキストデータ取得手段が取得するテキストデータが、旅行内容データ、旅行客データ、及び、旅行ガイドデータであり、
前記変数グループ分類手段は、前記旅行内容データを旅行内容変数に分類し、前記旅行客データを旅行客変数に分類し、前記旅行ガイドデータを旅行ガイド変数に分類する、
請求項１から５のいずれか一項に記載の変数データ生成装置。
変数データ生成手段、変数データ入力手段、機械学習手段、及び、予測モデル出力手段を含み、
前記変数データ生成手段は、請求項１から６のいずれか一項に記載の変数データ生成装置であり、
前記変数データ入力手段により、前記変数データ生成手段で生成された目的変数データ及び説明変数データを、前記機械学習手段に入力し、
前記機械学習手段は、機械学習により、予測モデルを生成し、
前記予測モデル出力手段は、生成された前記予測モデルを出力する、
予測モデル生成装置。
テキストデータ取得工程、変数グループ分類工程、変数スコア化工程、及び、変数データ出力工程、を含み、
前記テキストデータ取得工程は、テキストデータを取得し、
前記変数グループ分類工程は、前記テキストデータを、複数の変数グループに分類し、
前記変数スコア化工程は、複数の前記変数グループのうち、少なくとも一つのグループのデータについて、他のグループのデータに関連付けてスコア化し、
前記変数データ出力工程は、スコア化された前記グループの各データを目的変数とし、かつ、スコア化された前記グループに関連付けられたグループの各データを説明変数として、出力する、
機械学習用の変数データ生産方法。
変数データ生成工程、変数データ入力工程、機械学習工程、及び、予測モデル出力工程を含み、
前記変数データ生成工程は、請求項８記載の変数データ生産方法により実施され、
前記変数データ入力工程により、前記変数データ生成工程で生成された目的変数データ及び説明変数データを、前記機械学習工程に入力し、
前記機械学習工程は、機械学習により、予測モデルを生成し、
前記予測モデル出力工程は、生成された前記予測モデルを出力する、
予測モデル生産方法。
請求項８または９記載の方法をコンピュータ上で実行可能なプログラム。