JP7375096B2

JP7375096B2 - 分散表現生成システム、分散表現生成方法及び分散表現生成プログラム

Info

Publication number: JP7375096B2
Application number: JP2022066837A
Authority: JP
Inventors: 裕也根本; 拓小泉; 康亮竹田; 裕規杉原
Original assignee: Mizuho Research and Technologies Ltd
Current assignee: Mizuho Research and Technologies Ltd
Priority date: 2021-09-02
Filing date: 2022-04-14
Publication date: 2023-11-07
Anticipated expiration: 2042-04-14
Also published as: JP2023036511A

Description

本開示は、系列データで用いる分散表現を生成する分散表現生成システム、分散表現生成方法及び分散表現生成プログラムに関する。

多様な分野で、自然言語処理が利用されている。この自然言語処理においては、単語を実数値ベクトルで表す分散表現を用いる。この分散表現を用いることで、単語と単語の演算が可能になる。例えば、所定の対象に対する利用者の印象を誘導するための配信情報の指標を提供する情報提供装置が検討されている（例えば、特許文献１を参照。）。この特許文献に記載された情報提供装置は、所定のコンテキストに対する印象の誘導指標を示すコンテキストを取得する。そして、複数のコンテキストが有する相対的な関連性に基づいて生成された各コンテキストの分散表現から、所定のコンテキストの分散表現および誘導指標を示すコンテキストの分散表現と所定の関連性を有する他の分散表現を特定する。そして、特定部が特定した他の分散表現と対応するコンテキストを提供する。

このような単語の分散表現手法の分類として、単語毎に一意に分散表現（意味）が決まる「文脈依存なし」の手法や、文脈に応じて分散表現が変化する「文脈依存あり」の手法が存在する。「文脈依存なし」の手法としては、例えば、Word2Vec、FastText等が知られている。また、「文脈依存あり」の手法としては、BERT（Bidirectional Encoder Representations from Transformers）、XLNet等が知られている。

ここで、Word2Vecには、CBOW（Continuous Bag-of-Words）とSkip-gramという２つの手法がある。CBOWにおいては、周辺の単語から関心のある単語を学習する。一方、Skip-gramにおいては、関心のある単語から周辺の単語を学習する。このSkip-gramは、CBOWよりも高い精度を示すことが知られている（非特許文献１参照。）。

以下では、図１２を用いて、Skip-gramによるWord2Vecの学習処理を説明する。ここでは、教師情報として用いる複数の文に含まれるすべての単語について、各単語をユニークに特定できるone-hotベクトルを用意する。このone-hotベクトルは、単語のボキャブラリー数に応じた次元を有し、この単語を表わす成分のみが「１」で、その他の成分を「０」で表現したベクトルである。

教師文５００に含まれる単語において、単語（ｎ－２）～単語（ｎ＋２）の順番で並んでいる場合、入力単語である単語（ｎ）のone-hotベクトル（one-hot（ｎ））を用意する。

次に、one-hot（ｎ）と入力重み行列W_V×Nから、入力単語に対応する入力ベクトルを作成する。なお、「Ｖ」はボキャブラリー数、「Ｎ」は分散表現の次元数である。

また、任意個の予測する周辺単語を、one-hotベクトルとして用意する。ここでは、周辺前後の２つの単語を用いて、単語（ｎ－２），（ｎ－１），（ｎ＋１），（ｎ＋２）のone-hotベクトルとして、one-hot（ｎ－２），（ｎ－１），（ｎ＋１），（ｎ＋２）を用意する場合を想定する。

次に、one-hot（ｎ－２），（ｎ－１），（ｎ＋１），（ｎ＋２）と出力重み行列W’_N×Vとから、周辺単語に対応する出力ベクトル（ｎ－２），（ｎ－１），（ｎ＋１），（ｎ＋２）を作成する。

そして、入力ベクトルと出力ベクトルとの距離が近くなるように、入力重み行列W_V×Nと出力重み行列W’_N×Vを更新する。
ここでは、入力重み行列W_V×Nの各成分を単語の分散表現として用いることができる。すなわち、単語ｗの分散表現は、「単語ｗのone-hotベクトル×W_V×N」となる。

特開２０１８－１３６７２１号公報

E.Tutubalina 他，"Demographic Prediction Based on User Reviews about Medications"，［online］，２０１７年６月，Computacion y Sistemas，２１巻，２号，ｐ．２２７－２４１［令和３年７月１２日検索］，インターネット＜URL：https://www.researchgate.net/publication/318507923_Demographic_Prediction_Based_on_User_Reviews_about_Medications＞

系列データを構成する要素の分散表現において、要素の順番（系列）に依存する等の「文脈依存あり」の手法の方が、多様なタスクでより的確な確からしさを出力する。しかしながら、「文脈依存あり」の手法では、学習や予測等の計算時間が長くなる。また、学習にあたって多くのメモリ量が必要である。

上記課題を解決する分散表現生成システムは、順番に複数の要素が並んだ系列データの各要素の分散表現を正方行列により生成する制御部と、教師情報を記録する教師情報記憶部と、を備える。そして、前記制御部が、前記教師情報記憶部から、正解を付した系列データを取得して、前記系列データを構成する各要素を表す正方行列を、前記系列データの各要素の構成順番で乗算するプロセスを含んだネットワークにより、前記正解を予測するように、各要素を表す正方行列を更新し、前記更新した正方行列を、前記系列データの各要素の分散表現として記録する。

本開示によれば、系列に依存した分散表現を効率的に生成することができる。

第１実施形態の分散表現生成システムの説明図。第１実施形態のハードウェア構成の説明図。第１実施形態の処理手順の説明図。第１実施形態の処理手順の説明図。変更例の処理手順の説明図。変更例の処理手順の説明図。第２実施形態の処理手順の説明図。第２実施形態の処理手順の説明図。第３実施形態の処理手順の説明図。第３実施形態の処理手順の説明図。第３実施形態の処理手順の説明図。従来の処理手順の説明図。

（第１実施形態）
図１～図４に従って、分散表現生成システム、分散表現生成方法及び分散表現生成プログラムを具体化した第１実施形態を説明する。本実施形態では、単語を正方行列で表し、文章の分散表現を、単語の正方行列の積で表わす場合を想定する。

図１に示すように、本実施形態の分散表現生成システムは、ユーザ端末１０、支援サーバ２０を用いる。
（ハードウェア構成例）
図２は、ユーザ端末１０、支援サーバ２０等として機能する情報処理装置Ｈ１０のハードウェア構成例である。

情報処理装置Ｈ１０は、通信装置Ｈ１１、入力装置Ｈ１２、表示装置Ｈ１３、記憶装置Ｈ１４、プロセッサＨ１５を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。

通信装置Ｈ１１は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。

入力装置Ｈ１２は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置Ｈ１３は、各種情報を表示するディスプレイやタッチパネル等である。

記憶装置Ｈ１４は、ユーザ端末１０、支援サーバ２０の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置Ｈ１４の一例としては、ＲＯＭ、ＲＡＭ、ハードディスク等がある。

プロセッサＨ１５は、記憶装置Ｈ１４に記憶されるプログラムやデータを用いて、ユーザ端末１０、支援サーバ２０における各処理（例えば、後述する制御部２１における処理）を制御する。プロセッサＨ１５の一例としては、例えばＣＰＵやＭＰＵ等がある。このプロセッサＨ１５は、ＲＯＭ等に記憶されるプログラムをＲＡＭに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサＨ１５は、ユーザ端末１０、支援サーバ２０のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。

プロセッサＨ１５は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサＨ１５は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路（例えば、特定用途向け集積回路：ＡＳＩＣ）を備えてもよい。すなわち、プロセッサＨ１５は、以下で構成し得る。

（１）コンピュータプログラム（ソフトウェア）に従って動作する１つ以上のプロセッサ
（２）各種処理のうち少なくとも一部の処理を実行する１つ以上の専用のハードウェア回路、或いは
（３）それらの組み合わせ、を含む回路（circuitry）
プロセッサは、ＣＰＵ並びに、ＲＡＭ及びＲＯＭ等のメモリを含み、メモリは、処理をＣＰＵに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。

（各情報処理装置の機能）
図１を用いて、ユーザ端末１０、支援サーバ２０の機能を説明する。
ユーザ端末１０は、本システムを利用するユーザが用いるコンピュータ端末である。

支援サーバ２０は、単語の分散表現を生成し、自然言語処理を行なうコンピュータシステムである。この支援サーバ２０は、制御部２１、教師情報記憶部２２、学習結果記憶部２３を備えている。

制御部２１は、後述する処理（取得段階、学習段階、予測段階等を含む処理）を行なう。このための分散表現生成プログラムを実行することにより、制御部２１は、取得部２１０、学習部２１１、予測部２１２等として機能する。

取得部２１０は、ユーザ端末１０から教師文や処理単語を取得する処理を実行する。
学習部２１１は、分散表現を生成するための分散表現モデル（行列）を生成する処理を実行する。
予測部２１２は、入力された単語の分散表現を用いて自然言語処理を実行する。

教師情報記憶部２２には、学習に用いる教師情報が記録される。この教師情報は、教師情報の作成処理が行なわれた場合に記録される。教師情報には、教師文に関するデータが記録される。この教師文は、複数の単語により構成された文章である。

学習結果記憶部２３には、分散表現を生成する分散表現モデルが記録される。この分散表現モデルは、学習処理の実行時に記録される。分散表現モデルは、ボキャブラリー（単語）に対して分散表現（行列）が記録される。

（学習処理及び予測処理）
次に、図３を用いて、学習処理及び予測処理を説明する。
（学習処理）
まず、学習処理においては、支援サーバ２０の制御部２１は、教師情報の単語抽出処理を実行する（ステップＳ１１）。具体的には、制御部２１の取得部２１０は、ユーザ端末１０において指定された複数の教師文を取得する。この教師文は、複数の単語から構成されている。次に、取得部２１０は、取得した教師文を教師情報記憶部２２に記録する。

次に、支援サーバ２０の制御部２１は、各単語のOne-Hot生成処理を実行する（ステップＳ１２）。具体的には、制御部２１の学習部２１１は、教師情報記憶部２２に記録された教師文から、すべての単語を抽出する。次に、学習部２１１は、抽出した単語において重複する単語を統合して、教師文を構成するボキャブラリーを抽出する。次に、学習部２１１は、ボキャブラリー数Ｖを特定する。そして、学習部２１１は、各ボキャブラリーをユニークに特定するために、各ボキャブラリーについて、Ｖ次元のOne-Hotベクトルを生成する。

次に、支援サーバ２０の制御部２１は、機械学習処理を実行する（ステップＳ１３）。具体的には、制御部２１の学習部２１１は、教師文を構成する単語を、One-Hotベクトルの並びに置き換える。そして、学習部２１１は、後述するように、機械学習により、入力重み行列W_V×N×N及び出力重み行列W’_N×N×Vを算出する。そして、学習部２１１は、ベクトル入力重み行列W_V×N×Nに各ボキャブラリーのOne-Hotを乗算した分散表現を生成し、各ボキャブラリーに関連付けて学習結果記憶部２３に記録する。

（予測処理）
次に、予測処理においては、支援サーバ２０の制御部２１は、処理対象の取得処理を実行する（ステップＳ２１）。具体的には、制御部２１の取得部２１０は、ユーザ端末１０から、予測処理を行なう処理単語を取得する。

次に、支援サーバ２０の制御部２１は、分散表現の取得処理を実行する（ステップＳ２２）。具体的には、制御部２１の予測部２１２は、学習結果記憶部２３から、処理単語に対応する分散表現を取得する。そして、予測部２１２は、取得した分散表現を用いて、処理単語を用いた自然言語処理を行なうことにより、処理単語に対応する確からしい関連語を算出する。
次に、支援サーバ２０の制御部２１は、出力処理を実行する（ステップＳ２３）。具体的には、制御部２１の予測部２１２は、関連語を、ユーザ端末１０に出力する。

（機械学習処理）
次に、図４を用いて、学習部２１１によって行われる機械学習処理を説明する。

ここでは、教師文に含まれる７個の単語（ｎ－３）～（ｎ＋３）を用いる場合を想定する。そして、単語（ｎ－１）～（ｎ＋１）を入力文字列として用いる。また、その周辺で連続する周辺単語である単語（ｎ－３），（ｎ－２），（ｎ＋２），（ｎ＋３）を出力文字列として用いる。

そして、以下の処理により、初期設定された（Ｖ×Ｎ×Ｎ）次元の入力重み行列、（Ｎ×Ｎ×Ｖ）次元の出力重み行列を更新しながら、入力重み行列W_V×N×N、出力重み行列W’_N×N×Vを生成する。

まず、ステップＳ１０１において、入力側の単語（ｎ－１）～（ｎ＋１）について、それぞれone-hot（ｎ－１）～（ｎ＋１）を生成する。
次に、ステップＳ１０２において、one-hot（ｎ－１）～（ｎ＋１）に対して、それぞれ入力重み行列W_V×N×Nを乗算することにより、（Ｎ×Ｎ）次元の正方行列の単語入力行列（ｎ－１）～（ｎ＋１）を生成する。ここで、単語入力行列（ｎ－１）～（ｎ＋１）は、それぞれ入力重み行列W_V×N×Nの（ｎ－１）～（ｎ＋１）成分である。

そして、ステップＳ１０３において、単語の入力行列（ｎ－１）～入力行列（ｎ＋１）を、単語の並び順に乗算することにより、単語（ｎ－１）～（ｎ＋１）からなる入力文字列に対応する正方入力行列（ｎ－１，ｎ，ｎ＋１）を生成する。

また、ステップＳ１０４において、出力側の単語（ｎ－３），（ｎ－２），（ｎ＋２），（ｎ＋３）について、それぞれone-hot（ｎ－３），（ｎ－２），（ｎ＋２），（ｎ＋３）を生成する。

次に、ステップＳ１０５において、出力重み行列W’_N×N×Vに対して、周辺単語のone-hotベクトルを乗算することにより、（Ｎ×Ｎ）次元の正方行列の単語出力行列を生成する。具体的には、出力重み行列W’_N×N×Vに対して、one-hot（ｎ－３）を乗算することにより、（Ｎ×Ｎ）次元の正方行列の単語出力行列（ｎ－３）を生成する。出力重み行列W’_N×N×Vに対して、one-hot（ｎ－２）を乗算することにより、（Ｎ×Ｎ）次元の正方行列の単語出力行列（ｎ－２）を生成する。出力重み行列W’_N×N×Vに対して、one-hot（ｎ＋２）を乗算することにより、（Ｎ×Ｎ）次元の正方行列の単語出力行列（ｎ＋２）を生成する。出力重み行列W’_N×N×Vに対して、one-hot（ｎ＋３）を乗算することにより、（Ｎ×Ｎ）次元の正方行列の単語出力行列（ｎ＋３）を生成する。ここで、単語出力行列（ｎ－３），（ｎ－２），（ｎ＋２），（ｎ＋３）は、それぞれ出力重み行列W’_N×N×Vの（ｎ－３）成分、（ｎ－２）成分、（ｎ＋２）成分、（ｎ＋３）成分である。

次に、ステップＳ１０６において、文字列〔単語（ｎ－３）、単語（ｎ－２）〕、文字列〔単語（ｎ－２）〕、文字列〔単語（ｎ＋２）〕、文字列〔単語（ｎ＋２）、単語（ｎ＋３）〕を周辺文字列として、これらの周辺文字列に対応する正方出力行列を生成する。

正方出力行列（ｎ－３，ｎ－２）は、単語出力行列（ｎ－３）と単語出力行列（ｎ－２）とを乗算することにより生成される。正方出力行列（ｎ－２）としては、単語出力行列（ｎ－２）を用いる。正方出力行列（ｎ＋２）としては、単語出力行列（ｎ＋２）を用いる。正方出力行列（ｎ＋２，ｎ＋３）は、単語出力行列（ｎ＋２）と単語出力行列（ｎ＋３）とを乗算することにより生成される。

そして、ステップＳ１０７において、正方入力行列（ｎ－１，ｎ，ｎ＋１）の値と、正方出力行列（ｎ－３，ｎ－２），（ｎ－２），（ｎ＋２），（ｎ＋２，ｎ＋３）の各値が近くなるように、入力重み行列W_V×N×N及び出力重み行列W’_N×N×Vを更新する。

そして、更新した入力重み行列W_V×N×Nの各成分を単語の分散表現として、学習結果記憶部２３に記録する。
本実施形態によれば、以下のような効果を得ることができる。

（１－１）本実施形態においては、支援サーバ２０の制御部２１は、機械学習処理を実行する（ステップＳ１３）。ここでは、各単語の分散表現を行列によって構成する。これにより、単語の分散表現（意味）自体は不変となる。すなわち、文を作成する場合、まず、伝えたい内容があり、この内容を表現するのに適した単語を組み合わせるという手順で作られることがある。この場合、単語の意味（分散表現）は事前に決まっているものと考えられる。そして、分散表現を不変とすることで計算時間が抑えられる。

（１－２）本実施形態においては、支援サーバ２０の制御部２１は、機械学習処理を実行する（ステップＳ１３）。ここでは、入力側や出力側において、単語を組み合わせた文字列を用いて学習する。分散表現を行列で作成するため、単語の分散表現の次元と文章の分散表現の次元は同じになる。例えば、所定の単語には、この単語を説明する文章（定義）が存在することから、単語の分散表現と文章の分散表現とを同じ次元で生成することができる。

（１－３）本実施形態においては、支援サーバ２０の制御部２１は、機械学習処理を実行する（ステップＳ１３）。単語の分散表現は正方行列で、文章の分散表現は行列の積で表される。文章の分散表現が、正方行列で表された単語の分散表現の積で表される場合、単語の分散表現は不変という条件下においても、単語の順番が変わることによって文章の意味（分散表現）が変わる。単語の分散表現と文章の分散表現とを同じ次元で生成することによって、文脈依存を実現できる。これにより、単語の分散表現は文脈に依存しないが、文章の分散表現は文脈に依存することになる。

本実施形態は、以下のように変更して実施することができる。本実施形態、以下の実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記実施形態では、単語（ｎ－１）～（ｎ＋１）を入力文字列として用いる。また、単語（ｎ－３），（ｎ－２），（ｎ＋２），（ｎ＋３）を出力文字列として用いる。入力側や出力側に用いられる単語数は、これらに限定されるものではない。

例えば、図５に示すように、単語（ｎ－１）～（ｎ＋１）を入力文字列として用い、単語（ｎ－２），（ｎ＋２）を出力文字列として用いてもよい。
図６に示すように、単語（ｎ－１），（ｎ）を入力単語として用い、単語（ｎ－２），（ｎ＋２）を出力文字列として用いてもよい。

また、入力側と出力側とを、単語（ｎ）の片側で構成してもよい。例えば、単語（ｎ－３）～（ｎ）を入力文字列として用い、単語（ｎ＋１）～（ｎ＋３）を出力文字列として用いてもよい。

・上記実施形態では、ユーザ端末１０から教師情報を取得する。教師情報の取得は、ユーザ端末１０を用いる場合に限定されるものではない。例えば、インターネットで公開されているニュース記事、論文、公的文書等、論理性がある文書を用いることができる。

・上記実施形態では、学習結果記憶部２３には、各ボキャブラリーに対して分散表現を記録する。学習結果記憶部２３に記憶する情報は、処理対象単語の分散表現を生成できればよく、例えば、各ボキャブラリーに対するOne-Hotベクトルや入力重み行列W_V×N×Nを記録するようにしてもよい。

（第２実施形態）
次に、図７、図８に従って、分散表現生成システム、分散表現生成方法及び分散表現生成プログラムを具体化した第２実施形態を説明する。上記第１実施形態では、支援サーバ２０の制御部２１は、各単語のOne-Hot生成処理（ステップＳ１２）、機械学習処理（ステップＳ１３）を実行する。そして、機械学習処理（ステップＳ１３）では、入力重み行列及び出力重み行列を学習する。本実施形態においては、One-Hotベクトル、入力重み行列及び出力重み行列を用いない。以下の実施形態において、上記第１実施形態と同様の部分については、同一の符号を付し、その詳細な説明を省略する。

図７に示すように、支援サーバ２０の制御部２１は、ステップＳ１１と同様に、教師情報の単語抽出処理を実行する（ステップＳ３１）。
次に、支援サーバ２０の制御部２１は、機械学習処理を実行する（ステップＳ３２）。具体的には、制御部２１の学習部２１１は、抽出した単語において重複する単語を統合して、教師文を構成するボキャブラリーを抽出する。ボキャブラリーを構成する単語を、初期設定された正方行列に置き換える。そして、入力側の正方行列と、周辺の正方行列とが近くなるように、正方行列を更新する。

例えば、図８に示すように、教師文に含まれる７個の単語（ｎ－３）～（ｎ＋３）を用いる場合を想定する。そして、単語（ｎ－１）～（ｎ＋１）を入力文字列として用いる。また、その周辺で連続する周辺単語である単語（ｎ－３），（ｎ－２），（ｎ＋２），（ｎ＋３）を出力文字列として用いる。

そして、以下の処理により、初期設定された正方行列（分散表現）を更新する。
まず、ステップＳ３０１において、入力側の単語（ｎ－１）～（ｎ＋１）について、それぞれ入力側の正方行列である単語行列（ｎ－１）～（ｎ＋１）を生成する。

そして、ステップＳ３０２において、入力側の単語行列（ｎ－１）～（ｎ＋１）を、単語の並び順に乗算することにより、乗算行列として、単語（ｎ－１）～（ｎ＋１）からなる入力文字列に対応する正方入力行列（ｎ－１，ｎ，ｎ＋１）を生成する。

また、ステップＳ３０３において、出力側の単語（ｎ－３），（ｎ－２），（ｎ＋２），（ｎ＋３）について、それぞれ出力側の正方行列である単語行列（ｎ－３），（ｎ－２），（ｎ＋２），（ｎ＋３）を生成する。

次に、ステップＳ３０４において、文字列〔単語（ｎ－３）、単語（ｎ－２）〕、文字列〔単語（ｎ－２）〕、文字列〔単語（ｎ＋２）〕、文字列〔単語（ｎ＋２）、単語（ｎ＋３）〕を周辺文字列として、これらの周辺文字列に対応する正方出力行列を生成する。

正方出力行列（ｎ－３，ｎ－２）は、単語行列（ｎ－３）と単語行列（ｎ－２）とを乗算することにより生成される。正方出力行列（ｎ－２）としては、単語行列（ｎ－２）を用いる。正方出力行列（ｎ＋２）としては、単語行列（ｎ＋２）を用いる。正方出力行列（ｎ＋２，ｎ＋３）は、単語行列（ｎ＋２）と単語行列（ｎ＋３）とを乗算することにより生成される。

ステップＳ３０５において、正方入力行列（ｎ－１，ｎ，ｎ＋１）の値と、正方出力行列（ｎ－３，ｎ－２），（ｎ－２），（ｎ＋２），（ｎ＋２，ｎ＋３）の各値が近くなるように、単語行列（ｎ－３）～（ｎ＋３）を更新する。

そして、更新した単語行列（ｎ－３）～（ｎ＋３）を単語の分散表現として、学習結果記憶部２３に記録する。
予測処理では、図３に示すステップＳ２１～Ｓ２３を実行する。

本実施形態によれば、以下のような効果を得ることができる。
（２－１）本実施形態においては、支援サーバ２０の制御部２１は、教師情報の単語抽出処理（ステップＳ３１）、機械学習処理（ステップＳ３２）を実行する。これにより、効率的に、分散表現（正方行列）を生成することができる。

（第３実施形態）
次に、図９、図１０に従って、分散表現生成システム、分散表現生成方法及び分散表現生成プログラムを具体化した第３実施形態を説明する。上記第１、第２実施形態では、入力側、出力側の単語の分散表現が近くなるように機械学習を行なう。機械学習の手法は、これに限定されるものではない。本実施形態では、分類が付与された教師情報を用いた機械学習を行なう。

図９に示すように、支援サーバ２０の制御部２１は、教師情報の作成処理を実行する（ステップＳ４１）。具体的には、制御部２１の取得部２１０は、ユーザ端末１０において指定された単語列を取得する。この単語列は、複数の単語が、正しい順番（構成順番）で並んで構成されている。次に、取得部２１０は、取得した単語列を正例として、正例ラベルに関連付けて教師情報記憶部２２に記録する。

次に、取得部２１０は、正例の単語列から負例の単語列を生成する。この負例は、正例を構成する要素データの順番の入れ替え、一部の要素データの削除、一部の要素データを異なる要素データと交換等により行なう。そして、取得部２１０は、生成した系列データを負例として、負例ラベルに関連付けて教師情報記憶部２２に記録する。このように、正例ラベル及び負例ラベルは、正解を示す情報として機能する。

例えば、図１０に示すように、正例ｅ１を単語列「ＡＢＣＤＥＦＧ」とした場合、単語「Ｃ」を単語「Ｘ」に置き換えた単語列「ＡＢＸＤＥＦＧ」を負例ｅ２とする。また、単語「Ｂ」と単語「Ｆ」とを並び替えた単語列「ＡＦＣＤＥＢＧ」を負例ｅ３とする。

次に、支援サーバ２０の制御部２１は、機械学習処理を実行する（ステップＳ４２）。具体的には、制御部２１の学習部２１１は、各単語を、初期設定された正方行列である単語行列（Ａ～Ｇ、Ｘ）に置き換える。更に、単語列の並び順に単語行列を乗算して、正方行列（乗算行列）を生成する。

図１０に示すように、正例ｅ１においては、正方行列ｍ１が算出される。また、負例ｅ２、ｅ３においては、それぞれ正方行列ｍ２，ｍ３が算出される。
そして、学習部２１１は、正方行列ｍ１から正例、正方行列ｍ２，ｍ３から負例を予測できるように、単語行列（分散表現）を更新する。

また、上記では、単語列における単語の分散表現を生成する。ここで、順番に並んだ要素からなる系列において、各要素の正方行列（分散表現）を生成することができる。ここでは、要素の順番の正当性を判断する。

図９に示すステップＳ４１では、制御部２１の取得部２１０は、教師情報として、正しい順番で並んで構成されている系列データを取得する。次に、取得部２１０は、取得した系列データを正例として、正例ラベルに関連付けて教師情報記憶部２２に記録する。

次に、ステップＳ４１では、制御部２１の取得部２１０は、教師情報として、正例の系列データから負例の系列データを生成する。この負例は、正例を構成する要素データの順番の入れ替え、一部の要素データの削除、一部の要素データを異なる要素データと交換等により行なう。次に、取得部２１０は、生成した系列データを負例として、負例ラベルに関連付けて教師情報記憶部２２に記録する。
そして、ステップＳ４２では、制御部２１の学習部２１１は、各要素データを正方行列に置き換える。そして、正方行列を用いて、正例、負例を予測できるように更新する。

（機械学習処理）
次に、図１１を用いて、学習部２１１によって行われる機械学習処理を説明する。ここでは、教師データに含まれるｉ個の要素を用いる場合を想定する。更に、正例、負例ではなく、分類として、正解を示すラベルＬ１～Ｌｍを予測する。この場合、教師情報である系列データに対して、ラベルＬ１～Ｌｍを付与して教師情報記憶部２２に記録する。

まず、制御部２１の学習部２１１は、系列データを構成する要素から、初期設定された正方行列ｔ１～ｔｉを生成する（ステップＳ４０１）。
次に、学習部２１１は、生成した正方行列ｔ１～ｔｉを用いて、中間層１において、複数の正方行列を生成する（ステップＳ４０２）。例えば、正方行列ｉとしては、正方行列ｔ１を用いる。正方行列ｊとしては、正方行列ｔ２を用いる。正方行列ｋとしては、正方行列ｔｉを用いる。正方行列ｉｊは、正方行列ｔ１，ｔ２をその順番で乗算した行列である。正方行列ｉｊｋは、正方行列ｔ１，ｔ２，ｔｉをその順番で乗算した行列である。このように、正方行列ｔ１～ｔｉそのものや、各要素の順番で各要素の正方行列ｔ１～ｔｉを乗算した正方行列を用いたネットワークを生成する。

そして、後続の中間層には、先行の中間層で生成した正方行列を入力する。この場合、正方行列を１次元化して、活性化関数（非線形）に代入する。このように、活性化関数を用いて、先行の中間層と後続の中間層とのネットワークの重み付けを行なう。

学習部２１１は、ラベルＬ１～Ｌｍを付与した出力層を生成する（ステップＳ４０３）。ここで、Ｎ層の中間層を想定した場合、中間層Ｎの正方行列に対して、出力層を繋げたネットワークを生成する。

そして、教師情報の系列を入力した場合、各ラベルの確からしさが高くなるように、各要素を表す正方行列を更新する。
本実施形態によれば、以下のような効果を得ることができる。

（３－１）本実施形態においては、支援サーバ２０の制御部２１は、教師情報の作成処理（ステップＳ４１）、機械学習処理（ステップＳ４２）を実行する。順番に並んだ系列の要素を正方行列（分散表現）で表す。このため、系列を構成する順番で、要素の分散表現を乗算した正方行列には、この順番が反映されている。これにより、乗算行列である正方行列を用いて、系列の分類（ラベル）を予測できる。

本実施形態は、以下のように変更して実施することができる。上記各実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。

・上記第３実施形態では、出力層において、確からしい分類を予測する。これに代えて、出力層において、連続値等の値の予測する回帰により確からしい数値等を予測するようにしてもよい。

１０…ユーザ端末、２０…支援サーバ、２１…制御部、２１０…取得部、２１１…学習部、２１２…予測部、２２…教師情報記憶部、２３…学習結果記憶部。

Claims

順番に複数の要素が並んだ系列データの各要素の分散表現を正方行列により生成する制御部と、教師情報を記録する教師情報記憶部と、を備えた分散表現生成システムであって、
前記制御部が、
前記教師情報記憶部から、正解を付した系列データを取得して、前記系列データを構成する各要素を表す正方行列を、前記系列データの各要素の構成順番で乗算した乗算正方行列が、前記正解を予測するように、各要素を表す正方行列を更新し、前記更新した正方行列を、前記系列データの各要素の分散表現として記録することを特徴とする分散表現生成システム。
前記制御部が、前記正解として、前記系列データに付与されたラベルを予測することを特徴とする請求項１に記載の分散表現生成システム。
正しい順番で複数の要素が並んだ前記系列データを取得して、前記系列データを構成する各要素の分散表現を正方行列により生成し、
前記正方行列を前記系列データの構成順番で乗算した乗算行列を、正例ラベルを付して前記教師情報記憶部に記録し、
前記正方行列を、前記系列データの構成を崩して乗算して算出した乗算行列を、負例ラベルを付して前記教師情報記憶部に記録し、
前記乗算行列から、正例ラベル及び負例ラベルを予測するように、各要素を表す前記正方行列を更新することを特徴とする請求項２に記載の分散表現生成システム。
前記制御部が、前記正解として、数値を予測することを特徴とする請求項１に記載の分散表現生成システム。
前記制御部が、
新たな系列データを取得して、前記取得した系列データを構成する各要素を表す正方行列を生成し、
前記生成した正方行列を前記系列データの構成順番で乗算した乗算行列を算出し、
前記算出した乗算行列を用いて、前記系列データの正解を予測することを特徴とする請求項１に記載の分散表現生成システム。
前記制御部が、
前記正解を付した系列データとして、前記教師情報記憶部から、教師文を取得し、
前記教師文を構成する単語を、前記系列データを構成する各要素として特定し、
前記教師文を構成する単語からone-hotベクトルを生成し、
入力文字列を構成する単語の各one-hotベクトルと、入力重み行列とから、前記入力文字列に対応するＮ次元の正方入力行列を作成し、
前記正方入力行列の構成順番で乗算した乗算正方入力行列を算出し、
予測する周辺単語のone-hotベクトルと、出力重み行列とから、前記周辺単語に対応するＮ次元の正方出力行列を作成し、
前記乗算正方入力行列と前記正方出力行列の値が近くなるように、前記入力重み行列と前記出力重み行列とを更新することにより、前記正方入力行列と前記正方出力行列を更新することを特徴とする請求項１に記載の分散表現生成システム。
前記周辺単語には、前記入力文字列の直前及び直後の１以上の単語を含むことを特徴とする請求項６に記載の分散表現生成システム。
前記制御部が、
前記教師文において連続する複数の単語について、前記入力重み行列を用いて、それぞれＮ次元の単語入力行列を作成し、
前記連続する複数の単語の順番で、前記単語入力行列を乗算して、前記正方入力行列を作成することを特徴とする請求項６に記載の分散表現生成システム。
前記制御部が、
前記教師文において連続する複数の単語について、前記出力重み行列を用いて、それぞれＮ次元の単語出力行列を作成し、
前記連続する複数の単語の順番で、前記単語出力行列を乗算して、前記正方出力行列を作成することを特徴とする請求項６に記載の分散表現生成システム。
順番に複数の要素が並んだ系列データの各要素の分散表現を正方行列により生成する制御部と、教師情報を記録する教師情報記憶部と、を備えた分散表現生成システムを用いて、分散表現を生成する方法であって、
前記制御部が、
前記教師情報記憶部から、正解を付した系列データを取得して、前記系列データを構成する各要素を表す正方行列を、前記系列データの各要素の構成順番で乗算した乗算正方行列が、前記正解を予測するように、各要素を表す正方行列を更新し、前記更新した正方行列を、前記系列データの各要素の分散表現として記録することを特徴とする分散表現生成方法。
順番に複数の要素が並んだ系列データの各要素の分散表現を正方行列により生成する制御部と、教師情報を記録する教師情報記憶部と、を備えた分散表現生成システムを用いて、分散表現を生成するためのプログラムであって、
前記制御部を、
前記教師情報記憶部から、正解を付した系列データを取得して、前記系列データを構成する各要素を表す正方行列を、前記系列データの各要素の構成順番で乗算した乗算正方行列が、前記正解を予測するように、各要素を表す正方行列を更新し、前記更新した正方行列を、前記系列データの各要素の分散表現として記録する手段として機能させるための分散表現生成プログラム。