JP2019204268A - ニューラルネットワークを用いた情報処理方法、システムおよびその構築システム - Google Patents
ニューラルネットワークを用いた情報処理方法、システムおよびその構築システム Download PDFInfo
- Publication number
- JP2019204268A JP2019204268A JP2018098750A JP2018098750A JP2019204268A JP 2019204268 A JP2019204268 A JP 2019204268A JP 2018098750 A JP2018098750 A JP 2018098750A JP 2018098750 A JP2018098750 A JP 2018098750A JP 2019204268 A JP2019204268 A JP 2019204268A
- Authority
- JP
- Japan
- Prior art keywords
- information
- vector
- candidate
- neural network
- inter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ニューラルネットワークモデルで、合格候補情報検出タスクを遂行するための計算負担を軽減することを目的とする。【解決手段】新入情報および候補情報をベクトル化し、新入情報ベクトルおよび候補情報ベクトルを生成する情報ベクトル計算部と、新入情報ベクトルおよび候補情報ベクトルを入力とし、情報間関係生成関数を用いて、情報間関係ベクトルを生成する情報間関係ベクトル計算部と、情報間関係ベクトルを入力とし、定量判定結果を生成する情報間関係定量判定モデルを構成するニューラルネットワークと、を備えるニューラルネットワークを用いた情報処理システムである。このシステムでは、情報間関係生成関数は、許容誤差を含む三角不等式の制約条件を満たす関数であり、ニューラルネットワークの活性化関数は正定単調凹関数である。【選択図】図1
Description
本発明は、情報処理システム、特にニューラルネットワークモデルの構築に関する技術に関する。
様々な種類の情報間の関係を定量判定するタスクにおいて、例えば、テキスト文間の語意類似度判定タスク、質問回答文間の適合度判定タスクなど、近年、教師あり学習を用いたニューラルネットワークモデルは優れた精度を得た(例えば特許文献1、特許文献2)。
中間層が2層以上あるニューラルネットワークをディープ・ニューラルネットワーク(Deep neural network)と呼ぶ。順伝播型ニューラルネットワーク(Feedforward Neural Network)とはネットワークにループする結合を持たず、入力ノード→中間ノード→出力ノードというように単一方向へのみ信号が伝播するものを指す。再帰型ニューラルネットワークは順伝播型ニューラルネットワークと違い、双方向に信号が伝播するモデルである。すべてのノードが他の全てのノードと結合を持っている場合、全結合リカレントニューラルネットと呼ぶ。
特徴量とは、問題の解決に必要な本質的な変数であったり、特定の概念を特徴づける変数である。この特徴量を発見できれば、あらゆる問題の解決につながった、パターン認識精度の向上や、フレーム問題の解決につながったりすると期待されている。この階層的な特徴量の学習が、ディープラーニングが従来の機械学習と決定的に異なる点である。この技術は、画像認識や音声認識等の分野に活用される。また、テキスト文の意味を深く理解するために、画像、音声で最高の精度を得た深層学習モデルも有効と考えられ、様々な改良手法が開発されている。
一方、実際の応用場面では、蓄積されている候補情報と同種類の新入情報間の関係を定量判定し、判定結果がある閾値以上あるいは以下の合格候補情報を抽出するニーズが多くある。ニューラルネットワークモデルを用いた判定アルゴリズムの計算負荷は重いため、このような合格候補情報抽出タスクを遂行するために、全ての候補情報に対して新入情報との関係を定量判定するタスクを実行すると、莫大な計算コストになり、非現実的になる。
そこで、情報間関係判定タスクから合格候補情報抽出タスクに移行する際の計算負荷を軽減するために、従来良く用いられる方法としては候補情報のクラスタリングによる計算負荷を軽減する方法がある。莫大な量の候補情報を候補情報間の関係を定量化判定することによってクラスタリングし、クラスタごとに代表候補情報を選出し、全クラスタの代表として、新入情報との関係定量判定アルゴリズムに参加する方法である。
クラスタリングとは、データ解析手法(特に多変量解析手法)の一種である。クラスタリングは、教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法、または、そのアルゴリズムである。クラスタリングには、さまざまな手法が提案されているが、大きく分けるとデータの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法とがある。それぞれの代表的な手法としてウォード法、K平均法(k−means法)などが知られている。
しかし、上記のクラスタリングによる計算負荷の軽減方法では、候補情報間の定量化判定結果に対して、一定の条件あるいは約束を満たすことを要求している。そうでなければ、新入情報とクラスタごとの代表候補情報間の関係のみを定量判定する場合、合格候補情報の抽出漏れと間違いを発生する可能性がある。そこで、充分非必要条件であるが、候補情報間の定量化判定結果は、数学上の距離の公理を満たすことが良く用いられる約束の一種である。
情報間の関係を定量判定するタスクにおいて、教師あり学習を用いたニューラルネットワークモデルは優れた精度が期待できる。しかし、一般に、ニューラルネットワークモデルで得られた候補情報間の定量化判定結果は、数学上の距離の公理を満たさない。従って、一般的には、ニューラルネットワークモデルを用いた情報間関係判定タスクを合格候補情報抽出タスクに適用する際、候補情報のクラスタリングにより計算負荷を軽減する方法は適用できない。
更に、ニューラルネットワークモデルを用いた判定アルゴリズムの計算負荷は重いため、合格候補情報抽出タスクを遂行するために、全ての候補情報に対して新入情報との関係を定量判定するタスクを実行すると、莫大な計算コストになり、非現実的になる。
そこで、本発明はニューラルネットワークモデルで、合格候補情報検出タスクを遂行するための計算負担を軽減することを目的とする。
本発明の好ましい一例は、新入情報および候補情報をベクトル化し、新入情報ベクトルおよび候補情報ベクトルを生成する情報ベクトル計算部と、新入情報ベクトルおよび候補情報ベクトルを入力とし、情報間関係生成関数を用いて、情報間関係ベクトルを生成する情報間関係ベクトル計算部と、情報間関係ベクトルを入力とし、定量判定結果を生成する情報間関係定量判定モデルを構成するニューラルネットワークと、を備える情報処理システムである。このシステムでは、情報間関係生成関数は、許容誤差を含む三角不等式の制約条件を満たす関数あるいはその組み合わせ関数であり、ニューラルネットワークの活性化関数は正定単調凹関数である。
本発明の他の好ましい一側面は、上記の情報処理システムを構築する構築システムであって、情報間関係生成関数を構築する情報間関係ベクトルモデル構築部と、ニューラルネットワークを構築するニューラルネットワーク構築部と、情報間関係生成関数とニューラルネットワークを、教師データを用いて学習する学習部と、を備える構築システムである。
本発明の他の好ましい一側面は、新入情報および候補情報をベクトル化し、新入情報ベクトルおよび候補情報ベクトルを生成する情報ベクトル計算処理と、新入情報ベクトルおよび候補情報ベクトルを入力とし、情報間関係生成関数を用いて、情報間関係ベクトルを生成する情報間関係ベクトル計算処理と、情報間関係ベクトルを入力とし、ニューラルネットワークを用いた情報間関係定量判定モデルにより定量判定結果を生成する、定量判定結果生成処理と、を備える情報処理方法である。この方法では、情報間関係生成関数は、許容誤差を含む三角不等式の制約条件を満たす関数あるいはその組み合わせ関数であり、ニューラルネットワークの活性化関数は正定単調凹関数である。
なお、許容誤差は誤差ゼロの場合も含む。許容誤差がゼロの場合は、誤差がない場合と等価である。組み合わせ関数は、三角不等式の制約条件を満たす関数を組み合わせて構成される関数である。
本発明によれば、ニューラルネットワークモデルで、合格候補情報検出タスクを遂行するための計算負担が軽減できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施の形態について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
同一あるいは同様な機能を有する要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、複数の要素を区別する必要がない場合には、添字を省略して説明する場合がある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。
以下で説明されるのは実施例の代表的な一例を示せば以下の通りである。
まず、2つの情報をベクトル化する。次に、ベクトル化された2つの情報を用いて、情報間関係ベクトルを生成する。2つの情報ベクトルを用いて、情報間関係ベクトルを生成する際、用いられた関数を情報間関係生成関数と呼ぶ。その情報間関係生成関数は数学上の三角不等式を満たす関数、あるいはそれらの関数の組み合わせを用いる。ここで、組み合わせする際に用いる組み合わせ関数は単調の数学特性を持つ。すなわち、組み合わせ関数は単調増加関数または単調減少関数のいずれかとなる。
まず、2つの情報をベクトル化する。次に、ベクトル化された2つの情報を用いて、情報間関係ベクトルを生成する。2つの情報ベクトルを用いて、情報間関係ベクトルを生成する際、用いられた関数を情報間関係生成関数と呼ぶ。その情報間関係生成関数は数学上の三角不等式を満たす関数、あるいはそれらの関数の組み合わせを用いる。ここで、組み合わせする際に用いる組み合わせ関数は単調の数学特性を持つ。すなわち、組み合わせ関数は単調増加関数または単調減少関数のいずれかとなる。
続いて、生成された情報間関係ベクトルをニューラルネットワークに入力し、定量化判定結果を得る。その際、用いられたニューラルネットワークの活性化関数は正定単調凹関数にする。このように生成したニューラルネットワークモデルでは、その出力結果が数学上の三角不等式を満たすため、例えば以下のような様々な検出負担を軽減する手法が適用できるようになる。なお、以下で候補情報、新入情報等の情報はニューラルネットワークの出力結果ベースで扱っている。
(1)蓄積された候補情報をクラスタリングし、一つのクラスタの中の候補情報間の差を事前に定めた最大値M以下にする。
(2)クラスタごとに、例えばクラスタ内の候補情報の平均値との差が最小の候補情報を、代表候補情報として保存する、
(3)新入情報との差が所定値C以下の関係の候補情報を検出したい場合、まず保存されていた各クラスタの代表候補情報と新入情報を比較する。代表候補情報と新入情報の差が所定値Cマイナス最大値Mより小さい代表候補情報が所属するクラスタ内の候補情報のみ比較する。
(1)蓄積された候補情報をクラスタリングし、一つのクラスタの中の候補情報間の差を事前に定めた最大値M以下にする。
(2)クラスタごとに、例えばクラスタ内の候補情報の平均値との差が最小の候補情報を、代表候補情報として保存する、
(3)新入情報との差が所定値C以下の関係の候補情報を検出したい場合、まず保存されていた各クラスタの代表候補情報と新入情報を比較する。代表候補情報と新入情報の差が所定値Cマイナス最大値Mより小さい代表候補情報が所属するクラスタ内の候補情報のみ比較する。
このような手法を実現するシステムの例として、プログラムを実行する演算装置、及び前記プログラムを格納するメモリを有する一つ以上の計算機を備える計算機システムが考えられる。
このシステムは、情報間関係定量判定モデルを記憶管理する情報間関係定量判定記憶部、蓄積された候補情報のベクトルを記憶管理する候補情報ベクトル記憶部、蓄積された候補情報のベクトルをクラスタリング化した結果であるクラスタリング情報を記憶管理する候補情報ベクトルクラスタ記憶部、各クラスタの代表候補情報ベクトルを記憶管理する代表候補情報ベクトル記憶部、を有するデータベース記憶部を備えている。
また、情報間関係ベクトルを情報ベクトルから算出するモデルである情報間関係生成関数を構築する情報間関係ベクトルモデル構築部、情報間関係ベクトルから情報間関係の定量判定結果を算出するモデルであるニューラルネットワークモデルを構築するニューラルネットワーク構築部、を有する情報間関係定量判定モデル構築部を備えている。
また、候補情報および新入情報のベクトルを計算し、ベクトル化する情報ベクトル計算部、ベクトル化された候補情報をクラスタリングする候補情報ベクトルクラスタリング部、各候補情報クラスタリング内の代表候補情報ベクトルを選出する代表候補情報ベクトル選出部、を有する情報ベクトルクラスタリング部を備えている。
また、新入情報ベクトルと各候補情報クラスタリングを代表する代表候補情報ベクトルを比較し、合格候補情報が存在する可能性がある候補情報クラスタを選出する代表候補情報ベクトル比較部、新入情報ベクトルと選出された代表候補情報ベクトルが代表している候補情報クラスタ内の全ての候補情報ベクトルを比較し、合格候補情報ベクトルを選出する合格候補情報ベクトル比較部、を有する合格候補情報選出部を備えている。
以上のような構成により、合格候補情報を情報間関係定量判定モデルで選出することが可能なシステムを構築するための、出力結果は三角不等式の制約を満たすニューラルネットワークモデルが実現可能である。
以下の実施例で、候補情報間の定量化判定結果が数学上の距離の公理の弱化版である三角不等式の約束を満たすようなニューラルネットワークモデルの構築方法およびシステムを提案する。それによって、従来良く用いられる候補情報のクラスタリングによる計算負荷を軽減する方法は適用できるようになり、情報間関係判定タスクから合格候補情報抽出タスクに移行する際の計算負荷を軽減できるようになる。
図1は、実施例1の計算機システムの構成の一例を示すブロック図である。計算機システム1000は、計算機200及びデータベース206から構成される。
本実施例の計算機200は、演算装置201、メモリ202、記憶媒体203、入力装置204、及び出力装置205を有し、内部バス等を介して互いに接続される。
演算装置201は、メモリ202に格納されるプログラムを実行する演算装置であり、例えば、CPU(Central Processing Unit)及びGPU(Graphics Processing Unit)等がある。以下で、機能部を主語として処理及び機能を説明する場合、演算装置201によって当該機能部を実現するプログラムが実行されていることを示す。メモリ202は、演算装置201によって実行されるプログラム及び当該プログラムによって使用される情報を格納する。メモリ202は、揮発性のメモリ及び不揮発性のメモリのいずれであってもよい。
記憶媒体203は、計算機200が有する各種機能を実現するプログラム等を格納する。本実施例では、演算装置201が、記憶媒体203からプログラムを読み出し、読み出されたプログラムをメモリ202上にロードし、さらに、ロードされたプログラムを実行する。本実施例の記憶媒体203に格納されるプログラム等については後述する。
なお、記憶媒体203に格納されるプログラムは、CD−ROM及びフラッシュメモリ等のリムーバブルメディア又はネットワークを介して接続される配信サーバから取得する方法が考えられる。リムーバブルメディアからプログラムを取得する場合、計算機200は、リムーバブルメディアに接続されるインタフェースを備える。
入力装置204は、計算機200に各種情報を入力するための装置であり、例えば、キーボード、マウス、及びタッチパネル等が含まれる。出力装置205は、計算機200が実行した処理結果を出力する装置であり、例えばディスプレイ等が含まれる。
計算機200は、情報間関係定量判定モデル構築部210、情報ベクトルクラスタリング部220、合格候補情報選出部230、を有する。これらの機能ブロックは、記憶媒体203に格納された対応するプログラムを、演算装置201やメモリ202等のハードウェア資源を使用して実行することで実現される。
情報間関係定量判定モデル構築部210は、情報間関係ベクトルモデル構築部211と、ニューラルネットワーク構築部212と、を有する。
情報間関係ベクトルモデル構築部211は、情報間関係ベクトルを情報ベクトルから算出するモデルである情報間関係生成関数を構築する。情報間関係生成関数は、ベクトル化された2つの情報を用いて、情報間関係ベクトルを生成する。本実施例では、情報間関係生成関数は数学上の三角不等式を満たす関数、あるいはそれらの関数の組み合わせを用いる。ここで、組み合わせする際に用いる組み合わせ関数は単調の数学特性を持つとする。
ニューラルネットワーク構築部212は、情報間関係ベクトルから情報間関係の定量判定結果を算出するモデルであるニューラルネットワークモデルを構築する。本実施例では、ニューラルネットワークの活性化関数は正定単調凹関数とする。このように生成したニューラルネットワークモデルでは、その出力結果が数学上の三角不等式を満たす。
以上のように本実施例では、ニューラルネットワークおよびその入力となる情報間関係ベクトルについて、所定の条件を満足するように設定する。
情報ベクトルクラスタリング部220は、情報ベクトル計算部221と、候補情報ベクトルクラスタリング部222と、代表候補情報ベクトル選出部223と、を有する。
情報ベクトル計算部221は、候補情報および新入情報のベクトルを計算し、ベクトル化する。情報のベクトル化は公知の手法を用いてよい。例えば文章のベクトル化についてBag of Word (BOW)のような手法が知られている。画像信号についてもベクトル化するツールが実用化されている。
候補情報ベクトルクラスタリング部222は、ベクトル化された候補情報をクラスタリングする。クラスタリングの手法は公知のアルゴリズムを用いてよい。クラスタリング手法は最短距離法などの階層的手法 (hierarchical method) と、K平均法などの非階層的手法 (non−hierarchical method) に分けられるが、いずれでもよい。
代表候補情報ベクトル選出部223は、各候補情報クラスタリング内の代表候補情報ベクトルを選出する。例えばK平均法では、クラスタの重心点をクラスタの代表点としているが、他の手法でも良い。
合格候補情報選出部230は、代表候補情報ベクトル比較部231と、合格候補情報ベクトル比較部232と、を有する。
代表候補情報ベクトル比較部231は、新入情報ベクトルと各候補情報クラスタリングを代表する代表候補情報ベクトルを比較し、合格候補情報が存在する可能性がある候補情報クラスタを選出する。
合格候補情報ベクトル比較部232は、新入情報ベクトルと選出された代表候補情報ベクトルが代表している候補情報クラスタ内の全ての候補情報ベクトルを比較し、合格候補情報ベクトルを選出する。
データベース206は、計算機200が管理する各種データを格納する。本実施例では、図示しないストレージシステムを用いてデータベース206が構築されるものとする。ストレージシステムは、コントローラ、外部インタフェース、及び複数の記憶媒体を備える。ストレージシステムは、複数の記憶媒体を用いてRAID(Redundant Arrays of Inexpensive Disks)を構成することができる。また、ストレージシステムは、RAIDボリュームを用いて複数の論理的な記憶領域を提供することもできる。
データベース206は、情報間の関係を定量的に判定する情報間関係定量判定モデルを記憶管理する情報間関係定量判定モデル記憶部241、蓄積された候補情報のベクトルを記憶管理する候補情報ベクトル記憶部244、蓄積された候補情報のベクトルをクラスタリング化した結果であるクラスタリング情報を記憶管理する候補情報ベクトルクラスタ記憶部243、各クラスタの代表候補情報ベクトルを記憶管理する代表候補情報ベクトル記憶部242、を有する。
図2は、実施例1の図1に示す計算機システム1000が実行する処理の全体フローである。計算機システム1000は、データベース206の情報間関係定量判定モデル記憶部241に、情報間関係定量判定モデルを構築する。そして、蓄積された候補情報のベクトルを用いて、蓄積された候補情報ベクトルのクラスタリング化、各クラスタの代表候補情報ベクトルの選定を行なう。そして、情報間関係定量判定モデルとクラスタリングした候補情報ベクトルを用い、新入情報ベクトルに対して合格候補情報ベクトルを選出する。合格候補情報ベクトルとは、新入情報にたいして特定の条件を満足する(あるいは満足しない)候補情報ベクトルを意味する。新入情報ベクトルに対して、精度よく合格候補情報ベクトルを候補ベクトルから抽出できることが、情報間関係定量判定モデルに望まれる特性である。
図3は、合格候補情報ベクトルを選出するプロセスの全体概念図である。このプロセスでは、候補情報9001および新入情報9002のベクトルを計算し、候補情報ベクトル9003と新入情報ベクトル9004を生成するため情報ベクトル計算部221を用いる。ベクトル化された候補情報は、候補情報ベクトル記憶部244に記憶される。
情報間関係ベクトル9005を情報ベクトルから算出するための情報間関係生成関数9006は、情報間関係ベクトルモデル構築部211により生成されている。情報間関係ベクトル計算部9007では、情報間関係生成関数9006を用いて、新入情報ベクトル9004と候補情報ベクトル(クラスタ化した場合には代表候補情報ベクトル)9003から情報間関係ベクトル9005を計算する。
情報間関係ベクトル9005から情報間関係の定量判定結果9009を算出する情報間関係定量判定モデル9008であるニューラルネットワークモデルは、ニューラルネットワーク構築部212により構築されている。
候補情報ベクトル記憶部244の候補情報ベクトル9003は、候補情報ベクトルクラスタリング部222でクラスタリングされている。各候補情報クラスタリングを代表する代表候補情報ベクトルは、代表候補情報ベクトル選出部223で選出され、代表候補情報ベクトル記憶部242に格納されている。図3には示していないが、クラスタリングした結果、どの候補情報ベクトルがどのクラスタに属しているかを示す情報は、候補情報ベクトルクラスタ記憶部243に格納される。以下では図2と図3を参照しつつ説明する。
図2中Aで示されるステップS101−ステップS104は、データベース206の情報間関係定量判定モデル記憶部241に格納されているモデルに従って、情報間関係ベクトル計算部9007と情報間関係定量判定モデル9008を構築する。モデルの学習時に実行される処理については、図3中点線で示した。
図2中Bで示されるステップS105−ステップS108は、情報ベクトル計算部221でデータベース206に蓄積された候補情報9001のベクトルを計算し、候補情報ベクトル記憶部244に記憶管理する。そして、蓄積された候補情報のベクトルをクラスタリング化して、その結果であるクラスタリング情報を候補情報ベクトルクラスタ記憶部243で記憶管理する。また、各クラスタの代表候補情報ベクトルを選出して、代表候補情報ベクトル記憶部242に、代表候補情報のベクトルと代表候補情報のベクトルのクラスタリング情報を記憶する。
図2中Cで示されるステップS109−ステップS111は、候補情報ベクトル記憶部244、候補情報ベクトルクラスタ記憶部243、代表候補情報ベクトル記憶部242のデータを用いて、新入情報9002の新入情報ベクトル9004に対して、合格候補情報ベクトルを選出する。
図1〜図3を参照して以下具体的に説明する。ステップS101はデータベース206の情報間関係定量判定モデル記憶部241に格納されている情報間関係定量判定モデル9008を構築するために、情報間関係ベクトル9005を計算するための情報間関係ベクトル計算部9007を構築する。情報間関係ベクトル9005は、データベース206の候補情報ベクトル記憶部244に蓄積されている候補情報ベクトル9003から算出される。
ステップS102はデータベース206の情報間関係定量判定モデル記憶部241に格納されている情報間関係定量判定モデル9008を構築するために、情報間関係を定量的に判定するためのモデルを構築する。情報間関係の定量判定結果9009は、情報間関係ベクトル9005から算出される。ここで、本実施例で用いられる情報間関係定量判定モデルの形式はニューラルネットワークである。
ステップS103は情報間関係定量判定モデル9008を構築するために、構築された情報間関係ベクトル計算部9007および情報間関係定量判定モデル(ニューラルネットワーク)9008を、データベース206に蓄積されている情報間関係の定量判定の人間判定結果である教師データ9010で訓練する。言い換えれば、情報間関係定量判定モデル9008を教師データ9010から学習する。
教師データ9010は、所定の情報データの組を入力としたとき、予め分かっている正解データである。所定の情報データの組としては、候補情報ベクトル9003のデータを利用しても良い。正解データは人間が判定した結果をデータ化しておく。このため、例えば学習部9011は、システムによる定量判定結果9009と教師データ9010を比較して、情報間関係ベクトル計算部9007と情報間関係定量判定モデル9008のパラメータを調整する。具体的には、情報間関係定量判定モデル9008を構成するニューラルネットワークのノード間の結合の重みを調整する。また、情報間関係ベクトル計算部9007の情報間関係生成関数9006を調整する。このとき、情報間関係生成関数が数学上の三角不等式の制約を満たす関数、あるいはそれらの関数の組み合わせとなるような制約条件下で調整する。学習のための情報の流れを図3中点線で示す。学習の手法については、基本的に従来技術を踏襲してよい。
ステップS104は前記情報間関係定量判定モデルを構築するために、例えば学習部9011は、前記構築された情報間関係定量判定モデルが事前に所定された精度に辿り着いたかどうかを確認する。なお、ここの精度とは、情報間関係の定量判定モデルによる情報間関係の定量判定結果9009とデータベース206に蓄積されている教師データ9010中の人間判定結果間の一致度を指す。
以上の処理にて、新入情報9002と候補情報9001を入力として、それらの情報間関係ベクトル9005、および定量判定結果9009を得るシステムの構築および学習が完了する。ニューラルネットワークの学習に関しては、基本的に既存技術を踏襲することができる。実施例の冒頭で説明したように本実施例では、情報間関係生成関数9006は数学上の三角不等式の制約を満たす関数、あるいはそれらの関数の組み合わせを用いる。ここで、組み合わせする際に用いる組み合わせ関数は単調の数学特性を持つ。三角不等式の制約を満たす関数f(X, Y)は、誤差δを許容する場合、f(X, Y)≦f(X, Z)+f(Y, Z)+δと表すことができる。許容誤差δはユーザが入力装置204から入力して与えることにより、設定することができる。誤差δは設定してもしなくても良い。
また、情報間関係定量判定モデル9008に用いるニューラルネットワークの活性化関数は正定単調凹関数にする。このように生成したニューラルネットワークモデルでは、その出力結果が数学上の三角不等式を満たす。
次にステップS105〜ステップS108では、新入情報ベクトル9004に対して、合格候補情報ベクトルを候補情報ベクトル記憶部244に蓄積されている候補情報ベクトル9003から高速に抽出するために、候補情報ベクトル9003をクラスタリングする。そして、各クラスタの代表候補情報ベクトルを生成し、検索しやすくようにデータベース206の代表候補情報ベクトル記憶部242に格納する。
このために、ステップS105では、情報ベクトル計算部221が、蓄積されている候補情報9001のベクトルを計算する。なお、計算結果の候補情報ベクトル9003はデータベース206の候補情報ベクトル記憶部244に記憶する。
ステップS106は、合格候補情報ベクトルを候補情報ベクトルから高速抽出するために、候補情報ベクトル記憶部244に記憶されている候補情報ベクトル9003をクラスタリングする。クラスタリングには公知の手法を採用してよい。各候補情報ベクトル9003のクラスタリングの結果であるクラスタ番号などはデータベース206の候補情報ベクトルクラスタ記憶部243に保存する。
ステップS107は、候補情報ベクトルクラスタ記憶部243に保存されている候補情報ベクトル9003のクラスタリング化した結果を用いて、各クラスタの代表候補情報ベクトルを各クラスタの候補情報ベクトルから選出する。代表候補情報は例えばクラスタに含まれる候補情報の平均値に近い候補情報を採用するなど、公知の手法を採用して選択してよい。
ステップS108は、全ての候補情報ベクトル9003がクラスタリングできたかどうかを確認する。そして、全てのクラスタの代表候補情報ベクトルを選定できたかどうかを確認する。
以上で、候補情報ベクトル記憶部244に格納されていた全ての候補情報ベクトル9003はクラスタリングされ、各クラスタの候補情報ベクトルは一つの代表候補情報ベクトルによって代表されることになる。
ステップS109〜ステップS111は、以上で構築したニューラルネットワークを用いた情報処理システムを用いて、新入情報のベクトルに対して合格候補情報ベクトルを選出する処理である。
ステップS109では、情報ベクトル計算部221は、候補情報9001に対して行なったのと同様に、新入情報9002のベクトルを計算する。なお、新入情報ベクトル9004のベクトル形式は候補情報ベクトル記憶部244に蓄積されている候補情報ベクトル9003と一致する。
ステップS110は、新入情報ベクトル9004に対して、代表候補情報ベクトル記憶部242の各代表情報ベクトルと情報間関係定量判定モデルで比較し、合格候補情報のクラスタリングを選出する。具体的には、新入情報ベクトル9004と各代表候補情報ベクトルとを、情報間関係ベクトル計算部9007、情報間関係定量判定モデル9008で処理し、定量判定結果9009が所定の条件を満たす代表候補情報ベクトルが属する1または複数のクラスタを、合格候補情報のクラスタリングとして抽出する。一例としては、最も成績がよい代表候補情報ベクトルが属するクラスタを抽出する。あるいは、所定条件を満たす複数のクラスタを抽出する。結果は合格候補情報のクラスタ番号などの情報としてメモリ202に記録される。
ステップS111は、選出された合格候補情報のクラスタリングを記録している合格候補情報のクラスタ番号などの情報を用いて、抽出されたクラスタリング内の候補情報ベクトルと新入情報ベクトルとを、情報間関係ベクトル計算部9007、情報間関係定量判定モデル9008で比較し、合格候補情報を選出する。
例えば、新入情報ベクトル9004と差分がd以下の候補情報ベクトルを1次抽出したい場合、クラスタ内の候補情報ベクトルの差分の最大値をMとすれば、ステップS110では新入情報ベクトルとの差分がd−Mの代表候補情報ベクトルを抽出する。このとき、情報ベクトルが距離の公理を満たすならば、抽出された代表候補情報ベクトルが属するクラスタ内の候補情報ベクトルは、全て新入情報ベクトルとの差分がd以下になる。
次にステップS111では、抽出された代表候補情報ベクトルが属するクラスタ内の各候補情報ベクトルと新入情報ベクトルを比較し、さらに候補情報ベクトルを絞り込むことができる。
以上の実施例に拠れば、クラスタリングの手法を採用することで、処理の高速化が図れることになる。
図4は、実施例2の計算機システムの構成の一例を示すブロック図である。実施例2では、新入情報と候補情報として文書のデータを用い、新入文書と類似する文を候補文書から抽出する具体例を説明する。新入文意は例えば検索したい文章、候補文意は例えば蓄積された旧新聞記事である。図1と同様の構成については添え字付きの同一の符号を付して説明を省略する。計算機システム1000aは、計算機200a及びデータベース206aから構成される。ハードウェア構成は基本的に実施例1と同様である。
計算機200aは、文意類似度計算判定モデル構築部210aと、文意ベクトルクラスタリング部220aと、類似度文選出部230aを備える。これらの構成は、演算装置201がソフトウェアを実行することで実現可能な点は、実施例1と同様である。このため、上記構成は記憶媒体203aに格納されたプログラムのイメージで図示している。
文意類似度計算判定モデル構築部210aは、文意差分ベクトルを文意ベクトルから算出するモデルである文意差分生成関数を構築する文意差分ベクトルモデル構築部211a、文意差分ベクトルから文意差分の定量判定結果を算出するモデルであるニューラルネットワークモデルを構築するニューラルネットワーク構築部212a、を有する。
文意ベクトルクラスタリング部220aは、候補文意および新入文意のベクトルを計算し、ベクトル化する文意ベクトル計算部221a、ベクトル化された候補文意をクラスタリングする候補文意ベクトルクラスタリング部222a、各候補文意クラスタリング内の代表候補文意ベクトルを選出する代表候補文意ベクトル選出部223a、を有する。
類似度文選出部230aは、新入文意ベクトルと各候補文意クラスタリングを代表する代表候補文意ベクトルを比較し、合格候補文意が存在する可能性がある候補文意クラスタを選出する代表候補文意ベクトル比較部231a、新入文意ベクトルと選出された代表候補文意ベクトルが代表している候補文意クラスタ内の全ての候補文意ベクトルを比較し、類似文意ベクトルを選出する類似文意ベクトル選出部232a、を有する。
データベース206aは、文意類似度計算判定モデルを記憶管理する文意類似度計算判定モデル記憶部241a、蓄積された候補文意のベクトルを記憶管理する候補文意ベクトル記憶部244a、蓄積された候補文意のベクトルをクラスタリング化した結果であるクラスタリング文意を記憶管理する候補文意ベクトルクラスタ記憶部243a、各クラスタの代表候補文意ベクトルを記憶管理する代表候補文意ベクトル記憶部242a、を有する。
図5は、実施例2の計算機システムを用いて、データベース206aに格納される文意類似度計算判定モデルを利用し、蓄積された候補文意のベクトルを用いて、新入文意と類似の候補文意を抽出する例を説明するフロー図である。この例では、蓄積された候補文意ベクトルのクラスタリング化、各クラスタの代表候補文意ベクトルの選定を経由し、効率的に合格候補文意ベクトルを選出する。
ステップS301−ステップS304は、データベース206aの文意類似度計算判定モデル記憶部241aに格納されている文意類似度計算判定モデルを構築する。
ステップS305−ステップS308は、データベース206aの候補文意のベクトルを記憶管理する候補文意ベクトル記憶部244aのデータを構築する。また、蓄積された候補文意のベクトルをクラスタリング化して、候補文意ベクトルクラスタ記憶部243aのデータを構築する。また、各クラスタの代表候補文意ベクトルを、クラスタを特定する情報とともに代表候補文意ベクトル記憶部242aに格納する。
図6は、代表候補文意ベクトル記憶部242aと候補文意ベクトルクラスタ記憶部243aのデータの一例である。この例では、2つのデータを結合した形で、クラスタリングおよび代表文記憶データ500として示している。データは相互に関係付けられていれば、単独のデータ形式でも複数のデータ形式でもよい。クラスタリングおよび代表文記憶データ500は、データを一意に示すID501に対し、文意の内容502、当該文意が属するクラスタの番号503、当該文意がクラスタの代表文かどうかを示す代表文フラグ504を含む。
ステップS309−ステップS311は、候補文意ベクトル記憶部244a、候補文意ベクトルクラスタ記憶部243a、代表候補文意ベクトル記憶部242aのデータを用いて、新入文意のベクトルに対して、合格候補文意ベクトルを選出する。
具体的には、ステップS301はデータベース206aの文意類似度計算判定モデル記憶部に格納されている文意類似度計算判定モデルを構築するために、文意差分ベクトルを計算するための文意差分ベクトル計算部を構築する。文意差分ベクトルはデータベース206aの蓄積された候補文意のベクトルを記憶管理する候補文意ベクトル記憶部244aに蓄積されている候補文意ベクトルから算出される。
ステップS302はデータベース206aの文意類似度計算判定モデル記憶部に格納されている文意類似度計算判定モデルを構築するために、文意差分を定量的に判定するためのモデルである文意類似度計算判定モデルを構築する。文意差分の定量化判定結果は、文意差分ベクトルから算出される。ここで、本実施例で用いられるモデル形式はニューラルネットワークである。
ステップS303は文意類似度計算判定モデルを構築するために、構築された文意差分ベクトル計算部および文意類似度計算判定モデル(ニューラルネットワーク)をデータベース206aに蓄積されている文意差分の定量判定の人間判定結果である教師データで訓練する。言い換えは、前記文意類似度計算判定モデルを教師データから学習する。
ステップS304は文意類似度計算判定モデルを構築するために、構築された文意類似度計算判定モデルは事前に所定された精度に辿り着いたかどうかを確認する。なお、ここの精度とは、文意差分の定量判定モデルによる文意差分の定量判定結果とデータベース206aに蓄積されている教師データ中の人間判定結果間の一致度を指す。
ステップS305は、蓄積されている候補文意のベクトルを計算する。なお、計算結果はデータベース206aの候補文意ベクトル記憶部244aに記憶する。蓄積されている候補文意としては、例えば新聞の旧記事の文章がある。
ステップS306は、合格候補文意ベクトルを候補文意ベクトルから高速抽出するために、候補文意ベクトル記憶部244aに記憶されている候補文意ベクトルをクラスタリングする。各候補文意ベクトルのクラスタリングの結果であるクラスタ番号や、クラスタに含まれる候補文意ベクトルを特定する情報などは、データベース206aの候補文意ベクトルクラスタ記憶部243aに保存する。
ステップS307は、候補文意ベクトルクラスタ記憶部243aに保存されている候補文意ベクトルのクラスタリング化した結果を用いて、各クラスタの代表候補文意ベクトルを各クラスタの候補文意ベクトルから選出する。
ステップS308は、全ての候補文意がクラスタリングできたかどうかを確認する。そして、全てのクラスタの代表候補文意ベクトルを選定できたかどうかを確認する。
ステップS309は、新入文意のベクトルに対して、合格候補文意ベクトルを選出するために、新入文意のベクトルを計算する。なお、新入文意のベクトル形式は候補文意ベクトル記憶部444に蓄積されている候補文意ベクトルと一致する。
ステップS310は、新入文意のベクトルに対して、合格候補文意ベクトルを選出するために、各代表文意ベクトルと文意類似度計算判定モデルで比較し、合格候補文意の1または複数のクラスタリングを選出する。計算結果は合格候補文意のクラスタ番号などの文意として記録される。
ステップS311は、選出された合格候補文意のクラスタリングに含まれる候補文意のベクトルと新入文意のベクトルを文意類似度計算判定モデルで比較し、合格候補文意を選出する。
2つの文意ベクトル間の類似度計算は従来手法として、一般的にはcosine距離などが考えられている。教師あり学習を用いたニューラルネットワークモデルでは、従来手法以上の精度で人間の直感の類似度定量判定に近づくことができた。しかし、全てのニューラルネットワーク構造が数学上の距離を算出するものではない。ニューラルネットワークの出力が数学上の距離を満たすための条件は後で詳しく説明する。
一方、新たな文(新入文意)が入力されたとき、全ての旧い文(候補文意)と逐一比較して類似文を抽出する方法では、効率的上の課題がある。そこで、一案として考えられるのは、旧い文をクラスタリングし、各クラスタリングの代表文を選定し、2段階の比較で、類似文抽出を効率化する手法である。しかし、このような手法を数学上正しく実現するためには、文間の類似度は数学上の距離の公理に満たすことが前提である。
例えば、例として、文X1、X2、…、XnはグループAに所属し、文YはグループAの代表文の場合を考える。新たな文Zが入力されたとき、代表文Yと比較するのみで回答が得られる理由は、文間の類似度が数学上の距離の公理を満たす場合には、三角不等式
Distance(Y,Z)−Distance(Xi,Y)<Distance(Xi,Z)<Distance(Xi,Y)+Distance(Y,Z)
が成立するためである。
Distance(Y,Z)−Distance(Xi,Y)<Distance(Xi,Z)<Distance(Xi,Y)+Distance(Y,Z)
が成立するためである。
Distance関数が以上の三角不等式を満たさない場合、代表文YがZと類似しなくても、グループAに所属する文XiがZと類似する可能性がある。その場合、類似文検出の漏れや間違いが発生する可能性がある。
以下で、ニューラルネットワークの出力が数学上の距離の条件を満たすための条件を説明する。
文1の文意ベクトルを
X=(X1, X2, …, Xn)
文2の文意ベクトルを
Y=(Y1, Y2, …, Yn)
と仮定し、XとYの間の情報間関係ベクトルである文意差分ベクトルは
diff(X, Y)
の関数(情報間関係生成関数)で導かれると仮定すれば、XとYの間の文意差分ベクトルから類似度スコアを計算するニューラルネットワークの式は以下となる。
h1=active(A1*diff(X, Y)+b1)
h2=active(A2*h1+b2)
………
similarity score ss(X, Y) = ht = active(At*h(t−1)+bt)
文1の文意ベクトルを
X=(X1, X2, …, Xn)
文2の文意ベクトルを
Y=(Y1, Y2, …, Yn)
と仮定し、XとYの間の情報間関係ベクトルである文意差分ベクトルは
diff(X, Y)
の関数(情報間関係生成関数)で導かれると仮定すれば、XとYの間の文意差分ベクトルから類似度スコアを計算するニューラルネットワークの式は以下となる。
h1=active(A1*diff(X, Y)+b1)
h2=active(A2*h1+b2)
………
similarity score ss(X, Y) = ht = active(At*h(t−1)+bt)
ここで、ベクトルh1、h2..は各層のニューラルネットワークの出力結果、activeはニューラルネットワークの活性化関数、b1、b2..は活性化関数の定数項である。また、similarity score ss(X, Y)はニューラルネットワークの最終的な出力であるt番目の層の出力であり、XとYの類似度スコアである。
類似文検出機能の計算負担を軽減するために、similarity scoreを距離にする必要がある。similarity scoreの関数ss(X,Y)が距離関数になるためには、以下の条件を満足する必要がある。
ss(X,Y)≦ss(X,Z)+ss(Y,Z)
ss(X,Y)≦ss(X,Z)+ss(Y,Z)
これを満たすための一つの十分条件として、以下の2条件を満足することが考えられる。
(1)情報間関係生成関数diff(X,Y)は各種の距離関数、あるいは距離関数の和。すなわち、diff(X,Y)≦diff(X,Z)+diff(Y,Z)
(2)ニューラルネットワークの活性化関数active()は、以下の4条件(2−1)〜(2−4)を満たす関数。本明細書等では、この関数を便宜上「正定単調凹関数」ということにする。
(2−1)active()は単調増加関数。すなわち、active(x)がある区間 [a,b] で定義され、その区間内の任意の x1 ,x2 ( x1<x2 とする) に対して、常に active (x1)≦active (x2)
(2−2)active()は凹関数。すなわち、active(x)がある区間 [a,b] で定義され、その区間内の任意の x1 ,x2 と0≦t≦1に対して、常にt・active(x1)+(1-t)・
active(x2)≦active(t・x1 + (1-t)・x2)
(2−3)active(0)≧0
凹関数は逆U字型(増加してから減少する)のグラフとなるので、同時に単調増加関数とするために、凹関数のうち単調増加する値域に制限することになる。
(2−4)active()において定数項biは正数。すなわちbi>0
(1)情報間関係生成関数diff(X,Y)は各種の距離関数、あるいは距離関数の和。すなわち、diff(X,Y)≦diff(X,Z)+diff(Y,Z)
(2)ニューラルネットワークの活性化関数active()は、以下の4条件(2−1)〜(2−4)を満たす関数。本明細書等では、この関数を便宜上「正定単調凹関数」ということにする。
(2−1)active()は単調増加関数。すなわち、active(x)がある区間 [a,b] で定義され、その区間内の任意の x1 ,x2 ( x1<x2 とする) に対して、常に active (x1)≦active (x2)
(2−2)active()は凹関数。すなわち、active(x)がある区間 [a,b] で定義され、その区間内の任意の x1 ,x2 と0≦t≦1に対して、常にt・active(x1)+(1-t)・
active(x2)≦active(t・x1 + (1-t)・x2)
(2−3)active(0)≧0
凹関数は逆U字型(増加してから減少する)のグラフとなるので、同時に単調増加関数とするために、凹関数のうち単調増加する値域に制限することになる。
(2−4)active()において定数項biは正数。すなわちbi>0
以下で上記2条件が十分条件であることを検証する。
diff(X,Y)は各種の距離関数の和であるから、
diff(X,Y)≦diff(X,Z)+diff(Y,Z)
となる。
diff(X,Y)は各種の距離関数の和であるから、
diff(X,Y)≦diff(X,Z)+diff(Y,Z)
となる。
ここでb1は正数であるから、
A1*diff(X,Y)+b1≦A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1
となる。
A1*diff(X,Y)+b1≦A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1
となる。
active()は単調増加関数であるから、
active(A1*diff(X,Y)+b1)≦active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1)
となる。
active(A1*diff(X,Y)+b1)≦active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1)
となる。
active()は凹関数でactive(0)≧0であるから、
active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1)≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)
active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1)≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)
となる。
active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1)≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)
active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1)≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)
となる。
従って、
active(A1*diff(X,Y)+b1)≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)
h1(X,Y)=active(A1*diff(X,Y)+b1)であるから、
h1(X,Y)≦h1(X,Z)+h1(Y,Z)
となる。
active(A1*diff(X,Y)+b1)≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)
h1(X,Y)=active(A1*diff(X,Y)+b1)であるから、
h1(X,Y)≦h1(X,Z)+h1(Y,Z)
となる。
引き続いて、同じ推論でニューラルネットワークの各層の計算を行なうと、
ht(X,Y)≦ht(X,Z)+ht(Y,Z)
に推論できるので、similarity score ss(X,Y)は
ss(X,Y)≦ss(X,Z)+ss(Y,Z)
の性質を満たすことがいえる。
ht(X,Y)≦ht(X,Z)+ht(Y,Z)
に推論できるので、similarity score ss(X,Y)は
ss(X,Y)≦ss(X,Z)+ss(Y,Z)
の性質を満たすことがいえる。
なお、(1)の条件は誤差δを許容する場合には、
(1’)diff(X,Y)≦diff(X,Z)+diff(Y,Z) +δ
としてもよい。一般には所定の誤差δ>0を許容することが可能である。所定の誤差δを許容した場合には、
ss(X,Y)≦ss(X,Z)+ss(Y,Z)+f(δ)
が満足される。
(1’)diff(X,Y)≦diff(X,Z)+diff(Y,Z) +δ
としてもよい。一般には所定の誤差δ>0を許容することが可能である。所定の誤差δを許容した場合には、
ss(X,Y)≦ss(X,Z)+ss(Y,Z)+f(δ)
が満足される。
この場合においても、b1は正数であるから、
A1*diff(X,Y)+b1≦A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1+A1*δ
active()は単調増加関数であるから、
active(A1*diff(X,Y)+b1)≦active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1+A1*δ)
active()は凹関数でactive(0)≧0であるから、
active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1+A1*δ)
≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1+A1*δ)
≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)+active(A1*δ)
従って、
active(A1*diff(X,Y)+b1)
≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)+active(A1*δ)
h1(X,Y)=active(A1*diff(X,Y)+b1)であるから、
h1(X,Y)≦h1(X,Z)+h1(Y,Z)+active(A1*δ)
すなわち、
h1(X,Y)≦h1(X,Z)+h1(Y,Z)+f1(δ)
引き続いて、同じ推論で、
ht(X,Y)≦ht(X,Z)+ht(Y,Z)+ft(δ)
に推論できるので、similarity score ss(X,Y)はss(X,Y)≦ss(X,Z)+ss(Y,Z)+f(δ)
の性質を満たす。
A1*diff(X,Y)+b1≦A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1+A1*δ
active()は単調増加関数であるから、
active(A1*diff(X,Y)+b1)≦active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1+A1*δ)
active()は凹関数でactive(0)≧0であるから、
active(A1*diff(X,Z)+b1+A1*diff(Y,Z)+b1+A1*δ)
≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1+A1*δ)
≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)+active(A1*δ)
従って、
active(A1*diff(X,Y)+b1)
≦active(A1*diff(X,Z)+b1)+active(A1*diff(Y,Z)+b1)+active(A1*δ)
h1(X,Y)=active(A1*diff(X,Y)+b1)であるから、
h1(X,Y)≦h1(X,Z)+h1(Y,Z)+active(A1*δ)
すなわち、
h1(X,Y)≦h1(X,Z)+h1(Y,Z)+f1(δ)
引き続いて、同じ推論で、
ht(X,Y)≦ht(X,Z)+ht(Y,Z)+ft(δ)
に推論できるので、similarity score ss(X,Y)はss(X,Y)≦ss(X,Z)+ss(Y,Z)+f(δ)
の性質を満たす。
条件を厳しくする場合には許容誤差δ=0とすればよい。許容誤差δをゼロにする等、より厳しい条件であれば、もちろん更に充分になる(精度が向上する)が、ニューラルネットワークのモデル空間を制限し、モデル化能力が不足になる。より緩い条件であれば、モデル化能力は更に向上できるが、充分条件でなくなる(精度が低下する)可能性がある。本実施例では、誤差δは外部から設定可能として適切な設定を可能とする。
similarity score ss(X,Y)はss(X,Y)≦ss(X,Z)+ss(Y,Z)+f(δ)の性質を持っていれば、旧文をクラスタリングし、各クラスタリングの代表文を選定し、2段階の比較で、類似文抽出を効率化することができる。その場合、新たな文Zが入ったとき、代表文Yのグループを排除するために、Distance(Y,Z)はDistance(Y,Z)>R+MaxDistance(Xi,Y)+f(δ)を満足する必要がある。ここで、Rは事前に定めた文意間類似度の閾値であり、文意間類似度R以下の旧文を抽出することが目的である。MaxDistance(Xi,Y)はクラスタリングする時決めたXiとYの間の最大距離である。
similarity score ss(X,Y)はss(X,Y)≦ss(X,Z)+ss(Y,Z)+f(δ)の性質を持つので、
Distance(Xi,Z)+Distance(Xi,Y)+f(δ)≧Distance(Y,Z)、
従って、
Distance(Xi,Z)≧Distance(Y,Z)-Distance(Xi,Y)−f(δ)
Distance(Y,Z)≧R+MaxDistance(Xi,Y)+f(δ)を満足できれば、
Distance(Xi,Z)>R+MaxDistance(Xi,Y)+f(δ)−Distance(Xi,Y)−f(δ)>R
を推論できる。
Distance(Xi,Z)+Distance(Xi,Y)+f(δ)≧Distance(Y,Z)、
従って、
Distance(Xi,Z)≧Distance(Y,Z)-Distance(Xi,Y)−f(δ)
Distance(Y,Z)≧R+MaxDistance(Xi,Y)+f(δ)を満足できれば、
Distance(Xi,Z)>R+MaxDistance(Xi,Y)+f(δ)−Distance(Xi,Y)−f(δ)>R
を推論できる。
従って、Distance(Y,Z)はDistance(Y,Z)>R+MaxDistance(Xi,Y)+f(δ)を満足する場合、Distance(Xi,Z)は必ずRより大きいので、XiとZの間の類似度を計算しなくても排除できることになる。
以上説明した実施例によれば、モデル化能力が高いニューラルネットワークモデルでもcosine距離のように、数学上の三角不等式を満たすような出力結果を得ることが可能になった。出力は数学上の三角不等式を満たすので、候補情報を出力結果ベースでクラスタリングすることが可能になる。候補情報を出力結果ベースでクラスタリングすることが可能になったため、情報間関係の定量判定が一定の数値以上あるいは以下の候補情報を検出したい場合、新入情報との関係の定量判定が一定以上あるいは以下の代表候補情報が所属するクラスタだけと比較すれば良いので、合格候補情報検出タスクを遂行するための計算負担が大幅軽減できる。
実施例1では一般的なシステムについて、実施例2では文書データの文意差分を評価する処理について説明した。本発明は、扱うデータの種類に特に制約はなく、文書のほか、画像、音声等のベクトル化可能なデータ全般に適用することができる。また評価する情報間の関係も類似度に限らない。例えば文意情報について、類似度の他、問いと答えの整合度、異なる言語間の翻訳の精度等を評価することができる。どのような情報間の関係に対応させるかは、ニューラルネットワークの学習における教師データにより決めることができる。
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の実施例の構成の追加・削除・置換をすることが可能である。
候補情報9001、新入情報9002、候補情報ベクトル9003、新入情報ベクトル9004、情報間関係ベクトル9005、情報間関係生成ベクトル9006、情報間関係ベクトル計算部9007、情報間関係定量判定モデル9008、定量判定結果9009、教師データ9010
Claims (14)
- 新入情報および候補情報をベクトル化し、新入情報ベクトルおよび候補情報ベクトルを生成する情報ベクトル計算部と、
前記新入情報ベクトルおよび前記候補情報ベクトルを入力とし、情報間関係生成関数を用いて、情報間関係ベクトルを生成する情報間関係ベクトル計算部と、
前記情報間関係ベクトルを入力とし、定量判定結果を生成する情報間関係定量判定モデルを構成するニューラルネットワークと、を備え、
前記情報間関係生成関数は、許容誤差を含む三角不等式の制約条件を満たす関数あるいはその組み合わせ関数であり、
前記ニューラルネットワークの活性化関数は正定単調凹関数である、
ニューラルネットワークを用いた情報処理システム。 - 前記候補情報ベクトルをクラスタリングする候補情報ベクトルクラスタリング部と、
クラスタリングされた前記候補情報ベクトルから、クラスタを代表する代表候補情報ベクトルを選出する代表候補情報ベクトル選出部と、を備える、
請求項1記載のニューラルネットワークを用いた情報処理システム。 - 前記情報間関係ベクトル計算部および前記情報間関係定量判定モデルを用いて、前記新入情報ベクトルと前記代表候補情報ベクトルとを定量判定し、該定量判定に基づいてクラスタを選出する、代表候補情報ベクトル比較部と、
前記情報間関係ベクトル計算部および前記情報間関係定量判定モデルを用いて、前記新入情報ベクトルと前記選出されたクラスタ内の候補情報ベクトルとを定量判定し、合格候補情報ベクトルを選出する、合格候補情報ベクトル選出部と、を備える、
請求項2記載のニューラルネットワークを用いた情報処理システム。 - 前記新入情報および前記候補情報は、文書情報、画像情報、および音声情報から選択された少なくとも一種類である、
請求項1記載のニューラルネットワークを用いた情報処理システム。 - 前記新入情報ベクトルおよび前記候補情報ベクトルは文意ベクトルであり、前記情報間関係ベクトルは文意差分ベクトルである、
請求項4記載のニューラルネットワークを用いた情報処理システム。 - 前記許容誤差をδとしたとき、
前記許容誤差δは、入力装置から入力することにより与えられる、
請求項1記載のニューラルネットワークを用いた情報処理システム。 - 請求項1記載の情報処理システムを構築する構築システムであって、
前記情報間関係生成関数を構築する情報間関係ベクトルモデル構築部と、
前記ニューラルネットワークを構築するニューラルネットワーク構築部と、
前記情報間関係生成関数と前記ニューラルネットワークを、教師データを用いて学習する学習部と、を備える、
構築システム。 - 新入情報および候補情報をベクトル化し、新入情報ベクトルおよび候補情報ベクトルを生成する情報ベクトル計算処理と、
前記新入情報ベクトルおよび前記候補情報ベクトルを入力とし、情報間関係生成関数を用いて、情報間関係ベクトルを生成する情報間関係ベクトル計算処理と、
前記情報間関係ベクトルを入力とし、ニューラルネットワークを用いた情報間関係定量判定モデルにより定量判定結果を生成する、定量判定結果生成処理と、を備え、
前記情報間関係生成関数は、許容誤差を含む三角不等式の制約条件を満たす関数あるいはその組み合わせ関数であり、
前記ニューラルネットワークの活性化関数は正定単調凹関数である、
ニューラルネットワークを用いた情報処理方法。 - 前記候補情報ベクトルをクラスタリングする候補情報ベクトルクラスタリング処理と、
クラスタリングされた前記候補情報ベクトルから、クラスタを代表する代表候補情報ベクトルを選出する代表候補情報ベクトル選出処理と、を備える、
請求項8記載のニューラルネットワークを用いた情報処理方法。 - 前記情報間関係ベクトル計算処理および前記定量判定結果生成処理を用いて、前記新入情報ベクトルと前記代表候補情報ベクトルとを定量判定し、該定量判定に基づいてクラスタを選出する、代表候補情報ベクトル比較処理と、
前記情報間関係ベクトル計算処理および前記定量判定結果生成処理を用いて、前記新入情報ベクトルと前記選出されたクラスタ内の候補情報ベクトルとを定量判定し、合格候補情報ベクトルを選出する、合格候補情報ベクトル選出処理と、を備える、
請求項9記載のニューラルネットワークを用いた情報処理方法。 - 前記新入情報および前記候補情報は、文書情報、画像情報、および音声情報から選択された少なくとも一種類である、
請求項8記載のニューラルネットワークを用いた情報処理方法。 - 前記新入情報ベクトルおよび前記候補情報ベクトルは文意ベクトルであり、前記情報間関係ベクトルは文意差分ベクトルである、
請求項11記載のニューラルネットワークを用いた情報処理方法。 - 前記許容誤差をδとしたとき、
前記許容誤差δは、入力装置から入力することにより与えられる、
請求項8記載のニューラルネットワークを用いた情報処理方法。 - 前記情報間関係生成関数と前記ニューラルネットワークを構築した後、
前記情報間関係生成関数と前記ニューラルネットワークを、教師データを用いて学習する、
請求項8記載のニューラルネットワークを用いた情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018098750A JP2019204268A (ja) | 2018-05-23 | 2018-05-23 | ニューラルネットワークを用いた情報処理方法、システムおよびその構築システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018098750A JP2019204268A (ja) | 2018-05-23 | 2018-05-23 | ニューラルネットワークを用いた情報処理方法、システムおよびその構築システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019204268A true JP2019204268A (ja) | 2019-11-28 |
Family
ID=68726980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018098750A Pending JP2019204268A (ja) | 2018-05-23 | 2018-05-23 | ニューラルネットワークを用いた情報処理方法、システムおよびその構築システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019204268A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022003537A (ja) * | 2020-12-09 | 2022-01-11 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 対話意図の認識方法及び装置、電子機器並びに記憶媒体 |
-
2018
- 2018-05-23 JP JP2018098750A patent/JP2019204268A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022003537A (ja) * | 2020-12-09 | 2022-01-11 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 対話意図の認識方法及び装置、電子機器並びに記憶媒体 |
JP7309798B2 (ja) | 2020-12-09 | 2023-07-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 対話意図の認識方法及び装置、電子機器並びに記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ju et al. | Cost-sensitive rough set: a multi-granulation approach | |
EP3467723B1 (en) | Machine learning based network model construction method and apparatus | |
CN109992779B (zh) | 一种基于cnn的情感分析方法、装置、设备及存储介质 | |
US8156056B2 (en) | Method and system of classifying, ranking and relating information based on weights of network links | |
Chien et al. | Deep unfolding for topic models | |
US11361151B1 (en) | Methods and systems for intelligent editing of legal documents | |
CN110245238B (zh) | 基于规则推理和句法模式的图嵌入方法及系统 | |
CN113254678B (zh) | 跨媒体检索模型的训练方法、跨媒体检索方法及其设备 | |
US20210209514A1 (en) | Machine learning method for incremental learning and computing device for performing the machine learning method | |
Liu et al. | Risk management system and intelligent decision-making for prefabricated building project under deep learning modified teaching-learning-based optimization | |
CN113139664A (zh) | 一种跨模态的迁移学习方法 | |
Messaoud et al. | SemCaDo: A serendipitous strategy for causal discovery and ontology evolution | |
CN111985207A (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
Lamba et al. | A MCDM-based performance of classification algorithms in breast cancer prediction for imbalanced datasets | |
CN114880427A (zh) | 基于多层级注意力机制的模型、事件论元抽取方法及系统 | |
CN111488460A (zh) | 数据处理方法、装置和计算机可读存储介质 | |
Zhu et al. | Loan default prediction based on convolutional neural network and LightGBM | |
JP2019204268A (ja) | ニューラルネットワークを用いた情報処理方法、システムおよびその構築システム | |
Cano et al. | Training set selection for monotonic ordinal classification | |
Shi et al. | An efficient hyper-parameter optimization method for supervised learning | |
CN111126607A (zh) | 一种模型训练的数据处理方法、装置与系统 | |
CN116386815A (zh) | 基于最大团算法的中医药方推荐方法 | |
Wang et al. | Study of a hull form optimization system based on a Gaussian process regression algorithm and an adaptive sampling strategy, Part II: Multi-objective optimization | |
Hsu et al. | An interpretable generative adversarial approach to classification of latent entity relations in unstructured sentences | |
Mohammadi et al. | An enhanced noise resilient K-associated graph classifier |