JP6265921B2

JP6265921B2 - テキストの意味的処理のための方法、装置および製品

Info

Publication number: JP6265921B2
Application number: JP2014561350A
Authority: JP
Inventors: エドゥアルドデソウザウェッバーフランシスコ
Original assignee: Cortical IO AG
Current assignee: Cortical IO AG
Priority date: 2012-03-15
Filing date: 2013-02-22
Publication date: 2018-01-24
Anticipated expiration: 2033-02-22
Also published as: PT2639749T; ES2611177T3; KR102055656B1; WO2013135474A1; HUE030528T2; DK2639749T3; US20130246322A1; AU2013231564B2; EP2639749A1; HK1199319A1; EP2639749B1; US8886579B2; CA2864946C; PL2639749T3; CN104169948A; KR20140138648A; CA2864946A1; CN104169948B; AU2013231564A1; JP2015515674A

Description

本発明は、特に、テキストの意味的処理、分類および予測のための、ニューラルネットワークのトレーニング方法に関する。本発明は、さらに、コンピュータ読み取り可能な媒体、ならびに、ニューラルネットワークに基づいた分類、予測および変換の機械に関する。

本発明の文脈において、「ニューラルネットワーク」の語は、コンピュータが実施する、人工ニューラルネットワークを指す。ニューラルネットワークの理論、種類および実施の詳細は、非特許文献１や非特許文献２に記載されている。

本発明は、特に、ニューラルネットワークによるテキストの意味的（semantic）処理、すなわち、テキストのワードと、これらのワードが現実世界およびその文脈において表すものとの間の関係に焦点を当てることによる、テキストの意味（meaning）の分析に関する。以下では、テキストの「ワード」（字句）は、言語の通常の用語におけるワードだけでなく、テキストを形成するよう組み合わせ可能な言語の任意の単位たとえば符号や記号を含む。これらのワードからは、ここでテキストの「キーワード」と本発明者らが呼ぶものを残すため、ほぼ意味的関係性の無い、「the」、「he」、「at」などの全てのありふれたワードは無視する。

意味的テキスト処理の分野は広く、たとえば、関連するソート、アーカイブ、データマイニングおよび情報検索を目的とする、特定キーワードを含むテキストの分類が含まれる。テキスト中のキーワードの意味（meaning）を理解し、「意味のある（meaningful）」他のキーワードのテキスト中の存在を予測することは、たとえば、検索エンジンでの意味的クエリ拡張に役立つ。最後に最も大切なことは、意味的テキスト処理によって、ソースであるテキストのワードをより広い意味的文脈で考える際に、ソースであるテキストの曖昧さを解決することにより、機械翻訳の質が高められる。

特に検索エンジンにおけるクエリ拡張のための、意味的テキスト処理の従来の方法は、キーワードに関する大きな統計的指標、これらの見出し語（語彙的語根）およびキーワード間の統計的関係を用いて行われ、関係分析のための大きなシソーラスファイル、統計および辞書を構築する。しかし、統計的方法は、より長くより複雑なワード列を考える場合には、意味的分析の深さが制限される。

他方、ニューラルネットワークは基本的に複雑で多様なデータ内のパターンの認識、たとえば、画像中の物体認識、あるいは、会話、音楽または測定データ中の信号認識に用いられる。ニューラルネットワークは、分析すべき「生」サンプルが供給された際に、認識タスクを満たすことができるように、膨大な量のトレーニングデータを用いて正しく「トレーニング」されなければならない。ニューラルネットワークのトレーニングとは、そのネットワークノード（「ニューロン」）間の内部結合と重みを構成することに等しい。トレーニングの結果とは、ニューラルネットワーク内の通常重み付けされた結合の特定の構成である。

ニューラルネットワークのトレーニングはそれ自体複雑なタスクであり、たとえば反復アルゴリズムや適合アルゴリズムを用いて多数のパラメタを設定する。したがって、ニューラルネットワーク用アルゴリズムのトレーニングは、特定分野用ニューラルネットワークの構築のための技術的手段として考えることができる。

Bishop C. M., "Neural Networks for Pattern Recognition", Oxford University Press, New York, 1995/2010 Rey, G. D., Wender K. F., "Neurale Netze", 2nd edition, Hans Huber, Hofgrefe AG, Bern, 2011

ニューラルネットワークは多量の数値データ内のパターン認識のために現在広く用いられている一方、テキスト処理への適用は、現在のところ、機械読み取り可能な形態でニューラルネットワークにテキストが供給可能な形態に限られている。

本発明の課題は、意味的テキスト処理のためのニューラルネットワークの分析能力をより活かすために、テキストとニューラルネットワークとの間のインタフェースを改善することである。

本発明の第１の態様では、コンピュータが実施するニューラルネットワークのトレーニング方法が提供され、該方法は、
意味的文脈での１つ以上のキーワードをそれぞれ含む複数の第１のテキストドキュメントの第１の集合を用いて、自己組織化マップ型の第１のニューラルネットワークを、各ドキュメントを意味的クラスタリングによって自己組織化マップ内の点にマッピングするために、トレーニングするステップと、
第１の集合に存在する各キーワードについて、パターンとして、キーワードを含む第１のドキュメントがマッピングされる、自己組織化マップ内の全ての点を決定し、パターン辞書内の該キーワードに対する該パターンを保存するステップと、
意味的文脈での１つ以上のキーワードをそれぞれ含む複数の第２のテキストドキュメントの第２の集合から、少なくとも１つのキーワード列を形成するステップと、
パターン辞書を用いて少なくとも１つのキーワード列を少なくとも１つのパターン列に変換するステップと、
少なくとも１つのパターン列を用いて第２のニューラルネットワークをトレーニングするステップと、
を含む。

本方法を用いてトレーニングされた第２のニューラルネットワークは、種々の用途、たとえば：
ｉ）少なくとも１つのキーワードを含むテキストの処理であって、
パターン辞書により、少なくとも１つのキーワードを少なくとも１つのパターンに変換するステップと、
トレーニングされた第２のニューラルネットワークに少なくとも１つのパターンを入力パターンとして供給するステップと、
トレーニングされた第２のニューラルネットワークから少なくとも１つの出力パターンを得るステップと、
パターン辞書により、少なくとも１つの出力パターンを少なくとも１つのキーワードに変換するステップと、
を含む処理；
ｉｉ）階層型の第２のニューラルネットワークが用いられる場合の、テキストの意味的分類であって、少なくとも１つの入力パターンが階層の少なくとも１つの下層に供給され、少なくとも１つの出力パターンが階層の少なくとも１つの上層から得られる、意味的分類：
ｉｉｉ）階層型の第２のニューラルネットワークが用いられる場合の、テキストの意味的予測であって、少なくとも１つの入力パターンが階層の少なくとも１つの上層に供給され、少なくとも１つの出力パターンが階層の少なくとも１つの上層から得られる、意味的予測、
で使用されるように構成され、準備されている。

別の態様では、本発明によれば、テキストをニューラルネットワーク読み取り可能な形態に変換するためのコンピュータ読み取り可能な辞書を生成する方法が提供され、該方法は、
意味的文脈での１つ以上のキーワードをそれぞれ含む複数の第１のテキストドキュメントの第１の集合を用いて、自己組織化マップ型の第１のニューラルネットワークを、各テキストドキュメントを意味的クラスタリングによって自己組織化マップ内の点にマッピングするために、トレーニングするステップと、
第１の集合に存在する各キーワードについて、キーワードと関連する点のパターンとしてキーワードを含むテキストドキュメントがマッピングされる、自己組織化マップ内の全ての点を決定するステップと、
全てのキーワードおよび関連するパターンをコンピュータ読み取り可能なパターン辞書として保存するステップと、
を含む。

本発明によれば、コンピュータ読み取り可能な媒体上で実現されるこの種のコンピュータ読み取り可能な辞書が提供される。

本発明の別の態様は、
ニューラルネットワークが、第１の言語の第１および第２のテキストドキュメントを用いて、本発明の第１の態様にかかる方法によってトレーニングされた分類機械と、
ニューラルネットワークが、第２の言語の第１および第２のテキストドキュメントを用いて、本発明の第１の態様にかかる方法によってトレーニングされた予測機械と、
第１の言語の第１および第２のテキストドキュメントを用いて自身のニューラルネットワークがトレーニングされた分類機械と、第２の言語の第１および第２のテキストドキュメントを用いて自身のニューラルネットワークがトレーニングされた予測機械と、を備えており、分類機械のニューラルネットワークのノードが予測機械のニューラルネットワークのノードに結合されている、変換機械と、
を備えている。

全ての態様において、本発明は、３つの異なる技術、すなわち、自己組織化マップ（ＳＯＭ）、ＳＯＭにおけるキーワードの逆インデックス、および、パターンのストリームに変換されたテキストが供給される目標ニューラルネットワーク、を全く新規なやり方で組み合わせる。

本発明の基本の１つは、キーワードと２次元の（またはより多次元の）パターンとの間の関連付けを含む、新規な種類の「キーワード−パターン」辞書（「パターン辞書」と省略）の生成である。このパターンは、第１のドキュメントの集合の文脈でのキーワードの意味（semantics）を表す。以下に記載されるように、たとえば百科事典の記事といった第１のドキュメントの集合として意味的文脈の適切な集まりを選択することにより、各パターンはキーワードの意味的文脈、すなわち、キーワードの意味（meaning）を反映する。

パターンは、ＳＯＭニューラルネットワーク、特に、「コホネンの自己組織化マップ」（「コホネンの特徴マップ」）によって生成される。ＳＯＭの詳細については、たとえば、Kohonen, T., "The Self-Organizing Map", Proceedings of the IEEE, 78(9), 1464-1480, 1990；Kohonen, T., Somervuo, P., "Self -Organizing Maps of Symbol Strings",Neurocomputing, 21(1-3), 19-30, 1998；Kaski, S., Honkela, T., Lagus, K., Kohonen, T., "Websom-Self -Organizing Maps of Document Collections", Neurocomputing, 21(1-3), 101-117, 1998；Merkl , D., "Text Classification with Self -Organizing Maps: Some Lessons Learned", Neurocomputing, 21(1-3), 61-77, 1998；Vesanto, J., Alhoniemi, E., "Clustering of the Self-Organizing Map", IEEE Transactions on Neural Networks, 11(3), 586-600, 2000；Poelzlbauer G., Dittenbach M., Rauber A.,"Advanced Visualization of Self-Organizing Maps with Vector Fields", IEEE Transactions on Neural Networks 19, 911-922, 2006が参照され、これらは参照により本明細書中に含まれる。

ＳＯＭによって生成されたパターンは、その後、テキストドキュメントの第２の（トレーニング）集合からのキーワード列を、パターン認識のために第２の（目標）ニューラルネットワークに供給されるパターン列に変換するために用いられる。パターン認識はニューラルネットワークの強みの１つである。各パターンはキーワードの固有の意味（meaning）を表し、パターン列はキーワードの文脈上の意味（meaning）を表すことから、第２のドキュメントの集合におけるキーワードの意味（semantics）は、第１のドキュメントの集合の文脈でのキーワードの固有の意味（meaning）を参照して（そしてその背景を前にして）、目標ニューラルネットワークによって分析される。結果として、目標ニューラルネットワークはテキストの意味（semantics）を効率的かつ有意に分析することができる。

本発明の方法および装置はあらゆる種類の目標ニューラルネットワークのトレーニングに適している。好ましい分野は階層的で（少なくとも部分的に）再帰的なニューラルネットワーク、特に、自己連想記憶理論（ＭＰＦ）または階層的一時記憶（ＨＴＭ）型のニューラルネットワークである。ＭＰＦおよびＨＴＭの理論および実施の詳細は、たとえば、Hawkins, J., George, D., Niemasik, J., "Sequence Memory for Prediction, Inference and Behaviour", Philosophical Transactions of the Royal Society of London, Series B, Biological Sciences, 364(1521), 1203-9, 2009；Starzyk, J. A., He, H., "Spatio-Temporal Memories for Machine Learning: A Long-Term Memory Organization", IEEE Transactions on Neural Networks, 20(5), 768-80, 2009；Numenta, Inc., "Hierarchical Temporal Memory Including HTM Cortical Learning Algorithms", Whitepaper of Numenta, Inc., Version 0.2.1, September 12, 2011；Rodriguez A., Whitson J., Granger R., "Derivation and Analysis of Basic Computational Operations of Thalamocortical Circuits", Journal of Cognitive Neuroscience, 16:5, 856-877, 2004；Rodriguez, R. J., Cannady, J. A., "Towards a Hierarchical Temporal Memory Based Self-Managed Dynamic Trust Replication Mechanism in Cognitive Mobile Ad-hoc Networks", Proceedings of the 10th WSEAS international conference on artificial intelligence, knowledge engineering and data bases, 2011や、特許（出願）US2007/0276774A1、US2008/0059389A1、US7739208B2、US7937342B2、US2011/0225108Al、US8037010B2およびUS8103603B2が参照され、これらの論文および特許文献の開示は本明細書中に参照により含まれる。

ＭＰＦおよびＨＴＭ型ニューラルネットワークは、入力パターンストリームの階層的な時系列表現を保存し、テキストの時間的（time-spanning）で、階層的な意味（semantics）を把握するのに特に適している。異なる階層の層にあるノード（ニューロン）は、それ自体、キーワードの階層的抽象化（分類）を表す。分類（抽象化）は、入力が階層の下から上に供給される際の、このようなネットワークの本来的作用原則であり、予測（具体化）は入力が階層の上から下に供給される際の本来的作用原則である。

本発明の他の態様では、キーワードの全体の分類（抽象化、カテゴリ）を表すノードの概念が、分類装置のノード出力に割り当てられる予測機械として変換機械を構築するために用いられる。

本発明の別の態様では、複数の第２のドキュメントを用いて、トレーニングパターンストリームに変換して、第２のドキュメントの特定の集合における第２のニューラルネットワークをトレーニングすることができる。

本発明の他の実施形態では、第２のドキュメントは複雑性の低い順にソートされ、第２のニューラルネットワークのトレーニングの際には、パターンの個別の列がそれぞれ形成され、変換される第２のドキュメントのソート順で、パターンの個別の列が第２のニューラルネットワークに供給される。これは第２のニューラルネットワークのより高速なトレーニングにつながる。

本発明の他の別の態様では、第２のドキュメントの複雑性は、第２のドキュメント中の異なるキーワードの数、第２のドキュメント中の平均文長、第２のドキュメント中の第１の集合の１つ以上のキーワードの頻度、第１の集合または別のテキストコーパス中の第２のドキュメントの１つ以上のキーワードの頻度の１つ以上に基づいて確認される。

本発明は、添付図面を参照してより詳細に説明される。

本発明の方法の概略フローチャートを示し、これには、本発明にかかる、第１および第２のニューラルネットワーク、パターン辞書、ならびに、分類、予測および変換機械のブロック図が含まれている。図１の第１のニューラルネットワークへの入力ベクトルとしての第１のドキュメントの集合のためのベクトル処理段のフローチャートである。図１の第１のニューラルネットワークの出力として形成された自己組織化マップ（ＳＯＭ）の例を示す。図１のパターン辞書を形成する、ベクトル処理段およびＳＯＭからの入力を受け取る、逆インデックスのフローチャートである。ＳＯＭ内の２つの異なるキーワードのためのパターン例を用いた逆インデックスＳＯＭ表現を示す。ストップワード（非キーワード）のためのいくつかの所定のパターンの例を示す。図１の第２のドキュメントの第２の集合のためのキーワード列抽出段のフローチャートを示す。第２の集合の第２のドキュメントのための任意選択的なドキュメントソート段の結果を示す。図１のパターン列へのキーワード列の変換のステップのフローチャートを示す。図１の第２のニューラルネットワークとして用いられるＭＰＦの階層的ノード構造の例を示す。

全体の外観として、図１は、第１のテキストドキュメント３の第１の集合２を用いて第１のニューラルネットワーク４をトレーニングする、意味的テキスト処理方法および装置を示す。第１のニューラルネットワーク４は自己組織化マップ（ＳＯＭ）型であり、自己組織化マップ（ＳＯＭ）５を形成する。ＳＯＭ５から、第１のドキュメントの集合２に存在するキーワード７を表すパターン６が、逆インデックス段８によって形成され、パターン辞書に入れられる。

パターン辞書９は、第２のドキュメント１３の第２の集合１２から抽出されたキーワード列１１をパターン列１４に変換するために、変換段１０で用いられる。パターン列１４を用いて、第２のニューラルネットワーク１５がトレーニングされる。第２のニューラルネットワーク１５は好ましくは（必須ではなく）、自己連想記憶理論（memory prediction framework：ＭＰＦ）または階層的一時記憶（hierarchical temporal memory：ＨＴＭ）型である。トレーニングされた第２のニューラルネットワーク１５は、その後、パターン辞書９を用いて変換されたテキストを意味的に分類するか（経路１６参照）、または、パターン辞書９を用いて変換されたテキストを意味的に予測する（経路１７参照）。トレーニングされた第２のニューラルネットワーク１５の別の任意選択的用途は、階層マッピングであり（経路１８参照）、これは、第２のニューラルネットワーク１５に構成上類似するが、第２のニューラルネットワーク１５とは異なる言語でトレーニングされた、任意選択的な第３のニューラルネットワーク１９へのマッピングである。したがって、ノードマッピング１８は、第１の言語ネットワーク１５のノード１５’と、第２の言語ネットワーク１９の意味的ノード１９’との間の意味的な一致に対応する。

図１に示される要素の処理と機能は、図２〜１０を参照してより詳細に記載されている。

図２は、第１のドキュメント３の第１の集合２についてインデックスを作成し、ベクトル化する事前処理およびベクトル化段ステップ２０を示す。ステップ２０において、第１のニューラルネットワーク（ＳＯＭ）４の入力層２３に用いられる入力トレーニングベクトルまたは行列（テーブル）２２として、第１の集合２から入力ベクトル２１の列が生成される。当業者に知られているように、ＳＯＭニューラルネットワーク４は通常、ニューロン（ノード）の入力層２３と出力層２４の２つの層のみを有しており、これらは、結合２５によって相互結合されており、その重みは重み行列によって表すことができる。ＳＯＭニューラルネットワークは非監視学習アルゴリズムによってトレーニング可能であり、ここで、重み付け行列の重みは、入力ベクトルに自己適合化され、２次元の（またはより多次元の）マップ５における出力層２４のノードの空間関係が考慮されつつ、入力層２３のノードが出力層２４のノードに特定的にマッピングされる。これにより、入力ベクトル２１がその類似性に関してクラスタ化されたマップ５が得られ、よって、非常に類似した入力ベクトル２１を含むマップ５内の領域２６が得られる。ＳＯＭニューラルネットワークの詳細については、上述の参考文献を参照されたい。

その中の第１の集合２および第１のドキュメント３は、各ドキュメント３が例えば１〜１０、１〜２０、１〜１００、１〜１０００以上、好ましくは約２５０〜５００のキーワード７を意味的文脈中に含む、数および精度たとえば個別のドキュメント３の長さであるように選択される。第１のドキュメント３は、たとえば、キーワード７の他に、通常ストップワード、ここでは非キーワードと呼ぶ、ほぼ意味的関連性のないワード（たとえば「a」、「the」など）を含む。

集合２中のドキュメント３の数は、キーワード７に関する意味的文脈の代表的コーパスが得られるよう選択され、例えば数千または数百万のドキュメント３である。例示的実施形態では、それぞれ約２５０〜５００のキーワード７を含む約１，０００，０００のドキュメント３が第１のドキュメントの集合２として用いられる。

ドキュメント３の長さ（キーワード数）は、全体の集合２にわたってほぼ一定であるべきであり、キーワード７は、集合２中の複数のドキュメント３にわたって均一にばらばらに分散されているべきであり、各ドキュメント３はキーワード７の良好な多様性を有しているべきである。

キーワード７は、たとえばワードの語根（主要語）であり、したがって、たとえば、単数形および複数形（cat/cats）または異なる動詞の形態（go/going）についてただ１つのキーワード７が考慮される。キーワード７は特定のワードの形態および／またはワードの語根の両方であってもよい。ストップワードなどの、意味のあるキーワードの構築できないワードを除いた後、各ドキュメント３はキーワード７の「ワード嚢」と考えることができる。

実際の実施形態では、適切な第１の集合２はたとえば百科事典たとえば、Ｗｉｋｉｐｅｄｉａ（商標）プロジェクトの「クリエイティブコモンズ帰属ライセンス」または「ＧＮＵフリードキュメンテーションライセンス」に従って得られるＷｉｋｉｐｅｄｉａ（商標）の記事から生成される。このような百科事典の記事またはエントリは、たとえば、それぞれ、章、段落などに従って完全に均一な長さのドキュメント３に分解され、これにより、各ドキュメント３は意味的な（semantic）、すなわち、意味のある（meaningful）文脈でのキーワードを含む。

ベクトル２１を生成するため、全体の集合２に存在する全てのキーワード７のインデックスが生成され、行列（テーブル）２２の列の項目２７として横方向に展開される。逆に、全体の集合２の全てのドキュメント３のドキュメント識別（「ｉｄ」）は、行列２２の行の項目２８として縦方向に展開される。したがって、特定のドキュメント３中の特定のキーワード７の各存在に対して、フラグまたはバイナリ「１」が行列２２の各セルに入れられる。すなわち、行列２２中、１つのドキュメント３についての横方向の一列は規格化された「キーワード存在」ベクトル２１を表し、特定のキーワード位置（列の位置）のバイナリ「１」は、このキーワード７がこのドキュメント３の「ワード嚢」に含まれていることを示し、バイナリ「０」がこのドキュメント３中にこのキーワード７が存在しないことを示している。あるいは、他には、行列２２中の各列は、特定のキーワード７についての、キーワード７を含むバイナリ「１」が付された全てのドキュメント３を示す。

入力ベクトル２１、すなわち、ドキュメント３およびそのキーワード内容を表す行列２２の列は、次いで、ＳＯＭニューラルネットワーク４の入力層２３に連続的に供給され、これをトレーニングする。これは、第１の集合、たとえば、１，０００，０００の第１のドキュメント３が用いられる場合には、１，０００，０００のベクトル入力のトレーニング試行が第１のニューラルネットワーク４に供給されることを意味する。

トレーニング試行の結果として、ＳＯＭニューラルネットワーク４の出力層２４がマップ５を形成し、これにおいて、ドキュメント３（ベクトル２１）は、類似性によってクラスタ化されたマップ５の個々の点（「ピクセル」）Ｘ_ｉ／Ｘ_ｊにマッピングされる。図３は、マップ５の例を示す。各マップ点Ｘ_１／Ｙ_１、Ｘ_２／Ｙ_２、…、Ｘ_ｉ／Ｙ_ｊ、…、０に対して、キーワード７の嚢を含む１つ以上のドキュメント３がマッピングされる。ドキュメント３（ベクトル２１）は、たとえば行の項目２８からのそのドキュメントｉｄによって、マップ５中で識別される。このＳＯＭクラスタ化処理によって、たとえばそのキーワードの８０％または９０％が一致する非常に類似したキーワード７を含む異なるドキュメント３が、相互に近い空間関係でマッピングされ、これがマップ５における意味的「領域」２６_ａ、２６_ｂ、２６_ｃ、２６_ｄなどを形成する。

次いで、図４の逆インデックス段８において、キーワードインデックス２７からの所定キーワード７のための行列２２に基づいて、当該キーワード７を含む全てのこれらのドキュメント３が識別される。これは、たとえば、行列２２中の所定キーワード７の特定の列中のすべてのバイナリ「１」を検索し、行の項目２８に記載されたドキュメント３のｉｄを検索することにより容易に行える。

所定キーワード７を含むと確認されたこれらのドキュメント３について、特定のドキュメントｉｄを参照する全てのマップ点Ｘ_ｉ／Ｙ_ｊがマップ５から決定される。このマップ点の集合｛Ｘ_ｉ／Ｙ_ｊ｝が、パターン６を表す。パターン６は、所定キーワード７が第１の集合２中に現れる意味的文脈を表している。パターン６中の点Ｘ_ｉ／Ｙ_ｊの空間的（すなわち、２次元的またはより多次元的）分布は、キーワード７が第１の集合２に存在する文脈での、その特定の意味的領域２６_ａ、２６_ｂ、…を反映する。

パターン６は、たとえば、バイナリマップ３１（図４参照）として符号化され、１つのドキュメントの集まりたとえば第１の集合２におけるキーワード７の意味的意味（semantic meaning）のバイナリ「フィンガプリント」または「フットプリント」とみなすこともできる。第１の集合２が特定の言語における非常に多様な、意味のある（meaningful）テキストを含む場合、パターン６はキーワード７の高い意味的重要性がある。

パターン６の空間解像度はＳＯＭニューラルネットワーク４および／またはマップ５の空間解像度以下であってよい。後者の空間解像度は、必要な分析パフォーマンスに応じて選択可能である。たとえば、マップ５は、数百万のマップ点Ｘ_ｉ／Ｙ_ｊ、たとえば、１０００×１０００の点からなり、パターン６は高精度について同じ解像度であってもよく、または、比較的低いメモリ要件のために比較的粗い解像度であってもよい。

図５は、わかりやすいように、２つの異なるパターン（黒い点で示される）をマップ５に重ねた例を示す。この例では、領域２６_ａ、２６_ｂ、２６_ｃ、２６_ｄは意味的分類、たとえば、「捕食者」、「ネコ属」、「私のペット」および「イヌ属」でもって手動でラベル付与されている。これは例示に過ぎない。このようなラベル付与は本願の方法処理およびアルゴリズムの正確な機能のために必ずしも必要なものではなく、それにはマップ点Ｘ_ｉ／Ｙ_ｊの空間ＳＯＭ分布が必要とされるのみである。

図５の左に示される画像において、キーワード「猫」が現れるすべてのドキュメント３が点で示されている。図５の右に示される画像において、キーワード「犬」を含むすべてのドキュメント３が点で示されている。「猫」のドキュメントが主として、領域２６_ｂ（「私のペット」）および２６_ｄ（「ネコ属」）に分けられ（すなわちクラスタ化され）、「犬」のドキュメント３は、主として領域２６_ｂ（「私のペット」）および２６_ｃ（「イヌ属」）にクラスタ化されることが容易に見て取れる。

図１に戻り、第１の集合２中に存在する各キーワード７について、各パターン６は、二方向マッピングの形態、すなわち、１つのキーワード７とそのパターン６とが関連づけられて、パターン辞書９に保存される。パターン辞書９は、図１の方法およびシステム１の最初の中間産物を構成する。パターン辞書９は、コンピュータ読み取り可能な媒体、たとえば、データキャリアたとえば、ハードディスク、ＣＤ−ＲＯＭ、ＤＶＤ、メモリチップ、インターネットサーバ、インターネット上のクラウドストレージに保存（「実現」）される。

パターン辞書９の生成には、第１のニューラルネットワーク４のトレーニングおよびマップ５の逆インデックスのための膨大な処理能力が用いられる場合がある。したがって、パターン辞書９は、好ましくは一度事前計算され、その後に、図１の処理および機械の別の段およびモジュールにおいて繰り返し用いられる。

たとえば用途特定的および／または言語特定的に選択される第１のドキュメント３の異なる複数の第１の集合２に基づいて、たとえば異なる複数のパターン辞書９が事前計算され、コンピュータ読み取り可能な媒体上で、その後の段を実施し、以下でより詳細に記載される、その後の処理のモジュールおよび機械を実行するものに対して頒布される。

その後の段およびモジュールにおいて、第２のニューラルネットワーク１５が、第２のドキュメント１３の第２の集合に基づいて、意味的テキスト処理のためにトレーニングされる。第２の集合１２は第１の集合２と同一であって良いが、実際には第２の集合１２は、第１の集合２の部分集合を含むか、または、実際に全く異なる用途特定的な第２のドキュメント１３を含む。たとえば、第１の集合２は膨大な数の総合的な（「百科事典的な」）ドキュメント３を含む一方で、第２の集合１２は、たとえば、意味的クエリ（キーワード）拡張によって検索され、意味的分類によって分類もしくはソートされ、または、意味的変換によって変換される必要のある、ユーザドキュメント１３の用途特定的ユーザデータの集合であってよい。パターン辞書９は、キーワード７の一般的な意味的意味（semantic meaning）に関する背景的な意味的知識を反映し、一方、第２のニューラルネットワーク１５は、ユーザドキュメント１３のユーザデータ集合１２の詳細な分析を実行する。

ユーザドキュメント１３は、たとえば、製品データベース、ウェブページ、特許文書、医療記録、または、第２のニューラルネットワーク１５によって分析されるべきあらゆる種類のデータの集まりからのレコードである。第２の集合１２の１つの前提条件は、第１の集合２と同じ言語で記述されていることであり、そうでなければ、パターン辞書９は第２の集合１２に対して意味のある使用ができないからである。さらに、好ましくは（必須ではなく）、第２の集合１２の第２のドキュメント１３に存在するキーワード７は、第１の集合２におけるキーワード７の集合全体、すなわち、インデックス２７内に含まれており、第２の集合１２のキーワード７はパターン辞書９中に列記されており、検索可能である。

パターン辞書９において、ストップワードまたは非キーワードは、無視されるか、または、図６に示されるような予め定めたまたは予め構成された符号パターンとして組み入れられる。

第２のニューラルネットワーク１５のトレーニングのため、第１の段３２において、キーワード７の列１１が第２の集合１２から抽出される。図１、７、８は、この抽出段を詳細に示す。基本的に、１つのみまたはいくつかの第２のドキュメント１３が、通常の読み取り順３３で、連続的に、ワード毎、行毎、段落毎、章毎、ドキュメント毎に読み取られる場合には、これで充分である。ストップワードまたは非キーワードは、スキップされ（または図６に記載されるように個別に処理され）、結果はキーワード７の１つの列１１である。しかし、好ましくは、第２の集合１２は、複数の第２のドキュメント１３に分割され、キーワード７の１つ列１１が１つのドキュメント１３に対して生成される。列１１はその後、第２のニューラルネットワーク１５に対するトレーニング入力として、（たとえば、元となったドキュメント１３の順序で）用いられる。

第２のニューラルネットワーク１５のトレーニングは、ドキュメント１３および／または列１１の任意選択的なソートが抽出段３２で行われる場合に、加速できる。この任意選択的なソートのため、処理３４において、「複雑性因子」ＣｏｍｐＦが第２の集合１２の各ドキュメント１３について計算される。複雑性因子ＣｏｍｐＦはドキュメント１３の以下のパラメタの１つ以上に基づいて計算可能である：
−ドキュメント１３における異なるキーワード７の数；
−ドキュメント１３における文および段落の平均ワード数；
−ドキュメント１３における１つ以上のキーワード７、たとえば、第１の集合２の全てのキーワード７の頻度または多様性；
−第１の集合２全体、または、口語的言語の別のテキストコーパスを表すもの、たとえば新聞のコレクションにおけるドキュメント１３の１つ以上のキーワード７、たとえば、全てのキーワード７の頻度。

その後、抽出段３２において、ドキュメント１３は複雑性因子ＣｏｍｐＦの低い順でソート（ランク付け）されてもよい（図８参照）。このようにして、第２のニューラルネットワーク１５は、複雑性が増大するように列１１が供給され、たとえば、キーワード７の多様性が低い基本的なまたは簡単な列１１が最初に用いられ、複雑な意味的および言語的構造を有する列１１が最後に第２のニューラルネットワーク１５のトレーニングのために用いられる。

第２のニューラルネットワーク１５に供給される前に、キーワード７の列１１はパターン辞書９に基づいて、変換段１０において変換される。列１１内の各キーワード７は、パターン辞書９において検索され、関連づけされたパターン６が検索され、結果がパターン６の列１４であり、各ドキュメント１３に対して１つのパターン列１４である。各パターン列１４は、第１のドキュメント集合２の包括的な意味的文脈におけるドキュメント１３内のキーワード７の意味的文脈を表すパターン６の時間列または「ムービークリップ」とみなすことができる。

簡単な実施形態では、パターン６のただ１つの長い列１４を、第２のニューラルネットワーク１５のトレーニングに用いることで充分である。好ましくは、多数のパターン列１４（「複数列の列」）が用いられ、各パターン列１４は第２のニューラルネットワーク１５のためのタイムライン化されたトレーニングベクトル（行列）を表す。図９は、キーワード列１１をパターン列１４に変換する変換段１０の例を示す。

トレーニング段（図１の矢印３５）において、第２のニューラルネットワーク１５には、パターン６および時間にわたるその列を学習するように、パターン列１４が連続的に供給される。最初に述べたように、パターンの時系列処理に適合された全ての種類のニューラルネットワークを用いてよく、たとえば、スライド窓を用いるフォードフォワードパターン処理ニューラルネットワークを用いてもよい。代替的にかつ好ましくは、再帰的または少なくとも部分的に再帰的なニューラルネットワークを、遅延ループの有無に関わらず、時間列、たとえば、自己相関または自動相関ニューラルネットワークを学習および記憶するために用いることができる。

有利な実施形態では、第２のニューラルネットワーク１５は、階層の上層は階層の下層よりも少ないノード（ニューロン）を含んでいるという点で同様に階層的である。図１０は、このような階層的ネットワークの例を示し、特に、時間的列の学習のための、横方向（層内、図１参照）および縦方向（層間）のフィードバック結合を含む自己連想記憶理論（ＭＰＦ）型を示す。このようなＭＰＦアーキテクチャの好ましい形態は、階層的一時記憶（ＨＴＭ）型のニューラルネットワークである。ＭＰＦおよびＨＴＭニューラルネットワークの理論および実施の詳細は、上に挙げた論文に記載されており、その開示は本明細書中に参照により含まれる。

ＭＰＦおよびＨＴＭネットワークは、（トレーニングされた構成において）、階層の下層におけるニューロン（ノード）の発火パターンの抽象化（分類）を表す階層においてニューロン（ノード）を展開する。特に「行状の」副層構造のノード間の、トレーニングされた再帰的（フィードバック）層内および層間結合を用いることにより、これにより、発火パターンの時間ストリーム全体の時間挙動がモデル化される。このようにして、ＭＰＦおよびＨＴＭネットワークは、パターンのストリームを学習、記憶および分類し、パターン列を認識しかつ過去のパターン列からありうる将来のパターンを予測することができる。

ニューラルネットワーク１５がパターン列１４でトレーニングされると、新たなパターンまたは新たなパターン列１４がネットワーク１５の下層階層レベルにおいて「分類」入力への新たな入力として用いられ、上層階層レベルにおけるノードの出力からのパターンとして意味的分類／抽象化を得ることができる（経路１６を参照）；あるいは、新たなパターン６または新たなパターン列１４が上層階層レベルにおける「予測」入力に供給され、予測されたパターン（意味的予測）が階層の下層レベルから得られる（経路１７を参照）。

図１からわかるように、パターン辞書９は、経路１６、１７の両方において用いられ、キーワード７の任意の新たな「クエリ」列を「クエリ」列１４に変換し、「結果得られる」分類または予測キーワード７にニューラルネットワーク１５の出力パターンを変換する。

したがって、分類経路１６は、ネットワーク１５の入力インタフェースおよび出力インタフェースにおいてパターン辞書９を用いて、トレーニングされたニューラルネットワーク１５によって、クエリテキストを分類するために用いられる。経路１７は、クエリテキストからキーワードを予測し、たとえば、クエリキーワードフレーズをさらに、ニューラルネットワーク１５の入力および出力インタフェースの両方においてパターン辞書９を用いて、意味的にクエリフレーズと一致する（予測される）キーワード７に「拡張」するために用いられる。

トレーニングされたニューラルネットワーク１５の別の使用が、図１の破線で示されている。ニューラルネットワーク１５がトレーニングされたものとは異なる言語のドキュメント３、１３の集合２、１２を用いてトレーニングされた第３のニューラルネットワーク１９が、（ネットワーク１５、１９内の対応する分類ノード１５’、１９’が識別可能である限り）、第２のネットワーク１５に対してノード的にマッピングされている。第３のネットワーク１９の入力３８および出力３９に、第３のネットワーク１９の言語でドキュメント２から生成された別のパターン辞書が用いられる。このようにして、２つの言語間の意味的変換が、２つのトレーニングされたＭＰＦまたはＨＴＭネットワーク１５、１９の意味的マッピングによって得られうる。

本発明について２次元のマップ５およびパターン６を参照して説明したが、第１のニューラルネットワーク４は３次元またはより多次元のマップ５を生成してもよく、したがって、パターン辞書９内に３次元またはより多次元のパターン６を得て、続いて、３次元またはより多次元のパターン列１４および３次元またはより多次元において働く第２および第３のニューラルネットワーク１５、１９を得ても良い。

本発明は実施例として詳細に説明した特定の実施形態に限定されず、添付の特許請求の範囲に含まれる、すべての変形、修正およびこれらの組み合わせを含む。

Claims

テキストをニューラルネットワーク読み取り可能な形態に変換するためのコンピュータ読み取り可能な辞書を生成する、コンピュータが実施する方法であって、
意味的文脈での１つ以上のキーワード（７）をそれぞれ含む複数の第１のテキストドキュメント（３）の第１の集合（２）を用いて、自己組織化マップ型の第１のニューラルネットワーク（４）を、各テキストドキュメント（３）を意味的クラスタリングによって自己組織化マップ（５）内の点（Ｘ_ｉ／Ｙ_ｊ）にマッピングするために、トレーニングするステップと、
前記第１の集合（２）に存在する各キーワード（７）について、前記キーワード（７）と関連する点（Ｘ_ｉ／Ｙ_ｊ）のパターン（６）として前記キーワード（７）を含む前記テキストドキュメント（３）がマッピングされる、前記自己組織化マップ（５）内の全ての点（Ｘ_ｉ／Ｙ_ｊ）を決定するステップと、
全てのキーワード（７）および関連するパターン（６）をコンピュータ読み取り可能なパターン辞書（９）として保存するステップと、
を含む、ことを特徴とする方法。
ニューラルネットワークをトレーニングするための、コンピュータが実施する方法であって、
意味的文脈での１つ以上のキーワード（７）をそれぞれ含む複数の第１のテキストドキュメント（３）の第１の集合（２）を用いて、自己組織化マップ型の第１のニューラルネットワーク（４）を、各テキストドキュメント（３）を意味的クラスタリングによって自己組織化マップ（５）内の点（Ｘ_ｉ／Ｙ_ｊ）にマッピングするために、トレーニングするステップと、
前記第１の集合（２）に存在する各キーワード（７）について、前記キーワード（７）と関連する点（Ｘ_ｉ／Ｙ_ｊ）のパターン（６）として前記キーワード（７）を含む前記テキストドキュメント（３）がマッピングされる、前記自己組織化マップ（５）内の全ての点（Ｘ_ｉ／Ｙ_ｊ）を決定するステップと、
全てのキーワード（７）および関連するパターン（６）をコンピュータ読み取り可能なパターン辞書（９）として保存するステップと、
意味的文脈での１つ以上のキーワード（７）をそれぞれ含む第２のテキストドキュメント（１３）の第２の集合（１２）から、キーワード（７）の少なくとも１つの列（１１）を形成するステップと、
前記キーワード（７）の少なくとも１つの列（１１）を、前記パターン辞書（９）を用いて、パターン（６）の少なくとも１つの列（１４）に変換するステップと、
前記パターン（６）の少なくとも１つの列（１４）を用いて、第２のニューラルネットワーク（１５）をトレーニングするステップと、
を含む、方法。
前記第２のニューラルネットワーク（１５）は、階層的でありかつ少なくとも部分的に再帰的である、請求項２記載の方法。
前記第２のニューラルネットワーク（１５）は、自己連想記憶理論型である、請求項２記載の方法。
前記第２のニューラルネットワーク（１５）は、階層的一次記憶型である、請求項２記載の方法。
前記第１のニューラルネットワーク（４）は、コホネンの自己組織化マップである、請求項２から５のいずれか１項記載の方法。
前記第２の集合（１２）の前記第２のドキュメント（１３）のそれぞれについて、キーワード（７）の個別の列（１１）が形成され、パターン（６）の個別の列（１４）に変換され、前記第２のニューラルネットワーク（１５）は前記パターン（６）の個別の列（１１）のそれぞれを用いて連続的にトレーニングされる、請求項２から６のいずれか１項記載の方法。
前記第２のドキュメント（１３）はソートされ、前記第２のニューラルネットワーク（１５）のトレーニングの際、前記パターン（６）の個別の列（１４）がそれぞれ形成され、変換される前記第２のドキュメント（１３）のソート順で、前記パターン（６）の個別の列（１４）が前記第２のニューラルネットワーク（１５）に供給される、請求項７記載の方法。
前記第２のドキュメントは複雑性の低い順にソートされ、前記第２のドキュメント（１３）の複雑性は、前記第２のドキュメント（１３）中の異なるキーワード（７）の数、前記第２のドキュメント（１３）中の平均文長、前記第２のドキュメント（１３）中の前記第１の集合の１つ以上のキーワード（７）の頻度、前記第１の集合（２）または別のテキストコーパス中の前記第２のドキュメント（１３）の１つ以上のキーワード（７）の頻度の１つ以上に基づいて確認される、請求項８記載の方法。
請求項２から９のいずれか１項記載の方法によってトレーニングされた前記第２のニューラルネットワーク（１５）を用いて、少なくとも１つのキーワード（７）を含むテキストを処理するための方法であって、
前記少なくとも１つのキーワード（７）を前記パターン辞書（９）によって少なくとも１つのパターン（６）に変換するステップと、
前記少なくとも１つのパターン（６）を、入力パターンとして、トレーニングされた前記第２のニューラルネットワーク（１５）に供給するステップと、
トレーニングされた前記第２のニューラルネットワークから少なくとも１つの出力パターン（６）を得るステップと、
前記パターン辞書（９）により、前記少なくとも１つの出力パターン（６）を少なくとも１つのキーワード（７）に変換するステップと、
を含む、方法。
テキストの意味的分類のための請求項１０記載の方法であって、
前記第２のニューラルネットワーク（１５）は階層的であり、前記少なくとも１つの入力パターン（６）は階層の少なくとも１つの下層に供給され、前記少なくとも１つの出力パターン（６）は前記階層の少なくとも１つの上層から得られる、
請求項１０記載の方法。
テキストの意味的予測のための請求項１０記載の方法であって、
前記第２のニューラルネットワーク（１５）は階層的であり、前記少なくとも１つの入力パターン（６）は前記階層の少なくとも１つの上層に供給され、前記少なくとも１つの出力パターン（６）は前記階層の少なくとも１つの下層から得られる、
請求項１０記載の方法。
請求項２から９のいずれか１項記載の方法を用いて前記第２のニューラルネットワーク（１５）としてトレーニングされた階層型のニューラルネットワークを含む、分類機械。
請求項２から９のいずれか１項記載の方法を用いて前記第２のニューラルネットワーク（１５）としてトレーニングされた階層型のニューラルネットワークを含む、予測機械。
前記ニューラルネットワーク（１５）が、第１の言語の第１および第２のテキストドキュメント（３、１３）を用いて、請求項２から９のいずれか１項記載の方法によってトレーニングされた、請求項１３記載の分類機械と、
前記ニューラルネットワーク（１９）が、第２の言語の第１および第２のテキストドキュメント（３、１３）を用いて、請求項２から９のいずれか１項記載の方法によってトレーニングされた、請求項１４記載の予測機械と、
を備えており、
前記分類機械の前記ニューラルネットワーク（１５）のノード（１５’）が前記予測機械の前記ニューラルネットワーク（１９）のノード（１９’）に結合されている、
ことを特徴とする変換機械。