JP6678930B2 - 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム - Google Patents

分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム Download PDF

Info

Publication number
JP6678930B2
JP6678930B2 JP2015170953A JP2015170953A JP6678930B2 JP 6678930 B2 JP6678930 B2 JP 6678930B2 JP 2015170953 A JP2015170953 A JP 2015170953A JP 2015170953 A JP2015170953 A JP 2015170953A JP 6678930 B2 JP6678930 B2 JP 6678930B2
Authority
JP
Japan
Prior art keywords
classification model
units
combination
training
dedicated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015170953A
Other languages
English (en)
Other versions
JP2017049684A (ja
Inventor
岳人 倉田
岳人 倉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2015170953A priority Critical patent/JP6678930B2/ja
Priority to US15/251,008 priority patent/US10621509B2/en
Publication of JP2017049684A publication Critical patent/JP2017049684A/ja
Application granted granted Critical
Publication of JP6678930B2 publication Critical patent/JP6678930B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本願の発明は、概して、機械学習に関し、さらに具体的には、分類モデルを学習するための方法、コンピュータ・システムおよびコンピュータ・プログラムに関する。
ニューラル・ネットワークに基づくアプローチは、分類タスクに広く使用されている。クエリへの解を有するドキュメントを読み出すタスクは、自然言語クエリ(NLQ)分類タスクとして見ることができる。NLQ分類タスクについては、クエリと、そのクエリに対する解を含むドキュメントを特定する正しいドキュメント・ラベルとのペアが、分類モデルをトレーニングするために使用される。トレーニングされた分類モデルは、新しい初見のクエリに対する適切なドキュメント・ラベルを検出することができ、それは、そのトレーニングされたモデルおよび新しいクエリの特徴を使用することによって行われる。
トレーニング・クエリのいくつかの部分は、トレーニング・クエリの単一のインスタンスについて複数のラベルを持ちうる。すなわち、ラベルの共発生が起こりうる。そのため、NLQ分類タスクは本来、マルチラベル分類を要し、このマルチラベル分類では、複数のラベルをトレーニング・クエリの単一のインスタンスに割り当てることができ、新しいクエリについて複数のラベルを予測することができる。そのようなマルチラベル分類では、ラベル間の依存性および関係を考慮に入れる必要がある。ニューラル・ネットワークは、マルチラベル分類に使用することができ、誤差逆伝搬マルチラベル学習(BP−MLL)としても知られる。最近、効率的なテキスト分類のために、BP−MLLのペアワイズ・ランキング損失を、クロス・エントロピー誤差関数で置き換えることが提案されている(J.Namら、Large−scale Multi−label Text Classification−Revisiting Neural Networks.、 In Proceedings of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD)、437−452頁、2014年)。
しかし、分類モデルの学習に際し、ラベル共起性情報をより直接的に利用することができる既知の手法はない。
J.Namら、Large−scale Multi−label Text Classification−Revisiting Neural Networks, In Proceedings of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases(ECML/PKDD)、437〜452頁、2014年
求められているのは、分類モデルを学習するための方法、関連付けられるコンピュータ・システムおよびコンピュータ・プログラムであり、それらは、ラベル共起性情報を利用することによって、トレーニングおよび分類のための演算上のオーバーヘッドを増加させることなく、分類の精度を高めることができる。
本願の発明の実施形態によれば、1つまたは複数のトレーニング・データを使用して、分類モデルを学習するための方法が提供される。各トレーニング・データは、トレーニング入力と、該トレーニング入力に割り当てられた1つまたは複数の正しいラベルとを有する。分類モデルは、複数の隠れユニットと、複数の出力ユニットとを有する。本法は、分類モデルへの1の入力に対し共に出現することが予想される、共起ラベルの組合せを取得することを含む。本法はまた、上記組合せに対して複数の隠れユニットから専用ユニットを準備しつつ、分類モデルを初期化することを含み、その準備は、複数の出力ユニットのうち上記専用ユニットに接続された複数の関連の出力ユニットを共に活性化させるように行い、ここで、関連する各出力ユニットは、上記組合せにおける各共起ラベルに対応する。また、本法は、1つまたは複数のトレーニング・データを使用して、分類モデルをトレーニングすることを含む。
本願の発明の実施形態によれば、共起マルチラベルの情報は、分類モデルの複雑性を変えることなく、分類モデルに埋め込まれることにより、演算上のオーバーヘッドを増加させることなく、分類の精度を高めることができる。
本願の発明による好適な実施形態では、専用ユニットは、関連の各出力ユニットと接続されており、関連の各出力ユニットとのそれぞれの接続は、専用ユニットと、関連の出力ユニット以外の残りの出力ユニットとの間の他のどの接続よりも、および複数の隠れユニットのうち残りの隠れユニットの少なくとも一部と、関連の出力ユニットを含む複数の出力ユニットとの間の他のどの接続よりも、強力な値を用いて初期化される。好適な実施形態によれば、共起マルチラベルの情報は、分類モデルのトポロジーを変えることなく、専用ユニット用の接続の初期値に埋め込むことができる。
本願の発明による他の好適な実施形態では、1つまたは複数のトレーニング・データに出現した組合せの頻度に基づき、上記値が変化する。他の好適な実施形態によれば、1つまたは複数のトレーニング・データに出現した特定の組合せの頻度を、初期化接続に際して考慮に入れることができる。
本願の発明によるさらに他の好適な実施形態では、共起ラベルの組合せの取得は、1つまたは複数のトレーニング・データで共起したラベルの複数の組合せをリストすることと、1つまたは複数のトレーニング・データ中の各組合せに関連する出現の頻度に基づき、複数の組合せの中からサブセットを選択することとを含む。さらに他の好適な実施形態によれば、比較的よくある組合せは、組合せの数が増えたとしても優先的な方式で埋め込むことができきる。
本願の発明による任意選択の実施形態では、トレーニング入力は、自然文の形または自然文の表現のクエリであり、それぞれの正しいラベルは、クエリに対する解を有したドキュメントを特定する、ドキュメントの識別子である。そのため、分類モデルは、自然言語クエリ分類タスクを有効に実施することができる。
本願の発明による他の任意選択の実施形態では、トレーニング入力は、自然文の形または自然文の表現のテキストであり、それぞれの正しいラベルは、テキストに割り当てられた属性である。そのため、分類モデルはテキスト分類タスクを有効に実施することができる。
本願の発明の1つまたは複数の態様に関連するコンピュータ・システムおよびコンピュータ・プログラムもまた、記載されており、本明細書に請求されている。
本願の発明の他の実施形態によれば、1つまたは複数のデータを使用して、分類モデルを学習するための方法が提供される。各トレーニング・データは、トレーニング入力と、該トレーニング入力に割り当てられた1つまたは複数の正しいラベルとを有する。分類モデルは、複数の隠れユニットと複数の出力ユニットとを有する。本法は、1つまたは複数のトレーニング・データに共に出現した共起ラベルの組合せをリストすることを含む。本法はまた、上記組合せに対し専用ユニットを準備しつつ、分類モデルを初期化することを含み、そこでは、専用ユニットは、複数の関連の出力ユニットと接続を有し、各出力ユニットは、上記組合せにおける各共起ラベルに対応し、各接続は、残りの出力ユニットとの他の接続よりも、および複数の隠れユニットのうち残りの隠れユニットの少なくとも一部と、上記複数の関連の出力ユニットを含む複数の出力ユニットとの間の他の接続よりも、強力な値を用いて初期化される。また、本法は、1つまたは複数のトレーニング・データを使用して、分類モデルをトレーニングすることを含む。
他の実施形態によれば、共起マルチラベルの情報は、分類モデルのトポロジーを変えることなく、専用ユニット用の接続の初期値に埋め込まれ、それによって、トレーニングと分類の双方について演算上のオーバーヘッドを増加させることなく、分類の精度を高めることができる。
追加の特徴および利点は、本願の発明の技術を通じて理解される。本発明の他の実施形態および態様は、本明細書に詳細に記載され、特許請求される本発明の一部とみなされる。
情報読み出しシステムに基づく自然言語クエリに用いる分類モデルの概略図であり、該システムでは、複数のドキュメント・ラベルを、トレーニング・クエリの単一のインスタンスに割り当てることができる。 本願の発明の第1の実施形態による、自然言語クエリ分類モデルを組み込んだコンピュータ・システムおよび自然言語クエリ分類モデルに用いる学習システムのブロック図である。 本願の発明の第1の実施形態による、自然言語クエリ分類モデルのアーキテクチャを表す図である。 本願の発明の第1の実施形態による、自然言語クエリ分類モデルを学習するためのプロセスを描いたフローチャートである。 本願の発明の第1の実施形態による、最上位の隠れレイヤと出力レイヤとの間を接続するための重み初期化の概要を表す図である。 本願の発明の第2の実施形態による、トピック・カテゴライゼーション・モデルと、該トピック・カテゴライゼーション・モデル用の学習システムとを組み込んだコンピュータ・システムのブロック図である。 本願の発明の第2の実施形態による、トピック・カテゴライゼーション・モデルに基づくニューラル・ネットワークのアーキテクチャを描いた図である。 本願の発明の代替の実施形態による、分類モデルに基づくニューラル・ネットワークの他の標的されたアーキテクチャを描いた図である。 トレーニング中の3Kデータにおけるトレーニング・エポックに対する分類の精度を示す図である。 本願の発明の実施形態による、クラウド・コンピューティング・ノードを描いた図である。 本願の発明の実施形態による、クラウド・コンピューティング環境を描いた図である。 本願の発明の実施形態による、抽象化モデルのレイヤを描いた図である。
ここで、具体的な実施形態を使用して、本願の発明を記載するが、以降に記載される実施形態は、例として参照されるに過ぎないものとして理解され、本願の発明の範囲を限定することを意図するものではない。本願の発明による1つまたは複数の実施形態は、分類モデルを学習するための方法、コンピュータ・システムおよびコンピュータ・プログラムに向けられている。
クエリに対する解を有するドキュメントを読み出すタスクは、自然言語クエリ(NLQ)分類タスクとして見ることができる。NLQでいうところの“日本のどこを訪れるべきか?”は、キーワードに基づくクエリでいうところの“日本の観光”という典型的なWebサーチエンジンで使用されるものとは区別することができる。NLQに基づく情報読み出しシステムは、エンド・ユーザにさらに自然なユーザ・エクスペリエンスを提供することができる。
図1を参照すると、NLQに基づく情報読み出しシステムに用いる分類モデルの概略図が示されている。分類モデル70をトレーニングするために、トレーニング・クエリと、該クエリに対する解を含むドキュメントを特定する正しいドキュメント・ラベルとのペアが、トレーニング・データ72として使用される。分類モデル70は、トレーニング・データ72を使用することによってトレーニングされ、その結果、トレーニング・クエリおよび新しいクエリの特徴を使用して、新しい未見のクエリ74に用いる1つまたは複数の適切なドキュメント・ラベル76を予測する能力を獲得する。
同様のコンテンツを有する複数のドキュメントは、同じクエリに対し適切な解を有することができるため、図1に示すように、トレーニング・データ72のいくつかの部分は、トレーニング・データ72の単一のインスタンスに対し複数のラベル(または共起ラベル)を有していてもよい。そのため、本来NLQ分類タスクは、マルチラベル分類を要する。
マルチラベル分類タスクでは、共起ラベル間の依存性および関係が考慮される必要があり、それらは、二値関連性アプローチでは無視される。そのようなラベル共起性は、例えば、出力レイヤの構造を変えることによって、ニューラル・ネットワークで探索することができる。しかし、出力レイヤの構造を変えることによって、ニューラル・ネットワークの位相的な複雑性が増加することがあり、その結果、トレーニングの間および分類の間のどちらにも、追加的な演算上のオーバーヘッドがもたらされる。
それゆえ、トレーニングおよび分類のための演算上のオーバーヘッドを増加させることなく、ラベル共起情報を利用することによって分類の精度を高めることができる、分類モデルを学習するための方法、コンピュータ・システムおよびコンピュータ・プログラムが求められている。
本願の発明による1つまたは複数の実施形態では、1つまたは複数のトレーニング・データを使用したコンピュータ・システムによって、新規の学習プロセスが実施され、そこでは、分類モデル中の共起ラベルの各組合せ用に専用の隠れユニットを準備することによって、分類モデルが初期化される。それぞれのトレーニング・データは、トレーニング出力と、そのトレーニング出力に割り当てられた1つまたは複数の正しいラベルとを有しうる。分類モデルは、複数の入力ユニットを含む入力レイヤ、1つまたは複数の隠れユニットを含む1つまたは複数の隠れレイヤ、および複数の出力ユニットを含む出力ユニットを有していてもよい。
新規の学習プロセスの間、コンピュータ・システムは、1つまたは複数のトレーニング・データに共に出現したラベルの組合せをリストして、入力用に共に出現することが予想される共起ラベルの組合せを取得する。次いで、コンピュータ・システムは、出力レイヤの全出力ユニット間で上記組合せの各共起ラベルに対応する関連の出力ユニットを共に活性化するように、それぞれの組合せ用に出力レイヤの下の隠れレイヤに専用ユニットを準備しつつ、分類モデルを初期化する。他の態様では、専用ユニットと関連の出力ユニットとの間の各接続は、専用ユニットと、出力レイヤの残りの出力ユニットとの間の他のどの接続よりも、および出力レイヤの残りの隠れユニットと、関連の出力ユニットを含めた複数の出力ユニットとの間の他のどの接続よりも、強力な値を用いて初期化される。次いで、コンピュータ・システムは、ニューラル・ネットワーク用の逆伝搬アルゴリズムなど、標準的な学習アルゴリズムに基づき1つまたは複数のトレーニング・データを使用して、分類モデルをトレーニングする。
ここで、図2から図8の一連を参照すると、本願の発明の1つまたは複数の実施形態による分類モデルを学習するためのコンピュータ・システムおよび方法が示されている。新規の学習技術は、NLQ分類モデルに特有ではなく、該新規の学習技術は、任意の分類モデルに汎用であり適用可能である。分類モデルによって処理されたデータは、クエリおよびテキストに限定されないことがあり、画像データ、音響音声スピーチデータ、ビデオデータなど任意のデータに拡張することができる。
ここで、図2から図5の一連を参照すると、本願の発明の第1の実施形態による、自然言語クエリ(NLQ)分類モデルを学習するためのコンピュータ・システムおよび方法が記載される。次いで、図6から図7の一連を参照すると、本願の発明の第2の実施形態による、トピック・カテゴライゼーション(またはテキスト分類)モデルを学習するためのコンピュータ・システムおよび方法が記載される。また、図8を参照すると、本願の発明の代替の実施形態による、汎用ニューラル・ネットワークに基づく分類モデルを学習するためのコンピュータ・システムおよび方法が記載され、そこでは、教師なし事前トレーニングと教師あり微調整とを含む2段階の学習プロセスが、ディープ・ラーニング・アーキテクチャで実施される。
第1の実施形態
図2は、本願の発明の第1の実施形態による、NLQ分類モデルおよび該NLQ分類モデルに用いる学習システムを組み込んだコンピュータ・システムのブロック図を示す。
図2に示されるように、コンピュータ・システム100は、トレーニングされたパラメータ120に基づき、入力クエリ112を受信して、1つまたは複数の予測ドキュメント・ラベル114を出力する、NLQ分類モデル110と;トレーニング・データ140に基づき、NLQ分類モデル110の機械学習を実施して、トレーニングされたパラメータ120を取得する、NLQ分類モデル学習システム130とを含む。
図3を参照すると、NLQ分類モデル110のアーキテクチャ150が図示されている。記載されている実施形態では、NLQ分類モデル110は、ニューラル・ネットワークに基づく分類モデルである。NLQ分類モデル110のアーキテクチャ150は、クエリ入力レイヤ152、ワード・レイヤ154、分散表現レイヤ156、最上位の隠れレイヤ162、およびラベル予測レイヤ164を含むことができる。
分散表現レイヤ156と、ラベル予測レイヤ164の直下の隠れレイヤである最上位の隠れレイヤ162との間には、サブサンプリング・レイヤ160を備えた少なくとも1つの畳み込みレイヤ158があり、畳み込みニューラル・ネットワーク(CNN)を形成する。NLQ分類モデル110は、一連の繰り返しの畳み込みレイヤ158およびサブサンプリング・レイヤ160を含んでいてもよく、任意選択で最上位の隠れレイヤ162の下に完全に接続された1つまたは複数のレイヤがさらに続いていてもよい。
NLQ分類モデル110は、様々な長さのクエリを受け入れる必要があり得る。NLQ分類モデル110は、クエリ入力レイヤ152によって、“日本のどこを訪れるべきか?”のような自然文の形で入力クエリを受け取る。入力クエリのワードは、最初に、ストップワードの除去などの適切な前処理に付され、次いで、処理されたワード154は、分散表現レイヤ156中で分散表現に変換される。畳み込みレイヤ158は、kフィーチャ・マップを生成するためのkカーネルを有していてもよい。各フィーチャ・マップは、次いで、サブサンプリングされて、典型的には平均またはマックス・プーリングに付される。時間をかけて畳み込み158およびサブサンプリング160を適用することによって、固定長のフィーチャ・ベクトルが、分散表現レイヤ156から最上位の隠れレイヤ162内に抽出される。そして、固定長のフィーチャ・ベクトルは、次いで、ラベル予測レイヤ164内に送り込まれて、入力クエリ112に対し1つまたは複数のドキュメント・ラベル114を予測する。
ラベル予測レイヤ164は、予め定義された各ドキュメント・ラベルにそれぞれ対応する複数のユニットを有し、該ドキュメント・ラベルは、クエリに対する解を有するドキュメントを特定するドキュメント識別子である。ドキュメント・ラベルは、トレーニング・データ140に出現したラベルとして定義することができる。ラベル予測レイヤ164にあるユニットの数は、トレーニング・データ140に出現したドキュメント・ラベルの数と同じであってもよい。記載される実施形態では、ラベル共起の組合せに用いる追加のユニットは必要とされない。
ラベル予測レイヤ164に使用される損失関数は、マルチラベルを処理することができるかまたはできない公知の損失関数のいずれか1つとすることができ、そのような損失関数としては、以下に限定されないが、好ましくは、負の対数確率、クロス・エントロピー、および二値クロス・エントロピーが挙げられる。
xが入力クエリのフィーチャ・ベクトルを指すものとすると、yは、ラベルのベクトル表現であり、oは、ニューラル・ネットワークの出力値であり、Pは、ニューラル・ネットワークのパラメータである。yの表現が、損失関数に応じて異なることに留意されたい。簡単にするために、以下の記載では、ラベルL={L,L,L}の有限集合および入力クエリxは、複数のラベル{L,L}を有するものと仮定する。
負の対数確率:
負の対数確率を最小にすることによって、単一のラベルを仮定する。マルチラベルを処理するために、コピー変換を使用して、2つのトレーニング・データ((x,y(1))、(x,y(2)))を得ることができ、上式で、y(1)=(1,0,0)およびy(2)=(0,0,1)である。各トレーニング・データについての損失は、l(P,(x,y(1)))=−log(o)およびl(P,(x,y(2)))=−log(o)となり、上式では、ソフトマックス活性化を使用して、ラベル予測レイヤ164にてoを算出することができる。
クロス・エントロピー:
マルチラベルを処理するために、マルチラベルを確率分布y=(0.5,0,0.5)であるものと仮定する。トレーニング・データ(x、y)についてのクロス・エントロピー損失は、l(P,(x,y))=−ylog(o)となり、上式では、ラベル予測レイヤ164にてソフトマックス活性化が使用される。
二値クロス・エントロピー:
マルチラベルを操作するために、ラベルをy=(1,0,1)であるものと仮定する。トレーニング例(x,y)についての二値クロス・エントロピー損失は、以下のようになる。
上式では、ラベル予測レイヤ164にてシグモイド活性化を使用する。
典型的には、分散表現レイヤ156からラベル予測レイヤ164までの構造は、ニューラル・ネットワークとしてトレーニングすることができる。そのため、記載する実施形態では、ニューラル・ネットワークの入力レイヤは、分散表現レイヤ156であり、ニューラル・ネットワークの出力レイヤは、ラベル予測レイヤ164である。しかし、これは、本願の発明の1つまたは複数の実施形態について可能な設計の一例であって、クエリ入力レイヤ152からラベル予測レイヤ164までの構造全体は、具体的な他の実施形態では、ニューラル・ネットワークとしてトレーニングすることができる。
図2に戻って参照すると、NLQ分類モデル学習システム130は、本願の発明の第1の実施形態によるNLQ分類モデル110を学習するためのプロセスを実施する。NLQ分類モデル学習システム130は、所与のトレーニング・データ140を使用して学習プロセスを実施し、NLQ分類モデル110のパラメータを最適化する。
記載されている実施形態では、トレーニング・データ140は、トレーニング・データの1つまたは複数のインスタンスを含み、そのそれぞれは、トレーニング入力クエリと、該トレーニング入力クエリに割り当てられた1つまたは複数の正しいドキュメント・ラベルとを有する。トレーニング・データ140のいくつかの部分は、入力クエリの単一のインスタンスについて複数の正しいラベルを有していてもよい。ドキュメント・ラベルは、典型的な専門家の人間によって割り当てられていてもよい。トレーニング入力クエリは、ニューラル・ネットワークに基づくNLQ分類モデルのアーキテクチャに応じて、自然文の形または自然文の表現で準備されてもよい。分散表現レイヤ156からラベル予測レイヤ164までの構造がニューラル・ネットワークとしてトレーニングされた具体的な実施形態では、自然文の形のトレーニング入力クエリは、分散表現レイヤ156中の表現に変換されて、ニューラル・ネットワークに用いるトレーニング入力を生じてもよい。
記載されている実施形態では、学習システム130は、共起組合せリスティング・モジュール132、パラメータ初期化モジュール134およびトレーニング・モジュール136を含む。
共起組合せリスティング・モジュール132は、入力クエリについて共に出現することが予想される共起ラベルの組合せを得るために、トレーニング・データ140で共起したラベルをリストするように構成される。好ましい実施形態では、共起組合せリスティング・モジュール132は、さらに、リストされた組合せからサブセットを選択するように構成される。サブセットの選択は、所与のトレーニング・データ140中の各組合せに関連した出現の頻度に基づき実施されてもよい。頻度は、トレーニング・データ140に出現した各組合せの頻度であるFreq(L1,L2)、トレーニング・データ140に出現した共起ラベルの頻度であるFreq(L1)、Freq(L2)、およびFreq(L1,L2)/(Freq(L1)*Freq(L2))などそれらの組合せを含んでいてもよい。比較的よくある共起組合せは、その組合せの数がニューラル・ネットワークのトポロジーのために新規の学習技術のキャパシティを超えたとしても、サブセットを選択することによって、優先的な方式で処理することができる。
パラメータ初期化モジュール134は、トレーニングされるべきNLQ分類モデル110の全パラメータを初期化する。記載する実施形態では、パラメータ初期化モジュール134は、リストまたは選択されたそれぞれの組合せに対し最上位の隠れレイヤ162の隠れユニットから各専用ユニットを準備すると共に、NLQ分類モデル110を初期化するように構成される。各専用ユニットは、ラベル予測レイヤ164の全出力ユニット間で、上記組合せの共起ラベルに対応する複数の関連の出力ユニットを共に活性化させるように初期化される。
他の態様では、パラメータ初期化モジュール134は、専用ユニットと、関連の各出力ユニットとのそれぞれの接続を初期化するように構成され、その際に、専用ユニットと、残りの出力ユニットとの間の他の接続よりも、および最上位の隠れレイヤ162中の残りの隠れユニットと、関連の出力ユニットを含む出力ユニットとの間の他の接続よりも強い値を用いて初期化される。新規の初期化は、図3に示される最上位の隠れレイヤ162とラベル予測レイヤ164との間の重みマトリックスに、共起ラベル情報を埋め込む。
重み値は、一定値とすることも、1つまたは複数のトレーニング・データ140に出現した組合せの頻度に基づき変化させることもできる。一定値は、重みについての上限値であっても、他の重みへの正規化された初期化についての上界であってもよい。専用ユニットの割り当てと、それらの重みマトリックスの初期化については、さらに詳細を後述する。
トレーニング・モジュール136は、パラメータ初期化モジュール134によって初期化されたパラメータに基づき、トレーニング・データ140を使用して、NLQ分類モデル110をトレーニングするように構成される。パラメータの初期化後、NLQ分類モデル110をトレーニングするために、逆伝搬アルゴリズムおよびその変形を含む任意の公知のトレーニング・アルゴリズムを使用することができる。トレーニング・モジュール136が、損失関数を使用して逆伝搬を実行してもよい。専用ユニットと、全ドキュメント・ラベルに対応する全ての出力ユニットとの間の重みは、逆伝搬を通じて更新されることに留意されたい。
具体的な実施形態では、図2に記載されるモジュールのそれぞれは、コンピュータに実装されてもよいが、ここでは、本願の発明の実施形態によるプログラムコードは、メモリ上にロードされ、プロセッサによって実行される。
図2に示すように、コンピュータ・システム100は、様々なフィーチャおよび機能を提供するための1つまたは複数のモジュールを含む。これらのモジュールは、ハードウェア、ハードウェア上で実行可能なソフトウェアもしくはファームウェア、またはそれらの組合せに実装されていてもよい。また、これらのモジュールは、例示的なもののみではあるが提示されており、いかなる限定を示唆することを意図するものではない。代替の実施形態は、図2に図説されたものよりも追加のもしくは少数のモジュールを含むか、または、そのモジュールが、様々に構成されていてもよい。さらに、いくつかの実施形態では、いくつかのモジュールの機能性が、複数のモジュールに分けられることがあるか、または、反対に、いくつかのモジュールの機能性が、組み合わされて単一のもしくはより少数のモジュールとされることがあるということを認識するべきである。
図4は、本願の発明の第1の実施形態によるNLQ分類モデルを学習するためのプロセスを描いたフローチャートを示す。図4に示されるように、プロセスは、ステップS100で開始する。図4に示されるプロセスが、所与のトレーニング・データ140について、図2に描かれた学習システム130によって実施されることに留意されたい。
ステップS101では、学習システム130は、トレーニング・データ140を読み出し、解析して、所与のトレーニング・データ140に見出される複数の共起組合せをリストする。ステップS102では、学習システム130は、見出される共起組合せから、専用の隠れユニットについてサブセットを選択してもよい。
ステップS102での処理は、任意選択で実施されてもよい。共起組合せの数が、最上位の隠れレイヤ162のユニットの数よりも充分に小さい際には、見出される全ての組合せが、専用の隠れユニットに使用されてもよい。共起組合せの数が、最上位の隠れレイヤ162のユニットの数とほぼ等しいか、それよりも多い際には、学習システム130は、所与のトレーニング・データ140の各組合せに関連した出現の頻度に基づき、ステップS101に見出された共起組合せからサブセットを選択することができる。その選択によれば、比較的よくある共起組合せは、その組合せの数が最上位の隠れレイヤ162の隠れユニットの数を超えたとしても、優先的な方式でニューラル・ネットワーク内に埋め込むことができる。
ステップS103では、学習システム130が、パラメータの初期化によって、NLQ分類モデル110のニューラル・ネットワークをセットアップする。トレーニングされるべきパラメータは、レイヤ間の接続に関連付けられた重みマトリックスと、レイヤに関連付けられたバイアス・ベクトルとを含んでいてもよい。
特にステップS103Aでは、学習システム130は、最上位の隠れレイヤ162とラベル予測レイヤ164との間の標的された重みマトリックス以外のパラメータを初期化する。ステップS103Bでは、学習システム130は、最上位の隠れレイヤ162とラベル予測レイヤ164との間の標的された重みマトリックスを初期化する。
図5は、最上位の隠れレイヤ162とラベル予測レイヤ164との間の接続についての重み初期化の概要を図示している。図5では、{L ,L }、{L ,L ,L }、{L ,L }を含む3つの共起ラベルの組合せが、専用ユニットについて実例としてリストされている。重みマトリックスは、隠れユニットに対応するマトリックス行である|H|と、ドキュメント・ラベルに対応する列である|L|とを有する。図5の左側に示されるように、共起ラベルの各組合せについて、マトリックス行は、各共起ラベルに対応する各列が多少の重みCを有するよう準備されるように初期化され、他の残りの列は、ゼロと同等の重みを有するように準備される。共起ラベルの各組合せに対応するマトリックス行は、専用行として参照される。
共起ラベルの組合せに関連付けられなかった残りの行は、任意の公知の方法によって初期化されることに留意されたい。記載されている実施形態では、残りの行は、無作為な初期化によって準備される。
この重み初期化は、図5の右側に示されるように、共起ラベルの各組合せに対して専用の各隠れユニットを最上位の隠れレイヤ162に準備することと同等であり、そこでは、専用ユニットは、共起ラベルに対応する関連の出力ユニットとの重みCの接続と、その他のものとの重みゼロの接続とを有する。共起ラベルに対応する列は、残りの列よりも強力なCを用いて初期化される。これらの専用ニューロンは、組合せの共起ラベルに対応する関連の出力ユニットを、優先的な方式で同時に活性化させることができる。用語“同時に”は、単一のインスタンスの入力のために共に活性化される、2つまたはそれ以上の出力ユニットであるものとして定義され、時間的な限定を加えることを意図するものではないことに留意されたい。
専用の隠れユニットの準備には、ニューラル・ネットワークのアーキテクチャでの追加の出力および隠れユニットを何ら必要としないこと、専用の隠れユニットがあるニューラル・ネットワークとないものとの間でトポロジーを同一とすることができること、および専用ユニットとして準備されたある種の隠れユニットについての初期化された重みのみを異なるものとすることができることに留意されたい。
具体的な実施形態では、重みの値Cは、接続についての上限値であってもよく、例えば、範囲−1〜1のうち1.0である。好ましい実施形態では、重みの値Cは、残りの行についての正規化された初期化に用いる上界(UB)であってもよく、UBは、最上位の隠れレイヤ162およびラベル予測レイヤ164のユニットの数によって決まる。さらに他の好ましい実施形態では、重みの値Cは、トレーニング・データ140に出現した組合せの頻度に基づき変わることがある。トレーニング・データ140に出現した特定の組合せの頻度は、初期化された接続において考慮することができる。背景にある考え方は、頻繁に出現する(すなわち、特定のラベルの組合せを有するクエリの数が大きい)共起ラベルの特定の組合せが、より頻度の低い組合せよりも重要であるということである。特定のラベル共起の組合せが、トレーニング・データにf回出現するものと仮定すると、具体的な実施形態では、f×UBおよびf1/2×UBを例として使用することができる。
図4に戻って参照すると、ステップS104で、学習システム130は、所与のトレーニング・データ140を使用することによって、逆伝搬アルゴリズムに基づき、NLQ分類モデル110のニューラル・ネットワークをトレーニングする。専用ユニットと、全ドキュメント・ラベルに対応する全ての出力ユニットとの間の重みは、ステップS104でのトレーニングを通じて更新されることに留意されたい。次いで、プロセスは、ステップS105で終了する。
NLQ分類モデル110の得られたパラメータは、トレーニングされたパラメータ120として、適切な記録システムに格納されてもよい。トレーニングされたパラメータ120に基づく分類モデル110は、新しい入力クエリについて1つまたは複数の適切なドキュメント・ラベルを予測することができる。そのため、トレーニングされたNLQ分類モデルは、自然言語クエリ分類タスクを有効に実施することができる。
トレーニング後の専用ユニットは、さらに、その専用ユニットの初期化された重みが、トレーニング・モジュール136によってトレーニングを通じて更新されたとしても、共起ラベルに対応する関連の出力ユニットを同時に活性化させることができる。
図4に示される新規の学習プロセスによれば、共起マルチラベルの情報は、分類モデルの複雑性を変えることなく分類モデル中に埋め込むことができる。トレーニングされた分類モデル110は、同じクエリに対する解を有する複数の適切なドキュメントが存在したとしても、新しい入力クエリについて1つまたは複数の適切なドキュメント・ラベルを効率よく予測することができる。
新規の重み初期化の演算は、取るに足らないものであり、逆伝搬の演算およびニューラル・ネットワークのアーキテクチャは、新規の重み初期化の有無の間で変わらない。そのため、トレーニングと分類の両方について、演算上のオーバーヘッドを増加させることなく、NLQ分類の精度を高めることができる。
また、図4に示される新規の学習プロセスによれば、トレーニング・データ140に出現した組合せの頻度に基づいて、値を変化させることができる。そのため、トレーニング・データ140に出現した具体的な組合せの頻度を、初期化された接続において考慮に入れることができる。
また、ステップS102で処理が実施される、図4に示される新規の学習プロセスによれば、比較的よくある共起組合せは、その組合せの数が増えたとしても、優先的な方式で埋め込むことができる。
第2の実施形態
ここで、図6〜7を一通り参照すると、本願の発明の第2の実施形態による、分類モデルを学習するためのコンピュータ・システムおよび方法が記載される。
図6は、本願の発明の第2の実施形態による、トピック・カテゴライゼーション・モデルと該トピック・カテゴライゼーション・モデル用の学習システムとを組み込んだコンピュータ・システムのブロック図を例示する。
図6に示されるように、コンピュータ・システム200は、トレーニングされたパラメータ220に基づき、入力テキスト212を受け取って、1つまたは複数のトピック・カテゴリ・ラベル214を出力する、トピック・カテゴライゼーション・モデル210;およびトレーニング・データ240に基づき、トピック・カテゴライゼーション・モデル210の機械学習を実施して、トレーニングされたパラメータ220を得る、トピック・カテゴライゼーション・モデル学習システム230を含む。
図7を参照すると、トピック・カテゴライゼーション・モデル210のアーキテクチャ250が図示されている。記載されている実施形態では、トピック・カテゴライゼーション・モデル210は、ニューラル・ネットワークに基づく分類モデルである。トピック・カテゴライゼーション・モデル210のアーキテクチャ250は、テキスト入力レイヤ252、ワード・レイヤ254、BOW(bag−of−words)フィーチャ・レイヤ256、最上位の隠れレイヤ258およびラベル予測レイヤ260を含む。
トピック・カテゴライゼーション・モデル210はまた、様々な長さのテキストを受け入れるために必要とされることがある。トピック・カテゴライゼーション・モデル210は、テキスト入力レイヤ252によって、自然文の形で入力テキストを受け取る。入力テキスト中のワードは、まず、ストップワードの除去などの適切な前処理に付され、次いで、処理されたワード254は、BOWフィーチャ・レイヤ256にて簡素化された表現に変換される。BOWでは、文法および語順が無視されてもよい。
BOWフィーチャ・レイヤ256からラベル予測レイヤ260までの構造は、BOWフィーチャを受け入れる入力レイヤ、1つまたは複数の隠れレイヤ、およびカテゴリ予測を出力する出力レイヤと共に、フィード・フォワード・ニューラル・ネットワークを構成する。
ラベル予測レイヤ260は、“スポーツ”、“社会”や“国際”など、予め定義された各トピック・カテゴリ・ラベルにそれぞれ対応する複数のユニットを有する。トピック・カテゴリ・ラベルは、専門家の人間による手作業で定義することができる。ラベル予測レイヤ260中のユニットの数は、予め定義されたカテゴリの数と同じとしてもよい。ラベル共起の組合せに用いる追加のユニットは、記載されている実施形態では必要とされない。ラベル予測レイヤ260で使用される損失関数は、マルチラベルを処理することのできるどの損失関数であってもよく、そのような損失関数としては、以下に限定されないが、好ましくは、負の対数確率、クロス・エントロピーおよび二値クロス・エントロピーが挙げられる。
典型的には、BOWフィーチャ・レイヤ256からラベル予測レイヤ260までの構造は、ニューラル・ネットワークとしてトレーニングすることができる。そのため、記載されている実施形態では、ニューラル・ネットワークの入力レイヤは、BOWフィーチャ・レイヤ256であり、ニューラル・ネットワークの出力レイヤは、ラベル予測レイヤ260である。しかし、これは、本願の発明の1つまたは複数の実施形態について可能な設計の一例であって、テキスト入力レイヤ252からラベル予測レイヤ260までの構造全体は、具体的な他の実施形態では、ニューラル・ネットワークとしてトレーニングすることができる。
図6に戻って参照すると、トピック・カテゴライゼーション・モデル学習システム230は、図4に示されているNLQ分類モデルを学習するためのプロセスと同様の、本願の第2の実施形態によるトピック・カテゴライゼーション・モデル210を学習するためのプロセスを実施する。トピック・カテゴライゼーション・モデル学習システム230は、所与のトレーニング・データ240を使用して学習プロセスを実施して、トピック・カテゴライゼーション・モデル210のパラメータを最適化する。
記載されている実施形態では、トレーニング・データ240は、1つまたは複数のトレーニング・データのインスタンスを含み、そのそれぞれは、ニュース記事などのトレーニング入力テキストと、そのトレーニング入力テキストに割り当てられた1つまたは複数の正しいトピック・カテゴリ・ラベルとを有する。トレーニング・データ240のいくつかの部分は、入力テキストの単一のインスタンスについて複数のラベルを有していてもよい。トレーニング入力テキストは、ニューラル・ネットワークに基づく分類モデルのアーキテクチャに応じて、自然文の形で、または自然文の表現で準備されてもよい。
記載されている実施形態では、学習システム230は、共起組合せリスティング・モジュール232、パラメータ初期化モジュール234およびトレーニング・モジュール236を含み、そのそれぞれは、図2に示される第1の実施形態の対応のモジュールと同様に構成される。
特に、パラメータ初期化モジュール234は、リストされたまたは選択された各組合せに対し各専用ユニットを最上位の隠れレイヤ262に準備しつつ、トピック・カテゴライゼーション・モデル210を初期化するように構成される。各専用ユニットは、図5を用いて示されるように、ラベル予測レイヤ260の間のうち組合せ内の共起ラベルに対応する関連の出力ユニットを同時に活性化させるために初期化される。別の態様では、パラメータ初期化モジュール234は、専用ユニットと、関連の各出力ユニットとの間のそれぞれの接続が初期化されるように構成され、その初期化には、該専用ユニットと残りの出力ユニットとの間の他の接続よりも強力な値が用いられる。
トレーニングされたトピック・カテゴライゼーション・モデル210は、新しい入力テキストについて1つまたは複数の適切なトピック・カテゴリ・ラベルを予測することができる。そして、トレーニングされたトピック・カテゴライゼーション・モデル210は、トレーニングの間および分類の間に演算上のオーバーヘッドを増加させることなく、自然言語テキスト・カテゴライゼーション・タスクを効果的に実施することができる。
代替の実施形態
上記に記載されたように、本願の発明の1つまたは複数の実施形態による新規の学習技術は、NLQ分類タスクおよびトピック・カテゴライゼーション・タスクに特化しない。すなわち、本技術は、汎用性があり、任意の分類タスクに適用することができる。
以下、図8を参照すると、本願の発明の代替の実施形態による、分類モデルを学習するためのコンピュータ・システムおよび方法が示されており、そこでは、分類モデルは、ディープ・ラーニング・アーキテクチャ中に構築される。
ディープ・ラーニング・アーキテクチャでは、多層のディープ・ニューラル・ネットワーク(DNN)が、複数の隠れユニットを具えた1つまたは複数の隠れレイヤを、入力レイヤと出力レイヤとの間に有する。図8は、分類タスクを実施する、DNNに基づく分類モデル300を示す。
DNNをトレーニングするために、典型的に、教師なし事前トレーニングおよび管理した微調整を含む2段階の学習プロセスが実施されてもよい。そのような2段階の学習プロセスは、音響音声認識および画像認識に用いる分類モデルに使用することができる。事前トレーニングによって、入力の特性をよく捉える表現を探し出し、初期化パラメータを用いてレイヤを重層する。入力を表す優れた表現として、隠れレイヤにおける作動が見られる。微調整プロセスは、事前トレーニングのプロセスによって見積もられた表現に基づいて、DNNのパラメータを区別的に更新する。これは言うまでもなく、DNNに用いる可能な学習プロセスの一例であり、他の実施形態では、事前トレーニングは省略される。
図8を参照すると、DNNに基づく分類モデル300は、入力レイヤ302と出力レイヤ308との間に、1つまたは複数の隠れレイヤ304〜306を有する。DNNに基づく分類モデル300は、入力シグナルを受け取り、分類タスクを実施して、トレーニングされたパラメータに基づき予測ラベルを出力する。
事前トレーニングのプロセスの間、DNNに基づく分類モデル300のパラメータは、必要に応じて、レイヤ毎に初期化される。全てのレイヤについてパラメータが初期化された後、出力レイヤ308を最上位の隠れレイヤ306の上に重層することによって、および最上位の隠れレイヤ306のユニットと、出力レイヤ308のユニットとの間の接続について重みマトリックスを加えることによって、DNNに基づく分類モデル300が構築される。最上位の隠れレイヤ306と出力レイヤ308との間の重みマトリックスを準備するために、新規の重み初期化技術を、DNNに基づく分類モデル300に適用することができる。
全てのパラメータ初期化が完了した後、新規の重み初期化によって初期化されたパラメータを含むDNN全体は、教師あり微調整プロセスの間、逆伝搬アルゴリズムを使用してパラメータを更新することによって、区別的にトレーニングされる。
本願の発明による1つまたは複数の実施形態では、DNNに基づく分類モデル300の最上位の隠れレイヤ306と出力レイヤ308との間の重みマトリックスは、図5に記載されるように新規の重み初期化を使用することによって、初期化することができる。そのため、ディープ・ニューラル・ネットワークに基づく分類モデルを学習するためのコンピュータ・システムおよび方法は、図4に示される新規の学習プロセスを含んで、微調整プロセスの前に、最上位の隠れレイヤ306と出力レイヤ308との間の重みマトリックスを初期化してもよく、微調整プロセスの間に、DNNに基づく分類モデル300をトレーニングしてもよい。DNNに基づくトレーニングされた分類モデル300は、新しい入力シグナルに用いる1つまたは複数の適切なラベルを予測することができる。そうして、DNNに基づくトレーニングされた分類モデル300は、トレーニングの間および分類の間に演算上のオーバーヘッドを増加させることなく、分類タスクを効果的に実施することができる。
ディープ・ラーニング・アーキテクチャでパラメータが初期化された後にパラメータが細かく調整されているとしても、DNNに基づく分類モデル300の結果として得られる性能は、優れた解決策にどれほど近くパラメータが初期化されるかということに影響を及ぼすことができる。したがって、DNNに基づく分類モデル300の性能は、新規の学習プロセスを高めることができるということを期待することができる。
実世界データの実験的研究
第1の実施形態による図4に示されるプロセスを実装するプログラムを、保護ドメイン内でQA(質問および解)データ用に英語にてコード化し、実行した。クエリは、自然言語で入力され、分類モデルは、クエリに対する解を含むドキュメントを返す。3,133個および394個のクエリが、トレーニング・データおよび評価データ中にそれぞれ含まれていた。1,695個および158個の共起ラベルを、トレーニング・データおよび評価データ中にそれぞれ見出した。トレーニング・データに割り当てられた固有のドキュメント・ラベルの数は、526であった。
図3に示されるアーキテクチャを備えたニューラル・ネットワークを採用した。分散表現レイヤ156の空間は、100個であった。CNN、kについてのカーネルの数を1,000個に設定したが、これは、最上位の隠れレイヤ162に1,000個のユニットが存在することを意味する。ラベル予測レイヤ164の出力ユニットの数を526個に設定した。この構成を、実世界データについて全ての実施例および比較例に共通して使用した。正規化された初期化に従って、ニューラル・ネットワークを無作為に初期化し、AdaGradを使用して学習速度を制御し、特記のない限り、全ての実施例および比較例について、トレーニング・エポックの数を1,000個に固定した。
図4に示されるステップS101での処理によって、トレーニング・データ中の1,695個のクエリを見出して複数の共起ラベルを得、252個の組合せの共起ラベルを見出した。図4に示されるS103Bでの処理によって、実施例に用いる252個の専用隠れユニットを準備しつつ、かつ比較例に用いる専用隠れユニットを準備せずに、最上位の隠れレイヤ162とラベル予測レイヤ164との間の1000×526の重みマトリックスを初期化した。
「1−最高精度」、「Recall@5」および「完全精度」を含めた3つの評価用測定指標を、評価に使用した。「1−最高精度」では、1個の最高結果が正しいラベルに含まれるか否かを判定する。「Recall@5」では、5個の最高結果が少なくとも1つの正しいラベルに含まれるか否かを判定する。j個のラベルがクエリに割り当てられるものと仮定すると、「完全精度」では、j個の最高結果を調査し、j個の最高結果が正しいラベルに適合するか否かを判定する。クエリが3つのラベルを有する際には、システムは、クエリの3つの正しいラベルを含む3個の最高結果を返して、100%の完全精度を得る必要がある。
実施例1〜3および比較例1〜3には、負の対数尤度(実施例1、比較例1)、クロス・エントロピー(実施例2、比較例2)および二値クロス・エントロピー(実施例3および比較例3)を含めた3つの異なる損失関数を使用した。実施例1〜3については、新規の学習プロセス用の値Cを、他の行についての無作為化の上界に設定した。
実施例1〜3および比較例1〜3の評価された結果の概要を以下に示す。
表1は、3つの異なる損失関数を使用した実験結果を示す。実施例1〜3および比較例1〜3の間で精度を比較することにより、各評価用測定指標を用いた全ての損失関数について、新規の学習プロセスによる向上が得られた。実施例1〜3のうち、実施例2(クロス・エントロピー損失関数を用いた)は、3つ全ての測定指標で最高であることが示され、そこでの50.51%から52.54%への1−最高精度の向上は、統計学的に有意であった(p<0.05)
組合せに用いる専用ユニットが、トレーニングされたニューラル・ネットワーク中の対応のラベルをさらに同時に作動させるか否かということに関する、実施例1〜3についての解析の概要を以下に示す。
表2は、トレーニングされたニューラル・ネットワーク上での解析を示す。存続したユニットの数の列には、k個のラベルの組合せについて初期化され、逆伝搬後に、k個のラベルに対応するk個の最大重みを依然として有していた専用ユニットの数を提示する。全実施例1〜3で、逆伝搬後に、専用ユニットの大部分が“存続した”ことが実証された。
重みの列に、専用ユニットと対応の共起ラベルとの間の接続重みの平均、および重みマトリックス中の全ての接続の平均を提示する。専用ユニットと対応の共起出力との間の接続についてのトレーニングされた重み(重み−専用)は、平均重み(重み−全体)よりもはるかに強力であった。新規の初期化は、逆伝搬後であっても共起ラベルを同時に活性化させる、専用ユニットを生成することが示された。
新規の学習プロセスについての値Cを、実施例1〜3における上界に設定した。C=1.0(実施例4)、C=f×UB(実施例5)、C=f1/2×UB(実施例6)を含めて、異なる初期化値を採用し、上式で、fは、トレーニング・データ中の一連の複数のラベルの頻度である。全実施例4〜6についての損失関数は、クロス・エントロピー損失とした。
実施例2、4〜6および比較例2のクロス・エントロピー関数を用いた評価結果の概要を以下に示す。
表3の結果は、f1/2×UBを使用することによって、1−最高精度と完全精度のどちらにもいっそうの向上をもたらすことを示す。トレーニング・データ中の一連の複数のラベルの頻度の平方根に従ってCを設定することによって、精度をさらに向上することができることが示された。
実世界の分類タスクでは、通常、データサイズの制限に悩まされる。ここで、トレーニング・データのサイズを、本来の3,133(実施例2および比較例2)から1,000(実施例7および比較例4)および2,000(実施例8および比較例5)に低下させた。クロス・エントロピー損失関数を、実施例7〜8および比較例4〜5に使用した。1Kおよび2Kのトレーニング・データを用いてトレーニングした際に、これら2つのセットから、共起ラベルの組合せのサブセットを個別に抽出した。
実施例2、7〜8および比較例2、4〜5のクロス・エントロピー関数を用いた評価結果の概要を以下に示す。
表4の結果は、トレーニング・データがさらに制限されたとしても、新規の学習方法が一貫して1−最高精度を向上させたことを示す。
図9は、実施例2および比較例2について、トレーニング中の3Kデータに関する分類精度対トレーニング・エポックを示す。新規の重み初期化は、トレーニング・エポックの初期段階から、無作為な初期化よりも優れていた。新規の重み初期化は、トレーニング・データのサイズが制限され、およびトレーニング時間が制限された実世界において、精度を高めることが実証された。
オープン・パブリック・データについての実験的研究
図4に示されるプロセスを実装するプログラムを、パブリック・マルチラベル・トピック・カテゴライゼーション・データについて実行した(Reuters Corpus Volume 1;RCV1)。RCV1は、23,149個のトレーニング・テキストと、103個のトピック・ラベルを備えた781,265個の評価テキストとを有する。
2000個のユニットの最上位の隠れレイヤ258と、クロス・エントロピー損失関数を有する103個の出力ユニットのラベル予測レイヤ260とを具える、図7に示されるアーキテクチャを備えたニューラル・ネットワークを採用した。図4に示されるステップS103Bでの処理によって、実施例9に用いるUBを有した専用の隠れユニットを準備しつつ、かつ比較例6に用いる専用の隠れユニットを準備せずに、最上位の隠れレイヤ258とラベル予測レイヤ260との間の2000×103の重みマトリックスを初期化した。
比較例6におけるトピック・ラベル分類の1−最高精度は、93.95%であった。比較例6に比べることによって、トピック・ラベル分類の1−最高精度は、93.95%から94.60%まで向上し、これは、統計学的に有意であった(p<0.001)。
クラウド環境の実装
本開示は、クラウド・コンピューティングに関する詳細な記載を含むとはいえ、本明細書に記載される教示の実装は、クラウド・コンピューティング環境に限定されないことが予め理解される。むしろ、本願の発明の実施形態は、現在公知のまたは将来開発される他の任意の型のコンピュータ環境と併せて実装することが可能である。
クラウド・コンピューティングは、構成可能なコンピューティング・リソースの共用プール(例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシンおよびサービス)へ、簡便かつオンデマンドのネットワーク・アクセスを可能にするためのサービス・デリバリのモデルであり、最小限の管理努力またはサービス・プロバイダとのやり取りによって速やかに供給および開放することができるものである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの実装モデルを含むことがある。
特性は以下の通りである。
オンデマンド・セルフサービス:クラウドのコンシューマは、サービス・プロバイダとの人的やり取りを要することなく、必要応じて自動的に、サーバ時間やネットワーク記憶装置などのコンピューティング能力を一方的に提供することができる。
ブロード・ネットワーク・アクセス:能力は、ネットワーク中にわたって利用可能であり、不均一なシンまたはシック・クライアント・プラットフォームによる使用を促進する標準的な機構を介してアクセスされる(例えば携帯電話、ラップトップ・コンピュータおよびPDA)。
リソース・プーリング:プロバイダのコンピューティング・リソースは、プールされ、マルチテナント・モデルを使用して複数のコンシューマに供される。その際に、異なる物理的なおよび仮想のリソースが、需要に応じてダイナミックに割り当てられる、および再度割り当てられる。コンシューマは概ね、提供されるリソースの正確な位置に関して制御しないか知識がないものの、より高い抽象化のレベルで位置を特定することができる場合がある(例えば国、国家またはデータセンター)という点で、位置的に独立しているという感覚がある。
速やかな融通性:能力は、速やかにかつ柔軟に供給されて、ある場合には自動的に、直ちにスケールアウトし、また、速やかに開放されて直ちにスケールインすることができる。コンシューマにとって、供給に利用することが可能な能力は、制限がないものと思われ、任意の時間に任意の量で獲得することができる。
測定されるサービス:クラウド・システムは、サービスの型(例えば記憶装置、処理、帯域幅およびアクティブ・ユーザ・アカウント)に適したある程度の抽象化のレベルで計測能に影響を与えることによって、リソースの使用を自動的に制御および最適化する。リソースの利用は、モニターおよび制御することができ、利用されるサービスのプロバイダとコンシューマとの双方に透明性をもたらすことを報告することができる。
サービス・モデルは、以下の通りである。
サービスとしてのソフトウェア(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で動作するプロバイダのアプリケーションを使用するためのものである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えばウェブベースのe−メール)を介して様々なクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザに特有の構成設定である場合を除いて、サーバ、オペレーティング・システム、記憶装置、またはさらに個々のアプリケーション能力を含む基礎クラウド・インフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):コンシューマに提供される能力は、プログラミング言語を使用して生成され、かつクラウド・インフラストラクチャのコンシューマが作製または獲得するアプリケーションにおいて、およびプロバイダによってサポートされるツール上に展開するためのものである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、または記憶装置を含む基礎クラウド・インフラストラクチャを管理または制御しないが、展開されたアプリケーションを制御し、事によるとアプリケーション・ホスティング環境構成を有することがある。
サービスとしてのインフラストラクチャ(IaaS):コンシューマに提供される能力は、処理、記憶装置、ネットワーク、およびコンシューマが任意のソフトウェアを展開および操作することができる他の基本的なコンピューティング・リソースを供給するためのものであり、上記リソースは、オペレーティング・システムおよびアプリケーションを含むことができる。コンシューマは、基礎クラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、記憶装置、展開されたアプリケーションを制御し、事によると精選されたネットワーキング・コンポーネントを限定的に制御することがある(例えば、ホスト・ファイアウォール)。
展開モデルは以下の通りである。
プライベート・クラウド:このクラウド・インフラストラクチャは、組織化のためにのみ稼働される。これは、組織または第三者によって管理されることがあり、枠内または枠外に存在することがある。
コミュニティ・クラウド:このクラウド・インフラストラクチャは、いくつかの組織によって共有され、問題(例えば課題、セキュリティ上の要請、ポリシー、およびコンプライアンス上の検討事項)を共有する特定のコミュニティをサポートする。これは、組織によっても第三者によっても管理されることがあり、枠内でも枠外でも存在することがある。
パブリック・クラウド:このクラウド・インフラストラクチャは、一般人または大きな産業上のグループに利用可能となるように運用され、クラウド・サービスを販売する組織が所有する。
ハイブリッド・クラウド:このクラウド・インフラストラクチャは、2つまたはそれを超えるクラウド(プライベート、コミュニティ、またはパブリック)の構成体であり、それらのクラウドは、固有のエンティティを残すが、データおよびアプリケーションの携帯を可能にする規格化されたまたは所有者の技術によって、共に結び付けられている(例えば、クラウド間のロード・バランスをとるためのクラウド・バースティング)。
クラウド・コンピューティング環境は、無国籍、疎結合、モジュール性、および意味的相互運用性に焦点を合わせたサービス志向である。クラウド・コンピューティングの心臓部では、インフラは、相互連結したノードを含んでいる。
図10をここで参照すると、クラウド・コンピューティング・ノードの一例の概略図が示されている。クラウド・コンピューティング・ノード10は、適切なクラウド・コンピューティング・ノードの例に過ぎず、本明細書に記載された本発明の実施形態の使用または機能性の範囲に関するいかなる限定をも示唆することを意図するものではない。いずれにせよ、クラウド・コンピューティング・ノード10は、実装が可能であるか、上記に述べた機能性のいずれかを実施することが可能であるか、またはそのどちらも可能である。
クラウド・コンピューティング・ノード10には、コンピュータ・システム/サーバ12があり、該システム/サーバは、他の数多くの汎用の目的のまたは特殊な目的のコンピューティング・システム環境または構成を用いて動作可能である。コンピュータ・システム/サーバ12と共に使用するのに適しうる周知のコンピューティング・システム、環境、構成またはそれらの組合せの例としては、以下に限定されないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサに基づくシステム、セットトップ・ボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および任意の上記のシステムやデバイスなどを含む分散型クラウド・コンピューティング環境が挙げられる。
コンピュータ・システム/サーバ12は、コンピュータ・システムによって実行されるプログラム・モジュールなど、コンピュータ・システムが実行可能な命令の一般的な文脈にて記述される場合がある。一般に、プログラム・モジュールは、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含んでいてもよく、それらは、具体的なタスクを実行するか、具体的な抽象データの型を実装する。コンピュータ・システム/サーバ12は、分散型クラウド・コンピューティング環境で実行されてもよく、そのような環境では、タスクは、通信ネットワークを介して連結された遠隔処理デバイスによって実施される。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、ローカル・コンピュータ・システムと、リモート・コンピュータ・システムの両方の記憶媒体に位置させてもよく、これらの媒体には、メモリ記憶デバイスが含まれる。
図10に示すように、クラウド・コンピューティング・ノード10内のコンピュータ・システム/サーバ12は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム/サーバ12のコンポーネントとしては、以下に限定されないが、1つまたは複数のプロセッサまたは処理ユニット16、システム・メモリ28、およびシステム・メモリ28を含めた様々なシステム・コンポーネントをプロセッサ16に結び付けるバス18が挙げられる。バス18は、いくつかの型のバス構造のうちいずれか1つまたは複数を表現し、該バス構造としては、メモリ・バスもしくはメモリ・コントローラ、周辺機器用バス、アクセラレーテッド・グラフィックス・ポート、および種々のバス・アーキテクチャのうちいずれかを使用するプロセッサもしくはローカル・バスが挙げられる。例として、限定するものではないが、そのようなアーキテクチャとしては、工業標準アーキテクチャ(ISA)バス、マイクロチャネル・アーキテクチャ(MCA)バス、エンハンストISA(EISA)バス、ビデオ・エレクトロニクス規格協会(VESA)ローカル・バスおよび周辺コンポーネント相互接続(PCI)バスが挙げられる。
コンピュータ・システム/サーバ12は、典型的には、コンピュータ・システム読み取り可能な種々の媒体を含む。そのような媒体は、コンピュータ・システム/サーバ12がアクセスすることが可能な任意の利用可能な媒体としてもよく、揮発性および不揮発性の媒体、着脱可能および着脱不能な媒体が挙げられる。
システム・メモリ28は、コンピュータ・システム読み取り可能な媒体を揮発性の形態をとる媒体を含むことができ、そのような媒体は、ランダム・アクセス・メモリ(RAM)30、キャッシュ・メモリ32やそれらの組合せなどがある。コンピュータ・システム/サーバ12は、他の着脱可能/着脱不能な、揮発性/不揮発性のコンピュータ・システム記録媒体をさらに含んでいてもよい。例示に過ぎないものの、読み出しおよび書き込みのための記憶システム34を、取り外し不能な不揮発性の磁性媒体(図示しておらず、典型的には“ハード・ドライブ”とよばれる)を備えることができる。図示しないが、取外し可能な不揮発性の磁性ディスク(例えば“フロッピー・ディスク”)から読み出すか、またはそれに書き込むための磁性ディスク・ドライブ、およびCD−ROM、DVD−ROMや他の光学系媒体など、取外し可能な不揮発性の光学系ディスクから読み出すか、またはそれに書き込むための光学系ディスク・ドライブを、備えることができる。そのようなインスタンスにおいては、1つまたは複数のデータ媒体インターフェースによって、それぞれをバス18に接続することができる。以後にさらに図示または記載するように、メモリ28は、一連の(例えば少なくとも1つの)プログラム・モジュールを有する少なくとも1つのプログラム・プロダクトを含んでいてもよく、このプログラム・モジュールは、本発明の実施形態の機能を行うために構成される。
一連の(少なくとも1つの)プログラム・モジュール42を有するプログラム/ユーティリティ40は、例としてメモリ28に格納されていてもよく、限定するのではないが、また、オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データを格納していてもよい。オペレーティング・システム、1つまたは複数のアプリケーション・システム、他のプログラム・モジュール、およびプログラム・データ、またはいくつかのそれらの組合せのそれぞれは、ネットワーク環境の実装を含むことがある。一般にプログラム・モジュール42は、本明細書に記載されているように、本発明の実施形態の機能、方法論またはそれらの組合せを行う。
コンピュータ・システム/サーバ12はまた、キーボード、標示デバイス、ディスプレイ24などの1つまたは複数の外部デバイス14、ユーザがコンピュータ・システム/サーバ12とやり取りすることを可能にする1つまたは複数のデバイス、コンピュータ・システム/サーバ12が1つまたは複数の他のコンピューティング・デバイスとやり取りすることを可能にする任意のデバイス(例えばネットワーク・カード、モデムなど)、またはそれらの組合せとやり取りすることがある。そのようなやり取りを、入出力(I/O)インターフェース22を介して発生させることができる。さらにまた、コンピュータ・システム/サーバ12は、ネットワーク・アダプタ20を介して、ローカルエリア・ネットワーク(LAN)、汎用ワイドエリア・ネットワーク(WAN)、パブリック・ネットワーク(例えばインターネット)またはそれらの組合せなど、1つまたは複数のネットワークとやり取りすることができる。図に示すように、ネットワーク・アダプタ20は、バス18を介して、コンピュータ・システム/サーバ12の他のコンポーネントとやり取りする。示さないものの、他のハードウェア・コンポーネント、ソフトウェア・コンポーネント、またはそれらの組合せは、コンピュータ・システム/サーバ12と併せて使用することができることを理解されたい。例としては、以下に限定されないが、マイクロ・コード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイブ記憶システムなどが挙げられる。
図11をここで参照すると、説明のためのクラウド・コンピューティング環境50が図示されている。示されるように、クラウド・コンピューティング環境50は、1つまたは複数のクラウド・コンピューティング・ノード10を含み、それらを用いて、例えば、パーソナル・デジタル・アシスタント(PDA)や携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、自動車コンピュータ・システム54N、またはそれらの組合せなど、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが、やり取りしてもよい。ノード10は、互いにやり取りしてもよい。それらは、本明細書の上記に記載されるようなプレイベート・クラウド、コミュニティ・クラウド、パブリック・クラウドやハイブリッド・クラウドなど、1つまたは複数のネットワークで、物理的または仮想的にグループ化されてもよい。これによって、クラウド・コンピューティング環境50は、インフラストラクチャ、プラットフォーム、ソフトウェア、またはそれらの組合せをサービスとして提供し、該サービスのために、クラウドのコンシューマは、ローカル・コンピューティング・デバイス上にリソースを維持する必要がない。図11に示されるコンピューティング・デバイス54A〜Nの型は、説明に過ぎないことを意図するものであること、およびコンピューティング・ノード10およびクラウド・コンピューティング環境50は、任意の型のネットワーク、ネットワークでアドレス指定が可能な接続、またはそれらの組合せにわたって、コンピュータ化された任意の型のデバイスとやり取りすることができる(例えば、ウェブ・ブラウザを使用して)ことが理解される。
図12をここで参照すると、クラウド・コンピューティング環境50(図11)によって提供される一連の機能的な抽象レイヤが示されている。図12に示されるコンポーネント、レイヤ、および機能は、説明に過ぎないことを意図するものであって、本発明の実施形態は、それに限定されないということが予め理解されるべきである。図に示されるように、以下のレイヤおよび対応する機能が提供される。
ハードウェアおよびソフトウェアレイヤ60は、ハードウェアおよびソフトウェアのコンポーネントを含む。ハードウェア・コンポーネントの例としては、メインフレーム、RISC(縮小命令セットコンピュータ)アーキテクチャに基づくサーバ、記憶デバイス、ネットワーク、およびネットワーキング・コンポーネントが挙げられる。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェアを含む。
仮想化レイヤ62は、抽象レイヤを提供し、該抽象レイヤから、以下の仮想のエンティティの例が提供される。すなわち、仮想サーバ、仮想記憶装置、仮想プライベート・ネットワークを含めた仮想ネットワーク、仮想アプリケーションとオペレーティング・システム、および仮想クライアントである。
一例として、管理レイヤ64は、以下に記載される機能を提供してもよい。リソース供給によって、コンピューティング・リソースと、クラウド・コンピューティング環境内でタスクを実施するのに利用される他のリソースとを動的に調達することが可能になる。計測および価格設定することによって、クラウド・コンピューティング環境内でリソースを利用すれば費用の追跡が可能になり、これらのリソースの消費を請求書または送り状で処理することが可能になる。一例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでいてもよい。セキュリティによって、データおよび他のリソースの保護ばかりか、クラウドのコンシューマおよびタスクの識別情報確認が可能になる。ユーザのポータルによって、コンシューマおよびシステム管理者は、クラウド・コンピューティング環境にアクセスすることが可能になる。サービスレベルの管理によって、求められるサービスレベルに見合うように、クラウド・コンピューティング・リソースを割り当ておよび管理することが可能になる。サービスレベル合意書(SLA)の立案および履行によって、クラウド・コンピューティング・リソースの事前配置および調達が可能になり、そのリソースに関して将来必要となることが、SLAに従って予期される。
ワークロード・レイヤ66は、機能性の例を提供し、その機能性に、クラウド・コンピューティング環境が利用されることがある。このレイヤから提供されることがあるワークロードおよび機能の例としては、地図作成とナビゲーション、ソフトウェア開発とライフサイクル管理、仮想教室教育の配信、データ解析処理、トランザクション処理、および分類モデル学習処理が挙げられる。
具体的な実施形態では、クラウド環境でのサービスとして、本明細書に記載される実施形態に従って分類モデル学習処理を実装する、コンピュータ・プログラム・プロダクトまたはソフトウェアが提供される。具体的な実施形態では、ニューラル・ネットワークに基づく分類モデルの上述の学習プロセスは、クラウド・コンピューティング環境にて実施されてもよい。
コンピュータ・プログラムの実装
本願の発明は、コンピュータ・システム、方法、コンピュータ・プログラム・プロダクトまたはそれらの組合せとしてもよい。コンピュータ・プログラム・プロダクトは、コンピュータ読み取り可能な記憶媒体(または複数の媒体)を含んでいてもよく、該記憶媒体は、プロセッサが本願の発明の態様を実施するためのコンピュータ読み取り可能なプログラム命令をその上に有する。
コンピュータ読み取り可能な記憶媒体は、命令実行デバイスが使用するための命令を保持および格納することができる、実体のあるデバイスとすることができる。コンピュータ読み取り可能な記憶媒体は、例えば、以下に限定されないが、電子記憶デバイス、磁性記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または先に述べたものの適切な組合せとしてもよい。コンピュータ読み取り可能な記憶媒体のさらに具体的な例を非排他的に列挙すると、携帯可能なコンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用のメモリ(ROM)、消去可能かつプログラミング可能な読み取り専用のメモリ(EPROMもしくはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、携帯可能かつコンパクト・ディスクの読み取り専用のメモリ(CD−ROM)、デジタル多目的ディスク(DVD)、メモリディスク、フロッピーディスク、命令が記録されたパンチカードや溝に浮き彫りされた構造などの物理的にコードされたデバイス、または先に述べたものの任意の適切な組合せが挙げられる。コンピュータ読み取り可能な記憶媒体は、本明細書に使用されるように、ラジオ波または自由に伝播する他の電磁波、導波管または他の伝送媒体を通じて伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)や、ワイヤを通じて伝送される電気信号など、それ自体で一時的な信号であるものと解されない。
本明細書に記載されるコンピュータ読み取り可能なプログラム命令は、ネットワークを介して、例えば、インターネット、ローカルエリア・ネットワーク、ワイドエリア・ネットワーク、ワイヤレス・ネットワーク、またはそれらの組合せを介して、コンピュータ読み取り可能な記憶媒体からそれぞれのコンピューティング/処理デバイスに、または外部コンピュータもしくは外部記憶デバイスに、ダウンロードすることができる。ネットワークは、銅製の伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルーター、ファイヤーウォール、スイッチ、ゲートウェイ・コンピュータ、エッジ・サーバ、またはそれらの組合せを含んでいてもよい。各コンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ読み取り可能なプログラム命令をネットワークから受け取り、コンピュータ読み取り可能な記憶媒体に記憶するためのコンピュータ読み取り可能なプログラム命令を各コンピューティング/処理デバイス内で転送する。
本願の発明のオペレーションを行うためのコンピュータ読み取り可能なプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)、機械語命令、機械語依存的な命令、マイクロ・コード、ファームウェア命令、状態設定データ、または1つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードおよびオブジェクト・コードのどちらかであってもよく、そのようなプログラム言語としては、Smalltalk(登録商標)、C++などのオブジェクト指向のプログラミング言語、および“C”プログラミング言語や類するプログラミング言語など、既存の手続き型プログラミング言語が挙げられる。コンピュータ読み取り可能なプログラム命令は、ユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、スタンドアローン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的におよびリモート・コンピュータ上で部分的に、またはリモート・コンピュータもしくはサーバで全体的に、実行されてもよい。後者の大筋では、リモート・コンピュータは、任意の型のネットワークを介してユーザ・コンピュータへ接続されてもよく、そのようなネットワークとしては、ローカルエリア・ネットワーク(LAN)またはワイドエリア・ネットワーク(WAN)が挙げられる。あるいは、当該接続は、外部のコンピュータへ(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)作成されてもよい。いくつかの実施形態では、本願の発明の態様を実施するために、電子回路、例えば、プログラム可能な論理回路、現場でプログラム可能なゲート・アレイ(FPGA)またはプログラム可能な論理アレイ(PLA)などが、コンピュータ読み取り可能なプログラム命令の状態情報を利用することによって、コンピュータ読み取り可能なプログラム命令を実行して、該電子回路を個人用に設定してもよい。
本願の発明の態様は、本発明の実施形態による方法、装置(システム)およびコンピュータ・プログラム・プロダクトのフローチャート図、ブロック図またはそれらの組合せを参照して本明細書に記載されている。フローチャート図、ブロック図またはそれらの組合せの各ブロック、ならびに該フローチャート図、該ブロック図またはそれらの組合せのブロックの組合せは、コンピュータ読み取り可能なプログラム命令によって実装することができることが理解されよう。
これらのコンピュータ読み取り可能なプログラム命令を、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサに提供して機械を生成してもよく、その結果、その命令は、コンピュータまたは他のプログラミング可能なデータ処理装置を介して実行され、フローチャート、ブロック図またはそれらの組合せの1つもしくは複数のブロックに指定された機能/役割を実装するための手段を作り出す。これらのコンピュータ読み取り可能なプログラム命令はまた、コンピュータ、プログラミング可能なデータ処理装置、または他のデバイスを指示することができるコンピュータ読み取り可能な媒体中に格納されて、具体的な仕様で機能する場合もあり、その結果、命令が中に格納されたコンピュータ読み取り可能な媒体は、フローチャート、ブロック図またはそれらの組合せの1つもしくは複数のブロックに指定された機能/役割の態様を実装する命令を含む、製品を含む。
コンピュータ読み取り可能なプログラム命令はまた、コンピュータ、他のプログラミング可能なデータ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラミング可能な装置または他のデバイスで実施される一連のオペレーションのステップを引き起こして、コンピュータに実装されるプロセスを生成してもよく、その結果、コンピュータまたは他のプログラミング可能な装置で実行される命令は、フローチャート、ブロック図またはそれらの組合せの1つもしくは複数のブロックに指定された機能/役割を実装する。
図中のフローチャートおよびブロック図は、本願の発明の様々な実施形態による、ありうるシステム、方法およびコンピュータ・プログラム・プロダクトの実装に関するアーキテクチャ、機能性およびオペレーションを説明している。この点、フローチャートまたはブロック図のそれぞれのブロックは、モジュール、セグメント、または命令の一部を表すことがあり、それらは、指定された論理関数を実装するための、1つまたは複数の実行可能な命令を含む。いくつかの代替の実現例では、ブロックに記述された関数は、図に記述された順序を外れて発生しうる。例えば、連続して示された2つのブロックが、実際には、ほぼ同時に実行されてもよいし、時には、当該ブロックは、含まれる機能性に応じて、逆の順番で実行されてもよい。ブロック図とフローチャート図とのどちらかまたはその両方の各ブロック、および該ブロック図と該フローチャート図とのどちらかまたはその両方のブロックの組合せは、指定された関数または動作を実施する専用のハードウェアベースのシステムによって実装されるか、または、専用のハードウェアおよびコンピュータ命令の組合せを実施することができることもまた留意されよう。
本明細書で使用される用語は、具体的な実施形態を記載するためのみのものであり、本発明を限定することを意図するものではない。本明細書で使用される際に、単数形“a”、“an”、および“the”は、文脈が明らかに他を示さない限り、同様に複数形を含むことを意図する。本明細書で使用される際に、用語“含む”、“含んでいる”、またはそれら両方は、記述された特徴、整数、ステップ、操作、要素、またはコンポーネント、またはこれらのいかなる組合せの存在を指定するものであって1つまたは複数の他の特徴、整数、ステップ、操作、要素、コンポーネントまたはそれらのグループやこれらのいかなる組合せを排除するものではない。
添付の特許請求の範囲にある、対応の構造、物、行為、およびあらゆるミーンズまたはステップ・プラス・ファンクションの要素の均等物は、それがあるならば、具体的に特許請求の範囲にあるように、特許請求の範囲の他の要素と組み合わせて機能を実行するための任意の構造、物または行為を含むことを意図する。本願の発明の1つまたは複数の態様の記述は、例示および説明の目的のために提示されているのであって、開示された形態に本発明を終始させるものであるとか、本発明を制限するものとかを意図するものではない。
多くの改変および変形は、記載される実施形態の範囲および趣旨を逸脱することなく、当業者にとって明らかとなろう。本明細書に使用される用語は、本実施形態の原理、実際的な適用、または市場に見出される技術を超える技術的な向上を、最適に説明するために、および本明細書に開示される実施形態を他の当業者が理解することを可能にするために、選択されたものである。

Claims (25)

  1. トレーニング入力と、前記トレーニング入力に割り当てられた1つまたは複数の正しいラベルとをそれぞれが有する、1つまたは複数のトレーニング・データを使用して、複数の隠れユニットおよび複数の出力ユニットを有する分類モデルを学習する、コンピュータ実装方法であって、前記コンピュータが、
    前記分類モデルへの入力に対し共に出現することが予想される共起ラベルの組合せを取得することと、
    前記組合せに対し、前記複数の隠れユニットから専用ユニットを準備して、前記複数の出力ユニットのうち、前記専用ユニットに接続され、かつ、前記組合せの各共起ラベルに対応する複数の関連の出力ユニットを、共に活性化させるように、前記分類モデルを初期化することと、
    前記1つまたは複数のトレーニング・データを使用して、前記分類モデルをトレーニングすることと
    を実行する、コンピュータ実装方法。
  2. 前記専用ユニットは、関連の各出力ユニットとの接続を有しており、前記分類モデルの前記初期化では、前記専用ユニットと関連の出力ユニットとの接続は、前記専用ユニットと、前記関連の出力ユニット以外の残りの出力ユニットとの間の他の接続よりも、および前記複数の隠れユニットのうち残りの隠れユニットの少なくとも一部と、前記関連の出力ユニットを含む前記複数の出力ユニットとの間の他の接続よりも、大きさが大きな重み値を用いて初期化される、請求項1に記載の方法。
  3. 前記複数の隠れユニットは、1つまたは複数の隠れレイヤを形成し、前記複数の出力ユニットは、出力レイヤを形成し、前記分類モデルの前記初期化は、
    前記出力レイヤと、前記出力レイヤの下の隠れレイヤとの間の重みマトリックスを初期化すること
    を含み、前記重みマトリックスは、共起ラベルの組合せ用の専用行と、前記専用行以外の残りの行とを有し、前記専用行は、各共起ラベルにそれぞれが対応する列を有し、前記分類モデルの前記初期化では、前記列は、前記組合せ内の前記共起ラベルに対応する列以外の前記専用行中の残りのどの列よりも、および前記残りの行中の他の列よりも、大きさが大きな重み値を用いて初期化される、請求項1に記載の方法。
  4. 前記重み値は、接続のための上限値または正規化された初期化のための上界値である、請求項2に記載の方法。
  5. 前記重み値は、前記1つまたは複数のトレーニング・データに出現した前記組合せの頻度に基づいて変化する、請求項2に記載の方法。
  6. 前記重み値は、前記1つまたは複数のトレーニング・データに出現した前記組合せの頻度に基づいて変化する、請求項3に記載の方法。
  7. 前記分類モデルの初期化は、
    ゼロの値で、前記専用ユニットと、残りの出力ユニットとの間の接続を準備することと、
    無作為な初期化を用いて、前記複数の隠れユニットのうち残りの隠れユニットの少なくとも一部を準備することと
    を含む、請求項2に記載の方法。
  8. 前記共起ラベルを取得することは、
    前記1つまたは複数のトレーニング・データで共に起こった複数の組合せをリストする
    ことと、
    前記1つまたは複数のトレーニング・データ中の各組合せに関連する出現の頻度に基づいて前記複数の組合せからサブセットを選択することと
    を含む、請求項1に記載の方法。
  9. 前記トレーニング入力は、自然文の形態または自然文の表現のクエリであり、正しいラベルのそれぞれは、前記クエリに対する解を有するドキュメントを識別するドキュメント識別子であり、前記分類モデルは、自然言語クエリ分類タスクを実施する、請求項1に記載の方法。
  10. 前記トレーニング入力は、自然文の形態または自然文の表現のテキストであり、正しいラベルのそれぞれは、前記テキストに割り当てられた属性であり、前記分類モデルは、テキスト分類タスクを実施する、請求項1に記載の方法。
  11. トレーニング後の前記専用ユニットはさらに、前記組合せ内の共起ラベルに関し対応する関連の前記出力ユニットを同時に活性化させる、請求項1に記載の方法。
  12. トレーニング入力と、前記トレーニング入力に割り当てられた1つまたは複数の正しいラベルとをそれぞれが有する、1つまたは複数のトレーニング・データを使用して、分類モデルを学習し、前記分類モデルが、複数の隠れユニットおよび複数の出力ユニットを有する、コンピュータ実装方法であって、前記コンピュータが、
    前記1つまたは複数のトレーニング・データに共に出現した共起ラベルの組合せをリストすることと、
    前記組合せに対し専用ユニットを準備しつつ、前記分類モデルを初期化することと、
    前記1つまたは複数のトレーニング・データを使用して、前記分類モデルをトレーニングすることと
    を実行し、前記専用ユニットは、前記組合せの各共起ラベルにそれぞれが対応する、複数の関連の出力ユニットと接続を有し、前記分類モデルの前記初期化では、前記専用ユニットと関連の出力ユニットとの接続は、残りの出力ユニットとの他の接続よりも、および前記複数の隠れユニットのうち残りの隠れユニットの少なくとも一部と、前記関連の出力ユニットを含めた複数の出力ユニットとの間の他の接続よりも、大きさが大きな重み値を用いて初期化される、コンピュータ実装方法。
  13. トレーニング入力と、前記トレーニング入力に割り当てられた1つまたは複数の正しいラベルとをそれぞれが有する、1つまたは複数のトレーニング・データを使用して、複数の隠れユニットおよび複数の出力ユニットを有する分類モデルを学習する、コンピュータ・システムであって、
    前記分類モデルへの入力について共に出現することが予想される共起ラベルの組合せを取得するように構成された、リスティング・モジュールと、
    前記組合せに対し、前記複数の隠れユニットからの専用ユニットを準備して、複数の前記出力ユニットのうち前記専用ユニットに接続され、かつ前記組合せの各共起ラベルに対応する複数の関連の出力ユニットを共に活性化させるように、前記分類モデルを初期化する、初期化モジュールと、
    前記1つまたは複数のトレーニング・データを使用して、前記分類モデルをトレーニングするように構成される、トレーニング・モジュールと、
    を含む、コンピュータ・システム。
  14. 前記専用ユニットは、関連の各出力ユニットとの接続を有しており前記分類モデルの前記初期化では、前記専用ユニットと関連の出力ユニットとの接続は、前記専用ユニットと、前記関連の出力ユニット以外の残りの出力ユニットとの間の他の接続よりも、および前記複数の隠れユニットのうち残りの隠れユニットの少なくとも一部と、前記関連の出力ユニットを含む前記複数の出力ユニットとの間の他の接続よりも、大きさが大きな重み値を用いて初期化される、請求項13に記載のコンピュータ・システム。
  15. 前記複数の隠れユニットは、1つまたは複数の隠れレイヤを形成し、前記複数の出力ユニットは、出力レイヤを形成し、前記初期化モジュールは、
    前記出力レイヤと、前記出力レイヤの下の隠れレイヤとの間の重みマトリックスを初期化するように
    さらに構成され、前記重みマトリックスは、前記共起ラベルの組合せ用の専用行と、前記専用行以外の残りの行とを有し、前記専用行は、各共起ラベルにそれぞれが対応する列を有し、前記分類モデルの前記初期化では、前記列は、前記組合せ内の前記共起ラベルに対応する列以外の前記専用行中の残りのどの列よりも、および前記残りの行中の他の列よりも、大きさが大きな重み値を用いて初期化される、請求項13に記載のコンピュータ・システム。
  16. 前記重み値は、接続のための上限値または正規化された初期化のための上界値である、請求項14に記載のコンピュータ・システム。
  17. 前記重み値は、前記1つまたは複数のトレーニング・データに出現した組合せの頻度に基づいて変化する、請求項14に記載のコンピュータ・システム。
  18. 前記初期化モジュールは、
    ゼロの値で、前記専用ユニットと、残りの入力ユニットとの間の接続を準備するように、および
    無作為な初期化を用いて、前記複数の隠れユニットのうち残りの隠れユニットの少なくとも一部を準備するように
    さらに構成される、請求項13に記載のコンピュータ・システム。
  19. 前記リスティング・モジュールは、
    前記1つまたは複数のトレーニング・データで共起されたラベルの複数の組合せをリストするように、および
    前記1つまたは複数のトレーニング・データ中の各組合せに関連する出現の頻度に基づいて前記複数の組合せからサブセットを選択するように
    さらに構成される、請求項13に記載のコンピュータ・システム。
  20. クラウド・コンピューティング環境で提供される、請求項13に記載のコンピュータ・システム。
  21. トレーニング入力と、前記トレーニング入力に割り当てられた1つまたは複数の正しいラベルとをそれぞれが有する、1つまたは複数のトレーニング・データを使用してプログラム命令を実行することによって、分類モデルを学習し、前記分類モデルが、複数の隠れユニットおよび複数の出力ユニットを有する、コンピュータ・システムであって、
    前記プログラム命令を実体的に格納するメモリと、
    前記メモリと通信するプロセッサと
    を含み、
    前記分類モデルへの入力に対し、共に出現することが予想される共起ラベルの組合せを取得し、
    前記組合せに対し、前記複数の隠れユニットから専用ユニットを準備して、前記複数の出力ユニットのうち、前記専用ユニットに接続され、かつ前記組合せの各共起ラベルに対応する複数の関連の出力ユニットを共に活性化させるよう、前記分類モデルを初期化し、および
    前記1つまたは複数のトレーニング・データを使用して、前記分類モデルをトレーニングするように
    構成された、コンピュータ・システム。
  22. トレーニング入力と、前記トレーニング入力に割り当てられた1つまたは複数の正しいラベルとをそれぞれが有する、1つまたは複数のトレーニング・データを使用して分類モデルを学習し、前記分類モデルが、複数の隠れユニットおよび複数の出力ユニットを有する、コンピュータ・プログラムであって、それをもって具現化されたプログラム命令を有し、前記プログラム命令が、
    前記分類モデルへの入力に対し出現することが予想される共起ラベルの組合せを取得すること、
    前記組合せに対し、前記複数の隠れユニットから専用ユニットを準備して、前記複数の出力ユニットのうち、前記専用ユニットに接続され、かつ前記組合せの各共起ラベルに対応する関連の出力ユニットを共に活性化させるよう、分類モデルを初期化すること、および
    前記1つまたは複数のトレーニング・データを使用して、前記分類モデルをトレーニングすること
    を含むコンピュータ実装方法を前記コンピュータに実施させるように、コンピュータによって実行可能である、コンピュータ・プログラム。
  23. 前記専用ユニットは、関連の各出力ユニットとの接続を有しており、前記分類モデルの前記初期化では、前記専用ユニットと関連の出力ユニットとの接続は、前記専用ユニットと、前記関連の出力ユニット以外の残りの出力ユニットとの間の他の接続よりも、および前記複数の隠れユニットのうち残りの隠れユニットの少なくとも一部と、前記関連の出力ユニットを含む複数の出力ユニットとの間の他の接続よりも、大きさが大きな重み値を用いて初期化される、請求項22に記載のコンピュータ・プログラム。
  24. 前記重み値は、前記1つまたは複数のトレーニング・データに出現した組合せの頻度に基づいて変化する、請求項23に記載のコンピュータ・プログラム。
  25. 前記共起ラベルの組合せを取得することは、
    前記1つまたは複数のトレーニング・データで共起された複数の組合せをリストすること、および
    前記1つまたは複数のトレーニング・データ中の各組合せに関連する出現の頻度に基づいて前記複数の組合せからサブセットを選択すること
    を含む、請求項22に記載のコンピュータ・プログラム。
JP2015170953A 2015-08-31 2015-08-31 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム Active JP6678930B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015170953A JP6678930B2 (ja) 2015-08-31 2015-08-31 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム
US15/251,008 US10621509B2 (en) 2015-08-31 2016-08-30 Method, system and computer program product for learning classification model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015170953A JP6678930B2 (ja) 2015-08-31 2015-08-31 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2017049684A JP2017049684A (ja) 2017-03-09
JP6678930B2 true JP6678930B2 (ja) 2020-04-15

Family

ID=58096761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015170953A Active JP6678930B2 (ja) 2015-08-31 2015-08-31 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム

Country Status (2)

Country Link
US (1) US10621509B2 (ja)
JP (1) JP6678930B2 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6678930B2 (ja) * 2015-08-31 2020-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム
JP6611053B2 (ja) * 2015-09-17 2019-11-27 パナソニックIpマネジメント株式会社 主題推定システム、主題推定方法およびプログラム
KR102522924B1 (ko) * 2016-03-18 2023-04-19 한국전자통신연구원 음성인식을 위한 초벌학습 장치 및 방법
US10606952B2 (en) 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
CN107590153B (zh) * 2016-07-08 2021-04-27 微软技术许可有限责任公司 使用卷积神经网络的对话相关性建模
US10268734B2 (en) * 2016-09-30 2019-04-23 International Business Machines Corporation Providing search results based on natural language classification confidence information
US11069335B2 (en) * 2016-10-04 2021-07-20 Cerence Operating Company Speech synthesis using one or more recurrent neural networks
KR20230170119A (ko) 2016-11-15 2023-12-18 매직 립, 인코포레이티드 큐보이드 검출을 위한 딥 러닝 시스템
US11182840B2 (en) * 2016-11-18 2021-11-23 Walmart Apollo, Llc Systems and methods for mapping a predicted entity to a product based on an online query
KR20210113443A (ko) * 2017-03-17 2021-09-15 매직 립, 인코포레이티드 룸 레이아웃 추정 방법들 및 기술들
CN107766929B (zh) * 2017-05-05 2019-05-24 平安科技(深圳)有限公司 模型分析方法及装置
CN108304429B (zh) * 2017-05-16 2021-12-14 腾讯科技(深圳)有限公司 信息推荐方法、装置和计算机设备
US10747761B2 (en) * 2017-05-18 2020-08-18 Salesforce.Com, Inc. Neural network based translation of natural language queries to database queries
US11468286B2 (en) * 2017-05-30 2022-10-11 Leica Microsystems Cms Gmbh Prediction guided sequential data learning method
IL294197A (en) 2017-09-20 2022-08-01 Magic Leap Inc A personal neural network for eye tracking
US20210390624A1 (en) * 2017-09-27 2021-12-16 State Farm Mutual Automobile Insurance Company Real Property Monitoring Systems and Methods for Risk Determination
US20190114300A1 (en) * 2017-10-13 2019-04-18 Choosito! Inc. Reading Level Based Text Simplification
JP6568175B2 (ja) * 2017-10-20 2019-08-28 ヤフー株式会社 学習装置、生成装置、分類装置、学習方法、学習プログラム、および動作プログラム
CN111373419A (zh) 2017-10-26 2020-07-03 奇跃公司 用于深度多任务网络中自适应损失平衡的梯度归一化系统和方法
RU2678716C1 (ru) * 2017-12-11 2019-01-31 Общество с ограниченной ответственностью "Аби Продакшн" Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
US11126789B2 (en) * 2017-12-21 2021-09-21 Battelle Energy Alliance, Llc Method to convert a written procedure to structured data, and related systems and methods
CN109993194A (zh) * 2018-01-02 2019-07-09 北京京东尚科信息技术有限公司 数据处理方法、系统、电子设备和计算机可读介质
JPWO2019176806A1 (ja) 2018-03-16 2021-04-08 富士フイルム株式会社 機械学習装置および方法
CN108763242B (zh) * 2018-03-26 2022-03-08 广州视源电子科技股份有限公司 标签生成方法及装置
US11776036B2 (en) * 2018-04-19 2023-10-03 Adobe Inc. Generating and utilizing classification and query-specific models to generate digital responses to queries from client device
US11887003B1 (en) * 2018-05-04 2024-01-30 Sunil Keshav Bopardikar Identifying contributing training datasets for outputs of machine learning models
CN108875821A (zh) 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN108804718B (zh) * 2018-06-11 2021-12-14 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
KR102511996B1 (ko) * 2018-06-26 2023-03-20 에스케이텔레콤 주식회사 준지도 학습 방법
CN110874407A (zh) * 2018-08-14 2020-03-10 中国软件与技术服务股份有限公司 一种增值税发票商品和服务税收分类编码识别及纠错方法
WO2020047750A1 (zh) * 2018-09-04 2020-03-12 深圳先进技术研究院 心律失常的检测方法、装置、电子设备及计算机存储介质
JP7156521B2 (ja) * 2018-11-08 2022-10-19 日本電気株式会社 情報処理装置、システム、方法及びプログラム
CN109471944B (zh) * 2018-11-12 2021-07-16 中山大学 文本分类模型的训练方法、装置及可读存储介质
CA3061717A1 (en) * 2018-11-16 2020-05-16 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
JP7186591B2 (ja) * 2018-12-03 2022-12-09 日本放送協会 テキスト分類装置、学習装置、およびプログラム
US11538237B2 (en) * 2019-01-15 2022-12-27 Accenture Global Solutions Limited Utilizing artificial intelligence to generate and update a root cause analysis classification model
US11663519B2 (en) * 2019-04-29 2023-05-30 International Business Machines Corporation Adjusting training data for a machine learning processor
US11748613B2 (en) * 2019-05-10 2023-09-05 Baidu Usa Llc Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning
CN116401604B (zh) * 2019-05-13 2024-05-28 北京绪水互联科技有限公司 进行冷头状态分类检测和寿命预测的方法
JP2021005211A (ja) 2019-06-26 2021-01-14 キオクシア株式会社 情報処理方法及び情報処理装置
US11461376B2 (en) * 2019-07-10 2022-10-04 International Business Machines Corporation Knowledge-based information retrieval system evaluation
CN110533190B (zh) * 2019-07-18 2023-09-05 武汉烽火众智数字技术有限责任公司 一种基于机器学习的数据对象分析方法及装置
US11294884B2 (en) 2019-08-09 2022-04-05 International Business Machines Corporation Annotation assessment and adjudication
US11188517B2 (en) 2019-08-09 2021-11-30 International Business Machines Corporation Annotation assessment and ground truth construction
CN110866113B (zh) * 2019-09-30 2022-07-26 浙江大学 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN110807007B (zh) * 2019-09-30 2022-06-24 支付宝(杭州)信息技术有限公司 目标检测模型训练方法、装置、系统及存储介质
CN110704627B (zh) * 2019-10-15 2022-02-15 支付宝(杭州)信息技术有限公司 一种训练分类模型的方法及系统
US11379758B2 (en) * 2019-12-06 2022-07-05 International Business Machines Corporation Automatic multilabel classification using machine learning
CN111079813B (zh) * 2019-12-10 2023-07-07 北京百度网讯科技有限公司 基于模型并行的分类模型计算方法和装置
CN111191789B (zh) * 2020-01-20 2023-11-28 上海依图网络科技有限公司 模型优化部署系统、芯片、电子设备及介质
US11900070B2 (en) * 2020-02-03 2024-02-13 International Business Machines Corporation Producing explainable rules via deep learning
CN111401474B (zh) * 2020-04-13 2023-09-08 Oppo广东移动通信有限公司 视频分类模型的训练方法、装置、设备及存储介质
CN111581300A (zh) * 2020-05-09 2020-08-25 山东健康医疗大数据有限公司 一种基于健康医疗数据的标签矩阵构建及更新方法
US11900272B2 (en) 2020-05-13 2024-02-13 Factset Research System Inc. Method and system for mapping labels in standardized tables using machine learning
CN111753895A (zh) * 2020-06-12 2020-10-09 北京小米松果电子有限公司 数据处理方法、装置及存储介质
CN112100345A (zh) * 2020-08-25 2020-12-18 百度在线网络技术(北京)有限公司 是非类问答模型的训练方法、装置、电子设备及存储介质
CN112380319B (zh) * 2020-11-12 2023-10-17 平安科技(深圳)有限公司 一种模型训练的方法及相关装置
CN112734035B (zh) * 2020-12-31 2023-10-27 成都佳华物链云科技有限公司 一种数据处理方法及装置、可读存储介质
CN113763014A (zh) * 2021-01-05 2021-12-07 北京沃东天骏信息技术有限公司 物品共现关系确定方法和装置及判定模型获得方法和装置
CN113342983B (zh) * 2021-06-30 2023-02-07 中国平安人寿保险股份有限公司 基于机器学习的简历分配方法、装置、设备及存储介质
CN113220864B (zh) * 2021-07-08 2021-10-01 中航信移动科技有限公司 智能问答数据处理系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122770A (ja) 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
JPH06149771A (ja) 1992-11-16 1994-05-31 Hitachi Ltd 連想記憶のためのニューラルネットワークの構成方法およびその装置
CN101566998B (zh) 2009-05-26 2011-12-28 华中师范大学 一种基于神经网络的中文问答系统
US8365019B2 (en) * 2009-06-16 2013-01-29 International Business Machines Corporation System and method for incident management enhanced with problem classification for technical support services
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US9842610B2 (en) * 2015-06-26 2017-12-12 International Business Machines Corporation Training deep neural network for acoustic modeling in speech recognition
JP6678930B2 (ja) * 2015-08-31 2020-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
US11341413B2 (en) * 2016-08-29 2022-05-24 International Business Machines Corporation Leveraging class information to initialize a neural network language model
US11157829B2 (en) * 2017-07-18 2021-10-26 International Business Machines Corporation Method to leverage similarity and hierarchy of documents in NN training
US10720151B2 (en) * 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification

Also Published As

Publication number Publication date
JP2017049684A (ja) 2017-03-09
US20170061330A1 (en) 2017-03-02
US10621509B2 (en) 2020-04-14

Similar Documents

Publication Publication Date Title
JP6678930B2 (ja) 分類モデルを学習する方法、コンピュータ・システムおよびコンピュータ・プログラム
US11568856B2 (en) Intent authoring using weak supervision and co-training for automated response systems
US11593642B2 (en) Combined data pre-process and architecture search for deep learning models
JP7517776B2 (ja) 転移学習を用いた低リソース・エンティティ解決
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
US10977443B2 (en) Class balancing for intent authoring using search
AU2021261643B2 (en) Dynamically generating facets using graph partitioning
US20220277031A1 (en) Guided exploration for conversational business intelligence
US20230076923A1 (en) Semantic search based on a graph database
US20230092274A1 (en) Training example generation to create new intents for chatbots
WO2022063019A1 (en) Representational machine learning for product formulation
US20220198222A1 (en) Automated generation of machine learning model pipeline combinations
US20220129625A1 (en) Domain knowledge based feature extraction for enhanced text representation
JP2022551941A (ja) 音声議事録からの文書の更新および実装
US20190164061A1 (en) Analyzing product feature requirements using machine-based learning and information retrieval
US11361031B2 (en) Dynamic linguistic assessment and measurement
US20230023958A1 (en) Online question answering, using reading comprehension with an ensemble of models
US20220335270A1 (en) Knowledge graph compression
US11100407B2 (en) Building domain models from dialog interactions
US11663412B2 (en) Relation extraction exploiting full dependency forests
US20230267342A1 (en) Iterative answer and supplemental information extraction for machine reading comprehension
US11556558B2 (en) Insight expansion in smart data retention systems
US11995111B2 (en) Efficient and compact text matching system for sentence pairs
US20210383077A1 (en) Generating dialog system workspaces
US20210192133A1 (en) Auto-suggestion of expanded terms for concepts

Legal Events

Date Code Title Description
RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20150901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150902

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191004

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200210

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20200214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200228

R150 Certificate of patent or registration of utility model

Ref document number: 6678930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150