JP7052016B2 - 訓練データを更新するための方法、システム、およびコンピュータ・プログラム - Google Patents

訓練データを更新するための方法、システム、およびコンピュータ・プログラム Download PDF

Info

Publication number
JP7052016B2
JP7052016B2 JP2020513922A JP2020513922A JP7052016B2 JP 7052016 B2 JP7052016 B2 JP 7052016B2 JP 2020513922 A JP2020513922 A JP 2020513922A JP 2020513922 A JP2020513922 A JP 2020513922A JP 7052016 B2 JP7052016 B2 JP 7052016B2
Authority
JP
Japan
Prior art keywords
training data
question
classifier
answer
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020513922A
Other languages
English (en)
Other versions
JP2020533692A5 (ja
JP2020533692A (ja
Inventor
琢省 柳川
宏秋 小峯
かおり 丸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020533692A publication Critical patent/JP2020533692A/ja
Publication of JP2020533692A5 publication Critical patent/JP2020533692A5/ja
Application granted granted Critical
Publication of JP7052016B2 publication Critical patent/JP7052016B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、概して、自然言語理解に関し、より詳細には、自然言語分類器(NLC:Natural Language Classifier)において使用される訓練データに関する。
NLCは、自然言語を意味論的かつ文脈的に理解し、解釈する能力をソフトウェア・アプリケーションに与え、当該理解および解釈を使用するアプリケーションによって様々なタスクを実施することを可能にすることによって、様々な分野に有用性を見出している。NLCは、自然言語の単語または文字を含む受信テキストの処理において機械学習(ML)アルゴリズムを使用して、受信テキストが属する可能性が最も高い、マッチングするクラスまたはカテゴリを決定し、返す。NLCは、使用中の「新規データ(new data)」に応答して情報を正確に返すために、訓練中に「実例データ(example data)」から学習する。
NLCは、顧客サポートを提供するのに使用することができる。例えば、NLCは、顧客またはユーザから受信される質問を、回答のために適切な顧客サポート人員または部門に予測的に転送するのに使用することができる。NLCを使用するソフトウェア・アプリケーションに音声テキスト化機能を組み込むことによって、音声による質問も予測的に転送することができる。さらに、NLCは、問題を重大性などによって分類する際に、質問と回答またはトピックとのマッチングに使用することができる。IBM(R)によるWatson(商標)、Amazon(R)によるAlexa(R)、およびMicrosoft(R)によるCortana(R)などの多種多様なソフトウェア・アプリケーション、サービス、および製品に使用するために様々なNLCが開発されている。
NLCを使用のために確立するプロセスは、典型的には、クラス・ラベルを識別し、代表的なテキストを収集し、クラスとテキストとをマッチングすることを必要とし得る、訓練データを準備することと、NLCのMLアルゴリズムによって処理するためにアプリケーション・プログラミング・インターフェース(API)によって、準備されている訓練データをNLCにアップロードすることを必要とし得る、NLCを訓練することと、APIによって、訓練されているNLCにテキストを送信し、引き換えに、送信テキストが属する可能性が最も高い、マッチングするクラスまたはカテゴリを含む結果を受信することを必要とし得る、訓練されているNLCを照会または試験することと、結果を評価することと、評価された結果に基づいて当初準備された訓練データを更新することと、必要に応じて、更新された訓練データを使用してNLCを再訓練することとを含む。
タスクを実施するために、テキストなどの形態の、自然言語の表現されているインスタンスの理解または解釈を効率的に適用する方法は、表現されているインスタンスの意味および意図に関して判定を行うことと、次いで、判定に基づいて、表現されているインスタンスを1つまたは複数のクラスに分類することとを含む。実施されるタスクは、例えば、自動テキスト要約、感情分析、トピック抽出、関係抽出などを含み得る。
使用中、NLCは、1つまたは複数のクラスのうち、受信テキストが属する可能性が最も高いのはいずれかを判定するために、テキストを受信することができる。テキストは、質問またはクエリを代表するものであり得、クラスは、対応する回答のグループまたはタイプを代表するものであり得る。一例において、クラスは、質問のグループまたはタイプに対応する回答のグループまたはタイプから形成され得る。その例において、NLCは、受信されている質問の特性に基づいて、受信されている質問に関連して、1つまたは複数の回答グループのうちのいずれが、関連する回答を含む可能性が最も高いかを判定することができる。NLCは、訓練中にNLCにアップロードされている、準備されている訓練データに基づいて開発および精製されているモデルに従って動作することができる。訓練データは、テキスト・コーパスなどのようなコーパスから形成することができる。コーパスは、テキスト、特徴ベクトル、数の集合などから形成することができる。その例において、コーパスのテキストは、関連する回答のグループ、および、個々の質問の各々が属する可能性が最も高い、関連する回答のグループを指定しようとする1つまたは複数の指示を各々が含む個々の質問を含むことができる。
目標ビジネス・エリアにおいて使用するためにNLCを適切に訓練することによって、例えば、顧客サポートなどを提供するために質問に回答することなどによって、目標ビジネス・エリアにおいてタスクを実施するように構成されている仮想顧客サービス・エージェントを形成する自動システムを提供することが可能である。提供される顧客サポートなどの品質は、NLCの訓練に使用される訓練データの品質および解釈精度に依存し得る。
目標ビジネス・エリアにおいて使用するためにNLCを確立するために訓練データを準備するプロセスは、目標ビジネス・エリアに関して、適切なクラス・ラベルを識別することと、サンプル・テキストを収集することを含むことができる。訓練データの準備において、目標ビジネス・エリアの主題専門家は、様々なサンプル・テキストを、様々なクラスに関して分類されるように、考慮または想定することができる。様々なサンプル・テキストおよびクラスは、例えば、予測されるエンド・ユーザ、対象オーディエンスなどに関係するものを含み得る。
米国特許第9,342,588号、米国特許第9,390,378号、および米国特許第8,234,179号は各々、NLCの訓練に使用される訓練データを開発および改良する様々な方法を記載しており、参照により本明細書に組み込まれる。非特許文献“Automatic Training Data Cleaning for Text Classification,” by Hassan H. Malik et al. (ICDMW '11 Proceedings of the 2011 IEEE 11th International Conference on Data Mining Workshops, Pgs. 442-449, December11, 2011)は、別の訓練データ開発および改良方法を記載しており、これも参照により本明細書に組み込まれ、http://www.cs.columbia.edu/~hhm2104/papers/atdc.pdfにおいて入手可能である。
米国特許第9,342,588号 米国特許第9,390,378号 米国特許第8,234,179号
"Automatic Training Data Cleaning for Text Classification," by Hassan H. Malik et al.(ICDMW '11 Proceedings of the 2011 IEEE 11th International Conference on Data Mining Workshops, Pgs. 442-449, December 11, 2011)
従って本発明の課題は、訓練データ更新、すなわち訓練データを更新するための方法、システム、およびコンピュータ・プログラムを提供することである。
本発明の一態様によれば、自然言語分類器において使用される訓練データを更新するためのコンピュータ実施方法が提供される。方法は、訓練データをメモリに読み出すことを含むことができ、訓練データは第1の質問グループおよび第2の質問グループを含み、各質問は、回答と関連付けられる。第1の質問グループおよび第2の質問グループの各質問について、質問に対する回答を含む回答クラスに関して決定が行われ、回答クラスは、質問の各々と関連付けられているクラス・ラベルを有し、質問の各々は、それぞれの回答クラスに分類される。第1の質問グループおよび第2の質問グループ、ならびに、それぞれ第1のクラシファイア(classifier)および第2のクラシファイアにおいて使用するための対応する回答クラスを含む、第1の訓練データおよび第2の訓練データが生成される。第1の質問グループおよび第2の質問グループの各質問は、それぞれ第1のクラシファイアおよび第2のクラシファイアによって分類され、分類によって、対応する分類結果が生成される。第1の訓練データまたは第2の訓練データは、分類結果に基づいて更新されて、それぞれ対応する、更新された第1の訓練データまたは第2の訓練データが生成される。
好ましくは、本発明は、それぞれ、更新された第1の訓練データおよび第2の訓練データに基づいて第1のクラシファイアおよび第2のクラシファイアのうちの一方を更新することをさらに含む、コンピュータ実施方法を提供する。
好ましくは、本発明は、第1の訓練データおよび第2の訓練データを分類すること、更新すること、ならびに、第1のクラシファイアおよび第2のクラシファイアのうちの一方を更新することの各々が、マッチングの程度が所定の閾値を超えるまで反復される、コンピュータ実施方法を提供し、マッチングの程度は、分類の前と後の両方において、第1の質問グループおよび第2の質問グループのうちの一方の各質問に関して、回答を含む回答クラスについて決定される。
好ましくは、本発明は、第1の訓練データおよび第2の訓練データを分類すること、更新すること、ならびに、第1のクラシファイアおよび第2のクラシファイアのうちの一方を更新することの各々が、連続するマッチングの程度の間の差が所定の閾値を超えなくなるまで反復される、コンピュータ実施方法を提供し、マッチングの程度は、分類の前と後の両方において、第1の質問グループおよび第2の質問グループのうちの一方の各質問に関して、回答を含む回答クラスについて決定される。
好ましくは、本発明は、分類すること、第1の訓練データおよび第2の訓練データを更新すること、ならびに、第1のクラシファイアおよび第2のクラシファイアのうちの一方を更新することの各々が、マッチングの程度の移動平均値が所定の閾値を超えるまで反復される、コンピュータ実施方法を提供し、マッチングの程度は、分類の前と後の両方において、第1の質問グループおよび第2の質問グループのうちの一方の各質問に関して、回答を含む回答クラスについて決定される。
好ましくは、本発明は、分類結果が、それぞれ第1のクラシファイアおよび第2のクラシファイアによる対応する回答クラスに関する各質問の分類に対応する信頼度値(degree of confidence value)を含み、第1の訓練データおよび第2の訓練データのうちの1つまたは複数を更新することは、信頼度値が所定の閾値を超えるときに行われる、コンピュータ実施方法を提供する。
好ましくは、本発明は、質問に対する回答を含む回答クラスを決定することが、質問に対する回答を含む各回答クラスの信頼度値を決定することと、信頼度値が最も高い回答クラス、および、対応する信頼度値が所定の閾値を超える回答クラスのうちの一方に基づいて、回答クラスを決定することとを含む、コンピュータ実施方法を提供する。
好ましくは、本発明は、分類結果が、それぞれ第1のクラシファイアおよび第2のクラシファイアによる対応する回答クラスに関する各質問の分類に対応する信頼度値を含み、第1の訓練データおよび第2の訓練データのうちの1つまたは複数を更新することは、対応する信頼度値が所定の閾値を超えるときに、質問を1つの回答クラスから別の回答クラスに再分類することを含む、コンピュータ実施方法を提供する。
好ましくは、本発明は、それぞれ、更新された第1の訓練データおよび第2の訓練データのうちの一方に基づいて第1のクラシファイアおよび第2のクラシファイアのうちの1つまたは複数を更新することをさらに含む、コンピュータ実施方法を提供する。
好ましくは、本発明は、質問グループを第1の質問グループと第2の質問グループとに分割することと、各質問を回答と関連付けることとをさらに含む、コンピュータ実施方法を提供する。
好ましくは、本発明は、分類結果が、それぞれ第1のクラシファイアおよび第2のクラシファイアによる対応する回答クラスに関する各質問の分類に対応する信頼度値を含み、各質問を回答と関連付けることは、所定の閾値を超えない最低の相対信頼度値を含む対応する回答クラスに関する質問の分類が行われるまで反復される、コンピュータ実施方法を提供する。
好ましくは、本発明は、分類結果が、それぞれ第1のクラシファイアおよび第2のクラシファイアによる対応する回答クラスに関する各質問の分類に対応する信頼度値を含み、各質問を回答と関連付けることは、検索エンジンおよび回答コーパスのうちの1つまたは複数を使用することを含む、コンピュータ実施方法を提供する。
好ましくは、本発明は、回答が、最高の相対信頼度値を有する回答クラスのものであり、回答が、検索エンジンおよび回答コーパスのうちの1つまたは複数を使用して識別される、コンピュータ実施方法を提供する。
好ましくは、本発明は、各質問を回答と関連付けることが、最低の相対信頼度値を超える相対信頼度値を含む対応する回答クラスに関する質問の分類が行われるまで反復される、コンピュータ実施方法を提供する。
本発明の一態様によれば、コンピュータ・システムが提供される。コンピュータ・システムは、1つまたは複数のコンピュータ・プロセッサと、1つまたは複数のコンピュータ可読記憶媒体と、1つまたは複数のコンピュータ・プロセッサのうちの少なくとも1つによって実行するための、コンピュータ可読記憶媒体のうちの1つまたは複数に記憶されているプログラム命令とを含むことができる。プログラム命令は、開示されている方法を実施するために実行することができる。
本発明の一態様によれば、コンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、1つまたは複数のコンピュータ可読記憶デバイスと、コンピュータ・システムの少なくとも1つまたは複数のコンピュータ・プロセッサによって実行するための、1つまたは複数のコンピュータ可読記憶デバイスのうちの少なくとも1つに記憶されているプログラム命令とを含むことができる。プログラム命令は、開示されている方法を実施するために、コンピュータ・システムの少なくとも1つまたは複数のコンピュータ・プロセッサによって実行することができる。
本開示は、図面を参照しながら好ましい実施形態の以下の説明において詳細を提示する。図面は必ずしも原寸比例とは限らない。図面は、概略表現にすぎず、本発明の特定のパラメータを表現するようには意図されていない。図面は、本発明の典型的な実施形態のみを示すように意図されている。図面において、同様の参照符号は同様の要素を表す。
本発明の一実施形態によるコンピュータ・システムを示すブロック図である。 本発明の一実施形態による、訓練データ更新を可能にするための動作ステップを示す機能ブロック図である。 本発明の一実施形態による、訓練データ更新を可能にするための動作ステップを示す機能ブロック図である。 本発明の一実施形態による、訓練データ更新を可能にするための動作ステップを示す機能ブロック図である。 本発明の一実施形態による、訓練データ更新を可能にするための動作ステップを示す機能ブロック図である。 本発明の一実施形態による、クラシファイアを更新するための動作ステップを示す機能ブロック図である。 本発明の一実施形態による、訓練データを反復して更新するための動作ステップを示す機能ブロック図である。 本発明の一実施形態による、訓練データを反復して更新し、クラシファイアを反復して更新するための動作ステップを示す機能ブロック図である。 本発明の一実施形態による、訓練データを更新するプロセスを示す流れ図である。 本発明の一実施形態による、訓練データを更新するプロセスを示す流れ図である。 本発明の一実施形態による、図9および図10のプロセスに関係するシステム・ハードウェアを示す全体的な機能ブロック図である。 本発明の一実施形態による、訓練データを更新する実施例の態様を示す図である。 本発明の一実施形態による、訓練データを更新する実施例の態様を示す図である。 本発明の一実施形態による、訓練データを更新する実施例の態様を示す図である。 本発明の一実施形態による、訓練データを更新する実施例の態様を示す図である。 本発明の一実施形態による、クラウド・コンピューティング環境を示す図である。 本発明の一実施形態による、抽象化モデル・レイヤを示す図である。
本発明の実施形態の説明は、例示の目的のために提示および開示されており、網羅的であることも、開示されている実施形態に限定されることも意図していない。説明されている実施形態の範囲および思想から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書において使用されている用語は、実施形態の原理、実際の適用または従来の技術にまさる技術的改善を最良に説明するため、または、当業者が本明細書において開示されている実施形態を理解し、実践することを可能にするために選択されている。
当業者が理解するように、本発明の一実施形態は、方法、システム、またはコンピュータ・プログラム製品として具現化することができる。したがって、本発明の一実施形態は、ファームウェア、常駐ソフトウェアおよびマイクロコードなどを含む全体がハードウェアをベースとした実施形態、全体がソフトウェアをベースとした実施形態をとることができ、または、本明細書においてすべてまとめて「回路」、「モジュール」または「システム」と称する場合がある、ソフトウェアをベースとした態様とハードウェアをベースとした態様とを組み合わせた実施形態の形態をとることができる。
本明細書において使用される場合、「1つの(a/one)」という表現は、「少なくとも1つ」として理解されるものとする。「1つの~を備える(comprise(s)/comprising a/one)」という表現は、「少なくとも1つの~を備える(comprise(s)/comprising at least one)」として理解されるものとする。「~を備える(comprise(s)/comprising)」という表現は、「少なくとも~を備える(comprise(s)/comprising at least)」として理解されるものとする。「/」という表現は、「~または、あるいはその両方(and/or)」として理解されるものとする。
本明細書において使用されている用語をより明確に定義するために、本発明が関係する分野または技術分野の当業者に知られているように広範に解釈されるべきである、用語の例示された定義が以下に示される。
本明細書において使用される場合、「訓練データ」または「訓練データセット」という用語は、自然言語分類器のようなクラシファイアに入力されるデータおよび情報のセットを指す。訓練データは、文書またはテキストが相関、対応、または他の様態で属する可能性があるクラスを指定するためにマッピングまたはラベリングされている、質問、陳述、発言、表現、意見、感嘆、命令、概念、着想などを表す文書またはテキストを含むことができる。訓練データは、例えば、電子ファイルまたは記録の形態をとることができる。
本明細書において使用される場合、「ラベリング」という用語は、文書またはテキストを訓練データのクラスに関連付けるプロセスを指す。
本明細書において使用される場合、「クラス」という用語は、1つまたは複数の文書またはテキストが関連付けられる個別のカテゴリを指す。個別のカテゴリは、他の様態では、回答のクラス、グループ、またはタイプ、トピック、分類、専門領域などであってもよく、または、それらとして定義することができる。
本明細書において使用される場合、「訓練」という用語は、クラシファイアが、クラシファイアにアップロードされる訓練データに基づいて動作モデルを開発および生成するプロセスを指す。
本明細書において使用される場合、「クラシファイア」という用語は、ラベリングされていない文書を入力として受け入れ、個別のクラスを出力として返すソフトウェア構成要素を指す。クラシファイアは、自然言語分類器であってもよい。クラシファイアは、ラベリングされていない文書またはテキストに関連して使用する前に、ラベリングされている文書またはテキストを含む訓練データを使用して訓練される。訓練後、クラシファイアは、訓練データに従って、ラベリングされている文書またはテキストを分類するために使用することができる。
分類の動作は、テキストまたは文を理解することを必要とし、多量の労働関連リソースを必要とする。さらに、標的ビジネス・エリアにおける主題専門家による分類の品質は、経験レベル、専門領域知識の量、および主題専門家が文書の各々をラベリングするのに利用可能な時間に依存する。加えて、例えば、主題専門家による分類が実施される日時に起因する、標的ビジネス・エリアにおける主題専門家による操作の差に起因して、分類のばらつきが発生する場合がある。したがって、クラシファイアを使用した分類性能は、分類動作の正確度および精度によって大きく影響される。
図1は、本発明の一実施形態によるコンピュータ・システムを示すブロック図である。
システム(101)は、例えば、デスクトップ・コンピュータ、ラップトップ・コンピュータ、ノートブック・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、サーバ・コンピュータ、汎用または専用コンピュータなどであってもよい。サーバ・コンピュータは、例えば、ラック・マウント型サーバ、ブレード型サーバ、またはメインフレーム・サーバの形態をとることができ、または、例えば、1つまたは複数の仮想機械を作成および作動させるためのハイパーバイザを実装することができる。システム(101)は、バス(104)によって相互接続されている1つまたは複数のCPU(102)および主記憶装置(103)を備えることができる。CPU(102)の1つまたは複数は、例えば、32ビットまたは64ビットのアーキテクチャに基づくことができる。CPU(102)の1つまたは複数は、IBM(R)のPower(R)シリーズ、Intel CorporationのCore i(商標)シリーズ、Core 2(商標)シリーズ、Atom(商標)シリーズ、Xeon(商標)シリーズ、Pentium(R)シリーズ、またはCeleron(R) series、Advanced Micro Devices, Inc.のPhenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ、またはSempron(商標)シリーズのものであってもよい。
システム(101)は、Windows(R)、UNIX(R)、Mac OS(R)、Linux(R)、またはJava(R)処理環境を提供するもののような、オペレーティング・システムを含んでもよい。Java(R)アプリケーション、Java(R)仮想機械(VM)、J2EE(R)のようなJava(R)ジャスト・イン・タイム(JIT)コンパイラ、他のタイプのプログラムのような様々なソフトウェア・アプリケーション、および任意のタイプのデータを、主記憶装置によってロードおよび使用するためにディスク(108)内に記憶することができる。
ディスプレイ(106)は、例えば、液晶ディスプレイ(LCD)であってもよい。ディスプレイ(106)は、例えば、ディスプレイ・コントローラ(105)によってバス(104)に相互接続することができる。ディスプレイ(106)は、例えば、例として通信回線(115)によって、1つまたは複数の他のコンピュータからネットワークを介してシステム(101)によって受信される情報を表示するために使用することができる。ディスク(108)のようなメモリ・ディスクは、例えば、ハード・ディスクまたはSSDの形態をとってもよい。ドライブ(109)は、例えば、CDドライブ、DVDドライブ、またはBlu-rayディスク(商標)(BD)ドライブ、の形態をとってもよく、SATAまたはIDEコントローラ(107)によってバス(104)に相互接続することができる。キーボード(111)またはマウス(112)のような様々な入力デバイスが、例えば、キーボード-マウス・コントローラ(110)またはUSBバス(図示せず)によってバス(104)に相互接続されてもよい。
ドライブ(109)は、本発明によるコンピュータ・プログラムのようなプログラムをシステム(101)にインストールするために使用することができる。プログラムは、例えば、CD-ROM、DVD-ROM、またはBDからディスク(108)へと、または、直接的に主記憶装置(103)へと読み出し可能またはロード可能あるいはその両方であってもよい。
通信インターフェース(114)は、例えば、Ethernet(R)プロトコルを実施することができる。通信インターフェース(114)は、システム(101)を通信回線(115)に物理的に接続するために、例えば、通信コントローラ(113)によってバス(104)に相互接続することができる。通信インターフェース(114)は、システム(101)における通信機能を有効化するために、TCP/IP通信プロトコルを含むネットワーク・インターフェース・レイヤを提供することができる。通信回線(115)は、例えば、有線LAN環境、または、IEEE(R)802.11a/b/g/nのようなワイヤレスLAN接続規格に基づくワイヤレスLAN環境であってもよい。
本発明の一実施形態において、クラシファイアが、訓練データを生成するために使用される。クラシファイアは、訓練データを使用してクラシファイアを訓練した後は、例えば、通常どおり、慣例に従って使用されてもよい。
図2、図3、図4、および図5は各々、本発明の一実施形態による、訓練データ更新を可能にするための動作ステップを示す機能ブロック図である。
図2を参照すると、第1世代訓練データセットは、第1の訓練データおよび第2の訓練データを含むことができる。本発明の一実施形態において、第1世代訓練データセットは、例えば、対応する候補回答グループとともに質問のセットを形成する文書またはテキストを含んでもよく、または、他の様態でそれらによって形成されてもよい。当該実施形態において、質問のセットは、例えば、検索エンジンに入力され得るもののような、検索クエリまたは質問を係止するテキストを含んでもよい。当該実施形態において、質問は、関連する候補回答のクラスまたはグループに関連して定義され得るクラス・ラベルを含み、これと関連付けることができる。クラス・ラベルは、質問が属する、関連する候補回答のクラスまたはグループを指定することができる。関連する候補回答のグループは、共通のトピック、専門領域などに関係する回答を含むことができる。当該実施形態において、質問セットの質問の識別されている特性は、質問を、対応する関連候補回答グループに関連付けるための基礎として使用することができる。当該実施形態において、第1世代訓練データセットは、例えば、最初に準備し、クラシファイアによる処理のためにシステム(101)に入力することができる。当該実施形態において、第1世代訓練データセットは、例えば、標的ビジネス・エリアの主題専門家によって準備することができる。様々な実施形態において、第1世代訓練データセットは、他の様態で、例えば、陳述、発言、表現、意見、感嘆、命令、概念などの関連するセットを形成する文書またはテキストを含んでもよく、または、それらによって形成されてもよい。
一例において、第1世代訓練データセットは、各々がそれぞれのクラス・ラベルによって定義される、候補回答のグループを含む。当該例において、第1世代訓練データセットは、各々が関連する候補回答の1つまたは複数のグループに関してラベリングされている5~10個の質問を含む質問セットを含む。少数または多数の質問を有する質問セットを含む訓練データがクラシファイアを訓練するために称される場合、クラシファイアに関連する結果として過剰訓練または過剰適合が発生する可能性があり、クラシファイアが、使用中に、解釈エラーまたはマッチング・エラーの形態などの様々な出力エラーを生成させられる。訓練データが、大きい数または多数の質問を有する質問セットを含む場合、訓練中の計算リソースに対する需要が大きくなり得る。
図2を参照すると、質問セットは、質問_001~質問_020(211)の20個の質問を含むことができる。質問セットは、例えば、ストレージに記憶することができ(291)、主記憶装置(103)またはディスク(108)によって実施することができる。本発明の一実施形態において、候補回答の各グループは、例えば、コーパス(292)のような対応するコーパスに基づくことができ、または、他の様態でコーパスから引き出すことができる。当該実施形態において、コーパス(292)は、例えば、候補回答の集合を含む回答コーパスであり得る。1つまたは複数の候補回答は、質問セットの質問に対応することができる。コーパス(292)は、例えば、FAQまたはマニュアルであってもよい。図2に示すように、それぞれ回答_α、回答_β、回答_γ、回答_δ、回答_ε、回答_ζ、回答_η、および回答_θによって示される、候補回答の8つのクラス(214)を各々、クラス・ラベルによって定義することができる。コーパス(292)は、例えば、ストレージに記憶することができ(292)、主記憶装置(103)またはディスク(108)によって実施することができる。質問セットおよび候補回答グループは、システム(101)によって収集することができる。
ステップ271において、システム(101)が、質問セットを2つ以上の相互に排他的な質問グループに分割することができる。質問セットは、例えば、質問の各々と関連付けられる識別子または固有のインデックスに基づいて分割することができる。質問セットは、他の様態で、例えば、質問の各々の識別されている特性に基づいて分割することができる。質問セットを分割する様式は、設計選択の問題として選択することができる。図2に示すように、2つのグループは、グループ_1(221)およびグループ_2(231)を含むことができる。グループ_1(221)は、質問_001~質問_010(212)の各々を含むことができる。グループ_2(231)は、質問_011~質問_020(213)の各々を含むことができる。
ステップ272において、システム(101)は、コーパス(292)によって、グループ_1(221)内の各質問に対応する候補回答を識別することができる。候補回答は、例えば、検索エンジン(図示せず)を実施することによって識別することができる。
ステップ273において、システム(101)は、グループ_1(221)内の各質問に対応する、1つまたは複数の識別されている候補回答を出力することができる。出力は、識別されている候補回答と対応する質問との間のそれぞれの関係の関数として決定される、識別されている各候補回答の信頼度を含むことができる。識別されている候補回答は、識別されている候補回答の相対信頼度に基づいて、グループ_1(221)内の質問と関連付けることができる。システム(101)は、例えば、信頼度が所定の閾値を超える、識別されている候補回答に基づいて、質問を分類するために、グループ_1(221)内の質問が属する関連候補回答クラスまたはグループを決定することができる。それに従って、質問が属する回答と関連付けられる識別子が、クラス・ラベルとして質問に付着され得る。
図2に示すように、質問_001は、クラス_α(251)に分類することができ、回答_αのような、対応するクラス・ラベルと関連付けることができる。質問_002~質問_010も、同様に分類し、対応するクラス・ラベルと関連付けることができる。回答と1つまたは複数の対応する質問との間の関係または関連の数nを、正の整数に関して定義することができる。一例において、1つの質問との関連を有する回答は、n=1によって定義することができる。当該例において、2つの質問との関連を有する別の回答は、n=2によって定義することができる。したがって、システム(101)は、図2に示すように、訓練データ_1(222)のような第1の訓練データを生成することができる。
一例において、訓練データ_1(222)は、図2に示すように、質問_001~質問_010を含む。質問_001および質問_002はクラス_α(251)に分類され、共通してクラス・ラベル回答_αと関連付けられる。質問_003はクラス_ε(254)に分類され、クラス・ラベル回答_εと関連付けられる。質問_004および質問_006はクラス_β(252)に分類され、共通してクラス・ラベル回答_βと関連付けられる。質問_005および質問_007はクラス_δ(253)に分類され、共通してクラス・ラベル回答_δと関連付けられる。質問_008、質問_009および質問_010はクラス_ζ(255)に分類され、共通してクラス・ラベル回答_ζと関連付けられる。当該例において、図2に示すように、質問_001~質問_010はいずれも、クラス_γ、クラス_η、またはクラス_θに分類されない。したがって、訓練データ_1(222)は、そのようなクラスを含み得ない。
ステップ272と同様にして、ステップ282において、システム(101)は、コーパス(292)によって、グループ_2(231)内の各質問に対応する候補回答を識別することができる。
ステップ273と同様にして、ステップ283において、システム(101)は、グループ_2(231)内の各質問に対応する、1つまたは複数の識別されている候補回答を出力することができる。出力は同様に、識別されている各候補回答の信頼度を含むことができる。識別されている候補回答は、識別されている候補回答の相対信頼度に基づいて、グループ_2(231)内の質問と関連付けることができる。システム(101)は、同様に、質問を分類するために、グループ_2(231)内の質問が属する関連候補回答クラスまたはグループを決定することができる。それに従って、質問が属する回答と関連付けられる識別子が、同様にクラス・ラベルとして質問に付着され得る。そのため、システム(101)は、図2に示すように、訓練データ_2(232)のような第2の訓練データを生成することができる。
当該例において、訓練データ_2(232)は、図2に示すように、質問_011~質問_020を含む。質問_011および質問_014はクラス_α(251)に分類され、共通してクラス・ラベル回答_αと関連付けられる。質問_012はクラス_β(262)に分類され、クラス・ラベル回答_βと関連付けられる。質問_013および質問_017はクラス_ε(264)に分類され、共通してクラス・ラベル回答_εと関連付けられる。質問_015、質問_016および質問_019はクラス_η(265)に分類され、共通してクラス・ラベル回答_ηと関連付けられる。質問_018および質問_020はクラス_γ(263)に分類され、共通してクラス・ラベル回答_γと関連付けられる。当該例において、図2に示すように、質問_011~質問_020はいずれも、クラス_δ、クラス_ζ、またはクラス_θに分類されない。したがって、訓練データ_2(232)は、そのようなクラスを含み得ない。
本発明の一実施形態において、訓練データ_1(222)および訓練データ_2(232)は、例えば、2つの個別のクラシファイアを訓練するのに使用することができる。当該実施形態において、ステップ272および273は、ステップ282および283と同時に実施されてもよく、または、されなくてもよい。
図3を参照すると、第1のクラシファイアおよび第2のクラシファイアを、第1の訓練データおよび第2の訓練データに基づいて生成することができる。
ステップ274において、システム(101)は、訓練データ_1(222)に基づいて、例えばクラシファイア_A(223)などの、第1のクラシファイアを訓練および生成することができる。同様に、ステップ284において、システム(101)は、訓練データ_2(232)に基づいて、例えばクラシファイア_B(233)などの、第2のクラシファイアを訓練および生成することができる。本発明の一実施形態において、ステップ274は、ステップ284と同時に実施されてもよく、または、されなくてもよい。
図4および図5を参照すると、第1の訓練データおよび第2の訓練データの各々を更新することができる。
ステップ275において、システム(101)は、クラシファイア_B(233)によって訓練データ_1(222)内の質問_001~質問010(212)の各々を分類することができる。例えば、所定の閾値が50%に設定され、質問_002が85%の信頼度でクラス_βに対して分類され、10%の信頼度でクラス_αに対して分類され、5%の信頼度でクラス_θに対して分類される場合、システム(101)は質問_002をクラス_βに分類することができる。これは、クラシファイア_A(223)によって質問_002をクラス_αに分類することとは対照的であることに留意されたい。本発明の一実施形態において、質問が所定の閾値よりも低い信頼度で1つまたは複数のクラスの各々に対して分類される場合、質問は、相対信頼度が最も高いクラスと関連付けられるが、そのクラスには分類されない。
ステップ276において、システム(101)は、クラシファイア_B(233)によって生成される分類結果を使用して、訓練データ_1(222)を更新することができる。例えば、更新は、質問_002をクラス_α(251)からクラス_β(252)へと再分類すること(298)を含むことができる。更新は、他の様態で、質問_002の初期クラスを適切な様態で変更することを含むことができる。更新は、他の様態で、設計選択の問題として選択することができる、任意の他のタイプの修正動作を含むことができる。本発明の一実施形態において、第1の訓練データに対する更新は、訓練データ_1’(224)などの形態で生成することができる。訓練データ_1’(224)は、訓練データ_1(222)の更新されたバージョンであり得る。
ステップ275と同様にして、ステップ285において、システム(101)は、クラシファイア_A(223)によって訓練データ_2(232)内の質問_011~質問020(213)の各々を分類することができる。例えば、所定の閾値が50%に設定され、質問_011が75%の信頼度でクラス_βに対して分類され、15%の信頼度でクラス_αに対して分類され、10%の信頼度でクラス_ηに対して分類される場合、システム(101)は質問_011をクラス_βに分類することができる。これは、クラシファイア_B(233)によって質問_011をクラス_αに分類することとは対照的であることに留意されたい。質問が所定の閾値よりも低い信頼度で1つまたは複数のクラスの各々に対して分類される場合、質問は、相対信頼度が最も高いクラスと関連付けられるが、そのクラスには分類されない。
ステップ276と同様にして、ステップ286において、システム(101)は、クラシファイア_A(223)によって生成される分類結果を使用して、訓練データ_2(232)を更新することができる。例えば、更新は、例として質問_011をクラス_α(261)からクラス_β(262)へと再分類すること(299)を含むことができる。システム(101)はその後、訓練データ_2’(234)を生成することができる。訓練データ_2’(234)は、訓練データ_2(232)の更新されたバージョンであり得る。
図6は、本発明の一実施形態による、クラシファイアを更新するための動作ステップを示す機能ブロック図である。図6を参照すると、第1のクラシファイアおよび第2のクラシファイアを、更新された第1の訓練データおよび第2の訓練データに基づいて更新することができる。
ステップ311において、システム(101)は、訓練データ_1’(224)を使用してクラシファイア_A(223)を更新して、更新済みクラシファイア_A’(333)を生成することができる。同様に、ステップ321において、システム(101)は、訓練データ_2’(234)を使用してクラシファイア_B(233)を更新して、更新済みクラシファイア_B’(343)を生成することができる。
図7は、本発明の一実施形態による、訓練データを反復して更新するための動作ステップを示す機能ブロック図である。
本発明の一実施形態において、クラシファイア_A(223)のような第1のクラシファイアによる、訓練データ_1’(224)のような第1の訓練データの分類されている質問の間のマッチングの程度が、クラシファイア_B(233)のような第2のクラシファイアによる第1の訓練データの分類されている質問に対する所定の閾値以上である場合、訓練データの反復的なまたは繰り返される更新が影響を受け得る。マッチングの程度は、例えば、クラス_α(251)内の1つまたは複数の質問と、クラス_α(256)のものとの比較に基づいて決定することができる。図5を参照して説明されているように、質問_002はクラス_α(251)からクラス_β(257)に再分類することができる。したがって、クラス_α(251)は、再分類の前は質問_001および質問_002を含んでおり、再分類後は質問_001のみを含んでいる。そのため、再分類前のクラス_α(251)内の質問と、再分類後のクラス_α(256)内の質問との間のマッチングの程度は、50%であると決定することができる。
引き続き図7を参照すると、ステップ475において、システム(101)は、クラシファイア_B’(343)によって訓練データ_1’(224)内の質問_001~質問010(212)の各々を分類することができる。ステップ476において、システム(101)は、クラシファイア_B’(343)によって得られる分類結果を使用して訓練データ_1’(224)を更新して、訓練データ_1’’(426)を生成することができる。訓練データ_1’’(426)は、訓練データ_1’(224)の更新されたバージョンであり得る。
本発明の一実施形態において、クラシファイア_B(233)のような第2のクラシファイアによる、訓練データ_2’(234)のような第2の訓練データの分類されている質問の間のマッチングの程度が、クラシファイア_A(223)のような第1のクラシファイアによる第2の訓練データの分類されている質問に対する所定の閾値以上である場合にも、訓練データの反復的な更新が影響を受け得る。マッチングの程度は、例えば、クラス_α(261)内の1つまたは複数の質問と、クラス_α(266)のものとの比較に基づいて決定することができる。図5を参照して説明されているように、質問_011はクラス_α(261)からクラス_β(267)に再分類することができる。したがって、クラス_α(251)は、再分類の前は質問_011および質問_014を含んでおり、再分類後は質問_014のみを含んでいる。そのため、再分類前のクラス_α(261)内の質問と、再分類後のクラス_α(266)内の質問との間のマッチングの程度は、50%であると決定することができる。
引き続き図7を参照すると、ステップ485において、システム(101)は、クラシファイア_A’(333)によって訓練データ_2’(234)内の質問_011~質問020(213)の各々を分類することができる。ステップ486において、システム(101)は、クラシファイア_A’(333)によって得られる分類結果を使用して訓練データ_2’(234)を更新して、訓練データ_2’’(436)を生成することができる。訓練データ_2’(436)は、訓練データ_2’(234)の更新されたバージョンであり得る。
図8は、本発明の一実施形態による、訓練データを反復して更新し、クラシファイアを反復して更新するための動作ステップを示す機能ブロック図である。図8に示すように、それぞれ、第1の訓練データに対する反復的な更新561、476および577ならびに第2の訓練データに対する反復的な更新686、486および597を適用することができる。さらに、それぞれ、第1のクラシファイアに対する反復的な更新274、311および576ならびに第2のクラシファイアに対する反復的な更新284、321および596を適用することができる。
本発明の一実施形態において、訓練データに対する反復的な更新は、再分類前のクラス内の質問と、再分類後の対応するクラス内の質問との間のマッチングの程度が、所定の閾値以上になるまで適用することができる。当該実施形態において、クラシファイアに対する反復的な更新も、同様に適用することができる。
本発明の別の実施形態において、訓練データに対する反復的な更新は、再分類前のクラス内の質問と、再分類後の対応するクラス内の質問との間の連続的なマッチングの程度が、所定の閾値以上になるまで適用することができる。当該実施形態において、対応する更新済みクラシファイアを使用することができる。当該実施形態において、クラシファイアに対する反復的な更新も、同様に適用することができる。
本発明のまた別の実施形態において、訓練データに対する反復的な更新は、再分類前のクラス内の質問と、再分類後の対応するクラス内の質問との間の目下のまたは現在の連続的なマッチングの程度の連続的な移動平均値が、直前のマッチングの程度の値以上になるか、所定の閾値を超える、または、下回るまで適用することができる。当該実施形態において、対応する更新済みクラシファイアを使用することができる。当該実施形態において、クラシファイアに対する反復的な更新も、同様に適用することができる。
図9および図10は、本発明の一実施形態による、訓練データを更新するプロセスを示す流れ図である。システム(101)のようなシステムが、図9および図10の各々を参照しながら説明されるような、ステップの各々を実施することができる。システムは、単一のコンピュータによって、または、複数のコンピュータによって実施されてもよい。
図9を参照すると、ステップ601において、システムは、訓練データを更新するプロセスを開始することができる。
ステップ602において、システムは、複数の質問を第1のグループと第2のグループとに分割することができる。本発明の別の実施形態において、標的ビジネス・エリアにおける主題専門家が、複数の質問を第1のグループと第2のグループとに手動で分割してもよい。本発明のまた別の実施形態において、システムが、最初に複数の質問を第1の予備グループと第2の予備グループとに分割してもよく、標的ビジネス・エリアにおける主題専門家が、その後、予備グループを手動で調整して、第1のグループおよび第2のグループを生成してもよい。
ステップ603において、システムは、候補回答グループの回答を、上記第1のグループ内の質問のうちの1つの質問と関連付けることができる。本発明の別の実施形態においては、標的ビジネス・エリアにおける主題専門家が、候補回答グループの回答を、上記第1のグループ内の質問のうちの1つの質問と手動で関連付けてもよい。本発明のまた別の実施形態においては、システムが、最初に、候補回答グループの回答を、上記第1のグループ内の質問のうちの1つの質問と関連付けてもよく、標的ビジネス・エリアにおける主題専門家が、その後、必要に応じて関連付けを調整してもよい。
ステップ604において、システムは、質問の各々と関連付けられる回答に基づいて、第1のグループ内の質問の各々が属するクラスを決定して、対応するクラス・ラベルを質問の各々に関連付け、それに従って、質問の各々を分類することができる。システムは、その後、それに従って第1の訓練データセットを生成することができる。
ステップ605において、システムは、第1の訓練データセットに基づいて第1のクラシファイアを生成することができる。
ステップ606において、システムは、下記のステップ615を参照して生成され、説明されているような、第2のクラシファイアによって、第1の訓練データ内の質問の各々を再分類することができる。ステップ607において、システムは、第2のクラシファイアによって生成される再分類結果に基づいて、第1の訓練データを更新して、更新された第1の訓練データを生成することができる。ステップ608において、システムは、更新された第1の訓練データセットに基づいて第1のクラシファイアを更新することができる。
ステップ609において、システムは、分類、訓練データの更新、およびクラシファイアの更新のそれぞれに関連して、ステップ606、607、および608のうちの1つを繰り返すべきか否かを決定することができる。本発明の一実施形態において、分類、訓練データの更新、およびクラシファイアの更新は、上記で説明したように、マッチングの程度が所定の閾値以上になるまで適用することができる。
本発明の一実施形態において、マッチングの程度は、例えば、式(I)~(IV)を使用して決定することができる。関数φ(q,c)は、式(I)によって表すことができる。
Figure 0007052016000001

式中、qは質問を示し、cはクラスを示す。当該関数は、質問qがクラスcに属するときは1を返し、すべての他の場合においては0を返す。
当該実施形態において、第1のクラシファイアAを使用してクラスCに分類された質問qと、第2のクラシファイアBを使用して質問qを再分類した結果との間のマッチングの程度を、それぞれ式(II)および(III)によって表すことができる。
Figure 0007052016000002

Figure 0007052016000003

式中、φ(q,c)は第1のクラシファイアAが使用される関数を示し、φ(q,c)は第2のクラシファイアBが使用される関数を示し、iは質問と関連付けられる識別子を示し、jはクラスと関連付けられる識別子を示す。
反復を続けるべきか否かに関する決定は、式(I)~(III)に従って各クラスの値を計算し、これらの値の各々が、上記で説明したように、所定の閾値以上になるかに関して決定を行うことによって、決定することができる。所定の閾値は、例えば、標的ビジネス・エリアの主題専門家によって定義することができる。所定の閾値は、例えば、式(IV)に示すように、0.8に設定されてもよい。
Figure 0007052016000004
本発明の別の実施形態において、訓練データの更新およびクラシファイアの更新は、更新済みクラシファイアのうちの1つによる再分類の前のクラス内の質問と再分類の後のクラス内の質問との間の目下のおよび直近のマッチングの程度が所定の閾値未満になるまで継続し得る。所定の閾値は、差に関して、例えば、式(V)によって計算することができる。
Figure 0007052016000005

式中、nは目下の反復を示し、n-1は目下の反復の直前の反復を示す。所定の閾値は、例えば、標的ビジネス・エリアの主題専門家によって定義することができる。
本発明のまた別の実施形態において、訓練データの更新およびクラシファイアの更新は、更新済みクラシファイアのうちの1つによる再分類の前および後のクラス内の質問に対して、目下のおよび後続のマッチングの程度の移動平均値が所定の閾値以上になるかについて判定または決定が行われるまで継続し得る。移動平均値は、例えばそれぞれ式(VI)および(VII)によって計算することができる。
Figure 0007052016000006

Figure 0007052016000007

式中、kは、目下の反復に関するk回の先行するまたは過去の更新を示す。所定の閾値は、例えば、標的ビジネス・エリアの主題専門家によって定義することができる。判定または決定が肯定的または真である場合、システムはステップ610に進み、次いで、ステップ606に進む。
ステップ610において、システムは、候補回答グループの別の回答を、第1のグループ内の質問のうちの、信頼度のより低い質問と関連付けることができる。システムはその後、ステップ606、607、608および609を繰り返すために、ステップ606に進む。
ステップ603のものと同様に、ステップ613において、システムは、候補回答グループの回答を、上記第2のグループ内の質問のうちの1つの質問と関連付けることができる。標的ビジネス・エリアにおける主題専門家が、候補回答グループの回答を、上記第1のグループ内の質問のうちの1つの質問と手動で関連付けてもよい。システムが、他の様態で、最初に、候補回答グループの回答を、上記第2のグループ内の質問のうちの1つの質問と関連付けてもよく、標的ビジネス・エリアにおける主題専門家が、その後、必要に応じて関連付けを調整してもよい。
ステップ604のものと同様に、ステップ614において、システムは、質問の各々と関連付けられる回答に基づいて、第2のグループ内の質問の各々が属するクラスを決定して、対応するクラス・ラベルを質問の各々に関連付け、それに従って、質問の各々を分類することができる。システムは、その後、それに従って第2の訓練データセットを生成することができる。
ステップ605のものと同様に、ステップ615において、システムは、第2の訓練データセットに基づいて第2のクラシファイアを生成することができる。
ステップ606のものと同様に、ステップ616において、システムは、上記ステップ605を参照して生成され、説明されているような、第1のクラシファイアによって、第2の訓練データ内の質問の各々を再分類することができる。ステップ607のものと同様に、ステップ617において、システムは、第1のクラシファイアによって生成される再分類結果に基づいて、第2の訓練データを更新して、更新された第2の訓練データを生成することができる。ステップ608のものと同様に、ステップ618において、システムは、更新された第2の訓練データを使用して第2のクラシファイアを更新することができる。
ステップ609のものと同様に、ステップ619において、システムは、それぞれ分類、訓練データの更新、および第2のクラシファイアの更新に関係して、ステップ616、617、および618のうちの1つを繰り返すべきか否かを決定することができる。分類、訓練データの更新、および第2のクラシファイアの更新は、上記で説明したように、マッチングの程度が所定の閾値以上になるまで適用することができる。マッチングの程度は、上記で説明したように、式(I)~(IV)を適合させることによって決定され得、したがって、第2の訓練データおよび第2のクラシファイアに適用するための式(I’)~(IV’)が生成される。そのため、式(I’)は、以下によって表すことができる。
Figure 0007052016000008

式中、qは質問を示し、cはクラスを示す。
本発明の一実施形態において、第2のクラシファイアBを使用してクラスCに分類された質問qと、第1のクラシファイアAを使用して質問qを再分類した結果との間のマッチングの程度を、それぞれ式(II’)および(III’)によって表すことができる。
Figure 0007052016000009

Figure 0007052016000010

式中、φ(q,c)は第2のクラシファイアBが使用される関数を示し、φ(q,c)は第1のクラシファイアAが使用される関数を示し、iは質問と関連付けられる識別子を示し、jはクラスと関連付けられる識別子を示す。
反復を続けるべきか否かに関する決定は、式(I’)、(II’)、および(III’)に従って各クラスの値を計算し、これらの値の各々が、上記で説明したように、所定の閾値以上になるかに関して決定を行うことによって、決定することができる。所定の閾値は、例えば、標的ビジネス・エリアの主題専門家によって定義することができる。所定の閾値は、例えば、式(IV’)に示すように、0.8に設定されてもよい。
Figure 0007052016000011
本発明の別の実施形態において、訓練データの更新およびクラシファイアの更新は、更新済みクラシファイアのうちの1つによる再分類の前のクラス内の質問と再分類の後のクラス内の質問との間の目下のおよび直近のマッチングの程度が所定の閾値未満になるまで継続し得る。所定の閾値は、差に関して、例えば、式(V’)によって計算することができる。
Figure 0007052016000012

式中、nは目下の反復を示し、n-1は目下の反復の直前の反復を示す。所定の閾値は、例えば、標的ビジネス・エリアの主題専門家によって定義することができる。
本発明のまた別の実施形態において、訓練データの更新およびクラシファイアの更新は、更新済みクラシファイアのうちの1つによる再分類の前および後のクラス内の質問に対して、目下のおよび後続のマッチングの程度の移動平均値が所定の閾値以上になるかについて判定または決定が行われるまで継続し得る。移動平均値は、例えばそれぞれ式(VI’)および(VII’)によって計算することができる。
Figure 0007052016000013

Figure 0007052016000014

式中、kは、目下の反復に関するk回の先行するまたは過去の更新を示す。所定の閾値は、例えば、標的ビジネス・エリアの主題専門家によって定義することができる。判定または決定が肯定的または真である場合、システムはステップ620に進み、次いで、ステップ616に進む。
ステップ610において、システムは、候補回答グループの別の回答を、第1のグループ内の質問のうちの、信頼度のより低い質問と関連付けることができる。システムはその後、ステップ606、617、618および619を繰り返すために、ステップ616に進む。
図9を参照すると、ステップ621において、システムは、訓練データを更新するプロセスを終了することができる。
ステップ602に従って、質問のセットは第1のグループと第2のグループとの、2つのグループに分割される。システムはその後、第1のグループのためのステップ603~610、および、第2のグループのためのステップ613~620に進むことができる。クラシファイアを生成するために、初期訓練データの単一のセットが使用される場合、結果として過剰訓練が発生する可能性があり、クラシファイアは、例えば、バイアス・エラーを含む様々な出力エラーを生成させられる。有利には、本発明の実施形態は、ステップ606および616にあるように、質問のセットを2つの相互に排他的なグループに分割することにおいて、過剰訓練の発生を防止する。
図11は、本発明の一実施形態による、図9および図10のプロセスに関係するシステム・ハードウェアを示す全体的な機能ブロック図である。システム(701)は、図1を参照して説明されているような、システム(101)に対応する。システム(701)は、質問分割区画(question-dividing section)(711)と、関連付け区画(associating section)(712)と、訓練データ生成区画(training data-generating section)(714)と、クラシファイア生成区画(classifier-generating section)(715)と、分類区画(classifying section)(716)と、訓練データ更新区画(training data-updating section)(717)とを備えることができる。システム(701)は、質問分割区画(711)および関連付け区画(712)の代わりに読み出し区画(713)を備えてもよい。システム(701)は、クラシファイア更新区画(classifier-updating section)(718)と、判定区画(judging section)(719)とをさらに備えることができる。
質問分割区画(711)は、ストレージ(291)から複数の質問を読み出し、その後、複数の質問を第1のグループと第2のグループとに分割することができる。質問分割区画(711)は、前述したようなステップ602を実施することができる。
関連付け区画(712)は、候補回答グループの回答を、第1のグループおよび第2のグループ内の質問の各質問と関連付ける。回答は、候補回答グループの他の回答に対して最高の相対信頼度を有することができる。関連付け区画(712)は、前述したようなステップ603および613を実施することができる。
読み出し区画(713)は、複数の質問を第1のグループおよび第2のグループに分割して回答を関連付ける代わりに、第1のグループおよび第2のグループをメモリに読み出し、第1のグループおよび第2のグループの各々は複数の質問を有し、質問の各々は回答と関連付けられる。読み出し区画(713)は、訓練データをメモリに読み出すことを可能にし、訓練データは第1の質問グループおよび第2の質問グループを含み、各質問は、回答と関連付けられる。
訓練データ生成区画(714)は、前述したように、第1のグループ内の質問の各々と関連付けられる回答を使用して、質問の各々が属するクラスを決定し、その後、第1の訓練データとして訓練データ_1(222)を生成する。訓練データ_1(222)内の質問は、判断されたクラスに分類される。判断されたクラスの各々は、1つまたは複数の質問と関連付けられる。第1のグループ内の質問の各々が属するクラスに関する決定は、所定の閾値よりも信頼度が高いクラスを識別することによって行われ、クラスが識別されない場合、回答と関連付けられるクラスが、クラス・ラベルとして、質問が属するクラスに付着される。訓練データ生成区画(714)は、前述したように、第2のグループ内の質問の各々と関連付けられる回答を使用して、質問の各々が属するクラスをさらに決定し、その後、第2の訓練データとして訓練データ_2(232)を生成する。第2の訓練データ(232)内の質問はその後、分類および関連付けされ、第2のグループ内の質問の各々が属するクラスに関する決定が、第1のグループのものと同様にして行われる。訓練データ生成区画(714)は、前述したようなステップ604および614を実施することができる。訓練データ生成区画(714)は、第1の質問グループおよび第2の質問グループの各質問について、質問に対する回答を含む回答クラスを決定することを可能にし、回答クラスは、質問の各々と関連付けられているクラス・ラベルを有し、質問の各々は、それぞれの回答クラスに分類される。
クラシファイア生成区画(715)は、第1の訓練データ(222)に基づいて、第1のクラシファイアとしてクラシファイア_A(223)を生成する。クラシファイア生成区画(715)は、第2の訓練データ(232)に基づいて、第2のクラシファイアとしてクラシファイア_B(233)をさらに生成する。クラシファイア生成区画(715)は、前述したようなステップ605および615を実施することができる。クラシファイア生成区画(715)は、第1の質問グループおよび第2の質問グループ、ならびに、それぞれ第1のクラシファイアおよび第2のクラシファイアにおいて使用するための対応する回答クラスを含む、第1の訓練データおよび第2の訓練データを生成することを可能にする。
分類区画(716)は、第2のクラシファイア(233)を使用して、第1の訓練データ内の質問の各々を分類する。分類区画(716)は、第1のクラシファイア(223)を使用して、第2の訓練データ内の質問の各々をさらに分類する。分類区画(716)は、前述したようなステップ606および616を実施することができる。分類区画(716)は、第2のクラシファイアによって第1の質問グループの各質問を分類し、第1のクラシファイアによって第2の質問グループの各質問を分類することを可能にし、各質問は、対応する回答クラスに分類され、第1のクラシファイアおよび第2のクラシファイアによる分類は各々、それぞれの分類結果を生成する。
訓練データ更新区画(717)は、第2のクラシファイア(233)によって得られる分類結果を使用して第1の訓練データ(222)を更新し、その後、更新された第1の訓練データとして訓練データ_1’(224)を生成する。第1の訓練データ(222)に対する更新は、前述したように、第2のクラシファイア(233)によって返されたクラスの信頼度が、所定の閾値以上であるときに適用することができる。訓練データ更新区画(717)は、第1のクラシファイア(223)によって得られる分類結果を使用して、同様に第2の訓練データ(232)をさらに更新し、その後、更新された第2の訓練データとして訓練データ_2’(234)を生成する。第2の訓練データ(232)に対する更新は、前述したように、第1のクラシファイア(223)によって返されたクラスの信頼度が、所定の閾値以上であるときに適用することができる。訓練データ更新区画(717)は、前述したようなステップ607および617を実施することができる。訓練データ更新区画(717)は、分類結果に基づいて第1の訓練データおよび第2の訓練データのうちの1つまたは複数を更新し、それぞれ第1のクラシファイアおよび第2のクラシファイアにおいて使用するための更新された第1の訓練データおよび第2の訓練データを生成することを可能にする。
クラシファイア更新区画(718)は、更新された第1の訓練データ(224)を使用して第1のクラシファイア(223)を更新し、その後、更新された第1のクラシファイアとしてクラシファイア_A’(333)を生成する。クラシファイア更新区画(718)は、更新された第2の訓練データ(234)を使用して第2のクラシファイア(233)をさらに更新し、その後、更新された第2のクラシファイアとしてクラシファイア_B’(343)を生成する。クラシファイア更新区画(718)は、前述したようなステップ608および618を実施することができる。クラシファイア更新区画(718)は、それぞれ、更新された第1の訓練データおよび第2の訓練データに基づいて第1のクラシファイアおよび第2のクラシファイアのうちの一方を更新することを可能にする。
判定区画(719)は、更新済みクラシファイア(333、343)の各々を使用して分類される前の、質問が属するクラスと関連付けられる1つまたは複数の質問と、分類または再分類後のクラスと関連付けられる1つまたは複数の質問との間のマッチングの程度が所定の閾値以上になるか否かを判定または決定する。判定区画(719)は、他の様態で、更新済みクラシファイア(333、343)の各々を使用して分類される前の、質問が属するクラスと関連付けられる1つまたは複数の質問と、分類後のクラスと関連付けられる1つまたは複数の質問との間の目下のマッチングの程度と、直前のマッチングの程度との間の差が所定の閾値未満になるか否かを判定または決定する。判定区画(719)は、他の様態で、更新済みクラシファイア(333、343)の各々を使用して分類される前の、質問が属するクラスと関連付けられる1つまたは複数の質問と、分類後のクラスと関連付けられる1つまたは複数の質問との間の目下のマッチングの程度の移動平均値が所定の閾値以上になるか否かを判定または決定する。判定区画(719)は、前述したようなステップ609および619を実施することができる。
反復プロセスのステップにおいて、関連付け区画(712)は、第2のクラシファイアを使用して、第1の訓練データとしての訓練データ_1(222)内の質問の各々を分類することによって得られる信頼度が、所定の閾値よりも低い場合に、候補回答グループの別の回答を、信頼度がより低い質問と関連付ける。この別の回答は、回答の中で信頼度が2番目に高い回答であり得る。関連付け区画(712)は、第1のクラシファイアを使用して、第2の訓練データとしての訓練データ_2(232)内の質問の各々を分類することによって得られる信頼度が、所定の閾値よりも低い場合に、候補回答グループの別の回答を、信頼度がより低い質問とさらに関連付ける。この別の回答は、回答の中で信頼度が2番目に高い回答である。
図12および図13は、本発明の一実施形態による、訓練データを更新する実施例の態様を示す。クラシファイアの信頼度の閾値0.6と0.8との間の収束状態の比較が示される。
一例において、使用される検索エンジンは、IBM(R)Bluemix Retrieve & Rank (R&R)であってもよい。当該例において、使用されるクラシファイアは、IBM(R)Bluemix自然言語分類器(NLC)であってもよい。当該例において、使用される質問のセットは、IBM(R)Bluemix自然言語分類器(NLC)のチュートリアル上で与えられるような、訓練データの一部として含まれてもよい。当該例において、使用される候補回答のセットは、FAQにおいて準備され得るような、質問と回答との対のうちの回答であってもよい。
プロセスは、以下のステップを含むことができる。
繰り返し分類プロセスにおいて、分類の信頼度の値が、クラシファイアの信頼度の閾値よりも大きい質問の分類結果が採用された。信頼度の値が閾値以下である質問の各々について、質問は、検索エンジンによって再び処理され、2番目の結果が採用された。
訓練データの収束状態が、グループの各々の繰り返し分類の後に合意の割合を調べることによって測定された。
収束状態は、クラシファイアの信頼度の閾値が0.6および0.8に変化することによって測定された。
図12を参照すると、グラフ(801)は、クラシファイアの信頼度の閾値=0.6である場合の結果を示す。グラフ(801)は、6回目の反復の後にマッチングの程度の割合の増大が観察されなかったことを示す。グラフ(802)は、クラシファイアの信頼度の閾値=0.8である場合の結果を示す。グラフ(802)は、すべての反復においてマッチングの程度の割合の増大が観察されたことを示す。
図13を参照すると、クラシファイアの信頼度の閾値が0.6である場合の、図12に示す実施例によって得られる訓練データの分布を示す。図13に示すように、クラスに対する質問のクラスタ化を達成することができる。しかしながら、質問には、特定の回答の各々と関連付けられる文書ID(クラス・ラベルに対応する)に大きく局在化されるという傾向がある。文書ID6、12および18に対応する回答は、それらの回答が多くの質問の2番目の検索結果として見出されているような、検索処理によって見出される可能性が高い。クラシファイアによる分類の結果の信頼度が低い場合、質問は、検索エンジンによって処理される。グラフ(811、812、813および814)に見られるように、低い信頼値を多数回もたらす質問は、最終的に、文書ID6、12および18と関連付けられるクラスに集積されている。
図14および図15は、本発明の一実施形態による、訓練データを更新する実施例の態様を示す。図14および図15において使用されるプロセスは、図12および図13のものに対して、以下の修正を含んでいる。
1つのグループの質問の繰り返し分類において、質問が、他のグループのクラシファイアによって、1つのグループにおいて質問が属するクラスに分類されず、かつ、信頼度が2回以上、閾値以下になっている場合、質問は除外され、目下のクラスから、「他のクラス」、または、回答と関連付けられる識別子と共通の識別子を有するクラスの外側に移動する。
いずれのクラスにも分類されない質問は、クラシファイアに他のクラスを追加することによって抽出することができると仮定される。
図14を参照すると、グラフ(901)は、クラシファイアの信頼度の閾値=0.6である場合の結果を示す。グラフ(901)は、反復の前および後にマッチングの程度の割合の著しい差が観察されなかったことを示す。グラフ(902)は、クラシファイアの信頼度の閾値=0.8である場合の結果を示す。グラフ(902)は、訓練データの反復プロセスが早期に収束することを示す。マッチングの程度の割合は、9回目の反復において95%を超えた。
図15を参照すると、クラシファイアの信頼度の閾値が0.6である場合の、図14に示す別の実施例によって得られる訓練データの分布を示す。図15に示すように、グラフ911、912、913、および914の各々は、局在化が大幅に回避されたことを示す。
得られた結果によれば、図12、図13、図14および図15の例によって示されるように、以下が確認された。
検索エンジン(質問と回答との間のマッチングの程度)およびクラシファイア(質問の間のマッチングの程度)を相補的に利用することによって、質問の自動クラスタ化を可能にすることができる。
マッチングの程度は、反復を繰り返すことによってより良好にすることができ、マッチングの程度は最終的に一定の値に集束し得るという傾向があり得る。他方、質問のクラスタ化結果は、初期クラスタの作成において実行される検索処理の正確度に依存することが分かっている。
図12、図13、図14および図15において説明されている例によって得られる結果によれば、以下の方式が、本方法の実施形態を実施するのに有効である。
分類信頼値が低く、検索処理が再び実行されるとき、検索処理の結果が利用される様態における多くの自由度がある。
繰り返し分類プロセスにおいて、それら自体のクラスに2回以上分類されず、分類の信頼度が閾値以下である質問は「他のクラス」に移動され、結果、分類結果が改善される。
有利には、本開示による繰り返し分類プロセスは、自然言語理解モデルを訓練するのに使用される訓練データの精度を、的を絞って改善することを可能にすることによって、使用中に自然言語理解モデルの解釈エラーを効率的に低減するために適用することができる。例えば、繰り返し分類プロセスは、本発明の実施形態によって提供される、質問(および回答)の自動クラスタ化効果の結果として、訓練データを意味的に正確に組み立てるタスクを容易にするために、主題専門家によって系統立てて適用することができる。さらに、本開示による繰り返し分類プロセスは、モデルが、訓練に使用される訓練データをより良好に活用することを可能にする。その目的のために、本発明の実施形態は、訓練データを効率的かつ効果的に使用して、自然言語理解モデルを精密かつ正確に訓練するという自然言語処理中心の問題に対処することによって、認知コンピューティング、より詳細には、自然言語処理の技術分野を改善することができる。
本発明は、任意の可能な技術的詳細レベルの統合における、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであってもよい。コンピュータ・プログラム製品は、プロセッサに、本発明の諸態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は例えば、限定ではないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せであってもよい。コンピュータ可読記憶馬体のより特定的な例の包括的でないリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリス・ティック、フロッピー(R)ディスク、パンチ・カード、または、命令を記録されている溝の中の隆起構造のような機械的に符号化されているデバイス、および、上記の任意の適切な組合せを含む。コンピュータ可読記憶媒体は、本明細書において使用されるものとしては、無線波、または、他の自由に伝播する電磁波、導波路もしくは他の伝送媒体(例えば、光ファイバケーブルを通過する光パルス)を通じて伝播する電磁波、または、ワイヤを通じて伝送される電気信号のような、過渡的信号自体として解釈されるべきではない。
本明細書において記載されているコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへ、または、ネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワークもしくはワイヤレス・ネットワークまたはその両方を介して外部コンピュータもしくは外部記憶デバイスへダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体内に記憶するために、コンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Java(R)、Python(R)、Smalltalk(R)、C++などのようなオブジェクト指向プログラミング言語、および、「C」プログラミング言語もしくは同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれているソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、その全体をユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でかつ部分的に遠隔コンピュータ上で、またはその全体を遠隔コンピュータもしくはサーバ上で実行することができる。後者のシナリオにおいて、遠隔コンピュータが、ユーザのローカル・エリア・ネットワーク(LAN)もしくは広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよく、または、接続は、外部コンピュータに対して(例えば、インターネット・サービス・プロバイダを使用してインターネットを通じて)行われてもよい。いくつかの実施形態において、例えば、プログラム可能論理回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラム可能論理アレイ(PLA)を含む電子回路が、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をカスタマイズすることによって、コンピュータ可読プログラム命令を実行することができる。
本発明の態様は、本明細書において、本発明の実施形態による、方法、装置(システム)およびコンピュータ・プログラム製品のフローチャートまたはブロック図あるいはその両方を参照して説明されている。フローチャートまたはブロック図あるいはその両方の各ブロック、および、フローチャートまたはブロック図あるいはその両方の中の複数のブロックの組合せはそれぞれ、コンピュータ可読プログラム命令によって実施されることができることは理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプラグラム可能データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されているコンピュータ可読記憶媒体が、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定される機能/動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読記憶媒体内に記憶され、コンピュータ、プログラム可能データ処理装置、および/または他のデバイスに特定の様式で機能するように指示することができるものであってもよい。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおいて指定される機能/動作を実施するように、コンピュータで実施されるプロセスを生成すべく、コンピュータ、他のプログラム可能データ処理装置、または他のデバイス上にロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
図面内のフローチャートおよびブロック図は本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能、および動作を例示する。これに関連して、流れ図およびブロック図内の各ブロックは、指定の論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部分を表すことができる。いくつかの代替的な実施態様において、ブロックに記載されている機能は、図面に記載されている順序と一致せずに行われてもよい。例えば、連続して示されている2つのブロックは実際には、関与する機能に応じて、実質的に同時に実行されてもよく、または、これらのブロックは、時として逆順に実行されてもよい。また、ブロック図または流れ図あるいはその両方の図解の各ブロック、およびブロック図または流れ図あるいはその両方の図解のブロックの組合せは、指定の機能もしくは動作を実施するか、または、専用ハードウェアとコンピュータ命令との組合せを実行する専用ハードウェアベース・システムによって実施することができることも留意されよう。
本開示は、クラウド・コンピューティングに関する詳細な説明を含むが、本明細書において記載されている教示の実施態様は、クラウド・コンピューティング環境に限定されないことは理解されたい。むしろ、本発明の実施形態は、現在知られているかまたは後に開発される任意の他のタイプのコンピューティング環境とともに実施されることが可能である。
クラウド・コンピューティングは、最小限の管理労力またはサービスの提供者との対話によって迅速に提供しリリースすることができる、設定可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス)の共有されるプールに対する簡便なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含むことができる。
特性は以下のとおりである。
オンデマンド・セルフサービス:クラウド顧客は、人間がサービスの提供者と対話することなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージのようなコンピューティング能力を一方的に供給することができる。
ブロード・ネットワーク・アクセス:機能がネットワークを介して利用可能であり、異種のシンまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを通じてアクセスされる。
リソース・プーリング:提供者のコンピューティング・リソースが、種々の物理的および仮想リソースが需要に従って動的に割り当てられ、再割り当てされる、マルチテナント・モデルを使用して、複数の消費者にサービスするためにプールされる。消費者が一般的に、提供されるリソースの正確なロケーションに対する制御または知識を有しないが、より上位の抽象化(例えば、国家、州、またはデータセンター)におけるロケーションを指定することが可能であり得るという点において、位置独立の感覚がある。
スピーディな拡張性:機能を、場合によっては自動的に、迅速かつ適応的に供給して、迅速にスケール・アウトし、迅速にリリースして、迅速にスケール・インすることができる。消費者にとって、供給するために利用可能な機能は多くの場合、無制限であるように見え、いつでも任意の量を購入することができる。
サービスが計測可能であること:クラウド・システムは、サービスのタイプにとって適切な何らかのレベルの抽象化(例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント)における計量機能を活用することによって、リソース使用を自動的に制御および最適化する。リソース使用は、監視、制御、および報告することができ、利用されるサービスの提供者と消費者の両方にとっても透明性を提供する。
サービス・モデルは以下のとおりである。
サービス型ソフトウェア(SaaS):消費者に提供される機能は、クラウド・インフラストラクチャ上で作動する提供者のアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(例えば、ウェブベースの電子メール)のようなシン・クライアント・インターフェースを通じて様々なクライアント・デバイスからアクセス可能である。消費者は、場合によっては制限されたユーザ特有のアプリケーション構成設定を除いて、ネットワーク、サーバ、オペレーティング・システム、ストレージ、またはさらには個々のアプリケーション機能を含む、基礎となるクラウド・インフラストラクチャを管理せず、制御しない。
サービス型プラットフォーム(PaaS):消費者に提供される機能は、プログラミング言語および提供者によってサポートされるツールを使用して作成された、消費者が作成または取得しているアプリケーションを、クラウド・インフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基礎となるクラウド・インフラストラクチャを管理せず、制御しないが、展開されているアプリケーション、および、場合によっては、環境設定をホストするアプリケーションを制御する。
サービス型インフラストラクチャ(IaaS):消費者に提供される機能は、消費者が、オペレーティング・システムおよびアプリケーションを含むことができる、任意のソフトウェアを展開および作動させることが可能である場合に、処理、ストレージ、ネットワーク、および他の基礎的なコンピューティング・リソースを供給することである。消費者は、基礎となるクラウド・インフラストラクチャを管理せず、制御しないが、ペレーティング・システム、ストレージ、展開されているアプリケーションを制御し、場合によっては、ネットワーク接続構成要素(例えば、ホスト・ファイアウォール)の選択を制限付きで制御する。
展開モデルは以下のとおりである。
プライベート・クラウド:クラウド・インフラストラクチャは、組織のためにのみ運用される。当該インフラストラクチャは、組織またはサード・パーティによって管理され得、施設内または施設外に存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織によって共有され、関心事(例えば、任務、セキュリティ要件、ポリシ、およびコンプライアンス考慮事項)を共有している特定のコミュニティをサポートする。当該インフラストラクチャは、組織またはサード・パーティによって管理され得、施設内または施設外に存在し得る。
公衆クラウド:クラウド・インフラストラクチャは、一般人または大規模な業界団体にとって利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有の実体を保持するが、データおよびアプリケーションの移植性(例えば、クラウド間の負荷平衡のためのクラウド・バースティング)を有効化する標準化されたまたは専有の技術によってともに拘束される2つ以上のクラウド(プライベート、コミュニティ、または公衆)から成る構成体である。
クラウド・コンピューティング環境は、処理状態を把握しないこと、コンピュータ使用が少ないこと、モジュール方式であること、およびセマンティック相互運用性であることに焦点を当てた、サービス指向のものである。クラウド・コンピューティングの中核には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
ここで図16を参照すると、例示的なクラウド・コンピューティング環境50が示されている。図示されているように、クラウド・コンピューティング環境50は、例えば、個人情報端末(PDA)もしくは携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、または自動車コンピュータ・システムあるいはその組合せのような、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが通信することができる1つまたは複数のクラウド・コンピューティング・ノード10を含む。ノード10は、互いに通信することができる。それらのノードは、上記で説明したようなプライベート、コミュニティ、公衆、またはハイブリッド・クラウド、またはその組合せのような、1つまたは複数のネットワークに物理的または仮想的にグループ化され得る(図示せず)。これによって、クラウド・コンピューティング環境50は、インフラストラクチャ、プラットフォームまたはソフトウェアあるいはその組合せをサービスとして提供することが可能になり、そのため、クラウド消費者は、ローカル・コンピューティング・デバイス上にリソースを維持する必要がない。図16に示すコンピューティング・デバイス54A~Nのタイプは例示的であるようにのみ意図されており、コンピューティング・ノード10およびクラウド・コンピューティング環境50は、(例えば、ウェブ・ブラウザを使用して)任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続あるいはその両方を介して任意のタイプのコンピュータ化デバイスと通信することができる。
ここで図17を参照すると、クラウド・コンピューティング環境50(図16)によって提供される機能抽象化レイヤのセットが示されている。図17に示す構成要素、レイヤ、および機能は、例示的であるようにのみ意図されており、本発明の実施形態はこれに限定されないことは、事前に理解されたい。図示されているように、以下のレイヤおよび対応する機能が提供される。
ハードウェアおよびソフトウェア・レイヤ60は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム61、RISC(縮小命令セット・コンピュータ)アーキテクチャベースのサーバ62、サーバ63、ブレード・サーバ64、記憶デバイス65、ならびにネットワークおよびネットワーク接続構成要素66を含む。特定の実施形態において、ソフトウェア構成要素は、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
仮想化レイヤ70が、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想私設ネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびペレーティング・システム74、ならびに仮想クライアント75を提供することができる抽象化レイヤを提供する。
一例において、管理レイヤ80が、後述する機能を提供することができる。リソース・プロビジョニング81が、コンピューティング・リソース、および、クラウド・コンピューティング環境内でタスクを実施するために利用される他のリソースの動的な調達を可能にする。計量および価格決定82が、クラウド・コンピューティング環境内でリソースが利用されるときのコスト追跡、および、これらのリソースの消費に対する課金または請求を可能にする。一例において、これらのリソースは、アプリケーション・ソフトウェア使用許諾を含んでもよい。セキュリティが、クラウド消費者およびタスクの識別検証、ならびに、データおよび他のリソースの保護を可能にする。ユーザ・ポータル83が、消費者およびシステム管理者がクラウド・コンピューティング環境にアクセスすることを可能にする。サービス・レベル管理84が、必要なサービス・レベルが満たされるように、クラウド・コンピューティング・リソース配分および管理を可能にする。サービス品質保証契約(SLA)計画および履行85は、SLAにより将来必要とされることが予測されるクラウド・コンピューティング・リソースの事前手配および調達を可能にする。
作業負荷レイヤ90は、クラウド・コンピューティング環境が利用され得る機能の例を与える。このレイヤから提供される可能性がある作業負荷および機能の例は、地図およびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室の教育の配信93、データ分析処理94、トランザクション処理95、および訓練データ更新96を含む。

Claims (15)

  1. 自然言語分類器において使用される訓練データを更新するためのコンピュータ実施方法であって、
    前記訓練データをメモリに読み出すことであり、前記訓練データは第1の質問グループおよび第2の質問グループを含み、各質問は、回答と関連付けられる、前記読み出すことと、
    前記第1の質問グループおよび前記第2の質問グループの各質問について、質問に対する前記回答を含む回答クラスを決定することであり、前記回答クラスは、前記質問の各々と関連付けられているクラス・ラベルを有し、前記質問の各々は、それぞれの回答クラスに分類される、前記決定することと、
    前記第1の質問グループおよび前記第2の質問グループ、ならびに、それぞれ第1のクラシファイアおよび第2のクラシファイアにおいて使用するための対応する回答クラスを含む、第1の訓練データおよび第2の訓練データを生成することと、
    前記第2のクラシファイアによって前記第1の質問グループの各質問を分類し、前記第1のクラシファイアによって前記第2の質問グループの各質問を分類することであり、各質問は、対応する回答クラスに分類され、前記第1のクラシファイアおよび前記第2のクラシファイアによる分類は各々、それぞれの分類結果を生成する、前記分類することと、
    前記分類結果に基づいて前記第1の訓練データおよび前記第2の訓練データのうちの1つまたは複数を更新することと、
    それぞれ、前記第1のクラシファイアおよび前記第2のクラシファイアにおいて使用するための、更新された第1の訓練データおよび第2の訓練データを生成することと
    を含む、コンピュータ実施方法。
  2. それぞれ、前記更新された第1の訓練データおよび第2の訓練データに基づいて前記第1のクラシファイアおよび前記第2のクラシファイアのうちの一方を更新することをさらに含む、請求項1に記載のコンピュータ実施方法。
  3. 前記分類すること、前記第1の訓練データおよび前記第2の訓練データを前記更新すること、ならびに、前記第1のクラシファイアおよび前記第2のクラシファイアのうちの一方を前記更新することが、マッチングの程度が所定の閾値を超えるまで反復され、前記マッチングの程度は、前記分類の前と後の両方において、前記第1の質問グループおよび前記第2の質問グループのうちの一方の各質問に関して、前記回答を含む前記回答クラスについて決定される、請求項2に記載のコンピュータ実施方法。
  4. 前記分類すること、前記第1の訓練データおよび前記第2の訓練データを前記更新すること、ならびに、前記第1のクラシファイアおよび前記第2のクラシファイアのうちの一方を前記更新することが、連続するマッチングの程度の間の差が所定の閾値を超えなくなるまで反復され、前記マッチングの程度は、前記分類の前と後の両方において、前記第1の質問グループおよび前記第2の質問グループのうちの一方の各質問に関して、前記回答を含む前記回答クラスについて決定される、請求項2に記載のコンピュータ実施方法。
  5. 前記分類すること、前記第1の訓練データおよび前記第2の訓練データを前記更新すること、ならびに、前記第1のクラシファイアおよび前記第2のクラシファイアのうちの一方を前記更新することが、マッチングの程度の移動平均値が所定の閾値を超えるまで反復され、前記マッチングの程度は、前記分類の前と後の両方において、前記第1の質問グループおよび前記第2の質問グループのうちの一方の各質問に関して、前記回答を含む前記回答クラスについて決定される、請求項2に記載のコンピュータ実施方法。
  6. 前記分類結果が、それぞれ前記第1のクラシファイアおよび前記第2のクラシファイアによる対応する回答クラスに関する各質問の前記分類に対応する信頼度値を含み、前記第1の訓練データおよび前記第2の訓練データのうちの1つまたは複数を更新することは、信頼度値が所定の閾値を超えるときに行われる、請求項1に記載のコンピュータ実施方法。
  7. 前記分類結果が、それぞれ前記第1のクラシファイアおよび前記第2のクラシファイアによる対応する回答クラスに関する各質問の前記分類に対応する信頼度値を含み、前記第1の訓練データおよび前記第2の訓練データのうちの1つまたは複数を更新することは、
    対応する信頼度値が所定の閾値を超える場合、質問を1つの回答クラスから別の回答クラスへと再分類することを含む、請求項1に記載のコンピュータ実施方法。
  8. それぞれ、前記更新された第1の訓練データおよび第2の訓練データのうちの一方に基づいて前記第1のクラシファイアおよび前記第2のクラシファイアのうちの1つまたは複数を更新することをさらに含む、請求項1に記載のコンピュータ実施方法。
  9. 質問グループを前記第1の質問グループおよび前記第2の質問グループに分割することと、
    各質問を前記回答と関連付けることと
    をさらに含む、請求項1に記載のコンピュータ実施方法。
  10. 前記分類結果が、それぞれ前記第1のクラシファイアおよび前記第2のクラシファイアによる対応する回答クラスに関する各質問の前記分類に対応する信頼度値を含み、各質問を前記回答と前記関連付けることは、
    検索エンジンおよび回答コーパスのうちの1つまたは複数を使用することを含む、請求項に記載のコンピュータ実施方法。
  11. 自然言語分類器において使用される訓練データを更新するためのコンピュータ・システムであって、
    1つまたは複数のコンピュータ・プロセッサと、1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ・プロセッサのうちの少なくとも1つによって実行するための、前記コンピュータ可読記憶媒体のうちの1つまたは複数に記憶されているプログラム命令とを備え、前記プログラム命令は、前記1つまたは複数のコンピュータ・プロセッサのうちの前記少なくとも1つによって実行されると、前記コンピュータ・システムに、訓練データを更新するための方法を実施させ、前記方法は、
    前記訓練データをメモリに読み出すことであり、前記訓練データは第1の質問グループおよび第2の質問グループを含み、各質問は、回答と関連付けられる、前記読み出すことと、
    前記第1の質問グループおよび前記第2の質問グループの各質問について、質問に対する前記回答を含む回答クラスを決定することであり、前記回答クラスは、前記質問の各々と関連付けられているクラス・ラベルを有し、前記質問の各々は、それぞれの回答クラスに分類される、前記決定することと、
    前記第1の質問グループおよび前記第2の質問グループ、ならびに、それぞれ第1のクラシファイアおよび第2のクラシファイアにおいて使用するための対応する回答クラスを含む、第1の訓練データおよび第2の訓練データを生成することと、
    前記第2のクラシファイアによって前記第1の質問グループの各質問を分類し、前記第1のクラシファイアによって前記第2の質問グループの各質問を分類することであり、各質問は、対応する回答クラスに分類され、前記第1のクラシファイアおよび前記第2のクラシファイアによる分類は各々、それぞれの分類結果を生成する、前記分類することと、
    前記分類結果に基づいて前記第1の訓練データおよび前記第2の訓練データのうちの1つまたは複数を更新することと、
    それぞれ、前記第1のクラシファイアおよび前記第2のクラシファイアにおいて使用するための、更新された第1の訓練データおよび第2の訓練データを生成することと
    を含む、コンピュータ・システム。
  12. 前記方法が、
    それぞれ、前記更新された第1の訓練データおよび第2の訓練データに基づいて前記第1のクラシファイアおよび前記第2のクラシファイアのうちの一方を更新することをさらに含む、請求項11に記載のコンピュータ・システム。
  13. コンピュータ・プログラムであって、
    1つまたは複数のコンピュータ可読記憶デバイスと、コンピュータ・システムの少なくとも1つまたは複数のコンピュータ・プロセッサによって実行するための、前記1つまたは複数のコンピュータ可読記憶デバイスのうちの少なくとも1つに記憶されているプログラム命令とを備え、前記プログラム命令は、前記1つまたは複数のコンピュータ・プロセッサのうちの前記少なくとも1つによって実行されると、前記コンピュータ・システムに、訓練データを更新するための方法を実施させ、前記方法は、
    前記訓練データをメモリに読み出すことであり、前記訓練データは第1の質問グループおよび第2の質問グループを含み、各質問は、回答と関連付けられる、前記読み出すことと、
    前記第1の質問グループおよび前記第2の質問グループの各質問について、質問に対する前記回答を含む回答クラスを決定することであり、前記回答クラスは、前記質問の各々と関連付けられているクラス・ラベルを有し、前記質問の各々は、それぞれの回答クラスに分類される、前記決定することと、
    前記第1の質問グループおよび前記第2の質問グループ、ならびに、それぞれ第1のクラシファイアおよび第2のクラシファイアにおいて使用するための対応する回答クラスを含む、第1の訓練データおよび第2の訓練データを生成することと、
    前記第2のクラシファイアによって前記第1の質問グループの各質問を分類し、前記第1のクラシファイアによって前記第2の質問グループの各質問を分類することであり、各質問は、対応する回答クラスに分類され、前記第1のクラシファイアおよび前記第2のクラシファイアによる分類は各々、それぞれの分類結果を生成する、前記分類することと、
    前記分類結果に基づいて前記第1の訓練データおよび前記第2の訓練データのうちの1つまたは複数を更新することと、
    それぞれ、前記第1のクラシファイアおよび前記第2のクラシファイアにおいて使用するための、更新された第1の訓練データおよび第2の訓練データを生成することと
    を含む、コンピュータ・プログラム。
  14. 前記方法が、
    それぞれ、前記更新された第1の訓練データおよび第2の訓練データに基づいて前記第1のクラシファイアおよび前記第2のクラシファイアのうちの一方を更新することをさらに含む、請求項13に記載のコンピュータ・プログラム。
  15. 請求項14に記載の前記コンピュータ・プログラムを、コンピュータ可読記録媒体に記録した、記録媒体。
JP2020513922A 2017-09-15 2018-09-13 訓練データを更新するための方法、システム、およびコンピュータ・プログラム Active JP7052016B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US15/705,596 US10387572B2 (en) 2017-09-15 2017-09-15 Training data update
US15/705,596 2017-09-15
US15/845,031 US10372826B2 (en) 2017-09-15 2017-12-18 Training data update
US15/845,031 2017-12-18
PCT/IB2018/057011 WO2019053629A1 (en) 2017-09-15 2018-09-13 UPDATE OF LEARNING DATA

Publications (3)

Publication Number Publication Date
JP2020533692A JP2020533692A (ja) 2020-11-19
JP2020533692A5 JP2020533692A5 (ja) 2021-01-07
JP7052016B2 true JP7052016B2 (ja) 2022-04-11

Family

ID=65720294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020513922A Active JP7052016B2 (ja) 2017-09-15 2018-09-13 訓練データを更新するための方法、システム、およびコンピュータ・プログラム

Country Status (6)

Country Link
US (4) US10387572B2 (ja)
JP (1) JP7052016B2 (ja)
CN (1) CN111095234A (ja)
DE (1) DE112018005167T5 (ja)
GB (1) GB2580805A (ja)
WO (1) WO2019053629A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10387572B2 (en) 2017-09-15 2019-08-20 International Business Machines Corporation Training data update
US10467640B2 (en) * 2017-11-29 2019-11-05 Qualtrics, Llc Collecting and analyzing electronic survey responses including user-composed text
WO2019137021A1 (zh) * 2018-01-11 2019-07-18 华为技术有限公司 一种机器学习模型训练方法和装置
CN110949458B (zh) * 2019-11-27 2021-11-12 交控科技股份有限公司 基于微服务架构的轨道交通运维管理系统
US11756663B2 (en) * 2020-07-27 2023-09-12 Kpn Innovations, Llc. Method of and system for determining a prioritized instruction set for a user
CN111967581B (zh) * 2020-08-06 2023-10-31 平安科技(深圳)有限公司 分群模型的解释方法、装置、计算机设备和存储介质
CN111949769B (zh) * 2020-08-23 2024-03-12 云知声智能科技股份有限公司 一种增强阅读理解系统鲁棒性的方法及装置
US11080484B1 (en) * 2020-10-08 2021-08-03 Omniscient Neurotechnology Pty Limited Natural language processing of electronic records
CN112541109B (zh) * 2020-12-22 2023-10-24 北京百度网讯科技有限公司 答案摘要抽取方法及装置、电子设备、可读介质、产品
US20220215034A1 (en) * 2021-01-05 2022-07-07 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN112733932A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 基于训练数据相似度聚合的模型加速训练方法及装置
CN112948560A (zh) * 2021-03-23 2021-06-11 平安科技(深圳)有限公司 佛学问答数据生成方法、装置、计算机设备及存储介质
CN114238598A (zh) * 2021-12-07 2022-03-25 北京妙医佳健康科技集团有限公司 一种问答系统及其标注、审核与模型训练的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080262985A1 (en) 2006-11-15 2008-10-23 Cretu Gabriela Systems, methods, and media for generating sanitized data, sanitizing anomaly detection models, and/or generating sanitized anomaly detection models
WO2015190203A1 (ja) 2014-06-10 2015-12-17 株式会社東芝 検出装置、修正システム、検出方法およびプログラム

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925492B2 (en) * 2004-01-06 2011-04-12 Neuric Technologies, L.L.C. Method for determining relationships through use of an ordered list between processing nodes in an emulated human brain
US6289513B1 (en) * 1999-06-01 2001-09-11 Isaac Bentwich Interactive application generation and text processing
US7269545B2 (en) * 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US7657935B2 (en) * 2001-08-16 2010-02-02 The Trustees Of Columbia University In The City Of New York System and methods for detecting malicious email transmission
US7489812B2 (en) * 2002-06-07 2009-02-10 Dynamic Digital Depth Research Pty Ltd. Conversion and encoding techniques
US7734554B2 (en) * 2005-10-27 2010-06-08 Hewlett-Packard Development Company, L.P. Deploying a document classification system
US8010410B2 (en) 2006-12-29 2011-08-30 Ebay Inc. Method and system for listing categorization
US9342588B2 (en) 2007-06-18 2016-05-17 International Business Machines Corporation Reclassification of training data to improve classifier accuracy
CN101910954B (zh) 2007-12-27 2012-08-22 佳能株式会社 调色剂以及双组分显影剂
JP5206044B2 (ja) * 2008-03-17 2013-06-12 株式会社リコー 省エネ小粒径トナーの製造方法及び製造装置
US10482114B2 (en) * 2008-03-27 2019-11-19 Oath Inc. System and method for maintenance of questions and answers through collaborative and community editing
US20090306967A1 (en) * 2008-06-09 2009-12-10 J.D. Power And Associates Automatic Sentiment Analysis of Surveys
CN102903008B (zh) * 2011-07-29 2016-05-18 国际商业机器公司 用于计算机问答的方法及系统
US9213686B2 (en) * 2011-10-04 2015-12-15 Wfh Properties Llc System and method for managing a form completion process
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
US20140006012A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
US20140067816A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Surfacing entity attributes with search results
US9471559B2 (en) 2012-12-10 2016-10-18 International Business Machines Corporation Deep analysis of natural language questions for question answering system
US9390378B2 (en) 2013-03-28 2016-07-12 Wal-Mart Stores, Inc. System and method for high accuracy product classification with limited supervision
JP6328463B2 (ja) 2013-11-01 2018-05-23 ローランド株式会社 鍵盤装置
US9286910B1 (en) 2014-03-13 2016-03-15 Amazon Technologies, Inc. System for resolving ambiguous queries based on user context
US20150278264A1 (en) * 2014-03-31 2015-10-01 International Business Machines Corporation Dynamic update of corpus indices for question answering system
CN104166643A (zh) 2014-08-19 2014-11-26 南京金娃娃软件科技有限公司 一种智能问答系统中的对话行为分析方法
CN105447031A (zh) * 2014-08-28 2016-03-30 百度在线网络技术(北京)有限公司 训练样本的标注方法及装置
CN104182767B (zh) * 2014-09-05 2018-03-13 西安电子科技大学 主动学习和邻域信息相结合的高光谱图像分类方法
US9720963B2 (en) * 2014-11-05 2017-08-01 International Business Machines Corporation Answer category data classifying using dynamic thresholds
US9792549B2 (en) 2014-11-21 2017-10-17 International Business Machines Corporation Extraction of semantic relations using distributional relation detection
KR102415503B1 (ko) * 2015-08-21 2022-07-01 삼성전자주식회사 분류기 학습 방법 및 객체 검출 방법
CN106778796B (zh) * 2016-10-20 2020-04-21 江苏大学 基于混合式协同训练的人体动作识别方法及系统
CN106844530A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种问答对分类模型的训练方法和装置
US10387572B2 (en) 2017-09-15 2019-08-20 International Business Machines Corporation Training data update

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080262985A1 (en) 2006-11-15 2008-10-23 Cretu Gabriela Systems, methods, and media for generating sanitized data, sanitizing anomaly detection models, and/or generating sanitized anomaly detection models
WO2015190203A1 (ja) 2014-06-10 2015-12-17 株式会社東芝 検出装置、修正システム、検出方法およびプログラム

Also Published As

Publication number Publication date
US10372826B2 (en) 2019-08-06
WO2019053629A1 (en) 2019-03-21
US20190087408A1 (en) 2019-03-21
GB2580805A (en) 2020-07-29
US10387572B2 (en) 2019-08-20
US10614269B2 (en) 2020-04-07
CN111095234A (zh) 2020-05-01
US20190087411A1 (en) 2019-03-21
US20190317997A1 (en) 2019-10-17
GB202004051D0 (en) 2020-05-06
DE112018005167T5 (de) 2020-06-25
US20190317998A1 (en) 2019-10-17
US10621284B2 (en) 2020-04-14
JP2020533692A (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
JP7052016B2 (ja) 訓練データを更新するための方法、システム、およびコンピュータ・プログラム
US10621074B2 (en) Intelligent device selection for mobile application testing
US11593642B2 (en) Combined data pre-process and architecture search for deep learning models
JP2020532012A (ja) ランダム・ドキュメント埋め込みを用いたテキスト・データ表現学習
US11048564B2 (en) API evolution and adaptation based on cognitive selection and unsupervised feature learning
JP2022537912A (ja) 転移学習を用いた低リソース・エンティティ解決
US11501111B2 (en) Learning models for entity resolution using active learning
US11934891B2 (en) APIA configuration using auto-rationalization and modeling
US20240112229A1 (en) Facilitating responding to multiple product or service reviews associated with multiple sources
US11501115B2 (en) Explaining cross domain model predictions
CN116261717A (zh) 用于产品配方的表征机器学习
US11302096B2 (en) Determining model-related bias associated with training data
US20210150270A1 (en) Mathematical function defined natural language annotation
US11520757B2 (en) Explanative analysis for records with missing values
JP2022552140A (ja) 階層クラスタリングを使用する希少トピック検出
US11556558B2 (en) Insight expansion in smart data retention systems
US11681501B2 (en) Artificial intelligence enabled open source project enabler and recommendation platform
US11868167B2 (en) Automatically provisioned tag schema for hybrid multicloud cost and chargeback analysis
US20230021563A1 (en) Federated data standardization using data privacy techniques
US20220076079A1 (en) Distributed machine learning scoring

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220330

R150 Certificate of patent or registration of utility model

Ref document number: 7052016

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150