JP2020091846A

JP2020091846A - 会話に基づくチケットロギングのためのシステム及び方法

Info

Publication number: JP2020091846A
Application number: JP2019190914A
Authority: JP
Inventors: アガルワルプニート; Agarwal Puneet; パティダールマユール; Patidar Mayur; ヴィグラヴケシュ; Vig Lovekesh; シュロフゴータム; Shroff Gautam
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2018-10-19
Filing date: 2019-10-18
Publication date: 2020-06-11
Anticipated expiration: 2039-10-18
Also published as: BR102019022037A2; CA3059026A1; AU2019250159A1; US20200125992A1; JP7372812B2; MX2019012488A; EP3640855A1; US11551142B2

Abstract

【課題】問題を解決する正しい領域専門家に転送するために、チケットにラベルを割り当てるためのプロセッサ実装方法、システム及び非一時的機械可読情報記憶媒体を提供する。【解決手段】正しいカテゴリを識別してそこにチケットをロギングするために、関連するクエリを識別してユーザ応答を取得するシステム及び方法を提供する。これは、アテンションベースのシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルを実装してチケットに階層カテゴリを割り当てた後に、上位ｋ個のモデル予測が一致しない場合には、スロット充填モデルが正しいクエリの組の識別／決定を可能にすることによって達成される。階層分類モデルにおけるアテンション重みに基づいて、スロット充填モデルのためのトレーニングデータが自動的に生成される。【選択図】図２

Description

〔関連出願との相互参照及び優先権〕
本特許出願は、２０１８年１０月１９日に出願されたインド国特許出願第２０１８２１０３９６４９号に対する優先権を主張するものであり、この文献は全体が引用により本明細書に組み入れられる。

本明細書の開示は、一般に自動チケットロギングシステムに関し、具体的には、会話に基づくチケットロギングのためのシステム及び方法に関する。

ヘルプデスクは、あらゆる大型ＩＴ組織の重要な要素であり、ここでは、ＩＴインフラ、管理サービス、人材サービスなどに関連するあらゆる直面する問題に関するチケットをユーザがロギングすることができる。通常、ユーザは、問題の解決に役立つことができる正しい領域専門家に転送できるように、チケットに適切なラベルの組を割り当てる必要がある。実際には、ラベルの数は非常に多く、ツリー形式で体系化されている。問題の原因及び関連するラベルが分からない限り、問題を完全に記述して適切なラベルを添付することは容易ではない。時には、領域専門家がユーザと問題について話し合い、これに応じてチケットの記述を修正することなくチケットのラベルを変更することもある。この結果、データのラベルリングが不整合で誤ったものになり、管理アルゴリズムによる学習が困難になってしまう。

ＩｌｙａＳｕｔｓｋｅｖｅｒ、ＯｒｉｏｌＶｉｎｙａｌｓ及びＱｕｏｃＶ．Ｌｅ著、「ニューラルネットワークを用いたシーケンスツーシーケンス学習（ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅＬｅａｒｎｉｎｇｗｉｔｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ）」、ＣｏＲＲａｂｓ／１４０９．３２１５（２０１４）ＤｚｍｉｔｒｙＢａｈｄａｎａｕ、ＫｙｕｎｇｈｙｕｎＣｈｏ、及びＹｏｓｈｕａＢｅｎｇｉｏ著、２０１４年、「整列及び翻訳のための共同学習によるニューラル機械翻訳（ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｂｙＪｏｉｎｔｌｙＬｅａｒｎｉｎｇｔｏＡｌｉｇｎａｎｄＴｒａｎｓｌａｔｅ）」、ＣｏＲＲａｂｓ／１４０９．０４７３、２０１４Ｍ．Ｓｃｈｕｓｔｅｒ及びＫ．Ｋ．Ｐａｌｉｗａｌ著、１９９７年１１月、「双方向再帰型ニューラルネットワーク（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）」、Ｔｒａｎｓ．Ｓｉｇ．Ｐｒｏｃ（１９９７年１１月）ＤｉｅｄｅｒｉｃＰ．Ｋｉｎｇｍａ及びＪｉｍｍｙＢａ．著、２０１４年、Ａｄａｍ：「確率的最適化方法（ＡＭｅｔｈｏｄｆｏｒＳｔｏｃｈａｓｔｉｃＯｐｔｉｍｉｚａｔｉｏｎ）」、ＣｏＲＲ（２０１４）ＭｕｌｃａｈｉｔＡｌｔｉｎｔａｓ及びＣｕｎｅｙｄＴａｎｔｕｇ著、２０１４年、「問題追跡システムにおける機械学習ベースのチケット分類（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＢａｓｅｄＴｉｃｋｅｔＣｌａｓｓｉｆｉｃａｔｉｏｎｉｎＩｓｓｕｅＴｒａｃｋｉｎｇＳｙｓｔｅｍｓ）」、人工知能及びコンピュータサイエンス（ＡＩＣＳ）に関する国際会議議事録ＣａｒｌｏｓＮ、ＳｉｌｌａＪｒ及びＡｌｅｘＡ．Ｆｒｅｉｔａｓ著、２００９年、「蛋白質機能の階層的予測に対するグローバルモデルナイーブベイズ法（ＡＧｌｏｂａｌ−ＭｏｄｅｌＮａｉｖｅＢａｙｅｓＡｐｐｒｏａｃｈｔｏｔｈｅＨｉｅｒａｒｃｈｉｃａｌＰｒｅｄｉｃｔｉｏｎｏｆＰｒｏｔｅｉｎＦｕｎｃｔｉｏｎｓ）」、２００９年第９回データマイニングＩＥＥＥ国際会議（ＩＣＤＭ’０９））議事録ＫａｍｒａｎＫｏｗｓａｒｉ、ＤｏｎａｌｄＥＢｒｏｗｎ他著、２０１７年、ＨＤＬＴｅｘ：「テキスト分類のための階層的深層学習（ＨｉｅｒａｒｃｈｉｃａｌＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎ）」、２０１７年第１６回機械学習及び応用ＩＥＥＥ国際会議（ＩＣＭＬＡ）、３６４〜３７１頁ＡｎｖｅｓｈｉＣｈａｒｕｖａｋａ及びＨｕｚｅｆａＲａｎｇｗａｌａ著、２０１５年、「ＨｉｒｅＣｏｓｔ：コスト重視学習を用いたラージスケール階層分類の改善（ＨｉｅｒＣｏｓｔ：ＩｍｐｒｏｖｉｎｇＬａｒｇｅＳｃａｌｅＨｉｅｒａｒｃｈｉｃａｌＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈＣｏｓｔＳｅｎｓｉｔｉｖｅＬｅａｒｎｉｎｇ）」、データベースにおける機械学習及び知識発見に関する２０１５年度欧州会議議事録、第１巻（ＥＣＭＬＰＫＤＤ’１５）、Ｓｐｒｉｎｇｅｒ、スイスＦｒａｎｋＷｉｌｃｏｘｏｎ著、１９９２年、「ランキング法による個別比較（ＩｎｄｉｖｉｄｕａｌＣｏｍｐａｒｉｓｏｎｓｂｙＲａｎｋｉｎｇＭｅｔｈｏｄｓ）」、Ｓｐｒｉｎｇｅｒ、ニューヨーク

本開示の実施形態は、本発明者らが従来のシステムにおいて認識していた上記の１又は２以上の技術的課題の解決策としての技術的進歩をもたらすものである。例えば、１つの態様では、問題記述の単語を処理してクエリを識別し、ユーザから応答を取得してユーザに代わって自動的にチケットをロギングするプロセッサ実装方法を提供する。この方法は、１又は２以上のハードウェアプロセッサを介して、問題記述を含む入力データを受け取るステップと、１又は２以上のハードウェアプロセッサによって実行されるシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルを介して、階層的に配置されたクラスラベルの組を出力するために問題記述からの各単語を逐次的に処理するステップであって、クラスラベルの組からの各クラスラベルに信頼性スコアを割り当て、対応するクラスラベルに基づいて各単語にアテンション重みを割り当て、１又は２以上の領域に固有の履歴データを使用して、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルをトレーニングする、ステップと、Ｓｅｑ２Ｓｅｑスロット充填モデルを介して、階層的に配置されたクラスラベルの組の各々に関連する問題記述に含まれている情報の存在又は不在を判断するステップであって、１又は２以上のチケットの１又は２以上の問題記述と、１又は２以上の領域に固有の履歴データに含まれている既に訂正された関連するクラスラベルとに基づいて、Ｓｅｑ２Ｓｅｑスロット充填モデルのためのトレーニングデータを生成し、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルが、既に訂正された関連するクラスラベルを予測する、ステップと、問題記述に含まれている情報の存在又は不在に基づいて、履歴データを使用してクエリの組を逐次的に識別して、クエリの組に対応する応答の組を取得するステップと、応答の組に基づいて、クラスラベルの組からの各クラスラベルに関連する信頼性スコアの更新要件を決定するステップと、決定された更新要件に基づいて、応答の組に基づくクラスラベルの組からの各クラスラベルに関連する信頼性スコアを動的に更新して、更新された信頼性スコアの組を取得するステップと、応答の組及び更新された信頼性スコアの組に基づいて、問題記述に対応するチケットを自動的にロギングするステップと、を含む。

ある実施形態では、クエリの組を、クラスラベルの組からの複数のクラスラベルの信頼性スコアが所定の信頼閾値よりも小さい時又は大きい時に識別することができる。

ある実施形態では、問題記述内の単語と対応する予測クラスラベルとの間の関係が、対応する割り当てられたアテンション重みに基づくことができる。

ある実施形態では、問題記述からの各単語を処理するステップが、１又は２以上の関連する単語及び１又は２以上の無関係な単語を識別するステップを含むことができる。

ある実施形態では、Ｓｅｑ２Ｓｅｑスロット充填モデルのためのトレーニングデータが、（ｉ）問題記述に含まれる単語の組に関連するアテンション重みの総和が閾値アテンション重み以上であり、かつ（ｉｉ）単語の組の濃度が単語カウント閾値よりも低い時に、対応するチケットの問題記述に含まれている単語に１又は２以上のラベルを割り当てることによって生成される。

別の態様では、問題記述の単語を処理してクエリを識別し、ユーザから応答を取得してユーザの代わりに自動的にチケットをロギングするシステムを提供する。このシステムは、命令を記憶するメモリと、１又は２以上の通信インターフェイスと、１又は２以上の通信インターフェイスを介してメモリに結合された１又は２以上のハードウェアプロセッサと、を備え、１又は２以上のハードウェアプロセッサは、命令によって、問題記述を含む入力データを受け取り、１又は２以上のハードウェアプロセッサによって実行されるシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルを介して、階層的に配置されたクラスラベルの組を出力するために問題記述からの各単語を逐次的に処理し、クラスラベルの組からの各クラスラベルに信頼性スコアを割り当て、対応するクラスラベルに基づいて各単語にアテンション重みを割り当て、１又は２以上の領域に固有の履歴データを使用してシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルをトレーニングし、１又は２以上のハードウェアプロセッサによって実行されるＳｅｑ２Ｓｅｑスロット充填モデルを介して、階層的に配置されたクラスラベルの組の各々に関連する問題記述に含まれている情報の存在又は不在を判断し、１又は２以上のチケットの１又は２以上の問題記述と、１又は２以上の領域に固有の履歴データに含まれている既に訂正された関連するクラスラベルとに基づいて、Ｓｅｑ２Ｓｅｑスロット充填モデルのためのトレーニングデータを生成し、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルが、既に訂正された関連するクラスラベルを予測し、問題記述に含まれている情報の存在又は不在に基づいて、履歴データを使用してクエリの組を識別して、クエリの組に対応する応答の組を取得し、応答の組に基づいて、クラスラベルの組からの各クラスラベルに関連する信頼性スコアの更新要件を決定し、決定された更新要件に基づいて、応答の組に基づくクラスラベルの組からの各クラスラベルに関連する信頼性スコアを動的に更新して、更新された信頼性スコアの組を取得し、応答の組及び更新された信頼性スコアの組に基づいて、問題記述に対応するチケットを自動的にロギングするように構成される。

ある実施形態では、問題記述からの各単語が、１又は２以上の関連する単語及び１又は２以上の無関係な単語を識別するように逐次的に処理される。

さらに別の態様では、１又は２以上のハードウェアプロセッサによって実行された時に（単複の）領域固有のモデルを検証する方法を引き起こす１又は２以上の命令を含む１又は２以上の非一時的機械可読情報記憶媒体を提供する。この命令は、１又は２以上のハードウェアプロセッサを介して、問題記述を含む入力データを受け取るステップと、１又は２以上のハードウェアプロセッサによって実行されるシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルを介して、階層的に配置されたクラスラベルの組を出力するために問題記述からの各単語を逐次的に処理するステップであって、クラスラベルの組からの各クラスラベルに信頼性スコアを割り当て、対応するクラスラベルに基づいて各単語にアテンション重みを割り当て、１又は２以上の領域に固有の履歴データを使用して、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルをトレーニングする、ステップと、Ｓｅｑ２Ｓｅｑスロット充填モデルを介して、階層的に配置されたクラスラベルの組の各々に関連する問題記述に含まれている情報の存在又は不在を判断するステップであって、１又は２以上のチケットの１又は２以上の問題記述と、１又は２以上の領域に固有の履歴データに含まれている既に訂正された関連するクラスラベルとに基づいて、Ｓｅｑ２Ｓｅｑスロット充填モデルのためのトレーニングデータを生成し、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルが、既に訂正された関連するクラスラベルを予測する、ステップと、問題記述に含まれている情報の存在又は不在に基づいて、履歴データを使用してクエリの組を逐次的に識別して、クエリの組に対応する応答の組を取得するステップと、応答の組に基づいて、クラスラベルの組からの各クラスラベルに関連する信頼性スコアの更新要件を決定するステップと、決定された更新要件に基づいて、応答の組に基づくクラスラベルの組からの各クラスラベルに関連する信頼性スコアを動的に更新して、更新された信頼性スコアの組を取得するステップと、応答の組及び更新された信頼性スコアの組に基づいて、問題記述に対応するチケットを自動的にロギングするステップと、を含む。

上述した概要及び以下の詳細な説明は、いずれも例示的かつ説明的なものにすぎず、特許請求する発明を限定するものでないと理解されたい。

本開示に組み入れられてその一部を構成する添付図面は、例示的な実施形態を示し、開示する原理を本明細書と共に説明する役割を果たす。

本開示の実施形態例によるラベル階層の一部を示す図である。本開示の実施形態による、問題記述の単語を処理してクエリを知的に識別し、ユーザから応答を取得してユーザの代わりに自動的にチケットをロギングするシステムの例示的なブロック図である。本開示の実施形態による、問題記述の単語を処理してクエリを知的に識別し、ユーザから応答を取得してユーザの代わりに自動的にチケットをロギングするシステムのフレームワークの例示的なブロック図である。本開示の実施形態による図１Ｂのシステム１００を使用する本開示の実施形態による、問題記述の単語を処理してクエリを知的に識別し、ユーザから応答を取得してユーザの代わりに自動的にチケットをロギングする方法の例示的なフロー図である。本開示の実施形態例による図１Ｂ〜図２のシステムによる、問題記述の階層的分類のためのシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）モデルを示す図である。本開示の実施形態例による図１Ｂ〜図２のシステムによって実装される例示的なシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）スロット充填モデルを示す図である。本開示の実施形態例による、「私のインドのドメインパスワードをリセットして下さい」というユーザクエリのアテンションヒートマップを示す図である。本開示の実施形態例による、「ラップトップ上でロータスノートを構成する方法は？」というユーザクエリのアテンションヒートマップを示す図である。

添付図面を参照しながら例示的な実施形態について説明する。図では、参照番号の左端の桁が、その参照番号が最初に登場する図を識別する。好都合な場合には、図面全体を通じて同じ参照番号を使用して同一又は同様の部分を示す。本明細書には、開示する原理の例及び特徴を示すが、開示する実施形態の趣旨及び範囲から逸脱することなく修正、適合及びその他の実装も可能である。以下の詳細な説明は例示にすぎず、実際の範囲及び趣旨については以下の特許請求の範囲に示す。

ほぼ全ての大規模組織にはヘルプデスク業務を容易にするシステムが存在し、しかも最も頻繁に使用される用途の１つであることが多い。このような組織では、全世界に分散する従業員によって毎月数多くのヘルプデスクチケットが上げられている。通常、ヘルプデスクシステムでは、ユーザは、最初にチケットを上げたいと望むマルチレベル（階層的）カテゴリを指定し、その後に問題についてのテキスト記述（「問題記述」又は「チケット記述」とも呼ばれる）を行う必要がある。このマルチレベルカテゴリは、実際にはツリーのルートノードからリーフノードへの経路である。マルチレベルカテゴリは、ユーザインターフェイス内で動的に読み込まれるドロップダウンフィールドを用いて管理されることが多い。これらのチケット上のカテゴリ注釈（ｃａｔｅｇｏｒｙａｎｎｏｔａｔｉｏｎｓ）は、問題を解決できる適切な領域専門家（ヘルプデスクスタッフ）へのチケット割り当てに使用される。カテゴリが誤って／不正確に選択された場合には、自身のワークリスト内で選択を受け取ったサポート要員が、このようなチケットが正しい人物に転送されるようにカテゴリを変更する。このようなチケットを解決するために要する時間は、再転送によって長くなることが明らかである。

現在使用中のシステムから取り込んだ過去のチケットデータの分析、及び本開示において行った実験からは、酷似するテキスト記述を含む多くのチケットに関連するカテゴリが異なっていることが分かった（例えば、１０〜２０％のチケット）。一見したところ、この原因はラベルノイズであり、すなわち一部のチケットに誤って／不正確にカテゴリが付けられたものと思われる。しかしながら、さらなる分析後には、時にはこれがヒューマンエラーによって起きることもあり、時にはユーザがチケットを上げた後に、サポート要員と要求者との間で、システムでは捉えられない私的な会話が行われていることが分かった。この会話に基づいて、チケット記述を変更することなくチケットカテゴリが変更され、このことがラベルノイズという思い違いを招く。同様に、しばしばチケット（又は問題）記述が完全でない結果、このような私的な電話が行われることも分かった。

サポートの技術及び範囲は、電子メールに関する問題、オペレーティングシステム及び性能の問題、企業資源計画（ＥＲＰ）システムに関する問題、作業区域の衛生及び清掃に関する問題、さらには給与及び人件費に関する問題などを含むため多岐にわたる。これらの全てのカテゴリは、いわゆる「ｘ」個（例えば、１２７５）のリーフノードを有するクラスツリーによってカバーされており、このようなクラスツリーの高さは、平均で４〜５までの幅があることが分かっている。クラスツリーの総ノード数は、約１９１８である。この結果、使用される用語が増大して領域を越えて一致し、例えば「マウス（ｍｏｕｓｅ）」は、「ネズミ（ｒａｔ）」を意味することも、又は「コンピュータマウス」を意味することもある。クラスツリーのノードは、技術及び組織内の動作環境の変化と共に経時的に変化し続ける。毎月、平均で約２〜３個のノードが変更（追加又は修正）されている。図１Ａに、サンプルクラスツリーを示す。換言すれば、図１Ａには、本開示の実施形態例によるラベル階層を示す。

リーフノードの一部は、時には最後から２番目のノードであっても、多くの場合人間によって行われる論理的推論に基づいてしか決定することができない。例えば、以下の表１に示すように、ユーザが「電子メールが機能していません」という問題を報告した場合には、ウェブメール構成に何らかの問題があること（Ｙ１）、又はサーバ上のユーザの電子メールデータベース自体が破損していること（Ｙ２）によって、結果的にユーザがどのユーザインターフェイスからも電子メールにアクセスできないことが原因として考えられる。従って、リーフノードカテゴリに最良に到達できるのは、表１に示すような質問をユーザに行った後である。

この設定の目的は、チケットの解決に要する時間を短縮し、人々が上げるチケット数を最小化することである。これらの目的を達成するために、本開示は、ユーザによって与えられたチケット記述に自動的にカテゴリ（すなわち、クラスツリーのルートノードからリーフノードまでの経路）を割り当てることができる会話アシスタントを配置する。時には、適切なカテゴリに到達するためにユーザに追加の質問を行う必要もある。システムは、これらの質問を行うように構成されている場合、これらの質問に対する自然言語でのユーザ応答を解析するようにトレーニングする必要もある。これらの数百ものカテゴリの様々な質問を行うようにシステムを構成するには多大な労力が必要であり、ユーザからの自然言語での応答から必要な情報を抽出するには複数の（例えば、数百もの）パーサに書き込みを行っておく必要がある。このプロセスは、クラスツリーが経時的に変化し続けることを理由に定期的に実行されるという意味で再帰的プロセスである。従って、上述したような誤ってラベル付けされたデータの存在を解決することは重要な問題である。

本開示では、対話型ヘルプデスクシステム（フレームワークとも呼ばれる）を実装するシステム及び方法を提供する。システムは、特に完全な階層カテゴリに到達するために追加情報が必要である時には、ユーザに訊ねる質問を自動的に決定する。この目的のために、最初にシーケンスツーシーケンス再帰ニューラルネットワークを使用して、チケット記述（又は問題記述）の階層カテゴリが何であるかを判断する。本開示のシステムは、このモデルによって高い信頼性で分類されたチケットから、ユーザにどのような質問を行うかを決定する上で役立つスロット充填モデルを（別の再帰ニューラルネットワークモデルに基づいて）トレーニングするためのデータを自動的に生成する。このスロット充填モデルは、チケット記述を入力として捉え、所与のナレーションにおいてどのスロットが全て利用可能であるか、すなわちどのような質問を行うべきでないかに関する情報を予測する。このフレームワークを使用して、システムが行った質問に対する自然言語でのユーザ応答を解析することもできる。スロット充填モデルのためのトレーニングデータは、シーケンスツーシーケンスモデルによって高いアテンションが集まった単語を観察することによって生成される。スロット充填モデルは、チケット分類モデルの信頼性が高くない場合にのみ使用される。この結果、本開示の対話型ヘルプデスクシステムは、過去のチケットデータを取得し、大した構成及びカスタム化を伴わずに自動的に機能し始めることができる。

これまでには、文章、音楽、画像及び会話などの複数の分野のための階層的多クラス分類（ＨＭＣ）に関する複数の研究活動が行われている。一般に、ＨＭＣでは、ツリー又は有向非巡回グラフ（ＤＡＧ）の形のラベルが存在する。このようなＨＭＣのための方法は、大きく３つのタイプ、すなわち「フラット分類」、「ローカル」、及び「グローバル」又は「ビッグバン」に分類される。フラット分類では、ラベル階層の構造を無視し、階層のリーフノード同士を区別するように単一の分類子をトレーニングし、試験時間にルートからリーフまでの経路上に存在する全てのラベルを所与のインスタンスに割り当てる。このトップダウン法とも呼ばれる「ローカル」法では、トレーニング中にラベル階層を利用する方法が３つ存在する。「ノード当たりのローカル分類子」では、階層のノード毎に別個の二項分類子がトレーニングされるのに対し、「親ノード当たりのローカル分類子」では、階層の非リーフノード毎に別個の多クラス分類子がトレーニングされる。これまで、研究者らは、多クラス分類子をレベル毎にトレーニングすることによって、階層形態で存在するラベル間の関係も利用してきた。「ローカル」法の全ての変種では、レベルｉにおける推論が、分類子がｉ−１番目のレベルで行う予測に依存し、すなわち分類子が階層の上位レベルで誤り（例えば、又はエラー）を犯した場合には、このエラーが階層内で下向きに伝播される。グローバル法では、異なるローカル分類子の代わりに、トレーニング中にラベル階層を考慮する単一の複雑なモデルをトレーニングすることが目的である。本開示は、分類のためには、グローバル法と同様に単一のシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）分類モデルのトレーニングを実行し、テストインスタンスではローカル法と同様のトップダウン方式でラベルを予測する。

さらに、スロット充填をシーケンスラベリング問題として処理することもできる。本開示のスロット充填法では、システムが、既存の研究活動では見られないこともある単語とスロットとの間の１対多のマッピングを可能にする。

さらに、過去にはチケット分類の研究も行われていた。しかしながら、従来の方法では、適切な領域専門家に自動的にチケットを割り当てることによってチケット解決時間を短縮するか、或いは過去に解決されたチケットに基づいて解決ステップを推奨するかのいずれかであった。対照的に、本開示では、ラベル階層を使用してチケットを転送する。システムは、モデルが信頼性の低い予測を行った時に質問を行う方法も実装する。従って、本開示のシステムは、モデルの信頼性のみに依拠するのではなく、モデルの信頼性と共にスロット充填法（又はモデル）を実行して、ユーザによって与えられた情報が正しいラベルシーケンスに到達するのに十分なものであるかどうかをチェックする。

開領域会話システムを形成するためにエンコーダ−デコーダフレームワーク及び強化学習に基づく方法を使用していた研究活動もある。このような方法は、ユーザとサポートスタッフとの間で行われる複数ターンの会話をヘルプデスクシステムからのデータではなく入力データとして捉える。このようなシステムは、サポートスタッフの真似をすることを学習し、時にはユーザに質問も行う。しかしながら、本開示のフレームワークでは、システムがクラスを予測できず（すなわち、予測信頼性が所定の信頼性スコア／所定の閾値よりも低く又は高く）、スロット充填モデルがユーザの発話における関連情報の存在を検出できない場合にのみ、システムがユーザに質問を行う。

通常、ユーザは、典型的な問題記述のために、またチケットを上げるために、チケットが適切なサポート要員に転送されるように問題記述と共にカテゴリ（ラベルとも呼ばれる）の組を提供する必要がある。全ての利用可能なラベルの組は、領域専門家によって高さｈのツリーである階層Ｈの形で配置される。本開示は、このクラス階層Ｈを半順序集合（Ｃ、＜）にわたって定め、ここでのＣ＝{ｃ_root，ｃ₁，ｃ₂，．．．ｃ_n}は、利用可能なラベルの組であり、＜は、以下の制約を満たすＰＡＲＥＮＴ＿ＯＦの関係である。
ｃ_rootはＨのルートである
非対称的：

非反射的：

推移的：

図１Ａには、クラス階層の一部のビューを示す。ここでは、２つの異なる親の下で同じラベルｃ_iが発生することもあり、例えば地理のリストはこの階層のラベルでもあり、これらの地理の多くは、例えばｘｘｘなどの同じ下位レベルのラベルを有する。本開示のシステムは、クラスツリーの個々のノード間のこのような関係にかかわらず、ラベルの一部の繰り返しを要求できるツリーとしてラベル階層を体系化又は構造化する。チケットを適切なサポート要員に転送するには、ユーザがクラス階層Ｈ内の全てのレベルからのラベルを関連付ける必要があり、すなわちチケットｄｉに割り当てられる階層ラベル（Ｙ_i⊂Ｃ）は、クラス階層Ｈのルートノードからリーフノードまでの経路と呼ぶことができる。

本開示では、ユーザが（「問題記述」とも呼ばれる）チケット記述を提供した後に、与えられたチケット記述ｄ_iの最終的な階層ラベルＹ_iに到達するために、必要であればユーザにいくつかの質問を行う対話型ヘルプデスクシステム及び方法を提供する。チケット記述は、ユーザが直面している問題についての自然言語での主張であり、これは一連の単語、すなわち

である。本開示は、システムの機械学習モデルが過去のチケットデータＤ＝｛（ｄ₁，Ｙ₁），（ｄ₂，Ｙ₂），…，（ｄ_m，Ｙ_m）｝から学習を行うと予想する。さらに、システムは、適切なラベル階層の形態で問題を理解した後に、ユーザにわずかなセルフサービスステップを提供すると予想される。ユーザは、セルフサービスステップに従うことによって問題を解決できない（又は解決したいと望まない）場合、システムに自分に代わってチケットを上げるように求める。上述した表１には、これらの質問をどのように行えば、我々がチケット記述（ｄ_i）に対してラベル階層を正しく判断する役に立つことができるかを示す。

次に、図全体を通じて同様の参照文字が常に対応する特徴を示す図面、具体的には図１Ａ〜図７に好ましい実施形態を示し、これらの実施形態を以下の例示的なシステム及び／又は方法の文脈で説明する。

図１Ａに関連する図１Ｂには、本開示の実施形態による、問題記述の単語を処理して知的にクエリを識別し、ユーザから応答を取得してユーザの代わりに自動的にチケットをロギングするシステム１００の例示的なブロック図を示す。システム１００は、「会話に基づくチケットロギングシステム」又は「自動会話型ヘルプデスクシステム」と呼ぶこともでき、以下ではこれらを同義的に使用する。ある実施形態では、システム１００が、１又は２以上のプロセッサ１０４と、（単複の）通信インターフェイス装置又は入力／出力（Ｉ／Ｏ）インターフェイス１０６と、１又は２以上のプロセッサ１０４に動作可能に結合された１又は２以上のデータ記憶装置又はメモリ１０２とを含む。１又は２以上のプロセッサ１０４は、１又は２以上のソフトウェア処理モジュール及び／又はハードウェアプロセッサとすることができる。ある実施形態では、ハードウェアプロセッサを、１又は２以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタルシグナルプロセッサ、中央処理装置、状態機械、論理回路、及び／又は動作命令に基づいて信号を操作するいずれかの装置として実装することができる。（単複の）プロセッサは、数ある能力の中でも特に、メモリに記憶されたコンピュータ可読命令をフェッチして実行するように構成される。ある実施形態では、装置１００を、ラップトップコンピュータ、ノートブック、ハンドヘルド装置、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどの様々なコンピュータシステムに実装することができる。

（単複の）Ｉ／Ｏインターフェイス装置１０６は、例えばウェブインターフェイス及びグラフィカルユーザインターフェイスなどの様々なソフトウェア及びハードウェアインターフェイスを含むことができ、例えばＬＡＮ、ケーブルなどの有線ネットワーク、及びＷＬＡＮ、セルラー又は衛星などの無線ネットワークを含む様々なネットワークＮ／Ｗ及びプロトコルタイプ内の複数の通信を容易にすることができる。ある実施形態では、（単複の）Ｉ／Ｏインターフェイス装置が、複数の装置を互いに又は別のサーバに接続するための１又は２以上のポートを含むことができる。

メモリ１０２は、例えばスタティックランダムアクセスメモリ（ＳＲＡＭ）及びダイナミックランダムアクセスメモリ（ＤＲＡＭ）などの揮発性メモリ、及び／又はリードオンリメモリ（ＲＯＭ）、消去可能なプログラマブルＲＯＭ、フラッシュメモリ、ハードディスク、光学ディスク及び磁気テープなどの不揮発性メモリを含む、当業で周知のいずれかのコンピュータ可読媒体を含むことができる。ある実施形態では、メモリ１０２に、限定するわけではないが、ラベル、問題記述及び対応するチケットなどを含むことができるデータベース１０８を記憶することができる。具体的に言えば、ラベルは、１又は２以上のカテゴリ／領域、及びデータベース１０８に記憶されている関連するこれらの関係に対応することができる。ある実施形態では、メモリ１０２が、１又は２以上のハードウェアプロセッサ１０４によって実行された時に本明細書で説明する方法を実行する１又は２以上の技術（例えば、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデル、Ｓｅｑ２Ｓｅｑスロット充填モデル、長短期メモリ（ＬＳＴＭ）技術を含む双方向再帰ニューラルネットワーク（ＲＮＮ）など）を記憶することができる。メモリ１０２は、本開示のシステム及び方法によって実行される各ステップの（単複の）入力／出力に関する情報をさらに含むことができる。

図１Ｂに関連する図２には、本開示の実施形態による、問題記述の単語を処理して知的にクエリを識別し、ユーザからの応答を取得してユーザの代わりに自動的にチケットをロギングするシステムのフレームワークの例示的なブロック図を示す。具体的に言えば、図２には、図１Ｂのシステム１００の様々なコンポーネントの高次概要を示す。これらのコンポーネントは、２つのディープニューラルネットワークモデル、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデル（ψ）及びＳｅｑ２Ｓｅｑスロット充填モデル（γ）を含む。モデルψは、チケット記述／問題記述ｄ_iを入力シーケンスとして捉え、クラス階層Ｈの一連のノード、すなわちＹ_iを出力する。実際上、このモデルは、出力シーケンスの全てのタイムスタンプにおいて（すなわち、全てのカテゴリレベルにおいて）分類モデルとして機能する。

このモデルによって注釈付けされるカテゴリは、単独では精度の面でユーザ予測に及ばない（以下の段落で説明する）。この原因は、上述したような不当に（又は誤って）ラベル付けされたデータ、及びチケット記述における情報の紛失にあると考えることができる。従って、正しいラベルが付与された過去のチケットデータを獲得することは困難であり、本開示は、本明細書で説明するシステム及び方法によってこれを達成しようと目論むものである。従って、上記を達成するために、システム１００は、第１モデルψの（信頼性スコアとも呼ばれる）信頼性が低い時には、常に上記の表１に示すような質問をユーザに行う。以下、どのような質問を行うべきであるかについての詳細を示すことができる。

どのような質問を行うべきか：システム１００は、どのような質問を行うべきであるかを決定するために、全ての候補クラスに関する確認のための質問を行う必要があると想定する。例えば、表１に示すｄ_iの例に照らせば、本発明のシステムは、２レベルの分類（内部ＩＴ＜電子メールサービス）後に、全ての電子メールサービスについて「どの電子メールを使用していますか？」との質問を行うべきである。しかしながら、例えば表１のｄ₂のように元々のチケット記述が電子メールクライアントに関する情報を含んでいる場合、システムはこの質問を行わずに、さらに次のレベルの分類に進むべきである。システム１００は、Ｓｅｑ２Ｓｅｑスロット充填モデルγの使用を実装してこのような情報が既に存在するかどうかを判定し、対応する質問を行うべきではない。この目的は、既にチケット記述に存在している何らかの情報を求めるという面倒なユーザ体験を避けるためであり、例えば表１のチケット記述ｄ₂に対して質問「Ｑ１」を行うことを避けるためである。

モデルγは、階層Ｈ内の考えられる次のクラスの情報に対応する情報（スロット）がｄ_iに存在していることチェックするために、所与の問題記述ｄ_iについて１回実行される。このような情報が存在する場合、このレベルの分類に関する決定を行い、モデルΨの次のレベルの分類に進む。一方で、このような情報が存在しない場合、システムは、このレベルの全ての考えられるクラスに関する質問、すなわち「使っているのはＬｏｔｕｓＮｏｔｅｓですか？、Ｏｕｔｌｏｏｋですか？、．．．」という質問を行う。この結果、モデルγは、チケット記述に既に存在する情報に関する質問をシステム１００が避けるのに役立つ。なお、モデルγは、モデルψのいずれかのレベルにおける分類の信頼度が低い時にのみユーザに（単複の）質問を行う。本明細書では、この方法を「スロット充填支援型質問実行（ＳＦＡＱＡ）」と呼ぶことができる。

モデルγのためのトレーニングデータ：スロット充填モデルγのためのトレーニングデータは直ぐに利用することができず、従って過去のチケットデータのみに基づいてシステムを実行させる際には障害（ｒｏａｄ−ｂｌｏｃｋ）となる。従って、本開示の実施形態は、システム及び関連する方法が、モデルψによって高い信頼性で分類されたチケットのアテンション重み（ａｔｔｅｎｔｉｏｎｗｅｉｇｈｔｓ）に基づいてトレーニングデータを生成できるようにする。以下では、本明細書で説明する実施形態をさらに理解できるように、本開示において提供するシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）学習の説明を行う。

シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）学習：Ｓｅｑ２Ｓｅｑ学習フレームワークは、ニューラル機械翻訳（ＮＭＴ）の文脈で提案されており、テキスト要約、イメージキャプショニング、自然言語生成（ＮＬＧ）などの多くの異なる分野で幅広く使用されている。一般に、Ｓｅｑ２Ｓｅｑモデルは、エンコーダ（Ｅ）及びデコーダ（Ｄ）を含む。エンコーダ及びデコーダは、再帰型ニューラルネットワーク（ＲＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、又はこれらの組み合わせを使用して実装することができる。本開示では、Ｅ及びＤの両方にＲＮＮを使用するＳｅｑ２Ｓｅｑフレームワークを検討する。ＲＮＮベースのエンコーダ_Eは、可変長の記号入力シーケンスｘ＝（ｘ₁，ｘ₂，…，ｘ_T）を固定長のベクトル表現ｃ＝ｇ_E（｛ｈ₁，…，ｈ_T｝）に変換する。ｈ_t＝ｆ_E（ｈ_t-1，ｘ_t）の場合、（ｈ_t∈Ｒ^m）は、時間ステップｔにおけるＲＮＮの隠れ状態（ｈｉｄｄｅｎｓｔａｔｅ）を表し、ｆ_E及びｇ_Eは非線形関数である。ＩｌｙａＳｕｔｓｋｅｖｅｒ、ＯｒｉｏｌＶｉｎｙａｌｓ及びＱｕｏｃＶ．Ｌｅによる「ニューラルネットワークを用いたシーケンスツーシーケンス学習（ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅＬｅａｒｎｉｎｇｗｉｔｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ）」、ＣｏＲＲａｂｓ／１４０９．３２１５（２０１４）によれば、ｃ＝ｈ_T＝ｇ_E（｛ｈ₁，…，ｈ_T｝）である。ＲＮＮベースのデコーダＤは、標的記号シーケンスｙ＝（ｙ₁，ｙ₂，…，ｙ_T’）を時間ステップ毎に１つ生成し、

であり、この式において、ｓ_t＝ｆ_D（ｓ_t-1，ｙ_t-1，ｃ）であり、ｎは、Ｄの語彙における総記号数であり、Ｗは、各時間ステップにおける標的記号にわたる確率分布を生成するために使用される重み行列である。

本開示では、システム及び方法が、ｆ_E及びｆ_Dに長短期メモリ（ＬＳＴＭ）を使用する。Ｅ及びＤネットワークは、以下の対数尤度を最大化することによってまとめてトレーニングされ、

ここでのθは、Ｅ及びＤネットワークの全てのトレーニング可能なパラメータを表し、（ｘ_n，ｙ_n）は、ソース記号シーケンスと対応する標的記号シーケンスとの対であり、Ｎは、このような対の総数である。

アテンションを用いたシーケンスツーシーケンス学習フレームワーク：従来の研究活動では、復号プロセス中の全ての時間ステップにおいて同じソース表現ｃを使用することは、ＮＭＴシステムの性能を改善する上で大きな障害であることが示されている（例えば、ＤｚｍｉｔｒｙＢａｈｄａｎａｕ、ＫｙｕｎｇｈｙｕｎＣｈｏ、及びＹｏｓｈｕａＢｅｎｇｉｏ、２０１４、「整列及び翻訳のための共同学習によるニューラル機械翻訳（ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｂｙＪｏｉｎｔｌｙＬｅａｒｎｉｎｇｔｏＡｌｉｇｎａｎｄＴｒａｎｓｌａｔｅ）」、ＣｏＲＲａｂｓ／１４０９．０４７３、２０１４）。

さらに、アテンションメカニズムを用いた双方向ＲＮＮ（ＢｉＲＮＮ）も提案されており（例えば、Ｍ．Ｓｃｈｕｓｔｅｒ及びＫ．Ｋ．Ｐａｌｉｗａｌ、１９９７年１１月、「双方向再帰型ニューラルネットワーク（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）」、Ｔｒａｎｓ．Ｓｉｇ．Ｐｒｏｃ（１９９７年１１月）を参照）、ここでは、入力シーケンスが順方向ＲＮＮ

によって所与の順序

に処理され、逆方向ＲＮＮ

によって逆順

に処理される。本発明者らは、ここでＤ及びＥの時間ステップにインデックスを付けるためにｉ及びｊをそれぞれ使用する。この時点で、隠れ状態は

であり、ここでの

及び

は、

及び

によって記号ｘ_jを処理した後にそれぞれ取得された状態である。時間ステップ毎に同じ表現ｘを使用するのではなく、標的シーケンス内の次の記号をｐ（ｙ_i＝１／ｙ_i-1，…，ｙ₁，ｘ）＝ｇ’（ｓ_i，ｙ_i-1，ｃｉ）として予測するためにｘの関連部分に注意を払うことによって、復号プロセス中に時間ステップｉ毎に異なるｃ_iを使用し、式中のｓ_i＝ｆ（ｓ_i，ｙ_i-1，ｃ_i）である。

ここでは、

が、Ｅから取得された状態の加重和である。時間ステップｉの復号中に状態ｈ_jに割り当てられる重みは

によって表され、アラインメントモデルを用いて計算される（（例えば、ＤｚｍｉｔｒｙＢａｈｄａｎａｕ、ＫｙｕｎｇｈｙｕｎＣｈｏ、及びＹｏｓｈｕａＢｅｎｇｉｏ、２０１４、「整列及び翻訳のための共同学習によるニューラル機械翻訳（ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎｂｙＪｏｉｎｔｌｙＬｅａｒｎｉｎｇｔｏＡｌｉｇｎａｎｄＴｒａｎｓｌａｔｅ）」、ＣｏＲＲａｂｓ／１４０９．０４７３、（２０１４）を参照。−以下、Ｄｚｍｉｔｒｙ他又は従来のアラインメントモデルと呼ぶことができる）。アラインメントモデルは、エンコーダ状態ｈ_jとデコーダ状態ｓ_j-1との間の類似性スコア、すなわちｅ’_ij＝ａ’（ｓ_i，ｈ_j）を計算する。アラインメントモデルは、フィードフォワードニューラルネットワーク（ＦＮＮ）を用いて実装され、Ｅ及びＤと同時にトレーニングされる。本開示では、システム及び方法が、ｓ_i-1の代わりにＤの現在の隠れ状態ｓｉを使用したスコアリング関数、すなわちｅ’_ij＝ａ’（ｓ_i，ｈ_j）を使用する。

図１Ａ〜図２に関連する図３は、本開示の実施形態による図１Ｂのシステム１００を使用した本開示の実施形態による、問題記述の単語を処理してクエリを知的に識別し、ユーザからの応答を取得してユーザの代わりに自動的にチケットをロギングする方法の例示的なフロー図である。ある実施形態では、（単複の）システム１００が、１又は２以上のハードウェアプロセッサ１０４に動作可能に結合された１又は２以上のデータ記憶装置又はメモリ１０２を含み、これらのデータ記憶装置又はメモリ１０２は、１又は２以上のプロセッサ１０４が方法のステップを実行するための命令を記憶するように構成される。以下、図１Ｂのシステム１００のコンポーネント、図２のシステム１００のコンポーネント、及び図３に示すフロー図を参照しながら本開示の方法のステップについて説明する。

本開示の実施形態では、ステップ３０２において、１又は２以上のハードウェアプロセッサ１０４が、問題記述を含む入力データを受け取る。本開示の実施形態では、ステップ３０４において、１又は２以上のハードウェアプロセッサ１０４が、問題記述の各単語を逐次的に処理してクラスラベルの組を出力するシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルを実行する。組内のクラスラベルは、階層的に配置される。本開示の実施形態では、クラスラベルの組の各クラスラベルに信頼性スコアが割り当てられる。ある実施形態では、各単語に、対応するクラスラベルに基づくアテンション重みが割り当てられる。本開示の実施形態では、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルが、１又は２以上の領域に特化した履歴データを使用してトレーニングされる。ある実施形態では、この履歴データが、メモリ１０４に含まれるデータベース１０８に記憶される。

図４に示すように、システム１００は、シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルをトレーニングするために、ＬＳＴＭセルを含む双方向ＲＮＮをエンコーダＥとして実装し、ＬＳＴＭセルを含むＲＮＮをデコーダＤとして実装する。具体的に言えば、図１Ａ〜図３に関連する図４には、本開示の実施形態例による図１Ｂのシステム１００によるラベルの階層的分類のためのシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）モデルを示す。Ｅでは、全ての単語ｗ_iをＷＥＬ_E（単語埋め込み型レイヤエンコーダ）に通して、対応するベクトル表現ｖ_wiを取得する。ＷＥＬ_Eは、サイズ（｜Ｖ_E｜，ｄ_E）の行列であり、ここでの｜Ｖ_E｜は、データセットＤにおける一意の単語数であり、ｄ_Eはｖ_wiの長さである。最初に、Ｄにおいて（当業で周知の）ｗｏｒｄ２ｖｅｃ技術を使用して各単語ｗ_iのｖ_wiを取得し、これをトレーニング中に更新する。Ｅがｄ_iを処理した後に、

を使用してデコーダの初期状態を初期化する。Ｄのトレーニングは、教師強制メカニズムを使用して行われ、すなわちラベルｃ_iのベクトル表現ｖ_ciを明確に受け渡し、ｃ_i∈Ｙ_i⊂Ｃ，ｔｏＤである。ＷＥＬ_Eとは異なり、ＷＥＬ_D（単語埋め込み型レイヤデコーダ）は、ランダムに初期化されてトレーニング中に更新される。Ｄの語彙はＶ_Dによって表され、Ｖ_D＝｛＜ｅｏｓ＞，＜ｐａｄ＞｝∪Ｃである。時間ステップｉ＋１において、ｖ_ciと共にアテンションベクトルａ’_iが入力としてＤに供給され、ａ’_i＝ｔａｎｈ（Ｗ_c［ｃ_i：ｈ_i］）として計算される。

例えば、「ラップトップ上でロータスノートを構成する方法」というチケット記述に対応するシーケンス内の各ラベルのベクトル表現（＜ｓｔａｒｔ＞，ＩｎｔｅｒｎａｌＩＴ，ＥｍａｉｌＳｅｒｖｉｃｅｓ，ＬｏｔｕｓＮｏｔｅｓ，Ｃｏｎｆｉｇｕｒａｔｉｏｎ／Ｉｎｓｔａｌｌａｔｉｏｎ，＜ｅｏｓ＞）が１つずつデコーダに受け渡される。Ｅ及びＤネットワークは、（当業で周知の）オプティマイザを使用してまとめてトレーニングされる。

推論：Ｅ及びアテンションメカニズムは、トレーニング及び推論において同様に機能する。トレーニングとは異なり、時間ステップｉ＋１におけるＤへの入力及びａ’_iは、時間ステップｉにおいて最も高い確率で予測されるラベルである。システム１００は、ｄ_iの最終的なラベルシーケンスに到達するために、本明細書で説明した上記の方法を実行するために実行される、メモリ１０４に含まれた（当業で周知の）ビーム探索法を実行する。

本開示の実施形態では、ステップ３０６において、１又は２以上のハードウェアプロセッサ１０８が、階層的に配置された各クラスラベルの組に関する問題記述に含まれる情報の存在又は不在を決定するＳｅｑ２Ｓｅｑスロット充填モデルを実行する。ある実施形態では、問題記述に含まれる情報の存在又は不在のレベルが、クラスラベルの組の各クラスラベルに割り当てられた信頼性スコアに基づく。なお、Ｓｅｑ２Ｓｅｑスロット充填モデルのためのトレーニングデータは、１又は２以上のチケットの１又は２以上の問題記述と、１又は２以上の領域固有の履歴データに含まれる既に訂正された関連するクラスラベルとに基づいて生成され、既に訂正された関連するクラスラベルは、システム１００に含まれてシステム１００によって実行されるシーケンスツーシーケンス（Sｅｑ２Ｓｅｑ）階層分類モデルによって予測される。１つの実施形態例では、生成されたＳｅｑ２Ｓｅｑスロット充填モデルのためのトレーニングデータが、メモリ１０４に含まれるデータベース１０８に記憶される。

以下、本開示の実施形態をさらに良く理解できるように、シーケンスラベリング問題としてのスロット充填、及びＳｅｑＳｅｑスロット充填モデルのためのトレーニングデータ生成について説明する。

スロット充填は、ソースシーケンスと標的シーケンスとが等しい長さである、すなわち

であるシーケンスラベリング問題としてモデル化される。上述したように、既存の従来の作業とは異なり、本開示ではソース記号とターゲット記号との間に１対多のマッピングが存在する。例えば、以下の表２では、「ｎｏｔｅｓ」という単語が複数のラベル｛ＩｎｔｅｒｎａｌＩＴ、ＥｍａｉｌＳｅｒｖｉｃｅｓ、ＬｏｔｕｓＮｏｔｅｓ｝にマッピングされている。従って、システム１００は、デコーダの時間ステップ毎にマルチラベル分類子を実装する（例えば、以下で詳細に説明する図５を参照）。具体的には、図１Ａ〜図４に関連する図５に、本開示の実施形態例による図１のシステム１００によって実装される例示的なシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）スロット充填モデルを示す。

スロット充填モデル（γ）のためのトレーニングデータ（Ｄ’）生成：本発明のシステムは、モデルψを使用してスロット充填のためのトレーニングデータセットＤ’⊂Ｄを選択して注釈を付ける。本開示は、「理想的には、分類モデルψは、クラス階層Ｈの各レベルにおける正しいクラスラベルの識別に異なる情報（単語）の組を使用すべきである」ことを強調する。図５に示す例によれば、「ｐｌｅａｓｅｒｅｓｅｔｍｙＩｎｄｉａｄｏｍａｉｎｐａｓｓｗｏｒｄ（私のインドのドメインパスワードをリセットして下さい）」というチケット記述について、モデルψは、一連の単語の組｛｛Ｉｎｄｉａ，ｄｏｍａｉｎ，ｐａｓｓｗｏｒｄ｝，｛Ｉｎｄｉａ｝，｛Ｉｎｄｉａ｝，｛ｒｅｓｅｔ，ｐａｓｓｗｏｒｄ，ｄｏｍａｉｎ，ｐｌｅａｓｅ｝｝に基づいてラベルシーケンス｛Ｉｎｔｅｒｎａｌ＿ＩＴ，ＴＣＳ＿Ｄｏｍａｉｎ，Ｉｎｄｉａ＿Ｄｏｍａｉｎ，Ｕｓｅｒ＿Ａｃｃｏｕｎｔ＿Ｉｓｓｕｅｓ＿Ｉｎｄｉａ｝をそれぞれ予測しているので、このことが部分的に当てはまる。具体的には、図１Ａ〜図５に関連する図６に、本開示の実施形態例による「ｐｌｅａｓｅｒｅｓｅｔｍｙＩｎｄｉａｄｏｍａｉｎｐａｓｓｗｏｒｄ（私のインドのドメインパスワードをリセットして下さい）」というユーザクエリのアテンションヒートマップを示す。上記のユーザクエリでは、チケット記述ｄ_iの単語ｗ_iと予測されるラベルとの間の関係が以下のアテンションの値に基づいて形成されており、

ここでのα_ijは、時間ステップｉにおいてラベルを予測している間にψが単語ｗ_jに与えたアテンションの値を表す。換言すれば、１つの実施形態例では、問題記述における単語と対応する予測されたクラスラベルとの間の関係が、対応する割り当てられたアテンション重みに基づく。

時には、ψが、関連する単語に比べて無関係な単語に注意を払うことによってラベルを予測することも観察される。例えば、図６では、モデルが、単語の組｛ｈｏｗ，ｃｏｎｆｉｇｕｒｅ｝に基づいてラベル「Ｃｏｎｆｉｇｕｒａｔｉｏｎ／Ｉｎｓｔａｌｌａｔｉｏｎ」を予測しており、この場合の「ｈｏｗ」は、予測に関連する単語ではない。具体的には、図１Ａ〜図６に関連する図７に、本開示の実施形態例による「Ｈｏｗｔｏｃｏｎｆｉｇｕｒｅｌｏｔｕｓｎｏｔｅｓｏｎｔｈｅｌａｐｔｏｐ？（ラップトップ上でロータスノートを構成する方法は？）」というユーザクエリのアテンションヒートマップを示す。システム１００は、チケット記述／問題記述における全ての無関係な単語に記号「０」をタグ付けし、関連する単語に、例示的な式としての以下の方程式（１）に従って上記の表２に示すようなラベルをタグ付けする。換言すれば、問題記述からの各単語をステップ３０４に示すように逐次的に処理するステップは、１又は２以上の関連する単語及び１又は２以上の無関係な単語を識別するステップを含む。本開示では、システム１００が、方程式（１）のストップワードを考慮しない。システムは、Ｄからチケット記述ｄ_iのみを取り上げ、ここではψによって行われた予測が正しく、ψはこれに対して確信を持っており、すなわち対数尤度スコアが閾値ｔｈ_asを上回る。本開示では、ラベルｃ_pに複数の単語がマッピングされるのを避けるために、アテンションスコア

に基づく単語の数ｗｃと閾値ｔｈ_asの上位境界ｃ_pを使用して以下のように実装し、

（１）
ここでのｔｈ_as及びｗ_cは、検証データを使用して微調整される。

簡単に言えば、（ｉ）問題記述に含まれる単語の組に関連するアテンション重みの総和が閾値アテンション重み以上であり、かつ（ｉｉ）単語の組の濃度が単語カウント閾値よりも低い時に、対応するチケットの問題記述に含まれる単語に１又は２以上のラベルが割り当てられる。以下は、本開示の実施形態をさらに良好に理解するための、モデルγのトレーニングの例示的な説明である。

トレーニングモデルγ：システムは、本発明者らが階層的分類に使用していたものと同様のＬＳＴＭセルを含む双方向ＲＮＮをＥとして実装する。Ｄの初期状態は、ｄ_iを順方向に処理することによって取得されるＥの最終状態を用いて初期化され、すなわち

である。図４に示すように、システム１００は、復号の各時間ステップｉにおいてＥの隠れ状態ｈ_iのみを入力としてデコーダに渡す。具体的に言えば、図４には、本開示の実施形態例による図１のシステム１００が実装する例示的なＳｅｑ２Ｓｅｑスロット充填モデルを示す。図４の

は、時間ステップｉにおけるｄ_iを表す。システム１００は、ソフトマックスに代わってｄ_iの各単語に対応する複数のラベルを予測するために、Ｓ字非線形性（ｓｉｇｍｏｉｄｎｏｎｌｉｎｅａｒｉｔｙ）を使用して、以下の方程式（２）に示すように損失関数を最小化する。方程式（２）では、Ｔ’がソース及び標的シーケンス長であり、ＮがＤ’のトレーニングインスタンスの総数であり、ｓｔ_piが、時間ステップｉにおけるグラウンドトゥルースラベルのマルチホットベクトルを表し、ｚ_i＝ｓｉｇｍｏｉｄ（Ｗ_sｔａｎｈ［ｂ_i；ｈ_i］）であり、この場合のｚ_i∈Ｒ^|VD|は、対応する予測リアル値ベクトルを表し、Ｖ_D＝｛０，＜ｐａｄ＞，＜ｕｎｋ＞｝∪Ｃが、デコーダＤの語彙を表す。

（２）

推論：推論段階中には、システム１００がユーザの問題記述ｄ_iをエンコーダに受け渡し（図２を参照）、以下の方程式（３）で述べる条件を満たすデコーダの各時間ステップｉにおける全てのラベルが収集される。

（３）

ｉｄｅｎｔｉｆｉｅｄ＿ｓｌｏｔｓは、γがｄ_iから識別した全ての固有のスロットを含む。例えば、図４では、γが、「Ｈｏｗｔｏｃｏｎｆｉｇｕｒｅｌｏｔｕｓｎｏｔｅｓｏｎｔｈｅｌａｐｔｏｐ？（ラップトップ上でロータスノートを構成する方法は？）」という問題記述に対応する固有のスロット｛Ｏ，Ｃｏｎｆｉｇｕｒａｔｉｏｎ／Ｉｎｓｔａｌｌａｔｉｏｎ，Ｉｎｔｅｒｎａｌ＿ＩＴ，Ｅｍａｉｌ＿Ｓｅｒｖｉｃｅｓ，Ｌｏｔｕｓ＿Ｎｏｔｅｓ｝を識別している。方程式（３）では、ｔｈ_s∈Ｒが、全ての時間ステップｉにおけるＶ_Dの全てのスロットラベルについてγが予測するスロットスコアの閾値である。ｐｏｓｉｔｉｏｎ［ｚ_i≧ｔｈ_s］は、時間ステップｉにおける指数の組を戻し、ここでは、予測されるスコアが所定の閾値、すなわちｔｈ_sよりも大きい。

本開示の実施形態では、ステップ３０８において、１又は２以上のハードウェアプロセッサ１０８が、問題記述に含まれている情報の存在又は不在に基づいて、履歴データを使用してクエリの組を逐次的に識別して、クエリの組に対応する応答の組を取得する。換言すれば、クラスラベルが低い信頼性スコアを有している場合でも、システム１００は質問を識別して、ユーザに応答を提供するように要求する。或いは、クラスラベルの組からの複数のクラスラベルの信頼性スコアが所定の信頼閾値よりも低い又は高い時にクエリの組が識別される。

以下は、上記のモデルがどのようにユーザに質問を行う必要があるかについての例である。

質問の実行：上位５つの予測のリコールが９０％として観察されている（表７を参照）ので、システム１００は、全てのベンチマークについて上位Ｋ個のオプションにｋ＝５を使用又は設定する。

質問なし（ＮＱ）：この方法では、システムがユーザに質問を行わず、カテゴリ分類モデルが行った予測のみによって進む。

全ての質問の実行（ＡＱＡ）：このスキームでは、モデル（ψ）のあらゆるレベルにおいて、上位ｋ個のオプションが複数の固有のラベルを含む場合、システム１００がユーザに質問を行う。ベンチマークの一部では、例えば以前の閾値よりも小さな対数尤度を有するオプションを拒絶した後に取得された上位ｋ個のオプションがフィルタ処理されている。

例えば、以下の表３に示すように、レベル１及び２における全ての上位５つのオプションは、それぞれが同じ予測ラベル「Ｉｎｔｅｒｎａｌ＿ＩＴ」及び「Ｅｍａｉｌ＿Ｓｅｒｖｉｃｅｓ」を有する。この結果、システムは、これらのレベルでは質問を行わずに次のレベルに進む。レベル３において、「Ｚｉｍｂｒａ／ｔｈｕｎｄｅｒｂｉｒｄ」が３回予測され、「Ｏｕｔｌｏｏｋ」及び「Ｌｏｔｕｓ＿Ｎｏｔｅｓ」がそれぞれ１回予測されている。従って、システム１００は、例えば「Ｚｉｍｂｒａ／ｔｈｕｎｄｅｒｂｉｒｄを使用しますか？」などの全てのカテゴリに関連する二択質問をユーザに行い、ユーザの回答に基づいてラベルを選択する。次のレベルでは、残りのオプションがリストから脱落し、例えばユーザが「Ｚｉｍｂｒａ／ｔｈｕｎｄｅｒｂｉｒｄ」を選択した場合、レベル４では第２及び第３のオプションが完全に脱落する。具体的に言えば、表３に、ψが行った上位５つの予測を示しており、１つの実施形態例では、ここでのＡ、Ｂが、ラベル「Ｉｎｔｅｒｎａｌ＿ＩＴ」及び「Ｅｍａｉｌ＿Ｓｅｒｖｉｃｅｓ」を示す。

本開示は、ユーザに質問を行うことを再び参照してスロット充填支援型質問実行（ＳＦＡＱＡ）について説明し、これを実装する。このスキームでは、既にユーザがチケット記述／問題記述において関連する情報を提供していた場合にはユーザへの質問を回避することが目的であり、例えば上記の表１を参照すると、システム１００は、チケットｄ２について質問Ｑ−１を行うことを控える。モデルψにおいてビーム探索法を実行した後に、いずれかのクラス階層レベル（又は出力シーケンスのタイムスタンプ）において上位ｋ個のオプション（又はフィルタ処理された上位ｋ個のオプション）内に複数のラベルが存在する場合、システム１００は、スロット充填モデルの出力を使用して、このようなオプションから正しいラベルを識別する。この場合、スロット充填モデルを起動／実行して、候補オプションのうちのどのオプションがチケット記述内に存在するかに関する情報を識別する。このような情報がチケット内に存在しない場合、システムはユーザに質問を行い、存在する場合には行わない。例えば、以下の表４のチケット（表１のｄ３）では、レベル２において、上位ｋ個のオプションが「Ｓｏｆｔｗａｒｅ」及び「Ｅｍａｉｌ＿Ｓｅｒｖｉｃｅｓ」という２つのラベルを含む。ここでは、スロット充填モデルが、ラベル「Ｅｍａｉｌ＿Ｓｅｒｖｉｃｅｓ」に関連する単語の存在を予測する。この結果、システムは、このレベルではユーザに質問を行わずに次のレベルに進む。注記：図１Ｂのシステム１００は、次のレベルではもはや「Ｓｏｆｔｗａｒｅ」に関連するオプションについて検討しない。以下の表４に、ψが行った上位５つの予測を示しており、ここでのＡ、Ｂは、ラベル「Ｉｎｔｅｒｎａｌ＿ＩＴ」及び「Ｅｍａｉｌ＿Ｓｅｒｖｉｃｅｓ」を示し、Ｏは、無関係な単語に対応する検出されたスロットを示す。

ある実施形態では、ステップ３１０において、ハードウェアプロセッサ１０８が、クエリの組に対する応答の組を逐次的に受け取ると、これらの応答の組に基づいて、クラスラベルの組からの各クラスラベルに関連する信頼性スコアの更新要件を決定する。本開示の１つの実施形態では、ステップ３１２において、システム１００によって決定された更新要件に基づいて、応答の組に基づくクラスラベルの組からの各クラスラベルに関連する信頼性スコアを動的に更新する（ことができる）。ステップ３１２の出力は、更新された信頼性スコアの組である。さらに、ステップ３１４において、ハードウェアプロセッサ１０８は、応答の組及び更新された信頼性スコアの組に基づいて、問題記述に対応するチケットを自動的にロギングする。ある実施形態では、システム１００が、逐次的に受け取られた応答と、階層的に配置されたクラスラベルの組を使用して更新された信頼性スコアの組とに基づいて、チケットを自動的にロギングする。

結果と考察
ベースライン方法
フィードフォワードネットワーク（λ）を用いたＴＦ−ＩＤＦ：本開示のシステム及び方法は、上記の文献において述べられているように「フラット分類」又は「直接法」とも呼ばれる多クラス分類問題として階層的分類をモデル化した。ここでは、階層Ｈ内の２つの異なる親ノードの下に同じリーフラベルが発生した場合、このリーフラベルは、このモデル内の階層を無視する異なるクラスとして見なされる。この結果、あらゆるリーフノードから階層カテゴリを一意的に識別することができる。これは、最後にソフトマックスを含む２層フィードフォワードニューラルネットワークであり、この場合、ネットワークへの入力は、ユーザクエリｄ_i内に存在する単語ｄｉに対応するｔｆ＿ｉｄｆスコアであり、ターゲットリーフノードは、ｅ_i＝ｓｏｆｔｍａｘ（Ｗ₂＊（ｒｅｌｕ（Ｗ_tf-idf＊ｄ_i(tf-idf)＋ｂ_tf-idf））^T＋ｂ₂）に従って識別され、Ｗ₂は重み行列を表し、ｂ_tf-idf,ｂ₂は、対応するバイアスベクトルを表す。ｅ_iは、リーフノードにわたる確率分布である。モデルλへの入力は、ｄ_p内に存在する単語に対応するｔｆ−ｉｄｆスコアを含むベクトルｄ_i(tf-idf)∈Ｒ^|VE|である。

チケットデータセットのモデル性能
チケットデータセットの説明：このデータセットは、現在使用されているヘルプデスクシステムから採取した対応するラベルを含む過去３ヶ月のチケットデータから成る。以下の表５に、チケット数及び高水準カテゴリの分布を示す。対応するクラス階層Ｈは高さｈ＝４のツリーであり、ツリー内のリーフノードの数は１２７５であり、Ｈツリー内の総ノード数は、ｃ_rootを含む１９１８である。

利用可能なデータを、比率（６０−２０−２０）で３つの部分、すなわち２，４９，６２７（トレーニング）、８２，５３２（検証）、及び８２，９７２（テスト）のチケットにそれぞれ分離／分割した。ここでは、検証データをハイパーパラメータチューニングに使用した。

トレーニングの詳細：当業で周知のｗｏｒｄ２ｖｅｃ法を使用して（スペースによって区切られた）トークンのための単語埋め込みを初期化し、トレーニング中に微調整した。最適化法（例えば、ＤｉｅｄｅｒｉｃＰ．Ｋｉｎｇｍａ及びＪｉｍｍｙＢａ．著、２０１４年、Ａｄａｍ：「確率的最適化方法（ＡＭｅｔｈｏｄｆｏｒＳｔｏｃｈａｓｔｉｃＯｐｔｉｍｉｚａｔｉｏｎ）」、ＣｏＲＲ（２０１４）を参照）を使用して、全てのモデル、すなわち（ψ，λ，γ）について範囲［１ｅ−２，１ｅ−３］から学習速度を選択した。（ψ，γ）におけるＬＳＴＭセルの数及び層の数は、［１００，１５０，２００，２５０，３００］及び研究活動からそれぞれ選択した（例えば、ＭｕｌｃａｈｉｔＡｌｔｉｎｔａｓ及びＣｕｎｅｙｄＴａｎｔｕｇ著、２０１４年、「問題追跡システムにおける機械学習ベースのチケット分類（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＢａｓｅｄＴｉｃｋｅｔＣｌａｓｓｉｆｉｃａｔｉｏｎｉｎＩｓｓｕｅＴｒａｃｋｉｎｇＳｙｓｔｅｍｓ）」、人工知能及びコンピュータサイエンス（ＡＩＣＳ）に関する国際会議議事録、及びＤｚｍｉｔｒｙＢａｈｄａｎａｕ、ＫｙｕｎｇｈｙｕｎＣｈｏ及びＹｏｓｈｕａＢｅｎｇｉｏ著、２０１４、「一致及び変換のための共同学習によるニューラル機械翻訳」、ＣｏＲＲａｂｓ／１４０９．０４７３（２０１４）を参照）。λにおけるセル及び層の数は、［６４，１２８，５１２，１０２４，２０４８，４０９６，８１９２］及び上述した研究活動からそれぞれ選択した。正則化のために、Ｃａｒｌｏｓ他によって記載されているようにドロップアウトを使用した（例えば、ＣａｒｌｏｓＮ、ＳｉｌｌａＪｒ及びＡｌｅｘＡ．Ｆｒｅｉｔａｓ、２００９、「蛋白質機能の階層的予測に対するグローバルモデルナイーブベイズ法（ＡＧｌｏｂａｌ−ＭｏｄｅｌＮａｉｖｅＢａｙｅｓＡｐｐｒｏａｃｈｔｏｔｈｅＨｉｅｒａｒｃｈｉｃａｌＰｒｅｄｉｃｔｉｏｎｏｆＰｒｏｔｅｉｎＦｕｎｃｔｉｏｎｓ）」、２００９年第９回データマイニングＩＥＥＥ国際会議（ＩＣＤＭ’０９））議事録を参照）。閾値の値｛ｔｈ₁，ｔｈ₂，ｔｈ₃，ｔｈ₄，ｔｈ_s，ｔｈ_as，ｗ_c｝は、検証データに基づいて決定した。実験中には、ｔｈ_as＝０．９及びｗ_c＝３を使用した。

性能ベンチマーク：最初に質問を行わない時（ＮＱ）、次に全ての質問を行った時（ＡＱＡ）、最後にスロット充填モデル（γ）を使用して冗長的な質問を行わない、すなわちＳＦＡＱＡの時という異なる設定における２つのモデルλ及びψの精度を示す。精度とは別に、本開示は、以下の表６に尋ねた質問の数も示す。具体的に言えば、表６には、試験データに対する異なるアーキテクチャの性能を示す。

上記の表６の最後の３行には、これらのベンチマークに対するフィルタ処理した（対数尤度の閾値を使用した）上位５つのオプションの影響が観察される。実際のユーザは、ＡＱＡ及びＳＦＡＱＡ法のベンチマーク精度を準備するために質問に答える必要がある。本開示では、チケットの実際のラベルを知っていて全ての質問に正確に回答する模擬ユーザエージェントに基づいて性能ベンチマークを提示した。

ｔｆ−ｉｄｆベースのフィードフォワードネットワーク（λ）は、約６５％の低い精度を示す。しかしながら、このモデルによる（出力ソフトマックス層によって与えられた確率に基づく）上位５つの予測は約９０％のリコールを有し、すなわちこのモデルは、ほとんどのチケットについて誤ったＹ_iの１２７０をきちんと拒絶することができる。全てのＡＱＡベンチマークのように模擬ユーザが回答した全ての質問が正しければ、精度は対応するＮＱベンチマークについてのリコール＠５と同じになる。さらに、ＳＦＡＱＡの場合、スロット充填モデル（γ）がチケット記述内に存在する情報を検出しなければ、誤った分類をもたらさないさらなる質問が行われる。しかしながら、特定のカテゴリに対応する情報の存在を誤って／不正確に予測した場合、システムは、ユーザに質問を行わず、誤った／不正確なＹ_iに関する決定が行われることがある。従って、全てのＳＦＡＱＡベンチマークの精度は、常に対応するＡＱＡベンチマークの精度よりも低い。

モデルλ及びψを用いたスロット充填支援型質問実行（ＳＦＡＱＡ）法を使用した時には、ＡＱＡ法と比べてそれぞれ約１％及び２％の精度を犠牲にして１９．３％及び２２．２％少ない質問が行われた。しかしながら、上位５つのオプションの閾値ベースのフィルタリングを使用した時には、行われた質問の数がＡＱＡ（λ＋上位ｋ個）法に対して５１．７％低下し、精度が８３．９％であることが観察された。また、ＳＦＡＱＡ（ψ＋上位ｋ個＋ｔｈ）では、ＡＱＡ（ψ＋上位ｋ個＋ｔｈ）に比べて約６％少ない質問で１％だけ低い精度が達成されており、これは精度がほとんど低下しない大きな利得である。この結果、本開示は、Ｓｅｑ２Ｓｅｑ階層分類モデルにおいて高アテンション単語を通じて生成されたデータに関してトレーニングされたスロット充填モデルが良好に機能することを実証することができる。

パブリックデータセットに対するモデル性能
パブリックデータセットの説明：本開示は、Ｋａｍｒａｎ他が使用した公的に入手可能なデータセットに対する本明細書で説明した方法のベンチマークも示す（例えば、「ＫａｍｒａｎＫｏｗｓａｒｉ、ＤｏｎａｌｄＥＢｒｏｗｎ他著、２０１７年、ＨＤＬＴｅｘ：「テキスト分類のための階層的深層学習（ＨｉｅｒａｒｃｈｉｃａｌＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎ）」、２０１７年第１６回機械学習及び応用ＩＥＥＥ国際会議（ＩＣＭＬＡ）、３６４〜３７１頁を参照）。このデータセットのクラス階層Ｈ’は、２の高さと１３４のリーフノードとを有していた。このデータセットは、７つの異なる分野に属する４６，９８５件の文書を有しており、各分野は複数の下位分野を有していた。例えば、ｄ_publicが「コンピュータグラフィクス」に関する場合、対応するラベルは｛ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ｝になる。Ｋａｒｍａｎ他による研究活動では、データセットＤｐｕｂｌｉｃが、｛ＷＯＳ−１１９６７、ＷＯＳ−４６９８５、ＷＯＳ−５７３６｝という３つの異なるサブセットに分割され、各サブセットの詳細を以下の表７に示す。具体的に言えば、表７には以下を示す。

トレーニングの詳細：トレーニング中に、１００次元の事前トレーニングされたグローブ埋め込み（例えば、ＪｅｆｆｒｅｙＰｅｎｎｉｎｇｔｏｎ、ＲｉｃｈａｒｄＳｏｃｈｅｒ及びＣｈｒｉｓｔｏｐｈｅｒＤ．Ｍａｎｎｉｎｇ著、２０１４、ＧｌｏＶｅ：「単語表現のためのグローバルベクトル」、ＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＥＭＮＬＰ））を使用して（Ｋａｍｒａｎ他と同様の事前処理後に取得された）トークンのための単語埋め込みを初期化して微調整した。上述した最適化法を使用して、ψ’について範囲［１ｅ−２，１ｅ−３］から学習速度を選択した。（ψ’）におけるＬＳＴＭセルの数及び層の数は、［１００，１５０，２００，２５０，３００］及び研究活動からそれぞれ選択した（例えば、ＭｕｌｃａｈｉｔＡｌｔｉｎｔａｓ及びＣｕｎｅｙｄＴａｎｔｕｇ著、２０１４年、「問題追跡システムにおける機械学習ベースのチケット分類（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＢａｓｅｄＴｉｃｋｅｔＣｌａｓｓｉｆｉｃａｔｉｏｎｉｎＩｓｓｕｅＴｒａｃｋｉｎｇＳｙｓｔｅｍｓ）」、人工知能及びコンピュータサイエンス（ＡＩＣＳ）に関する国際会議議事録、及びＤｚｍｉｔｒｙＢａｈｄａｎａｕ、ＫｙｕｎｇｈｙｕｎＣｈｏ及びＹｏｓｈｕａＢｅｎｇｉｏ著、２０１４、「一致及び変換のための共同学習によるニューラル機械翻訳」、ＣｏＲＲａｂｓ／１４０９．０４７３（２０１４）を参照）。正則化のために、上述したようなドロップアウトを使用した。全てのハイパーパラメータは、トレーニングセットからランダムに選択された文書の２０％を含む検証セットに基づいて微調整される。既存の研究活動では、ハイパーパラメータチューニングのための検証セットが使用されたことはない（例、Ｋａｍｒａｎ他）。

Ｄ_publicの結果：Ｋａｍｒａｎ他の既存の研究活動では、ツリーのルートノードを含む階層Ｈ’の非リーフノード毎にローカル分類子をトレーニングした。Ｋａｍｒａｎ他の既存の研究活動では、ローカル分類子に｛ＣＮＮ，ＲＮＮ，ＤＮＮ｝を使用した。例えば、データセットＷＯＳ−４６９８５に照らせば、Ｋａｍｒａｎ他は、それぞれが所与の文書ｄｐｕｂｌｉｃを７つの領域のうちの１つに分類し、それぞれのローカル分類子を使用して所与の文書の下位領域を識別する８つの分類子をトレーニングした。

対照的に、本開示の方法では、所与の文書の領域及び下位領域の両方を識別する１つのアテンションベースのＳｅｑ２ｓｅｑ階層分類モデルψのみをトレーニングした。以下の表８に、Ｋａｍｒａｎ他の既存の研究活動において示される様々な方法の精度と、本開示の方法の精度とを示す。表８には、ＨｉｒｅＣｏｓｔによる既存の研究活動において提案される異なる方法の試行後に取得された最良の結果を示す（例えば、ＡｎｖｅｓｈｉＣｈａｒｕｖａｋａ及びＨｕｚｅｆａＲａｎｇｗａｌａ著、２０１５、「ＨｉｒｅＣｏｓｔ：コスト重視学習を用いたラージスケール階層分類の改善（ＨｉｅｒＣｏｓｔ：ＩｍｐｒｏｖｉｎｇＬａｒｇｅＳｃａｌｅＨｉｅｒａｒｃｈｉｃａｌＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈＣｏｓｔＳｅｎｓｉｔｉｖｅＬｅａｒｎｉｎｇ）」、データベースにおける機械学習及び知識発見に関する２０１５年度欧州会議議事録、第１巻（ＥＣＭＬＰＫＤＤ’１５）、Ｓｐｒｉｎｇｅｒ、スイス、を参照）。

Ｗｉｌｃｏｘｏｎ法を使用して３つのデータセットについて全てのアルゴリズムのランクを計算したところ（例えば、ＦｒａｎｋＷｉｌｃｏｘｏｎ著、１９９２年、「ランキング法による個別比較（ＩｎｄｉｖｉｄｕａｌＣｏｍｐａｒｉｓｏｎｓｂｙＲａｎｋｉｎｇＭｅｔｈｏｄｓ）」、Ｓｐｒｉｎｇｅｒ、ニューヨーク、を参照）、本開示の方法が最も（又はより）万能性が高く、Ｋａｍｒａｎ他の最良の方法ＲＮＮ＿ＣＮＮと同じぐらい良好に機能することが分かった。

結果の分析及びシステムの説明
本開示の方法を使用する主な利点は、システムがユーザに質問を行う際に、同じスロット充填モデルを使用して応答が解析され、これが元々のチケット記述／問題記述における重要な情報のチェックに使用される点である。システム１００は、ユーザにさらなる質問を行うことにより、ユーザからの（応答で述べられた）問題／課題に関するさらなる自然言語情報も取り込み、この結果、誤って（又は不正確に）ラベル付けされたデータを有する可能性を低減する一貫したカテゴリ化が行われる。本開示のシステム１００は、スロット充填モデルのためのトレーニングデータを自動的に生成するので、人間の労力をほとんど（少ししか）伴わずにあらゆる既存のヘルプデスクシステムと一体化することができる。システム統合器は、ノード毎に自然言語の質問を設定し、時には頻繁に行われるフィルタ処理された上位５つのオプションのための質問、例えば「使用している電子メールはＬｏｔｕｓＮｏｔｅｓ、Ｏｕｔｌｏｏｋ、Ｚｉｍｂｒａのうちのどれですか？」などを行うだけでよい。リーフノード毎にセルフサービスステップを提供して、潜在的にチケットの数を減少させることもできる。本開示のフレームワークは、表１のチケット記述ｄ₄及びｄ₅に示すような質問に対する二択応答（はい／いいえ）の代わりに自然言語応答を解析することもできる。このフレームワークは、フィルタ処理された上位ｋ個が正しいＹ_iを含んでいない場合、或いはスロット充填モデルが誤った／不正確なスロットを予測した結果、候補となるラベルの組から正しいＹ_iが消去された場合、チケット記述にラベルＹ_iを割り当てる際に誤りを犯すことがある。このフレームワークは、チケット記述が複数の問題意見を含む時にも、トレーニングデータ内の問題タイプの頻度又はユーザ応答に基づいて単一のチケットを上げることがある（又は上げる）。例えば、「スカイプ及びアウトルック構成にログインできません。できるだけ早く解決して下さい」という問題記述の場合には、１つ目に「アウトルック構成」、２つ目に「アプリケーション支援」という２つの異なるチケットを上げる必要がある。

本開示の実施形態は、人間の労力をほとんど伴わずに過去のチケットデータから自動的に対話型ヘルプデスクシステムを形成するシステム及び方法を提供する。スロット充填支援型質問実行と連動するアテンションベースのｓｅｑ２ｓｅｑ階層分類モデルを実装する本開示の方法は、クラス階層の全てのレベルにおいて複数の異なるモデルを使用する、又はフラット分類器を使用する従来の方法とは対照的な、模擬ユーザを介して立証される実験データ／結果（例えば、上記の表を参照）を通じて（相当に）良好な精度を実現する。各クラスラベルに割り当てられた信頼性スコアに基づいて選択的に質問を行うシステム１００の能力は、この方法を知的なものにする。これらの選択的質問は、予め定義されてシステム１００のメモリ１０４（又はデータベース１０８）に含められ、Ｓｅｑ２Ｓｅｑスロット充填モデルは、メモリ１０４（又はデータベース１０８）に問い合わせを行い、所定の閾値（又は所定の信頼性スコアとも呼ばれる）よりも小さな又は大きな信頼性スコアを有する階層的に配置されたクラスラベルに基づいて、適切な質問を逐次的に知的に識別することができる。例えば、システム１００は、クラスラベルに関連する質問に関する情報の充足性を判断するのに十分な確信を持つまで、Ｓｅｑ２Ｓｅｑスロット充填モデルを介してユーザに連続して質問を行う。信頼性スコアが所定の閾値に達すると、システム１００は次のクラスラベルに移行して、このクラスラベルに関連する質問に関する情報の充足性を判断するステップを実行し、信頼性スコアが所定の閾値に達するように質問を行って関連する応答を取得する。本開示は、既存の（単複の）従来法／（単複の）研究活動には見られない、又はこれらの従来法／研究活動によって実現されるｓｅｑ２ｓｅｑ分類モデルのアテンションに基づくスロット充填モデルのためのトレーニングデータの生成も実証した。実験データ／結果からは、対話型ヘルプデスクシステム又はシステム１００がユーザに自動的に質問を行うことによって根本的原因分析を実行できることも示された。

本明細書では、当業者が実施形態の作成及び使用を行えるように主題を説明した。本主題の実施形態の範囲は特許請求の範囲によって定められ、当業者が思いつく他の修正を含むこともできる。このような他の修正は、特許請求の範囲の文言と異ならない同様の要素を有する場合、或いは特許請求の範囲の文言とはわずかに異なる同等の要素を含む場合、特許請求の範囲に含まれるように意図される。

保護の範囲は、このようなプログラム、及び内部にメッセージを有するコンピュータ可読手段にまで及び、このようなコンピュータ可読記憶手段は、サーバ、モバイル装置又はいずれかの好適なプログラマブル装置上でプログラムが実行された時に方法の１又は２以上のステップを実行するためのプログラムコード手段を含むと理解されたい。ハードウェア装置は、例えばサーバ又はパーソナルコンピュータなどのあらゆる種類のコンピュータ、又はこれらのあらゆる組み合わせを含む、プログラム可能なあらゆる種類の装置とすることができる。装置は、例えば特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などのハードウェア手段、或いはＡＳＩＣとＦＰＧＡとの組み合わせ、又は少なくとも１つのマイクロプロセッサとソフトウェアモジュールを含む少なくとも１つのメモリとの組み合わせなどの、ハードウェアとソフトウェア手段との組み合わせとすることができる手段を含むこともできる。従って、これらの手段は、ハードウェア手段とソフトウェア手段の両方を含むことができる。本明細書で説明した方法の実施形態は、ハードウェア及びソフトウェアにおいて実行することができる。装置は、ソフトウェア手段を含むこともできる。或いは、例えば複数のＣＰＵを使用して異なるハードウェア装置上で実施形態を実行することもできる。

本明細書の実施形態は、ハードウェア要素とソフトウェア要素とを含むことができる。ソフトウェアに実装される実施形態は、限定するわけではないが、ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。本明細書で説明した様々なモジュールによって実行される機能は、他のモジュール又は他のモジュールの組み合わせにおいて実行することもできる。コンピュータ使用可能媒体又はコンピュータ可読媒体は、命令実行システム、装置又はデバイスによって又はこれらに関連して使用されるプログラムを含み、記憶し、通信し、伝播し、又は移送できるあらゆる装置とすることができる。

図示のステップは、図示の例示的な実施形態を説明するために示したものであり、継続中の技術的発展によって特定の機能の実行方法が変化すると理解すべきである。本明細書では、これらの例を限定ではなく例示目的で示している。さらに、本明細書では、説明の便宜上、機能的ビルディングブロックの境界を任意に定めている。これらのビルディングブロックの指定された機能及び関係が適切に実行される限り、別の境界を定めることもできる。当業者には、本明細書に含まれる教示に基づいて（本明細書で説明したものの同等形態、拡張形態、変形形態、偏差形態などを含む）代替例が明らかになるであろう。このような代替例も、開示した実施形態の範囲及び趣旨に含まれる。また、「備える、有する、含む（ｃｏｍｐｒｉｓｉｎｇ、ｈａｖｉｎｇ、ｃｏｎｔａｉｎｉｎｇ及びｉｎｃｌｕｄｉｎｇ）」という単語、及び他の同等の形態は、意味的に同等であるように意図されており、これらの単語のうちのいずれか１つに続く１又は複数の項目がこのような１又は複数の項目の完全なリストであるように意図されておらず、或いはリストされた１又は複数の項目のみに限定されるように意図されていないという点で制約のないものである。なお、本明細書及び添付の特許請求の範囲において使用される単数形の「ａ、ａｎ（英文不定冠詞）」及び「ｔｈｅ（英文定冠詞）」は、文脈において別途明確に示されていない限り複数形の照応を含む。

さらに、本開示に一致する実施形態を実施する際に、１又は２以上のコンピュータ可読記憶媒体を使用することもできる。コンピュータ可読記憶媒体は、プロセッサが読み取ることができる情報又はデータを記憶できるあらゆるタイプの物理的メモリを意味する。従って、コンピュータ可読記憶媒体は、本明細書で説明した実施形態に一致するステップ又は段階を（単複の）プロセッサに実行させる命令を含む、１又は２以上のプロセッサが実行するための命令を記憶することができる。「コンピュータ可読媒体」という用語は、有形アイテムを含んで搬送波及び過度信号を除外し、すなわち非一時的なものであると理解されたい。一例としては、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、及び他のいずれかの既知の物理的記憶媒体が挙げられる。

なお、本開示及び実施例はほんの例示とみなすべきであり、開示した実施形態の実際の範囲及び趣旨は、以下の特許請求の範囲によって示される。

Claims

プロセッサ実装方法であって、
１又は２以上のハードウェアプロセッサを介して、問題記述を含む入力データを受け取るステップ（３０２）と、
前記１又は２以上のハードウェアプロセッサによって実行されるシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルを介して、階層的に配置されたクラスラベルの組を出力するために問題記述からの各単語を逐次的に処理するステップ（３０４）であって、前記クラスラベルの組からの各クラスラベルに信頼性スコアを割り当て、対応するクラスラベルに基づいて各単語にアテンション重みを割り当て、１又は２以上の領域に固有の履歴データを使用して前記シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルをトレーニングする、ステップと、
Ｓｅｑ２Ｓｅｑスロット充填モデルを介して、階層的に配置された前記クラスラベルの組の各々に関連する前記問題記述に含まれている情報の存在又は不在を判断するステップ（３０６）であって、１又は２以上のチケットの１又は２以上の問題記述と、前記１又は２以上の領域に固有の履歴データに含まれている既に訂正された関連するクラスラベルとに基づいて、前記Ｓｅｑ２Ｓｅｑスロット充填モデルのためのトレーニングデータを生成し、前記シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルが、前記既に訂正された関連するクラスラベルを予測する、ステップと、
前記問題記述に含まれている情報の存在又は不在に基づいて、履歴データを使用してクエリの組を逐次的に識別して、前記クエリの組に対応する応答の組を取得するステップ（３０８）と、
前記応答の組に基づいて、前記クラスラベルの組からの各クラスラベルに関連する前記信頼性スコアの更新要件を決定するステップ（３１０）と、
前記決定された更新要件に基づいて、前記応答の組に基づく前記クラスラベルの組からの各クラスラベルに関連する前記信頼性スコアを動的に更新して、更新された信頼性スコアの組を取得するステップ（３１２）と、
前記応答の組及び前記更新された信頼性スコアの組に基づいて、前記問題記述に対応するチケットを自動的にロギングするステップ（３１４）と、
を含むことを特徴とするプロセッサ実装方法。
前記クエリの組は、前記クラスラベルの組からの複数のクラスラベルの信頼性スコアが所定の信頼閾値よりも小さい時又は大きい時に識別される、
請求項１に記載のプロセッサ実装方法。
前記問題記述内の単語と対応する予測クラスラベルとの間の関係は、対応する割り当てられたアテンション重みに基づく、
請求項１に記載のプロセッサ実装方法。
前記問題記述からの各単語を処理する前記ステップは、１又は２以上の関連する単語及び１又は２以上の無関係な単語を識別するステップを含む、
請求項１に記載のプロセッサ実装方法。
前記Ｓｅｑ２Ｓｅｑスロット充填モデルの前記トレーニングデータは、（ｉ）前記問題記述に含まれる単語の組に関連するアテンション重みの総和が閾値アテンション重み以上であり、かつ（ｉｉ）前記単語の組の濃度が単語カウント閾値よりも低い時に、対応するチケットの問題記述に含まれている単語に１又は２以上のラベルを割り当てることによって生成される、
請求項１に記載のプロセッサ実装方法。
命令を記憶するメモリ（１０２）と、
１又は２以上の通信インターフェイス（１０６）と、
前記１又は２以上の通信インターフェイス（１０６）を介して前記メモリ（１０２）に結合された１又は２以上のハードウェアプロセッサ（１０４）と、
を備えたシステム（１００）であって、前記１又は２以上のハードウェアプロセッサ（１０４）は、前記命令によって、
問題記述を含む入力データを受け取り、
前記１又は２以上のハードウェアプロセッサによって実行されるシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルを介して、階層的に配置されたクラスラベルの組を出力するために問題記述からの各単語を逐次的に処理し、前記クラスラベルの組からの各クラスラベルに信頼性スコアを割り当て、対応するクラスラベルに基づいて各単語にアテンション重みを割り当て、１又は２以上の領域に固有の履歴データを使用して前記シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルをトレーニングし、
前記１又は２以上のハードウェアプロセッサによって実行されるＳｅｑ２Ｓｅｑスロット充填モデルを介して、階層的に配置された前記クラスラベルの組の各々に関連する前記問題記述に含まれている情報の存在又は不在を判断し、１又は２以上のチケットの１又は２以上の問題記述と、前記１又は２以上の領域に固有の履歴データに含まれている既に訂正された関連するクラスラベルとに基づいて、前記Ｓｅｑ２Ｓｅｑスロット充填モデルのためのトレーニングデータを生成し、前記シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルが、前記既に訂正された関連するクラスラベルを予測し、
前記問題記述に含まれている情報の存在又は不在に基づいて、履歴データを使用してクエリの組を逐次的に識別して、前記クエリの組に対応する応答の組を取得し、
前記応答の組に基づいて、前記クラスラベルの組からの各クラスラベルに関連する前記信頼性スコアの更新要件を決定し、
前記決定された更新要件に基づいて、前記応答の組に基づく前記クラスラベルの組からの各クラスラベルに関連する前記信頼性スコアを動的に更新して、更新された信頼性スコアの組を取得し、
前記応答の組及び前記更新された信頼性スコアの組に基づいて、前記問題記述に対応するチケットを自動的にロギングする、
ように構成される、
ことを特徴とするシステム（１００）。
前記クエリの組は、前記クラスラベルの組からの複数のクラスラベルの信頼性スコアが所定の信頼閾値よりも小さい時又は大きい時に識別される、
請求項６に記載のシステム。
前記問題記述内の単語と対応する予測クラスラベルとの間の関係は、対応する割り当てられたアテンション重みに基づく、
請求項６に記載のシステム。
前記問題記述からの各単語は、１又は２以上の関連する単語及び１又は２以上の無関係な単語を識別するように逐次的に処理される、
請求項６に記載のシステム。
前記Ｓｅｑ２Ｓｅｑスロット充填モデルの前記トレーニングデータは、（ｉ）前記問題記述に含まれる単語の組に関連するアテンション重みの総和が閾値アテンション重み以上であり、かつ（ｉｉ）前記単語の組の濃度が単語カウント閾値よりも低い時に、対応するチケットの問題記述に含まれている単語に１又は２以上のラベルを割り当てることによって生成される、
請求項６に記載のシステム。
１又は２以上の命令を含む１又は２以上の非一時的機械可読情報記憶媒体であって、前記１又は２以上の命令は、１又は２以上のハードウェアプロセッサによって実行された時に、
１又は２以上のハードウェアプロセッサを介して、問題記述を含む入力データを受け取るステップと、
前記１又は２以上のハードウェアプロセッサによって実行されるシーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルを介して、階層的に配置されたクラスラベルの組を出力するために問題記述からの各単語を逐次的に処理するステップであって、前記クラスラベルの組からの各クラスラベルに信頼性スコアを割り当て、対応するクラスラベルに基づいて各単語にアテンション重みを割り当て、１又は２以上の領域に固有の履歴データを使用して、前記シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルをトレーニングする、ステップと、
Ｓｅｑ２Ｓｅｑスロット充填モデルを介して、階層的に配置された前記クラスラベルの組の各々に関連する前記問題記述に含まれている情報の存在又は不在を判断するステップであって、１又は２以上のチケットの１又は２以上の問題記述と、前記１又は２以上の領域に固有の履歴データに含まれている既に訂正された関連するクラスラベルとに基づいて、前記Ｓｅｑ２Ｓｅｑスロット充填モデルのためのトレーニングデータを生成し、前記シーケンスツーシーケンス（Ｓｅｑ２Ｓｅｑ）階層分類モデルが、前記既に訂正された関連するクラスラベルを予測する、ステップと、
前記問題記述に含まれている情報の存在又は不在に基づいて、履歴データを使用してクエリの組を逐次的に識別して、前記クエリの組に対応する応答の組を取得するステップと、
前記応答の組に基づいて、前記クラスラベルの組からの各クラスラベルに関連する前記信頼性スコアの更新要件を決定するステップと、
前記決定された更新要件に基づいて、前記応答の組に基づく前記クラスラベルの組からの各クラスラベルに関連する前記信頼性スコアを動的に更新して、更新された信頼性スコアの組を取得するステップと、
前記応答の組及び前記更新された信頼性スコアの組に基づいて、前記問題記述に対応するチケットを自動的にロギングするステップと、
を引き起こす、ことを特徴とする１又は２以上の非一時的機械可読情報記憶媒体。
前記クエリの組は、前記クラスラベルの組からの複数のクラスラベルの信頼性スコアが所定の信頼閾値よりも小さい時又は大きい時に識別される、
請求項１１に記載の１又は２以上の非一時的機械可読情報記憶媒体。
前記問題記述内の単語と対応する予測クラスラベルとの間の関係は、対応する割り当てられたアテンション重みに基づく、
請求項１１に記載の１又は２以上の非一時的機械可読情報記憶媒体。
前記問題記述からの各単語を処理する前記ステップは、１又は２以上の関連する単語及び１又は２以上の無関係な単語を識別するステップを含む、
請求項１１に記載の１又は２以上の非一時的機械可読情報記憶媒体。
前記Ｓｅｑ２Ｓｅｑスロット充填モデルの前記トレーニングデータは、（ｉ）前記問題記述に含まれる単語の組に関連するアテンション重みの総和が閾値アテンション重み以上であり、かつ（ｉｉ）前記単語の組の濃度が単語カウント閾値よりも低い時に、対応するチケットの問題記述に含まれている単語に１又は２以上のラベルを割り当てることによって生成される、
請求項１１に記載の１又は２以上の非一時的機械可読情報記憶媒体。