JP2019049957A

JP2019049957A - 問い合わせのターゲットクラスを特定しそれらの応答を提供するＢｉＬＳＴＭ−シャムネットワークベース分類器

Info

Publication number: JP2019049957A
Application number: JP2018041710A
Authority: JP
Inventors: プニート・アガルワル; Agarwal Puneet; プレルナ・クラナ; KHURANA Prerna; ゴータム・シュロフ; Shroff Gautam; ロベカシュ・ヴィグ; Vig Lovekesh; アシュウィン・スリニバサン; Srinivasan Ashwin
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2017-09-11
Filing date: 2018-03-08
Publication date: 2019-03-28
Anticipated expiration: 2038-03-08
Also published as: CA2997797A1; US11836638B2; AU2018201670B2; US20190080225A1; JP6689902B2; BR102018004799A2; EP3454260A1; AU2018201670A1; CA2997797C; MX2018002974A

Abstract

【課題】問い合わせのターゲットクラスを特定し、それらの応答を出力するプロセッサ実装方法を提供する。【解決手段】問い合わせのターゲットクラスを特定し、特定されたターゲットクラスに関する問い合わせへの応答を提供する分類器において、シャムモデル（ＳＭ）３０２は、ａ時期の間トレーニングされ、続いて同じベースネットワーク３０６は、最良の正確性が検証テストで観察されるまで繰り返してｂ時期の間、分類モデル（ＣＭ）３０４をトレーニングするのに用いられる。ＳＭは、どの文が意味論的に類似／非類似かを学習することを保証し、ＣＭはあらゆるユーザの問い合わせのターゲットクラスを予測するように学習する。ここでａ及びｂは、ハイパーパラメータと仮定され、検証セットに関する最良のパフォーマンスに向けられたものである。【選択図】図３

Description

関連出願及び優先権の相互参照
この特許出願は、２０１７年９月１１日出願の印度国特許出願第２０１７２１０３２１０１号の優先権を主張する。

本開示は、概略、よくある質問（ＦＡＱ）支援システムに関し、特に、問い合わせのターゲットクラスを特定しそれらの応答を提供する双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器に関する。

近年、深層学習アルゴリズムは、コンピュータビジョン及び音声認識タスクの分野での驚くべき性能により、莫大な人気を得ている。例えば、品詞タグ付け、チャンキング、固有表現認識、及び意味的ロールラベリングなどのタスクを解決した自然言語処理（ＮＬＰ）における重要なワークの一つは、畳み込みニューラルネットワーク（ＣＮＮ）を利用した。ＣＮＮは、ワードレベル及びキャラクタレベルのアプローチを用いるテキスト分類タスクに用いられており、これらのネットワークは畳み込みフィルタを用いて局所的特徴をキャプチャする。特に、ニューラルネットワークを実装するチャットボットは、研究者の正当な注意を惹いたものであり、大規模知識グラフを用いる開領域質問応答を含むものなどの、多数の様々な業種を生じてきた。更に別の業種は、対話生成のための発生モデルを構築することに関係するものであり、それらのいくつかはシーケンス−２−シーケンスモデルを使用し、該モデルはインプットとして質問を受け付け、回答を自動的に生成するように試みる。同様に、別の非常に大量の研究のラインは、対話ベースシステムでユーザの質問に回答する強化学習の利用を含んだ。

これらの発生モデルによる主要な問題は、それらは屡々文法的に誤った文を出力し、一方で回答は法的に正しいことを要求される、ということである。

本開示の実施形態は、発明者により認識された、従来のシステムにおける上述の技術課題の一つ若しくはそれ以上の解決策として技術的改良を提示する。例えば、一つの形態にて、問い合わせのターゲットクラスを特定しそれらの応答を出力するプロセッサ実装方法が、提供される。プロセッサ実装方法は、
双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得するステップであって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、ＢｉＬＳＴＭ−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のＢｉＬＳＴＭレイヤ、及び時間分散高密度（ＴＤＤ）レイヤ含む、共通のベースネットワークを含む、取得するステップと、
繰り返して複数の所定のステップを実行するステップと
を含み、
前記複数の所定のステップは、
前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップであって、ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、表すステップと、
あらゆる時間ステップにおける一つ若しくはそれ以上の「ｔ」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のＢｉＬＳＴＭレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度（ＴＤＤ）レイヤを介して、前記単独のＢｉＬＳＴＭレイヤから取得されるアウトプットを処理するステップと、
ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
であり、
平方根カルバックライブラ発散（ＫＬＤ）損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する。

一つの実施形態では、方法は、更に、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別するステップであって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別するステップと、
前記一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットを生成するステップと、及び、
ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングするステップであって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングするステップと
を含んでもよい。

一つの実施形態では、方法は、更に、
前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得するステップと、
前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用するステップと、及び、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新するステップと
を含んでいてもよい。一つの実施形態では、対照発散損失を適用する前記ステップは、
前記複数の問い合わせ埋め込みの間のユークリッド距離を算出するステップと、
前記算出されたユークリッド距離に基づいて前記対照発散損失を計算するステップと
を含む。

別の形態にて、問い合わせのターゲットクラスを特定しそれらの応答を出力する双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器システムが、提供される。システムは、
命令を格納するメモリと、
一つ若しくはそれ以上の通信インタフェースと、及び、
前記一つ若しくはそれ以上の通信インタフェースを介して前記メモリと結合する一つ若しくはそれ以上のハードウエアプロセッサと
を含み、
前記一つ若しくはそれ以上のハードウエアプロセッサは、
双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得する命令であって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、ＢｉＬＳＴＭ−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のＢｉＬＳＴＭレイヤ、及び時間分散高密度（ＴＤＤ）レイヤ含む、共通のベースネットワークを含む、取得する命令と、
繰り返して複数の所定のステップを実行する命令と
を実行するように構成されており、
前記複数の所定のステップは、
前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップであって、ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、表すステップと、
あらゆる時間ステップにおける一つ若しくはそれ以上の「ｔ」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のＢｉＬＳＴＭレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度（ＴＤＤ）レイヤを介して、前記単独のＢｉＬＳＴＭレイヤから取得されるアウトプットを処理するステップと、
ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
であり、
平方根カルバックライブラ発散（ＫＬＤ）損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する。

一つの実施形態では、前記一つ若しくはそれ以上のハードウエアプロセッサは、
更に、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別する命令であって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別する命令と、
誤分類された問い合わせと問い合わせの対のセットを生成する命令と、及び、
ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングする命令であって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングする命令と
を実行するように構成されていてもよい。

一つの実施形態では、前記一つ若しくはそれ以上のハードウエアプロセッサは、
更に、
前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得する命令と、
前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用する命令と、及び、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新する命令と
を実行するように構成されていてもよい。一つの実施形態では、前記対照発散損失は、
前記複数の問い合わせ埋め込みの間のユークリッド距離を算出し、前記算出されたユークリッド距離に基づいて前記対照発散損失を計算することにより、
適用される。

更に別の形態では、一つ若しくはそれ以上の命令を格納する一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体が提供される。該一つ若しくはそれ以上の命令は、一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得するステップであって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、ＢｉＬＳＴＭ−シャムネットワークベース分類器システムはシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のＢｉＬＳＴＭレイヤ、及び時間分散高密度（ＴＤＤ）レイヤ含む、共通のベースネットワークを含む、取得するステップと、
繰り返して複数の所定のステップを実行するステップと
を行わせ、
前記複数の所定のステップは、
前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップであって、ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、表すステップと、
あらゆる時間ステップにおける一つ若しくはそれ以上の「ｔ」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のＢｉＬＳＴＭレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度（ＴＤＤ）レイヤを介して、前記単独のＢｉＬＳＴＭレイヤから取得されるアウトプットを処理するステップと、
ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
であり、
平方根カルバックライブラ発散（ＫＬＤ）損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する。

一つの実施形態では、一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、前記一つ若しくはそれ以上の命令は、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
更に、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別するステップであって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別するステップと、
前記一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットを生成するステップと、及び、
ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングするステップであって、前記ベースネットワークの一つ若しくはそれ以上の重みが、前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングするステップと
を行わせてもよい。

一つの実施形態では、一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、前記一つ若しくはそれ以上の命令は、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
更に、
前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得するステップと、
前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用するステップと、及び、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新するステップと
を行わせてもよい。一つの実施形態では、対照発散損失を適用する前記ステップは、
前記複数の問い合わせ埋め込みの間のユークリッド距離を算出するステップと、
前記算出されたユークリッド距離に基づいて前記対照発散損失を計算するステップと
を含む。

前述の概略の記載と以下の詳細な記載の両方は、例示であり説明のためのものに過ぎず、特許請求の範囲の発明を限定するものではないことは、理解されるべきである。

添付の図面は、本明細書に組み込まれ本開示の一部を為すものであり、例示の実施形態を示し、本明細書と共に、開示される原理を説明するように作用する。
図１は、本開示の実施形態に係る、問い合わせのターゲットクラスを特定してその応答を出力する、双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器システムの、例示のブロック図を示す。図２は、本開示の実施形態に係る図１のシステムを用いて、問い合わせのターゲットクラスを特定してその応答を生成する、本開示の実施形態に係る方法の、例示のフロー図を示す。図３は、本開示の実施形態に係る、繰り返しトレーニング手続きを伴うハイブリッドシャム及び分類モデルの例を示す。図４は、本開示の実施形態に係る、予測確率分布（Ｐ）、Ｐの平方根及び正規化の後の得られる新しい確率分布、及びターゲット分布Ｔを示すグラフ表示である。図５は、本開示の例示の実施形態に係る、「ワット（Ｗａｔｔ）」と呼ばれるチャボットを示し、該チャボットは、休暇許可及び健康保険スキーム（ＨＩＳ）関連管理方針に関する質問に回答する。図６は、本開示の実施形態に係る、類似の問い合わせフォームの一つのクラスタを表す健康保険スキームデータセットからのサンプル問い合わせを示す。図７は、本開示の実施形態に係る、図１及び図２のシステムの分類モデルで得られる（Ａ）ＢｉＬＳＴＭ埋め込みと（Ｂ）ＨＳＣＭ−ＩＴ埋め込みを示す。図８Ａは、本開示の実施形態に係る、エントロピ閾値に関する真陽性の、自制の、及び偽陽性のカテゴリのバリエーションを示すグラフ表示である。図８Ｂは、本開示の実施形態に係る、エントロピ閾値に関する真陽性の、自制の、及び偽陽性のカテゴリのバリエーションを示すグラフ表示である。

添付の図面を参照して、例示の実施形態を説明する。図面では、参照番号の左端の数字が、参照番号が最初に登場する図面を特定する。便利であればどこでも、図面全体を通して同じ参照番号を用い、同じ若しくは同種のパーツを示す。開示する原理の例示及び特徴
を本明細書に記載するが、開示する実施形態の精神及び範囲から乖離すること無く、修正、適合、及び他の実装が可能である。以下の詳細な説明は例示としてのみ考慮され、真の範囲及び精神は以下の特許請求の範囲により示されることが、意図されている。

通常、企業は、地政学的に広範に多数の従業員を有する。そのような大きい組織の人事部門では、平凡なものから回答不可能なものまで、常に問い合わせで溢れていることは驚くべきことではない。従って、人事部門は、特にルーティンではあるが時間消費するタスクの負担を軽減するために、積極的に自動支援を探す部門である。本開示の実施形態は、問い合わせのターゲットクラスを特定し、よって特定されたターゲットクラスに関連する問い合わせの応答を提供する、ＢｉＬＳＴＭ−シャムネットワークベース分類器を、提供するのであり、該ＢｉＬＳＴＭ−シャムネットワークベース分類器は、例えば、休暇許可管理、及び健康保険などであるが、これらに限定されない、明確に定義された領域での問い合わせに、回答する負担を軽減する自動支援として作用する。自動支援の分野では、これは、閉領域質問回答を構成するのであり、該閉領域質問回答は、任意のトピック関する問い合わせに回答すること、若しくは、開領域質問回答よりも良く動作するように知られている。事実、本開示の実施形態は、その回答が人事部門により手作業で認証されてきたよくある質問（ＦＡＱ）に問い合わせ（即ち質問）を自動的にマッピングすることに焦点を合わせる。原理的に、ＦＡＧ及びそれら回答が既に存在すれば、単に、「最も近い」ＦＡＱを見出しその回答を戻すという事項に過ぎない（文章のある適切な表現を用いて、最近傍を見出す単純なアプリケーション）。しかし、困難がある。第１に、ＦＡＱは実際には、全て同じ問題を取り扱い従って共通の回答となるのが、単独の質問ではなく、複数の質問である。本質的に、このことは過度の困難性を何ら引き起こさないように思われる。というのは、単独の質問に対するマッチングは質問のセットに対するマッチングに拡張可能であり、最良のマッチングの質問を含むセットと関連する回答を戻すことになるからである。実際の困難性は第２の問題：ＦＡＱクラス内の質問に対する新しい回答（即ち、以前には見られなかったもの）の類似性をどのように測定するか、から生じる。単語の袋（ｂａｇ−ｏｆ−ｗｏｒｄｓ）に基づく単純な測定は通常、機能しない。というのは、質問は意味論的に関連することが多く、少しの単語のみ共通して含むからである。このような問い合わせを考慮する：「私はハイデラバードで代理を務めていますが、私のプロジェクトの位置はチェンナイです。システムに示される取得可能な休日はチェンナイ休日リストによるものです。私は両方の場所の取得可能な休日を、利用できるでしょうか。」（図５参照）。ＦＡＱクラスの任意の質問が、単語の袋（ｂａｇ−ｏｆ−ｗｏｒｄｓ）のみに基づいて何らかの有意なマッチを生じるということは、ありそうもない。そうではなく、問われていることは、一つの場所の取得可能な休暇許可を別の場所に適用する、ということである。よって、ＦＡＱクラスのセット及びそれらの回答が手作業でキュレートされてきたとしても、新しい問い合わせのＦＡＱクラスを正確に決定できる意味論的類似性の測定を考案しなければならない困難性は依然として存在し、繰り返して直面するものである。

分類のためにＢｉＬＳＴＭのみを用いることは、作用するデータセットのタイプに対しては、十分ではないかもしれない。分離を埋め込むためには更なるメカニズムが要求されるかもしれない。分類モデルに加えてシャムモデルは両方とも、夫々、問い合わせ埋め込みを別々に駆動することを試みる、という直感により、本開示の実施形態は、二つのアプローチを繰り返して組み合わせる。このためにａ時期のためのシャムモデルのトレーニングが実行され、続いてｂ時期のための分類モデルをトレーニングする同じベースのネットワークが実行される。このことは、検証データセットに関して最良の正確性が観察されるまで、繰り返して実行される。ここで、第１のステップ（シャムモデル）は、モデルが、どの文章が意味論的に類似である／非類似であるかを学習することを保証し、一方で、繰り返しの第２のフェーズ（分類モデル）は、あらゆるユーザの問い合わせのターゲットクラスを予測することを学習する。ここで、ａ及びｂはハイパーパラメータと仮定され、検証セットに関する最良のパフォーマンスに向けられたものである。

本開示の実施形態は、問い合わせのターゲットクラスを特定しその応答を提供する（以下、システムとも称される）ＢｉＬＳＴＭ−シャムネットワークベース分類器を提供することにより、このことを達成する。上記の例示の実施形態では、システムは、ハイデラバード−チェンナイ問い合わせのためのＦＡＱクラスを正確に見出す。到来する問い合わせは数百のクラスの一つにマップされ、各々は、ＦＡＱクラスの全ての質問への正確な応答として人事部門により認証される回答と関連付けされる。

問題形式化

ＦＡＱチャボットに対するトレーニングデータ（Ｄ）はＤ＝｛ｓ_１，ｓ_２，..．，ｓ_ｎ｝として利用可能であり、該Ｄは、問い合わせセットｓ_ｉのセットである。ここで、個々の問い合わせセットｓ_ｉは、意味論的な類似の問い合わせＸ_ｉ＝｛ｘ_１ ^ｉ，ｘ_２ ^ｉ，..．，ｘ_ｍ ^ｉ｝のセット、及びそれらの対応する回答ｙ_ｉ、即ち、ｓ_ｉ＝（Ｘ_ｉ，ｙ_ｉ）を含む。本開示の実施形態により試みられる問題の目的は、対応する回答ｙがユーザに示され得るように、ユーザの問い合わせｘに対応する問い合わせセットｓを予測することである。このことは、トレーニングデータＤを前提とする文章分類問題とも称され得る。あらゆる問い合わせセットｓ_ｉは、マルチクラス分類問題のクラス、即ち、

と仮定される。

チャボットのためのトレーニングデータＤは通常、数百のクラスを含むが、これらのクラスの管理を容易にするために、それらは、病気休暇許可に関連する全てのクラスが一つのカテゴリにグループ化され得るように、高レベルのカテゴリの下でグループ化される。グループ内のクラスは高程度の概念重なりを有することが、観察された。

図面を、特に図１〜図８Ｂを参照すると、全体を通して一貫して同じ参照符号は対応する特徴を示しているが、好適な実施形態が示され、これらの実施形態は以下の例示のシステム及び／又は方法の観点で説明する。

図１は、本開示の実施形態に係る、問い合わせのターゲットクラスを特定してそれらの応答を生成する、双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器システムの、例示のブロック図を示す。実施形態では、システム１００は、一つ若しくはそれ以上のプロセッサ１０４、通信インタフェースデバイス若しくはインプット／アウトプット（Ｉ／Ｏ）インタフェース１０６、及び、一つ若しくはそれ以上のプロセッサ１０４と操作自在に結合する一つ若しくはそれ以上のデータストレージデバイス若しくはメモリ１０２を、含む。一つ若しくはそれ以上のプロセッサ１０４は、一つ若しくはそれ以上のソフトウエア処理モジュール及び／又はハードウエアプロセッサであればよい。実施形態では、ハードウエアプロセッサは、一つ若しくはそれ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタルシグナルプロセッサ、中央処理装置、状態機械、論理回路、及び／又は、操作命令に基づいて信号を操る任意のデバイスとして、実装され得る。幾つかある可能性の中で特に、プロセッサは、メモリに格納されるコンピュータ読み取り可能命令をフェッチして実行するように構成されている。実施形態では、デバイス１００は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどの、様々なコンピュータシステムで実装することができる。

Ｉ／Ｏインタフェースデバイス１０６は、例えば、ウェブインタフェース、グラフィカルユーザインタフェースなどの、様々なソフトウエア及びハードウエアインタフェースを含むことができ、例えば、ＬＡＮ、ケーブルなどの有線ネットワーク、及びＷＬＡＮ、セルラなどの無線ネットワークを含む、種々様々なネットワークＮ／Ｗ及びプロトコルタイプ内での、多重通信を促進し得る。実施形態では、Ｉ／Ｏインタフェースデバイス１０６は、複数のデバイスを相互に、又は、別のサーバに、接続する一つ若しくはそれ以上のポートを含み得る。

メモリ１０２は、例えば、静的ランダムアクセスメモリ（ＳＲＡＭ）及び動的ランダムアクセスメモリ（ＤＲＡＭ）などの揮発性メモリ、及び／又は、読み取り専用メモリ（ＲＯＭ）、消去可能ＰＲＯＭ、フラッシュメモリ、ハードディスク、光学ディスク、及び磁気テープなどの不揮発性メモリを含む、周知の任意のコンピュータ読み取り可能媒体を、含み得る。実施形態では、データベース１０８はメモリ１０２に格納されるが、データベース１０８は、ユーザと、問い合わせ及び応答などを含むシステム１００との、相互作用に関連する情報を含み得るが、それらに限定されない。実施形態では、メモリ１０２は、例えば、シャムモデル、分類モデルなどのモデリング技術を格納でき、該モデリング技術は、一つ若しくはそれ以上のハードウエアプロセッサ１０４により実行されて本明細書に記載の方法を実施する。

図１に関連して、図２は、本開示の実施形態に係る図１のシステム１００を用いて、問い合わせのターゲットクラスを特定してその応答を生成する、本開示の実施形態に係る方法の、例示のフロー図を示す。実施形態では、システム１００は、一つ若しくはそれ以上ハードウエアプロセッサ１０４と操作自在で結合する一つ若しくはそれ以上のデータストレージデバイス若しくはメモリ１０２を含み、一つ若しくはそれ以上のプロセッサ１０４により方法のステップを実行するために命令を格納するように構成されている。システム１００は、トレーニングされるモデル（シャムモデル及び分類モデル）と関連する値（及び／又はパラメータ）を格納する。図１及び図３に示すシステム１００のコンポーネント、及び図２のフロー図を参照して本開示の方法のステップを説明する。本開示の実施形態では、ステップ２０２にて、双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器システム１００が、一つ若しくはそれ以上のハードウエアプロセッサにより、一つ若しくはそれ以上のユーザの問い合わせを取得する。実施形態では、一つ若しくはそれ以上のユーザの問い合わせは、可変長ｎのワードｘ_ｉ＝（ｗ_１，ｗ_２，..．ｗ_ｎ）のシーケンスを含む。実施形態では、ＢｉＬＳＴＭ−シャムネットワークベース分類器システム１００は、図３に示すように、シャムモデル３０２及び分類モデル３０４を含み、シャムモデル３０２と分類モデル３０４の夫々は、埋め込みレイヤ３０８（以下では、回帰ニューラルネットワークとも称する）（ＲＮＮ埋め込みレイヤ）、単独のＢｉＬＳＴＭレイヤ３１０、及び時間分散高密度（ＴＤＤ）レイヤ３１２を含む、共通のベースネットワーク３０６（以下、ベースネットワークとも称する）を備える。分類モデル３０４は、ソフトマックスレイヤが後に続くマックスプールレイヤ３１４（図２及び図３には示さず）を含む。特に、図１及び図２に関連して、図３は、本開示の実施形態に係る、繰り返しトレーニング手続きを伴うハイブリッドシャム及び分類モデルの例を示す。本開示の実施形態では、ステップ２０４において、共通のベースネットワークの埋め込みレイヤ３０８にて、問い合わせ、回答／応答、及び関連する管理方針文書と共に関する、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして、一つ若しくはそれ以上のユーザの問い合わせが表される。実施形態では、ワードのシーケンスは対応するベクトルにより置換され、対応するベクトルはワードツーベクトルモデルを用いて初期化され、対応するベクトルはＢｉＬＳＴＭ−シャムネットワークベース分類器システム１００のトレーニングの間、持続的に更新される。ワードツーベクトル（以下、ワード２ベクとも称する）マトリクスは、初期回帰埋め込みレイヤの重みを初期化するのに用いられ、該初期回帰埋め込みレイヤは、１ホット符号化ワードベクトルのシーケンスとして一つ若しくはそれ以上の問い合わせを取り込み、ワードベクトルｖ_ｉの符号化シーケンスを出力する。よって、埋め込みレイヤ３０８は、ユーザの問い合わせのワードベクトルｘ_ｋ＝（ｖ_１，ｖ_２，..．ｖ_ｎ）のシーケンスから、個々のユーザの問い合わせの順次表現を学習する。（システム１００を含む）モデルの残りのトレーニングの間、このレイヤの重み（即ち、ｗ２ｖ）も誤差逆伝搬を介して更新される。

本開示の実施形態では、ステップ２０６において、シャムモデル３０２のＢｉＬＳＴＭレイヤ３１０は、インプットとして個々のワードのベクトル表示のシーケンスを受け取りアウトプット（あらゆる時間ステップにおける一つ若しくはそれ以上の「ｔ」隠れ状態）を生成する。実施形態では、個々のワードのベクトル表示は、正順と逆順のうちの少なくとも一つにてインプットされ、結果として問い合わせのあらゆるワードにて、右手側と左手側の両方にて他のワードの文脈を保持する。ＬＳＴＭ即ち長短期メモリネットワークは、ＲＮＮ（回帰ニューラルネットワーク）の異形である。ＬＳＴＭは、減少する勾配の問題を緩和するように設計されており、該問題は、ＲＮＮが長期間パターンを伴うシーケンスを学習すると発生する。埋め込みレイヤ３０８により戻されるユーザの問い合わせは、個々のタイムスタンプにおけるベクトルのシーケンス、即ち、ｘ_ｉ＝（ｖ_１，ｖ_２，..．ｖ_ｎ）として表され、該ベクトルのシーケンスはＢｉＬＳＴＭレイヤに対するインプットである。ＬＳＴＭユニットのアウトプットは、従前の隠れ状態ｈ_ｔ−１の関数としてのＲ^ｄでのゲートのセットと、以下のように記載される現在の時間ステップにおけるインプットｖ_ｔにより、コントロールされる。

ここで、σは、アウトプットが［０、１］であるロジスティックシグモイド関数であり、ｔａｎｈは、アウトプットが［−１、１］である双極正接関数を示し、

は、要素に関する乗算を示す。ｆ_ｔは、古いメモリセルからどれだけの情報が忘れられているかを決定する関数として見ることができ、ｉ_ｔは、どれだけ多くの新しい情報が現在のメモリセルに格納されているかを制御するものであり、ｏ_ｔは、メモリセルｃ_ｔに基づいてアウトプットを制御する。双方向ＬＳＴＭレイヤ（ＢｉＬＳＴＭ）３１０は、図４に示す分類モデル３０４のために用いられる。上述のように、シーケンスは、正順の及び逆順のインプットとして与えられ、結果として問い合わせ内のあらゆるワードにおいて右手側と左手側の両方で他のワードの文脈を保持する。

本開示の実施形態では、ステップ２０８において、アウトプットが、共通のベースネットワーク３０６の時間分散高密度（ＴＤＤ）レイヤ３１２を介して送信（若しくは処理）され、ベクトルのシーケンスを取得する。本開示の実施形態では、ステップ２１０において、分類モデル３０４のマックスプールレイヤ３１４が、ベクトルのシーケンスのディメンジョンに関する最大値を取得し若しくは取り込み、ファイナルベクトルを形成する実施形態では、分類モデル３０４は、上記の共通のベースネットワーク３０６を用いて、あらゆる時間ステップに一つ、Ｔ隠れ状態を取得する。これらの隠れ状態はマックスプールレイヤ３１４を通過するが、該マックスプールレイヤ３１４は、ネットワークのある種のアテンションレイヤとして作用して一つ若しくはそれ以上の問い合わせの最も重要な意味論的特徴を特定する。実施形態では、このマックスプールレイヤ３１４は、ディメンジョンに関する最大値を取り込んでファイナルベクトルを形成する。

本開示の実施形態では、ステップ２１２において、分類モデル３０４のソフトマックスレイヤが、形成されるファイナルベクトルに基づいて一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、決定されたターゲットクラスに基づいて一つ若しくはそれ以上の問い合わせへの応答をアウトプットする（若しくは提供する）。実施形態では、システム１００は、データベース１０８に格納された一つ若しくはそれ以上の予め規定された応答から、応答を提供する。実施形態では、平方根カルバックライブラ発散（ＫＬＤ）損失関数がベクトルのシーケンスに適用され、分類モデル３０４を最適化する。実施形態では、クロスエントロピ損失関数は、予測される離散可能性分布

と、ターゲット分布

との間の、ＫＬ発散として見ることができ、該ＫＬ発散は、正しいクラスに対して値１を、その他にはゼロを伴う、指標関数である。これらは、対応してＰ_ｉ及びＴ_ｉとして、即ち、

として、表される。Ｔ_ｉでは、ターゲットクラス以外の全ての他の用語はゼロまで減少し、結果としてＴ_ｉは、

まで減少し、これは周知のクロスエントロピ損失である。

ネットワークに埋め込み（問い合わせ埋め込み）のより良い分離を学習させる観点で、上記の損失は、全ての予測に対して、即ち、予測が正しいか間違っているかに関わりなく、僅かに増加させてもよい。このために、予測分布Ｐ_ｉの全ての可能性の平方根を取り、続いて新しい確率分布Ｑ_ｉを取得するために再正規化する。Ｑ_ｉは、図４に示すように、Ｐ_ｉよりも高いエントロピを有する。特に、図４は、本開示の実施形態に係る、予測確率分布（Ｐ）、Ｐの平方根及び正規化の後の得られる新しい確率分布、及びターゲット分布Ｔを示すグラフ表示である。図４から分かるように、高い見込みのクラスの可能性は減少し、低い見込みのクラスの可能性は僅かに増加する。標準的カテゴリクロスエントロピ損失を用いる代わりに、深いネットワークの場合にはＫＬＤ（Ｔｉ｜｜Ｑｉ）を用い、これは、活性化インプットをファイナルソフトマックスレイヤに半分だけスケール化することと等価である。表１、２、及び３に表される評価結果から観察され得るように、この提案されるアプローチは、（このセクションにて後で説明する）シャムネットワークに繰り返して取り付けられるときと共に、ＢｉＬＳＴＭ分類に関してより良い正確性を達成する助けとなる。損失の人工的な増加は問い合わせ埋め込みのより良い分離により役立つということを、このことは示唆している。同様の技術が従来のアプローチにより用いられたのであり、従来のアプローチは、予測される分布の二乗を取り込み、それを、監視されていないセッティングでのクラスタリングのための予備的ターゲット分布と想定したが、一方で本開示の実施形態、及び提案されるアプローチは、予測される分布の平方根を取り込み、分類の文脈で、損失を増大するためにそれを用いる。

上記のモデルでは、あるクラスに属するユーザの問い合わせの多くが誤って分類されることが屡々である、ということが観察された。分類の正確性を改良するために、分類モデル３０４を稼働した後の繰り返し毎に、屡々誤分類される問い合わせの対が特定された。即ち、あるクラスの多くの問い合わせが検証データセットの別のクラスに在ると、屡々予測される。言い換えると、ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーが判別されたのであり、該一つ若しくはそれ以上のエラーは、問い合わせのセットに対して決定される一つ若しくはそれ以上のターゲットクラスを含み、該一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットが生成された。ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対のセットを用いて、シャムモデルが続いて繰り返しトレーニングされた。結果として、シャムモデル３０２は、対応する問い合わせ埋め込みを別々に駆動するように試みるのであり、分類モデル３０４がそのような問い合わせを正確に分類して以下に記載するようなより良い正確性に導くことは、比較的より容易になる。ここで、シャムモデル３０２が問い合わせの対に一度に作動するという事実が利用されるのであり、このことは、繰り返し毎に、これらのクラスの問い合わせの埋め込みを別々に駆動する助けとなる。実施形態では、ベースネットワークの一つ若しくはそれ以上の重みが、ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、シャムモデル及び分類モデルにより共有される。シャムモデル３０２は、多数の様々な問い合わせの対｛ｘ_ｉ，ｘ_ｊ｝を取り込み、それらの一部は同じクラスに属し、一方、他のものは様々なクラスに属し、例えば、問い合わせの一対を想定して、システム１００の目的は、それらが同じクラスに属する｛１｝か否か｛０｝かを予測することである。結果として、一つ若しくはそれ以上の重みを用いて、一つ若しくはそれ以上の問い合わせをシャムモデル３０２（例えば、同じニューラルネットワークアーキテクチャ）を介して通過させることにより、複数の問い合わせ埋め込みが取得され、ここで、誤差逆伝搬を介してＢｉＬＳＴＭ−シャムネットワークベース分類器システム１００（若しくはニューラルネットワーク）の一つ若しくはそれ以上のパラメータを更新するために、対照発散損失が複数の問い合わせ埋め込みについて適用され、よってシャムモデルを最適化する。シャムモデル／ネットワーク３０２は、ＢｉＬＳＴＭの単独のレイヤが後に続くベースネットワークを含み、そこから最終状態がインプット問い合わせの埋め込みとして取り込まれる。（シャムモデル３０２の最後から２番目のレイヤである）ＢｉＬＳＴＭレイヤ３１０は、問い合わせ｛ｘ_ｉ，ｘ_ｊ｝の各々に対して問い合わせ埋め込みｅ^ｓ（ｘ_ｉ）及びｅ^ｓ（ｘ_ｊ）を戻す。最初は、複数の問い合わせ埋め込み、ｅ^ｓ（ｘ_ｉ）及びｅ^ｓ（ｘ_ｊ）の間のユークリッド距離が算出され、対照発散損失が、算出されたユークリッド距離に基づいて計算（若しくは算出）されるが、該計算は以下の式により示される。

ここで、Ｃ_ｉ∈｛０，１｝は、問い合わせの対に対するターゲットクラスである。二つの問い合わせが同じクラスに属するとき（Ｃ_ｉ＝１）、第１項がアクティブとなり、Ｄ_ｓそれ自体が損失となり、ネットワークが埋め込みの間の距離を減少しようとする。二つの問い合わせが異なるクラスに属するとき（Ｃ_ｉ＝０）、上記式（２）の第２項がアクティブとなり、埋め込みの間の距離がマージンｍより大きいならば、損失項はゼロとなり、それ以外ならば、損失は（ｍ−Ｄ_ｓ）である、即ち、埋め込みを離して駆動することを試みる。効果的に、対照発散損失は類似の問い合わせの埋め込みをまとめるのであり、非類似の問い合わせの埋め込みを少なくともマージン（ｍ）距離だけ離すように押しやる。ここで、（同じクラスに属する）正の対と（異なるクラスに属する）負の対の比は、１：２となるように、対はサンプルされる。問い合わせが相互に最高のジャッカール類似度を有するように、負の対はサンプルされる。図３の上方の長方形内にシャムモデル３０２の模式図を示す。

モデル評価結果

表１は、全ての評価を実施するのに用いられる三つのデータセット（休暇許可、健康保険スキーム（ＨＩＳ）、及び２０ニュースグループ）の一般統計を示す。表１は、トレーニングに用いられるデータスプリット、検証及びテストデータ、更には、個々のデータセットにおける、平均の文の長さ及びクラスの数も、示す。ＨＩＳ及び休暇許可のチャボットデータセットは、６０−２０−２０の比でトレーニング−検証−テストのセットにスプリットされる。

２０ニュースグループ（２０ＮＧ）：２０のニュースグループからのドキュメントで構成される。最新（ｂｙｄａｔｅ）バージョンが用いられ、四つの主要なカテゴリが選択された（総合（ｃｏｍｐ）、政治、娯楽、及び宗教）。更に、トレーニングデータの１０％が検証データセットとして用いられた。初期の停止基準が、分類モデルの検証損失に基づいて採用された。

ＨＲチャボットデータの詳細及びサンプル質問を以下に示す。

大組織は通常、従業員給付のための精緻な人的資源管理方針を有する。それら管理方針は、読むことさえしばしば困難である大量のドキュメントに、通常記載される。従業員は、これらの管理方針の広範な見識に依存するか、人事責任者からの助力を求めるか、であるが、この人事責任者からの助力は、特に問い合わせが妊娠や病気などの個人情報を明らかにする場合、大組織内の抑止として作用する。デジタルアシスタントを開発するに当たっての本開示の実施形態の目標は、従業員の問い合わせを秘密のままとすることを保証することと、大量の管理方針ドキュメントへの単なるポインタ以上の、キュレートされた回答の形式での正確な助力を提供することを保証することとの、両方である。問い合わせのターゲットクラスを特定してそれらの応答を提供するシステム１００（例えば、ＨＲ管理方針問い合わせのためのＦＡＱアシスタント）は、開発されて「チャボット」としてこの環境に統合された。図５は、図１〜図４を参照して、「Ｗａｔｔ」と呼ばれるチャボットを示し、該「Ｗａｔｔ」は、本開示の実施形態に係る、休暇許可及び健康保険スキーム（ＨＩＳ）関連管理方針に関する質問に回答する。図６は、図１〜図５を参照して、本開示の実施形態に係る、類似の問い合わせフォームの一つのクラスタを表す健康保険スキームデータセットからのサンプル問い合わせを示す。

初期のＦＡＱ及びトレーニングセットを創作するために、人事領域専門家で構成されるタスクフォースが形成され、（「ＨＲボットの先生」と呼ばれる）その独立の協力グループを与えられた。このチームは最初、夫々が問い合わせセットと称される、類似の質問の多数のセットを創作したが、問い合わせセットの質問の全ては、それらが単独に回答により機能し得るようなものである。次に、回答は、先生が管理方針ドキュメントを注意深く読み込み、熟考し議論することで、キュレートされた。休暇許可管理方針のための１９９のそのような問い合わせセットが創作され、ＨＩＳ管理方針のための１７７の問い合わせセットが創作された。プロセスでは、先生は、１００００の異なる質問を創作して終了した。

上述のようなシードデータの創作の後、（以下、チャボットとも称される）システムの最初のバージョンが配備され／実装され、コマンドライン命令を用いて、チャボットインタフェースそれ自身から後続のトレーニング及びデータ創作が為された。よって、為された予測が間違っていた場合には正しい問い合わせセットにＩＤを与えることにより、チャボットをトレーニングすることが可能であった。そのようなフィードバックは、係属して更なるトレーニングデータを生成するのであり、該トレーニングデータを用いてＨＳＣＭ−ＩＴ分類器が周期的に再トレーニングされる。トレーニングタイムの間、間違って分類された質問が、再トレーニングインターバルの間に略逐語的に繰り返される場合には、分類器アウトプットの代わりに、トレーナフィードバックを介して初期に提供される訂正が戻され、よって、継続学習の錯覚を与える。

データ前処理：

システム１００内に供給される前のこれらの問い合わせは、以下のステップｉ）〜ｉｉｉ）で前処理された：
ｉ）問い合わせが、それらの小文字に変換された。システムは、このステップを行うことにより大文字と小文字とを区別しないものとされた。
ｉｉ）テキストからの特別な文字の除去。
ｉｉｉ）全ての略語を捕獲してそれらを実際の意味と置き換える。例えば、ｍｌは出産休暇許可（ｍａｔｅｒｎｉｔｙｌｅａｖｅ）と置き換え、ｓｍｌは特別出産休暇許可（ｓｐｅｃｉａｌｍａｔｅｒｎｉｔｙｌｅａｖｅ）と置き換える。
ストップワードの除去は無かった。テキストから或るワードを除去することは分類器のパフォーマンスの僅かな劣化に繋がることが観察され、よって、より良好な予測の正確性のためには全てのワードが要求される、との結論に到ったからである。

ワード分布ベクトル：テキストの前処理の後、スキップグラムアルゴリズム／技術を用いてワード２ベクが学習された。全ての管理方針ドキュメント、チャボット回答、及び、全ての問い合わせセットの質問が、全てのワードに関する、これらのドメイン固有ベクトル表示を学習するために用いられた。英語のウイキペディア（登録商標）データに関して学習される汎用ＧＬＯＶＥワード埋め込みも試みられたが、しかしながら、ドメイン固有埋め込みがより正確性を提供することが観察された。おそらく、多数のドメイン固有ターム、若しくは、「休暇許可」などのワードの直交的意義のためである。

トレーニングディテール：

ベースネットワーク及びその重みは、シャムモデルと分類モデルとの両方のブランチで、共有された。我々は、ネットワークのハイパーパラメータの、即ち、範囲｛１００−３５０｝での隠れユニットの、グリッド検索も行ったのであり、このとき、５０ユニットのステップサイズ、範囲｛２０、４０、６４、１２８｝のバッチサイズ、及び範囲｛０．１、０．０１、０．００１、０．０００１｝の学習率を伴うものであり、更に検証セットに関して選ばれたパラメータの最良セットを取得した。最後に、ハイパーパラメータの最良の選択に関して、あらゆるモデルは様々な初期設定で「ｘ」回（例えば、１０回）トレーニングされ、見えざるテストデータに関して平均の正確性／Ｆ１を観察された。ＨＩＳに対するベースネットワークの２５０の隠れユニット、及び、休暇許可データに対する３００の隠れユニットにより、最良の結果が得られ、２０ニュースグループについての１５０の隠れユニットにより最良の結果が得られた。６４のバッチサイズは、全てのデータセットについて最良の結果を与えた。オプティマイザは、０．００１のデフォルトの学習率により、全てのデータセットについて最良の結果を与えた。最後に、ハイパーパラメータａ及びｂも、検証データセットについての最良の結果に対して調整され、ＨＳＣＭ−ＩＴがａ＝５及びｂ＝１０に対して最良の結果を実行することが見出された。

正則化：ＬＳＴＭは、多数のトレーニングデータを要求し、膨大なパラメータを有し、結果として、トレーニングデータに容易に過剰適合する傾向があり、例えば、早期の停止、Ｌ１／Ｌ２正則化（重み減衰）及びバッチ正規化を含む、技術が、システム１００により用いられることを防ぐ。バッチ正規化は、モデルへのインプットの分布における内部共変量シフトを減少することができたかなり最近の技術である。結果として、ＲＮＮのより高速の収束及びより良好な一般化となった。

ハイブリッドモデルの進歩（ＨＳＣＭ）：

提示される技術ＨＳＣＭ−ＩＴ（Ｆ）のパフォーマンスが、単語の袋（ｂａｇ−ｏｆ−ｗｏｒｄｓ）アプローチ（Ａ）に続くＴＦ−ＩＤＦ分類器と、比較された。レポートされる他の結果の主たる目的は、ＨＳＣＭ−ＩＴの個別のコンポーネントのパフォーマンスをそれ自身のパフォーマンスと徐々に比較することである。比較されるコンポーネントは、（Ｂ）２レイヤを伴う双方向ＬＳＴＭ、（Ｃ）分類モデル、（Ｄ）シャムモデル、及び、（Ｅ）繰り返しのトレーニング手順の無いＨＳＣＭ、である。これらの結果は、チャボットデータセットに対する表２にて、及び、２０ニュースグループパブリックデータセットについての表３にて、レポートされている。これらのモデルの全てについて、我々はＳＱＲＴ−ＫＬＤ損失を用いる利点もレポートする。即ち、（Ｂ）、（Ｃ）及び（Ｄ）の全てについて、二つの評価が実行されたが、一つはクロスエントロピ損失関数によるものであり、もう一つはＳＱＲＴ−ＫＬＤ損失関数によるものであった。表２は、チャボットデータセットについて、二つの損失関数クロスエントロピ及びＳＱＲＴ−ＫＬＤによる、ベースライン技術と提示される技術／提示されるアルゴリズムＨＳＣＭとの間の、（１０ランを超えての）平均の正確性の比較を示す。「＊」は表２における１ランのみを表す。表３は、２０ニュースグループデータセットについての、（１０ランを超えての）平均のＦ１スコアの比較を表す。

ＴＦ−ＩＤＦベース分類：ＴＦ−ＩＤＦ分類器のパフォーマンスが最初、評価されたが、該評価はワードの袋アプローチに基づくものであり、あらゆるクラスの特徴的なワードが何度データ内に存在するかを示す。これに対して、最初にあらゆる問い合わせセットに対する、及び（分類される必要がある）ユーザの問い合わせに対する、ＴＦ−ＩＤＦベクトルが算出され、続いてターゲットクラスが、第１の最近傍を用いて、距離測度としてコサイン類似度を用いて、見出された。結果は、２０ニュースグループデータがＨＩＳ及び休暇許可データセットよりも、より多くのクラス特徴的ワードを有することを、示す。これは、チャボットデータセット内のクラスの数が２０ニュースグループデータよりもずっと高いからでもある。ＨＩＳ及び休暇許可データセットについて、ＨＳＣモデルにより、ＴＦ−ＩＤＦモデルと対比して、正確性にて〜１１％、〜２６％の最大利得が観察され、２０ニュースグループについて、Ｆ１スコアにて対応する利得が〜６％のみで観察された。三つのデータセットにおける文のペアワイズジャッカール類似度が算出され、２０ニュースグループにおいて平均のクラス間のジャッカール類似度が０．０９１１であり、ＨＩＳ及び休暇許可において平均のクラス間のジャッカール類似度が、夫々０．１０６６及び０．１２６４であると、見出された。このことは、ＨＩＳ及び休暇許可データセットがより分類し難いことも示す。

ＢｉＬＳＴＭによる深い分類モデル：上記記載で与えられた問題点に対して、為すことができる第１の明白な選択はＲＮＮの使用である。ＲＮＮがシーケンシャルデータを含むからである。本開示の実施形態は従って、問題点のための開始点として（Ｂ）双方向ＬＳＴＭを用いた。２０ニュースグループのＴＤ−ＩＤＦとＢｉＬＳＴＭとの間の小さいギャップは、選択されたクラスが相応に直交するものであり、一方でギャップはＨＩＳデータで増加し休暇許可データでは最大値であり、該休暇許可データは三つ全ての間で実際最も確かなデータであるという事実を強調する、ということを示す。

分類モデル：このモデルは、注目のための更なるマックスプールレイヤを用いる。このモデルのみが（Ｂ）と殆ど等しく休暇許可及び２０ニュースグループデータについて実行することが観察され得るが、小さい利得がＨＩＳデータセットで観察された。

Ｄ）１−ＮＮを伴うシャムモデル：ユーザの問い合わせｘ_ｕの埋め込みと、トレーニングデータｘ_ｉ∈Ｄ_{ｔｒａｉｎ}に存在する問い合わせの埋め込みとの間のユークリッド距離を用いる１−ＮＮ分類器により、シャムモデルの正確性のみが測定された。このモデルの正確性は、ＢｉＬＳＴＭモデルそれ自身よりも悪い（若しくは、良くない）ことが、観察され得る。

ハイブリッドモデル：Ｅ）ＨＳＣＭ＆ＨＳＣＭ−ＩＴ：最後に、ハイブリッドモデル（Ｅ）ＨＳＣＭ−ＩＴは分類モデルそれ自身よりもより良く実行しないことが観察され得る。システム１００による、提示されるアプローチ（Ｆ）ＨＳＣＭ−ＩＴは、全てのデータセット（ＨＩＳ、休暇許可、及び２０ニュースグループデータ）に冠して全ての他のアプローチ（Ａ〜Ｅ）よりもより良く実行するが、ときどき僅かな境界を伴うことがある。他のアプローチに亘って主要な利点をもたらして、被類似の問い合わせの埋め込みを離して駆動する助けとなるものは、ハイブリッドモデル：の繰り返しのトレーニング手順である、ということを、これらの結果が経験的に証明する。ここで、しばしば誤分類される問い合わせの対が含まれ、検証データにおいて観察され、あらゆる繰り返しにおいてシャムトレーニングにて、トレーニングデータから取り込まれる。

ＳＱＲＴ−ＫＬＤ損失の利点：全ての三つのデータセット及び全ての深層学習アプローチに亘って、ＳＱＲＴ−ＫＬＤがクロスエントロピ損失に関する正確性／Ｆ１スコアの利得に繋がった、という一貫したパターンが観察された。２０ニュースグループについてのＦ１スコアの利得は一貫して〜１％であり、ＨＩＳデータセットでの、この損失関数を用いることによる正確性の利得は約２〜３％であり、休暇許可データセットではこの利得は小さい。

埋め込み分離：ＨＳＣＭ−ＩＴアルゴリズム／技術が、いかにして、問い合わせの埋め込みを他のクラスの問い合わせから離して駆動し、そうで無いならば反転させる、助けとなるかを示すために、クラスのサブセットがＨＩＳデータセットから取り込まれた。ＨＩＳ及び休暇許可データセットのクラスは、複数のカテゴリに編成された。例えば、病気休暇許可に関する全てのクラスは同じカテゴリにバケットされ、又は、健康保険料に関する全てのクラスは一つのカテゴリにグループ化された。カテゴリ内のクラスは、多数のオーバラップするコンセプトを有し、正確に分類することを困難にしている、ということが見出されている。同じカテゴリのクラスに属するトレーニングデータの埋め込みが取り込まれ、分離の程度を視覚化するＴ−ＳＮＥ次元縮小技術を用いた。一つのそのようなサンプルの比較を図７に示す。特に、図７は、本開示の実施形態に係る、図１及び図２のシステム１００の分類モデル３０６で得られる（Ａ）ＢｉＬＳＴＭ埋め込みと（Ｂ）ＨＳＣＭ−ＩＴ埋め込みを示す。ここで、同じクラスの問い合わせは同じ形状（例えば、円、正方形、長方形、逆三角形、菱形、及び楕円形状）を共有する。例えば、図７に示す全ての円はクラス「ｍ」にのみ対応する。同様に、図７に示す全ての正方形はクラス「ｎ」にのみ対応し得る。

ベースライン比較：回答を検索するためにユーザの問い合わせを分類するための、問い合わせ−問い合わせ類似性を見出す提示されるアプローチと、最も類似のアルゴリズムは、ＲＣＮＮ技術である。提示される技術／アルゴリズムのパフォーマンスは、チャボットデータセットと、及び、２０ニュースグループとについてのＲＣＮＮ技術と比較された。表４に示す結果は、同じアルゴリズムの提示される実装に基づくものである。ここで、ＨＳＣＭ−ＩＴはＨＩＳデータについて３％だけＲＣＮＮより良好にパフォーマンスを行い、休暇許可データについて１％だけ良好にパフォーマンスを行う、ということが観察され得る。

展開結果：

人の消費のための機械学習ベースの質問回答システムを展開するにあたり、システムがその問い合わせに正確に回答すること、若しくは、間違った回答を提供する代わりに回答することをできる限り自制することの、いずれも試みることが実際には重要である。我々は、我々のモデルＨＳＣＭ−ＩＴにより予測される離散確率分布のエントロピを用いて、自制するかどうか決定する。エントロピが選択した閾値τより高ければ、システムは回答することを自制しその代わりにユーザを人の応答者に転送する。このセッティングでのパフォーマンスを分析するために、モデルの予測を三つのカテゴリ：真陽性（若しくは、真＋バンド）、偽陽性（若しくは、偽＋バンド）、及び自制（若しくは、自制バンド）、に分ける。ＨＩＳと休暇許可データセットの両方夫々のための、τの値を変更するプロットを図８Ａ及び図８Ｂに示す。特に、図８Ａ及び図８Ｂは、図１〜図７を参照して、本開示の実施形態に係る、エントロピ閾値に関する真陽性の、自制の、及び偽陽性のカテゴリのバリエーションを示すグラフ表示を表す。適切なエントロピ閾値は、真陽性で大きく低下すること無く偽陽性及び自制のケースのレベルが許容レベル内で保持されるように、特定され得る。ＨＳＣＭ−ＩＴでは（偽＋を示す）バンドはＲＣＮＮプロット（特に８０％以上の真＋）よりも比較的狭いことが、図８Ａ−図８Ｂから観察され得る。このことは、ＨＳＣＭ−ＩＴモデルがＲＣＮＮモデルよりも実際には展開可能であることを、示唆する。提示されるＨＳＣＭ−ＩＴモデルのより高い正確さは埋め込みの分離に寄与し得ることが推測され得るのであり、該埋め込みの分離はその主要な目的の一つであった。最良のケースの真陽性の割り当てを用いると、それらチャボットの展開後には管理方針関連の問い合わせに回答する人事部門の日々の負荷は現行の６０００レベルから１０００以下に低下すると見積もられ得る。

大切なことを言い忘れていたが、あらゆる問い合わせに対して、システム１００は最初に、問い合わせが保険に関するものか休暇許可管理方針に関するものかを決定するということを再び留意すべきである。ユーザの問い合わせを二つのカテゴリ「ＨＩＳ」、「休暇許可」に分類するのに同じモデル（ＨＳＣＭ−ＩＴ）が用いられるのであり、このことは非常に高い正確性（＞９６％）を有することが観察された。

本開示の実施形態は、ＦＡＱに自動的に回答する自然言語アシスタントとして作用する、問い合わせのターゲットクラスを特定してそれらの応答を提供する、双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器システム及び方法を、提供する。システム１００は、ニューラルネットワークのソフトマックスレイヤ内で使用可能な新しい損失関数ＳＱＲＴ−ＫＬＤを導入する。実施形態は、経験的評価を介して方法の有効性も実証し、パブリックのデータセット及び実生活のデータセットについてのベースラインアプローチよりも、方法がより良くパフォーマンスを行うことを、示した。実験の評価及び結果から、ＨＳＣＭ−ＩＴモデルはベースライン技術よりもより良好な適合率−再現率のトレードオフを有し、実際により展開可能なアルゴリズムとなることが、明確に示される。更に、システム１００は、特に機械学習や深層学習のアルゴリズムのために用いられる、グラフィカルプロセッシングユニット（ＧＰＵ）で構成される（若しくはＧＰＵに常駐する）、専用ハードウエア、又はコンピュータシステムに、常駐してもよい（若しくは、常駐することができる、又は、常駐する）。従来のコンピュータシステムとは異なり、システム１００は、（例えば、１００〜１００００コア程度に高い）ハイエンドデータ処理コンポーネントを伴うＧＰＵで構成され、システム１００は大量のデータを処理し、同時に問い合わせの処理時間を減少させ、更にシステム１００は正確性に関して改良するようにＧＰＵにてトレーニングされ、よって、シャムモデル３０２及び分類モデル３０４を最適化する。

本明細書は、当業者が実施形態を作成し利用できるように発明の主題を記載している。実施形態の主題の範囲は、請求項により規定され、当業者に想起する他の変更例も含み得る。それら他の変更例が、請求項の逐次的文言と異ならない類似の要素を有するならば、又は、それら他の変更例が、請求項の逐次的文言からごく僅かしか異ならない等価の要素を含むならば、請求項の範囲内であることを意図するものである。

保護の範囲はそのようなプログラムに、更に、メッセージを内部に備えるコンピュータ読み取り可能手段に、拡張されることが理解されるべきである。それらコンピュータ読み取り可能手段は、サーバ若しくはモバイルデバイス、又は任意の適切なプログラム可能デバイスでプログラムが稼働するとき、方法の一つ若しくはそれ以上のステップを実装するプログラムコード手段を、含む。ハードウエアデバイスは、例えば、サーバやパーソナルコンピュータなどの任意の種類のコンピュータなどや、それらの任意の組み合わせを含む、プログラム可能な、任意のデバイスであればよい。デバイスは、例えば、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの、例えば、ハードウエア手段、若しくは、例えば、ＡＳＩＣとＦＰＧＡなどの、ハードウエア手段とソフトウエア手段の組み合わせ、又は、少なくとも一つのマイクロプロセッサとソフトウエアモジュールが内に配置された少なくとも一つのメモリである、手段も含んでもよい。よって、手段は、ハードウエア手段とソフトウエア手段の両方を含み得る。本明細書に記載の方法の実施形態は、ハードウエア及びソフトウエアに実装され得る。デバイスは、ソフトウエア手段も含んでもよい。一方で、実施形態は、例えば、複数のＣＰＵを用いて、様々なハードウエアデバイスで実装され得る。

本明細書の実施形態は、ハードウエア要素及びソフトウエア要素を含むことができる。ソフトウエアに実装される実施形態は、ファームウエア、常駐ソフトウエア、マイクロコードなどを含むが、それらに限定されない。本明細書に記載の、種々のモジュールにより実行される機能は、他のモジュールに、若しくは他のモジュールジュールの組み合わせに、実装され得る。本記載のために、コンピュータ使用可能、若しくはコンピュータ読み取り可能媒体は、命令実行システム、装置、若しくはデバイスとの接続により若しくは接続して、使用のためにプログラムを、含み、格納し、通信し、伝搬し、若しくは輸送できる、どんな装置でもよい。

例示するステップは、例示の実施形態を説明するのに設定されており、現在進行中の技術的な発展は、特定の機能が実行されるやり方を変更することが予想される。これらの例は、例示のために本明細書に表されており、限定するためではない。更に、機能的構成要素の境界を、記載の便宜のために本明細書に任意に規定した。特定の機能及びそれらの関係が適宜実施される限り、別途の境界が規定され得る。（本明細書に記載のものの、等価、拡張、変形、導出などを含む）別途のものは、本明細書に含まれる教示内容に基づけば当業者には明らかである。それら別途のものは、開示する実施形態の範囲及び精神の範囲内である。また、単語「含む（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「包含する（ｃｏｎｔａｉｎｉｎｇ）」、及び「含める（ｉｎｃｌｕｄｉｎｇ）」、並びに他の類似の形式は、意味上等価であることが意図されており、これらの単語のいずれかに続く一つの項目若しくは複数の項目は、その項目若しくはそれら項目の包括的リストであることや、リスト化された項目にのみ限定されることを、意図するものではない、という点において、制約が無いことが意図されている。本明細書にて用いられるように、及び、添付の請求項において、単数形「一つの（ａ）」、「一つの（ａｎ）」、及び「その（ｔｈｅ）」は、文脈が違うように指示しなければ複数の言及を含むことも、留意しなければならない。

更に、本開示と一致する実施形態を実装するのに、一つ若しくはそれ以上のコンピュータ読み取り可能記憶装置が利用され得る。コンピュータ読み取り可能記録媒体は、プロセッサにより読み取り可能な情報若しくはデータが格納される任意のタイプの物理メモリを示す。よって、コンピュータ読み取り可能記録媒体は、本明細書に記載の実施形態と一致するステップ若しくはステージをプロセッサに実行させる命令を含む、一つ若しくはそれ以上のプロセッサにより実行される命令を、格納し得る。用語「コンピュータ読み取り可能媒体」は、有体物を含み、搬送波や過渡信号を除外する、即ち、持続性のものである、と理解すべきである。例示は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードディスク、ＣＤＲＯＭ、ブルーレイ、ＤＶＤ、フラッシュドライブ、ディスク、及び、任意の他の周知の物理記録媒体を、含む。

開示及び例は例示としてのみ考慮され、開示する実施形態の真の範囲及び精神は以下の請求項により示される、ということが意図される。

１００・・・双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器システム、１０２・・・メモリ、１０４・・・ハードウエアプロセッサ、１０６・・・インタフェース。

Claims

プロセッサ実装方法において、
双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得するステップであって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、ＢｉＬＳＴＭ−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のＢｉＬＳＴＭレイヤ、及び時間分散高密度（ＴＤＤ）レイヤ含む、共通のベースネットワークを含む、取得するステップと、
繰り返して複数の所定のステップを実行するステップと
を含み、
前記複数の所定のステップは、
前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップと、
あらゆる時間ステップにおける「ｔ」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のＢｉＬＳＴＭレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度（ＴＤＤ）レイヤを介して、前記単独のＢｉＬＳＴＭレイヤから取得されるアウトプットを処理するステップと、
ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
である、プロセッサ実装方法。
平方根カルバックライブラ発散（ＫＬＤ）損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する、請求項１に記載のプロセッサ実装方法。
ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、請求項１に記載のプロセッサ実装方法。
更に、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別するステップであって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別するステップと、
前記一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットを生成するステップと、及び、
ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングするステップであって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングするステップと
を含む、請求項１に記載のプロセッサ実装方法。
更に、
前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得するステップと、
前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用するステップと、及び、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新するステップと
を含む、請求項４に記載のプロセッサ実装方法。
対照発散損失を適用する前記ステップは、
前記複数の問い合わせ埋め込みの間のユークリッド距離を算出するステップと、
前記算出されたユークリッド距離に基づいて前記対照発散損失を計算するステップと
を含む、請求項５に記載のプロセッサ実装方法。
双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器システムにおいて、
命令を格納するメモリと、
一つ若しくはそれ以上の通信インタフェースと、及び、
前記一つ若しくはそれ以上の通信インタフェースを介して前記メモリと結合する一つ若しくはそれ以上のハードウエアプロセッサと
を含み、
前記一つ若しくはそれ以上のハードウエアプロセッサは、
双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得する命令であって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、ＢｉＬＳＴＭ−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のＢｉＬＳＴＭレイヤ、及び時間分散高密度（ＴＤＤ）レイヤ含む、共通のベースネットワークを含む、取得する命令と、
繰り返して複数の所定のステップを実行する命令と
を実行するように構成されており、
前記複数の所定のステップは、
前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップと、
あらゆる時間ステップにおける「ｔ」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のＢｉＬＳＴＭレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度（ＴＤＤ）レイヤを介して、前記単独のＢｉＬＳＴＭレイヤから取得されるアウトプットを処理するステップと、
ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
である、ＢｉＬＳＴＭ−シャムネットワークベース分類器システム。
平方根カルバックライブラ発散（ＫＬＤ）損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する、請求項７に記載のＢｉＬＳＴＭ−シャムネットワークベース分類器システム。
ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、請求項７に記載のＢｉＬＳＴＭ−シャムネットワークベース分類器システム。
前記一つ若しくはそれ以上のハードウエアプロセッサは、
更に、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別する命令であって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別する命令と、
誤分類された問い合わせと問い合わせの対のセットを生成する命令と、及び、
ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングする命令であって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングする命令と
を実行するように構成されている、請求項７に記載のＢｉＬＳＴＭ−シャムネットワークベース分類器システム。
前記一つ若しくはそれ以上のハードウエアプロセッサは、
更に、
前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得する命令と、
前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用する命令と、及び、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新する命令と
を実行するように構成されている、請求項１０に記載のＢｉＬＳＴＭ−シャムネットワークベース分類器システム。
前記対照発散損失は、
前記複数の問い合わせ埋め込みの間のユークリッド距離を算出し、前記算出されたユークリッド距離に基づいて前記対照発散損失を計算することにより、
計算される、請求項１１に記載のＢｉＬＳＴＭ−シャムネットワークベース分類器システム。
一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
双方向長短期メモリ（ＢｉＬＳＴＭ）−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得するステップであって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、ＢｉＬＳＴＭ−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のＢｉＬＳＴＭレイヤ、及び時間分散高密度（ＴＤＤ）レイヤ含む、共通のベースネットワークを含む、取得するステップと、
繰り返して複数の所定のステップを実行するステップと
を行わせる、一つ若しくはそれ以上の命令を格納する、一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体において、
前記複数の所定のステップは、
前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップと、
あらゆる時間ステップにおける「ｔ」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のＢｉＬＳＴＭレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度（ＴＤＤ）レイヤを介して、前記単独のＢｉＬＳＴＭレイヤから取得されるアウトプットを処理するステップと、
ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
である、一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
平方根カルバックライブラ発散（ＫＬＤ）損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する、請求項１３に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、請求項１３に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、前記一つ若しくはそれ以上の命令は、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
更に、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別するステップであって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別するステップと、
前記一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットを生成するステップと、及び、
ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングするステップであって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記ＢｉＬＳＴＭ−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングするステップと
を行わせる、請求項１３に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、前記一つ若しくはそれ以上の命令は、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
更に、
前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得するステップと、
前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用するステップと、及び、
前記ＢｉＬＳＴＭ−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新するステップと
を行わせる、請求項１６に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
対照発散損失を適用する前記ステップは、
前記複数の問い合わせ埋め込みの間のユークリッド距離を算出するステップと、
前記算出されたユークリッド距離に基づいて前記対照発散損失を計算するステップと
を含む、請求項１６に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。