JP2019049957A - 問い合わせのターゲットクラスを特定しそれらの応答を提供するBiLSTM−シャムネットワークベース分類器 - Google Patents

問い合わせのターゲットクラスを特定しそれらの応答を提供するBiLSTM−シャムネットワークベース分類器 Download PDF

Info

Publication number
JP2019049957A
JP2019049957A JP2018041710A JP2018041710A JP2019049957A JP 2019049957 A JP2019049957 A JP 2019049957A JP 2018041710 A JP2018041710 A JP 2018041710A JP 2018041710 A JP2018041710 A JP 2018041710A JP 2019049957 A JP2019049957 A JP 2019049957A
Authority
JP
Japan
Prior art keywords
bilstm
queries
sham
model
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018041710A
Other languages
English (en)
Other versions
JP6689902B2 (ja
Inventor
プニート・アガルワル
Agarwal Puneet
プレルナ・クラナ
KHURANA Prerna
ゴータム・シュロフ
Shroff Gautam
ロベカシュ・ヴィグ
Vig Lovekesh
アシュウィン・スリニバサン
Srinivasan Ashwin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of JP2019049957A publication Critical patent/JP2019049957A/ja
Application granted granted Critical
Publication of JP6689902B2 publication Critical patent/JP6689902B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

【課題】問い合わせのターゲットクラスを特定し、それらの応答を出力するプロセッサ実装方法を提供する。【解決手段】問い合わせのターゲットクラスを特定し、特定されたターゲットクラスに関する問い合わせへの応答を提供する分類器において、シャムモデル(SM)302は、a時期の間トレーニングされ、続いて同じベースネットワーク306は、最良の正確性が検証テストで観察されるまで繰り返してb時期の間、分類モデル(CM)304をトレーニングするのに用いられる。SMは、どの文が意味論的に類似/非類似かを学習することを保証し、CMはあらゆるユーザの問い合わせのターゲットクラスを予測するように学習する。ここでa及びbは、ハイパーパラメータと仮定され、検証セットに関する最良のパフォーマンスに向けられたものである。【選択図】図3

Description

関連出願及び優先権の相互参照
この特許出願は、2017年9月11日出願の印度国特許出願第201721032101号の優先権を主張する。
本開示は、概略、よくある質問(FAQ)支援システムに関し、特に、問い合わせのターゲットクラスを特定しそれらの応答を提供する双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器に関する。
近年、深層学習アルゴリズムは、コンピュータビジョン及び音声認識タスクの分野での驚くべき性能により、莫大な人気を得ている。例えば、品詞タグ付け、チャンキング、固有表現認識、及び意味的ロールラベリングなどのタスクを解決した自然言語処理(NLP)における重要なワークの一つは、畳み込みニューラルネットワーク(CNN)を利用した。CNNは、ワードレベル及びキャラクタレベルのアプローチを用いるテキスト分類タスクに用いられており、これらのネットワークは畳み込みフィルタを用いて局所的特徴をキャプチャする。特に、ニューラルネットワークを実装するチャットボットは、研究者の正当な注意を惹いたものであり、大規模知識グラフを用いる開領域質問応答を含むものなどの、多数の様々な業種を生じてきた。更に別の業種は、対話生成のための発生モデルを構築することに関係するものであり、それらのいくつかはシーケンス−2−シーケンスモデルを使用し、該モデルはインプットとして質問を受け付け、回答を自動的に生成するように試みる。同様に、別の非常に大量の研究のラインは、対話ベースシステムでユーザの質問に回答する強化学習の利用を含んだ。
これらの発生モデルによる主要な問題は、それらは屡々文法的に誤った文を出力し、一方で回答は法的に正しいことを要求される、ということである。
本開示の実施形態は、発明者により認識された、従来のシステムにおける上述の技術課題の一つ若しくはそれ以上の解決策として技術的改良を提示する。例えば、一つの形態にて、問い合わせのターゲットクラスを特定しそれらの応答を出力するプロセッサ実装方法が、提供される。プロセッサ実装方法は、
双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得するステップであって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、BiLSTM−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のBiLSTMレイヤ、及び時間分散高密度(TDD)レイヤ含む、共通のベースネットワークを含む、取得するステップと、
繰り返して複数の所定のステップを実行するステップと
を含み、
前記複数の所定のステップは、
前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップであって、ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記BiLSTM−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、表すステップと、
あらゆる時間ステップにおける一つ若しくはそれ以上の「t」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のBiLSTMレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度(TDD)レイヤを介して、前記単独のBiLSTMレイヤから取得されるアウトプットを処理するステップと、
ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
であり、
平方根カルバックライブラ発散(KLD)損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する。
一つの実施形態では、方法は、更に、
前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別するステップであって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別するステップと、
前記一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットを生成するステップと、及び、
ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングするステップであって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングするステップと
を含んでもよい。
一つの実施形態では、方法は、更に、
前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得するステップと、
前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用するステップと、及び、
前記BiLSTM−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新するステップと
を含んでいてもよい。一つの実施形態では、対照発散損失を適用する前記ステップは、
前記複数の問い合わせ埋め込みの間のユークリッド距離を算出するステップと、
前記算出されたユークリッド距離に基づいて前記対照発散損失を計算するステップと
を含む。
別の形態にて、問い合わせのターゲットクラスを特定しそれらの応答を出力する双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器システムが、提供される。システムは、
命令を格納するメモリと、
一つ若しくはそれ以上の通信インタフェースと、及び、
前記一つ若しくはそれ以上の通信インタフェースを介して前記メモリと結合する一つ若しくはそれ以上のハードウエアプロセッサと
を含み、
前記一つ若しくはそれ以上のハードウエアプロセッサは、
双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得する命令であって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、BiLSTM−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のBiLSTMレイヤ、及び時間分散高密度(TDD)レイヤ含む、共通のベースネットワークを含む、取得する命令と、
繰り返して複数の所定のステップを実行する命令と
を実行するように構成されており、
前記複数の所定のステップは、
前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップであって、ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記BiLSTM−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、表すステップと、
あらゆる時間ステップにおける一つ若しくはそれ以上の「t」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のBiLSTMレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度(TDD)レイヤを介して、前記単独のBiLSTMレイヤから取得されるアウトプットを処理するステップと、
ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
であり、
平方根カルバックライブラ発散(KLD)損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する。
一つの実施形態では、前記一つ若しくはそれ以上のハードウエアプロセッサは、
更に、
前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別する命令であって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別する命令と、
誤分類された問い合わせと問い合わせの対のセットを生成する命令と、及び、
ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングする命令であって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングする命令と
を実行するように構成されていてもよい。
一つの実施形態では、前記一つ若しくはそれ以上のハードウエアプロセッサは、
更に、
前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得する命令と、
前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用する命令と、及び、
前記BiLSTM−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新する命令と
を実行するように構成されていてもよい。一つの実施形態では、前記対照発散損失は、
前記複数の問い合わせ埋め込みの間のユークリッド距離を算出し、前記算出されたユークリッド距離に基づいて前記対照発散損失を計算することにより、
適用される。
更に別の形態では、一つ若しくはそれ以上の命令を格納する一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体が提供される。該一つ若しくはそれ以上の命令は、一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得するステップであって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、BiLSTM−シャムネットワークベース分類器システムはシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のBiLSTMレイヤ、及び時間分散高密度(TDD)レイヤ含む、共通のベースネットワークを含む、取得するステップと、
繰り返して複数の所定のステップを実行するステップと
を行わせ、
前記複数の所定のステップは、
前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップであって、ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記BiLSTM−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、表すステップと、
あらゆる時間ステップにおける一つ若しくはそれ以上の「t」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のBiLSTMレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度(TDD)レイヤを介して、前記単独のBiLSTMレイヤから取得されるアウトプットを処理するステップと、
ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
であり、
平方根カルバックライブラ発散(KLD)損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する。
一つの実施形態では、一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、前記一つ若しくはそれ以上の命令は、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
更に、
前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別するステップであって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別するステップと、
前記一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットを生成するステップと、及び、
ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングするステップであって、前記ベースネットワークの一つ若しくはそれ以上の重みが、前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングするステップと
を行わせてもよい。
一つの実施形態では、一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、前記一つ若しくはそれ以上の命令は、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
更に、
前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得するステップと、
前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用するステップと、及び、
前記BiLSTM−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新するステップと
を行わせてもよい。一つの実施形態では、対照発散損失を適用する前記ステップは、
前記複数の問い合わせ埋め込みの間のユークリッド距離を算出するステップと、
前記算出されたユークリッド距離に基づいて前記対照発散損失を計算するステップと
を含む。
前述の概略の記載と以下の詳細な記載の両方は、例示であり説明のためのものに過ぎず、特許請求の範囲の発明を限定するものではないことは、理解されるべきである。
添付の図面は、本明細書に組み込まれ本開示の一部を為すものであり、例示の実施形態を示し、本明細書と共に、開示される原理を説明するように作用する。
図1は、本開示の実施形態に係る、問い合わせのターゲットクラスを特定してその応答を出力する、双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器システムの、例示のブロック図を示す。 図2は、本開示の実施形態に係る図1のシステムを用いて、問い合わせのターゲットクラスを特定してその応答を生成する、本開示の実施形態に係る方法の、例示のフロー図を示す。 図3は、本開示の実施形態に係る、繰り返しトレーニング手続きを伴うハイブリッドシャム及び分類モデルの例を示す。 図4は、本開示の実施形態に係る、予測確率分布(P)、Pの平方根及び正規化の後の得られる新しい確率分布、及びターゲット分布Tを示すグラフ表示である。 図5は、本開示の例示の実施形態に係る、「ワット(Watt)」と呼ばれるチャボットを示し、該チャボットは、休暇許可及び健康保険スキーム(HIS)関連管理方針に関する質問に回答する。 図6は、本開示の実施形態に係る、類似の問い合わせフォームの一つのクラスタを表す健康保険スキームデータセットからのサンプル問い合わせを示す。 図7は、本開示の実施形態に係る、図1及び図2のシステムの分類モデルで得られる(A)BiLSTM埋め込みと(B)HSCM−IT埋め込みを示す。 図8Aは、本開示の実施形態に係る、エントロピ閾値に関する真陽性の、自制の、及び偽陽性のカテゴリのバリエーションを示すグラフ表示である。 図8Bは、本開示の実施形態に係る、エントロピ閾値に関する真陽性の、自制の、及び偽陽性のカテゴリのバリエーションを示すグラフ表示である。
添付の図面を参照して、例示の実施形態を説明する。図面では、参照番号の左端の数字が、参照番号が最初に登場する図面を特定する。便利であればどこでも、図面全体を通して同じ参照番号を用い、同じ若しくは同種のパーツを示す。開示する原理の例示及び特徴
を本明細書に記載するが、開示する実施形態の精神及び範囲から乖離すること無く、修正、適合、及び他の実装が可能である。以下の詳細な説明は例示としてのみ考慮され、真の範囲及び精神は以下の特許請求の範囲により示されることが、意図されている。
通常、企業は、地政学的に広範に多数の従業員を有する。そのような大きい組織の人事部門では、平凡なものから回答不可能なものまで、常に問い合わせで溢れていることは驚くべきことではない。従って、人事部門は、特にルーティンではあるが時間消費するタスクの負担を軽減するために、積極的に自動支援を探す部門である。本開示の実施形態は、問い合わせのターゲットクラスを特定し、よって特定されたターゲットクラスに関連する問い合わせの応答を提供する、BiLSTM−シャムネットワークベース分類器を、提供するのであり、該BiLSTM−シャムネットワークベース分類器は、例えば、休暇許可管理、及び健康保険などであるが、これらに限定されない、明確に定義された領域での問い合わせに、回答する負担を軽減する自動支援として作用する。自動支援の分野では、これは、閉領域質問回答を構成するのであり、該閉領域質問回答は、任意のトピック関する問い合わせに回答すること、若しくは、開領域質問回答よりも良く動作するように知られている。事実、本開示の実施形態は、その回答が人事部門により手作業で認証されてきたよくある質問(FAQ)に問い合わせ(即ち質問)を自動的にマッピングすることに焦点を合わせる。原理的に、FAG及びそれら回答が既に存在すれば、単に、「最も近い」FAQを見出しその回答を戻すという事項に過ぎない(文章のある適切な表現を用いて、最近傍を見出す単純なアプリケーション)。しかし、困難がある。第1に、FAQは実際には、全て同じ問題を取り扱い従って共通の回答となるのが、単独の質問ではなく、複数の質問である。本質的に、このことは過度の困難性を何ら引き起こさないように思われる。というのは、単独の質問に対するマッチングは質問のセットに対するマッチングに拡張可能であり、最良のマッチングの質問を含むセットと関連する回答を戻すことになるからである。実際の困難性は第2の問題:FAQクラス内の質問に対する新しい回答(即ち、以前には見られなかったもの)の類似性をどのように測定するか、から生じる。単語の袋(bag−of−words)に基づく単純な測定は通常、機能しない。というのは、質問は意味論的に関連することが多く、少しの単語のみ共通して含むからである。このような問い合わせを考慮する:「私はハイデラバードで代理を務めていますが、私のプロジェクトの位置はチェンナイです。システムに示される取得可能な休日はチェンナイ休日リストによるものです。私は両方の場所の取得可能な休日を、利用できるでしょうか。」(図5参照)。FAQクラスの任意の質問が、単語の袋(bag−of−words)のみに基づいて何らかの有意なマッチを生じるということは、ありそうもない。そうではなく、問われていることは、一つの場所の取得可能な休暇許可を別の場所に適用する、ということである。よって、FAQクラスのセット及びそれらの回答が手作業でキュレートされてきたとしても、新しい問い合わせのFAQクラスを正確に決定できる意味論的類似性の測定を考案しなければならない困難性は依然として存在し、繰り返して直面するものである。
分類のためにBiLSTMのみを用いることは、作用するデータセットのタイプに対しては、十分ではないかもしれない。分離を埋め込むためには更なるメカニズムが要求されるかもしれない。分類モデルに加えてシャムモデルは両方とも、夫々、問い合わせ埋め込みを別々に駆動することを試みる、という直感により、本開示の実施形態は、二つのアプローチを繰り返して組み合わせる。このためにa時期のためのシャムモデルのトレーニングが実行され、続いてb時期のための分類モデルをトレーニングする同じベースのネットワークが実行される。このことは、検証データセットに関して最良の正確性が観察されるまで、繰り返して実行される。ここで、第1のステップ(シャムモデル)は、モデルが、どの文章が意味論的に類似である/非類似であるかを学習することを保証し、一方で、繰り返しの第2のフェーズ(分類モデル)は、あらゆるユーザの問い合わせのターゲットクラスを予測することを学習する。ここで、a及びbはハイパーパラメータと仮定され、検証セットに関する最良のパフォーマンスに向けられたものである。
本開示の実施形態は、問い合わせのターゲットクラスを特定しその応答を提供する(以下、システムとも称される)BiLSTM−シャムネットワークベース分類器を提供することにより、このことを達成する。上記の例示の実施形態では、システムは、ハイデラバード−チェンナイ問い合わせのためのFAQクラスを正確に見出す。到来する問い合わせは数百のクラスの一つにマップされ、各々は、FAQクラスの全ての質問への正確な応答として人事部門により認証される回答と関連付けされる。
問題形式化
FAQチャボットに対するトレーニングデータ(D)はD={s,s,...,s}として利用可能であり、該Dは、問い合わせセットsのセットである。ここで、個々の問い合わせセットsは、意味論的な類似の問い合わせX={x ,x ,...,x }のセット、及びそれらの対応する回答y、即ち、s=(X,y)を含む。本開示の実施形態により試みられる問題の目的は、対応する回答yがユーザに示され得るように、ユーザの問い合わせxに対応する問い合わせセットsを予測することである。このことは、トレーニングデータDを前提とする文章分類問題とも称され得る。あらゆる問い合わせセットsは、マルチクラス分類問題のクラス、即ち、
Figure 2019049957
と仮定される。
チャボットのためのトレーニングデータDは通常、数百のクラスを含むが、これらのクラスの管理を容易にするために、それらは、病気休暇許可に関連する全てのクラスが一つのカテゴリにグループ化され得るように、高レベルのカテゴリの下でグループ化される。グループ内のクラスは高程度の概念重なりを有することが、観察された。
図面を、特に図1〜図8Bを参照すると、全体を通して一貫して同じ参照符号は対応する特徴を示しているが、好適な実施形態が示され、これらの実施形態は以下の例示のシステム及び/又は方法の観点で説明する。
図1は、本開示の実施形態に係る、問い合わせのターゲットクラスを特定してそれらの応答を生成する、双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器システムの、例示のブロック図を示す。実施形態では、システム100は、一つ若しくはそれ以上のプロセッサ104、通信インタフェースデバイス若しくはインプット/アウトプット(I/O)インタフェース106、及び、一つ若しくはそれ以上のプロセッサ104と操作自在に結合する一つ若しくはそれ以上のデータストレージデバイス若しくはメモリ102を、含む。一つ若しくはそれ以上のプロセッサ104は、一つ若しくはそれ以上のソフトウエア処理モジュール及び/又はハードウエアプロセッサであればよい。実施形態では、ハードウエアプロセッサは、一つ若しくはそれ以上のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタルシグナルプロセッサ、中央処理装置、状態機械、論理回路、及び/又は、操作命令に基づいて信号を操る任意のデバイスとして、実装され得る。幾つかある可能性の中で特に、プロセッサは、メモリに格納されるコンピュータ読み取り可能命令をフェッチして実行するように構成されている。実施形態では、デバイス100は、ラップトップコンピュータ、ノートブック、ハンドヘルドデバイス、ワークステーション、メインフレームコンピュータ、サーバ、ネットワーククラウドなどの、様々なコンピュータシステムで実装することができる。
I/Oインタフェースデバイス106は、例えば、ウェブインタフェース、グラフィカルユーザインタフェースなどの、様々なソフトウエア及びハードウエアインタフェースを含むことができ、例えば、LAN、ケーブルなどの有線ネットワーク、及びWLAN、セルラなどの無線ネットワークを含む、種々様々なネットワークN/W及びプロトコルタイプ内での、多重通信を促進し得る。実施形態では、I/Oインタフェースデバイス106は、複数のデバイスを相互に、又は、別のサーバに、接続する一つ若しくはそれ以上のポートを含み得る。
メモリ102は、例えば、静的ランダムアクセスメモリ(SRAM)及び動的ランダムアクセスメモリ(DRAM)などの揮発性メモリ、及び/又は、読み取り専用メモリ(ROM)、消去可能PROM、フラッシュメモリ、ハードディスク、光学ディスク、及び磁気テープなどの不揮発性メモリを含む、周知の任意のコンピュータ読み取り可能媒体を、含み得る。実施形態では、データベース108はメモリ102に格納されるが、データベース108は、ユーザと、問い合わせ及び応答などを含むシステム100との、相互作用に関連する情報を含み得るが、それらに限定されない。実施形態では、メモリ102は、例えば、シャムモデル、分類モデルなどのモデリング技術を格納でき、該モデリング技術は、一つ若しくはそれ以上のハードウエアプロセッサ104により実行されて本明細書に記載の方法を実施する。
図1に関連して、図2は、本開示の実施形態に係る図1のシステム100を用いて、問い合わせのターゲットクラスを特定してその応答を生成する、本開示の実施形態に係る方法の、例示のフロー図を示す。実施形態では、システム100は、一つ若しくはそれ以上ハードウエアプロセッサ104と操作自在で結合する一つ若しくはそれ以上のデータストレージデバイス若しくはメモリ102を含み、一つ若しくはそれ以上のプロセッサ104により方法のステップを実行するために命令を格納するように構成されている。システム100は、トレーニングされるモデル(シャムモデル及び分類モデル)と関連する値(及び/又はパラメータ)を格納する。図1及び図3に示すシステム100のコンポーネント、及び図2のフロー図を参照して本開示の方法のステップを説明する。本開示の実施形態では、ステップ202にて、双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器システム100が、一つ若しくはそれ以上のハードウエアプロセッサにより、一つ若しくはそれ以上のユーザの問い合わせを取得する。実施形態では、一つ若しくはそれ以上のユーザの問い合わせは、可変長nのワードx=(w,w,...w)のシーケンスを含む。実施形態では、BiLSTM−シャムネットワークベース分類器システム100は、図3に示すように、シャムモデル302及び分類モデル304を含み、シャムモデル302と分類モデル304の夫々は、埋め込みレイヤ308(以下では、回帰ニューラルネットワークとも称する)(RNN埋め込みレイヤ)、単独のBiLSTMレイヤ310、及び時間分散高密度(TDD)レイヤ312を含む、共通のベースネットワーク306(以下、ベースネットワークとも称する)を備える。分類モデル304は、ソフトマックスレイヤが後に続くマックスプールレイヤ314(図2及び図3には示さず)を含む。特に、図1及び図2に関連して、図3は、本開示の実施形態に係る、繰り返しトレーニング手続きを伴うハイブリッドシャム及び分類モデルの例を示す。本開示の実施形態では、ステップ204において、共通のベースネットワークの埋め込みレイヤ308にて、問い合わせ、回答/応答、及び関連する管理方針文書と共に関する、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして、一つ若しくはそれ以上のユーザの問い合わせが表される。実施形態では、ワードのシーケンスは対応するベクトルにより置換され、対応するベクトルはワードツーベクトルモデルを用いて初期化され、対応するベクトルはBiLSTM−シャムネットワークベース分類器システム100のトレーニングの間、持続的に更新される。ワードツーベクトル(以下、ワード2ベクとも称する)マトリクスは、初期回帰埋め込みレイヤの重みを初期化するのに用いられ、該初期回帰埋め込みレイヤは、1ホット符号化ワードベクトルのシーケンスとして一つ若しくはそれ以上の問い合わせを取り込み、ワードベクトルvの符号化シーケンスを出力する。よって、埋め込みレイヤ308は、ユーザの問い合わせのワードベクトルx=(v,v,...v)のシーケンスから、個々のユーザの問い合わせの順次表現を学習する。(システム100を含む)モデルの残りのトレーニングの間、このレイヤの重み(即ち、w2v)も誤差逆伝搬を介して更新される。
本開示の実施形態では、ステップ206において、シャムモデル302のBiLSTMレイヤ310は、インプットとして個々のワードのベクトル表示のシーケンスを受け取りアウトプット(あらゆる時間ステップにおける一つ若しくはそれ以上の「t」隠れ状態)を生成する。実施形態では、個々のワードのベクトル表示は、正順と逆順のうちの少なくとも一つにてインプットされ、結果として問い合わせのあらゆるワードにて、右手側と左手側の両方にて他のワードの文脈を保持する。LSTM即ち長短期メモリネットワークは、RNN(回帰ニューラルネットワーク)の異形である。LSTMは、減少する勾配の問題を緩和するように設計されており、該問題は、RNNが長期間パターンを伴うシーケンスを学習すると発生する。埋め込みレイヤ308により戻されるユーザの問い合わせは、個々のタイムスタンプにおけるベクトルのシーケンス、即ち、x=(v,v,...v)として表され、該ベクトルのシーケンスはBiLSTMレイヤに対するインプットである。LSTMユニットのアウトプットは、従前の隠れ状態ht−1の関数としてのRでのゲートのセットと、以下のように記載される現在の時間ステップにおけるインプットvにより、コントロールされる。
Figure 2019049957
ここで、σは、アウトプットが[0、1]であるロジスティックシグモイド関数であり、tanhは、アウトプットが[−1、1]である双極正接関数を示し、
Figure 2019049957
は、要素に関する乗算を示す。fは、古いメモリセルからどれだけの情報が忘れられているかを決定する関数として見ることができ、iは、どれだけ多くの新しい情報が現在のメモリセルに格納されているかを制御するものであり、oは、メモリセルcに基づいてアウトプットを制御する。双方向LSTMレイヤ(BiLSTM)310は、図4に示す分類モデル304のために用いられる。上述のように、シーケンスは、正順の及び逆順のインプットとして与えられ、結果として問い合わせ内のあらゆるワードにおいて右手側と左手側の両方で他のワードの文脈を保持する。
本開示の実施形態では、ステップ208において、アウトプットが、共通のベースネットワーク306の時間分散高密度(TDD)レイヤ312を介して送信(若しくは処理)され、ベクトルのシーケンスを取得する。本開示の実施形態では、ステップ210において、分類モデル304のマックスプールレイヤ314が、ベクトルのシーケンスのディメンジョンに関する最大値を取得し若しくは取り込み、ファイナルベクトルを形成する実施形態では、分類モデル304は、上記の共通のベースネットワーク306を用いて、あらゆる時間ステップに一つ、T隠れ状態を取得する。これらの隠れ状態はマックスプールレイヤ314を通過するが、該マックスプールレイヤ314は、ネットワークのある種のアテンションレイヤとして作用して一つ若しくはそれ以上の問い合わせの最も重要な意味論的特徴を特定する。実施形態では、このマックスプールレイヤ314は、ディメンジョンに関する最大値を取り込んでファイナルベクトルを形成する。
本開示の実施形態では、ステップ212において、分類モデル304のソフトマックスレイヤが、形成されるファイナルベクトルに基づいて一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、決定されたターゲットクラスに基づいて一つ若しくはそれ以上の問い合わせへの応答をアウトプットする(若しくは提供する)。実施形態では、システム100は、データベース108に格納された一つ若しくはそれ以上の予め規定された応答から、応答を提供する。実施形態では、平方根カルバックライブラ発散(KLD)損失関数がベクトルのシーケンスに適用され、分類モデル304を最適化する。実施形態では、クロスエントロピ損失関数は、予測される離散可能性分布
Figure 2019049957
と、ターゲット分布
Figure 2019049957
との間の、KL発散として見ることができ、該KL発散は、正しいクラスに対して値1を、その他にはゼロを伴う、指標関数である。これらは、対応してP及びTとして、即ち、
Figure 2019049957
として、表される。Tでは、ターゲットクラス以外の全ての他の用語はゼロまで減少し、結果としてTは、
Figure 2019049957
まで減少し、これは周知のクロスエントロピ損失である。
ネットワークに埋め込み(問い合わせ埋め込み)のより良い分離を学習させる観点で、上記の損失は、全ての予測に対して、即ち、予測が正しいか間違っているかに関わりなく、僅かに増加させてもよい。このために、予測分布Pの全ての可能性の平方根を取り、続いて新しい確率分布Qを取得するために再正規化する。Qは、図4に示すように、Pよりも高いエントロピを有する。特に、図4は、本開示の実施形態に係る、予測確率分布(P)、Pの平方根及び正規化の後の得られる新しい確率分布、及びターゲット分布Tを示すグラフ表示である。図4から分かるように、高い見込みのクラスの可能性は減少し、低い見込みのクラスの可能性は僅かに増加する。標準的カテゴリクロスエントロピ損失を用いる代わりに、深いネットワークの場合にはKLD(Ti||Qi)を用い、これは、活性化インプットをファイナルソフトマックスレイヤに半分だけスケール化することと等価である。表1、2、及び3に表される評価結果から観察され得るように、この提案されるアプローチは、(このセクションにて後で説明する)シャムネットワークに繰り返して取り付けられるときと共に、BiLSTM分類に関してより良い正確性を達成する助けとなる。損失の人工的な増加は問い合わせ埋め込みのより良い分離により役立つということを、このことは示唆している。同様の技術が従来のアプローチにより用いられたのであり、従来のアプローチは、予測される分布の二乗を取り込み、それを、監視されていないセッティングでのクラスタリングのための予備的ターゲット分布と想定したが、一方で本開示の実施形態、及び提案されるアプローチは、予測される分布の平方根を取り込み、分類の文脈で、損失を増大するためにそれを用いる。
上記のモデルでは、あるクラスに属するユーザの問い合わせの多くが誤って分類されることが屡々である、ということが観察された。分類の正確性を改良するために、分類モデル304を稼働した後の繰り返し毎に、屡々誤分類される問い合わせの対が特定された。即ち、あるクラスの多くの問い合わせが検証データセットの別のクラスに在ると、屡々予測される。言い換えると、BiLSTM−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーが判別されたのであり、該一つ若しくはそれ以上のエラーは、問い合わせのセットに対して決定される一つ若しくはそれ以上のターゲットクラスを含み、該一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットが生成された。ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対のセットを用いて、シャムモデルが続いて繰り返しトレーニングされた。結果として、シャムモデル302は、対応する問い合わせ埋め込みを別々に駆動するように試みるのであり、分類モデル304がそのような問い合わせを正確に分類して以下に記載するようなより良い正確性に導くことは、比較的より容易になる。ここで、シャムモデル302が問い合わせの対に一度に作動するという事実が利用されるのであり、このことは、繰り返し毎に、これらのクラスの問い合わせの埋め込みを別々に駆動する助けとなる。実施形態では、ベースネットワークの一つ若しくはそれ以上の重みが、BiLSTM−シャムネットワークベース分類器のトレーニングの間、シャムモデル及び分類モデルにより共有される。シャムモデル302は、多数の様々な問い合わせの対{x,x}を取り込み、それらの一部は同じクラスに属し、一方、他のものは様々なクラスに属し、例えば、問い合わせの一対を想定して、システム100の目的は、それらが同じクラスに属する{1}か否か{0}かを予測することである。結果として、一つ若しくはそれ以上の重みを用いて、一つ若しくはそれ以上の問い合わせをシャムモデル302(例えば、同じニューラルネットワークアーキテクチャ)を介して通過させることにより、複数の問い合わせ埋め込みが取得され、ここで、誤差逆伝搬を介してBiLSTM−シャムネットワークベース分類器システム100(若しくはニューラルネットワーク)の一つ若しくはそれ以上のパラメータを更新するために、対照発散損失が複数の問い合わせ埋め込みについて適用され、よってシャムモデルを最適化する。シャムモデル/ネットワーク302は、BiLSTMの単独のレイヤが後に続くベースネットワークを含み、そこから最終状態がインプット問い合わせの埋め込みとして取り込まれる。(シャムモデル302の最後から2番目のレイヤである)BiLSTMレイヤ310は、問い合わせ{x,x}の各々に対して問い合わせ埋め込みe(x)及びe(x)を戻す。最初は、複数の問い合わせ埋め込み、e(x)及びe(x)の間のユークリッド距離が算出され、対照発散損失が、算出されたユークリッド距離に基づいて計算(若しくは算出)されるが、該計算は以下の式により示される。
Figure 2019049957
ここで、C∈{0,1}は、問い合わせの対に対するターゲットクラスである。二つの問い合わせが同じクラスに属するとき(C=1)、第1項がアクティブとなり、Dそれ自体が損失となり、ネットワークが埋め込みの間の距離を減少しようとする。二つの問い合わせが異なるクラスに属するとき(C=0)、上記式(2)の第2項がアクティブとなり、埋め込みの間の距離がマージンmより大きいならば、損失項はゼロとなり、それ以外ならば、損失は(m−D)である、即ち、埋め込みを離して駆動することを試みる。効果的に、対照発散損失は類似の問い合わせの埋め込みをまとめるのであり、非類似の問い合わせの埋め込みを少なくともマージン(m)距離だけ離すように押しやる。ここで、(同じクラスに属する)正の対と(異なるクラスに属する)負の対の比は、1:2となるように、対はサンプルされる。問い合わせが相互に最高のジャッカール類似度を有するように、負の対はサンプルされる。図3の上方の長方形内にシャムモデル302の模式図を示す。
モデル評価結果
表1は、全ての評価を実施するのに用いられる三つのデータセット(休暇許可、健康保険スキーム(HIS)、及び20ニュースグループ)の一般統計を示す。表1は、トレーニングに用いられるデータスプリット、検証及びテストデータ、更には、個々のデータセットにおける、平均の文の長さ及びクラスの数も、示す。HIS及び休暇許可のチャボットデータセットは、60−20−20の比でトレーニング−検証−テストのセットにスプリットされる。
Figure 2019049957
20ニュースグループ(20NG):20のニュースグループからのドキュメントで構成される。最新(bydate)バージョンが用いられ、四つの主要なカテゴリが選択された(総合(comp)、政治、娯楽、及び宗教)。更に、トレーニングデータの10%が検証データセットとして用いられた。初期の停止基準が、分類モデルの検証損失に基づいて採用された。
HRチャボットデータの詳細及びサンプル質問を以下に示す。
大組織は通常、従業員給付のための精緻な人的資源管理方針を有する。それら管理方針は、読むことさえしばしば困難である大量のドキュメントに、通常記載される。従業員は、これらの管理方針の広範な見識に依存するか、人事責任者からの助力を求めるか、であるが、この人事責任者からの助力は、特に問い合わせが妊娠や病気などの個人情報を明らかにする場合、大組織内の抑止として作用する。デジタルアシスタントを開発するに当たっての本開示の実施形態の目標は、従業員の問い合わせを秘密のままとすることを保証することと、大量の管理方針ドキュメントへの単なるポインタ以上の、キュレートされた回答の形式での正確な助力を提供することを保証することとの、両方である。問い合わせのターゲットクラスを特定してそれらの応答を提供するシステム100(例えば、HR管理方針問い合わせのためのFAQアシスタント)は、開発されて「チャボット」としてこの環境に統合された。図5は、図1〜図4を参照して、「Watt」と呼ばれるチャボットを示し、該「Watt」は、本開示の実施形態に係る、休暇許可及び健康保険スキーム(HIS)関連管理方針に関する質問に回答する。図6は、図1〜図5を参照して、本開示の実施形態に係る、類似の問い合わせフォームの一つのクラスタを表す健康保険スキームデータセットからのサンプル問い合わせを示す。
初期のFAQ及びトレーニングセットを創作するために、人事領域専門家で構成されるタスクフォースが形成され、(「HRボットの先生」と呼ばれる)その独立の協力グループを与えられた。このチームは最初、夫々が問い合わせセットと称される、類似の質問の多数のセットを創作したが、問い合わせセットの質問の全ては、それらが単独に回答により機能し得るようなものである。次に、回答は、先生が管理方針ドキュメントを注意深く読み込み、熟考し議論することで、キュレートされた。休暇許可管理方針のための199のそのような問い合わせセットが創作され、HIS管理方針のための177の問い合わせセットが創作された。プロセスでは、先生は、10000の異なる質問を創作して終了した。
上述のようなシードデータの創作の後、(以下、チャボットとも称される)システムの最初のバージョンが配備され/実装され、コマンドライン命令を用いて、チャボットインタフェースそれ自身から後続のトレーニング及びデータ創作が為された。よって、為された予測が間違っていた場合には正しい問い合わせセットにIDを与えることにより、チャボットをトレーニングすることが可能であった。そのようなフィードバックは、係属して更なるトレーニングデータを生成するのであり、該トレーニングデータを用いてHSCM−IT分類器が周期的に再トレーニングされる。トレーニングタイムの間、間違って分類された質問が、再トレーニングインターバルの間に略逐語的に繰り返される場合には、分類器アウトプットの代わりに、トレーナフィードバックを介して初期に提供される訂正が戻され、よって、継続学習の錯覚を与える。
データ前処理:
システム100内に供給される前のこれらの問い合わせは、以下のステップi)〜iii)で前処理された:
i)問い合わせが、それらの小文字に変換された。システムは、このステップを行うことにより大文字と小文字とを区別しないものとされた。
ii)テキストからの特別な文字の除去。
iii)全ての略語を捕獲してそれらを実際の意味と置き換える。例えば、mlは出産休暇許可(maternity leave)と置き換え、smlは特別出産休暇許可(special maternity leave)と置き換える。
ストップワードの除去は無かった。テキストから或るワードを除去することは分類器のパフォーマンスの僅かな劣化に繋がることが観察され、よって、より良好な予測の正確性のためには全てのワードが要求される、との結論に到ったからである。
ワード分布ベクトル:テキストの前処理の後、スキップグラムアルゴリズム/技術を用いてワード2ベクが学習された。全ての管理方針ドキュメント、チャボット回答、及び、全ての問い合わせセットの質問が、全てのワードに関する、これらのドメイン固有ベクトル表示を学習するために用いられた。英語のウイキペディア(登録商標)データに関して学習される汎用GLOVEワード埋め込みも試みられたが、しかしながら、ドメイン固有埋め込みがより正確性を提供することが観察された。おそらく、多数のドメイン固有ターム、若しくは、「休暇許可」などのワードの直交的意義のためである。
トレーニングディテール:
ベースネットワーク及びその重みは、シャムモデルと分類モデルとの両方のブランチで、共有された。我々は、ネットワークのハイパーパラメータの、即ち、範囲{100−350}での隠れユニットの、グリッド検索も行ったのであり、このとき、50ユニットのステップサイズ、範囲{20、40、64、128}のバッチサイズ、及び範囲{0.1、0.01、0.001、0.0001}の学習率を伴うものであり、更に検証セットに関して選ばれたパラメータの最良セットを取得した。最後に、ハイパーパラメータの最良の選択に関して、あらゆるモデルは様々な初期設定で「x」回(例えば、10回)トレーニングされ、見えざるテストデータに関して平均の正確性/F1を観察された。HISに対するベースネットワークの250の隠れユニット、及び、休暇許可データに対する300の隠れユニットにより、最良の結果が得られ、20ニュースグループについての150の隠れユニットにより最良の結果が得られた。64のバッチサイズは、全てのデータセットについて最良の結果を与えた。オプティマイザは、0.001のデフォルトの学習率により、全てのデータセットについて最良の結果を与えた。最後に、ハイパーパラメータa及びbも、検証データセットについての最良の結果に対して調整され、HSCM−ITがa=5及びb=10に対して最良の結果を実行することが見出された。
正則化:LSTMは、多数のトレーニングデータを要求し、膨大なパラメータを有し、結果として、トレーニングデータに容易に過剰適合する傾向があり、例えば、早期の停止、L1/L2正則化(重み減衰)及びバッチ正規化を含む、技術が、システム100により用いられることを防ぐ。バッチ正規化は、モデルへのインプットの分布における内部共変量シフトを減少することができたかなり最近の技術である。結果として、RNNのより高速の収束及びより良好な一般化となった。
ハイブリッドモデルの進歩(HSCM):
提示される技術HSCM−IT(F)のパフォーマンスが、単語の袋(bag−of−words)アプローチ(A)に続くTF−IDF分類器と、比較された。レポートされる他の結果の主たる目的は、HSCM−ITの個別のコンポーネントのパフォーマンスをそれ自身のパフォーマンスと徐々に比較することである。比較されるコンポーネントは、(B)2レイヤを伴う双方向LSTM、(C)分類モデル、(D)シャムモデル、及び、(E)繰り返しのトレーニング手順の無いHSCM、である。これらの結果は、チャボットデータセットに対する表2にて、及び、20ニュースグループパブリックデータセットについての表3にて、レポートされている。これらのモデルの全てについて、我々はSQRT−KLD損失を用いる利点もレポートする。即ち、(B)、(C)及び(D)の全てについて、二つの評価が実行されたが、一つはクロスエントロピ損失関数によるものであり、もう一つはSQRT−KLD損失関数によるものであった。表2は、チャボットデータセットについて、二つの損失関数クロスエントロピ及びSQRT−KLDによる、ベースライン技術と提示される技術/提示されるアルゴリズムHSCMとの間の、(10ランを超えての)平均の正確性の比較を示す。「*」は表2における1ランのみを表す。表3は、20ニュースグループデータセットについての、(10ランを超えての)平均のF1スコアの比較を表す。
Figure 2019049957
Figure 2019049957
TF−IDFベース分類:TF−IDF分類器のパフォーマンスが最初、評価されたが、該評価はワードの袋アプローチに基づくものであり、あらゆるクラスの特徴的なワードが何度データ内に存在するかを示す。これに対して、最初にあらゆる問い合わせセットに対する、及び(分類される必要がある)ユーザの問い合わせに対する、TF−IDFベクトルが算出され、続いてターゲットクラスが、第1の最近傍を用いて、距離測度としてコサイン類似度を用いて、見出された。結果は、20ニュースグループデータがHIS及び休暇許可データセットよりも、より多くのクラス特徴的ワードを有することを、示す。これは、チャボットデータセット内のクラスの数が20ニュースグループデータよりもずっと高いからでもある。HIS及び休暇許可データセットについて、HSCモデルにより、TF−IDFモデルと対比して、正確性にて〜11%、〜26%の最大利得が観察され、20ニュースグループについて、F1スコアにて対応する利得が〜6%のみで観察された。三つのデータセットにおける文のペアワイズジャッカール類似度が算出され、20ニュースグループにおいて平均のクラス間のジャッカール類似度が0.0911であり、HIS及び休暇許可において平均のクラス間のジャッカール類似度が、夫々0.1066及び0.1264であると、見出された。このことは、HIS及び休暇許可データセットがより分類し難いことも示す。
BiLSTMによる深い分類モデル:上記記載で与えられた問題点に対して、為すことができる第1の明白な選択はRNNの使用である。RNNがシーケンシャルデータを含むからである。本開示の実施形態は従って、問題点のための開始点として(B)双方向LSTMを用いた。20ニュースグループのTD−IDFとBiLSTMとの間の小さいギャップは、選択されたクラスが相応に直交するものであり、一方でギャップはHISデータで増加し休暇許可データでは最大値であり、該休暇許可データは三つ全ての間で実際最も確かなデータであるという事実を強調する、ということを示す。
分類モデル:このモデルは、注目のための更なるマックスプールレイヤを用いる。このモデルのみが(B)と殆ど等しく休暇許可及び20ニュースグループデータについて実行することが観察され得るが、小さい利得がHISデータセットで観察された。
D)1−NNを伴うシャムモデル:ユーザの問い合わせxの埋め込みと、トレーニングデータx∈Dtrainに存在する問い合わせの埋め込みとの間のユークリッド距離を用いる1−NN分類器により、シャムモデルの正確性のみが測定された。このモデルの正確性は、BiLSTMモデルそれ自身よりも悪い(若しくは、良くない)ことが、観察され得る。
ハイブリッドモデル:E)HSCM&HSCM−IT:最後に、ハイブリッドモデル(E)HSCM−ITは分類モデルそれ自身よりもより良く実行しないことが観察され得る。システム100による、提示されるアプローチ(F)HSCM−ITは、全てのデータセット(HIS、休暇許可、及び20ニュースグループデータ)に冠して全ての他のアプローチ(A〜E)よりもより良く実行するが、ときどき僅かな境界を伴うことがある。他のアプローチに亘って主要な利点をもたらして、被類似の問い合わせの埋め込みを離して駆動する助けとなるものは、ハイブリッドモデル:の繰り返しのトレーニング手順である、ということを、これらの結果が経験的に証明する。ここで、しばしば誤分類される問い合わせの対が含まれ、検証データにおいて観察され、あらゆる繰り返しにおいてシャムトレーニングにて、トレーニングデータから取り込まれる。
SQRT−KLD損失の利点:全ての三つのデータセット及び全ての深層学習アプローチに亘って、SQRT−KLDがクロスエントロピ損失に関する正確性/F1スコアの利得に繋がった、という一貫したパターンが観察された。20ニュースグループについてのF1スコアの利得は一貫して〜1%であり、HISデータセットでの、この損失関数を用いることによる正確性の利得は約2〜3%であり、休暇許可データセットではこの利得は小さい。
埋め込み分離:HSCM−ITアルゴリズム/技術が、いかにして、問い合わせの埋め込みを他のクラスの問い合わせから離して駆動し、そうで無いならば反転させる、助けとなるかを示すために、クラスのサブセットがHISデータセットから取り込まれた。HIS及び休暇許可データセットのクラスは、複数のカテゴリに編成された。例えば、病気休暇許可に関する全てのクラスは同じカテゴリにバケットされ、又は、健康保険料に関する全てのクラスは一つのカテゴリにグループ化された。カテゴリ内のクラスは、多数のオーバラップするコンセプトを有し、正確に分類することを困難にしている、ということが見出されている。同じカテゴリのクラスに属するトレーニングデータの埋め込みが取り込まれ、分離の程度を視覚化するT−SNE次元縮小技術を用いた。一つのそのようなサンプルの比較を図7に示す。特に、図7は、本開示の実施形態に係る、図1及び図2のシステム100の分類モデル306で得られる(A)BiLSTM埋め込みと(B)HSCM−IT埋め込みを示す。ここで、同じクラスの問い合わせは同じ形状(例えば、円、正方形、長方形、逆三角形、菱形、及び楕円形状)を共有する。例えば、図7に示す全ての円はクラス「m」にのみ対応する。同様に、図7に示す全ての正方形はクラス「n」にのみ対応し得る。
ベースライン比較:回答を検索するためにユーザの問い合わせを分類するための、問い合わせ−問い合わせ類似性を見出す提示されるアプローチと、最も類似のアルゴリズムは、RCNN技術である。提示される技術/アルゴリズムのパフォーマンスは、チャボットデータセットと、及び、20ニュースグループとについてのRCNN技術と比較された。表4に示す結果は、同じアルゴリズムの提示される実装に基づくものである。ここで、HSCM−ITはHISデータについて3%だけRCNNより良好にパフォーマンスを行い、休暇許可データについて1%だけ良好にパフォーマンスを行う、ということが観察され得る。
Figure 2019049957
展開結果:
人の消費のための機械学習ベースの質問回答システムを展開するにあたり、システムがその問い合わせに正確に回答すること、若しくは、間違った回答を提供する代わりに回答することをできる限り自制することの、いずれも試みることが実際には重要である。我々は、我々のモデルHSCM−ITにより予測される離散確率分布のエントロピを用いて、自制するかどうか決定する。エントロピが選択した閾値τより高ければ、システムは回答することを自制しその代わりにユーザを人の応答者に転送する。このセッティングでのパフォーマンスを分析するために、モデルの予測を三つのカテゴリ:真陽性(若しくは、真+バンド)、偽陽性(若しくは、偽+バンド)、及び自制(若しくは、自制バンド)、に分ける。HISと休暇許可データセットの両方夫々のための、τの値を変更するプロットを図8A及び図8Bに示す。特に、図8A及び図8Bは、図1〜図7を参照して、本開示の実施形態に係る、エントロピ閾値に関する真陽性の、自制の、及び偽陽性のカテゴリのバリエーションを示すグラフ表示を表す。適切なエントロピ閾値は、真陽性で大きく低下すること無く偽陽性及び自制のケースのレベルが許容レベル内で保持されるように、特定され得る。HSCM−ITでは(偽+を示す)バンドはRCNNプロット(特に80%以上の真+)よりも比較的狭いことが、図8A−図8Bから観察され得る。このことは、HSCM−ITモデルがRCNNモデルよりも実際には展開可能であることを、示唆する。提示されるHSCM−ITモデルのより高い正確さは埋め込みの分離に寄与し得ることが推測され得るのであり、該埋め込みの分離はその主要な目的の一つであった。最良のケースの真陽性の割り当てを用いると、それらチャボットの展開後には管理方針関連の問い合わせに回答する人事部門の日々の負荷は現行の6000レベルから1000以下に低下すると見積もられ得る。
大切なことを言い忘れていたが、あらゆる問い合わせに対して、システム100は最初に、問い合わせが保険に関するものか休暇許可管理方針に関するものかを決定するということを再び留意すべきである。ユーザの問い合わせを二つのカテゴリ「HIS」、「休暇許可」に分類するのに同じモデル(HSCM−IT)が用いられるのであり、このことは非常に高い正確性(>96%)を有することが観察された。
本開示の実施形態は、FAQに自動的に回答する自然言語アシスタントとして作用する、問い合わせのターゲットクラスを特定してそれらの応答を提供する、双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器システム及び方法を、提供する。システム100は、ニューラルネットワークのソフトマックスレイヤ内で使用可能な新しい損失関数SQRT−KLDを導入する。実施形態は、経験的評価を介して方法の有効性も実証し、パブリックのデータセット及び実生活のデータセットについてのベースラインアプローチよりも、方法がより良くパフォーマンスを行うことを、示した。実験の評価及び結果から、HSCM−ITモデルはベースライン技術よりもより良好な適合率−再現率のトレードオフを有し、実際により展開可能なアルゴリズムとなることが、明確に示される。更に、システム100は、特に機械学習や深層学習のアルゴリズムのために用いられる、グラフィカルプロセッシングユニット(GPU)で構成される(若しくはGPUに常駐する)、専用ハードウエア、又はコンピュータシステムに、常駐してもよい(若しくは、常駐することができる、又は、常駐する)。従来のコンピュータシステムとは異なり、システム100は、(例えば、100〜10000コア程度に高い)ハイエンドデータ処理コンポーネントを伴うGPUで構成され、システム100は大量のデータを処理し、同時に問い合わせの処理時間を減少させ、更にシステム100は正確性に関して改良するようにGPUにてトレーニングされ、よって、シャムモデル302及び分類モデル304を最適化する。
本明細書は、当業者が実施形態を作成し利用できるように発明の主題を記載している。実施形態の主題の範囲は、請求項により規定され、当業者に想起する他の変更例も含み得る。それら他の変更例が、請求項の逐次的文言と異ならない類似の要素を有するならば、又は、それら他の変更例が、請求項の逐次的文言からごく僅かしか異ならない等価の要素を含むならば、請求項の範囲内であることを意図するものである。
保護の範囲はそのようなプログラムに、更に、メッセージを内部に備えるコンピュータ読み取り可能手段に、拡張されることが理解されるべきである。それらコンピュータ読み取り可能手段は、サーバ若しくはモバイルデバイス、又は任意の適切なプログラム可能デバイスでプログラムが稼働するとき、方法の一つ若しくはそれ以上のステップを実装するプログラムコード手段を、含む。ハードウエアデバイスは、例えば、サーバやパーソナルコンピュータなどの任意の種類のコンピュータなどや、それらの任意の組み合わせを含む、プログラム可能な、任意のデバイスであればよい。デバイスは、例えば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)などの、例えば、ハードウエア手段、若しくは、例えば、ASICとFPGAなどの、ハードウエア手段とソフトウエア手段の組み合わせ、又は、少なくとも一つのマイクロプロセッサとソフトウエアモジュールが内に配置された少なくとも一つのメモリである、手段も含んでもよい。よって、手段は、ハードウエア手段とソフトウエア手段の両方を含み得る。本明細書に記載の方法の実施形態は、ハードウエア及びソフトウエアに実装され得る。デバイスは、ソフトウエア手段も含んでもよい。一方で、実施形態は、例えば、複数のCPUを用いて、様々なハードウエアデバイスで実装され得る。
本明細書の実施形態は、ハードウエア要素及びソフトウエア要素を含むことができる。ソフトウエアに実装される実施形態は、ファームウエア、常駐ソフトウエア、マイクロコードなどを含むが、それらに限定されない。本明細書に記載の、種々のモジュールにより実行される機能は、他のモジュールに、若しくは他のモジュールジュールの組み合わせに、実装され得る。本記載のために、コンピュータ使用可能、若しくはコンピュータ読み取り可能媒体は、命令実行システム、装置、若しくはデバイスとの接続により若しくは接続して、使用のためにプログラムを、含み、格納し、通信し、伝搬し、若しくは輸送できる、どんな装置でもよい。
例示するステップは、例示の実施形態を説明するのに設定されており、現在進行中の技術的な発展は、特定の機能が実行されるやり方を変更することが予想される。これらの例は、例示のために本明細書に表されており、限定するためではない。更に、機能的構成要素の境界を、記載の便宜のために本明細書に任意に規定した。特定の機能及びそれらの関係が適宜実施される限り、別途の境界が規定され得る。(本明細書に記載のものの、等価、拡張、変形、導出などを含む)別途のものは、本明細書に含まれる教示内容に基づけば当業者には明らかである。それら別途のものは、開示する実施形態の範囲及び精神の範囲内である。また、単語「含む(comprising)」、「有する(having)」、「包含する(containing)」、及び「含める(including)」、並びに他の類似の形式は、意味上等価であることが意図されており、これらの単語のいずれかに続く一つの項目若しくは複数の項目は、その項目若しくはそれら項目の包括的リストであることや、リスト化された項目にのみ限定されることを、意図するものではない、という点において、制約が無いことが意図されている。本明細書にて用いられるように、及び、添付の請求項において、単数形「一つの(a)」、「一つの(an)」、及び「その(the)」は、文脈が違うように指示しなければ複数の言及を含むことも、留意しなければならない。
更に、本開示と一致する実施形態を実装するのに、一つ若しくはそれ以上のコンピュータ読み取り可能記憶装置が利用され得る。コンピュータ読み取り可能記録媒体は、プロセッサにより読み取り可能な情報若しくはデータが格納される任意のタイプの物理メモリを示す。よって、コンピュータ読み取り可能記録媒体は、本明細書に記載の実施形態と一致するステップ若しくはステージをプロセッサに実行させる命令を含む、一つ若しくはそれ以上のプロセッサにより実行される命令を、格納し得る。用語「コンピュータ読み取り可能媒体」は、有体物を含み、搬送波や過渡信号を除外する、即ち、持続性のものである、と理解すべきである。例示は、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードディスク、CD ROM、ブルーレイ、DVD、フラッシュドライブ、ディスク、及び、任意の他の周知の物理記録媒体を、含む。
開示及び例は例示としてのみ考慮され、開示する実施形態の真の範囲及び精神は以下の請求項により示される、ということが意図される。
100・・・双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器システム、102・・・メモリ、104・・・ハードウエアプロセッサ、106・・・インタフェース。

Claims (18)

  1. プロセッサ実装方法において、
    双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得するステップであって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、BiLSTM−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のBiLSTMレイヤ、及び時間分散高密度(TDD)レイヤ含む、共通のベースネットワークを含む、取得するステップと、
    繰り返して複数の所定のステップを実行するステップと
    を含み、
    前記複数の所定のステップは、
    前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップと、
    あらゆる時間ステップにおける「t」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のBiLSTMレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
    ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度(TDD)レイヤを介して、前記単独のBiLSTMレイヤから取得されるアウトプットを処理するステップと、
    ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
    前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
    である、プロセッサ実装方法。
  2. 平方根カルバックライブラ発散(KLD)損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する、請求項1に記載のプロセッサ実装方法。
  3. ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記BiLSTM−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、請求項1に記載のプロセッサ実装方法。
  4. 更に、
    前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別するステップであって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別するステップと、
    前記一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットを生成するステップと、及び、
    ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングするステップであって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングするステップと
    を含む、請求項1に記載のプロセッサ実装方法。
  5. 更に、
    前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得するステップと、
    前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用するステップと、及び、
    前記BiLSTM−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新するステップと
    を含む、請求項4に記載のプロセッサ実装方法。
  6. 対照発散損失を適用する前記ステップは、
    前記複数の問い合わせ埋め込みの間のユークリッド距離を算出するステップと、
    前記算出されたユークリッド距離に基づいて前記対照発散損失を計算するステップと
    を含む、請求項5に記載のプロセッサ実装方法。
  7. 双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器システムにおいて、
    命令を格納するメモリと、
    一つ若しくはそれ以上の通信インタフェースと、及び、
    前記一つ若しくはそれ以上の通信インタフェースを介して前記メモリと結合する一つ若しくはそれ以上のハードウエアプロセッサと
    を含み、
    前記一つ若しくはそれ以上のハードウエアプロセッサは、
    双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得する命令であって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、BiLSTM−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のBiLSTMレイヤ、及び時間分散高密度(TDD)レイヤ含む、共通のベースネットワークを含む、取得する命令と、
    繰り返して複数の所定のステップを実行する命令と
    を実行するように構成されており、
    前記複数の所定のステップは、
    前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップと、
    あらゆる時間ステップにおける「t」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のBiLSTMレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
    ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度(TDD)レイヤを介して、前記単独のBiLSTMレイヤから取得されるアウトプットを処理するステップと、
    ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
    前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
    である、BiLSTM−シャムネットワークベース分類器システム。
  8. 平方根カルバックライブラ発散(KLD)損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する、請求項7に記載のBiLSTM−シャムネットワークベース分類器システム。
  9. ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記BiLSTM−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、請求項7に記載のBiLSTM−シャムネットワークベース分類器システム。
  10. 前記一つ若しくはそれ以上のハードウエアプロセッサは、
    更に、
    前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別する命令であって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別する命令と、
    誤分類された問い合わせと問い合わせの対のセットを生成する命令と、及び、
    ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングする命令であって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングする命令と
    を実行するように構成されている、請求項7に記載のBiLSTM−シャムネットワークベース分類器システム。
  11. 前記一つ若しくはそれ以上のハードウエアプロセッサは、
    更に、
    前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得する命令と、
    前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用する命令と、及び、
    前記BiLSTM−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新する命令と
    を実行するように構成されている、請求項10に記載のBiLSTM−シャムネットワークベース分類器システム。
  12. 前記対照発散損失は、
    前記複数の問い合わせ埋め込みの間のユークリッド距離を算出し、前記算出されたユークリッド距離に基づいて前記対照発散損失を計算することにより、
    計算される、請求項11に記載のBiLSTM−シャムネットワークベース分類器システム。
  13. 一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
    双方向長短期メモリ(BiLSTM)−シャムネットワークベース分類器により、一つ若しくはそれ以上のハードウエアプロセッサを介して、一つ若しくはそれ以上のユーザの問い合わせを取得するステップであって、前記一つ若しくはそれ以上のユーザの問い合わせはワードのシーケンスで構成され、BiLSTM−シャムネットワークベース分類器はシャムモデル及び分類モデルを含み、シャムモデル及び分類モデルは、埋め込みレイヤ、単独のBiLSTMレイヤ、及び時間分散高密度(TDD)レイヤ含む、共通のベースネットワークを含む、取得するステップと、
    繰り返して複数の所定のステップを実行するステップと
    を行わせる、一つ若しくはそれ以上の命令を格納する、一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体において、
    前記複数の所定のステップは、
    前記共通のベースネットワークの前記埋め込みレイヤで、ワードツーベクトルモデルを用いて学習される、個々のワードのベクトル表示のシーケンスとして前記一つ若しくはそれ以上のユーザの問い合わせを表すステップと、
    あらゆる時間ステップにおける「t」隠れ状態を生成するために、前記共通のベースネットワークの前記単独のBiLSTMレイヤへ、個々のワードのベクトル表示の前記シーケンスをインプットするステップであって、個々のワードの前記ベクトル表示は正順と逆順のうちの少なくとも一つにてインプットされる、インプットするステップと、
    ベクトルのシーケンスを取得するために、前記共通のベースネットワークの前記時間分散高密度(TDD)レイヤを介して、前記単独のBiLSTMレイヤから取得されるアウトプットを処理するステップと、
    ファイナルベクトルを形成するために、前記分類モデルのマックスプールレイヤを用いて、ベクトルの前記シーケンスの、ディメンジョンに関する最大値を取得するステップと、及び、
    前記分類モデルのソフトレイヤにより、前記ファイナルベクトルに基づいて前記一つ若しくはそれ以上の問い合わせの少なくとも一つのターゲットクラスを決定して、前記決定されるターゲットクラスに基づいて前記一つ若しくはそれ以上の問い合わせへの応答を出力するステップと
    である、一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
  14. 平方根カルバックライブラ発散(KLD)損失関数がベクトルの前記シーケンスに適用されて前記分類モデルを最適化する、請求項13に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
  15. ワードの前記シーケンスが対応するベクトルにより置換され、前記対応するベクトルがワードツーベクトルモデルを用いて初期化され、前記対応するベクトルが前記BiLSTM−シャムネットワークベース分類器システムのトレーニングの間、持続的に更新される、請求項13に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
  16. 一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、前記一つ若しくはそれ以上の命令は、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
    更に、
    前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、問い合わせのセットに関連する一つ若しくはそれ以上のエラーを判別するステップであって、前記一つ若しくはそれ以上のエラーは、問い合わせの前記セットに対して決定される一つ若しくはそれ以上のターゲットクラスを含む、判別するステップと、
    前記一つ若しくはそれ以上のエラーに基づいて、誤分類された問い合わせと問い合わせの対のセットを生成するステップと、及び、
    ターゲットクラスを決定して一つ若しくはそれ以上の後続の問い合わせに対する応答を出力するために、一つ若しくはそれ以上の正しい対と共に、誤分類された問い合わせと問い合わせの対の前記セットを用いて、シャムモデルを繰り返しトレーニングするステップであって、前記共通のベースネットワークの一つ若しくはそれ以上の重みが、前記BiLSTM−シャムネットワークベース分類器のトレーニングの間、前記シャムモデル及び前記分類モデルにより共有される、トレーニングするステップと
    を行わせる、請求項13に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
  17. 一つ若しくはそれ以上のハードウエアプロセッサにより実行されるとき、前記一つ若しくはそれ以上の命令は、該一つ若しくはそれ以上のハードウエアプロセッサに対して、
    更に、
    前記一つ若しくはそれ以上の重みを用いて、前記一つ若しくはそれ以上の問い合わせを前記シャムモデルを介して通過させることにより、複数の問い合わせ埋め込みを取得するステップと、
    前記シャムモデルを最適化するために前記複数の問い合わせ埋め込みについて対照発散損失を適用するステップと、及び、
    前記BiLSTM−シャムネットワークベース分類器システムの一つ若しくはそれ以上のパラメータを更新するステップと
    を行わせる、請求項16に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
  18. 対照発散損失を適用する前記ステップは、
    前記複数の問い合わせ埋め込みの間のユークリッド距離を算出するステップと、
    前記算出されたユークリッド距離に基づいて前記対照発散損失を計算するステップと
    を含む、請求項16に記載の一つ若しくはそれ以上の持続性機械読み取り可能情報記憶媒体。
JP2018041710A 2017-09-11 2018-03-08 問い合わせのターゲットクラスを特定しそれらの応答を提供するBiLSTM−シャムネットワークベース分類器 Active JP6689902B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN201721032101 2017-09-11
IN201721032101 2017-09-11

Publications (2)

Publication Number Publication Date
JP2019049957A true JP2019049957A (ja) 2019-03-28
JP6689902B2 JP6689902B2 (ja) 2020-04-28

Family

ID=61683556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018041710A Active JP6689902B2 (ja) 2017-09-11 2018-03-08 問い合わせのターゲットクラスを特定しそれらの応答を提供するBiLSTM−シャムネットワークベース分類器

Country Status (7)

Country Link
US (1) US11836638B2 (ja)
EP (1) EP3454260A1 (ja)
JP (1) JP6689902B2 (ja)
AU (1) AU2018201670B2 (ja)
BR (1) BR102018004799A2 (ja)
CA (1) CA2997797C (ja)
MX (1) MX2018002974A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7431977B2 (ja) 2020-05-25 2024-02-15 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 対話モデルの訓練方法、装置、コンピュータ機器及びプログラム

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10386800B2 (en) * 2015-02-24 2019-08-20 Siemens Industry, Inc. Variable air volume modeling for an HVAC system
CN108052577B (zh) * 2017-12-08 2022-06-14 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
US11423143B1 (en) 2017-12-21 2022-08-23 Exabeam, Inc. Anomaly detection based on processes executed within a network
JP6969443B2 (ja) * 2018-02-27 2021-11-24 日本電信電話株式会社 学習品質推定装置、方法、及びプログラム
US11422996B1 (en) * 2018-04-26 2022-08-23 Snap Inc. Joint embedding content neural networks
US11431741B1 (en) * 2018-05-16 2022-08-30 Exabeam, Inc. Detecting unmanaged and unauthorized assets in an information technology network with a recurrent neural network that identifies anomalously-named assets
US11315164B2 (en) * 2018-05-18 2022-04-26 Target Brands, Inc. Complementary product recommendation systems
US11086911B2 (en) * 2018-07-31 2021-08-10 Wipro Limited Method and system for generating question variations to user input
US11625573B2 (en) * 2018-10-29 2023-04-11 International Business Machines Corporation Relation extraction from text using machine learning
US10983971B2 (en) * 2018-11-28 2021-04-20 Intuit Inc. Detecting duplicated questions using reverse gradient adversarial domain adaptation
US10867338B2 (en) * 2019-01-22 2020-12-15 Capital One Services, Llc Offering automobile recommendations from generic features learned from natural language inputs
AU2020272235A1 (en) * 2019-04-12 2021-11-04 Incyzr Pty. Ltd. Methods, systems and computer program products for implementing neural network based optimization of database search functionality
CN110046240B (zh) * 2019-04-16 2020-12-08 浙江爱闻格环保科技有限公司 结合关键词检索与孪生神经网络的目标领域问答推送方法
CN110046244B (zh) * 2019-04-24 2021-06-08 中国人民解放军国防科技大学 一种用于问答系统的答案选择方法
US10489474B1 (en) 2019-04-30 2019-11-26 Capital One Services, Llc Techniques to leverage machine learning for search engine optimization
US10565639B1 (en) 2019-05-02 2020-02-18 Capital One Services, Llc Techniques to facilitate online commerce by leveraging user activity
US11580392B2 (en) * 2019-05-30 2023-02-14 Samsung Electronics Co., Ltd. Apparatus for deep representation learning and method thereof
US11625366B1 (en) 2019-06-04 2023-04-11 Exabeam, Inc. System, method, and computer program for automatic parser creation
CN110457471A (zh) * 2019-07-15 2019-11-15 平安科技(深圳)有限公司 基于A-BiLSTM神经网络的文本分类方法和装置
CN111008529B (zh) * 2019-07-24 2023-07-21 贵州大学 一种基于神经网络的中文关系抽取方法
CN110457478B (zh) * 2019-08-09 2022-07-26 泰康保险集团股份有限公司 文本合规性检查方法及装置、电子设备和计算机可读介质
US11232110B2 (en) 2019-08-23 2022-01-25 Capital One Services, Llc Natural language keyword tag extraction
CN110543558B (zh) * 2019-09-06 2023-01-17 北京百度网讯科技有限公司 问题匹配方法、装置、设备和介质
US20210089892A1 (en) * 2019-09-24 2021-03-25 Schlumberger Technology Corporation Machine learning based approach to detect well analogue
CN110781680B (zh) * 2019-10-17 2023-04-18 江南大学 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN110825860B (zh) * 2019-10-24 2022-08-23 厦门快商通科技股份有限公司 知识库问答抽取方法、系统、移动终端及存储介质
CN110826338B (zh) * 2019-10-28 2022-06-17 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法
US11379220B2 (en) * 2019-11-25 2022-07-05 International Business Machines Corporation Vector embedding of relational code sets
CN111090985B (zh) * 2019-11-28 2023-04-28 华中师范大学 一种基于siamese网络和多核心LEAM架构的中文文本难度评估方法
CN111026853B (zh) * 2019-12-02 2023-10-27 支付宝(杭州)信息技术有限公司 目标问题的确定方法、装置、服务器和客服机器人
CN111026848B (zh) * 2019-12-17 2022-08-02 电子科技大学 一种基于相似上下文和强化学习的中文词向量生成方法
US10796355B1 (en) 2019-12-27 2020-10-06 Capital One Services, Llc Personalized car recommendations based on customer web traffic
CN111144370B (zh) * 2019-12-31 2023-08-04 科大讯飞华南人工智能研究院(广州)有限公司 单据要素抽取方法、装置、设备及存储介质
CN111241244A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 基于大数据的答案位置获取方法、装置、设备及介质
WO2021142532A1 (en) * 2020-01-14 2021-07-22 Halterix Corporation Activity recognition with deep embeddings
CN111274820B (zh) * 2020-02-20 2023-04-07 齐鲁工业大学 一种基于神经网络的智能医疗命名实体识别方法和装置
CN111325278B (zh) * 2020-02-26 2023-08-29 重庆金山医疗技术研究院有限公司 一种图像处理方法、装置及存储介质
CN111651992A (zh) * 2020-04-24 2020-09-11 平安科技(深圳)有限公司 命名实体标注方法、装置、计算机设备和存储介质
EP3910493A1 (en) 2020-05-12 2021-11-17 PayPal, Inc. Systems and methods for determining a response to a user query
CN111652000B (zh) * 2020-05-22 2023-04-07 重庆大学 一种语句相似度判断方法及判断系统
CN111507089B (zh) * 2020-06-09 2022-09-09 平安科技(深圳)有限公司 基于深度学习模型的文献分类方法、装置和计算机设备
US11956253B1 (en) 2020-06-15 2024-04-09 Exabeam, Inc. Ranking cybersecurity alerts from multiple sources using machine learning
US11302327B2 (en) * 2020-06-22 2022-04-12 Bank Of America Corporation Priori knowledge, canonical data forms, and preliminary entrentropy reduction for IVR
EP4183113A1 (en) * 2020-08-06 2023-05-24 Huawei Technologies Co., Ltd. Network management device and method for mapping network devices from various telecom vendors
CN111949530B (zh) * 2020-08-07 2024-02-20 北京灵汐科技有限公司 测试结果的预测方法、装置、计算机设备及存储介质
CN111985231B (zh) * 2020-08-07 2023-12-26 中移(杭州)信息技术有限公司 无监督角色识别方法、装置、电子设备及存储介质
CN112100344B (zh) * 2020-08-18 2024-02-27 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112015439B (zh) * 2020-09-21 2024-01-12 北京百度网讯科技有限公司 用户app兴趣的嵌入方法、装置、设备以及存储介质
CN112308148A (zh) * 2020-11-02 2021-02-02 创新奇智(青岛)科技有限公司 缺陷类别识别、孪生神经网络训练方法、装置及存储介质
CN112231537A (zh) * 2020-11-09 2021-01-15 张印祺 基于深度学习和网络爬虫的智能阅读系统
CN112445689B (zh) * 2020-11-27 2023-01-24 广州三七互娱科技有限公司 用户分类方法、装置及电子设备
CN112818119B (zh) * 2021-01-26 2022-12-02 支付宝(杭州)信息技术有限公司 一种信息的处理方法、装置及设备
CN112948580B (zh) * 2021-02-04 2023-05-12 支付宝(杭州)信息技术有限公司 一种文本分类的方法和系统
CN112801221B (zh) * 2021-03-24 2023-12-22 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及存储介质
CN113242547B (zh) * 2021-04-02 2022-10-04 浙江大学 一种基于深度学习的无线信号中用户行为隐私的滤除方法、系统及无线信号收发装置
WO2022268335A1 (en) * 2021-06-25 2022-12-29 Huawei Technologies Co., Ltd. Method and apparatus for interpreting phrases from users
CN113851190B (zh) * 2021-11-01 2023-07-21 四川大学华西医院 一种异种mRNA序列优化方法
CN114282646B (zh) * 2021-11-29 2023-08-25 淮阴工学院 基于两阶段特征提取和改进BiLSTM的光功率预测方法及系统
US20230186351A1 (en) * 2021-12-09 2023-06-15 Convosight Analytics Inc Transformer Based Search Engine with Controlled Recall for Romanized Multilingual Corpus
CN114595687B (zh) * 2021-12-20 2024-04-19 昆明理工大学 基于BiLSTM的老挝语文本正则化方法
CN114021574B (zh) * 2022-01-05 2022-05-17 杭州实在智能科技有限公司 政策文件智能解析与结构化方法及系统
CN114166858B (zh) * 2022-02-11 2022-04-12 海门市芳华纺织有限公司 基于人工智能的纺织毛刷辊划伤皮革区域检测方法
US11928854B2 (en) * 2022-05-06 2024-03-12 Google Llc Open-vocabulary object detection in images
US11860917B1 (en) * 2022-08-30 2024-01-02 Accenture Global Solutions Limited Catalog adoption in procurement
CN117291314B (zh) * 2023-11-24 2024-03-05 山东理工昊明新能源有限公司 能源风险识别模型的构建方法、能源风险识别方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4504441B2 (ja) * 2008-06-27 2010-07-14 株式会社トヨタIt開発センター 経路探索装置および経路探索方法
US20110131205A1 (en) * 2009-11-28 2011-06-02 Yahoo! Inc. System and method to identify context-dependent term importance of queries for predicting relevant search advertisements
WO2017212459A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
US10268646B2 (en) * 2017-06-06 2019-04-23 Facebook, Inc. Tensor-based deep relevance model for search on online social networks
US10609286B2 (en) * 2017-06-13 2020-03-31 Adobe Inc. Extrapolating lighting conditions from a single digital image
US20190043486A1 (en) * 2017-08-04 2019-02-07 EMR.AI Inc. Method to aid transcribing a dictated to written structured report

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7431977B2 (ja) 2020-05-25 2024-02-15 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 対話モデルの訓練方法、装置、コンピュータ機器及びプログラム

Also Published As

Publication number Publication date
CA2997797A1 (en) 2019-03-11
US11836638B2 (en) 2023-12-05
AU2018201670B2 (en) 2020-03-26
US20190080225A1 (en) 2019-03-14
JP6689902B2 (ja) 2020-04-28
BR102018004799A2 (pt) 2019-03-26
EP3454260A1 (en) 2019-03-13
AU2018201670A1 (en) 2019-03-28
CA2997797C (en) 2019-12-03
MX2018002974A (es) 2019-03-12

Similar Documents

Publication Publication Date Title
JP6689902B2 (ja) 問い合わせのターゲットクラスを特定しそれらの応答を提供するBiLSTM−シャムネットワークベース分類器
US11922308B2 (en) Generating neighborhood convolutions within a large network
Lakshmanan et al. Machine learning design patterns
US10534863B2 (en) Systems and methods for automatic semantic token tagging
US11816439B2 (en) Multi-turn dialogue response generation with template generation
EP3711031A1 (en) Analyzing spatially-sparse data based on submanifold sparse convolutional neural networks
US11551026B2 (en) Dynamic reconfiguration training computer architecture
US11775770B2 (en) Adversarial bootstrapping for multi-turn dialogue model training
CA3049051C (en) Resolving abstract anaphoric references in conversational systems using hierarchically stacked neural networks
US20220391433A1 (en) Scene graph embeddings using relative similarity supervision
US20190228297A1 (en) Artificial Intelligence Modelling Engine
Dey et al. Deep-n-Cheap: An automated efficient and extensible search framework for cost-effective deep learning
US11829735B2 (en) Artificial intelligence (AI) framework to identify object-relational mapping issues in real-time
KR102359662B1 (ko) 트렌드에 기초하여 대화의도를 추출하는 방법
US20230018525A1 (en) Artificial Intelligence (AI) Framework to Identify Object-Relational Mapping Issues in Real-Time
US20240013066A1 (en) Multi-stage knowledge graph construction using models
Vanarase CLAN: Communities in Lexical Associative Networks
Li et al. Incremental hybrid Bayesian network in content-based image retrieval
Deb Emergence Phenomenon Could Be Applied in Meaningful Image Segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190521

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200408

R150 Certificate of patent or registration of utility model

Ref document number: 6689902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250