JP7101706B2

JP7101706B2 - 自然言語処理方法、装置及び設備

Info

Publication number: JP7101706B2
Application number: JP2019564011A
Authority: JP
Inventors: 庄銭
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-07-29
Filing date: 2019-10-12
Publication date: 2022-07-15
Anticipated expiration: 2039-10-12
Also published as: CN110413756A; WO2021017173A1; EP3772012A1; JP2021535411A; RU2726739C1; CN110413756B; US11501078B2; KR20210016262A; KR102330061B1; US20210034966A1

Description

（関連出願の相互参照）
本願は、２０１９年０７月２９日に提出した中国特許出願第２０１９１０６８７７６３．０号の優先権を主張し、ここで、該中国特許出願の全内容が本願の一部として援用される。

本開示の実施例はマンマシン対話技術分野に関し、特に自然言語処理方法、装置及び設備に関する。

自然言語処理は、言語学、コンピュータサイエンス、数学を組み合わせる科学であり、人間とコンピュータとの間で自然言語を利用して効果的に通信する理論及び方法を研究している。自然言語処理において、シーケンスラベリングモデルはよく使用されているモデルであり、テキスト処理等の関連分野に広く使用されている。

現在流行っている、シーケンスラベリング問題を解決する方法は、隠れマルコフモデル（ＨＭＭ）、条件付確率場（ＣＲＦｓ）及びリカレントニューラルネットワーク（ＲＮＮｓ）を含む。しかしながら、上記モデルはいずれもモデル能力が限られているため、自己学習を行うことができないといった問題がある。

関連技術の問題を解決するために、本開示の実施例は自然言語処理方法、装置及び設備を提供する。

本開示の実施例に係る第１態様では、自然言語処理方法を提供し、前記方法はマンマシン対話システムにおける対話ロボットに適用され、前記方法は、
使用されている双方向長期短期記憶ネットワークアルゴリズム及び条件付確率場アルゴリズム（ＢｉＬＳＴＭ－ＣＲＦ）モデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定することと、
前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定することと、
前記フィードバック情報に基づいて前記ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うことと、を含む。

好ましくは、前記マンマシン対話システムは更に中央制御モジュールを備え、
前記使用されているＢｉＬＳＴＭ－ＣＲＦモデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定した後、前記方法は、更に、
前記対話ロボットが前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を前記中央制御モジュールに出力することと、
受信された前記対話データのスロットタギング結果集合から前記中央制御モジュールにより確定された目標スロットタギング結果を取得することと、を含み、
前記スロットタギング結果集合が前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果及び他の対話ロボットの出力したスロットタギング結果を含み、前記目標スロットタギング結果が前記マンマシン対話システムからのユーザーへの応答結果として出力されることに用いられる。

好ましくは、前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定することは、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致しないことに応じて、前記一致しないフィードバック情報を負フィードバック情報として確定することと、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致することに応じて、ユーザーの前記応答結果に対するフィードバック操作によってフィードバック情報を確定することと、を含む。

好ましくは、ユーザーの前記応答結果に対するフィードバック操作によってフィードバック情報を確定することは、
ユーザーの正方向フィードバック率が所定閾値以上であることに応じて、該フィードバック情報を正フィードバック情報として確定することと、
前記正方向フィードバック率が所定閾値より小さいことに応じて、該フィードバック情報を負フィードバック情報として確定することと、を含み、
前記正方向フィードバック率が所定期間内のユーザーの前記応答結果に対するフィードバック操作によって確定されるものである。

好ましくは、前記フィードバック情報に基づいてモデル強化学習を行うことは、
前記ＣＲＦ層が前記フィードバック情報に基づいてモデル強化訓練を行うことができるように、前記フィードバック情報を前記ＢｉＬＳＴＭ－ＣＲＦモデルにおけるＣＲＦ層にフィードバックすることを含む。

本開示の実施例に係る第２態様では、自然言語処理装置を提供し、前記装置はマンマシン対話システムにおける対話ロボットに適用され、前記装置は、
使用されている双方向長期短期記憶ネットワークアルゴリズム及び条件付確率場アルゴリズム（ＢｉＬＳＴＭ－ＣＲＦ）モデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定するように構成されるスロットタギング結果確定モジュールと、
前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定するように構成されるフィードバック情報確定モジュールと、
前記フィードバック情報に基づいて前記ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うように構成されるモデル強化学習モジュールと、を備える。

好ましくは、前記マンマシン対話システムは更に中央制御モジュールを備え、
前記装置は、更に、
前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を前記中央制御モジュールに出力するように構成されるスロットタギング結果出力モジュールと、
受信された前記対話データのスロットタギング結果集合から前記中央制御モジュールにより確定された目標スロットタギング結果を取得するように構成される目標スロットタギング結果確定モジュールと、を備え、
前記スロットタギング結果集合が前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果及び他の対話ロボットの出力したスロットタギング結果を含み、前記目標スロットタギング結果が前記マンマシン対話システムからのユーザーへの応答結果として出力されることに用いられる。

好ましくは、前記フィードバック情報確定モジュールは、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致しないことに応じて、前記一致しないフィードバック情報を負フィードバック情報として確定するように構成される第１フィードバック情報確定サブモジュールと、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致することに応じて、ユーザーの前記応答結果に対するフィードバック操作によってフィードバック情報を確定するように構成される第２フィードバック情報確定サブモジュールと、を含む。

好ましくは、前記第２フィードバック情報確定サブモジュールは、具体的に、
ユーザーの正方向フィードバック率が所定閾値以上であることに応じて、該フィードバック情報を正フィードバック情報として確定し、
前記正方向フィードバック率が所定閾値より小さいことに応じて、該フィードバック情報を負フィードバック情報として確定するように構成され、
前記正方向フィードバック率が所定期間内のユーザーの前記応答結果に対するフィードバック操作によって確定されるものである。

好ましくは、前記モデル強化学習モジュールは、具体的に、
前記ＣＲＦ層が前記フィードバック情報に基づいてモデル強化訓練を行うことができるように、前記フィードバック情報を前記ＢｉＬＳＴＭ－ＣＲＦモデルにおけるＣＲＦ層にフィードバックするように構成される。

本開示の実施例に係る第３態様では、対話ロボットを備えるマンマシン対話装置を提供し、前記マンマシン対話装置は、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、
使用されている双方向長期短期記憶ネットワークアルゴリズム及び条件付確率場アルゴリズム（ＢｉＬＳＴＭ－ＣＲＦ）モデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定し、
前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定し、
前記フィードバック情報に基づいて前記ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うように構成される。

本開示の実施例に係る第４態様では、コンピュータ可読記憶媒体を提供し、コンピュータプログラムが記憶され、前記プログラムがプロセッサにより実行されるとき、上記方法のステップを実現する。

本開示の実施例に係る技術案は以下の有益な効果を有してもよい。

本開示の実施例において、ＢｉＬＳＴＭ－ＣＲＦモデルを基本的なフレームとし、ＢｉＬＳＴＭ－ＣＲＦモデルがスロットタギング結果を外部に出力した後、対話ロボットは該スロットタギング結果に基づいて対応するフィードバック情報を取得して、該フィードバック情報に基づいてＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うことができ、これにより、モデルの動的な自己学習を実現し、それにより手動ラベリング過程を省略し、スロットタギング効率及び精度を向上させる。

以上の一般的な説明及び以下の詳細な説明は例示的及び解釈的なものであって、本開示の実施例を制限するためのものではないと理解すべきである。

図１は本開示の例示的な実施例に係る自然言語処理方法の実施例のフローチャートである。図２は本開示の例示的な実施例に係る他の自然言語処理方法の実施例のフローチャートである。図３は本開示の例示的な実施例に係るＢｉＬＳＴＭ－ＣＲＦモデルの模式図である。図４は本開示の例示的な実施例に係る自然言語処理装置の実施例のブロック図である。図５は本開示の例示的な実施例に係るマンマシン対話装置のブロック図である。

ここで、図面は明細書に援用されて本明細書の一部となり、本開示に適用される実施例を示し、且つ明細書とともに本開示の実施例の原理を解釈することに用いられる。

ここで、例示的な実施例を詳しく説明し、その例を図面に示す。以下の説明は図面に関わるとき、特に断りがない限り、異なる図面における同じ数字は同様又は類似の要素を示す。以下の例示的な実施例に説明される実施形態は本開示の実施例に一致するすべての実施形態を代表しない。逆に、それらは単に添付の特許請求の範囲に詳しく説明された、本開示の実施例のいくつかの態様に一致する装置及び方法の例である。

本開示の実施例に使用される用語は特定の実施例を説明するためのものであって、本開示の実施例を制限するためのものではない。コンテクストに他の意味を明確に示さない限り、本開示の実施例及び添付の特許請求の範囲に使用される単数形式の「１種」「前記」及び「該」は複数形式を含むように意図される。本明細書に使用される用語「及び／又は」は１つ又は複数の関連する列挙した項目を含む任意又はすべての可能な組み合わせを指すと更に理解すべきである。

本開示の実施例において用語「第１」「第２」「第３」等を用いて異なる情報を説明する可能性があるが、このような情報がこれらの用語に限らないと理解すべきである。このような用語は同じタイプの情報を区別するためのものに過ぎない。例えば、本開示の実施例の範囲を逸脱せずに、第１情報が第２情報と称されてもよく、同様に、第２情報が第１情報と称されてもよい。コンテクストによって、ここで使用される用語「〇〇場合」は「○○時」又は「○○であれば」又は「確定することに応じて」と解釈されてもよい。

図１は本開示の例示的な実施例に係る自然言語処理方法の実施例のフローチャートであり、本開示の実施例の方法はマンマシン対話システムにおける対話ロボットに適用されてもよく、具体的に、以下のステップを含んでもよい。

ステップ１０１において、使用されているＢｉＬＳＴＭ－ＣＲＦモデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定する。

該ステップでは、本対話ロボットがユーザーの入力した対話データを受信した場合、ＢｉＬＳＴＭ（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、双方向長期短期記憶ネットワークアルゴリズム）－ＣＲＦ（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄａｌｇｏｒｉｔｈｍ、条件付確率場アルゴリズム）モデルで該対話データに対してスロットタギングを行って、ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を取得してもよい。スロットタギングがシーケンスラベリング問題を解決するシーケンスラベリングタスクであると理解されてもよい。

ステップ１０２において、前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定する。

該ステップでは、対話ロボットがスロットタギング結果を取得した後、更に該スロットタギング結果のフィードバック情報を確定してもよく、例示的に、該フィードバック情報がユーザーの該スロットタギング結果に対するフィードバックを含んでもよい。

ステップ１０３において、前記フィードバック情報に基づいて前記ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行う。

該ステップでは、対話ロボットは取得された該スロットタギング結果のフィードバック情報に基づき、ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うことができ、これにより、モデルの動的な自己学習を実現し、それにより手動ラベリング過程を省略し、スロットタギング効率及び精度を向上させる。

図２は本開示の例示的な実施例に係る他の自然言語処理方法の実施例のフローチャートであり、本開示の実施例の方法はマンマシン対話システムにおける対話ロボットに適用されてもよく、具体的に、以下のステップを含んでもよい。

ステップ２０１において、使用されているＢｉＬＳＴＭ－ＣＲＦモデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定する。

スロットタギング（Ｓｌｏｔｔａｇｇｉｎｇ）はＮＬＵ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ、自然言語理解）モジュールの重要な構成部分であるが、ＮＬＵモジュールはマンマシン対話システムにおける最も重要な部分であり、ＮＬＵモジュール全体の機能は主にユーザー意図（Ｉｎｔｅｎｔ）に対する理解及びユーザーの表明したセンテンスにおけるコアスロット（Ｓｌｏｔ、すなわちスロット）に対する解析の２つを含む。意図（Ｉｎｔｅｎｔ）は１つの分類器であって、ユーザーの表明したセンテンスのタイプを確定し、更に確定されたタイプに対応するプログラム（すなわち、Ｂｏｔ（音声ロボット））により専門の解析を行う。例えば、ユーザーは

と言ったとき、ユーザーの意図の種類が音楽であると判断でき、従って、音楽ロボット（Ｂｏｔ）を呼び出してユーザーに一曲の歌を推薦して再生し、ユーザーが聞きたくない場合、「曲を変えてください」と言ったと、この音楽ロボットがユーザーにサービスを提供し続け、ユーザーが別の問題を出すまで、他のロボットに切り換えてユーザーにサービスを提供する。

マンマシン対話システムは更にＮＬＵモジュールと通信する１つの中央制御モジュールを備え、ＮＬＵモジュールが１つの対話センテンスに対して１種類を超える意図を解析した場合、中央制御モジュールによりユーザーの対話センテンスを、ユーザー意図を処理できるＢｏｔ（すなわち、ＣｈａｔＢｏｔ、対話ロボット）に送信して、これらのＢｏｔによりその処理が完了した結果を返送する。

そして、Ｂｏｔが対話センテンスの内容を理解すべきであり、簡単にするために、最も重要な部分を選択して理解して、他の重要でない内容を無視してもよいが、それらの最も重要な部分がスロットサイト（Ｓｌｏｔ）、すなわちスロットと称される。

本開示の実施例の対話ロボットＢｏｔがＢｉＬＳＴＭ－ＣＲＦモデルでユーザーの入力した対話データに対してスロットタギングを行ってもよい。スロットタギングがシーケンスラベリング問題を解決するシーケンスラベリングタスクであると理解されてもよい。

以下、中国語のセンテンスを例として、ＢｉＬＳＴＭ－ＣＲＦモデルでスロットタギングを行う過程は以下のとおりである。

ｎ個のワードを含む１つのセンテンス（ワードのシーケンス）は、
ｘ＝（ｘ_１，ｘ_２，・・・，ｘ_ｎ）
と記され、
ｘ_ｉがセンテンスにおけるｉ番目のワードの辞書でのｉｄを示し、更に各ワードのワンホット（ｏｎｅ－ｈｏｔ）ベクトルを取得でき、次元が辞書サイズである。

図３のＢｉＬＳＴＭ－ＣＲＦモデルの模式図に示すように、
モデルの第１層がルックアップ層（ｌｏｏｋ－ｕｐｌａｙｅｒ）であり、予め訓練又はランダムに初期化された埋め込み（ｅｍｂｅｄｄｉｎｇ）マトリクスを利用してセンテンスにおける各ワードをｏｎｅ－ｈｏｔベクトルから低次元高密度のワードベクトルにマッピングし、次の層に入力する前に、ｄｒｏｐｏｕｔ（ドロップアウトは深層構造を有するニューラルネットワークを最適化する方法であって、学習過程において隠れ層の一部の重み又は出力をランダムにゼロにし、ノード間の依存性を低下させることにより、ニューラルネットワークの正規化を実現し、ニューラルネットワークの過学習を防止する）を設定することにより過学習を緩和する。

モデルの第２層は双方向ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、長期短期記憶ネットワーク）層であって、正方向長期短期記憶ネットワーク（ｆｏｒｗａｒｄＬＳＴＭ）及び逆方向長期短期記憶ネットワーク（ｂａｃｋｗａｒｄＬＳＴＭ）を含む。１つのセンテンスの各ワードのｃｈａｒｅｍｂｅｄｄｉｎｇ（文字埋め込み）シーケンス（ｘ_１，ｘ_２，・・・，ｘ_ｎ）を双方向ＬＳＴＭの各タイムステップの入力とし、次に正方向ＬＳＴＭから出力された

隠れ状態シーケンスと逆方向ＬＳＴＭから各位置で出力された

隠れ状態シーケンスとを位置によって組み合わせて、完全な隠れ状態シーケンスを取得する。

ｄｒｏｐｏｕｔを設定した後、１つの線形層にアクセスし、隠れ状態ベクトルをｍ次元からｋ次元にマッピングし、ｋがラベリングセットのタグ数であり、これにより、出力層（ＬＳＴＭ’ｓｏｕｔｐｕｔ）が自動的に抽出された、マトリクスＰ＝（ｐ_１，ｐ_２，・・・，ｐ_ｎ）と記されるセンテンス特徴を出力する。

モデルの第３層はＣＲＦ層であって、センテンスレベルのシーケンスラベリングを行い、ＣＲＦ層のパラメータが１つの（ｋ＋２）＊（ｋ＋２）のマトリクスＡであり、Ａ_ｉｊがｉ番目のタグからｊ番目のタグまでの転送スコアを示し、更に一箇所をラベリングするとき、この前にラベリングされたタグを利用してもよく、２を加える理由はセンテンスの冒頭に１つの開始状態を追加して、センテンスの末尾に１つの終了状態を追加するためである。

図３によれば、「中国特大」（中国がとても大きい）のセンテンスに対して、ＢｉＬＳＴＭ－ＣＲＦモデルの最終的に出力したスロットタギング結果は、

「中国特大
Ｂ－ＬＯＣＩ－ＬＯＣＯＯ」であり、

ＢＩＯラベリングセットにおいて、Ｂ－ＰＥＲ、Ｉ－ＰＥＲがそれぞれ人名の頭文字、人名の非頭文字を示し、Ｂ－ＬＯＣ、Ｉ－ＬＯＣがそれぞれ地名の頭文字、地名の非頭文字を示し、Ｂ－ＯＲＧ、Ｉ－ＯＲＧがそれぞれ組織機構名の頭文字、組織機構名の非頭文字を示し、Ｏは該ワードが命名実体の一部に属しないことを示す。当然ながら、特定の分野では、ユーザーが更にそれに応じて分野内の様々な実体タイプ、例えば映画タイプ（ｖｉｄｅｏ）、天気タイプ（ｗｅａｔｈｅｒ）等のタイプを定義する。

ステップ２０２において、前記対話ロボットが前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を前記中央制御モジュールに出力する。

ステップ２０３において、受信された前記対話データのスロットタギング結果集合から前記中央制御モジュールにより確定された目標スロットタギング結果を取得する。

該実施例において、対話ロボットがＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を取得した後、該スロットタギング結果を中央制御モジュールに出力してもよい。中央制御モジュールについては、異なる対話ロボットＢｏｔから送信された、同じ対話データに対するスロットタギング結果を受信して、スロットタギング結果集合を構成することができ、その場合、スロットタギング結果集合にはＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果及び他の対話ロボットの出力したスロットタギング結果が含まれてもよい。

実際には、ＮＬＵモジュールが１つの対話センテンスに対して１種類を超える意図を解析した場合、中央制御モジュールにより確定され、つまり、複数種類の意図から１種類の意図をユーザー意図として確定して、ユーザー意図に対応する少なくとも１つのＢｏｔを確定してそれぞれ解析処理を行って、処理後のスロットタギング結果集合を取得してもよい。その後、中央制御モジュールがスロットタギング結果集合からユーザー意図に最もマッチングする目標スロットタギング結果を確定してもよく、該目標スロットタギング結果がマンマシン対話システムからのユーザーへの応答結果として出力されてもよい。

ステップ２０４において、前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致しないことに応じて、前記一致しないフィードバック情報を負フィードバック情報として確定する。

本実施例は目標スロット結果とＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果との比較結果と組み合わせて、ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果のフィードバック情報を確定することができる。

一例として、該フィードバック情報は正フィードバック情報及び負フィードバック情報を含んでもよい。例えば、正フィードバック情報は数値１で示されてもよく、負フィードバック情報は数値－１で示されてもよい。

該ステップでは、ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果と目標スロットタギング結果とが一致しない場合、フィードバック情報を負フィードバック情報として確定してもよい。

一実現方式では、本対話ロボットはフィードバック計算機（ＲｅｗａｒｄＣａｌｃｕｌａｔｏｒ）を設定して現在のスロットタギング結果のフィードバック情報を記録することができる。例えば、上記フィードバック情報を負フィードバック情報として確定する場合、ＲｅｗａｒｄＣａｌｃｕｌａｔｏｒの記録がｒｅｗａｒｄ＝－１である。

ステップ２０５において、前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致することに応じて、ユーザーの前記応答結果に対するフィードバック操作によってフィードバック情報を確定する。

該ステップでは、ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果と目標スロットタギング結果とが一致する場合、ユーザーの応答結果に対するフィードバック操作によってフィードバック情報を確定してもよい。

つまり、ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果と目標スロットタギング結果とが一致しても、ユーザーの応答結果に対するフィードバック操作によってフィードバック情報を確定することもでき、その理由はユーザーが応答結果の合理性を判断する真の判断側であるためである。

本開示の実施例の可能な実施形態において、ステップ２０５は、
ユーザーの正方向フィードバック率が所定閾値以上であることに応じて、該フィードバック情報を正フィードバック情報として確定するサブステップＳ１１と、
前記正方向フィードバック率が所定閾値より小さいことに応じて、該フィードバック情報を負フィードバック情報として確定するサブステップＳ１２と、を含んでもよい。

正方向フィードバック率が所定期間内のユーザーの応答結果に対するフィードバック操作によって確定される。

実際には、１つの時間帯内に複数のユーザーがマンマシン対話システムに同様又は類似の対話データを出す可能性がある場合、該対話データに対して、ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を応答結果とすれば、該時間帯内の複数のユーザーの該応答結果に対するフィードバック操作（例えば、クリック又はサムズアップ等の操作）を統計することができ、正方向フィードバック率が所定閾値以上である場合、ユーザーのフィードバックが正のフィードバックであることを示し、この時、該スロットタギング結果のフィードバック情報を正フィードバック情報、すなわちｒｅｗａｒｄ＝１として確定してもよく、そうでない場合、つまり、正方向フィードバック率が所定閾値より小さい場合、ユーザーのフィードバックが負のフィードバックであることを示し、この時、該スロットタギング結果のフィードバック情報を負フィードバック情報、すなわちｒｅｗａｒｄ＝－１として確定してもよい。

フィードバック情報を確定した後、更に該フィードバック情報をキャッシュ領域に記憶して、以下の使用に備えてもよい。

ステップ２０６において、前記ＣＲＦ層が前記フィードバック情報に基づいてモデル強化訓練を行うことができるように、前記フィードバック情報を前記ＢｉＬＳＴＭ－ＣＲＦモデルにおけるＣＲＦ層にフィードバックする。

該ステップでは、ＲｅｗａｒｄＣａｌｃｕｌａｔｏｒはＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果のフィードバック情報を確定した後、記録されたフィードバック情報をＢｉＬＳＴＭ－ＣＲＦモデルのＣＲＦ層にフィードバックすることができ、ＣＲＦ層が各スロットタギング結果及び対応するフィードバック情報を訓練データとしてモデルの強化学習訓練を行い、強化学習によって学習全体の閉ループを完了し、それにより訓練後のＢｉＬＳＴＭ－ＣＲＦモデルがより正確なスロットタギング結果を取得できる。

一例では、ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うための４つの要素は、
スロットタギング結果ＹであるＡｃｔｉｏｎと、
識別対象シーケンスＸであるＳｔａｔｅと、
ｐ（ｙ｜ｘ）、すなわちシーケンスＸの条件下で結果Ｙを生成する確率であるＰｏｌｉｃｙと、
フィードバック情報であるＲｅｗａｒｄと、を含んでもよい。

本実施例において、ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を取得した後、中央制御モジュール及びユーザーの該スロットタギング結果に対するフィードバックと組み合わせて、フィードバック情報を確定してもよく、ユーザーによるラベリングを省略し、該フィードバック情報をＢｉＬＳＴＭ－ＣＲＦモデルのＣＲＦ層に返送して強化学習を行うことにより、ＢｉＬＳＴＭ－ＣＲＦモデルの精度を向上させることができる。

当業者が本開示の実施例をよく理解するために、以下に具体例を挙げて本開示の実施例を例示的に説明する。

例えば、ユーザーの入力した対話データが「明日の天気」であり、「明日の天気」が１つの映画名であるため、ＢｉＬＳＴＭ－ＣＲＦモデルが「明日の天気」に対してスロットタギングを行った後、出力したスロットタギング結果が「明日の天気／ｖｉｄｅｏ」である。中央制御モジュールは複数のＢｏｔから送信されたスロットタギング結果を受信した後、最終的に該対話データのユーザー意図が天気であると確定したため、最終的に取得した目標スロットタギング結果が「明日／ｄａｔｅ天気／ｗｅａｔｈｅｒ」である。ＲｅｗａｒｄＣａｌｃｕｌａｔｏｒは中央制御モジュールの確定した目標スロットタギング結果を取得した後、それをＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果にマッチングし、それらが一致しない（一方がｖｉｄｅｏの結果であるが、他方がｗｅａｔｈｅｒの結果である）と判定するため、該ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果のフィードバック情報をｒｅｗａｒｄ＝－１として設定する。

逆に、中央制御モジュールの最終的に確定した該対話データの意図がｖｉｄｅｏであるため、最終的に取得した目標スロットタギング結果が「明日の天気／ｖｉｄｅｏ」である。ＲｅｗａｒｄＣａｌｃｕｌａｔｏｒは中央制御モジュールの確定した目標スロットタギング結果を取得した後、それをＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果にマッチングし、それらが一致する（いずれもｖｉｄｅｏの結果である）と判定し、この時、ＲｅｗａｒｄＣａｌｃｕｌａｔｏｒは所定期間内のユーザーの該目標スロットタギング結果に対する応答結果（例えば、中央制御モジュールがユーザーに「明日の天気の映画資源」を返信する）のクリック率を統計し、クリック率がより低い（所定閾値より低い）場合、該応答結果がユーザーを満たさないと見なされ、該スロットタギング結果のフィードバック情報をｒｅｗａｒｄ＝－１として設定してもよく、逆に、クリック率がより高い（所定閾値より高い）場合、該応答結果がユーザーを満たすと見なされ、該スロットタギング結果のフィードバック情報をｒｅｗａｒｄ＝１として設定してもよい。

ＲｅｗａｒｄＣａｌｃｕｌａｔｏｒがフィードバック情報をＢｉＬＳＴＭ－ＣＲＦモデルにフィードバックし、モデルが動的な自己学習を行うため、ｒｅｗａｒｄ＝－１と仮定する場合、モデルが再び「明日の天気」の対話データを受信した場合、それがｖｉｄｅｏのラベリング結果に属さず、ｗｅａｔｈｅｒのラベリング結果に属すると判定し、出力した識別結果が「明日／ｄａｔｅ天気／ｗｅａｔｈｅｒ」であり、それにより学習の目的を実現する。

以上の実施形態の様々な技術的特徴は任意に組み合わせられてもよく、紙幅の都合上、ここで詳しく説明しないが、特徴同士の組み合わせが衝突又は矛盾しない限り、上記実施形態の様々な技術的特徴の任意の組み合わせも本明細書に開示される範囲に属する。

上記自然言語処理方法の実施例に対応して、本開示の実施例は更に自然言語処理装置の実施例を提供する。

図４に示すように、図４は本開示の例示的な実施例に係る自然言語処理装置の実施例のブロック図であり、本開示の実施例の装置はマンマシン対話システムにおける対話ロボットに適用され、該装置は、具体的に、
使用されているＢｉＬＳＴＭ－ＣＲＦモデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定するように構成されるスロットタギング結果確定モジュール４０１と、
前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定するように構成されるフィードバック情報確定モジュール４０２と、
前記フィードバック情報に基づいて前記ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うように構成されるモデル強化学習モジュール４０３と、を備えてもよい。

上記実施例によれば、本開示の実施例において、スロットタギング結果確定モジュール４０１がＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を取得して、フィードバック情報確定モジュール４０２によって該スロットタギング結果及びユーザーの該スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定することにより、手動ラベリング量を減少させる。次に、モデル強化学習モジュール４０３が該フィードバック情報に基づいてＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うことにより、モデルの動的な自己学習を実現し、それによりモデルのスロットタギング精度を向上させることができる。

本開示の実施例の好適な実施例において、マンマシン対話システムは更に中央制御モジュールを備え、前記装置は、更に、
前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を前記中央制御モジュールに出力するように構成されるスロットタギング結果出力モジュールと、
受信された前記対話データのスロットタギング結果集合から前記中央制御モジュールにより確定された目標スロットタギング結果を取得するように構成される目標スロットタギング結果確定モジュールと、を備え、
前記スロットタギング結果集合が前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果及び他の対話ロボットの出力したスロットタギング結果を含み、前記目標スロットタギング結果が前記マンマシン対話システムからのユーザーへの応答結果として出力されることに用いられる。

本開示の実施例の他の好適な実施例において、前記フィードバック情報確定モジュール４０２は、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致しないように応答して、前記一致しないフィードバック情報を負フィードバック情報として確定するように構成される第１フィードバック情報確定サブモジュールと、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致するように応答して、ユーザーの前記応答結果に対するフィードバック操作によってフィードバック情報を確定するように構成される第２フィードバック情報確定サブモジュールと、を含んでもよい。

上記実施例によれば、ラベリング精度を向上させるよう、フィードバック情報は中央処理モジュールのフィードバック情報及びユーザーのフィードバック情報を含んでもよく、フィードバック情報の確定次元を増加させる。

本開示の実施例の好適な実施例において、前記第２フィードバック情報確定サブモジュールは、具体的に、
ユーザーの正方向フィードバック率が所定閾値以上であることに応じて、該フィードバック情報を正フィードバック情報として確定し、
前記正方向フィードバック率が所定閾値より小さいことに応じて、該フィードバック情報を負フィードバック情報として確定するように構成され、
前記正方向フィードバック率が所定期間内のユーザーの前記応答結果に対するフィードバック操作によって確定されるものである。

上記実施例によれば、フィードバック情報のラベリングを行うとき、中央制御モジュール及びユーザーのフィードバック情報と組み合わせて分析してもよく、それによりラベリング精度を向上させることができる。

本開示の実施例の好適な実施例において、前記モデル強化学習モジュール４０３は、具体的に、
前記ＣＲＦ層が前記フィードバック情報に基づいてモデル強化訓練を行うことができるように、前記フィードバック情報を前記ＢｉＬＳＴＭ－ＣＲＦモデルにおけるＣＲＦ層にフィードバックするように構成される。

上記実施例によれば、モデル強化学習モジュール４０３がフィードバック情報に基づいてモデル強化学習を行うことにより、モデルの動的な自己学習を実現し、モデルのスロットタギング精度を向上させることができる。

上記装置における各モジュールの機能及び作用の実現過程の具体的な詳細は上記システム実施例の具体的な説明を参照してもよく、ここで詳細な説明は省略する。

装置実施例については、それは基本的にシステム実施例に対応するため、関連箇所はシステム実施例の説明の一部を参照してもよい。以上に説明される装置実施例は模式的なものに過ぎず、分離部材として説明される前記ユニットは物理的に分離してもよいし、物理的に分離しなくてもよく、ユニットとして表示される部材は物理ユニットであってもよいし、物理ユニットでなくてもよく、つまり、一箇所に位置してもよいし、複数のネットワークユニットに配置されてもよい。実際の必要に応じて、その一部又は全部のモジュールを選択して本開示の実施例の解決手段の目的を実現してもよい。当業者であれば、創造的な労力を要することなく、理解し実施できる。

図５に示すように、図５は本開示の例示的な実施例に係るマンマシン対話装置５００のブロック図である。

図５に示すように、装置５００は処理コンポーネント５０２、メモリ５０４、電源コンポーネント５０６、マルチメディアコンポーネント５０８、オーディオコンポーネント５１０、入力／出力（Ｉ／Ｏ）インターフェース５１２、センサコンポーネント５１４及び通信コンポーネント５１６のうちの１つ又は複数を備えてもよい。

処理コンポーネント５０２は一般的に装置５００の全体操作を制御し、上記方法の全部又は一部のステップを完了するよう、処理コンポーネント５０２は命令を実行するために１つ又は複数のプロセッサ５２０を備えてもよい。なお、処理コンポーネント５０２は処理コンポーネント５０２と他のコンポーネントとの相互作用に役立つ１つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント５０２はマルチメディアコンポーネント５０８と処理コンポーネント５０２との相互作用に役立つマルチメディアモジュールを備えてもよい。

メモリ５０４は装置５００における操作をサポートするために様々なタイプのデータを記憶するように構成される。これらのデータの例は装置５００において操作するためのいかなるアプリケーションプログラム又は方法の命令を含む。メモリ５０４はいかなるタイプの揮発性記憶装置又は不揮発性記憶装置、例えばスタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）、プログラム可能読み出し専用メモリ（ＰＲＯＭ）、読み出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスク、又はそれらの組み合わせで実現されてもよい。

電源コンポーネント５０６は装置５００の様々なコンポーネントに電力を提供する。電源コンポーネント５０６は電源管理システム、１つ又は複数の電源及び装置５００への電力の生成、管理及び分配に関連する他のコンポーネントを備えてもよい。

マルチメディアコンポーネント５０８は前記装置５００とユーザーとの間に１つの出力インターフェースを提供するスクリーンを備える。いくつかの実施例において、スクリーンは液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を含んでもよい。スクリーンはタッチパネルを含む場合、ユーザーからの入力信号を受信するよう、スクリーンはタッチスクリーンとして実現されてもよい。タッチ、スワイプ及びタッチパネルにおけるジェスチャーを検知するよう、タッチパネルは１つ又は複数のタッチセンサを備える。前記タッチセンサはタッチ又はスワイプ動作の境界を検知するだけでなく、更に前記タッチ又はスワイプ操作に関連する持続時間及び圧力を検出することができる。オーディオコンポーネント５１０はオーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオコンポーネント５１０は１つのマイクロフォン（ＭＩＣ）を備え、装置５００が操作モード、例えばコールモード、記録モード及び音声識別モードにある場合、マイクロフォンは外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は更にメモリ５０４に記憶され又は通信コンポーネント５１６により送信されてもよい。いくつかの実施例において、オーディオコンポーネント５１０は更にオーディオ信号を出力するための１つの拡声器を備える。

Ｉ／Ｏインターフェース５１２は処理コンポーネント５０２と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールはキーボード、クリックホイール、ボタン等であってもよい。これらのボタンはホームページボタン、音量ボタン、スタートボタン及びロックボタンを含んでもよいが、それらに限らない。

センサコンポーネント５１４は装置５００に各態様の状態評価を提供するための１つ又は複数のセンサを備える。例えば、センサコンポーネント５１４は装置５００のオン／オフ状態、コンポーネントの相対位置決めを検出することができ、例えば前記コンポーネントは装置５００のディスプレイ及びキーパッドであり、センサコンポーネント５１４は更に装置５００又は装置５００の１つのコンポーネントの位置変化、ユーザーが装置５００に接触しているかどうか、装置５００の方位又は加速／減速及び装置５００の温度変化を検出することができる。センサコンポーネント５１４は物理的に接触しない際に近傍に物体があるかどうかを検出するように構成される接近センサを備えてもよい。センサコンポーネント５１４は更にイメージングアプリケーションに使用されるための光センサ、例えばＣＭＯＳ又はＣＣＤ画像センサを備えてもよい。いくつかの実施例において、該センサコンポーネント５１４は更に加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ又は温度センサを含んでもよい。

通信コンポーネント５１６は装置５００と他の装置との有線又は無線方式の通信に役立つように構成される。装置５００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ（登録商標）、２Ｇ又は５Ｇ、又はそれらの組み合わせにアクセスすることができる。１つの例示的な実施例において、通信コンポーネント５１６は放送チャネルを介して外部放送管理システムからのブロードキャスト信号又はブロードキャスト関連情報を受信する。１つの例示的な実施例において、近距離通信を促進するよう、前記通信コンポーネント５１６は更に近距離無線通信（ＮＦＣ）モジュールを備える。例えば、ＮＦＣモジュールは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術又は他の技術により実現されてもよい。

例示的な実施例において、上記方法を実行するために、装置５００は１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現されてもよい。

例示的な実施例において、更に命令を含む非一時的コンピュータ可読記憶媒体、例えば命令を含むメモリ５０４を提供し、上記方法を完了するために、上記命令が装置５００のプロセッサ５２０により実行されてもよい。例えば、前記非一時的コンピュータ可読記憶媒体はＲＯＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク及び光データ記憶装置等であってもよい。

前記記憶媒体における命令が前記プロセッサにより実行されるとき、装置５００は自然言語処理方法を実行することができ、前記方法は、使用されているＢｉＬＳＴＭ－ＣＲＦモデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定することと、前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定することと、前記フィードバック情報に基づいて前記ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うことと、を含む。

当業者が明細書を考慮し及びここで開示される発明を実践した後、本開示の実施例の他の実施形態に容易に想到し得る。本開示の実施例は本開示の実施例のいかなる変形、用途又は適応変化を含むように意図され、これらの変形、用途又は適応変化は本開示の実施例の一般原理に従い且つ本開示の実施例に開示されていない本技術分野における周知の知識又は慣用の技術的手段を含む。明細書及び実施例は例示的なものであると見なされ、本開示の実施例の真の範囲及び趣旨は以下の特許請求の範囲に準じる。

本開示の実施例は以上に説明されて図面に示される正確な構造に限らず、その範囲を逸脱せずに、種々の修正や変更を行うことができると理解すべきである。本開示の実施例の範囲は添付の特許請求の範囲により制限される。

以上の説明は本開示の実施例の好適な実施例であって、本開示の実施例を制限するためのものではなく、本開示の実施例の趣旨及び原則内に行ったいかなる修正、等価置換、改良等は、いずれも本開示の実施例の保護範囲内に含まれるべきである。

Claims

自然言語処理方法であって、マンマシン対話システムにおける対話ロボットに適用され、
使用されている双方向長期短期記憶ネットワークアルゴリズム及び条件付確率場アルゴリズム（ＢｉＬＳＴＭ－ＣＲＦ）モデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定することと、
前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定することと、
前記フィードバック情報に基づいて前記ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うことと、を含み、
前記マンマシン対話システムは更に中央制御モジュールを備え、
使用されている前記ＢｉＬＳＴＭ－ＣＲＦモデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定した後、前記方法は、更に、
前記対話ロボットが前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を前記中央制御モジュールに出力することと、
受信された前記対話データのスロットタギング結果集合から前記中央制御モジュールにより確定された目標スロットタギング結果を取得することと、を含み、
前記スロットタギング結果集合が前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果及び他の対話ロボットの出力したスロットタギング結果を含み、前記目標スロットタギング結果が前記マンマシン対話システムからのユーザーへの応答結果として出力されることに用いられる、
自然言語処理方法。
前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定することは、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致しないことに応じて、前記一致しないフィードバック情報を負フィードバック情報として確定することと、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致することに応じて、ユーザーの前記応答結果に対するフィードバック操作によってフィードバック情報を確定することと、を含む
請求項１に記載の方法。
ユーザーの前記応答結果に対するフィードバック操作によってフィードバック情報を確定することは、
ユーザーの正方向フィードバック率が所定閾値以上であることに応じて、該フィードバック情報を正フィードバック情報として確定することと、
前記正方向フィードバック率が所定閾値より小さいことに応じて、該フィードバック情報を負フィードバック情報として確定することと、を含み、
前記正方向フィードバック率が所定期間内のユーザーの前記応答結果に対するフィードバック操作によって確定されるものである、
請求項２に記載の方法。
前記フィードバック情報に基づいてモデル強化学習を行うことは、
ＣＲＦ層が前記フィードバック情報に基づいてモデル強化訓練を行うことができるように、前記フィードバック情報を前記ＢｉＬＳＴＭ－ＣＲＦモデルにおける前記ＣＲＦ層にフィードバックすることを含む
請求項１～３のいずれか１項に記載の方法。
自然言語処理装置であって、
マンマシン対話システムにおける対話ロボットに適用され、
使用されている双方向長期短期記憶ネットワークアルゴリズム及び条件付確率場アルゴリズム（ＢｉＬＳＴＭ－ＣＲＦ）モデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定するように構成されるスロットタギング結果確定モジュールと、
前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定するように構成されるフィードバック情報確定モジュールと、
前記フィードバック情報に基づいて前記ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うように構成されるモデル強化学習モジュールと、を備え、
前記マンマシン対話システムは更に中央制御モジュールを備え、
前記装置は、更に、
前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を前記中央制御モジュールに出力するように構成されるスロットタギング結果出力モジュールと、
受信された前記対話データのスロットタギング結果集合から前記中央制御モジュールにより確定された目標スロットタギング結果を取得するように構成される目標スロットタギング結果確定モジュールと、を備え、
前記スロットタギング結果集合が前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果及び他の対話ロボットの出力したスロットタギング結果を含み、前記目標スロットタギング結果が前記マンマシン対話システムからのユーザーへの応答結果として出力されることに用いられる、
自然言語処理装置。
前記フィードバック情報確定モジュールは、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致しないことに応じて、前記一致しないフィードバック情報を負フィードバック情報として確定するように構成される第１フィードバック情報確定サブモジュールと、
前記目標スロットタギング結果と前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果とが一致することに応じて、ユーザーの前記応答結果に対するフィードバック操作によってフィードバック情報を確定するように構成される第２フィードバック情報確定サブモジュールと、を含む
請求項５に記載の装置。
前記第２フィードバック情報確定サブモジュールは、具体的に、
ユーザーの正方向フィードバック率が所定閾値以上であることに応じて、該フィードバック情報を正フィードバック情報として確定し、
前記正方向フィードバック率が所定閾値より小さいことに応じて、該フィードバック情報を負フィードバック情報として確定するように構成され、
前記正方向フィードバック率が所定期間内のユーザーの前記応答結果に対するフィードバック操作によって確定されるものである、
請求項６に記載の装置。
前記モデル強化学習モジュールは、具体的に、
ＣＲＦ層が前記フィードバック情報に基づいてモデル強化訓練を行うことができるように、前記フィードバック情報を前記ＢｉＬＳＴＭ－ＣＲＦモデルにおける前記ＣＲＦ層にフィードバックするように構成される
請求項５～７のいずれか１項に記載の装置。
対話ロボットを備えるマンマシン対話装置であって、
プロセッサと、
プロセッサ実行可能命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、
使用されている双方向長期短期記憶ネットワークアルゴリズム及び条件付確率場アルゴリズム（ＢｉＬＳＴＭ－ＣＲＦ）モデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定し、
前記スロットタギング結果及びユーザーの前記スロットタギング結果に対するフィードバックに基づいてフィードバック情報を確定し、
前記フィードバック情報に基づいて前記ＢｉＬＳＴＭ－ＣＲＦモデルに対して強化学習を行うように構成され、
前記マンマシン対話装置は更に中央制御モジュールを備え、
使用されている前記ＢｉＬＳＴＭ－ＣＲＦモデルでユーザーの入力した対話データに対してスロットタギングを行った後に出力したスロットタギング結果を確定した後、前記プロセッサは、更に、
前記対話ロボットが前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果を前記中央制御モジュールに出力することと、
受信された前記対話データのスロットタギング結果集合から前記中央制御モジュールにより確定された目標スロットタギング結果を取得することと、を実行するように構成され、
前記スロットタギング結果集合が前記ＢｉＬＳＴＭ－ＣＲＦモデルの出力したスロットタギング結果及び他の対話ロボットの出力したスロットタギング結果を含み、前記目標スロットタギング結果が前記マンマシン対話システムからのユーザーへの応答結果として出力されることに用いられる、
マンマシン対話装置。
コンピュータ可読記憶媒体であって、
コンピュータプログラムが記憶され、前記プログラムがプロセッサにより実行されるとき、請求項１～４のいずれか１項に記載の方法のステップを実現する、前記コンピュータ可読記憶媒体。