JP7204801B2

JP7204801B2 - ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体

Info

Publication number: JP7204801B2
Application number: JP2021045641A
Authority: JP
Inventors: ファ・ウー; ハイフォン・ワン; チャンイー・リウ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-07
Filing date: 2021-03-19
Publication date: 2023-01-16
Anticipated expiration: 2041-03-19
Also published as: JP2022031109A; CN111737441A; EP3822814A2; CN111737441B; KR20220018886A; US20210234814A1; EP3822814A3

Description

本開示は、人工知能の技術分野、具体的には自然言語処理及び知識グラフの技術分野に関し、特にニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体に関する。

オープンドメイン対話システムの目的は、マシンが人間のように自然言語を情報伝達のための媒体として使用し、質問の返答、命令の実行、チャットなどを通じて人々の日常のインタラクションニーズを満たするようにすることであり、チャットのテーマやコンテンツが制限されていない。

現在、オープンドメイン対話システムは、主にコーパスに基づく検索方法又は生成方法を採用する。ここで、コーパスには、言語の実際の使用中に実際に出現した言語材料が格納されている。実際の対話プロセスでは、ユーザ入力には、意味が類似しているが文字表現が大きく異なること、文字表現が類似しているが意味が大きく異なることなどの問題があり、その結果、コーパスに基づく検索方法又は生成方法は、一般的に対話コンテンツが空であり、論理が明らかでなく、答えが質問に合わないなどの問題がある。

この部分で説明される方法は、必ずしもこの前に想定又は採用された方法ではない。
特に明記されていない限り、この部分で説明されるいずれかの方法は、この部分に含まれるという理由だけで従来技術として見なされると仮定すべきではない。同様に、特に明記されていない限り、この部分で言及されている問題は、いかなる従来技術で知られていると見なされるべきではない。

本開示の一態様によるニューラルネットワークに基づくマンマシンインタラクション方法は、ユーザ入力を第１の入力としてニューラルネットワークシステムに提供することと、前記ユーザ入力を前記ニューラルネットワークシステムとは異なる対話制御システムに提供することと、前記ユーザ入力に関連する情報に基づき、前記対話制御システムによって前記ユーザ入力を処理することと、前記対話制御システムの処理結果を第２の入力として前記ニューラルネットワークシステムに提供することと、前記ニューラルネットワークシステムによって前記第１の入力と第２の入力に基づき、前記ユーザ入力に対する返信を生成することとを含む。

本開示の別の態様によるニューラルネットワークに基づくマンマシンインタラクション装置は、ユーザ入力を第１の入力として受信するように構成されるニューラルネットワークシステムと、前記ユーザ入力を受信するように構成される前記ニューラルネットワークシステムとは異なる対話制御システムとを備え、前記対話制御システムは、さらに前記ユーザ入力に関連する情報に基づき、前記ユーザ入力を処理し、処理結果を第２の入力として前記ニューラルネットワークシステムに提供するように構成され、前記ニューラルネットワークシステムは、さらに前記第１の入力と第２の入力に基づき、前記ユーザ入力に対する返信を生成するように構成される。

本開示の別の態様による電子機器は、プロセッサと、プログラムを格納しており、前記プログラムが、前記プロセッサによって実行されると前記プロセッサに上記の方法を実行させるための命令を含むメモリとを備える。

本開示の別の態様によるプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、電子機器のプロセッサによって実行されると、前記電子機器に上記の方法を実行させる命令を含む。
本開示の別の態様によるコンピュータ読み取り可能な記憶媒体に格納されるコンピュータプログラムであって、前記コンピュータプログラムは、少なくとも一つのプロセッサによって実行されると上記の方法を実現させる命令を含む。

本開示の実施例によるニューラルネットワークに基づくマンマシンインタラクション方法は、マンマシンインタラクションプロセスにおけるユーザのチャットエクスペリエンスを向上させることに役立つ。

図面は、実施例を例示的に示しかつ明細書の一部を構成し、明細書のテキスト説明とともに、実施例の例示的な実施形態を説明するために使用される。示される実施例は、例示のみを目的としており、特許請求の範囲を限定するものではない。全ての図面では、同じ記号は、類似しているが必ずしも同一ではない要素を指す。
例示的な実施例によるニューラルネットワークに基づくマンマシンインタラクション方法を示すフローチャートである。例示的な実施例によるニューラルネットワークに基づくマンマシンインタラクション装置の動作プロセスを示す概略図である。例示的な実施例による意図知識グラフを示す部分概略図である。例示的な実施例による意図知識グラフを示す部分概略図である。例示的な実施例による対話制御システムの動作プロセスを示す概略図である。例示的な実施例による対話理解モジュールを示す概略構成ブロック図である。例示的な実施例に応用できる例示的なコンピューティング機器を示す構造ブロック図である。

本開示では、特に明記しない限り、「第１」、「第２」等の用語を使用して様々な要素を説明するが、これらの要素の位置関係、タイミング関係又は重要性関係を限定することを意図するものではなく、このような用語は、１つの素子と別の素子とを区別するためのものに過ぎない。いくつかの例では、第１の要素と第２の要素は、当該要素の同じインスタンスを指すことができ、いくつかの場合で、コンテキストの説明に基づき、それらは、異なるインスタンスを指すこともできる。

本開示では様々な例の説明において使用される用語は、特定の例を説明するためのものに過ぎず、限定することを意図するものではない。コンテキストに特に明記しない限り、要素の数が特に制限されていない場合、当該要素は、１つであってもよいし、複数であってもよい。また、本開示で使用される「及び／又は」という用語は、示される項目のいずれか１つ及び全ての可能な組み合わせ方式をカバーする。

オープンドメイン対話システムは、チャットコンテンツが制限されず、テーマが任意であり、自然言語を使用して質問の返答、命令の実行、チャットなどを行うことができる。
関連技術では、オープンドメイン対話システムは、ユーザの意図を取得し、意図に従ってユーザ入力を複数のインタラクションサブシステムに配布し、複数のインタラクションサブシステムの返信結果を受信し、次に予め設定されたソートポリシーに従ってスコアが最も高い結果を選択してユーザに返信する。このオープンドメイン対話システムには、モジュール同士がカスケードされているので、誤伝達が発生しやすい問題、各サブシステムが互いに独立しており、サブシステム間で情報を効果的に伝達又は自然に切り替えることができない問題、知識を深層学習に基づくシステムに効果的に融合することができない問題があり、その結果、オープンドメイン対話システムには、対話コンテンツが空であること、論理が明らかでないこと、答えが質問に合わないことなどの問題がある。

上記の技術的問題の１つ又は複数を考慮して、本開示は、ニューラルネットワークに基づくマンマシンインタラクション方法を提供し、当該方法は、ユーザ入力に関連する情報に基づき、対話制御システムによってユーザ入力を処理し、次にユーザ入力と対話制御システムの処理結果の両方を入力としてニューラルネットワークシステムに提供し、ニューラルネットワークシステムによってユーザ入力に対する返信を生成し、これにより、前記ユー入力に関連する情報をニューラルネットワークシステムに基づく対話システムに組み込み、関連情報を十分に利用し、関連技術におけるマンマシンインタラクションコンテンツが理想的ではないという問題を解決することができ、これにより、マンマシンインタラクションコンテンツが豊富になり、論理が明確になる。

本開示の技術的解決策は、スマートロボット、携帯電話、コンピュータ、パーソナルデジタルアシスタント、タブレットコンピュータなどの対話システムを使用する全てのアプリケーション端末に適用することができる。

以下では、添付の図面を参照しながらニューラルネットワークに基づくマンマシンインタラクション方法をさらに説明する。
図１は本開示によるニューラルネットワークに基づくマンマシンインタラクション方法を示すフローチャートである。

図１に示すように、前記方法は、ユーザ入力を第１の入力としてニューラルネットワークシステムに提供するステップＳ１０１と、前記ユーザ入力を前記ニューラルネットワークシステムとは異なる対話制御システムに提供するステップＳ１０２と、前記ユーザ入力に関連する情報に基づき、前記対話制御システムによって前記ユーザ入力を処理するステップＳ１０３と、前記対話制御システムの処理結果を第２の入力として前記ニューラルネットワークシステムに提供するステップＳ１０４と、前記ニューラルネットワークシステムによって前記第１の入力と第２の入力に基づき、ユーザ入力に対する返信を生成するステップＳ１０５とを含むことができる。これにより、前記ユー入力に関連する情報をニューラルネットワークシステムに基づく対話システムに融合することで、関連情報を十分に利用することができ、それにより、マンマシンインタラクションのコンテンツが豊富になり、論理が明確になる。

ユーザ入力は、テキスト情報又は音声情報であってもよいが、これらに限定されない。ユーザ入力に対して前処理を行ってから第１の入力としてニューラルネットワークシステムと対話制御システムに提供することができる。前記前処理は、たとえば、音声情報に対して音声識別を行い、それを対応するテキスト情報に変換することができるが、これに限定されない。

図２に示すように、前記ニューラルネットワークシステムは、エンドツーエンド型ニューラルネットワークシステム１０１を採用することができるが、これに限定されない。前記エンドツーエンド型ニューラルネットワークシステム１０１は、エンコーダ１０１１とデコーダ１０１２とを備えることができる。前記エンコーダ１０１１は、入力されたテキストコンテンツを暗黙的に表現してベクトルを生成することができ、前記デコーダ１０１２は、所与の入力ベクトルに従って滑らかな自然言語テキストを生成することができる。

いくつかの実施例によれば、前記エンコーダ１０１１は、前記ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を受信し、ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を符号化し、暗黙的ベクトルを生成するために使用されてもよく、前記暗黙的ベクトルがデコーダ１０１２に入力される。前記デコーダ１０１２は、前記第２の入力（即ち、対話制御システムによってユーザ入力を処理して得られた処理結果）及びエンコーダ１０１１によって生成された暗黙的ベクトルを受信し、前記ユーザ入力に対する返信を生成するために使用されてもよい。これにより、ニューラルネットワークシステムは、現在のユーザ入力、格納された現在のマンマシンインタラクションの履歴インタラクション情報、及び対話制御システムが前記ユーザ入力に関連する情報に基づいて前記ユーザ入力を処理することで得られた結果に基づき、ユーザ入力に対する返信を生成することができ、それによってマシンの返信コンテンツが現在のマンマシンインタラクションシーンに一致し、対話論理が明確になることをさらに確保することができる。

前記エンドツーエンド型ニューラルネットワークシステムとしては、たとえば、Ｔｒａｎｓｆｏｒｍｅｒニューラルネットワークシステム又はＵｎｉＬＭニューラルネットワークシステムを採用することができる。

いくつかの実施例によれば、前記ユーザ入力に関連する前記情報は、長期記憶情報と、現在のマンマシンインタラクション期間のみに有効な動作記憶情報とを含むことができる。１つの例示的な実施例として、前記ユーザ入力に関連する情報は、予め格納された情報であってもよい。この場合、長期記憶情報は、対話システムが長期間格納する必要がある情報であってもよく、様々な知識情報を含むことができ、たとえば、常識、分野知識、言語知識、問答ライブラリ、及び対話ライブラリのうちの少なくとも１つを含むことができる。動作記憶情報は、現在のマンマシンインタラクションコンテンツに基づいて長期記憶情報から取得されてもよい。つまり、動作記憶情報は、現在のマンマシンインタラクションコンテンツに関連する知識情報である。これにより、現在のマンマシンインタラクションコンテンツに関連する知識情報をニューラルネットワークシステムに基づく対話システムに融合することで、関連する知識情報に基づいて現在のマンマシンインタラクションシーンでユーザ入力に対する返信の計画を行うことを実現することができ、知識情報を十分に利用するため、現在のマンマシンインタラクションのコンテンツが豊富であり、論理が明確になる。なお、前記ユーザ入力に関連する情報は、インターネットからリアルタイムでキャプチャされた情報を含むこともできるが、ここで限定しない。

いくつかの実施例によれば、長期記憶情報は、意図知識グラフ、問答ライブラリ及び対話ライブラリを含むことができるが、これらに限定されない。以下では、まず意図知識グラフ、問答ライブラリ及び対話ライブラリのデータコンテンツ、データ編成の形態などについて説明する。

意図知識グラフは、対話シーンの知識インタラクションニーズから開始して、知識クエリ機能を満たすだけでなく、複数ラウンドのマルチシーンインタラクションにおける関連付け、類推、予測を満たすこともできる。意図知識グラフのノードの順序付き編成により、テキストの計算と知識情報の制御が容易になり、かつ知識情報の計算により、対話での動作ジャンプ（シーンジャンプ、同じシーンでのコンテンツジャンプ）をサポートすることができ、強いセマンティック遷移論理性を持っている。意図知識グラフは、様々なタイプのマルチシーン情報を統合しているため、複数の視点から言語を理解する機能を提供することがきる。

いくつかの実施例では、意図知識グラフは、ノードと有向エッジとを含む形態の第１の有向グラフの知識情報を含むことができ、かつ前記第１の有向グラフ内のノードは、セマンティックコンテンツと論理制御情報とを含む構造化データである。前記第１の有向グラフ内の有向エッジは、関連ノード間の関連属性と、ノードと対応する論理制御情報の間の関連属性とを表すことができる。なお、他の知識情報も第１の有向グラフのデータ編成形態を採用することができるが、意図知識グラフに限定されず、ここでは、意図知識グラフのみを例として、どのように第１の有向グラフを使用して知識情報を表現するかを説明する。

いくつかの実施例によれば、意図知識グラフの前記論理制御情報は、現在のマンマシンインタラクションに関連するノードをスクリーニングするために使用できる情報、たとえば人気、適時性、感情などの情報を含むことができ、現在のマンマシンインタラクションコンテンツに関連するノードをスクリーニングするために使用され、これにより、ユーザが知識チャットを能動的に開始する場合で関連する知識情報を検索することを実現することができ、これにより、対話コンテンツの論理が明確になる。たとえば、第１の人気閾値を設定し、対応する論理制御情報内の人気が前記第１の人気閾値よりも高いノードを、動作記憶情報内の現在のマンマシンインタラクションコンテンツに関連するノードからスクリーニングすることができる。第１の有効時点を設定し、対応する論理制御情報内の時効情報が前記第１の有効時点の後に位置するノードを、動作記憶情報内の現在のマンマシンインタラクションに関連するノードからスクリーニングすることができる。第１のプリセット感情タイプを設定し、対応する論理制御情報内の感情タイプが前記第１のプリセット感情タイプであるノードを、現在のマンマシンインタラクションに関連するノードからスクリーニングすることができる。

いくつかの実施例によれば、意図知識グラフの前記論理制御情報は、現在のマンマシンインタラクションにおける各ノード間の関連度を確定するために使用できる情報、たとえば、人気、ノード間の関連関係などの情報をさらに含むことができ、現在のマンマシンインタラクションコンテンツに関連するノードを拡張するために使用され、これにより、マシンが知識チャットを能動的に切り替えたり、トリガーしたり、推奨したりすることを実現することができ、これにより、対話コンテンツが豊富になり、厄介なチャットが回避される。たとえば、第２の人気閾値を設定し、対応する論理制御情報内の人気が前記第２の人気閾値よりも大きいノードを、長期記憶情報内のユーザ入力の各関連ノードから取得することができる。関連関係に応じて、現在のノードから当該現在のノードとの関連度が最も高いノードに拡張することができる。

意図知識グラフの前記ノードは、複数の異なるタイプのノードを含むことができる。いくつかの実施例によれば、前記第１の有向グラフ内の各ノードは、第１のタイプのノード及び第２のタイプのノードを含むことができる。前記第２タイプのノードのセマンティックコンテンツは、前記第２のタイプのノードに関連する第１のタイプのノードのセマンティックコンテンツの一部であってもよく、かつ前記第２のタイプのノードの論理制御情報は、前記第２のタイプのノードに関連する第１のタイプのノードの下での第２のタイプのノードの人気、前記第２のタイプのノードと少なくとも１つの他の第２のタイプのノードとの関連ジャンプ関係、前記第２のタイプのノードのサブタイプのうちの少なくとも１つを含む。これにより、第１のタイプのノードをクエリすると第１のタイプのノードのセマンティックに関連する第２のタイプのノードの知識情報を取得し、テキストの計算、知識情報の制御を容易にすることができる。

前記第１のタイプのノードは、たとえば、次の表におけるコアノードであってもよく、前記第２のタイプのノードは、たとえば、次の表におけるラベルノードであってもよい。
前記有向エッジは、コアノード間、コアノードとラベルノード間の関連属性、及び各ノードと対応する論理制御情報の間の関連属性を表すことができる。コアノードとラベルノードは、構造化データであってもよく、それによってセマンティックコンテンツの理解及び制御を実現することができる。コアノードは、完全なセマンティックを備えた基本ユニットであってもよく、エンティティ、概念、イベント、命令を含むことができ、たとえば、人物、物品、構造、製品、建物、場所、組織、イベント、芸術作品、科学技術、科学定理などであってもよい。コアノードの論理制御情報は、人気、適時性、ラベルノードのリコールのための全てのラベル、タスクＡＰＩなどを含むことができる。各コアノードは、関連している複数のラベルノードを含むことができる。ラベルノードのセマンティックコンテンツは、ラベルノードに関連するコアノードのセマンティックコンテンツの一部であってもよく、コアノードとの関係が部分と全体の関係である。

意図知識グラフのノード表現：

いくつかの実施例によれば、現在のマンマシンインタラクションコンテンツに関連する情報は、第１の有向グラフから取得された、ユーザ入力に関連するノード情報を含むことができる。ユーザ入力を第１の有向グラフのコアノードにマッピングすることができ、マッピングによって取得されたコアノード、及びマッピングによって取得されたコアノードに関連するラベルノードは、全てユーザ入力に関連する知識情報として使用されてもよい。ユーザ入力を前記第１の有向グラフのコアノードにマッピングできない場合、現在のマンマシンインタラクションコンテンツの履歴ユーザ入力をマッピングして取得したコアノードを、現在のユーザ入力に対応するコアノードとして使用することができる。たとえば、現在のユーザ入力が「主人公は誰ですか？」である場合、前記第１の有向グラフには現在のユーザ入力に対応するコアのノードがない。この場合、現在のマンマシンインタラクションにおける前回の前記第１の有向グラフ内の対応するコアノードを現在のユーザ入力のコアノードとして使用し、現在のユーザ入力に関連する知識情報を取得することができる。ここで、現在のマンマシンインタラクションコンテンツは、現在のユーザ入力及び現在のマンマシンインタラクションの履歴インタラクション情報を含むことができる。

図３に示すように、実線の円（「映画Ａ」、「映画Ｂ」、「趙六」）は、コアノードを示し、実線の楕円は、ラベルノードを示し、点線の円は、論理制御情報を示している。各点線の楕円は、ユーザ入力に関連する情報ユニットとして１つのノードユニットを囲むことができる。実線の線分は、各ノード間の有向エッジを表し、点線の線分は、ノードと対応する論理制御情報の間の有向エッジを表す。つまり、ユーザ入力が１つのノードユニット（図３のノードユニット１００）のコアノードにマッピングされると、ノードユニットの全てのノード情報は、ユーザ入力に関連する知識情報と考えられ、動作記憶情報に追加される。ただし、システムの利用可能なコンピューティングリソースの大きさに応じて、マッピングによって取得されたコアノードに関連する少なくとも１つの他のコアノードが所在するノードユニットも、ユーザ入力に関連していると考えられ、動作記憶情報に追加されてもよく、ここでは限定しない。以下のコンテンツでは、マッピングによって得られたコアノードが所在するノードユニットをユーザ入力に関連する知識情報として使用することを例として、本開示の技術的解決策を具体的に説明する。

第１のタイプのノード（コアノード）が映画エンティティ「映画Ａ」であることを例とすると、「映画Ａ」のユーザがラベルノードをリコールするためのラベルは、俳優、役割、ディレクター、シーンなどを含むことができる。第１のタイプのノードに関連するラベルノード（第２のタイプのノード）は、「趙六」（俳優と仮定される）、「役割Ａ」、「役割Ｂ」、「李四」（テレビディレクターと仮定される）、「有名なシーン」を含むことができる。ここで、ラベルノード「趙六」は、関連する第１のタイプのノード「映画Ａ」の俳優ラベルに対応し、「役割Ａ」及び「役割Ｂ」は、関連する第１のタイプのノード「映画Ａ」の役割ラベルに対応し、「李四」は、関連する第１のタイプのノード「映画Ａ」のディレクターラベルに対応し、「有名なシーン」は、関連する第１のタイプのノード「映画Ａ」のシーンラベルに対応している。コアノード「映画Ａ」に関連するコアノードは、「映画Ｂ」を含むことができ、ラベルノード「趙六」に関連するコアノードは、「趙六」を含むことができる。ユーザ入力がコアノード「映画Ａ」にマッピングされると、コアノード「映画Ａ」と、ラベルノード「趙六」、「役割Ａ」、「役割Ｂ」、「李四」、「有名なシーン」は、いずれもユーザ入力に関連する情報として使用されてもよい。

いくつかの実施例によれば、前記第１の有向グラフ内の各ノードは、さらに第３のタイプのノードを含むことができ、前記第３のタイプのノードのセマンティックコンテンツがマルチモーダルコンテンツをサポートし、かつ前記第３のタイプのノードの論理制御情報は、前記第３のタイプのノードに関連する第２のタイプのノードの情報、前記第３のタイプのノードのセマンティックコンテンツを特徴付けるための情報のうちの少なくとも１つを含むことができる。これにより、第３のタイプのノードを設定することにより、マルチモーダルのセマンティックコンテンツをサポートし、対話コンテンツをさらに豊かにすることができる。

前記第３のタイプのノードは、たとえば、上記の表におけるコンテンツノードであってもよい。前記有向エッジは、ラベルノード（第２のタイプのノード）とコンテンツノードの間の関連属性を表すこともできる。コンテンツノードは、非構造化データであってもよく、豊富なマルチモーダルコンテンツをサポートすることができる。各コアノード（第１のタイプのノード）は、複数のコンテンツノードを含むことができ、コンテンツノードに関連するラベルノードは、当該コンテンツノードのテーマ又は要約であってもよい。コンテンツノードは、対話コンテンツを含むことができ、マルチモーダル（単語、文、ピクチャー又はビデオなど）、多様性、細粒度などの特徴を備える。コンテンツノードの論理制御情報は、たとえば、コアラベル、キーワード、コンテンツノードのセマンティックコンテンツにおけるコアラベルの重要性、コンテンツノードのセマンティックコンテンツの要約的なフレーズ、コンテンツノードに関連するラベルノードのカテゴリ、コンテンツノードに関連するラベルノードの感情極性、コンテンツノードに関連するラベルノードのスコアなどを含むことができる。

いくつかの実施例によれば、現在のマンマシンインタラクションコンテンツに関連する情報は、第１の有向グラフから取得された、ユーザ入力に関連するノード情報を含むことができる。ユーザ入力を前記第１の有向グラフのコアノードにマッピングすることができ、マッピングによって取得されたコアノード、マッピングによって取得されたコアノードに関連するラベルノード、及び取得されたラベルノードに関連するコンテンツラベルは、いずれもユーザ入力に関連する情報として使用されてもよい。

図３に示すように、長方形のボックスは、コンテンツノードを示している。第１のタイプのノード（コアノード）が映画エンティティ「映画Ａ」であることを例とすると、第１のタイプのノードに関連するラベルノード（第２のタイプのノード）は、「趙六」、「役割Ａ」、「役割Ｂ」、「李四」、「有名なシーン」を含むことができる。ここで、ラベルノード「趙六」及びラベルノード「役割Ａ」に関連するコンテンツノードは、「役割Ａのスチール写真．ｊｐｇ」（映画Ａの役割Ａの有名なスチール写真と仮定される）を含むことができ、ラベルノード「役割Ａ」に関連するコンテンツノードは、さらに「役割Ａが極めて完全な活力と生命の意志を持っている」を含むことができ、ラベルノード「李四」に関連するコンテンツノードは、「映画Ａ」がディレクター李四の最も良いきょう客映画であることを含むことができる。ユーザ入力がコアノード「映画Ａ」にマッピングされると、コアノード「映画Ａ」、ラベルノード「趙六」、「役割Ａ」、「役割Ｂ」、「李四」、「有名なシーン」、及びラベルノード「趙六」、「役割Ａ」、「李四」に関連するコンテンツノードは、いずれもユーザ入力に関連する情報として使用される。

２つのノードが関連していることは、これらの２つのノードが少なくとも１つの有向エッジを含む有向パスを介して関連付けられてもよいことを意味することができる。
異なるノードは、有向エッジを介して接続されてもよく、接続されたノード間の関連属性を示している。有向エッジは、たとえば、コアノードからコアノードまでの関連エッジ、コアノードからラベルノードまでの関連エッジ、ラベルノードからコアノードまでの関連エッジ、ラベルノードからコンテンツノードまでの関連エッジを含むことができる。有向エッジの属性は、セマンティック関係（たとえばディレクター、作品、妻など）、論理関係（時系列、因果など）、相関性の強さ、セマンティックの上位及び下位関係などの様々なタイプを含むことができる。

たとえば、図３に示すように、コアノード「映画Ａ」とコアノード「映画Ｂ」の間の有向エッジの属性は、相関性の強さであってもよく、ラベルノード「趙六」とコアノード「趙六」の間の有向エッジの属性は、相関性の強さであってもよい。コアノード「映画Ａ」とラベルノード「李四」、「趙六」、「役割Ａ」、「有名なシーン」の間の有向エッジの属性は、セマンティック関係である。ラベルノード「趙六」とコンテンツノード「役割Ａのスチール写真．ｊｐｇ」の間の有向エッジの属性は、セマンティック関係であってもよい。

いくつかの実施例によれば、対話ライブラリは、ノード及び有向エッジを含む第２の有向グラフの知識情報を含むことができ、マンマシンインタラクションプロセスにおけるセマンティック情報とその特徴を記録するために使用され、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画に参照を提供する。対話ライブラリに基づいてビッグデータを使用してユーザのより傾いた意図を取得することができるため、ユーザ入力の返信計画に合理的なガイドを提供することができる。前記第２の有向グラフは、図３に示すように、上記の第１の有向グラフ（たとえば、意図知識グラフ）と同じ構造を有することができるが、ここでは詳細に説明しない。これにより、対話ライブラリと意図知識グラフを同じ構造の有向グラフとして設定することにより、対話ライブラリと意図知識グラフとの融合を効果的に実現し、知識情報の制御を容易にすることができる。なお、他の知識情報も第２の有向グラフのデータ編成形態を採用することができるが、対話ライブラリに限定されず、ここでは、対話ライブラリのみを例として、どのように第２の有向グラフを使用して知識情報を表現するかを説明する。異なる知識情報を同じ構造の有向グラフとして設定することにより、異なる知識情報の融合を効果的に実現し、知識情報の制御を容易にすることができる。

いくつかの実施例によれば、問答ライブラリは、質問－解答の形態の問答知識情報であってもよい。問答ライブラリの機能は、ユーザの質問について問答ライブラリをクエリし、質問に一致する解答を返信し、ユーザの情報ニーズを満たすことである。たとえば、ユーザ入力が問答である場合、ユーザ入力に一致する解答があるか否かを問答ライブラリから優先的にクエリすることができ、迅速に返信を実現することができる。

問答ライブラリの形態は次の表に示される：

いくつかの実施例によれば、前記長期記憶情報は、意図知識グラフ、対話ライブラリ及び問答ライブラリを含むことができる。以上では、長期記憶情報の意図知識グラフ、対話ライブラリと問答ライブラリのデータコンテンツ、及びデータ編成形態は、例で説明されたが、例示的なものだけであり、これに限定されない。当然、前記長期記憶情報は、現在のマンマシンインタラクションに関連する知識情報との他の組み合わせであってもよく、ここで限定しない。

長期記憶情報についてはさらに言語計算と情報抽出を行うことができる。言語コンピューティングには、比較、帰納、演繹、推論などが含まれてもよく、情報抽出には、たとえば概念抽出、エンティティ抽出、イベント抽出、命令抽出などが含まれてもよく、これにより、ユーザ入力に基づいて現在のマンマシンインタラクションコンテンツに関連する動作記憶情報を長期記憶情報から取得することができる。現在のマンマシンインタラクションコンテンツは、現在のユーザ入力及び現在のユーザ入力の前の履歴インタラクション情報を含むことができる。動作記憶情報は、さらに現在のマンマシンインタラクションコンテンツを含むことができ、それによって現在のマンマシンインタラクション履歴と、長期記憶情報から取得されたユーザ入力に関連する知識情報とに基づき、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を取得することができ、これについて、以下の内容で詳しく説明する。

いくつかの実施例によれば、前記動作記憶情報は、ノードと有向エッジとを含む形態の第３の有向グラフの情報を含むことができ、前記第３の有向グラフは、上記第１の有向グラフ（たとえば、意図知識グラフ）と同じ構造であってもよい。これにより、長期記憶情報の知識情報と同じ構造の情報を含むように動作記憶情報を設定することにより、知識情報の呼び出し及び融合を容易にすることができる。好ましくは、前記第３の有向グラフは、現在のマンマシンインタラクションに関連する前記第１の有向グラフの部分であってもよく、そのため、知識情報の呼び出し及び融合がより容易になる。つまり、前記第３の有向グラフが当該コアノードとラベルノードとを含むことができるため、全てのユーザ意図とシステム返信（意図）も動作記憶情報内のコアノード及び関連するラベルノードにできるだけマッピングされてもよく、各モジュールが使用しやすい。また、現在のマンマシンインタラクションに関連する一部のノード情報を長期記憶情報から抽出するだけでよいため、メモリの占有を減少し、返信効率を向上させることができる。前記第３の有向グラフは、さらにマルチモーダルセマンティックコンテンツをサポートするためにコンテンツノードを含むことができ、それによって動作記憶情報に基づいて豊富な対話コンテンツを取得することもできる。なお、前記第３の有向グラフは、上記の第１の有向グラフの構造とは異なることもできる。

いくつかの実施例によれば、前記動作記憶情報は、さらに前記第１の有向グラフから取得された、前記現在のマンマシンインタラクションに関連する全てのノードのセマンティックコンテンツと論理制御情報を含むことができる。つまり、前記第３の有向グラフのコアノードは、第１の有向グラフに対応する前記第１のタイプのノードのセマンティックコンテンツと論理制御情報を含み、前記ラベルノードは、第１の有向グラフに対応する前記第２のタイプのノードのセマンティックコンテンツと論理制御情報を含み、前記コンテンツノードは、第１の有向グラフに対応する前記第３のタイプのノードのセマンティックコンテンツと論理制御情報を含む。これにより、動作記憶情報は、現在のマンマシンインタラクションに基づいて長期記憶情報から全てのチャット可能な話題をできるだけ取得することができ、これによって動作記憶情報に基づいてユーザ入力に対する返信計画を実現することが可能となる。動作記憶情報内のデータ量が長期記憶情報内のデータ量よりもはるかに少ないため、返信速度を向上させ、ユーザエクスペリエンスを向上させることができる。

いくつかの実施例によれば、動作記憶情報にユーザ入力に対応するノードの情報がない場合、ユーザ入力に基づき、ユーザ入力に関連する知識情報を長期記憶情報から取得し、動作記憶情報を更新し、次に更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対する返信の計画を行うことができる。いくつかの実施例によれば、ユーザ入力に基づき、ユーザ入力に関連するサブラフを第１の有向グラフから取得し、取得されたサブグラフを動作記憶情報内の第３の有向グラフに融合し、動作記憶情報を更新することができる。

動作記憶情報に対して、現在のマンマシンインタラクションコンテンツ内の履歴インタラクション情報に対応する各ノードでは、コアノードに関連するラベルノードとコンテンツノードではなく、コアノードのセマンティックコンテンツと論理制御情報のみを保持でき、これにより、コンピューティングリソースのニーズを減らすことができる。チャットされた話題が再び関与されない可能性があるため、現在のマンマシンインタラクションにおける履歴インタラクション情報に対応するコアノードのセマンティックコンテンツと論理制御情報のみを保持すると、マンマシンインタラクションにほとんど影響を与えない。

いくつかの実施例によれば、前記動作記憶情報は、さらに前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツをマークするための第１の情報を含むことができ、これにより、チャットされたメッセージとチャットされていないメッセージとを区別し、繰り返しを回避することができる。いくつかの実施例によれば、第３の有向グラフにおいて、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツに関連する全てのノード（ターゲットノード、ラベルノード及びコンテンツノードを含む）は、さらに当該ノードがチャットされたことを示すための第１のメッセージを含むことができる。

いくつかの実施例によれば、前記動作記憶情報は、さらに関与したセマンティックコンテンツを最初に言及する対話者を示すための第２の情報を含むことができ、これにより、関連するコンテンツがチャットされた話題を正確に区別し、対話者の対話の繰り返しをより正確に回避することができる。いくつかの実施例によれば、第３の有向グラフにおいて、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツに関連する全てのノード（ターゲットノード、ラベルノード及びコンテンツノードを含む）は、さらに当該ノードがどの対話者にチャットされたかを示すための第２のメッセージを含むことができる。

いくつかの実施例によれば、前記動作記憶情報は、さらに前記現在のマンマシンインタラクション期間のインタラクションレコードの履歴データを含むことができ、これにより、複数ラウンドのポリシーのための決定特徴を提供するように、現在のマンマシンインタラクションシーンを取得することができる。

前記動作記憶情報は、他の情報、たとえば、前記対話制御システムの各動作モジュールの分析結果をさらに含むことができ、このように、各モジュールが使用しやすくなる。たとえば、ユーザ入力に基づいて長期記憶情報から取得されたユーザ入力に関連する上記知識情報に加えて、長期記憶情報から取得された、ユーザ入力に関連する知識情報をソートした結果と、返信決定結果とを含むことができる。

いくつかの実施例によれば、ステップＳ１０３において、対話制御システムがユーザ入力に関連する情報に基づいて前記ユーザ入力を処理した処理結果は、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を含むことができる。これにより、関連情報を十分に利用し、関連情報に基づいて現在のマンマシンインタラクションシーンでユーザ入力に対して返信の計画を行うことができ、さらにマンマシンインタラクションのコンテンツが豊かになり、論理が明確である。

いくつかの実施例によれば、対話制御システムは、対話理解モジュールと対話制御モジュールとを含むことができる。１つの実施例では、対話理解モジュールを利用してまずユーザ入力に基づいて長期記憶情報から関連する知識情報を取得し、動作記憶情報を更新し、次に対話制御モジュールは、更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うことができる。

これに基づき、ステップＳ１０３において、前記ユーザ入力に関連する情報に基づき、前記対話制御システムによって前記ユーザ入力を処理することは、前記ユーザ入力のセマンティックコンテンツを分析することと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応する前記ユーザのコミュニケーション意図を分析することとを含むことができる。つまり、ユーザ入力の理解結果は、セマンティックコンテンツとコミュニケーション意図を含むことができる。コミュニケーション意図は、たとえば意図システム内の１つ、たとえば、質問、明確、提案、拒絶、励み又は慰めなどであってもよい。

１つの例示的な実施例として、意図システムのリストは次の通りであり得る：

いくつかの実施例によれば、意図知識グラフに基づいて前記ユーザ入力を理解することができる。たとえば、図４に示すように、受信された第１のユーザ入力は、映画Ｃの主役が誰ですか、知っているかということであり、第１のユーザ入力の理解結果のセマンティックコンテンツは、映画Ｃであり、コミュニケーション意図は問答である。受信された第２のユーザ入力は、私は張三さんがとても好きです（俳優であると仮定する）ということである。第２のユーザ入力の理解結果のセマンティックコンテンツは、張三であり、コミュニケーション意図は閑談である。

ユーザ入力の理解結果は、さらにユーザの状態、たとえばユーザの気分状態、ユーザが現在のチャットを気に入っているか否かを説明するための状態意図を含むことができる。これにより、ユーザの状態意図に合わせて、対話を決定し、返信コンテンツを計画することができる。

いくつかの実施例によれば、ユーザ入力のコミュニケーション意図は、トレーニングが完了された意図ニューラルネットワークモデルに基づいて理解されてもよい。第１のユーザ入力サンプルセットを取得し、第１のユーザ入力サンプルセット内の一般的なユーザ入力サンプルのコミュニケーション意図にラベルを手動で付けることができる。前記第１のユーザ入力サンプルセットを利用して意図ニューラルネットワークモデルをトレーニングする。たとえば、前記第１のユーザ入力サンプルセットは、ログデータ（たとえば、検索エンジンログ）に基づいて取得されてもよい。また、低頻度のユーザ入力（たとえば、「あなたの言うことがわからない」）を取得し、低頻度のユーザ入力のコミュニケーション意図にラベルを手動で付けてコーパスを生成することもできる。意図ニューラルネットワークモデルがコミュニケーション意図を識別できず、つまり意図システムに対応するコミュニケーション意図がないユーザ入力の場合、ユーザ入力のセマンティックとの類似度が最も高い低頻度のユーザ入力をコーパスで検索し、検索された低頻度のユーザ入力に対応するコミュニケーション意図をユーザ入力のコミュニケーション意図として使用することができ、これにより、ユーザ入力のコミュニケーション意図を理解することを確保することができる。

以下では、前記ユーザ入力を理解するプロセスを、意図知識グラフで詳細に説明する。
いくつかの実施例によれば、ステップＳ１０３における、前記ユーザ入力のセマンティックコンテンツを分析することは、前記ユーザ入力が前記動作記憶情報内のあるノードに対応できるか否かを判断することと、前記ユーザ入力が前記動作記憶情報内のあるノードに対応できることに応答して、前記動作記憶情報に基づいて前記ユーザ入力を処理することとを含むことができ、これにより、動作記憶情報に基づいてユーザ入力のセマンティックコンテンツを理解し、現在のマンマシンインタラクションシーンでのユーザ入力の理解を実現し、対話の理解の精度と効率を向上させることができる。前記あるノードは、たとえば、第３の有向グラフ内のノードであってもよく、上記のように、前記第３の有向グラフは、前記第１の有向グラフ（意図知識グラフ）と同じ構造であってもよく、且つ前記第１の有向グラフの一部である。

いくつかの実施例によれば、前記ユーザ入力を処理することは、前記動作記憶情報内の前記あるノードの情報に基づき、関連するコンテンツを前記ユーザ入力に補うことを含むことができる。たとえば、ユーザ入力が「主人公は誰ですか」である場合、動作記憶情報から検索された、前記ユーザ入力に対応するあるコアノード「映画Ａ」に基づき、ユーザ入力を「映画Ａの主人公は誰ですか」として補完することができる。いくつかの実施例によれば、動作記憶情報内の前のコアノードに対応する現在のマンマシンインタラクションコンテンツを検索し、ユーザ入力が当該前のコアノードの論理制御情報内のラベルに覆われているか否かを判定し、覆われていると、当該前のノードに基づいて関連するコンテンツを前記ユーザ入力に補うことができる。たとえば、当該前のコアノード「映画Ａ」の論理制御情報内のラベルは、俳優、役割、ディレクター、シーンを含む。「主人公」と「俳優」のセマンティックが同じであるため、ユーザ入力は、コアノード「映画Ａ」のラベルに覆われていると確定され、当該コアノード「映画Ａ」に基づき、ユーザ入力を「映画Ａの主人公は誰ですか」として補完する。

補完されたユーザ入力に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
いくつかの実施例によれば、前記ユーザ入力が前記動作記憶情報内のノードに対応できないことに応答して、前記長期記憶情報から前記ユーザ入力に関連するノードの情報を抽出し、動作記憶情報に格納することができる。これにより、ユーザ入力が動作記憶情報内の知識情報に覆われていない場合、知識範囲を拡大することができ（たとえば、意図グラフ全体に基づく）、知識情報に基づいてユーザ入力を理解することを試みることができる。

いくつかの実施例によれば、ステップＳ１０３における、前記ユーザ入力のセマンティックコンテンツを分析することは、さらに前記ユーザ入力に対して曖昧性除去処理を行うことを含むことができる。たとえば、ユーザ入力が「私は水滸伝を読むことが好きです」である場合、単語分割処理によって得られた「水滸伝」は、曖昧になり、テレビドラマや小説である可能性がある。したがって、ユーザ入力のセマンティックコンテンツを正確に理解するように、ユーザ入力に対して曖昧性除去処理を行い、「水滸伝」のタイプを確定する必要がある。

曖昧性除去処理の結果に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
いくつかの実施例によれば、前記ユーザ入力に対して曖昧性除去処理を行うことは、前記ユーザ入力と、前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報とに基づき、前記ユーザ入力内の曖昧性がある少なくとも一部のコンテンツを識別し、前記少なくとも一部のコンテンツの現在のマンマシンインタラクションにおける意味を確定することを含むことができ、これにより、現在のマンマシンインタラクションシーンに基づいてユーザ入力に対して曖昧性除去処理を行うことができる。たとえば、ユーザ入力が「私は水滸伝を読むことが好きです」である場合、「水滸伝」が小説だけでなく、テレビドラマを指すことができるため、曖昧性があり、この場合、システムは、現在のコンテキストでの「水滸伝」の真の意味がテレビドラマではなく、小説を指すことをユーザ入力内の「読む」によって確定する。１つの例示的な実施例として、ユーザ入力と、動作記憶情報内の現在のマンマシンインタラクションに対応する前のコアノード（動作記憶情報内の最新の更新されたコアノードであってもよく、セマンティックコンテンツと論理制御情報を含む）に基づき、前記ユーザ入力に対して曖昧性除去処理を行うことができる。たとえば、ユーザ入力と、動作記憶情報内の現在のマンマシンインタラクションに対応する前のコアノードとを曖昧性除去ニューラルネットワークモデルに入力して、曖昧性除去ニューラルネットワークモデルによって出力されたユーザ入力の曖昧性がある少なくとも部分的なコンテンツのタイプを取得することができる。タイプコーパスを使用して曖昧性除去ニューラルネットワークモデルに対して測定トレーニングを実行して、ユーザ入力と前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報との組み合わせを実現することができ、それにより、タイプコーパスの対応するタイプにより近くなり、ユーザ入力内の曖昧性がある少なくとも一部のコンテンツ及び曖昧性がある前記少なくとも一部のコンテンツのタイプを出力することができる。ここでどのようにユーザ入力内の曖昧性がある少なくとも一部のコンテンツ及び曖昧性がある少なくとも一部のコンテンツのタイプとを確定するかは、例として説明され、これに制限されない。

なお、曖昧性除去処理は、動作記憶情報のみに基づいて行われることに限定されず、たとえば、ユーザ入力に対して、曖昧性除去処理は、長期記憶情報内の対話ライブラリに基づいて行われてもよい。たとえば、対話ライブラリにおいて、入力「私は水滸伝が好きです」がより読む傾向にあるという意図に対して、「水滸伝」のタイプは、小説として確定されてもよい。

いくつかの実施例によれば、ステップＳ１０３における、前記ユーザ入力のセマンティックコンテンツを分析することは、曖昧性除去処理と情報補完処理とを含むことができる。曖昧性除去処理の結果と補完後のユーザ入力に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。

コミュニケーション意図に基づいて後続の操作を決定することができる。たとえば、コミュニケーション意図がクエリである場合、曖昧性除去処理の結果、補完後のユーザ入力及びコミュニケーション意図に基づいて意図クエリ表現式を生成し、関連する知識情報を検索することができる。コミュニケーション意図が意図表現式に従って別れを告げることであるため、関連する知識情報を検索する必要がない。関連する知識情報を検索する必要がある場合、まず動作記憶情報においてユーザ入力に関連する知識情報があるか否かを検索し、関連する知識情報がない場合、長期記憶情報においてユーザ入力に関連する知識情報があるか否かを引き続き検索することができる。

いくつかの実施例によれば、ステップＳ１０３は、さらに、前記ユーザ入力のセマンティックコンテンツと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応するコミュニケーション意図とに基づき、動作記憶情報から前記ユーザ入力に関連するノードの情報をクエリすることと、前記ユーザ入力との関連度に応じて、クエリされた前記ユーザ入力の関連ノードをソートし、前記ソートが前記関連ノードの論理制御情報に基づいて実行されることとを含むことができる。たとえば、人気又は適時性などに基づいてスコアを付け、関連ノードと前記ユーザ入力の関連度を確定することができ、これにより、関連ノードと前記ユーザ入力の関連度に応じて対話を決定し、対話システムで生成された返信とユーザ入力の関連性を実現することができる。

いくつかの実施例によれば、前記ユーザ入力との関連度に応じて、前記関連ノードに異なるスコアを付与することにより、対話の決定のための参照を提供することができる。たとえば、ユーザ入力に関連するスコアを動作記憶情報内の第３の有向グラフのコアノードの論理制御情報に追加することができる。

分析によって得られたユーザ入力のセマンティックコンテンツは、たとえば、第３の有向グラフにおけるユーザ入力に関連するコアノードであってもよい。
いくつかの実施例によれば、前記ユーザ入力に関連する関連度に応じて、前記関連ノードに異なるスコアを付与する場合、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うことは、前記ソート結果に応じて、対話目標を計画し、前記ユーザ入力との関連度が最も高いノードの情報を計画された対話コンテンツとして選択することと、前記計画された対話コンテンツと前記対話目標とを統合し、前記第２の入力として前記ニューラルネットワークシステムに提供することとを含むことができ、これにより、対話システムは、知識情報を融合し、ユーザ入力に基づいて返信の計画を行うことができ、対話論理が明確になる。

なお、意図知識グラフ内のノードの論理制御情報に基づいて前記関連ノードとユーザ入力との関連度を取得してもよく、対話ライブラリに基づいて前記関連ノードとユーザ入力の関連度を取得してもよく、ユーザの好みに基づいて前記関連点とユーザ入力の関連度を取得してもよく、ここで限定せず、知識情報から前記関連ノードとユーザ入力との関連度を取得できればよい。ユーザの現在のマンマシンインタラクションコンテンツと履歴マンマシンインタラクションコンテンツに基づいて当該ユーザの好みを取得することができ、たとえば、当該ユーザが複数のマンマシンインタラクションにおいて閲読に関与するため、このユーザの閲読好みを確定し、対話の決定プロセスでユーザの好みに応じて対話コンテンツを計画することができる。

いくつかの実施例によれば、動作記憶情報にユーザ入力に対応するノードの知識情報がない場合、ユーザ入力のセマンティックコンテンツに基づき、関連する知識情報を長期記憶情報から取得し、動作記憶情報を更新し、次にユーザ入力のセマンティックコンテンツ、コミュニケーション意図、及び更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対する返信の計画を行うことができる。

たとえば、図４に示すように、受信された第１のユーザ入力は、映画Ｃの主役が誰ですか、知っているかということであり、第１のユーザ入力の理解結果のセマンティックコンテンツは、映画Ｃであり、コミュニケーション意図は問答である。第１のユーザ入力の理解結果に応じて、映画Ｃに関連する情報を長期記憶情報から取得し、動作記憶情報に追加し、動作記憶情報を更新することができる。つまり、図４におけるコアノード「映画Ｃ」が所在するノードユニットを動作記憶情報に追加し、動作記憶情報を更新する。次にコミュニケーション意図と動作記憶情報におけるコアノード「映画Ｃ」に関連する情報に基づいて前記第１のユーザ入力に対して返信の計画を行う。たとえば、第１の対話目標を問答として計画し、第１の対話コンテンツを「張三」が主役であるとして計画することができる。ニューラルネットワークシステムは、第１のユーザ入力、及び第１の対話目標計画と第１の対話コンテンツ計画との統合結果に基づいて「張三」を回答として生成する。

次に、受信された第２のユーザ入力は、私は張三さんがとても好きですということである。第２のユーザ入力の理解結果のセマンティックコンテンツは、張三であり、コミュニケーション意図は閑談である。この時の動作記憶情報に「張三」に関する関連情報が格納されていないと判断された場合、第２のユーザ入力に対する理解結果に応じて「張三」に関する関連情報を長期記憶情報から取得して動作記憶情報に追加し、動作記憶情報を更新することができる。つまり、図４におけるコアノード「張三」が所在するノードユニットを動作記憶情報に追加し、動作記憶情報を更新し、次にコミュニケーション意図と動作記憶情報におけるコアノード「張三」に関連する情報に基づいて前記第２のユーザ入力に対して返信の計画を行う。たとえば、第２の対話目標を閑談として計画し、第２の対話コンテンツを「思いやりがある」として計画することができる。ニューラルネットワークシステムは、第２のユーザ入力と、第２の対話目標と第２の対話コンテンツ計画との統合結果に基づいて「彼女は思いやりのあります」を回答として生成する。

長期記憶情報にはユーザ入力に関連する知識情報がない場合、返信計画は空である。ニューラルネットワークシステムは、ユーザ入力に基づいて回答を生成する。
設定されたラウンド数（たとえば２ラウンド又は３ラウンド）の閑談を経た後、対話目標を推奨として計画し、動作記憶情報内の現在のマンマシンインタラクションコンテンツに対応する前のコアコアノードに基づいて関連度が高い他のノードを推奨することができ、それにより、複数回の閑談を経た後に知識ポイントを能動的に切り替えて、厄介なチャットを回避することができる。

たとえば、上記の例では、受信された第３のユーザ入力は、彼女は思いやりがあるだけでなく、非常に才能を持っているということである。コミュニケーション意図は、閑談である。次にコミュニケーション意図と動作記憶情報における現在のマンマシンインタラクションコンテンツに対応する前のコアノード「張三」との関連度が高い他のノードに基づいて前記第３のユーザ入力に対して返信の計画を行う。たとえば、第３の対話目標を推奨として計画することができ、次に動作記憶情報内の現在のマンマシンインタラクションコンテンツに対応する前のコアノード「張三」に基づいてコアノード「張三」との関連度が高い他のノードの情報を長期記憶情報から取得することができ、たとえば、人気が高いコアノード「映画Ｄ」を取得することができる。これに基づき、第３の対話コンテンツを「映画Ｄ」と「フランス風の短編映画」として計画することができる。ニューラルネットワークシステムは、第３のユーザ入力と、第３の対話目標と第３の対話コンテンツ計画との統合結果に基づいて「張三さんが主演するフランス風の短編映画である映画Ｄを推奨します」を回答として生成する。

これに基づき、いくつかの実施例によれば、前記ユーザ入力に対して前記動作記憶情報を更新しない場合、前記関連度の最も高いノードが依然として所定の基準を満たすことができない（たとえば、各候補返信コンテンツのスコアがいずれも所定の閾値未満である）ことに応答して、長期記憶情報を再度クエリして前記動作記憶情報を更新し、これにより、チャットのナレッジポイントを能動的に推奨又は切り替えて、厄介なチャットを回避することができる。

以下、１つの例示的な実施例によって本開示におけるニューラルネットワークに基づくマンマシンインタラクション方法を説明する。図５は当該例示的な実施例における対話制御システムの動作プロセスを示す図であり、矢印は信号の流れの方向を示し、1,2……10は方法のステップを示している。

図５に示すように、現在のユーザ入力を受信した後、現在のユーザ入力に対して対話理解を行い、現在のユーザ入力のコミュニケーション意図とセマンティックコンテンツを取得し、コミュニケーション意図とセマンティックコンテンツに基づいて現在のマンマシンインタラクションシーンでのユーザ入力の関連ノードの情報を長期記憶情報から取得し、関連度に応じて、取得された関連ノードの関連にスコアを付け、次に関連スコアに基づいてソートし、関連スコアを関連ノードの論理制御情報に追加して動作記憶情報に融合し、動作記憶情報を更新し、現在のマンマシンインタラクションの履歴インタラクションデータ、現在のユーザ入力に関連するノードの情報を動作記憶情報から取得し、対話目標計画と対話コンテンツ計画とを含む対話制御を行うことができ、計画された対話目標がたとえば能動的な推奨であると、現在のユーザ入力との関連度が高い他のノードの情報を長期記憶情報から取得して、知識チャットの能動的な推奨を実現し、計画された対話目標と対話コンテンツを統合してニューラルネットワークシステムのデコーダに提供し、デコーダは、計画された対話目標と対話コンテンツの統合及び現在のユーザ入力と格納された現在のマンマシンインタラクションの履歴インタラクション情報に基づいて符号化して暗黙的ベクトルを取得し、現在のユーザ入力に対する返信を生成する。

本開示の別の態様によれば、図２に示すように、ニューラルネットワークに基づくマンマシンインタラクション装置をさらに提供し、前記装置は、ユーザ入力を第１の入力として受信するように構成されるニューラルネットワークシステム１０１と、前記ユーザ入力を受信するように構成される、前記ニューラルネットワークシステムとは異なる対話制御システム１０２とを備えることができ、前記対話制御システム１０２は、さらに前記ユーザ入力に関連する情報に基づき、前記ユーザ入力を処理し、処理結果を第２の入力として前記ニューラルネットワークシステムに提供するように構成され、前記ニューラルネットワークシステムは、さらに前記第１の入力と第２の入力に基づき、前記ユーザ入力に対する返信を生成するように構成される。

前記ニューラルネットワークシステムは、エンドツーエンド型ニューラルネットワークシステム１０１を採用することができるが、これに限定されない。前記エンドツーエンド型ニューラルネットワークシステム１０１は、エンコーダ１０１１とデコーダ１０１２とを備えることができる。前記エンコーダ１０１１は、入力されたテキストコンテンツを暗黙的に表現して暗黙的ベクトルを生成することができ、前記デコーダ１０１２は、所与の入力ベクトルに従って滑らかな自然言語テキストを生成することができる。

いくつかの実施例によれば、前記エンコーダ１０１１は、前記ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を受信し、ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を符号化して暗黙的ベクトルを生成するために使用されてもよく、前記暗黙的ベクトルがデコーダ１０１２に入力される。前記デコーダ１０１２は、前記第２の入力（即ち、対話制御システムによってユーザ入力を処理して得られた処理結果）及びエンコーダ１０１１によって生成された暗黙的ベクトルを受信し、前記ユーザ入力に対する返信を生成するために使用されてもよい。これにより、ニューラルネットワークシステムは、現在のユーザ入力、格納された現在のマンマシンインタラクションの履歴インタラクション情報、及び対話制御システムがユーザ入力に関連する情報に基づいてユーザ入力を処理することで得られた結果に基づき、ユーザ入力に対する応答を生成することができ、それによってマシンの返信コンテンツが現在のマンマシンインタラクションシーンに一致し、対話論理が明確になることをさらに確保することができる。

いくつかの実施例によれば、前記装置はさらにストレージコンピューティングシステム１０３を備えることができる。ストレージコンピューティングシステム１０３は、長期記憶モジュール１０３１と動作記憶モジュール１０３２とを含むことができる。この場合、前記ユーザ入力に関連する前記情報は、長期記憶モジュールから取得された長期記憶情報と、前記動作記憶モジュールから取得された、現在のマンマシンインタラクション期間のみに有効な動作記憶情報とを含むことができる。長期記憶情報は、対話システムが長期間格納する必要がある情報であり、様々な知識情報を含むことができ、たとえば、常識、分野の知識、言語知識、問答ライブラリ、及び対話ライブラリのうちの少なくとも１つを含むことができる。動作記憶情報は、現在のマンマシンインタラクションコンテンツに基づいて長期記憶情報から取得されてもよい。つまり、動作記憶情報は、現在のマンマシンインタラクションコンテンツに関連する知識情報である。これにより、現在のマンマシンインタラクションコンテンツに関連する知識情報をニューラルネットワークシステムに基づく対話システムに融合することで、関連する知識情報に基づいて現在のマンマシンインタラクションシーンでユーザ入力に対する返信の計画を行うことを実現し、知識情報を十分に利用することができ、それにより、現在のマンマシンインタラクションのコンテンツが豊富であり、論理が明確になる。なお、前記ユーザ入力に関連する情報は、インターネットからリアルタイムでキャプチャされた情報を含むこともできる。

いくつかの実施例によれば、長期記憶情報は、意図知識グラフ、問答ライブラリ及び対話ライブラリを含むことができるが、これらに限定されない。以下では、まず意図知識グラフ、問答ライブラリ及び対話ライブラリのデータコンテンツ、データ編成形態などについて説明する。

意図知識グラフは、対話シーンの知識インタラクションニーズから開始して、知識クエリ機能を満たすだけでなく、複数ラウンドのマルチシーンインタラクションにおける関連付け、類推、予測を満たすこともできる。意図知識グラフのノードの順序付き編成により、テキストの計算と知識情報の制御が容易になり、かつ知識情報の計算により、対話での動作ジャンプ（シーンジャンプ、同じシーンでのコンテンツジャンプ）をサポートすることができ、強いセマンティック遷移論理性を持っている。意図知識グラフは、異なるタイプのマルチシーン情報を統合しているため、複数の視点から言語を理解する機能を提供することがきる。

いくつかの実施例によれば、前記長期記憶モジュール１０３１には意図知識グラフが格納され、意図知識グラフは、ノードと有向エッジとを含む形態の第１の有向グラフの知識情報を含むことができ、かつ前記第１の有向グラフ内のノードは、セマンティックコンテンツと論理制御情報とを含む構造化データである。前記第１の有向グラフ内の有向エッジは、関連ノード間の関連属性と、ノードと対応する論理制御情報の間の関連属性とを表す。なお、他の知識情報も第１の有向グラフのデータ編成形態を採用することができるが、意図知識グラフに限定されない。ここでは、意図知識グラフのみを例として、どのように第１の有向グラフを使用して知識情報を表現するかを説明する。

いくつかの実施例によれば、意図知識グラフの前記論理制御情報は、現在のマンマシンインタラクションに関連するノードをスクリーニングするために使用できる情報、たとえば人気、適時性、感情などの情報を含むことができ、現在のマンマシンインタラクションコンテンツに関連するノードをスクリーニングするために使用され、これにより、ユーザが知識チャットを能動的に開始する場合で関連する知識情報を検索することを実現することができ、これにより、対話コンテンツの論理が明確になる。たとえば、第１の人気閾値を設定し、対応する論理制御情報内の人気が前記第１の閾値よりも高いノードを、動作記憶情報内の現在のマンマシンインタラクションコンテンツに関連するノードからスクリーニングすることができる。第１の有効時点を設定し、対応する論理制御情報内の時効情報が前記第１の有効時点の後に位置するノードを、動作記憶情報内の現在のマンマシンインタラクションに関連するノードからスクリーニングすることができる。第１のプリセット感情タイプを設定し、対応する論理制御情報内の感情タイプが前記第１のプリセット感情タイプであるノードを、現在のマンマシンインタラクションに関連するノードからスクリーニングすることができる。

いくつかの実施例によれば、意図知識グラフの前記論理制御情報は、さらに、現在のマンマシンインタラクションにおける各ノード間の関連度を確定できる情報、たとえば、人気、ノード間の関連関係などの情報を含むことができ、現在のマンマシンインタラクションコンテンツに関連するノードを拡張するために使用され、これにより、マシンが知識チャットを能動的に切り替えたり、トリガーしたり、推奨したりすることを実現することができ、これにより、対話コンテンツが豊富になり、厄介なチャットが回避される。たとえば、第２の人気閾値を設定し、対応する論理制御情報内の人気が前記第２の人気閾値よりも大きいノードを、長期記憶情報内のユーザ入力の各関連ノードから取得することができる。関連関係に応じて、現在のノードから当該現在のノードとの関連度が最も高いノードに拡張することができる。

前記第１のタイプのノードは、たとえば、コアノードであってもよく、前記第２のタイプのノードは、たとえば、ラベルノードであってもよい。前記有向エッジは、コアノード間、コアノードとラベルノード間の関連属性を表すことができる。コアノードとラベルノードは、構造化データであってもよく、それによってセマンティックコンテンツの理解及び制御を実現することができる。コアノードは、完全なセマンティックを備えた基本ユニットであってもよく、エンティティ、概念、イベント、命令を含むことができ、たとえば、人物、物品、構造、製品、建物、場所、組織、イベント、芸術作品、科学技術、科学定理などであってもよい。コアノードの論理制御情報は、人気、適時性、ラベルノードのリコールのための全てのラベル、タスクＡＰＩなどを含むことができる。各コアノードは、関連している複数のラベルノードを含むことができる。ラベルノードのセマンティックコンテンツは、ラベルノードに関連するコアノードのセマンティックコンテンツの一部であってもよく、コアノードとの関係が部分と全体の関係である。

いくつかの実施例によれば、現在のマンマシンインタラクションに関連する情報は、第１の有向グラフから取得された、ユーザ入力に関連するノード情報を含むことができる。ユーザ入力を第１の有向グラフのコアノードにマッピングすることができ、マッピングによって取得されたコアノード、及びマッピングによって取得されたコアノードに関連するラベルノードは、全てユーザ入力に関連する知識情報として使用されてもよい。ユーザ入力を第１の有向グラフのコアノードにマッピングできない場合、現在のマンマシンインタラクションの履歴ユーザ入力をマッピングして取得したコアノードを、現在のユーザ入力に対応するコアノードとして使用することができる。たとえば、現在のユーザ入力が「主人公は誰ですか？」である場合、前記第１の有向グラフには現在のユーザ入力に対応するコアのノードがない。この場合、現在のマンマシンインタラクションにおける前回の前記第１の有向グラフ内の対応するコアノードを現在のユーザ入力のコアノードとして使用し、現在のユーザ入力に関連する知識情報を取得することができる。ここで、現在のマンマシンインタラクションコンテンツは、現在のユーザ入力及び現在のマンマシンインタラクションの履歴インタラクション情報を含むことができる。

図３に示すように、実線の円（「映画Ａ」、「映画Ｂ」、「趙六」）は、コアノードを示し、実線の楕円は、ラベルノードを示し、点線の円は、論理制御情報を示している。各点線の楕円は、ユーザ入力に関連する情報ユニットとして１つのノードユニットを囲むことができる。つまり、ユーザ入力が１つのノードユニット（図３のノードユニット１００）のコアノードにマッピングされると、ノードユニットの全てのノード情報は、ユーザ入力に関連する知識情報と考えられ、動作記憶情報に追加される。ただし、システムの利用可能なコンピューティングリソースの大きさに応じて、マッピングによって取得された１つのコアノードに関連する少なくとも１つの他のコアノードが所在するノードユニットもユーザ入力に関連していると考えられ、動作記憶情報に追加されてもよく、ここでは限定しない。以下のコンテンツでは、マッピングによって得られたノードユニットが所在するノードユニットをユーザ入力に関連する知識情報として使用することを例として、本開示の技術的解決策を具体的に説明する。

第１のタイプのノード（コアノード）が映画エンティティ「映画Ａ」であることを例とすると、「映画Ａ」のユーザがラベルノードをリコールするためのラベルは、俳優、役割、ディレクター、シーンなどを含むことができる。第１のタイプのノードに関連するラベルノード（第２のタイプのノード）は、「趙六」、「役割Ａ」、「役割Ｂ」、「李四」、「有名なシーン」を含むことができる。ここで、ラベルノード「趙六」は、関連する第１のタイプのノード「映画Ａ」の俳優ラベルに対応し、「役割Ａ」及び「役割Ｂ」は、関連する第１のタイプのノード「映画Ａ」の役割ラベルに対応し、「李四」は、関連する第１のタイプのノード「映画Ａ」のディレクターラベルに対応し、「有名なシーン」は、関連する第１のタイプのノード「映画Ａ」のシーンラベルに対応している。コアノード「映画Ａ」に関連するコアノードは、「映画Ｂ」を含むことができ、ラベルノード「趙六」に関連するコアノードは、「趙六」を含むことができる。ユーザ入力がコアノード「映画Ａ」にマッピングされると、コアノード「映画Ａ」と、ラベルノード「趙六」、「役割Ａ」、「役割Ｂ」、「李四」、「有名なシーン」はいずれもユーザ入力に関連する情報として使用される。

前記第３のタイプのノードは、たとえば、コンテンツノードであってもよい。前記有向エッジは、ラベルノード（第２のタイプのノード）とコンテンツノードの間の関連属性を表すこともできる。コンテンツノードは、非構造化データであってもよく、豊富なマルチモーダルコンテンツをサポートすることができる。各コアノード（第１のタイプのノード）は、複数のコンテンツノードを含むことができ、コンテンツノードに関連するラベルノードは、当該コンテンツノードのテーマ又は要約であってもよい。コンテンツノードは、対話コンテンツを含むことができ、マルチモーダル（単語、文、ピクチャー、ビデオなど）、多様性、細粒度などの特徴を備える。コンテンツノードの論理制御情報は、たとえば、コアラベル、キーワード、コンテンツノードのセマンティックコンテンツにおけるコアラベルの重要性、コンテンツノードのセマンティックコンテンツの要約的なフレーズ、コンテンツノードに関連するラベルノードのカテゴリ、コンテンツノードに関連するラベルノードの感情極性、コンテンツノードに関連するラベルノードのスコアなどを含むことができる。

いくつかの実施例によれば、現在のマンマシンインタラクションコンテンツに関連する情報は、第１の有向グラフから取得された、ユーザ入力に関連するノード情報を含むことができる。ユーザ入力を第１の有向グラフのコアノードにマッピングすることができ、マッピングによって取得されたコアノード、マッピングによって取得されたコアノードに関連するラベルノード、及び取得されたラベルノードに関連するコンテンツラベルは、いずれもユーザ入力に関連する知識情報として使用されてもよい。

図３に示すように、長方形のボックスは、コンテンツノードを示している。第１のタイプのノード（コアノード）が映画エンティティ「映画Ａ」であることを例とすると、第１のタイプのノードに関連するラベルノード（第２のタイプのノード）は、「趙六」、「役割Ａ」、「役割Ｂ」、「李四」、「有名なシーン」を含むことができる。ここで、ラベルノード「趙六」及びラベルノード「役割Ａ」に関連するコンテンツノードは、「役割Ａのスチール写真．ｊｐｇ」を含むことができ、ラベルノード「役割Ａ」に関連するコンテンツノードは、さらに「役割Ａが極めて完全な活力と生命の意志を持っている」を含むことができ、ラベルノード「李四」に関連するコンテンツノードは、「映画Ａ」がディレクター李四の最も良いきょう客映画である。ユーザ入力がコアノード「映画Ａ」にマッピングされると、コアノード「映画Ａ」、ラベルノード「趙六」、「役割Ａ」、「役割Ｂ」、「李四」、「有名なシーン」、及びラベルノード「趙六」、「役割Ａ」、「李四」に関連するコンテンツノードは、いずれもユーザ入力に関連する情報として使用される。

２つのノードが関連していることは、これらの２つのノードが少なくとも１つの有向エッジを含む有向パスを介して関連付けられることを意味することができる。異なるノードは、有向エッジを介して接続されてもよく、接続されたノード間の関連属性を示している。有向エッジは、たとえば、コアノードからコアノードまでの関連エッジ、コアノードからラベルノードまでの関連エッジ、ラベルノードからコアノードまでの関連エッジ、ラベルノードからコンテンツノードまでの関連エッジを含むことができる。有向エッジの属性は、セマンティック関係（たとえばディレクター、作品、妻など）、論理関係（時系列、因果など）、相関性の強さ、セマンティックの上位及び下位関係などの様々なタイプを含むことができる。

たとえば、図３に示すように、コアノード「映画Ａ」とコアノード「映画Ｂ」の間の有向エッジの属性は、相関性の強さであってもよく、ラベルノード「趙六」とコアノード「趙六」の間の有向エッジの属性は、相関性の強さであってもよい。コアノード「映画Ａ」とラベルノード「李四」、「趙六」、「役割Ａ」、「有名なシーン」の間の有向エッジの属性は、セマンティック関係である。ラベルノード「趙六」とコンテンツノード「役割のスチール写真．ｊｐｇ」の間の有向エッジの属性は、セマンティック関係であってもよい。

いくつかの実施例によれば、前記長期記憶モジュール１０３１には対話ライブラリが格納されてもよく、対話ライブラリは、ノードと有向エッジとを含む形態の第２の有向グラフを含むことができ、マンマシンインタラクションプロセスにおけるセマンティック情報とその特徴を記録し、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画に参照を提供するために使用される。対話ライブラリに基づき、ビッグデータを使用してユーザのより傾いた意図を取得することができるため、ユーザ入力の返信計画に合理的なガイドを提供することができる。前記第２の有向グラフは、図３に示すように、上記の第１の有向グラフ（たとえば、意図知識グラフ）と同じ構造を有することができるが、ここでは詳細に説明されない。これにより、対話ライブラリと意図知識グラフを同じ構造の有向グラフとして設定することにより、対話ライブラリと意図知識グラフとの融合を効果的に実現し、知識情報の制御を容易にすることができる。なお、他の知識情報も第２の有向グラフのデータ編成形態を採用することができるが、対話ライブラリに限定されず、ここでは、対話ライブラリのみを例として、どのように第２の有向グラフを使用して知識情報を表現するかを説明する。異なる知識情報を同じ構造の有向グラフとして設定することにより、異なる知識情報の融合を効果的に実現し、知識情報の制御を容易にすることができる。

いくつかの実施例によれば、問答ライブラリは、質問－解答の形態の問答知識情報であってもよい。問答ライブラリの機能は、ユーザの質問について問答ライブラリをクエリし、質問に一致する解答を返信し、ユーザの情報ニーズを満たすことである。たとえば、ユーザ入力が問答である場合、ユーザ入力に一致する解答があるか否かを問答ライブラリから優先的にクエリすることができ、それにより、返信を迅速に実現することができる。

いくつかの実施例によれば、前記長期記憶モジュールに格納された長期記憶情報は、意図知識グラフ、問答ライブラリ及び対話ライブラリを含むことができる。以上では、長期記憶情報の意図知識グラフ、対話ライブラリと問答ライブラリのデータコンテンツとデータ編成形態は、例として説明されたが、これに限定されない。当然、前記長期記憶情報は、現在のマンマシンインタラクションに関連する知識情報との他の組み合わせであってもよく、ここで限定しない。

長期記憶情報については、さらに言語計算と情報抽出を行うことができる。言語コンピューティングには、比較、帰納、演繹、推論などが含まれてもよく、情報抽出には、たとえば概念抽出、エンティティ抽出、イベント抽出、命令抽出などが含まれてもよく、これにより、ユーザ入力に基づいて現在のマンマシンインタラクションコンテンツに関連する動作記憶情報を長期記憶情報から取得することができる。現在のマンマシンインタラクションコンテンツは、現在のユーザ入力及び現在のユーザ入力の前の履歴インタラクション情報を含むことができる。動作記憶情報は、さらに現在のマンマシンインタラクションコンテンツを含むことができ、それによって現在のマンマシンインタラクション履歴と、長期記憶情報から取得されたユーザ入力に関連する知識情報とに基づき、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を取得することができ、これについては、以下の内容で詳しく説明する。

いくつかの実施例によれば、前記動作記憶モジュール１０３２には動作記憶情報が格納されてもよい。前記動作記憶情報は、ノードと有向エッジとを含む形態の第３の有向グラフの情報を含むことができ、前記第３の有向グラフは、前記第１の有向グラフ（たとえば、意図知識グラフ）と同じ構造であってもよい。これにより、長期記憶情報の知識情報と同じ構造の情報を含むように動作記憶情報を設定することにより、知識情報の呼び出し及び融合を容易にすることができる。好ましくは、前記第３の有向グラフは、現在のマンマシンインタラクションに関連する前記第１の有向グラフの部分であってもよく、そのため、知識情報の呼び出し及び融合がより容易になる。つまり、前記第３の有向グラフがコアノードとラベルノードとを含むことができるため、全てのユーザ意図とシステム返信（意図）も動作記憶情報内のコアノード及び関連するラベルノードにできるだけマッピングされてもよく、各モジュールが使用しやすい。また、現在のマンマシンインタラクションに関連する一部のノード情報を長期記憶情報から抽出するだけでよいため、メモリの占有を減少し、返信効率を向上させることができる。前記第３の有向グラフは、さらにマルチモーダルセマンティックコンテンツをサポートするためにコンテンツノードを含むことができ、それによって動作記憶情報に基づいて豊富な対話コンテンツを取得することもできる。なお、前記第３の有向グラフは、上記の第１の有向グラフの構造とは異なることもできる。

いくつかの実施例によれば、前記動作記憶情報は、さらに前記第１の有向グラフから取得された、前記現在のマンマシンインタラクションに関連する全てのノードのセマンティックコンテンツと論理制御情報を含むことができる。つまり、前記第３の有向グラフのコアノードは、第１の有向グラフに対応する第１のタイプのノードのセマンティックコンテンツと論理制御情報を含み、前記ラベルノードは、第１の有向グラフに対応する前記第２のタイプのノードのセマンティックコンテンツと論理制御情報を含み、前記コンテンツノードは、第１の有向グラフに対応する前記第３のタイプのノードのセマンティックコンテンツと論理制御情報を含む。これにより、動作記憶情報は、現在のマンマシンインタラクションに基づいて長期記憶情報から全てのチャット可能な話題をできるだけ取得することができ、これによって動作記憶情報に基づいてユーザ入力に対する返信計画を実現することが可能となる。動作記憶情報内のデータ量が長期記憶情報内のデータ量よりもはるかに少ないため、返信速度を向上させ、ユーザエクスペリエンスを向上させることができる。

いくつかの実施例によれば、動作記憶情報にユーザ入力に関連するノードの情報がない場合、ユーザ入力に基づき、ユーザ入力に関連する知識情報を長期記憶情報から取得し、動作記憶情報を更新し、次に更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対する返信の計画を行うことができる。いくつかの実施例によれば、ユーザ入力に基づき、ユーザ入力に関連するサブラフを第１の有向グラフから取得し、取得されたサブグラフを動作記憶情報内の第３の有向グラフに融合し、動作記憶情報を更新することができる。

動作記憶情報に対して、現在のマンマシンインタラクションコンテンツ内の履歴インタラクション情報に対応する各ノードでは、コアノードに関連するラベルノードとコンテンツノードではなく、コアノードのセマンティックコンテンツと論理制御情報のみを保持でき、これにより、コンピューティングリソースのニーズを減らすことができる。チャットされた話題が再び関与しない可能性があるため、現在のマンマシンインタラクションにおける履歴インタラクション情報に対応するコアノードのセマンティックコンテンツと論理制御情報のみを保持すると、マンマシンインタラクションにほとんど影響を与えない。

いくつかの実施例によれば、前記対話制御モジュールは、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信計画を行うステップを実行して前記ユーザ入力を処理するように構成されてもよい。これにより、関連情報を十分に利用し、関連情報に基づいて現在のマンマシンインタラクションシーンでユーザ入力に対して返信の計画を行うことができ、さらにマンマシンインタラクションのコンテンツが豊かになり、論理が明確である。

いくつかの実施例によれば、対話制御システム１０２は、対話理解モジュール１０２１と対話制御モジュール１０２２とを含むことができる。１つの実施例では、対話理解モジュール１０２１を利用してまずユーザ入力に基づいて長期記憶情報から関連する知識情報を取得し、動作記憶情報を更新し、次に対話制御モジュール１０２２は、更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うことができる。

前記対話理解モジュール１０２１は、前記ユーザ入力のセマンティックコンテンツを分析し、現在のマンマシンインタラクションにおける前記ユーザ入力に対応する前記ユーザーのコミュニケーション意図を分析するように構成されてもよい。つまり、ユーザ入力の理解結果は、セマンティックコンテンツとコミュニケーション意図を含むことができる。コミュニケーション意図は、たとえば意図システム内の１つ、たとえば、質問、明確、提案、拒絶、励みや慰めなどを選択することができる。

いくつかの実施例によれば、意図知識グラフに基づいて前記ユーザ入力を理解することができる。たとえば、図４に示すように、受信された第１のユーザ入力は、映画Ｃの主役が誰ですか、知っているかということであり、第１のユーザ入力の理解結果のセマンティックコンテンツは、映画Ｃであり、コミュニケーション意図は問答である。受信された第２のユーザ入力は、私は張三さんがとても好きですということである。第２のユーザ入力の理解結果のセマンティックコンテンツは、張三であり、コミュニケーション意図は閑談である。

いくつかの実施例によれば、ユーザ入力のコミュニケーション意図は、トレーニングが完了された意図ニューラルネットワークモデルに基づいて理解されてもよい。第１のユーザ入力サンプルセットを取得し、第１のユーザ入力サンプルセット内の一般的なユーザ入力サンプルのコミュニケーション意図にラベルを手動で付けることができる。前記第１のユーザ入力サンプルセットを利用して意図ニューラルネットワークモデルをトレーニングする。たとえば、前記第１のユーザ入力サンプルセットは、ログデータ（たとえば、検索エンジンログ）に基づいて取得されてもよい。また、低頻度のユーザ入力（たとえば、「あなたの言うことがわからない」）を取得し、低頻度のユーザ入力のコミュニケーション意図にラベルを手動で付けてコーパスを生成することもできる。意図ニューラルネットワークモデルがコミュニケーション意図を識別できず、つまり意図システムに対応するコミュニケーション意図がないユーザ入力の場合、ユーザ入力とのセマンティック類似度が最も高い低頻度のユーザ入力をコーパスで検索し、検索された低頻度のユーザ入力に対応するコミュニケーション意図をユーザ入力のコミュニケーション意図として使用することができ、これにより、ユーザ入力のコミュニケーション意図を理解することを確保することができる。

以下では、前記ユーザ入力を理解するプロセスを、意図知識グラフで詳細に説明する。
いくつかの実施例によれば、図６に示すように、前記対話理解モジュール１０２１は、前記ユーザ入力が前記動作記憶情報内のあるノードに対応できるか否かを判断するように構成される判定サブモジュール１０２１１と、前記ユーザ入力が前記動作記憶情報内のあるノードに対応できることに応答して、前記動作記憶情報に基づいて前記ユーザ入力を処理するように構成される処理サブモジュール１０２１２とを含むことができ、これにより、動作記憶情報に基づいてユーザ入力のセマンティックコンテンツを理解し、現在のマンマシンインタラクションシーンでのユーザ入力の理解を実現し、対話の理解の精度と効率を向上させることができる。前記あるノードは、たとえば、第３の有向グラフ内のノードであってもよく、上記のように、前記第３の有向グラフは、前記第１の有向グラフ（意図知識グラフ）と同じ構造であってもよく、且つ前記第１の有向グラフの一部である。

いくつかの実施例によれば、前記処理サブモジュール１０２１２は、さらに、前記動作記憶情報内の前記あるノードの情報に基づき、関連するコンテンツを前記ユーザ入力に補うように構成される。たとえば、ユーザ入力が「主人公は誰ですか」である場合、動作記憶情報から検索された、前記ユーザ入力に対応するあるコアノード「映画Ａ」に基づき、ユーザ入力を「映画Ａの主人公は誰ですか」として補完することができる。いくつかの実施例によれば、動作記憶情報内の前のコアノードに対応する現在のマンマシンインタラクションコンテンツを検索し、ユーザ入力が当該前のコアノードの論理制御情報内のラベルに覆われているか否かを判定し、覆われていると、当該前のノードに基づいて関連するコンテンツを前記ユーザ入力に補うことができる。たとえば、当該前のコアノード「映画Ａ」の論理制御情報内のラベルは、俳優、役割、ディレクター、シーンを含む。「主人公」と「俳優」のセマンティックが同じであるため、ユーザ入力はコアノード「映画Ａ」のラベルに覆われていると確定され、当該コアノード「映画Ａ」に基づき、ユーザ入力を「映画Ａの主人公は誰ですか」として補完する。

補完されたユーザ入力に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
いくつかの実施例によれば、前記対話理解モジュールは、さらに前記ユーザ入力が前記動作記憶情報内のノードに対応できないことに応答して、前記長期記憶モジュールから前記ユーザ入力に関連するノードの情報を抽出し、前記動作記憶モジュールに格納するように構成されてもよい。これにより、ユーザ入力が動作記憶情報内の知識情報に覆われていない場合、知識範囲を拡大することができ（たとえば、意図グラフ全体に基づく）、知識情報に基づいてユーザ入力を理解することを試みることができる。

いくつかの実施例によれば、前記対話理解モジュール１０２１は、さらに前記ユーザ入力に対して曖昧性除去処理を行うように構成される曖昧性除去サブモジュール１０２１３を含むことができる。たとえば、ユーザ入力が「私は水滸伝を読むことが好きです」である場合、単語分割処理によって得られた「水滸伝」は、曖昧になり、テレビドラマや小説である可能性がある。したがって、ユーザ入力のセマンティックコンテンツを正確に理解するように、ユーザ入力に対して曖昧性除去処理を行い、「水滸伝」のタイプを確定する必要がある。

曖昧性除去処理の結果に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
いくつかの実施例によれば、前記曖昧性除去サブモジュール１０２１３は、さらにユーザ入力と、前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報とに基づき、前記ユーザ入力内の曖昧性がある少なくとも一部のコンテンツを識別し、前記少なくとも一部のコンテンツの現在のマンマシンインタラクションにおける意味を確定するように構成されてもよい。これにより、現在のマンマシンインタラクションシーンに基づいてユーザ入力に対して曖昧性除去処理を行うことができる。たとえば、ユーザ入力が「私は水滸伝を読むことが好きす」である場合、「水滸伝」が小説だけでなく、テレビドラマを指すことができるため、曖昧性があり、この場合、システムは、現在のコンテキストでの「水滸伝」の真の意味がテレビドラマではなく、小説を指すことをユーザ入力内の「読む」によって確定する。１つの例示的な実施例として、ユーザ入力と、動作記憶情報内の現在のマンマシンインタラクションに対応する前のコアノード（動作記憶情報内の最新の更新されたコアノードであってもよく、セマンティックコンテンツと論理制御情報を含む）に基づき、前記ユーザ入力に対して曖昧性除去処理を行うことができる。たとえば、ユーザ入力と、動作記憶情報内の現在のマンマシンインタラクションに対応する前のコアノードとを曖昧性除去ニューラルネットワークモデルに入力して、曖昧性除去ニューラルネットワークモデルによって出力されたユーザ入力の曖昧性がある少なくとも部分的なコンテンツを取得することができる。タイプコーパスを使用して曖昧性除去ニューラルネットワークモデルに対して測定トレーニングを実行して、ユーザ入力と前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報との組み合わせを実現することができ、タイプコーパスの対応するタイプにより近くなり、ユーザ入力内の曖昧性がある少なくとも一部のコンテンツ及び曖昧性がある前記少なくとも一部のコンテンツのタイプを出力することができる。ここでどのようにユーザ入力内の曖昧性がある少なくとも一部のコンテンツ及び曖昧性がある少なくとも一部のコンテンツのタイプとを確定するかは、例として説明され、これに制限されない。

なお、曖昧性除去処理は、動作記憶情報のみに基づいて行われることに限定されなく、たとえば、ユーザ入力に対して、曖昧性除去処理は、長期記憶情報内の対話ライブラリに基づいて行われてもよい。たとえば、対話ライブラリにおいて、入力「私は水滸伝が好きです」がより読む傾向にあるという意図に対して、「水滸伝」のタイプは、小説として確定されてもよい。

いくつかの実施例によれば、前記対話理解モジュール１０２１は、曖昧性除去処理と情報補完処理を実行するように構成されてもよい。曖昧性除去処理の結果と補完後のユーザ入力に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。

いくつかの実施例によれば、前記対話理解モジュール１０２１は、さらに前記ユーザ入力のセマンティックコンテンツと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応するコミュニケーション意図とに基づき、動作記憶情報からユーザ入力に関連するノードの情報をクエリするように構成されるクエリサブモジュール１０２１４と、前記ユーザ入力との関連度に応じて、クエリされた前記ユーザ入力の関連ノードを前記関連ノードの論理制御情報に基づいてソートするように構成されるソートサブモジュール１０２１５とを含むことができる。たとえば、人気又は適時性などに基づいてスコアを付け、関連ノードと前記ユーザ入力の関連度を確定することができ、これにより、関連ノードと前記ユーザ入力の関連度に応じて対話を決定し、対話システムで生成された返信とユーザ入力の関連性を実現することができる。

いくつかの実施例によれば、前記対話理解モジュール１０２１は、さらに前記ユーザ入力との関連度に応じて、前記関連ノードに異なるスコアを付与することにより、対話の決定のための参照を提供するように構成されてもよい。たとえば、ユーザ入力に関連するスコアを動作記憶情報内の第３の有向グラフのコアノードの論理制御情報に追加することができる。

分析によって得られたユーザ入力のセマンティックコンテンツは、たとえば、第３の有向グラフにおけるユーザ入力に関連するコアノードであってもよい。
いくつかの実施例によれば、前記ユーザ入力に関連する関連度に応じて、前記関連ノードに異なるスコアを付与する場合、前記対話制御モジュールは、前記ソート結果に応じて、対話目標を計画し、前記ユーザ入力との関連度が最も高いノードの情報を計画された対話コンテンツとして選択する操作と、前記計画された対話コンテンツと前記対話目標とを統合し、前記第２の入力として前記ニューラルネットワークシステムに提供する操作を実行して、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うように構成され、これにより、対話システムは、知識情報を融合し、ユーザ入力に基づいて返信の計画を行うことができ、対話論理が明確になる。

なお、意図知識グラフ内のノードの論理制御情報に基づいて前記関連ノードとユーザ入力との関連度を取得してもよく、対話ライブラリに基づいて前記関連ノードとユーザ入力の関連度を取得してもよく、ユーザの好みに基づいて前記関連点とユーザ入力の関連度を取得してもよく、これに限定せず、知識情報から関連ノードとユーザ入力との関連度を取得できればよい。ユーザの現在のマンマシンインタラクションコンテンツと履歴マンマシンインタラクションコンテンツに基づいて当該ユーザの好みを取得することができ、たとえば、当該ユーザが複数のマンマシンインタラクションにおいて閲読に関与するため、このユーザの閲読好みを確定し、対話の決定プロセスでユーザの好みに応じて対話コンテンツを計画することができる。

たとえば、上記の例では、受信された第３のユーザ入力は、彼女は思いやりがあるだけでなく、非常に才能を持っているということである。コミュニケーション意図は、閑談である。次にコミュニケーション意図と動作記憶情報における現在のマンマシンインタラクションコンテンツに対応する前のコアノード「張三」との関連度が高い他のノードに基づいて前記第３のユーザ入力に対して返信の計画を行う。たとえば、第３の対話目標を推奨として計画することができ、次に動作記憶情報内の現在のマンマシンインタラクションコンテンツに対応する前のコアノード「張三」に基づいてコアノード「張三」との関連度が高い他のノードの情報を長期記憶情報から取得することができ、たとえば、人気が高いコアノード「映画Ｄ」を取得することができる。これに基づき、第３の対話コンテンツを「映画Ｄ」と「フランス風の１つの短編映画」として計画することができる。ニューラルネットワークシステムは、第３のユーザ入力と、第３の対話目標と第３の対話コンテンツ計画との統合結果に基づいて「張三さんが主演するフランス風の１つの短編映画である映画Ｄを推奨します」を回答として生成する。

本開示の別の態様によれば、プロセッサと、プログラムを格納しており、前記プログラムが、前記プロセッサによって実行されると前記プロセッサに上記の方法を実行させるための命令を含むメモリとを備える電子機器をさらに提供する。

本開示の別の態様によれば、プログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、電子機器のプロセッサによって実行されると、前記電子機器に上記の方法を実行させる命令を含むコンピュータ読み取り可能な記憶媒体をさらに提供する。

図７に示すように、本開示の各態様に適用できるハードウェア機器（電子機器）の例であるコンピューティング機器２０００を説明する。コンピューティング機器２０００は、処理及び／又は計算を実行するように構成された任意の機械であってもよく、ワークステーション、サーバー、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、パーソナルデジタルアシスタント、ロボット、スマートフォン、車載コンピュータ又はそれらの任意の組み合わせであってもよいが、これらに制限されない。上記方法は、コンピューティング機器２０００又は類似する機器又はシステムによって全部で又は少なくとも部分的に実現されてもよい。

コンピューティング機器２０００は、（１つ又は複数のインターフェイスを介して）バス２００２に接続される素子又はバス２００２と通信する素子を含むことができる。たとえば、コンピューティング機器２０００は、バス２００２、１つ又は複数のプロセッサ２００４、１つ又は複数の入力機器２００６及び１つ又は複数の出力機器２００８を含むことができる。１つ又は複数のプロセッサ２００４は、任意のタイプのプロセッサであってもよく、かつ１つ又は複数の汎用プロセッサ及び／又は１つ又は複数の専用プロセッサ（たとえば、特殊な処理チップ）を含むことができるが、これらに限定されない。入力機器２００６は、コンピューティング機器２０００に情報を入力することができる任意のタイプの機器であってもよく、マウス、キーボード、タッチスクリーン、マイク及び／又はリモートコントロールを含むことができるが、これらに限定されない。出力機器２００８は、情報を表示することができる任意のタイプの機器であってもよく、ディスプレイ、スピーカー、ビデオ／オーディオ出力端末、バイブレーター及び／又はプリンターを含むことができるが、これらに限定されない。コンピューティング機器２０００は、さらに非一時的記憶機器２０１０を含むことができ、非一時的記憶機器が非一時的であってもよく、かつデータ格納を実現できる任意の記憶機器であってもよく、且つ磁気ディスクドライブ、光スト記憶機器、ソリッドステートメモリ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、又はいずれかの他の磁気媒体を含むことができるが、これらに限定されず、光ディスク又は他の任意の光学媒体、ＲＯＭ（読み出し専用メモリ）、ＲＡＭ（ランダムアクセスメモリ）、キャッシュメモリ及び又は任意の他のメモリチップ又はカートリッジ、及び／又はコンピュータは、その中からデータ、命令及び／又はコードを読み取ることができる任意の他の媒体であってもよい。非一時的記憶機器２０１０は、インターフェイスから取り外されてもよい。非一時的記憶機器２０１０は、上記の方法及びステップを実現するためのデータ／プログラム（命令を含む）／コードを有することができる。コンピューティング機器２０００は、さらに通信機器２０１２を含むことができる。通信機器２０１２は、外部機器及び／又はネットワークとの通信を可能にする任意のタイプの機器又はシステムであってもよく、かつモデム、ネットワークカード、赤外線通信デバイス、無線通信機器及び／又はチップセット、たとえばブルートゥースＴＭデバイス、１３０２．１１デバイス、ＷｉＦｉデバイス、ＷｉＭａｘデバイス、セルラー通信デバイス及び／又は類似するものを含むことができるが、これらに限定されない。

コンピューティング機器２０００は、さらにプロセッサ２００４の動作に有用なプログラム（命令を含む）及び／又はデータを記憶することができる任意のタイプのワーキングメモリであってもよく、かつランダムアクセスメモリ及び／又は読み取り専用メモリデバイスを含むが、これらに限定されない。

ソフトウェア要素（プログラム）は、ワーキングメモリ２０１４に配置してもよく、オペレーティングシステム２０１６、１つ又は複数のアプリケーションプログラム２０１８、駆動プログラム及び／又は他のデータとコードを含むが、これらに限定されない。上記の方法及びステップを実行するための命令は、１つ又は複数のアプリケーションプログラム２０１８に含まれてもよく、かつ上記の構築方法は、プロセッサ２００４が１つ又は複数の応用プログラム２０１８の命令を読み取って実行することで実現されてもよい。より具体的には、上記方法では、ステップＳ１０１からステップＳ１０５は、たとえば、プロセッサ２００４がステップＳ１０１からステップＳ１０５の命令を有するアプリケーションプログラム２０１８を実行することによって実現されてもよい。また、上記方法の他のステップは、たとえばプロセッサ２００４が対応するステップの実行のための命令を有するアプリケーションプログラム２０１８を実行することによって実現されてもよい。ソフトウェア要素（プログラム）の命令の実行可能コード又は又はソースコードは、非一時的コンピュータ読み取り可能な記憶媒体（たとえば、上記の記憶機器２０１０）に記憶されてもよく、且つ実行される時にワーキングメモリ２０１４に記憶されてもよい（コンパイル及び／又はインストールされる可能性がある）。ソフトウェア要素（プログラム）の命令の実行可能コード又はソースコードは、遠隔位置からダウンロードされてもよい。

また、なお、具体的な要件に応じて様々な変形を行うことができる。たとえば、特定の素子は、カスタマイズされたハードウェアを使用して実現されてもよく、及び／又はハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語又はそれらの任意の組み合わせで実現されてもよい。たとえば、開示された方法及び機器の一部又は全部は、本開示による論理及びアルゴリズムを使用し、アセンブリ言語又はハードウェアプログラミング言語（たとえば、ＶＥＲＩＬＯＧ、ＶＨＤＬ、Ｃ＋＋）でハードウェア（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）及び／又はプログラマブルロジックアレイ（ＰＬＡ）を含むプログラマブルロジック回路）をプログラミングすることで実現されてもよい。

また、なお、前記方法は、サーバー－クライアントモードで実現されてもよい。たとえば、クライアントは、ユーザから入力されたデータを受信してサーバーに送信することができる。クライアントは、ユーザから入力されたデータを受信し、上記方法の一部の処理を行い、処理したデータをサーバーに送信することもできる。サーバーは、クライアントからのデータを受信し、上記方法又は上記方法の別の部分を実行し、実行結果をクライアントに返すことができる。クライアントは、サーバーから方法の実行結果を受信し、たとえば出力機器を介してユーザーに表示することができる。

また、なお、コンピューティング機器２０００のコンポーネントは、クラウドプラットフォームなどのネットワーク上に分散されてもよい。たとえば、１つのプロセッサを使用していくつかの処理を実行することができ、また、当該１つのプロセッサから離れる別のプロセッサを使用して他の処理を実行することができる。コンピューティングシステム２０００の他のコンポーネントも同様に分散されてもよい。このようにして、コンピューティング機器２０００は、複数の位置で処理を実行する分散コンピューティングシステムとして解釈されてもよい。

本開示の実施例又は例は、添付の図面を参照して説明されてきたが、上記の方法、システム及び機器は、例示的な実施例又は例だけであるが、本発明の範囲は、これらの実施例又は例によって限定されず、許可された特許請求の範囲及びそれらの同等の範囲のみによって限定されることが理解すべきである。実施例又は例における様々な要素は、省略されるか、又はその同等の要素によって置き換えられ得る。また、各ステップは、本開示に記載される順序とは異なる順序で実行されてもよい。さらに、実施例又は例における様々な要素は、様々な方式で組み合わせられてもよい。さらに、技術の進化に伴い、本明細書に記載されている多くの要素は、本開示の後に現れる同等の要素で置き換えられ得る。

Claims

ニューラルネットワークに基づくマンマシンインタラクション方法であって、
ユーザ入力を第１の入力としてニューラルネットワークシステムに提供することと、
前記ユーザ入力を前記ニューラルネットワークシステムとは異なる対話制御システムに提供することと、
前記ユーザ入力に関連する情報に基づき、前記対話制御システムによって前記ユーザ入力を処理することであって、前記ユーザ入力に関連する前記情報は、長期記憶情報と、現在のマンマシンインタラクション期間のみに有効な動作記憶情報とを含み、前記長期記憶情報は、ノードと有向エッジとを含む形態の第１の有向グラフの知識情報を含み、かつ前記第１の有向グラフ内のノードは、セマンティックコンテンツと論理制御情報とを含む構造化データであり、前記第１の有向グラフ内の有向エッジは、関連ノード間の関連属性を表す、処理することと、
前記対話制御システムの処理結果を第２の入力として前記ニューラルネットワークシステムに提供することと、
前記ニューラルネットワークシステムによって前記第１の入力と前記第２の入力に基づき、前記ユーザ入力に対する返信を生成することとを含むニューラルネットワークに基づくマンマシンインタラクション方法。
前記論理制御情報は、現在のマンマシンインタラクションに関連するノードをスクリーニングするために使用できる情報を含む請求項１に記載の方法。
前記論理制御情報は、現在のマンマシンインタラクションにおける各ノード間の関連度を確定するために使用できる情報を含む請求項１に記載の方法。
前記第１の有向グラフ内の各ノードは、第１のタイプのノードと第２のタイプのノードとを含み、前記第２のタイプのノードのセマンティックコンテンツは、前記第２のタイプのノードに関連する第１のタイプのノードのセマンティックコンテンツの一部であり、かつ前記第２のタイプのノードの論理制御情報は、前記第２のタイプのノードに関連する第１のタイプのノードの下での第２のタイプのノードの人気、前記第２のタイプのノードと少なくとも１つの他の第２のタイプのノードとの関連ジャンプ関係、前記第２のタイプのノードのサブタイプのうちの少なくとも１つを含む請求項１～３のいずれか一項に記載の方法。
前記第１の有向グラフ内の各ノードは、第３のタイプのノードを含み、前記第３のタイプのノードのセマンティックコンテンツは、マルチモーダルコンテンツをサポートし、かつ前記第３のタイプのノードの論理制御情報は、前記第３のタイプのノードに関連する第２のタイプのノードの情報、前記第３のタイプのノードのセマンティックコンテンツを特徴付けるための情報のうちの少なくとも１つを含む請求項４に記載の方法。
前記長期記憶情報は、ノードと有向エッジとを含む形態の第２の有向グラフの対話ライブラリ情報を含み、前記第２の有向グラフと前記第１の有向グラフは同じ構造である請求項１～３のいずれか一項に記載の方法。
前記動作記憶情報は、ノードと有向エッジとを含む形態の第３の有向グラフの情報を含み、前記第３の有向グラフと前記第１の有向グラフは同じ構造であり、かつ前記第３の有向グラフは、前記第１の有向グラフの一部である請求項１に記載の方法。
前記動作記憶情報は、前記第１の有向グラフから取得された、前記現在のマンマシンインタラクションに関連する全てのノードのセマンティックコンテンツと論理制御情報を含む請求項７に記載の方法。
前記動作記憶情報は、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツをマークするための第１の情報を含む請求項７又は８に記載の方法。
前記動作記憶情報は、前記関与したセマンティックコンテンツを最初に言及する対話者を示すための第２の情報を含む請求項９に記載の方法。
前記動作記憶情報は、前記現在のマンマシンインタラクション期間のインタラクションレコードの履歴データを含む請求項７又は８に記載の方法。
前記処理結果は、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を含む請求項１～３のいずれか一項に記載の方法。
前記対話制御システムによって前記ユーザ入力を処理することは、
前記ユーザ入力のセマンティックコンテンツを分析することと、
現在のマンマシンインタラクションにおける前記ユーザ入力に対応する前記ユーザーのコミュニケーション意図を分析することとを含む請求項１２に記載の方法。
前記ユーザ入力のセマンティックコンテンツを分析することは、
前記ユーザ入力が前記動作記憶情報内のあるノードに対応できるか否かを判断することと、
前記ユーザ入力が前記動作記憶情報内のあるノードに対応できることに応答して、前記動作記憶情報に基づいて前記ユーザ入力を処理することとを含む請求項１３に記載の方法。
前記ユーザ入力を処理することは、
前記動作記憶情報内の前記あるノードの情報に基づき、関連するコンテンツを前記ユーザ入力に補うことを含む請求項１４に記載の方法。
前記ユーザ入力が前記動作記憶情報内のノードに対応できないことに応答して、前記ユーザ入力に関連するノードの情報を前記長期記憶情報から抽出し、前記動作記憶情報に格納する、請求項１４又は１５に記載の方法。
前記ユーザ入力のセマンティックコンテンツを分析することは、
前記ユーザ入力に対して曖昧性除去処理を行うことを含む請求項１３に記載の方法。
前記ユーザ入力に対して曖昧性除去処理を行うことは、
前記ユーザ入力と、前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報とに基づき、前記ユーザ入力内の曖昧性がある少なくとも一部のコンテンツを識別し、前記少なくとも一部のコンテンツの現在のマンマシンインタラクションにおける意味を確定することを含む請求項１７に記載の方法。
前記対話制御システムによって前記ユーザ入力を処理することは、さらに、
前記ユーザ入力のセマンティックコンテンツと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応するコミュニケーション意図とに基づき、前記ユーザ入力に関連するノードの情報を前記動作記憶情報からクエリすることと、
前記ユーザ入力との関連度に応じて、クエリされた前記ユーザ入力の関連ノードを前記関連ノードの論理制御情報に基づいてソートすることとを含む請求項１６に記載の方法。
前記ユーザ入力との関連度に応じて、前記関連ノードに異なるスコアを付与する、請求項１９に記載の方法。
現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信を行う計画は、
前記ソート結果に応じて、対話目標を計画し、前記ユーザ入力との関連度が最も高いノードの情報を計画された対話コンテンツとして選択することと、
前記計画された対話コンテンツと前記対話目標とを統合し、前記第２の入力として前記ニューラルネットワークシステムに提供することとを含む請求項１９に記載の方法。
前記ユーザ入力に対して前記動作記憶情報を更新しない場合、前記関連度の最も高いノードが所定の基準を満たせないことに応答して、前記長期記憶情報を再度クエリして前記動作記憶情報を更新する、請求項２１に記載の方法。
前記ニューラルネットワークシステムは、エンドツーエンド型ニューラルネットワークシステムである請求項１～３のいずれか一項に記載の方法。
エンドツーエンド型ニューラルネットワークシステムは、エンコーダとデコーダとを備え、前記エンコーダは、前記ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を受信するように構成され、前記デコーダは、前記第２の入力を受信して前記ユーザ入力に対する返信を生成するように構成される請求項２３に記載の方法。
ニューラルネットワークに基づくマンマシンインタラクション装置であって、
ユーザ入力を第１の入力として受信するように構成されるニューラルネットワークシステムと、
前記ユーザ入力を受信し、前記ユーザ入力に関連する情報に基づいて前記ユーザ入力を処理し、処理結果を第２の入力として前記ニューラルネットワークシステムに提供するように構成される、前記ニューラルネットワークシステムとは異なる対話制御システムと、
動作記憶モジュールと長期記憶モジュールとを含むストレージコンピューティングシステムであって、前記ユーザ入力に関連する前記情報は、前記長期記憶モジュールから取得された長期記憶情報と、前記動作記憶モジュールから取得された、現在のマンマシンインタラクション期間のみに有効な動作記憶情報とを含む、ストレージコンピューティングシステムと、
を備え、
前記ニューラルネットワークシステムは、さらに前記第１の入力と前記第２の入力に基づき、前記ユーザ入力に対する返信を生成するように構成され、
前記長期記憶モジュールにはノードと有向エッジとを含む形態の第１の有向グラフの知識情報を含む意図知識グラフが格納され、かつ前記第１の有向グラフ内のノードは、セマンティックコンテンツと論理制御情報とを含む構造化データであり、前記第１の有向グラフ内の有向エッジは、関連するノード間の関連属性を表す、
ニューラルネットワークに基づくマンマシンインタラクション装置。
前記論理制御情報は、現在のマンマシンインタラクションに関連するノードをスクリーニングするために使用できる情報を含む請求項２５に記載の装置。
前記論理制御情報は、現在のマンマシンインタラクションにおける各ノード間の関連度を確定するために使用できる情報を含む請求項２５に記載の装置。
前記第１の有向グラフ内の各ノードは、第１のタイプのノードと第２のタイプのノードとを含み、前記第２のタイプのノードのセマンティックコンテンツは、前記第２のタイプのノードに関連する第１のタイプのノードのセマンティックコンテンツの一部であり、かつ前記第２のタイプのノードの論理制御情報は、前記第２のタイプのノードに関連する第１のタイプのノードの下での第２のタイプのノードの人気、前記第２のタイプのノードと少なくとも１つの他の第２のタイプのノードとの関連ジャンプ関係、前記第２のタイプのノードのサブタイプのうちの少なくとも１つを含む請求項２５～２７のいずれか一項に記載の装置。
前記第１の有向グラフ内の各ノードは、第３のタイプのノードを含み、前記第３のタイプのノードのセマンティックコンテンツは、マルチモーダルコンテンツをサポートし、かつ前記第３のタイプのノードの論理制御情報は、前記第３のタイプのノードに関連する第２のタイプのノードの情報、前記第３のタイプのノードのセマンティックコンテンツを特徴付けるための情報のうちの少なくとも１つを含む請求項２８に記載の装置。
前記長期記憶モジュールにはノードと有向エッジとを含む形態の第２の有向グラフの対話ライブラリ情報を含む対話ライブラリが格納され、前記第２の有向グラフと前記第１の有向グラフは同じ構造である請求項２５～２７のいずれか一項に記載の装置。
前記動作記憶モジュールにはノードと有向エッジとを含む形態の第３の有向グラフの情報を含む動作記憶情報が格納され、前記第３の有向グラフと前記第１の有向グラフは同じ構造であり、かつ前記第３の有向グラフは、前記第１の有向グラフの一部である請求項２５に記載の装置。
前記動作記憶情報は、前記第１の有向グラフから取得された、前記現在のマンマシンインタラクションに関連する全てのノードのセマンティックコンテンツと論理制御情報を含む請求項３１に記載の装置。
前記動作記憶情報は、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツをマークするための第１の情報を含む請求項３１又は３２に記載の装置。
前記動作記憶情報は、前記関与したセマンティックコンテンツを最初に言及する対話者を示すための第２の情報を含む請求項３３に記載の装置。
前記動作記憶情報は、前記現在のマンマシンインタラクション期間のインタラクションレコードの履歴データを含む請求項３１又は３２に記載の装置。
前記処理結果は、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を含む請求項２５～２７のいずれか一項に記載の装置。
前記対話制御システムは、対話理解モジュールと対話制御モジュールとを含み、かつ前記対話理解モジュールは、
前記ユーザ入力のセマンティックコンテンツを分析し、
現在のマンマシンインタラクションにおける前記ユーザ入力に対応する前記ユーザーのコミュニケーション意図を分析するために構成される請求項３６に記載の装置。
前記対話理解モジュールは、
前記ユーザ入力が前記動作記憶情報内のあるノードに対応できるか否かを判断するように構成される判定サブモジュールと、
前記ユーザ入力が前記動作記憶情報内のあるノードに対応できることに応答して、前記動作記憶情報に基づいて前記ユーザ入力を処理するように構成される処理サブモジュールとを含む請求項３７に記載の装置。
前記処理サブモジュールは、さらに前記動作記憶情報内の前記あるノードの情報に基づき、関連するコンテンツを前記ユーザ入力に補うように構成される請求項３８に記載の装置。
前記対話理解モジュールは、さらに前記ユーザ入力が前記動作記憶情報内のノードに対応できないことに応答して、前記ユーザ入力に関連するノードの情報を前記長期記憶モジュールから抽出し、前記動作記憶モジュールに格納するように構成される請求項３８又は３９に記載の装置。
前記対話理解モジュールは、
前記ユーザ入力に対して曖昧性除去処理を行うように構成される曖昧性除去サブモジュールを含む請求項３７に記載の装置。
前記曖昧性除去サブモジュールは、さらに前記ユーザ入力と、前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報とに基づき、前記ユーザ入力内の曖昧性がある少なくとも一部のコンテンツを識別し、前記少なくとも一部のコンテンツの現在のマンマシンインタラクションにおける意味を確定するように構成される請求項４１に記載の装置。
前記対話理解モジュールは、
前記ユーザ入力のセマンティックコンテンツと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応するコミュニケーション意図とに基づき、前記動作記憶情報から前記ユーザ入力に関連するノードの情報をクエリするように構成されるクエリサブモジュールと、
前記ユーザ入力との関連度に応じて、クエリされた前記ユーザ入力の関連ノードを前記関連ノードの論理制御情報に基づいてソートするように構成されるソートサブモジュールとを含む請求項４０に記載の装置。
前記対話理解モジュールは、さらに前記ユーザ入力との関連度に応じて、前記関連ノードに異なるスコアを付与するように構成される請求項４３に記載の装置。
前記対話制御モジュールは、
前記ソート結果に応じて、対話目標を計画し、前記ユーザ入力との関連度が最も高いノードの情報を計画された対話コンテンツとして選択する操作と、
前記計画された対話コンテンツと前記対話目標とを統合し、前記第２の入力として前記ニューラルネットワークシステムに提供する操作とを実行して、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うように構成される請求項４３に記載の装置。
前記対話理解モジュールは、さらに前記ユーザ入力に対して前記動作記憶情報を更新しない場合、前記関連度の最も高いノードが所定の基準を満たせないことに応答して、前記長期記憶情報を再度クエリして前記動作記憶情報を更新するように構成される請求項４５に記載の装置。
前記ニューラルネットワークシステムは、エンドツーエンド型ニューラルネットワークシステムである請求項２５～２７のいずれか一項に記載の装置。
前記エンドツーエンド型ニューラルネットワークシステムは、エンコーダとデコーダとを備え、前記エンコーダは、前記ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を受信するように構成され、前記デコーダは、前記第２の入力を受信して前記ユーザ入力に対する返信を生成するように構成される請求項４７に記載の装置。
電子機器であって、
プロセッサと、
前記プロセッサによって実行されると前記プロセッサに請求項１～２４のいずれか一項に記載の方法を実行させるための命令を含むプログラムを格納するメモリとを備える電子機器。
プログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、電子機器のプロセッサによって実行されると前記電子機器に請求項１～２４のいずれか一項に記載の方法を実行させる命令を含むコンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能な記憶媒体に格納されるコンピュータプログラムであって、前記コンピュータプログラムは、少なくとも一つのプロセッサによって実行されると請求項１～２４のいずれか一項に記載の方法を実現させる命令を含むコンピュータ読み取り可能な記憶媒体に格納されるコンピュータプログラム。