JP7204801B2 - ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体 - Google Patents

ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体 Download PDF

Info

Publication number
JP7204801B2
JP7204801B2 JP2021045641A JP2021045641A JP7204801B2 JP 7204801 B2 JP7204801 B2 JP 7204801B2 JP 2021045641 A JP2021045641 A JP 2021045641A JP 2021045641 A JP2021045641 A JP 2021045641A JP 7204801 B2 JP7204801 B2 JP 7204801B2
Authority
JP
Japan
Prior art keywords
user input
information
node
nodes
machine interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021045641A
Other languages
English (en)
Other versions
JP2022031109A (ja
Inventor
ファ・ウー
ハイフォン・ワン
チャンイー・リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022031109A publication Critical patent/JP2022031109A/ja
Application granted granted Critical
Publication of JP7204801B2 publication Critical patent/JP7204801B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Robotics (AREA)
  • Neurology (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Feedback Control In General (AREA)

Description

本開示は、人工知能の技術分野、具体的には自然言語処理及び知識グラフの技術分野に関し、特にニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体に関する。
オープンドメイン対話システムの目的は、マシンが人間のように自然言語を情報伝達のための媒体として使用し、質問の返答、命令の実行、チャットなどを通じて人々の日常のインタラクションニーズを満たするようにすることであり、チャットのテーマやコンテンツが制限されていない。
現在、オープンドメイン対話システムは、主にコーパスに基づく検索方法又は生成方法を採用する。ここで、コーパスには、言語の実際の使用中に実際に出現した言語材料が格納されている。実際の対話プロセスでは、ユーザ入力には、意味が類似しているが文字表現が大きく異なること、文字表現が類似しているが意味が大きく異なることなどの問題があり、その結果、コーパスに基づく検索方法又は生成方法は、一般的に対話コンテンツが空であり、論理が明らかでなく、答えが質問に合わないなどの問題がある。
この部分で説明される方法は、必ずしもこの前に想定又は採用された方法ではない。
特に明記されていない限り、この部分で説明されるいずれかの方法は、この部分に含まれるという理由だけで従来技術として見なされると仮定すべきではない。同様に、特に明記されていない限り、この部分で言及されている問題は、いかなる従来技術で知られていると見なされるべきではない。
本開示の一態様によるニューラルネットワークに基づくマンマシンインタラクション方法は、ユーザ入力を第1の入力としてニューラルネットワークシステムに提供することと、前記ユーザ入力を前記ニューラルネットワークシステムとは異なる対話制御システムに提供することと、前記ユーザ入力に関連する情報に基づき、前記対話制御システムによって前記ユーザ入力を処理することと、前記対話制御システムの処理結果を第2の入力として前記ニューラルネットワークシステムに提供することと、前記ニューラルネットワークシステムによって前記第1の入力と第2の入力に基づき、前記ユーザ入力に対する返信を生成することとを含む。
本開示の別の態様によるニューラルネットワークに基づくマンマシンインタラクション装置は、ユーザ入力を第1の入力として受信するように構成されるニューラルネットワークシステムと、前記ユーザ入力を受信するように構成される前記ニューラルネットワークシステムとは異なる対話制御システムとを備え、前記対話制御システムは、さらに前記ユーザ入力に関連する情報に基づき、前記ユーザ入力を処理し、処理結果を第2の入力として前記ニューラルネットワークシステムに提供するように構成され、前記ニューラルネットワークシステムは、さらに前記第1の入力と第2の入力に基づき、前記ユーザ入力に対する返信を生成するように構成される。
本開示の別の態様による電子機器は、プロセッサと、プログラムを格納しており、前記プログラムが、前記プロセッサによって実行されると前記プロセッサに上記の方法を実行させるための命令を含むメモリとを備える。
本開示の別の態様によるプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、電子機器のプロセッサによって実行されると、前記電子機器に上記の方法を実行させる命令を含む。
本開示の別の態様によるコンピュータ読み取り可能な記憶媒体に格納されるコンピュータプログラムであって、前記コンピュータプログラムは、少なくとも一つのプロセッサによって実行されると上記の方法を実現させる命令を含む。
本開示の実施例によるニューラルネットワークに基づくマンマシンインタラクション方法は、マンマシンインタラクションプロセスにおけるユーザのチャットエクスペリエンスを向上させることに役立つ。
図面は、実施例を例示的に示しかつ明細書の一部を構成し、明細書のテキスト説明とともに、実施例の例示的な実施形態を説明するために使用される。示される実施例は、例示のみを目的としており、特許請求の範囲を限定するものではない。全ての図面では、同じ記号は、類似しているが必ずしも同一ではない要素を指す。
例示的な実施例によるニューラルネットワークに基づくマンマシンインタラクション方法を示すフローチャートである。 例示的な実施例によるニューラルネットワークに基づくマンマシンインタラクション装置の動作プロセスを示す概略図である。 例示的な実施例による意図知識グラフを示す部分概略図である。 例示的な実施例による意図知識グラフを示す部分概略図である。 例示的な実施例による対話制御システムの動作プロセスを示す概略図である。 例示的な実施例による対話理解モジュールを示す概略構成ブロック図である。 例示的な実施例に応用できる例示的なコンピューティング機器を示す構造ブロック図である。
本開示では、特に明記しない限り、「第1」、「第2」等の用語を使用して様々な要素を説明するが、これらの要素の位置関係、タイミング関係又は重要性関係を限定することを意図するものではなく、このような用語は、1つの素子と別の素子とを区別するためのものに過ぎない。いくつかの例では、第1の要素と第2の要素は、当該要素の同じインスタンスを指すことができ、いくつかの場合で、コンテキストの説明に基づき、それらは、異なるインスタンスを指すこともできる。
本開示では様々な例の説明において使用される用語は、特定の例を説明するためのものに過ぎず、限定することを意図するものではない。コンテキストに特に明記しない限り、要素の数が特に制限されていない場合、当該要素は、1つであってもよいし、複数であってもよい。また、本開示で使用される「及び/又は」という用語は、示される項目のいずれか1つ及び全ての可能な組み合わせ方式をカバーする。
オープンドメイン対話システムは、チャットコンテンツが制限されず、テーマが任意であり、自然言語を使用して質問の返答、命令の実行、チャットなどを行うことができる。
関連技術では、オープンドメイン対話システムは、ユーザの意図を取得し、意図に従ってユーザ入力を複数のインタラクションサブシステムに配布し、複数のインタラクションサブシステムの返信結果を受信し、次に予め設定されたソートポリシーに従ってスコアが最も高い結果を選択してユーザに返信する。このオープンドメイン対話システムには、モジュール同士がカスケードされているので、誤伝達が発生しやすい問題、各サブシステムが互いに独立しており、サブシステム間で情報を効果的に伝達又は自然に切り替えることができない問題、知識を深層学習に基づくシステムに効果的に融合することができない問題があり、その結果、オープンドメイン対話システムには、対話コンテンツが空であること、論理が明らかでないこと、答えが質問に合わないことなどの問題がある。
上記の技術的問題の1つ又は複数を考慮して、本開示は、ニューラルネットワークに基づくマンマシンインタラクション方法を提供し、当該方法は、ユーザ入力に関連する情報に基づき、対話制御システムによってユーザ入力を処理し、次にユーザ入力と対話制御システムの処理結果の両方を入力としてニューラルネットワークシステムに提供し、ニューラルネットワークシステムによってユーザ入力に対する返信を生成し、これにより、前記ユー入力に関連する情報をニューラルネットワークシステムに基づく対話システムに組み込み、関連情報を十分に利用し、関連技術におけるマンマシンインタラクションコンテンツが理想的ではないという問題を解決することができ、これにより、マンマシンインタラクションコンテンツが豊富になり、論理が明確になる。
本開示の技術的解決策は、スマートロボット、携帯電話、コンピュータ、パーソナルデジタルアシスタント、タブレットコンピュータなどの対話システムを使用する全てのアプリケーション端末に適用することができる。
以下では、添付の図面を参照しながらニューラルネットワークに基づくマンマシンインタラクション方法をさらに説明する。
図1は本開示によるニューラルネットワークに基づくマンマシンインタラクション方法を示すフローチャートである。
図1に示すように、前記方法は、ユーザ入力を第1の入力としてニューラルネットワークシステムに提供するステップS101と、前記ユーザ入力を前記ニューラルネットワークシステムとは異なる対話制御システムに提供するステップS102と、前記ユーザ入力に関連する情報に基づき、前記対話制御システムによって前記ユーザ入力を処理するステップS103と、前記対話制御システムの処理結果を第2の入力として前記ニューラルネットワークシステムに提供するステップS104と、前記ニューラルネットワークシステムによって前記第1の入力と第2の入力に基づき、ユーザ入力に対する返信を生成するステップS105とを含むことができる。これにより、前記ユー入力に関連する情報をニューラルネットワークシステムに基づく対話システムに融合することで、関連情報を十分に利用することができ、それにより、マンマシンインタラクションのコンテンツが豊富になり、論理が明確になる。
ユーザ入力は、テキスト情報又は音声情報であってもよいが、これらに限定されない。ユーザ入力に対して前処理を行ってから第1の入力としてニューラルネットワークシステムと対話制御システムに提供することができる。前記前処理は、たとえば、音声情報に対して音声識別を行い、それを対応するテキスト情報に変換することができるが、これに限定されない。
図2に示すように、前記ニューラルネットワークシステムは、エンドツーエンド型ニューラルネットワークシステム101を採用することができるが、これに限定されない。前記エンドツーエンド型ニューラルネットワークシステム101は、エンコーダ1011とデコーダ1012とを備えることができる。前記エンコーダ1011は、入力されたテキストコンテンツを暗黙的に表現してベクトルを生成することができ、前記デコーダ1012は、所与の入力ベクトルに従って滑らかな自然言語テキストを生成することができる。
いくつかの実施例によれば、前記エンコーダ1011は、前記ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を受信し、ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を符号化し、暗黙的ベクトルを生成するために使用されてもよく、前記暗黙的ベクトルがデコーダ1012に入力される。前記デコーダ1012は、前記第2の入力(即ち、対話制御システムによってユーザ入力を処理して得られた処理結果)及びエンコーダ1011によって生成された暗黙的ベクトルを受信し、前記ユーザ入力に対する返信を生成するために使用されてもよい。これにより、ニューラルネットワークシステムは、現在のユーザ入力、格納された現在のマンマシンインタラクションの履歴インタラクション情報、及び対話制御システムが前記ユーザ入力に関連する情報に基づいて前記ユーザ入力を処理することで得られた結果に基づき、ユーザ入力に対する返信を生成することができ、それによってマシンの返信コンテンツが現在のマンマシンインタラクションシーンに一致し、対話論理が明確になることをさらに確保することができる。
前記エンドツーエンド型ニューラルネットワークシステムとしては、たとえば、Transformerニューラルネットワークシステム又はUniLMニューラルネットワークシステムを採用することができる。
いくつかの実施例によれば、前記ユーザ入力に関連する前記情報は、長期記憶情報と、現在のマンマシンインタラクション期間のみに有効な動作記憶情報とを含むことができる。1つの例示的な実施例として、前記ユーザ入力に関連する情報は、予め格納された情報であってもよい。この場合、長期記憶情報は、対話システムが長期間格納する必要がある情報であってもよく、様々な知識情報を含むことができ、たとえば、常識、分野知識、言語知識、問答ライブラリ、及び対話ライブラリのうちの少なくとも1つを含むことができる。動作記憶情報は、現在のマンマシンインタラクションコンテンツに基づいて長期記憶情報から取得されてもよい。つまり、動作記憶情報は、現在のマンマシンインタラクションコンテンツに関連する知識情報である。これにより、現在のマンマシンインタラクションコンテンツに関連する知識情報をニューラルネットワークシステムに基づく対話システムに融合することで、関連する知識情報に基づいて現在のマンマシンインタラクションシーンでユーザ入力に対する返信の計画を行うことを実現することができ、知識情報を十分に利用するため、現在のマンマシンインタラクションのコンテンツが豊富であり、論理が明確になる。なお、前記ユーザ入力に関連する情報は、インターネットからリアルタイムでキャプチャされた情報を含むこともできるが、ここで限定しない。
いくつかの実施例によれば、長期記憶情報は、意図知識グラフ、問答ライブラリ及び対話ライブラリを含むことができるが、これらに限定されない。以下では、まず意図知識グラフ、問答ライブラリ及び対話ライブラリのデータコンテンツ、データ編成の形態などについて説明する。
意図知識グラフは、対話シーンの知識インタラクションニーズから開始して、知識クエリ機能を満たすだけでなく、複数ラウンドのマルチシーンインタラクションにおける関連付け、類推、予測を満たすこともできる。意図知識グラフのノードの順序付き編成により、テキストの計算と知識情報の制御が容易になり、かつ知識情報の計算により、対話での動作ジャンプ(シーンジャンプ、同じシーンでのコンテンツジャンプ)をサポートすることができ、強いセマンティック遷移論理性を持っている。意図知識グラフは、様々なタイプのマルチシーン情報を統合しているため、複数の視点から言語を理解する機能を提供することがきる。
いくつかの実施例では、意図知識グラフは、ノードと有向エッジとを含む形態の第1の有向グラフの知識情報を含むことができ、かつ前記第1の有向グラフ内のノードは、セマンティックコンテンツと論理制御情報とを含む構造化データである。前記第1の有向グラフ内の有向エッジは、関連ノード間の関連属性と、ノードと対応する論理制御情報の間の関連属性とを表すことができる。なお、他の知識情報も第1の有向グラフのデータ編成形態を採用することができるが、意図知識グラフに限定されず、ここでは、意図知識グラフのみを例として、どのように第1の有向グラフを使用して知識情報を表現するかを説明する。
いくつかの実施例によれば、意図知識グラフの前記論理制御情報は、現在のマンマシンインタラクションに関連するノードをスクリーニングするために使用できる情報、たとえば人気、適時性、感情などの情報を含むことができ、現在のマンマシンインタラクションコンテンツに関連するノードをスクリーニングするために使用され、これにより、ユーザが知識チャットを能動的に開始する場合で関連する知識情報を検索することを実現することができ、これにより、対話コンテンツの論理が明確になる。たとえば、第1の人気閾値を設定し、対応する論理制御情報内の人気が前記第1の人気閾値よりも高いノードを、動作記憶情報内の現在のマンマシンインタラクションコンテンツに関連するノードからスクリーニングすることができる。第1の有効時点を設定し、対応する論理制御情報内の時効情報が前記第1の有効時点の後に位置するノードを、動作記憶情報内の現在のマンマシンインタラクションに関連するノードからスクリーニングすることができる。第1のプリセット感情タイプを設定し、対応する論理制御情報内の感情タイプが前記第1のプリセット感情タイプであるノードを、現在のマンマシンインタラクションに関連するノードからスクリーニングすることができる。
いくつかの実施例によれば、意図知識グラフの前記論理制御情報は、現在のマンマシンインタラクションにおける各ノード間の関連度を確定するために使用できる情報、たとえば、人気、ノード間の関連関係などの情報をさらに含むことができ、現在のマンマシンインタラクションコンテンツに関連するノードを拡張するために使用され、これにより、マシンが知識チャットを能動的に切り替えたり、トリガーしたり、推奨したりすることを実現することができ、これにより、対話コンテンツが豊富になり、厄介なチャットが回避される。たとえば、第2の人気閾値を設定し、対応する論理制御情報内の人気が前記第2の人気閾値よりも大きいノードを、長期記憶情報内のユーザ入力の各関連ノードから取得することができる。関連関係に応じて、現在のノードから当該現在のノードとの関連度が最も高いノードに拡張することができる。
意図知識グラフの前記ノードは、複数の異なるタイプのノードを含むことができる。いくつかの実施例によれば、前記第1の有向グラフ内の各ノードは、第1のタイプのノード及び第2のタイプのノードを含むことができる。前記第2タイプのノードのセマンティックコンテンツは、前記第2のタイプのノードに関連する第1のタイプのノードのセマンティックコンテンツの一部であってもよく、かつ前記第2のタイプのノードの論理制御情報は、前記第2のタイプのノードに関連する第1のタイプのノードの下での第2のタイプのノードの人気、前記第2のタイプのノードと少なくとも1つの他の第2のタイプのノードとの関連ジャンプ関係、前記第2のタイプのノードのサブタイプのうちの少なくとも1つを含む。これにより、第1のタイプのノードをクエリすると第1のタイプのノードのセマンティックに関連する第2のタイプのノードの知識情報を取得し、テキストの計算、知識情報の制御を容易にすることができる。
前記第1のタイプのノードは、たとえば、次の表におけるコアノードであってもよく、前記第2のタイプのノードは、たとえば、次の表におけるラベルノードであってもよい。
前記有向エッジは、コアノード間、コアノードとラベルノード間の関連属性、及び各ノードと対応する論理制御情報の間の関連属性を表すことができる。コアノードとラベルノードは、構造化データであってもよく、それによってセマンティックコンテンツの理解及び制御を実現することができる。コアノードは、完全なセマンティックを備えた基本ユニットであってもよく、エンティティ、概念、イベント、命令を含むことができ、たとえば、人物、物品、構造、製品、建物、場所、組織、イベント、芸術作品、科学技術、科学定理などであってもよい。コアノードの論理制御情報は、人気、適時性、ラベルノードのリコールのための全てのラベル、タスクAPIなどを含むことができる。各コアノードは、関連している複数のラベルノードを含むことができる。ラベルノードのセマンティックコンテンツは、ラベルノードに関連するコアノードのセマンティックコンテンツの一部であってもよく、コアノードとの関係が部分と全体の関係である。
意図知識グラフのノード表現:
Figure 0007204801000001
いくつかの実施例によれば、現在のマンマシンインタラクションコンテンツに関連する情報は、第1の有向グラフから取得された、ユーザ入力に関連するノード情報を含むことができる。ユーザ入力を第1の有向グラフのコアノードにマッピングすることができ、マッピングによって取得されたコアノード、及びマッピングによって取得されたコアノードに関連するラベルノードは、全てユーザ入力に関連する知識情報として使用されてもよい。ユーザ入力を前記第1の有向グラフのコアノードにマッピングできない場合、現在のマンマシンインタラクションコンテンツの履歴ユーザ入力をマッピングして取得したコアノードを、現在のユーザ入力に対応するコアノードとして使用することができる。たとえば、現在のユーザ入力が「主人公は誰ですか?」である場合、前記第1の有向グラフには現在のユーザ入力に対応するコアのノードがない。この場合、現在のマンマシンインタラクションにおける前回の前記第1の有向グラフ内の対応するコアノードを現在のユーザ入力のコアノードとして使用し、現在のユーザ入力に関連する知識情報を取得することができる。ここで、現在のマンマシンインタラクションコンテンツは、現在のユーザ入力及び現在のマンマシンインタラクションの履歴インタラクション情報を含むことができる。
図3に示すように、実線の円(「映画A」、「映画B」、「趙六」)は、コアノードを示し、実線の楕円は、ラベルノードを示し、点線の円は、論理制御情報を示している。各点線の楕円は、ユーザ入力に関連する情報ユニットとして1つのノードユニットを囲むことができる。実線の線分は、各ノード間の有向エッジを表し、点線の線分は、ノードと対応する論理制御情報の間の有向エッジを表す。つまり、ユーザ入力が1つのノードユニット(図3のノードユニット100)のコアノードにマッピングされると、ノードユニットの全てのノード情報は、ユーザ入力に関連する知識情報と考えられ、動作記憶情報に追加される。ただし、システムの利用可能なコンピューティングリソースの大きさに応じて、マッピングによって取得されたコアノードに関連する少なくとも1つの他のコアノードが所在するノードユニットも、ユーザ入力に関連していると考えられ、動作記憶情報に追加されてもよく、ここでは限定しない。以下のコンテンツでは、マッピングによって得られたコアノードが所在するノードユニットをユーザ入力に関連する知識情報として使用することを例として、本開示の技術的解決策を具体的に説明する。
第1のタイプのノード(コアノード)が映画エンティティ「映画A」であることを例とすると、「映画A」のユーザがラベルノードをリコールするためのラベルは、俳優、役割、ディレクター、シーンなどを含むことができる。第1のタイプのノードに関連するラベルノード(第2のタイプのノード)は、「趙六」(俳優と仮定される)、「役割A」、「役割B」、「李四」(テレビディレクターと仮定される)、「有名なシーン」を含むことができる。ここで、ラベルノード「趙六」は、関連する第1のタイプのノード「映画A」の俳優ラベルに対応し、「役割A」及び「役割B」は、関連する第1のタイプのノード「映画A」の役割ラベルに対応し、「李四」は、関連する第1のタイプのノード「映画A」のディレクターラベルに対応し、「有名なシーン」は、関連する第1のタイプのノード「映画A」のシーンラベルに対応している。コアノード「映画A」に関連するコアノードは、「映画B」を含むことができ、ラベルノード「趙六」に関連するコアノードは、「趙六」を含むことができる。ユーザ入力がコアノード「映画A」にマッピングされると、コアノード「映画A」と、ラベルノード「趙六」、「役割A」、「役割B」、「李四」、「有名なシーン」は、いずれもユーザ入力に関連する情報として使用されてもよい。
いくつかの実施例によれば、前記第1の有向グラフ内の各ノードは、さらに第3のタイプのノードを含むことができ、前記第3のタイプのノードのセマンティックコンテンツがマルチモーダルコンテンツをサポートし、かつ前記第3のタイプのノードの論理制御情報は、前記第3のタイプのノードに関連する第2のタイプのノードの情報、前記第3のタイプのノードのセマンティックコンテンツを特徴付けるための情報のうちの少なくとも1つを含むことができる。これにより、第3のタイプのノードを設定することにより、マルチモーダルのセマンティックコンテンツをサポートし、対話コンテンツをさらに豊かにすることができる。
前記第3のタイプのノードは、たとえば、上記の表におけるコンテンツノードであってもよい。前記有向エッジは、ラベルノード(第2のタイプのノード)とコンテンツノードの間の関連属性を表すこともできる。コンテンツノードは、非構造化データであってもよく、豊富なマルチモーダルコンテンツをサポートすることができる。各コアノード(第1のタイプのノード)は、複数のコンテンツノードを含むことができ、コンテンツノードに関連するラベルノードは、当該コンテンツノードのテーマ又は要約であってもよい。コンテンツノードは、対話コンテンツを含むことができ、マルチモーダル(単語、文、ピクチャー又はビデオなど)、多様性、細粒度などの特徴を備える。コンテンツノードの論理制御情報は、たとえば、コアラベル、キーワード、コンテンツノードのセマンティックコンテンツにおけるコアラベルの重要性、コンテンツノードのセマンティックコンテンツの要約的なフレーズ、コンテンツノードに関連するラベルノードのカテゴリ、コンテンツノードに関連するラベルノードの感情極性、コンテンツノードに関連するラベルノードのスコアなどを含むことができる。
いくつかの実施例によれば、現在のマンマシンインタラクションコンテンツに関連する情報は、第1の有向グラフから取得された、ユーザ入力に関連するノード情報を含むことができる。ユーザ入力を前記第1の有向グラフのコアノードにマッピングすることができ、マッピングによって取得されたコアノード、マッピングによって取得されたコアノードに関連するラベルノード、及び取得されたラベルノードに関連するコンテンツラベルは、いずれもユーザ入力に関連する情報として使用されてもよい。
図3に示すように、長方形のボックスは、コンテンツノードを示している。第1のタイプのノード(コアノード)が映画エンティティ「映画A」であることを例とすると、第1のタイプのノードに関連するラベルノード(第2のタイプのノード)は、「趙六」、「役割A」、「役割B」、「李四」、「有名なシーン」を含むことができる。ここで、ラベルノード「趙六」及びラベルノード「役割A」に関連するコンテンツノードは、「役割Aのスチール写真.jpg」(映画Aの役割Aの有名なスチール写真と仮定される)を含むことができ、ラベルノード「役割A」に関連するコンテンツノードは、さらに「役割Aが極めて完全な活力と生命の意志を持っている」を含むことができ、ラベルノード「李四」に関連するコンテンツノードは、「映画A」がディレクター李四の最も良いきょう客映画であることを含むことができる。ユーザ入力がコアノード「映画A」にマッピングされると、コアノード「映画A」、ラベルノード「趙六」、「役割A」、「役割B」、「李四」、「有名なシーン」、及びラベルノード「趙六」、「役割A」、「李四」に関連するコンテンツノードは、いずれもユーザ入力に関連する情報として使用される。
2つのノードが関連していることは、これらの2つのノードが少なくとも1つの有向エッジを含む有向パスを介して関連付けられてもよいことを意味することができる。
異なるノードは、有向エッジを介して接続されてもよく、接続されたノード間の関連属性を示している。有向エッジは、たとえば、コアノードからコアノードまでの関連エッジ、コアノードからラベルノードまでの関連エッジ、ラベルノードからコアノードまでの関連エッジ、ラベルノードからコンテンツノードまでの関連エッジを含むことができる。有向エッジの属性は、セマンティック関係(たとえばディレクター、作品、妻など)、論理関係(時系列、因果など)、相関性の強さ、セマンティックの上位及び下位関係などの様々なタイプを含むことができる。
たとえば、図3に示すように、コアノード「映画A」とコアノード「映画B」の間の有向エッジの属性は、相関性の強さであってもよく、ラベルノード「趙六」とコアノード「趙六」の間の有向エッジの属性は、相関性の強さであってもよい。コアノード「映画A」とラベルノード「李四」、「趙六」、「役割A」、「有名なシーン」の間の有向エッジの属性は、セマンティック関係である。ラベルノード「趙六」とコンテンツノード「役割Aのスチール写真.jpg」の間の有向エッジの属性は、セマンティック関係であってもよい。
いくつかの実施例によれば、対話ライブラリは、ノード及び有向エッジを含む第2の有向グラフの知識情報を含むことができ、マンマシンインタラクションプロセスにおけるセマンティック情報とその特徴を記録するために使用され、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画に参照を提供する。対話ライブラリに基づいてビッグデータを使用してユーザのより傾いた意図を取得することができるため、ユーザ入力の返信計画に合理的なガイドを提供することができる。前記第2の有向グラフは、図3に示すように、上記の第1の有向グラフ(たとえば、意図知識グラフ)と同じ構造を有することができるが、ここでは詳細に説明しない。これにより、対話ライブラリと意図知識グラフを同じ構造の有向グラフとして設定することにより、対話ライブラリと意図知識グラフとの融合を効果的に実現し、知識情報の制御を容易にすることができる。なお、他の知識情報も第2の有向グラフのデータ編成形態を採用することができるが、対話ライブラリに限定されず、ここでは、対話ライブラリのみを例として、どのように第2の有向グラフを使用して知識情報を表現するかを説明する。異なる知識情報を同じ構造の有向グラフとして設定することにより、異なる知識情報の融合を効果的に実現し、知識情報の制御を容易にすることができる。
いくつかの実施例によれば、問答ライブラリは、質問-解答の形態の問答知識情報であってもよい。問答ライブラリの機能は、ユーザの質問について問答ライブラリをクエリし、質問に一致する解答を返信し、ユーザの情報ニーズを満たすことである。たとえば、ユーザ入力が問答である場合、ユーザ入力に一致する解答があるか否かを問答ライブラリから優先的にクエリすることができ、迅速に返信を実現することができる。
問答ライブラリの形態は次の表に示される:
Figure 0007204801000002
いくつかの実施例によれば、前記長期記憶情報は、意図知識グラフ、対話ライブラリ及び問答ライブラリを含むことができる。以上では、長期記憶情報の意図知識グラフ、対話ライブラリと問答ライブラリのデータコンテンツ、及びデータ編成形態は、例で説明されたが、例示的なものだけであり、これに限定されない。当然、前記長期記憶情報は、現在のマンマシンインタラクションに関連する知識情報との他の組み合わせであってもよく、ここで限定しない。
長期記憶情報についてはさらに言語計算と情報抽出を行うことができる。言語コンピューティングには、比較、帰納、演繹、推論などが含まれてもよく、情報抽出には、たとえば概念抽出、エンティティ抽出、イベント抽出、命令抽出などが含まれてもよく、これにより、ユーザ入力に基づいて現在のマンマシンインタラクションコンテンツに関連する動作記憶情報を長期記憶情報から取得することができる。現在のマンマシンインタラクションコンテンツは、現在のユーザ入力及び現在のユーザ入力の前の履歴インタラクション情報を含むことができる。動作記憶情報は、さらに現在のマンマシンインタラクションコンテンツを含むことができ、それによって現在のマンマシンインタラクション履歴と、長期記憶情報から取得されたユーザ入力に関連する知識情報とに基づき、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を取得することができ、これについて、以下の内容で詳しく説明する。
いくつかの実施例によれば、前記動作記憶情報は、ノードと有向エッジとを含む形態の第3の有向グラフの情報を含むことができ、前記第3の有向グラフは、上記第1の有向グラフ(たとえば、意図知識グラフ)と同じ構造であってもよい。これにより、長期記憶情報の知識情報と同じ構造の情報を含むように動作記憶情報を設定することにより、知識情報の呼び出し及び融合を容易にすることができる。好ましくは、前記第3の有向グラフは、現在のマンマシンインタラクションに関連する前記第1の有向グラフの部分であってもよく、そのため、知識情報の呼び出し及び融合がより容易になる。つまり、前記第3の有向グラフが当該コアノードとラベルノードとを含むことができるため、全てのユーザ意図とシステム返信(意図)も動作記憶情報内のコアノード及び関連するラベルノードにできるだけマッピングされてもよく、各モジュールが使用しやすい。また、現在のマンマシンインタラクションに関連する一部のノード情報を長期記憶情報から抽出するだけでよいため、メモリの占有を減少し、返信効率を向上させることができる。前記第3の有向グラフは、さらにマルチモーダルセマンティックコンテンツをサポートするためにコンテンツノードを含むことができ、それによって動作記憶情報に基づいて豊富な対話コンテンツを取得することもできる。なお、前記第3の有向グラフは、上記の第1の有向グラフの構造とは異なることもできる。
いくつかの実施例によれば、前記動作記憶情報は、さらに前記第1の有向グラフから取得された、前記現在のマンマシンインタラクションに関連する全てのノードのセマンティックコンテンツと論理制御情報を含むことができる。つまり、前記第3の有向グラフのコアノードは、第1の有向グラフに対応する前記第1のタイプのノードのセマンティックコンテンツと論理制御情報を含み、前記ラベルノードは、第1の有向グラフに対応する前記第2のタイプのノードのセマンティックコンテンツと論理制御情報を含み、前記コンテンツノードは、第1の有向グラフに対応する前記第3のタイプのノードのセマンティックコンテンツと論理制御情報を含む。これにより、動作記憶情報は、現在のマンマシンインタラクションに基づいて長期記憶情報から全てのチャット可能な話題をできるだけ取得することができ、これによって動作記憶情報に基づいてユーザ入力に対する返信計画を実現することが可能となる。動作記憶情報内のデータ量が長期記憶情報内のデータ量よりもはるかに少ないため、返信速度を向上させ、ユーザエクスペリエンスを向上させることができる。
いくつかの実施例によれば、動作記憶情報にユーザ入力に対応するノードの情報がない場合、ユーザ入力に基づき、ユーザ入力に関連する知識情報を長期記憶情報から取得し、動作記憶情報を更新し、次に更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対する返信の計画を行うことができる。いくつかの実施例によれば、ユーザ入力に基づき、ユーザ入力に関連するサブラフを第1の有向グラフから取得し、取得されたサブグラフを動作記憶情報内の第3の有向グラフに融合し、動作記憶情報を更新することができる。
動作記憶情報に対して、現在のマンマシンインタラクションコンテンツ内の履歴インタラクション情報に対応する各ノードでは、コアノードに関連するラベルノードとコンテンツノードではなく、コアノードのセマンティックコンテンツと論理制御情報のみを保持でき、これにより、コンピューティングリソースのニーズを減らすことができる。チャットされた話題が再び関与されない可能性があるため、現在のマンマシンインタラクションにおける履歴インタラクション情報に対応するコアノードのセマンティックコンテンツと論理制御情報のみを保持すると、マンマシンインタラクションにほとんど影響を与えない。
いくつかの実施例によれば、前記動作記憶情報は、さらに前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツをマークするための第1の情報を含むことができ、これにより、チャットされたメッセージとチャットされていないメッセージとを区別し、繰り返しを回避することができる。いくつかの実施例によれば、第3の有向グラフにおいて、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツに関連する全てのノード(ターゲットノード、ラベルノード及びコンテンツノードを含む)は、さらに当該ノードがチャットされたことを示すための第1のメッセージを含むことができる。
いくつかの実施例によれば、前記動作記憶情報は、さらに関与したセマンティックコンテンツを最初に言及する対話者を示すための第2の情報を含むことができ、これにより、関連するコンテンツがチャットされた話題を正確に区別し、対話者の対話の繰り返しをより正確に回避することができる。いくつかの実施例によれば、第3の有向グラフにおいて、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツに関連する全てのノード(ターゲットノード、ラベルノード及びコンテンツノードを含む)は、さらに当該ノードがどの対話者にチャットされたかを示すための第2のメッセージを含むことができる。
いくつかの実施例によれば、前記動作記憶情報は、さらに前記現在のマンマシンインタラクション期間のインタラクションレコードの履歴データを含むことができ、これにより、複数ラウンドのポリシーのための決定特徴を提供するように、現在のマンマシンインタラクションシーンを取得することができる。
前記動作記憶情報は、他の情報、たとえば、前記対話制御システムの各動作モジュールの分析結果をさらに含むことができ、このように、各モジュールが使用しやすくなる。たとえば、ユーザ入力に基づいて長期記憶情報から取得されたユーザ入力に関連する上記知識情報に加えて、長期記憶情報から取得された、ユーザ入力に関連する知識情報をソートした結果と、返信決定結果とを含むことができる。
いくつかの実施例によれば、ステップS103において、対話制御システムがユーザ入力に関連する情報に基づいて前記ユーザ入力を処理した処理結果は、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を含むことができる。これにより、関連情報を十分に利用し、関連情報に基づいて現在のマンマシンインタラクションシーンでユーザ入力に対して返信の計画を行うことができ、さらにマンマシンインタラクションのコンテンツが豊かになり、論理が明確である。
いくつかの実施例によれば、対話制御システムは、対話理解モジュールと対話制御モジュールとを含むことができる。1つの実施例では、対話理解モジュールを利用してまずユーザ入力に基づいて長期記憶情報から関連する知識情報を取得し、動作記憶情報を更新し、次に対話制御モジュールは、更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うことができる。
これに基づき、ステップS103において、前記ユーザ入力に関連する情報に基づき、前記対話制御システムによって前記ユーザ入力を処理することは、前記ユーザ入力のセマンティックコンテンツを分析することと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応する前記ユーザのコミュニケーション意図を分析することとを含むことができる。つまり、ユーザ入力の理解結果は、セマンティックコンテンツとコミュニケーション意図を含むことができる。コミュニケーション意図は、たとえば意図システム内の1つ、たとえば、質問、明確、提案、拒絶、励み又は慰めなどであってもよい。
1つの例示的な実施例として、意図システムのリストは次の通りであり得る:
Figure 0007204801000003
いくつかの実施例によれば、意図知識グラフに基づいて前記ユーザ入力を理解することができる。たとえば、図4に示すように、受信された第1のユーザ入力は、映画Cの主役が誰ですか、知っているかということであり、第1のユーザ入力の理解結果のセマンティックコンテンツは、映画Cであり、コミュニケーション意図は問答である。受信された第2のユーザ入力は、私は張三さんがとても好きです(俳優であると仮定する)ということである。第2のユーザ入力の理解結果のセマンティックコンテンツは、張三であり、コミュニケーション意図は閑談である。
ユーザ入力の理解結果は、さらにユーザの状態、たとえばユーザの気分状態、ユーザが現在のチャットを気に入っているか否かを説明するための状態意図を含むことができる。これにより、ユーザの状態意図に合わせて、対話を決定し、返信コンテンツを計画することができる。
いくつかの実施例によれば、ユーザ入力のコミュニケーション意図は、トレーニングが完了された意図ニューラルネットワークモデルに基づいて理解されてもよい。第1のユーザ入力サンプルセットを取得し、第1のユーザ入力サンプルセット内の一般的なユーザ入力サンプルのコミュニケーション意図にラベルを手動で付けることができる。前記第1のユーザ入力サンプルセットを利用して意図ニューラルネットワークモデルをトレーニングする。たとえば、前記第1のユーザ入力サンプルセットは、ログデータ(たとえば、検索エンジンログ)に基づいて取得されてもよい。また、低頻度のユーザ入力(たとえば、「あなたの言うことがわからない」)を取得し、低頻度のユーザ入力のコミュニケーション意図にラベルを手動で付けてコーパスを生成することもできる。意図ニューラルネットワークモデルがコミュニケーション意図を識別できず、つまり意図システムに対応するコミュニケーション意図がないユーザ入力の場合、ユーザ入力のセマンティックとの類似度が最も高い低頻度のユーザ入力をコーパスで検索し、検索された低頻度のユーザ入力に対応するコミュニケーション意図をユーザ入力のコミュニケーション意図として使用することができ、これにより、ユーザ入力のコミュニケーション意図を理解することを確保することができる。
以下では、前記ユーザ入力を理解するプロセスを、意図知識グラフで詳細に説明する。
いくつかの実施例によれば、ステップS103における、前記ユーザ入力のセマンティックコンテンツを分析することは、前記ユーザ入力が前記動作記憶情報内のあるノードに対応できるか否かを判断することと、前記ユーザ入力が前記動作記憶情報内のあるノードに対応できることに応答して、前記動作記憶情報に基づいて前記ユーザ入力を処理することとを含むことができ、これにより、動作記憶情報に基づいてユーザ入力のセマンティックコンテンツを理解し、現在のマンマシンインタラクションシーンでのユーザ入力の理解を実現し、対話の理解の精度と効率を向上させることができる。前記あるノードは、たとえば、第3の有向グラフ内のノードであってもよく、上記のように、前記第3の有向グラフは、前記第1の有向グラフ(意図知識グラフ)と同じ構造であってもよく、且つ前記第1の有向グラフの一部である。
いくつかの実施例によれば、前記ユーザ入力を処理することは、前記動作記憶情報内の前記あるノードの情報に基づき、関連するコンテンツを前記ユーザ入力に補うことを含むことができる。たとえば、ユーザ入力が「主人公は誰ですか」である場合、動作記憶情報から検索された、前記ユーザ入力に対応するあるコアノード「映画A」に基づき、ユーザ入力を「映画Aの主人公は誰ですか」として補完することができる。いくつかの実施例によれば、動作記憶情報内の前のコアノードに対応する現在のマンマシンインタラクションコンテンツを検索し、ユーザ入力が当該前のコアノードの論理制御情報内のラベルに覆われているか否かを判定し、覆われていると、当該前のノードに基づいて関連するコンテンツを前記ユーザ入力に補うことができる。たとえば、当該前のコアノード「映画A」の論理制御情報内のラベルは、俳優、役割、ディレクター、シーンを含む。「主人公」と「俳優」のセマンティックが同じであるため、ユーザ入力は、コアノード「映画A」のラベルに覆われていると確定され、当該コアノード「映画A」に基づき、ユーザ入力を「映画Aの主人公は誰ですか」として補完する。
補完されたユーザ入力に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
いくつかの実施例によれば、前記ユーザ入力が前記動作記憶情報内のノードに対応できないことに応答して、前記長期記憶情報から前記ユーザ入力に関連するノードの情報を抽出し、動作記憶情報に格納することができる。これにより、ユーザ入力が動作記憶情報内の知識情報に覆われていない場合、知識範囲を拡大することができ(たとえば、意図グラフ全体に基づく)、知識情報に基づいてユーザ入力を理解することを試みることができる。
いくつかの実施例によれば、ステップS103における、前記ユーザ入力のセマンティックコンテンツを分析することは、さらに前記ユーザ入力に対して曖昧性除去処理を行うことを含むことができる。たとえば、ユーザ入力が「私は水滸伝を読むことが好きです」である場合、単語分割処理によって得られた「水滸伝」は、曖昧になり、テレビドラマや小説である可能性がある。したがって、ユーザ入力のセマンティックコンテンツを正確に理解するように、ユーザ入力に対して曖昧性除去処理を行い、「水滸伝」のタイプを確定する必要がある。
曖昧性除去処理の結果に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
いくつかの実施例によれば、前記ユーザ入力に対して曖昧性除去処理を行うことは、前記ユーザ入力と、前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報とに基づき、前記ユーザ入力内の曖昧性がある少なくとも一部のコンテンツを識別し、前記少なくとも一部のコンテンツの現在のマンマシンインタラクションにおける意味を確定することを含むことができ、これにより、現在のマンマシンインタラクションシーンに基づいてユーザ入力に対して曖昧性除去処理を行うことができる。たとえば、ユーザ入力が「私は水滸伝を読むことが好きです」である場合、「水滸伝」が小説だけでなく、テレビドラマを指すことができるため、曖昧性があり、この場合、システムは、現在のコンテキストでの「水滸伝」の真の意味がテレビドラマではなく、小説を指すことをユーザ入力内の「読む」によって確定する。1つの例示的な実施例として、ユーザ入力と、動作記憶情報内の現在のマンマシンインタラクションに対応する前のコアノード(動作記憶情報内の最新の更新されたコアノードであってもよく、セマンティックコンテンツと論理制御情報を含む)に基づき、前記ユーザ入力に対して曖昧性除去処理を行うことができる。たとえば、ユーザ入力と、動作記憶情報内の現在のマンマシンインタラクションに対応する前のコアノードとを曖昧性除去ニューラルネットワークモデルに入力して、曖昧性除去ニューラルネットワークモデルによって出力されたユーザ入力の曖昧性がある少なくとも部分的なコンテンツのタイプを取得することができる。タイプコーパスを使用して曖昧性除去ニューラルネットワークモデルに対して測定トレーニングを実行して、ユーザ入力と前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報との組み合わせを実現することができ、それにより、タイプコーパスの対応するタイプにより近くなり、ユーザ入力内の曖昧性がある少なくとも一部のコンテンツ及び曖昧性がある前記少なくとも一部のコンテンツのタイプを出力することができる。ここでどのようにユーザ入力内の曖昧性がある少なくとも一部のコンテンツ及び曖昧性がある少なくとも一部のコンテンツのタイプとを確定するかは、例として説明され、これに制限されない。
なお、曖昧性除去処理は、動作記憶情報のみに基づいて行われることに限定されず、たとえば、ユーザ入力に対して、曖昧性除去処理は、長期記憶情報内の対話ライブラリに基づいて行われてもよい。たとえば、対話ライブラリにおいて、入力「私は水滸伝が好きです」がより読む傾向にあるという意図に対して、「水滸伝」のタイプは、小説として確定されてもよい。
いくつかの実施例によれば、ステップS103における、前記ユーザ入力のセマンティックコンテンツを分析することは、曖昧性除去処理と情報補完処理とを含むことができる。曖昧性除去処理の結果と補完後のユーザ入力に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
コミュニケーション意図に基づいて後続の操作を決定することができる。たとえば、コミュニケーション意図がクエリである場合、曖昧性除去処理の結果、補完後のユーザ入力及びコミュニケーション意図に基づいて意図クエリ表現式を生成し、関連する知識情報を検索することができる。コミュニケーション意図が意図表現式に従って別れを告げることであるため、関連する知識情報を検索する必要がない。関連する知識情報を検索する必要がある場合、まず動作記憶情報においてユーザ入力に関連する知識情報があるか否かを検索し、関連する知識情報がない場合、長期記憶情報においてユーザ入力に関連する知識情報があるか否かを引き続き検索することができる。
いくつかの実施例によれば、ステップS103は、さらに、前記ユーザ入力のセマンティックコンテンツと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応するコミュニケーション意図とに基づき、動作記憶情報から前記ユーザ入力に関連するノードの情報をクエリすることと、前記ユーザ入力との関連度に応じて、クエリされた前記ユーザ入力の関連ノードをソートし、前記ソートが前記関連ノードの論理制御情報に基づいて実行されることとを含むことができる。たとえば、人気又は適時性などに基づいてスコアを付け、関連ノードと前記ユーザ入力の関連度を確定することができ、これにより、関連ノードと前記ユーザ入力の関連度に応じて対話を決定し、対話システムで生成された返信とユーザ入力の関連性を実現することができる。
いくつかの実施例によれば、前記ユーザ入力との関連度に応じて、前記関連ノードに異なるスコアを付与することにより、対話の決定のための参照を提供することができる。たとえば、ユーザ入力に関連するスコアを動作記憶情報内の第3の有向グラフのコアノードの論理制御情報に追加することができる。
分析によって得られたユーザ入力のセマンティックコンテンツは、たとえば、第3の有向グラフにおけるユーザ入力に関連するコアノードであってもよい。
いくつかの実施例によれば、前記ユーザ入力に関連する関連度に応じて、前記関連ノードに異なるスコアを付与する場合、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うことは、前記ソート結果に応じて、対話目標を計画し、前記ユーザ入力との関連度が最も高いノードの情報を計画された対話コンテンツとして選択することと、前記計画された対話コンテンツと前記対話目標とを統合し、前記第2の入力として前記ニューラルネットワークシステムに提供することとを含むことができ、これにより、対話システムは、知識情報を融合し、ユーザ入力に基づいて返信の計画を行うことができ、対話論理が明確になる。
なお、意図知識グラフ内のノードの論理制御情報に基づいて前記関連ノードとユーザ入力との関連度を取得してもよく、対話ライブラリに基づいて前記関連ノードとユーザ入力の関連度を取得してもよく、ユーザの好みに基づいて前記関連点とユーザ入力の関連度を取得してもよく、ここで限定せず、知識情報から前記関連ノードとユーザ入力との関連度を取得できればよい。ユーザの現在のマンマシンインタラクションコンテンツと履歴マンマシンインタラクションコンテンツに基づいて当該ユーザの好みを取得することができ、たとえば、当該ユーザが複数のマンマシンインタラクションにおいて閲読に関与するため、このユーザの閲読好みを確定し、対話の決定プロセスでユーザの好みに応じて対話コンテンツを計画することができる。
いくつかの実施例によれば、動作記憶情報にユーザ入力に対応するノードの知識情報がない場合、ユーザ入力のセマンティックコンテンツに基づき、関連する知識情報を長期記憶情報から取得し、動作記憶情報を更新し、次にユーザ入力のセマンティックコンテンツ、コミュニケーション意図、及び更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対する返信の計画を行うことができる。
たとえば、図4に示すように、受信された第1のユーザ入力は、映画Cの主役が誰ですか、知っているかということであり、第1のユーザ入力の理解結果のセマンティックコンテンツは、映画Cであり、コミュニケーション意図は問答である。第1のユーザ入力の理解結果に応じて、映画Cに関連する情報を長期記憶情報から取得し、動作記憶情報に追加し、動作記憶情報を更新することができる。つまり、図4におけるコアノード「映画C」が所在するノードユニットを動作記憶情報に追加し、動作記憶情報を更新する。次にコミュニケーション意図と動作記憶情報におけるコアノード「映画C」に関連する情報に基づいて前記第1のユーザ入力に対して返信の計画を行う。たとえば、第1の対話目標を問答として計画し、第1の対話コンテンツを「張三」が主役であるとして計画することができる。ニューラルネットワークシステムは、第1のユーザ入力、及び第1の対話目標計画と第1の対話コンテンツ計画との統合結果に基づいて「張三」を回答として生成する。
次に、受信された第2のユーザ入力は、私は張三さんがとても好きですということである。第2のユーザ入力の理解結果のセマンティックコンテンツは、張三であり、コミュニケーション意図は閑談である。この時の動作記憶情報に「張三」に関する関連情報が格納されていないと判断された場合、第2のユーザ入力に対する理解結果に応じて「張三」に関する関連情報を長期記憶情報から取得して動作記憶情報に追加し、動作記憶情報を更新することができる。つまり、図4におけるコアノード「張三」が所在するノードユニットを動作記憶情報に追加し、動作記憶情報を更新し、次にコミュニケーション意図と動作記憶情報におけるコアノード「張三」に関連する情報に基づいて前記第2のユーザ入力に対して返信の計画を行う。たとえば、第2の対話目標を閑談として計画し、第2の対話コンテンツを「思いやりがある」として計画することができる。ニューラルネットワークシステムは、第2のユーザ入力と、第2の対話目標と第2の対話コンテンツ計画との統合結果に基づいて「彼女は思いやりのあります」を回答として生成する。
長期記憶情報にはユーザ入力に関連する知識情報がない場合、返信計画は空である。ニューラルネットワークシステムは、ユーザ入力に基づいて回答を生成する。
設定されたラウンド数(たとえば2ラウンド又は3ラウンド)の閑談を経た後、対話目標を推奨として計画し、動作記憶情報内の現在のマンマシンインタラクションコンテンツに対応する前のコアコアノードに基づいて関連度が高い他のノードを推奨することができ、それにより、複数回の閑談を経た後に知識ポイントを能動的に切り替えて、厄介なチャットを回避することができる。
たとえば、上記の例では、受信された第3のユーザ入力は、彼女は思いやりがあるだけでなく、非常に才能を持っているということである。コミュニケーション意図は、閑談である。次にコミュニケーション意図と動作記憶情報における現在のマンマシンインタラクションコンテンツに対応する前のコアノード「張三」との関連度が高い他のノードに基づいて前記第3のユーザ入力に対して返信の計画を行う。たとえば、第3の対話目標を推奨として計画することができ、次に動作記憶情報内の現在のマンマシンインタラクションコンテンツに対応する前のコアノード「張三」に基づいてコアノード「張三」との関連度が高い他のノードの情報を長期記憶情報から取得することができ、たとえば、人気が高いコアノード「映画D」を取得することができる。これに基づき、第3の対話コンテンツを「映画D」と「フランス風の短編映画」として計画することができる。ニューラルネットワークシステムは、第3のユーザ入力と、第3の対話目標と第3の対話コンテンツ計画との統合結果に基づいて「張三さんが主演するフランス風の短編映画である映画Dを推奨します」を回答として生成する。
これに基づき、いくつかの実施例によれば、前記ユーザ入力に対して前記動作記憶情報を更新しない場合、前記関連度の最も高いノードが依然として所定の基準を満たすことができない(たとえば、各候補返信コンテンツのスコアがいずれも所定の閾値未満である)ことに応答して、長期記憶情報を再度クエリして前記動作記憶情報を更新し、これにより、チャットのナレッジポイントを能動的に推奨又は切り替えて、厄介なチャットを回避することができる。
以下、1つの例示的な実施例によって本開示におけるニューラルネットワークに基づくマンマシンインタラクション方法を説明する。図5は当該例示的な実施例における対話制御システムの動作プロセスを示す図であり、矢印は信号の流れの方向を示し、1,2……10は方法のステップを示している。
図5に示すように、現在のユーザ入力を受信した後、現在のユーザ入力に対して対話理解を行い、現在のユーザ入力のコミュニケーション意図とセマンティックコンテンツを取得し、コミュニケーション意図とセマンティックコンテンツに基づいて現在のマンマシンインタラクションシーンでのユーザ入力の関連ノードの情報を長期記憶情報から取得し、関連度に応じて、取得された関連ノードの関連にスコアを付け、次に関連スコアに基づいてソートし、関連スコアを関連ノードの論理制御情報に追加して動作記憶情報に融合し、動作記憶情報を更新し、現在のマンマシンインタラクションの履歴インタラクションデータ、現在のユーザ入力に関連するノードの情報を動作記憶情報から取得し、対話目標計画と対話コンテンツ計画とを含む対話制御を行うことができ、計画された対話目標がたとえば能動的な推奨であると、現在のユーザ入力との関連度が高い他のノードの情報を長期記憶情報から取得して、知識チャットの能動的な推奨を実現し、計画された対話目標と対話コンテンツを統合してニューラルネットワークシステムのデコーダに提供し、デコーダは、計画された対話目標と対話コンテンツの統合及び現在のユーザ入力と格納された現在のマンマシンインタラクションの履歴インタラクション情報に基づいて符号化して暗黙的ベクトルを取得し、現在のユーザ入力に対する返信を生成する。
本開示の別の態様によれば、図2に示すように、ニューラルネットワークに基づくマンマシンインタラクション装置をさらに提供し、前記装置は、ユーザ入力を第1の入力として受信するように構成されるニューラルネットワークシステム101と、前記ユーザ入力を受信するように構成される、前記ニューラルネットワークシステムとは異なる対話制御システム102とを備えることができ、前記対話制御システム102は、さらに前記ユーザ入力に関連する情報に基づき、前記ユーザ入力を処理し、処理結果を第2の入力として前記ニューラルネットワークシステムに提供するように構成され、前記ニューラルネットワークシステムは、さらに前記第1の入力と第2の入力に基づき、前記ユーザ入力に対する返信を生成するように構成される。
前記ニューラルネットワークシステムは、エンドツーエンド型ニューラルネットワークシステム101を採用することができるが、これに限定されない。前記エンドツーエンド型ニューラルネットワークシステム101は、エンコーダ1011とデコーダ1012とを備えることができる。前記エンコーダ1011は、入力されたテキストコンテンツを暗黙的に表現して暗黙的ベクトルを生成することができ、前記デコーダ1012は、所与の入力ベクトルに従って滑らかな自然言語テキストを生成することができる。
いくつかの実施例によれば、前記エンコーダ1011は、前記ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を受信し、ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を符号化して暗黙的ベクトルを生成するために使用されてもよく、前記暗黙的ベクトルがデコーダ1012に入力される。前記デコーダ1012は、前記第2の入力(即ち、対話制御システムによってユーザ入力を処理して得られた処理結果)及びエンコーダ1011によって生成された暗黙的ベクトルを受信し、前記ユーザ入力に対する返信を生成するために使用されてもよい。これにより、ニューラルネットワークシステムは、現在のユーザ入力、格納された現在のマンマシンインタラクションの履歴インタラクション情報、及び対話制御システムがユーザ入力に関連する情報に基づいてユーザ入力を処理することで得られた結果に基づき、ユーザ入力に対する応答を生成することができ、それによってマシンの返信コンテンツが現在のマンマシンインタラクションシーンに一致し、対話論理が明確になることをさらに確保することができる。
前記エンドツーエンド型ニューラルネットワークシステムとしては、たとえば、Transformerニューラルネットワークシステム又はUniLMニューラルネットワークシステムを採用することができる。
いくつかの実施例によれば、前記装置はさらにストレージコンピューティングシステム103を備えることができる。ストレージコンピューティングシステム103は、長期記憶モジュール1031と動作記憶モジュール1032とを含むことができる。この場合、前記ユーザ入力に関連する前記情報は、長期記憶モジュールから取得された長期記憶情報と、前記動作記憶モジュールから取得された、現在のマンマシンインタラクション期間のみに有効な動作記憶情報とを含むことができる。長期記憶情報は、対話システムが長期間格納する必要がある情報であり、様々な知識情報を含むことができ、たとえば、常識、分野の知識、言語知識、問答ライブラリ、及び対話ライブラリのうちの少なくとも1つを含むことができる。動作記憶情報は、現在のマンマシンインタラクションコンテンツに基づいて長期記憶情報から取得されてもよい。つまり、動作記憶情報は、現在のマンマシンインタラクションコンテンツに関連する知識情報である。これにより、現在のマンマシンインタラクションコンテンツに関連する知識情報をニューラルネットワークシステムに基づく対話システムに融合することで、関連する知識情報に基づいて現在のマンマシンインタラクションシーンでユーザ入力に対する返信の計画を行うことを実現し、知識情報を十分に利用することができ、それにより、現在のマンマシンインタラクションのコンテンツが豊富であり、論理が明確になる。なお、前記ユーザ入力に関連する情報は、インターネットからリアルタイムでキャプチャされた情報を含むこともできる。
いくつかの実施例によれば、長期記憶情報は、意図知識グラフ、問答ライブラリ及び対話ライブラリを含むことができるが、これらに限定されない。以下では、まず意図知識グラフ、問答ライブラリ及び対話ライブラリのデータコンテンツ、データ編成形態などについて説明する。
意図知識グラフは、対話シーンの知識インタラクションニーズから開始して、知識クエリ機能を満たすだけでなく、複数ラウンドのマルチシーンインタラクションにおける関連付け、類推、予測を満たすこともできる。意図知識グラフのノードの順序付き編成により、テキストの計算と知識情報の制御が容易になり、かつ知識情報の計算により、対話での動作ジャンプ(シーンジャンプ、同じシーンでのコンテンツジャンプ)をサポートすることができ、強いセマンティック遷移論理性を持っている。意図知識グラフは、異なるタイプのマルチシーン情報を統合しているため、複数の視点から言語を理解する機能を提供することがきる。
いくつかの実施例によれば、前記長期記憶モジュール1031には意図知識グラフが格納され、意図知識グラフは、ノードと有向エッジとを含む形態の第1の有向グラフの知識情報を含むことができ、かつ前記第1の有向グラフ内のノードは、セマンティックコンテンツと論理制御情報とを含む構造化データである。前記第1の有向グラフ内の有向エッジは、関連ノード間の関連属性と、ノードと対応する論理制御情報の間の関連属性とを表す。なお、他の知識情報も第1の有向グラフのデータ編成形態を採用することができるが、意図知識グラフに限定されない。ここでは、意図知識グラフのみを例として、どのように第1の有向グラフを使用して知識情報を表現するかを説明する。
いくつかの実施例によれば、意図知識グラフの前記論理制御情報は、現在のマンマシンインタラクションに関連するノードをスクリーニングするために使用できる情報、たとえば人気、適時性、感情などの情報を含むことができ、現在のマンマシンインタラクションコンテンツに関連するノードをスクリーニングするために使用され、これにより、ユーザが知識チャットを能動的に開始する場合で関連する知識情報を検索することを実現することができ、これにより、対話コンテンツの論理が明確になる。たとえば、第1の人気閾値を設定し、対応する論理制御情報内の人気が前記第1の閾値よりも高いノードを、動作記憶情報内の現在のマンマシンインタラクションコンテンツに関連するノードからスクリーニングすることができる。第1の有効時点を設定し、対応する論理制御情報内の時効情報が前記第1の有効時点の後に位置するノードを、動作記憶情報内の現在のマンマシンインタラクションに関連するノードからスクリーニングすることができる。第1のプリセット感情タイプを設定し、対応する論理制御情報内の感情タイプが前記第1のプリセット感情タイプであるノードを、現在のマンマシンインタラクションに関連するノードからスクリーニングすることができる。
いくつかの実施例によれば、意図知識グラフの前記論理制御情報は、さらに、現在のマンマシンインタラクションにおける各ノード間の関連度を確定できる情報、たとえば、人気、ノード間の関連関係などの情報を含むことができ、現在のマンマシンインタラクションコンテンツに関連するノードを拡張するために使用され、これにより、マシンが知識チャットを能動的に切り替えたり、トリガーしたり、推奨したりすることを実現することができ、これにより、対話コンテンツが豊富になり、厄介なチャットが回避される。たとえば、第2の人気閾値を設定し、対応する論理制御情報内の人気が前記第2の人気閾値よりも大きいノードを、長期記憶情報内のユーザ入力の各関連ノードから取得することができる。関連関係に応じて、現在のノードから当該現在のノードとの関連度が最も高いノードに拡張することができる。
意図知識グラフの前記ノードは、複数の異なるタイプのノードを含むことができる。いくつかの実施例によれば、前記第1の有向グラフ内の各ノードは、第1のタイプのノード及び第2のタイプのノードを含むことができる。前記第2タイプのノードのセマンティックコンテンツは、前記第2のタイプのノードに関連する第1のタイプのノードのセマンティックコンテンツの一部であってもよく、かつ前記第2のタイプのノードの論理制御情報は、前記第2のタイプのノードに関連する第1のタイプのノードの下での第2のタイプのノードの人気、前記第2のタイプのノードと少なくとも1つの他の第2のタイプのノードとの関連ジャンプ関係、前記第2のタイプのノードのサブタイプのうちの少なくとも1つを含む。これにより、第1のタイプのノードをクエリすると第1のタイプのノードのセマンティックに関連する第2のタイプのノードの知識情報を取得し、テキストの計算、知識情報の制御を容易にすることができる。
前記第1のタイプのノードは、たとえば、コアノードであってもよく、前記第2のタイプのノードは、たとえば、ラベルノードであってもよい。前記有向エッジは、コアノード間、コアノードとラベルノード間の関連属性を表すことができる。コアノードとラベルノードは、構造化データであってもよく、それによってセマンティックコンテンツの理解及び制御を実現することができる。コアノードは、完全なセマンティックを備えた基本ユニットであってもよく、エンティティ、概念、イベント、命令を含むことができ、たとえば、人物、物品、構造、製品、建物、場所、組織、イベント、芸術作品、科学技術、科学定理などであってもよい。コアノードの論理制御情報は、人気、適時性、ラベルノードのリコールのための全てのラベル、タスクAPIなどを含むことができる。各コアノードは、関連している複数のラベルノードを含むことができる。ラベルノードのセマンティックコンテンツは、ラベルノードに関連するコアノードのセマンティックコンテンツの一部であってもよく、コアノードとの関係が部分と全体の関係である。
いくつかの実施例によれば、現在のマンマシンインタラクションに関連する情報は、第1の有向グラフから取得された、ユーザ入力に関連するノード情報を含むことができる。ユーザ入力を第1の有向グラフのコアノードにマッピングすることができ、マッピングによって取得されたコアノード、及びマッピングによって取得されたコアノードに関連するラベルノードは、全てユーザ入力に関連する知識情報として使用されてもよい。ユーザ入力を第1の有向グラフのコアノードにマッピングできない場合、現在のマンマシンインタラクションの履歴ユーザ入力をマッピングして取得したコアノードを、現在のユーザ入力に対応するコアノードとして使用することができる。たとえば、現在のユーザ入力が「主人公は誰ですか?」である場合、前記第1の有向グラフには現在のユーザ入力に対応するコアのノードがない。この場合、現在のマンマシンインタラクションにおける前回の前記第1の有向グラフ内の対応するコアノードを現在のユーザ入力のコアノードとして使用し、現在のユーザ入力に関連する知識情報を取得することができる。ここで、現在のマンマシンインタラクションコンテンツは、現在のユーザ入力及び現在のマンマシンインタラクションの履歴インタラクション情報を含むことができる。
図3に示すように、実線の円(「映画A」、「映画B」、「趙六」)は、コアノードを示し、実線の楕円は、ラベルノードを示し、点線の円は、論理制御情報を示している。各点線の楕円は、ユーザ入力に関連する情報ユニットとして1つのノードユニットを囲むことができる。つまり、ユーザ入力が1つのノードユニット(図3のノードユニット100)のコアノードにマッピングされると、ノードユニットの全てのノード情報は、ユーザ入力に関連する知識情報と考えられ、動作記憶情報に追加される。ただし、システムの利用可能なコンピューティングリソースの大きさに応じて、マッピングによって取得された1つのコアノードに関連する少なくとも1つの他のコアノードが所在するノードユニットもユーザ入力に関連していると考えられ、動作記憶情報に追加されてもよく、ここでは限定しない。以下のコンテンツでは、マッピングによって得られたノードユニットが所在するノードユニットをユーザ入力に関連する知識情報として使用することを例として、本開示の技術的解決策を具体的に説明する。
第1のタイプのノード(コアノード)が映画エンティティ「映画A」であることを例とすると、「映画A」のユーザがラベルノードをリコールするためのラベルは、俳優、役割、ディレクター、シーンなどを含むことができる。第1のタイプのノードに関連するラベルノード(第2のタイプのノード)は、「趙六」、「役割A」、「役割B」、「李四」、「有名なシーン」を含むことができる。ここで、ラベルノード「趙六」は、関連する第1のタイプのノード「映画A」の俳優ラベルに対応し、「役割A」及び「役割B」は、関連する第1のタイプのノード「映画A」の役割ラベルに対応し、「李四」は、関連する第1のタイプのノード「映画A」のディレクターラベルに対応し、「有名なシーン」は、関連する第1のタイプのノード「映画A」のシーンラベルに対応している。コアノード「映画A」に関連するコアノードは、「映画B」を含むことができ、ラベルノード「趙六」に関連するコアノードは、「趙六」を含むことができる。ユーザ入力がコアノード「映画A」にマッピングされると、コアノード「映画A」と、ラベルノード「趙六」、「役割A」、「役割B」、「李四」、「有名なシーン」はいずれもユーザ入力に関連する情報として使用される。
いくつかの実施例によれば、前記第1の有向グラフ内の各ノードは、さらに第3のタイプのノードを含むことができ、前記第3のタイプのノードのセマンティックコンテンツがマルチモーダルコンテンツをサポートし、かつ前記第3のタイプのノードの論理制御情報は、前記第3のタイプのノードに関連する第2のタイプのノードの情報、前記第3のタイプのノードのセマンティックコンテンツを特徴付けるための情報のうちの少なくとも1つを含むことができる。これにより、第3のタイプのノードを設定することにより、マルチモーダルのセマンティックコンテンツをサポートし、対話コンテンツをさらに豊かにすることができる。
前記第3のタイプのノードは、たとえば、コンテンツノードであってもよい。前記有向エッジは、ラベルノード(第2のタイプのノード)とコンテンツノードの間の関連属性を表すこともできる。コンテンツノードは、非構造化データであってもよく、豊富なマルチモーダルコンテンツをサポートすることができる。各コアノード(第1のタイプのノード)は、複数のコンテンツノードを含むことができ、コンテンツノードに関連するラベルノードは、当該コンテンツノードのテーマ又は要約であってもよい。コンテンツノードは、対話コンテンツを含むことができ、マルチモーダル(単語、文、ピクチャー、ビデオなど)、多様性、細粒度などの特徴を備える。コンテンツノードの論理制御情報は、たとえば、コアラベル、キーワード、コンテンツノードのセマンティックコンテンツにおけるコアラベルの重要性、コンテンツノードのセマンティックコンテンツの要約的なフレーズ、コンテンツノードに関連するラベルノードのカテゴリ、コンテンツノードに関連するラベルノードの感情極性、コンテンツノードに関連するラベルノードのスコアなどを含むことができる。
いくつかの実施例によれば、現在のマンマシンインタラクションコンテンツに関連する情報は、第1の有向グラフから取得された、ユーザ入力に関連するノード情報を含むことができる。ユーザ入力を第1の有向グラフのコアノードにマッピングすることができ、マッピングによって取得されたコアノード、マッピングによって取得されたコアノードに関連するラベルノード、及び取得されたラベルノードに関連するコンテンツラベルは、いずれもユーザ入力に関連する知識情報として使用されてもよい。
図3に示すように、長方形のボックスは、コンテンツノードを示している。第1のタイプのノード(コアノード)が映画エンティティ「映画A」であることを例とすると、第1のタイプのノードに関連するラベルノード(第2のタイプのノード)は、「趙六」、「役割A」、「役割B」、「李四」、「有名なシーン」を含むことができる。ここで、ラベルノード「趙六」及びラベルノード「役割A」に関連するコンテンツノードは、「役割Aのスチール写真.jpg」を含むことができ、ラベルノード「役割A」に関連するコンテンツノードは、さらに「役割Aが極めて完全な活力と生命の意志を持っている」を含むことができ、ラベルノード「李四」に関連するコンテンツノードは、「映画A」がディレクター李四の最も良いきょう客映画である。ユーザ入力がコアノード「映画A」にマッピングされると、コアノード「映画A」、ラベルノード「趙六」、「役割A」、「役割B」、「李四」、「有名なシーン」、及びラベルノード「趙六」、「役割A」、「李四」に関連するコンテンツノードは、いずれもユーザ入力に関連する情報として使用される。
2つのノードが関連していることは、これらの2つのノードが少なくとも1つの有向エッジを含む有向パスを介して関連付けられることを意味することができる。異なるノードは、有向エッジを介して接続されてもよく、接続されたノード間の関連属性を示している。有向エッジは、たとえば、コアノードからコアノードまでの関連エッジ、コアノードからラベルノードまでの関連エッジ、ラベルノードからコアノードまでの関連エッジ、ラベルノードからコンテンツノードまでの関連エッジを含むことができる。有向エッジの属性は、セマンティック関係(たとえばディレクター、作品、妻など)、論理関係(時系列、因果など)、相関性の強さ、セマンティックの上位及び下位関係などの様々なタイプを含むことができる。
たとえば、図3に示すように、コアノード「映画A」とコアノード「映画B」の間の有向エッジの属性は、相関性の強さであってもよく、ラベルノード「趙六」とコアノード「趙六」の間の有向エッジの属性は、相関性の強さであってもよい。コアノード「映画A」とラベルノード「李四」、「趙六」、「役割A」、「有名なシーン」の間の有向エッジの属性は、セマンティック関係である。ラベルノード「趙六」とコンテンツノード「役割のスチール写真.jpg」の間の有向エッジの属性は、セマンティック関係であってもよい。
いくつかの実施例によれば、前記長期記憶モジュール1031には対話ライブラリが格納されてもよく、対話ライブラリは、ノードと有向エッジとを含む形態の第2の有向グラフを含むことができ、マンマシンインタラクションプロセスにおけるセマンティック情報とその特徴を記録し、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画に参照を提供するために使用される。対話ライブラリに基づき、ビッグデータを使用してユーザのより傾いた意図を取得することができるため、ユーザ入力の返信計画に合理的なガイドを提供することができる。前記第2の有向グラフは、図3に示すように、上記の第1の有向グラフ(たとえば、意図知識グラフ)と同じ構造を有することができるが、ここでは詳細に説明されない。これにより、対話ライブラリと意図知識グラフを同じ構造の有向グラフとして設定することにより、対話ライブラリと意図知識グラフとの融合を効果的に実現し、知識情報の制御を容易にすることができる。なお、他の知識情報も第2の有向グラフのデータ編成形態を採用することができるが、対話ライブラリに限定されず、ここでは、対話ライブラリのみを例として、どのように第2の有向グラフを使用して知識情報を表現するかを説明する。異なる知識情報を同じ構造の有向グラフとして設定することにより、異なる知識情報の融合を効果的に実現し、知識情報の制御を容易にすることができる。
いくつかの実施例によれば、問答ライブラリは、質問-解答の形態の問答知識情報であってもよい。問答ライブラリの機能は、ユーザの質問について問答ライブラリをクエリし、質問に一致する解答を返信し、ユーザの情報ニーズを満たすことである。たとえば、ユーザ入力が問答である場合、ユーザ入力に一致する解答があるか否かを問答ライブラリから優先的にクエリすることができ、それにより、返信を迅速に実現することができる。
いくつかの実施例によれば、前記長期記憶モジュールに格納された長期記憶情報は、意図知識グラフ、問答ライブラリ及び対話ライブラリを含むことができる。以上では、長期記憶情報の意図知識グラフ、対話ライブラリと問答ライブラリのデータコンテンツとデータ編成形態は、例として説明されたが、これに限定されない。当然、前記長期記憶情報は、現在のマンマシンインタラクションに関連する知識情報との他の組み合わせであってもよく、ここで限定しない。
長期記憶情報については、さらに言語計算と情報抽出を行うことができる。言語コンピューティングには、比較、帰納、演繹、推論などが含まれてもよく、情報抽出には、たとえば概念抽出、エンティティ抽出、イベント抽出、命令抽出などが含まれてもよく、これにより、ユーザ入力に基づいて現在のマンマシンインタラクションコンテンツに関連する動作記憶情報を長期記憶情報から取得することができる。現在のマンマシンインタラクションコンテンツは、現在のユーザ入力及び現在のユーザ入力の前の履歴インタラクション情報を含むことができる。動作記憶情報は、さらに現在のマンマシンインタラクションコンテンツを含むことができ、それによって現在のマンマシンインタラクション履歴と、長期記憶情報から取得されたユーザ入力に関連する知識情報とに基づき、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を取得することができ、これについては、以下の内容で詳しく説明する。
いくつかの実施例によれば、前記動作記憶モジュール1032には動作記憶情報が格納されてもよい。前記動作記憶情報は、ノードと有向エッジとを含む形態の第3の有向グラフの情報を含むことができ、前記第3の有向グラフは、前記第1の有向グラフ(たとえば、意図知識グラフ)と同じ構造であってもよい。これにより、長期記憶情報の知識情報と同じ構造の情報を含むように動作記憶情報を設定することにより、知識情報の呼び出し及び融合を容易にすることができる。好ましくは、前記第3の有向グラフは、現在のマンマシンインタラクションに関連する前記第1の有向グラフの部分であってもよく、そのため、知識情報の呼び出し及び融合がより容易になる。つまり、前記第3の有向グラフがコアノードとラベルノードとを含むことができるため、全てのユーザ意図とシステム返信(意図)も動作記憶情報内のコアノード及び関連するラベルノードにできるだけマッピングされてもよく、各モジュールが使用しやすい。また、現在のマンマシンインタラクションに関連する一部のノード情報を長期記憶情報から抽出するだけでよいため、メモリの占有を減少し、返信効率を向上させることができる。前記第3の有向グラフは、さらにマルチモーダルセマンティックコンテンツをサポートするためにコンテンツノードを含むことができ、それによって動作記憶情報に基づいて豊富な対話コンテンツを取得することもできる。なお、前記第3の有向グラフは、上記の第1の有向グラフの構造とは異なることもできる。
いくつかの実施例によれば、前記動作記憶情報は、さらに前記第1の有向グラフから取得された、前記現在のマンマシンインタラクションに関連する全てのノードのセマンティックコンテンツと論理制御情報を含むことができる。つまり、前記第3の有向グラフのコアノードは、第1の有向グラフに対応する第1のタイプのノードのセマンティックコンテンツと論理制御情報を含み、前記ラベルノードは、第1の有向グラフに対応する前記第2のタイプのノードのセマンティックコンテンツと論理制御情報を含み、前記コンテンツノードは、第1の有向グラフに対応する前記第3のタイプのノードのセマンティックコンテンツと論理制御情報を含む。これにより、動作記憶情報は、現在のマンマシンインタラクションに基づいて長期記憶情報から全てのチャット可能な話題をできるだけ取得することができ、これによって動作記憶情報に基づいてユーザ入力に対する返信計画を実現することが可能となる。動作記憶情報内のデータ量が長期記憶情報内のデータ量よりもはるかに少ないため、返信速度を向上させ、ユーザエクスペリエンスを向上させることができる。
いくつかの実施例によれば、動作記憶情報にユーザ入力に関連するノードの情報がない場合、ユーザ入力に基づき、ユーザ入力に関連する知識情報を長期記憶情報から取得し、動作記憶情報を更新し、次に更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対する返信の計画を行うことができる。いくつかの実施例によれば、ユーザ入力に基づき、ユーザ入力に関連するサブラフを第1の有向グラフから取得し、取得されたサブグラフを動作記憶情報内の第3の有向グラフに融合し、動作記憶情報を更新することができる。
動作記憶情報に対して、現在のマンマシンインタラクションコンテンツ内の履歴インタラクション情報に対応する各ノードでは、コアノードに関連するラベルノードとコンテンツノードではなく、コアノードのセマンティックコンテンツと論理制御情報のみを保持でき、これにより、コンピューティングリソースのニーズを減らすことができる。チャットされた話題が再び関与しない可能性があるため、現在のマンマシンインタラクションにおける履歴インタラクション情報に対応するコアノードのセマンティックコンテンツと論理制御情報のみを保持すると、マンマシンインタラクションにほとんど影響を与えない。
いくつかの実施例によれば、前記動作記憶情報は、さらに前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツをマークするための第1の情報を含むことができ、これにより、チャットされたメッセージとチャットされていないメッセージとを区別し、繰り返しを回避することができる。いくつかの実施例によれば、第3の有向グラフにおいて、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツに関連する全てのノード(ターゲットノード、ラベルノード及びコンテンツノードを含む)は、さらに当該ノードがチャットされたことを示すための第1のメッセージを含むことができる。
いくつかの実施例によれば、前記動作記憶情報は、さらに関与したセマンティックコンテンツを最初に言及する対話者を示すための第2の情報を含むことができ、これにより、関連するコンテンツがチャットされた話題を正確に区別し、対話者の対話の繰り返しをより正確に回避することができる。いくつかの実施例によれば、第3の有向グラフにおいて、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツに関連する全てのノード(ターゲットノード、ラベルノード及びコンテンツノードを含む)は、さらに当該ノードがどの対話者にチャットされたかを示すための第2のメッセージを含むことができる。
いくつかの実施例によれば、前記動作記憶情報は、さらに前記現在のマンマシンインタラクション期間のインタラクションレコードの履歴データを含むことができ、これにより、複数ラウンドのポリシーのための決定特徴を提供するように、現在のマンマシンインタラクションシーンを取得することができる。
前記動作記憶情報は、他の情報、たとえば、前記対話制御システムの各動作モジュールの分析結果をさらに含むことができ、このように、各モジュールが使用しやすくなる。たとえば、ユーザ入力に基づいて長期記憶情報から取得されたユーザ入力に関連する上記知識情報に加えて、長期記憶情報から取得された、ユーザ入力に関連する知識情報をソートした結果と、返信決定結果とを含むことができる。
いくつかの実施例によれば、前記対話制御モジュールは、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信計画を行うステップを実行して前記ユーザ入力を処理するように構成されてもよい。これにより、関連情報を十分に利用し、関連情報に基づいて現在のマンマシンインタラクションシーンでユーザ入力に対して返信の計画を行うことができ、さらにマンマシンインタラクションのコンテンツが豊かになり、論理が明確である。
いくつかの実施例によれば、対話制御システム102は、対話理解モジュール1021と対話制御モジュール1022とを含むことができる。1つの実施例では、対話理解モジュール1021を利用してまずユーザ入力に基づいて長期記憶情報から関連する知識情報を取得し、動作記憶情報を更新し、次に対話制御モジュール1022は、更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うことができる。
前記対話理解モジュール1021は、前記ユーザ入力のセマンティックコンテンツを分析し、現在のマンマシンインタラクションにおける前記ユーザ入力に対応する前記ユーザーのコミュニケーション意図を分析するように構成されてもよい。つまり、ユーザ入力の理解結果は、セマンティックコンテンツとコミュニケーション意図を含むことができる。コミュニケーション意図は、たとえば意図システム内の1つ、たとえば、質問、明確、提案、拒絶、励みや慰めなどを選択することができる。
いくつかの実施例によれば、意図知識グラフに基づいて前記ユーザ入力を理解することができる。たとえば、図4に示すように、受信された第1のユーザ入力は、映画Cの主役が誰ですか、知っているかということであり、第1のユーザ入力の理解結果のセマンティックコンテンツは、映画Cであり、コミュニケーション意図は問答である。受信された第2のユーザ入力は、私は張三さんがとても好きですということである。第2のユーザ入力の理解結果のセマンティックコンテンツは、張三であり、コミュニケーション意図は閑談である。
ユーザ入力の理解結果は、さらにユーザの状態、たとえばユーザの気分状態、ユーザが現在のチャットを気に入っているか否かを説明するための状態意図を含むことができる。これにより、ユーザの状態意図に合わせて、対話を決定し、返信コンテンツを計画することができる。
いくつかの実施例によれば、ユーザ入力のコミュニケーション意図は、トレーニングが完了された意図ニューラルネットワークモデルに基づいて理解されてもよい。第1のユーザ入力サンプルセットを取得し、第1のユーザ入力サンプルセット内の一般的なユーザ入力サンプルのコミュニケーション意図にラベルを手動で付けることができる。前記第1のユーザ入力サンプルセットを利用して意図ニューラルネットワークモデルをトレーニングする。たとえば、前記第1のユーザ入力サンプルセットは、ログデータ(たとえば、検索エンジンログ)に基づいて取得されてもよい。また、低頻度のユーザ入力(たとえば、「あなたの言うことがわからない」)を取得し、低頻度のユーザ入力のコミュニケーション意図にラベルを手動で付けてコーパスを生成することもできる。意図ニューラルネットワークモデルがコミュニケーション意図を識別できず、つまり意図システムに対応するコミュニケーション意図がないユーザ入力の場合、ユーザ入力とのセマンティック類似度が最も高い低頻度のユーザ入力をコーパスで検索し、検索された低頻度のユーザ入力に対応するコミュニケーション意図をユーザ入力のコミュニケーション意図として使用することができ、これにより、ユーザ入力のコミュニケーション意図を理解することを確保することができる。
以下では、前記ユーザ入力を理解するプロセスを、意図知識グラフで詳細に説明する。
いくつかの実施例によれば、図6に示すように、前記対話理解モジュール1021は、前記ユーザ入力が前記動作記憶情報内のあるノードに対応できるか否かを判断するように構成される判定サブモジュール10211と、前記ユーザ入力が前記動作記憶情報内のあるノードに対応できることに応答して、前記動作記憶情報に基づいて前記ユーザ入力を処理するように構成される処理サブモジュール10212とを含むことができ、これにより、動作記憶情報に基づいてユーザ入力のセマンティックコンテンツを理解し、現在のマンマシンインタラクションシーンでのユーザ入力の理解を実現し、対話の理解の精度と効率を向上させることができる。前記あるノードは、たとえば、第3の有向グラフ内のノードであってもよく、上記のように、前記第3の有向グラフは、前記第1の有向グラフ(意図知識グラフ)と同じ構造であってもよく、且つ前記第1の有向グラフの一部である。
いくつかの実施例によれば、前記処理サブモジュール10212は、さらに、前記動作記憶情報内の前記あるノードの情報に基づき、関連するコンテンツを前記ユーザ入力に補うように構成される。たとえば、ユーザ入力が「主人公は誰ですか」である場合、動作記憶情報から検索された、前記ユーザ入力に対応するあるコアノード「映画A」に基づき、ユーザ入力を「映画Aの主人公は誰ですか」として補完することができる。いくつかの実施例によれば、動作記憶情報内の前のコアノードに対応する現在のマンマシンインタラクションコンテンツを検索し、ユーザ入力が当該前のコアノードの論理制御情報内のラベルに覆われているか否かを判定し、覆われていると、当該前のノードに基づいて関連するコンテンツを前記ユーザ入力に補うことができる。たとえば、当該前のコアノード「映画A」の論理制御情報内のラベルは、俳優、役割、ディレクター、シーンを含む。「主人公」と「俳優」のセマンティックが同じであるため、ユーザ入力はコアノード「映画A」のラベルに覆われていると確定され、当該コアノード「映画A」に基づき、ユーザ入力を「映画Aの主人公は誰ですか」として補完する。
補完されたユーザ入力に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
いくつかの実施例によれば、前記対話理解モジュールは、さらに前記ユーザ入力が前記動作記憶情報内のノードに対応できないことに応答して、前記長期記憶モジュールから前記ユーザ入力に関連するノードの情報を抽出し、前記動作記憶モジュールに格納するように構成されてもよい。これにより、ユーザ入力が動作記憶情報内の知識情報に覆われていない場合、知識範囲を拡大することができ(たとえば、意図グラフ全体に基づく)、知識情報に基づいてユーザ入力を理解することを試みることができる。
いくつかの実施例によれば、前記対話理解モジュール1021は、さらに前記ユーザ入力に対して曖昧性除去処理を行うように構成される曖昧性除去サブモジュール10213を含むことができる。たとえば、ユーザ入力が「私は水滸伝を読むことが好きです」である場合、単語分割処理によって得られた「水滸伝」は、曖昧になり、テレビドラマや小説である可能性がある。したがって、ユーザ入力のセマンティックコンテンツを正確に理解するように、ユーザ入力に対して曖昧性除去処理を行い、「水滸伝」のタイプを確定する必要がある。
曖昧性除去処理の結果に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
いくつかの実施例によれば、前記曖昧性除去サブモジュール10213は、さらにユーザ入力と、前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報とに基づき、前記ユーザ入力内の曖昧性がある少なくとも一部のコンテンツを識別し、前記少なくとも一部のコンテンツの現在のマンマシンインタラクションにおける意味を確定するように構成されてもよい。これにより、現在のマンマシンインタラクションシーンに基づいてユーザ入力に対して曖昧性除去処理を行うことができる。たとえば、ユーザ入力が「私は水滸伝を読むことが好きす」である場合、「水滸伝」が小説だけでなく、テレビドラマを指すことができるため、曖昧性があり、この場合、システムは、現在のコンテキストでの「水滸伝」の真の意味がテレビドラマではなく、小説を指すことをユーザ入力内の「読む」によって確定する。1つの例示的な実施例として、ユーザ入力と、動作記憶情報内の現在のマンマシンインタラクションに対応する前のコアノード(動作記憶情報内の最新の更新されたコアノードであってもよく、セマンティックコンテンツと論理制御情報を含む)に基づき、前記ユーザ入力に対して曖昧性除去処理を行うことができる。たとえば、ユーザ入力と、動作記憶情報内の現在のマンマシンインタラクションに対応する前のコアノードとを曖昧性除去ニューラルネットワークモデルに入力して、曖昧性除去ニューラルネットワークモデルによって出力されたユーザ入力の曖昧性がある少なくとも部分的なコンテンツを取得することができる。タイプコーパスを使用して曖昧性除去ニューラルネットワークモデルに対して測定トレーニングを実行して、ユーザ入力と前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報との組み合わせを実現することができ、タイプコーパスの対応するタイプにより近くなり、ユーザ入力内の曖昧性がある少なくとも一部のコンテンツ及び曖昧性がある前記少なくとも一部のコンテンツのタイプを出力することができる。ここでどのようにユーザ入力内の曖昧性がある少なくとも一部のコンテンツ及び曖昧性がある少なくとも一部のコンテンツのタイプとを確定するかは、例として説明され、これに制限されない。
なお、曖昧性除去処理は、動作記憶情報のみに基づいて行われることに限定されなく、たとえば、ユーザ入力に対して、曖昧性除去処理は、長期記憶情報内の対話ライブラリに基づいて行われてもよい。たとえば、対話ライブラリにおいて、入力「私は水滸伝が好きです」がより読む傾向にあるという意図に対して、「水滸伝」のタイプは、小説として確定されてもよい。
いくつかの実施例によれば、前記対話理解モジュール1021は、曖昧性除去処理と情報補完処理を実行するように構成されてもよい。曖昧性除去処理の結果と補完後のユーザ入力に基づいて前記ユーザ入力のセマンティックコンテンツをさらに分析して、対話の理解の精度を向上させることができる。
コミュニケーション意図に基づいて後続の操作を決定することができる。たとえば、コミュニケーション意図がクエリである場合、曖昧性除去処理の結果、補完後のユーザ入力及びコミュニケーション意図に基づいて意図クエリ表現式を生成し、関連する知識情報を検索することができる。コミュニケーション意図が意図表現式に従って別れを告げることであるため、関連する知識情報を検索する必要がない。関連する知識情報を検索する必要がある場合、まず動作記憶情報においてユーザ入力に関連する知識情報があるか否かを検索し、関連する知識情報がない場合、長期記憶情報においてユーザ入力に関連する知識情報があるか否かを引き続き検索することができる。
いくつかの実施例によれば、前記対話理解モジュール1021は、さらに前記ユーザ入力のセマンティックコンテンツと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応するコミュニケーション意図とに基づき、動作記憶情報からユーザ入力に関連するノードの情報をクエリするように構成されるクエリサブモジュール10214と、前記ユーザ入力との関連度に応じて、クエリされた前記ユーザ入力の関連ノードを前記関連ノードの論理制御情報に基づいてソートするように構成されるソートサブモジュール10215とを含むことができる。たとえば、人気又は適時性などに基づいてスコアを付け、関連ノードと前記ユーザ入力の関連度を確定することができ、これにより、関連ノードと前記ユーザ入力の関連度に応じて対話を決定し、対話システムで生成された返信とユーザ入力の関連性を実現することができる。
いくつかの実施例によれば、前記対話理解モジュール1021は、さらに前記ユーザ入力との関連度に応じて、前記関連ノードに異なるスコアを付与することにより、対話の決定のための参照を提供するように構成されてもよい。たとえば、ユーザ入力に関連するスコアを動作記憶情報内の第3の有向グラフのコアノードの論理制御情報に追加することができる。
分析によって得られたユーザ入力のセマンティックコンテンツは、たとえば、第3の有向グラフにおけるユーザ入力に関連するコアノードであってもよい。
いくつかの実施例によれば、前記ユーザ入力に関連する関連度に応じて、前記関連ノードに異なるスコアを付与する場合、前記対話制御モジュールは、前記ソート結果に応じて、対話目標を計画し、前記ユーザ入力との関連度が最も高いノードの情報を計画された対話コンテンツとして選択する操作と、前記計画された対話コンテンツと前記対話目標とを統合し、前記第2の入力として前記ニューラルネットワークシステムに提供する操作を実行して、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うように構成され、これにより、対話システムは、知識情報を融合し、ユーザ入力に基づいて返信の計画を行うことができ、対話論理が明確になる。
なお、意図知識グラフ内のノードの論理制御情報に基づいて前記関連ノードとユーザ入力との関連度を取得してもよく、対話ライブラリに基づいて前記関連ノードとユーザ入力の関連度を取得してもよく、ユーザの好みに基づいて前記関連点とユーザ入力の関連度を取得してもよく、これに限定せず、知識情報から関連ノードとユーザ入力との関連度を取得できればよい。ユーザの現在のマンマシンインタラクションコンテンツと履歴マンマシンインタラクションコンテンツに基づいて当該ユーザの好みを取得することができ、たとえば、当該ユーザが複数のマンマシンインタラクションにおいて閲読に関与するため、このユーザの閲読好みを確定し、対話の決定プロセスでユーザの好みに応じて対話コンテンツを計画することができる。
いくつかの実施例によれば、動作記憶情報にユーザ入力に対応するノードの知識情報がない場合、ユーザ入力のセマンティックコンテンツに基づき、関連する知識情報を長期記憶情報から取得し、動作記憶情報を更新し、次にユーザ入力のセマンティックコンテンツ、コミュニケーション意図、及び更新された動作記憶情報に基づき、現在のマンマシンインタラクションシーンで前記ユーザ入力に対する返信の計画を行うことができる。
たとえば、図4に示すように、受信された第1のユーザ入力は、映画Cの主役が誰ですか、知っているかということであり、第1のユーザ入力の理解結果のセマンティックコンテンツは、映画Cであり、コミュニケーション意図は問答である。第1のユーザ入力の理解結果に応じて、映画Cに関連する情報を長期記憶情報から取得し、動作記憶情報に追加し、動作記憶情報を更新することができる。つまり、図4におけるコアノード「映画C」が所在するノードユニットを動作記憶情報に追加し、動作記憶情報を更新する。次にコミュニケーション意図と動作記憶情報におけるコアノード「映画C」に関連する情報に基づいて前記第1のユーザ入力に対して返信の計画を行う。たとえば、第1の対話目標を問答として計画し、第1の対話コンテンツを「張三」が主役であるとして計画することができる。ニューラルネットワークシステムは、第1のユーザ入力、及び第1の対話目標計画と第1の対話コンテンツ計画との統合結果に基づいて「張三」を回答として生成する。
次に、受信された第2のユーザ入力は、私は張三さんがとても好きですということである。第2のユーザ入力の理解結果のセマンティックコンテンツは、張三であり、コミュニケーション意図は閑談である。この時の動作記憶情報に「張三」に関する関連情報が格納されていないと判断された場合、第2のユーザ入力に対する理解結果に応じて「張三」に関する関連情報を長期記憶情報から取得して動作記憶情報に追加し、動作記憶情報を更新することができる。つまり、図4におけるコアノード「張三」が所在するノードユニットを動作記憶情報に追加し、動作記憶情報を更新し、次にコミュニケーション意図と動作記憶情報におけるコアノード「張三」に関連する情報に基づいて前記第2のユーザ入力に対して返信の計画を行う。たとえば、第2の対話目標を閑談として計画し、第2の対話コンテンツを「思いやりがある」として計画することができる。ニューラルネットワークシステムは、第2のユーザ入力と、第2の対話目標と第2の対話コンテンツ計画との統合結果に基づいて「彼女は思いやりのあります」を回答として生成する。
長期記憶情報にはユーザ入力に関連する知識情報がない場合、返信計画は空である。ニューラルネットワークシステムは、ユーザ入力に基づいて回答を生成する。
設定されたラウンド数(たとえば2ラウンド又は3ラウンド)の閑談を経た後、対話目標を推奨として計画し、動作記憶情報内の現在のマンマシンインタラクションコンテンツに対応する前のコアコアノードに基づいて関連度が高い他のノードを推奨することができ、それにより、複数回の閑談を経た後に知識ポイントを能動的に切り替えて、厄介なチャットを回避することができる。
たとえば、上記の例では、受信された第3のユーザ入力は、彼女は思いやりがあるだけでなく、非常に才能を持っているということである。コミュニケーション意図は、閑談である。次にコミュニケーション意図と動作記憶情報における現在のマンマシンインタラクションコンテンツに対応する前のコアノード「張三」との関連度が高い他のノードに基づいて前記第3のユーザ入力に対して返信の計画を行う。たとえば、第3の対話目標を推奨として計画することができ、次に動作記憶情報内の現在のマンマシンインタラクションコンテンツに対応する前のコアノード「張三」に基づいてコアノード「張三」との関連度が高い他のノードの情報を長期記憶情報から取得することができ、たとえば、人気が高いコアノード「映画D」を取得することができる。これに基づき、第3の対話コンテンツを「映画D」と「フランス風の1つの短編映画」として計画することができる。ニューラルネットワークシステムは、第3のユーザ入力と、第3の対話目標と第3の対話コンテンツ計画との統合結果に基づいて「張三さんが主演するフランス風の1つの短編映画である映画Dを推奨します」を回答として生成する。
これに基づき、いくつかの実施例によれば、前記ユーザ入力に対して前記動作記憶情報を更新しない場合、前記関連度の最も高いノードが依然として所定の基準を満たすことができない(たとえば、各候補返信コンテンツのスコアがいずれも所定の閾値未満である)ことに応答して、長期記憶情報を再度クエリして前記動作記憶情報を更新し、これにより、チャットのナレッジポイントを能動的に推奨又は切り替えて、厄介なチャットを回避することができる。
本開示の別の態様によれば、プロセッサと、プログラムを格納しており、前記プログラムが、前記プロセッサによって実行されると前記プロセッサに上記の方法を実行させるための命令を含むメモリとを備える電子機器をさらに提供する。
本開示の別の態様によれば、プログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、電子機器のプロセッサによって実行されると、前記電子機器に上記の方法を実行させる命令を含むコンピュータ読み取り可能な記憶媒体をさらに提供する。
図7に示すように、本開示の各態様に適用できるハードウェア機器(電子機器)の例であるコンピューティング機器2000を説明する。コンピューティング機器2000は、処理及び/又は計算を実行するように構成された任意の機械であってもよく、ワークステーション、サーバー、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、パーソナルデジタルアシスタント、ロボット、スマートフォン、車載コンピュータ又はそれらの任意の組み合わせであってもよいが、これらに制限されない。上記方法は、コンピューティング機器2000又は類似する機器又はシステムによって全部で又は少なくとも部分的に実現されてもよい。
コンピューティング機器2000は、(1つ又は複数のインターフェイスを介して)バス2002に接続される素子又はバス2002と通信する素子を含むことができる。たとえば、コンピューティング機器2000は、バス2002、1つ又は複数のプロセッサ2004、1つ又は複数の入力機器2006及び1つ又は複数の出力機器2008を含むことができる。1つ又は複数のプロセッサ2004は、任意のタイプのプロセッサであってもよく、かつ1つ又は複数の汎用プロセッサ及び/又は1つ又は複数の専用プロセッサ(たとえば、特殊な処理チップ)を含むことができるが、これらに限定されない。入力機器2006は、コンピューティング機器2000に情報を入力することができる任意のタイプの機器であってもよく、マウス、キーボード、タッチスクリーン、マイク及び/又はリモートコントロールを含むことができるが、これらに限定されない。出力機器2008は、情報を表示することができる任意のタイプの機器であってもよく、ディスプレイ、スピーカー、ビデオ/オーディオ出力端末、バイブレーター及び/又はプリンターを含むことができるが、これらに限定されない。コンピューティング機器2000は、さらに非一時的記憶機器2010を含むことができ、非一時的記憶機器が非一時的であってもよく、かつデータ格納を実現できる任意の記憶機器であってもよく、且つ磁気ディスクドライブ、光スト記憶機器、ソリッドステートメモリ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、又はいずれかの他の磁気媒体を含むことができるが、これらに限定されず、光ディスク又は他の任意の光学媒体、ROM(読み出し専用メモリ)、RAM(ランダムアクセスメモリ)、キャッシュメモリ及び又は任意の他のメモリチップ又はカートリッジ、及び/又はコンピュータは、その中からデータ、命令及び/又はコードを読み取ることができる任意の他の媒体であってもよい。非一時的記憶機器2010は、インターフェイスから取り外されてもよい。非一時的記憶機器2010は、上記の方法及びステップを実現するためのデータ/プログラム(命令を含む)/コードを有することができる。コンピューティング機器2000は、さらに通信機器2012を含むことができる。通信機器2012は、外部機器及び/又はネットワークとの通信を可能にする任意のタイプの機器又はシステムであってもよく、かつモデム、ネットワークカード、赤外線通信デバイス、無線通信機器及び/又はチップセット、たとえばブルートゥースTMデバイス、1302.11デバイス、WiFiデバイス、WiMaxデバイス、セルラー通信デバイス及び/又は類似するものを含むことができるが、これらに限定されない。
コンピューティング機器2000は、さらにプロセッサ2004の動作に有用なプログラム(命令を含む)及び/又はデータを記憶することができる任意のタイプのワーキングメモリであってもよく、かつランダムアクセスメモリ及び/又は読み取り専用メモリデバイスを含むが、これらに限定されない。
ソフトウェア要素(プログラム)は、ワーキングメモリ2014に配置してもよく、オペレーティングシステム2016、1つ又は複数のアプリケーションプログラム2018、駆動プログラム及び/又は他のデータとコードを含むが、これらに限定されない。上記の方法及びステップを実行するための命令は、1つ又は複数のアプリケーションプログラム2018に含まれてもよく、かつ上記の構築方法は、プロセッサ2004が1つ又は複数の応用プログラム2018の命令を読み取って実行することで実現されてもよい。より具体的には、上記方法では、ステップS101からステップS105は、たとえば、プロセッサ2004がステップS101からステップS105の命令を有するアプリケーションプログラム2018を実行することによって実現されてもよい。また、上記方法の他のステップは、たとえばプロセッサ2004が対応するステップの実行のための命令を有するアプリケーションプログラム2018を実行することによって実現されてもよい。ソフトウェア要素(プログラム)の命令の実行可能コード又は又はソースコードは、非一時的コンピュータ読み取り可能な記憶媒体(たとえば、上記の記憶機器2010)に記憶されてもよく、且つ実行される時にワーキングメモリ2014に記憶されてもよい(コンパイル及び/又はインストールされる可能性がある)。ソフトウェア要素(プログラム)の命令の実行可能コード又はソースコードは、遠隔位置からダウンロードされてもよい。
また、なお、具体的な要件に応じて様々な変形を行うことができる。たとえば、特定の素子は、カスタマイズされたハードウェアを使用して実現されてもよく、及び/又はハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語又はそれらの任意の組み合わせで実現されてもよい。たとえば、開示された方法及び機器の一部又は全部は、本開示による論理及びアルゴリズムを使用し、アセンブリ言語又はハードウェアプログラミング言語(たとえば、VERILOG、VHDL、C++)でハードウェア(たとえば、フィールドプログラマブルゲートアレイ(FPGA)及び/又はプログラマブルロジックアレイ(PLA)を含むプログラマブルロジック回路)をプログラミングすることで実現されてもよい。
また、なお、前記方法は、サーバー-クライアントモードで実現されてもよい。たとえば、クライアントは、ユーザから入力されたデータを受信してサーバーに送信することができる。クライアントは、ユーザから入力されたデータを受信し、上記方法の一部の処理を行い、処理したデータをサーバーに送信することもできる。サーバーは、クライアントからのデータを受信し、上記方法又は上記方法の別の部分を実行し、実行結果をクライアントに返すことができる。クライアントは、サーバーから方法の実行結果を受信し、たとえば出力機器を介してユーザーに表示することができる。
また、なお、コンピューティング機器2000のコンポーネントは、クラウドプラットフォームなどのネットワーク上に分散されてもよい。たとえば、1つのプロセッサを使用していくつかの処理を実行することができ、また、当該1つのプロセッサから離れる別のプロセッサを使用して他の処理を実行することができる。コンピューティングシステム2000の他のコンポーネントも同様に分散されてもよい。このようにして、コンピューティング機器2000は、複数の位置で処理を実行する分散コンピューティングシステムとして解釈されてもよい。
本開示の実施例又は例は、添付の図面を参照して説明されてきたが、上記の方法、システム及び機器は、例示的な実施例又は例だけであるが、本発明の範囲は、これらの実施例又は例によって限定されず、許可された特許請求の範囲及びそれらの同等の範囲のみによって限定されることが理解すべきである。実施例又は例における様々な要素は、省略されるか、又はその同等の要素によって置き換えられ得る。また、各ステップは、本開示に記載される順序とは異なる順序で実行されてもよい。さらに、実施例又は例における様々な要素は、様々な方式で組み合わせられてもよい。さらに、技術の進化に伴い、本明細書に記載されている多くの要素は、本開示の後に現れる同等の要素で置き換えられ得る。

Claims (51)

  1. ニューラルネットワークに基づくマンマシンインタラクション方法であって、
    ユーザ入力を第1の入力としてニューラルネットワークシステムに提供することと、
    前記ユーザ入力を前記ニューラルネットワークシステムとは異なる対話制御システムに提供することと、
    前記ユーザ入力に関連する情報に基づき、前記対話制御システムによって前記ユーザ入力を処理することであって、前記ユーザ入力に関連する前記情報は、長期記憶情報と、現在のマンマシンインタラクション期間のみに有効な動作記憶情報とを含み、前記長期記憶情報は、ノードと有向エッジとを含む形態の第1の有向グラフの知識情報を含み、かつ前記第1の有向グラフ内のノードは、セマンティックコンテンツと論理制御情報とを含む構造化データであり、前記第1の有向グラフ内の有向エッジは、関連ノード間の関連属性を表す、処理することと、
    前記対話制御システムの処理結果を第2の入力として前記ニューラルネットワークシステムに提供することと、
    前記ニューラルネットワークシステムによって前記第1の入力と前記第2の入力に基づき、前記ユーザ入力に対する返信を生成することとを含むニューラルネットワークに基づくマンマシンインタラクション方法。
  2. 前記論理制御情報は、現在のマンマシンインタラクションに関連するノードをスクリーニングするために使用できる情報を含む請求項1に記載の方法。
  3. 前記論理制御情報は、現在のマンマシンインタラクションにおける各ノード間の関連度を確定するために使用できる情報を含む請求項1に記載の方法。
  4. 前記第1の有向グラフ内の各ノードは、第1のタイプのノードと第2のタイプのノードとを含み、前記第2のタイプのノードのセマンティックコンテンツは、前記第2のタイプのノードに関連する第1のタイプのノードのセマンティックコンテンツの一部であり、かつ前記第2のタイプのノードの論理制御情報は、前記第2のタイプのノードに関連する第1のタイプのノードの下での第2のタイプのノードの人気、前記第2のタイプのノードと少なくとも1つの他の第2のタイプのノードとの関連ジャンプ関係、前記第2のタイプのノードのサブタイプのうちの少なくとも1つを含む請求項1~3のいずれか一項に記載の方法。
  5. 前記第1の有向グラフ内の各ノードは、第3のタイプのノードを含み、前記第3のタイプのノードのセマンティックコンテンツは、マルチモーダルコンテンツをサポートし、かつ前記第3のタイプのノードの論理制御情報は、前記第3のタイプのノードに関連する第2のタイプのノードの情報、前記第3のタイプのノードのセマンティックコンテンツを特徴付けるための情報のうちの少なくとも1つを含む請求項4に記載の方法。
  6. 前記長期記憶情報は、ノードと有向エッジとを含む形態の第2の有向グラフの対話ライブラリ情報を含み、前記第2の有向グラフと前記第1の有向グラフは同じ構造である請求項1~3のいずれか一項に記載の方法。
  7. 前記動作記憶情報は、ノードと有向エッジとを含む形態の第3の有向グラフの情報を含み、前記第3の有向グラフと前記第1の有向グラフは同じ構造であり、かつ前記第3の有向グラフは、前記第1の有向グラフの一部である請求項1に記載の方法。
  8. 前記動作記憶情報は、前記第1の有向グラフから取得された、前記現在のマンマシンインタラクションに関連する全てのノードのセマンティックコンテンツと論理制御情報を含む請求項7に記載の方法。
  9. 前記動作記憶情報は、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツをマークするための第1の情報を含む請求項7又は8に記載の方法。
  10. 前記動作記憶情報は、前記関与したセマンティックコンテンツを最初に言及する対話者を示すための第2の情報を含む請求項9に記載の方法。
  11. 前記動作記憶情報は、前記現在のマンマシンインタラクション期間のインタラクションレコードの履歴データを含む請求項7又は8に記載の方法。
  12. 前記処理結果は、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を含む請求項1~3のいずれか一項に記載の方法。
  13. 前記対話制御システムによって前記ユーザ入力を処理することは、
    前記ユーザ入力のセマンティックコンテンツを分析することと、
    現在のマンマシンインタラクションにおける前記ユーザ入力に対応する前記ユーザーのコミュニケーション意図を分析することとを含む請求項12に記載の方法。
  14. 前記ユーザ入力のセマンティックコンテンツを分析することは、
    前記ユーザ入力が前記動作記憶情報内のあるノードに対応できるか否かを判断することと、
    前記ユーザ入力が前記動作記憶情報内のあるノードに対応できることに応答して、前記動作記憶情報に基づいて前記ユーザ入力を処理することとを含む請求項13に記載の方法。
  15. 前記ユーザ入力を処理することは、
    前記動作記憶情報内の前記あるノードの情報に基づき、関連するコンテンツを前記ユーザ入力に補うことを含む請求項14に記載の方法。
  16. 前記ユーザ入力が前記動作記憶情報内のノードに対応できないことに応答して、前記ユーザ入力に関連するノードの情報を前記長期記憶情報から抽出し、前記動作記憶情報に格納する、請求項14又は15に記載の方法。
  17. 前記ユーザ入力のセマンティックコンテンツを分析することは、
    前記ユーザ入力に対して曖昧性除去処理を行うことを含む請求項13に記載の方法。
  18. 前記ユーザ入力に対して曖昧性除去処理を行うことは、
    前記ユーザ入力と、前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報とに基づき、前記ユーザ入力内の曖昧性がある少なくとも一部のコンテンツを識別し、前記少なくとも一部のコンテンツの現在のマンマシンインタラクションにおける意味を確定することを含む請求項17に記載の方法。
  19. 前記対話制御システムによって前記ユーザ入力を処理することは、さらに、
    前記ユーザ入力のセマンティックコンテンツと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応するコミュニケーション意図とに基づき、前記ユーザ入力に関連するノードの情報を前記動作記憶情報からクエリすることと、
    前記ユーザ入力との関連度に応じて、クエリされた前記ユーザ入力の関連ノードを前記関連ノードの論理制御情報に基づいてソートすることとを含む請求項16に記載の方法。
  20. 前記ユーザ入力との関連度に応じて、前記関連ノードに異なるスコアを付与する、請求項19に記載の方法。
  21. 現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信を行う計画は、
    前記ソート結果に応じて、対話目標を計画し、前記ユーザ入力との関連度が最も高いノードの情報を計画された対話コンテンツとして選択することと、
    前記計画された対話コンテンツと前記対話目標とを統合し、前記第2の入力として前記ニューラルネットワークシステムに提供することとを含む請求項19に記載の方法。
  22. 前記ユーザ入力に対して前記動作記憶情報を更新しない場合、前記関連度の最も高いノードが所定の基準を満たせないことに応答して、前記長期記憶情報を再度クエリして前記動作記憶情報を更新する、請求項21に記載の方法。
  23. 前記ニューラルネットワークシステムは、エンドツーエンド型ニューラルネットワークシステムである請求項1~3のいずれか一項に記載の方法。
  24. エンドツーエンド型ニューラルネットワークシステムは、エンコーダとデコーダとを備え、前記エンコーダは、前記ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を受信するように構成され、前記デコーダは、前記第2の入力を受信して前記ユーザ入力に対する返信を生成するように構成される請求項23に記載の方法。
  25. ニューラルネットワークに基づくマンマシンインタラクション装置であって、
    ユーザ入力を第1の入力として受信するように構成されるニューラルネットワークシステムと、
    前記ユーザ入力を受信し、前記ユーザ入力に関連する情報に基づいて前記ユーザ入力を処理し、処理結果を第2の入力として前記ニューラルネットワークシステムに提供するように構成される、前記ニューラルネットワークシステムとは異なる対話制御システムと、
    動作記憶モジュールと長期記憶モジュールとを含むストレージコンピューティングシステムであって、前記ユーザ入力に関連する前記情報は、前記長期記憶モジュールから取得された長期記憶情報と、前記動作記憶モジュールから取得された、現在のマンマシンインタラクション期間のみに有効な動作記憶情報とを含む、ストレージコンピューティングシステムと、
    を備え
    記ニューラルネットワークシステムは、さらに前記第1の入力と前記第2の入力に基づき、前記ユーザ入力に対する返信を生成するように構成され、
    前記長期記憶モジュールにはノードと有向エッジとを含む形態の第1の有向グラフの知識情報を含む意図知識グラフが格納され、かつ前記第1の有向グラフ内のノードは、セマンティックコンテンツと論理制御情報とを含む構造化データであり、前記第1の有向グラフ内の有向エッジは、関連するノード間の関連属性を表す、
    ニューラルネットワークに基づくマンマシンインタラクション装置。
  26. 前記論理制御情報は、現在のマンマシンインタラクションに関連するノードをスクリーニングするために使用できる情報を含む請求項25に記載の装置。
  27. 前記論理制御情報は、現在のマンマシンインタラクションにおける各ノード間の関連度を確定するために使用できる情報を含む請求項25に記載の装置。
  28. 前記第1の有向グラフ内の各ノードは、第1のタイプのノードと第2のタイプのノードとを含み、前記第2のタイプのノードのセマンティックコンテンツは、前記第2のタイプのノードに関連する第1のタイプのノードのセマンティックコンテンツの一部であり、かつ前記第2のタイプのノードの論理制御情報は、前記第2のタイプのノードに関連する第1のタイプのノードの下での第2のタイプのノードの人気、前記第2のタイプのノードと少なくとも1つの他の第2のタイプのノードとの関連ジャンプ関係、前記第2のタイプのノードのサブタイプのうちの少なくとも1つを含む請求項25~27のいずれか一項に記載の装置。
  29. 前記第1の有向グラフ内の各ノードは、第3のタイプのノードを含み、前記第3のタイプのノードのセマンティックコンテンツは、マルチモーダルコンテンツをサポートし、かつ前記第3のタイプのノードの論理制御情報は、前記第3のタイプのノードに関連する第2のタイプのノードの情報、前記第3のタイプのノードのセマンティックコンテンツを特徴付けるための情報のうちの少なくとも1つを含む請求項28に記載の装置。
  30. 前記長期記憶モジュールにはノードと有向エッジとを含む形態の第2の有向グラフの対話ライブラリ情報を含む対話ライブラリが格納され、前記第2の有向グラフと前記第1の有向グラフは同じ構造である請求項25~27のいずれか一項に記載の装置。
  31. 前記動作記憶モジュールにはノードと有向エッジとを含む形態の第3の有向グラフの情報を含む動作記憶情報が格納され、前記第3の有向グラフと前記第1の有向グラフは同じ構造であり、かつ前記第3の有向グラフは、前記第1の有向グラフの一部である請求項25に記載の装置。
  32. 前記動作記憶情報は、前記第1の有向グラフから取得された、前記現在のマンマシンインタラクションに関連する全てのノードのセマンティックコンテンツと論理制御情報を含む請求項31に記載の装置。
  33. 前記動作記憶情報は、前記現在のマンマシンインタラクションに関与しているセマンティックコンテンツをマークするための第1の情報を含む請求項31又は32に記載の装置。
  34. 前記動作記憶情報は、前記関与したセマンティックコンテンツを最初に言及する対話者を示すための第2の情報を含む請求項33に記載の装置。
  35. 前記動作記憶情報は、前記現在のマンマシンインタラクション期間のインタラクションレコードの履歴データを含む請求項31又は32に記載の装置。
  36. 前記処理結果は、現在のマンマシンインタラクションシーンでの前記ユーザ入力に対する返信の計画を含む請求項25~27のいずれか一項に記載の装置。
  37. 前記対話制御システムは、対話理解モジュールと対話制御モジュールとを含み、かつ前記対話理解モジュールは、
    前記ユーザ入力のセマンティックコンテンツを分析し、
    現在のマンマシンインタラクションにおける前記ユーザ入力に対応する前記ユーザーのコミュニケーション意図を分析するために構成される請求項36に記載の装置。
  38. 前記対話理解モジュールは、
    前記ユーザ入力が前記動作記憶情報内のあるノードに対応できるか否かを判断するように構成される判定サブモジュールと、
    前記ユーザ入力が前記動作記憶情報内のあるノードに対応できることに応答して、前記動作記憶情報に基づいて前記ユーザ入力を処理するように構成される処理サブモジュールとを含む請求項37に記載の装置。
  39. 前記処理サブモジュールは、さらに前記動作記憶情報内の前記あるノードの情報に基づき、関連するコンテンツを前記ユーザ入力に補うように構成される請求項38に記載の装置。
  40. 前記対話理解モジュールは、さらに前記ユーザ入力が前記動作記憶情報内のノードに対応できないことに応答して、前記ユーザ入力に関連するノードの情報を前記長期記憶モジュールから抽出し、前記動作記憶モジュールに格納するように構成される請求項38又は39に記載の装置。
  41. 前記対話理解モジュールは、
    前記ユーザ入力に対して曖昧性除去処理を行うように構成される曖昧性除去サブモジュールを含む請求項37に記載の装置。
  42. 前記曖昧性除去サブモジュールは、さらに前記ユーザ入力と、前記動作記憶情報内の現在のマンマシンインタラクションに関連するノードの情報とに基づき、前記ユーザ入力内の曖昧性がある少なくとも一部のコンテンツを識別し、前記少なくとも一部のコンテンツの現在のマンマシンインタラクションにおける意味を確定するように構成される請求項41に記載の装置。
  43. 前記対話理解モジュールは、
    前記ユーザ入力のセマンティックコンテンツと、現在のマンマシンインタラクションにおける前記ユーザ入力に対応するコミュニケーション意図とに基づき、前記動作記憶情報から前記ユーザ入力に関連するノードの情報をクエリするように構成されるクエリサブモジュールと、
    前記ユーザ入力との関連度に応じて、クエリされた前記ユーザ入力の関連ノードを前記関連ノードの論理制御情報に基づいてソートするように構成されるソートサブモジュールとを含む請求項40に記載の装置。
  44. 前記対話理解モジュールは、さらに前記ユーザ入力との関連度に応じて、前記関連ノードに異なるスコアを付与するように構成される請求項43に記載の装置。
  45. 前記対話制御モジュールは、
    前記ソート結果に応じて、対話目標を計画し、前記ユーザ入力との関連度が最も高いノードの情報を計画された対話コンテンツとして選択する操作と、
    前記計画された対話コンテンツと前記対話目標とを統合し、前記第2の入力として前記ニューラルネットワークシステムに提供する操作とを実行して、現在のマンマシンインタラクションシーンで前記ユーザ入力に対して返信の計画を行うように構成される請求項43に記載の装置。
  46. 前記対話理解モジュールは、さらに前記ユーザ入力に対して前記動作記憶情報を更新しない場合、前記関連度の最も高いノードが所定の基準を満たせないことに応答して、前記長期記憶情報を再度クエリして前記動作記憶情報を更新するように構成される請求項45に記載の装置。
  47. 前記ニューラルネットワークシステムは、エンドツーエンド型ニューラルネットワークシステムである請求項25~27のいずれか一項に記載の装置。
  48. 前記エンドツーエンド型ニューラルネットワークシステムは、エンコーダとデコーダとを備え、前記エンコーダは、前記ユーザ入力及び格納された現在のマンマシンインタラクションの履歴インタラクション情報を受信するように構成され、前記デコーダは、前記第2の入力を受信して前記ユーザ入力に対する返信を生成するように構成される請求項47に記載の装置。
  49. 電子機器であって、
    プロセッサと、
    前記プロセッサによって実行されると前記プロセッサに請求項1~24のいずれか一項に記載の方法を実行させるための命令を含むプログラムを格納するメモリとを備える電子機器。
  50. プログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、電子機器のプロセッサによって実行されると前記電子機器に請求項1~24のいずれか一項に記載の方法を実行させる命令を含むコンピュータ読み取り可能な記憶媒体。
  51. コンピュータ読み取り可能な記憶媒体に格納されるコンピュータプログラムであって、前記コンピュータプログラムは、少なくとも一つのプロセッサによって実行されると請求項1~24のいずれか一項に記載の方法を実現させる命令を含むコンピュータ読み取り可能な記憶媒体に格納されるコンピュータプログラム。
JP2021045641A 2020-08-07 2021-03-19 ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体 Active JP7204801B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010786352.XA CN111737441B (zh) 2020-08-07 2020-08-07 基于神经网络的人机交互方法、装置和介质
CN202010786352.X 2020-08-07

Publications (2)

Publication Number Publication Date
JP2022031109A JP2022031109A (ja) 2022-02-18
JP7204801B2 true JP7204801B2 (ja) 2023-01-16

Family

ID=72658073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021045641A Active JP7204801B2 (ja) 2020-08-07 2021-03-19 ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体

Country Status (5)

Country Link
US (1) US20210234814A1 (ja)
EP (1) EP3822814A3 (ja)
JP (1) JP7204801B2 (ja)
KR (1) KR20220018886A (ja)
CN (1) CN111737441B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113506638A (zh) * 2021-03-23 2021-10-15 崔剑虹 基于在线咨询主题和机器学习的网络训练方法及系统
CN113254617B (zh) * 2021-06-11 2021-10-22 成都晓多科技有限公司 基于预训练语言模型和编码器的消息意图识别方法及系统
CN113688220B (zh) * 2021-09-02 2022-05-24 国家电网有限公司客户服务中心 一种基于语义理解的文本机器人对话方法及系统
CN114780830A (zh) * 2022-03-24 2022-07-22 阿里云计算有限公司 内容推荐方法、装置、电子设备及存储介质
CN115563262B (zh) * 2022-11-10 2023-03-24 深圳市人马互动科技有限公司 机器语音外呼场景中对话数据的处理方法及相关装置
CN117332823B (zh) * 2023-11-28 2024-03-05 浪潮电子信息产业股份有限公司 目标内容自动生成方法、装置、电子设备及可读存储介质
CN118051603A (zh) * 2024-04-15 2024-05-17 湖南大学 智能澄清提问语句生成方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399460A (zh) 2019-07-19 2019-11-01 腾讯科技(深圳)有限公司 对话处理方法、装置、设备及存储介质
CN111191016A (zh) 2019-12-27 2020-05-22 车智互联(北京)科技有限公司 一种多轮对话处理方法、装置及计算设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204391A1 (en) * 2008-02-12 2009-08-13 Aruze Gaming America, Inc. Gaming machine with conversation engine for interactive gaming through dialog with player and playing method thereof
US10210453B2 (en) * 2015-08-17 2019-02-19 Adobe Inc. Behavioral prediction for targeted end users
JP6929539B2 (ja) * 2016-10-07 2021-09-01 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム
US10713289B1 (en) * 2017-03-31 2020-07-14 Amazon Technologies, Inc. Question answering system
KR102339819B1 (ko) * 2017-04-05 2021-12-15 삼성전자주식회사 프레임워크를 이용한 자연어 표현 생성 방법 및 장치
CN108763495B (zh) * 2018-05-30 2019-09-20 苏州思必驰信息科技有限公司 人机对话方法、系统、电子设备及存储介质
CN109033223B (zh) * 2018-06-29 2021-09-07 北京百度网讯科技有限公司 用于跨类型对话的方法、装置、设备以及计算机可读存储介质
US10909970B2 (en) * 2018-09-19 2021-02-02 Adobe Inc. Utilizing a dynamic memory network to track digital dialog states and generate responses
US11568234B2 (en) * 2018-11-15 2023-01-31 International Business Machines Corporation Training a neural network based on temporal changes in answers to factoid questions
WO2020117028A1 (ko) * 2018-12-07 2020-06-11 서울대학교 산학협력단 질의 응답 장치 및 방법
CN110674281B (zh) * 2019-12-05 2020-05-29 北京百度网讯科技有限公司 人机对话及人机对话模型获取方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399460A (zh) 2019-07-19 2019-11-01 腾讯科技(深圳)有限公司 对话处理方法、装置、设备及存储介质
CN111191016A (zh) 2019-12-27 2020-05-22 车智互联(北京)科技有限公司 一种多轮对话处理方法、装置及计算设备

Also Published As

Publication number Publication date
JP2022031109A (ja) 2022-02-18
CN111737441A (zh) 2020-10-02
EP3822814A2 (en) 2021-05-19
CN111737441B (zh) 2020-11-24
KR20220018886A (ko) 2022-02-15
US20210234814A1 (en) 2021-07-29
EP3822814A3 (en) 2021-08-18

Similar Documents

Publication Publication Date Title
JP7204801B2 (ja) ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体
US11379529B2 (en) Composing rich content messages
CN107943998B (zh) 一种基于知识图谱的人机对话控制系统及方法
JP6813615B2 (ja) 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム
CN109690526B (zh) 用于智能自动聊天的方法、装置和系统
CN107832433B (zh) 基于对话交互的信息推荐方法、装置、服务器和存储介质
JP6942821B2 (ja) 複数のコーパスからの応答情報取得
CN111737411A (zh) 人机对话中的响应方法、对话系统及存储介质
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
US10503767B2 (en) Computerized natural language query intent dispatching
KR101751113B1 (ko) 기억 능력을 이용하는 다중 사용자 기반의 대화 관리 방법 및 이를 수행하는 장치
US20230350929A1 (en) Method and system for generating intent responses through virtual agents
US11126682B1 (en) Hyperlink based multimedia processing
JP7488871B2 (ja) 対話推薦方法、装置、電子機器、記憶媒体ならびにコンピュータプログラム
AU2022201193A1 (en) System and method for designing artificial intelligence (ai) based hierarchical multi-conversation system
CN108306813B (zh) 会话消息的处理方法、服务器及客户端
CN111385188A (zh) 对话元素的推荐方法、装置、电子设备和介质
US20230298568A1 (en) Authoring content for a conversational bot
JP2021039727A (ja) テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体
KR20220071487A (ko) 대화방 내에서 검색 기능을 제공하는 방법, 시스템, 및 컴퓨터 프로그램
US11809843B2 (en) Adaptive user interfacing
CN114036373B (zh) 搜索方法及装置、电子设备和存储介质
KR101836420B1 (ko) 히스토리 탐색을 위한 인덱싱
Agarwala et al. TUM Data Innovation Lab
CN117369653A (zh) 输入文本推荐方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221228

R150 Certificate of patent or registration of utility model

Ref document number: 7204801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150