JP2021103556A - 対話生成方法、装置、電子機器及び記憶媒体 - Google Patents

対話生成方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2021103556A
JP2021103556A JP2021048627A JP2021048627A JP2021103556A JP 2021103556 A JP2021103556 A JP 2021103556A JP 2021048627 A JP2021048627 A JP 2021048627A JP 2021048627 A JP2021048627 A JP 2021048627A JP 2021103556 A JP2021103556 A JP 2021103556A
Authority
JP
Japan
Prior art keywords
dialogue
collocations
collocation
candidate
target cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021048627A
Other languages
English (en)
Other versions
JP7216133B2 (ja
Inventor
ユン シュ
Jun Xu
ユン シュ
ゼヤン ライ
Zeyang Lei
ゼヤン ライ
ツェンギュ ニウ
Zhengyu Niu
ツェンギュ ニウ
フア ウ
Hua Wu
フア ウ
ワン ハイフェン
Haifeng Wang
ハイフェン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021103556A publication Critical patent/JP2021103556A/ja
Application granted granted Critical
Publication of JP7216133B2 publication Critical patent/JP7216133B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対話ターゲットを明確にし、制御可能とし、対話効率を向上させる対話生成方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、入力文を取得し、対話グラフから入力文に対応する第1の連語を取得する。対話グラフには、互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれる。各対話ターゲットクラスタには、複数の連語が含まれる。複数の対話ターゲットクラスタ間の関連関係及び対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから前記第1の連語に関連する第2の連語を取得し、第2の連語及び入力文に基づいて、応答文を生成する。【選択図】図1

Description

本出願は、コンピュータ技術分野に関し、具体的には自然言語処理技術分野に関し、特に対話生成方法、装置、電子機器及び記憶媒体に関する。
ヒューマンコンピュータ対話は、人工知能にとって重要な課題であり、近年、人工知能の台頭に伴い、ヒューマンコンピュータ対話の研究もますます熱くなっている。ヒューマンコンピュータ対話は、生活に多くの便利さをもたらし、人的資源を節約する。多くの対話アプリケーションは、複数回の対話において、物品を推奨するようなターゲットを達成する必要がある。
したがって、ヒューマンコンピュータ対話プロセスで対話ターゲットをどのように達成するかが特に重要である。
本出願は、対話ターゲットが明確で制御可能である対話を生成するための対話生成方法、装置、電子機器及び記憶媒体を提供する。
第1の態様によれば、
入力文を取得するステップと、
対話グラフから前記入力文に対応する第1の連語を取得するステップであって、ここで、前記対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれるステップと、
前記複数の対話ターゲットクラスタ間の関連関係及び前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する第2の連語を取得するステップと、
前記第2の連語及び前記入力文に基づいて、応答文を生成するステップと、を含む対話生成方法を提供する。
本出願の実施例の対話生成方法は、入力文を取得し、対話グラフから入力文に対応する第1の連語を取得し、対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれ、複数の対話ターゲットクラスタ間の関連関係及び対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから前記第1の連語に関連する第2の連語を取得し、第2の連語及び入力文に基づいて、応答文を生成する。これにより、対話ターゲットクラスタと連語二重構造が含まれる対話グラフを用いることによって、対話ターゲットクラスタ間、及び各単語間の関連関係に基づいて、応答文を生成することで、生成された対話ターゲットを明確にし、制御可能とし、対話効率を向上させる。
第2の態様によれば、
入力文を取得するための第1の取得モジュールと、
対話グラフから前記入力文に対応する第1の連語を取得するための第2の取得モジュールであって、ここで、前記対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれる第2の取得モジュールと、
前記複数の対話ターゲットクラスタ間の関連関係及び前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する第2の連語を取得するための第3の取得モジュールと、
前記第2の連語及び前記入力文に基づいて、応答文を生成するための生成モジュールと、を含む対話生成装置を提供する。
本出願の実施例の対話生成装置は、入力文を取得し、対話グラフから入力文に対応する第1の連語を取得し、対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれ、複数の対話ターゲットクラスタ間の関連関係及び対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから前記第1の連語に関連する第2の連語を取得し、第2の連語及び入力文に基づいて、応答文を生成する。これにより、対話ターゲットクラスタと連語二重構造が含まれる対話グラフを用いることによって、対話ターゲットクラスタ間、及び各単語間の関連関係に基づいて、応答文を生成することで、生成された対話ターゲットを明確にし、制御可能とし、対話効率を向上させる。
第3の態様によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含む電子機器を提供し、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが上記一態様の実施例に記載の対話生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記一態様の実施例に記載の対話生成方法を実行させる。
第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記一態様の実施例に記載の対話生成方法を実行させる。
本出願の実施例によれば、対話ターゲットクラスタと連語二重構造が含まれる対話グラフを用いることによって、対話ターゲットクラスタ間、及び各単語間の関連関係に基づいて、応答文を生成することで、生成された対話ターゲットを明確にし、制御可能とし、対話効率を向上させる。
上記選択可能な方式が有する他の効果については、以下、具体的な実施例と組み合わせて説明する。
図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の実施例により提供される対話生成方法のフローチャートである。 本出願の実施例により提供されるもう1つの対話生成方法のフローチャートである。 本出願の実施例により提供される対話グラフにおける連語間の接続辺の概略図である。 本出願の実施例により提供されるもう1つの対話生成方法のフローチャートである。 本出願の実施例により提供されるもう1つの対話生成方法のフローチャートである。 本出願の実施例により提供されるもう1つの対話生成方法のフローチャートである。 本出願の実施例により提供される対話グラフの概略図である。 本出願の実施例により提供される対話生成装置の概略構成図である。 本出願の実施例の対話生成方法の電子機器のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、図面を参照して本出願の実施例の対話生成方法、装置、電子機器及び記憶媒体を説明する。
本出願の実施例の対話生成方法は、対話ターゲットクラスタと連語二重構造が含まれる対話グラフを用いることによって、対話ターゲットクラスタ間、及び各単語間の関連関係に基づいて、応答文を生成することで、生成された対話ターゲットを明確にし、制御可能とし、対話効率を向上させる。
図1は本出願の実施例により提供される対話生成方法のフローチャートである。
本出願の実施例の対話生成方法は、本出願の実施例により提供される対話生成装置によって実行することができ、当該装置は、対話ターゲットが明確で制御可能な対話を生成することを実現するように、電子機器に配置することができる。
図1に示すように、当該対話生成方法は、ステップ101〜ステップ104を含む。
ステップ101:入力文を取得する。
本実施例において、入力文はユーザによって入力された音声語句であってもよい。例えば、ユーザは「今日の天気はどうですか」と音声入力する。
ステップ102:対話グラフから入力文に対応する第1の連語を取得し、ここで、対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれる。
入力文を取得した後、対話グラフから入力文に対応する第1の連語を取得する。ここで、対話グラフは予め作成され、対話グラフにおいて、各連語を1つのノードとし、ノードとノードとの間の接続辺は、2つの連語間の関連を表すことができる。
本実施例において、対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれる。ここで対話ターゲットクラスタに含まれる複数の連語が属する対話ターゲットは同じである。つまり、各対話ターゲットクラスタは1つの対話ターゲットに対応する。
例えば、HとTという2つの対話ターゲットクラスタがあり、対話ターゲットクラスタHには「温度」、「風がある」、「大雨」、「暑い」、「熱中症」、「高温」など、天気に関連する複数の連語が含まれ、ここで、「高温」が「熱中症」に関連し、「温度」が「高温」に関連する。対話ターゲットクラスタTには「飛行機」、「列車」、「自ら運転する」、「雨あり」、「天気」、「日焼け止め」など、旅行に関連する複数の連語があり、ここで、「天気」がそれぞれ「雨あり」、「日焼け止め」に関連する。且つ、2つの対話ターゲットクラスタHとTもお互いに関連し、対話ターゲットクラスタHにおける「大雨」が対話ターゲットクラスタTにおける「雨あり」、「天気」に関連し、対話ターゲットクラスタHにおける「高温」が対話ターゲットクラスタTにおける「日焼け止め」に関連する。
本実施例において、対話グラフは二重構造であり、1層が対話ターゲットクラスタであり、もう1層が連語であり、ここでは連語が下層であり、対話ターゲットクラスタが上層であると見なすことができ、すなわちこの対話グラフは階層化対話グラフである。
また、連語間の関連関係とは、連語間が同時に一組の対話中に出現し、一定の関連を有することを指し、複数の対話ターゲットクラスタが互いに関連していることは、複数の対話ターゲットクラスタ内の連語間に関連関係があると見なすことができる。
第1の連語を取得する場合、入力文からキーワードを抽出し、対話グラフからキーワードとの類似度が最も高い連語を第1の連語として取得することができる。これによって、入力文を対話グラフにおける1つのノードにマッピングする。
例えば、「今日の天気はどうですか」のキーワードが「天気」であり、対話グラフから「天気」に対応する連語を取得することができる。
ステップ103:複数の対話ターゲットクラスタ間の関連関係及び対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する第2の連語を取得する。
第1の連語を決定した後、対話グラフを照会することにより、第1の連語が属する対話ターゲットクラスタを決定し、そして第1の連語が属する対話ターゲットクラスタにおける連語間の関連関係に基づいて、第2の連語を選ぶことができる。
具体的には、第1の連語が属する対話ターゲットクラスタのうち、第1の連語と関連関係がある連語の中から、ランダムに1つを第2の連語として選択し、または第1の連語が属する対話ターゲットクラスタのうち、第1の連語と関連関係があり、且つ他の連語と最も関連関係がある連語を第2の連語とすることができる。
ステップ104:第2の連語及び入力文に基づいて、応答文を生成する。
第2の連語を取得した後、第2の連語に基づいて、入力文に含まれる連語を組み合わせて、応答文を生成することができる。
具体的には、第2の連語及び入力文を生成モデルに入力し、生成モデルによって応答文を生成することができる。例えば、第2の連語及び入力文を記憶に基づくシーケンスからシーケンスを指向するモデルに入力し、このモデルによって応答文を生成する。
ユーザが応答文に基づいて語句を再度入力する場合、ユーザによって再度入力された語句に基づいて、上記方法によって応答文を生成する。これによって、複数回の対話を生成することができる。
本実施例において、応答文を生成するための第2の連語は、対話ターゲットクラスタと連語二重構造が対話グラフから選択された連語であるので、第2の連語に基づいて生成された応答文は、対話ターゲットが明確で制御可能であり、階層化を有する。
本出願の実施例において、入力文を取得し、対話グラフから入力文に対応する第1の連語を取得し、対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれ、複数の対話ターゲットクラスタ間の関連関係及び対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから前記第1の連語に関連する第2の連語を取得し、第2の連語及び入力文に基づいて、応答文を生成する。これにより、対話ターゲットクラスタと連語二重構造が含まれる対話グラフを用いることによって、対話ターゲットクラスタ間、及び各単語間の関連関係に基づいて、応答文を生成することで、生成された対話ターゲットを明確にし、制御可能とし、対話効率を向上させる。
生成された対話の対話ターゲットをより明確にするために、上記対話グラフから第1の連語に関連する第2の連語を取得するステップに対して、本出願の1つの実施例において、まず対話グラフ内の下層から第1の連語に関連する複数の候補連語を取得し、そして第1の連語が属する対話ターゲットクラスタ、及び各候補連語が属する上層対話ターゲットクラスタに基づいて、1つの対話ターゲットクラスタを決定し、この対話ターゲットクラスタから第2の連語を取得することができる。以下、図2と組み合わせて説明し、図2は本出願の実施例により提供されるもう1つの対話生成方法のフローチャートである。
図2に示すように、上記複数の対話ターゲットクラスタ間の関連関係及び対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する第2の連語を取得するステップは、ステップ201〜ステップ203を含む。
ステップ201:対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する複数の第1の候補連語を取得する。
本実施例において、対話グラフにおける複数の連語間には関連関係があり、複数の連語間の関連関係に基づいて、対話グラフにおける第1の連語に関連する複数の連語を決定することができ、区別の便宜上、第1の候補連語と呼ぶ。ここで、第1の候補連語は、第1の連語と同じ対話ターゲットクラスタに属する場合もあれば、それぞれ異なる対話ターゲットクラスタに属する場合もある。
ここで、対話グラフにおける第1の連語に関連するすべての連語を第1の候補連語とすることができ、その中の一部を第1の候補連語とすることもでき、例えば第1の連語に関連するすべての連語から、入力文とのマッチング度が高い連語の一部を第1の候補連語として選択する。
ステップ202:第1の連語が属する第1の対話ターゲットクラスタと、複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定する。
本実施例において、対話グラフにおける各対話ターゲットクラスタに含まれる複数の連語に基づいて、第1の連語が属する対話ターゲットクラスタを決定し、ここでは第1の対話ターゲットクラスタと呼び、及び各第1の候補連語が属する対話ターゲットクラスタを決定し、ここでは候補対話ターゲットクラスタと呼ぶことができる。これにより、対話グラフの下層連語から複数の第1の候補連語を取得し、上層対話ターゲットクラスタから複数の候補対話ターゲットクラスタを決定することができる。
第1の連語が属する第1の対話ターゲットクラスタ、及び複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタを決定した後、第1の対話ターゲットクラスタと各候補対話ターゲットクラスタとの間の関連関係に基づいて、複数の候補ターゲットクラスタから第2の対話ターゲットクラスタを取得することができる。ここで、第2の対話ターゲットクラスタに対応する対話ターゲットは、現在の対話の対話ターゲットと見なすことができる。
具体的には、各候補対話ターゲットクラスタから、第1の対話ターゲットクラスタとの距離が最も近い候補対話ターゲットクラスタを第2の対話ターゲットクラスタとして選択することができる。または、含まれる複数の連語が第1の対話ターゲットクラスタ中の連語と最も関連の多い候補対話ターゲットクラスタを第2の対話ターゲットクラスタとして選択することもできる。または、第1の対話ターゲットクラスタとの関連度が最も高い候補対話ターゲットクラスタを第2の対話ターゲットクラスタとして選択する。
または、前回対話を生成している際の第2の対話ターゲットクラスタとの距離が最も小さい候補対話ターゲットクラスタを現在の第2の対話ターゲットクラスタとして選択することもできる。これにより、現在生成された対話を生成された前回の対話に関連付け、生成された対話ターゲットをより明確にするだけでなく、生成された対話をより一貫性のあるものにする。
または、複数の候補対話ターゲットクラスタのうち、第2の対話ターゲットクラスタとして選択される回数が最も多い候補対話ターゲットクラスタを第2の対話ターゲットクラスタとする。これにより、長期的に第2の対話ターゲットクラスタとされる候補対話ターゲットクラスタを、現在対話を生成している際の第2の対話ターゲットクラスタとすることで、生成された対話のターゲットをより正確にする。
ステップ203:第2の対話ターゲットクラスタから第1の連語に関連する第2の連語を取得する。
第2の対話ターゲットクラスタを決定した後、第2の対話ターゲットクラスタにおける他の連語との関連関係が最も多い連語を第1の連語に関連する第2の連語とし、または第1の連語との関連度が最も高い連語を第2の連語とするなどことができる。
本出願の実施例において、複数の対話ターゲットクラスタ間の関連関係及び対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する第2の連語を取得する場合、対話グラフの下層連語から複数の第1の候補連語を取得し、そして上層対話ターゲットクラスタから第1の対話ターゲットと複数の候補対話ターゲットクラスタを決定し、これにより、下層の複数の第1の候補連語、及び上層の複数の候補第2の対話ターゲットクラスタを用いて、第2の連語を決定することにより、さらに生成された対話ターゲットをより明確にし、階層化対話を生成する。
実際の応用において、連語は対話中に一定の出現順序を有し、これに基づいて、生成された対話の一貫性を向上させるために、本出願の1つの実施例において、複数の連語間の関連関係は、複数の連語間の接続辺の方向及び接続辺の第1の重みを含み、上記対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する複数の第1の候補連語を取得する場合、複数の連語間の接続辺の方向及び第1の重みに基づいて、第1の候補連語を取得することができる。
本実施例において、複数の連語間の接続辺の方向は、既存の対話語句における連語の出現順序を指示することに用いられる。対話の習慣が異なるので、2つの連語が異なる対話に現れる順序は異なる可能性があり、そのため、2つの連語間には指向が反対する2つの接続辺がある可能性がある。例えば、ある2つの連語aと連語bの間には、連語aから連語bを指向する接続辺が含まれ、連語bから連語aを指向する接続辺も含まれている。
接続辺の重み、ここでは第1の重みと呼び、2つの連語の接続辺の方向の関連度を指示することに用いられ、第1の重みが大きいほど、2つの連語の接続辺の方向の関連度が高いことを示す。
対話グラフから第1の連語に関連する複数の第1の候補連語を取得する場合、まず複数の連語間の接続辺の方向に基づいて、対話グラフにおける第1の連語が指向する複数の連語、及び第1の連語から各連語の接続辺を指向する方向の第1の重みを取得し、そして第1の重みが予め設定された第1の閾値より大きい複数の連語を複数の第1の候補連語として選択することができる。
つまり、各第1の候補連語と第1の連語の間には、第1の連語から第1の候補連語を指向する接続辺が含まれ、且つ接続辺の第1の重みが第1の閾値より大きい。
図3は本出願の実施例により提供される対話グラフにおける連語間の接続辺の概略図である。図3において、丸印は連語に対応するノードを示し、連語Aは連語Bを指し、重みが0.6であり、連語Aは連語Cを指し、重みが0.3である。連語Aが第1の連語であり、第1の閾値が0.4である場合、連語Bは連語Aの第1の候補連語である。
本出願の実施例において、複数の連語間の関連関係は、複数の連語間の接続辺の方向及び接続辺の第1の重みを含み、対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する複数の第1の候補連語を取得する場合、複数の連語間の接続辺の方向及び接続辺の第1の重みに基づいて、対話グラフから複数の第1の候補連語を取得し、ここで、各第1の候補連語と第1の連語の間には、第1の連語から第1の候補連語を指向する接続辺が含まれ、且つ接続辺の第1の重みが第1の閾値より大きい。これにより、連語間の接続方向を考慮するだけでなく、重みも考慮し、取得された第1の候補連語の正確性を向上させ、第1の候補連語が属する候補対話ターゲットクラスタに基づいて、第2の連語を決定し、第2の連語に基づいて応答文を生成することで、対話の生成の正確性を向上させる。
上記実施例では複数の連語間の接続辺の方向及び接続辺の第1の重みに基づいて、第1の候補連語を取得することであり、本出願の1つの実施例において、対話グラフにおける複数の連語間の関連関係は、複数の連語間の接続辺の方向を含み、複数の連語間の接続辺の方向及び接続辺の数量に基づいて、第1の候補連語を決定することができる。
具体的には、対話グラフから第1の連語に関連する第2の連語を取得する場合、まず複数の連語間の接続辺の方向に基づいて、対話グラフにおける第1の連語が指向する複数の連語を取得し、そしてその中から接続辺の数量が予め設定された第2の閾値より大きい連語を第1の候補連語として選択することができる。
つまり、各第1の候補連語と第1の連語との間の接続辺の方向は、第1の連語から第1の候補連語を指向するものであり、且つ各第1の候補連語に対応する接続辺の数量は第2の閾値より大きい。
ここで、第1の候補連語に対応する接続辺の数量は、他の連語から第1の候補連語を指向する接続辺の数量と、第1の候補連語から他の連語を指向する接続辺の数量との和である。
または、接続辺の方向が第1の連語で指向される、且つ他の連語を指向する接続辺の数量が第2の閾値より大きい連語を第1の候補連語として選択することもできる。つまり、第1の連語で指され、且つ出辺の数量が第2の閾値より大きい連語を第1の候補連語とする。
例えば、第1の連語が連語fであり、連語fがそれぞれ連語sと連語tに関連し、連語sが他の連語を指向する2つの接続辺を有し、連語tが他の連語を指向する5つの接続辺を有し、第2の閾値が2であると仮定すると、連語tを連語fの第1の候補連語とする。
本出願の実施例において、複数の連語間の関連関係は、複数の連語間の接続辺の方向を含み、対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する複数の第1の候補連語を取得する場合、複数の連語間の接続辺の方向及び接続辺の数量に基づいて、対話グラフから第1の連語に関連する複数の第1の候補連語を取得し、ここで、各第1の候補連語と第1の連語との間の接続辺の方向は、第1の連語から第1の候補連語を指向するものであり、且つ各第1の候補連語に対応する接続辺の数量は第2の閾値より大きい。これにより、複数の連語間の接続辺の方向及び接続辺の数量に基づいて、第1の候補連語を選択し、第1の連語が指向する連語及び指された連語と他の連語の関連情況を考慮して、第1の候補連語の正確性を向上させ、さらに対話の生成の正確性を向上させる。
上記対話グラフから第1の連語に関連する複数の第1の候補連語を取得するステップに対して、本出願の1つの実施例において、連語が選択された回数に基づいて、第2の連語を決定することもできる。
具体的には、対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する複数の第2の候補連語を取得し、ここで、第2の候補連語は対話グラフにおける第1の連語間の接続辺の方向が第1の連語が指向する連語であってもよいし、対話グラフにおける第1の連語に関連するすべての連語であってもよい、第1の連語が指向する連語と第1の連語を指向する連語とを含む。
本実施例において、対話グラフにおいて各連語が現在の対話生成プロセスで応答文を生成するために選択された回数、及び以前に対話を生成した時に応答文を生成するために選択された回数を記録することができる。第1の候補連語を決定した後、各第2の候補連語のそれぞれに対応する選択された回数に基づいて、複数の第2の候補連語から第1の候補連語を取得する。
具体的には、第2の候補連語に基づいて同じ回の対話の生成のプロセスで選択された回数が最も小さい第2の候補連語を第2の連語としてもよいし、第2の候補連語基づいて以前に対話を生成した時に、選択された回数が最も多い第2の候補連語を第1の候補連語としてもよい。
本出願の実施例において、対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する複数の第1の候補連語を取得し、対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する複数の第2の候補連語を取得し、そして複数の第2の候補連語において各第2の候補連語のそれぞれに対応する選択された回数に基づいて、複数の第2の候補連語から複数の第1の候補連語を取得することができる。これにより、第1の連語に関連する複数の第2の候補連語の選択された回数に基づいて、複数の第1の候補連語を取得し、語句の生成の正確性を向上させる。
上記第1の連語が属する第1の対話ターゲットクラスタと、複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定するステップに対して、第1の候補連語が第1の連語に関連する連語であり、第1の連語と同じ対話ターゲットクラスタに属する可能性があるため、本出願の1つの実施例において、複数の第1の候補連語におけるいずれかの候補連語が属する候補対話ターゲットクラスタが第1の対話ターゲットクラスタである場合、つまり、複数の第1の候補連語でいずれかの候補連語と第1の連語が第1の対話ターゲットクラスタに属する場合、第1の連語が属する第1の対話ターゲットクラスタを第2の対話ターゲットクラスタとする。
これによって、複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタには、第1の対話ターゲットクラスタと同じ候補対話ターゲットクラスタがある場合、第1の対話ターゲットクラスタを第2の対話ターゲットクラスタとし、すなわち第2の対話ターゲットクラスタと第1の対話ターゲットクラスタは同じ対話ターゲットクラスタである。
本出願の実施例において、第1の連語が属する第1の対話ターゲットクラスタと、複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定する場合、複数の第1の候補連語におけるいずれかの候補連語が属する候補対話ターゲットクラスタが第1の対話ターゲットクラスタである場合、第2の対話ターゲットクラスと第1の対話ターゲットクラスタは同じ対話ターゲットクラスタであると決定する。これにより、複数の第1の候補連語には第1の対話ターゲットクラスタに属する第1の連語がある場合、第1の対話ターゲットクラスタを第2の対話ターゲットクラスタとして、第2の対話ターゲットクラスタから第1の連語に関連する第2の連語を取得し、第2の連語と第1の連語の関連性を向上させ、生成された対話をより一貫性のあるものにする。
本出願の1つの実施例において、複数の対話ターゲットクラスタ間の関連関係は、複数の対話ターゲットクラスタ間の接続辺の方向及び接続辺の第2の重みを含み、第2の対話ターゲットクラスタを決定する場合、複数の対話ターゲットクラスタ間の接続辺の方向及び接続辺の第2の重みに基づいて、複数の候補対話ターゲットクラスタから第2の対話ターゲットクラスタを取得することもできる。
本実施例において、2つの対話ターゲットクラスタ間には1つの接続辺がある可能性があり、方向が反対である2つの接続辺がある可能性もあり、接続辺がない可能性もある。2つの対話ターゲットクラスタ間の接続辺の第2の重みが大きいほど、2つの対話ターゲットクラスタの対話ターゲットの関連度が高いことを示す。
第2の対話ターゲットクラスタを決定する場合、まず複数の対話ターゲットクラスタ間の接続辺の方向に基づいて、候補対話ターゲットクラスタから第1の対話ターゲットクラスタが指向する候補対話ターゲットクラスタを取得し、第1の対話ターゲットクラスタから候補対話ターゲットクラスタを指向する接続辺の第2の重みを取得し、そして第2の重みが予め設定された第3の閾値より大きい候補対話ターゲットクラスタを第2の対話ターゲットクラスタとして選択することができる。ここで、第2の対話ターゲットクラスタは1つでも複数でも可能性がある。
つまり、第1の対話ターゲットクラスタと第2の対話ターゲットクラスタの間には、第1の対話ターゲットクラスタから第2の対話ターゲットクラスタを指向する接続辺が含まれ、且つ接続辺の第2の重みが第3の閾値より大きい。
本出願の実施例において、複数の対話ターゲットクラスタ間の関連関係は、複数の対話ターゲットクラスタ間の接続辺の方向及び接続辺の第2の重みを含み、第2の対話ターゲットクラスタを決定する場合、第1の対話ターゲットクラスタと各候補対話ターゲットクラスタとの間の接続辺の方向及び接続辺の第2の重みに基づいて、各候補対話ターゲットクラスタから第2の対話ターゲットクラスタを取得し、ここで、第1の対話ターゲットクラスタと第2の対話ターゲットクラスタの間には、第1の対話ターゲットクラスタから第2の対話ターゲットクラスタを指向する接続辺が含まれ、且つ接続辺の第2の重みが第3の閾値より大きい。これにより、第1の対話ターゲットクラスタと各候補対話ターゲットクラスタとの間の接続辺の方向及び接続辺の第2の重みに基づいて、第2の対話ターゲットクラスタを決定することで、対話ターゲットクラスタ間の対話ターゲットの対話中の順序を考慮するだけでなく、関連度も考慮し、これにより決定された第2の対話ターゲットクラスタ生成された応答文に基づいて、対話ターゲットが明確で、階層化を有し、制御可能である。
実際の応用において、人と人の間の対話では前後2つの文が対象とする対話ターゲットは通常同じもの又は近いものである。これに基づいて、本出願の1つの実施例において、複数の対話ターゲットクラスタ間の関連関係は、複数の対話ターゲットクラスタ間の接続辺の方向及び接続辺の第2の重みを含み、各対話ターゲットクラスタが1つの対話ターゲットに対応し、第1の連語が属する第1の対話ターゲットクラスタと、複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定する場合、まず入力文に基づいて現在の誘導対象の対話ターゲットを決定し、誘導対象の対話ターゲットに基づいて第2の対話ターゲットクラスタを決定することができる。
以下、図4と組み合わせて説明し、図4は本出願の実施例により提供されるもう1つの対話生成方法のフローチャートである。
図4に示すように、第1の連語が属する第1の対話ターゲットクラスタと、複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定する上記ステップは、ステップ401〜ステップ403を含む。
ステップ401:入力文を認識して、現在対応する誘導対象の対話ターゲットを決定する。
本実施例において、入力文に対して語意分析を行って、現在対応する誘導対象の対話ターゲットを決定することができる。または、入力文におけるキーワードを抽出し、キーワードに基づいて現在対応する誘導対象の対話ターゲットを決定する。ここで、誘導対象の対話ターゲットは入力文に対応する対話ターゲットと理解できる。
ステップ402:誘導対象の対話ターゲットと対話グラフにおける各対話ターゲットクラスタとのマッチング度に基づいて、第3の対話ターゲットクラスタを決定する。
対話ターゲットが明確である対話を生成するために、本実施例において、対話グラフから対話ターゲットと誘導対象の対話ターゲットとのマッチング度が高い対話ターゲットクラスタを選択することができる。
具体的には、誘導対象の対話ターゲットと対話グラフにおける各対話ターゲットクラスタに対応する対話ターゲットのマッチング度を計算し、マッチング度が最も高い対話ターゲットクラスタを第3の対話ターゲットクラスタとする。これにより、対話グラフにおける複数の対話ターゲットクラスタでは、入力文に現在対応する誘導対象の対話ターゲット、及び対応する対話ターゲットクラスタを決定する。
ステップ403:各候補対話ターゲットクラスタのそれぞれと第3の対話ターゲットクラスタとの間の接続辺の方向及び接続辺の第2の重みに基づいて、各候補対話ターゲットクラスタから第2の対話ターゲットクラスタを取得する。
第3の対話ターゲットクラスタを決定した後、各候補対話ターゲットクラスタのそれぞれと第3の対話ターゲットクラスタとの間の接続辺の方向及び接続辺の第2の重みに基づいて、各候補対話ターゲットクラスタから第2の対話ターゲットクラスタを取得する。
具体的な方法は、上記実施例における第1の対話ターゲットクラスタと各候補対話ターゲットクラスタとの間の接続辺の方向及び接続辺の第2の重みに基づいて、第2のターゲット対話クラスタを決定する方法と類似しているので、ここでは説明を省略する。
なお、候補対話ターゲットクラスタには第3の対話ターゲットクラスタと同じ対話ターゲットクラスタがあると、第3の対話ターゲットクラスタを第2の対話ターゲットクラスタとすることができる。
本出願の実施例において、入力文を認識して、誘導対象の対話ターゲットを決定することにより、誘導対象の対話ターゲットに対応する第3の対話ターゲットクラスタを決定し、各候補対話ターゲットクラスタのそれぞれと第3の対話ターゲットクラスタとの間の接続辺の方向及び接続辺の第2の重みに基づいて、候補対話ターゲットクラスタから第2の対話ターゲットクラスタを取得して、第2の対話ターゲットクラスタの対話ターゲットが入力文誘導対象の対話ターゲットに関連するようにし、さらには第2の対話ターゲットクラスタから取得された第2の連語に基づいて生成された応答文が入力文の対話ターゲットと同一又は関連するようにし、生成された対話ターゲットを明確にし、一貫性を強くする。
なお、第2の対話ターゲットクラスタを決定する場合、上記いくつかの方法の他に、候補対話ターゲットクラスタと第1の対話ターゲットクラスタとの間の距離に基づいて、第2の対話ターゲットクラスタを決定することもできる。候補対話ターゲットクラスタと前の対話ターゲットクラスタとの間の距離に基づいて、第2の対話ターゲットクラスタを決定することもできる。または、候補対話ターゲットクラスタと、対話を生成する際に選択された回数が最も多い対話ターゲットクラスタとの間の距離に基づいて、対話ターゲットクラスタを決定することもできる。実際の応用において、その中の1つの方法を選択して第2の対話ターゲットクラスタを決定してもよいし、両方とも用いてもよい。
上記対話グラフから入力文に対応する第1の連語を取得するステップに対して、本出願の1つの実施例において、図5に示すような方法を用いてもよい。図5は本出願の実施例により提供されるもう1つの対話生成方法のフローチャートである。
図5に示すように、対話グラフから入力文に対応する第1の連語を取得する上記ステップは、ステップ501〜ステップ502を含む。
ステップ501:入力文に対して単語分割処理を行って、入力文に含まれる各分割された単語を決定する。
本実施例において、辞書を用いて、辞書における連語を入力文における文字列とマッチングして、入力文に対して単語分割処理を行い、入力文に含まれる各分割された単語を取得することができる。
ステップ502:各分割された単語のそれぞれと対話グラフ内の各連語との間の関連度に基づいて、対話グラフにおける入力文に対応する第1の連語を決定する。
本実施例において、入力文に含まれる各分割された単語を取得した後、各分割された単語と対話グラフ内の各連語との関連度を取得し、関連度に基づいて第1の入力文に対応する第1の連語を決定する。ここで、関連度は2つの単語間の関連度を指示することに用いられる。
各分割された単語と対話グラフ内の各連語との関連度を取得する場合、分割された単語と対話グラフ内の連語に基づいて、既存の文章、対話などで出現する頻度を決定することができ、ここで、出現する頻度が高いほど、分割された単語と対話グラフ内の連語との関連度が高いことを示す。
または、分割された単語と対話グラフ内の分割された単語との間の類似度を計算することもでき、類似度が高いほど、関連度が高いと考える。例えば、「天気」という分割された単語の場合、対話グラフには連語「天気」があれば、両者の類似度が最も高く、一致である。
入力文における各分割された単語に基づいて、対話グラフにおける各分割された単語との関連が最も高い連語を決定した後、これらの連語から1つを第1の連語として選択し、ランダムに選択してもよいし、関連度が最も高い連語を選択してもよい。
本出願の実施例において、対話グラフから入力文に対応する第1の連語を取得する場合、入力文における各分割された単語のそれぞれと対話グラフ内の各連語との間の関連度に基づいて、対話グラフにおける入力文に対応する第1の連語を決定することにより、入力文を対話グラフにマッピングすることを実現するだけでなく、入力文における各分割された単語に基づいて決定し、正確性が高い。
入力文を対話グラフの下層の連語にマッピングする正確性を向上させるために、本出願の1つの実施例において、各分割された単語と対話グラフ内の連語の関連度に基づいて、複数の候補連語を取得し、そして候補連語と入力文の類似度に基づいて、第1の連語を決定することができる。
具体的には、入力文における各分割された単語と対話グラフ内の各連語との間の関連度を計算し、各分割された単語関連度が最も高い予め設定された数量の連語を候補連語として選択して、複数の第3の候補連語を取得することができる。ここで、2つの連語間の関連度は、2つの連語が同じ対話に出現する可能性を指示することに用いられ、関連度が高いほど、可能性が大きい。
複数の第3の候補連語を取得した後、各第3の候補連語と入力文の類似度を計算し、具体的には第3の候補連語の単語ベクトルと入力文に対応するベクトルに基づいて、類似度を計算する。そして、入力文との類似度が最も高い第3の候補連語を入力文に対応する第1の連語として選択する。
本出願の実施例において、各分割された単語のそれぞれと対話グラフ内の各連語との間の関連度に基づいて、対話グラフにおける入力文に対応する第1の連語を決定する場合、対話グラフから取得された第3の候補連語と入力文の類似度に基づいて、複数の第3の候補連語から第1の連語を決定することにより、入力文を対話グラフの下層の連語にマッピングする正確性を向上させる。
本出願の1つの実施例において、対話グラフから入力文に対応する第1の連語を取得する前に、まず対話データセットに基づいて、対話グラフを生成することができる。以下、図6と組み合わせて説明し、図6は本出願の実施例により提供されるもう1つの対話生成方法のフローチャートである。
図6に示すように、上記対話グラフから入力文に対応する第1の連語を取得する前に、ステップ601〜ステップ604を含む。
ステップ601:複数組の対話が含まれる対話データセットを取得する。
本実施例において、大量の人と人の間の対話データを収集し、これらの対話データを集合にして、対話データセットを取得することができる。ここで、対話データセットには複数組の対話が含まれる。ここで、各組の対話には複数の対話語句が含まれることができ、且つ各組の対話の対話ターゲットまたは対話テーマは同じであってもよいし、異ってもよい。
ステップ602:対話データセットから複数の連語を抽出する。
本実施例において、対話データセットにおける各組の対話中の各語句に対して単語分割処理を行って、各組の対話中の連語を取得することができ、各組の対話中の連語に基づいて大量の連語を取得することができる。
または、対話データセット内の各対話に対して構文分析を行うこともでき、例えば各単語の品詞及び各単語間の依存関係を決定し、各対話に対応する構文木を取得する。ここで、構文木には各単語間の依存関係が記述されている。そして、各対話に対応する構文木のルートノードから連語を選択し、抽出された1つまたは複数の連語を各対話に対応する連語とする。
本実施例において、各対話に対応する構文木を取得し、構文木によって各対話に対応する連語を取得することにより、抽出された連語の正確性が高い。
ステップ603:複数の連語のうちの各2つの連語の、同じ組の対話での共起方式に基づいて、複数の連語間の関連関係を決定する。
本実施例において、対話データから抽出された複数の連語を2つずつ組み合わせ、各2つの連語の、同じ組の対話での共起方式を統計する。
ここで、共起方式には、共起回数、共起時の2つの連語の対話における出現順序、共起時の2つの連語の対話における距離が含まれる。共起回数が0より大きい場合、2つの連語が関連することを示し、2つの連語の対話における出現順序に基づいて、2つの連語間の接続辺の方向を決定する。例えば、一組の対話において、連語mが連語nより先に出現すると、連語mと連語mの間に接続辺があると見なすことができ、接続辺の方向が連語mから連語に指向する。
2つの連語の会話中の間隔が遠いほど、関連度が低いことが示される。2つの連語が1組の対話中の隣接する前後の文に現れていれば、2つの連語の関連度は高い。2つの連語が1組の対話中の離れた2つの文に現れていれば、2つの連語が関連していると見なすこともできるが、関連度は隣接する前後の文に現れている2つの連語より低い。
これにより、各2つの連語の、同じ組の対話での共起方式に基づいて、連語間の接続辺の方向、接続辺の重みなど、複数の連語間の関連関係を決定する。ここで、接続辺の重みは関連度に対応し、関連度が高いほど、接続辺の重みが大きい。
ステップ604:複数の連語間の関連関係に基づいて、複数の連語をクラスタリングして、複数の対話ターゲットクラスタ及び複数の対話ターゲットクラスタ間の関連関係を決定する。
複数の連語間の関連関係を取得した後、複数の連語間の関連関係に基づいて、複数の単語分割をクラスタリングすることができ、具体的には、接続辺の重みが予め設定された重み閾値より大きい2つの連語を1つにまとめて、複数の対話ターゲットクラスタ、及び対話ターゲットクラスタ間の関連関係を取得することができる。ここで、各対話ターゲットクラスタには複数の連語が含まれる。
具体的にはクラスタリングする場合、K平均値クラスタリングなどのクラスタリング方法を採用してもよいし、他の手法を採用してもよいが、具体的なプロセスはここでは説明を省略する。
これにより、関連度の高い連語を同一の対話ターゲットクラスタにまとめることで、同一の対話ターゲットに関連する連語を1つのクラスタにまとめる。これにより対話グラフに基づいて対話を生成する時に、生成された対話が同一の対話ターゲットを中心にして、対話効率を向上させる。
対話ターゲットクラスタ間の関連関係を決定する場合、複数の対話ターゲットクラスタにおける2つの対話ターゲットクラスタごとに連語間の接続辺の方向及び重みに基づいて、2つの対話ターゲットクラスタ間の接続辺の方向及び重みを決定することができる。
具体的には、2つの対話ターゲットクラスタでは、他方の対話ターゲットクラスタから他方の対話ターゲットクラスタを指向する2つの連語が存在すれば、2つの対話ターゲットクラスタの接続辺の方向、当該接続方向の重みを決定することができ、当該接続方向の連語間の重み和は、2つの対話ターゲットクラスタ間の重みである。
図7は本出願の実施例により提供される対話グラフの概略図である。図7において、対話ターゲットクラスタMは、連語a、連語b、連語cという3つの連語を含み、対話ターゲットクラスタNは、連語d及び連語eという2つの連語を含む。ここで、連語a及び連語dは2つの接続辺を有し、ここで、一方の接続辺の方向は連語Aから連語dを指向し、当該方向の接続辺の重みが0.6であり、他方は連語dから連語aを指向し、当該方向の接続辺の重みが0.3であり、連語bと連語eは1つの接続辺を有し、方向は連語bから連語eを指向し、当該方向の接続辺の重みが0.7である。
上記方法に基づいて、対話ターゲットクラスタMが対話ターゲットクラスタNを指向する接続方向では、2つの対話ターゲットクラスタの重みは連語aから連語dを指向する重みの0.6と、連語bから連語eを指向する重みの0.7との和で、1.3であり、対話ターゲットクラスタNが対話ターゲットクラスタMを指向する接続方向で、2つの対話ターゲットクラスタの重みは連語dから連語aを指向する重みの0.3である。
抽出された複数の連語間の関連関係、及び対話ターゲットクラスタ間の関連関係を取得した後、連語と対話ターゲットクラスタとが含まれる二重の、階層化の対話グラフを生成することができる。
本出願の実施例において、対話グラフから入力文に対応する第1の連語を取得する前に、対話データセットから複数の連語を抽出し、複数の連語のうちの各2つの連語の、同じ組の対話での共起方式に基づいて、複数の連語間の関連関係を決定し、複数の連語間の関連関係に基づいて、複数の連語をクラスタリングして、複数の対話ターゲットクラスタ及び複数の対話ターゲットクラスタ間の関連関係を決定する。これにより、対話データセットに基づいて二重構造の対話グラフを生成することができ、階層化の対話グラフに基づいて、対話ターゲットが明確で一貫性が強い階層化対話を生成することができ、対話効率を向上させる。
上記実施例を実現するために、本出願の実施例は、対話生成装置をさらに提供する。図8は本出願の実施例により提供される対話生成装置の概略構成図である。
図8に示すように、当該対話生成装置800は、第1の取得モジュール810と、第2の取得モジュール820と、第3の取得モジュール830と、生成モジュール840と、を含む。
第1の取得モジュール810は、入力文を取得することに用いられ、
第2の取得モジュール820は、対話グラフから入力文に対応する第1の連語を取得することに用いられ、ここで、対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれ、
第3の取得モジュール830は、複数の対話ターゲットクラスタ間の関連関係及び対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する第2の連語を取得することに用いられ、
生成モジュール840は、第2の連語及び入力文に基づいて、応答文を生成することに用いられる。
本出願の実施例の1つの可能な実施例方法において、上記第3の取得モジュール830は、
対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する複数の第1の候補連語を取得するための第1の取得ユニットと、
第1の連語が属する第1の対話ターゲットクラスタと、複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定するための第1の決定ユニットと、
第2の対話ターゲットクラスタから第1の連語に関連する第2の連語を取得するための第2の取得ユニットと、を含む。
本出願の実施例の1つの可能な実施例方法において、上記複数の連語間の関連関係は、複数の連語間の接続辺の方向及び接続辺の第1の重みを含み、上記第1の取得ユニットは、
複数の連語間の接続辺の方向及び接続辺の第1の重みに基づいて、対話グラフから複数の第1の候補連語を取得することに用いられ、ここで、各第1の候補連語と第1の連語の間には、第1の連語から第1の候補連語を指向する接続辺が含まれ、且つ接続辺の第1の重みが第1の閾値より大きい。
本出願の実施例の1つの可能な実施例方法において、上記複数の連語間の関連関係は、複数の連語間の接続辺の方向を含み、上記第1の取得ユニットは、
複数の連語間の接続辺の方向及び接続辺の数量に基づいて、対話グラフから第1の連語に関連する複数の第1の候補連語を取得することに用いられ、ここで、各第1の候補連語と第1の連語との間の接続辺の方向は、第1の連語から第1の候補連語を指向するものであり、且つ各第1の候補連語に対応する接続辺の数量は第2の閾値より大きい。
本出願の実施例の1つの可能な実施例方法において、上記第1の取得ユニットは、
対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから第1の連語に関連する複数の第2の候補連語を取得し、
複数の第2の候補連語のうちの各第2の候補連語にそれぞれ対応する選択された回数に基づいて、複数の第2の候補連語から複数の第1の候補連語を取得することに用いられる。
本出願の実施例の1つの可能な実施例方法において、上記第1の決定ユニットは、
複数の第1の候補連語におけるいずれかの候補連語が属する候補対話ターゲットクラスタが第1の対話ターゲットクラスタである場合、第2の対話ターゲットクラスタと第1の対話ターゲットクラスタとが同じ対話ターゲットクラスタであると決定することに用いられる。
本出願の実施例の1つの可能な実施例方法において、上記複数の対話ターゲットクラスタ間の関連関係は、複数の対話ターゲットクラスタ間の接続辺の方向及び接続辺の第2の重みを含み、上記第1の決定ユニットは、
第1の対話ターゲットクラスタと各候補対話ターゲットクラスタとの間の接続辺の方向及び接続辺の第2の重みに基づいて、各候補対話ターゲットクラスタから第2の対話ターゲットクラスタを取得することに用いられ、ここで、第1の対話ターゲットクラスタと第2の対話ターゲットクラスタの間には、第1の対話ターゲットクラスタから第2の対話ターゲットクラスタを指向する接続辺が含まれ、且つ接続辺の第2の重みが第3の閾値より大きい。
本出願の実施例の1つの可能な実施例方法において、上記複数の対話ターゲットクラスタ間の関連関係は、複数の対話ターゲットクラスタ間の接続辺の方向及び接続辺の第2の重みを含み、各対話ターゲットクラスタが1つの対話ターゲットに対応し、上記第1の決定ユニットは、
入力文を認識して、現在対応する誘導対象の対話ターゲットを決定し、
誘導対象の対話ターゲットと対話グラフにおける各対話ターゲットクラスタとのマッチング度に基づいて、第3の対話ターゲットクラスタを決定し、
各候補対話ターゲットクラスタのそれぞれと第3の対話ターゲットクラスタとの間の接続辺の方向及び接続辺の第2の重みに基づいて、各候補対話ターゲットクラスタから第2の対話ターゲットクラスタを取得することに用いられる。
本出願の実施例の1つの可能な実施例方法において、上記第2の取得モジュール820は、
入力文に対して単語分割処理を行って、入力文に含まれる各分割された単語を決定するための単語分割処理ユニットと、
各分割された単語のそれぞれと対話グラフ内の各連語との間の関連度に基づいて、対話グラフにおける入力文に対応する第1の連語を決定するための第2の決定ユニットと、を含む。
本出願の実施例の1つの可能な実施例方法において、上記第2の決定ユニットは、
各分割された単語のそれぞれと対話グラフにおける複数の連語との間の関連度に基づいて、対話グラフから複数の第3の候補連語を取得し、
複数の第3の候補連語のそれぞれと入力文との類似度に基づいて、複数の第3の候補連語から第1の連語を取得することに用いられる。
本出願の実施例の1つの可能な実施例方法において、当該装置は、
複数組の対話が含まれる対話データセットを取得するための第4の取得モジュールと、
対話データセットから複数の連語を抽出するための抽出モジュールと、
複数の連語のうちの各2つの連語の、同じ組の対話での共起方式に基づいて、複数の連語間の関連関係を決定するための決定モジュールと、
複数の連語間の関連関係に基づいて、複数の連語をクラスタリングして、複数の対話ターゲットクラスタ及び複数の対話ターゲットクラスタ間の関連関係を決定するためのクラスタリングモジュールと、をさらに含む。
本出願の実施例の1つの可能な実施例方法において、上記抽出モジュールは、
対話データセットにおける各対話に対して構文分析を行って、各対話に対応する構文木を取得するための第3の取得ユニットと、
各対話に対応する構文木のルートノードから、各対話に対応する連語を抽出するための抽出ユニットと、を含む。
なお、前述対話生成方法の実施例の説明は、当該実施例の対話生成装置にも適用され、ここでは説明を省略する。
本出願の実施例の対話生成装置は、入力文を取得し、対話グラフから入力文に対応する第1の連語を取得し、対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれ、複数の対話ターゲットクラスタ間の関連関係及び対話グラフにおける複数の連語間の関連関係に基づいて、対話グラフから前記第1の連語に関連する第2の連語を取得し、第2の連語及び入力文に基づいて、応答文を生成する。これにより、対話ターゲットクラスタと連語二重構造が含まれる対話グラフを用いることによって、対話ターゲットクラスタ間、及び各単語間の関連関係に基づいて、応答文を生成することで、生成された対話ターゲットを明確にし、制御可能とし、対話効率を向上させる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される対話生成方法を実行させる。
図9に示すように、それは本出願の実施例に係る対話生成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図9に示すように、当該電子機器は、1つ又は複数のプロセッサ901と、メモリ902と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図9では、1つのプロセッサ901を例とする。
メモリ902は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本出願により提供される対話生成方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供される対話生成方法を実行するためのコンピュータ命令を記憶する。
メモリ902は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における対話生成方法に対応するプログラム命令/モジュール(例えば、図8に示す第1の取得モジュール810、第2の取得モジュール820、第3の取得モジュール830及び生成モジュール840)ように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ901は、メモリ902に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における対話生成方法を実現する。
メモリ902は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、対話生成方法ことに基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ902は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ902は、プロセッサ901に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して対話生成の電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
対話生成方法の電子機器は、入力装置903と出力装置904とをさらに含むことができる。プロセッサ901、メモリ902、入力装置903、及び出力装置904は、バス又は他の方式を介して接続することができ、図9では、バスを介して接続することを例とする。
入力装置903は、入力された数字又は文字情報を受信することができ、及び対話生成の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポイティングデバイス、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置904は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」というは、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的に、互いに離れ、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
本出願の実施例の技術案によれば、対話ターゲットクラスタと連語二重構造が含まれる対話グラフを用いることによって、対話ターゲットクラスタ間、及び各単語間の関連関係に基づいて、応答文を生成することで、生成された対話ターゲットを明確にし、制御可能とし、対話効率を向上させる。
本明細書の説明において、「第1」、「第2」という用語は、単に説明するためのものであり、比較的な重要性を指示又は暗示するか、或いは示された技術特徴の数を黙示的に指示するものとして理解してはいけない。これによって、「第1」、「第2」によって限定されている特徴は少なくとも1つの前記特徴を含むことを明示又は暗示するものである。さらに、本出願の説明において、明確且つ具体的な限定がない限り、「複数」とは、2つ、3つなど、少なくとも2つを意味する。
以上に本出願の実施例を示して説明したが、上記実施例は例示的なものであり、本出願を限定するものではなく、当業者は、本出願の範囲内で上記実施例に対して変化、修正、取り替え及び変形を行うことができるということを理解されたい。

Claims (27)

  1. 対話生成方法であって、
    入力文を取得するステップと、
    対話グラフから前記入力文に対応する第1の連語を取得するステップであって、前記対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれるステップと、
    前記複数の対話ターゲットクラスタ間の関連関係及び前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する第2の連語を取得するステップと、
    前記第2の連語及び前記入力文に基づいて、応答文を生成するステップと、を含む、
    ことを特徴とする対話生成方法。
  2. 前記複数の対話ターゲットクラスタ間の関連関係及び前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する第2の連語を取得するステップは、
    前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する複数の第1の候補連語を取得するステップと、
    前記第1の連語が属する第1の対話ターゲットクラスタと、前記複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定するステップと、
    前記第2の対話ターゲットクラスタから前記第1の連語に関連する第2の連語を取得するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記複数の連語間の関連関係は、前記複数の連語間の接続辺の方向及び前記接続辺の第1の重みを含み、
    前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する複数の第1の候補連語を取得するステップは、
    前記複数の連語間の接続辺の方向及び前記接続辺の第1の重みに基づいて、前記対話グラフから複数の第1の候補連語を取得するステップであって、各前記第1の候補連語と前記第1の連語との間には、前記第1の連語から前記第1の候補連語を指向する接続辺が含まれ、且つ前記接続辺の第1の重みが第1の閾値より大きいステップを含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記複数の連語間の関連関係は、前記複数の連語間の接続辺の方向を含み、
    前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する複数の第1の候補連語を取得するステップは、
    前記複数の連語間の接続辺の方向及び接続辺の数量に基づいて、前記対話グラフから前記第1の連語に関連する複数の第1の候補連語を取得するステップであって、各前記第1の候補連語と前記第1の連語との間の接続辺の方向が、前記第1の連語から前記第1の候補連語を指向するものであり、且つ各前記第1の候補連語に対応する接続辺の数量が第2の閾値より大きいステップを含む、
    ことを特徴とする請求項2に記載の方法。
  5. 前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する複数の第1の候補連語を取得するステップは、
    前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する複数の第2の候補連語を取得するステップと、
    前記複数の第2の候補連語のうちの各前記第2の候補連語にそれぞれ対応する選択された回数に基づいて、前記複数の第2の候補連語から前記複数の第1の候補連語を取得するステップと、を含む、
    ことを特徴とする請求項2に記載の方法。
  6. 前記第1の連語が属する第1の対話ターゲットクラスタと、前記複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定するステップは、
    前記複数の第1の候補連語におけるいずれかの候補連語が属する候補対話ターゲットクラスタが前記第1の対話ターゲットクラスタである場合、前記第2の対話ターゲットクラスタと前記第1の対話ターゲットクラスタとが同じ対話ターゲットクラスタであると決定するステップを含む、
    ことを特徴とする請求項2に記載の方法。
  7. 前記複数の対話ターゲットクラスタ間の関連関係は、前記複数の対話ターゲットクラスタ間の接続辺の方向及び前記接続辺の第2の重みを含み、
    前記第1の連語が属する第1の対話ターゲットクラスタと、前記複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定するステップは、
    前記第1の対話ターゲットクラスタと前記各候補対話ターゲットクラスタとの間の接続辺の方向及び前記接続辺の第2の重みに基づいて、前記各候補対話ターゲットクラスタから前記第2の対話ターゲットクラスタを取得するステップであって、前記第1の対話ターゲットクラスタと前記第2の対話ターゲットクラスタの間には、前記第1の対話ターゲットクラスタから前記第2の対話ターゲットクラスタを指向する接続辺が含まれ、且つ前記接続辺の第2の重みが第3の閾値より大きいステップを含む、
    ことを特徴とする請求項2に記載の方法。
  8. 前記複数の対話ターゲットクラスタ間の関連関係は、前記複数の対話ターゲットクラスタ間の接続辺の方向及び前記接続辺の第2の重みを含み、各前記対話ターゲットクラスタが1つの対話ターゲットに対応し、
    前記第1の連語が属する第1の対話ターゲットクラスタと、前記複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定するステップは、
    前記入力文を認識して、現在対応する誘導対象の対話ターゲットを決定するステップと、
    前記誘導対象の対話ターゲットと前記対話グラフにおける各対話ターゲットクラスタとのマッチング度に基づいて、第3の対話ターゲットクラスタを決定するステップと、
    前記各候補対話ターゲットクラスタのそれぞれと前記第3の対話ターゲットクラスタとの間の接続辺の方向及び前記接続辺の第2の重みに基づいて、前記各候補対話ターゲットクラスタから前記第2の対話ターゲットクラスタを取得するステップと、を含む、
    ことを特徴とする請求項2〜6のいずれかに記載の方法。
  9. 前記対話グラフから前記入力文に対応する第1の連語を取得するステップは、
    前記入力文に対して単語分割処理を行って、前記入力文に含まれる各分割された単語を決定するステップと、
    前記各分割された単語のそれぞれと前記対話グラフ内の各連語との間の関連度に基づいて、前記対話グラフにおける前記入力文に対応する第1の連語を決定するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  10. 前記各分割された単語のそれぞれと前記対話グラフ内の各連語との間の関連度に基づいて、前記対話グラフにおける前記入力文に対応する第1の連語を決定するステップは、
    前記各分割された単語のそれぞれと前記対話グラフにおける複数の連語との間の関連度に基づいて、前記対話グラフから複数の第3の候補連語を取得するステップと、
    前記複数の第3の候補連語のそれぞれと前記入力文との類似度に基づいて、前記複数の第3の候補連語から前記第1の連語を取得するステップと、を含む、
    ことを特徴とする請求項9に記載の方法。
  11. 前記対話グラフから前記入力文に対応する第1の連語を取得するステップの前に、
    複数組の対話が含まれる対話データセットを取得するステップと、
    前記対話データセットから複数の連語を抽出するステップと、
    前記複数の連語のうちの各2つの連語の、同じ組の対話での共起方式に基づいて、前記複数の連語間の関連関係を決定するステップと、
    前記複数の連語間の関連関係に基づいて、前記複数の連語をクラスタリングして、複数の対話ターゲットクラスタ及び前記複数の対話ターゲットクラスタ間の関連関係を決定するステップと、をさらに含む、
    ことを特徴とする請求項1〜7のいずれかに記載の方法。
  12. 前記対話データセットから複数の連語を抽出するステップは、
    前記対話データセットにおける各対話に対して構文分析を行って、前記各対話に対応する構文木を取得するステップと、
    前記各対話に対応する構文木のルートノードから、前記各対話に対応する連語を抽出するステップと、を含む、
    ことを特徴とする請求項11に記載の方法。
  13. 対話生成装置であって、
    入力文を取得するための第1の取得モジュールと、
    対話グラフから前記入力文に対応する第1の連語を取得するための第2の取得モジュールであって、前記対話グラフには互いに関連する複数の対話ターゲットクラスタ及び互いに関連する複数の連語が含まれ、各対話ターゲットクラスタには複数の連語が含まれる第2の取得モジュールと、
    前記複数の対話ターゲットクラスタ間の関連関係及び前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する第2の連語を取得するための第3の取得モジュールと、
    前記第2の連語及び前記入力文に基づいて、応答文を生成するための生成モジュールと、を含む、
    ことを特徴とする対話生成装置。
  14. 前記第3の取得モジュールは、
    前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する複数の第1の候補連語を取得するための第1の取得ユニットと、
    前記第1の連語が属する第1の対話ターゲットクラスタと、前記複数の第1の候補連語のそれぞれが属する各候補対話ターゲットクラスタとの間の関連関係に基づいて、第2の対話ターゲットクラスタを決定するための第1の決定ユニットと、
    前記第2の対話ターゲットクラスタから前記第1の連語に関連する第2の連語を取得するための第2の取得ユニットと、を含む、
    ことを特徴とする請求項13に記載の装置。
  15. 前記複数の連語間の関連関係は、前記複数の連語間の接続辺の方向及び前記接続辺の第1の重みを含み、
    前記第1の取得ユニットは、
    前記複数の連語間の接続辺の方向及び前記接続辺の第1の重みに基づいて、前記対話グラフから複数の第1の候補連語を取得し、各前記第1の候補連語と前記第1の連語の間には、前記第1の連語から前記第1の候補連語を指向する接続辺が含まれ、且つ前記接続辺の第1の重みが第1の閾値より大きい、
    ことを特徴とする請求項14に記載の装置。
  16. 前記複数の連語間の関連関係は、前記複数の連語間の接続辺の方向を含み、
    前記第1の取得ユニットは、
    前記複数の連語間の接続辺の方向及び接続辺の数量に基づいて、前記対話グラフから前記第1の連語に関連する複数の第1の候補連語を取得し、各前記第1の候補連語と前記第1の連語との間の接続辺の方向が、前記第1の連語から前記第1の候補連語を指向するものであり、且つ各前記第1の候補連語に対応する接続辺の数量が第2の閾値より大きい、
    ことを特徴とする請求項14に記載の装置。
  17. 前記第1の取得ユニットは、
    前記対話グラフにおける複数の連語間の関連関係に基づいて、前記対話グラフから前記第1の連語に関連する複数の第2の候補連語を取得し、
    前記複数の第2の候補連語のうちの各前記第2の候補連語にそれぞれ対応する選択された回数に基づいて、前記複数の第2の候補連語から前記複数の第1の候補連語を取得する、
    ことを特徴とする請求項14に記載の装置。
  18. 前記第1の決定ユニットは、
    前記複数の第1の候補連語におけるいずれかの候補連語が属する候補対話ターゲットクラスタが前記第1の対話ターゲットクラスタである場合、前記第2の対話ターゲットクラスタと前記第1の対話ターゲットクラスタとが同じ対話ターゲットクラスタであると決定する、
    ことを特徴とする請求項14に記載の装置。
  19. 前記複数の対話ターゲットクラスタ間の関連関係は、前記複数の対話ターゲットクラスタ間の接続辺の方向及び前記接続辺の第2の重みを含み、
    前記第1の決定ユニットは、
    前記第1の対話ターゲットクラスタと前記各候補対話ターゲットクラスタとの間の接続辺の方向及び前記接続辺の第2の重みに基づいて、前記各候補対話ターゲットクラスタから前記第2の対話ターゲットクラスタを取得し、前記第1の対話ターゲットクラスタと前記第2の対話ターゲットクラスタの間には、前記第1の対話ターゲットクラスタから前記第2の対話ターゲットクラスタを指向する接続辺が含まれ、且つ前記接続辺の第2の重みが第3の閾値より大きい、
    ことを特徴とする請求項14に記載の装置。
  20. 前記複数の対話ターゲットクラスタ間の関連関係は、前記複数の対話ターゲットクラスタ間の接続辺の方向及び前記接続辺の第2の重みを含み、各前記対話ターゲットクラスタが1つの対話ターゲットに対応し、
    前記第1の決定ユニットは、
    前記入力文を認識して、現在対応する誘導対象の対話ターゲットを決定し、
    前記誘導対象の対話ターゲットと前記対話グラフにおける各対話ターゲットクラスタとのマッチング度に基づいて、第3の対話ターゲットクラスタを決定し、
    前記各候補対話ターゲットクラスタのそれぞれと前記第3の対話ターゲットクラスタとの間の接続辺の方向及び前記接続辺の第2の重みに基づいて、前記各候補対話ターゲットクラスタから前記第2の対話ターゲットクラスタを取得する、
    ことを特徴とする請求項14〜18のいずれかに記載の装置。
  21. 前記第2の取得モジュールは、
    前記入力文に対して単語分割処理を行って、前記入力文に含まれる各分割された単語を決定するための単語分割処理ユニットと、
    前記各分割された単語のそれぞれと前記対話グラフ内の各連語との間の関連度に基づいて、前記対話グラフにおける前記入力文に対応する第1の連語を決定するための第2の決定ユニットと、を含む、
    ことを特徴とする請求項13に記載の装置。
  22. 前記第2の決定ユニットは、
    前記各分割された単語のそれぞれと前記対話グラフにおける複数の連語との間の関連度に基づいて、前記対話グラフから複数の第3の候補連語を取得し、
    前記複数の第3の候補連語のそれぞれと前記入力文との類似度に基づいて、前記複数の第3の候補連語から前記第1の連語を取得する、
    ことを特徴とする請求項21に記載の装置。
  23. 複数組の対話が含まれる対話データセットを取得するための第4の取得モジュールと、
    前記対話データセットから複数の連語を抽出するための抽出モジュールと、
    前記複数の連語のうちの各2つの連語の、同じ組の対話での共起方式に基づいて、前記複数の連語間の関連関係を決定するための決定モジュールと、
    前記複数の連語間の関連関係に基づいて、前記複数の連語をクラスタリングして、複数の対話ターゲットクラスタ及び前記複数の対話ターゲットクラスタ間の関連関係を決定するためのクラスタリングモジュールと、をさらに含む、
    ことを特徴とする請求項13〜19のいずれかに記載の装置。
  24. 前記抽出モジュールは、
    前記対話データセットにおける各対話に対して構文分析を行って、前記各対話に対応する構文木を取得するための第3の取得ユニットと、
    前記各対話に対応する構文木のルートノードから、前記各対話に対応する連語を抽出するための抽出ユニットと、を含む、
    ことを特徴とする請求項23に記載の装置。
  25. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1〜12のいずれかに記載の対話生成方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  26. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1〜12のいずれかに記載の対話生成方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  27. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに請求項1〜12のいずれかに記載の対話生成方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021048627A 2020-09-18 2021-03-23 対話生成方法、装置、電子機器及び記憶媒体 Active JP7216133B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010984320.0A CN111930916B (zh) 2020-09-18 2020-09-18 对话生成方法、装置、电子设备和存储介质
CN202010984320.0 2020-09-18

Publications (2)

Publication Number Publication Date
JP2021103556A true JP2021103556A (ja) 2021-07-15
JP7216133B2 JP7216133B2 (ja) 2023-01-31

Family

ID=73333935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021048627A Active JP7216133B2 (ja) 2020-09-18 2021-03-23 対話生成方法、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20210280189A1 (ja)
EP (1) EP3855323A1 (ja)
JP (1) JP7216133B2 (ja)
KR (1) KR20210119340A (ja)
CN (1) CN111930916B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118101B (zh) * 2021-11-26 2022-12-09 北京百度网讯科技有限公司 对话数据生成方法及装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141756A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp 関連語グラフ作成装置、関連語グラフ作成方法、関連語提供装置、関連語提供方法及びプログラム
JP2018055548A (ja) * 2016-09-30 2018-04-05 株式会社Nextremer 対話装置、学習装置、対話方法、学習方法、およびプログラム
JP2020102117A (ja) * 2018-12-25 2020-07-02 株式会社DataVision 発話生成装置、発話生成方法、及びコンピュータプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4670848A (en) * 1985-04-10 1987-06-02 Standard Systems Corporation Artificial intelligence system
WO2008000046A1 (en) * 2006-06-29 2008-01-03 Relevancenow Pty Limited Social intelligence
US10073840B2 (en) * 2013-12-20 2018-09-11 Microsoft Technology Licensing, Llc Unsupervised relation detection model training
US10402453B2 (en) * 2014-06-27 2019-09-03 Nuance Communications, Inc. Utilizing large-scale knowledge graphs to support inference at scale and explanation generation
US10120955B2 (en) * 2014-07-18 2018-11-06 Nuance Communications, Inc. State tracking over machine-learned relational trees in a dialog system
CN104731895B (zh) * 2015-03-18 2018-09-18 北京京东尚科信息技术有限公司 自动应答的方法和装置
CN105095195B (zh) * 2015-07-03 2018-09-18 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
US10540666B2 (en) * 2015-10-05 2020-01-21 Oath Inc. Method and system for updating an intent space and estimating intent based on an intent space
CN106777364A (zh) * 2017-01-22 2017-05-31 竹间智能科技(上海)有限公司 话题驱动的人工智能回应方法及装置
US10803249B2 (en) * 2017-02-12 2020-10-13 Seyed Ali Loghmani Convolutional state modeling for planning natural language conversations
CN107368524B (zh) * 2017-06-07 2020-06-02 创新先进技术有限公司 一种对话生成方法、装置以及电子设备
US10860587B2 (en) * 2017-06-14 2020-12-08 Microsoft Technology Licensing, Llc Conversationally-relevant content requests
CN110399471A (zh) * 2018-04-25 2019-11-01 北京快乐智慧科技有限责任公司 一种引导式情景对话方法和系统
US11196863B2 (en) * 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations
CN109800291B (zh) * 2018-12-12 2024-03-15 平安科技(深圳)有限公司 问题应答方法及装置、电子设备和存储介质
US11132510B2 (en) * 2019-01-30 2021-09-28 International Business Machines Corporation Intelligent management and interaction of a communication agent in an internet of things environment
CN109918494B (zh) * 2019-03-22 2022-11-04 元来信息科技(湖州)有限公司 基于图的上下文关联回复生成方法、计算机及介质
CN110309284B (zh) * 2019-06-28 2021-08-06 广州探迹科技有限公司 一种基于贝叶斯网络推理的自动对答方法及装置
CN111026886B (zh) * 2019-12-26 2023-05-02 成都航天科工大数据研究院有限公司 一种针对专业场景的多轮对话处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141756A (ja) * 2010-12-28 2012-07-26 Yahoo Japan Corp 関連語グラフ作成装置、関連語グラフ作成方法、関連語提供装置、関連語提供方法及びプログラム
JP2018055548A (ja) * 2016-09-30 2018-04-05 株式会社Nextremer 対話装置、学習装置、対話方法、学習方法、およびプログラム
JP2020102117A (ja) * 2018-12-25 2020-07-02 株式会社DataVision 発話生成装置、発話生成方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
CN111930916B (zh) 2021-02-05
CN111930916A (zh) 2020-11-13
EP3855323A1 (en) 2021-07-28
JP7216133B2 (ja) 2023-01-31
KR20210119340A (ko) 2021-10-05
US20210280189A1 (en) 2021-09-09

Similar Documents

Publication Publication Date Title
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
JP2021082308A (ja) マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体
JP7130194B2 (ja) ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
JP2021184237A (ja) データセット処理方法、装置、電子機器及び記憶媒体
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
JP2021120863A (ja) 情報を生成するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
KR102573637B1 (ko) 엔티티 링킹 방법, 장치, 전자 기기 및 기록 매체
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
US11907671B2 (en) Role labeling method, electronic device and storage medium
CN111709234B (zh) 文本处理模型的训练方法、装置及电子设备
JP2021103569A (ja) セマンティック処理方法、装置、電子機器及び媒体
JP2022013600A (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
JP2022050379A (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2021174516A (ja) ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
JP2022014429A (ja) 語義表現モデルの訓練方法、装置、デバイス及びコンピュータ記憶媒体
CN112528001B (zh) 一种信息查询方法、装置及电子设备
CN111709252B (zh) 基于预训练的语义模型的模型改进方法及装置
CN111859953B (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
JP7230304B2 (ja) 対話生成方法、装置、電子機器、プログラム及び記憶媒体
CN111767381A (zh) 自动问答方法和装置
JP7241122B2 (ja) スマート応答方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230119

R150 Certificate of patent or registration of utility model

Ref document number: 7216133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150