CN115048944B - 一种基于主题增强的开放域对话回复方法及系统 - Google Patents

一种基于主题增强的开放域对话回复方法及系统 Download PDF

Info

Publication number
CN115048944B
CN115048944B CN202210981384.4A CN202210981384A CN115048944B CN 115048944 B CN115048944 B CN 115048944B CN 202210981384 A CN202210981384 A CN 202210981384A CN 115048944 B CN115048944 B CN 115048944B
Authority
CN
China
Prior art keywords
sentence
reply
enhancement
dialog
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210981384.4A
Other languages
English (en)
Other versions
CN115048944A (zh
Inventor
李太豪
黄剑韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210981384.4A priority Critical patent/CN115048944B/zh
Publication of CN115048944A publication Critical patent/CN115048944A/zh
Priority to PCT/CN2022/139320 priority patent/WO2024036840A1/zh
Application granted granted Critical
Publication of CN115048944B publication Critical patent/CN115048944B/zh
Priority to US18/297,610 priority patent/US20240062006A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开一种基于主题增强的开放域对话回复方法及系统,该方法包括:步骤一:采集并预处理得到中文对话语料数据集;步骤二:利用自然语言处理工具包进行对话的断句、分词和词性标注并抽取名词性词语;步骤三:对每一句对话进行语义及主题信息的增强处理,后使用预训练句子表征模型学习原始句子与增强后句子的向量表征;步骤四:使用图卷积神经网络提取对话句子的语义及主题信息,并进行主题聚合增强的处理;步骤五:将主题聚合增强后的句向量输入预训练的生成模型,生成对话回复候选集,最后采用对比学习方法训练回复排序选择模型选出最适合的回复。本发明解决了开放域对话回复生成中的生成回复主题不一致性的问题,提高了回复生成的效果。

Description

一种基于主题增强的开放域对话回复方法及系统
技术领域
本发明属于人工智能领域,涉及一种基于主题增强的开放域对话回复方法及系统。
背景技术
开放域对话回复生成是自然语言处理中一项具有挑战性的任务,开放域对话是指在不限定领域下进行通用聊天。目前在任务型对话回复任务中,人工智能取得了重大的突破,可是开放域的对话回复中,无法掌控用户的意图变化,所以需要模型具有更强的泛化能力及鲁棒性。
目前对话回复生成的系统主要分成两种模式,一种是基于检索模型在特定数据库或语料库中找寻相似内容的回复,现在很多知识问答或者任务型对话都是采用这种检索模型。而在开放域聊天中,没有一个特定的语料库可供查询,所以这种检索模型的效果往往不如预期。而随着深度学习的兴起,尤其是大规模预训练生成模型如GPT、T5、BART等的提出,基于深度学习的生成式对话系统也受到了越来越多的关注。虽然在大规模的对话预料中预训练然后再微调的方式,可以生成语义通顺的回复,可是在开放域对话回复中往往生成比较泛的回复,缺少主题的一致性。
在开放域对话回复中,目前的技术往往只考虑生成回复与前文的连贯性,却忽略了主题之间的一致性,导致模型通常会给出很泛的回复。而且由于开放域中没有固定的主题,难以及时侦测主题,并给出一致的回复。所以需要根据对话上下文来抽取出隐含的主题信息,并透过主题增强的方法指导回复生成。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于主题增强的开放域对话回复方法及系统,其具体技术方案如下:
一种基于主题增强的开放域对话回复方法,包括以下步骤:
步骤一:采集开源的中文开放域对话文本语料并预处理得到中文对话语料数据集;
步骤二:利用公开的自然语言处理工具包HanNLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语;
步骤三:对每一句对话进行语义及主题信息的增强处理,后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征;
步骤四:使用图卷积神经网络提取对话句子的语义及主题信息,并进行主题聚合增强的处理,得到主题聚合增强后的句向量;
步骤五:将主题聚合增强后的句向量输入到预训练的生成模型GPT中,采用束搜索的解码策略生成对话回复候选集,最后采用对比学习的方法训练回复排序选择模型将最适合的回复选出来。
进一步的,所述步骤一具体为:通过网络爬虫的方式,采集开源的中文开放域对话文本语料并进行数据的过滤与清洗,得到中文对话语料数据集。
进一步的,所述步骤二具体为:利用公开的自然语言处理工具包HanNLP,对中文对话语料数据集中的每一段对话进行断句得到m句对话:
Figure DEST_PATH_IMAGE001
,每一句对话进行分词得到n个词语:
Figure 641644DEST_PATH_IMAGE002
,对每一个词语
Figure DEST_PATH_IMAGE003
按照现代汉语语料库加工规范进行词性分类,依据词语在句法结构或语言形态上承担的成分,通过词性分类赋予每个词词性标记,并用正则表达式将符合名词性的词语全部抽取出来,即从词性类别中选择具有名词功能的形容词、名词、人名、地名、机构团体名、专有名词。
进一步的,所述步骤三,具体包括以下子步骤:
步骤3.1,将每一句对话
Figure 138878DEST_PATH_IMAGE004
进行数据的语义增强;
步骤3.2:对抽取出来的名词进行主题信息的增强;
步骤3.3:对增强的对话文本做再一次的数据增强的处理;
步骤3.4:然后使用预训练的句子表征模型RoBERTa来学习原始句子与增强后的句子的向量表征。
进一步的,所述语义增强的方式包括:1)利用中文近义词词典将对话文本中的词组进行随机同义词替换;2)将对话文本中的临近词组进行随机的调换位置;3)使用对话文本中的非名词词组进行随机的重复多次或者删除;4)使用SimBERT模型改写对话文本;
所述主题信息的增强的方式包括:采用的方法包括:1)使用大规模词向量模型得到名词或名词性短语的相似词,并用所述相似词替换原本对话文本中的名词或名词短语;2)使用对话文本中的名词词组或短语进行随机的重复多次。
进一步的,所述步骤四,具体包括以下子步骤:
步骤4.1:首先用原始的对话文本与增强后的对话文本建构一张有向图,图上的节点
Figure DEST_PATH_IMAGE005
代表编码后的原始句子,
Figure 980932DEST_PATH_IMAGE006
代表增强后的句子集合;每一增强后的句子都有一条边
Figure DEST_PATH_IMAGE007
指向原始句子,最后得到一张有向图
Figure 641720DEST_PATH_IMAGE008
步骤4.2:在建构好有向图
Figure DEST_PATH_IMAGE009
后,使用图卷积神经网络,沿着边的方向对原始句子进行语义以及主题的聚合增强处理;
所述聚合增强处理的具体方式为:
在有向图
Figure 269142DEST_PATH_IMAGE009
中存在两种关系:
一阶直接相邻
Figure 622763DEST_PATH_IMAGE010
表示两个节点中有一条边相连,指的是原始句子与直接相邻的增强后的句子,
二阶间接相邻
Figure DEST_PATH_IMAGE011
表示两个节点之间没有一条边直接相连,而是有一个共同的相邻节点;
透过邻接矩阵
Figure 466960DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
分别计算对应的度矩阵,计算公式分别为:
Figure 931439DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
并透过各对应的度矩阵对邻接矩阵
Figure 662635DEST_PATH_IMAGE016
Figure 937889DEST_PATH_IMAGE013
分别做一个归一化的操作,对应的计算公式分别为:
Figure DEST_PATH_IMAGE017
Figure 20115DEST_PATH_IMAGE018
然后使用一个线性变化以及Sigmod激活函数来计算每一个经过一阶相邻与二阶相邻增强后的句子向量
Figure DEST_PATH_IMAGE019
,其计算公式为:
Figure 71641DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
其中
Figure 860605DEST_PATH_IMAGE022
表示主题增强前的原始句向量,
Figure DEST_PATH_IMAGE023
Figure 352766DEST_PATH_IMAGE024
表示线性变化的权重,
Figure DEST_PATH_IMAGE025
Figure 673020DEST_PATH_IMAGE026
则为可学习的参数。
进一步的,所述步骤五,具体包括以下子步骤:
步骤5.1:将得到的主题聚合增强后的句向量和原始句向量拼接起来,输入到预训练的生成模型GPT中,在解码的过程中采用Beam Search束搜索的方式产生对话回复候选集;
步骤5.2:采用对比学习的方法训练回复排序选择模型得到原始句子最适合的回复。
进一步的,所述步骤5.2具体为:在通过网络爬虫搜集到的开放域中文对话语料中构建正负例,将同一段对话的前后文作为正例,该段对话的前文与其他段对话的回复作为负例,训练回复排序选择模型去判断该回复是否适合,具体为:将前后文两两拼接在一起,然后输入到预训练BERT模型中,然后将BERT模型输出中[CLS] token对应的向量
Figure DEST_PATH_IMAGE027
取出来做分类。
进一步的,所述回复排序选择模型训练的损失函数为:
Figure 10461DEST_PATH_IMAGE028
其中,S 1 i 表示一段对话句子i中的前文句子,S 2 i 表示一段对话中的对句子S 1 i 回复的后文句子,S 2 j 表示另一段对话即其他段对话句子j中的回复的后文句子,N表示有N个其他段对话句子。
一种基于主题增强的开放域对话回复系统,包括:
文本采集模块,基于网络爬虫,用于采集中文开放域对话文本语料,并对数据进行过滤与清洗;
分词与词性标注模块,用于断句分词,并依据每一个词组或短语在句法结构或语言形态上承担的成分,通过词性分类赋予每个词一个词性的标记,然后透过正规表达式,提取出具有名词性质的词;
语义及主题增强模块,用于让模型更好地学习到句子语义表征,对原始句子进行语义及主题的数据增强,包括以下内容方式:1)随机同义词替换,2)随机临近词调换,3)随机删除或重复非名词词组,4)使用SimBERT做句子改写,5)使用词向量模型做名词的同义词替换,6)名词词组的随机重复;
文本编码模块,使用预训练句子表征模型得到原始句子与增强后句子的向量表征,然后利用图卷积神经网络,透过对数据增强后的句子向量表征做聚合,得到主题增强后的句子向量表征;
基于对比学习的句子排序模块,采用对比学习的方法,将同一段对话的前后文作为正例,取该段对话的前文与另一段对话的回复作为负例训练回复排序选择模型,用于筛选出最适合的回复文本;
回复生成模块,将图卷积神经网络得到的主题增强的句子向量表征作为Prompt输入到预训练生成模型GPT中,并采用Beam Search束搜索的方式产生主题相关的回复候选集,然后透过前面训练好的排序模块进行排序筛选找到最适合的回复。
本发明的优点如下:
1、本发明的基于对比学习、图卷积神经网络与主题增强的开放域与对话回复系统,利用语意及主题增强,并透过图卷积网络进行聚合,生成具有主题一致性的回复候选集,同时利用对比学习的思想优化回复排序选择模型,确保生成兼具主题一致性与语意流畅性的回复内容。
2、本发明的开放域对话回复生成方法,结合了当下流行的数据增强,透过词性标注与大规模词向量模型在有限的对话语料中,利用策略增强了句子的语意及主题信息;图卷积神经网络,透过语意及主题增强后的问句,对原始问句做了一个主题的融合与增强;对比学习,利用构建正负例的方法,模型学习的过程中拉近了相关回复的距离,让模型可以从生成的回复候选集中排序出适合的回复;本发明应用这些最新的研究与方法解决了开放域对话回复生成中遇到的生成回复比较泛,缺少主题一致性等问题,提高回复生成的效果。
附图说明
图1是本发明的一种基于主题增强的开放域对话回复系统框图;
图2是本发明的一种基于主题增强的开放域对话回复方法流程示意图;
图3是本发明实施例的一种基于主题增强的开放域对话回复装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,本发明的一种基于主题增强的开放域对话回复系统,包括:
文本采集模块,基于网络爬虫,用于采集中文开放域对话文本语料,并对数据进行过滤与清洗;
分词与词性标注模块,用于断句分词,并依据每一个词组或短语在句法结构或语言形态上承担的成分,通过词性分类赋予每个词一个词性的标记,然后透过正规表达式,提取出具有名词性质的词;
语义及主题增强模块,用于让模型更好地学习到句子语义表征,对原始句子进行语义及主题的数据增强,包括以下内容方式:1)随机同义词替换,2)随机临近词调换,3)随机删除或重复非名词词组,4)使用SimBERT做句子改写,5)使用词向量模型做名词的同义词替换,6)名词词组的随机重复;
文本编码模块,使用预训练句子表征模型得到原始句子与增强后句子的向量表征,然后利用图卷积神经网络,透过对数据增强后的句子向量表征做聚合,得到主题增强后的句子向量表征;
基于对比学习的句子排序模块,采用对比学习的方法,将同一段对话的前后文作为正例,取该段对话的前文与另一段对话的回复作为负例训练回复排序选择模型,用于筛选出最适合的回复文本;
回复生成模块,将图卷积神经网络得到的主题增强的句子向量表征作为Prompt输入到预训练生成模型GPT中,并采用Beam Search束搜索的方式产生主题相关的回复候选集,然后透过前面训练好的排序模块进行排序筛选找到最适合的回复。
如图2所示,本发明的一种基于主题增强的开放域对话回复方法,包括如下步骤:
步骤一:采集开源的中文开放域对话文本语料并预处理得到对话语料数据集。
透过网络爬虫采集中文开放域对话文本语料,其中包括微博语料、豆瓣会话语料、百度贴吧对话语料。并对这些语料进行数据的过滤与清洗最后得到近300万笔对话数据。
步骤二:利用公开的自然语言处理工具包HanNLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语。
利用公开的自然语言处理工具包HanNLP提供的中文分词与词性标注套件,对每一段对话进行断句得到m句对话:
Figure 388353DEST_PATH_IMAGE001
,每一句对话进行分词得到n个词语:
Figure 503945DEST_PATH_IMAGE002
,并由机器给句子中分词的结果,依据其在句法结构或语言形态上承担的成分,通过词性分类赋予每个词的词性标记。
其中,对每一个词语
Figure 764025DEST_PATH_IMAGE003
按照PKU规范(现代汉语语料库加工规范)被分成43类,为了找到与主题相关的词组,从这43类的词性类别中选择了an(具有名词功能的形容词)、n(名词)、nr(人名)、ns(地名)、nt(机构团体名)、nz(专有名词),并用正则表达式将符合上述词性的词语全部抽取出来。
步骤三:对每一句对话进行语义及主题信息的增强处理,后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征,具体包括以下子步骤:
步骤3.1,为了更好地让网络模型学习到句子语义表征,将每一句对话
Figure 100002_DEST_PATH_IMAGE029
进行数据的语义增强,采用的方法包括:1)利用中文近义词词典将对话文本(对话的句子)中的词组进行随机同义词替换;2)将对话文本中的临近词组进行随机的调换位置;3)使用对话文本中的非名词词组进行随机的重复多次或者删除;4)使用SimBERT模型改写对话文本。
步骤3.2:若对话句子中有透过词性标注模型找出名词或名词性短语,除了步骤3.1对句子语义进行增强外,还会使用抽取出来的名词进行主题信息的增强,采用的方法包括:1)使用大规模词向量模型得到这些名词或名词性短语的相似词,并用这些相似词替换原本对话文本(原始句子)中的名词或名词短语;2)使用对话文本中的名词词组或短语进行随机的重复多次。
步骤3.3:得到语义及主题信息增强的对话文本之后,再利用上述步骤二至步骤三的方法,对增强的对话文本做再一次的数据增强的处理,确保增强后语义及主题的丰富性。
步骤3.4:然后使用预训练的句子表征模型RoBERTa来学习原始句子与增强后的句子的向量表征,输入一个句子到RoBERTa模型中,将模型输出中[CLS] token对应的向量取出作为该句子的向量表征。
步骤四:使用图卷积神经网络提取对话句子的语义及主题信息,并进行主题聚合增强的处理,得到主题聚合增强后的句向量,具体包括以下子步骤:
步骤4.1:首先用原始的对话文本与增强后的对话文本建构一张有向图,图上的节点
Figure 905156DEST_PATH_IMAGE005
代表编码后的原始句子,
Figure 950604DEST_PATH_IMAGE006
代表增强后的句子集合;每一增强后的句子都有一条边
Figure 253409DEST_PATH_IMAGE007
指向原始句子,最后得到一张有向图
Figure 735206DEST_PATH_IMAGE008
步骤4.2:在建构好有向图
Figure 352132DEST_PATH_IMAGE009
后,接下来要使用图卷积神经网络,沿着边的方向对原始句子进行语义以及主题的聚合增强处理,具体操作如下:
在有向图
Figure 235775DEST_PATH_IMAGE009
中一共存在两种关系:
一阶直接相邻
Figure 961679DEST_PATH_IMAGE010
表示两个节点中有一条边相连,指的是原始句子与直接相邻的增强后的句子,
二阶间接相邻
Figure 930772DEST_PATH_IMAGE030
表示两个节点之间没有一条边直接相连,而是有一个共同的相邻节点,指的是增强后的句子之间,因为在建立的有向图网路中,没有直接相连的结点也会存在某些主题之间的联系,透过这种二阶间接相邻关系可以提取到更多文本主题相关的特征;
透过邻接矩阵
Figure 882547DEST_PATH_IMAGE016
Figure 151854DEST_PATH_IMAGE013
分别计算对应的度矩阵,计算公式分别为:
Figure 547195DEST_PATH_IMAGE014
Figure 3584DEST_PATH_IMAGE015
并透过各对应的度矩阵对邻接矩阵
Figure 759050DEST_PATH_IMAGE016
Figure 554968DEST_PATH_IMAGE013
分别做一个归一化的操作,防止某一节点因为相连的边比较多而造成较大的影响力,对应的计算公式分别为:
Figure 370477DEST_PATH_IMAGE031
Figure 100002_DEST_PATH_IMAGE032
然后使用一个线性变化以及Sigmod激活函数来计算每一个经过一阶相邻与二阶相邻增强后的句子向量
Figure 360168DEST_PATH_IMAGE019
,其计算公式为:
Figure 919325DEST_PATH_IMAGE033
Figure 632066DEST_PATH_IMAGE021
其中
Figure 103630DEST_PATH_IMAGE022
表示主题增强前的原始句向量,
Figure 534611DEST_PATH_IMAGE023
Figure 835143DEST_PATH_IMAGE024
表示线性变化的权重,
Figure 667969DEST_PATH_IMAGE025
Figure 559702DEST_PATH_IMAGE026
则为可学习的参数,用来控制一阶相邻与二阶相邻的增强后语句对主题增强的影响。
步骤五:将主题聚合增强后的句向量输入到预训练的生成模型GPT中,采用束搜索的解码策略生成对话回复候选集,最后采用对比学习的方法训练回复排序选择模型将最适合的回复选出来。
步骤5.1:将得到的主题聚合增强后的句向量作为一个主题的Prompt和原始句向量拼接起来,输入到预训练的生成模型GPT中,在解码的过程中采用Beam Search束搜索的方式产生对话回复候选集,不同于Greedy Search贪心搜索的是每一个time step时间步只产生概率最高的特征向量token,Beam Search在生成回复的时候每一步都保留束宽beamsize个概率最高的候选特征向量token。
步骤5.2:在使用Beam Search产生多个对话回复候选集后,采用对比学习的方法训练一个回复排序选择模型将最适合的回复选出来。
通过网络爬虫搜集到的开放域中文对话语料中构建正负例,将同一段对话的前后文作为正例,该段对话的前文与其他段对话的回复作为负例,训练模型去判断该回复是否适合,具体为:将前后文两两拼接在一起,然后输入到预训练BERT模型中,然后将输出中[CLS] token对应的向量
Figure 100002_DEST_PATH_IMAGE034
取出来做分类。其中,回复排序选择模型训练的损失函数为:
Figure 249616DEST_PATH_IMAGE035
S 1 i 表示一段对话句子i中的前文句子,S 2 i 表示一段对话中的对句子S 1 i 回复的后文句子,S 2 j 表示另一段对话即其他段对话句子j中的回复的后文句子,N表示有N个其他段对话句子;
采用对比学习的方法是让正例之间的距离
Figure 100002_DEST_PATH_IMAGE036
更加靠近,同时让负例之间的距离增加。
综上所述,本实施提供的方法,通过图卷积神经网络、对比学习与主题增强,可以实现开放域主题可控回复生成。
与前述一种基于主题增强的开放域对话回复方法的实施例相对应,本发明还提供了一种基于主题增强的开放域对话回复装置的实施例。
参见图3,本发明实施例提供的一种基于主题增强的开放域对话回复装置,包括一个或多个处理器,用于实现上述实施例中的一种基于主题增强的开放域对话回复方法。
本发明的一种基于主题增强的开放域对话回复装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明的一种基于主题增强的开放域对话回复装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于主题增强的开放域对话回复方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于主题增强的开放域对话回复方法,其特征在于,包括以下步骤:
步骤一:采集开源的中文开放域对话文本语料并预处理得到中文对话语料数据集;
步骤二:利用公开的自然语言处理工具包HanNLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语;
所述步骤二具体为:利用公开的自然语言处理工具包HanNLP,对中文对话语料数据集中的每一段对话进行断句得到m句对话:
Figure DEST_PATH_IMAGE002
,每一句对话进行分词得到n个词语:
Figure DEST_PATH_IMAGE004
,对每一个词语
Figure DEST_PATH_IMAGE006
按照现代汉语语料库加工规范进行词性分类,依据词语在句法结构或语言形态上承担的成分,通过词性分类赋予每个词词性标记,并用正则表达式将符合名词性的词语全部抽取出来,即从词性类别中选择具有名词功能的形容词、名词、人名、地名、机构团体名、专有名词;
步骤三:对每一句对话进行语义及主题信息的增强处理,后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征;
所述步骤三,具体包括以下子步骤:
步骤3.1,将每一句对话
Figure DEST_PATH_IMAGE008
进行数据的语义增强;
步骤3.2:对抽取出来的名词进行主题信息的增强;
步骤3.3:对增强的对话文本做再一次的数据增强的处理;
步骤3.4:然后使用预训练的句子表征模型RoBERTa来学习原始句子与增强后的句子的向量表征;
步骤四:使用图卷积神经网络提取对话句子的语义及主题信息,并进行主题聚合增强的处理,得到主题聚合增强后的句向量;
步骤五:将主题聚合增强后的句向量输入到预训练的生成模型GPT中,采用束搜索的解码策略生成对话回复候选集,最后采用对比学习的方法训练回复排序选择模型将最适合的回复选出来。
2.如权利要求1所述的一种基于主题增强的开放域对话回复方法,其特征在于,所述步骤一具体为:通过网络爬虫的方式,采集开源的中文开放域对话文本语料并进行数据的过滤与清洗,得到中文对话语料数据集。
3.如权利要求1所述的一种基于主题增强的开放域对话回复方法,其特征在于,所述语义增强的方式包括:1)利用中文近义词词典将对话文本中的词组进行随机同义词替换;2)将对话文本中的临近词组进行随机的调换位置;3)使用对话文本中的非名词词组进行随机的重复多次或者删除;4)使用SimBERT模型改写对话文本;
所述主题信息的增强的方式包括:采用的方法包括:1)使用大规模词向量模型得到名词或名词性短语的相似词,并用所述相似词替换原本对话文本中的名词或名词短语;2)使用对话文本中的名词词组或短语进行随机的重复多次。
4.如权利要求1所述的一种基于主题增强的开放域对话回复方法,其特征在于,所述步骤四,具体包括以下子步骤:
步骤4.1:首先用原始的对话文本与增强后的对话文本建构一张有向图,图上的节点
Figure DEST_PATH_IMAGE010
代表编码后的原始句子,
Figure DEST_PATH_IMAGE012
代表增强后的句子集合;每一增强后的句子都有一条边
Figure DEST_PATH_IMAGE014
指向原始句子,最后得到一张有向图
Figure DEST_PATH_IMAGE016
步骤4.2:在建构好有向图G后,使用图卷积神经网络,沿着边的方向对原始句子进行语义以及主题的聚合增强处理;
所述聚合增强处理的具体方式为:
在有向图G中存在两种关系:
一阶直接相邻
Figure DEST_PATH_IMAGE018
表示两个节点中有一条边相连,指的是原始句子与直接相邻的增强后的句子,
二阶间接相邻
Figure DEST_PATH_IMAGE020
表示两个节点之间没有一条边直接相连,而是有一个共同的相邻节点;
透过邻接矩阵
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
分别计算对应的度矩阵,计算公式分别为:
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
并透过各对应的度矩阵对邻接矩阵
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
分别做归一化的操作,对应的计算公式分别为:
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
然后使用一个线性变化以及Sigmod激活函数来计算每一个经过一阶相邻与二阶相邻增强后的句子向量
Figure DEST_PATH_IMAGE036
,其计算公式为:
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE040
其中
Figure DEST_PATH_IMAGE042
表示主题增强前的原始句向量,Wb表示线性变化的权重,
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE046
则为可学习的参数。
5.如权利要求4所述的一种基于主题增强的开放域对话回复方法,其特征在于,所述步骤五,具体包括以下子步骤:
步骤5.1:将得到的主题聚合增强后的句向量和原始句向量拼接起来,输入到预训练的生成模型GPT中,在解码的过程中采用Beam Search束搜索的方式产生对话回复候选集;
步骤5.2:采用对比学习的方法训练回复排序选择模型得到原始句子最适合的回复。
6. 如权利要求5所述的一种基于主题增强的开放域对话回复方法,其特征在于,所述步骤5.2具体为:在通过网络爬虫搜集到的开放域中文对话语料中构建正负例,将同一段对话的前后文作为正例,该段对话的前文与其他段对话的回复作为负例,训练回复排序选择模型去判断该回复是否适合,具体为:将前后文两两拼接在一起,然后输入到预训练BERT模型中,然后将BERT模型输出中[CLS] token对应的向量
Figure DEST_PATH_IMAGE048
取出来做分类。
7.如权利要求6所述的一种基于主题增强的开放域对话回复方法,其特征在于,所述回复排序选择模型训练的损失函数为:
Figure DEST_PATH_IMAGE050
其中,S 1 i 表示一段对话句子i中的前文句子,S 2 i 表示一段对话中的对句子S 1 i 回复的后文句子,S 2 j 表示另一段对话即其他段对话句子j中的回复的后文句子,N表示有N个其他段对话句子。
8.一种基于主题增强的开放域对话回复系统,其特征在于,包括:
文本采集模块,基于网络爬虫,用于采集中文开放域对话文本语料,并对数据进行过滤与清洗;
分词与词性标注模块,用于断句分词,并依据每一个词组或短语在句法结构或语言形态上承担的成分,通过词性分类赋予每个词一个词性的标记,然后透过正规表达式,提取出具有名词性质的词;
语义及主题增强模块,用于让模型更好地学习到句子语义表征,对原始句子进行语义及主题的数据增强,包括以下内容方式:1)随机同义词替换,2)随机临近词调换,3)随机删除或重复非名词词组,4)使用SimBERT模型做句子改写,5)使用词向量模型做名词的同义词替换,6)名词词组的随机重复;
文本编码模块,使用预训练句子表征模型得到原始句子与增强后句子的向量表征,然后利用图卷积神经网络,透过对数据增强后的句子向量表征做聚合,得到主题增强后的句子向量表征;
基于对比学习的句子排序模块,采用对比学习的方法,将同一段对话的前后文作为正例,取该段对话的前文与另一段对话的回复作为负例训练回复排序选择模型,用于筛选出最适合的回复文本;
回复生成模块,将图卷积神经网络得到的主题增强的句子向量表征作为Prompt输入到预训练生成模型GPT中,并采用Beam Search束搜索的方式产生主题相关的回复候选集,然后透过前面训练好的排序模块进行排序筛选找到最适合的回复。
CN202210981384.4A 2022-08-16 2022-08-16 一种基于主题增强的开放域对话回复方法及系统 Active CN115048944B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210981384.4A CN115048944B (zh) 2022-08-16 2022-08-16 一种基于主题增强的开放域对话回复方法及系统
PCT/CN2022/139320 WO2024036840A1 (zh) 2022-08-16 2022-12-15 基于主题增强的开放域对话回复方法及系统
US18/297,610 US20240062006A1 (en) 2022-08-16 2023-04-08 Open domain dialog reply method and system based on thematic enhancement

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210981384.4A CN115048944B (zh) 2022-08-16 2022-08-16 一种基于主题增强的开放域对话回复方法及系统

Publications (2)

Publication Number Publication Date
CN115048944A CN115048944A (zh) 2022-09-13
CN115048944B true CN115048944B (zh) 2022-12-20

Family

ID=83167008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210981384.4A Active CN115048944B (zh) 2022-08-16 2022-08-16 一种基于主题增强的开放域对话回复方法及系统

Country Status (2)

Country Link
CN (1) CN115048944B (zh)
WO (1) WO2024036840A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048944B (zh) * 2022-08-16 2022-12-20 之江实验室 一种基于主题增强的开放域对话回复方法及系统
CN115879422B (zh) * 2023-02-16 2023-06-13 之江实验室 一种对话回复生成方法、装置和存储介质
CN115879421B (zh) * 2023-02-16 2024-01-09 之江实验室 一种增强bart预训练任务的句子排序方法及装置
CN116910646B (zh) * 2023-07-04 2024-02-09 南京航空航天大学 So网站中知识单元的内部链接目的分类方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319599A (zh) * 2017-01-17 2018-07-24 华为技术有限公司 一种人机对话的方法和装置
CN108960574A (zh) * 2018-06-07 2018-12-07 百度在线网络技术(北京)有限公司 问答的质量确定方法、装置、服务器和存储介质
CN109829052A (zh) * 2019-02-19 2019-05-31 田中瑶 一种基于人机交互的开放式对话方法和系统
CN112417125A (zh) * 2020-12-01 2021-02-26 南开大学 基于深度强化学习的开放域对话回复方法及系统
CN113254582A (zh) * 2021-05-26 2021-08-13 四川大学 一种基于预训练模型的知识驱动对话方法
CN113515613A (zh) * 2021-06-25 2021-10-19 华中科技大学 一种集成闲聊、知识和任务问答的智能机器人
CN113934835A (zh) * 2021-12-16 2022-01-14 之江实验室 结合关键词和语义理解表征的检索式回复对话方法及系统
CN114428850A (zh) * 2022-04-07 2022-05-03 之江实验室 一种文本检索匹配方法和系统
CN114564568A (zh) * 2022-02-25 2022-05-31 福州大学 基于知识增强与上下文感知的对话状态追踪方法及系统
CN114722834A (zh) * 2022-04-25 2022-07-08 中国平安人寿保险股份有限公司 基于对比学习的语义识别模型训练方法、设备和介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6832501B2 (ja) * 2016-06-17 2021-02-24 パナソニックIpマネジメント株式会社 意味生成方法、意味生成装置及びプログラム
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
RU2730449C2 (ru) * 2019-01-29 2020-08-21 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ создания модели анализа диалогов на базе искусственного интеллекта для обработки запросов пользователей и система, использующая такую модель
CN110069611B (zh) * 2019-04-12 2021-05-04 武汉大学 一种主题增强的聊天机器人回复生成方法及装置
US11449556B2 (en) * 2020-02-04 2022-09-20 Accenture Global Solutions Limited Responding to user queries by context-based intelligent agents
US11676067B2 (en) * 2020-02-14 2023-06-13 Nice Ltd. System and method for creating data to train a conversational bot
CN111310438B (zh) * 2020-02-20 2021-06-08 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN112417112A (zh) * 2020-11-10 2021-02-26 中山大学 一种基于图表征增强的开放域对话系统评估方法
CN114443827A (zh) * 2022-01-28 2022-05-06 福州大学 基于预训练语言模型的局部信息感知对话方法及系统
CN115048944B (zh) * 2022-08-16 2022-12-20 之江实验室 一种基于主题增强的开放域对话回复方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319599A (zh) * 2017-01-17 2018-07-24 华为技术有限公司 一种人机对话的方法和装置
CN108960574A (zh) * 2018-06-07 2018-12-07 百度在线网络技术(北京)有限公司 问答的质量确定方法、装置、服务器和存储介质
CN109829052A (zh) * 2019-02-19 2019-05-31 田中瑶 一种基于人机交互的开放式对话方法和系统
CN112417125A (zh) * 2020-12-01 2021-02-26 南开大学 基于深度强化学习的开放域对话回复方法及系统
CN113254582A (zh) * 2021-05-26 2021-08-13 四川大学 一种基于预训练模型的知识驱动对话方法
CN113515613A (zh) * 2021-06-25 2021-10-19 华中科技大学 一种集成闲聊、知识和任务问答的智能机器人
CN113934835A (zh) * 2021-12-16 2022-01-14 之江实验室 结合关键词和语义理解表征的检索式回复对话方法及系统
CN114564568A (zh) * 2022-02-25 2022-05-31 福州大学 基于知识增强与上下文感知的对话状态追踪方法及系统
CN114428850A (zh) * 2022-04-07 2022-05-03 之江实验室 一种文本检索匹配方法和系统
CN114722834A (zh) * 2022-04-25 2022-07-08 中国平安人寿保险股份有限公司 基于对比学习的语义识别模型训练方法、设备和介质

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
5G背景下的智能对话系统架构及应用;黄毅等;《电信工程技术与标准化》;20200115(第01期);第43-50页 *
GRS:一种面向电商领域智能客服的生成-检索式对话模型;郭晓哲等;《华东师范大学学报(自然科学版)》;20200925(第05期);第156-166页 *
Hierarchical and Multi-View Dependency Modelling Network for Conversational Emotion Recognition;Yu-Ping Ruan;《ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20220427;第7032-7036页 *
Identifying Reply Relationships from Telegram Groups Using Multi-Features Fusion;Panpan Zhang;《2021 IEEE Sixth International Conference on Data Science in Cyberspace (DSC)》;20220411;第321-327页 *
基于DQN的开放域多轮对话策略学习;宋皓宇等;《中文信息学报》;20180715(第07期);第98-107、135页 *
基于双通道卷积神经网络的问句意图分类研究;杨志明等;《中文信息学报》;20190515(第05期);第120-129页 *
群体研讨支持系统中研讨主题的自动可视化聚类研究;李嘉等;《系统管理学报》;20090615(第03期);第325-331页 *
融合领域特征知识图谱的电网客服问答系统;谭刚等;《计算机工程与应用》;20190906(第03期);第232-239页 *

Also Published As

Publication number Publication date
CN115048944A (zh) 2022-09-13
WO2024036840A1 (zh) 2024-02-22

Similar Documents

Publication Publication Date Title
CN115048944B (zh) 一种基于主题增强的开放域对话回复方法及系统
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
CN109165380B (zh) 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN114428850B (zh) 一种文本检索匹配方法和系统
Logeswaran et al. Sentence ordering using recurrent neural networks
CN111611393A (zh) 一种文本分类方法、装置及设备
CN110889292B (zh) 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
Petrov et al. Sparse multi-scale grammars for discriminative latent variable parsing
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN112711666B (zh) 期货标签抽取方法及装置
Lyu et al. Deep learning for textual entailment recognition
Dündar et al. A Hybrid Approach to Question-answering for a Banking Chatbot on Turkish: Extending Keywords with Embedding Vectors.
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN112434518B (zh) 一种文本报告打分方法及系统
CN115017870A (zh) 一种闭环的话术扩写方法、装置、计算机设备及存储介质
Ramesh et al. Interpretable natural language segmentation based on link grammar
Zavrel et al. Feature-Rich Memory-Based Classification for Shallow NLP and Information Extraction.
Jenkins Designing Service-Oriented Chatbot Systems Using a Construction Grammar-Driven Natural Language Generation System
US20240062006A1 (en) Open domain dialog reply method and system based on thematic enhancement
Matsuyoshi et al. User's Intention Understanding in Question-Answering System Using Attention-based LSTM
CN110610001A (zh) 短文本完整性识别方法、装置、存储介质及计算机设备
Ersan Focusing for pronoun resolution in English discourse: an implementation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant