CN116108158A - 在线互动问答文本特征构造方法和系统 - Google Patents

在线互动问答文本特征构造方法和系统 Download PDF

Info

Publication number
CN116108158A
CN116108158A CN202310389342.6A CN202310389342A CN116108158A CN 116108158 A CN116108158 A CN 116108158A CN 202310389342 A CN202310389342 A CN 202310389342A CN 116108158 A CN116108158 A CN 116108158A
Authority
CN
China
Prior art keywords
question
text
similarity
answering
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310389342.6A
Other languages
English (en)
Other versions
CN116108158B (zh
Inventor
蒋翠清
马兰
车万留
陈波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202310389342.6A priority Critical patent/CN116108158B/zh
Publication of CN116108158A publication Critical patent/CN116108158A/zh
Application granted granted Critical
Publication of CN116108158B publication Critical patent/CN116108158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种在线互动问答文本特征构造方法和系统,涉及文本特征挖掘技术领域。本发明基于BERTopic模型设计了领域适用的主题特征构造方法,该方法对文档嵌入模型进行改进,即融入任务自适应预训练方法,实现了语义信息的精准捕捉;同时,提出基于相似性动态集成的交互特征构造方法,通过动态集成将多种相似度算法进行有机结合,得到相似度矩阵,提高了多维度挖掘交互信息的准确性;且设计融合多头注意力机制和门控机制的问答文本特征重要性自适应判别模型,考虑了不同文本特征的差异化预测或分类性能,自适应地赋予多维文本特征差异性权重,进而生成多维问答文本特征矩阵。本发明提高了构造问答文本特征的精度和泛化性。

Description

在线互动问答文本特征构造方法和系统
技术领域
本发明涉及文本挖掘技术领域,具体涉及一种在线互动问答文本特征构造方法和系统。
背景技术
大数据时代下信息的迅猛发展,涌现出了大批互动平台(如“车问答”、“外卖APP”等)。在线互动平台是一个可以为消费者、管理者等提供在线交流和共享信息的重要平台,在这个互动平台上,消费者、管理者两两之间的互动问答往往蕴含了很多重要信息。在线互动平台的互动问答文本信息是由两部分组成的交互式文本信息,分别是消费者提出的问题和管理者的回答,其具有交互性、针对性和可靠性。提问者、回复者,以及第三方平台等均可以从高质量问答文本中获取重要语义信息,从而辅助自己做出重要判断和决策。然而,如何从在线互动平台问答文本中挖掘和构建有效特征,以获取问答文本的真实语义信息,一直是一个亟需解决的问题。
目前,在线互动平台的问答文本特征挖掘和构造技术,有的是构造简单的数量指标,有的仅仅只使用问题文本或者回答文本单方面文本。这些方法要么没有考虑问答文本的交互性,要么没有提取问答文本更深层次的语义信息,且没有考虑不同文本特征在不同目标预测或分类能力上的差异性,而基于此挖掘和构造的互动问答文本特征必然是不精准的,其也无法辅助不同使用者在不同目标预测或分类上做出科学的判断和决策。
综上所述,现有的互动问答文本特征构造技术在获取互动问答文本特征时存在精度差的问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种在线互动问答文本特征构造方法和系统,解决了现有互动问答文本特征构造技术在获取互动问答文本特征时存在精度差的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明首先提出了一种在线互动问答文本特征构造方法,所述方法包括:
获取在线互动平台的问答文本;
基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征;
构建问答文本特征重要性自适应判别模型,将包括所述主题特征和交互特征的所述问答文本特征输入所述问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,所述问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。
优选的,所述基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征包括:
S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征;所述主题特征包括问题文本主题特征和回答文本主题特征;
S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征。
优选的,所述S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征包括:
S211、通过任务自适应预训练对预训练语言表征模型进行改进,得到领域适用的预训练语言表征模型;
S212、将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,并将所述问答文本输入BERTopic中得到主题特征。
优选的,所述S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征包括:
S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度;
S222、基于相似度动态集成算法对包括所述问答文本的余弦相似度和主题分布的相似度的若干个所述相似度计算结果进行动态集成,获取文本问答的交互特征。
优选的,所述S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度包括:
通过领域适用的预训练语言表征模型,将所述问答文本映射到高维的向量空间,得到问题和答案的语义向量表征,对语义向量表征进行包括降维处理、去除噪音的操作,得到问答文本的向量矩阵,再利用余弦相似度算法计算相似值,以获取问答文本的余弦相似度;
将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,生成问答文本主题模型,再利用所述问答文本主题模型获取所述问答文本中问题和答案主题分布表示,并用Jensen-Shannon散度度量问题和答案主题分布的相似度。
第二方面,本发明还提出了一种在线互动问答文本特征构造系统,所述系统包括:
问答文本数据获取模块,用于获取在线互动平台的问答文本;
问答文本特征获取模块,用于基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征;
多维问答文本特征矩阵获取模块,用于构建问答文本特征重要性自适应判别模型,将包括所述主题特征和交互特征的所述问答文本特征输入所述问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,所述问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。
优选的,所述基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征包括:
S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征;所述主题特征包括问题文本主题特征和回答文本主题特征;
S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征。
优选的,所述S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征包括:
S211、通过任务自适应预训练对预训练语言表征模型进行改进,得到领域适用的预训练语言表征模型;
S212、将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,并将所述问答文本输入BERTopic中得到主题特征。
优选的,所述S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征包括:
S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度;
S222、基于相似度动态集成算法对包括所述问答文本的余弦相似度和主题分布的相似度的若干个所述相似度计算结果进行动态集成,获取文本问答的交互特征。
优选的,所述S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度包括:
通过领域适用的预训练语言表征模型,将所述问答文本映射到高维的向量空间,得到问题和答案的语义向量表征,对语义向量表征进行包括降维处理、去除噪音的操作,得到问答文本的向量矩阵,再利用余弦相似度算法计算相似值,以获取问答文本的余弦相似度;
将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,生成问答文本主题模型,再利用所述问答文本主题模型获取所述问答文本中问题和答案主题分布表示,并用Jensen-Shannon散度度量问题和答案主题分布的相似度。
(三)有益效果
本发明提供了一种在线互动问答文本特征构造方法和系统。与现有技术相比,具备以下有益效果:
1、本发明首先获取在线互动平台的问答文本,然后基于问答文本获取问答文本特征;其中,问答文本特征包括主题特征和交互特征;最后构建问答文本特征重要性自适应判别模型,并将包括主题特征和交互特征的问答文本特征输入该问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。本发明可以得到在线互动平台问答文本的细粒度级别的语义信息和交互信息,同时可以基于后续任务的具体实际情况自适应地赋予各种不同文本特征的差异性权重,进而生成多维问答文本特征矩阵,提高了文本特征构造方法的精度、灵活性,以及泛化性。
2、本发明利用任务自适应预训练和BERTopic提取主题特征,即利用领域适用的主题特征构造方法获取主题特征,可以获取在线互动平台的问答文本中的细粒度语义信息,辅助提高了文本特征构造的精度。
3、本发明利用相似度动态集成算法,根据实时数据和情况,动态地选择、组合和调整多个相似度结果之间的集成方式,从而得到综合的相似度矩阵,即交互特征,可以根据实际情况获取交互时相关回答满意度信息,辅助提高了文本特征构造的精度。
4、本发明设计了融合多头注意力机制和门控机制的问答文本特征重要性自适应判别模型,可自适应地赋予多维文本特征的差异性权重,进而生成的多维问答文本特征矩阵,可以基于不同的后续任务的实际需要调节多维文本特征的差异性权重,可以提高多维问答文本特征矩阵用于后续任务时的灵活性和泛化性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种在线互动问答文本特征构造方法的流程图;
图2为本发明实施例中提取主题特征和交互特征的流程图;
图3为本发明实施例中提取主题特征的流程图;
图4为本发明实施例中提取交互特征的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种在线互动问答文本特征构造方法和系统,解决了现有互动问答文本特征构造技术在获取互动问答文本特征时存在精度差的问题,实现辅助提问者、回复者,以及第三方平台等相关人员做出科学判断和决策的目的。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
针对在线互动问答平台情景下交互式问答文本特征构造交互性差、领域性不足而导致现有互动问答文本特征构造技术在获取互动问答文本特征时存在精度差的问题,本申请的技术方案首先基于BERTopic模型设计了领域适用的主题特征构造方法,实现了细粒度的主题识别和问答文本语义信息的精准捕捉;然后提出了一种基于相似性动态集成的交互特征构造方法,通过动态集成技术将多种相似度算法进行有机结合,生成了综合相似度矩阵,提高了多维度挖掘交互信息的准确性;最后,设计了融合多头注意力机制和门控机制的问答文本特征重要性自适应判别模型,综合考虑了不同文本特征的差异化预测或分类性能,自适应地赋予多维文本特征差异性权重,进而生成多维问答文本特征矩阵。本申请的技术方案提高了问答文本特征构造的交互性和语义粒度级别,可用于汽车、医疗等多领域的交互式问答文本特征的高效、高精度抽取,具有灵活性高,泛化性强等特点。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
在线互动平台的文本问答信息是由两部分组成的交互式文本信息,分别是消费者提出的问题和管理者的回答。这种互动问答模式将主动权(例如,识别潜在问题)交给提问者(例如,消费者、投资者等),回复者(例如,商家、企业等)的回复可以减少问答双方的信息不对称。在此交互过程中,高质量的回答有利于提高商品或者企业的好感度,从而吸引更多的用户,促成供求交易。此外,第三方平台也可以根据问答文本的语义信息,挖掘出所要了解的重要信息,辅助用户在进行不同目标预测或分类时做出科学判断和决策。本申请的技术方案包括但不限于汽车、医疗等多领域的交互式问答文本特征的高效、高精度抽取,并辅助相关领域和企业的决策者做出科学判断和决策。下面,以本申请的技术方案在汽车领域的具体应用来详细说明本申请技术方案的具体实现过程。
实施例1:
第一方面,本发明首先提出了一种在线互动问答文本特征构造方法,参见图1,该方法包括:
S1、获取在线互动平台的问答文本;
S2、基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征;
S3、构建问答文本特征重要性自适应判别模型,将包括所述主题特征和交互特征的所述问答文本特征输入所述问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,所述问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。
可见,本实施例首先获取在线互动平台的问答文本,然后基于问答文本获取问答文本特征;其中,问答文本特征包括主题特征和交互特征;最后构建问答文本特征重要性自适应判别模型,并将包括主题特征和交互特征的问答文本特征输入该问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。本实施例可以得到在线互动平台问答文本的细粒度级别的语义信息和交互信息,同时可以基于后续任务的具体实际情况自适应地赋予各种不同文本特征的差异性权重,进而生成多维问答文本特征矩阵,提高了文本特征构造方法的精度、灵活性,以及泛化性。
下面结合附图1-4,以及对S1-S3具体步骤的解释,来详细说明本发明一个实施例的实现过程。
S1、获取在线互动平台的问答文本。
在本实施例中,通过python爬虫技术,获取汽车领域在线互动平台的问答文本。例如,从“车问答”等在线互动平台上利用python爬虫技术爬取问答文本。
S2、基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征。
在基于上述问答文本获取问答文本特征时,基于所述问答文本利用领域适用的主题特征构造方法获取主题特征;且基于所述问答文本利用相似性动态集成的交互特征构造方法获取交互特征。
为了提高在线互动平台的互动问答文本主题特征挖掘的深度和准确性,基于互动问答文本的特点和多维视角,本实施例首先利用领域适用的主题特征构造方法和相似性动态集成的交互特征构造方法分别从问答文本中提取主题特征和交互特征。参见图2,提取主题特征和交互特征的具体的步骤为:
S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征;所述主题特征包括问题文本主题特征和回答文本主题特征。
利用任务自适应预训练和BERTopic提取主题特征,以获取问答文本中的语义信息。具体来说,为了使预训练语言表征模型更加契合所在领域的文本语义,本实施例通过任务自适应预训练对已有的预训练语言表征模型进行改进,得到领域适用的预训练语言表征模型。再将领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,从而生成问答文本的主题特征矩阵。
为了保证BERTopic的文档嵌入模型的性能,获取问答文本中的细粒度语义信息,确保提取主题特征的精准性,需要对预训练语言表征模型进行任务自适应预训练,以得到适用于本实施例汽车领域的领域适应的预训练语言表征模型。步骤如图3所示,具体为:
S211、通过任务自适应预训练对预训练语言表征模型进行改进,得到领域适用的预训练语言表征模型。
本实施例中,使用bert-base-uncased模型作为预训练语言表征模型。在进行任务自适应预训练时,采用MLM方法对语言表征模型bert-base-uncased进行任务自适应预训练,即预测用[MASK]随机替换互动问答文本中的部分词(如15%的词语)。具体来说,对于一个汽车问题文本标记序列表示一个汽车问题文本序列的字符串,分别表示该字符串中的字符。例如,s=“大众四驱和奥迪四驱一样吗”,则=“大”,=“众”,…,=“吗”。MLM方法首先随机设置一部分表示字符串中的第j个字符)为[MASK],然后MLM方法根据上下文对[MASK]的部分进行预测。当预训练语言表征模型进行多次(在本实施例中设置为5次)训练迭代后,即可得到领域适用的预训练语言表征模型。
S212、将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,并将所述问答文本输入BERTopic中得到主题特征。
当得到领域适用的预训练语言表征模型后,将汽车问答文本进行文本清洗、分词等预处理,将上述预处理过的问答文本作为BERTopic模型的语料,汽车领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,得到问答文本的主题模型。利用该问答文本的主题模型得到汽车领域投资者问题文本和答案文本所对应的主题(假设生成个主题)。将问答文本的主题进行独热编码,并不是所有的主题都有利于主题模型的构建,需要对主题进行筛选,保留重要主题,删除不重要的主题。本方法利用LASSO对主题进行筛选,保留重要的主题。
其中,LASSO回归的代价函数为:
其中,表示第个主题();表示目标变量;表示惩罚因子;表示模型误差;T表示矩阵转置;表示的1-范数;表示由BERTopic生成的主题总数量。
求得代价函数最小时的大小,即可获得构建主题模型所需要的重要主题。具体的,当代价函数取最小值时,表示主题模型误差最小,取x(输入主题)系数不为0的那一部分x(重要主题)作为筛选后的特征,得到重要主题。
(1)计算问题文本的主题特征矩阵。
计算问题文本的重要主题比例,即每个重要主题的问题数量占所有问题的比例,具体计算方法如下:
,
其中,表示经过LASSO筛选后的主题数;表示所有问题数;表示属于主题的问题数。
则汽车领域的问题文本主题特征矩阵可表示为:
其中,表示第个主题的主题比例;表示问题文本主题特征矩阵。
(2)计算回答文本的主题特征矩阵。
计算回答文本的重要主题比例,即每个重要主题的回答数量占所有回答的比例,具体计算方法如下:
,
其中,表示LASSO筛选后的主题数;表示所有回答数;表示属于主题的回答数。
则汽车领域的回答文本主题特征矩阵可表示为:
其中,表示第个主题的主题比例;表示回答文本主题特征矩阵。
S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征。
如图4所示,提取交互特征的步骤为如下:
S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度。
选择个相似度算法作为基础相似度算法,比如:余弦相似度计算、编辑距离、BM25、主题相似度计算等,通过以上个相似度算法可以得到个相似度矩阵,然后将以上个相似矩阵进行动态集成,得到一个综合的相似度矩阵,即交互特征矩阵。
1)在基于向量降维的余弦相似度算法进行余弦相似度计算。
通过领域适应的预训练语言表征模型bert-base-uncased将问答文本映射到高维的向量空间,得到问题和答案的语义向量表征,对语义向量表征进行降维处理,去除噪音,保留有价值的语义信息,分别得到问题和答案的向量矩阵,再利用余弦相似度计算相似值。
首先,将维向量进行零均值化处理,然后求协方差矩阵,计算协方差矩阵的特征值和特征向量,将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵;根据公式得到降维到 M维后的数据。
零均值化处理公式:
方差矩阵计算公式:
矩阵P:
降维:
其中,表示维语义向量表征;表示零均值化处理的语义向量表征;表示协方差矩阵;)表示的特征向量;表示特征值从大到小排列,前k个特征向量组成的矩阵;表示降维后的向量。
得到已经降维的向量后,可以根据余弦相似度算法计算问答文本的余弦相似度。问答文本的余弦相似度的计算方式如下:
其中,表示降维后的问题的语义向量表征;表示降维后的答案的语义向量表征;表示的模长;表示的模长。
2)基于领域适用的BERTopic主题相似度计算。
基于上述对BERTopic的文档嵌入模型的改进,可以得到汽车领域适用的BERTopic主题模型。通过汽车领域适用的BERTopic主题模型可以分别得到汽车领域在线互动问答文本中问题和答案主题分布的向量表示,然后用Jensen-Shannon散度度量问题和答案主题分布的相似性,其计算公式如下:
其中,分别表示问题和答案的主题分布向量;分别表示向量中第个元素的值;表示对数函数。表示之间的差异性,分别表示与他们平均分支之间的差异性(差异性越小,相似性越大);散度的取值范围是,取值越小表示主题分布越相似,取值越大表示主题分布越不相似。
S222、基于相似度动态集成算法对包括所述问答文本的余弦相似度和主题分布的相似度的若干个所述相似度计算结果进行动态集成,获取文本问答的交互特征矩阵。
在本实施例中,相似度动态集成算法表示:根据实际情况,动态地选择、组合和调整多个相似度算法的集成方式,从而得到综合的相似度矩阵。
设根据个基础相似度算法可以得到个相似度结果,每个相似度算法的计算公式可表示为:
其中,表示第个相似度矩阵,表示第个相似度算法,表示输入的问题文本,表示输入的回答文本。
将以上m个相似度结果进行集成,得到:
其中,表示由m个相似度矩阵组成的集合,分别表示基础相似度算法~(即~)对应的初始权重。
选择模型评估指标,得到集成模型的评价结果:
其中,表示评估指标,表示评估函数,表示集成模型的结果,T表示目标值。
当评估指标取最大值时,得到最优的基础相似度的组合:
其中,表示评估指标取最大值时,m个基础相似度算法的权重参数组合。
由于权重不是固定值,所以需要根据最优的评估函数得到最优的相似度矩阵组合权重。具体的,根据以下公式更新相似度集成权重:
其中,()表示更新权重的公式,表示最优相似度组合的评估指标,表示根据评估指标动态调整的最优相似度权重组合。
当得到最优相似度权重组合后,基于最优相似度权重组合和与各个权重一一对应的m个基础相似度结果获取问答文本交互特征矩阵。具体公式如下:
其中,表示第个相似度矩阵;表示交互特征矩阵。
S3、构建问答文本特征重要性自适应判别模型,将包括所述主题特征和交互特征的所述问答文本特征输入所述问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,所述问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。
构建问答文本特征重要性自适应判别模型,该模型融合多头注意力机制和门控机制,能自适应地赋予多维文本特征差异性权重,进而生成多维问答文本特征矩阵矩阵,包括:
(1)首先,进行问答文本特征的嵌入,将上述的主题特征和交互特征两个文本特征进行拼接,形成初始文本特征矩阵
其中,表示嵌入特征的总数量,表示第个特征;表示将多个特征进行拼接;表示特征嵌入权重矩阵,表示嵌入后形成的初始文本特征矩阵。
当然,在实际嵌入问答文本特征时,用户也可以根据实际需要添加其他特征,比如统计特征(问答长度,问答数量,问答情感等),而在本实施例中,为了便于技术方案的阐述,嵌入的文本特征主要包括问答文本的主题特征(即问题文本主题特征)和问答文本的交互特征()。问答文本主题特征实现了细粒度的主题识别和问答文本语义信息的精准捕捉,而问答文本交互特征考虑了问答文本的交互性,两者均能提高在线互动问答文本特征构造的精度和丰富度。
(2)其次,将嵌入向量(即初始文本特征矩阵)输入到多头注意力模块中,以学习每个特征的不同贡献。对于每个特征,可以使用不同注意力机制的头·数和权重矩阵,以获取不同的表征。假设使用个头,每个头的向量维度为,经过多头注意力模块嵌入的问答文本表征为:
分别表示查询、键、值的权重矩阵;表示单头注意力模块。
(3)最后,利用门控机制让模型能更好地控制问答文本信息的流动,从而实现对多头注意力的输出进行有效的调节。具体来说,通过加入可学习的参数计算门控向量,然后将其与多头注意力的输出,得到最终的输出多维问答文本特征矩阵矩阵,即:
其中,表示逐元素相乘;表示可以学习的参数,表示sigmoid函数,即为经过多头注意力门控网络输出的结果,也即多维问答文本特征矩阵矩阵。
至此,则完成了本实施例在线互动问答文本特征构造方法的全部流程。
在本实施例中,多维问答文本特征矩阵矩阵即为提取的“车问答”的多维问答文本特征矩阵,汽车领域的相关人员即可基于多维问答文本特征矩阵用来进行后续任务,包括利用问答文本信息对汽车质量进行评估,对汽车销量进行预测等等。不同的后续任务对应的方法不同。具体的,当用户需要利用本实施例的提取的多维问答文本特征矩阵矩阵来进行汽车质量评估时,由于汽车质量评估任务属于分类任务,后接一个分类模型,将多维问答文本特征矩阵矩阵输入该分类模型中即可实现汽车质量评估。而汽车销量评估属于回归,后接一个回归模型,将多维问答文本特征矩阵矩阵输入该分类模型中即可实现汽车销量评估。
以汽车质量评估为例,通过“车问答”平台得到在线互动问答文本,然后通过本实施例的方法构造问答文本特征矩阵,提取语义信息,然后将提取的文本特征矩阵输入一个分类模型如SVM、RF、XGBoost、MLP中,即构造了一个汽车质量评估模型。假设训练集有一批汽车类型以及所属等级(一等、二等、三等),该模型可以学习不同等级的语义信息(比如,汽车的发动机等硬信息、售后等软信息),从而根据这些语义信息判断汽车所属类别。
实施例2:
第二方面,本发明还提供了一种在线互动问答文本特征构造系统,该系统包括:
问答文本数据获取模块,用于获取在线互动平台的问答文本;
问答文本特征获取模块,用于基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征;
多维问答文本特征矩阵获取模块,用于构建问答文本特征重要性自适应判别模型,将包括所述主题特征和交互特征的所述问答文本特征输入所述问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,所述问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。
可选的,所述基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征包括:
S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征;所述主题特征包括问题文本主题特征和回答文本主题特征;
S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征。
可选的,所述S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征;所述主题特征包括问题文本主题特征和回答文本主题特征包括:
S211、通过任务自适应预训练对预训练语言表征模型进行改进,得到领域适用的预训练语言表征模型;
S212、将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,并将所述问答文本输入BERTopic中得到主题特征。
可选的,所述S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征包括:
S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度;
S222、基于相似度动态集成算法对包括所述问答文本的余弦相似度和主题分布的相似度的若干个所述相似度计算结果进行动态集成,获取文本问答的交互特征矩阵。
可选的,所述S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度包括:
通过领域适用的预训练语言表征模型,将所述问答文本映射到高维的向量空间,得到问题和答案的语义向量表征,对语义向量表征进行包括降维处理、去除噪音的操作,得到问答文本的向量矩阵,再利用余弦相似度算法计算相似值,以获取问答文本的余弦相似度;
将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,生成问答文本主题模型,再利用所述问答文本主题模型获取所述问答文本中问题和答案主题分布表示,并用Jensen-Shannon散度度量问题和答案主题分布的相似度。
可理解的是,本发明实施例提供的在线互动问答文本特征构造系统与上述在线互动问答文本特征构造方法相对应,其有关内容的解释、举例、有益效果等部分可以参照在线互动问答文本特征构造方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明首先获取在线互动平台的问答文本,然后基于问答文本获取问答文本特征;其中,问答文本特征包括主题特征和交互特征;最后构建问答文本特征重要性自适应判别模型,并将包括主题特征和交互特征的问答文本特征输入该问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。本发明可以得到在线互动平台问答文本的细粒度级别的语义信息和交互信息,同时可以基于后续任务的具体实际情况自适应地赋予各种不同文本特征的差异性权重,进而生成多维问答文本特征矩阵,提高了文本特征构造方法的精度、灵活性,以及泛化性。
2、本发明利用任务自适应预训练和BERTopic提取主题特征,即利用领域适用的主题特征构造方法获取主题特征,可以获取在线互动平台的问答文本中的细粒度语义信息,辅助提高了文本特征构造的精度。
3、本发明利用相似度动态集成算法,根据实时数据和情况,动态地选择、组合和调整多个相似度结果之间的集成方式,从而得到综合的相似度矩阵,即交互特征,可以根据实际情况获取交互时相关回答满意度信息,辅助提高了文本特征构造的精度。
4、本发明设计了融合多头注意力机制和门控机制的问答文本特征重要性自适应判别模型,可自适应地赋予多维文本特征的差异性权重,进而生成的多维问答文本特征矩阵,可以基于不同的后续任务的实际需要调节多维文本特征的差异性权重,可以提高多维问答文本特征矩阵用于后续任务时的灵活性和泛化性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种在线互动问答文本特征构造方法,其特征在于,所述方法包括:
获取在线互动平台的问答文本;
基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征;
构建问答文本特征重要性自适应判别模型,将包括所述主题特征和交互特征的所述问答文本特征输入所述问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,所述问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。
2.如权利要求1所述的方法,其特征在于,所述基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征包括:
S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征;所述主题特征包括问题文本主题特征和回答文本主题特征;
S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征。
3.如权利要求2所述的方法,其特征在于,所述S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征包括:
S211、通过任务自适应预训练对预训练语言表征模型进行改进,得到领域适用的预训练语言表征模型;
S212、将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,并将所述问答文本输入BERTopic中得到主题特征。
4.如权利要求2所述的方法,其特征在于,所述S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征包括:
S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度;
S222、基于相似度动态集成算法对包括所述问答文本的余弦相似度和主题分布的相似度的若干个所述相似度计算结果进行动态集成,获取文本问答的交互特征。
5.如权利要求4所述的方法,其特征在于,所述S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度包括:
通过领域适用的预训练语言表征模型,将所述问答文本映射到高维的向量空间,得到问题和答案的语义向量表征,对语义向量表征进行包括降维处理、去除噪音的操作,得到问答文本的向量矩阵,再利用余弦相似度算法计算相似值,以获取问答文本的余弦相似度;
将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,生成问答文本主题模型,再利用所述问答文本主题模型获取所述问答文本中问题和答案主题分布表示,并用Jensen-Shannon散度度量问题和答案主题分布的相似度。
6.一种在线互动问答文本特征构造系统,其特征在于,所述系统包括:
问答文本数据获取模块,用于获取在线互动平台的问答文本;
问答文本特征获取模块,用于基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征;
多维问答文本特征矩阵获取模块,用于构建问答文本特征重要性自适应判别模型,将包括所述主题特征和交互特征的所述问答文本特征输入所述问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,所述问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。
7.如权利要求6所述的系统,其特征在于,所述基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征包括:
S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征;所述主题特征包括问题文本主题特征和回答文本主题特征;
S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征。
8.如权利要求7所述的系统,其特征在于,所述S21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征包括:
S211、通过任务自适应预训练对预训练语言表征模型进行改进,得到领域适用的预训练语言表征模型;
S212、将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,并将所述问答文本输入BERTopic中得到主题特征。
9.如权利要求7所述的系统,其特征在于,所述S22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征包括:
S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度;
S222、基于相似度动态集成算法对包括所述问答文本的余弦相似度和主题分布的相似度的若干个所述相似度计算结果进行动态集成,获取文本问答的交互特征。
10.如权利要求9所述的系统,其特征在于,所述S221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度包括:
通过领域适用的预训练语言表征模型,将所述问答文本映射到高维的向量空间,得到问题和答案的语义向量表征,对语义向量表征进行包括降维处理、去除噪音的操作,得到问答文本的向量矩阵,再利用余弦相似度算法计算相似值,以获取问答文本的余弦相似度;
将所述领域适用的预训练语言表征模型作为BERTopic的文档嵌入模型,生成问答文本主题模型,再利用所述问答文本主题模型获取所述问答文本中问题和答案主题分布表示,并用Jensen-Shannon散度度量问题和答案主题分布的相似度。
CN202310389342.6A 2023-04-13 2023-04-13 在线互动问答文本特征构造方法和系统 Active CN116108158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310389342.6A CN116108158B (zh) 2023-04-13 2023-04-13 在线互动问答文本特征构造方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310389342.6A CN116108158B (zh) 2023-04-13 2023-04-13 在线互动问答文本特征构造方法和系统

Publications (2)

Publication Number Publication Date
CN116108158A true CN116108158A (zh) 2023-05-12
CN116108158B CN116108158B (zh) 2023-07-28

Family

ID=86264134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310389342.6A Active CN116108158B (zh) 2023-04-13 2023-04-13 在线互动问答文本特征构造方法和系统

Country Status (1)

Country Link
CN (1) CN116108158B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447119A (zh) * 2015-11-16 2016-03-30 北京京东尚科信息技术有限公司 一种文本聚类方法
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
US20180260490A1 (en) * 2016-07-07 2018-09-13 Tencent Technology (Shenzhen) Company Limited Method and system for recommending text content, and storage medium
US20180365588A1 (en) * 2017-06-15 2018-12-20 International Business Machines Corporation Analyzing data from structured and unstructured sources
US20190163500A1 (en) * 2017-11-28 2019-05-30 Intuit Inc. Method and apparatus for providing personalized self-help experience
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统
US20200372025A1 (en) * 2019-05-23 2020-11-26 Adobe Inc. Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN112052326A (zh) * 2020-09-30 2020-12-08 民生科技有限责任公司 一种基于长短文本匹配的智能问答方法及系统
CN114155957A (zh) * 2021-12-03 2022-03-08 沈阳东软智能医疗科技研究院有限公司 文本确定方法、装置、存储介质及电子设备
CN114595306A (zh) * 2022-01-26 2022-06-07 西北大学 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN115577086A (zh) * 2022-10-18 2023-01-06 重庆交通大学 基于层级交叉注意力机制的桥梁检测知识图谱问答方法
US20230069935A1 (en) * 2019-11-20 2023-03-09 Korea Advanced Institute Of Science And Technology Dialog system answering method based on sentence paraphrase recognition

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447119A (zh) * 2015-11-16 2016-03-30 北京京东尚科信息技术有限公司 一种文本聚类方法
US20180260490A1 (en) * 2016-07-07 2018-09-13 Tencent Technology (Shenzhen) Company Limited Method and system for recommending text content, and storage medium
US20180365588A1 (en) * 2017-06-15 2018-12-20 International Business Machines Corporation Analyzing data from structured and unstructured sources
US20190163500A1 (en) * 2017-11-28 2019-05-30 Intuit Inc. Method and apparatus for providing personalized self-help experience
CN108399163A (zh) * 2018-03-21 2018-08-14 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
US20200372025A1 (en) * 2019-05-23 2020-11-26 Adobe Inc. Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
US20230069935A1 (en) * 2019-11-20 2023-03-09 Korea Advanced Institute Of Science And Technology Dialog system answering method based on sentence paraphrase recognition
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统
CN112052326A (zh) * 2020-09-30 2020-12-08 民生科技有限责任公司 一种基于长短文本匹配的智能问答方法及系统
CN114155957A (zh) * 2021-12-03 2022-03-08 沈阳东软智能医疗科技研究院有限公司 文本确定方法、装置、存储介质及电子设备
CN114595306A (zh) * 2022-01-26 2022-06-07 西北大学 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN115577086A (zh) * 2022-10-18 2023-01-06 重庆交通大学 基于层级交叉注意力机制的桥梁检测知识图谱问答方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YUE-PING SUN等: "Ensemble similarity measure for community-based question answer", THE JOURNAL OF CHINA UNIVERSITY OF POSTS AND TELECOMMUNICATIONS, pages 116 - 121 *
丁勇等: "基于主题和关键词特征的比较文本分类方法", 计算机工程与应用, pages 196 - 202 *
药珍妮;: "基于主题和特征的文本相似度算法研究", 软件, no. 10 *
韩建辉: "基于深度学习的短文本相似度分析与实现", 中国硕士学位论文 *

Also Published As

Publication number Publication date
CN116108158B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
Kuck et al. Learning about individuals from group statistics
Glorfeld et al. An improved method for developing neural networks: The case of evaluating commercial loan creditworthiness
CN109726918A (zh) 基于生成式对抗网络和半监督学习的个人信用确定方法
CN103839033A (zh) 一种基于模糊规则的人脸识别方法
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
CN117539996B (zh) 一种基于用户画像的咨询问答方法及系统
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN114298834A (zh) 一种基于自组织映射网络的个人信用评估方法及系统
Hu et al. Metric-free individual fairness with cooperative contextual bandits
Okokpujie et al. Predictive modeling of trait-aging invariant face recognition system using machine learning
US20240282131A1 (en) Zero-Shot Prompt Ensembling for Zero-Shot Classification with Text-Image Models
CN113239199B (zh) 一种基于多方数据集的信用分类方法
Lauren et al. A low-dimensional vector representation for words using an extreme learning machine
CN116108158B (zh) 在线互动问答文本特征构造方法和系统
Shukla et al. A novel stochastic deep conviction network for emotion recognition in speech signal
CN111221915B (zh) 基于CWK-means的在线学习资源质量分析方法
US12099943B2 (en) Method of matching employers with job seekers including emotion recognition
Cao et al. Fuzzy emotional semantic analysis and automated annotation of scene images
CN114462466A (zh) 一种面向深度学习的数据去偏方法
CN114202428A (zh) 基于图卷积神经网络的资产数据处理方法、装置及设备
CN112465054A (zh) 一种基于fcn的多变量时间序列数据分类方法
Motzev et al. Self-organizing data mining techniques in model based simulation games for business training and education
Muñoz-Cancino et al. Predicting Innovative Cities Using Spatio-Temporal Activity Patterns
Shen et al. Investment time series prediction using a hybrid model based on RBMs and pattern clustering
CN113128296B (zh) 一种电子手写签字模糊标签化识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant