CN114610888A - 一种面向开发者群体聊天的缺陷报告自动监听和合成方法 - Google Patents

一种面向开发者群体聊天的缺陷报告自动监听和合成方法 Download PDF

Info

Publication number
CN114610888A
CN114610888A CN202210272371.XA CN202210272371A CN114610888A CN 114610888 A CN114610888 A CN 114610888A CN 202210272371 A CN202210272371 A CN 202210272371A CN 114610888 A CN114610888 A CN 114610888A
Authority
CN
China
Prior art keywords
sentence
dialogue
software error
dialog
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210272371.XA
Other languages
English (en)
Inventor
石琳
沐方文
张煜旻
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202210272371.XA priority Critical patent/CN114610888A/zh
Publication of CN114610888A publication Critical patent/CN114610888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向开发者群体聊天的缺陷报告自动监听和合成方法,其步骤包括:1)采集在线聊天数据,对采集的聊天数据进行解耦并对解耦数据进行数据增强,获得数据增强后的对话解耦数据集;2)将所述对话解耦数据集送入对话分类模型,分类出包含软件错误信息的对话和不包含软件错误信息的对话;3)将包含软件错误信息的对话送入软件错误信息抽取模型,得到对话中每个句子的所属类别,根据句子及对应的类别生成软件错误报告。本发明实现了从聊天信息到软件错误报告生成的全过程自动化,能够快速而准确的生成软件错误报告,降低了软件开发过程中获取软件错误报告的成本,拓宽了软件错误报告的获取途径,提高了软件开发和维护效率。

Description

一种面向开发者群体聊天的缺陷报告自动监听和合成方法
技术领域
本发明属于计算机技术领域,尤其涉及面向开发者群体聊天的缺陷报告自动监听和合成方法及相应存储介质与电子装置。
背景技术
在软件开发迭代过程中,软件错误报道对软件开发人员了解修复当前软件的错误起着至关重要的作用。软件错误报告是软件开发人员了解软件错误,定位软件错误,重现软件错误的重要信息来源。目前,软件开发人员主要通过用户主动提交软件错误报告的方式来获取软件错误报告。但是,这种方式受限于用户本身的技术水平、对软件的了解程度和是否知道反馈渠道等等情况,软件开发人员往往只能获取到少量的软件错误报告。于此同时,用户常常会在公开的社区中通过在线聊天的方式来讨论他们遇到的软件错误或者异常并寻求解决方案。而这种用户习惯导致了在社区的在线聊天内容中存在着大量的软件错误信息。不过由于在线聊天内容中包含了大量的无关信息,如果软件开发者采取人工的方式获取聊天错误信息并整理成软件错误报告,这将耗费巨大的人力成本和时间成果。如果能够自动的识别在线聊天中的软件错误信息,并自动的整合形成软件错误报告,这将大大的拓展开发人员获取软件错误报告的途径,提高软件的开发效率,减少软件开发成本。
发明内容
针对上述问题,本发明提出了面向开发者群体聊天的缺陷报告自动监听和合成方法及相应存储介质与电子装置,目的在于解决从大量繁杂冗余的聊天信息中快速、准确提取软件错误信息并生成错误报告,拓宽软件开发人员的错误报告的获取途径,从而提高软件开发质量,降低软件开发成本。本方法采取结合了自然语言处理、文本挖掘、深度学习等技术,并在社区聊天对话数据库上进行模型的训练及优化,以克服聊天信息中软件错误描述的灵活性、不规范等等问题。
本发明通过基于深度学习的语义分析和数据挖掘技术对自然语言描述的聊天信息进行自动化的解耦,理解用户聊天对话的语义信息,辨别出含有软件错误信息的对话,并从该对话中抽取软件错误信息,进而自动的生成软件错误报告。通过从公开社区的用户聊天信息中自动生成软件错误报告,本发明可以拓宽软件开发人员获取软件错误报告的途径,让软件开发人员获取更多的软件错误信息。以便帮助软件开发人员提高软件的开发效率,同时降低软件的维护成本。
本发明面向开发者群体聊天的缺陷报告自动监听和合成方法,其步骤包括:
1)采集在线聊天数据,使用基于前向神经网络的对话解耦模型对上述聊天信息进行解耦并进行基于简单数据增强技术(EDA)的数据增强,从而获得数据增强后的对话解耦数据集。
2)将解耦得到的对话解耦数据集送入基于图神经网络对话分类模型,分类出包含软件错误信息的对话和不包含软件错误信息的对话。
3)将得到的包含软件错误信息的对话送入基于迁移学习的软件错误信息抽取模型,得到每个句子的所属类别,从而生成软件错误报告。
进一步,所述使用基于前向网络的对话解耦模型进行上述聊天信息解耦,其步骤包括:
1)对原始聊天信息进行预处理,过滤掉图片、表情,并将网址、代码、邮件地址、版本、 HTML元素转化为[URL]、[CODE]、[EMAIL]、[VERSION]、[HTML]这五个特征标签。
2)本发明采用了基于前向神经网络的模型来解耦对话数据。该模型是Kummerfeld提出的一个对话解耦模型,它由两层前向神经网络组成,每层具有512个隐藏单元。我们将预处理后的聊天数据输入到对话解耦模型中,获得解耦输出。
3)根据解耦输出,重构出聊天信息中的每一组对话,一组对话内包含N条具有相同主题的用户发言。
进一步,所述进行基于EDA的数据增强的过程包括:
1)原始对话中包含N条用户发言,对其中的每一条发言,根据发言包含的单词数量(长度),选择词替换或发言替换策略进行增强。当发言的长度大于阈值θ时,采用词替换,即使用同义词替换掉用户发言中的部分词语,生成一个新的用户发言;当发言的长度不大于阈值θ时,采用发言替换方法,即从对话数据集中随机抽取一条长度不大于θ的用户发言替换掉当前的用户发言。
2)通过上述词替换和发言替换两种策略,对含有N条用户发言的原始对话,可以生成N 条新的用户发言。将新生成的N条用户发言组合成一个新的对话。进一步,所述的基于图神经网络的对话分类模型对对话的分类过程包括:
1)将待预测的对话输入对话分类模型。
2)使用预训练的BERT语言模型,对输入对话中每个语句的词语进行词编码操作得到对应词语的词向量。BERT是谷歌提出的一个语言表征模型,由双向的transformer编码器组成,通过在大量数据上预训练得到。BERT模型已经被广泛运用到各种自然语言处理任务上。
3)将每个语句的所有词语的词向量输入TextCNN模型,得到每个语句的句向量表示。
4)将每个语句的句向量表示输入图神经网络模型中,得到每个语句的上下文句向量表示。图神经网络是一种直接作用于图结构上的神经网络。它可以通过信息传播机制,将邻居结点的信息传递到相邻结点,从而使图中的每个结点都能获取到其他结点的信息。我们将每一个对话构建为一个对话图,每个语句作为对话图中的结点,进而利用图神经网络学习每个语句的上下文表示。
5)将每个语句的句向量和上下文句向量拼接,并输入至求和池化(Sum pooling)和最大池化(Max pooling)层,得到对话级别的向量表示。
6)将对话级别的向量表示输入一个全连接的分类层,得到模型对该对话类别的预测。
进一步,所述的基于迁移学习软件错误信息抽取模型的构建的过程包括:
1)获取公开软件错误报告数据集,并对软件错误报告数据集中的句子进行大写字母转小写、分词、删除非英文句子和删除过长句子等文本处理操作,并人工对句子进行标注
2)将一个BERT预训练语言模型和全连接层相连,其中全连接层作为最终的输出层,从而构建了信息抽取模型。在信息抽取模型中,BERT预训练模型的前9层参数被冻结,剩余的3层参数被解冻,以便参与下面的两次微调。
3)将获得的句子送入信息抽取模型中进行第一次微调,从而获得第一个微调后的信息抽取模型。
4)对包含软件错误信息的对话中由对话发起人所说的句子进行标注,并根据启发式规则对标注的句子进行过滤,从而获得软件错误信息句子训练集。
5)将第一次微调后的信息抽取模型的全连接层替换为一个全新的全连接层。其中全新的全连接层中的参数被随机的初始化,通过本次替换,以便信息抽取模型能够更加快速的学习软件错误信息句子训练集中的信息。然后使用软件错误信息句子训练集训练替换后的信息抽取模型,重新学习模型参数进行迁移学习的第二次微调,从而获得基于迁移学习的两次微调后的软件错误信息抽取模型。
进一步,每个句子的所属类别包括观察到的行为(OB)、期待的行为(EB)、复现的步骤(SR)和其他(Other)。
进一步,生成软件错误报告的过程包括:
1)依据信息抽取模型的结果(即每个句子的所属类别),将句子根据所属类别成四类。
2)将聚类的结果输入到软件错误报告模版中,生成软件错误报告。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序执行上述方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述方法。
与现有技术相比,本发明的优点在于:
本发明首次尝试了从聊天信息中自动的生成软件错误信息。
本发明提出了提出了运用图神经网络来获取聊天信息的上下文信息构建对话分类模型,实现了高效识别对话中是否含有软件错误信息。
本发明提出了运用迁移学习并结合启发式规则来构建信息抽取模型,实现了准确识别对话中句子所属的类别。
本发明无需人工介入,克服了聊天信息中用户描述不规范、灵活度高的语言表述情况,并具备跨领域的自适应能力,实现了从聊天信息到软件错误报告生成的全过程自动化,以达到从较大规模聊天信息中快速而准确的生成软件错误报告,降低软件开发过程中获取软件错误报告的成本,拓宽了软件错误报告的获取途径,提高了软件开发和维护效率。
本发明中的对话模型在测试集上取得了77.74%的平均F1值,相较于基线提高了12.96%。同时信息抽取模型在测试集上取得了在OB类别上84.62%的平均F1值,在EB类别上取得了 71.46%的平均F1值,在SR类别上取得了73.13%的平均F1值,并比基线分别提高了9.32%、 12.21%、10.91%。
附图说明
图1为本发明软件报告自动生成方法框架图。
图2为本发明训练对话分类模型的流程图。
图3为本发明信息抽取模型的流程图。
具体实施方式
尽管为说明本发明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
本发明首次提出了一种从聊天信息中自动生成软件错误报告的方法。本发明通过语义分析和自然语言处理技术,采用前向神经网络自动解耦聊天信息得到一组聊天对话,再采用图神经网络来获取聊天对话中的上下文信息,得到了对聊天对话内容的准确判断能力,进一步通过利用迁移学习的得到的信息抽取模型,抽取聊天对话中的软件错误信息内容,最后通过模版自动的生成软件错误报告。本发明提供了从聊天信息中生成软件错误报告的全流程自动化方案。下面通过具体的实施方案对本方面作进一步的说明。
如图1所示,为本发明从聊天信息中自动生成软件错误报告的方法框架图。本发明包括五个主要的步骤:对话解耦、数据增强、训练对话分类模型、句子预处理、句子分类:
步骤1、采集并对聊天信息进行解耦。首先,从社区聊天频道中收集聊天信息,并在本地保存,文件格式为txt。然后通过聊天解耦之前的预处理工作,过滤掉图片、表情,同时将聊天中的网址、代码、邮件地址、版本、HTML元素转化为[URL]、[CODE]、[EMAIL]、[VERSION]、 [HTML]这五个特征标签。这样就得到预处理之后的聊天信息处理文本。然后将得到的处理后聊天信息文本送入预训练的前向神经网络模型,经过模型解耦就可以到一组聊天对话:
L={D1,D2,…,Dn}
D={U1,U2,…,Un}
其中L代表了聊天信息,它是由数组聊天对话构成。而Di代表了一个用户对话,它是数个用户发言构成的。而Ui则代表了一次用户发言。
步骤2、对聊天对话进行数据增强。在数据增强中我们采取了词替换和发言替换两种替换策略。定义发言的长度为L,发言长度的阈值为θ,增强后的发言为U′,那么替换策略满足如下的公式:
Figure BDA0003554126350000051
当发言的长度L大于θ时,采用词替换方法,即使用同义词替换掉用户发言中的部分词语,生成一个新的用户发言;当发言的长度L不大于θ时,采用发言替换方法,即从对话数据集中随机抽取一条长度不大于θ的用户发言替换掉当前的用户发言,生成一个新的用户发言。
将增强后的发言组合成新的用户对话Daug
Daug={U′1,U′2,…,U′n}
经过数据增强后,我们最终得到对话解耦数据集。
步骤3、对话分类模型。如图2所示,整个对话分类模型包含三层:语句编码层、基于图的上下文编码层、对话编码和分类层。对于模型训练阶段:输入为已知标签类别的对话 D={u1,u2,…,un},首先在语句编码层,本发明采用预训练的深度语言模型BERT对对话D 中每个语句ui的所有子词进行词嵌入操作,得到每个语句的所有词向量。再利用TextCNN模型对每个语句的词向量进行卷积运算,得到对应语句的句向量
Figure BDA0003554126350000061
由于同一对话中的语句之间通常存在回复(reply-to)关系,所以一个语句的上下文也包含了该语句的语义信息。为了获得更深层的语义信息,本发明利用图神经网络来捕捉语句的上下文信息。具体地说,给定一对话,基于该对话语句间的回复关系,构建一个对话图 G=(V,E,W,T)。其中V表示对话图的顶点集合,对话中的每个语句句向量
Figure BDA0003554126350000062
作为对话图中的每个顶点
Figure BDA0003554126350000063
E表示对话图的边集合,若对话中的两个语句之间存在回复关系,那么相应的对话图中两个顶点之间存在一条边eij;W表示对话图中边的权重,基于相邻顶点
Figure 1
Figure BDA0003554126350000065
的语义相似度计算其边eij的权重wij
Figure BDA0003554126350000066
为第j个语句句向量
Figure BDA0003554126350000067
对应的顶点;T表示对话图中的边的类型,针对对话中的不同角色,考虑了四种不同边的类型。得到对话图G后,本发明采用两层的图神经网络来学习语句的上下文信息。第一层是基础的GNN,其计算如下:
Figure BDA0003554126350000068
其中
Figure BDA0003554126350000069
是第一层GNN网络输出的顶点向量,W1 (1)和W2 (1)是可学习的参数,N(*,i)表示所有指向顶点i的顶点的集合。第二层是关系图卷积网络(RGCN),其计算如下:
Figure BDA00035541263500000610
其中
Figure BDA00035541263500000611
是第二层RGCN网络输出的顶点向量,Nt (*,i)在关系t下所有指向顶点i的顶点的集合,ci,t是一个正则化的常量,可以预先指定。将句向量
Figure BDA00035541263500000612
和包含上下文信息的句向量
Figure BDA00035541263500000613
拼接,得到最终的句向量
Figure BDA00035541263500000614
对得到的所有的句向量
Figure BDA00035541263500000615
进行Sum pooling和Max pooling,得到对话级别的向量表示:
Figure BDA00035541263500000616
最后,将对话级别的向量表示输入一个全连接的分类层,得到模型对该对话类别的预测。本发明采用Focal Loss损失函数来优化模型:
Figure BDA00035541263500000617
其中yk表示真实标签,Pk表示预测的概率,αk和γ是可调整的参数,k的取值为0或1。 P0表示预测为不是缺陷对话的概率,P1表示预测为是缺陷对话的概率,α0表示真实标签为不是预测对话时的权重,α1表示真实标签是预测对话时的权重。
在模型预测阶段,输入未知标签类别的对话,经过上述三层模型(语句编码层、基于图的上下文编码层、对话编码和分类层)的计算,分别得到该对话属于和不属于缺陷对话的概率。若该对话属于缺陷对话的概率大于不属于缺陷对话的概率,则将该对话预测为缺陷对话,反之亦然。
步骤4、句子预处理,涉及对含有软件错误信息的对话的用户发言进行分句同时运用启发式规则对判断含有软件错误的用户对话进行过滤。其中关于启发式规则中规则定义如下:
1)删除所有非对话发起人的句子。
2)删除满足对话长度小于五、停顿词占比超过百分之五十同时不含有[URL]、[CODE]、
[EMAIL]、[VERSION]、[HTML]这五个特征标签的句子。
3)删除句子中出现的问候语,如“你好”、“下午好”、“大家好”等等。
上文中提及的对话发起人指的是在一个对话中开启话题的那位用户。通过句子预处理步骤,我们就得到了处理后的对话句子数据集。
步骤5、句子分类,主要对含有软件错误信息对话中的句子进行分类。分类的句子可以看作四类,它们分别是观察到的行为(OB)、期待的行为(EB)、复现的步骤(SR)和其他(Other)。
整个句子分类步骤涉及对信息抽取模型的训练和应用。
其中信息抽取模型的训练如图3所示,首先收集网络上公开的软件错误报告开源数据集,并对它进行一些预处理,其中涉及的步骤如下:
1)对软件错误报告进行分句。
2)对软件错误报告中的句子进行大写字母转小写字母操作。
3)对软件错误报告中的句子进行分词操作。
4)删除软件错误报告中非英文句子。
5)删除软件错误报告中过长句子。
6)对软件错误报告的句子人工打上分类标签。
使用一个BERT预训练语言模型并将其与一个全连接层相连,其中全连接层作为最终的输出层,从而构建了信息抽取模型。在信息抽取模型中,BERT预训练模型的前9层参数被冻结,剩余的3层参数被解冻,以便参与下面的两次微调。
将公开的软件错误报告的开源数据集中的句子送入信息抽取模型中进行第一次微调,保存最好效果的模型,从而获得第一个微调后的信息抽取模型。
对包含软件错误信息的对话中由对话发起人所说的句子进行标注,并根据启发式规则对标注的句子进行过滤,从而获得软件错误信息句子训练集。其中启发式规则如下:
1)删除句子长度小于5同时不包含[URL]、[CODE]、[EMAIL]、[VERSION]、[HTML五个特征标签的句子。
2)删除句子中问候词或者感谢词,如“谢谢”,“下午好”,“你好”等等。
在进行信息抽取模型的迁移学习的第二次微调时,替换掉之前第一次微调的信息抽取模型中最后的输出层,换成一个完全没有进行过训练的输出层,其参数都是随机的。然后,将前面获得的处理后的软件错误信息对话句子数据集,输入到替换过输出层的预训练的信息抽取模型中,进行重新训练。最终保存最好的信息抽取模型。在实际训练过程中,处理后的对话句子数据集被分为两个部分,一部分为训练集,一部分为测试集。训练集用于训练模型,而测试集用于测试模型的表现。
其中在以上的信息抽取模型两次训练过程中,本发明都采用如下的公式的最小值为训练目标:
Figure BDA0003554126350000081
其中Loss表示模型训练过程的损失,Pe、Po、Psr和Po分别表示了一个句子被判断为EB标签、OB标签、SR标签和Other标签的概率。而ye、yo、ysr和yo则代表一个句子对这个标签的真实值情况。
在对话中的句子经过信息抽取模型进行抽取,分成四种不同的类别后。在根据句子所分的类别,进行聚类操作,并将其结果输入到软件错误报告模版中,最终生成软件错误报告。
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (10)

1.一种面向开发者群体聊天的缺陷报告自动监听和合成方法,其步骤包括:
1)采集在线聊天数据,对采集的聊天数据进行解耦并对解耦数据进行数据增强,获得数据增强后的对话解耦数据集;
2)将所述对话解耦数据集送入对话分类模型,分类出包含软件错误信息的对话和不包含软件错误信息的对话;
3)将包含软件错误信息的对话送入软件错误信息抽取模型,得到对话中每个句子的所属类别,根据句子及对应的类别生成软件错误报告。
2.根据权利要求1所述的方法,其特征在于,基于前向神经网络的对话解耦模型对采集的聊天数据进行解耦,其方法为:首先对采集的聊天数据进行预处理,过滤掉图片、表情,并将网址、代码、邮件地址、版本、HTML元素转化为对应的特征标签[URL]、[CODE]、[EMAIL]、[VERSION]、[HTML];将预处理后的聊天数据输入到基于前向神经网络的对话解耦模型中,获得解耦输出;根据解耦输出,重构出聊天信息中的每一组对话,其中每一组对话内包含若干条具有相同主题的用户发言。
3.根据权利要求2所述的方法,其特征在于,对解耦数据进行数据增强的方法为:对每一组对话中的每一条用户发言,如果该条用户发言的长度大于设定阈值θ时,使用该条用户发言中词语w的同义词替换掉该条用户发言中的词语w,生成一条新的用户发言;如果该条用户发言的长度不大于阈值θ时,从对话数据集中随机抽取一条长度不大于θ的用户发言替换掉该条用户发言,生成一条新的用户发言;将针对同一组对话所新生成的用户发言组合成一组新的对话。
4.根据权利要求1或2或3所述的方法,其特征在于,所述对话分类模型对所述对话解耦数据集进行分类的方法为:
1)将所述对话解耦数据集中的每一对话分别输入对话分类模型;所述对话分类模型包括语句编码层和分类层;语句编码层包括上下文编码层、对话编码层;
2)语句编码层对所输入对话中每个语句的词语进行词编码操作,得到对应词语的词向量;
3)上下文编码层根据所述对话中每个语句的所有词语的词向量生成对应语句的句向量表示;
4)对话编码层根据所述对话中各语句的句向量表示生成对应语句的上下文句向量表示;然后将所述对话中各语句的句向量和上下文句向量拼接,并将拼接结果依次进行求和池化、最大池化处理,得到对话级别的向量表示;其中,对话编码层为图神经网络,将每一个对话构建为一个对话图,对话中每个语句作为该对话的对话图中一结点,利用图神经网络学习每个语句的上下文句向量表示;
5)将对话级别的向量表示输入所述分类层,得到所述对话的类别。
5.根据权利要求4所述的方法,其特征在于,利用训练后的对话分类模型对所述对话解耦数据集进行分类;其中训练所述对话分类模型的方法为:输入为已知标签类别的对话D={u1,u2,…,un},所述语句编码层对所述对话D中每个语句ui的所有子词进行词嵌入操作,得到每个语句的所有词向量;所述上下文编码层对每个语句的词向量进行卷积运算,得到对应语句的句向量
Figure FDA0003554126340000021
其中,i=1~n,n为对话D中的语句总数;然后基于所述对话D中语句间的回复关系,构建一个对话图G=(V,E,W,T),V表示对话图的顶点集合,对话中第i个语句的句向量
Figure FDA0003554126340000022
作为对话图中第i个顶点
Figure FDA0003554126340000023
E表示对话图的边集合,若对话D中的第i个语句与第j个语句之间存在回复关系,则对话图中两对应顶点
Figure FDA0003554126340000024
之间存在一条边eij;W表示对话图中边的权重,基于顶点
Figure FDA0003554126340000025
的语义相似度计算其边eij的权重wij;T表示对话图中的边的类型;将对话图G输入图神经网络,生成对应语句的上下文句向量表示;将所述对话D中各语句的句向量和上下文句向量拼接,并将拼接结果依次进行求和池化、最大池化处理,得到对话级别的向量表示,将对话级别的向量表示输入一个全连接的分类层,得到所述对话D的预测类别;采用Focal Loss损失函数优化所述对话分类模型。
6.根据权利要求1或2或3所述的方法,其特征在于,构建所述软件错误信息抽取模型的方法为:
61)获取软件错误报告数据集,对所述软件错误报告数据集中的句子进行大写字母转小写、分词、删除非英文句子以及删除超过设定长度的句子,然后对句子进行标注;
62)将一个BERT预训练语言模型和一全连接层相连,其中全连接层作为最终的输出层,从而构建一信息抽取模型;将BERT预训练语言模型的前9层参数固定,剩余3层参数可调;
63)将步骤61)标注的句子送入所述信息抽取模型中进行第一次微调,从而获得第一次微调后的信息抽取模型;
64)对包含软件错误信息的对话中由对话发起人所说的句子进行标注,并根据启发式规则对标注的句子进行过滤,从而获得软件错误信息句子训练集;
65)将第一次微调后的信息抽取模型的全连接层替换为一个参数随机化的全连接层;然后使用软件错误信息句子训练集训练替换后的信息抽取模型,获得两次微调后的软件错误信息抽取模型。
7.根据权利要求6所述的方法,其特征在于,每次微调训练所述软件错误信息抽取模型采用
Figure FDA0003554126340000031
的最小值为训练目标;其中,Pe、Po、Psr和Po分别表示了一个句子被判断为EB标签、OB标签、SR标签和Other标签的概率,ye、yo、ysr和yo分别代表一个句子对应的真实标签;EB标签为观察到的行为,OB标签为期待的行为,SR标签为复现的步骤,Other标签为其他。
8.根据权利要求1所述的方法,其特征在于,生成软件错误报告的过程包括:依据每个句子的所属类别对句子进行聚类;将聚类的结果输入到软件错误报告模版中,生成软件错误报告。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。
CN202210272371.XA 2022-03-18 2022-03-18 一种面向开发者群体聊天的缺陷报告自动监听和合成方法 Pending CN114610888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210272371.XA CN114610888A (zh) 2022-03-18 2022-03-18 一种面向开发者群体聊天的缺陷报告自动监听和合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210272371.XA CN114610888A (zh) 2022-03-18 2022-03-18 一种面向开发者群体聊天的缺陷报告自动监听和合成方法

Publications (1)

Publication Number Publication Date
CN114610888A true CN114610888A (zh) 2022-06-10

Family

ID=81864898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210272371.XA Pending CN114610888A (zh) 2022-03-18 2022-03-18 一种面向开发者群体聊天的缺陷报告自动监听和合成方法

Country Status (1)

Country Link
CN (1) CN114610888A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934940A (zh) * 2022-11-30 2023-04-07 南京晓庄学院 一种基于互联网信息技术的管理软件安全维护系统
CN118093527A (zh) * 2024-04-24 2024-05-28 脉得智能科技(无锡)有限公司 一种报告质检方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934940A (zh) * 2022-11-30 2023-04-07 南京晓庄学院 一种基于互联网信息技术的管理软件安全维护系统
CN118093527A (zh) * 2024-04-24 2024-05-28 脉得智能科技(无锡)有限公司 一种报告质检方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
CN112270379A (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN112084335A (zh) 一种基于信息融合的社交媒体用户账号分类方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN114610888A (zh) 一种面向开发者群体聊天的缺陷报告自动监听和合成方法
CN113239186A (zh) 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
CN111368130A (zh) 客服录音的质检方法、装置、设备及存储介质
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
CN111626041B (zh) 一种基于深度学习的音乐评论生成方法
US20220067579A1 (en) Dynamic ontology classification system
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN114022737A (zh) 对训练数据集进行更新的方法和设备
CN110689359A (zh) 对模型进行动态更新的方法及装置
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN112711944B (zh) 一种分词方法、系统、分词器生成方法及系统
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置
CN115357718B (zh) 主题集成服务重复材料发现方法、系统、设备和存储介质
CN115617974B (zh) 一种对话处理方法、装置、设备及存储介质
CN117350271A (zh) 一种基于大语言模型的ai内容生成方法及服务云平台
CN112231476A (zh) 一种改进的图神经网络科技文献大数据分类方法
CN107886233B (zh) 客服的服务质量评价方法和系统
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN114091469B (zh) 基于样本扩充的网络舆情分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination