CN114048293A - 一种缺陷报告融合方法、装置、电子设备及存储介质 - Google Patents
一种缺陷报告融合方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114048293A CN114048293A CN202210024050.8A CN202210024050A CN114048293A CN 114048293 A CN114048293 A CN 114048293A CN 202210024050 A CN202210024050 A CN 202210024050A CN 114048293 A CN114048293 A CN 114048293A
- Authority
- CN
- China
- Prior art keywords
- report
- defect
- reports
- vector
- point information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种缺陷报告融合方法、装置、电子设备及存储介质,涉及数据分析技术领域。首先获取多个缺陷报告,然后依据文本内容提取缺陷报告的实体与关联关系,并将实体与关联关系引用知识图谱中进行补充,再将知识图谱中的实体与关联关系翻译成第一向量,并依据第一向量整合每个缺陷报告对应的第二向量,再依据第二向量确定每两个缺陷报告的相似度,并将相似度大于第一阈值的缺陷报告聚合为同一报告簇,然后依据知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定报告簇中的主报告,最后提取报告簇中与主报告关联的差异点信息与歧义点信息。本申请具有避免了重复报告,降低了整编人员的工作量的优点。
Description
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种缺陷报告融合方法、装置、电子设备及存储介质。
背景技术
众包测试指的是在互联网上开展的、在一个规定的时间周期内由雇主雇佣众包工人对指定目标进行测试并提交测试结果的测试方法。在许多大型互联网公司内部,新版本发布前通常会在组织内部开展一次众包测试,通用的众包测试也得到许多商用测试企业的支持。相比于传统的软件测试方法,线上开展的众包测试有许多优势,比如众包测试因为参与用户多、测试环境不尽相同,相对更容易找到系统中的缺陷,更好的对系统在多种环境中的边界进行测试。此外,众包工人所提供的体验更接近于真实用户的体验,这使得产品的迭代更加接近于真正的用户思维。另外,众包工人用人成本低,无需雇佣专业的测试员工,这对小型公司来说是一个不错的选择。
然而,目前在众包测试时,每一次的众包测试都会产生众多描述同一缺陷的Bug报告,因此缺陷报告的重复率居高不下,整编人员无法便捷的处理众多的Bug报告。
综上,现有技术存在众包测试过程中报告重复性高,整编人员工作量大的问题。
发明内容
本申请的目的在于提供一种缺陷报告融合方法、装置、电子设备及存储介质,以解决现有技术中存在的众包测试过程中报告重复性高,整编人员工作量大的问题。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种缺陷报告融合方法,所述方法包括:
获取多个缺陷报告,其中,所述缺陷报告包括文本内容;
依据所述文本内容提取所述缺陷报告的实体与关联关系,并将所述实体与关联关系引用知识图谱中进行补充;
将所述知识图谱中的实体与关联关系翻译成第一向量,并依据所述第一向量整合每个缺陷报告对应的第二向量;
依据所述第二向量确定每两个缺陷报告的相似度,并将相似度大于第一阈值的缺陷报告聚合为同一报告簇;
依据所述知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定所述报告簇中的主报告;
提取所述报告簇中与所述主报告关联的差异点信息与歧义点信息,并将所述主报告、所述差异点信息以及所述歧义点信息存储至数据库中,以实现缺陷报告的融合。
第二方面,本申请实施例提供了一种缺陷报告融合装置,所述装置包括:
数据获取单元,用于获取多个缺陷报告,其中,所述缺陷报告包括文本内容;
处理单元,还用于依据所述文本内容提取所述缺陷报告的实体与关联关系,并将所述实体与关联关系引用知识图谱中进行补充;
处理单元,还用于将所述知识图谱中的实体与关联关系翻译成第一向量,并依据所述第一向量整合每个缺陷报告对应的第二向量;
处理单元,还用于依据所述第二向量确定每两个缺陷报告的相似度,并将相似度大于第一阈值的缺陷报告聚合为同一报告簇;
处理单元,还用于依据所述知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定所述报告簇中的主报告;
处理单元,还用于提取所述报告簇中与所述主报告关联的差异点信息与歧义点信息,并将所述主报告、所述差异点信息以及所述歧义点信息存储至数据库中,以实现缺陷报告的融合。
第三方面,本申请实施例还提供了一种电子设备,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现上述的缺陷报告融合方法。
第三方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的缺陷报告融合方法。
相对于现有技术,本申请具有以下有益效果:
本申请提供了一种缺陷报告融合方法、装置、电子设备及存储介质,首先获取多个缺陷报告,其中,缺陷报告包括文本内容,然后依据文本内容提取缺陷报告的实体与关联关系,并将实体与关联关系引用知识图谱中进行补充,再将知识图谱中的实体与关联关系翻译成第一向量,并依据第一向量整合每个缺陷报告对应的第二向量,再依据第二向量确定每两个缺陷报告的相似度,并将相似度大于第一阈值的缺陷报告聚合为同一报告簇,然后依据知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定报告簇中的主报告,最后提取报告簇中与主报告关联的差异点信息与歧义点信息,并将主报告、差异点信息以及歧义点信息存储至数据库中,以实现缺陷报告的融合。本由于申请采用知识图谱的方式,实现了将缺陷报告划分为报告簇的方式;并且,通过排序可以确定报告簇的主报告,然后确定将主报告与其它信息进行存储,减少描述相同会相似的报告,降低了整编人员的工作量。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的电子设备的模块示意图。
图2为本申请实施例提供的缺陷报告融合方法的一种示例性流程图。
图3为本申请实施例提供的图2中S104的子步骤的示例性流程图。
图4为本申请实施例提供的图2中S106的子步骤的示例性流程图。
图5为本申请实施例提供的缺陷报告融合方法的另一种示例性流程图。
图6为本申请实施例提供的图2中S110的子步骤的示例性流程图。
图7为本申请实施例提供的图2中S112的子步骤的示例性流程图。
图8为本申请实施例提供的缺陷报告融合装置的模块示意图。
图中:100-电子设备;101-处理器;102-存储器;103-通信接口;200-缺陷报告融合装置;210-数据获取单元;220-处理单元。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关联关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关联关系或者顺序。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
正如背景技术中所述,众包测试中,测试人员数量众多且大部分没有经过专业的培训。众包测试分为协作式和竞争式两种,众包测试工作机制大多是竞争式的,众包工人之间不会共享信息,在这种情况下,系统中的同一个缺陷通常会被不同的测试人员报告数遍。这就造成了众包测试产出的报告具有数量众多但重复率高的问题。基于此,有公司研发了协作式的众包测试系统,众包工人在填写报告时可以看到其他工人填写的报告数据,可以选择对其他人提出的缺陷报告进行补充说明,系统称之为树状报告,这一定程度上减少了报告的重复率,但仍然存在重复的情况。大量重复的报告和冗余信息无疑对报告整编人员造成了巨大的困难,并且影响了众测业务后续开展。
综上,现有技术中存在缺陷报告的重复率较高,整编人员的工作量大的问题。
有鉴于此,本申请提供了一种缺陷报告融合方法,通过引入知识图谱技术的方式实现改善重复报告检测的目的。
需要说明的是,本申请提供的本申请提供的缺陷报告融合方法可以应用于电子设备,该电子设备用以执行缺陷报告融合方法。例如,该电子设别可以为服务器,服务器可以与众测人员使用的终端进行通信连接,并接收终端发送的相关缺陷报告。
图1示出本申请实施例提供的电子设备100的一种示意性结构框图,电子设备100包括存储器102、处理器101和通信接口103,该存储器102、处理器101和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
存储器102可用于存储软件程序及模块,如本申请实施例提供的缺陷报告融合装置对应的程序指令或模块,处理器101通过执行存储在存储器102内的软件程序及模块,从而执行各种功能应用以及数据处理,进而执行本申请实施例提供的缺陷报告融合方法的步骤。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器101可以是一种集成电路芯片,具有信号处理能力。该处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图1所示的结构仅为示意,电子设备100还可以包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
下面以电子设备100作为示意性执行主体,对本申请实施例提供的缺陷报告融合方法进行示例性说明。
作为一种实现方式,请参阅图2,该缺陷报告融合方法包括:
S102,获取多个缺陷报告,其中,缺陷报告包括文本内容。
S104,依据文本内容提取缺陷报告的实体与关联关系,并将实体与关联关系引用知识图谱中进行补充。
S106,将知识图谱中的实体与关联关系翻译成第一向量,并依据第一向量整合每个缺陷报告对应的第二向量。
S108,依据第二向量确定每两个缺陷报告的相似度,并将相似度大于第一阈值的缺陷报告聚合为同一报告簇。
S110,依据知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定报告簇中的主报告。
S112,提取报告簇中与主报告关联的差异点信息与歧义点信息,并将主报告、差异点信息以及歧义点信息存储至数据库中,以实现缺陷报告的融合。
其中,当众测人员在客户端提交缺陷报告后,服务器即可获取到大量的缺陷报告。一般而言,该缺陷报告中会包括文本内容,进而对缺陷进行具体描述。例如,针对缺陷描述,某一缺陷报告中可能描述有“修改昵称错误”。
此外,对于多个缺陷报告而言,其可能为描述同一缺陷,也可能为描述不同的缺陷,使得在多个缺陷报告中,可能出现部分报告描述同一个缺陷,或者全部报告均描述同一个缺陷的情况。例如,缺陷报告包括A、B、C、D、E、F、G以及H,其中,A、B、C、D四个缺陷报告可能均在描述缺陷X,E、F、G、H四个缺陷报告可能均在描述缺陷Y,因此,A、B、C、D的文字内容必然较为相似,E、F、G、H四个缺陷报告的内容也较为相似。
在获取缺陷报告后,服务器会提取缺陷报告文本内容中的实体及关系,并引入分类知识图谱进行补充,使用翻译模型对知识图谱进行向量翻译,然后根据翻译后的向量计算缺陷报告实体相似度,将重复报告聚合在同一报告簇中。同时计算报告在对应报告簇中的权重,提取报告簇中的主要报告作为主报告,然后提取出主报告中未描述到的或与之相悖的内容生成差异点信息和歧义点信息,实现缺陷报告的融合。本发明使得缺陷报告的分类和信息获取更加高效,进而提高了整编人员的效率。
在一种可选的实现方式中,请参阅图3,S104包括:
S1042,对文本内容进行分句,以获取多个短句。
S1044,对每个短句进行分词并进行词性分析与依存分析,以确定缺陷报告的实体与关联关系。
其中,在对文本内容进行分句时,可以按照文本内容的标点符号作为依据划分断句,例如,当检测到逗号时,将逗号前面的所有文字作为一个短句,并以此类推。在获取短句后,本神奇采用Jieba分词器对短句进行分词,然后对每个词语进行词性分析与依存分析,进而得到缺陷报告的实体与关联关系。
其中,词性包括主语、谓语、宾语、状语等,由于在众测人员填写缺陷报告时,会存在较多的“点击”,“输入”,“进入”等操作,因此可以对报告的谓语词进行分析并抽取出对应的关系如报告→点击→按钮、报告→进入→首页等。因此,作为一种可选的实现方式,在确定报告的实体时,可以将谓语后的名词作为实体,例如实体为按钮,在此基础上,关联关系即为报告→点击→按钮,即这些动词与名词之间的关系,然后将所有实体与关联关系引入知识图谱中,进而构建大型的知识图谱网络,该知识图谱网络中包括大量的实体与关联关系。
可选地,为了使数据得以增强,在S1042之前,该方法还包括:
S1041,对文本内容进行分词,并进行同位词替换。
其中,同位词指含义相应的词,并且,此步骤中也可以使用Jieba分词器对缺陷报告中的文本内容进行分词,并使用同位词文件对报告内容进行同位词替换进行数据增强。
例如,“按钮”的同位词为“按键”,则当文本内容中存在词语“按钮”时,则可以将该词替换为“按键”。
需要说明的是,此步骤中进行分词与S1044的分词并不相同,本步骤中进行分词的目的仅为进行同位词替换,进而实现数据增强,而S1044中进行分词的目的为确定实体与关联关系。
在将实体与关联关系引入知识图谱后,由于每个缺陷报告均包括实体与关联关系,且每个缺陷报告中实体与关联关系可能并不相同,因此知识图谱中包括大量的实体与关联关系。
在此基础上,将知识图谱中的实体与关联关系翻译成第一向量,并依据第一向量整合每个缺陷报告对应的第二向量。作为一种实现方式,本申请采用TransE翻译模型将知识图谱中的实体与关联关系翻译成第一向量。
其中,在知识图谱中,知识被存储为三元组的形式,如(h,r,t),其中r代表关系,h和t则分别是头实体和尾实体。TransE模型是一种知识的表示方法,其可以根据三元组的结构学习知识图谱中的实体和关系,并将其映射到低维向量中。本申请中,TransE翻译模型用来将知识实体和关系表示为低维向量。
可以理解地,在利用TransE翻译模型将知识图谱中的实体与关联关系翻译成第一向量时,由于知识图谱中的实体与关联关系包括多个,因此第一向量的数量有多个。
在此基础上,请参阅图4,S106包括:
S1061,确定缺陷报告中每个短句对应的第一向量。
S1062,利用缺陷报告对应的所有第一向量合成第二向量。
在确定每个缺陷报告的第二向量时,会依据缺陷报告中的每个短句确定,可以理解地,每个缺陷报告包括多个短句,确定出该缺陷报告每个短句对应的第一向量后,可以利用该缺陷报告包含的所有第一向量,合成所述缺陷报告对应的第二向量。
例如,某一缺陷报告中,包括短句1、2、3,其中,短句1对应的第一向量为向量a,短句2对应的第一向量为向量b,短句3对应的第一向量为向量c,在此基础上,可确定出该缺陷报告对应的向量a、向量b以及向量c后,可利用向量a、向量b以及向量c合成该缺陷报告对应的第二向量x。
在此,并不对合成的具体方法进行限定,例如,可以为将该缺陷报告中多有短句对应的第一向量做加法,或者做向量积,在此不做限定。
在确定出所有缺陷报告对应的第二向量后,可以利用缺陷报告的第二向量确定出每两个报告的相似度,本申请中,采用余弦相似度确定每两个缺陷报告的相似度。余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。简介余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向。余弦相似度满足公式:
式中,A与B分别表示两个向量。在此,需要说明的是,在利用TransE翻译模型将实体和关系翻译第一向量时,第一向量为特征向量,即第一向量的长度固定,作为一种实现方式,第一向量的长度为60。
在确定出两个向量的余弦相似度,可以通过与第一阈值的比较,去确定出二者是否属于同一报告簇,例如,第一阈值设置为0.8,则两个第二向量之间的余弦相似度大于0.8时,则表示两个缺陷报告相似度过高,属于重复报告,需要合并成同一报告簇。而当两个缺陷报告的相似度低于0.8时,例的两个缺陷报告的相似度仅为0.5,则表示两个缺陷报告内容并不重复,因此会形成不同的报告簇。
为了提升重复报告识别的准确性,还可结合图片内容判定两个缺陷报告之间的相似度,例如,当众包工人在发送缺陷报告时,可以发送文字的基础上添加图片,如出现修改昵称出错时,缺陷报告的文字内容可能为“当进入xx页面修改昵称时,昵称无法被修改”,同时上传相应的截图。
在此基础上,在确定每两个缺陷报告的相似度的步骤之前,请参阅图5,该方法还包括:
S1071,提取图片内容的特征。
S1072,依据图片内容的特征确定第三向量。
确定每两个缺陷报告的相似度的步骤包括:
依据第二向量与第三向量确定每两个报告的相似度。
即本申请中,当缺陷报告中包括图片内容时,则可以结合图片内容确定两个报告的相似度;而当缺陷报告中未包括图片内容时,则依据文字内容确定两个缺陷报告之间的相似度。
其中,缺陷报告中未包括图片内容,指两个缺陷报告中任一个未包括图片内容,或两个缺陷报告均为包括图片内容。例如,缺陷报告A中包括文字内容与图片内容,而缺陷报告B中仅包括文字内容,则此时仅能依据文字内容确定两个报告之间的相似度。
在一种实现方式中,在确定第三向量时,对众测报告中用户上传的图片进行特征提取。图片特征选用的是JCD特征,该特征是对CEDD特征和FCTH的一个综合,考虑了图片的纹理、色彩和色块边界。根据提取之后的照片特征得到图片向量,对图片向量进行余弦相似度计算可以得到相似图片集合,对相似比例高于特定数值(例如0.8)且所属报告三级页面相同的图片进行标记,对于此类报告查询其报告实体相似度,在实体相似度(即文字内容相似度)不低阈值的情况下,将相似报告合并到同一报告簇中。
因此,在实际操作过程中,当两个报告中未全部包括图片内容时,则通过两个报告中的文字内容对应的第二向量,确定两个报告的相似度,并且当相似度大于第一阈值,例如大于0.8时,则将两个报告聚合为同一报告簇。而当两个报告中全部包括图片内容时,则通过两个报告中的文字内容对应的第二向量与图片内容对应的第三向量确定是否将两个报告聚合为同一报告簇。例如,当两个报告的文字内容的相似度大于0.8时,则无论图片相似度的情况,均会将两个报告聚合为同一报告簇;若当文字内容的相似度大于0.6,且图片内容的相似度大于0.8时,则也会将两个缺陷报告聚合为同一报告簇。
当然地,系统会循环执行上述的方法,进而将所有缺陷报告划分为不同的报告簇,每个报告簇中可能包括一个或多个报告。
可以理解地,当报告簇中包括多个报告时,则多个报告中可能存在重复的报告,因此若出现重复报告时,只需要整编人员查看到一个缺陷报告即可,因此,在确定报告簇后,系统会从报告簇中确定主报告,以使整编人员可以只需查看一个缺陷报告,就可以了解这一类缺陷,达到减小整编人员工作量的效果。
作为一种实现方式,请参阅图6,S110包括:
S1101,依次将报告簇中的每个缺陷报告作为目标缺陷报告,确定与目标缺陷报告存在关联的其余缺陷报告的数量。
S1102,依据其余缺陷报告的数量与目标缺陷报告的评价信息确定目标缺陷报告的权重,其中,评价信息包括正向评价信息与负向评价信息。
S1103,将权重最大的目标缺陷报告作为主报告。
其中,本申请采用PageRank算法确定每个报告的排序。PageRank算法能够在图结构中根据节点权重及节点之间关系确认节点重要程度,其依托的是节点之间进行相互投票,根据投票的结果确定图中节点的重要性。本申请中,PageRank算法被用来提取报告簇中的主报告,并对报告描述文本进行了差异点信息和歧义点信息提取。
其中,本申请所述的存在关联,可以为两个缺陷报告之间存在相同实体与关联关系,例如存在相同的短句。在一种可选的实现方式中,可以通过打分的形式确定排序。例如,在某一报告簇中包括100份缺陷报告,其中,缺陷报告A与其余的50份缺陷报告存在关系,则缺陷报告A得分为50分;缺陷报告B与其余的20份缺陷报告存在关系,则缺陷报告B得分为20分,以此类推。
可以理解地,某一缺陷报告的得分越大,则表示与其关联的缺陷报告的数量越多,则通过该缺陷报告,整编人员能够获得更多的信息。
此外,为了使结果更加准确,还可加入评价信息作为指标,例如,当众包工人甲在发布一条缺陷报告后,众包工人乙可以对该缺陷报告进行评价,例如可以通过点赞或点踩的方式进行评价,可以理解地,当某份缺陷报告的点赞数量较多时,则表示该分报告更能表达出的其余众包工人的想法。
因此,本申请结合评价信息确定出每份缺陷报告的最终得分,并确定出每份缺陷报告的权重,例如,报告每次被点赞,则得分增加一分;每次被点踩,则得分减少一分,则若某份缺陷报告的关联得分为50分,被点赞50次,被点踩20此,则该缺陷报告的最终得分为50+50-20=80分,然后将权重最大的目标缺陷报告作为主报告。
当然地,实际的算法可能更加复杂,例如可以在确定权重的过程中,还可以加入迭代方法,使得数据不断收敛,数据更加准确。
在确定出主报告后,虽然主报告能够表示出该绝大多数其余报告的主要含义,然而并不能包括完全,例如,主报告A与报告B不关联,则可能二者表达的意思会存在差别,或者,主报告A与报告C存在关联,但报告C还表达了其他含义。因此,还需要确定与主报告关联的差异点信息与歧义点信息,以使整编人员能够更加全面的了解所有缺陷报告所要表达的意思。
其中,差异点信息指主报告中未表达的信息,其可以用于补充主报告,以使最终呈现至整编人员的结果更加全面。例如,主报告A中表达了a、b、c三个bug点,而报告B中表达了c与d两个bug点,则会将d作为主报告的差异点信息,以对主报告进行补充。歧义点信息指与主报告存在相反意思的信息,例如,主报告A中指出,在修改昵称时会出错,而在报告C中指出,在修改昵称时不会出错,则二者互为歧义点,需要整编人员进一步甄别。
作为一种实现方式,请参阅图7,S112包括:
S1122,将其余报告中每个短句与所述主报告进行相似度计算,并将与所述主报告相似度小于第二阈值的短句作为差异点信息。
S1124,将与所述主报告语义相反的短句作为歧义点信息。
结合上述,可以确定主报告的第二向量,然后利用其余报告中每个短句对应的第一向量进行相似度计算,进而可以得到主报告与其余报告中,每个短句之间的相似度,然后判定是否将其作为歧义点。
例如,第二阈值可以设置为0.6,当报告B中某个短句与主报告A中的相似度小于0.6,如仅为0.5时,则确定该短句可以作为主报告的差异点信息。
而针对歧义点信息,则需要对短句进行词性与语义分析,在此不做限定。
此外,为了便于整编人员查看,在S1122后,该方法还包括:
S1123,依据差异点信息所处的缺陷报告对应的排序结果对差异点信息进行排序。
其中,差异点信息也会存在重复情况,因此需要对报告之间的差异点信息进行聚类,此处使用的聚类算法为凝聚层次聚类算法。聚类后的报告补充点信息依照补充点所属报告在报告簇中的排序情况进行排序,从而得到报告簇的主报告和补充点报告数据。其中,排序的以及可以为上述缺陷报告对应的排序,例如,对于某个短句而言,其属于缺陷报告B,则该短句的得分即为缺陷报告B在上述过程中的得分,并以此为依据进行排序。
最终将主报告、差异点信息以及歧义点信息全部发送至数据库中进行存储与融合,便于整编人员调用观看。
可以理解地,通过上述方式能够实现剔除大量重复信息,进而使整编人员能够更加高效的了解缺陷信息,提升了整编人员的工作效率。
在上述实现方式的基础上,请参阅图8,本申请实施例还提供了一种缺陷报告融合装置200,该装置包括:
数据获取单元210,用于获取多个缺陷报告,其中,缺陷报告包括文本内容。
可以理解地,通过数据获取单元210可以执行上述方法中的S102。
处理单元220,还用于依据文本内容提取缺陷报告的实体与关联关系,并将实体与关联关系引用知识图谱中进行补充。
可以理解地,通过处理单元220可以执行上述方法中的S104。
处理单元220,还用于将知识图谱中的实体与关联关系翻译成第一向量,并依据第一向量整合每个缺陷报告对应的第二向量。
可以理解地,通过处理单元220可以执行上述方法中的S106。
处理单元220,还用于依据第二向量确定每两个缺陷报告的相似度,并将相似度大于第一阈值的缺陷报告聚合为同一报告簇。
可以理解地,通过处理单元220可以执行上述方法中的S108。
处理单元220,还用于依据知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定报告簇中的主报告。
可以理解地,通过处理单元220可以执行上述方法中的S110。
处理单元220,还用于提取报告簇中与主报告关联的差异点信息与歧义点信息,并将主报告、差异点信息以及歧义点信息存储至数据库中,以实现缺陷报告的融合。
可以理解地,通过处理单元220可以执行上述方法中的S112。
当然地,上述方法的子步骤也可以通过对应的功能模块执行,在此不做赘述。
综上所述,本申请提供了一种缺陷报告融合方法、装置、电子设备及存储介质,首先获取多个缺陷报告,其中,缺陷报告包括文本内容,然后依据文本内容提取缺陷报告的实体与关联关系,并将实体与关联关系引用知识图谱中进行补充,再将知识图谱中的实体与关联关系翻译成第一向量,并依据第一向量整合每个缺陷报告对应的第二向量,再依据第二向量确定每两个缺陷报告的相似度,并将相似度大于第一阈值的缺陷报告聚合为同一报告簇,然后依据知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定报告簇中的主报告,最后提取报告簇中与主报告关联的差异点信息与歧义点信息,并将主报告、差异点信息以及歧义点信息存储至数据库中,以实现缺陷报告的融合。本由于申请采用知识图谱的方式,实现了将缺陷报告划分为报告簇的方式;并且,通过排序可以确定报告簇的主报告,然后确定将主报告与其它信息进行存储,减少描述相同会相似的报告,降低了整编人员的工作量。在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和或流程图中的每个方框、以及框图和或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种缺陷报告融合方法,其特征在于,所述方法包括:
获取多个缺陷报告,其中,所述缺陷报告包括文本内容;
依据所述文本内容提取所述缺陷报告的实体与关联关系,并将所述实体与关联关系引用知识图谱中进行补充;
将所述知识图谱中的实体与关联关系翻译成第一向量,并依据所述第一向量整合每个缺陷报告对应的第二向量;
依据所述第二向量确定每两个缺陷报告的相似度,并将相似度大于第一阈值的缺陷报告聚合为同一报告簇;
依据所述知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定所述报告簇中的主报告;
提取所述报告簇中与所述主报告关联的差异点信息与歧义点信息,并将所述主报告、所述差异点信息以及所述歧义点信息存储至数据库中,以实现缺陷报告的融合。
2.如权利要求1所述的缺陷报告融合方法,其特征在于,依据所述文本内容提取所述缺陷报告的实体与关联关系的步骤包括:
对所述文本内容进行分句,以获取多个短句;
对每个短句进行分词并进行词性分析与依存分析,以确定所述缺陷报告的实体与关联关系。
3.如权利要求2所述的缺陷报告融合方法,其特征在于,将所述知识图谱中的实体与关联关系翻译成第一向量,并依据所述第一向量整合每个缺陷报告对应的第二向量的步骤包括:
确定所述缺陷报告中每个短句对应的第一向量;
利用所述缺陷报告对应的所有第一向量合成所述第二向量。
4.如权利要求1所述的缺陷报告融合方法,其特征在于,所述缺陷报告还包括图片内容,在所述确定每两个缺陷报告的相似度的步骤之前,所述方法还包括:
提取所述图片内容的特征;
依据所述图片内容的特征确定第三向量;
所述确定每两个缺陷报告的相似度的步骤包括:
依据所述第二向量与所述第三向量确定每两个报告的相似度。
5.如权利要求1所述的缺陷报告融合方法,其特征在于,所述依据所述知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定所述报告簇中的主报告的步骤包括:
依次将所述报告簇中的每个缺陷报告作为目标缺陷报告,确定与所述目标缺陷报告存在关联的其余缺陷报告的数量;
依据所述其余缺陷报告的数量与所述目标缺陷报告的评价信息确定所述目标缺陷报告的权重,其中,所述评价信息包括正向评价信息与负向评价信息;
将权重最大的目标缺陷报告作为主报告。
6.如权利要求1所述的缺陷报告融合方法,其特征在于,所述依据所述文本内容提取所述缺陷报告的实体与关联关系的步骤包括:
对所述文本内容进行分句,以获取多个短句;
所述提取所述报告簇中与所述主报告关联的差异点信息与歧义点信息的步骤包括:
将其余报告中每个短句与所述主报告进行相似度计算,并将与所述主报告相似度小于第二阈值的短句作为差异点信息;
将与所述主报告语义相反的短句作为歧义点信息。
7.如权利要求6所述的缺陷报告融合方法,其特征在于,在将其余报告中每个短句与所述主报告进行相似度计算,并将与所述主报告相似度小于第二阈值的短句作为差异点信息的步骤之后,所述方法还包括:
依据所述差异点信息所处的缺陷报告对应的排序结果对所述差异点信息进行排序。
8.一种缺陷报告融合装置,其特征在于,所述装置包括:
数据获取单元,用于获取多个缺陷报告,其中,所述缺陷报告包括文本内容;
处理单元,还用于依据所述文本内容提取所述缺陷报告的实体与关联关系,并将所述实体与关联关系引用知识图谱中进行补充;
处理单元,还用于将所述知识图谱中的实体与关联关系翻译成第一向量,并依据所述第一向量整合每个缺陷报告对应的第二向量;
处理单元,还用于依据所述第二向量确定每两个缺陷报告的相似度,并将相似度大于第一阈值的缺陷报告聚合为同一报告簇;
处理单元,还用于依据所述知识图谱中的实体与关联关系对报告簇中缺陷报告进行排序,以确定所述报告簇中的主报告;
处理单元,还用于提取所述报告簇中与所述主报告关联的差异点信息与歧义点信息,并将所述主报告、所述差异点信息以及所述歧义点信息存储至数据库中,以实现缺陷报告的融合。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210024050.8A CN114048293A (zh) | 2022-01-11 | 2022-01-11 | 一种缺陷报告融合方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210024050.8A CN114048293A (zh) | 2022-01-11 | 2022-01-11 | 一种缺陷报告融合方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114048293A true CN114048293A (zh) | 2022-02-15 |
Family
ID=80213589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210024050.8A Pending CN114048293A (zh) | 2022-01-11 | 2022-01-11 | 一种缺陷报告融合方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048293A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612018A (zh) * | 2022-05-11 | 2022-06-10 | 中国南方电网有限责任公司 | 一种内控风险监测方法、系统和可读存储介质 |
CN115221374A (zh) * | 2022-09-20 | 2022-10-21 | 华谱科仪(北京)科技有限公司 | 基于色谱数据分析的推送方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311199A1 (en) * | 2019-03-29 | 2020-10-01 | Microsoft Technology Licensing, Llc | Ontology entity type detection from tokenized utterance |
CN112966708A (zh) * | 2021-01-27 | 2021-06-15 | 中国人民解放军陆军工程大学 | 一种基于语义相似度的中文众包测试报告聚类方法 |
CN113220565A (zh) * | 2021-04-26 | 2021-08-06 | 广东拓思软件科学园有限公司 | 一种众包测试报告的处理方法及装置 |
WO2021169400A1 (zh) * | 2020-02-28 | 2021-09-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体识别方法、装置及电子设备 |
-
2022
- 2022-01-11 CN CN202210024050.8A patent/CN114048293A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311199A1 (en) * | 2019-03-29 | 2020-10-01 | Microsoft Technology Licensing, Llc | Ontology entity type detection from tokenized utterance |
WO2021169400A1 (zh) * | 2020-02-28 | 2021-09-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体识别方法、装置及电子设备 |
CN112966708A (zh) * | 2021-01-27 | 2021-06-15 | 中国人民解放军陆军工程大学 | 一种基于语义相似度的中文众包测试报告聚类方法 |
CN113220565A (zh) * | 2021-04-26 | 2021-08-06 | 广东拓思软件科学园有限公司 | 一种众包测试报告的处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈文哲: "《融合知识图谱的法律文本表示方法研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612018A (zh) * | 2022-05-11 | 2022-06-10 | 中国南方电网有限责任公司 | 一种内控风险监测方法、系统和可读存储介质 |
CN115221374A (zh) * | 2022-09-20 | 2022-10-21 | 华谱科仪(北京)科技有限公司 | 基于色谱数据分析的推送方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102564144B1 (ko) | 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체 | |
CN110647614A (zh) | 智能问答方法、装置、介质及电子设备 | |
CN108090068B (zh) | 医院数据库中的表的分类方法及装置 | |
CN114048293A (zh) | 一种缺陷报告融合方法、装置、电子设备及存储介质 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
BR112012011091B1 (pt) | método e aparelho para extração e avaliação de qualidade de palavra | |
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN111898366A (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
WO2020237872A1 (zh) | 语义分析模型准确度的校验方法、装置、存储介质及设备 | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
Romanengo et al. | Fit4CAD: A point cloud benchmark for fitting simple geometric primitives in CAD objects | |
CN111259262A (zh) | 一种信息检索方法、装置、设备及介质 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Mitchell et al. | Measuring data | |
CN112818120A (zh) | 习题标注方法、装置、存储介质及电子设备 | |
CN114116973A (zh) | 多文档的文本查重方法、电子设备及存储介质 | |
CN113076939B (zh) | 语境化字符识别系统 | |
CN108021595B (zh) | 检验知识库三元组的方法及装置 | |
CN111125550A (zh) | 兴趣点分类方法、装置、设备及存储介质 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
KR20220024251A (ko) | 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 | |
CN112215006B (zh) | 机构命名实体归一化方法和系统 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220215 |
|
RJ01 | Rejection of invention patent application after publication |