CN113392245A

CN113392245A - 一种用于众测任务发布的文本摘要与图文检索生成方法

Info

Publication number: CN113392245A
Application number: CN202110664152.1A
Authority: CN
Inventors: 王崇骏; 姚懿容; 何强强; 崔风丽; 李宁
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-09-14
Anticipated expiration: 2041-06-16
Also published as: CN113392245B

Abstract

本发明公开了一种用于众测任务发布的文本摘要与图文检索生成方法，采集真实众测场景任务发布中提取的相关数据，对相关数据进行筛选整理与清洗；对给定的相关单个或多个任务文档进行摘要生成，利用上阶段获得的任务相关文本摘要，收集相关图片数据库并检索出合适的图像；对检索出的两幅相关图像进行二次融合加工，以生成的方式整合为一张图片，提高图片与任务的匹配度和信息量。本发明通过在众测任务发布中对较为繁杂的任务文档提取较为简短的文本摘要，降低了众测平台方的工作量；同时使用图文检索与图像融合技术，生成具有特色的任务图片。

Description

一种用于众测任务发布的文本摘要与图文检索生成方法

技术领域

本发明涉及自然语言处理与图像检索生成领域，主要应用于众测任务发布的相关技术场景的文本摘要与图文检索生成方法。

背景技术

互联网的快速更迭与发展为相关产品带来了全新的迭代速度与交付需求，测试阶段在管控产品质量与降低风险上有着不可替代的作用。然而公司测试人员的人力成本、效率与其设备有限性导致了测试过程的覆盖率不能得到完全保证。这也成为了产品迭代速度大幅提高后的阻碍与挑战。众测作为全新的变革型的平台，体现了不可忽视的优势。众测依托于众测服务平台，不受测试人手的制约；同时大量的测试人员利用碎片化时间进行产品测试，降低了测试成本；测试人员的数量大，扩展面广泛，弥补了传统测试中依赖于测试人员的经验，从而提高产品的相应质量，也提升了相关的用户体验。

随着深度学习的发展，对文本与图像等模态的分析取得了很多优秀的成果。将机器学习和深度学习的优势技术同众测相关应用场景结合也焕发出不一样的生机与活力。面向众测中的任务发布场景，自然语言处理、跨模态检索与图像融合生成等技术的引入，使得整个任务发布更加智能与高效，在减轻发布方处理冗杂文档与图片筛选任务量的同时，提高了众测平台人员的交互性与使用兴趣。

任务发布场景需要对任务发布方提供的单个或多个文档中的复杂信息进行概括性全面的提取，这需要使用自然语言处理中的相关提取技术。过载的文本信息使得简短的摘要处理显得十分重要。传统的抽取式摘要方法主要有图方法、聚类等，基于神经网络的抽取式摘要与生成式摘要方法也获得了比较大的突破。除了对文档进行简短的摘要处理，任务发布场景也需要针对具体的任务提供相对应的图片。任务相关的图片通常和发布方以及具体任务相关，手动提供会增加较多的工作量，本发明在众测场景中任务发布模块，根据相应任务的文本摘要，使用跨模态的检索技术与图像融合相关技术，生成符合任务内容与特色的任务图片。

随着众测平台技术的快速发展，追求更加智能化和交互化的服务体验也成为了全新的挑战与方向。如何更高效与智能化的解决任务发布中的相关问题变得愈发重要。

发明内容

发明目的：本发明解决的技术问题是，针对众测中相关任务发布的相关单个或多个任务文档生成具有概括性的简洁文本摘要，提供一种用于众测任务发布的文本摘要与图文检索生成方法，本发明针对相关任务摘要描述使用相关的图片检索技术检索适合的任务图，并使用图像融合生成技术对检索到的图像进行二次加工，获得众测任务的相关摘要与图像，使众测任务更具可视化和智能化。使用基于TextRank算法技术生成合理的任务文本摘要；使用图文检索技术在图片数据库中检索相关任务图片；使用图像泊松融合技术对检索出的图片进行二次加工，生成最终完整的任务图。具体包括对给定的相关单个或多个任务文档生成语法准确内容简洁且具有概括性的文本摘要以及使用任务文本摘要检索适当的相关图片，并使用图像生成技术二次加工图片，最终得到符合任务描述的图片。。本发明通过在众测任务发布中对较为繁杂的任务文档提取较为简短的文本摘要，降低了众测平台方的工作量；同时使用图文检索与图像融合技术，生成具有特色的任务图片，提高任务发布的效率并且增加与众测平台使用人员的交互性与浏览的趣味性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种用于众测任务发布的文本摘要与图文检索生成方法，采集足量从真实众测场景任务发布中提取的相关数据，包括任务发布的相关描述文档、任务发布涉及的相关图片数据库等；数据预处理阶段，对相关数据进行筛选整理与清洗；生成文本摘要阶段，对给定的相关单个或多个任务文档进行摘要生成，使用基于TextRank的算法模型，在语法和句法准确的基础上，提高内容选择的正确性和灵活性；图文检索阶段，利用上阶段获得的任务相关文本摘要，收集相关图片数据库并检索出合适的图像；图像融合生成阶段，对检索出的两幅相关图像进行二次融合加工，以生成的方式整合为一张图片，提高图片与任务的匹配度和信息量。具体包括如下步骤：

步骤1，数据采集：获取真实众测场景任务发布中的相关数据，包括任务发布的相关描述文档、任务发布涉及的相关图片数据库。

步骤2，数据预处理：对任务发布的相关描述文档、任务发布涉及的相关图片进行整理和清洗，得到预处理后的任务文档。

步骤3，使用预处理后的任务文档，通过基于图的抽取型摘要提取方法生成完整的任务文本摘要。

步骤4，图文检索，根据步骤3得到的任务文本摘要，提取关键词信息并在图像数据库中检索任务图片。

步骤5，图像融合生成阶段，根据步骤4中检索的任务图片，使用泊松融合方法融合生成为全新的任务图片。

优选的：所述步骤2中对数据进行整理和清洗方法：

步骤2a)，针对生成文本摘要的相关文档进行文本预处理，对单个或多个文档进行整合，得到的文本数据以句子为单位进行分割，进行文本清洗，整理并保存。

步骤2b)，针对获取到的文本摘要进行处理，提取相关关键字，为后续图文检索提供输入。

步骤2c)，针对获取到的图像检索数据集进行相关处理并保存，数据集来自网络。

步骤2d)，针对获取到的图片进行预处理，用于后续的图像融合。

优选的：所述步骤3中过基于图的抽取型摘要提取方法生成完整的任务文本摘要的方法：

步骤3a)，根据预处理后的任务文档中的文本数据使用BERT预训练中文模型获取预处理的文本数据中的句子向量。

步骤3b)，使用步骤3a)中获得的句子向量利用余弦相似度计算句子间的相似度，并得到相似度矩阵。

步骤3c)，根据得到的句子向量和相似度矩阵，以句子向量嵌入为节点相似度得分为边权重，转换得到节点连接图；对节点连接图应用PageRank改进方法，使用G＝(V，E)表示有向图，使用句子向量代替网页节点V，相似度矩阵代替PageRank方法中的链接图阵边集E，对于一个给定的点V_i，In(V_i)为指向该点的点集合，Out(V_j)为点V_j指向的点集合；WS(V_i)表句子V_i的权重，W_ji表示两个句子的相似性，WS(V_j)表示上次迭代出的句子V_j的权重，

d为阻尼系数，计算得到句子的相似性得分。

步骤3d)，获取排名前的句子，并进行微调整得到最终任务文本摘要。

优选的：所述步骤4中提取关键词信息并在图像数据库中检索任务图片方法：

步骤4a)，基于步骤3提取的任务文本摘要，使用TF-IDF方法提取三个相关主题关键词。

步骤4b)，收集相关图片数据库，图片数据库按照标签分类，标签由常见众测任务或者是任务具体场景组成。

步骤4c)，使用步骤4a)中提取的关键词使用GloVe工具获取词向量表示，同图片数据库中的标签向量表示进行相似度匹配，筛选合适的三张任务图片。

步骤4d)，对步骤4c)中检索到的图片进行质量指标分析，筛选质量最高的两张图片，去除低质量图片。

优选的：步骤5中使用泊松融合方法融合生成为全新的任务图片方法，

步骤5a)，将待融合的两张检索任务图片进行划分，分为源图和目标图，图像融合的过程则是将源图中的感兴趣区域放入目标图中，进行融合生成一张全新的图片。融合过程会改变源图像中颜色和梯度，达到无缝融合效果。在源图像中划分出感兴趣区域，使用掩码mask计算一个外接矩形框，矩形框的中心点P，对应为目标图像的放置位置中心点。

步骤5b)，分别计算源图像待融合区域和目标图像的梯度场，将源图像待融合区域和目标图像的梯度场直接覆盖后，计算融合图像的梯度场。

步骤5c)，求解融合图像的散度：根据源图像待融合区域和目标图像的梯度场对梯度在x和y方向上求偏导，继而获得散度。

步骤5d)，构建泊松方程，求解泊松方程组：根据用户指定的边界条件求解泊松方程，达到梯度域上的连续，从而使得融合边界更合理。使用Ω表示目标图像合并后被覆盖掉的区域，

表示覆盖区域边界，Ω内的像素函数由f表示，外面的像素函数由f*表示。需要满足的两个条件为合并后的图像看上去尽可能的平滑，没有明显的边界，Ω内的梯度值小于阈值。图像仍能维持原图像的纹理信息。求解泊松方程组：Ax＝b，A是构建的系数矩阵，b是求得的散度，x是融合图像的像素值，求解得到x之后就能重建融合图像。

步骤5e)得到图像融合的结果，生成全新的任务图片。

本发明相比现有技术，具有以下有益效果：

本发明基于众测中的任务发布场景，基于自然语言处理、图像分析与机器学习等等相关技术，基于复杂的单个或多个任务文档提取出简洁的任务文本摘要；通过提取的任务文本摘要在收集到的图片数据库中检索任务图片，并通过图像融合相关技术结合检索到的图片生成全新的任务图片。基于以上技术，本发明实现更智能兼具交互式的任务发布过程。

附图说明

图1为本发明的方法整体流程图；

图2为本发明生成任务文本摘要流程图。

图3为本发明生成任务图片(包括图片检索和融合生成阶段)流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种用于众测任务发布的文本摘要与图文检索生成方法，包括如下步骤：

步骤1，数据采集：获取足够多的真实众测场景任务发布中的相关数据，包括任务发布的相关描述文档、任务发布涉及的相关图片数据库、相关备用任务图，分别用于对给定相关任务文档提取生成文本摘要以及检索生成相关任务发布图片。。

步骤2a)，针对生成文本摘要的相关文档进行文本预处理，对单个或多个文档进行整合，得到的文本数据以句子为单位进行分割，进行文本清洗，例如移除标点、特殊字符等，整理并保存。

步骤3，生成简洁概括性的文本摘要：使用预处理后的任务文档，通过基于图的抽取型摘要提取方法(TextRank)生成完整的任务文本摘要。

步骤3a)，根据预处理后的任务文档中的文本数据，使用BERT预训练中文模型获取预处理的文本数据中的句子向量。具体使用BERT中12层的transformer中的倒数第二层输出为其句子向量。

步骤3b)，使用步骤3a)中获得的句子向量利用余弦相似度计算句子间的相似度，并得到相似度矩阵(初始值为相似度)。

步骤3c)，根据得到的句子向量和相似度矩阵，以句子向量嵌入为节点相似度得分为边权重，转换得到节点连接图；对节点连接图应用PageRank改进方法，使用G＝(V，E)表示有向图，使用句子向量代替网页节点V，相似度矩阵代替PageRank方法中的链接图阵边集E，对于一个给定的句子点V_i，In(V_i)为指向该点的句子集合，Out(V_j)为点V_j指向的句子集合；WS(V_i)表句子V_i的权重，右侧的求和表示每个相邻句子对本句子的贡献程度。W_ji表示两个句子的相似性。WS(V_j)表示上次迭代出的句子V_j的权重，d为阻尼系数，一般为0.85。算法公式为：

算得到句子的权重得分。从分配给图中每个节点的任意值开始，迭代计算直到收敛到给定阈值以下。运行算法后，每个句子点都有一个分数，它代表了图中句子节点的“重要性”。注意，TextRank运行到完成后获得的最终值不受初始值的选择影响，只是收敛的迭代次数可能不同。

步骤3d)，根据步骤3c)中得到的句子相似度得分，获取排名前的句子，并进行微调整得到最终任务文本摘要。

步骤4b)，收集相关图片数据库，使用爬虫从谷歌图片库等网站使用相关标签爬取相关的图片数据。图片数据库按照标签分类，标签由常见众测任务{“用例执行”、“Bug探索”、“用例设计”、“功能测试”、“硬件联通”}或者是任务具体场景组成，举例如{“外卖”、“二手车”、“翻译”、“视频”、“理财”、“聊天”、“移动端”、“通信”…}等。对收集的图片数据库进行整理和清洗，去除低质量的图片。

步骤5，图像融合生成阶段，根据步骤4中检索的任务图片，使用图像融合的技术进行二次加工合成一张图像。图像融合是将两张图像中源图像的部分区域嵌入到目标图像生成全新的合成图像。如何使合成图像更加的自然是图像融合的主要任务和挑战。本步骤使用泊松融合方法，减小合成图像的较为明显的边界。

步骤5b)，分别计算源图像待融合区域和目标图像的梯度场，将源图像待融合区域(mask操作和目标图像的梯度场直接覆盖后，计算融合图像的梯度场。

步骤5c)，求解融合图像的散度：步骤5b)得到了融合图像每个像素点的梯度，本步骤根据源图像待融合区域和目标图像的梯度场对梯度在x和y方向上求偏导，继而获得散度。

表示覆盖区域边界，Ω内的像素函数由f表示，外面的像素函数由f*表示。需要满足的两个条件为合并后的图像看上去尽可能的平滑，没有明显的边界，Ω内的梯度值小于阈值，Ω内的梯度值要尽可能的小，图像仍能维持原图像的纹理信息。求解泊松方程组：Ax＝b，A是构建的系数矩阵，b是求得的散度，x是融合图像的像素值，求解得到x之后就能重建融合图像。

步骤5e)，得到图像融合的结果，生成全新的任务图片。

综上所述，本发明提出一种用于众测任务发布的文本摘要与图文检索生成方法，通过自然语言处理和图像分析的相关技术，从复杂的现实任务场景文档中提取出简洁有效的任务文本摘要，从收集的图片数据库中检索融合生成任务图片。本发明在一定程度上减轻了众测平台任务发布方的工作压力，此外还提高了同平台使用者之间的交互和趣味性。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于众测任务发布的文本摘要与图文检索生成方法，其特征在于，包括如下步骤：

步骤1，数据采集：获取真实众测场景任务发布中的相关数据，包括任务发布的相关描述文档、任务发布涉及的相关图片数据库；

步骤2，数据预处理：对任务发布的相关描述文档、任务发布涉及的相关图片进行整理和清洗，得到预处理后的任务文档；

步骤3，使用预处理后的任务文档，通过基于图的抽取型摘要提取方法生成完整的任务文本摘要；

步骤4，图文检索，根据步骤3得到的任务文本摘要，提取关键词信息并在图像数据库中检索任务图片；

2.根据权利要求1所述用于众测任务发布的文本摘要与图文检索生成方法，其特征在于：所述步骤2中对数据进行整理和清洗方法：

步骤2a)，针对生成文本摘要的相关文档进行文本预处理，对单个或多个文档进行整合，得到的文本数据以句子为单位进行分割，进行文本清洗，整理并保存；

步骤2b)，针对获取到的文本摘要进行处理，提取相关关键字，为后续图文检索提供输入；

步骤2c)，针对获取到的图像检索数据集进行相关处理并保存，数据集来自网络；

3.根据权利要求2所述用于众测任务发布的文本摘要与图文检索生成方法，其特征在于：所述步骤3中过基于图的抽取型摘要提取方法生成完整的任务文本摘要的方法：

步骤3a)，根据预处理后的任务文档中的文本数据使用BERT预训练中文模型获取预处理的文本数据中的句子向量；

步骤3b)，使用步骤3a)中获得的句子向量利用余弦相似度计算句子间的相似度，并得到相似度矩阵；

步骤3c)，根据得到的句子向量和相似度矩阵，以句子向量嵌入为节点相似度得分为边权重，转换得到节点连接图；对节点连接图应用PageRank改进方法，使用G＝(V,E)表示有向图，使用句子向量代替网页节点V，相似度矩阵代替PageRank方法中的链接图阵边集E，对于一个给定的点V_i，In(V_i)为指向该点的点集合，Out(V_j)为点V_j指向的点集合；WS(V_i)表句子V_i的权重，W_ji表示两个句子的相似性，WS(V_j)表示上次迭代出的句子V_j的权重，

d为阻尼系数，计算得到句子的相似性得分；

4.根据权利要求3所述用于众测任务发布的文本摘要与图文检索生成方法，其特征在于：所述步骤4中提取关键词信息并在图像数据库中检索任务图片方法：

步骤4a)，基于步骤3提取的任务文本摘要，使用TF-IDF方法提取三个相关主题关键词；

步骤4b)，收集相关图片数据库，图片数据库按照标签分类，标签由常见众测任务或者是任务具体场景组成；

步骤4c)，使用步骤4a)中提取的关键词使用GloVe工具获取词向量表示，同图片数据库中的标签向量表示进行相似度匹配，筛选合适的三张任务图片；

5.根据权利要求4所述用于众测任务发布的文本摘要与图文检索生成方法，其特征在于：步骤5中使用泊松融合方法融合生成为全新的任务图片方法，

步骤5a)，将待融合的两张检索任务图片进行划分，分为源图和目标图，图像融合的过程则是将源图中的感兴趣区域放入目标图中，进行融合生成一张全新的图片；融合过程会改变源图像中颜色和梯度，达到无缝融合效果；在源图像中划分出感兴趣区域，使用掩码mask计算一个外接矩形框，矩形框的中心点P，对应为目标图像的放置位置中心点；

步骤5b)，分别计算源图像待融合区域和目标图像的梯度场，将源图像待融合区域和目标图像的梯度场直接覆盖后，计算融合图像的梯度场；

步骤5c)，求解融合图像的散度：根据源图像待融合区域和目标图像的梯度场对梯度在x和y方向上求偏导，继而获得散度；

步骤5d)，构建泊松方程，求解泊松方程组：根据用户指定的边界条件求解泊松方程，达到梯度域上的连续，从而使得融合边界更合理；使用Ω表示目标图像合并后被覆盖掉的区域，

表示覆盖区域边界，Ω内的像素函数由f表示，外面的像素函数由f*表示；需要满足的两个条件为合并后的图像看上去尽可能的平滑，没有明显的边界，Ω内的梯度值小于阈值；图像仍能维持原图像的纹理信息；求解泊松方程组：Ax＝b，A是构建的系数矩阵，b是求得的散度，x是融合图像的像素值，求解得到x之后就能重建融合图像；

步骤5e)得到图像融合的结果，生成全新的任务图片。