CN116266261A - 一种基于反向查重生成检测报告的方法及系统 - Google Patents
一种基于反向查重生成检测报告的方法及系统 Download PDFInfo
- Publication number
- CN116266261A CN116266261A CN202211442930.3A CN202211442930A CN116266261A CN 116266261 A CN116266261 A CN 116266261A CN 202211442930 A CN202211442930 A CN 202211442930A CN 116266261 A CN116266261 A CN 116266261A
- Authority
- CN
- China
- Prior art keywords
- report
- manuscript
- generating
- version
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000001514 detection method Methods 0.000 title claims abstract description 84
- 230000008929 regeneration Effects 0.000 title claims abstract description 10
- 238000011069 regeneration method Methods 0.000 title claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 69
- 238000012550 audit Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012812 general test Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于反向查重生成检测报告的方法及系统,包括:生成检测报告的报告模板并存储于数据库;生成当前稿件;对当前稿件与报告模板进行反向查重,通过比对以标识出当前稿件版本修改的内容,并计算稿件重复率;当稿件重复率大于预定比率时,推送至审核员审核,审核通过后继续下一步;否则返回并重新汇编一个稿件版本,直至稿件重复率大于所述预定比率且审核通过;根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中更新报告终稿版本和相关过程数据,所述过程数据为在数据库中归档报告终稿版本、之前的历次稿件版本以及各个报告版本生成过程中的所有围绕检测的过程数据。
Description
技术领域
本发明涉及检验检测数据处理技术领域,并且更具体地,涉及一种基于反向查重生成检测报告的方法及系统。
背景技术
检验检测机构依据产品标准对产品进行产品认证,通过出具检测报告来实现这一过程。一般检测机构的试验人员在完成试验检测之后,报告编写人员依据试验人员记录的原始数据进行检测报告的编写。
同类型检测报告的特点是报告结构、格式和试验要求等大部分内容相同,仅在委托单位信息、试品信息、试验结果等处进行相应的修改,因此同类型检测报告中大量的内容是不需要调整的。
而在检测报告的编写这一过程中,由于存在人工误差,检测报告可能会出现一些错误,比如:报告的样品信息与委托任务信息不一致;报告数据与原始数据不一致;报告格式错误;报告的内容描述不恰当;报告的试验数据错误等问题。
因此,通常会有审核专员对检测报告的初稿进行审核,以便发现报告中可能存在的错误。然而审核员审核报告时,由于报告种类多、报告数量多、报告内容多,以及审核时限短、审核资源有限等问题,所以人工审核报告是一项耗时耗力且同样可能出现错误的工作。
这是因为,人工审核报告对审核员的专业能力有较高的要求,不仅需要审核员熟悉产品标准,具有丰富的试验经验,并且还需要具备细致耐心的工作能力。这一现状导致了审核人员无法满足当前大量的审核工作需求。
发明内容
根据本发明,提供了一种基于反向查重生成检测报告的方法及系统,以解决审核人员无法满足当前大量的审核工作需求的技术问题。
根据本发明的第一个方面,提供了一种基于反向查重生成检测报告的方法,包括:
生成检测报告的报告模板并存储于数据库;
确定用户输入的类型信息以及报告关键信息,并基于所述类型信息、报告模板以及报告关键数据生成当前稿件;
对当前稿件与报告模板进行反向查重,通过比对以标识出当前稿件版本修改的内容,并计算稿件重复率;
当稿件重复率大于预定比率时,推送至审核员审核,审核通过后继续下一步;否则返回并重新汇编一个稿件版本,直至稿件重复率大于所述预定比率且审核通过;
根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中更新报告终稿版本和相关过程数据,所述过程数据为在数据库中归档报告终稿版本、之前的历次稿件版本以及各个报告版本生成过程中的所有围绕检测的过程数据。
可选地,生成检测报告的报告模板并存储于数据库,包括:
根据数据库中已有的多份报告文件,逐次查重比对,提取重复的文字内容;
在提取重复的文字内容的基础上,生成与所述重复的文字内容所对应的类型信息的报告模板。
可选地,确定用户输入的类型信息以及报告关键信息,并基于所述类型信息、报告模板以及报告关键数据生成当前稿件,包括:
根据用户输入的类型信息,从所述数据库中找出与所述类型信息对应的报告模板;
当用户输入当前检测所得的过程数据,将当前检测所得的过程数据作为检测报告的报告关键数据;
基于所述类型信息、与所述类型信息对应的报告模板以及报告关键数据生成报告初稿。
可选地,根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中归档相关过程数据之后,还包括:
对于数据库中新入库的报告终稿版本和过程数据,自动或手动触发增量查重比对,比对新数据与原数据库查重后的数据,以获取报告终稿版本和报告模板之间的重复部分并生成新的报告模板。
可选地,生成检测报告的报告模板,还包括:
在全量查重比对的基础上反向组装生成报告模板;
根据数据库中多份检测报告文件,逐次查重比对,根据阈值设置生成全部文字向量重复率表,反向组装生成doc格式或docx格式的报告模板。
根据本发明的另一个方面,还提供了一种基于反向查重生成检测报告的系统,包括:
生成报告模板模块,用于生成检测报告的报告模板并存储于数据库;
生成当前稿件模块,用于确定用户输入的类型信息以及报告关键信息,并基于所述类型信息、报告模板以及报告关键数据生成当前稿件;
计算稿件重复率模块,用于对当前稿件与报告模板进行反向查重,通过比对以标识出当前稿件版本修改的内容,并计算稿件重复率;
判断稿件重复率模块,用于当稿件重复率大于预定比率时,推送至审核员审核,审核通过后继续下一步;否则返回并重新汇编一个稿件版本,直至稿件重复率大于所述预定比率且审核通过;
更新数据库模块,用于根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中更新报告终稿版本和相关过程数据,所述过程数据为在数据库中归档报告终稿版本、之前的历次稿件版本以及各个报告版本生成过程中的所有围绕检测的过程数据。
可选地,生成报告模板模块,包括:
提取重复文字内容子模块,用于根据数据库中已有的多份报告文件,逐次查重比对,提取重复的文字内容;
生成报告模板子模块,用于在提取重复的文字内容的基础上,生成与所述重复的文字内容所对应的类型信息的报告模板。
可选地,生成当前稿件模块,包括:
找出对应报告模板子模块,用于根据用户输入的类型信息,从所述数据库中找出与所述类型信息对应的报告模板;
确定报告关键数据子模块,用于当用户输入当前检测所得的过程数据,将当前检测所得的过程数据作为检测报告的报告关键数据;
生成报告初稿子模块,用于基于所述类型信息、与所述类型信息对应的报告模板以及报告关键数据生成报告初稿。
可选地,所述系统还包括:
生成新的报告模板子模块,用于对于数据库中新入库的报告终稿版本和过程数据,自动或手动触发增量查重比对,比对新数据与原数据库查重后的数据,以获取报告终稿版本和报告模板之间的重复部分并生成新的报告模板。
可选地,生成报告模板模块,还包括:
反向组装生成报告模板子模块,用于在全量查重比对的基础上反向组装生成报告模板;
生成格式报告模板子模块,用于根据数据库中多份检测报告文件,逐次查重比对,根据阈值设置生成全部文字向量重复率表,反向组装生成doc格式或docx格式的报告模板。
从而,在预先建立报告模板后,利用计算机处理相关内容和数据,以便对检测报告进行查重检索,并通过比对标定出重复部分或不同部分,实现报告的审核并改善报告的修改,并最大可能的实现进一步的归档和报告模板的更新。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本实施方式所述的一种基于反向查重生成检测报告的方法的流程示意图;
图2A为本实施方式所述的一种基于反向查重生成检测报告的方法的流程示意图;
图2B为本实施方式所述的稿件版本与报告模板之间的比对示意图;
图2C为本实施方式所述的计算重复率的流程示意图;
图3为本实施方式所述的对于检测报告中内容反向查重检索的示意图;
图4为本实施方式所述的初稿汇编阶段的示意图;
图5为本实施方式所述的报告审核阶段的示意图;
图6为本实施方式所述的出具终稿阶段的示意图;
图7为本实施方式所述的一种基于反向查重生成检测报告的系统示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
根据本发明的第一个方面,提供了一种基于反向查重生成检测报告的方法100,参考图1所示,该方法100包括:
S101:生成检测报告的报告模板并存储于数据库;
S102:确定用户输入的类型信息以及报告关键信息,并基于所述类型信息、报告模板以及报告关键数据生成当前稿件;;
S103:对当前稿件与报告模板进行反向查重,通过比对以标识出当前稿件版本修改的内容,并计算稿件重复率;
S104:当稿件重复率大于预定比率时,推送至审核员审核,审核通过后继续下一步;否则返回并重新汇编一个稿件版本,直至稿件重复率大于所述预定比率且审核通过;
S105:根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中更新报告终稿版本和相关过程数据,所述过程数据为在数据库中归档报告终稿版本、之前的历次稿件版本以及各个报告版本生成过程中的所有围绕检测的过程数据。
具体地,参考图2A所示,所述方法包括如下步骤:
S1、生成检测报告的报告模板并存储于数据库;
S2、汇编一个稿件版本:根据用户输入的类型信息,自动调出数据库中预先生成的报告模板;继续等待用户输入当前检测所得的过程数据;待用户输入当前检测所得的过程数据,将当前检测所得的过程数据作为检测报告的报告关键数据,然后根据类型信息、报告模板、报告关键数据生成报告的一个稿件版本;
S3、审核报告:从当前稿件版本中获取报告的类型信息,自动调出相应的报告模板,并对当前稿件版本与报告模板进行查重,然后进行比对,自动标识出当前稿件版本修改的内容;
S4、当审核员审核通过当前稿件版本修改的内容时,继续下一步;否则,返回至步骤S2以便用户重新汇编一个稿件版本,直至审核员审核通过当前稿件版本修改的内容;
S5、根据所述审核通过的当前稿件版本修改的内容,自动生成报告终稿版本,并在数据库中归档报告终稿版本、之前的历次稿件版本以及各个报告版本生成过程中的所有围绕检测的过程数据。
对于上述实施例而言,在预先建立报告模板后,利用计算机处理相关内容和数据,以便对检测报告进行查重检索,并通过比对标定出重复部分或不同部分,实现报告的审核并改善报告的修改以及归档。
示例性的,图2A示出了一个更加具体的实施方式,其在前文所述实施例基础上,以更加详细的方式示意了本公开所述方法的算法流程图。
更进一步的,参见图2B,在另一个实施例中,本公开还额外引入了重复率的手段以实现检测报告的稿件版本与报告模板之间的比对。具体的,所述基于反向查重生成检测报告的方法包括如下步骤:
S100、生成检测报告的报告模板并存储于数据库;
S200、汇编一个稿件版本:根据用户输入的类型信息,自动调出数据库中预先生成的报告模板;继续等待用户输入当前检测所得的过程数据;待用户输入当前检测所得的过程数据,将当前检测所得的过程数据作为检测报告的报告关键数据,然后根据类型信息、自动调出的报告模板、报告关键数据生成报告的一个稿件版本;
S300、审核报告:从当前稿件版本中获取报告的类型信息,自动调出相应的报告模板,并对当前稿件版本与报告模板进行查重,然后进行比对,自动标识出当前稿件版本修改的内容,并计算出当前稿件版本的重复率;
S400、当稿件重复率大于90%时,推送至审核员审核,当审核员审核通过当前稿件版本修改的内容时,继续下一步;否则返回至步骤S200以便用户重新汇编一个稿件版本,直至稿件重复率大于90%再次推送至审核员审核,直至审核员审核通过当前稿件版本修改的内容;
S500、根据所述审核通过的当前稿件版本修改的内容,自动生成报告终稿版本,并在数据库中归档报告终稿版本、之前的历次稿件版本以及各个报告版本生成过程中的所有围绕检测的过程数据。
此外,本公开还能够进一步实现报告模板的更新。在一个实施例中,所述的一种基于反向查重生成检测报告的方法中,步骤S500之后,所述的方法还包括如下步骤:
S600、更新数据库:对于数据库中新入库的报告终稿版本和过程数据,自动或手动触发增量查重比对,比对新数据与原数据库查重后的数据,以获取报告终稿版本和报告模板之间的重复部分并生成新的报告模板。
在一个实施例中,所述的一种基于反向查重生成检测报告的方法中,步骤S100包括如下具体子步骤以生成检测报告的报告模板:
S101、根据数据库中已有的多份报告文件,逐次查重比对,提取重复的文字内容;
S102、在提取重复的文字内容的基础上,生成所述重复的文字内容所对应的类型信息的报告模板。
在一个实施例中,所述的一种基于反向查重生成检测报告的方法中,
步骤S100在全量查重比对的基础上反向组装生成报告模板。
综上所述,本公开中,主要涉及了两种基于查重的算法:
(1)反向查重算法:系统根据数据库中所有报告文档,反向计算获得所有重复文字,以及第一重复率,将重复部分生成模板。
需要说明的是,本公开的反向查重的概念,其是相比传统的:查重,或者说正向查重而言。典型的,传统的查重,以学术论文的查重为例,其指的是:选择一个确定的完稿的学术论文,将其与数据库中的所有某个技术领域,或者不限技术领域的、已收录学术文献进行比对,这意味着当前完稿的学术论文本身没有在数据库中收录,并在这种前提下实现数据库外的该学术论文与数据库内的相关收录文献的查重。
而本公开中的反向查重则指的是:仅仅依靠数据库已有的报告文档,通过各个报告文档之间的查重,生成不同类型的报告模板。能够理解,对于数据库中类型为A类的所有已有报告文档,可通过各个报告文档之间的查重,生成报告类型为A类的报告模板。B类检测报告的报告模板,也是通过数据库已有的A类报告文档,通过各个报告文档之间的查重,生成报告类型为B类的报告模板。
(2)报告比对技术:新输入的文档,与系统中已有的模板全量文字比对,展示出文字异同部分,便于审核员审核。需要说明的是,其同样可以引入第二重复率,以判断重复的程度甚至用于控制是否推送至审核员。正如前文所述的S400中,当稿件重复率大于90%时,推送至审核员审核。
参见图2C,其详细示意了如何按步骤计算重复率。计算重复率时,可以包括如下子步骤:
S31,将文档段落分拆为多行文本;其中,分拆时,按照类似的分拆原则,不仅分拆报告的稿件版本,也分拆报告模板;
S32,逐行比对:将拆分后的报告的稿件版本,与分拆后的报告模板,逐行的比对;
S33,把两个字符串分别以行和列组成一个二维矩阵;
S34,比较二维矩阵中行和列对应的每个点的字符是否相同,是的话,则设置该点为1,否的话则设置该点为0;
S34,通过查找值为1的最长对角线来找到最长公共字符串;
S35,循环执行S32至S34,以完成报告的稿件版本与对应的报告模板之间,所有行的逐行比对;
S36,当完成所有行的逐行比对,逐行比对过程结束,获取报告的稿件版本与报告模板之间的所有重复文字;
S37,计算重复率,其中,重复率=所有重复字数/总字数。
至此,一种计算重复率的实施方式示例性的描述完毕。本领域技术人员能够理解,本公开并不受限于上述示例性的计算重复率的方式。
需要说明的是,前文所述的,当稿件重复率大于90%时,推送至审核员审核,当审核员审核通过当前稿件版本修改的内容时,继续下一步;否则返回至步骤S200以便用户重新汇编一个稿件版本,直至稿件重复率大于90%再次推送至审核员审核,直至审核员审核通过当前稿件版本修改的内容——其中,90%为优选的阈值。根据不同的具体类型的检测报告,可灵活调整该重复率的阈值。
此外,还需要说明的是,无论前文所述的第一重复率还是第二重复率,均可使用上述实施例所揭示的重复率的计算方式。而且,也可以根据情况,第一重复率、第二重复率采用不同的计算方式。换言之,本领域技术人员可以根据具体情况具体分析,采用适当的重复率的计算方式。能够理解,本公开并不受限于任何具体的重复率的计算方式。
在一个实施例中,所述的一种基于反向查重生成检测报告的方法中,
根据数据库中多份检测报告文件,逐次查重比对,根据阈值设置生成全部文字向量重复率表,再反向组装生成doc格式或docx格式的模板。
在一个实施例中,所述的一种基于反向查重生成检测报告的方法中,步骤S300还包括:
S301、根据用户输入的文字索引,自动获取报告模板;
S302、经查重算法比对出当前稿件版本与报告模板的不同部分,重复率为90%以上为符合要求的报告。
更进一步的,在一个实施例中,经查重算法比对出当前稿件版本与报告模板的不同部分,所述不同部分则作为当前稿件版本相比报告模板所修改的内容,并在当前稿件版本中重点标注出所述不同部分,同时一并区别性的展示当前稿件版本与报告模板相同的部分。
需要说明的是,查重算法可采用前文所述的重复率的计算方式,或者根据具体需要灵活选择其他的重复率的计算方式。
在一个实施例中,所述的一种基于反向查重生成检测报告的方法中,查重和比对采用局部敏感哈希(locality sensitive hash)算法。
在一个实施例中,所述的一种基于反向查重生成检测报告的方法中,所述局部敏感哈希算法采用simhash算法。
simhash作为locality sensitive hash(局部敏感哈希)的一种,其主要思想是降维,将高维的特征向量映射成低维的特征向量,通过两个向量的Hamming Distance来确定文章是否重复或者高度近似。
simhash算法分为5个步骤:分词、hash、加权、合并、降维。具体过程如下所述:
分词:给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1-5等5个级别的权重(如果是给定一个文本,那么特征向量可以是文本中的词,其权重可以是这个词出现的次数)。例如给定一段语句:“结构之法算法之道”,分词后为:“结构之法算法之道”,然后为每个特征向量赋予权值:结构(3)之(1)法(2)算法(3)之(1)道(2),其中括号里的数字代表这个单词在整条语句中的重要程度,数字越大代表越重要。
Hash:通过hash函数计算各个特征向量的hash值,hash值为二进制数01组成的n-bit签名。比如“结构”的hash值Hash(结构)为100101,“算法”的hash值Hash(算法)为“101011”。就这样,字符串就变成了一系列数字。
加权:在hash值的基础上,给所有特征向量进行加权,即W=Hash weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘。例如给“结构”的hash值“100101”加权得到:W(结构)=1001014=4 -4-4 4 -44,给“算法的hash值“101011”加权得到:W(算法)=101011*5=5 -5 5 -5 5 5,其余特征向量类似此般操作。
合并:将上述各个特征向量的加权结果累加,变成只有一个序列串。拿前两个特征向量举例,例如“结构”的“4 -4-4 4 -4 4”和“算法的“5 -5 5 -5 5 5”进行累加,得到“4+5-4+-5 -4+5 4+-5 -4+5 4+5”,得到“9 -9 1 -1 1”。
降维:对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度。例如把上面计算出来的“9 -9 1 -1 1 9”降维(某位大于0记为1,小于0记为0),得到的01串为:“1 0 1 0 1 1”,从而形成它们的simhash签名。
在一个实施例中,
每篇报告文档得到SimHash签名值后,接着计算两个签名的海明距离即可。根据经验值,对64位的SimHash值,海明距离在3以内的可认为相似度比较高。海明距离的求法:异或时,只有在两个比较的位不同时其结果是1,否则结果为0,两个二进制“异或”后得到1的个数即为海明距离的大小。
更进一步的,下面示例更加详细和形象的实施例以对本公开所揭示的技术方案进行说明:
参见图3,根据本公开所揭示的方法,发明人实现了一种对于检测报告中内容反向查重检索的系统,其通过图示的方式示意了3种模板的名称,并提供模板名称、检测类别、模板型号等设置,以及生成推荐系统模板的功能按钮。
在系统数据准备阶段,系统根据数据库中已有的报告原型,通过同一类型的文件逐次查重比对,根据重复率阈值设置计算组装生成报告doc文件;经由管理员确认后,生成此类型的报告模板。
参见图4,初稿汇编阶段:根据用户输入的模型索引,系统自动调出已生成的模板信息,在需要填写的地方标识,待用户输入关键数据后,生成报告初稿。例如,图4所示的报告名称、委托方、检测类别、报告型号等。
参见图5,报告审核阶段:报告初稿流转至审核员处,根据报告模型信息,自动调出相应的模板,并将报告和模板比对,根据查重比对,例如图中对比重复率为94%,其满足前文所述的大于90%的情况;如此,可继续标识出本次修改的部分并由审核员审核。需要说明的是,审核员可以做相应的批注,采取驳回或者同意操作等。详细的关于重复率的计算方式,可参见图2C以及前文对图2C的描述。
参见图6,出具终稿阶段:审核员审核报告同意后,系统根据所填内容自动生成报告终稿并归档涉及日志的过程数据。
从而,在预先建立报告模板后,利用计算机处理相关内容和数据,以便对检测报告进行查重检索,并通过比对标定出重复部分或不同部分,实现报告的审核并改善报告的修改,并最大可能的实现进一步的归档和报告模板的更新。
可选地,生成检测报告的报告模板并存储于数据库,包括:
根据数据库中已有的多份报告文件,逐次查重比对,提取重复的文字内容;
在提取重复的文字内容的基础上,生成与所述重复的文字内容所对应的类型信息的报告模板。
可选地,确定用户输入的类型信息以及报告关键信息,并基于所述类型信息、报告模板以及报告关键数据生成当前稿件,包括:
根据用户输入的类型信息,从所述数据库中找出与所述类型信息对应的报告模板;
当用户输入当前检测所得的过程数据,将当前检测所得的过程数据作为检测报告的报告关键数据;
基于所述类型信息、与所述类型信息对应的报告模板以及报告关键数据生成报告初稿。
可选地,根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中归档相关过程数据之后,还包括:
对于数据库中新入库的报告终稿版本和过程数据,自动或手动触发增量查重比对,比对新数据与原数据库查重后的数据,以获取报告终稿版本和报告模板之间的重复部分并生成新的报告模板。
可选地,生成检测报告的报告模板,还包括:
在全量查重比对的基础上反向组装生成报告模板;
根据数据库中多份检测报告文件,逐次查重比对,根据阈值设置生成全部文字向量重复率表,反向组装生成doc格式或docx格式的报告模板。
根据本发明的另一个方面,还提供了一种基于反向查重生成检测报告的系统700,参考图7所示,该系统700包括:
生成报告模板模块710,用于生成检测报告的报告模板并存储于数据库;
生成当前稿件模块720,用于确定用户输入的类型信息以及报告关键信息,并基于所述类型信息、报告模板以及报告关键数据生成当前稿件;
计算稿件重复率模块730,用于对当前稿件与报告模板进行反向查重,通过比对以标识出当前稿件版本修改的内容,并计算稿件重复率;
判断稿件重复率模块740,用于当稿件重复率大于预定比率时,推送至审核员审核,审核通过后继续下一步;否则返回并重新汇编一个稿件版本,直至稿件重复率大于所述预定比率且审核通过;
更新数据库模块750,用于根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中更新报告终稿版本和相关过程数据,所述过程数据为在数据库中归档报告终稿版本、之前的历次稿件版本以及各个报告版本生成过程中的所有围绕检测的过程数据。
可选地,生成报告模板模块,包括:
提取重复文字内容子模块,用于根据数据库中已有的多份报告文件,逐次查重比对,提取重复的文字内容;
生成报告模板子模块,用于在提取重复的文字内容的基础上,生成与所述重复的文字内容所对应的类型信息的报告模板。
可选地,生成当前稿件模块,包括:
找出对应报告模板子模块,用于根据用户输入的类型信息,从所述数据库中找出与所述类型信息对应的报告模板;
确定报告关键数据子模块,用于当用户输入当前检测所得的过程数据,将当前检测所得的过程数据作为检测报告的报告关键数据;
生成报告初稿子模块,用于基于所述类型信息、与所述类型信息对应的报告模板以及报告关键数据生成报告初稿。
可选地,所述系统还包括:
生成新的报告模板子模块,用于对于数据库中新入库的报告终稿版本和过程数据,自动或手动触发增量查重比对,比对新数据与原数据库查重后的数据,以获取报告终稿版本和报告模板之间的重复部分并生成新的报告模板。
可选地,生成报告模板模块,还包括:
反向组装生成报告模板子模块,用于在全量查重比对的基础上反向组装生成报告模板;
生成格式报告模板子模块,用于根据数据库中多份检测报告文件,逐次查重比对,根据阈值设置生成全部文字向量重复率表,反向组装生成doc格式或docx格式的报告模板。
本发明的实施例的一种基于反向查重生成检测报告的系统700与本发明的另一个实施例的一种基于反向查重生成检测报告的方法100相对应,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种基于反向查重生成检测报告的方法,其特征在于,包括:
生成检测报告的报告模板并存储于数据库;
确定用户输入的类型信息以及报告关键信息,并基于所述类型信息、报告模板以及报告关键数据生成当前稿件;
对当前稿件与报告模板进行反向查重,通过比对以标识出当前稿件版本修改的内容,并计算稿件重复率;
当稿件重复率大于预定比率时,推送至审核员审核,审核通过后继续下一步;否则返回并重新汇编一个稿件版本,直至稿件重复率大于所述预定比率且审核通过;
根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中更新报告终稿版本和相关过程数据,所述过程数据为在数据库中归档报告终稿版本、之前的历次稿件版本以及各个报告版本生成过程中的所有围绕检测的过程数据。
2.根据权利要求1所述的方法,其特征在于,生成检测报告的报告模板并存储于数据库,包括:
根据数据库中已有的多份报告文件,逐次查重比对,提取重复的文字内容;
在提取重复的文字内容的基础上,生成与所述重复的文字内容所对应的类型信息的报告模板。
3.根据权利要求1所述的方法,其特征在于,确定用户输入的类型信息以及报告关键信息,并基于所述类型信息、报告模板以及报告关键数据生成当前稿件,包括:
根据用户输入的类型信息,从所述数据库中找出与所述类型信息对应的报告模板;
当用户输入当前检测所得的过程数据,将当前检测所得的过程数据作为检测报告的报告关键数据;
基于所述类型信息、与所述类型信息对应的报告模板以及报告关键数据生成报告初稿。
4.根据权利要求1所述的方法,其特征在于,根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中归档相关过程数据之后,还包括:
对于数据库中新入库的报告终稿版本和过程数据,自动或手动触发增量查重比对,比对新数据与原数据库查重后的数据,以获取报告终稿版本和报告模板之间的重复部分并生成新的报告模板。
5.根据权利要求1所述的方法,其特征在于,生成检测报告的报告模板,还包括:
在全量查重比对的基础上反向组装生成报告模板;
根据数据库中多份检测报告文件,逐次查重比对,根据阈值设置生成全部文字向量重复率表,反向组装生成doc格式或docx格式的报告模板。
6.一种基于反向查重生成检测报告的系统,其特征在于,包括:
生成报告模板模块,用于生成检测报告的报告模板并存储于数据库;
生成当前稿件模块,用于确定用户输入的类型信息以及报告关键信息,并基于所述类型信息、报告模板以及报告关键数据生成当前稿件;
计算稿件重复率模块,用于对当前稿件与报告模板进行反向查重,通过比对以标识出当前稿件版本修改的内容,并计算稿件重复率;
判断稿件重复率模块,用于当稿件重复率大于预定比率时,推送至审核员审核,审核通过后继续下一步;否则返回并重新汇编一个稿件版本,直至稿件重复率大于所述预定比率且审核通过;
更新数据库模块,用于根据审核通过的当前稿件版本修改的内容,生成报告终稿版本,并在数据库中更新报告终稿版本和相关过程数据,所述过程数据为在数据库中归档报告终稿版本、之前的历次稿件版本以及各个报告版本生成过程中的所有围绕检测的过程数据。
7.根据权利要求6所述的系统,其特征在于,生成报告模板模块,包括:
提取重复文字内容子模块,用于根据数据库中已有的多份报告文件,逐次查重比对,提取重复的文字内容;
生成报告模板子模块,用于在提取重复的文字内容的基础上,生成与所述重复的文字内容所对应的类型信息的报告模板。
8.根据权利要求6所述的系统,其特征在于,生成当前稿件模块,包括:
找出对应报告模板子模块,用于根据用户输入的类型信息,从所述数据库中找出与所述类型信息对应的报告模板;
确定报告关键数据子模块,用于当用户输入当前检测所得的过程数据,将当前检测所得的过程数据作为检测报告的报告关键数据;
生成报告初稿子模块,用于基于所述类型信息、与所述类型信息对应的报告模板以及报告关键数据生成报告初稿。
9.根据权利要求6所述的系统,其特征在于,所述系统还包括:
生成新的报告模板子模块,用于对于数据库中新入库的报告终稿版本和过程数据,自动或手动触发增量查重比对,比对新数据与原数据库查重后的数据,以获取报告终稿版本和报告模板之间的重复部分并生成新的报告模板。
10.根据权利要求6所述的系统,其特征在于,生成报告模板模块,还包括:
反向组装生成报告模板子模块,用于在全量查重比对的基础上反向组装生成报告模板;
生成格式报告模板子模块,用于根据数据库中多份检测报告文件,逐次查重比对,根据阈值设置生成全部文字向量重复率表,反向组装生成doc格式或docx格式的报告模板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211442930.3A CN116266261A (zh) | 2022-11-17 | 2022-11-17 | 一种基于反向查重生成检测报告的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211442930.3A CN116266261A (zh) | 2022-11-17 | 2022-11-17 | 一种基于反向查重生成检测报告的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116266261A true CN116266261A (zh) | 2023-06-20 |
Family
ID=86744273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211442930.3A Pending CN116266261A (zh) | 2022-11-17 | 2022-11-17 | 一种基于反向查重生成检测报告的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116266261A (zh) |
-
2022
- 2022-11-17 CN CN202211442930.3A patent/CN116266261A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210256390A1 (en) | Computationally efficient neural network architecture search | |
CN109033150B (zh) | 敏感词验证方法、装置、计算机设备及存储介质 | |
CN110795524B (zh) | 主数据映射处理方法、装置、计算机设备及存储介质 | |
US11385988B2 (en) | System and method to improve results of a static code analysis based on the probability of a true error | |
CN114356919A (zh) | 一种结构化数据库的水印嵌入方法、溯源方法及装置 | |
CN111159482A (zh) | 数据校验方法及系统 | |
CN117077679B (zh) | 命名实体识别方法和装置 | |
CN112119410A (zh) | 用于用覆盖引导模糊测试调试神经网络的系统和方法 | |
CN113255742A (zh) | 一种政策匹配度计算方法、系统、计算机设备和存储介质 | |
CN112328621A (zh) | Sql转换方法、装置、计算机设备及计算机可读存储介质 | |
WO2020146784A1 (en) | Converting unstructured technical reports to structured technical reports using machine learning | |
CN116266261A (zh) | 一种基于反向查重生成检测报告的方法及系统 | |
CN111638926A (zh) | 人工智能在Django框架中的一种实现方法 | |
CN115599400A (zh) | 一种Docker镜像快速构建方法、系统及介质 | |
WO2005015430A1 (en) | A method of processing data for a system model | |
CN117278343B (zh) | 一种基于大数据平台数据的数据多级输出处理方法 | |
CN117436429B (zh) | 文档导出方法、装置、计算机设备和存储介质 | |
CN117312833B (zh) | 一种应用于数字资产环境中的数据识别方法及系统 | |
CN109582296B (zh) | 一种基于栈增强lstm的程序表示方法 | |
KR102528849B1 (ko) | 인공지능 기반의 소스코드 보안 취약점 판단 모델의 생성을 통해 소스코드에 대한 보안 취약점 판단을 가능하게 하는 전자 장치 및 그 동작 방법 | |
US11675817B1 (en) | Synthetic data generation | |
CN112394984B (zh) | 一种固件代码分析方法及装置 | |
US20230266940A1 (en) | Semantic based ordinal sorting | |
US8176407B2 (en) | Comparing values of a bounded domain | |
CN116909528A (zh) | 文本生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |