CN113515628B - 文档检测方法、装置、设备及存储介质 - Google Patents
文档检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113515628B CN113515628B CN202110545264.5A CN202110545264A CN113515628B CN 113515628 B CN113515628 B CN 113515628B CN 202110545264 A CN202110545264 A CN 202110545264A CN 113515628 B CN113515628 B CN 113515628B
- Authority
- CN
- China
- Prior art keywords
- document
- processed
- analysis
- attribute
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 91
- 238000004458 analytical method Methods 0.000 claims abstract description 172
- 238000010606 normalization Methods 0.000 claims abstract description 83
- 238000011156 evaluation Methods 0.000 claims abstract description 73
- 238000010219 correlation analysis Methods 0.000 claims description 57
- 238000000034 method Methods 0.000 claims description 50
- 239000013598 vector Substances 0.000 claims description 49
- 230000015654 memory Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007621 cluster analysis Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 11
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000008094 contradictory effect Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006735 deficit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000035515 penetration Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010003497 Asphyxia Diseases 0.000 description 1
- 208000001300 Perinatal Death Diseases 0.000 description 1
- 206010036595 Premature delivery Diseases 0.000 description 1
- 239000009759 San-Chi Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000036244 malformation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009278 visceral effect Effects 0.000 description 1
- 239000010154 weishu Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种文档检测方法、装置、设备及存储介质。具体实现方案为:获取待处理文档的至少一个文档单元;对文档单元进行特征识别,得到文档单元的属性特征;根据属性特征对应的文档指标,对属性特征进行规范性分析,得到属性特征对应的规范性分析结果;根据规范性分析结果,得到待处理文档的评估结果。本申请实施例对待处理文档进行识别和规范性分析,基于布局、风格等文档指标对待处理文档进行评估,以便于用户根据评估结果对文档进行整理和改进,从而提高文档的规范性和展示效果。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文档检测方法、装置、设备及存储介质。
背景技术
随着互联网的发展,能够从各个角度展示主题内容的各类文档类型层出不穷。例如:PPT(PowerPoint,演示文稿)、WORD、PDF(Portable Document Format,可移植文档格式)等。以上各类文档可作为交互、沟通和展示主题思想的基础工具。但是,很多情况下,制作完成的文档可能会由于书写格式、布局风格等不符合规范的情况而影响到展示效果,造成文档阅读和观看的体验不佳。
发明内容
本申请实施例提供一种文档检测方法、装置、设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种文档检测方法,包括:
获取待处理文档的至少一个文档单元;
对文档单元进行特征识别,得到文档单元的属性特征;
根据属性特征对应的文档指标,对属性特征进行规范性分析,得到属性特征对应的规范性分析结果;
根据规范性分析结果,得到待处理文档的评估结果。
在一种实施方式中,获取待处理文档的至少一个文档单元,包括:
在展示待处理文档的过程中,至少截取待处理文档的一个展示界面;
将一个展示界面作为待处理文档的一个文档单元。
在一种实施方式中,对文档单元进行特征识别,得到文档单元的属性特征,包括:
获取待处理文档的文档类型;
确定与文档类型对应的特征识别模型;
利用特征识别模型对文档单元进行特征识别。
在一种实施方式中,获取待处理文档的文档类型,包括:
获取待处理文档的扩展名;
根据扩展名确定待处理文档的文档类型。
在一种实施方式中,获取待处理文档的文档类型,包括:
获取待处理文档中的预设关键字;
根据预设关键字确定待处理文档的文档类型。
在一种实施方式中,文档单元的属性特征包括字体格式、段落格式、背景风格、页面布局、链接、多媒体内容、文本内容、敏感词、错字和文档摘要中的至少一种。
在一种实施方式中,在文档单元的属性特征包括文档摘要的情况下,根据属性特征对应的文档指标,对属性特征进行规范性分析,得到属性特征对应的规范性分析结果,包括:
对待处理文档的多个文档单元各自对应的文档摘要进行聚类分析,得到聚类结果;
对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性;
对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
根据相关性分析的结果和属性特征对应的文档指标,得到属性特征对应的规范性分析结果。
在一种实施方式中,对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析,包括:
根据词性相同的词的词向量夹角,计算词性相同的词之间的词向量距离;
根据词向量距离得到相关性分析的结果。
在一种实施方式中,根据词向量距离得到相关性分析的结果,包括:
在各个不同的词性各自对应的词向量距离中选取最小值;
根据最小值得到相关性分析的结果。
在一种实施方式中,根据相关性分析的结果和属性特征对应的文档指标,得到属性特征对应的规范性分析结果,包括:
根据相关性分析的结果,计算文档内容评估参数;
根据文档内容评估参数和属性特征对应的文档指标,得到属性特征对应的规范性分析结果。
在一种实施方式中,根据相关性分析的结果,计算文档内容评估参数,包括利用以下公式计算文档内容评估参数:
其中,Q表示文档内容评估参数;P表示相关性分析的结果;α表示第一预设阈值;i表示文档摘要的个数。
在一种实施方式中,属性特征对应的文档指标包括第二预定阈值;
根据文档内容评估参数和属性特征对应的文档指标,得到属性特征对应的规范性分析结果,包括:在文档内容评估参数小于等于第二预定阈值的情况下,确定属性特征对应的规范性分析结果为多个文档单元之间的内容不一致。
在一种实施方式中,根据属性特征对应的文档指标,对属性特征进行规范性分析,得到属性特征对应的规范性分析结果,包括:
将各个文档单元的各个属性特征与各自对应的文档指标相比对;
分别针对各个属性特征,将各个文档单元的比对结果进行汇总,得到各个属性特征对应的分值;
将各个属性特征对应的分值作为规范性分析结果。
在一种实施方式中,根据规范性分析结果,得到待处理文档的评估结果,包括:
将各个属性特征对应的分值加权求和,得到待处理文档的评估结果。
在一种实施方式中,根据规范性分析结果,得到待处理文档的评估结果,包括:
根据比对结果,得到待处理文档中不符合文档规范的文档信息;
将待处理文档中不符合文档规范的文档信息作为待处理文档的评估结果。
第二方面,本申请实施例提供了一种文档检测装置,包括:
获取模块,用于获取待处理文档的至少一个文档单元;
识别模块,用于对文档单元进行特征识别,得到文档单元的属性特征;
分析模块,用于根据属性特征对应的文档指标,对属性特征进行规范性分析,得到属性特征对应的规范性分析结果;
处理模块,用于根据规范性分析结果,得到待处理文档的评估结果。
在一种实施方式中,获取模块用于:
在展示待处理文档的过程中,至少截取待处理文档的一个展示界面;
将一个展示界面作为待处理文档的一个文档单元。
在一种实施方式中,识别模块包括:
获取子模块,用于获取待处理文档的文档类型;
确定子模块,用于确定与文档类型对应的特征识别模型;
识别子模块,用于利用特征识别模型对文档单元进行特征识别。
在一种实施方式中,获取子模块用于:
获取待处理文档的扩展名;
根据扩展名确定待处理文档的文档类型。
在一种实施方式中,获取子模块用于:
获取待处理文档中的预设关键字;
根据预设关键字确定待处理文档的文档类型。
在一种实施方式中,文档单元的属性特征包括字体格式、段落格式、背景风格、页面布局、链接、多媒体内容、文本内容、敏感词、错字和文档摘要中的至少一种。
在一种实施方式中,分析模块包括:
聚类子模块,用于在文档单元的属性特征包括文档摘要的情况下,对待处理文档的多个文档单元各自对应的文档摘要进行聚类分析,得到聚类结果;
第一分析子模块,用于对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性;
第二分析子模块,用于对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
第三分析子模块,用于根据相关性分析的结果和属性特征对应的文档指标,得到属性特征对应的规范性分析结果。
在一种实施方式中,第二分析子模块包括:
第一计算子模块,用于根据词性相同的词的词向量夹角,计算词性相同的词之间的词向量距离;
相关性分析子模块,用于根据词向量距离得到相关性分析的结果。
在一种实施方式中,相关性分析子模块用于:
在各个不同的词性各自对应的词向量距离中选取最小值;
根据最小值得到相关性分析的结果。
在一种实施方式中,第三分析子模块包括:
第二计算子模块,用于根据相关性分析的结果,计算文档内容评估参数;
第四分析子模块,用于根据文档内容评估参数和属性特征对应的文档指标,得到属性特征对应的规范性分析结果。
在一种实施方式中,第二计算子模块用于利用以下公式计算文档内容评估参数:
其中,Q表示文档内容评估参数;P表示相关性分析的结果;α表示第一预设阈值;i表示文档摘要的个数。
在一种实施方式中,属性特征对应的文档指标包括第二预定阈值;
第四分析子模块用于:在文档内容评估参数小于等于第二预定阈值的情况下,确定属性特征对应的规范性分析结果为多个文档单元之间的内容不一致。
在一种实施方式中,分析模块用于:
将各个文档单元的各个属性特征与各自对应的文档指标相比对;
分别针对各个属性特征,将各个文档单元的比对结果进行汇总,得到各个属性特征对应的分值;
将各个属性特征对应的分值作为规范性分析结果。
在一种实施方式中,处理模块用于:
将各个属性特征对应的分值加权求和,得到待处理文档的评估结果。
在一种实施方式中,处理模块还用于:
根据比对结果,得到待处理文档中不符合文档规范的文档信息;
将待处理文档中不符合文档规范的文档信息作为待处理文档的评估结果。
第三方面,本申请实施例提供了一种电子设备,该设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:对待处理文档进行识别和规范性分析,基于布局、风格等文档指标对待处理文档进行评估,以便于用户根据评估结果对文档进行整理和改进,从而提高文档的规范性和展示效果。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为根据本申请实施例的文档检测方法的流程图;
图2为根据本申请另一实施例的文档检测方法的获取文档单元的流程图;
图3为根据本申请另一实施例的文档检测方法的检测架构示意图;
图4为根据本申请另一实施例的文档检测方法的属性识别的流程图;
图5为根据本申请另一实施例的文档检测方法的流程图;
图6为根据本申请另一实施例的文档检测方法的流程图;
图7为根据本申请另一实施例的文档检测方法的流程图;
图8为根据本申请另一实施例的文档检测方法的检测流程示意图;
图9为根据本申请另一实施例的文档检测方法的流程图;
图10为根据本申请另一实施例的文档检测方法的演示文稿截屏示意图;
图11为根据本申请另一实施例的文档检测方法的演示文稿截屏示意图;
图12为根据本申请另一实施例的文档检测方法的演示文稿截屏示意图;
图13为根据本申请另一实施例的文档检测方法的流程图;
图14为根据本申请另一实施例的文档检测方法的文书截屏示意图;
图15为根据另一本申请实施例的文档检测装置的结构示意图;
图16为根据另一本申请实施例的文档检测装置的分析模块的结构示意图;
图17为根据另一本申请实施例的文档检测装置的分析模块的结构示意图;
图18为根据另一本申请实施例的文档检测装置的分析模块的结构示意图;
图19为用来实现本申请实施例的电子设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为根据本申请实施例的文档检测方法的流程图。如图1所示,该文档检测方法可以包括:
步骤S110,获取待处理文档的至少一个文档单元;
步骤S120,对文档单元进行特征识别,得到文档单元的属性特征;
步骤S130,根据属性特征对应的文档指标,对属性特征进行规范性分析,得到属性特征对应的规范性分析结果;
步骤S140,根据规范性分析结果,得到待处理文档的评估结果。
通常情况下文档可以是文件的另一种称呼。例如可以将OFFICE等文字编辑软件产生的文件叫做文档。文档可包括演示文稿或文书等。本申请实施例提供的文档检测方法,可对制作完成的文档进行检测,分析文档的书写格式、布局风格等是否符合规范,以及评估文档的展示效果是否理想。本申请实施例得到的文档评估结果可以用于指导用户对文档进行整理和改进,从而提高文档的规范性和展示效果。
在步骤S110中,待处理文档的文档单元可以是文档中的一个展示界面。例如,对于WORD文档而言,待处理文档的文档单元可以是WORD文档中的至少一个页面或者在浏览文档过程中WORD窗口中不同时刻的展示界面。再如,对于PPT文档而言,待处理文档的文档单元可以是PPT文档中的至少一张幻灯片或者PPT播放过程中的至少一个展示界面。在播放或浏览文档的过程中,可以对待处理文档的每个展示界面进行截图,得到待处理文档的至少一个文档单元。
在步骤S120中,可利用特征识别模型对步骤S110中得到的至少一个文档单元进行特征识别,得到各个文档单元的属性特征。其中,属性特征可以用于表征文档的书写格式、布局风格等。在一个示例中,属性特征可以是文本的字号或文本的字体。
在步骤S130中,可利用文档分析模型对步骤S120中得到的对文档单元的属性特征进行规范性分析。可预先根据业务系统的需求设定文档指标。文档指标可包括书写格式规范和布局风格规范等。例如,书写格式规范可包括:在字号≥6号的情况下确定为符合书写格式规范。布局风格规范可包括:在文档内容中包含首页和扉页的情况下确定为符合布局风格规范。利用文档分析模型对至少一个文档单元的属性特征进行规范性分析,可分析文档中的文本的字号、文档内容中是否包含首页和扉页等情况。然后将分析结果与文档指标相比对,得到各个属性特征对应的规范性分析结果。
在步骤S140中,可将属性特征对应的规范性分析结果汇总,得到待处理文档的评估结果。在一个示例中,每个属性特征对应的规范性分析结果可以是一个评估得到的分值,可将针对待处理文档的得到的各个属性特征对应的规范性分析结果对应的分值进行统计,将统计结果作为待处理文档的评估结果。例如统计结果可包括规范性分析结果对应的分值中的得分项和扣分项,各个属性特征对应的规范性分析结果的总分值等。
本申请实施例对待处理文档进行识别和规范性分析,基于布局、风格等文档指标对待处理文档进行评估,以便于用户根据评估结果对文档进行整理和改进,从而提高文档的规范性和展示效果。
图2为根据本申请另一实施例的文档检测方法的获取文档单元的流程图。如图2所示,在一种实施方式中,图1中的步骤S110,获取待处理文档的至少一个文档单元,具体可包括:
步骤S210,在展示待处理文档的过程中,至少截取待处理文档的一个展示界面;
步骤S220,将一个展示界面作为待处理文档的一个文档单元。
在一个示例中,可利用检测模块对待处理文档进行检测。图3为根据本申请另一实施例的文档检测方法的检测架构示意图。参见图1至图3,以待处理文档为PPT文档为例,当待处理文档输入到检测模块之后,检测模块自动播放待处理文档,并对播放过程中的每个展示界面进行截图,然后将每张截图作为数据源推送到识别模块中。在图3的示例中,还可通过检测模块对待处理文档进行进一步地检测,具体可包括以下几项:
1)文字区域检测:对文档中的文字位置进行检测。
2)图片检测:检测文档中是否有图片以及文档中的检测图片位置。
3)后缀识别:识别文档名称的后缀。例如识别文件的扩展名。
参见图3,检测模块得到检测结果后,将检测结果推送到识别模块中进行进一步地处理。
本申请实施例通过动态播放并截屏的方式对待处理文档的内容和布局进行识别、分析,由于动态播放并截屏的方式可以捕捉到文档中每一个展示界面的内容,从而方便后续步骤中对各个展示界面进行对比和综合分析,从而可以得到文档的整体布局和整体风格等信息。比较而言,在相关技术中没有通过动态播放并截屏的方式得到文档单元,只是静态识别文档内容,无法精确识别每一个展示界面的展示效果,因此无法满足动态识别、布局识别等需求。
图4为根据本申请另一实施例的文档检测方法的属性识别的流程图。如图4所示,在一种实施方式中,图1中的步骤S120,对文档单元进行特征识别,得到文档单元的属性特征,具体可包括:
步骤S310,识别待处理文档的文档类型;
步骤S320,确定与文档类型对应的特征识别模型;
步骤S330,利用特征识别模型对文档单元进行特征识别。
参见图1至图4,检测模块将检测结果推送到识别模块中进行进一步地处理。识别模块接收到检测模块推送的数据后,首先识别出待处理文档的文档类型。例如,待处理文档的文档类型可包括文书、白皮书、开发文档、宣传文档、演示文稿等。
在一种实施方式中,获取待处理文档的文档类型,包括:
获取待处理文档的扩展名;
根据扩展名确定待处理文档的文档类型。
在一个示例中,可通过检测模块对待处理文档进行后缀识别,得到文件的扩展名。然后识别模块根据文件的扩展名可确定待处理文档的文档类型。例如若检测到待处理文档的扩展名为.ppt,则可确定待处理文档的文档类型为演示文稿。
在一种实施方式中,获取待处理文档的文档类型,包括:
获取待处理文档中的预设关键字;
根据预设关键字确定待处理文档的文档类型。
在另一个示例中,识别模块还可以根据检测模块检测到的待处理文档的文本的内容中是否包含预设关键字确定待处理文档的文档类型。例如,若检测到待处理文档的标题中含有“白皮书”字样,则可确定待处理文档的文档类型为白皮书;若检测到待处理文档的内容中含有发文号,则可确定待处理文档的文档类型为文书。
针对不同文档类型的待处理文档,需要使用不同的特征识别模型进行识别。例如,对于演示文稿而言,预先设定的需要进行特征识别的属性特征可包括空白率。其中,空白率可以是文档单元的展示界面中的空白的面积与总面积之比。也就是说对于演示文稿而言需要识别空白率,如果空白率太大例如大于设定阈值,则演示文稿的展示效果不好,可确定为不符合布局风格规范。而对于文书而言,制作完成的待处理文档可能很少出现空白率的问题,因此可以不识别待处理文档的空白率。再如,对于文书而言,预先设定的需要进行特征识别的属性特征可包括关键内容。也就是说需要识别待处理文档的关键内容是否缺失。例如待处理文档中是否包括发文号、成文日期、公章等内容。如果缺失这些关键内容,则确定为文书不符合书写格式规范。而对于演示文稿而言,则可以不必识别待处理文档中是否包括发文号、成文日期、公章等关键内容。
另外,每个属性特征对应的规范性分析结果可以是一个评估得到的分值,可将针对待处理文档的得到的各个属性特征对应的规范性分析结果对应的分值进行统计,将统计结果作为待处理文档的评估结果。对不同文档类型的待处理文档,可使用不同的权重对各个属性特征对应的规范性分析结果对应的分值进行统计。可预先配置各个属性特征对应的权重,为不同文档类型的待处理文档设置不同的权重分配方案,再将各个属性特征对应的规范性分析结果对应的分值加权求和,得到表征文档健康度指数的量化指标。可将该量化指标作为待处理文档的评估结果。其中,文档健康度指数是描述文档合规性、风格一致性等特征的健康度指标。
在一种实施方式中,文档单元的属性特征包括字体格式、段落格式、背景风格、页面布局、链接、多媒体内容、文本内容、敏感词、错字和文档摘要中的至少一种。
在一个示例中,可通过检测模块对待处理文档的各个文档单元进行文字区域检测。检测模块得到文字区域检测的检测结果后,将检测结果推送到识别模块中进行特征识别,得到的属性特征可包括:文字区域内的文本的字体格式、段落格式、文本内容、敏感词、错字中的至少一种。其中,字体格式具体可包括字体、字号、字体颜色等。参见图3,可通过识别模块识别文档单元的文字区域检测中的字体、字号、字体颜色、敏感词、错字、文本内容等属性特征。识别模块识别的属性特征还可以包括段落格式等图3中未示出的属性特征。
在另一个示例中,可通过检测模块对待处理文档的各个文档单元进行多媒体内容的检测。其中,多媒体内容可包括图片、照片、声音、动画和影片中的至少一种。以图片检测为例,可检测文档中是否有图片以及文档中的检测图片位置。检测模块得到图片检测的检测结果后,将检测结果推送到识别模块中进行特征识别。识别模块识别得到的属性特征可包括多媒体内容。多媒体内容具体可包括图片的语义、图片的色调风格、图片的尺寸等。
在又一个示例中,还可通过检测模块对待处理文档的各个文档单元进行链接的检测。检测模块得到检测结果后,将检测结果推送到识别模块中进行进一步地处理。例如,识别模块可识别链接是否合法、是否有效,识别链接内容是否与文档主题内容相符等。
另外,识别模块还可以识别文档单元的背景风格、页面布局等属性特征。背景风格可包括背景颜色、主题风格等。页面布局可包括页边距、分栏和母版等。
参见图3,仍以待处理文档为PPT文档为例,当待处理文档推送到识别模块中,识别模块会先对其文档类型进行初步判定。判定该文档为演示文稿,则选择演示文稿对应的特征识别模型对文档单元进行特征识别。识别模块识别每个文档单元中的背景风格(颜色、特征)、字体、字号、字色、配图的图片颜色、链接、多媒体内容、文本内容等信息,并将以上信息作为元数据推送到分析模块。
图5为根据本申请另一实施例的文档检测方法的流程图。如图5所示,在一种实施方式中,在文档单元的属性特征包括文档摘要的情况下,图1中的步骤S130,根据属性特征对应的文档指标,对属性特征进行规范性分析,得到属性特征对应的规范性分析结果,包括:
步骤S510,对待处理文档的多个文档单元各自对应的文档摘要进行聚类分析,得到聚类结果;
步骤S520,对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性;
步骤S530,对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
步骤S540,根据相关性分析的结果和属性特征对应的文档指标,得到属性特征对应的规范性分析结果。
用户制作完成的文档可能会出现文档内容不符合正常逻辑的情况,例如文档前后的内容不一致、主体观点相悖等情况。因此在文档检测过程中,通常需要检测其内容是否符合正常的逻辑,如前后内容的相关度,前后主体观点是否相悖等。本申请实施例通过对待处理文档内容的摘要提取、对摘要相关度的比较,可以判断某个待处理文档中的各个文档单元的内容是否一致。
本申请实施例中,可预先训练文档摘要生成模型。在对待处理文档进行检测之前,可预先将待处理文档划分为多个文档单元。例如,对于WORD文档而言,待处理文档的文档单元可以是WORD文档中的多个页面或者是WORD文档中的多个段落。再如,对于PPT文档而言,待处理文档的文档单元可以是PPT文档中的多张幻灯片或者PPT播放过程中的多个展示界面。
本申请实施例中,可利用训练好的文档摘要生成模型对待处理文档的多个文档单元分别进行摘要提取,得到多个文档单元各自对应的文档摘要。在步骤S51中,对得到的多个文档摘要进行聚类分析,得到聚类结果。
例如,分别对文档单元A、文档单元B、文档单元C、文档单元D和文档单元E进行摘要提取,对应得到文档摘要A、文档摘要B、文档摘要C、文档摘要D和文档摘要E。然后对文档摘要A、文档摘要B、文档摘要C、文档摘要D和文档摘要E进行聚类分析。一个示例性的聚类结果可包括:上述文档摘要属于两个类别,第一类别包括文档摘要A、文档摘要B和文档摘要D,第二类别包括文档摘要C和文档摘要E。
在步骤S520中,利用步骤S510中得到的聚类结果,对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性。
以上述示例中的第一类别为例,词性分析的结果如下:
文档摘要A的内容为:“张三迟到了”。对文档摘要A的内容进行词性分析的结果为:“张三”为名词、“迟到”为动词。
文档摘要B的内容为:“张三来晚了”。对文档摘要B的内容进行词性分析的结果为:“张三”为名词、“来晚”为动词。
文档摘要D的内容为:“张三旷工了”。对文档摘要D的内容进行词性分析的结果为:“张三”为名词、“旷工”为动词。
在步骤S530中,对于步骤S520中得到的属于同一类别的文档摘要中的词性相同的词,进行相关性分析。以上述示例中的第一类别的文档摘要中的动词为例,相关性分析的结果如下:“迟到”与“来晚”的相关度较高,“旷工”与“迟到”的相关度较低,“旷工”与“来晚”的相关度较低。
在步骤S540中,根据步骤S530中得到的相关性分析的结果,得到文档摘要这一属性特征对应的规范性分析结果。以上述示例中的第一类别的待处理文档为例,相关性分析的结果如下:文档单元D对应的文档摘要D中的动词“旷工”与第一类别中的另外两个文档单元对应的文档摘要中的动词相关度都较低,因此文档单元D的内容与第一类别中其他文档单元的内容不一致。
本申请实施例通过对同一类别的文档摘要的内容进行词性拆分,进而可以判别出有在语义上有差异的词。在此基础上对待处理文档的内容进行评估,提升了文档检测的准确度。
图6为根据本申请另一实施例的文档检测方法的流程图。如图6所示,在一种实施方式中,图5中的步骤S530,对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析,包括:
步骤S610,根据词性相同的词的词向量夹角,计算词性相同的词之间的词向量距离;
步骤S620,根据词向量距离得到相关性分析的结果。
其中,词向量包括来自词汇表的单词或短语被映射到实数的向量。词向量涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
在这种实施方式中,可针对各个不同的词性,分别计算词向量距离。仍以上述示例中的第一类别的待处理文档为例,可分别针对名词和动词进行计算,在第一类别的待处理文档对应的文档摘要中,将其中的任意两个文档摘要进行比较,得到名词和动词各自对应的词向量距离。
图7为根据本申请另一实施例的文档检测方法的流程图。如图7所示,在一种实施方式中,图6中的步骤S620,根据词向量距离得到相关性分析的结果,包括:
步骤S710,在各个不同的词性各自对应的词向量距离中选取最小值;
步骤S720,根据最小值得到相关性分析的结果。
以上述示例中的第一类别的文档单元为例,针对动词进行计算,由于“旷工”与“迟到”、“旷工”与“来晚”的相关度较低,则动词这一词性对应的词向量距离较大。针对名词进行计算,由于第一类别的文档单元对应的文档摘要中的名词都是“张三”,则名词这一词性对应的词向量距离较小。在各个不同的词性各自对应的词向量距离中选取的最小值为动词这一词性对应的词向量距离。可将动词对应的词向量距离作为相关性分析的结果。
本申请实施例中,首先对待处理文档中的文档单元进行摘要提取,然后可利用语义相似度分类模型对文档摘要的内容进行分析,将同一类别中的文档摘要中的句子进行对比分析,生成相关性分析的结果。最后再根据相关性分析的结果生成文档摘要这一属性特征对应的规范性分析结果。
图8为根据本申请另一实施例的文档检测方法的检测流程示意图。参见图8,一个示例性的文档检测方法的流程如下:
1)准备待提取摘要的多个文档单元,记为文本数据集D1。利用文本摘要生成模型分析文档单元描述的结论性信息,对文档单元的结论性内容进行提取,生成多个文档单元各自对应的文档摘要,记为摘要集D2。
2)通过对摘要集D2进行事物描述相关性聚类,将描述同类事物的摘要进行聚合分组,得到聚类结果Gn,其中,n表示聚类类别的编号,Gn表示聚合分组中的第n组文档摘要,也称为第n个摘要集集合。每组文档摘要内包含Si(i≥2)句话,例如每句话可以对应于一个文档摘要。在这种情况下,i表示文档摘要的编号,也是句子的编号。
参见图8所示,句子S1至句子S5在聚类后被分为两个组。第1组文档G1中包括句子S1、句子S2和句子S3,第2组G2中包括句子S4和句子S5。
3)分别对每个摘要集集合中的文档摘要进行词性分析,按照词性对文档摘要中的词进行二次分组,得到Wm(m≥2)。其中,m表示各个不同的词性的编号,例如m=1表示名词,m=2表示动词,m=3表示形容词,m=4表示量词;Wm表示二次分组中的属于编号为m的词。
参见图8所示,针对句子S1,通过词性分析进行二次分组得到S1-W1、S1-W2、S1-W3和S1-W4。针对句子S2,通过词性分析进行二次分组得到S2-W1、S2-W2、S2-W3和S2-W4。
4)分别针对每个摘要集集合中的文档摘要,在进行词性分析之后,利用词向量模型逐一针对各个不同的词性,例如名词、形容词、方位词、动词、量词等,利用以下公式1进行对应的词向量距离计算并取最小值:
其中,θ为两个词向量Wm和Wm'之间的夹角;Wm和Wm'分别表示两个文档摘要中的对应的词,例如上述示例中的“迟到”和“来晚”;q表示在文档摘要中词的查找维度,查找维度可包括文档所属的领域、文档类型(例如WORD、PPT等)、文档的时效(文档发表时间)和文档来源(出处)中的至少一种;k表示查找维度的总数目,即维度对应的独立参数的数目、查找空间中独立的时空坐标的数目,也就是查找表共有多少维;i表示文档摘要的编号;P表示两个文档摘要的相关程度,P越大表示两个文档摘要的一致性越高,如果P<α∈(0,1)则表示两个文档摘要的内容相悖,如果P=α∈(0,1)则表示两个文档摘要的内容无关。
再参见图8,针对两个文档摘要根据词性进行二次分组后得到的各个分组,分别对各个对应分组的词向量距离进行比较,得到各个对应分组各自对应的词向量夹角余弦,即公式1中的cos(θ),得到Pm。其中,m表示分组编号。在图8中,计算S1-W1和S2-W1的词向量夹角余弦,得到P1;计算S1-W2和S2-W2的词向量夹角余弦,得到P2;计算S1-W3和S2-W3的词向量夹角余弦,得到P3;计算S1-W4和S2-W4的词向量夹角余弦,得到P4。然后再从P1、P2、P3和P4中取最小值,即公式1中的min计算,得到P。
图9为根据本申请另一实施例的文档检测方法的流程图。如图9所示,在一种实施方式中,图5中的步骤S540,根据相关性分析的结果和属性特征对应的文档指标,得到属性特征对应的规范性分析结果,包括:
步骤S910,根据相关性分析的结果,计算文档内容评估参数;
步骤S920,根据文档内容评估参数和属性特征对应的文档指标,得到属性特征对应的规范性分析结果。
其中,可利用文档内容评估参数以量化的形式表示待处理文档所描述的前后的内容是否一致、主体观点是否相悖等。
在一种实施方式中,根据相关性分析的结果,计算文档内容评估参数,包括利用以下公式2计算文档内容评估参数:
其中,Q表示文档内容评估参数;P表示相关性分析的结果;α表示第一预设阈值;i表示文档摘要的个数。
本申请实施例中,根据相关性分析的结果计算文档内容评估参数,可对文档内容的一致性进行准确评估,提升文档检测的准确度。
在一种实施方式中,属性特征对应的文档指标包括第二预定阈值;
图9中的步骤S920,根据文档内容评估参数和属性特征对应的文档指标,得到属性特征对应的规范性分析结果,包括:在文档内容评估参数小于等于第二预定阈值的情况下,确定属性特征对应的规范性分析结果为多个文档单元之间的内容不一致。
在一个示例中,可设置第二预定阈值为0。如果则说明待处理文档中的各个文档单元的内容不一致。可对编辑文档的用户针对文档内容不一致的结论进行相关提示,以辅助用户对文档内容进行检查和修改。
本申请实施例中,可根据不同应用场景中的文档检测的实际需求,合理设置第一预定阈值和第二预定阈值。再根据文档内容评估参数和第二预定阈值对文档内容的一致性进行评估,可提升文档检测的准确度。
一个示例性的文档检测方法的执行流程如下:
文本数据集D1包括以下几个文档单元。
文档单元1的内容为:
臭氧层在保存完好的情况下,能够将短波紫外线全部隔绝,我们才能安然无恙。对生物来说,紫外线带来的伤害也有差别,中波紫外线和长波紫外线的威力有限,远不如短波紫外线,我们只要别在太阳底下暴晒就行了。短波紫外线的穿透力和高能量,不是我们能防范的,必须要依赖于臭氧层。
文档单元2的内容为:
期间,公司产生经调整归属于母公司拥有人的净利润人民币6090万元,实现自公司创办以来首次全年盈利。2020年下半年公司经营稳中向好,实现总收入人民币6.37亿元,环比上半年增长14.2%;2020年下半年净利润人民币3600万元,环比上半年增长44.6%。
文档单元3的内容为:
值得关注的是,非在线广告业务收入在总收入中的占比,在2020年持续提升,从去年同期的23.2%提升至43.0%,其中高级订阅服务及应用内购买业务收入同比大增140.1%,达人民币2.065亿元,占比从去年的8.8%提升至17.3%;其他业务收入增长177.1%,达人民币2.616亿元,占比从去年的9.7%大幅攀升至21.9%。这表明,公司的新商业模式的推进得到了有效印证,并进入正循环。
文档单元4的内容为:
公司披露的2020年度业绩公告显示,全年收益32.12亿元,而年度利润则体现为净亏损5.65亿元,已亏掉去年的利润。3月26日上午,公司披露的2020年度业绩公告,显示盈转亏,即2020年度利润为亏损5.65亿元,而上一年同期的年度利润为盈利3.60亿元;经营亏损4.02亿元,而上一年同期为盈利4.28亿元。
步骤1)利用文本摘要生成模型对各个文档单元进行特征提取,生成摘要集D2。
例如,可采用Sentence(句子)-BERT(Sentence-Bidirectional EncoderRepresentations from Transformers,基于转换器的双向编码表征)模型对各个文档单元进行特征提取。Sentence-BERT模型是一种句子语义匹配模型。在一个示例中,模型训练好之后,可以将文本摘要中的句子转化为对应的句子向量,当待匹配句子输入模型时,通过向量相似度检索来直接匹配相似句子。
对上述各个文档单元进行处理后,对应生成的摘要集D2包括以下几个文档摘要。
文档摘要1的内容为:
短波紫外线的穿透力和高能量,不是我们能防范的,必须要依赖于臭氧层。
文档摘要2的内容为:
期间,公司产生经调整归属于母公司拥有人的净利润人民币6090万元,实现自公司创办以来首次全年盈利。
文档摘要3的内容为:
这表明,公司的新商业模式的推进得到了有效印证,并进入正循环。
文档摘要4的内容为:
公司披露的2020年度业绩公告显示,全年收益32.12亿元,而年度利润则体现为净亏损5.65亿元,已亏掉去年的利润。
步骤2)通过将上述各个文档摘要中的内容进行两两相似度计算可得到以下表1所示的结论。
表1文档摘要相似度计算结果
在本申请实施例中,第一预设阈值可取值为0.5,即:α=0.5。将相似度大于0.5以上的文本进行聚类,生成数据集Sn,即在聚合分组中每组文档摘要内包含Si(i≥2)句话。将上述文档摘要1、文档摘要2、文档摘要3和文档摘要4进行聚类分析,可以得到文档摘要2、文档摘要3和文档摘要4在聚类结果中属于同一类别。上述聚类结果的若干个不同类别体现了待处理文档中对应描述了若干个不同的内容。
步骤3)通过对每个文档摘要中每个词的进行词性分类,通过词性分析进行二次分组,并计算两个文档摘要的相关程度,可以得到以下结论:
文档摘要2与文档摘要4的相关程度P24=-0.63;
文档摘要2与文档摘要3的相关程度P23=0.47;
文档摘要3与文档摘要4的相关程度P34=-0.42。
步骤4)对分组内的每一文档摘要的内容与其他文档摘要的内容进行相悖性计算,即利用公式2计算可以得到以下结论:
在以上计算中,设置第一预定阈值为0.5,第二预定阈值为0,文档摘要的个数i=3。文档内容评估参数Q小于0,则说明待处理文档中的各个文档单元的内容不一致。
进一步,再根据文档摘要2与文档摘要4的相关程度P24的值、文档摘要2与文档摘要3的相关程度P23的值和文档摘要3与文档摘要4的相关程度P34的值,可以得到结论:文档摘要4与另外两个文档摘要内容相悖。文档检测系统可给编辑文档的用户发出提示信息,提示文档摘要4对应的语句与文档中其他内容的语义相悖。
本申请实施例中,文档单元的属性特征可包括文档摘要。文档摘要这一属性特征对应的文档指标可包括第二预定阈值。将文档摘要这一属性特征与其对应的文档指标相比对,在文档内容评估参数小于等于第二预定阈值的情况下,确定文档摘要这一属性特征对应的规范性分析结果为所述多个文档单元之间的内容不一致。进而将各个属性特征对应的规范性分析结果汇总,得到所述待处理文档的评估结果。
图10至图12为根据本申请另一实施例的文档检测方法的演示文稿截屏示意图。图13为根据本申请另一实施例的文档检测方法的流程图。参见图13,在一种实施方式中,图1中的步骤S130,根据属性特征对应的文档指标,对属性特征进行规范性分析,得到属性特征对应的规范性分析结果,具体可包括:
步骤S410,将各个文档单元的各个属性特征与各自对应的文档指标相比对;
步骤S420,分别针对各个属性特征,将各个文档单元的比对结果进行汇总,得到各个属性特征对应的分值;
步骤S430,将各个属性特征对应的分值作为规范性分析结果。
参见图10至图12,在一个示例中,针对演示文稿设定的进行规范性分析所依据的文档指标可参见表1所示。
表1演示文稿的文档指标及权重情况
序号 | 类型(文档指标) | 权重 |
1 | 空白率小于80% | 0.1 |
2 | 字号≥6号 | 0.1 |
3 | 字体统一(字体类型不超过3个) | 0.01 |
4 | 字体与背景对比度差异 | 0.1 |
5 | 字号统一(字号类型不超过5个) | 0.05 |
6 | 字体颜色书写规范 | 0.02 |
7 | 错字 | 0.05 |
8 | 重复页面 | 0.01 |
9 | 内容相关性 | 0.1 |
10 | 数据结论一致性 | 0.1 |
11 | 敏感词 | 0.1 |
12 | 首页扉页 | 0.1 |
13 | 总体风格一致性 | 0.16 |
如表1所示,可根据设定的各项文档指标逐一对演示文稿进行规范性分析。在一个示例中,对演示文稿进行播放截屏得到的文档单元可以是一张幻灯片。表1中各个文档指标的规范性分析示例如下:
示例1)序号为1的文档指标“空白率小于80%”:若演示文稿中的某个文档单元的空白率小于80%,可以判定该文档单元是与“空白率小于80%”这个文档指标相符合的。
示例2)序号为4的文档指标“字体与背景对比度差异”:若演示文稿中的某个文档单元的字体与背景对比度差异较大,可认为该文档单元播放时的文字显示醒目,展示效果较好。则该文档单元是与“字体与背景对比度差异”这个文档指标相符合的。
示例3)序号为6的文档指标“字体颜色书写规范”:可分析文档单元中的人名是否使用了红色字体,若人名使用了红色字体可认为触犯了书写规范的禁忌。则认为该文档单元是与“字体颜色书写规范”这个文档指标相不符合的。
示例4)序号为10的文档指标“数据结论一致性”:可对演示文稿中的各个文档单元中的文本内容进行语义分析。若演示文稿中的某个文档单元中出现“乐观”字样,而在演示文稿另一个文档单元中出现“悲观”字样,或者在同一个文档单元中出现语义上互相矛盾的内容,则该演示文稿是与“数据结论一致性”这个文档指标不相符合的。
示例5)序号为11的文档指标“敏感词”:若演示文稿中的文档单元中出现了不文明用语和涉黄词汇,例如脏话,则该文档单元是与“敏感词”这个文档指标不相符合的。
示例6)序号为12的文档指标“首页扉页”:若演示文稿中缺少首页或缺少扉页,则该演示文稿是与“首页扉页”这个文档指标不相符合的。其中,首页中的内容通常可包括标题和作者;扉页中的内容通常可包括联系方式或参考资料等。
示例7)序号为13的文档指标“总体风格一致性”:若演示文稿中有一部分文档单元的主题色调是冷色调的,还有一部分文档单元的主题色调是暖色调的,则该演示文稿是与“总体风格一致性”这个文档指标不相符合的。
本申请实施例中,可将以上属性特征对应的规范性分析结果具体量化为属性特征对应的分值。表1中还示出了各个属性特征对应的权重,可根据权重计算各个属性特征对应的分值。在图10至图12的示例中,演示文稿中包括3张幻灯片,分别为图10所示的幻灯片P1、图11所示的幻灯片P2和图12所示的幻灯片P3。演示文稿的各个文档指标、对应的权重及分值如表2所示。
表2演示文稿的文档指标、权重及分值
/>
在一种实施方式中,图1中的步骤S140,根据规范性分析结果,得到待处理文档的评估结果,具体可包括:
将各个属性特征对应的分值加权求和,得到待处理文档的评估结果。
参见图3,分析模块接收识别模块的输出数据,对输出数据进行整理、分析,得到各个属性特征对应的分值。再将各个属性特征对应的分值进行加权求和,获得总得分,也就是待处理文档的评估结果。可利用以下公式计算待处理文档的评估结果:
其中y为总得分。x为某个属性特征对应的数据的总个数,m为某个属性特征对应的数据的总个数中不符合规范的数据个数。在一种情况下,对于某个属性特征,如果分析模块中的文档分析模型无法得出分析结果,则默认该属性特征的检测指数为(x-m)/x=1。θ为权重,也称为得分系数,各个属性特征对应的权重θ之和等于1。
利用以上公式得到待处理文档的评估结果,将评估结果反馈给用户,以便用户以此为依据对文档进行改进。
参见图3至图12,表2所示的属性特征对应的分值的计算示例如下:
示例1)通过识别模块可识别到图10、图11、图12所示的文档单元的空白率均小于80%。该演示文稿共有3个文档单元,3个文档单元的空白率均小于80%。因此,对于属性特征“空白率”,上述公式中的x=3,m=0,θ=0.1。所以属性特征“空白率”的得分为0.1*(3-0)/3=0.1000。
示例2)对于属性特征“字体”,其对应的文档指标是“字体统一”。或通过识别模块可识别到每个文档单元中的字体。对于图10、图11、图12所示的文档单元进行识别的结果为:黑体字为51个,魏书为12个,宋体为17个,楷体为8个。其中,图11中的“malformation”为魏书,共12个字符;“premature delivery”为宋体,共17个字符;“asphyxia”为楷体,共8个字符。文档指标“字体统一”的书写规范是字体类型不超过3个,以上识别的结果中出现了4个字体类型,所以上述公式中的x=51+12+17+8,m=8,θ=0.01。其中m的取值为超过3个以上的字体类型的字数,在本实施例中m的取值为是第4个字体类型(楷体)的字数。因此,属性特征“字体”得分为0.01*(51+12+17+8-8)/(51+12+17+8)=0.009。
示例3)对于属性特征“对比度”,其对应的文档指标是“字体与背景对比度差异”,计算的是字体与背景颜色色差的关系。由于图11中的“概述新生儿死因”这7个字和背景颜色色差较小,会导致无法显示清楚,展示效果差。因此,上述公式中的x=51+12+17+8,m=7,θ=0.1。其中m的取值为和背景颜色色差较小的字数。属性特征“对比度”得分为0.1*(51+12+17+8-7)/(51+12+17+8)=0.092。
其他属性特征对应的分值的计算方法与以上示例类似,在此不再赘述。最后将各个属性特征对应的分值加权求和,得到总得分为0.8047,换算成百分制为80.47分。
本申请实施例中,可根据待处理文档所属的业务领域的实际检测需要设置文档单元的属性特征。可根据实际需求添加新的属性特征或删减某个属性特征,本申请实施例对此不做限制。
再参见图3,分析模块中可包括多个子模块,例如敏感词分析子模块、相关性分析子模块、色彩分析子模块、错字分析子模块和字体字号分析子模块等。在以上各子模块中,可利用文档分析模型得到各个属性特征对应的规范性分析结果。并且,可在规范性分析结果的基础上统计扣分信息。
在一种实施方式中,图1中的步骤S140,根据规范性分析结果,得到待处理文档的评估结果,具体可包括:
根据比对结果,得到待处理文档中不符合文档规范的文档信息;
将待处理文档中不符合文档规范的文档信息作为待处理文档的评估结果。
在图10至图12的示例中,可根据比对结果,得到待处理文档中不符合文档规范的文档信息,不符合文档规范的文档信息与各个属性特征的分值中的扣分信息是相对应的。将各个属性特征对应的分值中的扣分信息反馈给用户。一个示例性的扣分信息反馈表如下:
表3文档评估反馈表
用户可根据以上评估结果对文档进行整理和改进,从而提高文档的规范性和展示效果。例如,用户可以增加首页和扉页、可以设计统一的页面风格,还可以对无关内容进行修改或删除。在图10至图12的示例中,图11所示的幻灯片P2的页面风格和内容与其他页面差异过大,可通过文档评估反馈表提醒用户进行修正。
本申请实施例将待处理文档进行动态播放,然后对播放的数据进行分析,对文档的整体布局、风格、内容、格式、语义等进行分析。通过对文档的动态分析,对文档播放过程中的所有截屏进行多维度属性特征提取,例如颜色、字号等,并可对属性特征的规范化性分析结果统计排序。并且,还可预先根据业务系统的需求设定文档指标,智能化圈定文档规范,并将不符合文档规范的文档信息进行统计。最后反馈给用户得分和需要改进的关键点,从而提高文档的规范性和展示效果。
图14为根据本申请另一实施例的文档检测方法的文书截屏示意图。参见图3和图14,可以在浏览文书的过程中对待处理文档的每个展示界面进行截图,得到如图14所示的构成待处理文档的文档单元。检测模块将检测结果推送到识别模块中进行进一步地处理。识别模块接收到检测模块推送的数据后,首先识别出待处理文档的文档类型为文书。
针对不同文档类型的待处理文档,需要使用不同的特征识别模型进行识别。对不同文档类型的待处理文档,可使用不同的权重对各个属性特征对应的规范性分析结果对应的分值进行统计。在图14的示例中,利用与文书对应的特征识别模型对文档单元进行特征识别,对各项文档指标、权重及分值进行统计的结果如表4所示。
表4文书的文档指标、权重及分值
由于图14所示的文书没有添加主题词、印发机关,印发日期和公章,导致该文书与序号为4的文档指标“关键内容是否缺失”不相符合,进行相应减分。并且,图14所示的文书内提到有附件信息,但检测到实际文档中并没有附件,导致该文书与序号为7的文档指标“数据结论一致性”不相符合,也进行相应减分。最终该文书的总得分为80分。
本申请实施例提供了一种基于不同类型文档的布局内容、语义动态检测、识别和分析的方法。该方法通过动态播放的方式进行截屏并识别,对识别后的数据通过人工智能的方式进行分析,还可以通过一系列的量化计算对文档进行打分,将得分和问题总结等信息反馈给用户,以便用户有针对性地对文档进行改进,可有效提高文档质量,使文档更加符合规范,提升文档阅读和观看的体验。
图15为根据本申请另一实施例的文档检测装置的结构示意图。如图15所示,该装置可以包括:
获取模块100,用于获取待处理文档的至少一个文档单元;
识别模块200,用于对文档单元进行特征识别,得到文档单元的属性特征;
分析模块300,用于根据属性特征对应的文档指标,对属性特征进行规范性分析,得到属性特征对应的规范性分析结果;
处理模块400,用于根据规范性分析结果,得到待处理文档的评估结果。
在一种实施方式中,获取模块100用于:
在展示待处理文档的过程中,至少截取待处理文档的一个展示界面;
将一个展示界面作为待处理文档的一个文档单元。
在一种实施方式中,识别模块200包括:
获取子模块,用于获取待处理文档的文档类型;
确定子模块,用于确定与文档类型对应的特征识别模型;
识别子模块,用于利用特征识别模型对文档单元进行特征识别。
在一种实施方式中,获取子模块用于:
获取待处理文档的扩展名;
根据扩展名确定待处理文档的文档类型。
在一种实施方式中,获取子模块用于:
获取待处理文档中的预设关键字;
根据预设关键字确定待处理文档的文档类型。
在一种实施方式中,文档单元的属性特征包括字体格式、段落格式、背景风格、页面布局、链接、多媒体内容、文本内容、敏感词、错字和文档摘要中的至少一种。
图16为根据另一本申请实施例的文档检测装置的分析模块的结构示意图。如图16所示,在一种实施方式中,分析模块300包括:
聚类子模块310,用于在文档单元的属性特征包括文档摘要的情况下,对待处理文档的多个文档单元各自对应的文档摘要进行聚类分析,得到聚类结果;
第一分析子模块320,用于对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性;
第二分析子模块330,用于对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
第三分析子模块340,用于根据相关性分析的结果和属性特征对应的文档指标,得到属性特征对应的规范性分析结果。
图17为根据另一本申请实施例的文档检测装置的分析模块的结构示意图。如图17所示,在一种实施方式中,第二分析子模块330包括:
第一计算子模块331,用于根据词性相同的词的词向量夹角,计算词性相同的词之间的词向量距离;
相关性分析子模块332,用于根据词向量距离得到相关性分析的结果。
在一种实施方式中,相关性分析子模块332用于:
在各个不同的词性各自对应的词向量距离中选取最小值;
根据最小值得到相关性分析的结果。
图18为根据另一本申请实施例的文档检测装置的分析模块的结构示意图。如图18所示,在一种实施方式中,第三分析子模块340包括:
第二计算子模块341,用于根据相关性分析的结果,计算文档内容评估参数;
第四分析子模块342,用于根据文档内容评估参数和属性特征对应的文档指标,得到属性特征对应的规范性分析结果。
在一种实施方式中,第二计算子模块341用于利用以下公式计算文档内容评估参数:
其中,Q表示文档内容评估参数;P表示相关性分析的结果;α表示第一预设阈值;i表示文档摘要的个数。
在一种实施方式中,属性特征对应的文档指标包括第二预定阈值;
第四分析子模块342用于:在文档内容评估参数小于等于第二预定阈值的情况下,确定属性特征对应的规范性分析结果为多个文档单元之间的内容不一致。
在一种实施方式中,分析模块300用于:
将各个文档单元的各个属性特征与各自对应的文档指标相比对;
分别针对各个属性特征,将各个文档单元的比对结果进行汇总,得到各个属性特征对应的分值;
将各个属性特征对应的分值作为规范性分析结果。
在一种实施方式中,处理模块400用于:
将各个属性特征对应的分值加权求和,得到待处理文档的评估结果。
在一种实施方式中,处理模块400还用于:
根据比对结果,得到待处理文档中不符合文档规范的文档信息;
将待处理文档中不符合文档规范的文档信息作为待处理文档的评估结果。
本申请实施例各装置中的各模块、子模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图19为用来实现本申请实施例的电子设备的框图。如图19所示,该电子设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的文档检测和图像生成方法。存储器910和处理器920的数量可以为一个或多个。
该电子设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图19中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (30)
1.一种文档检测方法,其特征在于,包括:
获取待处理文档的至少一个文档单元;
对所述文档单元进行特征识别,得到所述文档单元的属性特征;
根据所述属性特征对应的文档指标,对所述属性特征进行规范性分析,得到所述属性特征对应的规范性分析结果;
根据所述规范性分析结果,得到所述待处理文档的评估结果;
其中,在所述文档单元的属性特征包括文档摘要的情况下,根据所述属性特征对应的文档指标,对所述属性特征进行规范性分析,得到所述属性特征对应的规范性分析结果,包括:对待处理文档的多个所述文档单元各自对应的文档摘要进行聚类分析,得到聚类结果;对于所述聚类结果中属于同一类别的文档摘要进行词性分析,得到所述文档摘要中每个词的词性;对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;根据所述相关性分析的结果和所述属性特征对应的文档指标,得到所述属性特征对应的规范性分析结果。
2.根据权利要求1所述的方法,其特征在于,获取所述待处理文档的至少一个文档单元,包括:
在展示所述待处理文档的过程中,至少截取所述待处理文档的一个展示界面;
将一个所述展示界面作为所述待处理文档的一个文档单元。
3.根据权利要求1所述的方法,其特征在于,对所述文档单元进行特征识别,得到所述文档单元的属性特征,包括:
获取所述待处理文档的文档类型;
确定与所述文档类型对应的特征识别模型;
利用所述特征识别模型对所述文档单元进行特征识别。
4.根据权利要求3所述的方法,其特征在于,获取所述待处理文档的文档类型,包括:
获取所述待处理文档的扩展名;
根据所述扩展名确定所述待处理文档的文档类型。
5.根据权利要求3所述的方法,其特征在于,获取所述待处理文档的文档类型,包括:
获取所述待处理文档中的预设关键字;
根据所述预设关键字确定所述待处理文档的文档类型。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述文档单元的属性特征还包括字体格式、段落格式、背景风格、页面布局、链接、多媒体内容、文本内容、敏感词和错字中的至少一种。
7.根据权利要求1所述的方法,其特征在于,对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析,包括:
根据所述词性相同的词的词向量夹角,计算所述词性相同的词之间的词向量距离;
根据所述词向量距离得到所述相关性分析的结果。
8.根据权利要求7所述的方法,其特征在于,根据所述词向量距离得到所述相关性分析的结果,包括:
在各个不同的词性各自对应的所述词向量距离中选取最小值;
根据所述最小值得到所述相关性分析的结果。
9.根据权利要求7或8所述的方法,其特征在于,根据所述相关性分析的结果和所述属性特征对应的文档指标,得到所述属性特征对应的规范性分析结果,包括:
根据所述相关性分析的结果,计算文档内容评估参数;
根据所述文档内容评估参数和所述属性特征对应的文档指标,得到所述属性特征对应的规范性分析结果。
10.根据权利要求9所述的方法,其特征在于,根据所述相关性分析的结果,计算文档内容评估参数,包括利用以下公式计算所述文档内容评估参数:
其中,Q表示所述文档内容评估参数;P表示所述相关性分析的结果;α表示第一预设阈值;i表示所述文档摘要的个数。
11.根据权利要求9所述的方法,其特征在于,所述属性特征对应的文档指标包括第二预定阈值;
根据所述文档内容评估参数和所述属性特征对应的文档指标,得到所述属性特征对应的规范性分析结果,包括:在所述文档内容评估参数小于等于所述第二预定阈值的情况下,确定所述属性特征对应的规范性分析结果为所述多个文档单元之间的内容不一致。
12.根据权利要求1至5中任一项所述的方法,其特征在于,根据所述属性特征对应的文档指标,对所述属性特征进行规范性分析,得到所述属性特征对应的规范性分析结果,包括:
将各个所述文档单元的各个属性特征与各自对应的文档指标相比对;
分别针对各个属性特征,将各个所述文档单元的比对结果进行汇总,得到所述各个属性特征对应的分值;
将所述各个属性特征对应的分值作为规范性分析结果。
13.根据权利要求12所述的方法,其特征在于,根据所述规范性分析结果,得到所述待处理文档的评估结果,包括:
将所述各个属性特征对应的分值加权求和,得到所述待处理文档的评估结果。
14.根据权利要求12所述的方法,其特征在于,根据所述规范性分析结果,得到所述待处理文档的评估结果,包括:
根据所述比对结果,得到所述待处理文档中不符合文档规范的文档信息;
将所述待处理文档中不符合文档规范的文档信息作为所述待处理文档的评估结果。
15.一种文档检测装置,其特征在于,包括:
获取模块,用于获取待处理文档的至少一个文档单元;
识别模块,用于对所述文档单元进行特征识别,得到所述文档单元的属性特征;
分析模块,用于根据所述属性特征对应的文档指标,对所述属性特征进行规范性分析,得到所述属性特征对应的规范性分析结果;
处理模块,用于根据所述规范性分析结果,得到所述待处理文档的评估结果;
其中,所述分析模块包括:聚类子模块,用于在所述文档单元的属性特征包括文档摘要的情况下,对待处理文档的多个所述文档单元各自对应的文档摘要进行聚类分析,得到聚类结果;第一分析子模块,用于对于所述聚类结果中属于同一类别的文档摘要进行词性分析,得到所述文档摘要中每个词的词性;第二分析子模块,用于对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;第三分析子模块,用于根据所述相关性分析的结果和所述属性特征对应的文档指标,得到所述属性特征对应的规范性分析结果。
16.根据权利要求15所述的装置,其特征在于,所述获取模块用于:
在展示所述待处理文档的过程中,至少截取所述待处理文档的一个展示界面;
将一个所述展示界面作为所述待处理文档的一个文档单元。
17.根据权利要求15所述的装置,其特征在于,所述识别模块包括:
获取子模块,用于获取所述待处理文档的文档类型;
确定子模块,用于确定与所述文档类型对应的特征识别模型;
识别子模块,用于利用所述特征识别模型对所述文档单元进行特征识别。
18.根据权利要求17所述的装置,其特征在于,所述获取子模块用于:
获取所述待处理文档的扩展名;
根据所述扩展名确定所述待处理文档的文档类型。
19.根据权利要求17所述的装置,其特征在于,所述获取子模块用于:
获取所述待处理文档中的预设关键字;
根据所述预设关键字确定所述待处理文档的文档类型。
20.根据权利要求15至19中任一项所述的装置,其特征在于,所述文档单元的属性特征还包括字体格式、段落格式、背景风格、页面布局、链接、多媒体内容、文本内容、敏感词和错字中的至少一种。
21.根据权利要求15所述的装置,其特征在于,所述第二分析子模块包括:
第一计算子模块,用于根据所述词性相同的词的词向量夹角,计算所述词性相同的词之间的词向量距离;
相关性分析子模块,用于根据所述词向量距离得到所述相关性分析的结果。
22.根据权利要求21所述的装置,其特征在于,所述相关性分析子模块用于:
在各个不同的词性各自对应的所述词向量距离中选取最小值;
根据所述最小值得到所述相关性分析的结果。
23.根据权利要求21或22中所述的装置,其特征在于,所述第三分析子模块包括:
第二计算子模块,用于根据所述相关性分析的结果,计算文档内容评估参数;
第四分析子模块,用于根据所述文档内容评估参数和所述属性特征对应的文档指标,得到所述属性特征对应的规范性分析结果。
24.根据权利要求23所述的装置,其特征在于,所述第二计算子模块用于利用以下公式计算所述文档内容评估参数:
其中,Q表示所述文档内容评估参数;P表示所述相关性分析的结果;α表示第一预设阈值;i表示所述文档摘要的个数。
25.根据权利要求23所述的装置,其特征在于,所述属性特征对应的文档指标包括第二预定阈值;
所述第四分析子模块用于:在所述文档内容评估参数小于等于所述第二预定阈值的情况下,确定所述属性特征对应的规范性分析结果为所述多个文档单元之间的内容不一致。
26.根据权利要求15至19中任一项所述的装置,其特征在于,所述分析模块用于:
将各个所述文档单元的各个属性特征与各自对应的文档指标相比对;
分别针对各个属性特征,将各个所述文档单元的比对结果进行汇总,得到所述各个属性特征对应的分值;
将所述各个属性特征对应的分值作为规范性分析结果。
27.根据权利要求26所述的装置,其特征在于,所述处理模块用于:
将所述各个属性特征对应的分值加权求和,得到所述待处理文档的评估结果。
28.根据权利要求26所述的装置,其特征在于,所述处理模块还用于:
根据所述比对结果,得到所述待处理文档中不符合文档规范的文档信息;
将所述待处理文档中不符合文档规范的文档信息作为所述待处理文档的评估结果。
29.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至14任一项所述的方法。
30.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至14任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545264.5A CN113515628B (zh) | 2021-05-19 | 2021-05-19 | 文档检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545264.5A CN113515628B (zh) | 2021-05-19 | 2021-05-19 | 文档检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113515628A CN113515628A (zh) | 2021-10-19 |
CN113515628B true CN113515628B (zh) | 2024-05-10 |
Family
ID=78064597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110545264.5A Active CN113515628B (zh) | 2021-05-19 | 2021-05-19 | 文档检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515628B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545042B (zh) * | 2022-11-25 | 2023-04-28 | 北京优幕科技有限责任公司 | 演讲稿质量评估方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1503338A2 (en) * | 2003-07-30 | 2005-02-02 | Xerox Corporation | System and method for measuring and quantizing document quality |
CN106991084A (zh) * | 2017-03-28 | 2017-07-28 | 中国长城科技集团股份有限公司 | 一种文档评估方法及装置 |
CN110096684A (zh) * | 2019-04-10 | 2019-08-06 | 沈阳哲航信息科技有限公司 | 一种基于模板的文档规范智能检查系统及方法 |
KR20200084436A (ko) * | 2018-12-26 | 2020-07-13 | 주식회사 와이즈넛 | 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법 |
CN112131841A (zh) * | 2020-08-27 | 2020-12-25 | 北京云动智效网络科技有限公司 | 一种文档质量评估方法及系统 |
CN112579729A (zh) * | 2020-12-25 | 2021-03-30 | 百度(中国)有限公司 | 文档质量评价模型的训练方法、装置、电子设备和介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140075298A1 (en) * | 2012-09-12 | 2014-03-13 | International Business Machines Corporation | Document analysis and presentation for users with special needs |
US10282468B2 (en) * | 2015-11-05 | 2019-05-07 | International Business Machines Corporation | Document-based requirement identification and extraction |
-
2021
- 2021-05-19 CN CN202110545264.5A patent/CN113515628B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1503338A2 (en) * | 2003-07-30 | 2005-02-02 | Xerox Corporation | System and method for measuring and quantizing document quality |
CN106991084A (zh) * | 2017-03-28 | 2017-07-28 | 中国长城科技集团股份有限公司 | 一种文档评估方法及装置 |
KR20200084436A (ko) * | 2018-12-26 | 2020-07-13 | 주식회사 와이즈넛 | 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법 |
CN110096684A (zh) * | 2019-04-10 | 2019-08-06 | 沈阳哲航信息科技有限公司 | 一种基于模板的文档规范智能检查系统及方法 |
CN112131841A (zh) * | 2020-08-27 | 2020-12-25 | 北京云动智效网络科技有限公司 | 一种文档质量评估方法及系统 |
CN112579729A (zh) * | 2020-12-25 | 2021-03-30 | 百度(中国)有限公司 | 文档质量评价模型的训练方法、装置、电子设备和介质 |
Non-Patent Citations (1)
Title |
---|
官方微博关键词提取与摘要技术研究;高永兵等;内蒙古科技大学学报;第36卷(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113515628A (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rauh | Validating a sentiment dictionary for German political language—a workbench note | |
CN108509482B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
Madabushi et al. | High accuracy rule-based question classification using question syntax and semantics | |
Huston et al. | Evaluating verbose query processing techniques | |
US7801392B2 (en) | Image search system, image search method, and storage medium | |
US20150227505A1 (en) | Word meaning relationship extraction device | |
Gong et al. | Document similarity for texts of varying lengths via hidden topics | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN109508373B (zh) | 企业舆情指数的计算方法、设备及计算机可读存储介质 | |
GB2391087A (en) | Content extraction configured to automatically accommodate new raw data extraction algorithms | |
Malik et al. | Accurate information extraction for quantitative financial events | |
CN110188077B (zh) | 一种电子卷宗智能分类方法、装置、电子设备和存储介质 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN111444387A (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN111506595B (zh) | 一种数据查询方法、系统及相关设备 | |
CN111985244A (zh) | 一种针对文档内容的洗稿检测方法及装置 | |
CN113515628B (zh) | 文档检测方法、装置、设备及存储介质 | |
CN113836894B (zh) | 多维度英语作文评分方法、装置及可读存储介质 | |
CN113515627B (zh) | 文档检测方法、装置、设备及存储介质 | |
CN112559679B (zh) | 政法新媒体传播力的检测方法、装置、设备及存储介质 | |
CN111931480B (zh) | 文本主要内容的确定方法、装置、存储介质及计算机设备 | |
CN112732908B (zh) | 试题新颖度评估方法、装置、电子设备和存储介质 | |
CN114328895A (zh) | 新闻摘要的生成方法、装置以及计算机设备 | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
CN114117057A (zh) | 产品反馈信息的关键词提取方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |