CN113515627A - 文档检测方法、装置、设备及存储介质 - Google Patents

文档检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113515627A
CN113515627A CN202110544969.5A CN202110544969A CN113515627A CN 113515627 A CN113515627 A CN 113515627A CN 202110544969 A CN202110544969 A CN 202110544969A CN 113515627 A CN113515627 A CN 113515627A
Authority
CN
China
Prior art keywords
document
result
analysis
speech
abstracts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110544969.5A
Other languages
English (en)
Other versions
CN113515627B (zh
Inventor
赵明
田科
吴中勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110544969.5A priority Critical patent/CN113515627B/zh
Publication of CN113515627A publication Critical patent/CN113515627A/zh
Application granted granted Critical
Publication of CN113515627B publication Critical patent/CN113515627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种文档检测方法、装置、电子设备及存储介质。具体实现方案为:对待处理文档的多个文档单元分别进行摘要提取,得到多个文档单元各自对应的文档摘要;对文档摘要进行聚类分析,得到聚类结果;对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性;对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;根据相关性分析的结果,得到待处理文档的评估结果。本申请实施例通过对同一类别的文档摘要的内容进行词性拆分,进而可以判别出有在语义上有差异的词。在此基础上对待处理文档的内容进行评估,提升了文档检测的准确度。

Description

文档检测方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文档检测方法、装置、设备及存储介质。
背景技术
随着互联网的发展,能够从各个角度展示主题内容的各类文档类型层出不穷。例如:PPT(PowerPoint,演示文稿)、WORD、PDF(Portable Document Format,可移植文档格式)等。以上各类文档可作为交互、沟通和展示主题思想的基础工具。但是,很多情况下,制作完成的文档可能会出现文档内容不符合正常逻辑的情况,例如文档前后的内容不一致、主体观点相悖等情况,从而造成文档阅读和观看的体验不佳。
发明内容
本申请实施例提供一种文档检测方法、装置、设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种文档检测方法,包括:
对待处理文档的多个文档单元分别进行摘要提取,得到多个文档单元各自对应的文档摘要;
对文档摘要进行聚类分析,得到聚类结果;
对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性;
对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
根据相关性分析的结果,得到待处理文档的评估结果。
在一种实施方式中,对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析,包括:
根据词性相同的词的词向量夹角,计算词性相同的词之间的词向量距离;
根据词向量距离得到相关性分析的结果。
在一种实施方式中,根据词向量距离得到相关性分析的结果,包括:
在各个不同的词性各自对应的词向量距离中选取最大值;
根据最大值得到相关性分析的结果。
在一种实施方式中,根据相关性分析的结果,得到待处理文档的评估结果,包括:
根据相关性分析的结果,计算文档内容评估参数;
根据文档内容评估参数,得到待处理文档的评估结果。
在一种实施方式中,根据相关性分析的结果,计算文档内容评估参数,包括利用以下公式计算文档内容评估参数:
Figure BDA0003073257000000021
其中,Q表示文档内容评估参数;P表示相关性分析的结果;α表示第一预设阈值;i表示文档摘要的个数。
在一种实施方式中,根据文档内容评估参数,得到待处理文档的评估结果,包括:
在文档内容评估参数小于等于第二预定阈值的情况下,确定待处理文档的评估结果为多个文档单元之间的内容不一致。
第二方面,本申请实施例提供了一种文档检测装置,包括:
提取模块,用于对待处理文档的多个文档单元分别进行摘要提取,得到多个文档单元各自对应的文档摘要;
聚类模块,用于对文档摘要进行聚类分析,得到聚类结果;
第一分析模块,用于对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性;
第二分析模块,用于对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
评估模块,用于根据相关性分析的结果,得到待处理文档的评估结果。
在一种实施方式中,第二分析模块包括:
第一计算子模块,用于根据词性相同的词的词向量夹角,计算词性相同的词之间的词向量距离;
分析子模块,用于根据词向量距离得到相关性分析的结果。
在一种实施方式中,分析子模块用于:
在各个不同的词性各自对应的词向量距离中选取最大值;
根据最大值得到相关性分析的结果。
在一种实施方式中,评估模块包括:
第二计算子模块,用于根据相关性分析的结果,计算文档内容评估参数;
评估子模块,用于根据文档内容评估参数,得到待处理文档的评估结果。
在一种实施方式中,第二计算子模块用于利用以下公式计算文档内容评估参数:
Figure BDA0003073257000000031
其中,Q表示文档内容评估参数;P表示相关性分析的结果;α表示第一预设阈值;i表示文档摘要的个数。
在一种实施方式中,评估子模块用于:
在文档内容评估参数小于等于第二预定阈值的情况下,确定待处理文档的评估结果为多个文档单元之间的内容不一致。
第三方面,本申请实施例提供了一种电子设备,该设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:通过对同一类别的文档摘要的内容进行词性拆分,进而可以判别出有在语义上有差异的词。在此基础上对待处理文档的内容进行评估,提升了文档检测的准确度。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为根据本申请实施例的文档检测方法的流程图;
图2为根据本申请另一实施例的文档检测方法的流程图;
图3为根据本申请另一实施例的文档检测方法的流程图;
图4为根据本申请另一实施例的文档检测方法的检测流程示意图;
图5为根据本申请另一实施例的文档检测方法的流程图;
图6为根据另一本申请实施例的文档检测装置的结构示意图;
图7为根据另一本申请实施例的文档检测装置的第二分析模块的结构示意图;
图8为根据另一本申请实施例的文档检测装置的评估模块的结构示意图;
图9为用来实现本申请实施例的电子设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为根据本申请实施例的文档检测方法的流程图。如图1所示,该文档检测方法可以包括:
步骤S110,对待处理文档的多个文档单元分别进行摘要提取,得到所述多个文档单元各自对应的文档摘要;
步骤S120,对文档摘要进行聚类分析,得到聚类结果;
步骤S130,对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性;
步骤S140,对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
步骤S150,根据相关性分析的结果,得到待处理文档的评估结果。
用户制作完成的文档可能会出现文档内容不符合正常逻辑的情况,例如文档前后的内容不一致、主体观点相悖等情况。因此在文档检测过程中,通常需要检测其内容是否符合正常的逻辑,如前后内容的相关度,前后主体观点是否相悖等。本申请实施例通过对待处理文档内容的摘要提取、对摘要相关度的比较,可以判断某个待处理文档中的各个文档单元的内容是否一致。
本申请实施例中,可预先训练文档摘要生成模型。在对待处理文档进行检测之前,可预先将待处理文档划分为多个文档单元。例如,对于WORD文档而言,待处理文档的文档单元可以是WORD文档中的多个页面或者是WORD文档中的多个段落。再如,对于PPT文档而言,待处理文档的文档单元可以是PPT文档中的多张幻灯片或者PPT播放过程中的多个展示界面。
在步骤S110中,可利用训练好的文档摘要生成模型对待处理文档的多个文档单元分别进行摘要提取,得到多个文档单元各自对应的文档摘要。在步骤S120中,对步骤S110中得到的多个文档摘要进行聚类分析,得到聚类结果。
例如,分别对文档单元A、文档单元B、文档单元C、文档单元D和文档单元E进行摘要提取,对应得到文档摘要A、文档摘要B、文档摘要C、文档摘要D和文档摘要E。然后对文档摘要A、文档摘要B、文档摘要C、文档摘要D和文档摘要E进行聚类分析。一个示例性的聚类结果可包括:上述文档摘要属于两个类别,第一类别包括文档摘要A、文档摘要B和文档摘要D,第二类别包括文档摘要C和文档摘要E。
在步骤S130中,利用步骤S120中得到的聚类结果,对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性。
以上述示例中的第一类别为例,词性分析的结果如下:
文档摘要A的内容为:“张三迟到了”。对文档摘要A的内容进行词性分析的结果为:“张三”为名词、“迟到”为动词。
文档摘要B的内容为:“张三来晚了”。对文档摘要B的内容进行词性分析的结果为:“张三”为名词、“来晚”为动词。
文档摘要D的内容为:“张三旷工了”。对文档摘要D的内容进行词性分析的结果为:“张三”为名词、“旷工”为动词。
在步骤S140中,对于步骤S130中得到的属于同一类别的文档摘要中的词性相同的词,进行相关性分析。以上述示例中的第一类别的文档摘要中的动词为例,相关性分析的结果如下:“迟到”与“来晚”的相关度较高,“旷工”与“迟到”的相关度较低,“旷工”与“来晚”的相关度较低。
在步骤S150中,根据步骤S140中得到的相关性分析的结果,得到待处理文档的评估结果。以上述示例中的第一类别的待处理文档为例,相关性分析的结果如下:文档单元D对应的文档摘要D中的动词“旷工”与第一类别中的另外两个文档单元对应的文档摘要中的动词相关度都较低,因此文档单元D的内容与第一类别中其他文档单元的内容不一致。
本申请实施例通过对同一类别的文档摘要的内容进行词性拆分,进而可以判别出有在语义上有差异的词。在此基础上对待处理文档的内容进行评估,提升了文档检测的准确度。
图2为根据本申请另一实施例的文档检测方法的流程图。如图2所示,在一种实施方式中,图1中的步骤S140,对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析,包括:
步骤S210,根据词性相同的词的词向量夹角,计算词性相同的词之间的词向量距离;
步骤S220,根据词向量距离得到相关性分析的结果。
其中,词向量包括来自词汇表的单词或短语被映射到实数的向量。词向量涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
在这种实施方式中,可针对各个不同的词性,分别计算词向量距离。仍以上述示例中的第一类别的待处理文档为例,可分别针对名词和动词进行计算,在第一类别的待处理文档对应的文档摘要中,将其中的任意两个文档摘要进行比较,得到名词和动词各自对应的词向量距离。
图3为根据本申请另一实施例的文档检测方法的流程图。如图3所示,在一种实施方式中,图2中的步骤S220,根据词向量距离得到相关性分析的结果,包括:
步骤S310,在各个不同的词性各自对应的词向量距离中选取最大值;
步骤S320,根据最大值得到相关性分析的结果。
以上述示例中的第一类别的文档单元为例,针对动词进行计算,由于“旷工”与“迟到”、“旷工”与“来晚”的相关度较低,则动词这一词性对应的词向量距离较大。针对名词进行计算,由于第一类别的文档单元对应的文档摘要中的名词都是“张三”,则名词这一词性对应的词向量距离较小。在各个不同的词性各自对应的词向量距离中选取的最大值为动词这一词性对应的词向量距离。可将动词对应的词向量距离作为相关性分析的结果。
本申请实施例中,首先对待处理文档中的文档单元进行摘要提取,然后可利用语义相似度分类模型对文档摘要的内容进行分析,将同一类别中的文档摘要中的句子进行对比分析,生成相关性分析的结果。最后再根据相关性分析的结果生成待处理文档的评估结果。
图4为根据本申请另一实施例的文档检测方法的检测流程示意图。参见图4,一个示例性的文档检测方法的流程如下:
1)准备待提取摘要的多个文档单元,记为文本数据集D1。利用文本摘要生成模型分析文档单元描述的结论性信息,对文档单元的结论性内容进行提取,生成多个文档单元各自对应的文档摘要,记为摘要集D2
2)通过对摘要集D2进行事物描述相关性聚类,将描述同类事物的摘要进行聚合分组,得到聚类结果Gn,其中,n表示聚类类别的编号,Gn表示聚合分组中的第n组文档摘要,也称为第n个摘要集集合。每组文档摘要内包含Si(i≥2)句话,例如每句话可以对应于一个文档摘要。在这种情况下,i表示文档摘要的编号,也是句子的编号。
参见图4所示,句子S1至句子S5在聚类后被分为两个组。第1组文档G1中包括句子S1、句子S2和句子S3,第2组G2中包括句子S4和句子S5。
3)分别对每个摘要集集合中的文档摘要进行词性分析,按照词性对文档摘要中的词进行二次分组,得到Wm(m≥2)。其中,m表示各个不同的词性的编号,例如m=1表示名词,m=2表示动词,m=3表示形容词,m=4表示量词;Wm表示二次分组中的属于编号为m的词。
参见图4所示,针对句子S1,通过词性分析进行二次分组得到S1-W1、S1-W2、S1-W3和S1-W4。针对句子S2,通过词性分析进行二次分组得到S2-W1、S2-W2、S2-W3和S2-W4。
4)分别针对每个摘要集集合中的文档摘要,在进行词性分析之后,利用词向量模型逐一针对各个不同的词性,例如名词、形容词、方位词、动词、量词等,利用以下公式1进行对应的词向量距离计算并取最小值:
Figure BDA0003073257000000081
其中,θ为两个词向量Wm和Wm'之间的夹角;Wm和Wm'分别表示两个文档摘要中的对应的词,例如上述示例中的“迟到”和“来晚”;q表示在文档摘要中词的查找维度,查找维度可包括文档所属的领域、文档类型(例如WORD、PPT等)、文档的时效(文档发表时间)和文档来源(出处)中的至少一种;k表示查找维度的总数目,即维度对应的独立参数的数目、查找空间中独立的时空坐标的数目,也就是查找表共有多少维;i表示文档摘要的编号;P表示两个文档摘要的相关程度,P越大表示两个文档摘要的一致性越高,如果P<α∈(0,1)则表示两个文档摘要的内容相悖,如果P=α∈(0,1)则表示两个文档摘要的内容无关。
再参见图4,针对两个文档摘要根据词性进行二次分组后得到的各个分组,分别对各个对应分组的词向量距离进行比较,得到各个对应分组各自对应的词向量夹角余弦,即公式1中的cos(θ),得到Pm。其中,m表示分组编号。在图4中,计算S1-W1和S2-W1的词向量夹角余弦,得到P1;计算S1-W2和S2-W2的词向量夹角余弦,得到P2;计算S1-W3和S2-W3的词向量夹角余弦,得到P3;计算S1-W4和S2-W4的词向量夹角余弦,得到P4。然后再从P1、P2、P3和P4中取最小值,即公式1中的min计算,得到P。
图5为根据本申请另一实施例的文档检测方法的流程图。如图5所示,在一种实施方式中,图1中的步骤S150,根据相关性分析的结果,得到待处理文档的评估结果,包括:
步骤S410,根据相关性分析的结果,计算文档内容评估参数;
步骤S420,根据文档内容评估参数,得到待处理文档的评估结果。
其中,可利用文档内容评估参数以量化的形式表示待处理文档所描述的前后的内容是否一致、主体观点是否相悖等。
在一种实施方式中,根据相关性分析的结果,计算文档内容评估参数,包括利用以下公式2计算文档内容评估参数:
Figure BDA0003073257000000091
其中,Q表示文档内容评估参数;P表示相关性分析的结果;α表示第一预设阈值;i表示文档摘要的个数。
本申请实施例中,根据相关性分析的结果计算文档内容评估参数,可对文档内容的一致性进行准确评估,提升文档检测的准确度。
在一种实施方式中,根据文档内容评估参数,得到待处理文档的评估结果,包括:
在文档内容评估参数小于等于第二预定阈值的情况下,确定待处理文档的评估结果为多个文档单元之间的内容不一致。
在一个示例中,可设置第二预定阈值为0。如果
Figure BDA0003073257000000092
则说明待处理文档中的各个文档单元的内容不一致。可对编辑文档的用户针对文档内容不一致的结论进行相关提示,以辅助用户对文档内容进行检查和修改。
本申请实施例中,可根据不同应用场景中的文档检测的实际需求,合理设置第一预定阈值和第二预定阈值。再根据文档内容评估参数和第二预定阈值对文档内容的一致性进行评估,可提升文档检测的准确度。
一个示例性的文档检测方法的执行流程如下:
文本数据集D1包括以下几个文档单元。
文档单元1的内容为:
臭氧层在保存完好的情况下,能够将短波紫外线全部隔绝,我们才能安然无恙。对生物来说,紫外线带来的伤害也有差别,中波紫外线和长波紫外线的威力有限,远不如短波紫外线,我们只要别在太阳底下暴晒就行了。短波紫外线的穿透力和高能量,不是我们能防范的,必须要依赖于臭氧层。
文档单元2的内容为:
期间,公司产生经调整归属于母公司拥有人的净利润人民币6090万元,实现自公司创办以来首次全年盈利。2020年下半年公司经营稳中向好,实现总收入人民币6.37亿元,环比上半年增长14.2%;2020年下半年净利润人民币3600万元,环比上半年增长44.6%。
文档单元3的内容为:
值得关注的是,非在线广告业务收入在总收入中的占比,在2020年持续提升,从去年同期的23.2%提升至43.0%,其中高级订阅服务及应用内购买业务收入同比大增140.1%,达人民币2.065亿元,占比从去年的8.8%提升至17.3%;其他业务收入增长177.1%,达人民币2.616亿元,占比从去年的9.7%大幅攀升至21.9%。这表明,公司的新商业模式的推进得到了有效印证,并进入正循环。
文档单元4的内容为:
公司披露的2020年度业绩公告显示,全年收益32.12亿元,而年度利润则体现为净亏损5.65亿元,已亏掉去年的利润。3月26日上午,公司披露的2020年度业绩公告,显示盈转亏,即2020年度利润为亏损5.65亿元,而上一年同期的年度利润为盈利3.60亿元;经营亏损4.02亿元,而上一年同期为盈利4.28亿元。
步骤1)利用文本摘要生成模型对各个文档单元进行特征提取,生成摘要集D2
例如,可采用Sentence(句子)-BERT(Sentence-Bidirectional EncoderRepresentations from Transformers,基于转换器的双向编码表征)模型对各个文档单元进行特征提取。Sentence-BERT模型是一种句子语义匹配模型。在一个示例中,模型训练好之后,可以将文本摘要中的句子转化为对应的句子向量,当待匹配句子输入模型时,通过向量相似度检索来直接匹配相似句子。
对上述各个文档单元进行处理后,对应生成的摘要集D2包括以下几个文档摘要。
文档摘要1的内容为:
短波紫外线的穿透力和高能量,不是我们能防范的,必须要依赖于臭氧层。
文档摘要2的内容为:
期间,公司产生经调整归属于母公司拥有人的净利润人民币6090万元,实现自公司创办以来首次全年盈利。
文档摘要3的内容为:
这表明,公司的新商业模式的推进得到了有效印证,并进入正循环。
文档摘要4的内容为:
公司披露的2020年度业绩公告显示,全年收益32.12亿元,而年度利润则体现为净亏损5.65亿元,已亏掉去年的利润。
步骤2)通过将上述各个文档摘要中的内容进行两两相似度计算可得到以下表1所示的结论。
表1文档摘要相似度计算结果
Figure BDA0003073257000000111
Figure BDA0003073257000000121
在本申请实施例中,第一预设阈值可取值为0.5,即:α=0.5。将相似度大于0.5以上的文本进行聚类,生成数据集Sn,即在聚合分组中每组文档摘要内包含Si(i≥2)句话。将上述文档摘要1、文档摘要2、文档摘要3和文档摘要4进行聚类分析,可以得到文档摘要2、文档摘要3和文档摘要4在聚类结果中属于同一类别。上述聚类结果的若干个不同类别体现了待处理文档中对应描述了若干个不同的内容。
步骤3)通过对每个文档摘要中每个词的进行词性分类,通过词性分析进行二次分组,并计算两个文档摘要的相关程度,可以得到以下结论:
文档摘要2与文档摘要4的相关程度P24=-0.63;
文档摘要2与文档摘要3的相关程度P23=0.47;
文档摘要3与文档摘要4的相关程度P34=-0.42。
步骤4)对分组内的每一文档摘要的内容与其他文档摘要的内容进行相悖性计算,即利用公式2计算可以得到以下结论:
Figure BDA0003073257000000122
在以上计算中,设置第一预定阈值为0.5,第二预定阈值为0,文档摘要的个数i=3。文档内容评估参数Q小于0,则说明待处理文档中的各个文档单元的内容不一致。
进一步,再根据文档摘要2与文档摘要4的相关程度P24的值、文档摘要2与文档摘要3的相关程度P23的值和文档摘要3与文档摘要4的相关程度P34的值,可以得到结论:文档摘要4与另外两个文档摘要内容相悖。文档检测系统可给编辑文档的用户发出提示信息,提示文档摘要4对应的语句与文档中其他内容的语义相悖。
图6为根据另一本申请实施例的文档检测装置的结构示意图。如图6所示,该装置可以包括:
提取模块100,用于对待处理文档的多个文档单元分别进行摘要提取,得到多个文档单元各自对应的文档摘要;
聚类模块200,用于对文档摘要进行聚类分析,得到聚类结果;
第一分析模块300,用于对于聚类结果中属于同一类别的文档摘要进行词性分析,得到文档摘要中每个词的词性;
第二分析模块400,用于对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
评估模块500,用于根据相关性分析的结果,得到待处理文档的评估结果。
图7为根据另一本申请实施例的文档检测装置的第二分析模块的结构示意图。如图7所示,在一种实施方式中,第二分析模块400包括:
第一计算子模块410,用于根据词性相同的词的词向量夹角,计算词性相同的词之间的词向量距离;
分析子模块420,用于根据词向量距离得到相关性分析的结果。
在一种实施方式中,分析子模块420用于:
在各个不同的词性各自对应的词向量距离中选取最大值;
根据最大值得到相关性分析的结果。
图8为根据另一本申请实施例的文档检测装置的评估模块的结构示意图。
如图8所示,在一种实施方式中,评估模块500包括:
第二计算子模块510,用于根据相关性分析的结果,计算文档内容评估参数;
评估子模块520,用于根据文档内容评估参数,得到待处理文档的评估结果。
在一种实施方式中,第二计算子模块510用于利用以下公式计算文档内容评估参数:
Figure BDA0003073257000000131
其中,Q表示文档内容评估参数;P表示相关性分析的结果;α表示第一预设阈值;i表示文档摘要的个数。
在一种实施方式中,评估子模块520用于:
在文档内容评估参数小于等于第二预定阈值的情况下,确定待处理文档的评估结果为多个文档单元之间的内容不一致。
本申请实施例各装置中的各模块、子模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图9为用来实现本申请实施例的电子设备的框图。如图9所示,该电子设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的文档检测和图像生成方法。存储器910和处理器920的数量可以为一个或多个。
该电子设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种文档检测方法,其特征在于,包括:
对待处理文档的多个文档单元分别进行摘要提取,得到所述多个文档单元各自对应的文档摘要;
对所述文档摘要进行聚类分析,得到聚类结果;
对于所述聚类结果中属于同一类别的文档摘要进行词性分析,得到所述文档摘要中每个词的词性;
对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
根据所述相关性分析的结果,得到所述待处理文档的评估结果。
2.根据权利要求1所述的方法,其特征在于,对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析,包括:
根据所述词性相同的词的词向量夹角,计算所述词性相同的词之间的词向量距离;
根据所述词向量距离得到所述相关性分析的结果。
3.根据权利要求2所述的方法,其特征在于,根据所述词向量距离得到所述相关性分析的结果,包括:
在各个不同的词性各自对应的所述词向量距离中选取最大值;
根据所述最大值得到所述相关性分析的结果。
4.根据权利要求1至3中任一项所述的方法,其特征在于,根据所述相关性分析的结果,得到所述待处理文档的评估结果,包括:
根据所述相关性分析的结果,计算文档内容评估参数;
根据所述文档内容评估参数,得到所述待处理文档的评估结果。
5.根据权利要求4所述的方法,其特征在于,根据所述相关性分析的结果,计算文档内容评估参数,包括利用以下公式计算所述文档内容评估参数:
Figure FDA0003073256990000011
其中,Q表示所述文档内容评估参数;P表示所述相关性分析的结果;α表示第一预设阈值;i表示所述文档摘要的个数。
6.根据权利要求4所述的方法,其特征在于,根据所述文档内容评估参数,得到所述待处理文档的评估结果,包括:
在所述文档内容评估参数小于等于第二预定阈值的情况下,确定所述待处理文档的评估结果为所述多个文档单元之间的内容不一致。
7.一种文档检测装置,其特征在于,包括:
提取模块,用于对待处理文档的多个文档单元分别进行摘要提取,得到所述多个文档单元各自对应的文档摘要;
聚类模块,用于对所述文档摘要进行聚类分析,得到聚类结果;
第一分析模块,用于对于所述聚类结果中属于同一类别的文档摘要进行词性分析,得到所述文档摘要中每个词的词性;
第二分析模块,用于对于属于同一类别的文档摘要中的词性相同的词,进行相关性分析;
评估模块,用于根据所述相关性分析的结果,得到所述待处理文档的评估结果。
8.根据权利要求7所述的装置,其特征在于,所述第二分析模块包括:
第一计算子模块,用于根据所述词性相同的词的词向量夹角,计算所述词性相同的词之间的词向量距离;
分析子模块,用于根据所述词向量距离得到所述相关性分析的结果。
9.根据权利要求8所述的装置,其特征在于,所述分析子模块用于:
在各个不同的词性各自对应的所述词向量距离中选取最大值;
根据所述最大值得到所述相关性分析的结果。
10.根据权利要求7至9中任一项所述的装置,其特征在于,所述评估模块包括:
第二计算子模块,用于根据所述相关性分析的结果,计算文档内容评估参数;
评估子模块,用于根据所述文档内容评估参数,得到所述待处理文档的评估结果。
11.根据权利要求10所述的装置,其特征在于,所述第二计算子模块用于利用以下公式计算所述文档内容评估参数:
Figure FDA0003073256990000031
其中,Q表示所述文档内容评估参数;P表示所述相关性分析的结果;α表示第一预设阈值;i表示所述文档摘要的个数。
12.根据权利要求10所述的装置,其特征在于,所述评估子模块用于:
在所述文档内容评估参数小于等于第二预定阈值的情况下,确定所述待处理文档的评估结果为所述多个文档单元之间的内容不一致。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至6任一项所述的方法。
14.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
CN202110544969.5A 2021-05-19 2021-05-19 文档检测方法、装置、设备及存储介质 Active CN113515627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110544969.5A CN113515627B (zh) 2021-05-19 2021-05-19 文档检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110544969.5A CN113515627B (zh) 2021-05-19 2021-05-19 文档检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113515627A true CN113515627A (zh) 2021-10-19
CN113515627B CN113515627B (zh) 2023-07-25

Family

ID=78064540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110544969.5A Active CN113515627B (zh) 2021-05-19 2021-05-19 文档检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113515627B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996441A (zh) * 2022-04-27 2022-09-02 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000054268A (ko) * 2000-05-30 2000-09-05 전상훈 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
WO2014049708A1 (ja) * 2012-09-26 2014-04-03 株式会社 東芝 文書分析装置およびプログラム
CN103853834A (zh) * 2014-03-12 2014-06-11 华东师范大学 基于文本结构分析的Web文档摘要的生成方法
US20150310096A1 (en) * 2014-04-29 2015-10-29 International Business Machines Corporation Comparing document contents using a constructed topic model
US20190095439A1 (en) * 2017-09-22 2019-03-28 Microsoft Technology Licensing, Llc Content pattern based automatic document classification
CN109558583A (zh) * 2017-09-27 2019-04-02 株式会社理光 一种自动生成文摘的方法、装置及设备
CN110110332A (zh) * 2019-05-06 2019-08-09 中国联合网络通信集团有限公司 文本摘要生成方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000054268A (ko) * 2000-05-30 2000-09-05 전상훈 문서 자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템
WO2014049708A1 (ja) * 2012-09-26 2014-04-03 株式会社 東芝 文書分析装置およびプログラム
CN103853834A (zh) * 2014-03-12 2014-06-11 华东师范大学 基于文本结构分析的Web文档摘要的生成方法
US20150310096A1 (en) * 2014-04-29 2015-10-29 International Business Machines Corporation Comparing document contents using a constructed topic model
US20190095439A1 (en) * 2017-09-22 2019-03-28 Microsoft Technology Licensing, Llc Content pattern based automatic document classification
CN109558583A (zh) * 2017-09-27 2019-04-02 株式会社理光 一种自动生成文摘的方法、装置及设备
CN110110332A (zh) * 2019-05-06 2019-08-09 中国联合网络通信集团有限公司 文本摘要生成方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996441A (zh) * 2022-04-27 2022-09-02 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质
CN114996441B (zh) * 2022-04-27 2024-01-12 京东科技信息技术有限公司 文档处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113515627B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US8286171B2 (en) Methods and systems to fingerprint textual information using word runs
White et al. How well sentence embeddings capture meaning
US8380489B1 (en) System, methods, and data structure for quantitative assessment of symbolic associations in natural language
Qian et al. Investigating language universal and specific properties in word embeddings
CN108959559B (zh) 问答对生成方法和装置
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
US11403465B2 (en) Systems and methods for report processing
Shen et al. VILA: Improving structured content extraction from scientific PDFs using visual layout groups
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN110442872B (zh) 一种文本要素完整性审核方法及装置
WO2019028990A1 (zh) 代码元素的命名方法、装置、电子设备及介质
CN113672731B (zh) 基于领域信息的情感分析方法、装置、设备及存储介质
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
Schraagen et al. Extraction of semantic relations in noisy user-generated law enforcement data
CN110362662A (zh) 数据处理方法、装置以及计算机可读存储介质
CN110826323A (zh) 评论信息有效性检测方法及装置
CN113515627B (zh) 文档检测方法、装置、设备及存储介质
Qi et al. What is the limitation of multimodal llms? a deeper look into multimodal llms through prompt probing
Liu et al. Analyzing program readability based on WordNet
CN116248412A (zh) 共享数据资源异常检测方法、系统、设备、存储器及产品
CN113704452B (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN115129859A (zh) 意图识别方法、装置、电子装置及存储介质
CN113869803A (zh) 企业敏感信息风险评估方法、系统和存储介质
CN113515628B (zh) 文档检测方法、装置、设备及存储介质
CN113901783A (zh) 面向领域的文档查重方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant