CN116363667B - 一种聚合文件主题识别与归类系统 - Google Patents

一种聚合文件主题识别与归类系统 Download PDF

Info

Publication number
CN116363667B
CN116363667B CN202310463683.3A CN202310463683A CN116363667B CN 116363667 B CN116363667 B CN 116363667B CN 202310463683 A CN202310463683 A CN 202310463683A CN 116363667 B CN116363667 B CN 116363667B
Authority
CN
China
Prior art keywords
theme
file
target
detection
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310463683.3A
Other languages
English (en)
Other versions
CN116363667A (zh
Inventor
王全修
倪培峰
张炜琛
赵洲洋
于伟
靳雯
石江枫
殷海涛
吴凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Rich Information Technology Co ltd
Information And Communication Center Of Ministry Of Public Security
Original Assignee
Beijing Rich Information Technology Co ltd
Information And Communication Center Of Ministry Of Public Security
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Rich Information Technology Co ltd, Information And Communication Center Of Ministry Of Public Security filed Critical Beijing Rich Information Technology Co ltd
Priority to CN202310463683.3A priority Critical patent/CN116363667B/zh
Publication of CN116363667A publication Critical patent/CN116363667A/zh
Application granted granted Critical
Publication of CN116363667B publication Critical patent/CN116363667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19107Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19153Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation using rules for classification or partitioning the feature space
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种聚合文件主题识别与归类系统,所述系统包括:目录树、处理器和存储有计算机程序的存储器,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:获取聚类文件并对所述聚类文件进行拆分,获取单页文件列表;对单页文件进行页主题检测,获取单页文件的页主题;基于单页文件的页主题和所有的子目录主题,将单页文件映射到目录树对应的子目录,实现了聚合文件按照单页文件的主题自动归类到相应的子目录,提高了聚合文件的归类效率。

Description

一种聚合文件主题识别与归类系统
技术领域
本发明涉及分布式文件系统领域,特别是涉及一种聚合文件主题识别与归类系统。
背景技术
文件系统中,聚合文件是将多个小文件聚合到一个对象中。然而,聚合文件也仅仅只是将多个小文件(多个小文件的格式可以不同,例如word格式、图片格式、PDF格式等等)简单的保存或聚合在一起,其保存方式和/或聚合方式通常不能满足人们对其归类的需求。现有技术中,人们通常采用人工的方式来对聚合的文件先拆分,然后结合阅读的内容手动调整小文件的位置,显然这种通过人工的方式来归类聚合文件消耗了较多的时间资源,因此,如何快速对聚合文件进行归类,是本领域技术人员急需要解决的技术问题。
发明内容
针对上述技术问题,本发明采用的技术方案为:一种聚合文件主题识别与归类系统,所述系统包括:目录树、处理器和存储有计算机程序的存储器,其中,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:
S100,获取聚类文件,且对所述聚类文件进行拆分,获取单页文件列表A={A1,A2,…,Ai,…,Am},Ai是第i个单页文件,i的取值范围是1到m,m是单页文件的数量。
S200,对Ai进行页主题检测,获取Ai的页主题。
S300,基于Ai的页主题和所有的子目录主题,将Ai映射到目录树对应的子目录。
本发明至少具有以下有益效果:发明提供了一种聚合文件主题识别与归类系统,用于将聚合文件进行拆分,获取单页文件的页主题,并基于单页文件的页主题,将单页文件映射到目录树对应的子目录上,实现了聚合文件按照单页文件的页主题自动归类到相应目录树上,相较于现有技术中只能对图片进行检测,本发明还可以对pdf等格式的文件进行快速拆分归类,使用范围更广、更便捷。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种聚合文件主题识别与归类系统执行计算机程序时的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种聚合文件主题识别与归类系统,所述系统包括:目录树、处理器和存储有计算机程序的存储器,其中,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:
S100,获取聚类文件,且对所述聚类文件进行拆分,获取单页文件列表A={A1,A2,…,Ai,…,Am},Ai是第i个单页文件,i的取值范围是1到m,m是单页文件的数量。
具体的,本发明中的聚合文件是包含了一个或多个主题的文件,例如,本发明中,聚合文件可以为案件卷宗,所述案件卷宗包括了多个关系表的数据,例如受案登记表、立案决定书、拘留证、拘留通知书、传唤证等。
S200,对Ai进行页主题检测,获取Ai的页主题。
S300,基于Ai的页主题和所有的子目录主题,将Ai映射到目录树对应的子目录。
具体的,本领域技术人员知晓,现有技术中任何一种将单页文件映射到目录树的子目录的方法均属于本发明保护范围,此处不再赘述。
基于上述,本发明提供了一种聚合文件主题识别与归类系统,用于将聚合文件进行拆分,获取单页文件的页主题,并基于单页文件的页主题,将单页文件映射到目录树对应的子目录上,实现了聚合文件按照单页文件的页主题自动归类到相应目录树上,相较于现有技术中只能对图片进行检测,本发明还可以对pdf等格式的文件进行快速拆分归类,使用范围更广、更便捷。
具体的,S200具体使用目标主题检测方法获取Ai的页主题:
S210,基于预设主题检测模型获取Ai对应的主题检测框列表Bi={Bi1,Bi2,…,Bij,…,Bin},其中,所述预设主题检测模型用于以框的形式获取Ai对应的主题,所述主题检测框是单页文件Ai的标题对应的文本框,Bij是Ai的第j个主题检测框,j的取值范围是1到n,n是Ai的主题检测框的数量。
具体的,预设主题检测模型是YOLOv5模型。
进一步的,在使用YOLOv5获取Ai对应的主题检测框之前,还包括,对YOLOv5进行训练,本领域技术人员知晓,使用训练用单页文件输入YOLOv5模型,输出训练用主题检测框,通过减小训练主题检测框和训练用目标主题主题框的损失函数到第一预设损失阈值,从而达到训练YOLOv5模型的目的。
S220,获取Ai对应的通用文本框列表Ci={Ci1,Ci2,…,Cir,…,Cis},Ai对应的第r个通用文本框Cir是包含有Ai的第r行内所有文本的文本框,r的取值范围是1到s,s是Ai对应的通用文本框的数量。
具体的,使用OCR文本检测模型对Ai进行检测,获取Ai对应的通用文本框列表。
进一步的,在使用OCR文本检测模型对Ai进行通用文本框检测前,还包括:对OCR文本检测模型进行训练,本领域技术人员知晓,使用训练用单页文件输入OCR文本检测模型,输出训练用通用文本框,通过减小训练通用文本框和训练用目标通用文本框的损失函数到第二预设损失阈值,从而达到训练OCR文本检测模型的目的。
其中,所述第一预设损失阈值和第二预设损失阈值可根据实际需求确定。
S230,获取Bij和Cir的重合部分的面积Eijr,且获取重合面积比值V=Eijr/(Eij+Fir-Eijr),其中,Eij是Bij的面积,Fir是Cir的面积。
S240,当V>V0时,认定Bij是Ai的目标主题检测框,且对Bij进行文字识别,从而获取Ai的页主题,其中,V0是预设重合度阈值。
具体的,本发明可以使用OCR文本检测模型对Bij进行文字识别,将识别Bij出来的文字作为Ai的主题。
本发明进一步的,预设重合度阈值V0通过如下步骤获取:
S241,初始化V0=Vd,Vd是初始重合度阈值。
S242,获取验证单页文件集中待验证主题与真实主题相同的单页文件在所述验证单元文件集中的占比R,其中,验证单页文件集中每个单页文件的待验证主题通过所述目标主题检测方法获取。
S243,当R>R0,将Vd记为V0,其中,R0是预设准确率阈值。
S244,当R≤R0,V0=V0+Vt,执行S242,其中,Vt为预设增长因子。
综上,本发明获取单页文件的主题检测框和通用文本框,获取主题检测框和通用文本框的重合面积,并计算重合面积占总面积的重合面积比值,当重合面积比值大于预设重合度阈值,将对应的主题检测框作为该单页文件的目标主题检测框,对目标主题检测框进行文字识别,将识别出来的文字作为该单页文件的页主题,相较于现有技术中直接对单页文件的标题划取文本框,本发明采用主题检测框和通用文本框的重合面积进行识别,文本框内除主题外的内容造成的干扰更小,识别的主题更准确。
此外,本发明还采用预设重合度阈值的动态获取,使用验证单页文件集,当占比到达预设准确率阈值时,将此时的重合度阈值作为预设重合度阈值,从而找到最合适的预设重合度阈值,使得对于目标主题检测框的获取更精准。
进一步的,S300还包括:
S310,当Ai的页主题≠目录树的子目录主题时,获取目录树的子目录主题列表H={H1,H2,…,Hx,…,Hq},Hx是第x个子目录主题,x的取值范围是1到q,q是目录树中子目录主题的数量。
具体的,本领域技术人员知晓,现有技术中任何一种判断两个文本词是否相等的方法均属于本发明保护范围,此处不再赘述。
S320,获取Ai的页主题和Hx的相似度Six,从而获取相似度列表Si={Si1,Si2,…,Six,…,Siq}。
具体地,本领域技术人员知晓,现有技术中任何一种计算两个文本字符串相似度的方法均属于本发明保护范围,例如,获取Ai的词向量和Hx的词向量,计算Ai的词向量和Hx的词向量的余弦距离作为Ai和Hx的相似度Six
S330,Si0=max{Si1,Si2,…,Six,…,Siq},将Ai映射到Si0对应的子目录。
基于S310-S330,当Ai的主题≠目录树的子目录,例如目标主题检测框的范围过大导致识别出来的主题有多余的字,或者目标主题检测框的范围过小导致识别出来的主题缺少字,或者将“副本”识别为了目标主题等情况,则获取目录树的子目录列表,获取Ai的页主题和目录树的子目录的相似度,把Ai映射到相似度最高对应的子目录上,从而实现对于出现识别多字或少字等异常情况的后处理,保证Ai更准确的映射到目录树对应的子目录。
进一步的,S240中还包括:
S1,当Ai的目标主题检测框不止一个时,获取每个目标主题检测框的位置。
具体的,通过YOLOv5模型和OCR文本检测模型可以输出主题检测框和文本检测框的位置,从而确定目标主题检测框的位置。
S2,当任意相邻两个目标主题检测框在纵向的距离小于第一预设纵向距离时,对所有目标主题检测框进行文字识别,获取所有目标主题检测框的文字。
具体的,所述第一预设纵向距离可根据实际情况确定。
S3,将所有目标主题检测框的文字按照相应的目标主题检测框的位置从上到下进行拼接,从而获取Ai对应的页主题。
具体的,本领域现有技术人员知晓,将文字按照目标主题检测框的位置从上到下进行拼接的方法,均属于本发明保护范围,此处不再赘述。
更进一步的,S240中还包括:
S4,当Ai有两个目标主题检测框,且两个目标主题检测框在纵向的距离大于第二预设纵向距离时,将第一目标主题检测框进行文字识别,从而获取Ai的页主题,其中,所述第一目标主题检测框是两个目标主题检测框中位置处于Ai第一预设位置的目标主题检测框。
具体的,所述第二预设纵向距离可根据实际情况确定;所述第一预设位置可根据实际需求确定,例如单页文件的上方。可以理解为,当单页文件的目标主题检测框不止一个时,获取目标主题检测框的位置,当相邻两个目标主题检测框在纵向的距离小于第一预设纵向距离时,进行文字识别,获取所有目标主题检测框的文字,进行拼接,从而获取单页文件对应的主题,从而解决了多行标题的情况。
更进一步的,当Ai没有目标主题检测框时,执行如下步骤:
S010,当Ai-1单页文件的第二预设位置检测到目标主题检测框时,将该目标主题检测框文字识别后的文字字符串作为Ai的页主题,其中,Ai-1是聚合文件中Ai的前一页,第二预设位置和第一预设位置不同。
具体的,所述第二预设位置可根据实际情况确定,例如第二射位置为单页文件的下方。
S020,当Ai-1的第二预设位置没有检测到目标主题检测框时,将Ai映射到Ai的关联单页文件对应的子目录,其中,所述Ai的关联单页文件是为位于Ai前、距离Ai最近且具有页主题的单页文件。
综上,当Ai没有目标主题检测框时,检测Ai-1的第二预设位置是否有目标主体检测框,当有时,将该目标主题检测框文字识别后的文字字符串作为Ai的页主题,否则,将Ai映射到Ai的关联单页文件对应的子目录,从而解决了聚合文件中没有分页符、主题出现在下一页的情况,还解决了多页单页文件一个主题的情况。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (7)

1.一种聚合文件主题识别与归类系统,其特征在于,所述系统包括:目录树、处理器和存储有计算机程序的存储器,其中,所述目录树的子目录是与子目录对应的子目录主题,当所述处理器执行计算机程序时,实现如下步骤:
S100,获取聚类文件,且对所述聚类文件进行拆分,获取单页文件列表A={A1,A2,…,Ai,…,Am},Ai是第i个单页文件,i的取值范围是1到m,m是单页文件的数量;
S200,对Ai进行页主题检测,获取Ai的页主题;
S300,基于Ai的页主题和所有的子目录主题,将Ai映射到目录树对应的子目录;
S200具体使用目标主题检测方法获取Ai的页主题:
S210,基于预设主题检测模型获取Ai对应的主题检测框列表Bi={Bi1,Bi2,…,Bij,…,Bin},其中,所述预设主题检测模型用于以框的形式获取Ai对应的主题,所述主题检测框是单页文件Ai的标题对应的文本框,Bij是Ai的第j个主题检测框,j的取值范围是1到n,n是Ai的主题检测框的数量;
S220,获取Ai对应的通用文本框列表Ci={Ci1,Ci2,…,Cir,…,Cis},Ai对应的第r个通用文本框Cir是包含有Ai的第r行内所有文本的文本框,r的取值范围是1到s,s是Ai对应的通用文本框的数量;
S230,获取Bij和Cir的重合部分的面积Eijr,且获取重合面积比值V=Eijr/(Eij+Fir-Eijr),其中,Eij是Bij的面积,Fir是Cir的面积;
S240,当V>V0时,认定Bij是Ai的目标主题检测框,且对Bij进行文字识别,从而获取Ai对应的页主题,其中,V0是预设重合度阈值;
S300还包括:
S310,当Ai的页主题≠目录树的子目录主题时,获取目录树的子目录主题列表H={H1,H2,…,Hx,…,Hq},Hx是第x个子目录主题,x的取值范围是1到q,q是目录树中子目录主题的数量;
S320,获取Ai的页主题和Hx的相似度Six,从而获取相似度列表Si={Si1,Si2,…,Six,…,Siq};
S330,Si0=max{Si1,Si2,…,Six,…,Siq},将Ai映射到Si0对应的子目录。
2.根据权利要求1所述的聚合文件主题识别与归类系统,其特征在于,预设重合度阈值V0通过如下步骤获取:
S241,初始化V0=Vd,Vd是初始重合度阈值;
S242,获取验证单页文件集中待验证主题与真实主题相同的单页文件在所述验证单页文件集中的占比R,其中,验证单页文件集中每个单页文件的待验证主题通过所述目标主题检测方法获取;
S243,当R>R0,将Vd记为V0,其中,R0是预设准确率阈值;
S244,当R≤R0,V0=V0+Vt,执行S242,其中,Vt为预设增长因子。
3.根据权利要求1所述的聚合文件主题识别与归类系统,其特征在于,预设主题检测模型是YOLOv5模型。
4.根据权利要求1所述的聚合文件主题识别与归类系统,其特征在于,使用OCR文本检测模型对Ai进行检测,获取Ai对应的通用文本框列表。
5.根据权利要求1所述的聚合文件主题识别与归类系统,其特征在于,S240中还包括:
S1,当Ai的目标主题检测框不止一个时,获取每个目标主题检测框的位置;
S2,当任意相邻两个目标检测框在纵向的距离小于第一预设纵向距离时,对所有目标主题检测框进行文字识别,获取所有目标主题检测框的文字;
S3,将所有目标主题检测框的文字按照相应的目标主题检测框的位置从上到下进行拼接,从而获取Ai对应的页主题。
6.根据权利要求5所述的聚合文件主题识别与归类系统,其特征在于,S240中还包括:
S4,当Ai有两个目标主题检测框,且两个目标主题检测框在纵向的距离大于第二预设纵向距离时,将第一目标主题检测框进行文字识别,从而获取Ai的页主题,其中,所述第一目标主题检测框是两个目标主题检测框中位置处于Ai第一预设位置的目标主题检测框。
7.根据权利要求6所述的聚合文件主题识别与归类系统,其特征在于,当Ai没有目标主题检测框时,执行如下步骤:
S010,当Ai-1单页文件的第二预设位置检测到目标主题检测框时,将该目标主题检测框文字识别后的文字字符串作为Ai的页主题,其中,Ai-1是聚合文件中Ai的前一页,第二预设位置和第一预设位置不同;
S020,当Ai-1的第二预设位置没有检测到目标主题检测框时,将Ai映射到Ai的关联单页文件对应的子目录,其中,所述Ai的关联单页文件是为位于Ai前、距离Ai最近且具有页主题的单页文件。
CN202310463683.3A 2023-04-26 2023-04-26 一种聚合文件主题识别与归类系统 Active CN116363667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310463683.3A CN116363667B (zh) 2023-04-26 2023-04-26 一种聚合文件主题识别与归类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310463683.3A CN116363667B (zh) 2023-04-26 2023-04-26 一种聚合文件主题识别与归类系统

Publications (2)

Publication Number Publication Date
CN116363667A CN116363667A (zh) 2023-06-30
CN116363667B true CN116363667B (zh) 2023-10-13

Family

ID=86922248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310463683.3A Active CN116363667B (zh) 2023-04-26 2023-04-26 一种聚合文件主题识别与归类系统

Country Status (1)

Country Link
CN (1) CN116363667B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201622045D0 (en) * 2016-02-22 2017-02-08 Adobe Systems Inc Organizing electronically stored files using an automatically generated storage hierarchy
CN108399213A (zh) * 2018-02-05 2018-08-14 中国科学院信息工程研究所 一种面向用户个人文件的聚类方法及系统
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
WO2022042365A1 (zh) * 2020-08-26 2022-03-03 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
WO2022048211A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 文档目录生成方法、装置、电子设备及可读存储介质
CN115690821A (zh) * 2022-09-07 2023-02-03 北京汉王影研科技有限公司 一种电子卷宗智能编目方法和计算机设备
CN115731559A (zh) * 2022-09-07 2023-03-03 北京汉王影研科技有限公司 一种电子卷宗生成管理方法、装置和计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201622045D0 (en) * 2016-02-22 2017-02-08 Adobe Systems Inc Organizing electronically stored files using an automatically generated storage hierarchy
CN108399213A (zh) * 2018-02-05 2018-08-14 中国科学院信息工程研究所 一种面向用户个人文件的聚类方法及系统
WO2022042365A1 (zh) * 2020-08-26 2022-03-03 北京嘀嘀无限科技发展有限公司 一种基于图神经网络识别证件的方法及系统
WO2022048211A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 文档目录生成方法、装置、电子设备及可读存储介质
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质
CN115690821A (zh) * 2022-09-07 2023-02-03 北京汉王影研科技有限公司 一种电子卷宗智能编目方法和计算机设备
CN115731559A (zh) * 2022-09-07 2023-03-03 北京汉王影研科技有限公司 一种电子卷宗生成管理方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田喜平 ; 牛红惠 ; 裴世凯 ; .目录树的XML文档的自动生成.电脑知识与技术.2016,(第34期),全文. *
章成志 ; 张庆国 ; 师庆辉 ; .基于主题聚类的主题数字图书馆构建.中国图书馆学报.2008,(第06期),全文. *

Also Published As

Publication number Publication date
CN116363667A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
US8868569B2 (en) Methods for detecting and removing duplicates in video search results
CN102549571B (zh) 来自数字图片集合的地标
US8326091B1 (en) Ranking of images and image labels
US8180773B2 (en) Detecting duplicate documents using classification
US8892542B2 (en) Contextual weighting and efficient re-ranking for vocabulary tree based image retrieval
US9087297B1 (en) Accurate video concept recognition via classifier combination
US8719700B2 (en) Matching a page layout for each page of a document to a page template candidate from a list of page layout candidates
CN109858036B (zh) 一种文书划分方法及装置
US8891908B2 (en) Semantic-aware co-indexing for near-duplicate image retrieval
US20110317885A1 (en) Automatic and Semi-automatic Image Classification, Annotation and Tagging Through the Use of Image Acquisition Parameters and Metadata
CN102982160B (zh) 方便电子化的专业笔记本及其电子化文档的自动分类方法
CN109241319B (zh) 一种图片检索方法、装置、服务器和存储介质
JP2009506393A5 (zh)
US20220215205A1 (en) Robust content fingerprinting for image attribution
JP2011188465A (ja) 原稿レイアウトの方向検出方法及び装置
CN111931864A (zh) 基于顶点距离与交并比多重优化目标检测器的方法与系统
CN111222409A (zh) 车辆品牌的标注方法、装置及系统
CN116363667B (zh) 一种聚合文件主题识别与归类系统
CN111815108A (zh) 一种电网工程设计变更与现场签证审批单的评价方法
Mei et al. MSRA atT TRECVID 2008: High-Level Feature Extraction and Automatic Search.
CN112685128A (zh) 一种直播图片色情检测和图片过滤的方法
JP5810937B2 (ja) 管理プログラムおよび装置
TW202004519A (zh) 影像自動分類的方法
US11881041B2 (en) Automated categorization and processing of document images of varying degrees of quality
Gandhi et al. Detection of cut-and-paste in document images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant