CN110188077B - 一种电子卷宗智能分类方法、装置、电子设备和存储介质 - Google Patents
一种电子卷宗智能分类方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN110188077B CN110188077B CN201910458827.XA CN201910458827A CN110188077B CN 110188077 B CN110188077 B CN 110188077B CN 201910458827 A CN201910458827 A CN 201910458827A CN 110188077 B CN110188077 B CN 110188077B
- Authority
- CN
- China
- Prior art keywords
- file
- information
- file information
- page
- regular expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000014509 gene expression Effects 0.000 claims abstract description 63
- 238000012795 verification Methods 0.000 claims abstract description 31
- 230000015654 memory Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012776 electronic material Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/144—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了电子卷宗智能分类方法,包括获取文件信息;判断是否为首页;若为首页,匹配文件关键词;存在匹配,进行正则表达式验证;通过正则表达式验证,确定基础类别;根据预设定规则确定文件信息的命名。一方面实现了自动对电子卷宗材料进行分类归档,便于查阅;另一方面,创造性的采用图像识别,把卷宗区分为首页和非首页,只对首页的电子卷宗进行分析判断,非首页的直接跟前一页的类别,不但提高分类的准确性,同时也提高分类效率,并且结合通过词库检索技术、正则表达式验证技术以及XML规则配置,不仅能够快速的基本确定电子卷宗的类别,进一步的提高了程序的运行效率,而且能够进一步提高验证判断的准确性和命名类别的精确性。
Description
技术领域
本发明实施例涉及数据分类命名技术领域,具体涉及一种电子卷宗智能分类方法、装置、电子设备和存储介质。
背景技术
为进一步提升人民法院审判执行信息化水平,深化司法公开力度,促进审判流程再造,破解人民法院“案多人少”和调卷难等难题,各级人民法院都在积极推进人民法院电子卷宗随案生成和深度应用。
作为法院审判执行的基础性信息化系统,电子卷宗随案生成系统把各类案件办理过程中收集和产生的诉讼文件实现“电子化”,经过文档化、数据化、结构化处理后上传到案件办理系统,实现案件办理、诉讼服务和司法管理中各类业务应用的自动化、智能化。
目前电子卷宗随案生成系统仍处在初期的发展阶段,主要是实现把纸质文件扫描到系统中形成电子卷宗材料,为法院相关应用系统提供数据查看的功能,并没有自动地深入分析文档的性质、内容,归档和查阅比较麻烦,效率低下。
显而易见,电子卷宗随案生成系统在把各种诉讼文件实现“电子化”的过程中,如果能够对电子卷宗进行自动的分类归档,调卷阅卷便会变得极为方便快捷,极大地提高网上办案效率,并且分类归档的准确性越高,电子化数据就越便于在业务系统中应用,越能推动法院审判执行信息化系统实现自动化、智能化。
目前市场上的电子卷宗随案生成系统,都无法对电子卷宗材料进行自动分类归档,仅仅是通过高拍仪等设备,把纸质文件扫描进系统,然后可以在系统中查阅电子材料。但是,该电子卷宗随案生成系统不仅没有对电子卷宗材料进行自动分类归档,调卷阅卷速度慢、效率低,而且电子卷宗材料仅是图片资料,没有对电子卷宗材料的内容进行解析、分析、存储,不能直接把电子卷宗材料的内容提取出来应用于业务应用系统。
发明内容
为此,本发明实施例提供一种电子卷宗智能分类方法、装置、电子设备和存储介质,以解决现有技术中由于电子卷宗材料仅是图片资料,没有对电子卷宗材料的内容进行解析、分析、分类归档以及存储,不能直接把电子卷宗材料的内容提取以进行命名和分类出来的问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面提供了一种电子卷宗智能分类方法,包括:
将纸质文件转换为与之对应的文件信息,所述文件信息包括图片信息和文本信息;
根据所述图片信息判断所述文件信息对应文件是否为首页;
若为首页,则查找所述文件信息中是否存在有与词库中存储的关键词匹配的关键词;
若存在匹配关键词,则获取所述关键词对应的正则表达式,将所述文本信息在获取的正则表达式中进行正则表达式验证;
若通过正则表达式验证,则根据所述正则表达式确定所述文件信息的基础类别;
根据预设定规则和所述文本信息确定所述文件信息的命名。
进一步地,所述的电子卷宗智能分类方法中,还包括:
若无匹配关键词,则将所述文本信息在所有的正则表达式中进行正则表达式验证。
进一步地,所述的电子卷宗智能分类方法中,
根据所述图片信息判断所述文件信息对应文件是否为首页;
若非首页,则所述文件信息的命名跟随其前的文件信息的命名。
进一步地,所述的电子卷宗智能分类方法中,所述根据预设定规则和所述文本信息确定所述文件信息的命名,包括:
根据XML文件中的第一规则,提取所述文件信息中的第一信息;
根据所述第一信息以及所述XML文件中的第二规则确定所述文件信息的命名。
根据本发明实施例的第二方面提供了一种电子卷宗智能分类装置,包括:
转换模块,用户将纸质文件转换为与对应的文件信息,所述文件信息包括图片信息和文本信息;
判断模块,用于根据所述图片信息判断所述文件信息对应文件是否为首页;
处理模块,用于若为首页,则查找所述文件信息中是否存在有与词库中存储的关键词匹配的关键词;
若存在匹配,则获取所述关键词对应的正则表达式,将所述文本信息在获取的正则表达式中进行正则表达式验证;
若通过正则表达式验证,则根据所述正则表达式确定所述文件信息的基础类别;
根据预设定规则和所述文本信息在所述基础类别确定所述文件信息的命名。
进一步地,所述的电子卷宗智能分类装置中,所述处理模块还用于,若无匹配的关键词,则将所述文本信息在所有的正则表达式中进行正则表达式验证。
进一步地,所述的电子卷宗智能分类装置中,所述处理模块还用于根据所述图片信息判断所述文件信息对应文件是否为首页;
若非首页,则所述文件信息的命名跟随其前的文件信息的命名。
进一步地,所述的电子卷宗智能分类装置中,所述根据预设定规则和所述文本信息确定所述文件信息的命名,包括:
根据XML文件中的第一规则,提取所述文件信息中的第一信息;
根据所述第一信息以及所述XML文件中的第二规则确定所述文件信息的命名。
根据本发明实施例的第三方面提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的一种电子卷宗智能分类方法的步骤。
根据本发明实施例的第四方面提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的一种电子卷宗智能分类方法的步骤。
本发明实施例具有如下优点:
本申请提供的一种电子卷宗智能分类方法,包括将纸质文件转换为与之对应的文件信息,所述文件信息包括图片信息和文本信息;根据所述图片信息判断所述文件信息对应文件是否为首页;若为首页,则查找所述文件信息中是否存在有与词库中存储的关键词匹配的关键词;若存在匹配关键词,则获取所述关键词对应的正则表达式,将所述文本信息在获取的正则表达式中进行正则表达式验证;若通过正则表达式验证,则根据所述正则表达式确定所述文件信息的基础类别;根据预设定规则和所述文本信息确定所述文件信息的命名。本申请一方面实现了自动对电子卷宗材料进行分类归档,便于查阅;另一方面,创造性的采用图像识别,把卷宗区分为首页和非首页,只对首页的电子卷宗进行分析判断,非首页的直接跟前一页的类别,不但提高分类的准确性,同时也提高分类效率,并且结合通过词库检索技术、正则表达式验证技术以及XML规则配置,不仅能够快速的基本确定电子卷宗的类别,进一步的提高了程序的运行效率,而且能够进一步提高验证判断的准确性和命名类别的精确性。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种电子卷宗智能分类方法的流程图;
图2为本发明实施例提供的一种电子卷宗智能分类装置的结构示意图;
图3为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前现有的对电子卷宗无法自动分类归档导致卷宗文件存储混乱以及调卷速度效率低的问题,基于此,本申请提供的一种电子卷宗智能分类方,能够基于详细精准命名和归档。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种电子卷宗智能分类方法进行详细介绍。
参见图1所示,本申请实施例所提供的一种电子卷宗智能分类方法,包括步骤S101-S106:
S101:将纸质文件转换为与之对应的文件信息,所述文件信息包括图片信息和文本信息;
在本实施例中,将纸质的卷宗扫描成图片文件,得到图片信息,然后在通过OCR(Optical Character Recognition,光学字符识别)将图片信息转换为文本信息,文本信息和图片信息构成了被扫描页对应的文件信息;
S102:根据所述图片信息判断所述文件信息对应文件是否为首页;
在本实施例中,采用人工智能方法,通过对模型训练,得到判别模型,继而通过判别模型实现对文件信息判断是否为卷宗的首页,但是本发明并不限于此,具体的:
采集大量的文件的首页的图片,标注该图片;
将标注后的图片输入到神经网络中,得到神经网络输出;
对比神经网络输出与标准结果的一致性,若神经网络输出与标准结果的一致性达到预设条件,则训练完成,得到判别模型;
若神经网络输出与标准结果的一致性未达到预设条件,则重复执行输入标注图片的操作,直至神经网络输出与标准结果的一致性达到预设条件,训练完成,得到判别模型。
S103:若为首页,则查找所述文件信息中是否存在有与词库中存储的关键词匹配的关键词;
在本实施例中,系统中预设置有词库,词库中存储有大量的关键词,每一关键词关联至少一个正则表达式;
词库中关联有检索引擎,所述检索引擎根据预设定的分词规则和匹配规则,筛选出文本信息中具有的与词库中关键词匹配的关键词;其中
本实施例中的预设定分词规则为基于字符串匹配的分词方法、基于理解的分词方法或基于统计的分词方法,采用的算法为NLP算法。由于上述技术均为现有技术,本实施例中在此不做详细阐述。需要注意的,本发明对文本信息关键词的提取方法并不限于上述两种方法。
S104:若存在匹配的关键词,则获取所述关键词对应的正则表达式,将所述文本信息在获取的正则表达式中进行正则表达式验证;
S105:若通过正则表达式验证,则根据所述正则表达式确定所述文件信息的基础类别;
在本实施例中,当在词库中筛选出与为文件关键词匹配的关键词;调取上述关键词关联的正则表达式,将文件信息与每一正则表达式匹配,当存在匹配结果满足预设定条件的正则表达式时,则表示通过正则表达式验证,将满足预设定条件的正则表达式下关联的基础类别确定为文件信息的基础类别。
S106:根据预设定规则和所述文件信息确定所述文件信息的命名。
具体的,根据XML文件中的第一规则,提取所述文件信息中的第一信息;
根据所述第一信息以及所述XML文件中的第二规则确定所述文件信息的命名。
本发明中将得到的基础类别和命名与文件信息关联,存储和/或推送用户。在本实施例中,在XML文件中确定提取规则和命名规则,根据规则对文件信息命名,例如:
XML规则:外部XML文件中制定的规则,系统解析XML文件后,根据规则对命名进一步精准确定。
信息提取:根据正则表达式,从一行文本中信息中提取需要的信息。
命名规则:包含直接命名、替换、条件、组合等命名规则。
①直接命名:正则验证通过后,直接命名,例如正则验证符合后,直接命名为“起诉书”。
②替换:例如命名规则为“起诉书(a)”,信息提取得到a的值为“张三”,那么卷宗则命名为“起诉书(张三)”。
③条件:符合条件后的命名。例如条件为:信息a包含“民初”,则命名为“民事一审判决书”。
④组合:由以上3种方式的组合命名规则。
本申请一方面实现了自动对电子卷宗材料进行分类归档,便于查阅;另一方面,创造性的采用图像识别,把卷宗区分为首页和非首页,只对首页的电子卷宗进行分析判断,非首页的直接跟前一页的类别,不但提高分类的准确性,同时也提高分类效率,并且结合通过词库检索技术、正则表达式验证技术以及XML规则配置,不仅能够快速的基本确定电子卷宗的类别,进一步的提高了程序的运行效率,而且能够进一步提高验证判断的准确性和命名类别的精确性。
进一步地,所述的电子卷宗智能分类方法中,还包括步骤S107,需要注意的是,步骤S107与步骤S105和S106没有执行上的先后顺序;
S107:若无匹配的关键词,则将所述文本信息在所有的正则表达式中进行正则表达式验证。
在本实施例中,当文本信息中不存在有与词库中关键匹配的关键词时此时,将文件信息与正则数据库中存储的每个正则表达式匹配,当存在匹配结果满足预设定条件的正则表达式时,则表示通过正则表达式验证,将满足预设定条件的正则表达式下关联的基础类别确定为文件信息的基础类别。
进一步地,所述的电子卷宗智能分类方法中,还包括步骤S108,步骤S108与步骤S105、S106和S107没有执行上的先后顺序;
S108:根据所述图片信息判断所述文件信息对应文件是否为首页;
若非首页,则所述文件信息的命名跟随其前的文件信息的命名。
在本实施例中,通过S102中阐述的技术确定是否为首页,当判断为非首页时,该文件信息命同与前首页命名;例如,两个卷宗中有两页首页和多页非首页,两个首页中间的非首页文件的命名全部同第一个首页。
基于同一发明构思,本申请实施例中还提供了与电子卷宗智能分类方法对应电子卷宗智能分类装置。由于本申请实施例中的装置解决问题的原理与本申请实施例上述电子卷宗智能分类方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图2所示,一种电子卷宗智能分类装置,包括:
转换模块201,用户将纸质文件转换为与对应的文件信息,所述文件信息包括图片信息和文本信息;
判断模块202,用于根据所述图片信息判断所述文件信息对应文件是否为首页;
处理模块203,用于若为首页,则查找所述文件信息中是否存在有与词库中存储的关键词匹配的关键词;
若存在匹配,则获取所述关键词对应的正则表达式,将所述文本信息在获取的正则表达式中进行正则表达式验证;
若通过正则表达式验证,则根据所述正则表达式确定所述文件信息的基础类别;
根据预设定规则和所述文本信息确定所述文件信息的命名。
进一步地,所述处理模块203还用于将所述文件关键词与词库中的关键词匹配;
若无匹配的关键词,则对将所述文本信息在所有的正则表达式中进行正则表达式验证。
进一步地,所述处理模块203还用于根据所述图片信息判断所述文件信息对应文件是否为首页;
若非首页,则所述文件信息的命名跟随其前的文件信息的命名。
进一步地,所述根据预设定规则和所述文件信息确定所述文件信息的精准命名,包括:
根据XML文件中的第一规则,提取所述文件信息中的第一信息;
根据所述第一信息以及所述XML文件中的第二规则确定所述文件信息的命名。
对应于图1中的电子卷宗智能分类方法,本申请实施例还提供了一种计算机设备,如图3所示,该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序,其中,上述处理器2000执行上述计算机程序时实现上述电子卷宗智能分类方法的步骤。
具体地,上述存储器1000和处理器2000能够为通用的存储器和处理器,这里不做具体限定,当处理器2000运行存储器1000存储的计算机程序时,能够执行上述电子卷宗智能分类方法,从而能够基于本发明快速准确的实现对卷宗的分类和命名。
本申请实施例所提供的电子卷宗智能分类方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种电子卷宗智能分类方法,其特征在于,包括:
将纸质文件转换为与之对应的文件信息,所述文件信息包括图片信息和文本信息;
根据所述图片信息判断所述文件信息对应文件是否为首页;
若为首页,则查找所述文件信息中是否存在有与词库中存储的关键词匹配的关键词;
若存在匹配关键词,则获取所述关键词对应的正则表达式,将所述文本信息在获取的正则表达式中进行正则表达式验证;
若通过正则表达式验证,则根据所述正则表达式确定所述文件信息的基础类别;
根据预设定规则和所述文本信息确定所述文件信息的命名。
2.根据权利要求1所述的电子卷宗智能分类方法,其特征在于,还包括:
若无匹配关键词,则将所述文本信息在所有的正则表达式中进行正则表达式验证。
3.根据权利要求1或2所述的电子卷宗智能分类方法,其特征在于,
根据所述图片信息判断所述文件信息对应文件是否为首页;
若非首页,则所述文件信息的命名跟随其前的文件信息的命名。
4.根据权利要求1或2所述的电子卷宗智能分类方法,其特征在于,所述根据预设定规则和所述文本信息确定所述文件信息的命名,包括:
根据XML文件中的第一规则,提取所述文件信息中的第一信息;
根据所述第一信息以及所述XML文件中的第二规则确定所述文件信息的命名。
5.一种电子卷宗智能分类装置,其特征在于,包括:
转换模块,用户将纸质文件转换为与对应的文件信息,所述文件信息包括图片信息和文本信息;
判断模块,用于根据所述图片信息判断所述文件信息对应文件是否为首页;
处理模块,用于若为首页,则查找所述文件信息中是否存在有与词库中存储的关键词匹配的关键词;
若存在匹配,则获取所述关键词对应的正则表达式,将所述文本信息在获取的正则表达式中进行正则表达式验证;
若通过正则表达式验证,则根据所述正则表达式确定所述文件信息的基础类别;
根据预设定规则和所述文本信息在所述基础类别确定所述文件信息的命名。
6.根据权利要求5所述的电子卷宗智能分类装置,其特征在于,所述处理模块还用于,若无匹配的关键词,则将所述文本信息在所有的正则表达式中进行正则表达式验证。
7.根据权利要求5或6所述的电子卷宗智能分类装置,其特征在于,所述处理模块还用于根据所述图片信息判断所述文件信息对应文件是否为首页;
若非首页,则所述文件信息的命名跟随其前的文件信息的命名。
8.根据权利要求5或6所述的电子卷宗智能分类装置,其特征在于,所述根据预设定规则和所述文本信息确定所述文件信息的命名,包括:
根据XML文件中的第一规则,提取所述文件信息中的第一信息;
根据所述第一信息以及所述XML文件中的第二规则确定所述文件信息的命名。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的一种电子卷宗智能分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4任一所述的一种电子卷宗智能分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458827.XA CN110188077B (zh) | 2019-05-29 | 2019-05-29 | 一种电子卷宗智能分类方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458827.XA CN110188077B (zh) | 2019-05-29 | 2019-05-29 | 一种电子卷宗智能分类方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188077A CN110188077A (zh) | 2019-08-30 |
CN110188077B true CN110188077B (zh) | 2021-03-19 |
Family
ID=67718717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910458827.XA Active CN110188077B (zh) | 2019-05-29 | 2019-05-29 | 一种电子卷宗智能分类方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188077B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795561B (zh) * | 2019-10-24 | 2021-04-02 | 北京华宇信息技术有限公司 | 一种电子卷宗材料类型自动识别系统及其自主学习方法 |
CN110826619A (zh) * | 2019-11-01 | 2020-02-21 | 北京华宇信息技术有限公司 | 电子卷宗的文件分类方法、装置及电子设备 |
CN112612893A (zh) * | 2020-12-29 | 2021-04-06 | 广西安怡臣信息技术有限公司 | 一种电子卷宗随案生成系统 |
CN112990177B (zh) * | 2021-04-13 | 2021-09-21 | 太极计算机股份有限公司 | 基于电子卷宗文件的分类编目方法、装置及设备 |
CN113220430A (zh) * | 2021-04-28 | 2021-08-06 | 上海交大慧谷通用技术有限公司 | 一种电子卷宗材料上传和识别并行的方法及系统 |
CN113222417A (zh) * | 2021-05-17 | 2021-08-06 | 广西安怡臣信息技术有限公司 | 一种电子卷宗数据工厂全流程智能应用管理系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117434B2 (en) * | 2001-06-29 | 2006-10-03 | International Business Machines Corporation | Graphical web browsing interface for spatial data navigation and method of navigating data blocks |
CN101227542A (zh) * | 2007-01-18 | 2008-07-23 | 富士施乐株式会社 | 图像处理系统、图像处理方法及计算机可读介质 |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN105335453A (zh) * | 2014-08-11 | 2016-02-17 | 虹光精密工业股份有限公司 | 图像分文档方法 |
CN106529597A (zh) * | 2016-11-11 | 2017-03-22 | 理光图像技术(上海)有限公司 | 扫描图像文件生成装置 |
CN108256104A (zh) * | 2018-02-05 | 2018-07-06 | 恒安嘉新(北京)科技股份公司 | 基于多维特征的互联网网站综合分类方法 |
CN108846028A (zh) * | 2018-05-24 | 2018-11-20 | 网易传媒科技(北京)有限公司 | 文章投放方法、介质、装置和计算设备 |
-
2019
- 2019-05-29 CN CN201910458827.XA patent/CN110188077B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117434B2 (en) * | 2001-06-29 | 2006-10-03 | International Business Machines Corporation | Graphical web browsing interface for spatial data navigation and method of navigating data blocks |
CN101227542A (zh) * | 2007-01-18 | 2008-07-23 | 富士施乐株式会社 | 图像处理系统、图像处理方法及计算机可读介质 |
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN105335453A (zh) * | 2014-08-11 | 2016-02-17 | 虹光精密工业股份有限公司 | 图像分文档方法 |
CN106529597A (zh) * | 2016-11-11 | 2017-03-22 | 理光图像技术(上海)有限公司 | 扫描图像文件生成装置 |
CN108256104A (zh) * | 2018-02-05 | 2018-07-06 | 恒安嘉新(北京)科技股份公司 | 基于多维特征的互联网网站综合分类方法 |
CN108846028A (zh) * | 2018-05-24 | 2018-11-20 | 网易传媒科技(北京)有限公司 | 文章投放方法、介质、装置和计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110188077A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188077B (zh) | 一种电子卷宗智能分类方法、装置、电子设备和存储介质 | |
US20220261427A1 (en) | Methods and system for semantic search in large databases | |
US8005300B2 (en) | Image search system, image search method, and storage medium | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN110909160A (zh) | 正则表达式生成方法、服务器及计算机可读存储介质 | |
CN112182148B (zh) | 一种基于全文检索的标准辅助编写方法 | |
JP2007172077A (ja) | 画像検索システム及び方法及びプログラム | |
CN110795525A (zh) | 文本结构化方法、装置、电子设备及计算机可读存储介质 | |
Chatzichristofis et al. | Co. vi. wo.: color visual words based on non-predefined size codebooks | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN116501875B (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
CN113190502A (zh) | 基于深度学习的档案管理方法 | |
CN117171331B (zh) | 基于大型语言模型的专业领域信息交互方法、装置及设备 | |
KR101951910B1 (ko) | 계통이 부여된 도판 및 문자의 자동배치를 통한 전자서적 제작 시스템 | |
Chiney et al. | Handwritten data digitization using an anchor based multi-channel CNN (MCCNN) trained on a hybrid dataset (h-EH) | |
CN110619212B (zh) | 一种基于字符串的恶意软件识别方法、系统及相关装置 | |
CN116860963A (zh) | 一种文本分类方法、设备及存储介质 | |
CN112559679B (zh) | 政法新媒体传播力的检测方法、装置、设备及存储介质 | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 | |
Esser et al. | Few-exemplar information extraction for business documents | |
CN117493645B (zh) | 一种基于大数据的电子档案推荐系统 | |
CN112990177B (zh) | 基于电子卷宗文件的分类编目方法、装置及设备 | |
CN117668234A (zh) | 一种文本标签划分方法、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240604 Address after: No. 08, 11th Floor, Building 2-17, No. 2 Fufeng Road, Fengtai District, Beijing, 100071 (1208) Patentee after: Lutiantong (Beijing) Information Technology Co.,Ltd. Country or region after: China Address before: 100085 a303, 2 / F, block a, No.9, Shangdi 3rd Street, Haidian District, Beijing Patentee before: BEIJING LEDICT TECHNOLOGY Co.,Ltd. Country or region before: China |
|
TR01 | Transfer of patent right |