CN115034193A - 电子卷宗自动编目方法、装置、设备及可读存储介质 - Google Patents
电子卷宗自动编目方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN115034193A CN115034193A CN202210676151.3A CN202210676151A CN115034193A CN 115034193 A CN115034193 A CN 115034193A CN 202210676151 A CN202210676151 A CN 202210676151A CN 115034193 A CN115034193 A CN 115034193A
- Authority
- CN
- China
- Prior art keywords
- target electronic
- page
- file
- cataloging
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种电子卷宗自动编目方法、装置、设备及可读存储介质,应用于数据整理技术领域,其方法包括:获取目标案件的待编目电子卷宗;对所述待编目电子卷宗进行图像处理生成目标电子卷宗;将所述目标电子卷宗按照预设样本模板进行调整,生成目标电子卷宗页;识别所述目标电子卷宗页的文件属性;基于所述文件属性生成用于描述所述目标电子卷宗页的编目信息;基于所述编目信息和预设编目规则对所述目标电子卷宗页进行编目。本申请具有提高电子卷宗自动编目的效率的效果。
Description
技术领域
本申请涉及数据整理的技术领域,尤其是涉及一种电子卷宗自动编目方法、装置、设备及可读存储介质。
背景技术
电子卷宗是指在案件受理前或者案件受理过程中,将装订成卷的纸质案卷材料,依托数字影像技术、文字识别技术、数据库技术等媒介技术制作而成的具有特定格式的电子文档和相关电子数据。
目前主要通过文字识别技术对电子卷宗进行识别,将识别后的电子卷宗使用自动编目工具进行编目,但由于受拍照水平、扫描设备等,如光线、角度、清晰度等因素的干扰,影响文字识别的精准度和识别效率。并且由于电子卷宗的内容复杂多样,传统的自动编目工具在进行编目时,容易产生编目混乱的情况,需要大量的人工进行校验,从而影响电子卷宗的编目效率。
发明内容
为了提高电子卷宗自动编目的效率,本申请提供一种电子卷宗自动编目方法、装置、设备及可读存储介质。
第一方面,本申请提供一种电子卷宗自动编目方法,采用如下的技术方案:
一种电子卷宗自动编目方法,包括:
获取目标案件的待编目电子卷宗;
对所述待编目电子卷宗进行图像处理生成目标电子卷宗;
将所述目标电子卷宗按照预设样本模板进行调整,生成目标电子卷宗页;
识别所述目标电子卷宗页的文件属性;
基于所述文件属性生成用于描述所述目标电子卷宗页的编目信息;
基于所述编目信息和预设编目规则对所述目标电子卷宗页进行编目。
通过采用上述技术方案,将扫描或者拍摄得到的电子卷宗进行图像处理,将处理后的目标电子卷宗按照样本模板进行调整,提高对电子卷宗内容识别的准确性和识别效率,根据电子卷宗内容划分文件属性,基于文件属性选择用于描述文件属性的编目信息,再依据编目信息对电子卷宗进行自动编目,从而提高电子卷宗自动编目的效率。
可选的,所述对所述待编目电子卷宗进行图像处理生成目标电子卷宗包括:
判断所述待编目电子卷宗是否存在识别干扰;
若存在所述识别干扰,则对所述待编目电子卷宗进行清洗,以消除所述识别干扰;
将消除所述识别干扰的所述待编目电子卷宗作为所述目标电子卷宗;
若不存在所述识别干扰,则将所述待编目电子卷宗作为所述目标电子卷宗。
可选的,所述将所述目标电子卷宗按照预设样本模板进行调整,生成目标电子卷宗页包括:
获取所述目标电子卷宗的格式;
判断所述目标电子卷宗的格式是否与预设样本模板是否一致;
若一致,则将所述目标电子卷宗作为所述目标电子卷宗页;
若不一致,则将所述目标电子卷宗的格式调整至与所述预设样本模板的格式一致,将调整后的目标电子卷宗作为所述目标电子卷宗页。
可选的,所述识别所述目标电子卷宗页的文件属性包括:
识别所述目标电子卷宗页上的文字和图片组合;
对所述文字进行语义分析,得到文字类型;
对所述图片进行图片识别,得到图片类型;
基于所述文字类型和所述图片类型的组合确定所述目标电子卷宗页的文件属性。
可选的,所述基于所述文字类型和所述图片类型的组合确定所述目标电子卷宗页的文件属性包括:
判断所述文字类型和所述图片类型的组合与预设文字类型和图片类型的组合属性是否存在匹配项;
若存在匹配项,则将所述匹配项的文件属性作为所述目标电子卷宗页的文件属性;
若不存在匹配项,则基于所述文字内容类型和图片类型生成告警信息。
可选的,所述基于所述编目信息和预设编目规则对所述目标电子卷宗页进行编目包括:
基于所述编目信息将所述目标电子卷宗页划分为首页、尾页和多个中间页;
基于所述语义分析确定多个所述中间页中的关联页和标识页;
基于所述首页、所述尾页、所述关联页和所述标识页对所述目标电子卷宗页进行编目。
可选的,在所述基于所述编目信息和预设编目规则对所述目标电子卷宗页进行编目之后,还包括:
识别所述编目信息中的关键字,将所述关键字与所述关键字数据库内预设关键字进行匹配;
获取与所述关键字匹配的预设关键字的属性和存放数据库,将编目后的所述目标电子卷宗页存入所述存放数据库。
第二方面,本申请提供一种电子卷宗自动编目装置,采用如下的技术方案:
一种电子卷宗自动编目装置,包括:
卷宗获取模块,用于获取任意目标案件的待编目电子卷宗;
目标生成模块,用于对所述待编目电子卷宗进行图像处理生成目标电子卷宗;
卷宗调整模块,用于将所述目标电子卷宗按照预设样本模板进行调整,生成目标电子卷宗页;
属性识别模块,用于识别所述目标电子卷宗页的文件属性;
信息生成模块,用于基于所述文件属性生成用于描述所述目标电子卷宗页的编目信息;
卷宗编目模块,用于基于所述编目信息和预设编目规则对所述目标电子卷宗页进行编目。
通过采用上述技术方案,将扫描或者拍摄得到的电子卷宗进行图像处理,将处理后的目标电子卷宗按照样本模板进行调整,提高对电子卷宗内容识别的准确性和识别效率,根据电子卷宗内容划分文件属性,基于文件属性选择用于描述文件属性的编目信息,再依据编目信息对电子卷宗进行自动编目,从而提高电子卷宗自动编目的效率。
第三方面,本申请提供一种电子设备,采用如下的技术方案:
一种电子设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行第一方面任一项所述的电子卷宗自动编目方法的计算机程序。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,存储有能够被处理器加载并执行第一方面任一项所述的电子卷宗自动编目方法的计算机程序。
附图说明
图1是本申请实施例提供的一种电子卷宗自动编目方法的流程示意图。
图2是本申请实施例提供的一种电子卷宗自动编目装置的结构框图。
图3是本申请实施例提供的电子设备的结构框图。
具体实施方式
以下结合附图对本申请作进一步详细说明。
图1为本申请实施例提供的一种电子卷宗自动编目方法的流程示意图。
如图1所示,该方法主要流程描述如下(步骤S101~S104):
步骤S101,获取目标案件的待编目电子卷宗;
在本实施例中,卷宗包括流程文件和证据文件等多个类型的文件,电子卷宗为将完整的流程文件或者证据文件等进行扫描或者拍照等操作生成的文件,在将文件生成电子版文件并进行上传时,电子文件的顺序会产生变化,此时需要将顺序混乱的电子卷宗重新按照正确的顺序进行排列编目。
步骤S102,对待编目电子卷宗进行图像处理生成目标电子卷宗;
针对步骤S102,判断待编目电子卷宗是否存在识别干扰;若存在识别干扰,则对待编目电子卷宗进行清洗,以消除识别干扰;将消除识别干扰的待编目电子卷宗作为目标电子卷宗;若不存在识别干扰,则将待编目电子卷宗作为目标电子卷宗。
在本实施例中,待编目电子卷宗在进行编目之前,需要去除待编目电子卷宗上的识别干扰,识别干扰为在拍摄或者扫描时,由于环境和设备等因素的干扰导致电子卷宗产生模糊、倾斜、反光、叠字等妨碍文字识别的识别干扰因素。
清洗待编目电子卷宗即为消除模糊、倾斜、反光、叠字等妨碍文字识别的识别干扰因素,去掉待编目电子卷宗上的阴影和深色等使待编目电子卷宗看起来模糊的干扰因素,去掉待编目电子卷宗上反光和浅色等使待编目电子卷宗上的文字和图片显现不清晰的干扰因素,还需要去掉待编目电子卷宗上的倾斜文字、重叠文字等使待编目电子卷宗文字难以识别的干扰因素。清洗后的待编目电子卷宗保持高亮和清晰,便于快速准确的识别待编目电子卷宗上的文字,提高电子卷宗文字识别和图案识别的速度和准确率。
步骤S103,将目标电子卷宗按照预设样本模板进行调整,生成目标电子卷宗页;
针对步骤S103,获取目标电子卷宗的格式;判断目标电子卷宗的格式是否与预设样本模板是否一致;若一致,则将目标电子卷宗作为目标电子卷宗页;若不一致,则将目标电子卷宗的格式调整至与预设样本模板的格式一致,将调整后的目标电子卷宗作为目标电子卷宗页。
在本实施例中,在对电子卷宗进行编目之前,需要使目标电子卷宗的格式保持一致,即使目标电子卷宗的尺寸和文字朝向保持一致。当目标电子卷宗的尺寸与预设样本模板不一致时,在按照预设样本模板调整尺寸之前,需要先判断目标电子卷宗的当前状态,例如,预设样本模板的尺寸为300*200的长方形,如果此时的目标电子卷宗的尺寸为100*150的长方形,需要首先将目标电子卷宗进行旋转,使目标电子卷宗为150*100的长方形,然后将目标电子卷宗进行拉伸处理,使得目标电子卷宗的尺寸与预设样本模板的尺寸保持一致。
在将目标电子卷宗的尺寸调整至与预设样本模板一致之后,识别目标电子卷宗上的文字是否为正向文字,如果卷宗上的文字不是正向文字,则对电子卷宗进行旋转,使得所述文字为正向文字。在进行尺寸调整时,由于旋转为随机方向旋转,因此存在将文字旋转为反向文字的情况,但不会存在文字成为右向文字或者左向文字的可能。需要说明的是,在进行尺寸调整时,可以直接将目标电子卷宗上的文字调整为正向文字,然后再进行拉伸缩小等尺寸调整,在此不做具体限定。
步骤S104,识别目标电子卷宗页的文件属性;
针对步骤S104,识别目标电子卷宗页上的文字和图片组合;对文字进行语义分析,得到文字类型;对图片进行图片识别,得到图片类型;基于文字类型和图片类型的组合确定目标电子卷宗页的文件属性。
具体的,判断文字类型和图片类型的组合与预设文字类型和图片类型的组合属性是否存在匹配项;若存在匹配项,则将匹配项的文件属性作为目标电子卷宗页的文件属性;若不存在匹配项,则基于文字内容类型和图片类型生成告警信息。
在本实施例中,通过文字识别工具识别目标电子卷宗页上的文字,通过语义分析工具分析目标电子卷宗页上的文字内容所表达的语义,其中,目标电子卷宗页的文字类型包括对话、陈述、官文描述等,通过语义确定目标电子卷宗页为其中的哪一种类型的文件。通过图片识别工具识别并提取目标电子卷宗页上的图片,根据目标电子卷宗页上图片的形状判断图片的类型,其中,目标电子卷宗页的图片类型包括签字、圆形公章、方形公章和个人印章等。需要说明的是,文字类型和图片类型包括但不限于上述举例,在此不做进一步举例说明。
文字类型需要与图片类型相匹配,将当前目标签字卷宗页上的文字类型和图片类型的组合与预设文字类型和图片类型的组合进行匹配,查找是否有相匹配的项,如果有则将预设文字类型和图片类型的组合的属性赋给当前的文字类型和图片类型的组合,作为当前的文字类型和图片类型的组合的文件属性。例如,当文字类型和图片类型的组合是对话、签字和方形公章时,则文件属性为口供,当文字类型和图片类型的组合为陈述、签字和圆形公章是,则文件属性为证人证言。需要说明的是,文字类型和图片类型的组合和对应的文件属性包括但不限于上述举例,在此不做进一步举例说明,并且文字类型和图片类型的组合和对应的文件属性的定义需要根据实际需要进行设定,在此不做具体限定。
步骤S105,基于文件属性生成用于描述目标电子卷宗页的编目信息;
在本实施例中,文件属性为当前目标电子卷宗页的文件属性,多个目标电子卷宗页可以具有相同的文件属性,但需要对相同文件属性的目标电子卷宗页进行区分,在进行目标电子卷宗页进行区分时,基于语义分析,对当前目标电子卷宗页增加属于自己的文件属性描述,例如增加带标题、篇尾不构成完整的一句话,篇头不构成完整的一句话等,在此不做具体限定。
步骤S106,基于编目信息和预设编目规则对目标电子卷宗页进行编目。
针对步骤S106,基于编目信息将目标电子卷宗页划分为首页、尾页和多个中间页;基于语义分析确定多个中间页中的关联页和标识页;基于首页、尾页、关联页和标识页对目标电子卷宗页进行编目。
在本实施例中,首页和尾页具有标志性特征,例如具有明显的大标题、目录和结束语等。在查找中间页的关联页时,通过语义分析判断两页之间是否为完整的一句话,例如,中间页中的某一页的篇尾为“本次讲”,中间页中的某一页的篇头为“述内容属实”,则判定为当前两页为关联页,并按照语序将当前两页顺序排列。标识页为具有小题的中间页,例如,中间页得到某一页上写有“二、……”的内容,则判定当前页为标识页。其中,标识页也可以作为关联页,例如,中间页的某一页上写有“二、……”并且当前页的篇尾为“本次讲”,则当前页既是关联页又是标识页,并且关联页可以为多页。
在进行编目时,首先确定首页和尾页,之后查找既是关联页又是标识页的中间页,然后查找单独的标识页和关联页,将标识页按照标题数字的大小升序排列,然后将关联页按顺序排列,最后将既不是标识页又不是关联页的中间页通过语义分析插入至首页和尾页中间。
在步骤S106之后,识别编目信息中的关键字,将关键字与关键字数据库内预设关键字进行匹配;获取与关键字匹配的预设关键字的属性和存放数据库,将编目后的目标电子卷宗页存入存放数据库。
在本实施例中,关键字可以为类型、案号、审判员、陪审员、犯罪金额、法律依据、司法解释、判决结果等,在采集关键字时需要采集至少一个关键字,若采取多个关键字,则需要将关键字按照顺序进行排列,并且按照排列的顺序一次与关键字数据库中的预设关键字进行匹配,并根据预设关键字的属性确定存放数据库,将编目后的电子卷宗存入数据库。在对关键字进行排序时,具体的排序方式需要根据实际需求设定,在此不做具体限定。
在本实施例中,在将编目后的电子卷宗存入数据库时设置电子卷宗存放规则,电子卷宗的存放规则为,案件年份-案件代号-项目阶段号-机构代码-案件类型-负责部门-自动流水号,其中,自动流水号为六位数字,自动流水号在生成时,可以从最小六位数字中最小的一位000000开始逐步累加1,也可以从最大的一位999999开始逐步累减1,还可以是随机组合的数字,需要说明的是,自动流水号的生成包括但不限于上述生成方式,但生成的思想需要按照自动流水号不可重复的原则,具体的自动流水化的生成方式在此不做具体限定。
在本实施例中,在将编目后的电子卷宗存入数据库时,对编目后的电子卷宗进行加密,并设置案件查看等级。在对编目后的电子卷宗进行加密时,采用对称加密铭文,即对称加密电子卷宗的加密方式,并对对称加密的密钥进行非对称加密。
在设案件查看等级时,基于电子卷宗的案件类型和案件等级进行设置,案件类型为刑事案件的案件查看等级高于案件类型为民事案件的案件查看等级,案件等级与案件性质、案件涉及金额、案件涉及人员数量等有关,具体案件等级的划分在此不做具体限定。案件查看等级随案件类型和案件等级的升高而升高,案件查看等级越高对应的查看权限也随之增高,并且查看权限越高,可以查看的案件范围越广泛。
图2为申请实施例提供的一种电子卷宗自动编目装置200的结构框图。
如图2所示,电子卷宗自动编目装置200主要包括:
卷宗获取模块201,用于获取任意目标案件的待编目电子卷宗;
目标生成模块202,用于对待编目电子卷宗进行图像处理生成目标电子卷宗;
卷宗调整模块203,用于将目标电子卷宗按照预设样本模板进行调整,生成目标电子卷宗页;
属性识别模块204,用于识别目标电子卷宗页的文件属性;
信息生成模块205,用于基于文件属性生成用于描述目标电子卷宗页的编目信息;
卷宗编目模块206,用于基于编目信息和预设编目规则对目标电子卷宗页进行编目。
作为本实施例的一种可选实施方式,目标生成模块202具体用于判断待编目电子卷宗是否存在识别干扰;若存在识别干扰,则对待编目电子卷宗进行清洗,以消除识别干扰;将消除识别干扰的待编目电子卷宗作为目标电子卷宗;若不存在识别干扰,则将待编目电子卷宗作为目标电子卷宗。
作为本实施例的一种可选实施方式,卷宗调整模块203具体用于获取目标电子卷宗的格式;判断目标电子卷宗的格式是否与预设样本模板是否一致;若一致,则将目标电子卷宗作为目标电子卷宗页;若不一致,则将目标电子卷宗的格式调整至与预设样本模板的格式一致,将调整后的目标电子卷宗作为目标电子卷宗页。
作为本实施例的一种可选实施方式,属性识别模块204包括:
组合识别模块,用于识别目标电子卷宗页上的文字和图片组合;
文字分析模块,用于对文字进行语义分析,得到文字类型;
图片识别模块,用于对图片进行图片识别,得到图片类型;
属性确定模块,用于基于文字类型和图片类型的组合确定目标电子卷宗页的文件属性。
在本可选实施例中,属性确定模块具体用于判断文字类型和图片类型的组合与预设文字类型和图片类型的组合属性是否存在匹配项;若存在匹配项,则将匹配项的文件属性作为目标电子卷宗页的文件属性;若不存在匹配项,则基于文字内容类型和图片类型生成告警信息。
作为本实施例的一种可选实施方式,卷宗编目模块206具体用于基于编目信息将目标电子卷宗页划分为首页、尾页和多个中间页;基于语义分析确定多个中间页中的关联页和标识页;基于首页、尾页、关联页和标识页对目标电子卷宗页进行编目。
作为本实施例的一种可选实施方式,该电子卷宗自动编目装置200还包括:
关键字匹配模块,用于识别编目信息中的关键字,将关键字与关键字数据库内预设关键字进行匹配;
卷宗存放模块,用于获取与关键字匹配的预设关键字的属性和存放数据库,将编目后的目标电子卷宗页存入存放数据库。
在一个例子中,以上任一装置中的模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个专用集成电路(application specificintegratedcircuit,ASIC),或,一个或多个数字信号处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA),或这些集成电路形式中至少两种的组合。
再如,当装置中的模块可以通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,CPU)或其它可以调用程序的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图3为本申请实施例提供的电子设备300的结构框图。
如图3所示,电子设备300包括处理器301和存储器302,还可以进一步包括信息输入/信息输出(I/O)接口303、通信组件304中的一种或多种以及通信总线305。
其中,处理器301用于控制电子设备300的整体操作,以完成上述的电子卷宗自动编目方法的全部或部分步骤;存储器302用于存储各种类型的数据以支持在电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、只读存储器(Read-OnlyMemory,ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。
I/O接口303为处理器301和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件304用于电子设备300与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(NearField Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件104可以包括:Wi-Fi部件,蓝牙部件,NFC部件。
电子设备300可以被一个或多个应用专用集成电路 (Application SpecificIntegrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field ProgrammableGate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例给出的电子卷宗自动编目方法。
通信总线305可包括一通路,在上述组件之间传送信息。通信总线305可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA (ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。通信总线305可以分为地址总线、数据总线、控制总线等。
电子设备300可以包括但不限于移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,还可以为服务器等。
本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的电子卷宗自动编目方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器 (R ead-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种电子卷宗自动编目方法,其特征在于,包括:
获取目标案件的待编目电子卷宗;
对所述待编目电子卷宗进行图像处理生成目标电子卷宗;
将所述目标电子卷宗按照预设样本模板进行调整,生成目标电子卷宗页;
识别所述目标电子卷宗页的文件属性;
基于所述文件属性生成用于描述所述目标电子卷宗页的编目信息;
基于所述编目信息和预设编目规则对所述目标电子卷宗页进行编目。
2.根据权利要求1所述的方法,其特征在于,所述对所述待编目电子卷宗进行图像处理生成目标电子卷宗包括:
判断所述待编目电子卷宗是否存在识别干扰;
若存在所述识别干扰,则对所述待编目电子卷宗进行清洗,以消除所述识别干扰;
将消除所述识别干扰的所述待编目电子卷宗作为所述目标电子卷宗;
若不存在所述识别干扰,则将所述待编目电子卷宗作为所述目标电子卷宗。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述目标电子卷宗按照预设样本模板进行调整,生成目标电子卷宗页包括:
获取所述目标电子卷宗的格式;
判断所述目标电子卷宗的格式是否与预设样本模板是否一致;
若一致,则将所述目标电子卷宗作为所述目标电子卷宗页;
若不一致,则将所述目标电子卷宗的格式调整至与所述预设样本模板的格式一致,将调整后的目标电子卷宗作为所述目标电子卷宗页。
4.根据权利要求3所述的方法,其特征在于,所述识别所述目标电子卷宗页的文件属性包括:
识别所述目标电子卷宗页上的文字和图片组合;
对所述文字进行语义分析,得到文字类型;
对所述图片进行图片识别,得到图片类型;
基于所述文字类型和所述图片类型的组合确定所述目标电子卷宗页的文件属性。
5.根据权利要求4所述的方法,其特征在于,所述基于所述文字类型和所述图片类型的组合确定所述目标电子卷宗页的文件属性包括:
判断所述文字类型和所述图片类型的组合与预设文字类型和图片类型的组合属性是否存在匹配项;
若存在匹配项,则将所述匹配项的文件属性作为所述目标电子卷宗页的文件属性;
若不存在匹配项,则基于所述文字内容类型和图片类型生成告警信息。
6.根据权利要求5所述的方法,其特征在于,所述基于所述编目信息和预设编目规则对所述目标电子卷宗页进行编目包括:
基于所述编目信息将所述目标电子卷宗页划分为首页、尾页和多个中间页;
基于所述语义分析确定多个所述中间页中的关联页和标识页;
基于所述首页、所述尾页、所述关联页和所述标识页对所述目标电子卷宗页进行编目。
7.根据权利要求1所述的方法,其特征在于,在所述基于所述编目信息和预设编目规则对所述目标电子卷宗页进行编目之后,还包括:
识别所述编目信息中的关键字,将所述关键字与所述关键字数据库内预设关键字进行匹配;
获取与所述关键字匹配的预设关键字的属性和存放数据库,将编目后的所述目标电子卷宗页存入所述存放数据库。
8.一种电子卷宗自动编目装置,其特征在于,包括:
卷宗获取模块,用于获取任意目标案件的待编目电子卷宗;
目标生成模块,用于对所述待编目电子卷宗进行图像处理生成目标电子卷宗;
卷宗调整模块,用于将所述目标电子卷宗按照预设样本模板进行调整,生成目标电子卷宗页;
属性识别模块,用于识别所述目标电子卷宗页的文件属性;
信息生成模块,用于基于所述文件属性生成用于描述所述目标电子卷宗页的编目信息;
卷宗编目模块,用于基于所述编目信息和预设编目规则对所述目标电子卷宗页进行编目。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被所述处理器加载并执行如权利要求1至7中项一种所述的电子卷宗自动编目方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一项所述的电子卷宗自动编目方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210676151.3A CN115034193A (zh) | 2022-06-15 | 2022-06-15 | 电子卷宗自动编目方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210676151.3A CN115034193A (zh) | 2022-06-15 | 2022-06-15 | 电子卷宗自动编目方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115034193A true CN115034193A (zh) | 2022-09-09 |
Family
ID=83125772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210676151.3A Pending CN115034193A (zh) | 2022-06-15 | 2022-06-15 | 电子卷宗自动编目方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034193A (zh) |
-
2022
- 2022-06-15 CN CN202210676151.3A patent/CN115034193A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446816B (zh) | 人脸识别方法及装置 | |
US9626555B2 (en) | Content-based document image classification | |
AU2016402555B2 (en) | Content based search and retrieval of trademark images | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
CN111241389B (zh) | 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN102880726B (zh) | 一种图像过滤方法及系统 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN110765760B (zh) | 一种法律案件分配方法、装置、存储介质和服务器 | |
CN110837590B (zh) | 资讯推送方法、装置、计算机设备和存储介质 | |
CN104750791A (zh) | 一种图像检索方法及装置 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN113963147A (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
EP3301603A1 (en) | Improved search for data loss prevention | |
CN111177421A (zh) | 一种面向数字人文的电子邮件历史事件轴生成方法及装置 | |
CN112783825A (zh) | 数据归档方法、装置、计算机装置及存储介质 | |
CN115828307B (zh) | 应用于ocr的文本识别方法及ai系统 | |
CN109101630B (zh) | 一种应用程序搜索结果的生成方法、装置及设备 | |
CN115034193A (zh) | 电子卷宗自动编目方法、装置、设备及可读存储介质 | |
CN108664945B (zh) | 图像文本及形音义特征识别方法和装置 | |
CN111160445A (zh) | 投标文件相似度计算方法及装置 | |
CN114040012B (zh) | 一种信息查询推送方法、装置及计算机设备 | |
CN109189911A (zh) | 一种问答内容的搜索方法、装置和终端设备 | |
CN113592523B (zh) | 一种金融数据处理系统及方法 | |
CN111859100B (zh) | 一种检索意图转移识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |