CN110795561A

CN110795561A - 一种电子卷宗材料类型自动识别系统及其自主学习方法

Info

Publication number: CN110795561A
Application number: CN201911015179.7A
Authority: CN
Inventors: 付阳; 赵岳; 贺敏; 张学来; 张云仙; 鲍宁
Original assignee: BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-14
Anticipated expiration: 2039-10-24
Also published as: CN110795561B

Abstract

本发明提供一种电子卷宗材料类型自动识别系统及其自主学习方法，在电子卷宗自动识别系统进行材料自动分类编目时，当出现一些新的电子卷宗材料未被识别出类型，或者材料类型识别错误的情况，用户会手动修改系统标识出的当前材料的标签名称，进行重命名，系统会根据用户的修改记录行为，自动学习并生成新增材料类型的逻辑规则，同时自主提取出材料的标题，通过标题与客户修改后的标签名称的短文本相似比较，判断客户录入的标签名称是否和标题存在强关联性，确保正确的标签名称匹配规则。本发明能根据用户的操作记录主动学习，提升识别准确性，实现了对新材料类型实时支持，同时降低了开发、运维人员的学习成本和沟通成本，提高了运维效率。

Description

一种电子卷宗材料类型自动识别系统及其自主学习方法

技术领域

本申请涉及信息处理技术领域，尤其是涉及一种电子卷宗材料类型自动识别系统及其自主学习方法。

背景技术

在司法行业里，经常需要使用电子卷宗材料类型自动识别系统来识别电子卷宗中各种材料的类型。电子卷宗是指法院审批一个案件涉及的所有材料的汇总，包括封皮、封底、卷宗目录、判决书、传票、询问笔录等。一般以一个案件为单位形成一个卷宗，每个案件包含很多材料。本发明的材料是对卷宗里所有文件的统称，具体指一张张图片、一份份pdf、word文档等。为了方便管理，通常需要将各种材料进行归类，比如民事判决书、刑事判决书标题不一样，但却是同一类型的材料，材料类型的标签名称叫“判决书”。现有的电子卷宗的材料类型自动识别系统，是预先建立好电子卷宗的材料类型数据库，将待识别的材料与材料类型规则库中的规则进行比对，从而将电子卷宗的材料根据比对结果进行分类。

现有的对已生成的规则数据库进行升级的步骤为：

用户发现无法识别的卷宗材料或文档时，需要将文档或卷宗材料的资料汇总给开发人员，或者开发人员去现场查看进行配置，然后再整合对数据库进行升级，重新发版。严重影响了对新材料类型支持的响应时间，需要卷宗材料的传递、手动新增规则、发布版本以及现场升级等一系列过程。

所以现有技术的缺点主要体现在：

1.在遇到新增材料类型时，对新增材料类型的识别支持响应非常慢。

2.当用户和现场人员认为系统识别出的材料类型不正确或者不合理时，无法修改现有已经配置好的材料类型数据库，影响客户的实际使用效果。

3.用户手动对一些材料类型的标签名称进行命名或者修改错误标签名称时，这个编辑记录没有被利用来提升识别的准确性。

发明内容

有鉴于此，为了解决上述技术问题，本发明提供一种电子卷宗材料类型自动识别系统及其自主学习方法，可以解决现有技术中当遇到新的材料类型时，支持响应缓慢，以及手动新增材料类型的标签名称后，系统无法自动记录，导致同一类错误会反复发生的问题。

本发明的技术方案如下：

第一方面，本发明提供一种电子卷宗材料类型自动识别系统的自主学习方法，包括以下步骤：

步骤S1、出现自动识别系统无法识别的材料类型或材料类型识别错误；

步骤S2、用户录入对应的材料类型标签名称，或对识别错误的标签名称进行修改；

步骤S3、自动识别系统对用户录入的标签名称进行处理，保留处理后的初步标签名称，并形成标签匹配规则；

步骤S4、自动识别系统保存标签匹配规则，后续利用标签匹配规则对同一类型的电子卷宗材料进行识别。

进一步的，所述的步骤S3中的处理过程是：自动识别系统使用自然语言处理技术对用户录入的标签名称分词，分词后使用文本分析方法去掉定语词、助词、代词，生成初步标签名称。

优选的，在所述步骤S3和步骤S4之间，还包括对初步标签名称进行验证的步骤，如果判定初步标签名称和电子卷宗材料的标题相似度高，则形成正确的标签匹配规则并保存，如果判定初步标签名称和电子卷宗材料的标题相似度低，不形成标签匹配规则。

进一步的，所述的对初步标签名称进行验证的步骤包括：自动识别系统识别对应的电子卷宗材料的标题，再将初步标签名称与所述标题利用短文本相似算法进行比对，比对结果大于设定的阈值时，判定初步标签名称和电子卷宗材料的标题相似度高，形成正确的标签匹配规则；比对结果不大于设定的阈值时，判定初步标签名称和电子卷宗材料标题相似度低，不形成标签匹配规则。

进一步的，所述的正确的标签匹配规则是指形成正确的标签名称的逻辑。

进一步的，所述的比对，是指计算初步标签名称和所述标题的余弦相似值。

进一步的，所述的余弦相似值的计算公式为：

其中：

A表示向量A；

B表示向量B；

T表示做转置操作；

A_i表示向量A的各分量；

B_i表示向量B的各分量；

表示A_i和B_i(i＝1…n)的乘积求和；

表示表示对A_i的平方求和，再开平方；

表示表示对B_i的平方求和，再开平方；

||A||表示A的模；

||B||表示B的模。

第二方面，本发明提供一种电子卷宗材料类型自动识别系统，包括：

录入模块：用于给用户录入材料类型的标签名称；

识别模块：对用户录入的标签名称进行处理形成初步标签名称，并形成匹配规则，将匹配规则加入到材料类型规则库中；

存储模块：用于保存材料类型规则库。

优选的，还包括验证模块，用于验证初步标签名称是否正确，最终将正确的匹配规则加入到材料类型规则库中。

进一步的，所述的正确的匹配规则是指形成正确的初步标签名称的逻辑。

本发明的有益效果在于：

1.对用户来说，自动识别系统可以根据用户的操作记录主动学习，提升识别准确性，对新增材料的支持做到了实时响应，避免客户反复遇到相同的材料类型无法识别的情况，哪怕是刚刚遇见过的新材料很快就能支持识别，提高了用户体验。

2.降低了运维人员的学习成本和沟通成本，提高了运维效率。

3.通过多个校验模型主动学习，去掉了无效的属性，如助词，张三的这种词语，并通过标题识别和短文本相似，过滤掉了无用的日志记录，保证自动学习的有效性。

附图说明

图1为现有技术中出现新的材料类型时的处理流程示意图；

图2为本发明的实施例一的自主学习的流程示意图；

图3为本发明的实施例二的自主学习的流程示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

实施例一

本发明的电子卷宗材料类型自动识别系统的自主学习方法，当出现一些新的电子卷宗材料未被识别出类型，或者材料类型识别错误的情况，用户会手动修改卷宗的材料类型的标签名称，进行重命名，系统会根据用户的修改记录，自动学习新增材料类型的逻辑规则。下一次其他用户使用时，系统就会自动根据学习到的新规则自动识别材料类型。

本实施例的的电子卷宗材料类型自动识别系统的自主学习方法如图2所示，具体步骤如下：

步骤S1、出现自动识别系统无法识别的电子卷宗的材料类型或材料类型识别错误；

步骤S2、用户录入新的材料类型的标签名称，或对识别错误的材料类型的标签名称进行修改；

比如有一份名称为“民事裁定书20190129391293.jpg”的电子卷宗材料，自动识别系统错误地将该材料的类型识别为“判决书”，用户发现后，手动修改为“裁定书”。或者出现了一份名称为“张三的授权委托书”，由于系统的材料类型规则库中没有这种材料的匹配规则，所以无法识别该材料的类型，用户会根据自己的判断对这份材料手动录入标签名称。

步骤S3、自动识别系统对用户录入的标签名称进行处理，保留处理后的初步标签名称，并形成新的匹配规则；

处理的过程主要包括：自动识别系统首先使用自然语言处理技术对客户录入的标签名称进行分词，分词后使用文本分析方法替换掉人名、地点等相关定语词，然后再替换掉“的”、“地”、“你”、“我”等助词、代词，保留处理后的初步认可的初步标签名称。

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向,现代NLP算法是基于机器学习。通过对标注的语料库的学习，拥有文本分类、中文分词、词性标注、实体识别、关键词抽取、句法依存、相似文本分析等关键技术和能力。

通过实体识别可以识别出人名如张三，识别出地名如北京市海淀区等实体信息。还可以通过词性标注，识别出词的词性名词、动词、代词、助词。识别出助词的、地、得；代词“你”、“我”、“他”、“它”等，还可以实现代词和实体人名的指代消解，将代词“你”和实体“张三”相关联。

比如用户录入“张三的授权委托书”，经自动识别系统处理后，去掉人名“张三”，再去掉助词“的”，最后形成初步标签名称“授权委托书”，作为这一类电子卷宗材料的类型标签名称。

用户录入的标签名称只对当前电子卷宗材料有效，自动识别系统会根据匹配规则识别后续的电子卷宗材料，比如当前材料实际是一个身份证，姓名是张三。那么识别的标签是“身份证”。这时客户为了卷宗浏览好分辨，修改成“张三的身份证”(识别系统是支持用户对已给出的标签进行自定义修改的)。但是后续李四的身份证再识别时，仍然能够识别成“身份证”，不会识别成“张三的身份证”。

步骤S4、自动识别系统保存新的匹配规则，用于下次识别同一类电子卷宗材料的类型。

比如当下次出现“李四的授权委托书”这一电子卷宗材料时，自动识别系统会自动识别该材料类型为“授权委托书”。

与现有技术相比，本发明的包含了自动学习功能的自动识别系统，其工作效率有了很明显的提示，提升效果对比如下：

实施例二

与实施例一相比，本发明增加了对初步标签名称进行验证的步骤，该步骤位于步骤S3和步骤S4之间。避免了用户输入错误的标签名称，系统学习了“错误”的知识后，对后续同类电子卷宗材料也识别出错误的类型。

如图3所示，在提取出初步标签名称后，自动识别系统会自动识别对应的电子卷宗材料的首页OCR文本，提取OCR的文本的前几行，提取出电子卷宗材料的标题。比如提取前6行文本，这些文本中可能存在该电子卷宗材料的标题，如“(公民或代理人专用)”、“xxx律师事务所”、”律师授权委托函”等等。通过标题识别模型去依次匹配，通过阈值可以去掉这些干扰行，找到“律师授权委托函”这一电子卷宗材料的标题。

再将提取的初步标签名称“授权委托书”和提取的标题“律师授权委托函”利用短文本相似算法进行比对。短文本相似比较的基本思想是获取两个短文本的表示向量，计算两个向量的余弦相似度，当得到的值越大时，表示两个短文本越相似。

首先对两个词语进行分词，分词后的每个分词具有原子性，不可再分。得到每个分词的词向量，然后对词向量求余弦，公式如下：

A表示向量A；

B表示向量B；

T表示做转置操作；

A_i表示向量A的各分量；

B_i表示向量B的各分量XXX；

表示A_i和B_i(i＝1…n)的乘积求和；

表示表示对A_i的平方求和，再开平方；

表示表示对B_i的平方求和，再开平方；

||A||表示A的模；

||B||表示B的模。

通过计算初步标签名称和提取的标题的余弦相似值，并将余弦相似值与设定的阈值进行比较，大于设定的阈值，则判定初步标签名称和电子卷宗材料的标题相似度高，初步标签名称为正确的标签名称，形成正确的标签名称的逻辑才能成为正确的标签规则，如果不大于阈值，则认为是弱相关，初步标签名称和电子卷宗材料标题相似度低，不能形成的标签规则。正确的标签规则才会被保留，错误的标签规则会被去掉。比如是执行申请书，被用户编辑成了授权委托书，这种错误的匹配规则不会被保留，自动识别系统会把正确的规则保留下来，保存到材料类型规则库中，用于后续的电子卷宗识别。

用户录入的错误的标签名称只对当前这份材料的结果有效，并不影响后续识别的结果。比如当前材料实际是一个身份证，姓名是张三。那么识别的标签名称是“身份证”。客户不小心将标签名称错改成了“传票”，那么自动识别系统处理后提取的初步标签名称也是“传票”。通过对提取的标题和初步标签比较后弱相关，不会生成新规则。后续李四的身份证再识别时，仍然识别成“身份证”，不会识别成“传票”。

本发明中所述的匹配规则就是根据电子卷宗材料的标题或用户录入的标签名称生成系统认为正确的最终的标签名称的逻辑。

实施例三

本实施例提供一种电子卷宗材料类型的自动识别系统，包括录入模块、识别模块和存储模块；

录入模块：用于给用户录入材料类型的标签名称；

识别模块：对用户录入的标签名称进行处理形成初步标签名称，并形成新的匹配规则加入到材料类型规则库中；

存储模块：用于保存材料类型规则库。

实施例四

优选的，在实施例三的基础上，还包括一个验证模块，用于验证初步标签名称是否正确，最终将正确的匹配规则加入到材料类型规则库中。正确的匹配规则是指形成正确的初步标签名称的逻辑。

以上仅为说明本发明的实施方式，并不用于限制本发明，对于本领域的技术人员来说，凡在本发明的精神和原则之内，不经过创造性劳动所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电子卷宗材料类型自动识别系统的自主学习方法，其特征在于：包括以下步骤：

步骤S2、用户录入对应材料类型的标签名称，或对识别错误的标签名称进行修改；

2.根据权利要求1所述的一种电子卷宗材料类型自动识别系统的自主学习方法，其特征在于：所述的步骤S3中的处理过程是：自动识别系统使用自然语言处理技术对用户录入的标签名称分词，分词后使用文本分析方法去掉定语词、助词、代词，生成初步标签名称。

3.根据权利要求1所述的一种电子卷宗材料类型自动识别系统的自主学习方法，其特征在于：在所述步骤S3和步骤S4之间，还包括对初步标签名称进行验证的步骤，如果判定初步标签名称和电子卷宗材料的标题相似度高，则形成正确的标签匹配规则并保存，如果判定初步标签名称和电子卷宗材料的标题相似度低，不形成标签匹配规则。

4.根据权利要求3所述的一种电子卷宗材料类型自动识别系统的自主学习方法，其特征在于：所述的对初步标签名称进行验证的步骤包括：自动识别系统识别对应的电子卷宗材料的标题，再将初步标签名称与所述标题利用短文本相似算法进行比对，比对结果大于设定的阈值时，判定初步标签名称和电子卷宗材料的标题相似度高，形成正确的标签匹配规则；比对结果不大于设定的阈值时，判定初步标签名称和电子卷宗材料标题相似度低，不形成标签匹配规则。

5.根据权利要求4所述的一种电子卷宗材料类型自动识别系统的自主学习方法，其特征在于：所述的正确的标签匹配规则是指形成正确的标签名称的逻辑。

6.根据权利要求4所述的一种电子卷宗材料类型自动识别系统的自主学习方法，其特征在于：所述的比对，是指计算初步标签名称和所述标题的余弦相似值。

7.根据权利要求4所述的一种电子卷宗材料类型自动识别系统的自主学习方法，其特征在于：所述的余弦相似值的计算公式为：