CN117592951B

CN117592951B - 一种基于张量的多维印章数据处理方法

Info

Publication number: CN117592951B
Application number: CN202410079693.1A
Authority: CN
Inventors: 张宏俊; 李鹏; 王汝传; 徐鹤; 杨书鑫; 史德胜; 叶昊
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-03-22
Anticipated expiration: 2044-01-19
Also published as: CN117592951A

Abstract

本发明属于张量计算技术领域，公开了一种基于张量的多维印章数据处理方法，包括：步骤S10、获取合同样本文件，自动检测合同样本文件中所需信息材料；步骤S20、抽取合同样本文件中所需信息材料；步骤S30、根据步骤S20获取的所需信息材料建立张量模型；步骤S40、基于张量模型利用增量张量链分解算法对合同进行印章处理以及分类；步骤S50、人工核对。本发明通过HSV算法和机械分词算法提高了合同录入效率；经济效益提升预算；同时，本发明采用了增量张量链分解算法有效提高印章的管理以及使用效率。

Description

一种基于张量的多维印章数据处理方法

技术领域

本发明属于张量计算技术领域，具体为一种基于张量的多维印章数据处理方法。

背景技术

公司日常工作开展中，特别是集团级全国性公司，通常会通过印章管理系统进行签章，上传盖章内容；考虑全国并发的问题处理，采集到的大量的图片、影像、文字等多源异构的数据，需对数据进行去冗余、去噪声等清洗操作；而多源异构数据处理通常采用RGB模型，但是R、G、B 三个分量是高度相关的，如果一个颜色的某一个分量发生了一定程度的改变，那么该颜色很有可能会随之改变；而人眼对于常见的红绿蓝三色的敏感程度是不一样的，因此RGB颜色空间的均匀性比较差，且两种颜色之间的知觉差异色差，不能表示为该颜色空间中两点间的距离；因此在处理过程中存在多源异构数据的并发、并行化等问题，多源异构数据的去冗余、去噪效果并不好。

近年来，张量方法已经被应用到图摘要方法中，能够产生更精确的带权图摘要。张量是一个多维的数据存储形式，数据的维度被称为张量的阶。由于真实的张量数据往往具有高维稀疏的特性，所以我们通常要使用张量分解的方法来保留原始信息、降低计算复杂度、减少数据损失。非增量张量串分解(Nonincremental Tensor Train Decomposition，NTTD)是最常用的传统方法，NTTD算法首先恢复原始张量的张量链分解结果，然后将新的张量加到恢复的原始张量中，得到更新的张量，再对得到的更新张量进行张量链分解；但是NTTD算法无法在分布式环境下高效地进行张量多聚类，且同时保证聚类质量和系统的扩展性与容错性。

发明内容

为解决上述问题，本发明提供了一种基于张量的多维印章数据处理方法，采用了HSV算法和机械分词算法来提高合同录入效率，解决并发、并行化、多源异构数据的去冗余、去重复和降噪等问题，提高在数据挖掘方面的价值，同时利用增量张量链分解算法可提高并解决能够提高印章数据的处理效率。

本发明所述的一种基于张量的多维印章数据处理方法，包括以下步骤：

S10、检测合同样本文件中所需信息材料；

S20、利用HSV算法抽取合同样本文件中所需信息材料，并利用机械分词算法对信息材料进行分类；

S30、根据S20获取的所需信息材料建立本次签章特征张量模型，具体为：

利用高阶计数值分解方法将信息材料中人员特征、物品特征和关系特征分解为一个核心张量G和N个伴随矩阵U，其分解形式为：

，

其中X，1≤X≤N，为原始张量；对得出的原始张量进行张量链分解得出结果X_N；

S40、基于张量模型利用增量张量链分解算法对合同进行印章处理以及分类；

S50、人工核对。

进一步的，所述S10具体为：

获取大量的合同样本文件，批量输入待处理合同文件，利用newELU_DARKnet网络模型在待处理合同文件中逐页识别并搜索业务所需信息材料；其中，所述信息材料包括但不仅限于合同甲乙方、合作内容以及成果交付方式等合同正文关键信息、签章区域及潜在法律风险。

其中对合同正文关键信息检测时，是对其重复率高的词汇检测，步骤为：

S111、通过硬件自带的摄像头进行OCR识别，将其内容转换成word，以便后续步骤进行关键信息检索定位；

S121、将转换成的word输入计词数程序；

S122、对及词数程序进行排序，寻找出其中重复率前5的词汇，加入关键词序列。

进一步的，所述newELU_DARKnet网络模型相较于传统模型采用改进ELU函数作为激活函数，如下式所示，池化操作采用随机池化，以便应对具有不同尺寸的输入特征图：

，

其中，t为输入特征值；为自适应系数，根据使用者对平滑度的需求取值；为该ELU输出，用于网络模型对输入特征的筛减。

进一步的，所述S20具体包括：

S21、利用HSV算法对印章的红色区域进行计算、降噪、抽取操作，得到完整的印章信息；

S22、将检测出的词汇进行计算抽取处理，利用机械分词算法根据人员特征、物品特征、关系特征进行分类。

进一步的，所述S20中抽取过程具体包括：

S201、设定红色阈值区间、黑色阈值区间以及白色阈值区间，利用HSV算法以及红色阈值区间抽取印章红色区域，利用HSV算法以及黑色阈值区间抽取检测出的词汇的黑色区域，所述红色区域和黑色区域的面积合为S1；

S202、利用HSV算法以及白色阈值区间抽取噪声区域，并将所述噪声区域的RGB值调整为（255,255,255），即白色阈值区间，计算所述噪声区域的面积为S2；

S203、利用所述S1和S2进行IOU判定，抽取所述红色区域和黑色区域的面积area：

，

若计算成功则提取出area，若计算失败则重复S201-S203。

进一步的，所述S40具体为：

S41、获取新增合同，根据S20和S30对新增合同建立新增张量Y，对新增张量分解，得到张量链分解结果Y_N；

S42、根据原有张量链分解结果X_N和Y_N，计算出补零张量和补零张量的张量链结果X_NN和Y_NN；

S43、根据S42得出的补零张量链结果X_NN和Y_NN，求取X_NN和Y_NN之和的张量链分解结果Z_NN；

S44、对Z_NN的张量核进行正交和压缩，获取合同分类结果；

S45、根据S44获取的合同分类结果进行印章。

本发明的有益效果为：本发明通过HSV算法和机械分词算法提高了合同录入效率、经济效益；同时，本发明采用了增量张量链分解算法（ITTD），在面向多维数据的业务情况时，时间复杂度比传统方法更简单，所消耗的总时间更少，可有效提高印章管理效率。

附图说明

图1为本发明所述方法的流程图；

图2为S20抽取合同样本文件中所需信息材料流程图；

图3为S40利用张量模型对合同进行印章处理以及分类流程图；

图4为张量链增量分解示意图；

图5为本发明所述方法与传统NTTD方法在运行时间和存储空间对比示意图；

图6为激活函数作用位置示意图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

如图1所示，本发明所述的一种基于张量的多维印章数据处理方法，包括以下步骤：

S10、获取合同样本文件，利用newELU_DARKnet网络模型逐页检测所述合同样本中所需信息材料；如图6所示，所述newELU_DARKnet采用改进ELU函数作为激活函数；池化操作采用随机池化，以便应对具有不同尺寸的输入特征图：

，

得到各输入特征图所得激活函数值的集合向量/>。

S20、抽取合同样本文件中所需信息材料，具体如图2所示：

S21、利用HSV算法对印章的红色区域进行计算、降噪、抽取操作；

S20中计算和抽取过程具体包括：

S202、利用HSV算法以及白色阈值区间抽取噪声区域，并将所述噪声区域，并将所述噪声区域的RGB值调整为（255,255,255），计算所述噪声区域的面积为S2；

S203、利用所述S1和S2进行IOU判定，抽取所述红色区域和黑色区域的area：

。

S30、根据步骤S20获取的所需信息材料建立张量模型，具体为：

利用高阶计数值分解方法将人员特征、物品特征和关系特征分解为一个核心张量G和N个伴随矩阵U，其分解形式为：

，

其中，为原始张量；对得出的原始张量进行张量链分解得出X_N。

S40、利用张量模型对合同进行印章处理以及分类；如图3所示，具体为：

S43、根据S42得出的补零张量链结果X_NN和Y_NN，求取X_NN和Y_NN之和的张量链分解结果Z_NN；补零操作以及张量求和操作如图4所示；

S44、对Z_NN的张量核进行正交和压缩，获取合同分类结果；

S45、根据S44获取的合同分类结果进行印章。

S50、人工核对。

如图5所示，本发明采用增量张量链分解算法（ITTD）与传统NTTD方法在运行时间和存储空间对比，其中，图5中的(a)为ITTD与NTTD的运行时间对比示意图，图5中的(b)为ITTD与NTTD的近似误差对比示意图；从图5中可知，本发明所述的方法可有效提高印章的管理以及使用效率。

如表1所示，本发明通过HSV算法和机械分词算法提高了合同录入效率；

表1

。

本发明所用的增量张量链分解算法（ITTD），其根据实际需要对得到的更新张量的张量核进行正交和压缩操作，其时间复杂度为，对比NTTD的时间复杂度/>；可知，ITTD算法的时间TITTD主要消耗在新张量的张量链分解以及张量链的正交性和压缩上；更新张量的TT秩≥原张量的TT秩，即r '≥r，r为原张量的TT秩，r '为更新张量的TT秩；而且，新张量的最大维数≤原张量的最大维数，即I'≤I，I 为原张量的最大维数，I '为新张量的最大维数；因此，当张量数量N比较大时，本发明所提出的ITTD算法的时间复杂度显然会更简单，所消耗的总dd时间也会更少，可有效提高印章的管理以及使用效率。

以下结合实例对本发明所述方法进行说明。

根据某集团及其下辖子公司某年办公用印相关各类数据的统计分析，2022年全国参与投标约9.5万次，每次来回差旅费约200元，全年收入合同约34万本，支出2.5万本，合计36.5万本，当年建设费用约996万元，每年运维费用约50万元。

（1）物联网（实体印章）效率提升量化分析：

1）节约差旅成本：按照来回打印城市每次平均200元计算（按照各省的成本测算），节约9.5万次*200元=1900万元；

2）释放人天：1个人员出差人天，1个办公室监管盖章过程人天，人员出差按照1人天次计算，办公室监控盖章按照0.5人天次计算，合计每次1.5人天次，各省合计9.5万次。释放人天9.5万次*1.5=14.25万人天。

（2）物联网（电子印章）效率提升量化分析：

1）效率提升：定稿后线下双方签章大约花费5天，合计节约工时5*8*36.5=1460小时；

2）电子印章节约纸张等打印耗材：合同平均每份30页，四份合计120页，每张纸打印成本0.1元，每份快递成本20元，合计（20+120*0.1）*36.5万=1168万元。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于张量的多维印章数据处理方法，其特征在于，所述方法包括：

S10、检测合同样本文件中所需信息材料；

S20、利用HSV算法抽取合同样本文件中所需信息材料，并利用机械分词算法对信息材料进行分类；具体为：

S21、利用HSV算法对印章的红色区域进行计算、降噪、抽取操作，得到完整的印章信息；其中具体步骤包括：

S211、确定印章上的红色区域，生成图片，将其转换区域到HSV空间；

S212、颜色阈值来选择HSV颜色空间中的红色，使用颜色选择生成的二进制掩模，将印章的红色区域从图像中分离出来，创建一个只包含印章红色部分的图像；

S213、对分离出的红色区域进行降噪操作，以去除小的噪点或细节；

S214、提取印章的有用信息，包括形状、轮廓、大小；

S22、将检测出的词汇进行计算抽取处理，利用机械分词算法根据人员特征、物品特征、关系特征进行分类；

其中，S20中抽取过程具体包括：

S203、利用所述S1和S2进行IOU判定，抽取所述红色区域和黑色区域的面积：

，

若计算成功则提取出area，若计算失败则重复S201-S203；

，

S40、基于张量模型利用增量张量链分解算法对合同进行印章处理以及分类；具体为：

S41、获取新增合同，根据S20和S30对新增合同建立成新增张量Y，对新增张量分解，得到张量链分解结果Y_N；

S44、对Z_NN的张量核进行正交和压缩，获取合同分类结果；

S45、根据S44获取的合同分类结果进行印章；

S50、人工核对。

2.根据权利要求1所述的一种基于张量的多维印章数据处理方法，其特征在于，S10具体为：

批量输入待处理合同文件，利用newELU_DARKnet网络模型在待处理合同文件中逐页识别并搜索业务所需信息材料；

其中，所述信息材料包括合同正文关键信息、签章区域及潜在法律风险。

3.根据权利要求2所述的一种基于张量的多维印章数据处理方法，其特征在于，所述newELU_DARKnet网络模型采用改进ELU函数作为激活函数，如下式所示：

，

其中，t为输入特征值，为自适应系数。