CN114116989B

CN114116989B - 一种基于ocr识别的格式化文档生成方法及系统

Info

Publication number: CN114116989B
Application number: CN202210105172.XA
Authority: CN
Inventors: 苗苏望; 蓝建敏; 池穆霖; 申鑫; 张旭君
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-04-15
Anticipated expiration: 2042-01-28
Also published as: CN114116989A

Abstract

本公开提供了一种基于OCR识别的格式化文档生成方法及系统，使用OCR技术将多个纸质文件扫描并识别成多个字符串；使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合；对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量；在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量；对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系；根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中，生成得到格式化文档。

Description

一种基于OCR识别的格式化文档生成方法及系统

技术领域

本发明属于数据处理领域，具体涉及一种基于OCR识别的格式化文档生成方法及系统。

背景技术

格式化文档生成是使用模板对通过信息抽取得到的关键信息进行再加工得到符合一定格式的文档的技术。OCR识别技术有利于信息抽取得到的关键信息的处理过程，通过OCR对纸质文件的批量化并行式扫描，可以大规模地获取文本信息。当前，现有的文本自动生成高度依赖于深度神经网络模型，深度神经网络随着层数的增加对数据规模的要求也不断提高。在文本生成任务中，训练集中若不同类别数据量比例失衡过大，则会出现过拟合现象，严重影响生成文本的质量。况且，数据集的搜集往往耗费巨大的成本，增加工程实施的难度。在申请号为CN201910973900.7的专利文献中提供了一种文档生成方法、装置、终端设备及介质，尽管可以在本地终端设备上通过对文本信息进行处理，实现了文档的自动生成并节省了用户编写文档的时间，但是输入效率较低，仍不足以应对大批量自动化的格式化的文档生成。

发明内容

本发明的目的在于提出一种基于OCR识别的格式化文档生成方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

本发明提供了一种基于OCR识别的格式化文档生成方法及系统，使用OCR技术将多个纸质文件扫描并识别成多个字符串；使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合；对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量；在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量；对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系；根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中，生成得到格式化文档。

为了实现上述目的，根据本发明的一方面，提供一种基于OCR识别的格式化文档生成方法，所述方法包括以下步骤：

S100，使用OCR技术将多个纸质文件扫描并识别成多个字符串；

S200，使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合；

S300，对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量；

S400，在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量；

S500，对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系；

S600，根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中，生成得到格式化文档。

进一步地，在S100中，使用OCR技术将多个纸质文件扫描并识别成多个字符串的方法为：取多个不同的纸质文件，纸质文件的表面印刷有文字，对每个纸质文件使用OCR技术识别出纸质文件的表面印刷的文字，并将每个纸质文的识别出来的文字作为一个字符串，由此，分别从各个纸质文件得到各个字符串。

进一步地，在S200中，使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合的方法为：

使用中文分词算法，分别对每一个字符串进行分词处理并将分词得到的各个分词组成的数组作为一个字符串数组，由此将各个字符串处理为对应的各个字符串数组，把各个字符串数组组成的集合作为分词数组集合。

进一步地，在S300中，对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量的方法为：

对中文知识图谱中的数据，按照知识图谱的三元组的形式，一个三元组为三个字符串，将中文知识图谱中的数据以三元组的形式进行保存，将保存得到的各个三元组所组成的数据集作为三元组数据集；

利用知识图谱嵌入算法使用三元组数据集作为训练数据集，得到各个三元组的嵌入向量，每个三元组的嵌入向量由三个维度数量相同的向量组成，并将各个三元组的嵌入向量的集合作为三元组嵌入向量集。

进一步地，在S400中，在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量的方法为：

使用ELMo中文预训练模型作为获得嵌入向量的预训练模型；

分别将每一个字符串数组输入到ELMo中文预训练模型中，ELMo中文预训练模型输出该个字符串数组中各个字符串的嵌入向量，将各个字符串的嵌入向量组成的数组作为该个字符串数组对应的一个分词向量数组，由此得到各个字符串数组对应的分词向量数组，并将各个字符串数组对应的分词向量数组所组成的集合作为分词向量数组集合；

将所有的字符串数组所组成的集合记作字符串数组集合，字符串数组集合记作Aset，Aset中元素的数量为n，Aset中元素的序号为i，i∈[1,n]，Aset中元素的序号为i的字符串数组记为Aset(i)，Aset(i)中元素的数量为n(i)，Aset(i)中元素的序号为j，j∈[1, n(i)]，Aset[i(j)]表示Aset(i)中序号为j的元素，Aset[i(1)] 表示在Aset(i)中序号为1的元素；

字符串数组集合中的各字符串数组与分词向量数组集合中的各分词向量数组相互对应，字符串数组集合的字符串数组中的字符串与分词向量数组集合的分词向量数组中的分词向量相互对应；

字符串数组集合中元素的数量与分词向量数组集合中元素的数量相同皆为n，字符串数组集合中元素的序号与分词向量数组集合中元素的序号相同皆为i，记分词向量数组集合为Bset，Bset中序号为i的元素为Bset(i)，Bset(i)与Aset(i)相互对应，Bset(i)中元素的数量同为n(i)，Bset(i)中元素的序号同样为j，Bset[i(j)]表示Bset(i)中序号为j的元素，Bset[i(1)] 表示在Bset(i)中序号为1的元素，Bset[i(j)]与Aset[i(j)]相互对应，Bset[i(j)]为Aset[i(j)]经过ELMo中文预训练模型输出的嵌入向量；

在ELMo中文预训练模型输出的嵌入向量中，其维度的数量为k，其维度的序号为v，v∈[1,k]；

Bset[i(j)]中序号为v的维度的数值记作Bset[i(j)]v；

定义区分度为表示一个向量与若干个向量之间的区分的程度的数值；

得到多个关系组合向量的具体步骤包括：

S401，设置集合Buset以表示关系组合向量的集合，集合Buset初始值为空；选取Bset中各元素Bset(i)；

S402，对Bset(i)中的各元素进行如下S402-1至S402-5的操作：

S402-1，设置变量i(j)表示Bset(i)中的各元素的序号；

S402-2，分别计算各个 Bset[i(j)]的区分度，定义函数Gap()为计算i(j)元素的区分度的函数，Gap(Bset[i(j)])即为Bset[i(j)]的区分度，Gap(Bset[i(j)])的计算方法为：

，

其中函数exp为以自然常数e为底的指数函数，由此，得到Bset[i(j)]的区分度；

S402-3，把Bset(i)中的各个元素Bset[i(j)]，按照Bset[i(j)]对应的Gap(Bset[i(j)])的数值从小到大的顺序进行排序，排序得到的各个元素Bset[i(j)]的序列作为序列Blist(i)；

S402-4，在序列Blist(i)中，将序列Blist(i)中的前u个元素筛选出来作为序列Blist(i)u，其中，u的数值的计算方法为：

计算Blist(i)的筛选阈值，定义筛选阈值为对序列Blist(i)中的元素进行筛选的阈值，记pit(i)为 Blist(i)的筛选阈值，pit(i)的计算公式为，

其中，函数avg()为对序列或集合或数组中的元素的数值求取算术平均值的函数,函数Avg()为对由若干个向量组成的序列或集合或数组中的各元素先求取各元素中各维度数值的算术平均数进而求取各元素中各维度数值的算术平均数的中位数的函数；

对序列Blist(i)中的各个元素Bset[i(j)]，分别判断各元素是否满足第一约束条件即(avg(Bset[i(j)])/Avg(Blist(i)) )>pit(i), 序列Blist(i)中满足第一约束条件的元素的个数作为u的数值，由此得到的序列Blist(i)u即为关系组合向量；此处的有益效果为，在字符串序列中将语义信息量偏低的字符串自动排除，将其中语义信息量较大的字符串自动保留，避免了预设的阈值，实现了对字符串序列的高速自动筛选；

S402-5，将序列Blist(i)u加入集合Buset中，作为集合Buset中序号为i的元素；

S403，输出集合Buset，集合Buset即为多个关系组合向量的集合；

由此，得到多个关系组合向量；计算关系组合向量的有益效果为，在大规模的字符串数据中以高速度及高并行度对各个字符串进行筛选，自动筛选出其中关联度较大的字符串，实现了对字符串的高速度及高并行处理。

进一步地，在S500中，对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系的方法为：

记由各个关系组合向量组成的集合为集合Buset，每个关系组合向量与一个字符串数组相对应，集合Buset中的每一个元素为一个由若干个的维度数量为k1且维度序号为v1的嵌入向量组成的数组，v1∈[1,k1]，记集合Buset中元素的数量为n1，集合Buset中元素的序号记为i1，i1∈[1,n1]，集合Buset中序号为i1的元素记为Buset(i1)，Buset(i1)中向量的数量为bn(i1)，Buset(i1)中向量的序号为bi(i1)，bi(i1)∈[1, bn(i1)]，Buset(i1)中序号为bi(i1)的向量为Buset[bi(i1)]，Buset[bi(i1)]中序号为v1的维度的数值为Buset[bi(i1)]v1；

记由各个三元组的嵌入向量组成的集合为集合Guset，每个三元组的嵌入向量由3个维度数量为k2且维度序号为v2的向量组成，v2∈[1,k2]，记集合Guset中元素的数量为n2，集合Guset中元素的序号记为i2，i2∈[1,n2]，集合Guset中序号为i2的元素记为Guset(i2)，

Guset(i2)中向量的数量为gn(i2)，Guset(i2)中向量的序号为gi(i2)，gi(i2)∈[1, gn(i2)]，Guset(i2)中序号为gi(i2)的向量为Guset[gi(i2)]，Guset[gi(i2)]中序号为v2的维度的数值为Guset[gi(i2)]v2；

函数Hp()为对若干个向量作处理的函数，Hp(Buset(i1))表示对Buset(i1)中的向量作处理，Hp(Guset(i2))表示对Guset(i2)中的向量作处理，

Hp(Buset(i1))的计算公式为：

Hp(Guset(i2))的计算公式为：

以此建立投射表，投射表为一个n1行n2列的表格，记投射表为Tab，将Tab存储于数据库中，表Tab中行的序号亦为i1，Tab中列的序号亦为i2，Tab(i1,)表示Tab中序号为i1的行的元素，Tab(,i2)表示Tab中序号为i2的列的元素，Tab(i1,i2)表示Tab中行序号为i1列序号为i2的元素，Tab(i1,i2)的数值的计算公式为：

Tab(i1,i2)=cos(π*Hp(Buset(i1))*Hp(Guset(i2))),

根据投射表，在关系组合向量与三元组的嵌入向量之间建立映射关系具体为：

Tab(i1,)与Buset(i1)对应的字符串数组相互对应，对Tab(i1,)行中的各个元素Tab(i1,i2)，分别对各个元素Tab(i1,i2)计算其特征值f(i1,i2)，特征值f(i1,i2)的具体数值为，

exp为以自然常数e为底的指数函数，选取Tab(i1,)行中的各个元素Tab(i1,i2)中的特征值数值最大的元素并记数值最大的元素的列的序号为i2`，i2`属于[1,n2]，则在与Buset(i1)对应的字符串数组和序号为i2`的三元组的嵌入向量所对应的三元组之间建立映射关系，由此得到关系组合向量对应的三元组，将建立映射关系存储于数据库中；建立映射关系的有益效果为，并行式地在字符串分词与三元组之间建立索引，通过索引得到字符串在三元组中的映射关系，以此高效查询得到对应的三元组将其填充入格式化的模板中。

进一步地，在S600中，根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中，生成得到格式化文档的方法为：

模板为公务文书的格式模板的文本，模板中包含需要填充文字进去的部分，输入若干个关系组合向量，根据投射表以及映射关系，将关系组合向量对应的三元组中的三个字符串相拼接，并将相拼接后的字符串填充进模板中，将模板通过计算机的输出设备进行输出。

本发明还提供了一种基于OCR识别的格式化文档生成系统，所述一种基于OCR识别的格式化文档生成系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述一种基于OCR识别的格式化文档生成方法中的步骤以此控制格式化文档生成，所述一种基于OCR识别的格式化文档生成系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群，所述处理器执行所述计算机程序运行在以下系统的单元中：

文字识别单元，用于使用OCR技术将多个纸质文件扫描并识别成多个字符串；

分词预处理单元，用于使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合；

知识嵌入单元，用于对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量；

关系组合单元，用于在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量；

映射建立单元，用于对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系；

文本生成单元，用于根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中，生成得到格式化文档。

本发明的有益效果为：本发明提供了一种基于OCR识别的格式化文档生成方法及系统，使用OCR技术将多个纸质文件扫描并识别成多个字符串；使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合；对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量；在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量；对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系；根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中生成得到格式化文档，实现了根据OCR输入的字符串信息自动映射到知识图谱三元组快速批量化生成格式化文档。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本发明的上述以及其他特征将更加明显，本发明附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种基于OCR识别的格式化文档生成方法的流程图；

图2所示为一种基于OCR识别的格式化文档生成系统的系统结构图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

如图1所示为根据本发明的一种基于OCR识别的格式化文档生成方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种基于OCR识别的格式化文档生成方法及系统。

本发明提出一种基于OCR识别的格式化文档生成方法，所述方法具体包括以下步骤：

S100，使用OCR技术将多个纸质文件扫描并识别成多个字符串；

使用HanLP分词算法，分别对每一个字符串进行分词处理并将分词得到的各个分词组成的数组作为一个字符串数组，由此将各个字符串处理为对应的各个字符串数组，把各个字符串数组组成的集合作为分词数组集合。

使用ownthink开源的规模为1.4亿的中文知识图谱，中文知识图谱以CSV数据集的形式存储，CSV数据集可在Excel中以表格的形式打开其中每一行为一条数据，CSV数据集中中每一条数据作为一个三元组，一个三元组由三个字符串组成（例如：['红色食品', '主要食用功效', '预防感冒']是其中一个三元组，三元组由'红色食品', '中文名',及'红色食品'这三个字符串组成，字符串可为中文的词语或短语），对中文知识图谱中的数据，按照知识图谱的三元组的形式，一个三元组为三个字符串，将中文知识图谱中的数据以三元组的形式进行保存，将保存得到的各个三元组所组成的数据集作为三元组数据集；

利用知识图谱嵌入算法（知识图谱嵌入算法包括 TransE、TransH、TransR、TransD中、参考文献 Wang Q ,Mao Z ,Wang B , et al. Knowledge Graph Embedding: ASurvey of Approaches and Applications[J]. IEEE Transactions on Knowledge &Data Engineering, 2017, 29(12):2724-2743中任意一种知识图谱嵌入算法）使用三元组数据集作为训练数据集，得到各个三元组的嵌入向量，每个三元组的嵌入向量由三个维度数量相同的向量组成，并将各个三元组的嵌入向量的集合作为三元组嵌入向量集。

使用ELMo中文预训练模型作为获得嵌入向量的预训练模型；

在分词数组集合中，分别将每一个字符串数组输入到ELMo中文预训练模型中，ELMo中文预训练模型输出该个字符串数组中各个字符串的嵌入向量，将各个字符串的嵌入向量组成的数组作为该个字符串数组对应的一个分词向量数组，由此得到各个字符串数组对应的分词向量数组，并将各个字符串数组对应的分词向量数组所组成的集合作为分词向量数组集合；

将所有的字符串数组所组成的集合记作字符串数组集合，例如：

['红色食品', '中文名', '食品']，

['红色食品', '是否含防腐剂', '否']，

['红色食品', '主要食用功效', '预防感冒']，

['红色食品', '适宜人群', '全部人群']，

上述为4个三元组，每个三元组即为一个由三个字符串组成的字符串数组，若当前已有的4个三元组即为三元组的全集，则集合{['红色食品', '中文名', '食品']，['红色食品', '是否含防腐剂', '否']，['红色食品', '主要食用功效', '预防感冒']，['红色食品', '适宜人群', '全部人群']}即为所有的字符串数组所组成的集合；

字符串数组集合记作Aset，Aset中元素的数量为n，Aset中元素的序号为i，i∈[1,n]，Aset中元素的序号为i的字符串数组记为Aset(i)，Aset(i)中元素的数量为n(i)，Aset(i)中元素的序号为j，j∈[1, n(i)]，Aset[i(j)]表示Aset(i)中序号为j的元素，i(j)∈[1, n(i)]，Aset[i(1)] 表示在Aset(i)中序号为1的元素；

Bset[i(j)]中序号为v的维度的数值记作Bset[i(j)]v；

得到多个关系组合向量的具体步骤包括：

S402，对Bset(i)中的各元素进行如下S402-1至S402-5的操作：

S402-1，设置变量i(j)表示Bset(i)中的各元素的序号；

，

对序列Blist(i)中的各个元素Bset[i(j)]，分别判断各元素是否满足第一约束条件即(Bset[i(j)]/avg(Blist(i)) )>pit(i), 序列Blist(i)中满足第一约束条件的元素的个数作为u的数值，由此得到的序列Blist(i)u即为关系组合向量；

由此，得到多个关系组合向量。

记由各个关系组合向量组成的集合为集合Buset，每个关系组合向量与一个字符串数组相对应，集合Buset中的每个元素由若干个的维度数量为k1且维度序号为v1的嵌入向量组成，v1∈[1,k1]，记集合Buset中元素的数量为n1，集合Buset中元素的序号记为i1，i1∈[1,n1]，集合Buset中序号为i1的元素记为Buset(i1)，Buset(i1)中向量的数量为bn(i1)，Buset(i1)中向量的序号为bi(i1)，bi(i1)∈[1, bn(i1)]，Buset(i1)中序号为bi(i1)的向量为Buset[bi(i1)]，Buset[bi(i1)]中序号为v1的维度的数值为Buset[bi(i1)]v1；（例如：['红色食品', '主要食用功效', '预防感冒']由'红色食品', '中文名',及'红色食品'这若干个个字符串组成，'红色食品'的嵌入向量记为V1, '中文名'的嵌入向量记为V2,'红色食品'的嵌入向量记为V3，则数组[V1,V2,V3]为由若干个的维度数量为k1且维度序号为v1的嵌入向量组成）；

Hp(Buset(i1))的计算公式为：

Hp(Guset(i2))的计算公式为：

Tab(i1,i2)=cos(π*Hp(Buset(i1))*Hp(Guset(i2)))，

exp为以自然常数e为底的指数函数，选取Tab(i1,)行中的各个元素Tab(i1,i2)中的特征值数值最大的元素并记数值最大的元素的列的序号为i2`，i2`属于[1,n2]，则在与Buset(i1)对应的字符串数组和序号为i2`的三元组的嵌入向量所对应的三元组之间建立映射关系，由此得到关系组合向量对应的三元组，将建立映射关系存储于数据库中。

所述一种基于OCR识别的格式化文档生成系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于OCR识别的格式化文档生成方法实施例中的步骤以此控制格式化文档生成，所述一种基于OCR识别的格式化文档生成系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群。

本发明的实施例提供的一种基于OCR识别的格式化文档生成系统，如图2所示，该实施例的一种基于OCR识别的格式化文档生成系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于OCR识别的格式化文档生成方法实施例中的步骤，所述处理器执行所述计算机程序运行在以下系统的单元中：

所述一种基于OCR识别的格式化文档生成系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中。所述一种基于OCR识别的格式化文档生成系统包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于OCR识别的格式化文档生成方法及系统的示例，并不构成对一种基于OCR识别的格式化文档生成方法及系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于OCR识别的格式化文档生成系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于OCR识别的格式化文档生成系统的控制中心，利用各种接口和线路连接整个一种基于OCR识别的格式化文档生成系统的各个分区域。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于OCR识别的格式化文档生成方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本发明的预定范围。此外，上文以发明人可预见的实施例对本发明进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。

Claims

1.一种基于OCR识别的格式化文档生成方法，其特征在于，所述方法包括以下步骤：

S100，使用OCR技术将多个纸质文件扫描并识别成多个字符串；

S600，根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中，生成得到格式化文档；

其中，在S400中，在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量的方法为：

使用ELMo中文预训练模型作为获得嵌入向量的预训练模型；

字符串数组集合中元素的数量与分词向量数组集合中元素的数量相同皆为n，字符串数组集合中元素的序号与分词向量数组集合中元素的序号相同皆为i，记分词向量数组集合为Bset，Bset中序号为i的元素为Bset(i)，Bset(i)与Aset(i)相互对应，Bset(i)中元素的数量同为n(i)，Bset(i)中元素的序号同样为j，Bset[i(j)]表示Bset(i)中序号为j的元素，Bset[i(j)]与Aset[i(j)]相互对应，Bset[i(j)]为Aset[i(j)]经过ELMo中文预训练模型输出的嵌入向量；

Bset[i(j)]中序号为v的维度的数值记作Bset[i(j)]v；

得到多个关系组合向量的具体步骤包括：

S402，对Bset(i)中的各元素进行如下S402-1至S402-5的操作：

S402-1，设置变量i(j)表示Bset(i)中的各元素的序号；

S402-2，分别计算各个 Bset[i(j)]与其在Bset(i)中除Bset[i(j)]外的其他元素的区分度，定义函数Gap()为计算i(j)元素的区分度的函数，Gap(Bset[i(j)])即为Bset[i(j)]的区分度，Gap(Bset[i(j)])的计算方法为：

，

其中，函数avg()为对序列或集合或数组中的元素的数值求取算术平均值的函数, 函数Avg()为对由若干个向量组成的序列或集合或数组中的各元素先求取各元素中各维度数值的算术平均数进而求取各元素中各维度数值的算术平均数的中位数的函数；

对序列Blist(i)中的各个元素Bset[i(j)]，分别判断各元素是否满足第一约束条件即(avg(Bset[i(j)])/Avg(Blist(i)) )>pit(i), 序列Blist(i)中满足第一约束条件的元素的个数作为u的数值，由此得到的序列Blist(i)u即为关系组合向量；

由此，得到多个关系组合向量。

2.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法，其特征在于，在S100中，使用OCR技术将多个纸质文件扫描并识别成多个字符串的方法为：

取多个不同的纸质文件，纸质文件的表面印刷有文字，对每个纸质文件使用OCR技术识别出纸质文件的表面印刷的文字，并将每个纸质文的识别出来的文字作为一个字符串，由此，分别从各个纸质文件得到各个字符串。

3.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法，其特征在于，在S200中，使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合的方法为：

4.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法，其特征在于，在S300中，对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量的方法为：

对中文知识图谱中的数据，按照知识图谱的三元组的形式，一个三元组为三个字符串，将中文知识图谱中的数据以三元组的形式进行保存，将保存得到的三元组所组成的数据集作为三元组数据集；

5.根据权利要求4所述的一种基于OCR识别的格式化文档生成方法，其特征在于，在S500中，对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系的方法为：

Guset(i2)中向量的数量为gn(i2)，Guset(i2)中向量的序号为gi(i2)，gi(i2)∈[1,gn(i2)]，Guset(i2)中序号为gi(i2)的向量为Guset[gi(i2)]，Guset[gi(i2)]中序号为v2的维度的数值为Guset[gi(i2)]v2；

函数Hp()为对若干个向量作处理的函数，Hp(Buset(i1))表示对Buset(i1)中的向量作处理，Hp(Guset(i2))表示对Guset(i2)中的向量作处理；

Hp(Buset(i1))的计算公式为：

Hp(Guset(i2))的计算公式为：

Tab(i1,i2)=cos(π*Hp(Buset(i1))*Hp(Guset(i2))),

Tab(i1,)与Buset(i1)对应的字符串数组相互对应，对Tab(i1,)行中的各个元素Tab(i1,i2)，分别对各个元素Tab(i1,i2)计算其特征值f(i1,i2)，特征值f(i1,i2)的具体数值为：

6.根据权利要求5所述的一种基于OCR识别的格式化文档生成方法，其特征在于，在S600中，根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中，生成得到格式化文档的方法为：

7.一种基于OCR识别的格式化文档生成系统，其特征在于，所述一种基于OCR识别的格式化文档生成系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1中的一种基于OCR识别的格式化文档生成方法中的步骤，所述一种基于OCR识别的格式化文档生成系统运行于桌上型计算机、笔记本、掌上电脑或云端数据中心计算设备中。