CN113627139A - 企业申报表生成方法、装置、设备及存储介质 - Google Patents
企业申报表生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113627139A CN113627139A CN202110919534.4A CN202110919534A CN113627139A CN 113627139 A CN113627139 A CN 113627139A CN 202110919534 A CN202110919534 A CN 202110919534A CN 113627139 A CN113627139 A CN 113627139A
- Authority
- CN
- China
- Prior art keywords
- target
- information
- enterprise
- layer
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 159
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 35
- 238000006243 chemical reaction Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 68
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 208000025174 PANDAS Diseases 0.000 description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 3
- 240000004718 Panda Species 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及人工智能领域,公开了一种企业申报表生成方法、装置、设备及存储介质,用于提高企业申报表的生成效率。所述企业申报表生成方法包括:通过词向量层对项目申报指南进行向量转换,得到初始词向量;通过双向长短时记忆网络层对初始词向量进行特征提取,得到目标特征序列;通过条件随机场层对目标特征序列进行信息标注,得到目标填报信息;调用预置的词向量模型对目标填报信息进行信息匹配,得到目标数据;对目标数据进行标准化处理,得到目标信息表;基于预设的文件格式对目标信息表进行格式转换,得到目标企业申报表。此外,本发明还涉及区块链技术,目标企业申报表可存储于区块链节点中。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种企业申报表生成方法、装置、设备及存储介质。
背景技术
自然语言处理是计算机科学领域以及人工智能领域的一个重要的研究方向,它用于研究计算机处理、理解和运用人类语言,达到人与计算机之间进行有效通讯,自然语言处理包扩文本分析、信息抽取等众多研究方向。
目前政务项目中需要根据项目申报指南填写企业申报表,而传统的企业申报表需要根据项目申报指南并且查询企业自身信息来填写。现有方案是通过光学字符识别模型对项目申报指南文件进行文字识别,但是由于光学字符识别模型对项目申报指南文件中大量的文字信息、图片信息和表格信息的提取速度慢,需要经过多次处理才能得出需要填写的内容,因此企业申报表的生成效率低。
发明内容
本发明提供了一种企业申报表生成方法、装置、设备及存储介质,用于提高企业申报表的生成效率。
本发明第一方面提供了一种企业申报表生成方法,所述企业申报表生成方法包括:获取待处理的项目申报指南;将所述项目申报指南输入预置的信息提取模型中,所述信息提取模型包括:词向量层、双向长短期记忆网络层和条件随机场层;通过所述词向量层对所述项目申报指南进行向量转换,得到初始词向量;通过所述双向长短时记忆网络层对所述初始词向量进行特征提取,得到目标特征序列;通过所述条件随机场层对所述目标特征序列进行信息标注,得到目标填报信息;调用预置的词向量模型对所述目标填报信息进行信息匹配,得到目标数据;对所述目标数据进行标准化处理,得到目标信息表;基于预设的文件格式对所述目标信息表进行格式转换,得到目标企业申报表。
可选的,在本发明第一方面的第一种实现方式中,所述通过所述词向量层对所述项目申报指南进行向量转换,得到初始词向量,包括:通过所述词向量层对所述项目申报指南进行分词,得到所述项目申报指南对应的多个目标词汇;对所述多个目标词汇进行向量编码,得到初始词向量。
可选的,在本发明第一方面的第二种实现方式中,所述通过所述条件随机场层对所述目标特征序列进行信息标注,得到目标填报信息,包括:通过所述条件随机场层对所述目标特征序列进行句子级序列标注,得到目标句子级序列;基于所述目标句子级序列生成目标填报信息。
可选的,在本发明第一方面的第三种实现方式中,所述通过所述双向长短时记忆网络层对所述初始词向量进行特征提取,得到目标特征序列,包括:通过所述双向长短时记忆网络层中的正向长短时记忆网络对所述初始词向量进行特征提取,得到正向隐状态序列;通过所述双向长短时记忆网络层中的反向长短时记忆网络对所述初始词向量进行特征提取,得到反向隐状态序列;对所述正向隐状态序列和所述反向隐状态序列进行拼接,得到目标特征序列。
可选的,在本发明第一方面的第四种实现方式中,所述调用预置的词向量模型对所述目标填报信息进行信息匹配,得到目标数据,包括:通过所述词向量模型对所述目标填报信息进行运算处理,得到目标值;根据所述目标值对所述目标填报信息进行近义词匹配,得到目标近义词;根据预置的企业数据列名对所述目标近义词进行匹配,得到目标数据。
可选的,在本发明第一方面的第五种实现方式中,所述通过所述词向量模型对所述目标填报信息进行运算处理,得到目标值,包括:将所述目标填报信息输入所述词向量模型中,所述词向量模型包括输入层、隐藏层和输出层;通过所述输入层对所述目标填报信息进行向量编码,得到低维度向量;通过所述隐藏层对所述低维度向量进行特征抽象运算,得到抽象特征值;通过所述输出层对所述抽象特征值进行逻辑回归运算,得到目标值。
可选的,在本发明第一方面的第六种实现方式中,所述对所述目标数据进行标准化处理,得到目标信息表,包括:调用预置的数据分析模型对所述目标数据进行数据清洗,得到标准数据;对所述标准数据进行结构化处理,得到目标信息表。
本发明第二方面提供了一种企业申报表生成装置,所述企业申报表生成装置包括:获取模块,用于获取待处理的项目申报指南;信息提取模块,用于将所述项目申报指南输入预置的信息提取模型中,所述信息提取模型包括:词向量层、双向长短期记忆网络层和条件随机场层;向量转换模块,用于通过所述词向量层对所述项目申报指南进行向量转换,得到初始词向量;特征提取模块,用于通过所述双向长短时记忆网络层对所述初始词向量进行特征提取,得到目标特征序列;信息标注模块,用于通过所述条件随机场层对所述目标特征序列进行信息标注,得到目标填报信息;匹配模块,用于调用预置的词向量模型对所述目标填报信息进行信息匹配,得到目标数据;处理模块,用于对所述目标数据进行标准化处理,得到目标信息表;转换模块,用于基于预设的文件格式对所述目标信息表进行格式转换,得到目标企业申报表。
可选的,在本发明第二方面的第一种实现方式中,所述向量转换模块具体用于:通过所述词向量层对所述项目申报指南进行分词,得到所述项目申报指南对应的多个目标词汇;对所述多个目标词汇进行向量编码,得到初始词向量。
可选的,在本发明第二方面的第二种实现方式中,所述信息标注模块具体用于:通过所述条件随机场层对所述目标特征序列进行句子级序列标注,得到目标句子级序列;基于所述目标句子级序列生成目标填报信息。
可选的,在本发明第二方面的第三种实现方式中,所述特征提取模块具体用于:通过所述双向长短时记忆网络层中的正向长短时记忆网络对所述初始词向量进行特征提取,得到正向隐状态序列;通过所述双向长短时记忆网络层中的反向长短时记忆网络对所述初始词向量进行特征提取,得到反向隐状态序列;对所述正向隐状态序列和所述反向隐状态序列进行拼接,得到目标特征序列。
可选的,在本发明第二方面的第四种实现方式中,所述匹配模块包括:运算单元,用于通过所述词向量模型对所述目标填报信息进行运算处理,得到目标值;近义词匹配单元,用于根据所述目标值对所述目标填报信息进行近义词匹配,得到目标近义词;数据匹配单元,用于根据预置的企业数据列名对所述目标近义词进行匹配,得到目标数据。
可选的,在本发明第二方面的第五种实现方式中,所述运算单元具体用于:将所述目标填报信息输入所述词向量模型中,所述词向量模型包括输入层、隐藏层和输出层;通过所述输入层对所述目标填报信息进行向量编码,得到低维度向量;通过所述隐藏层对所述低维度向量进行特征抽象运算,得到抽象特征值;通过所述输出层对所述抽象特征值进行逻辑回归运算,得到目标值。
可选的,在本发明第二方面的第六种实现方式中,所述处理模块具体用于:调用预置的数据分析模型对所述目标数据进行数据清洗,得到标准数据;对所述标准数据进行结构化处理,得到目标信息表。
本发明第三方面提供了一种企业申报表生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述企业申报表生成设备执行上述的企业申报表生成方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的企业申报表生成方法。
本发明提供的技术方案中,通过预置的信息提取模型对项目申报指南进行申报信息提取,得到目标填报信息,通过信息提取模型可以有效提高申报信息提取的速度;然后通过预置的词向量模型对目标填报信息进行信息匹配,得到目标数据,词向量模型可以有效提高信息匹配的速率,从而加快目标数据的匹配;对目标数据进行标准化处理,得到目标信息表;基于预设的文件格式对目标信息表进行格式转换,得到目标企业申报表。本发明通过信息提取模型提高了申报信息提取的速度和词向量模型有效提高信息匹配的速率,其中,信息提取模型通过对项目申报指南进行特征提取,对大量的填报信息进行筛选,使填报信息的生成效率提高进而提高了企业申报表的生成效率。
附图说明
图1为本发明实施例中企业申报表生成方法的一个实施例示意图;
图2为本发明实施例中企业申报表生成方法的另一个实施例示意图;
图3为本发明实施例中企业申报表生成装置的一个实施例示意图;
图4为本发明实施例中企业申报表生成装置的另一个实施例示意图;
图5为本发明实施例中企业申报表生成设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种企业申报表生成方法、装置、设备及存储介质,用于提高企业申报表的生成效率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中企业申报表生成方法的第一个实施例包括:
101、获取待处理的项目申报指南;
可以理解的是,本发明的执行主体可以为企业申报表生成装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
具体的,服务器从预置的数据库中查询待处理的项目申报指南,其中,预置的数据库中包括多个项目申报指南,项目申报指南是政务项目中用于指导项目申报流程的文本数据。
102、将项目申报指南输入预置的信息提取模型中,信息提取模型包括:词向量层、双向长短期记忆网络层和条件随机场层;
具体的,服务器通过预置的信息提取模型对项目申报指南进行申报信息提取,其中,信息提取模型包括:词向量层、双向长短时记忆网络层和条件随机场层。其中,词向量层用于转换向量;双向长短时记忆网络层用于进行特征提取,条件随机场层用于进行信息标注。
103、通过词向量层对项目申报指南进行向量转换,得到初始词向量;
需要说明的是,服务器的词向量层中包括多个编码单元,通过词向量层中的多个编码单元将项目申报指南转换为向量,其中,每个编码单元都会输出一个目标特征值,最终得到多个编码单元对应的多个目标特征值,然后将多个目标特征值转换为向量,得到初始词向量。通过对项目申报指南进行向量转换,得到初始词向量,可以加快神经网络的识别速率。
104、通过双向长短时记忆网络层对初始词向量进行特征提取,得到目标特征序列;
其中,双向长短时记忆网络层包括正向长短时记忆网络和反向长短时记忆网络,正向长短时记忆网络包括多个LSTM单元,每个LSTM单元输出一个序列元素,根据序列元素输出正向隐状态序列,同理反向长短时记忆网络包括多个LSTM单元,每个LSTM单元输出一个序列元素,根据序列元素输出反向隐状态序列。
105、通过条件随机场层对目标特征序列进行信息标注,得到目标填报信息;
需要说明的是,条件随机场层用于对目标特征序列进行信息标注,信息标注可以按照不同侧层次或级别进行标注,本实施例中以句子级别进行信息标注,以每一个句子为最小单元对目标特征序列进行标记,得到目标句子级序列,从而依据目标句子级序列生成目标填报信息。
106、调用预置的词向量模型对目标填报信息进行信息匹配,得到目标数据;
具体的,服务器将目标填报信息转换成向量,服务器可以把目标填报信息对应的文本内容转换为向量空间中的向量,然后对向量进行运算处理,得到目标值,目标值用于指示文本语义上的相似度,最后根据目标值进行近义词匹配,从而得到匹配的目标数据。
107、对目标数据进行标准化处理,得到目标信息表;
具体的,服务器对目标数据进行标准化处理,得到目标信息表,其中,标准化处理具体包括:对目标数据进行数据清洗和结构化处理。
需要说明的是,服务器通过预置的数据分析模型对目标数据进行清洗,得到标准数据,然后服务器对标准数据进行结构化处理,生成目标信息表,预置的数据分析模型可以是pandas模型,pandas模型是分析结构化数据的工具集,pandas模型的基础是提供高性能的矩阵运算,用于数据挖掘和数据分析,同时也提供数据清洗功能。
108、基于预设的文件格式对目标信息表进行格式转换,得到目标企业申报表。
具体的,服务器基于预设的文件格式对目标信息表进行格式转换,得到目标企业申报表,其中,预设的文件格式例如:word格式,pdf格式,若选择word格式,则服务器通过预置的docx将目标信息表写入word文档中,得到word格式的目标企业申报表;若选择pdf格式,则服务器通过预置的reportlab生成pdf文件,得到pdf格式的目标企业申报表。
进一步地,服务器将目标企业申报表存储于区块链数据库中,具体此处不做限定。
本发明通过信息提取模型提高了申报信息提取的速度和词向量模型有效提高信息匹配的速率,其中,信息提取模型通过对项目申报指南进行特征提取,对大量的填报信息进行筛选,使填报信息的生成效率提高进而提高了企业申报表的生成效率。
请参阅图2,本发明实施例中企业申报表生成方法的第二个实施例包括:
201、获取待处理的项目申报指南;
本实施例中步骤201的具体实施方式与步骤101类似,此处不再赘述。
需要说明的是,服务器在获取待处理的项目申报指南之前,还需要对预置的信息提取模型进行模型训练,模型训练过程具体包括:首先服务器将多个带有标注信息的项目申报指南输入预置的训练模型进行申报信息提取,得到多个样本填报信息,其中,训练模型可以为双向长短时记忆模型,双向长短时记忆模型包括:词向量层、双向长短时记忆网络层和条件随机场层;服务器通过条件随机场层对句子特征进行序列标注,得到多个样本填报信息,服务器对多个样本填报信息和项目申报指南中的多个标注信息进行损失值计算,得到多个目标损失值,服务器根据多个目标损失值对训练模型的参数进行调整,直至损失值小于预置的损失值阈值,则服务器将调整后的训练模型作为信息提取模型。
202、将项目申报指南输入预置的信息提取模型中,信息提取模型包括:词向量层、双向长短期记忆网络层和条件随机场层;
本实施例中步骤202的具体实施方式与步骤102类似,此处不再赘述。
203、通过词向量层对项目申报指南进行向量转换,得到初始词向量;
具体的,服务器通过词向量层对项目申报指南进行分词,得到项目申报指南对应的多个目标词汇;服务器对多个目标词汇进行向量编码,得到初始词向量。
其中,服务器对项目申报指南进行分词的具体过程包括:服务器通过预置的维特比算法计算项目申报指南中的词概率,服务器选取词概率大的作为目标词汇,从而得到项目申报指南对应的多个目标词汇。服务器对多个目标词汇进行向量编码的具体过程包括:服务器分别获取多个目标词汇对应的编码值,得到每个目标词汇对应的编码值,服务器按照项目申报指南的文本顺序对每个目标词汇对应的编码值进行向量编码,得到初始词向量。
204、通过双向长短时记忆网络层对初始词向量进行特征提取,得到目标特征序列;
具体的,服务器通过双向长短时记忆网络层中的正向长短时记忆网络对初始词向量进行特征提取,得到正向隐状态序列;服务器通过双向长短时记忆网络层中的反向长短时记忆网络对初始词向量进行特征提取,得到反向隐状态序列;服务器对正向隐状态序列和反向隐状态序列进行拼接,得到目标特征序列。
需要说明的是,正向隐状态序列是通过正向长短时记忆网络的线性通道,捕获初始词向量每个正向维度上的最大特征值,正向隐状态序列为线性序列;反向隐状态序列是通过反向长短时记忆网络的线性通道,捕获初始词向量每个反向维度上的最大特征值,反向隐状态序列为线性序列。
其中,正向长短时记忆网络包括多个LSTM单元,每个LSTM单元输出一个序列元素,根据序列元素输出正向隐状态序列,同理反向长短时记忆网络包括多个LSTM单元,每个LSTM单元输出一个序列元素,根据序列元素输出反向隐状态序列,例如:当正向隐状态序列为[1,2,1],反向隐状态序列为[2,3,4]时,服务器对正向隐状态序列和反向隐状态序列进行拼接,得到目标特征序列为[1,2,1,2,3,4]。
205、通过条件随机场层对目标特征序列进行信息标注,得到目标填报信息;
具体的,服务器通过条件随机场层对目标特征序列进行句子级序列标注,得到目标句子级序列;服务器基于目标句子级序列生成目标填报信息。
其中,生成目标填报信息过程包括:服务器将目标句子级序列和预置的标准填报信息进行比对,得到待填报信息,对待填报信息进行标准化处理,得到目标填报信息。
206、通过词向量模型对目标填报信息进行运算处理,得到目标值;
具体的,服务器将目标填报信息输入词向量模型中,词向量模型包括输入层、隐藏层和输出层;服务器通过输入层对目标填报信息进行向量编码,得到低维度向量;通过隐藏层对低维度向量进行特征抽象运算,得到抽象特征值;服务器通过输出层对抽象特征值进行逻辑回归运算,得到目标值。
需要说明的是,词向量模型包括输入层、隐藏层和输出层,输入层:独热向量编码层(one-hot vector);隐藏层:没有激活函数,也就是线性的单元;输出层:维度跟输入层的维度一样,用的是逻辑回归。进一步地,服务器通过输入层对目标填报信息进行独热向量编码,得到低维度向量,低维度向量例如:[0,0,0,1,0,1,0,0];服务器通过隐藏层对低维度向量进行特征抽象运算,得到抽象特征值;服务器通过输出层对抽象特征值进行逻辑回归运算,得到目标值,其中,逻辑回归运算为softmax回归运算。
207、根据目标值对目标填报信息进行近义词匹配,得到目标近义词;
具体的,服务器通过词向量模型对目标填报信息进行计算,得到目标填报信息对应的目标值,服务器根据目标值对目标填报信息进行近义词匹配,得到目标近义词,服务器判断目标值是否超过预设目标值,预设目标值可以设置为0.7,当目标值大于或等于0.7时,服务器将目标值对应的近义词作为目标近义词。
208、根据预置的企业数据列名对目标近义词进行匹配,得到目标数据;
具体的,服务器选取目标值在预设目标值以上的近义词与企业库数据列名进行匹配,若匹配成功,则服务器获取该列名对应的数据作为目标数据。
需要说明的是,预置的企业数据列名包括:注册地、注册时间、营业额、组织形式等。服务器根据企业数据列名对目标近义词进行匹配,例如:当企业数据列名包括:注册地、注册时间、营业额及组织形式时,匹配得到的目标数据依次包括:A市、2021年1月1日、1000万元及法人企业。
209、对目标数据进行标准化处理,得到目标信息表;
210、基于预设的文件格式对目标信息表进行格式转换,得到目标企业申报表。
本实施例中步骤209-210的具体实施方式与步骤107-108类似,此处不再赘述。
进一步地,服务器将目标企业申报表存储于区块链数据库中,具体此处不做限定。
本发明通过信息提取模型提高了申报信息提取的速度和词向量模型有效提高信息匹配的速率,其中,信息提取模型通过对项目申报指南进行特征提取,对大量的填报信息进行筛选,使填报信息的生成效率提高进而提高了企业申报表的生成效率。
上面对本发明实施例中企业申报表生成方法进行了描述,下面对本发明实施例中企业申报表生成装置进行描述,请参阅图3,本发明实施例中企业申报表生成装置第一个实施例包括:
获取模块301,用于获取待处理的项目申报指南;
信息提取模块302,用于将所述项目申报指南输入预置的信息提取模型中,所述信息提取模型包括:词向量层、双向长短期记忆网络层和条件随机场层;
向量转换模块303,用于通过所述词向量层对所述项目申报指南进行向量转换,得到初始词向量;
特征提取模块304,用于通过所述双向长短时记忆网络层对所述初始词向量进行特征提取,得到目标特征序列;
信息标注模块305,用于通过所述条件随机场层对所述目标特征序列进行信息标注,得到目标填报信息;
匹配模块306,用于调用预置的词向量模型对所述目标填报信息进行信息匹配,得到目标数据;
处理模块307,用于对所述目标数据进行标准化处理,得到目标信息表;
转换模块308,用于基于预设的文件格式对所述目标信息表进行格式转换,得到目标企业申报表。
本发明通过信息提取模型提高了申报信息提取的速度和词向量模型有效提高信息匹配的速率,其中,信息提取模型通过对项目申报指南进行特征提取,对大量的填报信息进行筛选,使填报信息的生成效率提高进而提高了企业申报表的生成效率。
请参阅图4,本发明实施例中企业申报表生成装置第二个实施例包括:
获取模块301,用于获取待处理的项目申报指南;
信息提取模块302,用于将所述项目申报指南输入预置的信息提取模型中,所述信息提取模型包括:词向量层、双向长短期记忆网络层和条件随机场层;
向量转换模块303,用于通过所述词向量层对所述项目申报指南进行向量转换,得到初始词向量;
特征提取模块304,用于通过所述双向长短时记忆网络层对所述初始词向量进行特征提取,得到目标特征序列;
信息标注模块305,用于通过所述条件随机场层对所述目标特征序列进行信息标注,得到目标填报信息;
匹配模块306,用于调用预置的词向量模型对所述目标填报信息进行信息匹配,得到目标数据;
处理模块307,用于对所述目标数据进行标准化处理,得到目标信息表;
转换模块308,用于基于预设的文件格式对所述目标信息表进行格式转换,得到目标企业申报表。
可选的,向量转换模块303具体用于:
通过所述词向量层对所述项目申报指南进行分词,得到所述项目申报指南对应的多个目标词汇;对所述多个目标词汇进行向量编码,得到初始词向量。
可选的,信息标注模块305具体用于:
通过所述条件随机场层对所述目标特征序列进行句子级序列标注,得到目标句子级序列;基于所述目标句子级序列生成目标填报信息。
可选的,特征提取模块304具体用于:
通过所述双向长短时记忆网络层中的正向长短时记忆网络对所述初始词向量进行特征提取,得到正向隐状态序列;通过所述双向长短时记忆网络层中的反向长短时记忆网络对所述初始词向量进行特征提取,得到反向隐状态序列;对所述正向隐状态序列和所述反向隐状态序列进行拼接,得到目标特征序列。
可选的,匹配模块306包括:
运算单元3061,用于通过所述词向量模型对所述目标填报信息进行运算处理,得到目标值;
近义词匹配单元3062,用于根据所述目标值对所述目标填报信息进行近义词匹配,得到目标近义词;
数据匹配单元3063,用于根据预置的企业数据列名对所述目标近义词进行匹配,得到目标数据。
可选的,运算单元3061具体用于:
将所述目标填报信息输入所述词向量模型中,所述词向量模型包括输入层、隐藏层和输出层;通过所述输入层对所述目标填报信息进行向量编码,得到低维度向量;通过所述隐藏层对所述低维度向量进行特征抽象运算,得到抽象特征值;通过所述输出层对所述抽象特征值进行逻辑回归运算,得到目标值。
可选的,处理模块308具体用于:
调用预置的数据分析模型对所述目标数据进行数据清洗,得到标准数据;对所述标准数据进行结构化处理,得到目标信息表。
本发明通过信息提取模型提高了申报信息提取的速度和词向量模型有效提高信息匹配的速率,其中,信息提取模型通过对项目申报指南进行特征提取,对大量的填报信息进行筛选,使填报信息的生成效率提高进而提高了企业申报表的生成效率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的企业申报表生成装置进行详细描述,下面从硬件处理的角度对本发明实施例中企业申报表生成设备进行详细描述。
图5是本发明实施例提供的一种企业申报表生成设备的结构示意图,该企业申报表生成设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对企业申报表生成设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在企业申报表生成设备500上执行存储介质530中的一系列指令操作。
企业申报表生成设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的企业申报表生成设备结构并不构成对企业申报表生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种企业申报表生成设备,所述企业申报表生成设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述企业申报表生成方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述企业申报表生成方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种企业申报表生成方法,其特征在于,所述企业申报表生成方法包括:
获取待处理的项目申报指南;
将所述项目申报指南输入预置的信息提取模型中,所述信息提取模型包括:词向量层、双向长短期记忆网络层和条件随机场层;
通过所述词向量层对所述项目申报指南进行向量转换,得到初始词向量;
通过所述双向长短时记忆网络层对所述初始词向量进行特征提取,得到目标特征序列;
通过所述条件随机场层对所述目标特征序列进行信息标注,得到目标填报信息;
调用预置的词向量模型对所述目标填报信息进行信息匹配,得到目标数据;
对所述目标数据进行标准化处理,得到目标信息表;
基于预设的文件格式对所述目标信息表进行格式转换,得到目标企业申报表。
2.根据权利要求1所述的企业申报表生成方法,其特征在于,所述通过所述词向量层对所述项目申报指南进行向量转换,得到初始词向量,包括:
通过所述词向量层对所述项目申报指南进行分词,得到所述项目申报指南对应的多个目标词汇;
对所述多个目标词汇进行向量编码,得到初始词向量。
3.根据权利要求1所述的企业申报表生成方法,其特征在于,所述通过所述条件随机场层对所述目标特征序列进行信息标注,得到目标填报信息,包括:
通过所述条件随机场层对所述目标特征序列进行句子级序列标注,得到目标句子级序列;
基于所述目标句子级序列生成目标填报信息。
4.根据权利要求1所述的企业申报表生成方法,其特征在于,所述通过所述双向长短时记忆网络层对所述初始词向量进行特征提取,得到目标特征序列,包括:
通过所述双向长短时记忆网络层中的正向长短时记忆网络对所述初始词向量进行特征提取,得到正向隐状态序列;
通过所述双向长短时记忆网络层中的反向长短时记忆网络对所述初始词向量进行特征提取,得到反向隐状态序列;
对所述正向隐状态序列和所述反向隐状态序列进行拼接,得到目标特征序列。
5.根据权利要求1所述的企业申报表生成方法,其特征在于,所述调用预置的词向量模型对所述目标填报信息进行信息匹配,得到目标数据,包括:
通过所述词向量模型对所述目标填报信息进行运算处理,得到目标值;
根据所述目标值对所述目标填报信息进行近义词匹配,得到目标近义词;
根据预置的企业数据列名对所述目标近义词进行匹配,得到目标数据。
6.根据权利要求5所述的企业申报表生成方法,其特征在于,所述通过所述词向量模型对所述目标填报信息进行运算处理,得到目标值,包括:
将所述目标填报信息输入所述词向量模型中,所述词向量模型包括输入层、隐藏层和输出层;
通过所述输入层对所述目标填报信息进行向量编码,得到低维度向量;
通过所述隐藏层对所述低维度向量进行特征抽象运算,得到抽象特征值;
通过所述输出层对所述抽象特征值进行逻辑回归运算,得到目标值。
7.根据权利要求1-6中任一项所述的企业申报表生成方法,其特征在于,所述对所述目标数据进行标准化处理,得到目标信息表,包括:
调用预置的数据分析模型对所述目标数据进行数据清洗,得到标准数据;
对所述标准数据进行结构化处理,得到目标信息表。
8.一种企业申报表生成装置,其特征在于,所述企业申报表生成装置包括:
获取模块,用于获取待处理的项目申报指南;
信息提取模块,用于将所述项目申报指南输入预置的信息提取模型中,所述信息提取模型包括:词向量层、双向长短期记忆网络层和条件随机场层;
向量转换模块,用于通过所述词向量层对所述项目申报指南进行向量转换,得到初始词向量;
特征提取模块,用于通过所述双向长短时记忆网络层对所述初始词向量进行特征提取,得到目标特征序列;
信息标注模块,用于通过所述条件随机场层对所述目标特征序列进行信息标注,得到目标填报信息;
匹配模块,用于调用预置的词向量模型对所述目标填报信息进行信息匹配,得到目标数据;
处理模块,用于对所述目标数据进行标准化处理,得到目标信息表;
转换模块,用于基于预设的文件格式对所述目标信息表进行格式转换,得到目标企业申报表。
9.一种企业申报表生成设备,其特征在于,所述企业申报表生成设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述企业申报表生成设备执行如权利要求1-7中任一项所述的企业申报表生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的企业申报表生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110919534.4A CN113627139A (zh) | 2021-08-11 | 2021-08-11 | 企业申报表生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110919534.4A CN113627139A (zh) | 2021-08-11 | 2021-08-11 | 企业申报表生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627139A true CN113627139A (zh) | 2021-11-09 |
Family
ID=78384496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110919534.4A Pending CN113627139A (zh) | 2021-08-11 | 2021-08-11 | 企业申报表生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627139A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109388805A (zh) * | 2018-10-23 | 2019-02-26 | 重庆誉存大数据科技有限公司 | 一种基于实体抽取的工商变更分析方法 |
WO2020252919A1 (zh) * | 2019-06-20 | 2020-12-24 | 平安科技(深圳)有限公司 | 识别简历的方法及装置、计算机设备、存储介质 |
CN112632292A (zh) * | 2020-12-23 | 2021-04-09 | 深圳壹账通智能科技有限公司 | 业务关键词的提取方法、装置、设备及存储介质 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
-
2021
- 2021-08-11 CN CN202110919534.4A patent/CN113627139A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109388805A (zh) * | 2018-10-23 | 2019-02-26 | 重庆誉存大数据科技有限公司 | 一种基于实体抽取的工商变更分析方法 |
WO2020252919A1 (zh) * | 2019-06-20 | 2020-12-24 | 平安科技(深圳)有限公司 | 识别简历的方法及装置、计算机设备、存储介质 |
CN112632292A (zh) * | 2020-12-23 | 2021-04-09 | 深圳壹账通智能科技有限公司 | 业务关键词的提取方法、装置、设备及存储介质 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151177B2 (en) | Search method and apparatus based on artificial intelligence | |
US10606949B2 (en) | Artificial intelligence based method and apparatus for checking text | |
CN107273503B (zh) | 用于生成同语言平行文本的方法和装置 | |
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
US20180329886A1 (en) | Artificial intelligence based method and apparatus for generating information | |
US20200250379A1 (en) | Method and apparatus for textual semantic encoding | |
KR102316063B1 (ko) | 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체 | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
CN111177532A (zh) | 一种垂直搜索方法、装置、计算机系统及可读存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112711950A (zh) | 地址信息抽取方法、装置、设备及存储介质 | |
CN108205524B (zh) | 文本数据处理方法和装置 | |
US20220139386A1 (en) | System and method for chinese punctuation restoration using sub-character information | |
CN111191028A (zh) | 样本标注方法、装置、计算机设备和存储介质 | |
CN113569833A (zh) | 基于文本文档的文字识别方法、装置、设备及存储介质 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN111597807B (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN117235546B (zh) | 多版本文件比对方法、装置、系统及存储介质 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN116796758A (zh) | 对话交互方法、对话交互装置、设备及存储介质 | |
CN113627139A (zh) | 企业申报表生成方法、装置、设备及存储介质 | |
CN115730603A (zh) | 基于人工智能的信息提取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |