CN114168715A - 生成目标数据集的方法、装置、设备及存储介质 - Google Patents
生成目标数据集的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114168715A CN114168715A CN202210125906.0A CN202210125906A CN114168715A CN 114168715 A CN114168715 A CN 114168715A CN 202210125906 A CN202210125906 A CN 202210125906A CN 114168715 A CN114168715 A CN 114168715A
- Authority
- CN
- China
- Prior art keywords
- variable
- file
- key
- data set
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种生成目标数据集的方法、装置、设备及存储介质,所述方法包括以下步骤:将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量;基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量;基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集;基于所述变量数据集,进行关联查询并发送给用户。采用本申请,能够大幅度提升从文献中提取关键信息的效率。
Description
技术领域
本申请涉及调研文献技术领域,主要涉及了一种生成目标数据集的方法、装置、设备及存储介质。
背景技术
目前,人们对文献的关键信息愈发重视,越来越多的用户在文献中提取关键信息,搜集文献有效信息时,人工逐篇阅读大量的文献,在阅读每篇文献的时候,用户需要主动判断以提取所需要的关键信息。
现有技术中,需要用户阅读完文献,并且手动整理文献中的关键信息,这种人工从文献中提取关键信息的方法效率低下。
发明内容
本申请的一个目的在于提供了一种生成目标数据集的方法、装置、设备及存储介质,其优势在于,从文献中智能提取关键信息,大幅度提升分析效率。
为实现上述目的,第一方面,本申请实施例提供一种生成目标数据集的方法,其中包括:
将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量;
基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量;
基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集;
基于所述变量数据集,进行关联查询并发送给用户。
可以理解,将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量,对所述第一关键变量进行修正,得到第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集,进行关联查询并发送给用户,能够大幅度提升从文献中提取关键信息的效率。
在一个可能的示例中,所述将文献文件格式转换为文本格式信息,包括以下步骤:
将所述文献文件格式转换为图像格式文件;
基于所述图像格式文件进行图像调整,得到第一处理文件;
基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件;
基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件;
基于第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息。
可以理解,通过将文献文件格式转换为文本格式信息,能够优化文献信息提取效率。
在一个可能的示例中,所述基于所述图像格式文件进行图像调整,得到第一处理文件,包括以下步骤:
基于图像几何处理方法对所述图像格式文件的部分区域进行图像旋转;
将所述图像格式文件的文字分割成单个文字,针对倾斜的文字进行倾斜校正;
将所述单个文字图像规整到相同尺寸。
可以理解,通过对所述图像格式文件进行图像调整,能够优化图像识别的效率。
在一个可能的示例中,所述基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件,包括以下步骤:
基于第一处理文件,通过光学字符识别(OCR技术),进行特征提取及图像文字识别。
可以理解,通过光学字符识别(OCR技术),进行特征提取及图像文字识别,能够优化特征提取效率。
在一个可能的示例中,所述基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件,包括以下步骤:
基于第二处理文件,通过自然语言处理的中文分词工具和英文分词工具过滤无用的标签及特殊符号,并通过词频-逆向文件频率(TF-IDF)算法识别文字的关键信息,构建分类器,不断对分类器进行训练。
可以理解,通过自然语言处理的中文分词工具和英文分词工具过滤无用的标签及特殊符号,并通过词频-逆向文件频率(TF-IDF)算法识别文字的关键信息,构建分类器,不断对分类器进行训练,能够提升识别文字关键信息的效率。
在一个可能的示例中,所述基于所述第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息,包括以下步骤:
基于第三处理文件,对识别文字与其可能的相似候选字群进行前后比对,获取最匹配逻辑的词,并转换为文本格式。
可以理解,对识别文字与其可能的相似候选字群进行前后比对,获取最匹配逻辑的词,并转换为文本格式,能够提升转换为文本格式信息的效率。
在一个可能的示例中,所述基于所述文本格式信息,获取第一关键变量,包括以下步骤:
通过自然语言处理(NLP)的命名实体识别(NER),进行指定位置前后预设数量字符的变量抓取,生成第一关键变量。
可以理解,通过进行指定位置前后预设数量字符的变量抓取,生成第一关键变量,优化了第一关键变量的生成效率。
在一个可能的示例中,所述基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量包括以下步骤:
基于所述第一关键变量和预设映射变量仓库使用双向长短时记忆模型(Bi-LSTM),对初始变量进行修正,得到所述第二关键变量,同时修正后的所述第二关键变量发送给所述预设映射变量仓库,对所述预设映射变量仓库进行动态修改和完善。
可以理解,通过对所述第一关键变量进行修正,以及对所述预设映射变量仓库进行动态修改和完善,能够提升变量修正效率。
在一个可能的示例中,所述基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集包括以下步骤:
基于预设研究数据库匹配数据,根据所述第二关键变量,从所述预设研究数据库中进行指标匹配及数据合并整理,得到变量数据集。
可以理解,通过根据所述第二关键变量,从所述预设研究数据库中进行指标匹配及数据合并整理,得到变量数据集,能够优化用户分析效率。
在一个可能的示例中,所述基于所述变量数据集,进行关联查询并发送给用户包括以下步骤:
基于远程数据服务(Redis)的高效缓存,将数据的关联处理置于应用层,进行多字段关联查询。
可以理解,通过将数据的关联处理置于应用层,进行多字段关联查询,能够优化目标数据集的获取效率。
第二方面,一种生成目标数据集的装置,其特征在于,包括用于执行如权利要求1-10中任一项所述的方法。
第三方面,一种生成目标数据集的设备,其特征在于,包括处理器、存储器以及一个或至少一个程序,其中,所述一个或至少一个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-10中任一项方法中的指令。
第四方面,一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现权利要求1-10中任一项所述的方法。
实施本申请实施例,将具有如下有益效果:
将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量;基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量;基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集;基于所述变量数据集,进行关联查询并发送给用户。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以基于这些附图获得其他的附图。其中:
图1为本申请实施例提供的一种生成目标数据集的应用场景图;
图2为本申请实施例提供的一种生成目标数据集的流程示意图;
图3为本申请实施例提供的一种生成目标数据集的装置的结构示意图;
图4为本申请实施例提供的一种生成目标数据集设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“1”和“2”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参见图1,图1为本申请实施例提供的一种生成目标数据集的应用场景图。如图1所示,该应用场景图包括用户101、电子设备102、服务器103。需要说明的是,图1所示的系统中的各个设备的数量、各个设备的形态和用户的数量用于举例,并不构成对本申请实施例的限定,一个用户可以使用多个电子设备。
其中,用户101是实际操作电子设备102的用户,以控制电子设备102执行相应的操作。例如,用户通过手机上传需要提取关键变量的文献给服务器,服务器根据生成目标数据集的流程,将查询结果发送给手机,用户通过手机浏览查询结果。
电子设备102可以是图1所示的智能手机,还可以是个人计算机(personalcomputer,PC)、笔记本电脑、一体机、掌上电脑、平板电脑(pad)、智能电视播放终端和便捷式设备等。PC端的电子设备,例如一体机等,其操作系统可以包括但不限于Linux系统、Unix系统、Windows系列系统(例如Windows xp、Windows 7等)等操作系统。移动端的电子设备,例如智能手机等,其操作系统可以包括但不限于安卓系统、IOS(苹果手机的操作系统)、Window系统等操作系统。在以下申请文件中,以电子设备为手机终端进行举例描述。
下面介绍本申请实施例提供的生成目标数据集的方法,该方法可以由生成目标数据集的装置执行,该装置可由软件和/或硬件实现,一般可集成在电子设备或服务器中。
请参照图2,图2为本申请实施例提供的一种生成目标数据集的流程示意图。以该方法应用于生成目标数据集过程进行举例说明,该生成目标数据集的装置可以包括服务器或电子设备。该方法包括如下步骤S201-S204,其中,
S201:将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量。
S202:基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量。
S203:基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集。
S204:基于所述变量数据集,进行关联查询并发送给用户。
请参见图3,图3为本申请实施例提供的一种生成目标数据集的装置的结构示意图。基于上述的系统架构,该装置300可以为服务器,也可以为服务器中的模块。该装置300,至少包括:采集模块301和处理模块302,其中:
采集模块301用于获取第一关键变量;
处理模块302用于将文献文件格式转换为文本格式信息,对所述第一关键变量进行修正,对预设底层业务库进行指标匹配及数据处理,进行关联查询并发送给用户。
在一个可能的示例中,所述处理模块302将所述文献文件格式转换为图像格式文件;基于所述图像格式文件进行图像调整,得到第一处理文件;基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件;基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件;
基于第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息。
在一个可能的示例中,所述处理模块302基于图像几何处理方法对所述图像格式文件的部分区域进行图像旋转;将所述图像格式文件的文字分割成单个文字,针对倾斜的文字进行倾斜校正;将所述单个文字图像规整到相同尺寸。
举例而言,将文献文件格式转换为图像格式时,使用电子书盒子(PDF Box)工具对PDF文档逐页转化成图像格式,并进行图像纠偏。上述的PDF Box工具具备以下特点:能够提取文本,包括Unicode字符;能够加密/解密PDF文档,从PDF和XFDF格式中导入或导出表单数据;向已有PDF文档中追加内容;将一个PDF文档切分为多个文档;覆盖PDF文档。
在一个可能的示例中,在所述基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件方面,所述处理模块302通过光学字符识别(OCR),进行特征提取及图像文字识别。
通过OCR技术进行特征提取,进行图像文字识别。OCR技术是指将图像上的文字转化为计算机可编辑的文字内容,作为OCR技术的第一步,特征提取是希望找出图像中候选的文字区域特征,以便在第二步进行文字定位和第三步进行识别。总体而言,一套OCR流程可以分为版面分析、预处理、行列切割、字符识别和后处理识别矫正,OCR技术集中精力模仿肉眼对图像与汉字的处理过程,是整个OCR系统最核心的部分。如果输入系统的图像是一页文本,那么识别时的第一件事是判断页面上的文本朝向,即进行图像预处理,做角度矫正和去噪。然后对文档版面进行分析,对每一行进行行分割,把每一行的文字切割下来,最后再对每一行的文本进行列分割,切割出每个字符,将该字符送入训练好的OCR识别模型进行字符识别,得到结果。但是模型识别结果往往是不太准确的,我们需要对其进行识别结果的矫正和优化,比如我们可以设计一个语法检测器,去检测字符的组合逻辑是否合理。比如,考虑单词Because,如果设计的识别模型把它识别为8ecause,那么就可以用语法检测器去纠正这种拼写错误,并用B代替8并完成识别矫正,如此,整个OCR流程就完成了。
在一个可能的示例中,在所述基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件方面,所述处理模块302通过自然语言处理的中文分词工具和英文分词工具过滤无用的标签及特殊符号,并通过词频-逆向文件频率(TF-IDF)算法识别文字的关键信息,构建分类器,不断对分类器进行训练。
在本申请实施例中,TF-IDF(term frequency-inverse document frequency,词频-逆向文件频率)是一种用于信息检索与文本挖掘的常用加权技术。词频(TF)表示词条(关键字)在文本中出现的频率,这个数字通常会被归一化,一般是词频除以文章总词数,以防止它偏向长的文件。逆向文件频率(IDF):某一特定词语的IDF,可以由总文件数目除以包含该词语的文件数目,再将得到的商取对数得到,如果包含某词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。总体而言,TF-IDF能够评估字词对于一个文件集或者一个语料库中的一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果某个单词在一篇文章中出现的频率TF高,并且在别的文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用以分类。举例而言,某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF,因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
在一个可能的示例中,在所述基于所述第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息方面,所述处理模块302基于第三处理文件,对识别文字与其可能的相似候选字群进行前后比对,获取最匹配逻辑的词,并转换为文本格式。
在一个可能的示例中,所述处理模块302通过自然语言处理(NLP)的命名实体识别(NER),进行指定位置前后预设数量字符的变量抓取,生成第一关键变量。
举例而言,命名实体识别是指从自由文本中识别出属于预定义类别的文本片段。信息抓取就是从非结构化的文本中抓取结构化的数据和特定的关系,本申请可以抓取前后100个字符内的变量,对于指定位置前后的预设数量字符,本申请不作限定。在定义任务的过程需要注意到识别信息单元的名称,例如人名、机构名、地名和时间等是必不可少的。识别上面所说的实体的名称,就叫做命名实体识别。命名实体识别是信息抽取的子任务,识别的好坏直接关系到抽取的好坏。早期的命名实体识别工作,主要识别一般的“专有名词”,包括三类名词:人名、地名、机构名。随着研究的进行,人们对这些名词进行更细致的划分。例如,对于地名,可以进行细分为:国家名、省/州、城市名和街道名等。类似的,人名可以细分为:政客、演员和学生等,除了识别一般的专有名词,在生物医学领域,需要识别基因名、蛋白质名,针对社交媒体文本中存在大量的电影、歌曲和视频等,识别电影名、歌曲名、邮件地址等实体。
在一个可能的示例中,所述处理模块302基于所述第一关键变量和预设映射变量仓库使用双向长短时记忆模型(Bi-LSTM),对初始变量进行修正,得到所述第二关键变量,同时修正后的所述第二关键变量发送给所述预设映射变量仓库,对所述预设映射变量仓库进行动态修改和完善。
举例而言,长短期神经网络(long short term memory,LSTM)是循环神经网络的一种。实际应用中发现循环神经网络存在诸如梯度消失、梯度爆炸以及长距离依赖信息能力差等问题,因此引入了长短期神经网络。长短期神经网络在主体结构上与循环神经网络类似,其主要的改进是在隐藏层h中增加了3个门控结构,分别是遗忘门 (forget gate)、输入门 (input gate)、输出门 (output gate),同时新增了一个隐藏状态 (cell state) 。而双向长短时记忆模型的结构模型分为 2个独立的长短期神经网络,输入序列分别以正序和逆序输入至2个长短期神经网络进行特征提取,将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。Bi-LSTM 的模型设计理念是使t时刻所获得特征数据,同时拥有过去和将来之间的信息,实验证明,这种神经网络结构模型对文本特征提取效率和性能要优于单个长短期神经网络结构模型。需要强调的是,双向长短时记忆模型中的2个LSTM神经网络参数是相互独立的,它们只共享单词嵌入(word-embedding)的词向量列表。
在一个可能的示例中,所述处理模块302基于预设研究数据库匹配数据,根据所述第二关键变量,从所述预设研究数据库中进行指标匹配及数据合并整理,得到变量数据集。
在一个可能的示例中,所述处理模块302基于远程数据服务(Redis)的高效缓存,将数据的关联处理置于应用层,进行多字段关联查询。
请参见图4,图4为本申请实施例提供的一种生成目标数据集设备的结构图。如图4所示,该设备400包括处理器401、存储器402、通信接口404以及一个或至少一个程序403。上述一个或至少一个程序403被存储在上述存储器402中,并且被配置由上述处理器401执行,上述程序403包括用于执行以下步骤的指令:
将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量;
基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量;
基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集;
基于所述变量数据集,进行关联查询并发送给用户。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
将所述文献文件格式转换为图像格式文件;
基于所述图像格式文件进行图像调整,得到第一处理文件;
基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件;
基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件;
基于第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
基于图像几何处理方法对所述图像格式文件的部分区域进行图像旋转;
将所述图像格式文件的文字分割成单个文字,针对倾斜的文字进行倾斜校正;
将所述单个文字图像规整到相同尺寸。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
基于第一处理文件,通过光学字符识别(OCR技术),进行特征提取及图像文字识别。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
基于第二处理文件,通过自然语言处理的中文分词工具和英文分词工具过滤无用的标签及特殊符号,并通过词频-逆向文件频率(TF-IDF)算法识别文字的关键信息,构建分类器,不断对分类器进行训练。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
基于第三处理文件,对识别文字与其可能的相似候选字群进行前后比对,获取最匹配逻辑的词,并转换为文本格式。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
通过自然语言处理(NLP)的命名实体识别(NER),进行指定位置前后预设数量字符的变量抓取,生成第一关键变量。
在一个可能的示例中,在所述将所述文本信息与所述结构化信息融合方面,所述程序403具体用于执行以下步骤的指令:
基于所述第一关键变量和预设映射变量仓库使用双向长短时记忆模型(Bi-LSTM),对初始变量进行修正,得到所述第二关键变量,同时修正后的所述第二关键变量发送给所述预设映射变量仓库,对所述预设映射变量仓库进行动态修改和完善。
举例而言,本申请实施例中,将初始变量和中国经济金融研究数据映射变量库(CSMAR-VWH)使用双向长短时记忆模型对初始变量进行修正,得到修正后的变量信息,同时修正后的变量信息回传递CSMAR-VWH,对CSMAR-VWH进行动态修改和完善。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
基于预设研究数据库匹配数据,根据所述第二关键变量,从所述预设研究数据库中进行指标匹配及数据合并整理,得到变量数据集。
在一个可能的示例中,所述程序403具体用于执行以下步骤的指令:
基于远程数据服务(Redis)的高效缓存,将数据的关联处理置于应用层,进行多字段关联查询。
举例而言,Redis是一个开源(BSD许可)内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。它基于高性能的分布式存储,并提供多种语言的非关系型数据库,不过与传统数据库不同的是,Redis的数据是存储在内存之中的,所以存写速度快。Redis的复制功能允许用户根据一个Redis服务器来创建任意多个该服务器的复制品,其中被复制的服务器为主服务器(master),而通过复制创建出来的服务器复制品则为从服务器(slave)。只要主从服务器之间的网络连接正常,主从服务器两者会具有相同的数据,主服务器就会一直将运行的数据更新同步给从服务器,从而一直保证主从服务器的数据相同。此外,Redis的数据都保存在内存中,如果断电或者宕机,则内存数据将擦除,导致数据的丢失,为了防止数据丢失,Redis内部有持久化机制。当第一次Redis服务启动时,根据配置文件中的持久化要求,进行持久化操作,如果不是第一次启动,则在服务启动时会根据持久化文件的配置,读取指定的持久化文件,实现内存数据的恢复。
举例而言,当用户对于一篇文献进行一键提取关键变量时,基于远程数据服务(Redis)的高效缓存,那么系统根据多字段关联查询,将文献中的资产周转率、资产金额、董事会人数、女性董事人数和非独立董事数量查询结果展示给用户。
本领域技术人员可以理解,为了便于说明,图4中仅示出了一个存储器402和处理器401。在实际的终端或服务器中,可以存在多个处理器和存储器。存储器也可以称为存储介质或者存储设备等,本申请实施例对此不做限制。
应理解,在本申请实施例中,处理器可以是中央处理单元(Central ProcessingUnit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital SignalProcessing ,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器还可以采用通用的微处理器、图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例所需执行的功能。
处理器401还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的各个步骤可以通过处理器401中硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存和只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成本申请实施例的方法、装置及存储介质包括的单元所需执行的功能。
还应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccess Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DR RAM)。该存储器还可以是只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在的,通过总线与处理器相连接。存储器也可以和处理器集成在一起,存储器可以存储程序,当存储器中存储的程序被处理器执行时,处理器用于执行本申请上述实施例中确定方法的各个步骤。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤,为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block,简称ILB)和步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机编程的程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在处理器上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输,也可以从一个网站站点、计算机、服务器或数据中心通过有线方式向手机处理器进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种生成目标数据集的方法,其特征在于,包括以下步骤:
将文献文件格式转换为文本格式信息,基于所述文本格式信息,获取第一关键变量;
基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量;
基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集;
基于所述变量数据集,进行关联查询并发送给用户。
2.根据权利要求1所述的方法,所述将文献文件格式转换为文本格式信息,包括以下步骤:
将所述文献文件格式转换为图像格式文件;
基于所述图像格式文件进行图像调整,得到第一处理文件;
基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件;
基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件;
基于第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息。
3.根据权利要求2所述的方法,所述基于所述图像格式文件进行图像调整,得到第一处理文件,包括以下步骤:
基于图像几何处理方法对所述图像格式文件的部分区域进行图像旋转;
将所述图像格式文件的文字分割成单个文字,针对倾斜的文字进行倾斜校正;
将所述单个文字图像规整到相同尺寸。
4.根据权利要求2所述的方法,所述基于所述第一处理文件进行特征提取和图像文字识别,得到第二处理文件,包括以下步骤:
基于第一处理文件,通过光学字符识别(OCR技术),进行特征提取及图像文字识别。
5.根据权利要求2所述的方法,所述基于所述第二处理文件识别文字的关键信息和构建分类器并训练,得到第三处理文件,包括以下步骤:
基于第二处理文件,通过自然语言处理的中文分词工具和英文分词工具过滤无用的标签及特殊符号,并通过词频-逆向文件频率(TF-IDF)算法识别文字的关键信息,构建分类器,不断对分类器进行训练。
6.根据权利要求2所述的方法,所述基于所述第三处理文件获取最匹配逻辑的词,转换为所述文本格式信息,包括以下步骤:
基于第三处理文件,对识别文字与其可能的相似候选字群进行前后比对,获取最匹配逻辑的词,并转换为文本格式。
7.根据权利要求1所述的方法,所述基于所述文本格式信息,获取第一关键变量,包括以下步骤:
通过自然语言处理(NLP)的命名实体识别(NER),进行指定位置前后预设数量字符的变量抓取,生成第一关键变量。
8.根据权利要求1中所述的方法,所述基于预设映射变量仓库,对所述第一关键变量进行修正,得到第二关键变量包括以下步骤:
基于所述第一关键变量和预设映射变量仓库使用双向长短时记忆模型(Bi-LSTM),对初始变量进行修正,得到所述第二关键变量,同时修正后的所述第二关键变量发送给所述预设映射变量仓库,对所述预设映射变量仓库进行动态修改和完善。
9.根据权利要求1所述的方法,所述基于所述第二关键变量,对预设底层业务库进行指标匹配及数据处理,得到变量数据集包括以下步骤:
基于预设研究数据库匹配数据,根据所述第二关键变量,从所述预设研究数据库中进行指标匹配及数据合并整理,得到变量数据集。
10.根据权利要求1中所述的方法,所述基于所述变量数据集,进行关联查询并发送给用户包括以下步骤:
基于远程数据服务(Redis)的高效缓存,将数据的关联处理置于应用层,进行多字段关联查询。
11.一种生成目标数据集的装置,其特征在于,用于执行如权利要求1-10中任一项所述的方法。
12.一种生成目标数据集的设备,其特征在于,包括处理器、存储器以及一个或至少一个程序,其中,所述一个或至少一个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-10中任一项方法的指令。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210125906.0A CN114168715A (zh) | 2022-02-10 | 2022-02-10 | 生成目标数据集的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210125906.0A CN114168715A (zh) | 2022-02-10 | 2022-02-10 | 生成目标数据集的方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114168715A true CN114168715A (zh) | 2022-03-11 |
Family
ID=80489787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210125906.0A Pending CN114168715A (zh) | 2022-02-10 | 2022-02-10 | 生成目标数据集的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168715A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115455272A (zh) * | 2022-09-13 | 2022-12-09 | 共青科技职业学院 | 页面数据处理方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260727A (zh) * | 2015-11-12 | 2016-01-20 | 武汉大学 | 基于图像处理与序列标注的学术文献语义再结构化方法 |
CN108932294A (zh) * | 2018-05-31 | 2018-12-04 | 平安科技(深圳)有限公司 | 基于索引的简历数据处理方法、装置、设备及存储介质 |
CN110222057A (zh) * | 2019-05-31 | 2019-09-10 | 浙江大学 | 一种气溶胶文献格式化数据库的构建方法 |
CN112000791A (zh) * | 2020-08-26 | 2020-11-27 | 哈电发电设备国家工程研究中心有限公司 | 一种电机故障知识抽取系统及方法 |
CN112182248A (zh) * | 2020-10-19 | 2021-01-05 | 深圳供电局有限公司 | 一种电价的关键政策的统计方法 |
WO2021072885A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 识别文本的方法、装置、设备及存储介质 |
-
2022
- 2022-02-10 CN CN202210125906.0A patent/CN114168715A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260727A (zh) * | 2015-11-12 | 2016-01-20 | 武汉大学 | 基于图像处理与序列标注的学术文献语义再结构化方法 |
CN108932294A (zh) * | 2018-05-31 | 2018-12-04 | 平安科技(深圳)有限公司 | 基于索引的简历数据处理方法、装置、设备及存储介质 |
CN110222057A (zh) * | 2019-05-31 | 2019-09-10 | 浙江大学 | 一种气溶胶文献格式化数据库的构建方法 |
WO2021072885A1 (zh) * | 2019-10-18 | 2021-04-22 | 平安科技(深圳)有限公司 | 识别文本的方法、装置、设备及存储介质 |
CN112000791A (zh) * | 2020-08-26 | 2020-11-27 | 哈电发电设备国家工程研究中心有限公司 | 一种电机故障知识抽取系统及方法 |
CN112182248A (zh) * | 2020-10-19 | 2021-01-05 | 深圳供电局有限公司 | 一种电价的关键政策的统计方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115455272A (zh) * | 2022-09-13 | 2022-12-09 | 共青科技职业学院 | 页面数据处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10579736B2 (en) | Method and device for determining comment, server and storage medium | |
US10740545B2 (en) | Information extraction from open-ended schema-less tables | |
US9779388B1 (en) | Disambiguating organization names | |
WO2018040068A1 (zh) | 基于知识图谱的语意分析系统及方法 | |
CN112131350A (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
US20200134398A1 (en) | Determining intent from multimodal content embedded in a common geometric space | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN112215008B (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
Maier et al. | Machine translation vs. multilingual dictionaries assessing two strategies for the topic modeling of multilingual text collections | |
CN110866110A (zh) | 基于人工智能的会议纪要生成方法、装置、设备及介质 | |
CN115982376B (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
US20230032728A1 (en) | Method and apparatus for recognizing multimedia content | |
US9779363B1 (en) | Disambiguating personal names | |
CN107368489B (zh) | 一种资讯数据处理方法及装置 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN113722438A (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
Salur et al. | A soft voting ensemble learning-based approach for multimodal sentiment analysis | |
US11397756B2 (en) | Data archiving method and computing device implementing same | |
CN113096687B (zh) | 音视频处理方法、装置、计算机设备及存储介质 | |
CN114298007A (zh) | 一种文本相似度确定方法、装置、设备及介质 | |
CN113407775B (zh) | 视频搜索方法、装置及电子设备 | |
CN114168715A (zh) | 生成目标数据集的方法、装置、设备及存储介质 | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN111555960A (zh) | 信息生成的方法 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220311 |