CN112464640A - 数据要素分析方法、装置、电子装置和存储介质 - Google Patents
数据要素分析方法、装置、电子装置和存储介质 Download PDFInfo
- Publication number
- CN112464640A CN112464640A CN202011136082.4A CN202011136082A CN112464640A CN 112464640 A CN112464640 A CN 112464640A CN 202011136082 A CN202011136082 A CN 202011136082A CN 112464640 A CN112464640 A CN 112464640A
- Authority
- CN
- China
- Prior art keywords
- data element
- fields
- words
- data
- sets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 79
- 230000011218 segmentation Effects 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据要素分析方法、装置、电子装置和存储介质,其中,该数据要素分析方法包括:获取数据库表格中的多个字段,所述字段中包括限定词和数据元词;对多个所述字段进行分词处理,获得对应的限定集合和数据元集合,其中所述限定集合包含有多个所述限定词,所述数据元集合包含有多个所述数据元词;基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关联标记。通过本申请,通过对多个字段进行关联标记或关系标记,从底层数据出发,挖掘出数据表中存在各种有用信息,通过对字段进行分析,展现出存在于字段中数据之间的完善价值信息,解决了数据业务架构数据利用效率低下的问题,提高了数据利用效率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及数据要素分析方法、装置、电子装置和存储介质。
背景技术
随着数据分析技术的快速发展,大数据的分析逐渐为人们所重视。在数据治理中,数据的来源及形式是多样的,表格数据文件是其中的一种常见类型。
目前针对数据库中的结构化数据的分类,主要基于对字段名称和注释的语义分析、对字段内容的规则等对其进行匹配分类。传统的数据处理,是将业务与数据进行关联,提取与业务相关的数据,数据利用效率低下。
目前针对相关技术中数据业务架构数据利用效率低下,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据要素分析方法、装置、电子装置和存储介质,以至少解决相关技术中数据业务架构数据利用效率低下的问题。
第一方面,本申请实施例提供了一种数据要素分析方法,包括:
获取数据库表格中的多个字段,所述字段中包括限定词和数据元词;
对多个所述字段进行分词处理,获得对应的限定集合和数据元集合,其中所述限定集合包含有多个所述限定词,所述数据元集合包含有多个所述数据元词;
基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关联标记。
在其中一些实施例中,所述对将多个所述字段进行分词处理,获得对应的限定集合和数据元集合包括:
将多个所述字段转换为标准词;
将多个所述字段进行分词处理,获得多个所述限定词和多个所述数据元词;
将所述标准词进行分词,获得多个所述限定词和多个所述数据元词;
将多个所述限定词和多个所述数据元词输入识别模型进行分类,获得对应的所述限定集合和所述数据元集合。
在其中一些实施例中,所述将多个所述限定词和多个所述数据元词输入语义识别模型进行分类,获得对应的所述限定集合和所述数据元集合包括:
将多个所述限定词输入第一识别模型,得到多个所述限定集合;
将多个所述数据元词输入第二识别模型,得到多个所述数据元集合。
在其中一些实施例中,所述将多个所述限定词输入第一识别模型,得到多个限定集合包括:
根据相似度计算方法计算多个所述限定词的语义相似度;
将所述语义相似度大于或等于相似度阈值的限定词进行整合,生成所述限定集合。
在其中一些实施例中,所述将多个所述数据元词输入第二识别模型,得到多个数据元集合之前包括:
建立神经网络,将多个所述数据元词作为训练集对神经网络进行训练,获得第二识别模型,所述第二识别模型的输入为多个所述数据元词,输出为多个数据元集合。
在其中一些实施例中,所述基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关联标记包括:
基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关系标记。
在其中一些实施例中,所述基于所述限定集合和所述数据元集合,对多个所述字段进行关系标记包括:
根据多个所述限定集合和多个所述数据元集合对多个字段进行标注;
将同一限定集合以及不同数据元集合的两个字段,标记为关联;
将不同限定集合以及相同数据元集合的两个字段,标记为关系。
第二方面,本申请实施例提供了一种数据要素分析装置,包括:
获取模块,用于获取数据库表格中的多个字段,所述字段中包括限定词和数据元词;
分词模块,用于对多个所述字段进行分词处理,获得对应的限定集合和数据元集合,其中所述限定集合包含有多个所述限定词,所述数据元集合包含有多个所述数据元词;
标记模块,用于基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关联标记或关系标记。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的数据要素分析方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的数据要素分析方法。
相比于相关技术,本申请实施例提供的数据要素分析方法,通过对多个字段进行关联标记或关系标记,从底层数据出发,挖掘出数据表中存在的各种有用信息,通过对字段进行分析,展现出存在于字段中数据之间的完善价值信息,解决了数据业务架构数据利用效率低下的问题,提高了数据利用效率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例中数据要素分析方法的应用环境图;
图2是根据本申请实施例的数据要素分析方法的流程图;
图3是根据本申请实施例的另一种数据要素分析方法的流程图;
图4是根据本申请实施例的数据要素分析装置的结构框图;
图5为根据本申请实施例的数据要素分析设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的数据要素分析方法,可以应用于如图1所示的应用环境中。
所述数据要素分析系统包括:字段分词匹配模块110、实体对象分析模块120、数据元分析模块130、要素关联分析模块140以及要素关系分析模块150。
所述数据要素分析系统根据输入的数据库表名,通过访问数据库系统,抽取数据库表格中的字段以及注释。
所述字段分词匹配模块110用于根据获得的多个字段,使用分词工具开展字段分词,根据词类将分词分类为限定词以及数据元词。通过分出的词是否属于限定词,分别将限定词以及数据元词输入至所述实体对象分析模块与所述数据元分析模块,生成分析结果。
所述实体对象分析模块120与所述数据元分析模块130用于根据分析结果将分析结果添加标注在字段上。其中,所述分析结果包括多个限定集合和多个数据元集合。所述实体对象分析模块120用于计算所述限定词的语义相似度,对限定词进行分类获得对应的限定集合;所述数据元分析模块130用于将数据元词进行分类,获得对应的数据元集合。
所述要素关联分析模块140用于将两两字段进行比较,根据字段标注的信息通过限定词的对象分析,找到相同对象的限定词,并判断该词数据元数据项集是否相同,保留不同的字段作为要素关联。
所述要素关系分析模块150将两两字段进行比较,根据字段标注的信息通过数据元词对象分析,找到不同对象的词,并判断该词数据元数据项集是否相同,保留相同的字段作为要素关联。
本实施例还提供了一种数据要素分析方法。图2是根据本申请实施例的数据要素分析方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取数据库表格中的多个字段,所述字段中包括限定词和数据元词。
其中,限定词是在名词词组中对名词中心词起特指、类指以及表示确定数量和非确定数量等限定作用的词类。数据元词是在名词词组名词的修饰词。例如,房东身份证号码,其中限定词为房东,数据元词为身份证号码。房东手机号码,其中限定词为房东,数据元词为手机号码。
具体地,获取数据库信息,提取数据库信息中的表名、字段、注释、类型信息等。其中,数据库包括但不局限于:ORACLE数据库、MYSQL数据库、POSTGRE数据库。
步骤S202,对多个所述字段进行分词处理,获得对应的限定集合和数据元集合。
具体地,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。所述分词处理包括:基于字符串匹配的分词处理、基于理解的分词处理以及基于统计的分词处理中的一种。本实施例对分词处理方法不做具体限定,只需根据上述分词处理方法完成分词即可。通过分词工具将多个字段进行分词提取,将分词结果按照限定词,数据元词进行分类。其中,所述分词工具包括但不局限于:JieBa、SnowNLP、PkuSeg。
所述将多个所述字段进行分词处理,获得对应的限定集合和数据元集合包括:将多个所述字段转换为标准词;将多个所述字段进行分词处理,获得多个限定词和多个数据元词;将所述标准词进行分词,获得多个限定词和多个数据元词;将多个所述限定词和多个所述数据元词输入识别模型进行分类,获得对应的限定集合和数据元集合。
其中,所述识别模型包括第一识别模型和第二识别模型。
具体地,将多个所述字段转换为中文名称或字段注释样式,将转换后的字段通过分词工具进行分词提取,获得多个限定词和多个数据元词。将多个所述限定词输入第一识别模型,得到多个限定集合;将多个所述数据元词输入第二识别模型,得到多个数据元集合。
所述将多个所述限定词输入第一识别模型,得到多个限定集合包括:根据相似度计算方法计算多个所述限定词的语义相似度;将语义相似度大于或等于相似度阈值的限定词进行整合,生成限定集合。
其中,所述相似度计算方法包括词向量相似度计算方法、余弦相似度计算方法。
具体地,通过相似度计算方法进行计算多个所述限定词的语义相似度,确定限定词是否为同一语义。例如,限定词包括第一限定词和第二限定词,若所述第一限定词和所述第二限定词的语义相似度大于或等于相似度阈值,则将所述第一限定词和所述第二限定词进行整合归为一类;若所述第一限定词和所述第二限定词的语义相似度小于相似度阈值,则将所述第一限定词和所述第二限定词不为同一语义的限定词,分为两类。
所述将多个所述数据元词输入第二识别模型,得到多个数据元集合之前包括:建立神经网络,将多个所述数据元词作为训练集对神经网络进行训练,获得第二识别模型,所述第二识别模型的输入为多个所述数据元词,输出为多个数据元集合。
其中,所述神经网络包括卷积神经网络、循环神经网络、BERT等,神经网络只需能够负责根据字段信息识别出标准数据项集。
具体地,将多个所述数据元词输入第二识别模型,第二识别模型根据预设的数据元标准将多个所述数据元词进行分类,获得多个数据元集合。在本实施例中,所述第二识别模型为BERT+CRF模型,数据元标准为公安部部门标准。
步骤S203,基于所述限定集合和所述数据元集合进行数据要素分析,关联标记或关系标记对多个所述字段进行关联标记。
所述基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关联标记包括:基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关系标记。
具体地,根据多个所述限定集合和多个所述数据元集合对多个字段进行标注;将同一限定集合以及不同数据元集合的两个字段,标记为关联;将不同限定集合以及相同数据元集合的两个字段,标记为关系。进一步地,根据所述限定集合和所述数据元集合将对应的字段进行标注,检测标注后字段的限定词和数据元词,若两个字段的限定词为同一限定集合以及数据元词为不同数据元集合,标记为关联;若两个字段的限定词为不同限定集合以及数据元词为相同数据元集合,标记为关系。
所述方法还包括:将标记关联或关系的字段存储至存储介质。
具体地,将标记关联或关系的字段生成数据表,将所述数据表存储至存储介质当中,该数据表表明存在多少种要素之间的价值信息。通过要素之间信息为资源库,主题库,人物肖像刻画等符合OLP设计模式的模型提供构造要素。其中,OLP设计模式为objectlinkproperty的设计模式,对不同实体要素进行分析,提取出符合数仓模型的要素信息,为数仓模型设计与开发提供依据。
在数据仓库建设中,以OLP作为设计模式,通过对数据提取特征,对要素进行分析,设计符合各层数仓的模型。要素分析是CDM层(公共维度建模)的基础,主要包括要素关系以及要素关联。要素关系为限定词的语义相同属于同一限定集合以及数据元词的类别不同属于不同数据元集合的字段。要素关联为限定词的语义不同属于不同限定集合以及数据元词的类别相同属于相同数据元集合的字段。
通过上述步骤,通过将多个字段进行分词处理,获得多个限定词和多个数据元词,并对多个限定词和多个数据元词进行识别分类,根据分类结果对多个字段进行关联标记或关系标记,从底层数据出发,挖掘出数据表中存在各种有用信息,通过对字段进行分析,展现出存在于字段中数据之间的完善价值信息,解决了现有的数据业务架构数据利用效率低下的问题,提高了数据利用效率。
本实施例还提供了一种数据要素分析方法。图3是根据本申请实施例的另一种数据要素分析方法的流程图,如图3所示,该流程包括如下步骤:
步骤S301,读取数据库信息,获取表名、字段、注释、类型信息。
具体地,提取数据库信息中的多个字段,将多个字段统一转换为中文名称或字段注释样式。
步骤S302,根据中文注释字段名称按照限定词与数据元词进行分词。
具体地,通过分词工具将中文注释字段名称按照限定词与数据元词进行分词,获得多个限定词和数据元词。
步骤S303,将限定词做语义分析,判断是否同义,将数据元按照文本分析方法进行对标。
具体地,计算限定词的语义相似度,通过判断限定词之间的语义相似度是否大于或等于相似度阈值,若大于或等于相似度阈值,则为同一语义;若小于相似度阈值,则为不同语义,多个限定集合。将数据元词按照文本分析方法进行对标,生成多个数据元结果。
步骤S304,字段之间语义相同且对标不同为关联,语义不同为关系。
具体地,根据多个所述限定集合和多个所述数据元集合对多个字段进行标注;将同一限定集合以及不同数据元集合的两个字段,标记为关联;将不同限定集合以及相同数据元集合的两个字段,标记为关系。进一步地,根据所述限定集合和数据元集合将对应的字段进行标注,检测标注后字段的限定词和数据元词,若两个字段的限定词为同一限定集合以及数据元词为不同数据元集合,标记为关联;若两个字段的限定词为不同限定集合以及数据元词为相同数据元集合,标记为关系。
步骤S305,将标记的结果导出,同表要素关联和要素关系的信息,生成资源库,主题库,人物肖像刻画等模型。
具体地,将标记关联或关系的字段生成数据表,将所述数据表存储至存储介质当中,该数据表表明存在多少种要素之间的价值信息。
通过上述步骤,使用高效的深度学习建模训练,提高了对字段的识别能力,实现了自动构建OLP设计模式字段之间关联关系方法,提高了OLP设计模型的构建速度,打破传统由需求出发的数据业务架构,从底层数据出发提供数据分析策略,提高数据的利用效率。
下面通过优选实施例对本申请实施例进行描述和说明。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种数据要素分析装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请实施例的数据要素分析装置的结构框图,如图4所示,该装置包括:获取模块410、分词模块420和标记模块430。
获取模块410,用于获取数据库表格中的多个字段,所述字段中包括限定词和数据元词。
分词模块420,用于对多个所述字段进行分词处理,获得对应的限定集合和数据元集合。
标记模块430,用于基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关联标记或关系标记。
分词模块420还用于将多个所述字段转换为标准词;将多个所述字段进行分词处理,获得多个所述限定词和多个所述数据元词;将所述标准词进行分词,获得多个所述限定词和多个所述数据元词;将多个所述限定词和多个所述数据元词输入识别模型进行分类,获得对应的所述限定集合和所述数据元集合。。
分词模块420还用于将多个所述限定词输入第一识别模型,得到多个所述限定集合;将多个所述数据元词输入第二识别模型,得到多个所述数据元集合。
分词模块420还用于根据相似度计算方法计算多个所述限定词的语义相似度;将所述语义相似度大于或等于相似度阈值的限定词进行整合,生成所述限定集合。
分词模块420还用于建立神经网络,将多个所述数据元词作为训练集对神经网络进行训练,获得第二识别模型,所述第二识别模型的输入为多个所述数据元词,输出为多个数据元集合。
标记模块430还用于基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关系标记。
标记模块430还用于根据多个所述限定集合和多个所述数据元集合对多个字段进行标注;将同一限定集合以及不同数据元集合的两个字段,标记为关联;将不同限定集合以及相同数据元集合的两个字段,标记为关系。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图2描述的本申请实施例数据要素分析方法可以由数据要素分析设备来实现。图5为根据本申请实施例的数据要素分析设备的硬件结构示意图。
数据要素分析设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种数据要素分析方法。
在其中一些实施例中,数据要素分析设备还可包括通信接口83和总线80。其中,如图5所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将数据要素分析设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该数据要素分析设备可以基于获取到的数据要素分析,执行本申请实施例中的数据要素分析方法,从而实现结合图2描述的数据要素分析方法。
另外,结合上述实施例中的数据要素分析方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据要素分析方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据要素分析方法,其特征在于,包括:
获取数据库表格中的多个字段,所述字段中包括限定词和数据元词;
对多个所述字段进行分词处理,获得对应的限定集合和数据元集合,其中所述限定集合包含有多个所述限定词,所述数据元集合包含有多个所述数据元词;
基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关联标记。
2.根据权利要求1所述的数据要素分析方法,其特征在于,所述对多个所述字段进行分词处理,获得对应的限定集合和数据元集合包括:
将多个所述字段转换为标准词;
将多个所述字段进行分词处理,获得多个所述限定词和多个所述数据元词;将所述标准词进行分词,获得多个所述限定词和多个所述数据元词;
将多个所述限定词和多个所述数据元词输入识别模型进行分类,获得对应的所述限定集合和所述数据元集合。
3.根据权利要求2所述的数据要素分析方法,其特征在于,所述将多个所述限定词和多个所述数据元词输入语义识别模型进行分类,获得对应的所述限定集合和所述数据元集合包括:
将多个所述限定词输入第一识别模型,得到多个所述限定集合;
将多个所述数据元词输入第二识别模型,得到多个所述数据元集合。
4.根据权利要求3所述的数据要素分析方法,其特征在于,所述将多个所述限定词输入第一识别模型,得到多个限定集合包括:
根据相似度计算方法计算多个所述限定词的语义相似度;
将所述语义相似度大于或等于相似度阈值的限定词进行整合,生成所述限定集合。
5.根据权利要求3所述的数据要素分析方法,其特征在于,所述将多个所述数据元词输入第二识别模型,得到多个数据元集合之前包括:
建立神经网络,将多个所述数据元词作为训练集对神经网络进行训练,获得第二识别模型,所述第二识别模型的输入为多个所述数据元词,输出为多个数据元集合。
6.根据权利要求1所述的数据要素分析方法,其特征在于,所述基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关联标记包括:
基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关系标记。
7.根据权利要求6所述的数据要素分析方法,其特征在于,所述基于所述限定集合和所述数据元集合,对多个所述字段进行关系标记包括:
根据多个所述限定集合和多个所述数据元集合对多个字段进行标注;
将同一限定集合以及不同数据元集合的两个字段,标记为关联;
将不同限定集合以及相同数据元集合的两个字段,标记为关系。
8.一种数据要素分析装置,其特征在于,包括:
获取模块,用于获取数据库表格中的多个字段,所述字段中包括限定词和数据元词;
分词模块,用于对多个所述字段进行分词处理,获得对应的限定集合和数据元集合,其中所述限定集合包含有多个所述限定词,所述数据元集合包含有多个所述数据元词;
标记模块,用于基于所述限定集合和所述数据元集合进行数据要素分析,对多个所述字段进行关联标记或关系标记。
9.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的数据要素分析方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的数据要素分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011136082.4A CN112464640A (zh) | 2020-10-22 | 2020-10-22 | 数据要素分析方法、装置、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011136082.4A CN112464640A (zh) | 2020-10-22 | 2020-10-22 | 数据要素分析方法、装置、电子装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112464640A true CN112464640A (zh) | 2021-03-09 |
Family
ID=74833244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011136082.4A Pending CN112464640A (zh) | 2020-10-22 | 2020-10-22 | 数据要素分析方法、装置、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464640A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626558A (zh) * | 2021-07-07 | 2021-11-09 | 厦门市美亚柏科信息股份有限公司 | 一种基于智能推荐的字段标准化的方法和系统 |
CN113672322A (zh) * | 2021-07-29 | 2021-11-19 | 浙江太美医疗科技股份有限公司 | 提供解释信息的方法及装置 |
CN114385623A (zh) * | 2021-11-30 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 数据表获取方法、设备、装置、存储介质及程序产品 |
CN117407835A (zh) * | 2023-12-15 | 2024-01-16 | 四川易利数字城市科技有限公司 | 一种数据要素需求挖掘方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766345A (zh) * | 2019-01-10 | 2019-05-17 | 深圳前海微众银行股份有限公司 | 元数据处理方法及装置、设备、可读存储介质 |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN111061833A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件系统有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
-
2020
- 2020-10-22 CN CN202011136082.4A patent/CN112464640A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766345A (zh) * | 2019-01-10 | 2019-05-17 | 深圳前海微众银行股份有限公司 | 元数据处理方法及装置、设备、可读存储介质 |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN111061833A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件系统有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626558A (zh) * | 2021-07-07 | 2021-11-09 | 厦门市美亚柏科信息股份有限公司 | 一种基于智能推荐的字段标准化的方法和系统 |
CN113672322A (zh) * | 2021-07-29 | 2021-11-19 | 浙江太美医疗科技股份有限公司 | 提供解释信息的方法及装置 |
CN113672322B (zh) * | 2021-07-29 | 2024-05-24 | 浙江太美医疗科技股份有限公司 | 提供解释信息的方法及装置 |
CN114385623A (zh) * | 2021-11-30 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 数据表获取方法、设备、装置、存储介质及程序产品 |
CN117407835A (zh) * | 2023-12-15 | 2024-01-16 | 四川易利数字城市科技有限公司 | 一种数据要素需求挖掘方法 |
CN117407835B (zh) * | 2023-12-15 | 2024-03-12 | 四川易利数字城市科技有限公司 | 一种数据要素需求挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798136B (zh) | 基于深度学习的实体关系抽取方法、装置及服务器 | |
CN112464640A (zh) | 数据要素分析方法、装置、电子装置和存储介质 | |
CN108629043B (zh) | 网页目标信息的提取方法、装置及存储介质 | |
TW202020691A (zh) | 特徵詞的確定方法、裝置和伺服器 | |
WO2021051864A1 (zh) | 词典扩充方法及装置、电子设备、存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN112183102A (zh) | 基于注意力机制与图注意力网络的命名实体识别方法 | |
CN109271624B (zh) | 一种目标词确定方法、装置及存储介质 | |
US20150347406A1 (en) | Corpus Generation Based Upon Document Attributes | |
WO2021121279A1 (en) | Text document categorization using rules and document fingerprints | |
CN111985244A (zh) | 一种针对文档内容的洗稿检测方法及装置 | |
CN112231417A (zh) | 数据分类方法、装置、电子设备及存储介质 | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN115953123A (zh) | 机器人自动化流程的生成方法、装置、设备及存储介质 | |
WO2019056781A1 (zh) | 同义词挖掘方法、装置、设备和计算机可读存储介质 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN113486182A (zh) | 一种意图识别的方法、系统、电子设备及可读存储介质 | |
CN111783425B (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN111931020B (zh) | 公式的标注方法、装置、设备及存储介质 | |
CN115525761A (zh) | 一种文章关键词筛选类别的方法、装置、设备及存储介质 | |
CN113139374A (zh) | 一种文档相似段落的标记查询方法、系统、设备及存储介质 | |
CN114091458A (zh) | 基于模型融合的实体识别方法和系统 | |
CN113988059A (zh) | 一种会话数据类型识别方法、系统、设备及存储介质 | |
CN112446204A (zh) | 一种文档标签的确定方法、系统及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |