CN112035480A - 数据表管理方法、装置、设备及存储介质 - Google Patents
数据表管理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112035480A CN112035480A CN202010901626.5A CN202010901626A CN112035480A CN 112035480 A CN112035480 A CN 112035480A CN 202010901626 A CN202010901626 A CN 202010901626A CN 112035480 A CN112035480 A CN 112035480A
- Authority
- CN
- China
- Prior art keywords
- field
- root
- mapped
- data table
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及开发辅助领域,具体公开了一种数据表管理方法、装置、设备及存储介质,所述方法包括:对数据表的表字段进行扫描检测,以确定表字段中的待映射字段;确定待映射字段与预先构建的词根库中多个字段的语义相似度,以根据语义相似度确定预先构建的词根库中是否存在待映射字段的匹配字段;若存在与待映射字段匹配的匹配字段,则调用匹配字段的英文词根作为待映射字段的英文词根;若不存在与待映射字段匹配的匹配字段,则按照预先构建的词根库的词根映射规则对待映射字段进行词根映射,得到英文词根;根据英文词根对待映射字段进行替换,得到替换后的数据表,以对数据表进行管理。对表字段进行统一,以便于数据平台对数据表的管理。
Description
技术领域
本申请涉及元数据管理领域,尤其涉及一种数据表管理方法、装置、设备及存储介质。
背景技术
目前,随着数据多样性的增加,数据表的数量也日益增多,因此,可以通过数据管理平台查询各个数据表的字段名、注释信息和数据表之间的血缘关系等等。
但在实际使用过程中,由于一些数据表的表字段为组合长名词,篇幅较大,因此,通常会使用一些词根缩写,将一些长名词映射为短词根,以便于开发人员理解当前表字段的含义。但由于不同的开发人员对于表字段有不同的缩写习惯,并且不同的开发人员的翻译水平也不同,因此,可能会出现同一名词对应的词根缩写不同,不利于数据平台对数据表的管理。
因此,如何对表字段进行统一,以便于数据平台对数据表的管理成为亟待解决的问题。
发明内容
本申请提供了一种数据表管理方法、装置、设备及存储介质,以对表字段进行统一,以便于数据平台对数据表的管理。
第一方面,本申请提供了一种数据表管理方法,所述方法包括:
对数据表的表字段进行扫描检测,以确定所述表字段中的待映射字段;确定所述待映射字段与预先构建的词根库中多个字段的语义相似度,以根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段;若所述预先构建的词根库中存在与所述待映射字段匹配的匹配字段,则调用所述匹配字段的英文词根作为所述待映射字段的英文词根;若所述预先构建的词根库中不存在与所述待映射字段匹配的匹配字段,则按照所述预先构建的词根库的词根映射规则对所述待映射字段进行词根映射,得到英文词根;根据所述英文词根对与所述英文词根对应的待映射字段进行替换,得到替换后的数据表,以对所述数据表进行管理。
第二方面,本申请还提供了一种数据表管理装置,所述装置包括:
字段扫描模块,用于对数据表的表字段进行扫描检测,以确定所述表字段中的待映射字段;字段匹配模块,用于确定所述待映射字段与预先构建的词根库中多个字段的语义相似度,以根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段;词根调用模块,用于若所述预先构建的词根库中存在与所述待映射字段匹配的匹配字段,则调用所述匹配字段的英文词根作为所述待映射字段的英文词根;词根映射模块,用于若所述预先构建的词根库中不存在与所述待映射字段匹配的匹配字段,则按照所述预先构建的词根库的词根映射规则对所述待映射字段进行词根映射,得到英文词根;字段替换模块,用于根据所述英文词根对与所述英文词根对应的待映射字段进行替换,得到替换后的数据表,以对所述数据表进行管理。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的数据表管理方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的数据表管理方法。
本申请公开了一种数据表管理方法、装置、设备及存储介质,通过对数据表的表字段进行扫描检测,从而确定表字段中的待映射字段,再确定待映射字段与预先构建的词根库中各个字段的语义相似度,根据语义相似度确定预先构建的词根库中是否有匹配字段,若有匹配字段,则直接调用匹配字段的英文词根作为待映射字段的英文词根,若没有匹配字段,则按照预先构建的词根库的词根映射规则进行词根映射,得到英文词根,最终根据英文词根对待映射字段进行替换,得到替换后的数据表,从而对数据表进行管理。对数据表的表字段进行扫描,对数据表中的待映射字段利用统一的词根映射规则进行词根映射,从而使得映射得到的数据表的表字段的命名规范统一,并且能够对数据平台内已经进行词根映射的数据表进行检测和修正,便于数据平台对数据表的管理。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据表管理方法的示意流程图;
图2是本申请实施例提供的确定语义相似度的示意流程图;
图3是图1中提供的一种数据表管理方法的子步骤示意流程图;
图4为本申请实施例提供的一种数据表管理装置的示意性框图;
图5为本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种数据表管理方法、装置、计算机设备及存储介质。数据表管理方法可应用于数据管理平台,用于对数据管理平台内数据表的表字段进行管理,使数据表内表字段所使用的词根映射规则统一,便于管理。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种数据表管理方法的示意流程图。该数据表管理方法通过预先构建词根库,实现使数据表内表字段所使用的词根映射规则统一。
如图1所示,该数据表管理方法,具体包括:步骤S101至步骤S105。
S101、对数据表的表字段进行扫描检测,以确定所述表字段中的待映射字段。
数据管理平台内保存了多张数据表,数据管理平台对每张数据表的每个表字段分别进行扫描,从而确定每张数据表中的待映射字段。其中,待映射字段是指需要进行词根映射的字段。
在一些实施例中,待映射字段包括第一字段和/或第二字段,其中,第一字段是指尚未进行词根映射的中文字段,第二字段是指已经进行词根映射,但使用的词根映射规则并非预设的词根映射规则的字段。
在设计新的数据表时,数据表中设置的表字段都是中文字段,为了便于对数据表的管理和存储,需要将数据表中设置的中文字段进行词根映射,从而得到中文字段对应的英文词根。
在确定表字段中是否存在第一字段,也即未进行词根映射的中文字段时,例如可以通过byte的长度进行判断,由于英文的字母数字和标点符号都是一个byte,且值在0-255之间,而中文则占用2byte,因此,可以判断表字段的byte长度的特性来判断表字段中是否包括中文。此外,还可以根据中文的Unicode取值范围判断。
在确定表字段中是否存在第二字段时,可以根据表字段检索预先构建的词根库中的英文词根,以确定预先构建的词根库中的英文词根中是否有与待映射字段匹配的英文词根,若没有,则认为该表字段为待映射字段。
预先构建的词根库可以是按照预设的词根映射规则预先构建的,预先构建的词根库中保存有中文字段和与所述中文字段对应的完整英文以及英文词根,若表字段为按照预先构建的词根库的词根映射规则进行映射的,那么在预先构建的词根库中应当可以查询到该表字段,因此将数据表中的表字段与预先构建的词根库中的英文词根进行匹配,从而可以得到预先构建的词根库中是否存在该表字段,若预先构建的词根库词根库中不存在该表字段,则可以认为该表字段未按照预设的词根映射规则进行词根映射,将该表字段作为待映射字段,以便于对该表字段重新进行词根映射,使重新进行词根映射后得到的表字段符合所述预设的词根映射规则,从而使数据管理平台内的每个数据表的表字段能够统一,便于对数据表进行管理。
S102、确定所述待映射字段与预先构建的词根库中多个字段的语义相似度,以根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段。
由于预先构建的词根库中包括中文字段、中文字段对应的完整英文和英文词根,因此可以计算预先构建的词根库中的中文字段与待映射字段的语义相似度,由于计算出的语义相似度的为0到1之间的实数,当两个词语完全一样时,计算出的语义相似度为1,当两个词语是完全不同的概念时,计算出的相似度接近于0。采用语义相似度能够从预先构建的词根库中匹配出待映射字段完全相同的字段或者相似的字段,因此可以根据语义相似度确定预先构建的词根库中是否存在与待映射字段相匹配的匹配字段。
其中,与待映射字段相似的字段是指语义相似,但表述不同的字段,例如,可以是待映射字段的近义词、同义词以及与待映射字段所包括的词组顺序不同但含义相同的字段。
例如一级机构编码和机构一级编码,若待映射字段为一级机构编码,预先构建的词根库中保存有机构一级编码该字段,则可以认为机构一级编码为所述一级机构编码的相似字段。
考虑待映射字段的中文表达顺序和含义,避免同一个意思的组合词汇按照顺序造成多种表达,进而便于数据表的管理和表字段词根映射的规范。
在计算语义相似度时,需要根据待映射字段的中文含义进行计算,由于待映射字段包括第一字段和/或第二字段,因此,在一些实施例中,请参阅图2,为确定语义相似度的示意流程图,所述确定所述待映射字段与预先构建的词根库中多个字段的语义相似度,包括步骤S1021和步骤S1022:
S1021、确定所述第二字段的中文含义,以根据所述中文含义将所述第二字段转换为第一字段。
在确定第二字段的中文含义时,可以采用SQL语句查询数据表中第二字段的字段注释,从而根据字段注释确定第二字段的中文含义,并根据该中文含义将第二字段转换为第一字段。
在将第二字段转换为第一字段后,即可在预先构建的词根库中根据第一字段进行语义相似度的计算,从而确定预先构建的词根库中是否存在与第一字段匹配的字段。
S1022、确定所述第一字段与预先构建的词根库中多个字段的语义相似度。
在计算预先构建的词根库中的中文字段与待映射字段的语义相似度时,可以采用多种计算方法计算中文字段与待映射字段的语义相似度,例如,可以根据世界知识来计算,还可以利用大规模的语料库进行统计计算。
当选择根据世界知识来计算时,可以根据计算公式来计算两个词语之间的语义相似度,例如计算公式可以为其中,α为可调参数,表示当语义相似度为0.5时的词语距离值,Sim(W1,W2)表示中文字段与待映射字段之间的语义相似度,Dis(W1+W2)表示中文字段与待映射字段之间的词语距离。
通过计算语义相似度,能够在预先构建的词根库中对待映射字段进行同义词的匹配,使得待映射字段能够匹配到预先构建的词根库中的中文语义相同,但中文表述方式不同的字段,提高字段匹配的准确率。
在一些实施例中,所述根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段,包括:确定多个所述语义相似度中是否存在大于预设阈值的语义相似度;若存在大于预设阈值的语义相似度,则确定所述预先构建的词根库中存在所述待映射字段的匹配字段,并将所述语义相似度大于预设阈值的字段作为匹配字段。
预设阈值可以是预先设置好的,例如预设阈值为0.9,计算预先构建的词根库中的每个中文字段与待映射字段的语义相似度,并将计算得到的多个语义相似度与预设阈值进行比较,判断计算出的多个语义相似度中是否有大于预设阈值的,若存在大于预设阈值的语义相似度,则选择所述语义相似度大于预设阈值的中文字段作为所述待映射字段的匹配字段,并确定预先构建的词根库中存在待映射字段的匹配字段。
在一些实施例中,当大于预设阈值的语义相似度为多个时,所述将所述语义相似度大于预设阈值的字段作为匹配字段,包括:确定多个所述语义相似度中的最大值,并将所述语义相似度的最大值对应的字段作为所述待映射字段的匹配字段。
当有多个大于预设阈值的语义相似度时,确定出的匹配字段也会有多个,因此,确定出多个语义相似度中的最大值,然后将语义相似度的最大值对应的字段作为待映射字段的匹配字段。
例如,可以将语义相似度大于预设阈值的字段按照语义相似度的高低进行依次排序,进而从中确定出语义相似度的最大值对应的字段。
S103、若所述预先构建的词根库中存在与所述待映射字段匹配的匹配字段,则调用所述匹配字段的英文词根作为所述待映射字段的英文词根。
由于预先构建的词根库中保存有中文字段和与所述中文字段对应的完整英文以及英文词根,因此,若确定出预先构建的词根库中存在与待映射字段匹配的匹配字段,则可以直接调用所述匹配字段对应的英文词根,并将调用的英文词根作为待映射字段的英文词根,以使得待映射字段的英文词根是按照预设的词根映射规则进行词根映射得到的。
S104、若所述预先构建的词根库中不存在与所述待映射字段匹配的匹配字段,则按照所述预先构建的词根库的词根映射规则对所述待映射字段进行词根映射,得到英文词根。
如果预先构建的词根库中没有与待映射字段匹配的匹配字段,则可以认为所述待映射字段为新字段,需要按照预先构建的词根库中的词根映射规则对该待映射字段进行词根映射。
在一些实施例中,请参阅图3,步骤S104具体包括步骤S1041和步骤S1042。
S1041、对所述待映射字段进行拆分,以得到至少一个待映射词。
首先对待映射字段进行拆分,例如可以使用中文分词器来对待映射字段进行拆分。中文分词器可以根据待映射字段中每个字词的使用权重,自动匹配最常用的分词组合,从而完成待映射字段的拆分,得到待映射词。
S1042、获取每个所述待映射词对应的英文单词,并对所述英文单词按照缩写规则进行缩写,得到与所述待映射字段对应的英文词根。
在确定待映射词后,查询与待映射词对应的英文字段,然后按照缩写规则对英文字段进行缩写,从而得到英文词根。例如,应用系统在拆分为两个待映射词应用和系统后,对应的英文字段为application_system。按照缩写规则进行缩写,对应的英文词根为app_sys。
其中,缩写规则可以是预先设置好的,例如在对单词进行省略缩写时,应省略在辅音之后、元音之前,对于相似词可以采用压缩字母法,以避免相似词之间的冲突,对于虚词进行全部缩写,对于国家名称选择常用公知的缩写等等。
在一些实施例中,若生成的新的英文词根与预先构建的词根库中保存的已有词根相冲突,则可以由开发人员决定是否需要对新生成的英文词根进行拆分或者重新命名。
在一些实施例中,所述数据表管理方法包括:将所述待映射字段和所述待映射字段按照所述词根映射规则映射得到的英文词根共同保存至所述预先构建的词根库。
将待映射字段和与待映射字段对应的英文词根保存在预先构建的词根库中,以扩充预先构建的词根库的内容,在以后对同一待映射字段进行翻译时,可以直接从词根库中调用,不需再进行拆分映射,提高使用的便捷度和词根映射的速度。
S105、根据所述英文词根对与所述英文词根对应的待映射字段进行替换,得到替换后的数据表,以对所述数据表进行管理。
在对待映射字段进行词根映射,得到对应的英文词根后,即可根据得到的英文词根自动对数据表中的待映射字段进行替换,得到替换后的数据表,替换后的数据表中的表字段均是按照预设的词根映射规则进行词根映射得到的,实现对数据表的管理。
在一些实施例中,所述数据表管理方法包括:对所述替换后的数据表进行标记;所述对数据表的表字段进行扫描检测,包括:对未标记的数据表的表字段进行扫描检测。
在对数据表中的表字段进行词根映射和表字段的替换后,将替换后的数据表进行保存,并且在保存时对该替换后的数据表进行标记,从而表示该数据表内的表字段为按照预设的词根映射规则进行词根映射得到的,在数据平台对数据表进行管理时,不需要再对该数据表进行表字段的扫描和检测。
而数据平台再对数据表的表字段进行扫描检测时,可以仅对未标记的数据表的表字段进行扫描检测,以检测未标记的数据表中的待映射字段,并将数据表中的待映射字段按照预设的词根映射规则进行词根映射和替换,得到替换后的数据表。数据平台可以基于此对数据平台内保存的所有数据表进行表字段的检查和修正,使数据平台内所有数据表的表字段都符合预设的词根映射规则,将表字段进行统一。
在对替换后的数据表进行标记时,例如可以在保存数据表进行命名时,在命名中加入标记,以表示该数据表为替换后的数据表。
上述实施例提供的数据表管理方法,通过对数据表的表字段进行扫描检测,从而确定表字段中的待映射字段,再确定待映射字段与预先构建的词根库中各个字段的语义相似度,根据语义相似度确定预先构建的词根库中是否有匹配字段,若有匹配字段,则直接调用匹配字段的英文词根作为待映射字段的英文词根,若没有匹配字段,则按照预先构建的词根库的词根映射规则进行词根映射,得到英文词根,最终根据英文词根对待映射字段进行替换,得到替换后的数据表,从而对数据表进行管理。对数据表的表字段进行扫描,对数据表中的待映射字段利用统一的词根映射规则进行词根映射,从而使得映射得到的数据表的表字段的命名规范统一,并且能够对数据平台内已经进行词根映射的数据表进行检查和修正,便于数据平台对数据表的管理。
请参阅图4,图4是本申请的实施例还提供一种数据表管理装置的示意性框图,该数据表管理装置用于执行前述的数据表管理方法。其中,该数据表管理装置可以配置于服务器或终端中。
其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图4所示,数据表管理装置200包括:字段扫描模块201、字段匹配模块202、词根调用模块203、词根映射模块204和字段替换模块205。
字段扫描模块201,用于对数据表的表字段进行扫描检测,以确定所述表字段中的待映射字段。
字段匹配模块202,用于确定所述待映射字段与预先构建的词根库中多个字段的语义相似度,以根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段。
其中,字段匹配模块202包括字段转换子模块2021和相似度计算子模块2022。
具体地,字段转换子模块2021,用于确定所述第二字段的中文含义,以根据所述中文含义将所述第二字段转换为第一字段;相似度计算子模块2022,用于确定所述第一字段与预先构建的词根库中多个字段的语义相似度。
词根调用模块203,用于若所述预先构建的词根库中存在与所述待映射字段匹配的匹配字段,则调用所述匹配字段的英文词根作为所述待映射字段的英文词根。
词根映射模块204,用于若所述预先构建的词根库中不存在与所述待映射字段匹配的匹配字段,则按照所述预先构建的词根库的词根映射规则对所述待映射字段进行词根映射,得到英文词根。
其中,词根映射模块204包括字段拆分子模块2041和单词缩写子模块2042。
具体地,字段拆分子模块2041,用于对所述待映射字段进行拆分,以得到至少一个待映射词;单词缩写子模块2042,用于获取每个所述待映射词对应的英文单词,并对所述英文单词按照缩写规则进行缩写,得到与所述待映射字段对应的英文词根。
字段替换模块205,用于根据所述英文词根对与所述英文词根对应的待映射字段进行替换,得到替换后的数据表,以对所述数据表进行管理。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的数据表管理装置和各模块的具体工作过程,可以参考前述数据表管理方法实施例中的对应过程,在此不再赘述。
上述的数据表管理装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
参阅图5,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种数据表管理方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种数据表管理方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
对数据表的表字段进行扫描检测,以确定所述表字段中的待映射字段;确定所述待映射字段与预先构建的词根库中多个字段的语义相似度,以根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段;若所述预先构建的词根库中存在与所述待映射字段匹配的匹配字段,则调用所述匹配字段的英文词根作为所述待映射字段的英文词根;若所述预先构建的词根库中不存在与所述待映射字段匹配的匹配字段,则按照所述预先构建的词根库的词根映射规则对所述待映射字段进行词根映射,得到英文词根;根据所述英文词根对与所述英文词根对应的待映射字段进行替换,得到替换后的数据表,以对所述数据表进行管理。
在一个实施例中,所述待映射字段包括第一字段和/或第二字段;所述处理器在实现所述确定所述待映射字段与预先构建的词根库中多个字段的语义相似度时,用于实现:
确定所述第二字段的中文含义,以根据所述中文含义将所述第二字段转换为第一字段;确定所述第一字段与预先构建的词根库中多个字段的语义相似度。
在一个实施例中,所述处理器在实现所述根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段时,用于实现:
确定多个所述语义相似度中是否存在大于预设阈值的语义相似度;若存在大于预设阈值的语义相似度,则确定所述预先构建的词根库中存在所述待映射字段的匹配字段,并将所述语义相似度大于预设阈值的字段作为匹配字段。
在一个实施例中,所述大于预设阈值的语义相似度为多个;所述处理器在实现所述将所述语义相似度大于预设阈值的字段作为匹配字段时,用于实现:
确定多个所述语义相似度中的最大值,并将所述语义相似度的最大值对应的字段作为所述待映射字段的匹配字段。
在一个实施例中,所述处理器在实现所述按照所述预先构建的词根库的词根映射规则对所述待映射字段进行词根映射时,用于实现:
对所述待映射字段进行拆分,以得到至少一个待映射词;获取每个所述待映射词对应的英文单词,并对所述英文单词按照缩写规则进行缩写,得到与所述待映射字段对应的英文词根。
在一个实施例中,所述处理器用于实现:将所述待映射字段和所述待映射字段按照所述词根映射规则映射得到的英文词根共同保存至所述预先构建的词根库。
在一个实施例中,所述处理器用于实现:对所述替换后的数据表进行标记;所述处理器在实现所述对数据表的表字段进行扫描检测时,用于实现:对未标记的数据表的表字段进行扫描检测。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项数据表管理方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据表管理方法,其特征在于,包括:
对数据表的表字段进行扫描检测,以确定所述表字段中的待映射字段;
确定所述待映射字段与预先构建的词根库中多个字段的语义相似度,以根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段;
若所述预先构建的词根库中存在与所述待映射字段匹配的匹配字段,则调用所述匹配字段的英文词根作为所述待映射字段的英文词根;
若所述预先构建的词根库中不存在与所述待映射字段匹配的匹配字段,则按照所述预先构建的词根库的词根映射规则对所述待映射字段进行词根映射,得到英文词根;
根据所述英文词根对与所述英文词根对应的待映射字段进行替换,得到替换后的数据表,以对所述数据表进行管理。
2.根据权利要求1所述的数据表管理方法,其特征在于,所述待映射字段包括第一字段和/或第二字段;所述确定所述待映射字段与预先构建的词根库中多个字段的语义相似度,包括:
确定所述第二字段的中文含义,以根据所述中文含义将所述第二字段转换为第一字段;
确定所述第一字段与预先构建的词根库中多个字段的语义相似度。
3.根据权利要求1所述的数据表管理方法,其特征在于,所述根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段,包括:
确定多个所述语义相似度中是否存在大于预设阈值的语义相似度;
若存在大于预设阈值的语义相似度,则确定所述预先构建的词根库中存在所述待映射字段的匹配字段,并将所述语义相似度大于预设阈值的字段作为匹配字段。
4.根据权利要求3所述的数据表管理方法,其特征在于,所述大于预设阈值的语义相似度为多个;所述将所述语义相似度大于预设阈值的字段作为匹配字段,包括:
确定多个所述语义相似度中的最大值,并将所述语义相似度的最大值对应的字段作为所述待映射字段的匹配字段。
5.根据权利要求1所述的数据表管理方法,其特征在于,所述按照所述预先构建的词根库的词根映射规则对所述待映射字段进行词根映射,包括:
对所述待映射字段进行拆分,以得到至少一个待映射词;
获取每个所述待映射词对应的英文单词,并对所述英文单词按照缩写规则进行缩写,得到与所述待映射字段对应的英文词根。
6.根据权利要求1所述的数据表管理方法,其特征在于,所述方法包括:
将所述待映射字段和所述待映射字段按照所述词根映射规则映射得到的英文词根共同保存至所述预先构建的词根库。
7.根据权利要求1所述的数据表管理方法,其特征在于,所述方法包括:
对所述替换后的数据表进行标记;
所述对数据表的表字段进行扫描检测,包括:
对未标记的数据表的表字段进行扫描检测。
8.一种数据表管理装置,其特征在于,包括:
字段扫描模块,用于对数据表的表字段进行扫描检测,以确定所述表字段中的待映射字段;
字段匹配模块,用于确定所述待映射字段与预先构建的词根库中多个字段的语义相似度,以根据所述语义相似度确定所述预先构建的词根库中是否存在所述待映射字段的匹配字段;
词根调用模块,用于若所述预先构建的词根库中存在与所述待映射字段匹配的匹配字段,则调用所述匹配字段的英文词根作为所述待映射字段的英文词根;
词根映射模块,用于若所述预先构建的词根库中不存在与所述待映射字段匹配的匹配字段,则按照所述预先构建的词根库的词根映射规则对所述待映射字段进行词根映射,得到英文词根;
字段替换模块,用于根据所述英文词根对与所述英文词根对应的待映射字段进行替换,得到替换后的数据表,以对所述数据表进行管理。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的数据表管理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的数据表管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010901626.5A CN112035480A (zh) | 2020-08-31 | 2020-08-31 | 数据表管理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010901626.5A CN112035480A (zh) | 2020-08-31 | 2020-08-31 | 数据表管理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112035480A true CN112035480A (zh) | 2020-12-04 |
Family
ID=73587259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010901626.5A Pending CN112035480A (zh) | 2020-08-31 | 2020-08-31 | 数据表管理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112035480A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597154A (zh) * | 2020-12-11 | 2021-04-02 | 广州橙行智动汽车科技有限公司 | 一种数据的存储方法、装置、电子设备、可读介质 |
CN112650791A (zh) * | 2020-12-29 | 2021-04-13 | 招联消费金融有限公司 | 字段处理方法、装置、计算机设备和存储介质 |
CN114385623A (zh) * | 2021-11-30 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 数据表获取方法、设备、装置、存储介质及程序产品 |
CN114513552A (zh) * | 2022-01-06 | 2022-05-17 | 中信百信银行股份有限公司 | 数据处理方法、装置、设备及存储介质 |
-
2020
- 2020-08-31 CN CN202010901626.5A patent/CN112035480A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597154A (zh) * | 2020-12-11 | 2021-04-02 | 广州橙行智动汽车科技有限公司 | 一种数据的存储方法、装置、电子设备、可读介质 |
CN112650791A (zh) * | 2020-12-29 | 2021-04-13 | 招联消费金融有限公司 | 字段处理方法、装置、计算机设备和存储介质 |
CN112650791B (zh) * | 2020-12-29 | 2023-12-26 | 招联消费金融有限公司 | 字段处理方法、装置、计算机设备和存储介质 |
CN114385623A (zh) * | 2021-11-30 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 数据表获取方法、设备、装置、存储介质及程序产品 |
CN114513552A (zh) * | 2022-01-06 | 2022-05-17 | 中信百信银行股份有限公司 | 数据处理方法、装置、设备及存储介质 |
CN114513552B (zh) * | 2022-01-06 | 2024-04-02 | 中信百信银行股份有限公司 | 数据处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035480A (zh) | 数据表管理方法、装置、设备及存储介质 | |
WO2021164231A1 (zh) | 公文摘要提取方法、装置、设备及计算机可读存储介质 | |
CN107967135B (zh) | 计算引擎实现方法、电子装置及存储介质 | |
CN109933571B (zh) | 数据库设计文档生成方法、装置及计算机可读存储介质 | |
US20080208566A1 (en) | Automated word-form transformation and part of speech tag assignment | |
CN111611813B (zh) | 文档翻译方法、装置、电子设备及存储介质 | |
US20210110111A1 (en) | Methods and systems for providing universal portability in machine learning | |
CN114741070A (zh) | 代码生成方法、装置、电子设备及存储介质 | |
CN113157854B (zh) | Api的敏感数据泄露检测方法及系统 | |
CN111949550B (zh) | 自动生成测试数据的方法、装置、设备及存储介质 | |
CN110941951A (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN110175128B (zh) | 一种相似代码案例获取方法、装置、设备和存储介质 | |
CN111126010A (zh) | Freemaker模板文件修复方法、装置、计算机设备及存储介质 | |
CN110888876A (zh) | 生成数据库脚本的方法、装置、存储介质及计算机设备 | |
CN113535642A (zh) | 一种文件搜索方法及计算设备 | |
CN112015831A (zh) | 基于c语言对关系型数据库进行操作的方法、装置及设备 | |
WO2021072872A1 (zh) | 基于字符转换的姓名存储方法、装置、计算机设备 | |
CN115906817A (zh) | 一种跨语言环境的关键字匹配方法、装置及电子设备 | |
CN111831659B (zh) | 一种检查索引的方法、装置及计算设备 | |
CN114416847A (zh) | 一种数据转换的方法、装置、服务器及存储介质 | |
CN113609128A (zh) | 生成数据库实体类的方法、装置、终端设备及存储介质 | |
CN114238334A (zh) | 异构数据编码、解码方法和装置、计算机设备和存储介质 | |
CN110471901B (zh) | 数据导入方法及终端设备 | |
CN110427172A (zh) | 浮点数处理方法、装置、设备及计算机可读存储介质 | |
CN111191473B (zh) | 一种翻译文本文件获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |