CN111061742B - 用于标记数据的方法、装置及其服务系统 - Google Patents
用于标记数据的方法、装置及其服务系统 Download PDFInfo
- Publication number
- CN111061742B CN111061742B CN201911352052.4A CN201911352052A CN111061742B CN 111061742 B CN111061742 B CN 111061742B CN 201911352052 A CN201911352052 A CN 201911352052A CN 111061742 B CN111061742 B CN 111061742B
- Authority
- CN
- China
- Prior art keywords
- field
- data
- rule
- semantic library
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用于标记数据的方法、装置、数据服务系统及其计算机可读存储介质。所述数据服务系统包括数据库和语义库,所述数据库包括多个数据表而所述语义库包括多个字段规则,所述方法包括:判断所述数据表中的字段是否存在对应的字段名称;当判断所述字段不存在对应的字段名称时,根据所述字段查找所述语义库中的字段规则,以确定与所述字段规则相关联的字段名称;以及将确定的所述字段名称标记至所述数据表。通过本发明可以确认数据表中字段的类型并加上对应的字段名称,以加速后续数据的速度和准确度。
Description
技术领域
本发明一般地涉及数据库技术领域。更具体地,本发明涉及一种通过数据服务系统执行数据标记的方法、装置、服务系统及其计算机可读存储介质。
背景技术
面对越来越庞大的数据和多样的数据来源,如何准确且快速的进行数据识别是数据库技术领域里相当重要的课题。然而,现有数据库在读取或整合多个数据表前,通常需要花费相当长的时间来进行数据表的识别操作。目前,针对数据表识别的作法是先确认数据表中的备注栏是否已经有被写入内容。如果数据表的字段没有预先在备注栏中写入与有关数据表的字段对应的备注内容,则必须要通过人工去进行查找并加注。即便有些数据表内的字段已带有备注,但也有可能因为备注的语法未统一,以至于存在有些字段虽然具有相同属性但却有不同备注的情形发生。由于前述原因,可能会造成数据识别的困难度或错误率增加。
发明内容
为了至少部分地解决背景技术中提到的技术问题,本发明的方案提供了一种通过数据服务系统执行数据标记的方法、装置、系统及其计算机可读存储介质。
在一个方面中,本发明提供通过数据服务系统执行数据标记的方法,其中所述数据服务系统包括数据库和语义库,所述数据库包括多个数据表而所述语义库包括多个字段规则,所述方法包括:判断所述数据表中的字段是否存在对应的字段名称;当判断所述字段不存在对应的字段名称时,根据所述字段查找所述语义库中的字段规则,以确定与所述字段规则相关联的字段名称;以及将确定的所述字段名称标记至所述数据表。
在一个实施例中,所述语义库包括常规语义库或行业语义库,并且其中所述字段名称包括用于表达所述字段的属性或类型的信息。
在一个实施例中,上述方法进一步包括:在所述常规语义库或行业语义库中确定与所述数据表和字段具有不同相似度的多个相似数据表和字段;从所述多个相似数据表和字段中选取一个作为参考数据表和字段;以及将与所述参考数据表和字段关联的字段名称标记到所述数据表。
在另一个实施例中,所述字段规则还包括对所述字段名称的说明和字段规则的描述中的至少一个,并且所述数据表包括用于写入所述字段名称的备注栏。
在又一个实施例中,查找所述语义库中的字段规则包括利用自然语言处理技术来查找所述语义库中的字段规则。
在又一个实施例中,上述方法进一步包括:当判断所述字段存在对应的字段名称时,根据所述字段查找所述语义库中的字段规则;判断所述对应的字段名称是否符合所述字段规则;以及当判断所述对应的字段名称不符合所述字段规则,则以与所述字段规则相关联的字段名称更新所述对应的字段名称。
在另一方面中,本发明提供应用于数据服务系统的数据标记装置,其中所述数据服务系统包括数据库,该数据库包括多个数据表,所述数据标记装置包括:语义库,其配置成存储多个字段规则;判断模块,其配置成判断所述数据表中的字段是否存在对应的字段名称;确定模块,其配置成根据所述字段查找所述语义库中的字段规则,以确定与所述字段规则相关联的字段名称;以及标记模块,其配置成将确定的所述字段名称标记至所述数据表。
在又一方面中,本发明提供一种数据服务系统,包括数据库和数据标记装置,其中数据库包括多个数据表,所述数据标记装置包括:语义库,其配置成存储多个字段规则;判断模块,其配置成判断所述数据表中的字段是否存在对应的字段名称;确定模块,其配置成根据所述字段查找所述语义库中的字段规则,以确定与该字段规则相关联的字段名称;以及标记模块,其配置成将确定的所述字段名称标记至所述数据表。
在又一方面中,本发明提供一种通过数据服务系统执行数据标记的设备,其中所述数据服务系统包括数据表和语义库,所述设备包括:至少一个处理器;至少一个存储器,其存储有计算机程序指令,当所述计算机程序指令由所述至少一个处理器执行时,使得所述设备执行上述的方法。
在又一方面中,本发明提供一种计算机可读存储介质,其包括用于通过数据服务系统执行数据标记的计算机程序,当所述计算机程序由处理器运行时,执行上述的方法。
利用本发明上述的数据标记方法、装置、数据服务系统及其计算机可读存储介质,可以自动确认数据表中字段的类型并添加上对应的字段名称,从而加速后续数据标记的速度和准确度。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述和其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的数据服务系统的功能方框图;
图2是示出根据本发明实施例的数据服务系统的方框图;
图3是示出根据本发明实施例的常规语义库的字段规则表;
图4是示出根据本发明实施例的行业语义库的字段规则表;
图5是示出根据本发明实施例的数据标记方法的流程图;
图6是示出根据本发明另一实施例的数据标记方法的流程图;以及
图7是示出根据本发明又一实施例的数据标记方法的流程图。
具体实施方式
本发明的技术方案在整体上提供一种用于标记数据的方法、装置、服务系统和计算机可读存储介质。不同于现有技术需借助人工识别的技术手段,本发明通过搜寻数据表中的字段注释,以进行识别,并提供了预先存储多个字段规则的语义库,针对未被标注的数据表自动侦测并添加字段名称,以达到自动标注的目的。
下面将结合附图对本发明的技术方案及其多个实施例进行详细的描述。
图1是示出根据本发明实施例的数据服务系统100的功能方框图。如图1中所示,本发明的数据服务系统100根据功能和作用可以划分为数据层110和应用层120,其中数据层可以用于对数据进行识别和保存。在一个或多个实施例中,应用层根据功能和作用可以划分成三个功能块,分别为任务管理122、分析工具124和系统管理126。下面将针对各个功能块进行详细地说明:
对于任务管理功能块122,其主要功能贯穿整个数据分析过程,并且其具体操作可以包括但不限于:对任务进行新建、查看、删除、导入、导出和分享等任务操作,并且前述的任务内容可以包括数据连接、抽取配置、分析配置、模板识别、代码表识别、日志表识别、表字段识别、自动分析关系识别、数据标签识别、数据处理配置、任务启动和任务日志等与表关系建立有关的识别工作。任务完成后的结果可以通过在数据中加入标记或建立表关系来展示。
对于分析工具功能块124,其主要功能涉及对自动执行完成后的结果(表关系)再次进行分析,包括:过滤空表、过滤空字段、数据表分析、表字段分析、表关系分析、表字段检索、表检索、表字段值检索等分析。由此,可以验证自动分析的准确性,以及进一步深层次分析数据表关系以及字段值注释。
对于系统管理功能块126,其主要功能涉及用户登录操作和用户管理,其中用户管理的主要功能包括:任务执行时的消息提醒和操作日志查看、修改登录密码、切换用户登录、帮助文档查看等内容。另外,系统管理还用于执行针对数据语义库和行业语义库的后续信息的更新与维护。在一些实施例中,数据库设置和系统设置等功能也可以由系统管理功能块来执行。
通过上述的描述,本领域技术人员可以对本发明的数据服务系统有清晰的理解,本发明的标记方案主要涉及该数据服务系统中的任务管理功能块中的表标记操作,并且其中所涉及到的语义库的设置和维护则是在系统管理功能块中进行的。以下将针对本发明的标记方案结合具体实施例来详细描述。
图2是示出根据本发明实施例的一种数据服务系统200,其可以是图1所示出的数据服务系统的一部分或其简化版本。如图2所示,数据服务系统200可以包括数据库210和数据标记装置220。尽管在图2中仅示出一个数据库210,但可以理解的是数据服务系统也可以包括多个数据库,并且每个数据库内都存储有多个数据表,例如所示出的数据表A、数据表B、数据表C。在一个实施例中,本发明所使用的数据库是结构性数据库,其优势在于结构性数据库的数据表里的每个字段列都会包括有备注栏,而该备注栏可以用来标识字段的类型。关于该标注方法的说明将在稍后展开描述。
在一些实施例中,本发明的数据库可以使用SQL server(Structured QueryLanguage Server,结构化查询语言服务器)。通过使用SQL语言,可以实现向数据库执行查询、从数据库取回数据、在数据库中插入新的记录、更新数据库中的数据、从数据库删除记录、创建新数据库、在数据库中创建新表、在数据库中创建存储过程、在数据库中创建视图或者设置表、存储过程和视图的权限。在另外一些实施例中,本发明的数据库可以使用redis(Remote Dictionary Server,远程字典服务器)。具体地,redis是数据结构服务器,其支持数据的持久化,并且可以将内存中的数据保存在磁盘中,并在重启的时候可以再次加载来使用。基于上述描述,本领域技术人员可以理解本发明的数据库可以使用现有的或未来开发的各类数据库管理系统,只要该数据库管理系统可以为结构化数据提供安全可靠的存储功能即可。
进一步,数据服务系统200中的数据标记装置220可以包括判断模块222、语义库224、确定模块226和标记模块228。根据本发明的实施例,语义库可以通过业务类别划分为常规语义库、行业语义库等各类语义库,并且数据标记装置中可以包括一个或多个前述的各类语义库。在一种实施方式中,根据数据表的使用方式,每个语义库预先存储有多个字段规则(如图2中所示出的字段规则a1、字段规则b1、字段规则c1、字段规则a2、字段规则b2、字段规则c2等),并且这些字段规则可以根据不同的字段属性来定义。在一些实施例中,字段规则还可以包括对字段名称的说明和字段规则的描述中的至少一个,并且数据表可以包括用于写入字段名称的备注栏。
在一个实施例中,数据标记装置中的判断模块可以接收来自数据库中的一个或多个数据表,并且判断所述数据表中的字段是否存在对应的字段名称,其中字段名称包括用于表达字段的属性或类型的信息。在一些场景中,由于多个数据表可能属于具有多个不同属性的多个数据库,所以数据表也可能因为包括多种不同类型的数据而具有不同的类型,例如数据表可以是个人简历表、公司财务表、进出口货物报表……等类型的数据表,其中数据表可以保存有多组字段,并且在一些场景下还包括对应的字段名称,这些字段和对应的字段名称可以用来提供给数据服务系统以执行后续数据识别。
进一步,当判断模块222判断数据表中的字段不存在对应的字段名称时,确定模块226将根据数据表中的字段来查找语义库中与该字段所对应的字段规则,从而确定与该字段规则相关联的字段名称。当确定了该字段名称时,标记模块228可以将确定的字段名称标记至所述数据表,以方便更好的理解和整合所有相关的数据表或字段。
图3是示出根据本发明实施例的常规语义库的字段规则表300。可以理解的是这里所示出的常规语义库的字段规则表仅仅是示例性的而非限制性的,并且也不用于限制本发明的保护范围。
如图3所示,本发明所公开的字段规则表300包括有编号、字段(示例)、字段名称、说明、字段规则描述等栏位。具体地,该表300中的“编号”代表每个字段规则的排序编号,例如图中所示出的“字段规则a1”、“字段规则b1”、……“字段规则f1”。“字段”一栏给出了本发明的范例以方便理解,例如图中所示出的“张三”、“22”、“100101198101011070”、“19971108”、“男”和“13811111111”。“字段名称”栏表示“字段”栏的属性或被归类的类型,一般通过字段名称就可以很清楚的理解所对应的字段的性质或类别。例如,对于字段“张三”,其对应的字段名称就是“姓名”,对于字段“22”,其对应的字段名称就是“年龄”,对于字段“100101198101011070”,其对应的字段名称就是“身份证号”,……,以此类推。“说明”栏可以用来解释每个字段名称的含义。例如,如图中所示,“说明”栏中的“人员身份标识”可以用于解释字段名称“姓名”的含义,而“说明”栏中的“人员身份证件号码”可以用于解释字段名称“身份证号”的含义。最后,“字段规则描述”用于清楚地定义字段的组成结构。在一个实施例中,通过组成结构的分析可以容易判定字段应该被归类为哪个字段名称。例如,当某个字段的字段规则描述是“取值1-120之间的数字”时,则可以将字段“22”归类于“年龄”这一“字段名称”下。
通过阅读图3示例性数据表所示出的内容,本领域技术人员可以理解该字段规则表300所披露的是针对个人身份材料的数据集。根据字段规则的定义,可以判断出每个字段的字段名称。以下将对图中所示的不同字段规则进行进一步解释:
1.对于字段规则a1,当“字段名称”为“姓名”时的判断:一般人名多为2-4个中文字所组成,但考虑到有些少数民族的姓氏较长,因此可以将字段规则范围加大为2-10个中文字。本表300示例中的姓名为“张三”,为2个中文字,符合“字段名称”为“姓名”的定义。
2.对于字段规则b1,当“字段名称”为“年龄”时的判断:考虑到正常人寿命通常取1-120之间的数字,数字字段值长度1-3位。本表300示例年龄为22,符合“字段名称”为“年龄”的定义。
3.对于字段规则c1,当“字段名称”为“身份证号”时的判断:中国的身份证号通常为18个数字的长度。本表300示例中的身份证号“100101198101011070”为18个数字,符合“字段名称”为“身份证号”的定义。
4.对于字段规则d1,当“字段名称”为“生日”时的判断:由西元年四个数字+月份二个数字+日二个数字共8个数字所组成。本表300示例中的生日“19971108”为8个数字,符合“字段名称”为“生日”的定义。
5.对于字段规则e1,当“字段名称”为“性别”时的判断:由字段为“男或女”便可识别。本表300示例中的性别为男,符合“字段名称”为“性别”的定义。
6.对于字段规则f1,当“字段名称”为“联系电话”时的判断:市话号码为7-8位,手机号码为13位,因此取全部数字组成7-8位或13位为判断基准。本表300示例中的联系电话为“1381111111111”共13位数字,应为手机号码,符合“字段名称”为“联系电话”的定义。
除了提供针对上述常规语义库的字段规则表之外,本发明的方案还可以提出针对不同行业类型所规范的行业语义库来提供类似的字段规则表。
图4是示出根据本发明实施例的行业语义库的字段规则表400,其与图3所示的字段规则表类似,同样也包括编号、字段(示例)、字段名称、说明、字段规则描述等栏位。具体地,该表400中的“编号”代表每个字段规则的排序编号,“字段”一栏给出了本发明的示例以便于理解,“字段名称”栏表示“字段”的属性或被归类的类型。根据本发明的方案,通过字段名称,用户可以很清楚的理解所对应的字段的性质或类别。“说明”栏可以用来解释每个字段名称的含义。“字段规则描述”可以清楚地定义字段的组成结构。根据本发明的方案,通过组成结构的分析可以容易判定字段应被归类为哪个字段名称下。
根据表400中所示具体内容可以看出,该表400主要是选用财务部相关的数据材料,根据字段规则的定义,可以判断出每个字段所对应的字段名称。以下将对图中所示出的不同字段规则进行进一步解释:
1.对于字段规则a2,当“字段名称”为“总指标编号”时的判断:属于字符型由数字组成。本表400示例中的总指标编号为324033,为6个数字,符合“字段名称”为“总指标编号”的定义。
2.对于字段规则b2,当“字段名称”为“指标文号”时的判断:带有当地简称、年度、编号组成,本表400示例中的指标文号为文财预(2017)8号,“文财预”为当地简称,(2017)代表年度,8号为编号,符合“字段名称”为“指标文号”的定义。
3.对于字段规则c2,当“字段名称”为“功能科目”时的判断:涉及资金使用方向,要根据财政部每年发布标准来判断。本表400示例中的“2300214企业事业单位划转补助支出”牵涉资金使用方向,符合“字段名称”为“功能科目”的定义。
4.对于字段规则d2,当“字段名称”为“经济科目”时的判断:涉及资金使用用途,要根据财政部每年发布标准来判断。本表400示例中的“301工资福利支出”牵涉资金使用用途,符合“字段名称”为“经济科目”时的定义。
5.对于字段规则e2,当“字段名称”为“资金性质”时的判断:区分财政四大本预算。本表400示例中的“11公共预算”牵涉资金属性,符合“字段名称”为“资金性质”的定义。
6.对于字段规则f2,当“字段名称”为“预算项目”时的判断:主要有关项目经费,本表400示例中的“123456760年度预算安排项目经费”有提到项目经费,符合“字段名称”为“预算项目”的定义。
可以理解的是图3和图4所示出的常规语义库和行业语义库的字段规则表仅仅是实施本发明方案的一个示例,本领域技术人员基于此处的教导也可以想到使用其他性质的语义库的字段规则表来实施本发明的方案。
为了更好的理解本发明的数据表内容,下表1是示出根据本发明实施例的个人简历表单。该表的主要目的是为了示例性公开本实施中字段与字段名称位于表单中的记录位置,因此此表仅列出几个相关栏,以避免不必要地混淆本发明的方案。根据不同表单的设计,在“字段名”栏会有中英译文记载的差异,有可能中文和英文栏位择一被写入,也可能是中文和英文栏同时都被写入,而在“字段值”栏的部分用于记载个人相关材料。
在一个实施例中,本发明使用的数据表是结构化数据。结构化数据的特点是在表单里具有至少一个“备注”栏,并且在一些应用场景中,本发明可以通过识别“备注”栏是否有被填写备注信息,从而判断是否表单是否有被标记。
表1个人简历表单
字段名 | 字段值 | 备注 |
name | 张三 | 姓名 |
age | 22 | 年龄 |
ID | 100101198101011070 | 身份证号 |
date of birth | 19971108 | 生日 |
Gender | 男 | 性别 |
Telephone | 1381111111111 | 联系电话 |
图5是示出根据本发明实施例的数据标记方法500的流程图。如前所述,本公开的方案可以用于数据服务系统,该数据服务系统可以包括数据库和数据标记装置,其中数据标记装置包括语义库,如前结合图2所描述的内容。下面将针对数据标记方法的具体流程进行阐述。
如图5所示,在步骤511处,方法500在接收到数据表后判断所述数据表中的每个字段是否都有对应的字段名称。在一些实施例中,该判断可以是判断在字段同列的备注栏(备注栏常排在字段栏后)中是否有字段名称。在一些场景中,有些数据库的表单的备注栏是被隐藏的,这就需要通过系统设定来让备注栏显示出来。接着,在步骤512处,方法500根据字段查找语义库中的字段规则。具体地,在一个实施例中,方法500在判断备注栏后,如果字段对应的备注栏是空白的。换句话说,该字段的备注栏还没有记录任何的字段名称。此时,方法500将为字段确定一个适当的或正确的字段名称并将该字段名称写入到备注栏中。不同于现有技术的经由人工逐一进行查找和判断字段名称,本发明的方案实现了自动化的查找和确定字段名称的过程,从而避免了现有技术中由于过程繁琐、写入时间或填写者的差异,从而造成备注里的字段名称不一致的问题。
为了能辅助查找到适当的或正确的字段名称,本发明提供了一个或多个语义库。通过该一个或多个语义库,方法500可以自动执行查找,并且通过使用习惯和行业标准规则的定义,来使得每个字段可以具有清楚且对应的字段名称。进一步,基于语义库里内建的字段规则,方法500也使得本发明的数据服务系统能够准确无误地找到与字段相对应的字段名称。总之,只要方法500确认数据表中的字段并没列出相对应的字段名称时,便会自动通过查找语义库中的字段规则,以找出该字段所对应的字段名称。
进一步,在步骤513处,方法500通过字段规则可以识别该字段属于哪种字段名称或者说与哪一个字段名称相对应,并根据所述字段规则标注在数据表中。如前所述,在图3所示的例子中,该确定的字段名称可以是个人姓名、身份证号、出生日期、注释或外文译文中的一项或多项。在一些实施例中,每个字段可以具有各自的备注栏,该备注栏可以在数据表中以可视或隐藏的方式存在。基于该备注栏,当方法500找出字段所对应的字段名称时,就可以将字段所对应的字段名称标记至数据表中该字段所对应的备注栏里。最后,在步骤514处,方法500将标记后的数据表存储至数据库中,以便用于后续的数据分析操作。
上面结合图1-图5所描述的方案主要涉及的是数据表中存在有备注栏的字段,但没有相对应的字段名称的情形。附加地,本发明的方案同样涉及另外一种场景,即字段的备注栏记载有内容,但该内容由于各种原因(例如:错误的分类、未统一的用语、外文的翻译……等)可能不是预期的设定内容。为了避免出现前述的问题,本发明结合图6还提出了另一种数据标记方法
图6是示出根据本发明另一实施例的数据标记方法600的流程图。如图6所示,在步骤611处,方法600读取数据表中字段的备注栏,以确认数据表中是否存在没有对应的字段名称的字段,例如备注栏还未被写入相应的字段名称。当确定字段并不存在对应的字段名称时,则流程返回到图5的方法500中的步骤512来执行后续的标记操作。相反,当在步骤611处,方法600确定备注栏中已经写入相应的内容(例如字段名称),则方法600需确认备注栏中针对字段的字段名称是否准确。为此,在步骤612处,方法600查找相对应的语义库,并根据字段查找语义库中的字段规则。如前所述,由于本发明所提供的一个或多个语义库都预先通过使用习惯和行业标准规则来定义,因此每个字段都可以具有对应的字段名称,且语义库里内建的字段规则也使得系统能准确无误地找到与字段对应的字段名称。
在步骤613处,方法600利用与所述字段相对应的字段规则来判断字段对应的字段名称是否符合规则。当字段的对应字段名称符合规则,则流程结束。相反,当对应的字段名称不符合所述字段规则时,则在步骤614处,方法600通过与字段规则关联的字段名称来更新字段的对应的字段名称,从而更新了字段的字段名称,并完成标记操作。最后在步骤615处,方法600将标记后的数据表存储至数据库中,以便后续的数据分析使用。
除了如上改正字段名称的错误外,本发明的方案还可以用于统一用语。很多数据表虽然性质相同,但因为制表人的喜好与习惯问题,即便是同一类型的数据栏,但采用的字段名称上确存在极大的差异。另外,由于因写入时间或填写者的差异也会造成备注里的字段名称存在不一致的问题。另一种常见的问题是中文或外文翻译上的差异。上述这些问题都可以通过方法600的字段规则来查找和校正,从而重新使用一个正确或翻译过的字段名称。
在一些实施例中,本发明可以利用自然语言处理(NLP,Natural LanguageProcessing)查找语义库中的字段规则,并且根据查找到的字段规则将数据表中未注记的字段加入相对应的字段名称。在一些场景中,基于大数据和用户惯性行为的用语,可以通过分析词性和语法,进而识别文本中具有特定意义的字段的处理软件,都能作为本发明具体的实施方案。
在一个或多个实施例中,本发明公开的方案的都可以通过语义库并且利用NLP算法找到相符的字段规则以作为标记的依据,但是针对部分数据表中的字段,因为数据类型涉及的范围过广或类型较为特殊,以至于难以在语义库直接查找到对应的字段规则。鉴于此,本发明进一步提出图7是示出根据本发明又一实施例的数据标记方法700的流程图。
如图7所示,在步骤711处,方法700在一个或多个数据表中读取字段和其所相应的备注栏。接着,在步骤712处,方法700判断备注栏是否已被写入字段名称,当备注栏已被写入字段名称时,则查找字段规则的操作流程结束。
相反,当备注栏未被写入字段名称时,方法700通过字段查找语义库后会出现以下两种情形:
1.无法匹配到对应的语义库,可以通过外部的语义字典再建立新的语义库(对应于步骤713处的“否”分支)
2.同时匹配到多个语义库,或是仅有局部字段可以匹配到语义库(对应于步骤713处的“是”分支)。
具体地,在步骤713处,方法700查找语义库中的一个或多个数据表和字段,以判断语义库中是否有与待标注的数据表和字段相似的一个或多个数据表和字段,如果判断语义库没有包括相似的一个或多个数数据表和字段时,将通过外部的语义字典再建立新的语义库,并且将该数据表和字段加入到新建的语义库中。
相反,当语义库中存在有与待标注的数据表和字段有不同相似度的一个或多个相似数据表和字段时,在步骤714处,方法700将从语义库中的一个或多个数据表和字段中选取一个作为参考数据表和字段。在一个实施例中,方法700可以将数据表根据前述的相似度划分为相似度90%以上、相似度50%至90%和相似度50%以下等三个区间。接着,方法700将字段与参考数据表和字段进行比较,经比较与参考数据表和字段相似度90%以上的数据表和字段用绿色标记,对于相似度50%至90%的数据表和字段用黄色标记。由于相似度50%以下的数据表和字段通常在系统中并无可参考的语义库,可以通过外部的语义字典再建立新的语义库。
在一个实施例中,针对同一张表或者字段出现两个以上的具有一定相似度的数据表和字段时,可以将相似度比较高的优先等级排在前面,比较低的优先等级排在后面,并且以“/”符号做出划分。进一步,还可以针对划分后相似度低的字段(例如相似度50%至90%),通过人工再次比较字段与字段规则后,对具有高相似度的数据表及其字段用绿色标记。相反,如经判断仍不具有相似度时(例如相似度50%以下),表示系统中并无可参考的语义库,可以通过外部的语义字典再建立新的语义库。最后,在步骤715处,针对已被标记为绿色的数据表(即步骤714中所述的选取的参数数据表和字段),方法700根据语义库中的参考数据表和字段找出关联的字段名称,并且将字段名称标记到相应的数据表中。
本发明通过数据标记技术,挑选出未被标注的数据表并自动在字段加标记,可增加数据处理的速度和准确度。另外,对于外文翻译类型的数据表,还可进行字段名称的再翻译,从而提高后续数据的整合效率。进一步,根据本方案的描述,本领域技术人员也可以想到本发明也公开了一种通过数据服务系统执行数据标记的设备,其中所述数据服务系统包括数据库和语义库,所述设备包括:至少一个处理器和至少一个存储器,该存储器存储有计算机程序指令,当所述计算机程序指令由所述至少一个处理器执行时,使得所述设备执行根据结合图5-图7所述的方法及其多个实施例。
另外,本发明也公开了一种计算机可读存储介质,其包括用于通过数据服务系统执行数据标记的计算机程序,当所述计算机程序由处理器运行时,执行根据结合图5-图7所述的方法及其多个实施例。
还应当理解,本文示例的执行指令的任何模块、单元、组件、服务器、计算机、终端或设备可以包括或以其他方式访问计算机可读介质,诸如存储介质、计算机存储介质或数据存储设备(可移除的)和/或不可移动的)例如磁盘、光盘或磁带。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性,可移动和不可移动介质,例如计算机可读指令、数据结构、程序模块或其他数据。
计算机存储介质的示例包括RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备,或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。本文描述的任何应用或模块可以使用可以由这样的计算机可读介质存储或以其他方式保持的计算机可读/可执行指令来实现。
虽然本发明的实施方式如上,但所述内容只是为便于理解本发明而采用的实施例,并非用以限定本发明的范围和应用场景。任何本发明所述技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (9)
1.一种通过数据服务系统执行数据标记的方法,其中所述数据服务系统包括数据库和语义库,所述数据库包括多个数据表而所述语义库包括多个字段规则,所述方法包括:
判断所述数据表中的字段是否存在对应的字段名称;
当判断所述字段不存在对应的字段名称时,根据所述字段查找所述语义库中的字段规则,以确定与所述字段规则相关联的字段名称;
将确定的所述字段名称标记至所述数据表;
其中所述语义库包括常规语义库或行业语义库,在所述常规语义库或行业语义库中确定与所述数据表和字段具有不同相似度的多个相似数据表和字段;
从所述多个相似数据表和字段中选取一个作为参考数据表和字段;以及
将与所述参考数据表和字段关联的字段名称标记到所述数据表。
2.根据权利要求1所述的方法,其中所述字段名称包括用于表达所述字段的属性或类型的信息。
3.根据权利要求1所述的方法,其中所述字段规则还包括对所述字段名称的说明和字段规则的描述中的至少一个,并且所述数据表包括用于写入所述字段名称的备注栏。
4.根据权利要求1所述的方法,其中查找所述语义库中的字段规则包括利用自然语言处理技术来查找所述语义库中的字段规则。
5.根据权利要求1所述的方法,进一步包括:
当判断所述字段存在对应的字段名称时,根据所述字段查找所述语义库中的字段规则;
判断所述对应的字段名称是否符合所述字段规则;以及
当判断所述对应的字段名称不符合所述字段规则,则以与所述字段规则相关联的字段名称更新所述对应的字段名称。
6.一种应用于数据服务系统的数据标记装置,其中所述数据服务系统包括数据库,该数据库包括多个数据表,所述数据标记装置包括:
语义库,其配置成存储多个字段规则;
判断模块,其配置成用于判断所述数据表中的字段是否存在对应的字段名称;
确定模块,其配置成根据所述字段查找所述语义库中的字段规则,以确定与所述字段规则相关联的字段名称;以及
标记模块,其配置成将确定的所述字段名称标记至所述数据表;
其中所述语义库包括常规语义库或行业语义库,所述确定模块在所述常规语义库或行业语义库中确定与所述数据表和字段具有不同相似度的多个相似数据表和字段,从所述多个相似数据表和字段中选取一个作为参考数据表和字段,所述标记模块将与所述参考数据表和字段关联的字段名称标记到所述数据表。
7.一种数据服务系统,包括数据库和数据标记装置,其中数据库包括多个数据表,所述数据标记装置包括:
语义库,其配置成存储多个字段规则;
判断模块,其配置成判断所述数据表中的字段是否存在对应的字段名称;
确定模块,其配置成根据所述字段查找所述语义库中的字段规则,以确定与所述字段规则相关联的字段名称;以及
标记模块,其配置成将确定的所述字段名称标记至所述数据表;
其中所述语义库包括常规语义库或行业语义库,所述确定模块在所述常规语义库或行业语义库中确定与所述数据表和字段具有不同相似度的多个相似数据表和字段,从所述多个相似数据表和字段中选取一个作为参考数据表和字段,所述标记模块将与所述参考数据表和字段关联的字段名称标记到所述数据表。
8.一种通过数据服务系统执行数据标记的设备,其中所述数据服务系统包括数据表和语义库,所述设备包括:
至少一个处理器;
至少一个存储器,其存储有计算机程序指令,当所述计算机程序指令由所述至少一个处理器执行时,使得所述设备执行根据权利要求1-5的任意一项所述的方法。
9.一种计算机可读存储介质,其包括用于通过数据服务系统执行数据标记的计算机程序,当所述计算机程序由处理器运行时,执行根据权利要求1-5的任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911352052.4A CN111061742B (zh) | 2019-12-25 | 2019-12-25 | 用于标记数据的方法、装置及其服务系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911352052.4A CN111061742B (zh) | 2019-12-25 | 2019-12-25 | 用于标记数据的方法、装置及其服务系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061742A CN111061742A (zh) | 2020-04-24 |
CN111061742B true CN111061742B (zh) | 2021-01-12 |
Family
ID=70303305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911352052.4A Active CN111061742B (zh) | 2019-12-25 | 2019-12-25 | 用于标记数据的方法、装置及其服务系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061742B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639077B (zh) * | 2020-05-15 | 2024-03-22 | 杭州数梦工场科技有限公司 | 数据治理方法、装置、电子设备、存储介质 |
CN111984631A (zh) * | 2020-09-02 | 2020-11-24 | 深圳壹账通智能科技有限公司 | 生产数据迁移方法、装置、计算机设备及存储介质 |
CN113032360A (zh) * | 2021-03-04 | 2021-06-25 | 四川瀚库智数科技有限公司 | 推测数据库字段含义的方法 |
CN114996280B (zh) * | 2022-08-01 | 2022-10-25 | 每日互动股份有限公司 | 一种数据表的字段信息纠正方法、装置、设备及介质 |
CN117708885B (zh) * | 2024-02-05 | 2024-05-28 | 盛业信息科技服务(深圳)有限公司 | 一种基于决策引擎的个人敏感信息保护控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302814A (zh) * | 2014-06-20 | 2016-02-03 | 苏州精易会信息技术有限公司 | 一种存储多个自定义字段的方法和系统 |
CN107783950A (zh) * | 2017-04-11 | 2018-03-09 | 平安医疗健康管理股份有限公司 | 药品说明书处理方法及装置 |
CN109388685A (zh) * | 2018-10-23 | 2019-02-26 | 泰华智慧产业集团股份有限公司 | 将规划行业使用的空间数据进行入库的方法和装置 |
CN110609854A (zh) * | 2019-09-19 | 2019-12-24 | 深圳前海环融联易信息科技服务有限公司 | 字段名查询方法、系统、电子设备及计算机存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11068487B2 (en) * | 2015-09-08 | 2021-07-20 | Amazon Technologies, Inc. | Event-stream searching using compiled rule patterns |
-
2019
- 2019-12-25 CN CN201911352052.4A patent/CN111061742B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302814A (zh) * | 2014-06-20 | 2016-02-03 | 苏州精易会信息技术有限公司 | 一种存储多个自定义字段的方法和系统 |
CN107783950A (zh) * | 2017-04-11 | 2018-03-09 | 平安医疗健康管理股份有限公司 | 药品说明书处理方法及装置 |
CN109388685A (zh) * | 2018-10-23 | 2019-02-26 | 泰华智慧产业集团股份有限公司 | 将规划行业使用的空间数据进行入库的方法和装置 |
CN110609854A (zh) * | 2019-09-19 | 2019-12-24 | 深圳前海环融联易信息科技服务有限公司 | 字段名查询方法、系统、电子设备及计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
基于大数据质检信息多维管理系统研究;耿健强;《中国优秀硕士学位论文全文数据库信息科技辑》;20170318;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111061742A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061742B (zh) | 用于标记数据的方法、装置及其服务系统 | |
US7562088B2 (en) | Structure extraction from unstructured documents | |
Russell-Rose et al. | The Reuters Corpus Volume 1-from Yesterday's News to Tomorrow's Language Resources. | |
US7617444B2 (en) | File formats, methods, and computer program products for representing workbooks | |
CN114616572A (zh) | 跨文档智能写作和处理助手 | |
US20080162455A1 (en) | Determination of document similarity | |
US10698937B2 (en) | Split mapping for dynamic rendering and maintaining consistency of data processed by applications | |
US20060218160A1 (en) | Change control management of XML documents | |
US8140533B1 (en) | Harvesting relational tables from lists on the web | |
CN112036144B (zh) | 数据解析方法、装置、计算机设备和可读存储介质 | |
CN111178079B (zh) | 一种三元组抽取方法及装置 | |
US9390111B2 (en) | Database insert with deferred materialization | |
CN112395851A (zh) | 一种文本比对方法、装置、计算机设备及可读存储介质 | |
CN113779358A (zh) | 一种事件检测方法和系统 | |
CN112926299A (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
CN111143370B (zh) | 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质 | |
CN114528413A (zh) | 众包标注支持的知识图谱更新方法、系统和可读存储介质 | |
CN112418875B (zh) | 跨平台税务智能客服语料迁移方法及装置 | |
Talburt et al. | A practical guide to entity resolution with OYSTER | |
US20210319000A1 (en) | Data deduplication and data merging | |
CN101894158B (zh) | 一种智能检索系统 | |
CN113254583B (zh) | 一种基于语义向量的文档标记方法、装置及介质 | |
CN109635075B (zh) | 一种文本内容划词标识的方法及装置 | |
CN110489125B (zh) | 文件管理方法和计算机存储介质 | |
US20180165267A1 (en) | System and method for cell comparison between spreadsheets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |