CN109271392A

CN109271392A - 快速判别和抽取关系型数据库实体及属性的方法及设备

Info

Publication number: CN109271392A
Application number: CN201811277768.8A
Authority: CN
Inventors: 陈征宇; 林韶军; 林文国; 洪章阳; 毛礼标; 黄炳裕
Original assignee: Evecom Information Technology Development Co Ltd
Current assignee: Evecom Information Technology Development Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-01-25
Anticipated expiration: 2038-10-30
Also published as: CN109271392B

Abstract

本发明提供一种快速判别和抽取关系型数据库实体及属性的方法，从关系型数据库中抽取表注释语句，判断词性，将注释含有名词的标注为静态表，注释为动词的标注为动态表，动态表在此方法中不作处理；将每个表的列名注释进行判断，若静态表中的字段名为名词数量超过限定个数，则将该静态表作为实体表；通过词性标注和建立错误词典方法判别实体表中的实体属性字段；本发明提供一种计算机设备，便于提高工作效率。

Description

快速判别和抽取关系型数据库实体及属性的方法及设备

技术领域

本发明涉及一种快速判别和抽取关系型数据库实体及属性的方法及设备。

背景技术

现有的大数据中构造人物画像时，需要关联很多关系型数据库中的实体库表，而关系型数据库存储库表的数量较多，在这种情况下，进行关联各个表的时候，就需要查询各个库表内字段名字，数据内容等的信息，这部分内容时需要人工操作，这就使得人工操作的工作量非常巨大，不利于工作效率的提高。

发明内容

本发明要解决的技术问题，在于提供一种快速判别和抽取关系型数据库实体及属性的方法及设备，便于提高工作效率。

本发明之一是这样实现的：一种快速判别和抽取关系型数据库实体及属性的方法，包括：

步骤1、从关系型数据库中抽取表注释语句，判断词性，将词性为名词的表标作为静态表；

步骤2、将每个静态表中字段名进行判断，若静态表中的字段名为名词数量超过限定个数，则将该静态表作为实体表；

步骤3、通过词性标注方法抽取实体表中的实体字段。

进一步地，还包括步骤4、将抽取的实体字段通过人工进行检验，并建立错误词典。

进一步地，所述步骤1进一步具体为：从关系型数据库中抽取表注释语句，之后使用条件随机场算法对注释语句进行词性标注，将词性标注为名词的表作为静态表。

本发明之二是这样实现的：一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

步骤2、将每个表的列名注释进行判断，若静态表中的字段名为名词数量超过限定个数，则将该静态表作为实体表；

步骤3、通过词性标注方法抽取实体表中的实体属性字段。

进一步地，还包括步骤4、将抽取的实体属性字段通过人工进行检验，并建立错误词典。

本发明具有如下优点：在同一业务中使用该方法可以在很大的范围内缩小搜索的范围，因而可以在很大程度上提升批量处理的效率。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法执行流程图。

具体实施方式

如图1所示，本发明快速判别和抽取关系型数据库实体及属性的方法，包括：

步骤1、从关系型数据库中抽取表注释语句，之后使用条件随机场算法对注释语句进行词性标注，将词性标注为名词的表作为静态表；

步骤3、通过词性标注方法抽取实体表中的实体字段。

步骤4、将抽取的实体字段通过人工进行检验，并建立错误词典。

本发明计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

步骤3、通过词性标注方法抽取实体表中的实体字段。

在对数据进行存储的时候通常都会对该表进行中文注释描述，通过注释可以对表内存储的信息有个大概的了解，所以本方法的假设前提是表注释和表列注释是业务描述说明类文字，而非无业务语义类文字。在同一个项目中，存储业务实体的表通常以名词命名，而存储业务关系类或实体行为动作类的库表通常以动词命名。因而，通过对表注释的词性判断可以获得该表是静态表还是动态表。如需要在静态表内作进一步判断是否有实体，可同样通过列注释词性判断，快速识别，减少工作量，所述库表分为静态表以及动态表，所述静态表分为实体表和其他的表。

1对表注释进行词性判断。作出库表性质的初步判断；

1.1静态表是包含存储实体类库表；动态表是包含关系类或实体行为动作类的库表。

1.2该步骤中涉及到了表注释的命名格式规范，在对库表进行注释的时候能够较好的体现出库表内的信息内容。

1.3词性标注的准确性也影响到了结果的准确性。条件随机场(CRF)模型在处理文本分词以及词性有着较高的准确性，因而使用该模型对注释进行词性标注。

2通过数据库表的列注释辅助判断，进一步识别出实体表，如库表字段限定数量的词性是名词，即可视为实体表。

2.1.该步骤是为了增加搜索的准确性。在进行库表字段进行注释的时候需要注释的规范，以便增加通过词性搜索的准确性(在建表的时候注释要贴近库表内容，可以直接展示部分字段名，这样可以增加准确率和效率)。

3.实体表中可能部分字段是属性字段(属性字段指实体属性的来源字段)，可通过对字段中的类型作进一步判断，如想获取实体字段(即存储实体的字段)，可以通过字段词性判断快速获取。

3.1该步骤是为了进一步的缩小检索的范围，在库表字段进行注释的时候需要注释的规范，以便增加通过词性搜索的准确性(例如：一般情况下库表内的字段都是英文的缩写或者其他的简写，而缩写或者简写是没办法判断词性的。一般在建表的表结构中增加中文的注释)。

4.对判断的结果进行人工辅助纠正，增加判断的准确率。

4.1这一步需要人工对结果进行检验。可构建一个错误词典(这个词典保存的是那些判断错误的库表和字段，建词典就是为了告诉机器这个库表是什么表，这个字段是动词还是名词。就是个错误集)，在进行词性标注的过程中加载该词典，增加准确性。

5.如果想精确定位所需要的库表，在进行范围缩小之后需要人工的识别；最终从这些库表中抽取所要的实体或者实体属性。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种快速判别和抽取关系型数据库实体及属性的方法，其特征在于：包括：

步骤3、通过词性标注方法抽取实体表中的实体属性字段。

2.根据权利要求1所述的一种快速判别和抽取关系型数据库实体及属性的方法，其特征在于：还包括步骤4、将抽取的实体属性字段通过人工进行检验，并建立错误词典。

3.根据权利要求1所述的一种快速判别和抽取关系型数据库实体及属性的方法，其特征在于：所述步骤1进一步具体为：从关系型数据库中抽取表注释语句，之后使用条件随机场算法对注释语句进行词性标注，将词性标注为名词的表作为静态表。

4.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

步骤3、通过词性标注方法抽取实体表中的实体属性字段。

5.根据权利要求4所述的一种计算机设备，其特征在于：还包括步骤4、将抽取的实体属性字段通过人工进行检验，并建立错误词典。

6.根据权利要求4所述的一种计算机设备，其特征在于：所述步骤1进一步具体为：从关系型数据库中抽取表注释语句，之后使用条件随机场算法对注释语句进行词性标注，将词性标注为名词的表作为静态表。