CN109271392A - 快速判别和抽取关系型数据库实体及属性的方法及设备 - Google Patents

快速判别和抽取关系型数据库实体及属性的方法及设备 Download PDF

Info

Publication number
CN109271392A
CN109271392A CN201811277768.8A CN201811277768A CN109271392A CN 109271392 A CN109271392 A CN 109271392A CN 201811277768 A CN201811277768 A CN 201811277768A CN 109271392 A CN109271392 A CN 109271392A
Authority
CN
China
Prior art keywords
entity
static
speech
field
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811277768.8A
Other languages
English (en)
Other versions
CN109271392B (zh
Inventor
陈征宇
林韶军
林文国
洪章阳
毛礼标
黄炳裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Evecom Information Technology Development Co Ltd
Original Assignee
Evecom Information Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Evecom Information Technology Development Co Ltd filed Critical Evecom Information Technology Development Co Ltd
Priority to CN201811277768.8A priority Critical patent/CN109271392B/zh
Publication of CN109271392A publication Critical patent/CN109271392A/zh
Application granted granted Critical
Publication of CN109271392B publication Critical patent/CN109271392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种快速判别和抽取关系型数据库实体及属性的方法,从关系型数据库中抽取表注释语句,判断词性,将注释含有名词的标注为静态表,注释为动词的标注为动态表,动态表在此方法中不作处理;将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;通过词性标注和建立错误词典方法判别实体表中的实体属性字段;本发明提供一种计算机设备,便于提高工作效率。

Description

快速判别和抽取关系型数据库实体及属性的方法及设备
技术领域
本发明涉及一种快速判别和抽取关系型数据库实体及属性的方法及设备。
背景技术
现有的大数据中构造人物画像时,需要关联很多关系型数据库中的实体库表,而关系型数据库存储库表的数量较多,在这种情况下,进行关联各个表的时候,就需要查询各个库表内字段名字,数据内容等的信息,这部分内容时需要人工操作,这就使得人工操作的工作量非常巨大,不利于工作效率的提高。
发明内容
本发明要解决的技术问题,在于提供一种快速判别和抽取关系型数据库实体及属性的方法及设备,便于提高工作效率。
本发明之一是这样实现的:一种快速判别和抽取关系型数据库实体及属性的方法,包括:
步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;
步骤2、将每个静态表中字段名进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体字段。
进一步地,还包括步骤4、将抽取的实体字段通过人工进行检验,并建立错误词典。
进一步地,所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表。
本发明之二是这样实现的:一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;
步骤2、将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体属性字段。
进一步地,还包括步骤4、将抽取的实体属性字段通过人工进行检验,并建立错误词典。
进一步地,所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表。
本发明具有如下优点:在同一业务中使用该方法可以在很大的范围内缩小搜索的范围,因而可以在很大程度上提升批量处理的效率。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
具体实施方式
如图1所示,本发明快速判别和抽取关系型数据库实体及属性的方法,包括:
步骤1、从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表;
步骤2、将每个静态表中字段名进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体字段。
步骤4、将抽取的实体字段通过人工进行检验,并建立错误词典。
本发明计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
步骤1、从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表;
步骤2、将每个静态表中字段名进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体字段。
步骤4、将抽取的实体字段通过人工进行检验,并建立错误词典。
在对数据进行存储的时候通常都会对该表进行中文注释描述,通过注释可以对表内存储的信息有个大概的了解,所以本方法的假设前提是表注释和表列注释是业务描述说明类文字,而非无业务语义类文字。在同一个项目中,存储业务实体的表通常以名词命名,而存储业务关系类或实体行为动作类的库表通常以动词命名。因而,通过对表注释的词性判断可以获得该表是静态表还是动态表。如需要在静态表内作进一步判断是否有实体,可同样通过列注释词性判断,快速识别,减少工作量,所述库表分为静态表以及动态表,所述静态表分为实体表和其他的表。
1对表注释进行词性判断。作出库表性质的初步判断;
1.1静态表是包含存储实体类库表;动态表是包含关系类或实体行为动作类的库表。
1.2该步骤中涉及到了表注释的命名格式规范,在对库表进行注释的时候能够较好的体现出库表内的信息内容。
1.3词性标注的准确性也影响到了结果的准确性。条件随机场(CRF)模型在处理文本分词以及词性有着较高的准确性,因而使用该模型对注释进行词性标注。
2通过数据库表的列注释辅助判断,进一步识别出实体表,如库表字段限定数量的词性是名词,即可视为实体表。
2.1.该步骤是为了增加搜索的准确性。在进行库表字段进行注释的时候需要注释的规范,以便增加通过词性搜索的准确性(在建表的时候注释要贴近库表内容,可以直接展示部分字段名,这样可以增加准确率和效率)。
3.实体表中可能部分字段是属性字段(属性字段指实体属性的来源字段),可通过对字段中的类型作进一步判断,如想获取实体字段(即存储实体的字段),可以通过字段词性判断快速获取。
3.1该步骤是为了进一步的缩小检索的范围,在库表字段进行注释的时候需要注释的规范,以便增加通过词性搜索的准确性(例如:一般情况下库表内的字段都是英文的缩写或者其他的简写,而缩写或者简写是没办法判断词性的。一般在建表的表结构中增加中文的注释)。
4.对判断的结果进行人工辅助纠正,增加判断的准确率。
4.1这一步需要人工对结果进行检验。可构建一个错误词典(这个词典保存的是那些判断错误的库表和字段,建词典就是为了告诉机器这个库表是什么表,这个字段是动词还是名词。就是个错误集),在进行词性标注的过程中加载该词典,增加准确性。
5.如果想精确定位所需要的库表,在进行范围缩小之后需要人工的识别;最终从这些库表中抽取所要的实体或者实体属性。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (6)

1.一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:包括:
步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;
步骤2、将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体属性字段。
2.根据权利要求1所述的一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:还包括步骤4、将抽取的实体属性字段通过人工进行检验,并建立错误词典。
3.根据权利要求1所述的一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表。
4.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;
步骤2、将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体属性字段。
5.根据权利要求4所述的一种计算机设备,其特征在于:还包括步骤4、将抽取的实体属性字段通过人工进行检验,并建立错误词典。
6.根据权利要求4所述的一种计算机设备,其特征在于:所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表。
CN201811277768.8A 2018-10-30 2018-10-30 快速判别和抽取关系型数据库实体及属性的方法及设备 Active CN109271392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811277768.8A CN109271392B (zh) 2018-10-30 2018-10-30 快速判别和抽取关系型数据库实体及属性的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811277768.8A CN109271392B (zh) 2018-10-30 2018-10-30 快速判别和抽取关系型数据库实体及属性的方法及设备

Publications (2)

Publication Number Publication Date
CN109271392A true CN109271392A (zh) 2019-01-25
CN109271392B CN109271392B (zh) 2022-07-26

Family

ID=65194640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811277768.8A Active CN109271392B (zh) 2018-10-30 2018-10-30 快速判别和抽取关系型数据库实体及属性的方法及设备

Country Status (1)

Country Link
CN (1) CN109271392B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256888A1 (en) * 2000-05-03 2005-11-17 Microsoft Corporation Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations
US20090259683A1 (en) * 2008-04-14 2009-10-15 Fiberlink Communications Corporation System and method for business object modeling
CN103927179A (zh) * 2014-04-18 2014-07-16 扬州大学 一种基于WordNet的程序可读性分析方法
US20150074081A1 (en) * 2013-09-06 2015-03-12 Sap Ag Entity-relationship model extensions using annotations
US20150227589A1 (en) * 2014-02-10 2015-08-13 Microsoft Corporation Semantic matching and annotation of attributes
CN104991909A (zh) * 2015-06-19 2015-10-21 扬州大学 一种针对具体软件历史代码库的词库自动构建方法
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN106104517A (zh) * 2014-01-22 2016-11-09 谷歌公司 在消息中识别任务
CN106407404A (zh) * 2016-09-22 2017-02-15 成都快乐家网络技术有限公司 数据存储方法、数据管理方法及系统、数据库、客户端
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN107480200A (zh) * 2017-07-17 2017-12-15 深圳先进技术研究院 基于词标签的词语标注方法、装置、服务器及存储介质
CN107992511A (zh) * 2017-10-18 2018-05-04 东软集团股份有限公司 医疗数据表的索引建立方法、装置、存储介质及电子设备
CN108021627A (zh) * 2017-11-21 2018-05-11 广州品唯软件有限公司 关联数据的存储方法及装置
CN108027833A (zh) * 2015-09-18 2018-05-11 国际商业机器公司 数据库的自然语言接口
CN108388623A (zh) * 2018-02-12 2018-08-10 平安科技(深圳)有限公司 Er关系生成方法、装置、计算机设备及存储介质
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256888A1 (en) * 2000-05-03 2005-11-17 Microsoft Corporation Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations
US20090259683A1 (en) * 2008-04-14 2009-10-15 Fiberlink Communications Corporation System and method for business object modeling
US20150074081A1 (en) * 2013-09-06 2015-03-12 Sap Ag Entity-relationship model extensions using annotations
CN106104517A (zh) * 2014-01-22 2016-11-09 谷歌公司 在消息中识别任务
US20150227589A1 (en) * 2014-02-10 2015-08-13 Microsoft Corporation Semantic matching and annotation of attributes
CN103927179A (zh) * 2014-04-18 2014-07-16 扬州大学 一种基于WordNet的程序可读性分析方法
CN104991909A (zh) * 2015-06-19 2015-10-21 扬州大学 一种针对具体软件历史代码库的词库自动构建方法
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN106503015A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的方法
CN108027833A (zh) * 2015-09-18 2018-05-11 国际商业机器公司 数据库的自然语言接口
CN106407404A (zh) * 2016-09-22 2017-02-15 成都快乐家网络技术有限公司 数据存储方法、数据管理方法及系统、数据库、客户端
CN107480200A (zh) * 2017-07-17 2017-12-15 深圳先进技术研究院 基于词标签的词语标注方法、装置、服务器及存储介质
CN107992511A (zh) * 2017-10-18 2018-05-04 东软集团股份有限公司 医疗数据表的索引建立方法、装置、存储介质及电子设备
CN108021627A (zh) * 2017-11-21 2018-05-11 广州品唯软件有限公司 关联数据的存储方法及装置
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN108388623A (zh) * 2018-02-12 2018-08-10 平安科技(深圳)有限公司 Er关系生成方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘守义等: "图书馆自定义统计系统的体验与改进", 《现代情报》 *
刘思: "煤矿安全管理信息系统的研究与设计", 《中国优秀硕士学位论文全文数据库•信息科技辑》 *

Also Published As

Publication number Publication date
CN109271392B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
JP4301515B2 (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
US8170868B2 (en) Extracting lexical features for classifying native and non-native language usage style
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Darwish et al. Using Stem-Templates to Improve Arabic POS and Gender/Number Tagging.
KR20150017507A (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
CN109213998A (zh) 中文错字检测方法及系统
CN110750627A (zh) 一种素材的检索方法、装置、电子设备及存储介质
KR102108129B1 (ko) 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체
CN109271392A (zh) 快速判别和抽取关系型数据库实体及属性的方法及设备
Bechara et al. Semantic textual similarity in quality estimation
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
Pinnis et al. Tilde MT platform for developing client specific MT solutions
CN112380877B (zh) 一种用于篇章级英译中机器翻译测试集的构建方法
Luong et al. Word graph-based multi-sentence compression: Re-ranking candidates using frequent words
CN114220113A (zh) 一种论文质量检测方法、装置和设备
US20070078644A1 (en) Detecting segmentation errors in an annotated corpus
CN113918804A (zh) 商品信息检索系统及方法
Hardie Automated part-of-speech analysis of Urdu: conceptual and technical issues
Takeno et al. Integrating empty category detection into preordering machine translation
CN107870905A (zh) 一种特定词汇的识别方法
Mustafa et al. Kurdish Kurmanji Lemmatization and Spell-checker with Spell-correction
JP3783053B2 (ja) 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置
Strobl et al. Enhanced Entity Annotations for Multilingual Corpora
Alansary Basma: Bibalex standard arabic morphological analyzer
Sedlácek et al. Automatic Processing of Czech Inflectional and Derivative Morphology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant