CN109271392A - 快速判别和抽取关系型数据库实体及属性的方法及设备 - Google Patents
快速判别和抽取关系型数据库实体及属性的方法及设备 Download PDFInfo
- Publication number
- CN109271392A CN109271392A CN201811277768.8A CN201811277768A CN109271392A CN 109271392 A CN109271392 A CN 109271392A CN 201811277768 A CN201811277768 A CN 201811277768A CN 109271392 A CN109271392 A CN 109271392A
- Authority
- CN
- China
- Prior art keywords
- entity
- static
- speech
- field
- noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种快速判别和抽取关系型数据库实体及属性的方法,从关系型数据库中抽取表注释语句,判断词性,将注释含有名词的标注为静态表,注释为动词的标注为动态表,动态表在此方法中不作处理;将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;通过词性标注和建立错误词典方法判别实体表中的实体属性字段;本发明提供一种计算机设备,便于提高工作效率。
Description
技术领域
本发明涉及一种快速判别和抽取关系型数据库实体及属性的方法及设备。
背景技术
现有的大数据中构造人物画像时,需要关联很多关系型数据库中的实体库表,而关系型数据库存储库表的数量较多,在这种情况下,进行关联各个表的时候,就需要查询各个库表内字段名字,数据内容等的信息,这部分内容时需要人工操作,这就使得人工操作的工作量非常巨大,不利于工作效率的提高。
发明内容
本发明要解决的技术问题,在于提供一种快速判别和抽取关系型数据库实体及属性的方法及设备,便于提高工作效率。
本发明之一是这样实现的:一种快速判别和抽取关系型数据库实体及属性的方法,包括:
步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;
步骤2、将每个静态表中字段名进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体字段。
进一步地,还包括步骤4、将抽取的实体字段通过人工进行检验,并建立错误词典。
进一步地,所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表。
本发明之二是这样实现的:一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;
步骤2、将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体属性字段。
进一步地,还包括步骤4、将抽取的实体属性字段通过人工进行检验,并建立错误词典。
进一步地,所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表。
本发明具有如下优点:在同一业务中使用该方法可以在很大的范围内缩小搜索的范围,因而可以在很大程度上提升批量处理的效率。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
具体实施方式
如图1所示,本发明快速判别和抽取关系型数据库实体及属性的方法,包括:
步骤1、从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表;
步骤2、将每个静态表中字段名进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体字段。
步骤4、将抽取的实体字段通过人工进行检验,并建立错误词典。
本发明计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
步骤1、从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表;
步骤2、将每个静态表中字段名进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体字段。
步骤4、将抽取的实体字段通过人工进行检验,并建立错误词典。
在对数据进行存储的时候通常都会对该表进行中文注释描述,通过注释可以对表内存储的信息有个大概的了解,所以本方法的假设前提是表注释和表列注释是业务描述说明类文字,而非无业务语义类文字。在同一个项目中,存储业务实体的表通常以名词命名,而存储业务关系类或实体行为动作类的库表通常以动词命名。因而,通过对表注释的词性判断可以获得该表是静态表还是动态表。如需要在静态表内作进一步判断是否有实体,可同样通过列注释词性判断,快速识别,减少工作量,所述库表分为静态表以及动态表,所述静态表分为实体表和其他的表。
1对表注释进行词性判断。作出库表性质的初步判断;
1.1静态表是包含存储实体类库表;动态表是包含关系类或实体行为动作类的库表。
1.2该步骤中涉及到了表注释的命名格式规范,在对库表进行注释的时候能够较好的体现出库表内的信息内容。
1.3词性标注的准确性也影响到了结果的准确性。条件随机场(CRF)模型在处理文本分词以及词性有着较高的准确性,因而使用该模型对注释进行词性标注。
2通过数据库表的列注释辅助判断,进一步识别出实体表,如库表字段限定数量的词性是名词,即可视为实体表。
2.1.该步骤是为了增加搜索的准确性。在进行库表字段进行注释的时候需要注释的规范,以便增加通过词性搜索的准确性(在建表的时候注释要贴近库表内容,可以直接展示部分字段名,这样可以增加准确率和效率)。
3.实体表中可能部分字段是属性字段(属性字段指实体属性的来源字段),可通过对字段中的类型作进一步判断,如想获取实体字段(即存储实体的字段),可以通过字段词性判断快速获取。
3.1该步骤是为了进一步的缩小检索的范围,在库表字段进行注释的时候需要注释的规范,以便增加通过词性搜索的准确性(例如:一般情况下库表内的字段都是英文的缩写或者其他的简写,而缩写或者简写是没办法判断词性的。一般在建表的表结构中增加中文的注释)。
4.对判断的结果进行人工辅助纠正,增加判断的准确率。
4.1这一步需要人工对结果进行检验。可构建一个错误词典(这个词典保存的是那些判断错误的库表和字段,建词典就是为了告诉机器这个库表是什么表,这个字段是动词还是名词。就是个错误集),在进行词性标注的过程中加载该词典,增加准确性。
5.如果想精确定位所需要的库表,在进行范围缩小之后需要人工的识别;最终从这些库表中抽取所要的实体或者实体属性。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (6)
1.一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:包括:
步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;
步骤2、将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体属性字段。
2.根据权利要求1所述的一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:还包括步骤4、将抽取的实体属性字段通过人工进行检验,并建立错误词典。
3.根据权利要求1所述的一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表。
4.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;
步骤2、将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;
步骤3、通过词性标注方法抽取实体表中的实体属性字段。
5.根据权利要求4所述的一种计算机设备,其特征在于:还包括步骤4、将抽取的实体属性字段通过人工进行检验,并建立错误词典。
6.根据权利要求4所述的一种计算机设备,其特征在于:所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811277768.8A CN109271392B (zh) | 2018-10-30 | 2018-10-30 | 快速判别和抽取关系型数据库实体及属性的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811277768.8A CN109271392B (zh) | 2018-10-30 | 2018-10-30 | 快速判别和抽取关系型数据库实体及属性的方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271392A true CN109271392A (zh) | 2019-01-25 |
CN109271392B CN109271392B (zh) | 2022-07-26 |
Family
ID=65194640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811277768.8A Active CN109271392B (zh) | 2018-10-30 | 2018-10-30 | 快速判别和抽取关系型数据库实体及属性的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271392B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050256888A1 (en) * | 2000-05-03 | 2005-11-17 | Microsoft Corporation | Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations |
US20090259683A1 (en) * | 2008-04-14 | 2009-10-15 | Fiberlink Communications Corporation | System and method for business object modeling |
CN103927179A (zh) * | 2014-04-18 | 2014-07-16 | 扬州大学 | 一种基于WordNet的程序可读性分析方法 |
US20150074081A1 (en) * | 2013-09-06 | 2015-03-12 | Sap Ag | Entity-relationship model extensions using annotations |
US20150227589A1 (en) * | 2014-02-10 | 2015-08-13 | Microsoft Corporation | Semantic matching and annotation of attributes |
CN104991909A (zh) * | 2015-06-19 | 2015-10-21 | 扬州大学 | 一种针对具体软件历史代码库的词库自动构建方法 |
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
CN106104517A (zh) * | 2014-01-22 | 2016-11-09 | 谷歌公司 | 在消息中识别任务 |
CN106407404A (zh) * | 2016-09-22 | 2017-02-15 | 成都快乐家网络技术有限公司 | 数据存储方法、数据管理方法及系统、数据库、客户端 |
CN106503015A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的方法 |
CN107480200A (zh) * | 2017-07-17 | 2017-12-15 | 深圳先进技术研究院 | 基于词标签的词语标注方法、装置、服务器及存储介质 |
CN107992511A (zh) * | 2017-10-18 | 2018-05-04 | 东软集团股份有限公司 | 医疗数据表的索引建立方法、装置、存储介质及电子设备 |
CN108021627A (zh) * | 2017-11-21 | 2018-05-11 | 广州品唯软件有限公司 | 关联数据的存储方法及装置 |
CN108027833A (zh) * | 2015-09-18 | 2018-05-11 | 国际商业机器公司 | 数据库的自然语言接口 |
CN108388623A (zh) * | 2018-02-12 | 2018-08-10 | 平安科技(深圳)有限公司 | Er关系生成方法、装置、计算机设备及存储介质 |
CN108491373A (zh) * | 2018-02-01 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种实体识别方法及系统 |
-
2018
- 2018-10-30 CN CN201811277768.8A patent/CN109271392B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050256888A1 (en) * | 2000-05-03 | 2005-11-17 | Microsoft Corporation | Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations |
US20090259683A1 (en) * | 2008-04-14 | 2009-10-15 | Fiberlink Communications Corporation | System and method for business object modeling |
US20150074081A1 (en) * | 2013-09-06 | 2015-03-12 | Sap Ag | Entity-relationship model extensions using annotations |
CN106104517A (zh) * | 2014-01-22 | 2016-11-09 | 谷歌公司 | 在消息中识别任务 |
US20150227589A1 (en) * | 2014-02-10 | 2015-08-13 | Microsoft Corporation | Semantic matching and annotation of attributes |
CN103927179A (zh) * | 2014-04-18 | 2014-07-16 | 扬州大学 | 一种基于WordNet的程序可读性分析方法 |
CN104991909A (zh) * | 2015-06-19 | 2015-10-21 | 扬州大学 | 一种针对具体软件历史代码库的词库自动构建方法 |
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
CN106503015A (zh) * | 2015-09-07 | 2017-03-15 | 国家计算机网络与信息安全管理中心 | 一种构建用户画像的方法 |
CN108027833A (zh) * | 2015-09-18 | 2018-05-11 | 国际商业机器公司 | 数据库的自然语言接口 |
CN106407404A (zh) * | 2016-09-22 | 2017-02-15 | 成都快乐家网络技术有限公司 | 数据存储方法、数据管理方法及系统、数据库、客户端 |
CN107480200A (zh) * | 2017-07-17 | 2017-12-15 | 深圳先进技术研究院 | 基于词标签的词语标注方法、装置、服务器及存储介质 |
CN107992511A (zh) * | 2017-10-18 | 2018-05-04 | 东软集团股份有限公司 | 医疗数据表的索引建立方法、装置、存储介质及电子设备 |
CN108021627A (zh) * | 2017-11-21 | 2018-05-11 | 广州品唯软件有限公司 | 关联数据的存储方法及装置 |
CN108491373A (zh) * | 2018-02-01 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种实体识别方法及系统 |
CN108388623A (zh) * | 2018-02-12 | 2018-08-10 | 平安科技(深圳)有限公司 | Er关系生成方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
刘守义等: "图书馆自定义统计系统的体验与改进", 《现代情报》 * |
刘思: "煤矿安全管理信息系统的研究与设计", 《中国优秀硕士学位论文全文数据库•信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109271392B (zh) | 2022-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4301515B2 (ja) | 文章表示方法、情報処理装置、情報処理システム、プログラム | |
US8170868B2 (en) | Extracting lexical features for classifying native and non-native language usage style | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
Darwish et al. | Using Stem-Templates to Improve Arabic POS and Gender/Number Tagging. | |
KR20150017507A (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
CN109213998A (zh) | 中文错字检测方法及系统 | |
CN110750627A (zh) | 一种素材的检索方法、装置、电子设备及存储介质 | |
KR102108129B1 (ko) | 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체 | |
CN109271392A (zh) | 快速判别和抽取关系型数据库实体及属性的方法及设备 | |
Bechara et al. | Semantic textual similarity in quality estimation | |
JP6056489B2 (ja) | 翻訳支援プログラム、方法、および装置 | |
Pinnis et al. | Tilde MT platform for developing client specific MT solutions | |
CN112380877B (zh) | 一种用于篇章级英译中机器翻译测试集的构建方法 | |
Luong et al. | Word graph-based multi-sentence compression: Re-ranking candidates using frequent words | |
CN114220113A (zh) | 一种论文质量检测方法、装置和设备 | |
US20070078644A1 (en) | Detecting segmentation errors in an annotated corpus | |
CN113918804A (zh) | 商品信息检索系统及方法 | |
Hardie | Automated part-of-speech analysis of Urdu: conceptual and technical issues | |
Takeno et al. | Integrating empty category detection into preordering machine translation | |
CN107870905A (zh) | 一种特定词汇的识别方法 | |
Mustafa et al. | Kurdish Kurmanji Lemmatization and Spell-checker with Spell-correction | |
JP3783053B2 (ja) | 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置 | |
Strobl et al. | Enhanced Entity Annotations for Multilingual Corpora | |
Alansary | Basma: Bibalex standard arabic morphological analyzer | |
Sedlácek et al. | Automatic Processing of Czech Inflectional and Derivative Morphology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |