CN110413972B - 一种基于nlp技术的表名字段名智能补全方法 - Google Patents
一种基于nlp技术的表名字段名智能补全方法 Download PDFInfo
- Publication number
- CN110413972B CN110413972B CN201910664540.2A CN201910664540A CN110413972B CN 110413972 B CN110413972 B CN 110413972B CN 201910664540 A CN201910664540 A CN 201910664540A CN 110413972 B CN110413972 B CN 110413972B
- Authority
- CN
- China
- Prior art keywords
- english
- name
- field name
- table name
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种基于NLP技术的表名字段名智能补全方法,包括以下步骤;S1:预处理;S2:原始拆分;S3:查字典;S4:语言识别;S5:高级拆分;S6:补全推断;S7:输出翻译。本发明通过NLP技术和双重拆分验证将原始表的表名或字段名识别匹配,输出可能性结果,方便数据处理人快速判断了解表名或字段名含义,且输出结果可用于后续原始表内数据处理,增加数据处理人的工作速度,降低数据处理难度。
Description
技术领域
本发明涉及商务智能领域,尤其涉及一种基于NLP技术的表名字段名智能补全方法。
背景技术
自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科,分成简单匹配式、模糊匹配式和段落理解式三种类型,商务智能是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策,其中会涉及到对存储在数据仓库中的数据进行分析和识别环节。
传统的做法是数据开发人员自己去根据业务场景或描述信息对数据先进行梳理识别,再进行分析,由于数据表在创建使用过程中可能由于各种原因导致表的描述或字段描述丢失或存储在其他表中,并且公司内业务往往比较繁杂,这样就给数据开发人员带来了非常庞大及复杂的梳理识别过程,可以看出,数据开发人员的大部分精力都会耗费在对业务的理解以及对数据表的理解梳理上,非常的耗费人力和财力。
因此,我们根据NLP技术提出了一种基于NLP技术的表名字段名智能补全方法来解决上述问题。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于NLP技术的表名字段名智能补全方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于NLP技术的表名字段名智能补全方法,包括以下步骤:
S1:预处理;首先将表名或字段名中的英文或汉语拼音的大小写字母全部转换成小写字母,然后去掉数字等特殊字符,最后去掉只有一个字符的单词。
S2:原始拆分;对预处理后的表名或字段名进行分割,英文单词和英文缩写根据标点符号和空格进行分割,汉语拼音则作为一个单词不做处理。
S3:查字典;对英文查询字典,即根据英文词库中的英文单词和缩略语进行比对,判断查询的英文是否在字典中保存,若存在则取出,若不存在则继续后续步骤。
S4:语言识别;对步骤3处理后的结果进行识别,判断其为英文还是汉语拼音。
S5:高级拆分;对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断。
S6:补全推断;对缺损的表名或字段名进行预测推断补全,还原表名或字段名的含义。
S7:输出翻译;对预测补全后的表名或字段名进行输出整理,整理后可对英文表名或字段名进行翻译,输出为汉字形式。
优选地,在步骤S2中,将表名或字段名的字符串进行符号分割,即通过标点符号和空格将字符串分割成多个组成字符串,然后将多个组成字符串输出到步骤S3。
优选地,在步骤S3中,将步骤S2中的多个字符串与所编辑存储的字典内的单词和缩略语进行逐个比较,若组成字符串的英文字母组成与字典内的其中一个英文单词或英文缩略语的英文字母组成完全一致,则此多个组成字符串的其中一个单词确定,将所有组成字符串逐一进行比对,查字典确定的单词输出到步骤S7,未确定部分的组成字符串进入步骤S4。
优选地,在步骤S4中,通过汉语拼音声母韵母的书写规范来判断未确定部分的组成字符串是否含有汉语拼音,如果符合汉语拼音书写规范,输出为一个汉语拼音,若不符合汉语拼音书写规范则不含有拼音,全为英文单词或英文缩略语。
优选地,在步骤S5中,英文单词、英文缩略语和汉语拼音连在一起的组成字符串,将其分割为多个单独的字符串,然后对多个单独的字符串进行顺序排列组合,形成多种组合结果,将多种组合结果放入步骤S4中继续判断输出,将组合后判断出的结果输出到步骤S6。
优选地,在步骤S6中,对步骤S5输出的多种组合结果进行补全推断,即根据词库将不完整的英文单词、英文缩略语进行补充,输出一种或多种结果到步骤S7中。
本发明具有以下有益效果:
1、通过本方法将原始表的表名或字段名信息梳理成一种或多种组合可能性的结果,方便数据处理人能够快速判断了解原始表的表名或字段名所代表的含义,增加数据处理人对原始表了解的速度。
2、本方法输出的一种或多种可能性结果可用于统计、识别、预测等原始表内数据,方便数据处理人展开后续数据处理任务,增加数据处理人的工作效率。
综上所述,本发明通过NLP技术和双重拆分验证将原始表的表名或字段名识别匹配,输出可能性结果,方便数据处理人快速判断了解表名或字段名含义,且输出结果可用于后续原始表内数据处理,增加数据处理人的工作速度,降低数据处理难度。
附图说明
图1为本发明提出的一种基于NLP技术的表名字段名智能补全方法的结构示意图;
图2为实施例一的图例;
图3为实施例二的图例;
图4为实施例三的图例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例一:
参照图1和图2,一种基于NLP技术的表名字段名智能补全方法,包括以下步骤:
S1:预处理;首先将CheLiangXinXi或CLXX中的英文或汉语拼音的大小写字母全部转换成小写字母,即换写成cheliangxinxi或clxx,然后去掉数字等特殊字符,最后去掉只有一个字符的单词,即最终形成:cheliangxinxi或clxx。
S2:原始拆分;对预处理后的cheliangxinxi或clxx进行分割,英文单词和英文缩写根据标点符号和空格进行分割,汉语拼音则作为一个单词不做处理,将cheliangxinxi或clxx中的字符串进行符号分割,即通过标点符号和空格将字符串分割成多个组成字符串,然后将多个组成字符串输出到步骤S3,因不存在标点符号,则结果仍为cheliangxinxi或clxx。
S3:查字典;对英文查询字典,即根据英文词库中的英文单词和缩略语进行比对,判断查询的英文是否在字典中保存,若存在则取出,若不存在则继续后续步骤,即将步骤S2中的cheliangxinxi或clxx与所编辑存储的字典内的单词和缩略语进行逐个比较,则发现字典词库内不存在与cheliangxinxi或clxx完全相同的单词,则不作处理,然后进入下一步。
S4:语言识别;对cheliangxinxi或clxx进行识别,判断其为英文还是汉语拼音,通过汉语拼音声母韵母的书写规范以及使用大量语料训练的统计语言模型来判断cheliangxinxi或clxx为汉语拼音还是英文,通过检测,cheliangxinxi或clxx符合汉语拼音或简拼的书写规范,均为汉语拼音,则进行下一步。
S5:高级拆分;对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断,英文单词、英文缩略语和汉语拼音连在一起的组成字符串,将其分割为多个单独的字符串,然后对多个单独的字符串进行顺序排列组合,形成多种组合结果,结果为cheliang xin xi或clxx。
S6:补全推断;对缺损的表名或字段名进行预测推断补全,还原表名或字段名的含义,根据汉语拼音书写规范显示che liang xin xi书写正确,clxx为正确的汉语简拼,因此推断为“车辆信息”。
S7:输出翻译;将补全步骤S6中推断输出的结果输出,用户根据自身需要选择中文拼音翻译推断结果,则输出结果为“车辆信息”。
实施例二:
参照图1和图3,一种基于NLP技术的表名字段名智能补全方法,包括以下步骤:
S1:预处理;首先将Driving license中的英文或汉语拼音的大小写字母全部转换成小写字母,即换写成driving license然后去掉数字等特殊字符,最后去掉只有一个字符的单词,即最终形成:driving license。
S2:原始拆分;对预处理后的driving license进行分割,英文单词和英文缩写根据标点符号和空格进行分割,汉语拼音则作为一个单词不做处理,将driving license中的字符串进行符号分割,即通过标点符号和空格将字符串分割成多个组成字符串,然后将多个组成字符串输出到步骤S3,即分割成driving、license。
S3:查字典;对英文查询字典,即根据英文词库中的英文单词和缩略语进行比对,判断查询的英文是否在字典中保存,若存在则取出,若不存在则继续后续步骤,即将步骤S2中的driving、license与所编辑存储的字典内的单词和缩略语进行逐个比较,则字典内存在与driving licence完全相同的词组,直接输出到步骤S7中。
S4:语言识别;S5:高级拆分;S6:补全推断;由于在步骤S3中driving licence在字典中查询到,因此,无需进行步骤S4、S5、S6,直接进入步骤S7。
S7:输出翻译;由于字典中存在driving licence为“驾照”的词组,则直接输出翻译结果“驾照”。
实施例三:
参照图1和图4,一种基于NLP技术的表名字段名智能补全方法,包括以下步骤:
S1:预处理;首先将toalarmcar_next_devc_warn_rt中的英文或汉语拼音的大小写字母全部转换成小写字母,即换写成toalarmcar_next_devc_warn_rt。
S2:原始拆分;对预处理后的toalarmcar_next_devc_warn_rt进行分割,英文单词和英文缩写根据标点符号和空格进行分割,汉语拼音则作为一个单词不做处理,将toalarmcar_next_devc_warn_rt中的字符串进行符号分割,即通过标点符号和空格将字符串分割成多个组成字符串,然后将多个组成字符串输出到步骤S3,即分割成toalarmcarnext devc warn rt。
S3:查字典;对英文查询字典,即根据英文词库中的英文单词和缩略语进行比对,判断查询的英文是否在字典中保存,若存在则取出,若不存在则继续后续步骤,即将步骤S2中的toalarmcar next devc warn rt与所编辑存储的字典内的单词和缩略语进行逐个比较,则发现字典词库内存在与toalarmcar、next、devc、warn、rt相同的单词,则初步判断属于英文单词,将其输出至步骤S7,然后进入下一步。
S4:语言识别;对toalarmcar、next、devc、warn、rt进行识别,判断其为英文还是汉语拼音,通过汉语拼音声母韵母的书写规范来判断toalarmcar、next、devc、warn、rt是否含有汉语拼音,通过检测,toalarmcar、next、devc、warn、rt不符合汉语拼音的书写规范,则均为英文单词或缩略语,进行下一步。
S5:高级拆分;对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断,英文单词、英文缩略语和汉语拼音连在一起的组成字符串,将其分割为多个单独的字符串,然后对多个单独的字符串进行顺序排列组合,形成多种组合结果,由于上一步检测均为英文单词,则拆分后为to、alarm、car、next、devc、warn、rt。
S6:补全推断;对缺损的表名或字段名进行预测推断补全,还原表名或字段名的含义,根据英文单词的词库内容,devc和rt为缩写单词,对这两个单词进行预测推断,devc推断为device,rt推断为real time,因此输出为“to alarm car next device warn realtime”。
S7:输出翻译;将补全步骤S6中推断输出的结果翻译输出,由用户选择是否需要进行翻译处理,若选择翻译,则将其翻译成中文,若不需要翻译,则直接输出为“to alarm carnext device warn real time”。
由实施例一、实施例二和实施例三可知,此方法可快速将表名或字段名进行处理翻译输出,增加输出处理人对原始表的理解与判断,且输出的结果可用于其余数据处理任务。
值得注意的是,在步骤S7输出翻译过程中,每一个拼音或简拼或英文缩写都可能会预测出几个候选项,输出翻译可选择这些候选项组合到一起概率最高的预测项作为输出,例如:rt devc可能会预测出right device和real time device,输出翻译会选择realtime device这个预测项,因为这一项根据前文语意判断的概率较大
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于NLP技术的表名字段名智能补全方法,其特征在于,包括以下步骤:
S1:预处理: 首先将表名或字段名中的英文或汉语拼音的大小写字母全部转换成小写字母,然后去掉数字等特殊字符,最后去掉只有一个字符的单词;
S2:原始拆分: 对预处理后的表名或字段名进行分割,英文单词和英文缩写根据标点符号和空格进行分割,汉语拼音则作为一个单词不做处理;
S3:查字典: 对英文查询字典,即根据英文词库中的英文单词和缩略语进行比对,判断查询的英文是否在字典中保存,若存在则取出,若不存在则继续后续步骤;
S4:语言识别: 对步骤3处理后的结果进行识别,判断其为英文还是汉语拼音;
S5:高级拆分: 对英文单词、英文缩写和汉语拼音连在一起的较长表名或字段名进行空格推断;
S6:补全推断: 对缺损的表名或字段名进行预测推断补全,还原表名或字段名的含义;
S7:输出翻译: 对预测补全后的表名或字段名进行输出整理,整理后可对英文表名或字段名进行翻译,输出为汉字形式。
2.根据权利要求1所述的一种基于NLP技术的表名字段名智能补全方法,其特征在于:在步骤S2中,将表名或字段名的字符串进行符号分割,即通过标点符号和空格将字符串分割成多个组成字符串,然后将多个组成字符串输出到步骤S3。
3.根据权利要求2所述的一种基于NLP技术的表名字段名智能补全方法,其特征在于:在步骤S3中,将步骤S2中的多个字符串与所编辑存储的字典内的单词和缩略语进行逐个比较,若组成字符串的英文字母组成与字典内的其中一个英文单词或英文缩略语的英文字母组成完全一致,则此多个组成字符串的其中一个单词确定,将所有组成字符串逐一进行比对,查字典确定的单词输出到步骤S7,未确定部分的组成字符串进入步骤S4。
4.根据权利要求3所述的一种基于NLP技术的表名字段名智能补全方法,其特征在于:在步骤S4中,通过汉语拼音声母韵母的书写规范来判断未确定部分的组成字符串是否含有汉语拼音,如果符合汉语拼音书写规范,输出为一个汉语拼音,若不符合汉语拼音书写规范则不含有拼音,全为英文单词或英文缩略语。
5.根据权利要求4所述的一种基于NLP技术的表名字段名智能补全方法,其特征在于:在步骤S5中,英文单词、英文缩略语和汉语拼音连在一起的组成字符串,将其分割为多个单独的字符串,然后对多个单独的字符串进行顺序排列组合,形成多种组合结果,将多种组合结果放入步骤S4中继续判断输出,将组合后判断出的结果输出到步骤S6。
6.根据权利要求5所述的一种基于NLP技术的表名字段名智能补全方法,其特征在于:在步骤S6中,对步骤S5输出的多种组合结果进行补全推断,即根据词库将不完整的英文单词、英文缩略语进行补充,输出一种或多种结果到步骤S7中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910664540.2A CN110413972B (zh) | 2019-07-23 | 2019-07-23 | 一种基于nlp技术的表名字段名智能补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910664540.2A CN110413972B (zh) | 2019-07-23 | 2019-07-23 | 一种基于nlp技术的表名字段名智能补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413972A CN110413972A (zh) | 2019-11-05 |
CN110413972B true CN110413972B (zh) | 2022-11-25 |
Family
ID=68362525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910664540.2A Active CN110413972B (zh) | 2019-07-23 | 2019-07-23 | 一种基于nlp技术的表名字段名智能补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413972B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090338B (zh) * | 2019-12-11 | 2021-08-27 | 心医国际数字医疗系统(大连)有限公司 | 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法 |
CN114840499A (zh) * | 2021-02-01 | 2022-08-02 | 腾讯科技(深圳)有限公司 | 一种表描述信息的生成方法、相关装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902660A (zh) * | 2011-07-26 | 2013-01-30 | 苗玉水 | 汉语语音码全拼和简拼汉语全息信息处理方法 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
CN107193789A (zh) * | 2017-05-22 | 2017-09-22 | 上海携程金融信息服务有限公司 | 含有多音字的中文转换汉语拼音方法及系统 |
CN107992475A (zh) * | 2017-11-27 | 2018-05-04 | 武汉中海庭数据技术有限公司 | 一种基于车载导航仪全文检索的多语言分词方法及装置 |
-
2019
- 2019-07-23 CN CN201910664540.2A patent/CN110413972B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902660A (zh) * | 2011-07-26 | 2013-01-30 | 苗玉水 | 汉语语音码全拼和简拼汉语全息信息处理方法 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
CN107193789A (zh) * | 2017-05-22 | 2017-09-22 | 上海携程金融信息服务有限公司 | 含有多音字的中文转换汉语拼音方法及系统 |
CN107992475A (zh) * | 2017-11-27 | 2018-05-04 | 武汉中海庭数据技术有限公司 | 一种基于车载导航仪全文检索的多语言分词方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110413972A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
CN110853625B (zh) | 语音识别模型分词训练方法、系统、移动终端及存储介质 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
Chang et al. | An unsupervised iterative method for Chinese new lexicon extraction | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
CN110134950B (zh) | 一种字词结合的文本自动校对方法 | |
CN109086274B (zh) | 基于约束模型的英文社交媒体短文本时间表达式识别方法 | |
Prasad et al. | Influence of lexical, syntactic and structural features and their combination on authorship attribution for Telugu text | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
US20200311345A1 (en) | System and method for language-independent contextual embedding | |
CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN112231451A (zh) | 指代词恢复方法、装置、对话机器人及存储介质 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN111435375A (zh) | 一种基于FastText的威胁情报自动化标注方法 | |
Malik et al. | Urdu named entity recognition system using hidden Markov model | |
CN110837730B (zh) | 一种未知实体词汇的确定方法及装置 | |
Khorjuvenkar et al. | Parts of speech tagging for Konkani language | |
Kapočiūtė-Dzikienė et al. | Character-based machine learning vs. language modeling for diacritics restoration | |
CN112990388B (zh) | 基于概念词的文本聚类方法 | |
CN113095082A (zh) | 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质 | |
Goonawardena et al. | Automated spelling checker and grammatical error detection and correction model for sinhala language | |
Yambao et al. | Feedforward approach to sequential morphological analysis in the Tagalog language | |
Sutheebanjard et al. | Thai personal named entity extraction without using word segmentation or POS tagging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |