CN109800332A - 处理字段名的方法、装置、计算机存储介质及终端 - Google Patents

处理字段名的方法、装置、计算机存储介质及终端 Download PDF

Info

Publication number
CN109800332A
CN109800332A CN201811473066.7A CN201811473066A CN109800332A CN 109800332 A CN109800332 A CN 109800332A CN 201811473066 A CN201811473066 A CN 201811473066A CN 109800332 A CN109800332 A CN 109800332A
Authority
CN
China
Prior art keywords
field names
training data
abbreviated
neural network
editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811473066.7A
Other languages
English (en)
Inventor
牟小峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201811473066.7A priority Critical patent/CN109800332A/zh
Publication of CN109800332A publication Critical patent/CN109800332A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

一种处理字段名的方法、装置、计算机存储介质及终端,包括:通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;对生成的训练数据进行字向量计算;将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。本发明实施例基于训练数据实现缩写字段名的解析,提升了用户对数据库表中包含的缩写字段名的可读性。

Description

处理字段名的方法、装置、计算机存储介质及终端
技术领域
本文涉及但不限于数据库应用技术,尤指一种处理字段名的方法、装置、计算机存储介质及终端。
背景技术
目前,在数据库表设计过程中,设计人员一般只能使用美国信息交换标准代码(ASCII,American Standard Code for Information Interchange)字符来命名字段名。在中文环境下,设计人员主要使用中文或英文的字母缩写来设计缩写字段名;当需要给外部用户展示数据库信息时,这种字母缩写的缩写字段名的可读性很弱,用户很难确定缩写字段名所表达的含义,例如:“XM”;此外,相同的缩写字段名在不同环境下可能表示不同的中文字段名,容易造成误解;不同的缩写字段名在不同环境下可能表示相同的中文字段名,容易影响用户理解数据表设计的内容。
综上,采用字母缩写的缩写字段名可读性很弱,影响用户对数据库表设计的理解。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种处理字段名的方法、装置、计算机存储介质及终端,能够增强字段名的可读性,为用户理解数据库表的设计提供信息支持。
本发明实施例提供了一种处理字段名的方法,包括:
通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;
对生成的训练数据进行字向量计算;
将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。
可选的,所述神经网络包括:
双向长短期记忆网络LSTM模型。
可选的,所述方法还包括:
按照预设周期,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
可选的,所述方法还包括:
根据接收到的外部指令,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
另一方面,本发明实施例还提供一种处理字段名的装置,包括:生成单元、计算单元和确定单元,其中,
生成单元用于:通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;
计算单元用于:对生成的训练数据进行字向量计算;
确定单元用于:将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。
可选的,所述神经网络包括:
双向长短期记忆网络LSTM模型。
可选的,所述装置还包括第一编辑单元,用于:
按照预设周期,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
可选的,所述装置还包括第二编辑单元,用于:
根据接收到的外部指令,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
再一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述处理字段名的方法。
还一方面,本发明实施例还提供一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;
对生成的训练数据进行字向量计算;
将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。
与相关技术相比,本申请技术方案包括:通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;对生成的训练数据进行字向量计算;将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。本发明实施例基于训练数据实现缩写字段名的解析,提升了用户对数据库表中包含的缩写字段名的可读性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例处理字段名的方法的流程图;
图2为本发明实施例处理字段名的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例处理字段名的方法的流程图,如图1所示,包括:
步骤101、通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;
步骤102、对生成的训练数据进行字向量计算;
需要说明的是,字向量计算为本领域技术人员公知的计算方法,对训练数据进行字向量计算,获得的计算结果为本领域技术人员的公知常识,在此不做赘述。
步骤103、将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。
需要说明的是,本发明实施例预先采集的缩写字段名和对应于缩写字段名的中文字段名包括本领域技术人员在项目执行过程中分析整理的字段名;不同的项目、不同的研发人员,缩写字段名和对应于缩写字段名的中文字段名可能存在差异,针对不同的项目和不同的技术人员,本发明实施例可以生成相应的训练数据。字向量的计算结果输入到神经网络后,如何进行训练为本领域技术人员公知,在此不做赘述。
可选的,本发明实施例神经网络包括:
双向长短期记忆网络LSTM模型。
需要说明的是,双向长短期记忆网络模型只是本发明实施例可选的一种神经网络,其他可以适用于本发明实施例的神经网络也可以应用于本发明实施例。
可选的,本发明实施例方法还包括:
按照预设周期,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
需要说明的是,这里预设周期可以根据数据库表的项目研发周期、调整周期等分析确定,编辑训练数据一般为一个较为系统全面的编辑过程,可以对训练数据进行系统全面的整理。
可选的,本发明实施例方法还包括:
根据接收到的外部指令,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
需要说明的是,这里外部指令一般在本领域技术人员通过分析确定:通过神经网络分析获得的当前数据库表中各缩写字段名对应的中文字段名存在错误时,即时的对训练数据进行编辑的操作;其处理和周期性处理在时限上存在差异,可以具有针对性的对部分信息进行编辑。
与相关技术相比,本申请技术方案包括:通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;对生成的训练数据进行字向量计算;将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。本发明实施例基于训练数据实现缩写字段名的解析,提升了用户对数据库表中包含的缩写字段名的可读性。
图2为本发明实施例处理字段名的装置的结构框图,如图2所示,包括:生成单元、计算单元和确定单元,其中,
生成单元用于:通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;
计算单元用于:对生成的训练数据进行字向量计算;
需要说明的是,字向量计算为本领域技术人员公知的计算方法,对训练数据进行字向量计算,获得的计算结果为本领域技术人员的公知常识,在此不做赘述。
确定单元用于:将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。
需要说明的是,本发明实施例预先采集的缩写字段名和对应于缩写字段名的中文字段名包括本领域技术人员在项目执行过程中分析整理的字段名;不同的项目、不同的研发人员,缩写字段名和对应于缩写字段名的中文字段名可能存在差异,针对不同的项目和不同的技术人员,本发明实施例可以生成相应的训练数据。字向量的计算结果输入到神经网络后,如何进行训练为本领域技术人员公知,在此不做赘述。
可选的,本发明实施例神经网络包括:
双向长短期记忆网络LSTM模型。
需要说明的是,双向长短期记忆网络模型只是本发明实施例可选的一种神经网络,其他可以适用于本发明实施例的神经网络也可以应用于本发明实施例。
可选的,本发明实施例装置还包括第一编辑单元,用于:
按照预设周期,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
需要说明的是,这里预设周期可以根据数据库表的项目研发周期、调整周期等分析确定,编辑训练数据一般为一个较为系统全面的编辑过程,可以对训练数据进行系统全面的整理。
可选的,本发明实施例装置还包括第二编辑单元,用于:
根据接收到的外部指令,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
需要说明的是,这里外部指令一般在本领域技术人员通过分析确定:通过神经网络分析获得的当前数据库表中各缩写字段名对应的中文字段名存在错误时,即时的对训练数据进行编辑的操作;其处理和周期性处理在时限上存在差异,可以具有针对性的对部分信息进行编辑。
与相关技术相比,本申请技术方案包括:通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;对生成的训练数据进行字向量计算;将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。本发明实施例基于训练数据实现缩写字段名的解析,提升了用户对数据库表中包含的缩写字段名的可读性。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行上述处理字段名的方法。
本发明实施例还提供一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;
对生成的训练数据进行字向量计算;
将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种处理字段名的方法,其特征在于,包括:
通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;
对生成的训练数据进行字向量计算;
将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。
2.根据权利要求1所述的方法,其特征在于,所述神经网络包括:
双向长短期记忆网络LSTM模型。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
按照预设周期,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据接收到的外部指令,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
5.一种处理字段名的装置,其特征在于,包括:生成单元、计算单元和确定单元,其中,
生成单元用于:通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;
计算单元用于:对生成的训练数据进行字向量计算;
确定单元用于:将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。
6.根据权利要求5所述的装置,其特征在于,所述神经网络包括:
双向长短期记忆网络LSTM模型。
7.根据权利要求5或6所述的装置,其特征在于,所述装置还包括第一编辑单元,用于:
按照预设周期,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
8.根据权利要求5或6所述的装置,其特征在于,所述装置还包括第二编辑单元,用于:
根据接收到的外部指令,对所述训练数据中包含的缩写字段名和/或中文字段名进行编辑;
其中,所述编辑包括以下部分或全部操作:修改、添加、删除。
9.一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~4中任一项所述的处理字段名的方法。
10.一种终端,包括:存储器和处理器;其中,
处理器被配置为执行存储器中的程序指令;
程序指令在处理器读取执行以下操作:
通过预先采集的缩写字段名和对应于缩写字段名的中文字段名,生成训练数据;
对生成的训练数据进行字向量计算;
将字向量计算的计算结果输入预设的神经网络后,通过神经网络对数据库表进行分析,获得当前数据库表中各缩写字段名对应的中文字段名。
CN201811473066.7A 2018-12-04 2018-12-04 处理字段名的方法、装置、计算机存储介质及终端 Pending CN109800332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811473066.7A CN109800332A (zh) 2018-12-04 2018-12-04 处理字段名的方法、装置、计算机存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811473066.7A CN109800332A (zh) 2018-12-04 2018-12-04 处理字段名的方法、装置、计算机存储介质及终端

Publications (1)

Publication Number Publication Date
CN109800332A true CN109800332A (zh) 2019-05-24

Family

ID=66556400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811473066.7A Pending CN109800332A (zh) 2018-12-04 2018-12-04 处理字段名的方法、装置、计算机存储介质及终端

Country Status (1)

Country Link
CN (1) CN109800332A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568914A (zh) * 2021-07-29 2021-10-29 上海浦东发展银行股份有限公司 一种数据处理方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050033569A1 (en) * 2003-08-08 2005-02-10 Hong Yu Methods and systems for automatically identifying gene/protein terms in medline abstracts
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
CN104881397A (zh) * 2014-02-27 2015-09-02 富士通株式会社 缩写词扩展方法和装置
CN105955952A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种基于双向递归神经网络的信息提取方法
CN105976056A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向rnn的信息提取系统
CN105975455A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向递归神经网络的信息分析系统
CN106168946A (zh) * 2016-06-24 2016-11-30 中国科学院信息工程研究所 一种识别用户名缩写现象的方法
CN107943788A (zh) * 2017-11-17 2018-04-20 平安科技(深圳)有限公司 企业简称生成方法、装置及存储介质
US20180173789A1 (en) * 2016-12-21 2018-06-21 Ca, Inc. Descriptive datacenter state comparison
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108563645A (zh) * 2018-04-24 2018-09-21 成都智信电子技术有限公司 His系统的元数据翻译方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050033569A1 (en) * 2003-08-08 2005-02-10 Hong Yu Methods and systems for automatically identifying gene/protein terms in medline abstracts
CN103229137A (zh) * 2010-09-29 2013-07-31 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
CN104881397A (zh) * 2014-02-27 2015-09-02 富士通株式会社 缩写词扩展方法和装置
CN105955952A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种基于双向递归神经网络的信息提取方法
CN105976056A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向rnn的信息提取系统
CN105975455A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向递归神经网络的信息分析系统
CN106168946A (zh) * 2016-06-24 2016-11-30 中国科学院信息工程研究所 一种识别用户名缩写现象的方法
US20180173789A1 (en) * 2016-12-21 2018-06-21 Ca, Inc. Descriptive datacenter state comparison
CN107943788A (zh) * 2017-11-17 2018-04-20 平安科技(深圳)有限公司 企业简称生成方法、装置及存储介质
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108563645A (zh) * 2018-04-24 2018-09-21 成都智信电子技术有限公司 His系统的元数据翻译方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SU JEONG CHOI; A-YEONG KIM; SEONG-BAE PARK; SE-YOUNG PARK: "A generative deep learning for generating Korean abbreviations", 《AI 2016: ADVANCES IN ARTIFICIAL INTELLIGENCE. 29TH AUSTRALASIAN JOINT CONFERENCE》 *
孟蕾: "基于网络数据的中文公司实体关系抽取研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
张秋子: "基于最大熵模型的学术缩写自动识别", 《情报工程》 *
陈彦妤,杜明: "基于CRF和Bi-LSTM的保险名称实体识别", 《智能计算机与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568914A (zh) * 2021-07-29 2021-10-29 上海浦东发展银行股份有限公司 一种数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108090043B (zh) 基于人工智能的纠错举报处理方法、装置及可读介质
US8370278B2 (en) Ontological categorization of question concepts from document summaries
CN111159220B (zh) 用于输出结构化查询语句的方法和装置
CN113076104A (zh) 页面生成方法、装置、设备及存储介质
CN114424257A (zh) 使用机器学习对表格数据进行自动描绘和提取
CN110569335A (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN111144210A (zh) 图像的结构化处理方法及装置、存储介质及电子设备
CN111400473A (zh) 意图识别模型的训练方法及装置、存储介质及电子设备
CN117709435B (zh) 大语言模型的训练方法、代码生成方法、设备及存储介质
CN109409419B (zh) 用于处理数据的方法和装置
US10997252B2 (en) Methods, apparatuses, and computer storage media for data searching
CN112582073B (zh) 医疗信息获取方法、装置、电子设备和介质
CN111930891B (zh) 基于知识图谱的检索文本扩展方法及相关装置
CN109800332A (zh) 处理字段名的方法、装置、计算机存储介质及终端
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN110362688B (zh) 试题标注方法、装置、设备及计算机可读存储介质
CN110705308A (zh) 语音信息的领域识别方法、装置、存储介质及电子设备
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN114579461A (zh) 浏览器兼容性检测方法及相关设备
CN113468258A (zh) 一种异构数据的转换方法、装置及存储介质
CN114020774A (zh) 多轮问答语句的处理方法、装置、设备及存储介质
CN110309315B (zh) 模板文件的生成方法、装置、计算机可读介质及电子设备
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
CN110889273A (zh) 数据处理方法、数据处理装置、存储介质和电子设备
CN110648119A (zh) 培训方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524