CN112149419B - 字段的规范化自动命名方法、装置及系统 - Google Patents

字段的规范化自动命名方法、装置及系统 Download PDF

Info

Publication number
CN112149419B
CN112149419B CN202011066109.7A CN202011066109A CN112149419B CN 112149419 B CN112149419 B CN 112149419B CN 202011066109 A CN202011066109 A CN 202011066109A CN 112149419 B CN112149419 B CN 112149419B
Authority
CN
China
Prior art keywords
phrase
naming
data
field
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011066109.7A
Other languages
English (en)
Other versions
CN112149419A (zh
Inventor
梁婷
祁成
管涛
方剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202011066109.7A priority Critical patent/CN112149419B/zh
Publication of CN112149419A publication Critical patent/CN112149419A/zh
Application granted granted Critical
Publication of CN112149419B publication Critical patent/CN112149419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种字段的规范化自动命名方法、装置及系统,所述方法包含:获取待命名的字段所对应的中文数据;通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语;将所述命名短语与预设短语词库比较,获得所述命名短语对应的分类信息和缩写标识;根据所述分类信息和所述缩写标识按预设命名组装规则组装获得命名数据。

Description

字段的规范化自动命名方法、装置及系统
技术领域
本发明涉及数据仓库研发领域,尤指一种字段的规范化自动命名方法、装置及系统。
背景技术
在数据仓库进行数据开发时,频繁会遇到给上百个字段命名的工作。字段由多个短语组成,字段命名工作就是根据已知的字段中文名取出字段英文名。字段命名需要遵守数仓建设规范,如单个短语缩写规范、多个短语组合顺序规范等,达到通过字段命名理解到字段的含义的目的。
当前做法有两种:一是人工命名,往往需要耗费大量时间精力,通常1个字段需要1-2分钟。二是最长匹配原则自动化命名,采用逐步迭代的方法,比如字段“最近7天逾期天数”,首先匹配短语词库“最近7天逾期天数”,未匹配到的话继续匹配“最近7天逾期天”、“最近7天逾期”、“最近7天逾”、“最近7天”,匹配到后,继续匹配“逾期天数”、“逾期天”、“逾期”,匹配到后,继续匹配“天数”;该方案缺点有二,一是命名的成功率低,严重依赖字段中文描述规范,比如“最近7天的逾期天数”,短语库中没有“的”短语的缩写,故该字段无法命名,二是该方案层层循环,效率低,消耗系统计算资源多;三是中文名不同但其实是同义的变量无法识别,会命名成不同的字段名,提升了数据仓库的管理难度和数据使用难度。
综上,如何提供一种新的方案,能够花费更小计算成本、提高命名成功率,并且能够识别同义字段、对同义字段使用相同字段命名,是本领域亟待解决的难题。
发明内容
本发明目的在于提供一种字段的规范化自动命名方法、装置及系统,以在花费更小计算成本的基础上提高命名的成功率,并且能够识别同义字段、对同义字段使用相同字段命名。
为达上述目的,本发明所提供的字段的规范化自动命名方法,具体包含:获取待命名的字段所对应的中文数据;通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语;将所述命名短语与预设短语词库比较,获得所述命名短语对应的分类信息和缩写标识;根据所述分类信息和所述缩写标识按预设命名组装规则组装获得命名数据。
在上述字段的规范化自动命名方法中,优选的,将所述命名短语与预设短语词库比较之前还包含:于预设数据库中检索所述字段的历史命名数据;当存在历史命名数据时,比较分析所述历史命名数据和所述命名短语之间的相似性;当所述相似性超出预设阈值时,以所述历史命名数据作为所述字段的命名数据。
在上述字段的规范化自动命名方法中,优选的,比较分析所述历史命名数据和所述命名短语之间的相似性包含:通过词向量模型分别获取所述历史命名数据和所述命名短语的词向量;利用词向量相似度计算方法比较所述历史命名数据和所述命名短语的词向量之间的相似度,获得所述历史命名数据和所述命名短语之间的相似性。
在上述字段的规范化自动命名方法中,优选的,通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语包含:根据预设短语词库构建单词查找树,通过所述单词查找树利用二分查找算法对所述字段对应的中文数据进行机械分词和词性标注;根据所述描述短语的词性筛除所述描述短语中无义词后获得命名短语。
在上述字段的规范化自动命名方法中,优选的,通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语还包含:当预设短语词库中未包含所述描述短语时,根据所述中文数据生成提示信息;通过所述提示信息请求获得外部输入的描述短语及对应的词性。
本发明还提供一种字段的规范化自动命名装置,所述装置包含采集模块、分词模块、比对模块和处理模块;所述采集模块用于获取待命名的字段所对应的中文数据;所述分词模块用于通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语;所述比对模块用于将所述命名短语与预设短语词库比较,获得所述命名短语对应的分类信息和缩写标识;所述处理模块用于根据所述分类信息和所述缩写标识按预设命名组装规则组装获得命名数据。
在上述字段的规范化自动命名装置中,优选的,所述装置还包含分析模块,所述分析模块用于于预设数据库中检索所述字段的历史命名数据;当存在历史命名数据时,比较分析所述历史命名数据和所述命名短语之间的相似性;当所述相似性超出预设阈值时,以所述历史命名数据作为所述字段的命名数据。
在上述字段的规范化自动命名装置中,优选的,所述分析模块包含相似性计算单元,所述相似性计算单元用于通过词向量模型分别获取所述历史命名数据和所述命名短语的词向量;利用词向量相似度计算方法比较所述历史命名数据和所述命名短语的词向量之间的相似度,获得所述历史命名数据和所述命名短语之间的相似性。
在上述字段的规范化自动命名装置中,优选的,所述分词模块包含:根据预设短语词库构建单词查找树,通过所述单词查找树利用二分查找算法对所述字段对应的中文数据进行机械分词和词性标注;根据所述描述短语的词性筛除所述描述短语中无义词后获得命名短语。
在上述字段的规范化自动命名装置中,优选的,所述分词模块还包含补充单元,所述补充单元用于当预设短语词库中未包含所述描述短语时,根据所述中文数据生成提示信息;通过所述提示信息请求获得外部输入的描述短语及对应的词性。
本发明还提供一种包含字段的规范化自动命名装置的系统,所述系统还包含交互装置和数据库;所述交互装置用于接收用户输入的字段的中文数据,将所述中文数据提供至所述字段的规范化自动命名装置;以及,将所述字段的规范化自动命名装置生成的命名数据展示;所述数据库用于存储预设短语词库和预设命名组装规则,并提供所述字段的规范化自动命名装置查询调用。
在上述系统中,优选的,所述交互装置还包含维护模块和规则模块;所述维护模块用于向外部提供预设短语词库的修改接口;所述规则模块用于向外部提供预设命名组装规则的调整接口。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明的有益技术效果在于:基于自然语言理解,消除无义词对字段中文名的干扰,能够提高字段命名的成功率。采用了nlp机械分词技术即单词查找树与二分查找算法等方式,提高字段命名的执行效率、节省计算成本。引入词向量模型的word2vec编码手段,使用词向量相似度计算方法,如wmd算法进行同义字段的识别,实现中文字段名不同但含义相同的两个字段,使用相同的英文字段名。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所提供的字段的规范化自动命名方法的流程示意图;
图2为本发明一实施例所提供的字段的规范化自动命名方法的应用流程示意图;
图3为本发明一实施例所提供的相似性比较的流程示意图;
图4为本发明一实施例所提供的命名短语的生成流程示意图;
图5为本发明一实施例所提供的字段的规范化自动命名装置的结构示意图;
图6为本发明一实施例所提供的系统的结构示意图;
图7为本发明一实施例所提供的电子设备的流程示意图;
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
请参考图1所示,本发明所提供的字段的规范化自动命名方法,具体包含:
S101获取待命名的字段所对应的中文数据;
S102通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语;
S103将所述命名短语与预设短语词库比较,获得所述命名短语对应的分类信息和缩写标识;
S104根据所述分类信息和所述缩写标识按预设命名组装规则组装获得命名数据。
其中,通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语还包含:当预设短语词库中未包含所述描述短语时,根据所述中文数据生成提示信息;通过所述提示信息请求获得外部输入的描述短语及对应的词性。在上述实施例中,步骤S103将所述命名短语与预设短语词库比较之前还包含:于预设数据库中检索所述字段的历史命名数据;当存在历史命名数据时,比较分析所述历史命名数据和所述命名短语之间的相似性;当所述相似性超出预设阈值时,以所述历史命名数据作为所述字段的命名数据。具体的,请参考图2所示,在实际工作中所述字段的规范化自动命名方法的具体实施流程如下:
获取需要进行命名的字段中文名
利用nlp模块进行字段中文名的分词,并对词性进行标注,将无义词短语删除,比如的、着、了等。如果遇到词库中无法分词的短语,用户通过外部新增短语词库后继续分词和词性标注。
利用同义分析法分析该字段是否曾经已命名过,即已存在同义字段,如存在则结束命名流程并将同义字段展示给用户。如不存在则进入以下步骤:
将分词后的短语一一映射到短语词库中,找到每个短语对应的英文缩写和分类;
按照命名规则和短语的分类信息,把短语组装起来。
组装好的英文名展示给用户。
请参考图3所示,在本发明一实施例中,上述比较分析所述历史命名数据和所述命名短语之间的相似性包含:
S301通过词向量模型分别获取所述历史命名数据和所述命名短语的词向量;
S302利用词向量相似度计算方法比较所述历史命名数据和所述命名短语的词向量之间的相似度,获得所述历史命名数据和所述命名短语之间的相似性。
在实际工作中,上述实施例可通过word2vec模型、word2vec编码和wmd算法组合实现,具体的:
训练word2vec模型并部署在系统中(也可采用公开的词向量模型);
输入两个中文名,使用word2vec编码,采用wmd算法计算两个中文名间的相似度,当相似度低于预设阈值,如:0.1时即认为同义(越低越相似)。
其中,Wmd算法具体过程为:
1、两个短句D1和D2,D1中所有的词转移到D2中的所有词,当词语义相近时,可全部移动或移动多一些,当语义差异大时则少移动;用词向量距离乘以移动距离标识两个词的转移代价。
2、求全局的转移代价累加最小值,即D1、D2的相似度。
例如:对于数据仓库中,“借据发放金额”和“借据贷款金额”为同义字段;“借据到期日期”和“借据到期日”为同义字段;“客户编码”和“客户编号”和“客户号”为同义字段;以此类推,当然,实际工作中本领域相关技术人员也可根据实际需要选择设定,本发明在此并不做进一步限定。
请参考图4所示,在本发明一实施例中,通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语包含:
S401根据预设短语词库构建单词查找树,通过所述单词查找树利用二分查找算法对所述字段对应的中文数据进行机械分词和词性标注;
S402根据所述描述短语的词性筛除所述描述短语中无义词后获得命名短语。
在实际工作中,对中文数据进行分词的方式主要在于对短语词库构建trie树,使用二分查找算法进行机械分词和词性标注,并对无义词进行删除。该算法的时间复杂度为O(log2n),较原命名方案的算法O(N2)有所降低,节省计算资源。
在上述实施例中,在进行命名数据组装环节主要是根据用户输入的命名规则、标准的短语词库对字段中文名进行自动化命名,计算出其标准的字段英文名。此过程中结合短语词库、命名规则进行字段的命名,并推送展示;其具体计算过程为:利用分词模块分词、同义分析模型分析为非同义字段,则将分词后的每个短语通过短语词库映射到其英文缩写,并按照命名规则进行短语的组装。
请参考图5所示,本发明还提供一种字段的规范化自动命名装置,所述装置包含采集模块、分词模块、比对模块和处理模块;所述采集模块用于获取待命名的字段所对应的中文数据;所述分词模块用于通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语;所述比对模块用于将所述命名短语与预设短语词库比较,获得所述命名短语对应的分类信息和缩写标识;所述处理模块用于根据所述分类信息和所述缩写标识按预设命名组装规则组装获得命名数据。
在本发明一实施例中,所述装置还包含分析模块,所述分析模块用于于预设数据库中检索所述字段的历史命名数据;当存在历史命名数据时,比较分析所述历史命名数据和所述命名短语之间的相似性;当所述相似性超出预设阈值时,以所述历史命名数据作为所述字段的命名数据。进一步的,所述分析模块还可包含相似性计算单元,所述相似性计算单元用于通过词向量模型分别获取所述历史命名数据和所述命名短语的词向量;利用词向量相似度计算方法比较所述历史命名数据和所述命名短语的词向量之间的相似度,获得所述历史命名数据和所述命名短语之间的相似性。
在上述实施例中,所述分词模块包含:根据预设短语词库构建单词查找树,通过所述单词查找树利用二分查找算法对所述字段对应的中文数据进行机械分词和词性标注;根据所述描述短语的词性筛除所述描述短语中无义词后获得命名短语。进一步的,所述分词模块还包含补充单元,所述补充单元用于当预设短语词库中未包含所述描述短语时,根据所述中文数据生成提示信息;通过所述提示信息请求获得外部输入的描述短语及对应的词性。
本发明所提供的字段的规范化自动命名装置中各组件模块和单元的具体实施方式已在前述实施例中详细举例说明,在此就不再一一详述。
请参考图6所示,本发明还提供一种包含字段的规范化自动命名装置的系统,所述系统还包含交互装置和数据库;所述交互装置用于接收用户输入的字段的中文数据,将所述中文数据提供至所述字段的规范化自动命名装置;以及,将所述字段的规范化自动命名装置生成的命名数据展示;所述数据库用于存储预设短语词库和预设命名组装规则,并提供所述字段的规范化自动命名装置查询调用。
在上述实施例中,所述交互装置还可包含维护模块和规则模块;所述维护模块用于向外部提供预设短语词库的修改接口;所述规则模块用于向外部提供预设命名组装规则的调整接口。
实际工作中,所述交互装置主要完成以下功能:
1、提供用户自助输入字段中文名、展示其对应的标准化英文字段名功能。
2、提供用户增删改查短语词库的功能。当字段中文名中的某个短语在短语词库缺失时,可以通过新增功能建立中文短语和英文缩写的映射关系。
3、提供字段多个短语的组合顺序定义。字段由修饰词、度量、时间范围三部分组成。如“最近7天逾期天数”,修饰词为逾期,度量为天数,时间范围为最近7天,该字段对应的英文名需要把多个短语组合起来,组合顺序不同导致了字段名的不同,通常数仓的组合顺序为“修饰词+度量+时间范围”。
所述数据库主要完成以下功能:
1、交互装置的物理存储,包含四列内容,“中文短语,英文短语,英文缩写,分类”,其中分类的枚举值为“修饰词、度量、时间范围”三类;
2、交互装置的预设命名组装规则的物理存储。
本发明的有益技术效果在于:基于自然语言理解,消除无义词对字段中文名的干扰,能够提高字段命名的成功率。采用了nlp机械分词技术即单词查找树与二分查找算法等方式,提高字段命名的执行效率、节省计算成本。引入词向量模型的word2vec编码手段,使用词向量相似度计算方法,如wmd算法进行同义字段的识别,实现中文字段名不同但含义相同的两个字段,使用相同的英文字段名。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
如图7所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图7中所示的所有部件;此外,电子设备600还可以包括图7中没有示出的部件,可以参考现有技术。
如图7所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。
其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。
输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。
存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种字段的规范化自动命名方法,其特征在于,所述方法包含:
获取待命名的字段所对应的中文数据;
通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语;
将所述命名短语与预设短语词库比较,获得所述命名短语对应的分类信息和缩写标识;
根据所述分类信息和所述缩写标识按预设命名组装规则组装获得命名数据;
通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语包含:根据预设短语词库构建单词查找树,通过所述单词查找树利用二分查找算法对所述字段对应的中文数据进行机械分词和词性标注;根据所述描述短语的词性筛除所述描述短语中无义词后获得命名短语。
2.根据权利要求1所述的字段的规范化自动命名方法,其特征在于,将所述命名短语与预设短语词库比较之前还包含:
于预设数据库中检索所述字段的历史命名数据;
当存在历史命名数据时,比较分析所述历史命名数据和所述命名短语之间的相似性;
当所述相似性超出预设阈值时,以所述历史命名数据作为所述字段的命名数据。
3.根据权利要求2所述的字段的规范化自动命名方法,其特征在于,比较分析所述历史命名数据和所述命名短语之间的相似性包含:
通过词向量模型分别获取所述历史命名数据和所述命名短语的词向量;
利用词向量相似度计算方法比较所述历史命名数据和所述命名短语的词向量之间的相似度,获得所述历史命名数据和所述命名短语之间的相似性。
4.根据权利要求1所述的字段的规范化自动命名方法,其特征在于,通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语还包含:
当预设短语词库中未包含所述描述短语时,根据所述中文数据生成提示信息;
通过所述提示信息请求获得外部输入的描述短语及对应的词性。
5.一种字段的规范化自动命名装置,其特征在于,所述装置包含采集模块、分词模块、比对模块和处理模块;
所述采集模块用于获取待命名的字段所对应的中文数据;
所述分词模块用于通过预设短语词库对所述字段对应的中文数据进行分词处理获得描述短语,根据所述描述短语的词性筛除所述描述短语中预定类别短语获得命名短语;
所述比对模块用于将所述命名短语与预设短语词库比较,获得所述命名短语对应的分类信息和缩写标识;
所述处理模块用于根据所述分类信息和所述缩写标识按预设命名组装规则组装获得命名数据;
所述分词模块包含:根据预设短语词库构建单词查找树,通过所述单词查找树利用二分查找算法对所述字段对应的中文数据进行机械分词和词性标注;根据所述描述短语的词性筛除所述描述短语中无义词后获得命名短语。
6.根据权利要求5所述的字段的规范化自动命名装置,其特征在于,所述装置还包含分析模块,所述分析模块用于于预设数据库中检索所述字段的历史命名数据;当存在历史命名数据时,比较分析所述历史命名数据和所述命名短语之间的相似性;当所述相似性超出预设阈值时,以所述历史命名数据作为所述字段的命名数据。
7.根据权利要求6所述的字段的规范化自动命名装置,其特征在于,所述分析模块包含相似性计算单元,所述相似性计算单元用于通过词向量模型分别获取所述历史命名数据和所述命名短语的词向量;利用词向量相似度计算方法比较所述历史命名数据和所述命名短语的词向量之间的相似度,获得所述历史命名数据和所述命名短语之间的相似性。
8.根据权利要求5所述的字段的规范化自动命名装置,其特征在于,所述分词模块还包含补充单元,所述补充单元用于当预设短语词库中未包含所述描述短语时,根据所述中文数据生成提示信息;通过所述提示信息请求获得外部输入的描述短语及对应的词性。
9.一种包含权利要求5至8中任一项所述的字段的规范化自动命名装置的系统,其特征在于,所述系统还包含交互装置和数据库;
所述交互装置用于接收用户输入的字段的中文数据,将所述中文数据提供至所述字段的规范化自动命名装置;以及,将所述字段的规范化自动命名装置生成的命名数据展示;
所述数据库用于存储预设短语词库和预设命名组装规则,并提供所述字段的规范化自动命名装置查询调用。
10.根据权利要求9所述的系统,其特征在于,所述交互装置还包含维护模块和规则模块;
所述维护模块用于向外部提供预设短语词库的修改接口;
所述规则模块用于向外部提供预设命名组装规则的调整接口。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一所述方法的计算机程序。
CN202011066109.7A 2020-09-30 2020-09-30 字段的规范化自动命名方法、装置及系统 Active CN112149419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011066109.7A CN112149419B (zh) 2020-09-30 2020-09-30 字段的规范化自动命名方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011066109.7A CN112149419B (zh) 2020-09-30 2020-09-30 字段的规范化自动命名方法、装置及系统

Publications (2)

Publication Number Publication Date
CN112149419A CN112149419A (zh) 2020-12-29
CN112149419B true CN112149419B (zh) 2024-03-08

Family

ID=73952329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011066109.7A Active CN112149419B (zh) 2020-09-30 2020-09-30 字段的规范化自动命名方法、装置及系统

Country Status (1)

Country Link
CN (1) CN112149419B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420077B (zh) * 2021-06-10 2024-01-30 浙江大华技术股份有限公司 一种数据处理方法、装置、设备及介质
CN114896352B (zh) * 2022-04-06 2022-11-11 北京月新时代科技股份有限公司 无字段名的井文件字段名自动匹配方法、系统、介质和计算机设备
CN116361517B (zh) * 2023-05-29 2023-08-25 北京拓普丰联信息科技股份有限公司 一种企业字号查重方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403013A (zh) * 2017-08-01 2017-11-28 杭州安恒信息技术有限公司 Web业务行为的识别方法及装置
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242033B2 (en) * 2015-07-07 2019-03-26 Adobe Inc. Extrapolative search techniques

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403013A (zh) * 2017-08-01 2017-11-28 杭州安恒信息技术有限公司 Web业务行为的识别方法及装置
CN109117479A (zh) * 2018-08-13 2019-01-01 数据地平线(广州)科技有限公司 一种金融文档智能核查方法、装置及存储介质

Also Published As

Publication number Publication date
CN112149419A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112149419B (zh) 字段的规范化自动命名方法、装置及系统
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
CN110275965B (zh) 假新闻检测方法、电子装置及计算机可读存储介质
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN112256863A (zh) 一种确定语料意图的方法、装置及电子设备
CN103106214A (zh) 一种候选词组输出方法和电子设备
CN110826342A (zh) 一种实现模型管理的方法、装置、计算机存储介质及终端
CN110825840B (zh) 词库扩充方法、装置、设备及存储介质
CN114911929A (zh) 分类模型训练方法、文本挖掘方法、设备及存储介质
CN110046231A (zh) 一种客服信息处理方法、服务器和系统
CN115237805A (zh) 测试案例数据准备方法及装置
CN115048435A (zh) 一种智能型数据库存储方法及系统
US11822589B2 (en) Method and system for performing summarization of text
CN113946668A (zh) 基于边缘节点的语义处理方法、系统、装置及存储介质
CN117725895A (zh) 文档生成方法、装置、设备及介质
CN115878864A (zh) 一种数据检索方法、装置、设备及可读存储介质
CN113516963A (zh) 音频数据的生成方法、装置、服务器和智能音箱
WO2023000954A1 (zh) 票据处理
CN115730591A (zh) 基于知识图谱的用户服务方法、装置、设备和存储介质
CN117472417A (zh) 输入法内核生成方法、装置、设备、存储介质及程序产品
CN115221874A (zh) 倒排索引的构建方法、名单筛查方法、装置、电子设备
CN113535125A (zh) 金融需求项生成方法及装置
CN111324732B (zh) 模型训练方法、文本处理方法、装置及电子设备
CN111159421A (zh) 基于知识图谱的基金查询方法及装置
CN111353308A (zh) 命名实体识别方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant