CN109144999A - 一种数据定位方法、装置及存储介质、程序产品 - Google Patents

一种数据定位方法、装置及存储介质、程序产品 Download PDF

Info

Publication number
CN109144999A
CN109144999A CN201810873070.6A CN201810873070A CN109144999A CN 109144999 A CN109144999 A CN 109144999A CN 201810873070 A CN201810873070 A CN 201810873070A CN 109144999 A CN109144999 A CN 109144999A
Authority
CN
China
Prior art keywords
data
dimensional feature
category
data item
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810873070.6A
Other languages
English (en)
Other versions
CN109144999B (zh
Inventor
冯仓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201810873070.6A priority Critical patent/CN109144999B/zh
Publication of CN109144999A publication Critical patent/CN109144999A/zh
Application granted granted Critical
Publication of CN109144999B publication Critical patent/CN109144999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据定位方法及装置,其中,首先根据数据分类模型确定各个数据表包括的数据类别信息;在获取输入的查询信息,所述查询信息包括至少一个所述数据类别信息;检索包括所述查询信息的数据表。可见,本申请实施例预先确定了各个数据表中所包括数据对应的数据类别信息,在需要定位数据表时,可以直接检索一个或多个数据类别信息即可定位到数据表,即使各个数据表的格式不同,由于已经预先确定了各个数据表所包括的数据类别信息,则可以通过检索数据类别信息的方式定位到数据表,大幅提高了定位数据表的效率。本申请实施例还公开了一种存储介质及程序产品。

Description

一种数据定位方法、装置及存储介质、程序产品
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据定位方法、装置及存储介质、程序产品。
背景技术
随着信息化的发展,各个医疗机构一般会使用HIS(Hospital InformationSystem,医院信息系统),HIS系统是覆盖医疗机构所有医疗业务和医疗业务全过程的信息管理系统。医疗机构使用HIS系统的过程中,会产生各个医疗业务对应的业务数据表,由于医疗业务数量众多,因此会产生大量的业务数据表,其中,医疗业务例如挂号业务、药品明细业务、入院出院业务等等。
目前在区域医疗一体化背景下,需要建立某区域内的医疗数据平台,但是该区域内各个医疗机构使用的HIS系统由于厂商不同等原因,产生的业务数据表格式往往并不统一,无法通过检索的方式定位到某一业务数据表。因此为了获取不同HIS系统中同一业务的业务数据表,往往需要人工在产生的大量业务数据表中查找该业务对应的业务数据表,数据定位的效率极为低下。
发明内容
有鉴于此,本申请实施例提供一种数据定位方法、装置及存储介质、程序产品,以解决现有技术中数据定位的效率低下的技术问题。
为解决上述问题,本申请实施例提供的技术方案如下:
一种数据定位的方法,根据数据分类模型确定各个数据表包括的数据类别信息,所述方法包括:
获取输入的查询信息,所述查询信息包括至少一个所述数据类别信息;
检索包括所述查询信息的数据表。
在一种可能的实现方式中,所述根据数据分类模型确定各个数据表包括的数据类别信息,包括:
将待分类数据项输入数据分类模型,得到所述待分类数据项的数据类别;
根据所述待分类数据项的数据类别确定所述待分类数据项所属字段的字段类别;
将任一数据表中所包括字段的字段类别作为该数据表包括的数据类别信息。
在一种可能的实现方式中,所述数据分类模型的建立过程包括:
获取分类训练数据,所述分类训练数据包括原始数据项的特征向量以及所述原始数据项的分类标签;所述原始数据项的特征向量包括n维特征量,其中,所述n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数;
根据所述分类训练数据对初始分类模型进行训练,生成数据分类模型。
在一种可能的实现方式中,所述将待分类数据项输入数据分类模型,得到所述待分类数据项的数据类别,包括:
提取待分类数据项的特征向量;所述待分类数据项的特征向量包括n维特征量,其中,所述n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数;
将所述待分类数据项的特征向量输入数据分类模型,得到所述待分类数据项的数据类别。
在一种可能的实现方式中,所述第k维特征对应的规则信息包括:
第k维特征对应的类别特征候选词集合、第k维特征对应的正则表达式或第k维特征对应的类别匹配模型。
在一种可能的实现方式中,当所述第k维特征对应的规则信息为第k维特征对应的类别特征候选词集合时,所述n维特征量中第k维特征量的确定方式包括:
由公式确定,其中,fk为所述n维特征量中第k维特征量,e为自然常数,wi为待分析数据项与第k维特征对应的类别特征候选词集合中第i个类别特征候选词之间的模糊匹配值,rk为第k维特征对应的模糊增量,i为正整数,所述待分析数据项为所述原始数据项或者所述待分类数据项。
在一种可能的实现方式中,所述根据所述待分类数据项的数据类别确定所述待分类数据项所属字段的字段类别,包括:
获取所属同一字段的多个待分类数据项的数据类别;
根据多个待分类数据项的数据类别中最多的数据类别确定为该字段的字段类别。
在一种可能的实现方式中,所述查询信息还包括至少一个数据项信息。
一种数据定位装置,所述装置包括:
确定单元,用于根据数据分类模型确定各个数据表包括的数据类别信息;
获取单元,用于获取输入的查询信息,所述查询信息包括至少一个所述数据类别信息;
检索单元,用于检索包括所述查询信息的数据表。
在一种可能的实现方式中,所述确定单元具体包括:
获得子单元,用于将待分类数据项输入数据分类模型,得到所述待分类数据项的数据类别;
第一确定子单元;用于根据所述待分类数据项的数据类别确定所述待分类数据项所属字段的字段类别;
第二确定子单元,用于将任一数据表中所包括字段的字段类别作为该数据表包括的数据类别信息。
在一种可能的实现方式中,所述数据分类模型的建立过程包括:
获取分类训练数据,所述分类训练数据包括原始数据项的特征向量以及所述原始数据项的分类标签;所述原始数据项的特征向量包括n维特征量,其中,所述n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数;
根据所述分类训练数据对初始分类模型进行训练,生成数据分类模型。
在一种可能的实现方式中,所述获得子单元具体包括:
提取子单元,用于提取待分类数据项的特征向量;所述待分类数据项的特征向量包括n维特征量,其中,所述n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数;
输入子单元,用于将所述待分类数据项的特征向量输入数据分类模型,得到所述待分类数据项的数据类别。
在一种可能的实现方式中,所述第k维特征对应的规则信息包括:
第k维特征对应的类别特征候选词集合、第k维特征对应的正则表达式或第k维特征对应的类别匹配模型。
在一种可能的实现方式中,当所述第k维特征对应的规则信息为第k维特征对应的类别特征候选词集合时,所述n维特征量中第k维特征量的确定方式包括:
由公式确定,其中,fk为所述n维特征量中第k维特征量,e为自然常数,wi为待分析数据项与第k维特征对应的类别特征候选词集合中第i个类别特征候选词之间的模糊匹配值,rk为第k维特征对应的模糊增量,i为正整数,所述待分析数据项为所述原始数据项或者所述待分类数据项。
在一种可能的实现方式中,所述第一确定子单元具体包括:
获取子单元,用于获取所属同一字段的多个待分类数据项的数据类别;
确定子单元,用于根据多个待分类数据项的数据类别中最多的数据类别确定为该字段的字段类别。
所述查询信息还包括至少一个数据项信息。
一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的数据定位方法。
一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的数据定位方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例预先确定了各个数据表中所包括数据对应的数据类别信息,在需要定位数据表时,可以直接检索一个或多个数据类别信息即可定位到数据表,即使各个数据表的格式不同,由于已经预先确定了各个数据表所包括的数据类别信息,则可以通过检索数据类别信息的方式定位到数据表,大幅提高了定位数据表的效率。
附图说明
图1为本申请实施例提供的一种数据定位方法流程图;
图2为本申请实施例提供的一种数据定位方法的示例性流程图;
图3为本申请实施例提供的一种确定数据表包括的数据类别信息方法流程图;
图4为本申请实施例提供的一种数据定位装置结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为便于理解本申请提供的技术方案,下面先对本申请技术方案的研究背景进行简单说明。
由于HIS系统的厂商不同,会造成不同医疗机构使用的业务数据表格式不统一,当通过检索方式定位某一业务数据表时,由于数据表格式存在差异,会导致定位失败。例如,药品明细业务表,在该业务表中通常会有药品相关信息,如标识药品名称的字段,然而由于厂商不同,在不同药品明细业务表中,对于该标识药品名称的字段的命名可能并不相同,如“药品名称”、“药品”、“药品名”等,当用户通过“药品”检索所需的药品明细业务表时,当所查找的业务表中标识药品名称的字段为“药品名”时,格式不匹配,进而导致定位失败,则无法为用户全面查找所需的业务表。
基于此,本申请提出了一种数据定位方法、装置及存储介质、程序产品,首先根据数据分类模型确定各个数据表包括的数据类别信息,在需要定位数据表时,可以直接检索一个或多个数据类别信息即可定位到数据表,即使各个数据表的格式不同,由于已经预先确定了各个数据表所包括的数据类别信息,则可以通过检索数据类别信息的方式定位到数据表,大幅提高了定位数据表的效率。
为便于理解本申请实施例提供技术方案,下面将结合附图为本申请实施例提供的数据定位方法进行介绍。
参见图1,其示出了本申请实施例提供的一种数据定位方法流程图,如图1所示,该方法可以包括:
S101:根据数据分类模型确定各个数据表包括的数据类别信息。
本实施例中,为利用数据类别信息进行数据定位,首先需要确定各个数据表包括的数据类别信息,在实际应用中,可以根据数据分类模型确定每个数据表所包括的数据类别信息。其中,数据分类模型为预先训练生成的,关于生成数据分类模型的具体实现方式将在后续实施例中进行详细说明。
其中,数据表可以包括各种业务数据表,例如,医疗领域中的挂号业务表、药品明细业务表、入院登记表、出院登记表等等。在实际应用中,每个数据表中可以包括多个字段,每个字段可以对应多个数据项,为便于理解,以药品明细业务表为例进行说明,如表1所示。
表1药品明细业务表
药品名称 规格 价格(元) 生产日期
氯化钠 100ml 2 2018年6月29日
复方板蓝根颗粒 15g*20 3.8 2018年5月4日
藿香正气水 10ml*10 1.2 2018年7月4日
在该药品明细业务表中,包括药品名称、规格、价格以及生产日期四个字段,每个字段包括三个数据项。当然,药品明细业务表中还可以包括其他字段,每个字段还可以包括更多数据项,本实施例在此不做限定。
在本申请实施例中,可以确定数据表中包括的数据类别信息,例如在该药品明细业务表中,将药品名称字段确定为“药品”类别、规格字段确定为“规格”类别、价格字段确定为“费用”类别以及生产日期字段确定为“日期”类别,因此,该药品明细业务表包括四种数据类别信息。
可以理解的是,不同的业务表可能包括不同字段,以及不同的数据类别信息。例如,挂号业务表中可以包括挂号者的姓名、挂号科室、挂号时间等字段,则可以将姓名字段确定为“人名”类别、挂号科室字段确定为“科室”类别、挂号时间字段确定为“日期”类别等,因此,该挂号业务表可以包括“人名”、“科室”、“日期”等数据类别信息。
在具体应用时,可以利用数据分类模型首先确定数据表中数据项的数据类别,然后根据数据项的数据类别确定数据项所属字段的字段类别,最后,将各个字段的类别作为数据表包括的数据类别信息。例如,首先确定数据项“氯化钠”、“复方板蓝根颗粒”以及“藿香正气水”的类别,然后根据上述三个数据项的数据类别确定药品名称字段的类别,当该数据表中所有字段的字段类别确定后,则可以确定该数据表包括的数据类别信息。其中,关于利用数据分类模型确定数据表所包括的数据类别信息的具体实现将在后续实施例进行详细说明。
需要说明的是,S101可以在执行数据定位方法之前预先执行,以确定出各个数据表包括的数据类别信息,当需要定位数据表时,则可以从S102开始执行。也就是说,当实施数据定位方法时,S101可以仅执行一次即可。
S102:获取输入的查询信息。
本实施例中,当用户需要定位某数据表时,输入查询信息,以根据查询信息执行S103。其中,查询信息可以包括至少一个数据类别信息,以根据输入的数据类别信息进行定位,执行S103。可以理解的是,用户输入的查询信息中也可以包括多个数据类别信息,从而可以根据多个数据类别信息进行定位,从而提高定位的准确性,为用户提供所需的数据表。例如,用户可以同时输入“费用”、“药品”以及“日期”三个数据类别信息。
在一种可能的实现方式中,用户输入的查询信息还可以包括数据项信息,以同时根据输入的数据类别信息和数据项信息进行数据定位,执行S103,以提高定位效率以及准确性。在实际应用中,用户所输入的数据项信息对应的数据类别可以和用户输入的数据类别信息相同,也可以不同,本实施例在此对输入的数据项不进行限定。例如,用户可以输入“药品”类别以及数据项“氯化钠”,也可以输入“费用”类别以及数据项“氯化钠”。
S103:检索包括查询信息的数据表。
通过S102,获取用户输入的查询信息,然后根据查询信息在数据库中检索包括该查询信息的所有数据表,从而实现数据的定位。其中,数据库中可以包括大量的数据表,在实际应用时,从大量的数据表中检索包括用户输入的数据类别信息的数据表。例如,用户输入“人名”类别,则根据该数据类别信息,可以检索到包括“人名”类别的数据表有挂号业务表、住院业务表、出院业务表等等。
在实际应用时,当查询信息还包括数据项信息时,则还可以进一步检索,以得到包括该数据项信息的数据表,从而使最终检索到的数据表更加符合用户需求,提高检索准确性。例如,用户输入“人名”类别,以及数据项“张三”,则从数据库中检索包括“人名”类别且数据项包括“张三”的数据表,检索结果可能包括挂号业务表和住院业务表。
可以理解的是,在实际应用时,根据用户输入的查询信息可以检索到多个数据表,为便于用户选择,可以对检索到多个数据表进行排序,将排序后的数据表显示给用户,提高用户使用体验。在具体实现时,可以利用平均逻辑平方根算法对检索的数据表进行排序。
由上述实施例可以看出,本申请实施例预先确定了各个数据表中所包括数据对应的数据类别信息,在需要定位数据表时,可以直接检索一个或多个数据类别信息即可定位到数据表,即使各个数据表的格式不同,由于已经预先确定了各个数据表所包括的数据类别信息,则可以通过检索数据类别信息的方式定位到数据表,大幅提高了定位数据表的效率。
例如,当用户查找药品明细业务表时,由于已经预先确定了药品明细业务表所包括的数据类别信息,如“药品”类别、“费用”类别等,即使不同药品明细业务表中标识药品名称的字段可能不同,但是根据本申请实施例提供的方法,可以确定不同药品明细业务表中均包括有“药品”类别,所以用户不用考虑该数据表具体的格式,也无需掌握具体的药品名称,只需输入“药品”类别信息,系统便可以根据“药品”类别信息进行数据定位,检索用户所需的药品明细数据表,提高了定位效率。
参见图2,示出了本申请实施例提供的一种数据定位方法的示例性流程图,如图2所示,在执行数据定位方法之前,根据数据分类模型确定数据库中各个数据表包括的数据类别信息,然后用户输入数据类别信息,系统根据用户输入的数据类别信息在数据库中进行检索,以获得包括数据类别信息的数据表,如果用户还需要查找其他数据表,则可以继续输入其他数据类别信息,以使得系统重新进行检索。
在本申请实施例中,在实施数据定位方法之前,需要根据数据分类模型确定各个数据表所包括的数据类别信息,下面将对数据分类模型的生成过程进行说明。
在一种可能的实现方式中,数据分类模型的建立过程具体可以包括:
步骤A:获取分类训练数据。
在实际应用中,为了实现对数据进行分类,需要通过训练生成一种数据分类模型,而在数据分类模型的生成过程中,首先需要获取分类训练数据。其中,分类训练数据包括原始数据项的特征向量以及原始数据项的分类标签,以便根据原始特征数据项的特征向量和原始数据项的分类标签执行步骤B。
其中,在用于获取分类训练数据的数据表中,每个原始数据项具有已知的分类标签,该分类标签为预先标注的原始数据项所属类别的标签。可以理解的是,不同领域的原始数据项所对应的类别不同。以医学领域为例,原始数据项的分类一般可以包括;“药品”、“费用”、“人名”、、“日期”、“医疗机构”等类别,则相应的,原始数据项的分类标签可以使用不同的字符进行标识,例如,标签1对应“药品”、标签2对应“费用”、标签3对应“人名”、标签4对应“日期”、标签5对应“医疗机构”等,本申请实施例对于分类标签的表现形式不进行限定。
在本申请本实施例中,原始数据项的特征向量可以包括n维特征量,其中,n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数。在实际应用中,获取数据表中原始数据项每一维特征对应的规则信息,根据该维特征对应的规则信息确定该维特征量,从而获得原始数据项的特征向量。
在一种可能的实现方式中,第k维特征对应的规则信息可以包括:第k维特征对应的类别特征候选词集合、第k维特征对应的正则表达式或第k维特征对应的类别匹配模型。
在具体实现时,当第k维特征对应的规则信息为类别特征候选词集合时,则根据类别特征候选词集合确定第k维特征量;当第k维特征对应的规则信息为正则表达式时,则根据正则表达式确定第k维特征量;当第k维特征对应的规则信息为类别匹配模型时,则根据类别匹配模型确定第k维特征量。
每一维特征对应的规则信息可以预先根据大量数据进行分析获得,如对构成某一类别数据的高频词进行分析获得该类别特征候选词集合,例如,在医疗领域,可以分析构成医疗机构类别的数据对应的类别特征候选词包括“卫生院”、“卫生所”、“卫生站”等等,这些候选词均可以体现为医疗结构类别。
本实施例中,原始数据项的特征向量可以包括n维特征量,该n维特征量可以为对某一原始数据项进行n维特征判断所获得的判断结果,例如,第1维特征为判断该原始数据项是否为“医疗机构”类别,获得特征量f1;第2维特征为判断该原始数据项是否为“药品”类别,获得特征量f2,依次类推进行判断,直至获得特征量fn,因此原始数据项的特征向量包括n为特征量[f1,f2,f3,…,fn]。
当第1维特征对应的规则信息为类别特征候选词集合,则根据类别特征候选词集合获取特征量f1;第2维特征对应的规则信息为正则表达式时,根据正则表达式获取特征量f2;第3维对应的规则信息为类别匹配模型时,根据类别匹配模型获取特征量f3;第4维对应的规则信息为正则表达式时,根据正则表达时获取特征量f4,依次类推,根据第k维对应的规则信息获取特征量fk
为便于理解根据不同规则信息确定特征向量,下面将分别介绍根据不同的规则信息确定特征量。
1、根据类别特征候选词集合确定特征量
在本申请实施例中,当第k维特征对应的规则信息为第k维特征对应的类别特征候选词集合时,n维特征量中第k维特征量的确定方式可以由公式(1)确定。
其中,fk为n维特征量中第k维特征量,e为自然常数,wi为待分析数据项与第k维特征对应的类别特征候选词集合中第i个类别特征候选词之间的模糊匹配值,rk为第k维特征对应的模糊增量,i为正整数,待分析数据项为原始数据项。在具体实现时,可以根据实际训练结果手动调整模糊增量,以确保获取每一维特征量的准确性。
在实际应用时,将原始数据项与类别特征候选词集合中每个类别特征候选词进行模糊匹配,获得模糊匹配值,然后将所有的模糊匹配值进行相加。其中,模糊匹配值为[0,1]之间的数值,用于表征原始数据项与类别特征候选词之间的匹配度,数值越大,表明二者之间的匹配度越高。
为便于理解,以原始数据项为“朝阳区建外街道灵通观社区卫生服务站”进行说明,该原始数据项的特征量中第1维特征判断原始数据项是否为“医疗机构”类别,该维特征对应的规则信息为类别候选词集合,假设该类别候选词集合包括“卫生院”、“卫生站”、“卫生室”以及“卫生所”等候选词,则将原始数据项与候选词集合中每个候选词进行模糊匹配,获得模糊匹配值,例如,与候选词“卫生院”的模糊匹配值为0.2、与“卫生站”的模糊匹配值为0.9、与“卫生室”的模糊匹配值为0.3、与“卫生所”的模糊匹配值为0.4,然后将所有模糊匹配值相加代入公式(1)中,获得第1维特征量f1
其中,类别特征候选词可以为能够体现类别信息的候选词。例如,“医疗机构”类别对应的类别特征候选词“卫生院”、“卫生所”、“卫生站”等均可以体现为医疗结构实体。
2、根据正则表达式确定特征量
在本申请实施例中,当k维特征对应的规则信息为正则表达式时,根据正则表达时确定第k维特征量。其中,正则表达式为预先定义的由一些特定字符组成的一个规则字符串,利用该规则字符串可以确定原始数据项中第k维特征量。
例如,当原始数据项的第2维特征判断原始数据项是否为“身份证号”类别,该维特征对应的规则信息为正则表达式时,则判断所获取的原始数据项是否与预先定义的表示身份证号格式的正则表达式匹配,根据匹配结果获得特征量f2。在具体实现时,特征量f2可以用数字0和1标识,当原始数据项与正则表达式匹配时,f2=1;当原始数据项与正则表达式不匹配时,f2=0。本申请实施例对于f2具体表现形式不进行限定。
3、根据类别匹配模型确定特征量
在本申请实施例中,当第k维特征对应的规则信息为类别匹配模型时,根据类别匹配模型确定第k维特征量。例如,当原始数据项的第3维特征判断原始数据是否为“人名”类别,该维特征对应的规则信息为类别匹配模型时,则将原始数据项作为输入数据输入至类别匹配模型中,根据输出结果确定特征量f3。在具体实现时,特征量f2可以用数字0和1标识,当输出结果为“人名”类别时,f2=1;当输出结果不是“人名”类别时,f2=0。本申请实施例对于f3具体表现形式不进行限定。
其中,类别匹配模型为预先训练生成的模型,利用该模型可以确定原始数据项中第k维特征量。具体实现时,可以获取大量带分类标签的原始数据项,根据原始数据项以及原始数据项的分类标签对初始匹配模型进行训练,从而生成类别匹配模型,进而可以利用该类别匹配模型确定原始数据项的特征量。
通过上述第k维特征对应的规则信息可以确定出第k维特征量,从而确定原始数据项的特征向量,然后利用原始数据项的特征向量和原始数据项的分类标签执行步骤B。
步骤B:根据分类训练数据对初始分类模型进行训练,生成数据分类模型。
在具体实现过程中,通过步骤A,获取了大量原始数据项的特征向量以及原始数据项的分类标签后,将其作为分类训练数据,可以对初始分类模型进行训练,进而生成数据分类模型。
本申请中的初始分类模型可以为人工神经网络(Artificial Neural Network,简称ANN)模型,从而可以利用人工神经网络具有的较强鲁棒性和容错性,以及非线性映射能力解决非线性、样本数量较大的复杂模型的生成;或者,当分类训练数据的数量较少时,也可以使用支持向量机(Support Vector Machine,简称SVM)模型作为初始分类模型进行训练,基于其算法的简单性以及较强的鲁棒性,能够进一步提高分类结果的准确性。
由上述实施例可看出,本申请通过获取分类训练数据,利用分类训练数据中原始数据项的特征向量和原始数据项的分类标签可以训练生成数据分类模型,该数据分类模型可以对数据项进行分类,从而在实施数据定位时,利用该数据分类模型获取每个数据表包括的数据类别信息。
上述实施例介绍了数据分类模型的生成过程,下面将结合附图对利用数据分类模型确定各个数据表包括的数据类别信息进行说明。
参见图3,其示出了本申请实施例提供的确定各个数据表包括的数据类别信息方法流程图,该方法可以包括:
S301:将待分类数据表输入数据分类模型,得到待分类数据项的数据类别。
在实际应用中,基于上述实施例生成的数据分类模型,可以对数据表中的数据项进行分类,在分类过程中,首先需要获取待分类数据项,将其作为输入数据输入至数据分类模型,以得到待分类数据项的数据类别。
在生成数据分类模型时,获取的分类训练数据包括原始数据项的特征向量,因此,在利用数据分类模型获得待分类数据项的数据类别时,也需要提取待分类数据项的特征向量,以根据待分类数据项的特征向量获得待分类数据项的数据类别,具体可以包括以下步骤:
步骤a:提取待分类数据项的特征向量。
在实际应用中,根据待分类数据项第k维特征对应的规则信息确定第k维特征量,从而形成n维特征量,进而获取待分类数据项的特征向量。其中,待分类数据项的特征向量包括n维特征量,其中,所述n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数。
第k维特征对应的规则信息可以包括第k维特征对应的类别特征候选词集合、第k维特征对应的正则表达式或第k维特征对应的类别匹配模型。
在本申请实施例中,一种可能的实现方式是,当第k维特征对应的规则信息为第k维特征对应的类别特征候选词集合时,所述n维特征量中第k维特征量的确定方式可以由公式(1)确定,其中,fk为所述n维特征量中第k维特征量,e为自然常数,wi为待分析数据项与第k维特征对应的类别特征候选词集合中第i个类别特征候选词之间的模糊匹配值,rk为第k维特征对应的模糊增量,i为正整数。其中,待分析数据项为待分类数据项。
需要说明的是,关于待分类数据项的特征向量的提取可以参照原始数据项的特征向量提取的具体实现,在此不再赘述。
步骤b:将待分类数据项的特征向量输入数据分类模型,得到待分类数据项的数据类别。
通过步骤a,提取待分类数据项的特征向量,将该特征向量输入数据分类模型,由数据分类模型根据特征向量判断待分类数据项的数据类别,根据获取的数据类别执行S302。
S302:根据待分类数据项的数据类别确定待分类数据项所属字段的字段类别。
本实施例中,通过S301获取待分类数据项的数据类别,然后利用待分类数据项的数据类别确定待分类数据项所属字段的字段类别。
通过表1可知,数据表中每个字段可以对应多个待分类数据项,在实际应用时,获得每个待分类数据项的数据类别,然后,根据多个待分类数据项的数据类别确定多个待分类数据项所属字段的字段类别,具体确定过程可以包括:
1)获取所述同一字段的多个待分类数据项的数据类别。
实际应用时,针对同一字段,可以获取该字段对应的所有或者部分待分类数据项的数据类别,然后根据获取的多个待分类数据项的数据类别执行2)。例如,表1中药品名称字段包括三个待分类数据项,获取三个待分类数据项的数据类别,然后执行2)。
2)根据多个待分类数据项的数据类别中最多的数据类别确定为该字段的字段类别。
本实施例中,通过步骤1)获取多个待分类数据项的数据类别时,可以通过投票方式确定字段的字段类别,具体为将多个待分类数据项中所属数据类别票数最多的数据类别作为字段的字段类别。例如,表1中获取氯化钠的数据类别为类别1、复方板蓝根的数据类别为类别1、藿香正气水的数据类别为类别1,则将类别1确定为药品名称的数据类别,即药品类别。假如,药品名称字段还包括第4个数据项,由于记录错误,导致该数据项记录为“2”,则通过数据分类模型获得“2”的数据类别为类别2,如费用类别,由于前三个数据项的数据类别均为类别1,仅第四个数据项为类别2,由于类别1票数为3票,而类别2仅为1票,则将类别1作为药品名称的字段类别,从而排除错误信息,保证确定类别的准确性。
S303:将任一数据表中所包括字段的字段类别作为该数据表包括的数据类别信息。
实际应用时,数据表可以包括多个字段,获取每个字段的字段类别,将数据表包括的所有字段的字段类别作为该数据表包括的数据类别信息。例如,表1中,药品明细业务表包括四个字段,第1个字段的字段类别为“药品”类别、第2个字段的字段类别为“规格”类别,第3个字段的字段类别为“费用”类别,第4个字段的字段类别为“日期”类别,在该药品明细业务表包括的类别信息为药品、规格、费用、日期。
由上述实施例可以看出,本申请首先获取待分数据项,并提取待分类数据项的特征向量,进而可以获取待分类数据项的数据类别,然后根据待分类数据项的数据类别确定待分类数据项所属字段的字段类别,则数据表所包括的数据类别信息为数据表所包括所有字段的字段类别,进而确定了数据表包括的数据类别信息,从而为实现数据定位提供了依据。
基于上述方法实施例,本申请还提供了一种数据定位装置,下面将结合附图对该装置进行说明。
参见图4,其示出了本申请实施例提供的一种数据定位装置结构图,可以包括:
确定单元401,用于根据数据分类模型确定各个数据表包括的数据类别信息;
获取单元402,用于获取输入的查询信息,所述查询信息包括至少一个所述数据类别信息;
检索单元403,用于检索包括所述查询信息的数据表。
在本申请一些可能的实现方式中,所述确定单元具体包括:
获得子单元,用于将待分类数据项输入数据分类模型,得到所述待分类数据项的数据类别;
第一确定子单元;用于根据所述待分类数据项的数据类别确定所述待分类数据项所属字段的字段类别;
第二确定子单元,用于将任一数据表中所包括字段的字段类别作为该数据表包括的数据类别信息。
在本申请一些可能的实现方式中,所述数据分类模型的建立过程包括:
获取分类训练数据,所述分类训练数据包括原始数据项的特征向量以及所述原始数据项的分类标签;所述原始数据项的特征向量包括n维特征量,其中,所述n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数;
根据所述分类训练数据对初始分类模型进行训练,生成数据分类模型。
在本申请一些可能的实现方式中,所述获得子单元具体包括:
提取子单元,用于提取待分类数据项的特征向量;所述待分类数据项的特征向量包括n维特征量,其中,所述n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数;
输入子单元,用于将所述待分类数据项的特征向量输入数据分类模型,得到所述待分类数据项的数据类别。
在本申请一些可能的实现方式中,所述第k维特征对应的规则信息包括:
第k维特征对应的类别特征候选词集合、第k维特征对应的正则表达式或第k维特征对应的类别匹配模型。
在本申请一些可能的实现方式中,当所述第k维特征对应的规则信息为第k维特征对应的类别特征候选词集合时,所述n维特征量中第k维特征量的确定方式包括:
由公式确定,其中,fk为所述n维特征量中第k维特征量,e为自然常数,wi为待分析数据项与第k维特征对应的类别特征候选词集合中第i个类别特征候选词之间的模糊匹配值,rk为第k维特征对应的模糊增量,i为正整数,所述待分析数据项为所述原始数据项或者所述待分类数据项。
在本申请一些可能的实现方式中,所述第一确定子单元具体包括:
获取子单元,用于获取所属同一字段的多个待分类数据项的数据类别;
确定子单元,用于根据多个待分类数据项的数据类别中最多的数据类别确定为该字段的字段类别。
在本申请一些可能的实现方式中,所述查询信息还包括至少一个数据项信息。
另外,本申请实施例还提供一种计算机可读存储介质,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的数据定位方法。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述的数据定位方法。
由上述实施例可以看出,本申请实施例预先确定了各个数据表中所包括数据对应的数据类别信息,在需要定位数据表时,可以直接检索一个或多个数据类别信息即可定位到数据表,即使各个数据表的格式不同,由于已经预先确定了各个数据表所包括的数据类别信息,则可以通过检索数据类别信息的方式定位到数据表,大幅提高了定位数据表的效率。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据定位的方法,其特征在于,根据数据分类模型确定各个数据表包括的数据类别信息,所述方法包括:
获取输入的查询信息,所述查询信息包括至少一个所述数据类别信息;
检索包括所述查询信息的数据表。
2.根据权利要求1所述的方法,其特征在于,所述根据数据分类模型确定各个数据表包括的数据类别信息,包括:
将待分类数据项输入数据分类模型,得到所述待分类数据项的数据类别;
根据所述待分类数据项的数据类别确定所述待分类数据项所属字段的字段类别;
将任一数据表中所包括字段的字段类别作为该数据表包括的数据类别信息。
3.根据权利要求1或2所述的方法,其特征在于,所述数据分类模型的建立过程包括:
获取分类训练数据,所述分类训练数据包括原始数据项的特征向量以及所述原始数据项的分类标签;所述原始数据项的特征向量包括n维特征量,其中,所述n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数;
根据所述分类训练数据对初始分类模型进行训练,生成数据分类模型。
4.根据权利要求2所述的方法,其特征在于,所述将待分类数据项输入数据分类模型,得到所述待分类数据项的数据类别,包括:
提取待分类数据项的特征向量;所述待分类数据项的特征向量包括n维特征量,其中,所述n维特征量中第k维特征量由第k维特征对应的规则信息确定,n为正整数,k为取值为1至n的整数;
将所述待分类数据项的特征向量输入数据分类模型,得到所述待分类数据项的数据类别。
5.根据权利要求3或4所述的方法,其特征在于,所述第k维特征对应的规则信息包括:
第k维特征对应的类别特征候选词集合、第k维特征对应的正则表达式或第k维特征对应的类别匹配模型。
6.根据权利要求5所述的方法,其特征在于,当所述第k维特征对应的规则信息为第k维特征对应的类别特征候选词集合时,所述n维特征量中第k维特征量的确定方式包括:
由公式确定,其中,fk为所述n维特征量中第k维特征量,e为自然常数,wi为待分析数据项与第k维特征对应的类别特征候选词集合中第i个类别特征候选词之间的模糊匹配值,rk为第k维特征对应的模糊增量,i为正整数,所述待分析数据项为所述原始数据项或者所述待分类数据项。
7.根据权利要求2所述的方法,其特征在于,所述根据所述待分类数据项的数据类别确定所述待分类数据项所属字段的字段类别,包括:
获取所属同一字段的多个待分类数据项的数据类别;
根据多个待分类数据项的数据类别中最多的数据类别确定为该字段的字段类别。
8.一种数据定位装置,其特征在于,所述装置包括:
确定单元,用于根据数据分类模型确定各个数据表包括的数据类别信息;
获取单元,用于获取输入的查询信息,所述查询信息包括至少一个所述数据类别信息;
检索单元,用于检索包括所述查询信息的数据表。
9.一种计算机可读存储介质,其特征在于,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的数据定位方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的数据定位方法。
CN201810873070.6A 2018-08-02 2018-08-02 一种数据定位方法、装置及存储介质、程序产品 Active CN109144999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810873070.6A CN109144999B (zh) 2018-08-02 2018-08-02 一种数据定位方法、装置及存储介质、程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810873070.6A CN109144999B (zh) 2018-08-02 2018-08-02 一种数据定位方法、装置及存储介质、程序产品

Publications (2)

Publication Number Publication Date
CN109144999A true CN109144999A (zh) 2019-01-04
CN109144999B CN109144999B (zh) 2021-06-08

Family

ID=64798798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810873070.6A Active CN109144999B (zh) 2018-08-02 2018-08-02 一种数据定位方法、装置及存储介质、程序产品

Country Status (1)

Country Link
CN (1) CN109144999B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993587A (zh) * 2019-04-10 2019-07-09 金瓜子科技发展(北京)有限公司 一种数据分类方法、装置、设备和介质
CN113032494A (zh) * 2021-03-08 2021-06-25 浙江大华技术股份有限公司 一种数据表分类、模型训练方法、装置、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1674003A (zh) * 2004-03-23 2005-09-28 三菱电机株式会社 查询信息检索装置和使用该装置的查询信息检索系统
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
US20140156567A1 (en) * 2012-12-04 2014-06-05 Msc Intellectual Properties B.V. System and method for automatic document classification in ediscovery, compliance and legacy information clean-up
CN105022960A (zh) * 2015-08-10 2015-11-04 济南大学 基于网络流量的多特征移动终端恶意软件检测方法及系统
WO2017024966A1 (zh) * 2015-08-11 2017-02-16 阿里巴巴集团控股有限公司 一种数据表的分类方法和装置
CN106446230A (zh) * 2016-10-08 2017-02-22 国云科技股份有限公司 一种优化机器学习文本中词语分类的方法
CN106649890A (zh) * 2017-02-07 2017-05-10 税云网络科技服务有限公司 数据存储方法和装置
CN107357902A (zh) * 2017-07-14 2017-11-17 电子科技大学 一种基于关联规则的数据表分类系统与方法
US20180096244A1 (en) * 2016-09-30 2018-04-05 Sony Interactive Entertainment Inc. Method and system for classifying virtual reality (vr) content based on modeled discomfort of a user
CN107992511A (zh) * 2017-10-18 2018-05-04 东软集团股份有限公司 医疗数据表的索引建立方法、装置、存储介质及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1674003A (zh) * 2004-03-23 2005-09-28 三菱电机株式会社 查询信息检索装置和使用该装置的查询信息检索系统
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
US20140156567A1 (en) * 2012-12-04 2014-06-05 Msc Intellectual Properties B.V. System and method for automatic document classification in ediscovery, compliance and legacy information clean-up
CN105022960A (zh) * 2015-08-10 2015-11-04 济南大学 基于网络流量的多特征移动终端恶意软件检测方法及系统
WO2017024966A1 (zh) * 2015-08-11 2017-02-16 阿里巴巴集团控股有限公司 一种数据表的分类方法和装置
US20180096244A1 (en) * 2016-09-30 2018-04-05 Sony Interactive Entertainment Inc. Method and system for classifying virtual reality (vr) content based on modeled discomfort of a user
CN106446230A (zh) * 2016-10-08 2017-02-22 国云科技股份有限公司 一种优化机器学习文本中词语分类的方法
CN106649890A (zh) * 2017-02-07 2017-05-10 税云网络科技服务有限公司 数据存储方法和装置
CN107357902A (zh) * 2017-07-14 2017-11-17 电子科技大学 一种基于关联规则的数据表分类系统与方法
CN107992511A (zh) * 2017-10-18 2018-05-04 东软集团股份有限公司 医疗数据表的索引建立方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
娄苗苗、杨 喆、刘丹红、徐勇勇: ""卫生数据标准化方法研究"", 《中国卫生信息管理杂志》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993587A (zh) * 2019-04-10 2019-07-09 金瓜子科技发展(北京)有限公司 一种数据分类方法、装置、设备和介质
CN109993587B (zh) * 2019-04-10 2022-06-03 金瓜子科技发展(北京)有限公司 一种数据分类方法、装置、设备和介质
CN113032494A (zh) * 2021-03-08 2021-06-25 浙江大华技术股份有限公司 一种数据表分类、模型训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109144999B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN101189607A (zh) 模式匹配
CN111242318B (zh) 基于异构特征库的业务模型训练方法及装置
US20110225135A1 (en) Patent Search Engine with Statistical Snapshots
CN110580942A (zh) 一种新型体检报告生成方法、装置、介质及终端设备
CN112580108B (zh) 签名和印章完整性验证方法及计算机设备
CN109522417A (zh) 一种公司名的商号抽取方法
CN111639077B (zh) 数据治理方法、装置、电子设备、存储介质
CN112035757A (zh) 医疗瀑布流推送方法、装置、设备及存储介质
CN109739992A (zh) 一种获取关联信息的方法及终端
CN109144999A (zh) 一种数据定位方法、装置及存储介质、程序产品
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN110287495A (zh) 一种电力营销专业词识别方法及系统
CN114037545A (zh) 客户推荐方法、装置、设备及存储介质
CN113900955A (zh) 自动化测试方法、装置、设备及存储介质
CN111104481B (zh) 一种识别匹配字段的方法、装置及设备
CN113516205B (zh) 基于人工智能的员工稳定性分类方法及相关设备
CN112949305B (zh) 负反馈信息采集方法、装置、设备及存储介质
CN113590845A (zh) 基于知识图谱的文献检索方法、装置、电子设备及介质
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN112115271A (zh) 知识图谱构建方法及装置
CN105740359B (zh) 个股识别的方法及装置
CN115392206B (zh) 基于wps/excel快速查询数据方法、装置、设备及存储介质
CN112270350B (zh) 组织机构的画像方法、装置、设备及存储介质
CN115496638B (zh) 基于智慧校园的学生课程成绩分析管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant