CN112925958A - 多源异构数据适配方法、装置、设备及可读存储介质 - Google Patents
多源异构数据适配方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN112925958A CN112925958A CN202110167874.6A CN202110167874A CN112925958A CN 112925958 A CN112925958 A CN 112925958A CN 202110167874 A CN202110167874 A CN 202110167874A CN 112925958 A CN112925958 A CN 112925958A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- trained
- source
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Abstract
本发明公开了一种多源异构数据适配方法、装置、设备及可读存储介质,该方法包括:从待训练数据提取待训练源数据,并获取待训练源数据中的第一关键字,以及与第一关键字匹配的第一目标值;从待训练数据提取包含第一目标值的待训练目标数据,获取待训练目标数据的目标类别,以及待训练目标数据中与第一目标值匹配的第二关键字;根据预设贝叶斯算法和待训练数据,计算第一关键字属于目标类别的目标概率,并基于目标概率对待训练源数据标注标签,以生成训练样本;根据训练样本生成贝叶斯模型,向贝叶斯模型中输入待适配源数据,得到第一目标数据。本发明通过模型训练源数据与目标数据的适配关系,提高了多源异构数据适配的准确度。
Description
技术领域
本发明涉及数据接入领域,尤其涉及多源异构数据适配方法、装置、设备及可读存储介质。
背景技术
随着科学技术的快速发展,越来越多的智能终端设备出现在人们的生活中,在多源异构数据接入技术领域,针对一个行业或者业务扩展企业来说,业务相对聚焦,但是对外数据类型和对端厂家形式种类繁多,在对这些种类繁多的多源异构数据接入前,还需要对对这些种类繁多的多源异构数据进行适配,这就造成了巨大的工作量,因此,如何提高多源异构数据的适配速度便成为了亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种多源异构数据适配方法、装置、设备及可读存储介质,旨在解决如何提高多源异构数据的适配速度的技术问题。
此外,为实现上述目的,本发明还提供一种多源异构数据适配方法,所述多源异构数据适配方法包括以下步骤:
从待训练数据中提取待训练源数据,并获取所述待训练源数据中的第一关键字,以及与所述第一关键字匹配的第一目标值;
从所述待训练数据中提取包含所述第一目标值的待训练目标数据,获取所述待训练目标数据的目标类别,以及所述待训练目标数据中与所述第一目标值匹配的第二关键字,其中,所述第一关键字与所述第二关键字不相同;
根据预设贝叶斯算法和所述待训练数据,计算所述第一关键字属于所述目标类别的目标概率,并基于所述目标概率对所述待训练源数据标注标签,以生成训练样本;
根据所述训练样本生成贝叶斯模型,向所述贝叶斯模型中输入待适配源数据,得到与所述待适配源数据适配的第一目标数据。
可选地,所述获取所述待训练源数据中的第一关键字,以及与所述第一关键字匹配的第一目标值的步骤包括:
获取所述待训练源数据对应的目标文本,对所述目标文本中预设范围内的字符进行分词处理,得到目标字符;
获取所述目标字符的目标属性,并根据所述目标属性,确定所述目标字符中的第一关键字和第一目标值。
可选地,所述根据预设贝叶斯算法和所述待训练数据,计算所述第一关键字属于所述目标类别的目标概率的步骤包括:
获取所述待训练数据中包含所述第一关键字的数据的第一比例,和所述目标类别对应的目标比例;
根据预设贝叶斯算法、所述第一比例和所述目标比例,计算所述第一关键字属于所述目标类别的目标概率。
可选地,所述获取所述待训练数据中包含所述第一关键字的数据的第一比例,和所述目标类别对应的目标比例的步骤包括:
若所述目标类别包含第一类别和第二类别,则获取所述待训练数据中所述第一类别对应的待训练目标数据的第二比例;
获取所述待训练数据中所述第二类别对应的待训练目标数据的第三比例,其中,目标比例包括所述第二比例和所述第三比例。
可选地,所述根据预设贝叶斯算法、所述第一比例和所述目标比例,计算所述第一关键字属于所述目标类别的目标概率的步骤包括:
根据预设贝叶斯算法、所述第一比例、所述第二比例和所述第三比例,计算所述第一关键字属于所述第一类别的第一概率;
根据所述预设贝叶斯算法、所述第一比例、所述第二比例和所述第三比例,计算所述第一关键字属于所述第二类别的第二概率,其中,目标概率包括所述第一概率和所述第二概率。
可选地,所述基于所述目标概率对所述待训练源数据标注标签,以生成训练样本的步骤包括:
判断所述第一概率与所述第二概率的大小;
若所述第一概率大于或等于所述第二概率,则基于所述第一类别对所述待训练源数据标注标签,以生成训练样本;
若所述第一概率小于所述第二概率,则基于所述第二类别对所述待训练源数据标注标签,以生成训练样本。
可选地,所述根据所述训练样本生成贝叶斯模型,向所述贝叶斯模型中输入待适配源数据,得到与所述待适配源数据适配的第一目标数据的步骤之后,包括:
对所述第一目标数据与所述待适配源数据进行验证;
若验证结果为,所述第一目标数据与所述待适配源数据不适配,则基于所述第一目标数据与所述待适配源数据修改所述贝叶斯模型的参数;
将所述待适配源数据输入修改参数后的贝叶斯模型中,得到与所述待适配源数据适配的第二目标数据。
此外,为实现上述目的,本发明还提供一种多源异构数据适配装置,所述多源异构数据适配装置包括:
待训练源数据获取模块,用于从待训练数据中提取待训练源数据,并获取所述待训练源数据中的第一关键字,以及与所述第一关键字匹配的第一目标值;
待训练目标数据获取模块,用于从所述待训练数据中提取包含所述第一目标值的待训练目标数据,获取所述待训练目标数据的目标类别,以及所述待训练目标数据中与所述第一目标值匹配的第二关键字;
训练样本生成模块,用于根据预设贝叶斯算法和所述待训练数据,计算所述第一关键字属于所述目标类别的目标概率,并基于所述目标概率对所述待训练源数据标注标签,以生成训练样本;
多源数据适配模块,用于根据所述训练样本生成贝叶斯模型,向所述贝叶斯模型中输入待适配源数据,得到与所述待适配源数据适配的第一目标数据。
此外,为实现上述目的,本发明还提供一种多源异构数据适配设备,所述多源异构数据适配设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多源异构数据适配程序,所述多源异构数据适配程序被所述处理器执行时实现如上述的多源异构数据适配方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上述的方法的步骤。
本发明实施例提出的一种方法、装置、设备及可读存储介质。本发明实施例从待训练数据中提取待训练源数据,获取待训练源数据中的第一关键字,以及与第一关键字匹配的第一目标值,然后再从待训练数据中提取待训练目标数据,其中,待训练目标数据中也包含第一目标值,获取待训练目标数据的目标类别,以及待训练目标数据中与第一目标值匹配的第二关键字,根据预设贝叶斯算法和待训练数据,计算第一关键字属于目标类别的目标概率,然后基于目标概率对待训练源数据标注标签,生成包含目标类别标签的待训练源数据,即训练样本,最终将训练样本输入预设模型中进行训练得到贝叶斯模型,向贝叶斯模型中输入待适配源数据,得到与待适配源数据适配的结果,即第一目标数据,本发明通过模型训练源数据与目标数据的适配关系,提高了多源异构数据适配的准确度。
附图说明
图1为本发明实施例提供的多源异构数据适配设备一种实施方式的硬件结构示意图;
图2为本发明多源异构数据适配方法第一实施例的流程示意图;
图3为本发明多源异构数据适配方法第二实施例的流程示意图;
图4为本发明多源异构数据适配装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例多源异构数据适配终端(又叫终端、设备或者终端设备)可以是PC和智能手机等具有数据处理功能的终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多源异构数据适配程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的多源异构数据适配程序,所述多源异构数据适配程序被处理器执行时实现下述实施例提供的多源异构数据适配方法中的操作。
基于上述设备硬件结构,提出了本发明多源异构数据适配方法的实施例。
参照图2,在本发明多源异构数据适配方法的第一实施例中,所述多源异构数据适配方法包括:
步骤S10,从待训练数据中提取待训练源数据,并获取所述待训练源数据中的第一关键字,以及与所述第一关键字匹配的第一目标值。
步骤S20,从所述待训练数据中提取包含所述第一目标值的待训练目标数据,获取所述待训练目标数据的目标类别,以及所述待训练目标数据中与所述第一目标值匹配的第二关键字,其中,所述第一关键字与所述第二关键字不相同。
可知地,本实施例中的待训练数据是指,历史保留的进行适配的多源异构数据,其中,多源异构数据中进行适配的数据可以分别叫做源数据和目标数据,本实施例中的待训练数据中包括待训练源数据和待训练目标数据,先从待训练数据中提取待训练源数据,然后获取待训练源数据中的第一关键字,以及与第一关键字匹配的第一目标值,具体地,本实施例中的第一关键字具有总领属性,而第一目标值属于总领属性下的具体值,例如,第一关键字为“姓名”,则第一目标值可以为“张三”;第一关键字为“时间”,则第一目标值可以为“3小时”,而第一目标值与第一关键字匹配即是,第一目标值是第一关键字对应的总领属性下的值,而从待训练数据中提取待训练源数据后,进一步从待训练数据中提取需要与待训练源数据匹配的待训练目标数据,具体地,从待训练数据中提取待训练目标数据的过程就没有从待训练数据中提取待训练源数据这么随意了,在从待训练数据中提取待训练目标数据时,需要从待训练数据中选取包含第一目标值的数据,即,本实施例中的待训练目标数据,从待训练数据中提取到待训练目标数据后,获取待训练目标数据的目标类别,以及待训练目标数据中与第一目标值匹配的第二关键字,其中,待训练目标数据的目标类别可以是跟待训练目标数据的来源有关,例如,待训练目标数据来源于遵循某种数据接入协议的设备,或者待训练目标数据来源于某个行业,本实施例中的目标类别是有限且可知的,待训练目标数据中第二关键字与第一目标值的匹配方法与上述相同,例如,待训练目标数据中的第一目标值为“张三”,则待训练目标数据中的第二关键字可以为“名字”,其中,第一关键字与第二关键字不同,若第一关键字与第二关键字相同,则待训练源数据与待训练目标数据可能相同,这也就没有数据适配的需要了。
步骤S30,根据预设贝叶斯算法和所述待训练数据,计算所述第一关键字属于所述目标类别的目标概率,并基于所述目标概率对所述待训练源数据标注标签,以生成训练样本。
可知地,获取到待训练目标数据的目标类别后,还可以获取待训练数据中所有类别的数据占所有待训练数据的比例,基于所有类别的数据占所有待训练数据的比例和预设贝叶斯算法,可以计算出待训练源数据与待训练目标数据适配的概率,即,第一关键字属于目标类别的目标概率,然后计算出第一关键字属于属于目标类别的目标概率,即,待训练源数据与目标类别的待训练目标数据适配的概率,计算出待训练源数据与所有目标类别的待训练目标数据适配的概率后,从所有概率值中选取出最大的概率值对应的类别,将其作为与待训练源数据适配的待训练目标数据的类别,并将第一关键字与第二关键字的对应关系以标签的形式标注,生成训练样本,其中,训练样本中包含标签,而标签带有第一关键字属于某个类别的特征。
步骤S40,根据所述训练样本生成贝叶斯模型,向所述贝叶斯模型中输入待适配源数据,得到与所述待适配源数据适配的第一目标数据。
将带有标签的训练样本输入模型进行训练,训练好的(符合要求的)模型即是本实施例中的贝叶斯模型,而本实施例中的贝叶斯模型能够预测源数据中的关键字归属于哪一类目标数据中的关键字,从而推断出源数据中的关键字与哪一类目标数据中的关键字是匹配的,向训练好的贝叶斯模型中输入待适配的数据(即本实施例中的待适配源数据),通过贝叶斯模型进行多源异构数据的适配,得到贝叶斯模型输出的与待适配数据适配的结果,即本实施例中的第一目标数据。
具体地,步骤S10细化的步骤包括:
步骤a1,获取所述待训练源数据对应的目标文本,对所述目标文本中预设范围内的字符进行分词处理,得到目标字符。
步骤a2,获取所述目标字符的目标属性,并根据所述目标属性,确定所述目标字符中的第一关键字和第一目标值。
可知地,待适配的数据以文本的形式表示,获取待训练源数据对应的目标文本,然后对目标文本中一定范围内的字符进行分词处理,具体地,本实施例中的预设范围即是指上述一定范围,且预设范围的划定规则是,预设范围内要包含完整的字符串,且预设范围内至少包含两个完整的字符串,对预设范围内的字符进行分词处理后,得到多个目标字符,然后获取目标字符的属性,即本实施例中的目标属性,最终根据目标字符的目标属性,确定目标字符中中的第一关键字和第一目标值,具体地,第一目标值是第一关键字的值,例如,若第一关键字为“姓名”,则第一目标字可以为“张三”。
具体地,步骤S40之后的步骤包括:
步骤b1,对所述第一目标数据与所述待适配源数据进行验证。
步骤b2,若验证结果为,所述第一目标数据与所述待适配源数据不适配,则基于所述第一目标数据与所述待适配源数据修改所述贝叶斯模型的参数。
步骤b3,将所述待适配源数据输入修改参数后的贝叶斯模型中,得到与所述待适配源数据适配的第二目标数据。
可知地,通过贝叶斯模型对待适配源数据进行适配,得到与待适配源数据适配的第一目标数据这个结果后,还需要对第一目标数据进行验证,具体地,可以通过将第一目标数据与待适配源数据进行接入,以验证第一目标数据与待适配源数据是否适配,若验证结果为,第一目标数据与待适配源数据不适配,则基于第一目标数据与待适配源数据,修改贝叶斯模型的参数,具体地,每次微调贝叶斯模型中的参数后,将待适配源数据再次输入到贝叶斯模型中,查看从贝叶斯模型输出的数据结果与待适配源数据是否适配,若仍不适配,则继续修改参数,然后输入待适配源数据,直至贝叶斯模型输出的数据结果与待适配源数据适配为止,即得到与待适配源数据适配的第二目标数据,这是对模型进行监督学习的过程。
在本实施例中从待训练数据中提取待训练源数据,获取待训练源数据中的第一关键字,以及与第一关键字匹配的第一目标值,然后再从待训练数据中提取待训练目标数据,其中,待训练目标数据中也包含第一目标值,获取待训练目标数据的目标类别,以及待训练目标数据中与第一目标值匹配的第二关键字,根据预设贝叶斯算法和待训练数据,计算第一关键字属于目标类别的目标概率,然后基于目标概率对待训练源数据标注标签,生成包含目标类别标签的待训练源数据,即训练样本,最终将训练样本输入预设模型中进行训练得到贝叶斯模型,向贝叶斯模型中输入待适配源数据,得到与待适配源数据适配的结果,即第一目标数据,本发明通过模型训练源数据与目标数据的适配关系,提高了多源异构数据适配的准确度。
进一步地,参照图3,在本发明上述实施例的基础上,提出了本发明多源异构数据适配方法的第二实施例。
本实施例是第一实施例中步骤S30细化的步骤,本实施例与本发明上述实施例的区别在于:
步骤S31,获取所述待训练数据中包含所述第一关键字的数据的第一比例,和所述目标类别对应的目标比例。
步骤S32,根据预设贝叶斯算法、所述第一比例和所述目标比例,计算所述第一关键字属于所述目标类别的目标概率。
可知地,根据贝叶斯算法的基础原理可知,要想预测第一关键字属于某个类别的概率,就需要计算所有待训练数据中包含第一关键字的数据占所有待训练数据的比例,即,本实施例中的第一比例,以及每种类别的数据占所有待训练数据的比例,即本实施例中目标类别对应的目标比例,得到第一比例和目标比例后,根据预设贝叶斯算法、第一比例和目标比例,计算第一关键字属于目标类别的目标概率,具体的计算方法下文将详细介绍。
具体地,步骤S31细化的步骤包括:
步骤c1,若所述目标类别包含第一类别和第二类别,则获取所述待训练数据中所述第一类别对应的待训练目标数据的第二比例。
步骤c2,获取所述待训练数据中所述第二类别对应的待训练目标数据的第三比例,其中,目标比例包括所述第二比例和所述第三比例。
可知地,本实施例的基本思想是预测第一关键字与某一类数据中的第二关键字适配的概率,则本实施例中的目标类别至少存在两个,若本实施例中的目标类别仅存在一个,则预测就显得毫无意义,本实施例以两种目标类别举例说明,即,若目标类别包含第一类别和第二类别,则获取待训练数据中第一类别对应的待训练目标数据占所有待训练数据的比例,即本实施例中的第二比例,获取待训练数据中第二类别对应的待训练目标数据占所有待训练数据的比例,即本实施例中的第三比例,若目标类别包含第一类别和第二类别,则目标类别对应的目标比例,则包括第二比例和第三比例。
具体地,步骤S32细化的步骤包括:
步骤d1,根据预设贝叶斯算法、所述第一比例、所述第二比例和所述第三比例,计算所述第一关键字属于所述第一类别的第一概率。
步骤d2,根据所述预设贝叶斯算法、所述第一比例、所述第二比例和所述第三比例,计算所述第一关键字属于所述第二类别的第二概率,其中,目标概率包括所述第一概率和所述第二概率。
可知地,在本实施例中,根据预设贝叶斯算法、第一比例、第二比例以及第三比例,可以计算第一关键字适配第一类别的数据的概率,即第一关键字属于第一类别的第一概率,可以理解的是,若目标类别中包含更多的类别,则比例会更多,同理,根据预设贝叶斯算法、第一比例、第二比例和第三比例,还可以计算第一关键字属于第二类别的第二概率,若第一类别为A,第二类别为B,事件a为第一关键字与第一类别的数据适配,事件b为第一关键字与第二类别的数据适配,则根据预设贝叶斯算法可知,P(a∣A)=P(a)P(A∣a)/P(a)P(A∣a)+P(b)P(A∣b),其中,P(a)等于第二比例与第三比例中最大的数,这种情况下的P(b)等于第二比例与第三比例中最小的数,若第二比例与第三比例相等,则可取相同的值,根据上述计算方法,可计算出第一概率和第二概率,其中,目标概率包括第一概率和第二概率。
具体地,步骤S30细化的步骤包括:
步骤e1,判断所述第一概率与所述第二概率的大小。
步骤e2,若所述第一概率大于或等于所述第二概率,则基于所述第一类别对所述待训练源数据标注标签,以生成训练样本。
步骤e3,若所述第一概率小于所述第二概率,则基于所述第二类别对所述待训练源数据标注标签,以生成训练样本。
可知地,得到第一概率和第二概率后,对第一概率和第二概率的大小进行判断,若第一概率大于或等于第二概率,则基于第一类别对待训练源数据标注标签,以生成训练样本;若第一概率小于第二概率,则基于第一类别对待训练源数据标注标签,以生成训练样本,即,当第一关键字属于第一类别数据的概率更大时,则基于第一类别对待训练源数据标注标签,同理,当第一关键字属于第二类别数据的概率更大时,则基于第二类别对待训练源数据标注标签。
在本实施例中通过预设贝叶斯算法计算源数据与目标数据的适配概率,进一步通过模型训练源数据与目标数据的适配关系,提高了多源异构数据适配的准确度。
此外,参照图4,本发明实施例还提出一种多源异构数据适配装置,所述多源异构数据适配装置包括:
待训练源数据获取模块10,用于从待训练数据中提取待训练源数据,并获取所述待训练源数据中的第一关键字,以及与所述第一关键字匹配的第一目标值;
待训练目标数据获取模块20,用于从所述待训练数据中提取包含所述第一目标值的待训练目标数据,获取所述待训练目标数据的目标类别,以及所述待训练目标数据中与所述第一目标值匹配的第二关键字,其中,所述第一关键字与所述第二关键字不相同;
训练样本生成模块30,用于根据预设贝叶斯算法和所述待训练数据,计算所述第一关键字属于所述目标类别的目标概率,并基于所述目标概率对所述待训练源数据标注标签,以生成训练样本;
多源数据适配模块40,用于根据所述训练样本生成贝叶斯模型,向所述贝叶斯模型中输入待适配源数据,得到与所述待适配源数据适配的第一目标数据。
可选地,所述待训练源数据获取模块10,包括:
分词处理单元,用于获取所述待训练源数据对应的目标文本,对所述目标文本中预设范围内的字符进行分词处理,得到目标字符;
目标属性获取单元,用于获取所述目标字符的目标属性,并根据所述目标属性,确定所述目标字符中的第一关键字和第一目标值。
可选地,所述训练样本生成模块30,包括:
目标比例获取单元,用于获取所述待训练数据中包含所述第一关键字的数据的第一比例,和所述目标类别对应的目标比例;
目标概率计算单元,用于根据预设贝叶斯算法、所述第一比例和所述目标比例,计算所述第一关键字属于所述目标类别的目标概率。
可选地,所述目标比例获取单元,包括:
第二比例获取单元,用于若所述目标类别包含第一类别和第二类别,则获取所述待训练数据中所述第一类别对应的待训练目标数据的第二比例;
单元,用于获取所述待训练数据中所述第二类别对应的待训练目标数据的第三比例,其中,目标比例包括所述第二比例和所述第三比例。
可选地,所述目标概率计算单元,包括:
第一概率计算单元,用于根据预设贝叶斯算法、所述第一比例、所述第二比例和所述第三比例,计算所述第一关键字属于所述第一类别的第一概率;
第二概率计算单元,用于根据所述预设贝叶斯算法、所述第一比例、所述第二比例和所述第三比例,计算所述第一关键字属于所述第二类别的第二概率,其中,目标概率包括所述第一概率和所述第二概率。
可选地,所述训练样本生成模块30,包括:
判断单元,用于判断所述第一概率与所述第二概率的大小;
训练样本生成单元,用于若所述第一概率大于或等于所述第二概率,则基于所述第一类别对所述待训练源数据标注标签,以生成训练样本;
标签标注单元单元,用于若所述第一概率小于所述第二概率,则基于所述第二类别对所述待训练源数据标注标签,以生成训练样本。
可选地,所述多源异构数据适配装置,包括:
验证模块,用于对所述第一目标数据与所述待适配源数据进行验证;
模型参数修改模块,用于若验证结果为,所述第一目标数据与所述待适配源数据不适配,则基于所述第一目标数据与所述待适配源数据修改所述贝叶斯模型的参数;
第二目标数据获取模块,用于将所述待适配源数据输入修改参数后的贝叶斯模型中,得到与所述待适配源数据适配的第二目标数据。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有多源异构数据适配程序,所述多源异构数据适配程序被处理器执行时实现上述实施例提供的多源异构数据适配方法中的操作。
上述各程序模块所执行的方法可参照本发明方法各个实施例,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的多源异构数据适配方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种多源异构数据适配方法,其特征在于,所述多源异构数据适配方法包括以下步骤:
从待训练数据中提取待训练源数据,并获取所述待训练源数据中的第一关键字,以及与所述第一关键字匹配的第一目标值;
从所述待训练数据中提取包含所述第一目标值的待训练目标数据,获取所述待训练目标数据的目标类别,以及所述待训练目标数据中与所述第一目标值匹配的第二关键字,其中,所述第一关键字与所述第二关键字不相同;
根据预设贝叶斯算法和所述待训练数据,计算所述第一关键字属于所述目标类别的目标概率,并基于所述目标概率对所述待训练源数据标注标签,以生成训练样本;
根据所述训练样本生成贝叶斯模型,向所述贝叶斯模型中输入待适配源数据,得到与所述待适配源数据适配的第一目标数据。
2.如权利要求1所述的多源异构数据适配方法,其特征在于,所述获取所述待训练源数据中的第一关键字,以及与所述第一关键字匹配的第一目标值的步骤包括:
获取所述待训练源数据对应的目标文本,对所述目标文本中预设范围内的字符进行分词处理,得到目标字符;
获取所述目标字符的目标属性,并根据所述目标属性,确定所述目标字符中的第一关键字和第一目标值。
3.如权利要求1所述的多源异构数据适配方法,其特征在于,所述根据预设贝叶斯算法和所述待训练数据,计算所述第一关键字属于所述目标类别的目标概率的步骤包括:
获取所述待训练数据中包含所述第一关键字的数据的第一比例,和所述目标类别对应的目标比例;
根据预设贝叶斯算法、所述第一比例和所述目标比例,计算所述第一关键字属于所述目标类别的目标概率。
4.如权利要求3所述的多源异构数据适配方法,其特征在于,所述获取所述待训练数据中包含所述第一关键字的数据的第一比例,和所述目标类别对应的目标比例的步骤包括:
若所述目标类别包含第一类别和第二类别,则获取所述待训练数据中所述第一类别对应的待训练目标数据的第二比例;
获取所述待训练数据中所述第二类别对应的待训练目标数据的第三比例,其中,目标比例包括所述第二比例和所述第三比例。
5.如权利要求4所述的多源异构数据适配方法,其特征在于,所述根据预设贝叶斯算法、所述第一比例和所述目标比例,计算所述第一关键字属于所述目标类别的目标概率的步骤包括:
根据预设贝叶斯算法、所述第一比例、所述第二比例和所述第三比例,计算所述第一关键字属于所述第一类别的第一概率;
根据所述预设贝叶斯算法、所述第一比例、所述第二比例和所述第三比例,计算所述第一关键字属于所述第二类别的第二概率,其中,目标概率包括所述第一概率和所述第二概率。
6.如权利要求5所述的多源异构数据适配方法,其特征在于,所述基于所述目标概率对所述待训练源数据标注标签,以生成训练样本的步骤包括:
判断所述第一概率与所述第二概率的大小;
若所述第一概率大于或等于所述第二概率,则基于所述第一类别对所述待训练源数据标注标签,以生成训练样本;
若所述第一概率小于所述第二概率,则基于所述第二类别对所述待训练源数据标注标签,以生成训练样本。
7.如权利要求1所述的多源异构数据适配方法,其特征在于,所述根据所述训练样本生成贝叶斯模型,向所述贝叶斯模型中输入待适配源数据,得到与所述待适配源数据适配的第一目标数据的步骤之后,包括:
对所述第一目标数据与所述待适配源数据进行验证;
若验证结果为,所述第一目标数据与所述待适配源数据不适配,则基于所述第一目标数据与所述待适配源数据修改所述贝叶斯模型的参数;
将所述待适配源数据输入修改参数后的贝叶斯模型中,得到与所述待适配源数据适配的第二目标数据。
8.一种多源异构数据适配装置,其特征在于,所述多源异构数据适配装置包括:
待训练源数据获取模块,用于从待训练数据中提取待训练源数据,并获取所述待训练源数据中的第一关键字,以及与所述第一关键字匹配的第一目标值;
待训练目标数据获取模块,用于从所述待训练数据中提取包含所述第一目标值的待训练目标数据,获取所述待训练目标数据的目标类别,以及所述待训练目标数据中与所述第一目标值匹配的第二关键字;
训练样本生成模块,用于根据预设贝叶斯算法和所述待训练数据,计算所述第一关键字属于所述目标类别的目标概率,并基于所述目标概率对所述待训练源数据标注标签,以生成训练样本;
多源数据适配模块,用于根据所述训练样本生成贝叶斯模型,向所述贝叶斯模型中输入待适配源数据,得到与所述待适配源数据适配的第一目标数据。
9.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多源异构数据适配程序,所述多源异构数据适配程序被所述处理器执行时实现如权利要求1至7中任一项所述的多源异构数据适配方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有多源异构数据适配程序,所述多源异构数据适配程序被处理器执行时实现如权利要求1至7中任一项所述的多源异构数据适配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110167874.6A CN112925958A (zh) | 2021-02-05 | 2021-02-05 | 多源异构数据适配方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110167874.6A CN112925958A (zh) | 2021-02-05 | 2021-02-05 | 多源异构数据适配方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112925958A true CN112925958A (zh) | 2021-06-08 |
Family
ID=76171003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110167874.6A Pending CN112925958A (zh) | 2021-02-05 | 2021-02-05 | 多源异构数据适配方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925958A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117384A (zh) * | 2015-08-19 | 2015-12-02 | 小米科技有限责任公司 | 分类器训练方法、类型识别方法及装置 |
US20170052970A1 (en) * | 2015-08-20 | 2017-02-23 | International Business Machines Corporation | Transforming and loading data from a source data system to a target data system |
CN106777261A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 基于多源异构数据集的数据查询方法及装置 |
CN107704892A (zh) * | 2017-11-07 | 2018-02-16 | 宁波爱信诺航天信息有限公司 | 一种基于贝叶斯模型的商品编码分类方法以及系统 |
CN110196908A (zh) * | 2019-04-17 | 2019-09-03 | 深圳壹账通智能科技有限公司 | 数据分类方法、装置、计算机装置及存储介质 |
CN110705132A (zh) * | 2019-10-31 | 2020-01-17 | 哈尔滨工业大学 | 一种基于多源异质数据的制导控制系统性能融合评估方法 |
CN110837669A (zh) * | 2019-10-25 | 2020-02-25 | 中国地质大学(武汉) | 基于多源异构数据融合的滑坡不确定模型动态构建方法 |
CN111209402A (zh) * | 2020-01-13 | 2020-05-29 | 山东工商学院 | 一种融合迁移学习与主题模型的文本分类方法及系统 |
CN111985545A (zh) * | 2020-08-10 | 2020-11-24 | 中国平安人寿保险股份有限公司 | 基于人工智能的目标数据检测方法、装置、设备及介质 |
US20200409977A1 (en) * | 2017-09-08 | 2020-12-31 | Guangdong Construction Information Center | Generic Multi-Source Heterogeneous Large-Scale Data Synchronization Client-Server Method |
-
2021
- 2021-02-05 CN CN202110167874.6A patent/CN112925958A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117384A (zh) * | 2015-08-19 | 2015-12-02 | 小米科技有限责任公司 | 分类器训练方法、类型识别方法及装置 |
US20170052970A1 (en) * | 2015-08-20 | 2017-02-23 | International Business Machines Corporation | Transforming and loading data from a source data system to a target data system |
CN106777261A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 基于多源异构数据集的数据查询方法及装置 |
US20200409977A1 (en) * | 2017-09-08 | 2020-12-31 | Guangdong Construction Information Center | Generic Multi-Source Heterogeneous Large-Scale Data Synchronization Client-Server Method |
CN107704892A (zh) * | 2017-11-07 | 2018-02-16 | 宁波爱信诺航天信息有限公司 | 一种基于贝叶斯模型的商品编码分类方法以及系统 |
CN110196908A (zh) * | 2019-04-17 | 2019-09-03 | 深圳壹账通智能科技有限公司 | 数据分类方法、装置、计算机装置及存储介质 |
CN110837669A (zh) * | 2019-10-25 | 2020-02-25 | 中国地质大学(武汉) | 基于多源异构数据融合的滑坡不确定模型动态构建方法 |
CN110705132A (zh) * | 2019-10-31 | 2020-01-17 | 哈尔滨工业大学 | 一种基于多源异质数据的制导控制系统性能融合评估方法 |
CN111209402A (zh) * | 2020-01-13 | 2020-05-29 | 山东工商学院 | 一种融合迁移学习与主题模型的文本分类方法及系统 |
CN111985545A (zh) * | 2020-08-10 | 2020-11-24 | 中国平安人寿保险股份有限公司 | 基于人工智能的目标数据检测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507125A (zh) | 三元组信息提取方法、装置、设备及计算机可读存储介质 | |
CN109471944B (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN107918634A (zh) | 智能问答方法、装置及计算机可读存储介质 | |
US10528871B1 (en) | Structuring data in a knowledge graph | |
CN108038208B (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
CN109215640B (zh) | 语音识别方法、智能终端及计算机可读存储介质 | |
CN107562878B (zh) | 家电控制方法、电子设备和计算机可读存储介质 | |
CN107784034B (zh) | 页面类别识别方法及装置、用于页面类别识别的装置 | |
US20220114256A1 (en) | Malware classification and detection using audio descriptors | |
KR20210090576A (ko) | 품질을 관리하는 방법, 장치, 기기, 저장매체 및 프로그램 | |
CN114564666A (zh) | 百科信息展示方法、装置、设备和介质 | |
CN107918509B (zh) | 软件快捷方式提示设置方法、装置及可读存储介质 | |
CN111813910A (zh) | 客服问题的更新方法、系统、终端设备及计算机存储介质 | |
CN111400439A (zh) | 网络不良数据监控方法、装置及存储介质 | |
US11854113B2 (en) | Deep learning methods for event verification and image re-purposing detection | |
CN112559688A (zh) | 财报的阅读难度计算方法、装置、设备及可读存储介质 | |
CN111414758A (zh) | 零指代位置检测方法、装置、设备及计算机可读存储介质 | |
CN110392115B (zh) | 区块链节点管理方法、装置和可读存储介质 | |
CN111460811A (zh) | 众包任务的答案验证方法、装置、计算机设备及存储介质 | |
CN114742058B (zh) | 一种命名实体抽取方法、装置、计算机设备及存储介质 | |
CN112925958A (zh) | 多源异构数据适配方法、装置、设备及可读存储介质 | |
CN114499983A (zh) | Tor流量检测方法、装置、终端设备及存储介质 | |
CN110019547B (zh) | 获取客户间的关联关系的方法、装置、设备及介质 | |
KR20210084641A (ko) | 정보를 송신하는 방법 및 장치 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210608 |