CN113627153B - 处理数据的方法、装置、设备及存储介质 - Google Patents

处理数据的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113627153B
CN113627153B CN202110874819.0A CN202110874819A CN113627153B CN 113627153 B CN113627153 B CN 113627153B CN 202110874819 A CN202110874819 A CN 202110874819A CN 113627153 B CN113627153 B CN 113627153B
Authority
CN
China
Prior art keywords
model
data
processing
verification
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110874819.0A
Other languages
English (en)
Other versions
CN113627153A (zh
Inventor
唐康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Tiao Medical Technology Co ltd
Shenzhen Lian Intellectual Property Service Center
Original Assignee
Hunan Tiao Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Tiao Medical Technology Co ltd filed Critical Hunan Tiao Medical Technology Co ltd
Priority to CN202110874819.0A priority Critical patent/CN113627153B/zh
Publication of CN113627153A publication Critical patent/CN113627153A/zh
Application granted granted Critical
Publication of CN113627153B publication Critical patent/CN113627153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及数字医疗领域,本发明提供了一种处理数据的方法、装置、设备及存储介质,其中,方法包括:将业务数据集拆分为训练数据集和多个验证数据集,其中,业务数据集中的数据为处方或者病历;训练得到各个语言处理模型,将各所述语言处理模型按照预设的数量进行组合,得到多个模型组合,根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重,基于所述处理权重分配对应的数据量至各所述模型组合中进行处理。通过不同的验证集验证模型,从而得到多个语言处理模型,将得到的语言处理模型进行组合,通过多个模型组合对数据进行处理,从而实现了通过不同的语言处理模型对数据的处理,可以对数据进行更好分析。

Description

处理数据的方法、装置、设备及存储介质
技术领域
本发明涉及数字医疗领域,特别涉及一种处理数据的方法、装置、设备及存储介质。
背景技术
自然语言处理(NLP)是一种专业分析人类语言的人工智能。是一门融语言学、计算机科学、数学于一体的科学,能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。a)随着自然语言处理技术的兴起,可以支持疾病辅助诊断、健康管理、远程会诊等功能。现有的自然语言处理模型的模型种类分为很多种,不同的模型具有不同的功能,目前,在处理病历或者处方时,行业内对其处理的模型一般只采用单一的模型进行处理,但是随着时间的迁移,处理的数据类型也会发生变化,导致无法对数据更好的分析。
发明内容
本发明的主要目的为提供一种处理数据的方法、装置、设备及存储介质,旨在解决采用单一的模型进行处理无法对数据更好的分析的问题。
本发明提供了一种处理数据的方法,包括:
将业务数据集拆分为训练数据集和多个验证数据集;
将所述训练数据集输入至多个语言处理初始模型中进行训练,得到多个暂时模型;
将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值;
将各所述语言处理模型按照预设的数量进行组合,得到多个模型组合;其中,所述模型组合中通过损失值较小的模型给出处理结果;
根据所述损失值计算各个模型组合的偏差;
根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重;
基于所述处理权重分配对应的数据量至各所述模型组合中进行处理。
进一步地,所述基于所述处理权重分配对应的数据量至各所述模型组合中进行处理的步骤之后,还包括:
获取当前处理的多个实时数据,并基于各所述实时数据获取人为上传的处理结果,将多个所述实时数据和其对应的所述处理结果作为实时数据测试集;
将所述实时数据测试集输入各个所述语言处理模型中,得到各个所述语言处理模型中的损失值;
基于所述损失值计算各个所述模型组合的实时偏差,根据所述模型组合的所述实时偏差为各个所述模型组合分别重新设置对应的新处理权重。
进一步地,所述将所述暂时模型分别用不同的验证数据集进行验证的步骤,包括:
获取所述暂时模型被训练完成后的先后顺序;
根据所述先后顺序为各所述暂时模型匹配对应顺序的验证数据集,以及对应的验证方法;其中,所述验证方法包括朴素贝叶斯验证集、K近邻验证机、支持向量机验证集;
通过所述验证集以及对应的所述验证方法对各所述暂时模型进行验证。
进一步地,所述根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重的步骤,包括:
将各所述模型组合的所述偏差与预设的偏差阈值进行比较;
将大于所述偏差阈值的模型组合的处理权重设为0,以及将小于所述偏差阈值的模型组合的处理权重按照偏差值进行设定,使各小于所述偏差阈值的模型组合之间的处理权重之和为1。
进一步地,所述将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值的步骤,包括:
采用预设的验证方式对所述暂时模型进行验证;
基于验证结果调整所述暂时模型中的超参数,得到所述语言处理模型;
根据公式损失值计算公式计算得到各所述语言处理模型对应的所述损失值,其中,所述损失值计算公式为:
式中:yi表示第i个验证数据的真实值,fj(xi)表示第j个语言处理模型根据第i验证数据得到的预测值,n表示所述验证数据的总个数,表示预设的参数值,εi表示第i个验证数据对应的匹配参数,/>表示第j个所述语言处理模型的损失值。
进一步地,所述将业务数据集拆分为训练数据集和多个验证数据集的步骤之前,还包括:
获取多个训练文本;
将各所述训练文本输入BERT中文训练模型中,通过fine-tuning的方式构建对每个所述训练文本构建对应的词向量集;其中所述词向量集具有n个词向量,分别为x1,x2,…,xn
在循环神经网络内依次输入各个所述词向量集中的词向量;
通过公式ot=softmax(Vst)计算得到各所述词向量集对应的输出向量ot
将各所述输出向量ot进行排列得到各所述输出向量对应的业务数据,整合各所述业务数据得到所述所述业务数据集;其中,st=f(Uxt+Wst-1+b),st为第t步的计算函数,所述xt为第t个词向量,s0为0向量,V、U、W、b均为预设的参数。
进一步地,所述基于所述处理权重分配对应的数据量至各所述模型组合中进行处理的步骤,包括:
检测各所述语言处理模型中处理不同类别的数据分别对应的损失值;
基于所述损失值为各个所述语言处理模型赋予处理各类别数据的处理分值;
基于所述处理分值和所述处理权重为各个所述模型组合分配数据。
本发明还提供了一种处理数据的装置,包括:
拆分模块,用于将业务数据集拆分为训练数据集和多个验证数据集;
输入模块,用于将所述训练数据集输入至多个语言处理初始模型中进行训练,得到多个暂时模型;
验证模块,用于将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值;
组合模块,用于将各所述语言处理模型按照预设的数量进行组合,得到多个模型组合;其中,所述模型组合中通过损失值较小的模型给出处理结果;
计算模块,用于根据所述损失值计算各个模型组合的偏差;
设置模块,用于根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重;
分配模块,用于基于所述处理权重分配对应的数据量至各所述模型组合中进行处理。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过不同的验证集验证模型,从而得到多个语言处理模型,将得到的语言处理模型进行组合,通过多个模型组合对数据进行处理,从而实现了通过不同的语言处理模型对数据的处理,可以对数据进行更好分析。
附图说明
图1是本发明一实施例的一种处理数据的方法的流程示意图;
图2是本发明一实施例的一种处理数据的装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种处理数据的方法,包括:
S1:将业务数据集拆分为训练数据集和多个验证数据集;
S2:将所述训练数据集输入至多个语言处理初始模型中进行训练,得到多个暂时模型;
S3:将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值;
S4:将各所述语言处理模型按照预设的数量进行组合,得到多个模型组合;其中,所述模型组合中通过损失值较小的模型给出处理结果;
S5:根据所述损失值计算各个模型组合的偏差;
S6:根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重;
S7:基于所述处理权重分配对应的数据量至各所述模型组合中进行处理。
如上述步骤S1所述,将业务数据集拆分为训练数据集和多个验证数据集。其中,拆分的方式不做限定,一般而言训练数据集的数量会大于验证数据集,各个验证数据集中的数据量可以相同,也可以不同。其中,在一种可能的实现方式中,所述数据业务数据集中的是医疗数据,如个人健康档案、处方、检查报告等。
如上述步骤S2所述,将所述训练数据集输入至多个语言处理初始模型中进行训练,得到多个暂时模型,即将训练数据分别进行输入,各个语言处理初始模型的模型类别可以是相同的,也可以是不同的,为了提高本发明提供的方案中对数据可以达到更好的处理效果,可以选用不同的语言处理初始模型进行训练。
如上述步骤S3所述,将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值。其中不同的验证数据集进行验证,从而使暂时模型中的超参数会向验证数据集中的数据进行偏移,从而使得各个语言处理模型具备对对应的数据具备较优的处理效果。损失值可以根据验证数据集中的输入值输入至各个暂时模型中,得到对应的输出值,将各个输出值与验证数据集中的标准值进行比较得到。
如上述步骤S4所述,将各所述语言处理模型按照预设的数量进行组合,得到多个模型组合。其中,一个语言处理模型可以被组合多次,举例而言,若具有A、B、C三个模型,则对应的模型组合可以包括AB、BC、AC三种不同的组合方式,若考虑到对应的顺序,则可以为6种不同的方式,当然一个组合中也可以有更多的模型。此处不再赘述。其中,在模型组合中,是通过损失值较小的模型给出处理结果,其余的模型不给出处理结果,但是会对数据进行处理,以及会对结果进行收集,以便于后续判断模型组合中各个模型的优劣情况,并根据模型的损失值,实时选取损失值最小的模型进行处理数据。
如上述步骤S5所述,根据所述损失值计算各个模型组合的偏差,其中偏差为根据各个模型组合中损失值较小的模型的损失值得到。即可以直接以损失值较小的模型的损失值作为偏差,也可以对该损失值进行标准化处理,其中标准化处理可以是先进行归一化处理,从而得到各个模型组合的偏差。
如上述步骤S6所述,根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重。设置的方式可以是按照偏差值大小排序,选取排序靠前的几个模型组合,然后将剩余的组合的处理权重设为0,将排序靠前的几个模型组合按照平均分配的方式分配处理的数据量,或者按照预设的处理权重值去分配处理的数据量,例如选取排序前三的模型组合,则偏差最小的模型组合所对应的处理权重设置为0.6,其余两个模型组合所对应的处理权重设置为0.2。
如上述步骤S7所述,基于所述处理权重分配对应的数据量至各所述模型组合中进行处理基于所述处理权重分配对应的数据量至各所述模型组合中进行处理。即给各个模型组合分配不同的数量的数据进行处理,若有多余的数据则可以直接传给偏差最小的模型组合处理。从而实现了通过不同的语言处理模型对数据的处理,可以对数据进行更好分析。
在一个实施例中,所述基于所述处理权重分配对应的数据量至各所述模型组合中进行处理的步骤S7之后,还包括:
S801:获取当前处理的多个实时数据,并基于各所述实时数据获取人为上传的处理结果,将多个所述实时数据和其对应的所述处理结果作为实时数据测试集;
S802:将所述实时数据测试集输入各个所述语言处理模型中,得到各个所述语言处理模型中的实时损失值;
S803:基于所述实时损失值计算各个所述模型组合的实时偏差,根据所述模型组合的所述实时偏差为各个所述模型组合分别重新设置对应的新处理权重。
如上述步骤S801所述,获取当前处理的多个实时数据,并基于各所述实时数据获取人为上传的处理结果,其中,该人为上传的处理结果为相关人员针对该实时数据所对应的处理结果,由于数据集中一般不可能存在对应的实时数据,并且也不可能具有相对应的处理结果,从而获取人为上传的处理结果作为测试集,即将多个所述实时数据和其对应的所述处理结果作为实时数据测试集。即获取实时数据的测试集,以便于后续进行检测。
如上述步骤S802所述,将所述实时数据测试集输入各个所述语言处理模型中,得到各个所述语言处理模型中的实时损失值。即将实时数据测试集中的实时数据输入至各个语言处理模型中,可以得到各个语言处理模型的处理结果,将处理结果和人为上传的处理结果进行比较,按照预设的损失值计算公式得到各个模型组合的实时损失值。
如上述步骤S803所述,基于所述实时损失值计算各个所述模型组合的实时偏差,根据所述模型组合的所述实时偏差为各个所述模型组合分别重新设置对应的新处理权重。其中,实时偏差的处理方式与上述偏差的处理方式相同,此处不再赘述,根据实时偏差的结果设置新处理权重,设置的方式与前述的设置权重方式相同,此处也不再赘述。后续基于所述新处理权重应用所述模型组合处理数据。其中,应用模型组合对数据进行实时处理,从而实现了对数据的处理过程中语言处理模型的实时切换,达到了对数据选择更好的处理模型进行处理,从而使数据的处理更优。
在一个实施例中,所述将所述暂时模型分别用不同的验证数据集进行验证的步骤S3,包括:
S301:获取所述暂时模型被训练完成后的先后顺序;
S302:根据所述先后顺序为各所述暂时模型匹配对应顺序的验证数据集,以及对应的验证方法;其中,所述验证方法包括朴素贝叶斯验证集、K近邻验证机、支持向量机验证集;
S303:通过所述验证集以及对应的所述验证方法对各所述暂时模型进行验证。
如上述步骤S301-S303所述,实现了对各个暂时模型的验证数据的选择,以及验证方法的选择,从而实现了各个暂时模型的多样性。即根据各个暂时模型被训练完成的先后顺序,其中,各个暂时模型的基础模型可以不一致,训练开始时间也可以不一致,从而可以得到各个暂时模型的训练完成的先后顺序,从而实现了对暂时模型的区分,以便于自动分配不同的验证集和验证方法,其中,验证集和验证方法为事先绑定的,对应的方式不做限定,一般由人工进行人为限定,然后通过不同的验证集及对应的验证方法对暂时模型进行验证,从而可以得到不同的语言处理模型以及各个暂时模型的损失值。应当理解的是,通过训练集训练后的各个暂时模型之间的区别不大,上述方案仅仅为各个暂时模型确定不同的验证集,在一些实施例中,也可以通过其他方式,例如事先对各个暂时模型进行标号,然后根据标号匹配对应的验证集和验证方法等。另外,验证方法包括朴素贝叶斯验证集、K近邻验证机、支持向量机验证集,其中,各种验证方法各有优势,即分化的超参数不一致,从而使得其对应的语言处理模型对于不同的数据处理具有不同的优势,其优势具体可以从损失值进行计算得出,此处不再赘述。
在一个实施例中,所述根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重的步骤S6,包括:
S601:将各所述模型组合的所述偏差与预设的偏差阈值进行比较;
S602:将大于所述偏差阈值的模型组合的处理权重设为0,以及将小于所述偏差阈值的模型组合的处理权重按照偏差值进行设定,使各小于所述偏差阈值的模型组合之间的处理权重之和为1。
如上述步骤S601-S602所述,实现了对处理权重的设置,即根据各个模型组合的偏差与预设的偏差阈值进行比较,当大于该偏差值时,说明此时的该模型组合不适合对当前的数据进行分析,因此可以将其处理的权重设置为0,当大于该预设的偏差阈值的模型组合可以很好的对当前的数据进行处理,因此可以设定对应的权重对其进行处理,其中,设置的方式可以是平均分配,也可以按照偏差值的大小,对处理权重进行分配,例如设置不同的梯度,每个偏差值对应一个梯度值,将符合要求的模型组合按照梯度值相加,各个模型组合的偏差值与相加的总和的比值为各个模型对应的处理权重。从而实现了对处理更好的模型组合分配更多的数据处理,使数据的处理更为合理。
在一个实施例中,所述将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值的步骤S3,包括:
S311:采用预设的验证方式对所述暂时模型进行验证;
S312:基于验证结果调整所述暂时模型中的超参数,得到所述语言处理模型;
S313:根据公式损失值计算公式计算得到各所述语言处理模型对应的所述损失值,其中,所述损失值计算公式为:
式中:yi表示第i个验证数据的真实值,fj(xi)表示第j个语言处理模型根据第i验证数据得到的预测值,n表示所述验证数据的总个数,表示预设的参数值,εi表示第i个验证数据对应的匹配参数,/>表示第j个所述语言处理模型的损失值。
如上述步骤S311-S313所述,实现了对各个语言处理模型的超参数调整以及损失值的计算,其中,预设的验证方式为对应的验证方式,包括朴素贝叶斯验证集、K近邻验证机、支持向量机验证集中的任意一种,从而实现对数据的验证,以及对暂时模型中的超参数进行调整,使得到的语言处理模型对不同的数据具有不同的处理优势,另外损失值公式中对于每个数据都有不同的权重,调整其中不同的权重,可以得到各个模型更加精确的损失值,从而使后续对模型组合的选择更加合理。
在一个实施例中,所述将业务数据集拆分为训练数据集和多个验证数据集的步骤S1之前,还包括:
S001:获取多个训练文本;
S002:将各所述训练文本输入BERT中文训练模型中,通过fine-tuning的方式构建对每个所述训练文本构建对应的词向量集;其中所述词向量集具有n个词向量,分别为x1,x2,…,xn
S003:在循环神经网络内依次输入各个所述词向量集中的词向量;
S004:通过公式ot=softmax(Vst)计算得到各所述词向量集对应的输出向量ot
S005:将各所述输出向量ot进行排列得到各所述输出向量对应的业务数据,整合各所述业务数据得到所述所述业务数据集;其中,st=f(Uxt+Wst-1+b),st为第t步的计算函数,所述xt为第t个词向量,s0为0向量,V、U、W、b均为预设的参数。
如上述步骤S001所述,该训练文本可以从对应的数据库中获取,也可以是人为上传的相关训练文本。
如上述步骤S202所述,通过BERT中文训练模型对训练文本构建词向量集,具体为读取基于训练文本对应的数据集,获取数据集中文本数据。其中BERT中文训练模型基于所述专业词库训练而成,该所述专业词库也可以是生成的数据集,即可以通过BERT预训练模型先读取数据集的文本数据,训练模型,然后根据训练结果调整模型参数,得到BERT中文训练模型。
如上述步骤S003-S005所述,BERT中文训练模型对训练文本构建的词向量一般为多个,再通过公式st=f(Uxt+Wst-1+b)和公式ot=softmax(Vst)进行计算,得到输出向量,将未能回答的问题转换为系统容易识别的标准化问题,以便于后续对问题的各种处理运算,例如可以便于后续计算问题的类别,与预设问题的相似度等。其中所述xt为第t个词向量,s0为0向量,U、W、b均为预设的参数,st为第t步的计算函数,ot为输出向量,然后再基于TOKEN列表将得到的ot进行排列。
在一个实施例中,所述基于所述处理权重分配对应的数据量至各所述模型组合中进行处理的步骤S7,包括
S701:检测各所述语言处理模型中处理不同类别的数据分别对应的损失值;
S702:基于所述损失值为各个所述语言处理模型赋予处理各类别数据的处理分值;
S703:基于所述处理分值和所述处理权重为各个所述模型组合分配数据。
如上述步骤S701-S703所述,实现了对数据的分配,部分模型组合对部分数据具有更好的处理效果。即可以获取到各个语言处理模型对不同类别的数据的损失值,由于损失值体现的是该语言处理模型所处理错误的概率,因此需要基于损失值获取到各个类别的处理分值,获取的方式不做限定,应当理解的是,损失值与处理分值呈负相关,即当该类别的损失值越大,则该类别相应的处理分值则越小,基于处理分值,以及处理权重对数据进行合理的分配,即尽可能的将相应的数据放置其处理该数据损失值较小的模型组合中进行处理。具体地,假设具有A、B两种类别的数据,以及a、b、c三个模型,假设a处理A类别的处理分值为90,处理B类别的处理分值为80分,b处理A类别的处理分值为85,处理B类别的处理分值为85分,c处理A类别的处理分值为80,处理B类别的处理分值为90分,假设三个模型的处理数据的处理权重相同,此时,具有50%的A类别数据以及50%的B类别数据,则先将33.3%的A类别数据放置具有a模型的模型组合中处理,然后将33.3%的B类别放置具有b模型的模型组合中处理,剩余的数据放置在具有b模型的模型组合中处理。当然上述说的是理想情况,数据一般是实时具有的,因此在实际过程中,会根据数据的类别优先选取模型进行处理,例如,若一段时间内全部来的数据都是A,则可以先转给基于a模型工作的模型组合(指的是模型组合中a模型的损失值较小的一类模型组合,记为O)进行处理,当其处理的数据超过了第一设定值时,通过基于b模型工作的模型组合(指的是模型组合中b模型的损失值较小的一类模型组合,记为P)处理,当其处理的数据超过了第二设定值时,通过基于c模型工作的模型组合(指的是模型组合中c模型的损失值较小的一类模型组合,记为Q)处理,若超过了第三设定值,则转入O中继续处理,其中,第一设定值:第二设定值:第三设定值=O对应的处理权重:P对应的处理权重:Q对应的处理权重,从而可以实现在保证了处理对应类别的数据的同时,又可以保证处理权重,实现了对数据的合理分配,使处理后的效果更佳。
本发明还提供了一种处理数据的装置,包括:
拆分模块10,用于将业务数据集拆分为训练数据集和多个验证数据集;
输入模块20,用于将所述训练数据集输入至多个语言处理初始模型中进行训练,得到多个暂时模型;
验证模块30,用于将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值;
组合模块40,用于将各所述语言处理模型按照预设的数量进行组合,得到多个模型组合;其中,所述模型组合中通过损失值较小的模型给出处理结果;
计算模块50,用于根据所述损失值计算各个模型组合的偏差;
设置模块60,用于根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重;
分配模块70,用于基于所述处理权重分配对应的数据量至各所述模型组合中进行处理。
处理数据的装置,还包括:
实时数据获取模块,用于获取当前处理的多个实时数据,并基于各所述实时数据获取人为上传的处理结果,将多个所述实时数据和其对应的所述处理结果作为实时数据测试集;
损失值计算模块,用于将所述实时数据测试集输入各个所述语言处理模型中,得到各个所述语言处理模型中的损失值;
实时偏差计算模块,用于基于所述损失值计算各个所述模型组合的实时偏差,根据所述模型组合的所述实时偏差为各个所述模型组合分别重新设置对应的新处理权重。
在一个实施例中,验证模块30,包括:
顺序获取子模块,用于获取所述暂时模型被训练完成后的先后顺序;
数据集匹配子模块,用于根据所述先后顺序为各所述暂时模型匹配对应顺序的验证数据集,以及对应的验证方法;其中,所述验证方法包括朴素贝叶斯验证集、K近邻验证机、支持向量机验证集;
验证子模块,用于通过所述验证集以及对应的所述验证方法对各所述暂时模型进行验证。
在一个实施例中,设置模块60,包括:
偏差比较子模块,用于将各所述模型组合的所述偏差与预设的偏差阈值进行比较;
权重设置子模块,用于将大于所述偏差阈值的模型组合的处理权重设为0,以及将小于所述偏差阈值的模型组合的处理权重按照偏差值进行设定,使各小于所述偏差阈值的模型组合之间的处理权重之和为1。
在一个实施例中,验证模块30,包括:
验证子模块,用于采用预设的验证方式对所述暂时模型进行验证;
超参数调整子模块,用于基于验证结果调整所述暂时模型中的超参数,得到所述语言处理模型;
损失值计算子模块,用于根据公式损失值计算公式计算得到各所述语言处理模型对应的所述损失值,其中,所述损失值计算公式为:
式中:yi表示第i个验证数据的真实值,fj(xi)表示第j个语言处理模型根据第i验证数据得到的预测值,n表示所述验证数据的总个数,表示预设的参数值,εi表示第i个验证数据对应的匹配参数,/>表示第j个所述语言处理模型的损失值。
在一个实施例中,处理数据的装置,还包括:
训练文本获取模块,用于获取多个训练文本;
向量集构建模块,用于将各所述训练文本输入BERT中文训练模型中,通过fine-tuning的方式构建对每个所述训练文本构建对应的词向量集;其中所述词向量集具有n个词向量,分别为x1,x2,…,xn
词向量输入模块,用于在循环神经网络内依次输入各个所述词向量集中的词向量;
输出向量计算模块,用于通过公式ot=softmax(Vst)计算得到各所述词向量集对应的输出向量ot
排列模块,用于将各所述输出向量ot进行排列得到各所述输出向量对应的业务数据,整合各所述业务数据得到所述所述业务数据集;其中,st=f(Uxt+Wst-1+b),st为第t步的计算函数,所述xt为第t个词向量,s0为0向量,V、U、W、b均为预设的参数。
在一个实施例中,分配模块70,包括:
损失值检测子模块,用于检测各所述语言处理模型中处理不同类别的数据分别对应的损失值;
处理分值赋予子模块,用于基于所述损失值为各个所述语言处理模型赋予处理各类别数据的处理分值;
数据分配子模块,用于基于所述处理分值和所述处理权重为各个所述模型组合分配数据。
本发明的有益效果:通过不同的验证集验证模型,从而得到多个语言处理模型,将得到的语言处理模型进行组合,通过多个模型组合对数据进行处理,从而实现了通过不同的语言处理模型对数据的处理,可以对数据进行更好分析。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种业务数据集等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的处理数据的方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的处理数据的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (9)

1.一种处理数据的方法,其特征在于,包括:
将业务数据集拆分为训练数据集和多个验证数据集;
将所述训练数据集输入至多个语言处理初始模型中进行训练,得到多个暂时模型;
将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值;
将各所述语言处理模型按照预设的数量进行组合,得到多个模型组合;其中,所述模型组合中通过损失值较小的模型给出处理结果;
根据所述损失值计算各个模型组合的偏差;
根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重;
基于所述处理权重分配对应的数据量至各所述模型组合中进行处理;
所述基于所述处理权重分配对应的数据量至各所述模型组合中进行处理之后,还包括:
获取当前处理的多个实时数据,并基于各所述实时数据获取人为上传的处理结果,将多个所述实时数据和其对应的所述处理结果作为实时数据测试集;
将所述实时数据测试集输入各个所述语言处理模型中,得到各个所述语言处理模型中的实时损失值;
基于所述实时损失值计算各个所述模型组合的实时偏差,根据所述模型组合的所述实时偏差为各个所述模型组合分别重新设置对应的新处理权重。
2.如权利要求1所述的处理数据的方法,其特征在于,所述将所述暂时模型分别用不同的验证数据集进行验证,包括:
获取所述暂时模型被训练完成后的先后顺序;
根据所述先后顺序为各所述暂时模型匹配对应顺序的验证数据集,以及对应的验证方法;其中,所述验证方法包括朴素贝叶斯验证集、K近邻验证机或支持向量机验证集;
通过所述验证集以及对应的所述验证方法对各所述暂时模型进行验证。
3.如权利要求1所述的处理数据的方法,其特征在于,所述根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重,包括:
将各所述模型组合的所述偏差与预设的偏差阈值进行比较;
将大于所述偏差阈值的模型组合的处理权重设为0,以及将小于所述偏差阈值的模型组合的处理权重按照偏差值进行设定,使各小于所述偏差阈值的模型组合之间的处理权重之和为1。
4.如权利要求1所述的处理数据的方法,其特征在于,所述将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值的步骤,包括:
采用预设的验证方式对所述暂时模型进行验证;
基于验证结果调整所述暂时模型中的超参数,得到所述语言处理模型;
根据公式损失值计算公式计算得到各所述语言处理模型对应的所述损失值,其中,所述损失值计算公式为:
式中:yi表示第i个验证数据的真实值,fj(xi)表示第j个语言处理模型根据第i验证数据得到的预测值,n表示所述验证数据的总个数,表示预设的参数值,εi表示第i个验证数据对应的匹配参数,/>表示第j个所述语言处理模型的损失值。
5.如权利要求1所述的处理数据的方法,其特征在于,所述将业务数据集拆分为训练数据集和多个验证数据集之前,还包括:
获取多个训练文本;
将各所述训练文本输入BERT中文训练模型中,通过fine-tuning的方式构建对每个所述训练文本构建对应的词向量集;其中,所述词向量集具有n个词向量,分别为x1,x2,…,xn
在循环神经网络内依次输入各个所述词向量集中的词向量;
通过公式ot=softmax(Vst)计算得到各所述词向量集对应的输出向量ot
将各所述输出向量ot进行排列得到各所述输出向量对应的业务数据,整合各所述业务数据得到所述业务数据集;其中,st=f(Uxt+Wst-1+b),st为第t步的计算函数,所述xt为第t个词向量,s0为0向量,V、U、W、b均为预设的参数。
6.如权利要求1所述的处理数据的方法,其特征在于,所述基于所述处理权重分配对应的数据量至各所述模型组合中进行处理,包括:
检测各所述语言处理模型中处理不同类别的数据分别对应的损失值;
基于所述损失值为各个所述语言处理模型赋予处理各类别数据的处理分值;
基于所述处理分值和所述处理权重为各个所述模型组合分配数据。
7.一种处理数据的装置,其特征在于,包括:
拆分模块,用于将业务数据集拆分为训练数据集和多个验证数据集;
输入模块,用于将所述训练数据集输入至多个语言处理初始模型中进行训练,得到多个暂时模型;
验证模块,用于将所述暂时模型分别用不同的验证数据集进行验证,得到各个所述暂时模型对应的语言处理模型,以及所述语言处理模型对应的损失值;
组合模块,用于将各所述语言处理模型按照预设的数量进行组合,得到多个模型组合;其中,所述模型组合中通过损失值较小的模型给出处理结果;
计算模块,用于根据所述损失值计算各个模型组合的偏差;
设置模块,用于根据各个所述模型组合的所述偏差为各个所述模型组合分别设置对应的处理权重;
分配模块,用于基于所述处理权重分配对应的数据量至各所述模型组合中进行处理;
实时数据获取模块,用于获取当前处理的多个实时数据,并基于各所述实时数据获取人为上传的处理结果,将多个所述实时数据和其对应的所述处理结果作为实时数据测试集;
损失值计算模块,用于将所述实时数据测试集输入各个所述语言处理模型中,得到各个所述语言处理模型中的实时损失值;
实时偏差计算模块,用于基于所述实时损失值计算各个所述模型组合的实时偏差,根据所述模型组合的所述实时偏差为各个所述模型组合分别重新设置对应的新处理权重。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202110874819.0A 2021-07-30 2021-07-30 处理数据的方法、装置、设备及存储介质 Active CN113627153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110874819.0A CN113627153B (zh) 2021-07-30 2021-07-30 处理数据的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110874819.0A CN113627153B (zh) 2021-07-30 2021-07-30 处理数据的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113627153A CN113627153A (zh) 2021-11-09
CN113627153B true CN113627153B (zh) 2023-10-27

Family

ID=78381891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110874819.0A Active CN113627153B (zh) 2021-07-30 2021-07-30 处理数据的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113627153B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198938A (zh) * 2019-12-26 2020-05-26 深圳市优必选科技股份有限公司 一种样本数据处理方法、样本数据处理装置及电子设备
CN111768001A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 语言模型的训练方法、装置和计算机设备
CN112711581A (zh) * 2020-12-30 2021-04-27 医渡云(北京)技术有限公司 医疗数据校验方法、装置、电子设备及存储介质
WO2021114625A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 用于多任务场景的网络结构构建方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198938A (zh) * 2019-12-26 2020-05-26 深圳市优必选科技股份有限公司 一种样本数据处理方法、样本数据处理装置及电子设备
WO2021114625A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 用于多任务场景的网络结构构建方法和装置
CN111768001A (zh) * 2020-06-30 2020-10-13 平安国际智慧城市科技股份有限公司 语言模型的训练方法、装置和计算机设备
CN112711581A (zh) * 2020-12-30 2021-04-27 医渡云(北京)技术有限公司 医疗数据校验方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113627153A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN112528259B (zh) 身份验证方法、装置、计算机设备和存储介质
CN110990871B (zh) 基于人工智能的机器学习模型训练方法、预测方法及装置
CN110597991A (zh) 文本分类方法、装置、计算机设备及存储介质
EP2784710A2 (en) Method and system for validating personalized account identifiers using biometric authentication and self-learning algorithms
CN112464117A (zh) 请求处理方法、装置、计算机设备和存储介质
CN113688221B (zh) 基于模型的话术推荐方法、装置、计算机设备和存储介质
CN110175697A (zh) 一种不良事件风险预测系统及方法
WO2022041825A1 (zh) 将图片转换为网页的方法、装置、计算机设备和存储介质
CN113205135B (zh) 课程预测模型的更新方法、装置、计算机设备及存储介质
WO2021139282A1 (zh) 医疗领域知识图谱构建方法、装置、设备及存储介质
US10546106B2 (en) Biometric verification
CN113434310B (zh) 多线程任务分配方法、装置、设备及存储介质
CN111901554B (zh) 基于语义聚类的通话通道构建方法、装置和计算机设备
CN112329629A (zh) 在线培训的评价方法、装置、计算机设备和存储介质
CN113011895A (zh) 关联账户样本筛选方法、装置和设备及计算机存储介质
CN113034044A (zh) 基于人工智能的面试方法、装置、设备及介质
CN113889262A (zh) 基于模型的数据预测方法、装置、计算机设备和存储介质
CN113761217A (zh) 基于人工智能的题目集数据处理方法、装置和计算机设备
CN113986581A (zh) 数据聚合处理方法、装置、计算机设备和存储介质
CN113918609A (zh) 试卷创建方法、装置、计算机设备和存储介质
CN113627153B (zh) 处理数据的方法、装置、设备及存储介质
CN116646065B (zh) 互联网医院数据安全管理方法和装置
CN112966787B (zh) 相似患者的识别方法、装置、计算机设备和存储介质
WO2020234852A1 (en) Method of delivering webinars with certified participation
CN114547053A (zh) 基于系统的数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230925

Address after: 410000 room 105, building 5, R & D headquarters, Central South University Science Park, changzuo Road, Yuelu street, Yuelu District, Changsha City, Hunan Province

Applicant after: Hunan Tiao Medical Technology Co.,Ltd.

Address before: 518000 Room 202, block B, aerospace micromotor building, No.7, Langshan No.2 Road, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen LIAN intellectual property service center

Effective date of registration: 20230925

Address after: 518000 Room 202, block B, aerospace micromotor building, No.7, Langshan No.2 Road, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen LIAN intellectual property service center

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: PING AN PUHUI ENTERPRISE MANAGEMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant