CN110689359A - 对模型进行动态更新的方法及装置 - Google Patents
对模型进行动态更新的方法及装置 Download PDFInfo
- Publication number
- CN110689359A CN110689359A CN201910942780.4A CN201910942780A CN110689359A CN 110689359 A CN110689359 A CN 110689359A CN 201910942780 A CN201910942780 A CN 201910942780A CN 110689359 A CN110689359 A CN 110689359A
- Authority
- CN
- China
- Prior art keywords
- nodes
- model
- output
- layer
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种对模型进行动态更新的方法和装置,根据该方法的一个实施方式,获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;使用m条训练数据对当前模型进行增量训练,得到增量模型;基于对增量模型的规模控制,完成模型的动态更新。该实施方式的重复执行可以提高模型的更新效率,以及模型的有效性。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机进行对模型进行动态更新的方法和装置。
背景技术
在智能客服领域,用户与智能客服交互过程中,通常会出现口语化、语句简略化等情况。尤其是新用户,或者用户针对新应用,这种情况尤其明显。另一方面,应用的功能越来越多,变更频率的增加,造成普通用户对于应用日益复杂的业务逻辑可能不能快速熟悉,用户对相关业务问题的提问也处于一个动态频繁变化的趋势之中。这些情况导致用户的问题描述不清晰、不准确,或者描述冗杂,快速更新的业务逻辑同时给智能客服带来了许多新的用户问题。如何及时更新智能客服能力,是一个重要的业务问题。
通常,智能客服可以包括一个或多个预先训练的模型来实现。为了不断适应新产品及新用户的提问。及时更新智能客服能力的问题,实质上就转化为对模型进行动态更新的问题。
发明内容
本说明书一个或多个实施例描述了一种对模型进行动态更新的方法和装置,可以使得模型终身提升学习,有效解决在业务逻辑快速变化的环境下,模型能力不断迭代的问题。
根据第一方面,提供了一种对模型进行动态更新的方法,所述模型包括输出层和至少一个隐藏层,所述输出层包含至少一个输出节点,所述方法包括:获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;使用所述m条训练数据对当前模型进行增量训练,得到增量模型;基于对所述增量模型的规模控制,完成模型的动态更新。
在一个实施例中,在智能问答场景中,单条训练数据包括,用户问题和相应的新增标签,新增标签是标准问题或标准问题对应的答案。
在一个实施例中,所述至少一个隐藏层包括第一隐藏层,所述预定规则包括以下至少一项:在所述第一隐藏层增加第一比例的隐藏层节点,所述第一比例与输出节点的增加比例正相关;在所述第一隐藏层增加第一数量的隐藏层节点,所述第一数量与n的大小正相关。
在一个实施例中,所述使用所述m条训练数据对当前模型进行增量训练,得到增量模型包括:针对m条训练数据,依次执行以下操作:利用特征提取网络处理训练数据中的特征相关信息,提取特征相关信息中的语义特征,并将所述语义特征输入增加节点后的隐藏层及输出层,得到输出结果;将所述输出结果与对应的新增标签进行对比,至少调整增加节点后的隐藏层及输出层中的各个节点参数,从而得到增量模型。
在一个实施例中,所述使用所述m条训练数据对当前模型进行增量训练,得到增量模型之前,还包括:对各个节点参数进行初始化;
其中,对增加的n个输出节点和增加的隐藏层节点,分别随机初始化相应的节点参数,其他节点沿用在当前模型中节点参数。
在一个实施例中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:检测各个节点参数是否低于预先设定的参数阈值;在存在低于所述参数阈值的节点参数的情况下,删除节点参数低于所述参数阈值的各个节点。
在一个实施例中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:删除节点参数最低的预定个数的节点;或者,删除节点参数最低的预定比例的节点。
在一个实施例中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:在隐藏层或者输出层的节点数量超过相应层节点数量阈值的情况下,在相应层删除节点参数最低的至少一个节点,所删除的节点的数量为相应层当前总节点数量与相应层节点数量阈值的差值。
根据第二方面,提供一种对模型进行动态更新的装置,所述模型包括输出层和至少一个隐藏层,所述输出层包含至少一个输出节点,所述装置包括:
获取单元,配置为获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;
第一添加单元,配置为在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;
第二添加单元,配置为基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;
增量训练单元,配置为使用所述m条训练数据对当前模型进行增量训练,得到增量模型;
规模控制单元,配置为基于对所述增量模型的规模控制,完成模型的动态更新。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书一个实施例实现的对模型进行动态更新的方法和装置,一方面,根据增量数据增加模型节点,使用增量数据对模型进行增量训练,使模型适应新的业务要求,另一方面,对增量训练后的模型进行规模控制,避免模型无限扩张,实现模型的动态更新。如此,可以提高模型的实时性、有效性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书披露的一个实施例的实施场景示意图;
图2示出了一个可实施本说明书实施例的对模型进行动态更新的方法的模型架构示意图;
图3示出根据一个实施例的对模型进行动态更新的方法流程图;
图4示出根据一个具体例子的对模型添加节点的示意图;
图5示出根据一个具体例子的对模型进行规模控制后得到的模型架构示意图;
图6示出根据一个实施例的对模型进行动态更新的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。如图1所示,该实施场景中,主要包括终端和计算平台。终端上可以安装有各种应用,例如购物类应用、支付类应用、地图类应用、网页类应用,等等。用户可以通过终端进行各种应用操作,例如浏览网页、点击页面上的超链接等。用户通过在终端的各种操作与相应应用的服务端交互。计算平台可以设在终端,也可以设在相应应用的服务端,在此不作限定。
在图1示出的实施场景中,在该实施场景中,用户可以通过终端上的各种应用和相应的应用服务器交互,以使用应用所提供的功能。其中,这里的终端可以是诸如计算机、平板电脑、智能手机之类的硬件设备。终端上运行的应用可以由应用服务器提供服务。
应用服务器端可以设置有客服平台。客服平台往往用于为用户解决应用使用过程中遇到的各种问题。例如,支付类应用支付不成功却显示扣款成功、借款应用如何还款,等等。用户在表达这些自己遇到的问题的时候,表达方式可能各不相同,例如有的人习惯性省略主语或模糊主语,如“怎么开通这个?”,有的人习惯用大量短句,如“‘账单’、‘到期了’、‘咋还’”,等等。
在本说明书的技术架构中,客服平台属于智能服务平台,无需人工参与。在接收到终端发送的用户问题后,可以通过问答模型确定相应的答案。可以理解,对于问答模型而言,其实质就是,将用户各种形式的提问问题,转化到预定的标准问题,或者直接从预定的答案中确定对应的答案。因此,问答模型解决的问题的实质可以看作是分类问题。问答模型通常可以通过分类模型来实现,例如bert(Bidirectional Encoder Representationsfrom Transformers,双向编码网络)、CNN(卷积神经网络)、DNN(深度神经网络)等之类的模型。
可以理解,问答模型中的分类模型,往往是多分类模型,包括一个输出层和至少一个隐藏层。隐藏层的作用是将所提取的特征映射到各个输出节点。如图2所示。问答模型中,首先可以通过特征提取网络对用户问题提取特征,其中的特征提取网络例如是通过bert网络对用户问题编码(encoding)提取的语义特征等。然后,可以使提取的特征经过隐藏层到输出层的全连接网络进行分类,得到多分类的分类结果。隐藏层包括多个隐藏层节点(或神经元),输出层包括多个输出层节点(或神经元)。各个输出层节点可以分别对应到各个预设的标准问题或答案。问答模型的输出结果例如可以是用户问题对应到各个标准问题或答案的概率。每个节点都可以对应一个节点参数,例如权重参数,以根据权重参数确定最终的输出结果。值得说明的是,虽然图2对每个输出节点都画出了一个输出箭头,但输出层的实际输出结果也可以是一个向量,向量中的各个维度的数值对应各个输出节点的预测值。
在诸如图1所示的智能问答之类的场景中,如果增加新的业务逻辑时,通常也会增加新的问题和答案,也就是增加输出节点的数量。一些老旧的业务可能会被淘汰,相应的输出节点也需要被删除。而调整过程中,隐藏层的一些节点可能已经不再适应新的业务需求。一些用户问题针对的标准问题或答案也可能随着新的业务逻辑有所改变。如果在业务更新时,重新标定样本训练问答模型,这样,会导致训练任务重复执行,模型更新效率较低。因此,本说明书的技术构思下,提供一种模型动态更新的方法,通过该动态更新方法的反复使用,完成终身学习,从而使得模型快速更新以适应当前的业务需求。
下面描述计算平台对模型动态进行更新的具体过程。
图3示出根据一个实施例的对模型进行动态更新的方法流程图。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器,例如图1所示的计算平台等。这里说的模型包括输出层和至少一个隐藏层,输出层可以包含至少一个输出节点。
如图3示,该方法包括以下步骤:步骤301,获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;步骤302,在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;步骤303,基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;步骤304,使用m条训练数据对当前模型进行增量训练,得到增量模型;步骤305,基于对增量模型的规模控制,完成模型的动态更新。
首先,在步骤301,获取对应n个新增标签的m条训练数据。可以理解,这里的单个新增标签对应至少一条训练数据,也就是说,m通常远大于n。其中,m和n都是正整数。在智能问答系统中,新增标签例如是新的标准问题或答案。
在业务更新过程中,会产生许多新的问题,例如,一个信用借款平台,新增加了贷款业务,可能出现新的标准问题:如何进行贷款操作?贷款额度怎么计算?等等。新的训练样本可能是基于用户的不同提问方式,人工标注对应的标签,即这些标准问题本身,或其对应的答案。这些把标签就是新增标签。
在一个实施例中,训练数据的收集过程可以是在实际场景中,源源不断地收集用于提取特征的相关信息。以智能问答场景为例,相关信息就是新的用户问题。新的用户问题可以被加入问题数据库,之后经过人工标注新的标签。在训练数据收集的过程中,问答模型由于未经过新数据的训练,可能无法提供符合用户需求的标签,此时,可以通过一定的判断来确定是否一个新的问题,例如各个输出节点对应的概率都小于预定阈值(如0.2),则可以结合诸如关键词匹配之类的搜索算法来为用户提供相关标准问题或答案。这样的相关信息被记录下来,之后通过人工或其他方法利用新增标签进行打标,就形成了新的训练数据。
在另一个实施例中,可以先确定新增标签(如标准问题或答案),然后通过词汇扩展或者人工经验,对新增标签进行扩展,生成可能的相关信息,从而形成新的训练数据。
可选地,上述确定新的训练数据的方法还可以结合使用。如此,可以更全面地针对新的业务逻辑收集样本。在智能问答场景中,一条训练数据可以包括用户问题和相应的新增标签,新增标签是标准问题或标准问题对应的答案。
步骤302,在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应。可以理解,在多分类模型中,新增标签可以理解为新增的分类类别。由于每个分类类别对应分类模型的输出节点,那么就相当于在输出层增加相应数量的输出节点。如图4虚线所示的输出节点,在此不再赘述。
进一步地,通过步骤303,基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点。
可以理解,在当前模型中,由于训练数据与当前模型相比,包含了新的标签,相应的用于提取特征的相关信息可能包含有新的特征,那么,如果输出层和特征层之间的隐藏层还依靠原来的节点进行增量训练,则各节点对应的节点参数调整可能更多倾向于新增标签对应的训练数据,这样,会对原有业务的分类结果产生负面的影响。
因此,为了保持模型的平衡,当出现新增标签时,还可以对隐藏层的节点进行适应性增加。这样,新增的隐藏层节点可以分担新增标签的预测,尽可能减少对原有业务对应的数据的影响。隐藏层节点的具体增加数量,可以通过预定规则来确定。根据一种实施方式,预定规则包括,在当前模型的各个隐藏层分别增加相应比例的隐藏层节点,该相应比例可以与输出节点的增加比例正相关。输出节点的增加比例,就是增加的输出节点个数与原有输出节点的个数比。具体地,对第一隐藏层,可以增加第一比例的隐藏层节点,对第二隐藏层,可以增加第二比例的隐藏层节点,以此类推。假设第一隐藏层原有输出节点个数为s,则该比例为n/s。如图4所示,n=2,s=4,则该增加比例为50%。第一比例与该增加比例正相关,也就是说,该增加比例越大,第一比例越大。例如线性正相关的情况下,第一比例=a×该增加比例+b,其中,a是一个正数。可选地,a=1,b=0,第一比例与该增加比例相同。如图4中,隐藏层原节点数量为6,适应性增加50%,即3个隐藏层节点(图中虚线所示节点),增加后为9个隐藏层节点。
根据另一个实施方式,在当前模型的各个隐藏层分别增加各个相应数量的隐藏层节点,各个相应数量分别与n的大小正相关。具体地,对第一隐藏层,增加第一数量的隐藏层节点,对第二隐藏层,增加第二数量的隐藏层节点,以此类推。第一数量和第二数量分别可以与n的大小正相关,也就是说,但就第一数量本身而言,n越大,第一数量越大。可选地,第一数量可以和第二数量相等。以第一数量为例,其可以和n之间具有一定比例,该比例例如是当前模型原有的输出节点数量与第一隐藏成的隐藏层节点的数量的比值。第一数量也可以是n的预定倍数(如2倍)。通常,单个隐藏层节点的数量多于输出节点的数量,第一数量、第二数量大于n。
在一些可选实现方式中,上述的第一数量、第二数量还可以是预先确定的数量,例如,当1≤n≤5时,第一数量是10,当6≤n≤10时,第一数量是20……
值得说明的是,上文提及的第一隐藏层、第二隐藏层可以是任意一个隐藏层,“第一”、“第二”等是为了区分不同的隐藏层,而非对隐藏层进行限定。以上描述的隐藏层具有普适性,如果当前模型仅有一个隐藏层,则可以认为该隐藏层是以上描述中的第一隐藏层,当前模型不存在第二及后续隐藏层。在隐藏层的数量有多个时,对各个隐藏层,都按照相应的预定规则增加其隐藏层节点。如此,可以对当前模型至少在分类节点结构上,完成层与层之间的一致性更新。
之后,通过步骤304,使用m条训练数据对当前模型进行增量训练,得到增量模型。在本步骤中,使用m条训练数据对当前模型进行进一步训练。一条训练数据可以包括能用于提取特征的相关信息(例如用户问题),以及与相关信息对应的新增标签(如标准问题或答案),则增量训练过程例如可以是,将当前模型作为选定的初始模型,针对各条训练数据,依次执行以下操作:
将相关信息输入特征提取网络(如bert),有特征提取网络提取相关信息语义信息,经过增加节点的隐藏层及输出层的处理,得到输出结果;
将该输出结果与对应的新增标签进行对比,调整模型参数(包括各个节点参数),使得模型的损失函数的值向着减小的方向变化。
为了描述方便,本说明书将通过增量训练的模型,称为增量模型,该名称不对具体技术内容产生限定。
值得说明的是,在将当前模型作为选定的初始模型时,为了尽可能小地对原有业务逻辑的分类产生影响,隐藏层的原有节点和输出层的原有节点可以使用当前模型中的相应参数作为初始参数,新增节点的参数可以随机初始化,或者人工指定。
本领域技术人员容易知晓,在对当前模型进行增量训练时,输出节点和隐藏层节点都根据新的业务逻辑进行了增加操作,在以上流程迭代执行过程中,如果只增加节点,一方面,模型数据越来越多,计算量越来越大,另一方面,一些被淘汰的业务逻辑涉及的节点也会对新的业务逻辑产生一定影响。因此,在步骤305,基于对增量模型的规模控制,完成模型的动态更新。可以理解,对增量模型的规模控制,也就是对输出层、隐藏层中的各个层的节点数量的控制。
根据一个可能的设计,可以检测增量模型中各个节点参数是否低于预先设定的参数阈值(如0.001),在存在低于该参数阈值的节点参数的情况下,删除节点参数低于参数阈值的各个节点。这是因为,节点参数过小的情况下,对输出结果的影响非常小,说明该节点的存在对模型分类的意义不大,可以删除。这种方式根据节点本身的意义进行筛选,是比较有效的规模控制方式。
根据另一个可能的设计,删除节点参数最低的预定个数(如2个)的节点,或者,删除节点参数最低的预定比例(如1%)的节点。这种方式可以预先确定删除节点的数量和比例。对隐藏层和输出层的各个层中,可以分别设定不同的预定个数或预定比例。设定的预定个数或预定比例可以一直使用,也可以在确定好新增标签的数量后修改,在此不做限定。
根据再一个可能的设计,在隐藏层或者输出层的节点数量超过相应层节点数量阈值的情况下,在相应层删除节点参数最低的至少一个节点,所删除的节点的数量为相应层当前总节点数量与相应层节点数量阈值的差值。这种方式中,对各个层都可以预先设定有相应的层节点数量阈值,例如隐藏层的层节点数量阈值为5000,当增量模型的隐藏层节点为5020个时,删除该层节点参数最低的20个节点。
作为示例,请参考图5所示,经过规模控制,得到的最终模型可以如图5所示。该模型与图4的模型相比,淘汰了一部分节点。可以理解,在一些设计方式中,如果删除节点的条件不满足,在当前次模型更新过程中还可以不删除任何节点。
其中,图3示出的对模型进行动态更新的方法的流程可以按照预定时间周期T(例如一个月)执行,也可以经过人工触发,由计算机执行。在人工触发执行的情况下,可以根据实际情况确定执行周期。例如,当前时间段业务更新频繁,可以1周执行一次模型更新,下一时间段业务更新频率较低,可以2个月执行一次模型更新。通过图3示出的流程的迭代执行,可以实现模型的终身学习。
回顾以上过程,在模型更新过程中,一方面,根据新增标签在模型的输出层增加相应数量的输出节点,然后适应性地为隐藏层增加节点,并对当前模型进行增量训练,另一方面,对经过增量训练的模型进行规模控制,避免其无限增长。通过节点的动态更新,实现网格结构的动态更新,使得模型不断实行新的业务逻辑,抛弃旧的业务逻辑,可以提高模型更新的效率和模型的有效性。在实际智能客服场景的实验中,模型更新频率为2周的情况下,智能客服向在线人工的转移率可以降低0.5%。
根据另一方面的实施例,还提供一种对模型进行动态更新的装置。这里的模型包括输出层和至少一个隐藏层,输出层包含至少一个输出节点。对模型进行动态更新的装置600包括:获取单元61,配置为获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;第一添加单元62,配置为在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;第二添加单元63,配置为基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;增量训练单元64,配置为使用m条训练数据对当前模型进行增量训练,得到增量模型;规模控制单元65,配置为基于对增量模型的规模控制,完成模型的动态更新。
在智能问答场景中,单条训练数据可以包括,用户问题和相应的新增标签,新增标签是标准问题或标准问题对应的答案。
根据在一个实施方式,当前模型包括第一隐藏层,预定规则可以包括以下至少一项:
在第一隐藏层增加第一比例的隐藏层节点,第一比例与输出节点的增加比例正相关;
在第一隐藏层增加第一数量的隐藏层节点,第一数量与n的大小正相关。
在一个实施例中,增量训练单元64进一步配置为:
针对m条训练数据,依次执行以下操作:
利用特征提取网络处理训练数据中的特征相关信息,提取特征相关信息中的语义特征,并将语义特征输入增加节点后的隐藏层及输出层,得到输出结果;
将输出结果与对应的新增标签进行对比,至少调整增加节点后的隐藏层及输出层中的各个节点参数,从而得到增量模型。
在进一步的实施例中,装置600还包括,参数初始化单元(未示出),配置为在增量训练单元64使用m条训练数据对当前模型进行增量训练,得到增量模型之前,对各个节点参数进行初始化;
其中,对增加的n个输出节点和增加的隐藏层节点,分别随机初始化相应的节点参数,其他节点沿用在当前模型中节点参数。
根据一个可能的设计,规模控制单元65还配置为:
检测各个节点参数是否低于预先设定的参数阈值;
在存在低于参数阈值的节点参数的情况下,删除节点参数低于参数阈值的各个节点。
根据另一个可能的设计,规模控制单元65还配置为:
删除节点参数最低的预定个数的节点;或者
删除节点参数最低的预定比例的节点。
根据再一个可能的设计,规模控制单元65还配置为:
在隐藏层或者输出层的节点数量超过相应层节点数量阈值的情况下,在相应层删除节点参数最低的至少一个节点,所删除的节点的数量为相应层当前总节点数量与相应层节点数量阈值的差值。
值得说明的是,图6示出的装置600与图3示出的方法实施例相对应,前文针对图3的藐视同样适应图6示出的装置600,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行结合图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,存储器中存储有可执行代码,处理器执行可执行代码时,实现结合图3的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。
Claims (18)
1.一种对模型进行动态更新的方法,所述模型包括输出层和至少一个隐藏层,所述输出层包含至少一个输出节点,所述方法包括:
获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;
在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;
基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;
使用所述m条训练数据对当前模型进行增量训练,得到增量模型;
基于对所述增量模型的规模控制,完成模型的动态更新。
2.根据权利要求1所述的方法,其中,在智能问答场景中,单条训练数据包括,用户问题和相应的新增标签,新增标签是标准问题或标准问题对应的答案。
3.根据权利要求1所述的方法,其中,所述至少一个隐藏层包括第一隐藏层,所述预定规则包括以下至少一项:
在所述第一隐藏层增加第一比例的隐藏层节点,所述第一比例与输出节点的增加比例正相关;
在所述第一隐藏层增加第一数量的隐藏层节点,所述第一数量与n的大小正相关。
4.根据权利要求1所述的方法,其中,所述使用所述m条训练数据对当前模型进行增量训练,得到增量模型包括:
针对m条训练数据,依次执行以下操作:
利用特征提取网络处理训练数据中的特征相关信息,提取特征相关信息中的语义特征,并将所述语义特征输入增加节点后的隐藏层及输出层,得到输出结果;
将所述输出结果与对应的新增标签进行对比,至少调整增加节点后的隐藏层及输出层中的各个节点参数,从而得到增量模型。
5.根据权利要求4所述的方法,其中,所述使用所述m条训练数据对当前模型进行增量训练,得到增量模型之前,还包括:
对各个节点参数进行初始化;
其中,对增加的n个输出节点和增加的隐藏层节点,分别随机初始化相应的节点参数,其他节点沿用其在所述当前模型中相应的节点参数。
6.根据权利要求4所述的方法,其中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:
检测各个节点参数是否低于预先设定的参数阈值;
在存在低于所述参数阈值的节点参数的情况下,删除节点参数低于所述参数阈值的各个节点。
7.根据权利要求4所述的方法,其中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:
删除节点参数最低的预定个数的节点;或者
删除节点参数最低的预定比例的节点。
8.根据权利要求4所述的方法,其中,所述基于对所述增量模型的规模控制,完成模型的动态更新包括:
在隐藏层或者输出层的节点数量超过相应层节点数量阈值的情况下,在相应层删除节点参数最低的至少一个节点,所删除的节点的数量为相应层当前总节点数量与相应层节点数量阈值的差值。
9.一种对模型进行动态更新的装置,所述模型包括输出层和至少一个隐藏层,所述输出层包含至少一个输出节点,所述装置包括:
获取单元,配置为获取对应n个新增标签的m条训练数据,单个新增标签对应至少一条训练数据,m大于n;
第一添加单元,配置为在当前模型的输出层添加n个输出节点,其中,n个输出节点与n个新增标签一一对应;
第二添加单元,配置为基于输出层增加的n个输出节点,在当前模型的各个隐藏层分别按照预定规则增加至少一个隐藏层节点;
增量训练单元,配置为使用所述m条训练数据对当前模型进行增量训练,得到增量模型;
规模控制单元,配置为基于对所述增量模型的规模控制,完成模型的动态更新。
10.根据权利要求9所述的装置,其中,在智能问答场景中,单条训练数据包括,用户问题和相应的新增标签,新增标签是标准问题或标准问题对应的答案。
11.根据权利要求9所述的装置,其中,所述至少一个隐藏层包括第一隐藏层,所述预定规则包括以下至少一项:
在所述第一隐藏层增加第一比例的隐藏层节点,所述第一比例与输出节点的增加比例正相关;
在所述第一隐藏层增加第一数量的隐藏层节点,所述第一数量与n的大小正相关。
12.根据权利要求9所述的装置,其中,所述增量训练单元进一步配置为:
针对m条训练数据,依次执行以下操作:
利用特征提取网络处理训练数据中的特征相关信息,提取特征相关信息中的语义特征,并将所述语义特征输入增加节点后的隐藏层及输出层,得到输出结果;
将所述输出结果与对应的新增标签进行对比,至少调整增加节点后的隐藏层及输出层中的各个节点参数,从而得到增量模型。
13.根据权利要求12所述的装置,其中,所述装置还包括,参数初始化单元,配置为在所述增量训练单元使用所述m条训练数据对当前模型进行增量训练,得到增量模型之前:
对各个节点参数进行初始化;
其中,对增加的n个输出节点和增加的隐藏层节点,分别随机初始化相应的节点参数,其他节点沿用其在所述当前模型中相应的节点参数。
14.根据权利要求12所述的装置,其中,所述规模控制单元还配置为:
检测各个节点参数是否低于预先设定的参数阈值;
在存在低于所述参数阈值的节点参数的情况下,删除节点参数低于所述参数阈值的各个节点。
15.根据权利要求12所述的装置,其中,所述规模控制单元还配置为:
删除节点参数最低的预定个数的节点;或者
删除节点参数最低的预定比例的节点。
16.根据权利要求12所述的装置,其中,所述规模控制单元还配置为:
在隐藏层或者输出层的节点数量超过相应层节点数量阈值的情况下,在相应层删除节点参数最低的至少一个节点,所删除的节点的数量为相应层当前总节点数量与相应层节点数量阈值的差值。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910942780.4A CN110689359A (zh) | 2019-09-30 | 2019-09-30 | 对模型进行动态更新的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910942780.4A CN110689359A (zh) | 2019-09-30 | 2019-09-30 | 对模型进行动态更新的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110689359A true CN110689359A (zh) | 2020-01-14 |
Family
ID=69111095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910942780.4A Pending CN110689359A (zh) | 2019-09-30 | 2019-09-30 | 对模型进行动态更新的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689359A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429215A (zh) * | 2020-03-18 | 2020-07-17 | 北京互金新融科技有限公司 | 数据的处理方法和装置 |
CN112966739A (zh) * | 2021-03-04 | 2021-06-15 | 南方科技大学 | 图像分类模型自学习的方法、装置、电子设备及存储介质 |
CN113496282A (zh) * | 2020-04-02 | 2021-10-12 | 北京金山数字娱乐科技有限公司 | 一种模型训练方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789593A (zh) * | 2012-06-18 | 2012-11-21 | 北京大学 | 基于增量式ghsom神经网络的入侵检测方法 |
CN104572998A (zh) * | 2015-01-07 | 2015-04-29 | 北京云知声信息技术有限公司 | 用于自动问答系统的问答排序模型更新方法及装置 |
CN104598552A (zh) * | 2014-12-31 | 2015-05-06 | 大连钜正科技有限公司 | 一种支持增量式更新的大数据特征学习的方法 |
CN104915566A (zh) * | 2015-06-17 | 2015-09-16 | 大连理工大学 | 一种支持增量更新的深度计算模型设计方法 |
CN106529568A (zh) * | 2016-10-11 | 2017-03-22 | 浙江工业大学 | 一种基于bp神经网络的珍珠多分类方法 |
CN108009635A (zh) * | 2017-12-25 | 2018-05-08 | 大连理工大学 | 一种支持增量更新的深度卷积计算模型 |
CN109829541A (zh) * | 2019-01-18 | 2019-05-31 | 上海交通大学 | 基于学习自动机的深度神经网络增量式训练方法及系统 |
-
2019
- 2019-09-30 CN CN201910942780.4A patent/CN110689359A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789593A (zh) * | 2012-06-18 | 2012-11-21 | 北京大学 | 基于增量式ghsom神经网络的入侵检测方法 |
CN104598552A (zh) * | 2014-12-31 | 2015-05-06 | 大连钜正科技有限公司 | 一种支持增量式更新的大数据特征学习的方法 |
CN104572998A (zh) * | 2015-01-07 | 2015-04-29 | 北京云知声信息技术有限公司 | 用于自动问答系统的问答排序模型更新方法及装置 |
CN104915566A (zh) * | 2015-06-17 | 2015-09-16 | 大连理工大学 | 一种支持增量更新的深度计算模型设计方法 |
CN106529568A (zh) * | 2016-10-11 | 2017-03-22 | 浙江工业大学 | 一种基于bp神经网络的珍珠多分类方法 |
CN108009635A (zh) * | 2017-12-25 | 2018-05-08 | 大连理工大学 | 一种支持增量更新的深度卷积计算模型 |
CN109829541A (zh) * | 2019-01-18 | 2019-05-31 | 上海交通大学 | 基于学习自动机的深度神经网络增量式训练方法及系统 |
Non-Patent Citations (2)
Title |
---|
张清辰: ""面向大数据特征学习的深度计算模型研究"", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
张清辰: ""面向大数据特征学习的深度计算模型研究"", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》, no. 03, 15 March 2017 (2017-03-15), pages 1 - 5 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429215A (zh) * | 2020-03-18 | 2020-07-17 | 北京互金新融科技有限公司 | 数据的处理方法和装置 |
CN111429215B (zh) * | 2020-03-18 | 2023-10-31 | 北京互金新融科技有限公司 | 数据的处理方法和装置 |
CN113496282A (zh) * | 2020-04-02 | 2021-10-12 | 北京金山数字娱乐科技有限公司 | 一种模型训练方法及装置 |
CN112966739A (zh) * | 2021-03-04 | 2021-06-15 | 南方科技大学 | 图像分类模型自学习的方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11934956B2 (en) | Regularizing machine learning models | |
US11669744B2 (en) | Regularized neural network architecture search | |
Perez et al. | Dialog state tracking, a machine reading approach using memory network | |
US20210019599A1 (en) | Adaptive neural architecture search | |
US20220121906A1 (en) | Task-aware neural network architecture search | |
US11922281B2 (en) | Training machine learning models using teacher annealing | |
US20220092416A1 (en) | Neural architecture search through a graph search space | |
US20120095943A1 (en) | System for training classifiers in multiple categories through active learning | |
CN110689359A (zh) | 对模型进行动态更新的方法及装置 | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN110069612B (zh) | 一种回复生成方法及装置 | |
CN110516057B (zh) | 一种信访问题答复方法及装置 | |
CN116226334A (zh) | 生成式大语言模型训练方法以及基于模型的搜索方法 | |
CN111858854A (zh) | 一种基于历史对话信息的问答匹配方法及相关装置 | |
CN113778871A (zh) | Mock测试方法、装置、设备及存储介质 | |
CN115130711A (zh) | 一种数据处理方法、装置、计算机及可读存储介质 | |
CN113785314A (zh) | 使用标签猜测对机器学习模型进行半监督训练 | |
CN111666400A (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN116861258B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN112818084B (zh) | 信息交互方法、相关装置、设备及计算机可读介质 | |
CN111159397B (zh) | 文本分类方法和装置、服务器 | |
WO2021159099A9 (en) | Searching for normalization-activation layer architectures | |
CN113761874A (zh) | 事件事实性预测方法、装置、电子设备与存储介质 | |
US20230376755A1 (en) | Training neural network systems to perform multiple machine learning tasks | |
CN113792163B (zh) | 多媒体推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |