CN111695670A - 神经网络模型训练方法及装置 - Google Patents

神经网络模型训练方法及装置 Download PDF

Info

Publication number
CN111695670A
CN111695670A CN201910180414.XA CN201910180414A CN111695670A CN 111695670 A CN111695670 A CN 111695670A CN 201910180414 A CN201910180414 A CN 201910180414A CN 111695670 A CN111695670 A CN 111695670A
Authority
CN
China
Prior art keywords
neural network
network model
correction
training
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910180414.XA
Other languages
English (en)
Other versions
CN111695670B (zh
Inventor
徐佳宏
朱吕亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ipanel TV Inc
Original Assignee
Shenzhen Ipanel TV Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ipanel TV Inc filed Critical Shenzhen Ipanel TV Inc
Priority to CN201910180414.XA priority Critical patent/CN111695670B/zh
Publication of CN111695670A publication Critical patent/CN111695670A/zh
Application granted granted Critical
Publication of CN111695670B publication Critical patent/CN111695670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的神经网络模型训练方法,获取在指定应用场景下采集到的实际数据,作为目标数据;利用第一神经网络模型,获取与所述目标数据相匹配的识别结果;所述第一神经网络模型为,以预设的采集数据作为训练样本进行训练得到的神经网络模型;获取用户针对所述识别结果输入的修正结果;根据所述目标数据与所述修正结果,生成与所述指定应用场景相匹配的样本数据,作为修正样本数据;基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型,相较于第一神经网络模型,修正后的第二神经网络模型,能够充分提高指定应用场景下数据识别的准确性。

Description

神经网络模型训练方法及装置
技术领域
本发明涉及人工智能技术领域,更具体的说,涉及神经网络模型训练方法及装置。
背景技术
近年来,云服务资源已经成为数字化和人工智能时代的核心组件。云服务结合人工神经网络,可以为人们提供大量的人工智能服务。
现有的云服务方式,在提供人工智能服务时,通常是先采集大量的数据样本,再搭建合适的神经网络模型,然后利用采集到的大量数据样本,对神经网络模型进行训练,最后利用训练好的神经网络模型,对实际采集到的数据进行智能识别。但是,云服务面向的数据类型并不都是相同的,而现有的技术方案,通常是无差别的获取大量的数据来制作训练样本,使得训练完成的神经网络模型,无法很好地针对不同应用场景下的数据进行精准识别,数据识别准确率较低。
因此,目前迫切需要一种切实有效的神经网络模型训练方案,以提高神经网络模型的数据识别准确率。
发明内容
有鉴于此,本发明提供了一种神经网络模型训练方法及装置,以解决目前神经网络模型的识别准确率较低的技术问题。
为实现上述目的,本发明提供如下技术方案:
一种神经网络模型训练方法,所述方法包括:
获取在指定应用场景下采集到的实际数据,作为目标数据;
利用第一神经网络模型,获取与所述目标数据相匹配的识别结果;所述第一神经网络模型为,以预设的采集数据作为训练样本进行训练得到的神经网络模型;
获取用户针对所述识别结果输入的修正结果;
根据所述目标数据与所述修正结果,生成与所述指定应用场景相匹配的样本数据,作为修正样本数据;
基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
优选的,所述指定应用场景至少包括第一指定应用场景与第二指定应用场景,所述第一指定应用场景与所述第二指定应用场景不同;所述修正样本数据至少包括:与所述第一指定应用场景相匹配的第一修正样本数据,以及与所述第二指定应用场景相匹配的第二修正样本数据;相应的,所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型包括:
基于所述第一神经网络模型,生成第三神经网络模型与第四神经网络模型;所述第三神经网络模型以及所述第四神经网络模型与所述第一神经网络模型相同;
基于所述第一修正样本数据,对所述第三神经网络模型进行修正训练,得到第五神经网络模型;
基于所述第二修正样本数据,对所述第四神经网络模型进行修正训练,得到第六神经网络模型;
其中,所述第二神经网络模型包括所述第五神经网络模型与所述第六神经网络模型。
优选的,所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型包括:
按照预设的样本组合比例,将所述修正样本数据与所述预设的采集数据进行组合,获得组合样本数据;
将所述组合样本数据作为训练样本,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
优选的,在所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型之后,所述方法还包括:
将所述第二神经网络模型作为所述第一神经网络模型,再次执行所述获取在指定应用场景下采集到的实际数据,作为目标数据的步骤。
优选的,所述方法还包括:
按照第一预设时间周期,检测是否有新的修正样本数据产生;
当检测到有新的修正样本数据产生时,执行所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型的步骤;
按照第二预设时间周期,检测是否有新的第二神经网络模型被训练生成;
当检测到有新的第二神经网络模型被训练生成时,执行所述将所述第二神经网络模型作为所述第一神经网络模型的步骤。
一种神经网络模型训练装置,所述装置包括:
场景数据获取单元,用于获取在指定应用场景下采集到的实际数据,作为目标数据;
识别结果获取单元,用于利用第一神经网络模型,获取与所述目标数据相匹配的识别结果;所述第一神经网络模型为,以预设的采集数据作为训练样本进行训练得到的神经网络模型;
修正结果获取单元,用于获取用户针对所述识别结果输入的修正结果;
修正样本生成单元,用于根据所述目标数据与所述修正结果,生成与所述指定应用场景相匹配的样本数据,作为修正样本数据;
模型修正训练单元,用于基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
优选的,所述指定应用场景至少包括第一指定应用场景与第二指定应用场景,所述第一指定应用场景与所述第二指定应用场景不同;所述修正样本数据至少包括:与所述第一指定应用场景相匹配的第一修正样本数据,以及与所述第二指定应用场景相匹配的第二修正样本数据;相应的,所述模型修正训练单元包括:
网络模型分裂单元,用于基于所述第一神经网络模型,生成第三神经网络模型与第四神经网络模型;所述第三神经网络模型以及所述第四神经网络模型与所述第一神经网络模型相同;
第一模型训练单元,用于基于所述第一修正样本数据,对所述第三神经网络模型进行修正训练,得到第五神经网络模型;
第二模型训练单元,用于基于所述第二修正样本数据,对所述第四神经网络模型进行修正训练,得到第六神经网络模型;
其中,所述第二神经网络模型包括所述第五神经网络模型与所述第六神经网络模型。
优选的,所述模型修正训练单元包括:
组合样本获取单元,用于按照预设的样本组合比例,将所述修正样本数据与所述预设的采集数据进行组合,获得组合样本数据;
组合修正训练单元,用于将所述组合样本数据作为训练样本,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
优选的,所述装置还包括:
持续进化控制单元,用于在所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型之后,将所述第二神经网络模型作为所述第一神经网络模型,再次执行所述获取在指定应用场景下采集到的实际数据,作为目标数据的步骤。
优选的,所述装置还包括:
修正样本检测单元,用于按照第一预设时间周期,检测是否有新的修正样本数据产生;
所述模型修正训练单元,还用于当检测到有新的修正样本数据产生时,执行所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型的步骤;
修正模型检测单元,用于按照第二预设时间周期,检测是否有新的第二神经网络模型被训练生成;
所述持续进化控制单元,还用于当检测到有新的第二神经网络模型被训练生成时,执行所述将所述第二神经网络模型作为所述第一神经网络模型的步骤。
从上述的技术方案可以看出,本发明提供的神经网络模型训练方法,获取在指定应用场景下采集到的实际数据,作为目标数据;利用第一神经网络模型,获取与目标数据相匹配的识别结果;获取用户针对识别结果输入的修正结果;根据目标数据与修正结果,生成与指定应用场景相匹配的样本数据,作为修正样本数据;基于修正样本数据,对第一神经网络模型进行修正训练,得到第二神经网络模型,相较于第一神经网络模型,修正后的第二神经网络模型,能够充分提高指定应用场景下数据识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的神经网络模型训练方法的一种流程图;
图2为本发明实施例提供的神经网络模型训练方法的另一种流程图;
图3为本发明实施例提供的神经网络模型分裂训练过程的示意图;
图4为本发明实施例提供的神经网络模型训练方法的又一种流程图;
图5为本发明实施例提供的神经网络模型训练过程的示意图;
图6为本发明实施例提供的神经网络模型训练方法的再一种流程图;
图7为本发明实施例提供的面向文字识别的模型训练过程的示例图;
图8为本发明实施例提供的面向文字识别的模型分裂过程的示例图;
图9为本发明实施例提供的面向文字识别的识别结果的示例图;
图10为本发明实施例提供的面向文字识别的修正结果的示例图;
图11为本发明实施例提供的神经网络模型训练装置的一种结构示意图;
图12为本发明实施例提供的神经网络模型训练装置的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的神经网络模型训练方法及装置,可应用于人工智能云服务,并可针对不同的应用场景,利用与指定应用场景相匹配的样本数据,对初步训练完成的神经网络模型再次进行修正训练,得到修正后的神经网络模型,使修正后的神经网络模型具有更高的数据识别准确率,旨在让人工智能服务更好地满足客户的需求,更好地匹配客户的应用场景。
请参阅图1,图1为本发明实施例提供的神经网络模型训练方法的一种流程图。
如图1所示,本实施例的神经网络模型训练方法包括:
S101:获取在指定应用场景下采集到的实际数据,作为目标数据。
目标数据是指,需要使用神经网络模型进行识别的数据,例如,图片中的文字。
应用场景是指,实际数据源于的具体场景,例如,新闻图片、影视字幕、广告图片等。其中,指定应用场景是指,用户或系统指定的任一应用场景。
S102:利用第一神经网络模型,获取与所述目标数据相匹配的识别结果。
所述第一神经网络模型为,以预设的采集数据作为训练样本进行训练得到的神经网络模型。
其中,预设的采集数据是指,按照默认的方式进行采集的数据。通常情况下,预设的采集数据并未对不同的应用场景进行区分,其本质属于是在应用场景方面无差别的数据,可用于实现第一神经网络模型的初步训练,以保证模型识别的公共逻辑是准确的。
另外,将获取到的目标数据,作为第一神经网络模型的输入,输入到第一神经网络模型中,第一神经网络模型就会输出与所述目标数据相匹配的识别结果。
S103:获取用户针对所述识别结果输入的修正结果。
由于第一神经网络模型是以预设的采集数据作为训练样本进行训练得到的,所以,第一神经网络模型输出的识别结果,也只能保证公共逻辑的准确性,而并不能保证在针对指定应用场景的目标数据进行识别时的识别结果的准确性,所以,本发明在为用户提供人工智能云服务的同时,还可以为用户提供一个人工的结果修正系统,在输出与目标数据相匹配的识别结果后,用户可以通过这一人工的结果修正系统对相应的识别结果进行修正,进而可以获取到用户针对识别结果输入的修正结果。
S104:根据所述目标数据与所述修正结果,生成与所述指定应用场景相匹配的样本数据,作为修正样本数据。
修正结果是用户人工修正出来的,是目标数据的最准确的识别结果,将修正结果作为目标数据的标注信息,便可以得到与所述指定应用场景相匹配的样本数据。
其中,与所述指定应用场景相匹配的样本数据,可作为修正神经网络模型所需的样本数据,即,修正样本数据。
一示例中,修正样本数据,除了可以是基于用户输入的修正结果实时生成的以外,也可以是直接采用用户预先配置好的且与指定应用场景相匹配的修正样本数据。例如,可预先定义一种通用的数据格式,以兼容用户预先配置好的修正样本数据的数据格式。
S105:基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
其中,预设的采集数据,可用于保证第一神经网络模型的公共逻辑的准确性;而修正样本数据,可用于保证第二神经网络模型能够更好地匹配指定应用场景。
本实施例提供的神经网络模型训练方法,获取在指定应用场景下采集到的实际数据,作为目标数据;利用第一神经网络模型,获取与目标数据相匹配的识别结果;获取用户针对识别结果输入的修正结果;根据目标数据与修正结果,生成与指定应用场景相匹配的样本数据,作为修正样本数据;基于修正样本数据,对第一神经网络模型进行修正训练,得到第二神经网络模型,相较于第一神经网络模型,修正后的第二神经网络模型,能够充分提高指定应用场景下数据识别的准确性。
请参阅图2,图2为本发明实施例提供的神经网络模型训练方法的另一种流程图。
在本实施例中,指定应用场景至少可包括第一指定应用场景与第二指定应用场景,其中,第一指定应用场景与第二指定应用场景不同;修正样本数据至少可包括:与第一指定应用场景相匹配的第一修正样本数据,以及与第二指定应用场景相匹配的第二修正样本数据。
如图2所示,本实施例的神经网络模型训练方法包括:
S201:获取在第一指定应用场景下采集到的实际数据,作为第一目标数据。
S202:获取在第二指定应用场景下采集到的实际数据,作为第二目标数据。
不同的应用场景具有不同的特点,为了使训练出来的神经网络模型能够与某个具体的应用场景更加匹配,本发明针对不同的应用场景,分别获取相应的目标数据。
S203:利用第一神经网络模型,获取与第一目标数据相匹配的第一识别结果。
S204:利用第一神经网络模型,获取与第二目标数据相匹配的第二识别结果。
S205:获取用户针对第一识别结果输入的第一修正结果。
S206:获取用户针对第二识别结果输入的第二修正结果。
S207:根据第一目标数据与第一修正结果,生成与第一指定应用场景相匹配的样本数据,作为第一修正样本数据。
S208:根据第二目标数据与第二修正结果,生成与第二指定应用场景相匹配的样本数据,作为第二修正样本数据。
S209:基于第一神经网络模型,生成第三神经网络模型与第四神经网络模型。
第三神经网络模型以及第四神经网络模型与第一神经网络模型相同。
基于第一神经网络模型,生成第三神经网络模型与第四神经网络模型,相当于是,将第一神经网络模型分裂成第三神经网络模型与第四神经网络模型,其中,第三神经网络模型以及第四神经网络模型与第一神经网络模型完全相同。第三神经网络模型以及第四神经网络模型,实际上也是第一神经网络模型的两个副本。
或者,也可以为第一神经网络模型只创建一个副本,将这个副本作为第三神经网络模型,并将原来的第一神经网络模型作为第四神经网络模型,这样也是可以的,具体可根据需求进行灵活设计。
S210:基于第一修正样本数据,对第三神经网络模型进行修正训练,得到第五神经网络模型。
S211:基于第二修正样本数据,对第四神经网络模型进行修正训练,得到第六神经网络模型。
在将第一神经网络模型分裂成第三神经网络模型与第四神经网络模型之后,利用不同的指定应用场景各自匹配的修正样本数据,分别对第三神经网络模型与第四神经网络模型进行修正训练,得到第五神经网络模型与第六神经网络模型,具体的神经网络模型分裂训练过程可如图3所示,其中,图3中未示出初始训练完的第一神经网络模型以及修正训练完的第四、第五神经网络模型;预设神经网络模型是指还未被训练的神经网络模型。
分裂训练后得到的第五神经网络模型与第一指定应用场景更加匹配,能够提高第一指定应用场景下的数据识别准确率;而分裂训练后得到的第六神经网络模型与第二指定应用场景更加匹配,能够提高第二指定应用场景下的数据识别准确率。
其中,第二神经网络模型,即包括第五神经网络模型与第六神经网络模型。
本实施例中,仅以第一指定应用场景与第二指定应用场景这两种不同的应用场景为例,但是,本发明并不仅仅局限于两种不同的应用场景的数据识别,本发明还可以针对三种、四种,甚至更多种的不同指定应用场景,来修正训练与不同指定应用场景相适配的神经网络模型,以提高更多种不同指定应用场景下的数据识别准确率。
本实施例提供的神经网络模型训练方法,首先获取多个不同指定应用场景下的多个不同的目标数据,然后利用第一神经网络模型,获取与多个不同的目标数据相匹配的不同的识别结果;然后获取用户针对不同识别结果输入的不同修正结果;再根据相对应的目标数据与修正结果,生成适配不同指定应用场景的不同的修正样本数据;然后基于第一神经网络模型,生成与其相同的多个神经网络模型,最后基于不同的修正样本数据,对生成的多个神经网络模型分别进行修正训练,从而得到与不同指定应用场景相适配的不同的神经网络模型,进一步提高了不同指定应用场景下数据识别的精准性。
请参阅图4,图4为本发明实施例提供的神经网络模型训练方法的又一种流程图。
如图4所示,本实施例的神经网络模型训练方法包括:
S301:获取在指定应用场景下采集到的实际数据,作为目标数据。
S302:利用第一神经网络模型,获取与所述目标数据相匹配的识别结果。
S303:获取用户针对所述识别结果输入的修正结果。
S304:根据所述目标数据与所述修正结果,生成与所述指定应用场景相匹配的样本数据,作为修正样本数据。
其中,步骤S301~S302与前述实施例中的步骤S101~S104相类似,在此不再赘述。
S305:按照预设的样本组合比例,将所述修正样本数据与所述预设的采集数据进行组合,获得组合样本数据。
利用采用修正结果标注的样本数据,与预设的采集数据进行混合,能够得到组合样本数据。
在获取组合样本数据时,需要设定一个样本组合比例,该样本组合比例可以看做是神经网络模型的一个超参,具体比例值可结合试验进行调整。在一示例中,预设的样本组合比例可以是1:10,或者是1:9。
S306:将所述组合样本数据作为训练样本,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
将所述组合样本数据作为训练样本,对第一神经网络模型再次进行训练,具体可如图5所示,最后能够得到修正后的第二神经网络模型。图5中未示出修正训练完的第二神经网络模型。
如果仅使用修正样本数据对第一神经网络模型进行修正训练,会存在两个问题:一是模型可能会发生比较严重的偏向,另一个是修正样本数据的数据量一般有限,不足以训练一个完整的模型。所以,本实施例使用由修正样本数据与预设的采集数据组成的组合样本数据,来对第一神经网络模型进行训练,使得训练得到的第二神经网络模型,能够在保证神经网络模型公共逻辑的基础上,提高神经网络模型对指定应用场景的适配性,提高指定应用场景下数据识别的准确率,并可避免模型发生较为严重的偏向,或因样本数据量不足难以完成模型训练的问题。
一示例中,在得到第二神经网络模型之后,所述方法还可包括:
将所述第二神经网络模型作为所述第一神经网络模型,再次执行所述获取在指定应用场景下采集到的实际数据,作为目标数据的步骤,从而形成一个如图5中右下方所示的循环修正训练的过程。
本实施例提供的神经网络模型训练方法,在根据目标数据与修正结果,生成与指定应用场景相匹配的样本数据,作为修正样本数据之后,按照预设的样本组合比例,将修正样本数据与预设的采集数据进行组合,获得组合样本数据;将组合样本数据作为训练样本,对第一神经网络模型进行修正训练,得到第二神经网络模型,能够在保证神经网络模型公共逻辑的基础上,提高神经网络模型对指定应用场景的适配性,提高指定应用场景下数据识别的准确率。并且,在得到第二神经网络模型之后,还可以将第二神经网络模型作为第一神经网络模型,再次执行获取在指定应用场景下采集到的实际数据,作为目标数据的步骤,从而实现模型的循环修正训练过程,使第二神经网络模型的数据识别准确率不断提升。
请参阅图6,图6为本发明实施例提供的神经网络模型训练方法的再一种流程图。
本实施例的神经网络模型训练方法,是在前述实施例提供的神经网络模型训练方法的基础上提出的,作为对前述实施例的神经网络模型训练方法的进一步优化与补充。
如图6所示,本实施例的神经网络模型训练方法包括:
S401:按照第一预设时间周期,检测是否有新的修正样本数据产生。
神经网络模型的修正训练会持续进行,在修正训练的过程中,也会周期性地检查是否有新的修正样本数据产生。
其中,第一预设时间周期,可以是一个星期,也可以是几分钟,具体可根据需求进行灵活设定。
S402:当检测到有新的修正样本数据产生时,执行基于修正样本数据,对第一神经网络模型进行修正训练,得到第二神经网络模型的步骤。
也就是说,当按照第一预设时间周期,检测到有新的修正样本数据产生时,便可以进入到神经网络模型的修正训练环节,来触发第一神经网络模型的修正训练,以得到第二神经网络模型。
S403:按照第二预设时间周期,检测是否有新的第二神经网络模型被训练生成。
其中,第二预设时间周期,可以是第一神经网络模型经过M次修正训练所花费的时长,M为预设值。
S404:当检测到有新的第二神经网络模型被训练生成时,执行将第二神经网络模型作为第一神经网络模型的步骤。
也就是说,当按照第二预设时间周期,检测到有新的第二神经网络模型被训练生成时,则将第二神经网络模型作为第一神经网络模型,重新执行整个数据识别与模型修正训练的过程,使神经网络模型的数据识别与修正训练过程持续地循环执行,使神经网络模型不断地进化。
其中,第一预设时间周期与第二预设时间周期越小,越能及时反映模型或数据的变化,但也会消耗较多计算资源,所以,以上时间周期的设定,需要在模型进化的实时性与消耗的计算资源之间进行权衡。
在实际应用中,理想的状态是:只有在模型修正训练的初期,才需要较多的人工修正过程;在模型修正训练的后期,组合样本数据中源于指定应用场景的修正样本数据越来越多,神经网络模型在公共逻辑的基础上,已经学习到了指定应用场景下实际数据的专有规则,此时,可以将人工修正系统变更为人工确认系统,即,只需要用户对识别结果进行确认,而无需用户对识别结果再进行修正处理。
本实施例提供的神经网络模型训练方法,按照第一预设时间周期,检测是否有新的修正样本数据产生;当检测到有新的修正样本数据产生时,执行基于修正样本数据,对第一神经网络模型进行修正训练,得到第二神经网络模型的步骤;按照第二预设时间周期,检测是否有新的第二神经网络模型被训练生成;当检测到有新的第二神经网络模型被训练生成时,执行将第二神经网络模型作为第一神经网络模型的步骤,从而使神经网络模型的数据识别与修正训练过程持续地循环执行,使神经网络模型不断地进化,提高了神经网络模型的智能化水平,并进一步提高了神经网络模型数据识别的准确性。
请参与图7~10,图7~10为本发明实施例提供的面向文字识别的模型训练过程、模型分裂过程、识别结果以及修正结果的示例图。
本实施例以面向文字识别为例,来介绍本发明的神经网络模型训练方案。
由于实际采集数据的成本太高,所以可以采用程序合成的方式来生成模拟数据,作为预设的采集数据。其中,用于合成模拟数据的内容可包括图片、字库与文本,其中,图片作为样本数据,文本作为图片的标注信息,字库用于对不同的字体进行支持,以生成不同字体的样本用例。
如图7所示,在利用程序合成的模拟数据作为训练样本,对神经网络模型进行初步训练后,对新闻图片的实际数据识别效果很差,所以在得到识别结果之后,需要用户对识别结果进行修正,利用修正结果对新闻图片的实际数据进行人工标注,得到修正样本数据。
在得到修正样本数据后,将修正样本数据与之前的模拟数据进行组合,得到组合样本数据,然后利用组合样本数据对神经网络模型进行修正训练,得到新的神经网络模型。
利用新的神经网络模型,继续对新闻图片的实际数据进行识别,并继续采用新的组合样本数据对神经网络模型进行修正训练,使数据识别过程与修正训练过程形成一个循环,使模型能够持续地进化。
文字识别的两个典型的不同应用场景为新闻图片和影视字幕,相应的,模型分裂过程可如图8所示。
在利用模拟数据完成模型训练后,将训练好的模型直接分裂成相互独立的第一模型与第二模型,其中,第一模型面向新闻图片场景,第二模型面向影视字幕场景,然后在针对不同的模型,采用相应应用场景下的组合样本数据进行分别训练,使第一模型更加适配新闻图片场景的数据识别,使第二模型更加适配影视字幕场景的数据识别,两个模型独立生长、进化。
文字识别的识别结果可如图9所示,图片窗口显示待识别的目标图片,结果窗口显示具体的识别结果,可见图9所示的识别结果中存在识别错误“摊销”,此时,用户可以在图9的结果窗口处将“摊销”修正为“推销”,修正结果如图10所示,然后点击“更正提交”按钮,便可完成识别结果的修正处理,系统接收到用户输入的修正结果后,便可以自动生成相应的修正样本数据。
本实施例提供了面向文字识别的模型训练过程、模型分裂过程、识别结果以及修正结果的示例方案,从实际意义上实现了神经网络模型的修正训练与不断进化,提高了神经网络模型的数据识别的准确性。
本发明实施例还提供了神经网络模型训练装置,所述神经网络模型训练装置用于实施本发明实施例提供的神经网络模型训练方法,下文描述的神经网络模型训练装置的技术内容,可与上文描述的神经网络模型训练方法的技术内容与相互对应参照。
请参阅图11,图11为本发明实施例提供的神经网络模型训练装置的一种结构示意图。
如图11所示,本实施例的神经网络模型训练装置包括:
场景数据获取单元100,用于获取在指定应用场景下采集到的实际数据,作为目标数据。
识别结果获取单元200,用于利用第一神经网络模型,获取与所述目标数据相匹配的识别结果。
所述第一神经网络模型为,以预设的采集数据作为训练样本进行训练得到的神经网络模型;
修正结果获取单元300,用于获取用户针对所述识别结果输入的修正结果。
修正样本生成单元400,用于根据所述目标数据与所述修正结果,生成与所述指定应用场景相匹配的样本数据,作为修正样本数据。
模型修正训练单元500,用于基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
本实施例提供的神经网络模型训练装置,获取在指定应用场景下采集到的实际数据,作为目标数据;利用第一神经网络模型,获取与目标数据相匹配的识别结果;获取用户针对识别结果输入的修正结果;根据目标数据与修正结果,生成与指定应用场景相匹配的样本数据,作为修正样本数据;基于修正样本数据,对第一神经网络模型进行修正训练,得到第二神经网络模型,相较于第一神经网络模型,修正后的第二神经网络模型,能够充分提高指定应用场景下数据识别的准确性。
请参阅图12,图12为本发明实施例提供的神经网络模型训练装置的另一种结构示意图。
如图12所示,本实施例的神经网络模型训练装置,包括前述实施例中的场景数据获取单元100、识别结果获取单元200、修正结果获取单元300、修正样本生成单元400与模型修正训练单元500。
一示例中,所述指定应用场景至少包括第一指定应用场景与第二指定应用场景,所述第一指定应用场景与所述第二指定应用场景不同;所述修正样本数据至少包括:与所述第一指定应用场景相匹配的第一修正样本数据,以及与所述第二指定应用场景相匹配的第二修正样本数据;相应的,所述模型修正训练单元500具体包括:网络模型分裂单元、第一模型训练单元与第二模型训练单元。
网络模型分裂单元,用于基于所述第一神经网络模型,生成第三神经网络模型与第四神经网络模型。
所述第三神经网络模型以及所述第四神经网络模型与所述第一神经网络模型相同。
第一模型训练单元,用于基于所述第一修正样本数据,对所述第三神经网络模型进行修正训练,得到第五神经网络模型。
第二模型训练单元,用于基于所述第二修正样本数据,对所述第四神经网络模型进行修正训练,得到第六神经网络模型。
其中,所述第二神经网络模型包括所述第五神经网络模型与所述第六神经网络模型。
另一示例中,所述模型修正训练单元500具体包括:组合样本获取单元与组合修正训练单元。
组合样本获取单元,用于按照预设的样本组合比例,将所述修正样本数据与所述预设的采集数据进行组合,获得组合样本数据。
组合修正训练单元,用于将所述组合样本数据作为训练样本,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
又一示例中,本实施例的神经网络模型训练装置还包括:持续进化控制单元600。
持续进化控制单元600,用于在所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型之后,将所述第二神经网络模型作为所述第一神经网络模型,再次执行所述获取在指定应用场景下采集到的实际数据,作为目标数据的步骤。
再一示例中,本实施例的神经网络模型训练装置还包括:修正样本检测单元700与修正模型检测单元800。
修正样本检测单元700,用于按照第一预设时间周期,检测是否有新的修正样本数据产生。
所述模型修正训练单元500,还用于当检测到有新的修正样本数据产生时,执行所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型的步骤。
修正模型检测单元800,用于按照第二预设时间周期,检测是否有新的第二神经网络模型被训练生成。
所述持续进化控制单元600,还用于当检测到有新的第二神经网络模型被训练生成时,执行所述将所述第二神经网络模型作为所述第一神经网络模型的步骤。
本实施例提供的神经网络模型训练装置,能够得到与不同指定应用场景相适配的不同的神经网络模型,提高不同指定应用场景下数据识别的精准性;并且,将组合样本数据作为训练样本,对第一神经网络模型进行修正训练,能够在保证神经网络模型公共逻辑的基础上,提高神经网络模型对指定应用场景的适配性;在得到第二神经网络模型之后,还可以将第二神经网络模型作为第一神经网络模型,再次执行获取在指定应用场景下采集到的实际数据,作为目标数据的步骤,从而实现模型的循环修正训练过程,使第二神经网络模型的数据识别准确率不断提升;其中,通过模型训练过程中的周期性控制,能够使神经网络模型的数据识别与修正训练过程持续地循环执行,使神经网络模型不断地进化,提高了神经网络模型的智能化水平,并进一步提高了神经网络模型数据识别的准确性。
最后,还需要说明的是,在本文中,诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式来实现。基于这样的理解,本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种神经网络模型训练方法,其特征在于,所述方法包括:
获取在指定应用场景下采集到的实际数据,作为目标数据;
利用第一神经网络模型,获取与所述目标数据相匹配的识别结果;所述第一神经网络模型为,以预设的采集数据作为训练样本进行训练得到的神经网络模型;
获取用户针对所述识别结果输入的修正结果;
根据所述目标数据与所述修正结果,生成与所述指定应用场景相匹配的样本数据,作为修正样本数据;
基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
2.如权利要求1所述的方法,其特征在于,所述指定应用场景至少包括第一指定应用场景与第二指定应用场景,所述第一指定应用场景与所述第二指定应用场景不同;所述修正样本数据至少包括:与所述第一指定应用场景相匹配的第一修正样本数据,以及与所述第二指定应用场景相匹配的第二修正样本数据;相应的,所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型包括:
基于所述第一神经网络模型,生成第三神经网络模型与第四神经网络模型;所述第三神经网络模型以及所述第四神经网络模型与所述第一神经网络模型相同;
基于所述第一修正样本数据,对所述第三神经网络模型进行修正训练,得到第五神经网络模型;
基于所述第二修正样本数据,对所述第四神经网络模型进行修正训练,得到第六神经网络模型;
其中,所述第二神经网络模型包括所述第五神经网络模型与所述第六神经网络模型。
3.如权利要求1所述的方法,其特征在于,所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型包括:
按照预设的样本组合比例,将所述修正样本数据与所述预设的采集数据进行组合,获得组合样本数据;
将所述组合样本数据作为训练样本,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
4.如权利要求1~3中任一项所述的方法,其特征在于,在所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型之后,所述方法还包括:
将所述第二神经网络模型作为所述第一神经网络模型,再次执行所述获取在指定应用场景下采集到的实际数据,作为目标数据的步骤。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
按照第一预设时间周期,检测是否有新的修正样本数据产生;
当检测到有新的修正样本数据产生时,执行所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型的步骤;
按照第二预设时间周期,检测是否有新的第二神经网络模型被训练生成;
当检测到有新的第二神经网络模型被训练生成时,执行所述将所述第二神经网络模型作为所述第一神经网络模型的步骤。
6.一种神经网络模型训练装置,其特征在于,所述装置包括:
场景数据获取单元,用于获取在指定应用场景下采集到的实际数据,作为目标数据;
识别结果获取单元,用于利用第一神经网络模型,获取与所述目标数据相匹配的识别结果;所述第一神经网络模型为,以预设的采集数据作为训练样本进行训练得到的神经网络模型;
修正结果获取单元,用于获取用户针对所述识别结果输入的修正结果;
修正样本生成单元,用于根据所述目标数据与所述修正结果,生成与所述指定应用场景相匹配的样本数据,作为修正样本数据;
模型修正训练单元,用于基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
7.如权利要求1所述的装置,其特征在于,所述指定应用场景至少包括第一指定应用场景与第二指定应用场景,所述第一指定应用场景与所述第二指定应用场景不同;所述修正样本数据至少包括:与所述第一指定应用场景相匹配的第一修正样本数据,以及与所述第二指定应用场景相匹配的第二修正样本数据;相应的,所述模型修正训练单元包括:
网络模型分裂单元,用于基于所述第一神经网络模型,生成第三神经网络模型与第四神经网络模型;所述第三神经网络模型以及所述第四神经网络模型与所述第一神经网络模型相同;
第一模型训练单元,用于基于所述第一修正样本数据,对所述第三神经网络模型进行修正训练,得到第五神经网络模型;
第二模型训练单元,用于基于所述第二修正样本数据,对所述第四神经网络模型进行修正训练,得到第六神经网络模型;
其中,所述第二神经网络模型包括所述第五神经网络模型与所述第六神经网络模型。
8.如权利要求1所述的装置,其特征在于,所述模型修正训练单元包括:
组合样本获取单元,用于按照预设的样本组合比例,将所述修正样本数据与所述预设的采集数据进行组合,获得组合样本数据;
组合修正训练单元,用于将所述组合样本数据作为训练样本,对所述第一神经网络模型进行修正训练,得到第二神经网络模型。
9.如权利要求6~8中任一项所述的装置,其特征在于,所述装置还包括:
持续进化控制单元,用于在所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型之后,将所述第二神经网络模型作为所述第一神经网络模型,再次执行所述获取在指定应用场景下采集到的实际数据,作为目标数据的步骤。
10.如权利要求9所述的装置,其特征在于,所述装置还包括:
修正样本检测单元,用于按照第一预设时间周期,检测是否有新的修正样本数据产生;
所述模型修正训练单元,还用于当检测到有新的修正样本数据产生时,执行所述基于所述修正样本数据,对所述第一神经网络模型进行修正训练,得到第二神经网络模型的步骤;
修正模型检测单元,用于按照第二预设时间周期,检测是否有新的第二神经网络模型被训练生成;
所述持续进化控制单元,还用于当检测到有新的第二神经网络模型被训练生成时,执行所述将所述第二神经网络模型作为所述第一神经网络模型的步骤。
CN201910180414.XA 2019-03-11 2019-03-11 神经网络模型训练方法及装置 Active CN111695670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910180414.XA CN111695670B (zh) 2019-03-11 2019-03-11 神经网络模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910180414.XA CN111695670B (zh) 2019-03-11 2019-03-11 神经网络模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN111695670A true CN111695670A (zh) 2020-09-22
CN111695670B CN111695670B (zh) 2024-07-23

Family

ID=72474631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910180414.XA Active CN111695670B (zh) 2019-03-11 2019-03-11 神经网络模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN111695670B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989039A (zh) * 2021-02-08 2021-06-18 天翼物联科技有限公司 面向小样本场景化人工智能的实现方法、系统及存储介质
CN114338958A (zh) * 2020-09-30 2022-04-12 华为技术有限公司 一种图像处理的方法及相关设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04144361A (ja) * 1990-10-04 1992-05-18 Dainippon Screen Mfg Co Ltd セットアップパラメータ決定特性を修正する方法及び自動セットアップ装置
KR20120110751A (ko) * 2011-03-30 2012-10-10 포항공과대학교 산학협력단 음성 처리 장치 및 방법
CN203930952U (zh) * 2014-06-27 2014-11-05 四川电力设计咨询有限责任公司 基于神经网络的电厂厂用电率计算系统
JP2018018451A (ja) * 2016-07-29 2018-02-01 富士通株式会社 機械学習方法、機械学習プログラム及び情報処理装置
US20180203081A1 (en) * 2017-01-17 2018-07-19 The General Hospital Corporation System and method for magnetic resonance fingerprinting using neural networks trained with sparsely sampled dictionaries
CN108537282A (zh) * 2018-04-13 2018-09-14 东北大学 一种使用超轻量级SqueezeNet网络的糖尿病视网膜病变分级方法
US20180349327A1 (en) * 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing)Co., Ltd. Text error correction method and apparatus based on recurrent neural network of artificial intelligence
CN109255369A (zh) * 2018-08-09 2019-01-22 网易(杭州)网络有限公司 利用神经网络识别图片的方法及装置、介质和计算设备
CN109376844A (zh) * 2018-10-30 2019-02-22 银河水滴科技(北京)有限公司 基于云平台和模型推荐的神经网络自动训练方法和装置
CN109447361A (zh) * 2018-11-07 2019-03-08 成都夏飞科技有限公司 基于bp神经网络的游戏用户流失预测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04144361A (ja) * 1990-10-04 1992-05-18 Dainippon Screen Mfg Co Ltd セットアップパラメータ決定特性を修正する方法及び自動セットアップ装置
KR20120110751A (ko) * 2011-03-30 2012-10-10 포항공과대학교 산학협력단 음성 처리 장치 및 방법
CN203930952U (zh) * 2014-06-27 2014-11-05 四川电力设计咨询有限责任公司 基于神经网络的电厂厂用电率计算系统
JP2018018451A (ja) * 2016-07-29 2018-02-01 富士通株式会社 機械学習方法、機械学習プログラム及び情報処理装置
US20180203081A1 (en) * 2017-01-17 2018-07-19 The General Hospital Corporation System and method for magnetic resonance fingerprinting using neural networks trained with sparsely sampled dictionaries
US20180349327A1 (en) * 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing)Co., Ltd. Text error correction method and apparatus based on recurrent neural network of artificial intelligence
CN108537282A (zh) * 2018-04-13 2018-09-14 东北大学 一种使用超轻量级SqueezeNet网络的糖尿病视网膜病变分级方法
CN109255369A (zh) * 2018-08-09 2019-01-22 网易(杭州)网络有限公司 利用神经网络识别图片的方法及装置、介质和计算设备
CN109376844A (zh) * 2018-10-30 2019-02-22 银河水滴科技(北京)有限公司 基于云平台和模型推荐的神经网络自动训练方法和装置
CN109447361A (zh) * 2018-11-07 2019-03-08 成都夏飞科技有限公司 基于bp神经网络的游戏用户流失预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338958A (zh) * 2020-09-30 2022-04-12 华为技术有限公司 一种图像处理的方法及相关设备
CN112989039A (zh) * 2021-02-08 2021-06-18 天翼物联科技有限公司 面向小样本场景化人工智能的实现方法、系统及存储介质

Also Published As

Publication number Publication date
CN111695670B (zh) 2024-07-23

Similar Documents

Publication Publication Date Title
US11308993B2 (en) Short video synthesis method and apparatus, and device and storage medium
US20220375225A1 (en) Video Segmentation Method and Apparatus, Device, and Medium
CN110781668B (zh) 文本信息的类型识别方法及装置
CN111754267B (zh) 基于区块链的数据处理方法及系统
CN109583443B (zh) 一种基于文字识别的视频内容判断方法
CN109756751A (zh) 多媒体数据处理方法及装置、电子设备、存储介质
CN112132030B (zh) 视频处理方法及装置、存储介质及电子设备
US10897658B1 (en) Techniques for annotating media content
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN112149642A (zh) 一种文本图像识别方法和装置
CN111695670B (zh) 神经网络模型训练方法及装置
CN116665083A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN110555117B (zh) 一种数据处理方法、装置及电子设备
CN113301382A (zh) 视频处理方法、设备、介质及程序产品
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质
CN112860941A (zh) 一种封面推荐方法、装置、设备及介质
CN117253480A (zh) 虚拟主播对话模型处理方法、装置及电子设备
CN108520438B (zh) 行为类型确定方法及装置
CN116863910A (zh) 一种语音数据的合成方法、装置、电子设备及存储介质
CN113377972A (zh) 多媒体内容推荐方法、装置、计算设备和存储介质
CN115527080A (zh) 生成视频动作识别模型的方法及电子设备
CN114390306A (zh) 一种直播互动摘要生成方法和装置
CN108881950B (zh) 一种视频处理的方法和装置
CN113505844A (zh) 标签生成方法、装置、设备、存储介质及程序产品
CN110610206A (zh) 图片的低俗归因识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant