CN108537289A - 数据识别模型的训练方法、装置及存储介质 - Google Patents

数据识别模型的训练方法、装置及存储介质 Download PDF

Info

Publication number
CN108537289A
CN108537289A CN201810374080.5A CN201810374080A CN108537289A CN 108537289 A CN108537289 A CN 108537289A CN 201810374080 A CN201810374080 A CN 201810374080A CN 108537289 A CN108537289 A CN 108537289A
Authority
CN
China
Prior art keywords
data
identification model
recognition logic
training
volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810374080.5A
Other languages
English (en)
Other versions
CN108537289B (zh
Inventor
张琳琳
崔燕
岳爱珍
翟庆羽
宋烈金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810374080.5A priority Critical patent/CN108537289B/zh
Publication of CN108537289A publication Critical patent/CN108537289A/zh
Application granted granted Critical
Publication of CN108537289B publication Critical patent/CN108537289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W90/00Enabling technologies or technologies with a potential or indirect contribution to greenhouse gas [GHG] emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提出一种数据识别模型的训练方法、装置及存储介质,数据识别模型包括:多层识别逻辑,该方法包括确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,第一数据为海量的评论数据;根据实际值确定是否需要对初始的数据识别模型进行迭代训练;在确定需要进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练;按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练。通过本发明能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。

Description

数据识别模型的训练方法、装置及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据识别模型的训练方法、装置及存储介质。
背景技术
随着网络技术的发展,互联网中出现越来越多的以用户为主导的交互性应用平台,在交互性应用平台中,用户既是内容的浏览者,也是内容的创造者,由此不断产生大量的网民原创性内容。网民原创性内容中会经常出现大量的广告信息,影响整体内容质量和用户体验,因此,对原创性内容中出现的广告进行识别是保证原创性内容质量的重要手段。
相关技术中,对广告进行识别方法,均是在固定训练数据集上通过不同机器学习方式训练一个数据识别模型,并通过优化训练数据集,或者优化模型参数,使得这种方法在固定训练数据集上取得不错的广告识别效果。
这种方式下,由于实际应用场景中广告数据形式千变万化,大量不断出现的新广告变体使得在历史训练数据集上训练的数据识别模型,在对新出现的广告变体进行识别时的效果差强人意,并且,由人工对数据识别模型进行标注迭代的时效性较低,且耗费较多人力成本。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种数据识别模型的训练方法,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
本发明的另一个目的在于提出一种数据识别模型的训练装置。
本发明的另一个目的在于提出一种非临时性计算机可读存储介质。
本发明的另一个目的在于提出一种计算机程序产品。
为达到上述目的,本发明第一方面实施例提出的数据识别模型的训练方法,所述数据识别模型包括:多层识别逻辑,包括:确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,所述第一数据为海量的评论数据;根据所述实际值确定是否需要对初始的数据识别模型进行迭代训练;在确定需要进行迭代训练时,获取所述初始的数据识别模型的训练数据集,所述训练数据集用于对所述数据识别模型进行初始的训练;按照预设策略,根据所述第一数据对所述训练数据集进行更新,得到新数据集,并根据所述新数据集对所述初始的数据识别模型进行自动化迭代训练。
本发明第一方面实施例提出的数据识别模型的训练方法,通过在确定需要对初始的数据识别模型进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练,其中的第一数据为海量的评论数据,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
为达到上述目的,本发明第二方面实施例提出的数据识别模型的训练装置,所述数据识别模型包括:多层识别逻辑,包括:第一确定模块,用于确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,所述第一数据为海量的评论数据;第二确定模块,用于根据所述实际值确定是否需要对初始的数据识别模型进行迭代训练;获取模块,用于在确定需要进行迭代训练时,获取所述初始的数据识别模型的训练数据集,所述训练数据集用于对所述数据识别模型进行初始的训练;迭代训练模块,用于按照预设策略,根据所述第一数据对所述训练数据集进行更新,得到新数据集,并根据所述新数据集对所述初始的数据识别模型进行自动化迭代训练。
本发明第二方面实施例提出的数据识别模型的训练装置,通过在确定需要对初始的数据识别模型进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练,其中的第一数据为海量的评论数据,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
为达到上述目的,本发明第三方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执行一种数据识别模型的训练方法,所述数据识别模型包括:多层识别逻辑,所述方法包括:确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,所述第一数据为海量的评论数据;根据所述实际值确定是否需要对初始的数据识别模型进行迭代训练;在确定需要进行迭代训练时,获取所述初始的数据识别模型的训练数据集,所述训练数据集用于对所述数据识别模型进行初始的训练;按照预设策略,根据所述第一数据对所述训练数据集进行更新,得到新数据集,并根据所述新数据集对所述初始的数据识别模型进行自动化迭代训练。
本发明第三方面实施例提出的非临时性计算机可读存储介质,通过在确定需要对初始的数据识别模型进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练,其中的第一数据为海量的评论数据,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
为达到上述目的,本发明第四方面实施例提出的计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行一种数据识别模型的训练方法,所述数据识别模型包括:多层识别逻辑,所述方法包括:确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,所述第一数据为海量的评论数据;根据所述实际值确定是否需要对初始的数据识别模型进行迭代训练;在确定需要进行迭代训练时,获取所述初始的数据识别模型的训练数据集,所述训练数据集用于对所述数据识别模型进行初始的训练;按照预设策略,根据所述第一数据对所述训练数据集进行更新,得到新数据集,并根据所述新数据集对所述初始的数据识别模型进行自动化迭代训练。
本发明第四方面实施例提出的计算机程序产品,通过在确定需要对初始的数据识别模型进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练,其中的第一数据为海量的评论数据,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的数据识别模型的训练方法的流程示意图;
图2是本发明另一实施例提出的数据识别模型的训练方法的流程示意图;
图3为本发明实施例中目标类型的数据示意图;
图4是本发明一实施例提出的数据识别模型的训练装置的结构示意图;
图5是本发明另一实施例提出的数据识别模型的训练装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的数据识别模型的训练方法的流程示意图。
本实施例以数据识别模型的训练方法被配置为数据识别模型的训练装置中来举例说明。
本实施例中数据识别模型的训练方法可以被配置在数据识别模型的训练装置中,数据识别模型的训练装置可以设置在服务器中,或者也可以设置在电子设备中,本发明实施例对此不作限制。
本实施例以数据识别模型的训练方法被配置在电子设备中为例。
本发明实施例中的数据可以例如为广告数据,相对应地,数据识别模型可以用于对广告数据进行识别,对此不作限制。
进一步地,数据识别模型可以用于对百度口碑平台中评论数据中的广告数据进行识别。
其中,电子设备例如智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。
需要说明的是,本发明实施例的执行主体,在硬件上可以例如为服务器或者电子设备中的中央处理器(Central Processing Unit,CPU),在软件上可以例如为服务器或者电子设备中的模型训练类服务,对此不作限制。
随着网络技术的发展,互联网中出现越来越多的以用户为主导的交互性应用平台,在交互性应用平台中,用户既是内容的浏览者,也是内容的创造者,由此不断产生大量的网民原创性内容。网民原创性内容中会经常出现大量的广告信息,影响整体内容质量和用户体验,因此,对原创性内容中出现的广告进行识别是保证原创性内容质量的重要手段。
相关技术中,对广告进行识别方法,均是在固定训练数据集上通过不同机器学习方式训练一个数据识别模型,并通过优化训练数据集,或者优化模型参数,使得这种方法在固定训练数据集上取得不错的广告识别效果。
这种方式下,由于实际应用场景中广告数据形式千变万化,大量不断出现的新广告变体使得在历史训练数据集上训练的数据识别模型,在对新出现的广告变体进行识别时的效果差强人意,并且,由人工对数据识别模型进行标注迭代的时效性较低,且耗费较多人力成本。
为了解决上述技术问题,本发明实施例提供一种数据识别模型的训练方法,通过在确定需要对初始的数据识别模型进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练,其中的第一数据为海量的评论数据,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
参见图1,该方法包括:
S101:确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,第一数据为海量的评论数据。
可选地,本发明实施例中数据可以为评论数据中的文本数据,文本数据例如为文字、符号、字段等,所要识别的目标类型的数据可以例如为广告数据,对此不作限制。
其中的不同识别逻辑为初始的数据识别模型中的识别逻辑,数据识别模型包括:多层识别逻辑。
初始的数据识别模型为基于一个固定的训练数据集对数据识别模型进行初始的训练所得到的模型。
可选地,多层识别逻辑,至少包括:以准确率为目标的第一识别逻辑、以召回率为目标的第二识别逻辑,以及第三识别逻辑,第三识别逻辑用于提供人工审核接口,并依据随机策略选取数据触发人工审核。
以准确率为目标例如,以准确率能够取得最大值为该目标。
以召回率为目标例如,以召回率能够取得最大值为该目标。
其中的预设指标可以为准确率和召回率,对此不作限制。
其中的实际值可以用于评价各层识别逻辑的识别效果。
可以理解的是,在口碑平台中数据识别的具体应用场景中,针对用于识别数据的识别逻辑,一般配置有两个评估指标,即,准确率和召回率,通过基于该两个评估指标来对数据识别进行权衡,一般情况下,准确率较高的识别逻辑,则相对应地,召回率较低,而召回率较高的识别逻辑,则准确率会降低。
因此,本发明实施例中的数据识别模型可以配置多层识别逻辑的数据识别模型,进一步在执行识别的过程中,对于以准确率为目标的第一识别逻辑所识别到的目标类型的数据,可以触发后续的立即对其进行隐藏的处理(使其不影响用户的阅读体验),对于以召回率为目标的第二识别逻辑所识别到的目标类型的数据,由于第二识别逻辑是以召回率为评估指标,因为,其识别为目标类型的数据的识别结果的准确率可能并不高,为此,本发明实施例还可以配置第三识别逻辑,经由提供人工审核接口,并依据随机策略选取数据触发人工审核,人工审核为目标类型的数据则对其进行隐藏处理,人工审核不为目标类型的数据则对其进行显示处理,能够将该数据识别模型的训练方法结合至口碑平台中数据识别的具体使用场景中,使得训练方法更具有可执行性。
本发明实施例在具体执行的过程中,可以首先判断是否需要对初始的数据识别模型进行迭代训练,可以通过获取到与每层识别逻辑对应的实际值来触发判断是否需要进行迭代训练,可以将海量的评论数据分别作为第一识别逻辑、第二识别逻辑、第三识别逻辑的输入数据,并确定分别经由第一识别逻辑、第二识别逻辑、第三识别逻辑对应的输出,从对应的输出中确定各识别逻辑对应的针对预设指标的实际值,即,第一识别逻辑对海量的评论数据进行识别后,得到的准确率和召回率的实际值,第二识别逻辑对海量的评论数据进行识别后,得到的准确率和召回率的实际值,第三识别逻辑对海量的评论数据进行识别后,得到的准确率和召回率的实际值。
S102:根据实际值确定是否需要对初始的数据识别模型进行迭代训练。
由于其中的实际值可以用于评价各层识别逻辑的识别效果,因此,通过获取到与每层识别逻辑对应的实际值来触发判断是否需要进行迭代训练,能够及时地精准地判断出迭代训练的时机,并且及时触发进行迭代训练,从效果方面和技术可实现方面均表现较佳。
可选地,一些实施例中,根据实际值确定是否需要对初始的数据识别模型进行迭代训练,包括:将第一识别逻辑对应的准确率的实际值与预设准确率阈值进行比对,得到第一比对结果;将第二识别逻辑对应的召回率的实际值与预设召回率阈值进行比对,得到第二比对结果;在第一比对结果为:准确率的实际值小于预设准确率阈值,和,在第二比对结果为:召回率的实际值小于预设召回率阈值时,确定需要进行迭代训练。
由于在准确率的实际值小于预设准确率阈值,以及在召回率的实际值小于预设召回率阈值时,表明了第一识别逻辑的准确率表现不佳,以及第二识别逻辑的召回率表现不佳,因此,可以需要进行迭代训练,并触发后续的自动化迭代。
其中的预设准确率阈值和预设召回率阈值可以由用户根据实际使用场景需求进行设置,或者,也可以由电子设备的出厂程序预先设定,对此不作限制。
而在第一比对结果为:准确率的实际值大于或者等于预设准确率阈值,或者,在第二比对结果为:召回率的实际值大于或者等于预设召回率阈值时,确定不需要进行迭代训练。
通过预先设定预设准确率阈值和预设召回率阈值,经由将每层逻辑的实际值与预先设定的阈值进行比对,以根据比对结果确定是否需要进行迭代训练,符合实际应用场景的识别逻辑,且方法执行简捷,可参考性较高。
S103:在确定需要进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练。
其中的训练数据集在初始时,可以为一个固定的数据集,即在初始时,其中的训练数据保持不变,而在后续触发进行自动化迭代训练之后,可以对其进行迭代更新。
本实施例中考虑到数据识别模型中包括了多层识别逻辑,其中不同的识别逻辑是基于不同的评估指标训练所得,因此,本实施例中的训练数据集还可以包括:用于对初始的数据识别模型进行训练的第一数据集,以及用于对初始的数据识别模型的识别结果进行验证的第二数据集,通过对训练数据集进行分类设置,使得训练数据集的组成结构尽可能和真实数据集保持一致,具备更强的可用性。
S104:按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练。
其中的预设策略可以由用户根据实际使用场景需求进行设置,或者,也可以由电子设备的出厂程序预先设定,对此不作限制。
预设策略可以例如为,直接将第一数据中识别为目标类型的数据添加至训练数据集中,以对训练数据集进行更新,或者,也可以按照一定的比例值选取第一数据中的部分数据对训练数据集进行补充更新,对此不作限制。
新数据集为对训练数据集进行更新后所得到的数据集。
本发明实施例中,可以以采用训练数据集对初始的数据识别模型进行训练的同样的方式,以新数据集替换训练数据集,对初始的数据识别模型进行重新训练,在获取到新数据集之后,可以立即触发对初始的数据识别模型进行重新训练,或者,也可以在接收到用户的指令之后,触发对初始的数据识别模型进行重新训练,对此不作限制。
进一步,可选地,本发明实施例在采用新数据集对初始的数据识别模型进行重新训练之后,还可以使用迭代训练后的数据识别模对初始的数据识别模型进行替换,以使得电子设备可以及时地、直接采用替换后的数据识别模型触发对海量评论数据中的广告进行识别。
其中的替换方式可以例如通过设定触发脚本,当指定路径有训练好的数据识别模型时,触发自动化替换任务,即用训练好的数据识别模型覆盖初始的数据识别模型。
具体执行时,可以判断迭代训练后的数据识别模型是否满足预设条件,若满足预设条件,则根据训练后的数据识别模型对初始的数据识别模型进行替换。
其中的预设条件可以由用户根据实际使用场景需求进行设置,或者,也可以由电子设备的出厂程序预先设定,对此不作限制。
其中的迭代训练后的数据识别模型中同样包括上述的多层识别逻辑。
预设条件可以例如,判断迭代训练后的数据识别模型中的第一识别逻辑对数据进行识别的准确率大于或者等于预设最低准确率阈值(例如为,0.95),并且,第二识别逻辑对数据进行识别的召回率大于或者等于预设最低召回率阈值(例如为,0.85)。
预设条件可以又例如,判断迭代训练后的数据识别模型中的第一识别逻辑对数据进行识别的准确率大于或者等于预设最低准确率阈值(例如为,0.95),并且,第二识别逻辑对数据进行识别的召回率大于或者等于预设最低召回率阈值(例如为,0.85),且,第二识别逻辑对数据进行识别的准确率大于或者等于针对第二识别逻辑的最低准确率阈值(例如为,0.85)。
通过同时根据第一识别逻辑的准确率和第二识别逻辑的准确率和召回率进行判定,考量了第二识别逻辑的准确率需要在一个合理的范围内,使得预设条件的设定更加符合实际应用的场景需求。
例如,当迭代训练后的数据识别模型中的第一识别逻辑的准确率大于或者等于0.95,并且,第二识别逻辑的召回率大于或者等于0.85,则确定迭代训练后的数据识别模型满足该预设条件,可以触发使用迭代训练后的数据识别模对初始的数据识别模型进行替换。
又例如,在对迭代训练后的数据识别模型进行评估时,为了避免一天评论数据可能出现波动情况,本发明实施例中还可以选取两天的全量评论数据,统计迭代训练后的数据识别模型针对全量评论数据的识别输出结果,并判断计算第一识别逻辑的准确率和第二识别逻辑的准召率是否满足上述的预设条件。
进一步地,本发明实施例在对初始的数据识别模型进行替换之前,还可以对被替换的初始的数据识别模型进行备份,能够有效在新的数据识别模型上线后表现效果不佳时可以及时对模型进行回滚。
本发明实施例中,为了避免替换过程和线上初始的数据识别模型执行数据识别任务时的时间冲突,还可以对替换时间进行限制,例如,可以确定初始的数据识别模型的执行周期,初始的数据识别模型在执行周期内执行数据识别任务,在执行周期之外的时间点上,根据训练后的数据识别模型对初始的数据识别模型进行替换。
本发明实施例中,在对初始的数据识别模型替换完成后,还可以根据自动化评估的结果继续监控新的数据识别模型的表现效果,以及时触发下一次的自动化迭代更新。
本实施例中,通过在确定需要对初始的数据识别模型进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练,其中的第一数据为海量的评论数据,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
图2是本发明一实施例提出的数据识别模型的训练方法的流程示意图。
参见图2,上述实施例中S101还可以包括:
S201:分别基于第一识别逻辑和第二识别逻辑对第一数据中目标类型的数据进行识别,得到与每层识别逻辑对应的识别结果。
本发明实施例中所要识别的目标类型的数据可以例如为广告数据,目标类型的数据具体例如为含有电话号码、微信号以及含有营销信息等特征的评论数据,对此不作限制。
参见图3,图3为本发明实施例中目标类型的数据示意图,其中包括:一条评论数据31,由于该评论数据31中包含有微信号的特征32,因此,该评论数据为目标类型的数据。
本发明实施例在具体执行的过程中,可以将海量的评论数据分别作为第一识别逻辑、第二识别逻辑,并确定分别经由第一识别逻辑、第二识别逻辑对应的输出,将输出中每条评论数据是否为目标类型的数据的识别结果,作为与第一识别逻辑对应的识别结果,以及与第二识别逻辑对应的识别结果。
S202:根据识别结果,从第一数据中选取部分数据。
可选地,部分数据包括至少:第二识别逻辑识别为目标类型的数据,第一识别逻辑和第二识别逻辑均识别为非目标类型数据中的部分数据,以及依据随机策略选取的数据。
其中的随机策略可以由用户根据实际使用场景需求进行设置,或者,也可以由电子设备的出厂程序预先设定,对此不作限制。
基于口碑平台中数据识别的具体应用场景中,经由准确率较高的识别逻辑(即第一识别逻辑)识别为目标类型的数据,由于第一识别逻辑具备较高的准确率,因此,即确定其为目标类型的数据,而针对经由召回率较高的识别逻辑(即第二识别逻辑)识别为目标类型的数据,由于第二识别逻辑具备较高的召回率,其准确率相对较低,因此,经由其确定的为目标类型的数据,还可以经由第三识别逻辑进行进一步的判定,即,经由第三识别逻辑提供的人工审核接口,并依据随机策略选取数据触发人工审核,由第三识别逻辑确定为目标类型的数据即最终确定为目标类型的数据。
本发明实施例中为了及时发现海量的评论数据中的广告变体,对于第一识别逻辑和第二识别逻辑均确定为非目标类型的数据(即非广告数据),可以从中随机选取部分数据触发人工审核。
进一步地,本实施例中,还为了依据第一识别逻辑和第二识别逻辑的实际值确定是否需要进行迭代训练,还可以在不增加总的人工审核数据量的前提下对第一识别逻辑识别为目标类型的评论数据进行部分送审。
通过使送审的部分数据包括第二识别逻辑识别为目标类型的数据,第一识别逻辑和第二识别逻辑均识别为非目标类型数据中的部分数据,以及依据随机策略选取的数据,能够实现分别评估第一识别逻辑和第二识别逻辑的准确率和召回率来确定是否需要迭代训练,使得评估过程具备较强的参考价值,用于评估的数据分布较为均衡,使得迭代时机的确定更为合适。
另外一方面,本发明实施例中,由于为了将第一识别逻辑的准召率纳入评估是否需要进行迭代更新的考量范畴,将部分该第一识别逻辑识别为目标类型的数据也作为上述的部分数据提供至人工审核,在这种应用场景下,为了能够平衡总的人工审核数据量,还可以考虑用户维度的质量和/或评论项维度的质量,即采用用户维度的质量和/或评论项维度的质量相对较高的评论数据替换第二识别逻辑识别为目标类型的数据,能够有效平衡总的人工审核数据量,节约人工审核所需的成本,实现由人工来部分标注第二识别逻辑识别为目标类型的数据。
确定用户维度的质量的步骤可以示例如下:
例如,用户A共发表了1000条评论数据,其中违规评论数据为10条,用户B共发表了100条评论数据,其中违规评论数据为40条,则可以认为用户A的用户维度的质量比用户B的用户维度的质量高。
本发明实施例还可以针对所有用户,综合考虑每个用户发表评论数据的总条数、隐藏的评论数据的条数、展现的评论数据的条数等计算用户维度的质量,对于用户维度的质量高于一各设定阈值的用户,如果在确定送人工审核的部分数据时,选取出了该用户发表的评论数据,则可以对其的评论数据进行送审豁免。
同理,本发明实施例针对评论项维度的质量,其中的评论项可以例如为评论数据所隶属的话题,如果一个评论项下较常出现违规的评论数据,则确定该评论项相较于其它的评论项的质量较低,不能对该评论项下的评论数据进行豁免送审。
S203:确定部分数据中经由第一识别逻辑识别后被选取的数据的第一数据量,经由第二识别逻辑识别后被选取的数据的第二数据量,以及依据随机策略选取的数据的第三数据量。
其中的数据量可以具体例如为评论数据的条数。
被选取的数据用于经由第三处理逻辑提供的人工审核接口,提供至审核人员进行人工审核,通过选取部分数据提供至任何人员进行人工审核,能够有效将审核人员的领域认知知识结合进广告变体的识别当中,结合人工经验对初始的数据识别模型进行迭代训练,能够有效提升模型识别效果。
举例如下,部分数据中,经由第一识别逻辑识别后被选取的数据为数据1(该数据1中包含了多条评论数据),则数据1的数据量可以被称为第一数据量,第一数据量可以用A表示;经由第二识别逻辑识别后被选取的数据为数据2(该数据2中包含了多条评论数据),则数据2的数据量可以被称为第二数据量,第二数据量可以用B表示;以及依据随机策略选取的数据为数据3(该数据3中包含了多条评论数据),则数据3的数据量可以被称为第三数据量,第三数据量可以用C表示。
S204:基于第三识别逻辑将部分数据提供至审核用户,并接收审核用户审核得到的审核结果。
可选地,审核结果中至少包括:经由第一识别逻辑识别后被选取的数据,被审核用户审核为目标类型的数据的第四数据量;经由第二识别逻辑识别后被选取的数据,被审核用户审核为目标类型的数据的第五数据量;以及依据随机策略选取的数据,被审核用户审核为目标类型的数据的第六数据量。
举例如下,审核结果中至少包括:经由第一识别逻辑识别后被选取的数据为数据1,被审核用户审核为目标类型的数据4(该数据4中包含了多条评论数据),则数据4的数据量可以被称为第四数据量,第四数据量可以用a表示;经由第二识别逻辑识别后被选取的数据为数据2,被审核用户审核为目标类型的数据5(该数据5中包含了多条评论数据),则数据5的数据量可以被称为第五数据量,第五数据量可以用b表示;以及依据随机策略选取的数据为数据3,被审核用户审核为目标类型的数据6(该数据6中包含了多条评论数据),则数据6的数据量可以被称为第六数据量,第六数据量可以用c表示。
S205:结合审核结果和第一数据量、第二数据量,以及第三数据量进行运算,得到与每层识别逻辑对应的实际值。
本发明实施例在具体执行的过程中,还可以获取部分数据的数据量占据第一数据的数据量的比例值;将第三数据量和第一数据量的比值,作为与第一识别逻辑对应的准确率的实际值;结合第三数据量、第四数据量、第五数据量以及比例值,以及第一预设公式,确定与第一识别逻辑对应的召回率的实际值;将第四数据量和第二数据量的比值,作为与第二识别逻辑对应的准确率的实际值;结合第三数据量、第四数据量、第五数据量以及比例值,以及第二预设公式,确定与第二识别逻辑对应的召回率的实际值。
本实施例中,可以获取部分数据的数据量占据第一数据的数据量的比例值;将第四数据量和第一数据量的比值,作为与第一识别逻辑对应的准确率的实际值;结合第四数据量、第五数据量、第六数据量以及比例值,以及第一预设公式,确定与第一识别逻辑对应的召回率的实际值;将第五数据量和第二数据量的比值,作为与第二识别逻辑对应的准确率的实际值;结合第四数据量、第五数据量、第六数据量以及比例值,以及第二预设公式,确定与第二识别逻辑对应的召回率的实际值。
作为一种示例,上述的比例值可以用m表示,则根据以下公式确定各实际值:
上述示例中,公式(2)即可被称为本发明实施例中的第一预设公式,公式(4)即可被称为本发明实施例中的第二预设公式,对此不作限制。
本发明实施例中,在确定上述的各数据量之后,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,还可以包括:
从第一数据中,按照预设比例确定正样本数据和负样本数据;
将正样本数据添加至第一数据集中,以及将负样本数据添加至第二数据集中,将添加后的第一数据集和第二数据集作为新数据集;
其中,正样本数据中包括:第四数据量所隶属的数据、第五数据量所隶属的数据,以及第六数据量所隶属的数据,负样本数据中包括:第一识别逻辑识别为目标类型的数据,且审核结果确定其为非目标类型的数据,第二识别逻辑识别为目标类型的数据,且审核结果确定其为非目标类型的数据。
其中的预设比例可以例如为1:4,预设比例可以具体是数据量的比例。
本发明实施例中,通过划分正负样本,并按照预设比例确定正样本数据和负样本数据,主要是考量了真实的数据集中广告评论比非广告评论少,为了使训练数据集的组成结构尽可能和真实数据集保持一致,以使得训练的数据识别模型在真实数据集上的效果最佳。
本实施例中,通过使得送审的部分数据包括第二识别逻辑识别为目标类型的数据,第一识别逻辑和第二识别逻辑均识别为非目标类型数据中的部分数据,以及依据随机策略选取的数据,能够实现分别评估第一识别逻辑和第二识别逻辑的准确率和召回率来确定是否需要迭代训练,使得评估过程具备较强的参考价值,用于评估的数据分布较为均衡,使得迭代时机的确定更为合适。采用用户维度的质量和/或评论项维度的质量相对较高的评论数据替换第二识别逻辑识别为目标类型的数据,能够有效平衡总的人工审核数据量,节约人工审核所需的成本,实现由人工来部分标注第二识别逻辑识别为目标类型的数据。通过选取部分数据提供至任何人员进行人工审核,能够有效将审核人员的领域认知知识结合进广告变体的识别当中,结合人工经验对初始的数据识别模型进行迭代训练,能够有效提升模型识别效果。
图4是本发明一实施例提出的数据识别模型的训练装置的结构示意图。
数据识别模型包括:多层识别逻辑。
参见图4,该装置400包括:
第一确定模块401,用于确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,第一数据为海量的评论数据。
第二确定模块402,用于根据实际值确定是否需要对初始的数据识别模型进行迭代训练。
获取模块403,用于在确定需要进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练。
迭代训练模块404,用于按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练。
可选地,一些实施例中,多层识别逻辑,包括:
以准确率为目标的第一识别逻辑、以召回率为目标的第二识别逻辑,以及第三识别逻辑,第三识别逻辑用于提供人工审核接口,并依据随机策略选取数据触发人工审核。
可选地,一些实施例中,参见图5,第一确定模块401,包括:
识别子模块4011,用于分别基于第一识别逻辑和第二识别逻辑对第一数据中目标类型的数据进行识别,得到与每层识别逻辑对应的识别结果;
选取子模块4012,用于根据识别结果,从第一数据中选取部分数据;
第一确定子模块4013,用于确定部分数据中,经由第一识别逻辑识别后被选取的数据的第一数据量,经由第二识别逻辑识别后被选取的数据的第二数据量,以及依据随机策略选取的数据的第三数据量;
送审子模块4014,用于基于第三识别逻辑将部分数据提供至审核用户,并接收审核用户审核得到的审核结果;
运算子模块4015,用于结合审核结果和第一数据量、第二数据量,以及第三数据量进行运算,得到与每层识别逻辑对应的实际值。
可选地,一些实施例中,部分数据包括:第二识别逻辑识别为目标类型的数据,第一识别逻辑和第二识别逻辑均识别为非目标类型数据中的部分数据,以及依据随机策略选取的数据。
可选地,一些实施例中,审核结果中至少包括:
经由第一识别逻辑识别后被选取的数据,被审核用户审核为目标类型的数据的第四数据量;经由第二识别逻辑识别后被选取的数据,被审核用户审核为目标类型的数据的第五数据量;以及依据随机策略选取的数据,被审核用户审核为目标类型的数据的第六数据量。
可选地,一些实施例中,预设指标为准确率和召回率,运算子模块4015,具体用于:
获取部分数据的数据量占据第一数据的数据量的比例值;
将第四数据量和第一数据量的比值,作为与第一识别逻辑对应的准确率的实际值;
结合第四数据量、第五数据量、第六数据量以及比例值,以及第一预设公式,确定与第一识别逻辑对应的召回率的实际值;
将第五数据量和第二数据量的比值,作为与第二识别逻辑对应的准确率的实际值;
结合第四数据量、第五数据量、第六数据量以及比例值,以及第二预设公式,确定与第二识别逻辑对应的召回率的实际值。
可选地,一些实施例中,参见图5,第二确定模块402,包括:
第一比对子模块4021,用于将第一识别逻辑对应的准确率的实际值与预设准确率阈值进行比对,得到第一比对结果;
第二比对子模块4022,用于将第二识别逻辑对应的召回率的实际值与预设召回率阈值进行比对,得到第二比对结果;
第二确定子模块4023,用于在第一比对结果为:准确率的实际值小于预设准确率阈值,和,在第二比对结果为:召回率的实际值小于预设召回率阈值时,确定需要进行迭代训练。
可选地,一些实施例中,训练数据集包括:用于对初始的数据识别模型进行训练的第一数据集,以及用于对初始的数据识别模型的识别结果进行验证的第二数据集,迭代训练模块404,具体用于:
从第一数据中按照预设比例确定正样本数据和负样本数据;
将正样本数据添加至第一数据集中,以及将负样本数据添加至第二数据集中,将添加后的第一数据集和第二数据集作为新数据集;
其中,正样本数据中包括:第四数据量所隶属的数据、第五数据量所隶属的数据,以及第六数据量所隶属的数据,负样本数据中包括:第一识别逻辑识别为目标类型的数据,且审核结果确定其为非目标类型的数据,第二识别逻辑识别为目标类型的数据,且审核结果确定其为非目标类型的数据。
可选地,一些实施例中,参见图5,还包括:
判断模块405,用于判断迭代训练后的数据识别模型是否满足预设条件;
替换模块406,用于在满足预设条件时,根据训练后的数据识别模型对初始的数据识别模型进行替换。
可选地,一些实施例中,替换模块406,具体用于:
确定初始的数据识别模型的执行周期,初始的数据识别模型在执行周期内执行数据识别任务;
在执行周期之外的时间点上,根据训练后的数据识别模型对初始的数据识别模型进行替换。
可选地,一些实施例中,数据为文本数据。
需要说明的是,前述图1-图3实施例中对数据识别模型的训练方法实施例的解释说明也适用于该实施例的数据识别模型的训练装置400,其实现原理类似,此处不再赘述。
上述数据识别模型的训练装置400中各个模块的划分仅用于举例说明,在其它实施例中,可将数据识别模型的训练装置按照需要划分为不同的模块,以完成上述数据识别模型的训练装置的全部或部分功能。
本实施例中,通过在确定需要对初始的数据识别模型进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练,其中的第一数据为海量的评论数据,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当存储介质中的指令由终端的处理器执行时,使得终端能够执行一种数据识别模型的训练方法,数据识别模型包括:多层识别逻辑,方法包括:
确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,第一数据为海量的评论数据;
根据实际值确定是否需要对初始的数据识别模型进行迭代训练;
在确定需要进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练;
按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练。
本实施例中的非临时性计算机可读存储介质,通过在确定需要对初始的数据识别模型进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练,其中的第一数据为海量的评论数据,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令被处理器执行时,执行一种数据识别模型的训练方法,数据识别模型包括:多层识别逻辑,方法包括:
确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,第一数据为海量的评论数据;
根据实际值确定是否需要对初始的数据识别模型进行迭代训练;
在确定需要进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练;
按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练。
本实施例中的计算机程序产品,通过在确定需要对初始的数据识别模型进行迭代训练时,获取初始的数据识别模型的训练数据集,训练数据集用于对数据识别模型进行初始的训练,按照预设策略,根据第一数据对训练数据集进行更新,得到新数据集,并根据新数据集对初始的数据识别模型进行自动化迭代训练,其中的第一数据为海量的评论数据,能够结合海量的评论数据实现数据识别模型的自动化迭代更新训练,释放人力成本,提升模型识别精准度。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (24)

1.一种数据识别模型的训练方法,其特征在于,所述数据识别模型包括:多层识别逻辑,所述方法包括以下步骤:
确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,所述第一数据为海量的评论数据;
根据所述实际值确定是否需要对初始的数据识别模型进行迭代训练;
在确定需要进行迭代训练时,获取所述初始的数据识别模型的训练数据集,所述训练数据集用于对所述数据识别模型进行初始的训练;
按照预设策略,根据所述第一数据对所述训练数据集进行更新,得到新数据集,并根据所述新数据集对所述初始的数据识别模型进行自动化迭代训练。
2.如权利要求1所述的数据识别模型的训练方法,其特征在于,所述多层识别逻辑,包括:
以准确率为目标的第一识别逻辑、以召回率为目标的第二识别逻辑,以及第三识别逻辑,所述第三识别逻辑用于提供人工审核接口,并依据随机策略选取数据触发人工审核。
3.如权利要求2所述的数据识别模型的训练方法,其特征在于,所述确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,包括:
分别基于所述第一识别逻辑和所述第二识别逻辑对所述第一数据中目标类型的数据进行识别,得到与每层识别逻辑对应的识别结果;
根据所述识别结果,从所述第一数据中选取部分数据;
确定所述部分数据中,经由所述第一识别逻辑识别后被选取的数据的第一数据量,经由所述第二识别逻辑识别后被选取的数据的第二数据量,以及所述依据随机策略选取的数据的第三数据量;
基于所述第三识别逻辑将所述部分数据提供至审核用户,并接收所述审核用户审核得到的审核结果;
结合所述审核结果和所述第一数据量、所述第二数据量,以及所述第三数据量进行运算,得到与每层识别逻辑对应的实际值。
4.如权利要求3所述的数据识别模型的训练方法,其特征在于,所述部分数据包括:所述第二识别逻辑识别为目标类型的数据,所述第一识别逻辑和所述第二识别逻辑均识别为非目标类型数据中的部分数据,以及依据所述随机策略选取的数据。
5.如权利要求3所述的数据识别模型的训练方法,其特征在于,所述审核结果中至少包括:
经由所述第一识别逻辑识别后被选取的数据,被所述审核用户审核为目标类型的数据的第四数据量;
经由所述第二识别逻辑识别后被选取的数据,被所述审核用户审核为目标类型的数据的第五数据量;以及
所述依据随机策略选取的数据,被所述审核用户审核为目标类型的数据的第六数据量。
6.如权利要求5所述的数据识别模型的训练方法,其特征在于,所述预设指标为准确率和召回率,所述结合所述审核结果和所述第一数据量、所述第二数据量,以及所述第三数据量进行运算,得到与每层识别逻辑对应的实际值,包括:
获取所述部分数据的数据量占据所述第一数据的数据量的比例值;
将所述第四数据量和所述第一数据量的比值,作为与第一识别逻辑对应的准确率的实际值;
结合所述第四数据量、第五数据量、第六数据量以及所述比例值,以及第一预设公式,确定与第一识别逻辑对应的召回率的实际值;
将所述第五数据量和所述第二数据量的比值,作为与第二识别逻辑对应的准确率的实际值;
结合所述第四数据量、第五数据量、第六数据量以及所述比例值,以及第二预设公式,确定与第二识别逻辑对应的召回率的实际值。
7.如权利要求6所述的数据识别模型的训练方法,其特征在于,所述根据所述实际值确定是否需要对初始的数据识别模型进行迭代训练,包括:
将所述第一识别逻辑对应的准确率的实际值与预设准确率阈值进行比对,得到第一比对结果;
将所述第二识别逻辑对应的召回率的实际值与预设召回率阈值进行比对,得到第二比对结果;
在所述第一比对结果为:所述准确率的实际值小于所述预设准确率阈值,和,在所述第二比对结果为:所述召回率的实际值小于所述预设召回率阈值时,确定需要进行所述迭代训练。
8.如权利要求6所述的数据识别模型的训练方法,其特征在于,所述训练数据集包括:用于对所述初始的数据识别模型进行训练的第一数据集,以及用于对所述初始的数据识别模型的识别结果进行验证的第二数据集,所述按照预设策略,根据所述第一数据对所述训练数据集进行更新,得到新数据集,包括:
从所述第一数据中按照预设比例确定正样本数据和负样本数据;
将所述正样本数据添加至所述第一数据集中,以及将所述负样本数据添加至所述第二数据集中,将添加后的第一数据集和第二数据集作为所述新数据集;
其中,所述正样本数据中包括:所述第四数据量所隶属的数据、所述第五数据量所隶属的数据,以及所述第六数据量所隶属的数据,所述负样本数据中包括:所述第一识别逻辑识别为目标类型的数据,且所述审核结果确定其为非目标类型的数据,所述第二识别逻辑识别为目标类型的数据,且所述审核结果确定其为非目标类型的数据。
9.如权利要求1-8任一项所述的数据识别模型的训练方法,其特征在于,还包括:
判断迭代训练后的数据识别模型是否满足预设条件;
若满足所述预设条件,则根据所述训练后的数据识别模型对所述初始的数据识别模型进行替换。
10.如权利要求9所述的数据识别模型的训练方法,其特征在于,所述根据所述训练后的数据识别模型对所述初始的数据识别模型进行替换,包括:
确定所述初始的数据识别模型的执行周期,所述初始的数据识别模型在所述执行周期内执行数据识别任务;
在所述执行周期之外的时间点上,根据所述训练后的数据识别模型对所述初始的数据识别模型进行替换。
11.如权利要求1-8任一项所述的数据识别模型的训练方法,其特征在于,所述数据为文本数据。
12.一种数据识别模型的训练装置,其特征在于,所述数据识别模型包括:多层识别逻辑,所述装置包括:
第一确定模块,用于确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,所述第一数据为海量的评论数据;
第二确定模块,用于根据所述实际值确定是否需要对初始的数据识别模型进行迭代训练;
获取模块,用于在确定需要进行迭代训练时,获取所述初始的数据识别模型的训练数据集,所述训练数据集用于对所述数据识别模型进行初始的训练;
迭代训练模块,用于按照预设策略,根据所述第一数据对所述训练数据集进行更新,得到新数据集,并根据所述新数据集对所述初始的数据识别模型进行自动化迭代训练。
13.如权利要求12所述的数据识别模型的训练装置,其特征在于,所述多层识别逻辑,包括:
以准确率为目标的第一识别逻辑、以召回率为目标的第二识别逻辑,以及第三识别逻辑,所述第三识别逻辑用于提供人工审核接口,并依据随机策略选取数据触发人工审核。
14.如权利要求13所述的数据识别模型的训练装置,其特征在于,所述第一确定模块,包括:
识别子模块,用于分别基于所述第一识别逻辑和所述第二识别逻辑对所述第一数据中目标类型的数据进行识别,得到与每层识别逻辑对应的识别结果;
选取子模块,用于根据所述识别结果,从所述第一数据中选取部分数据;
第一确定子模块,用于确定所述部分数据中,经由所述第一识别逻辑识别后被选取的数据的第一数据量,经由所述第二识别逻辑识别后被选取的数据的第二数据量,以及所述依据随机策略选取的数据的第三数据量;
送审子模块,用于基于所述第三识别逻辑将所述部分数据提供至审核用户,并接收所述审核用户审核得到的审核结果;
运算子模块,用于结合所述审核结果和所述第一数据量、所述第二数据量,以及所述第三数据量进行运算,得到与每层识别逻辑对应的实际值。
15.如权利要求14所述的数据识别模型的训练装置,其特征在于,所述部分数据包括:所述第二识别逻辑识别为目标类型的数据,所述第一识别逻辑和所述第二识别逻辑均识别为非目标类型数据中的部分数据,以及依据所述随机策略选取的数据。
16.如权利要求14所述的数据识别模型的训练装置,其特征在于,所述审核结果中至少包括:
经由所述第一识别逻辑识别后被选取的数据,被所述审核用户审核为目标类型的数据的第四数据量;经由所述第二识别逻辑识别后被选取的数据,被所述审核用户审核为目标类型的数据的第五数据量;以及所述依据随机策略选取的数据,被所述审核用户审核为目标类型的数据的第六数据量。
17.如权利要求16所述的数据识别模型的训练装置,其特征在于,所述预设指标为准确率和召回率,所述运算子模块,具体用于:
获取所述部分数据的数据量占据所述第一数据的数据量的比例值;
将所述第四数据量和所述第一数据量的比值,作为与第一识别逻辑对应的准确率的实际值;
结合所述第四数据量、第五数据量、第六数据量以及所述比例值,以及第一预设公式,确定与第一识别逻辑对应的召回率的实际值;
将所述第五数据量和所述第二数据量的比值,作为与第二识别逻辑对应的准确率的实际值;
结合所述第四数据量、第五数据量、第六数据量以及所述比例值,以及第二预设公式,确定与第二识别逻辑对应的召回率的实际值。
18.如权利要求17所述的数据识别模型的训练装置,其特征在于,所述第二确定模块,包括:
第一比对子模块,用于将所述第一识别逻辑对应的准确率的实际值与预设准确率阈值进行比对,得到第一比对结果;
第二比对子模块,用于将所述第二识别逻辑对应的召回率的实际值与预设召回率阈值进行比对,得到第二比对结果;
第二确定子模块,用于在所述第一比对结果为:所述准确率的实际值小于所述预设准确率阈值,和,在所述第二比对结果为:所述召回率的实际值小于所述预设召回率阈值时,确定需要进行所述迭代训练。
19.如权利要求17所述的数据识别模型的训练装置,其特征在于,所述训练数据集包括:用于对所述初始的数据识别模型进行训练的第一数据集,以及用于对所述初始的数据识别模型的识别结果进行验证的第二数据集,所述迭代训练模块,具体用于:
从所述第一数据中按照预设比例确定正样本数据和负样本数据;
将所述正样本数据添加至所述第一数据集中,以及将所述负样本数据添加至所述第二数据集中,将添加后的第一数据集和第二数据集作为所述新数据集;
其中,所述正样本数据中包括:所述第四数据量所隶属的数据、所述第五数据量所隶属的数据,以及所述第六数据量所隶属的数据,所述负样本数据中包括:所述第一识别逻辑识别为目标类型的数据,且所述审核结果确定其为非目标类型的数据,所述第二识别逻辑识别为目标类型的数据,且所述审核结果确定其为非目标类型的数据。
20.如权利要求12-19任一项所述的数据识别模型的训练装置,其特征在于,还包括:
判断模块,用于判断迭代训练后的数据识别模型是否满足预设条件;
替换模块,用于在满足所述预设条件时,根据所述训练后的数据识别模型对所述初始的数据识别模型进行替换。
21.如权利要求20所述的数据识别模型的训练装置,其特征在于,所述替换模块,具体用于:
确定所述初始的数据识别模型的执行周期,所述初始的数据识别模型在所述执行周期内执行数据识别任务;
在所述执行周期之外的时间点上,根据所述训练后的数据识别模型对所述初始的数据识别模型进行替换。
22.如权利要求12-19任一项所述的数据识别模型的训练装置,其特征在于,所述数据为文本数据。
23.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一项所述的数据识别模型的训练方法。
24.一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行一种数据识别模型的训练方法,所述数据识别模型包括:多层识别逻辑,所述方法包括:
确定第一数据基于不同识别逻辑下的预设指标的实际值,得到与每层识别逻辑对应的实际值,其中,所述第一数据为海量的评论数据;
根据所述实际值确定是否需要对初始的数据识别模型进行迭代训练;
在确定需要进行迭代训练时,获取所述初始的数据识别模型的训练数据集,所述训练数据集用于对所述数据识别模型进行初始的训练;
按照预设策略,根据所述第一数据对所述训练数据集进行更新,得到新数据集,并根据所述新数据集对所述初始的数据识别模型进行自动化迭代训练。
CN201810374080.5A 2018-04-24 2018-04-24 数据识别模型的训练方法、装置及存储介质 Active CN108537289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810374080.5A CN108537289B (zh) 2018-04-24 2018-04-24 数据识别模型的训练方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810374080.5A CN108537289B (zh) 2018-04-24 2018-04-24 数据识别模型的训练方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN108537289A true CN108537289A (zh) 2018-09-14
CN108537289B CN108537289B (zh) 2023-04-07

Family

ID=63478569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810374080.5A Active CN108537289B (zh) 2018-04-24 2018-04-24 数据识别模型的训练方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN108537289B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740759A (zh) * 2018-12-13 2019-05-10 平安科技(深圳)有限公司 学习模型优化与选择方法、电子装置及计算机设备
CN109769099A (zh) * 2019-01-15 2019-05-17 三星电子(中国)研发中心 通话人物异常的检测方法和装置
CN110046779A (zh) * 2018-11-01 2019-07-23 阿里巴巴集团控股有限公司 一种数据处理方法及装置、一种计算设备及存储介质
CN110263124A (zh) * 2018-11-27 2019-09-20 上海亿通国际股份有限公司 数据检测系统
CN110321112A (zh) * 2019-07-02 2019-10-11 北京百度网讯科技有限公司 Ai能力研发平台及数据处理方法
CN110377587A (zh) * 2019-07-15 2019-10-25 腾讯科技(深圳)有限公司 基于机器学习的迁移数据确定方法、装置、设备及介质
CN111563067A (zh) * 2020-05-06 2020-08-21 中国银行股份有限公司 一种特征处理方法及装置
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN113902121A (zh) * 2021-07-15 2022-01-07 陈九廷 一种电池劣化推测装置校验的方法、装置、设备及介质
CN115186780A (zh) * 2022-09-14 2022-10-14 江西风向标智能科技有限公司 学科知识点分类模型训练方法、系统、存储介质及设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120093396A1 (en) * 2010-10-13 2012-04-19 Shengyang Dai Digital image analysis utilizing multiple human labels
CN104063720A (zh) * 2014-07-03 2014-09-24 浙江大学 基于深度玻尔兹曼机的电商网站违禁商品图片检测方法
CN105068986A (zh) * 2015-07-15 2015-11-18 浙江理工大学 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
CN106407976A (zh) * 2016-08-30 2017-02-15 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
US20170075982A1 (en) * 2014-05-22 2017-03-16 Huawei Technologies Co., Ltd. User Behavior Recognition Method, User Equipment, and Behavior Recognition Server
CN106529565A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 目标识别模型训练和目标识别方法及装置、计算设备
CN106934368A (zh) * 2017-03-13 2017-07-07 长安大学 一种基于眼动指标数据的驾驶疲劳检测系统及识别方法
CN106971174A (zh) * 2017-04-24 2017-07-21 华南理工大学 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法
CN107316083A (zh) * 2017-07-04 2017-11-03 北京百度网讯科技有限公司 用于更新深度学习模型的方法和装置
CN107392125A (zh) * 2017-07-11 2017-11-24 中国科学院上海高等研究院 智能模型的训练方法/系统、计算机可读存储介质及终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120093396A1 (en) * 2010-10-13 2012-04-19 Shengyang Dai Digital image analysis utilizing multiple human labels
US20170075982A1 (en) * 2014-05-22 2017-03-16 Huawei Technologies Co., Ltd. User Behavior Recognition Method, User Equipment, and Behavior Recognition Server
CN104063720A (zh) * 2014-07-03 2014-09-24 浙江大学 基于深度玻尔兹曼机的电商网站违禁商品图片检测方法
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
CN105068986A (zh) * 2015-07-15 2015-11-18 浙江理工大学 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN106407976A (zh) * 2016-08-30 2017-02-15 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
CN106529565A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 目标识别模型训练和目标识别方法及装置、计算设备
CN106934368A (zh) * 2017-03-13 2017-07-07 长安大学 一种基于眼动指标数据的驾驶疲劳检测系统及识别方法
CN106971174A (zh) * 2017-04-24 2017-07-21 华南理工大学 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法
CN107316083A (zh) * 2017-07-04 2017-11-03 北京百度网讯科技有限公司 用于更新深度学习模型的方法和装置
CN107392125A (zh) * 2017-07-11 2017-11-24 中国科学院上海高等研究院 智能模型的训练方法/系统、计算机可读存储介质及终端

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046779A (zh) * 2018-11-01 2019-07-23 阿里巴巴集团控股有限公司 一种数据处理方法及装置、一种计算设备及存储介质
CN110263124A (zh) * 2018-11-27 2019-09-20 上海亿通国际股份有限公司 数据检测系统
CN109740759A (zh) * 2018-12-13 2019-05-10 平安科技(深圳)有限公司 学习模型优化与选择方法、电子装置及计算机设备
CN109740759B (zh) * 2018-12-13 2024-05-03 平安科技(深圳)有限公司 学习模型优化与选择方法、电子装置及计算机设备
US11178275B2 (en) 2019-01-15 2021-11-16 Samsung Electronics Co., Ltd. Method and apparatus for detecting abnormality of caller
CN109769099A (zh) * 2019-01-15 2019-05-17 三星电子(中国)研发中心 通话人物异常的检测方法和装置
CN110321112A (zh) * 2019-07-02 2019-10-11 北京百度网讯科技有限公司 Ai能力研发平台及数据处理方法
US11693624B2 (en) 2019-07-02 2023-07-04 Beijing Baidu Netcom Science Technology Co., Ltd. AI capability research and development platform and data processing method
CN110377587B (zh) * 2019-07-15 2023-02-10 腾讯科技(深圳)有限公司 基于机器学习的迁移数据确定方法、装置、设备及介质
CN110377587A (zh) * 2019-07-15 2019-10-25 腾讯科技(深圳)有限公司 基于机器学习的迁移数据确定方法、装置、设备及介质
CN111563067A (zh) * 2020-05-06 2020-08-21 中国银行股份有限公司 一种特征处理方法及装置
CN111563067B (zh) * 2020-05-06 2023-04-14 中国银行股份有限公司 一种特征处理方法及装置
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN112579729B (zh) * 2020-12-25 2024-05-21 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN113902121A (zh) * 2021-07-15 2022-01-07 陈九廷 一种电池劣化推测装置校验的方法、装置、设备及介质
CN115186780A (zh) * 2022-09-14 2022-10-14 江西风向标智能科技有限公司 学科知识点分类模型训练方法、系统、存储介质及设备

Also Published As

Publication number Publication date
CN108537289B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108537289A (zh) 数据识别模型的训练方法、装置及存储介质
CN107590688A (zh) 目标客户的识别方法及终端设备
CA3150500C (en) Uploader matching method and device
CN106919579A (zh) 一种信息处理方法及装置、设备
CN107507036A (zh) 一种数据预测的方法及终端
CN110163647A (zh) 一种数据处理方法及装置
CN111078880B (zh) 子应用的风险识别方法以及装置
CN107392645A (zh) 用户挖掘方法、装置及其设备
CN108563670A (zh) 视频推荐方法、装置、服务器及计算机可读存储介质
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN110766278A (zh) 一种自动化招标方法、装置及终端设备
CN107545451A (zh) 一种广告推送方法及装置
CN110288350A (zh) 用户价值预测方法、装置、设备及存储介质
CN110020099A (zh) 一种视频交友的用户推荐方法和装置
CN105824806A (zh) 一种公众账号的质量评价方法和装置
CN110287250A (zh) 用户等级量化方法和装置
CN112449002B (zh) 一种待推送对象的推送方法、装置、设备及存储介质
CN115115074A (zh) 一种电子资源消耗信息预测方法、装置、设备及存储介质
CN109067640B (zh) 信息推送的方法及装置
CN116562263A (zh) 一种文档衔接连贯性的评测方法、装置、设备及存储介质
KR101462858B1 (ko) 기업의 해외 진출 역량 평가 방법
CN109636083A (zh) 黑名单分析方法、装置、设备及计算机可读存储介质
CN108460475A (zh) 基于学生上网行为的贫困生预测方法和装置
CN109413459B (zh) 一种直播平台中用户的推荐方法以及相关设备
CN113157677A (zh) 基于信托行为的数据过滤方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant