CN112800355A - 新闻内容标签自动抽取方法及系统 - Google Patents

新闻内容标签自动抽取方法及系统 Download PDF

Info

Publication number
CN112800355A
CN112800355A CN202110069246.4A CN202110069246A CN112800355A CN 112800355 A CN112800355 A CN 112800355A CN 202110069246 A CN202110069246 A CN 202110069246A CN 112800355 A CN112800355 A CN 112800355A
Authority
CN
China
Prior art keywords
model
training
label
news content
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110069246.4A
Other languages
English (en)
Inventor
张茂洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110069246.4A priority Critical patent/CN112800355A/zh
Publication of CN112800355A publication Critical patent/CN112800355A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种新闻内容标签自动抽取方法及系统,其中,该新闻内容标签自动抽取方法包括:样本数据获取步骤,用于获取样本数据;样本标签标注步骤,用于构建标签体系并基于所述标签体系对所述样本数据进行标签标注,得到训练样本;模型构建步骤,用于基于BERT网络、TextCNN网络及胶囊网络形成一融合神经网络模型,并利用所述训练样本训练所述融合神经网络模型作为标签自动抽取模型;模型预测步骤,用于将待处理新闻内容输入所述标签自动抽取模型得到所述待处理新闻内容的标签。通过本申请降低开发成本和时间成本,提高模型预测准确性。

Description

新闻内容标签自动抽取方法及系统
技术领域
本申请涉及互联网技术领域,特别是涉及一种新闻内容标签自动抽取方法及系统。
背景技术
在信息爆炸的今天,推荐算法的内容分发已经是信息平台、内容平台等几乎所有软件等标配。如果说互联网的目标是连接一切,那么推荐系统的意义就是建立更加高效的连接。市面上有众多的新闻APP,一类是资质新闻平台;一类是商业门户新闻平台;还有一些小众的、垂直的、领域性的新闻平台。
新闻内容具有明显的时效性且内容庞杂新增快速,每个新闻平台都需要对内容进行有效分发,不仅要将热门时事即使送达,也要对长尾优质内容进行有效曝光和分发。但是,新闻推荐的准确与否,与系统对新闻内容的解析程度息息相关。精准有效的标签内容是一个推荐系统效果好坏的最基本的保障。给新闻内容打上准确的标签,就是对高维内容的降维理解,抽象出新闻内容更具代表性、更显著的特点。然而,如果要让内容的生产者或者用户来对内容进行打标签,是非常耗时耗力的,另一方面用户打标签的意愿并不强烈。
发明内容
本申请实施例提供了一种新闻内容标签自动抽取方法、装置、系统、计算机设备和计算机可读存储介质,通过对样本数据进行标签标注,训练出有效的标签自动抽取模型,不仅加快了内容标签生产的速度,也极大的节省人力成本。
第一方面,本申请实施例提供了一种新闻内容标签自动抽取方法,包括:
样本数据获取步骤,用于获取样本数据;
样本标签标注步骤,用于构建标签体系并基于所述标签体系对所述样本数据进行标签标注,得到训练样本;
模型构建步骤,用于基于BERT网络、TextCNN网络及胶囊网络形成一融合神经网络模型,并利用所述训练样本训练所述融合神经网络模型作为标签自动抽取模型;
模型预测步骤,用于将待处理新闻内容输入所述标签自动抽取模型经预处理、特征工程及分类预测,得到所述待处理新闻内容的标签。
基于上述步骤,本申请实施例的标签自动抽取方法融合了BERT网络、 TextCNN网络及胶囊网络,集合了三种模型的优势互补,明显提高预测准确性,本申请实施例适用于任意新闻场景的新闻内容标签标注需求,自动高效,极大降低开发成本和时间成本。
在其中一些实施例中,所述模型构建步骤进一步包括:
样本预处理步骤,用于对所述训练样本进行分词处理和去停用词处理,得到过滤后的训练样本;其中,所述分词处理是基于行业词典进行的,提高了针对行业专有名词分词的准确性;
模型训练步骤,用于将所述训练样本拆分为训练集和测试集,利用所述训练集对所述标签自动抽取模型进行训练得到一初始网络,并利用所述测试集对所述初始网络进行测试及调整,得到目标网络。
在其中一些实施例中,所述模型预测步骤进一步包括:
新闻内容预处理步骤,用于将所述待处理新闻内容进行分词处理和去停用词处理,得到过滤后的新闻内容的特征词;
标签标注步骤,用于将所述特征词输入到所述目标网络中进行特征工程提取特征词embedding及分类预测,输出所述标签。
基于上述步骤,本申请实施例采用BERT对字符进行编码而非用于中文分词,弥补了现有技术的不足之处。
在其中一些实施例中,所述模型构建步骤进一步包括:
模型评估优化步骤,用于对训练样本进行抽检,确认模型误差来源并改进。具体的,计算模型转化率并基于所述模型转化率对模型转化率较低的训练样本进行抽检,该转化率以人工标注作为正确率将人工标注的和预测结果做对比计算得到。
在其中一些实施例中,所述模型构建步骤进一步包括:
模型融合步骤,用于对模型训练步骤中的标签设置标签得分,并基于一预设阈值筛选需要召回的训练样本及其标签,将训练样本进行二次标注后再次输入至所述标签自动抽取模型进行训练。
第二方面,本申请实施例提供了一种新闻内容标签自动抽取系统,包括:
样本数据获取模块,用于获取样本数据;
样本标签标注模块,用于构建标签体系并基于所述标签体系对所述样本数据进行标签标注,得到训练样本;
模型构建模块,用于基于BERT网络、TextCNN网络及胶囊网络形成一融合神经网络模型,并利用所述训练样本训练所述融合神经网络模型作为标签自动抽取模型;
模型预测模块,用于将待处理新闻内容输入所述标签自动抽取模型经预处理、特征工程及分类预测,得到所述待处理新闻内容的标签。
基于上述模块,本申请实施例的标签自动抽取系统融合了BERT网络、 TextCNN网络及胶囊网络,集合了三种模型的优势互补,明显提高预测准确性,本申请实施例适用于任意新闻场景的新闻内容标签标注需求,自动高效,极大降低开发成本和时间成本。
在其中一些实施例中,所述模型构建模块进一步包括:
样本预处理模块,用于对所述训练样本进行分词处理和去停用词处理,得到过滤后的训练样本;其中,所述分词处理是基于行业词典进行的,提高了针对行业专有名词分词的准确性;
模型训练模块,用于将所述训练样本拆分为训练集和测试集,利用所述训练集对所述标签自动抽取模型进行训练得到一初始网络,并利用所述测试集对所述初始网络进行测试及调整,得到目标网络。
在其中一些实施例中,所述模型预测模块进一步包括:
新闻内容预处理模块,用于将所述待处理新闻内容进行分词处理和去停用词处理,得到过滤后的新闻内容的特征词;
标签标注模块,用于将所述特征词输入到所述目标网络中进行特征工程提取特征词embedding及分类预测,输出所述标签。
基于上述模块,本申请实施例采用BERT对字符进行编码而非用于中文分词,弥补了现有技术的不足之处。
在其中一些实施例中,所述模型构建模块进一步包括:
模型评估优化模块,用于对训练样本及其标签进行抽检,确认模型误差来源并改进。具体的,计算模型转化率并基于所述模型转化率对模型转化率较低的训练样本进行抽检,该转化率以人工标注作为正确率将人工标注的和预测结果做对比计算得到。
在其中一些实施例中,所述模型构建模块进一步包括:
模型融合模块,用于对模型训练模块中的标签设置标签得分,并基于一预设阈值筛选需要召回的训练样本及其标签,将训练样本进行二次标注后再次输入至所述标签自动抽取模型进行训练。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的新闻内容标签自动抽取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的新闻内容标签自动抽取方法。
相比于相关技术,本申请实施例提供的标签自动抽取方法及系统融合了 BERT网络、TextCNN网络及胶囊网络,集合了三种模型的优势互补,明显提高预测准确性,本申请实施例适用于任意新闻场景的新闻内容标签标注需求,自动高效,极大降低开发成本和时间成本。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的新闻内容标签自动抽取方法的流程图;
图2是根据本申请实施例的新闻内容标签自动抽取方法的分步骤流程图;
图3是根据本申请优选实施例的新闻内容标签自动抽取方法的分步骤流程图;
图4是根据本申请实施例的新闻内容标签自动抽取系统的结构框图。
附图说明:
1、样本数据获取模块;2、样本标签标注模块;3、模型构建模块;
4、模型预测模块;301、样本预处理模块;302、模型训练模块;
303、模型评估优化模块;304、模型融合模块;401、新闻内容预处理模块;
402、标签标注模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
为了新闻内容标注人工成本高的问题,本申请实施例通过对样本数据进行标签标注,训练出有效的新闻内容标签自动抽取模型,该模型融合BERT网络、 TextCNN网络及胶囊网络。
其中,BERT网络的英文全称是Bidirectional Encoder Representation fromTransformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。该网络模型的主要创新点都在pre-train方法上,即用了Masked LM和 Next SentencePrediction两种方法分别捕捉词语和句子级别的representation。BERT通过预训练和精调横扫了11项NLP任务,这首先就是最大的优点了。而且它还用的是Transformer,也就是相对rnn更加高效、能捕捉更长距离的依赖。对比起之前的预训练模型,它捕捉到的是真正意义上的bidirectional context信息。
卷积神经网络(Convolutional Neural Networks,以下简称CNN)是一种特殊的深层的神经网络模型,它的特殊性体现在两个方面,一方面它的神经元间的连接是非全连接的,另一方面同一层中某些神经元之间的连接的权重是共享的(即相同的)。它的非全连接和权值共享的网络结构使之更类似于生物神经网络,降低了网络模型的复杂度(对于很难学习的深层结构来说,这是非常重要的),减少了权值的数量。CNN在计算机识别领域中应用广泛,其捕捉局部特征的能力非常强,为分析和利用图像数据的研究者提供了极大的帮助。TextCNN是2014 年Kim在EMNLP上提出将CNN应用于NLP的文本分类任务中。从直观上理解,TextCNN通过一维卷积来获取句子中n-gram的特征表示。TextCNN对文本浅层特征的抽取能力很强,在短文本领域如搜索、对话领域专注于意图分类时效果很好,应用广泛,且速度快,一般是首选;对长文本领域,TextCNN主要靠filter窗口抽取特征,在长距离建模方面能力受限,且对语序不敏感。
胶囊网络(Capsual Network)的基本原理在于,人工神经网络不应当追求“神经元”活动中的视角不变性(使用单一的标量输出来总结一个局部池中的重复特征检测器的活动),而应当使用局部的“胶囊”,这些胶囊对其输入执行一些相当复杂的内部计算,然后将这些计算的结果封装成一个包含信息丰富的输出的小向量。每个胶囊学习辨识一个有限的观察条件和变形范围内隐式定义的视觉实体,并输出实体在有限范围内存在的概率及一组“实例参数”,实例参数可能包括相对这个视觉实体的隐式定义的典型版本的精确的位姿、照明条件和变形信息。当胶囊工作正常时,视觉实体存在的概率具有局部不变性——当实体在胶囊覆盖的有限范围内的外观流形上移动时,概率不会改变。实例参数却是“等变的”——随着观察条件的变化,实体在外观流形上移动时,实例参数也会相应地变化,因为实例参数表示实体在外观流形上的内在坐标。而胶囊网络结合了对象之间的相对关系,在数值上表示为4维位姿矩阵。当模型有了位姿信息之后,可以很容易地理解它看到的是以前看到的东西而只是改变了视角而已,胶囊网络有效弥补了TextCNN网络中的缺陷。
一方面,本实施例提供了一种新闻内容标签自动抽取方法。图1-2是根据本申请实施例的新闻内容标签自动抽取方法的流程图,如图1-2所示,该流程包括如下步骤:
样本数据获取步骤S1,用于获取样本数据;
样本标签标注步骤S2,用于构建标签体系并基于标签体系对样本数据进行标签标注,得到训练样本;具体的,标签体系的构建需要符合以下原则:(1) 是标签体系不能一味的追求宏大,需要针对实际的应用领域和内容需求构建标签体系,做到每个标签都可以被业务需求所解释;(2)是标签的类别要具有一定的覆盖率,离群点做到可控;三是标签类别之间需要一定的区分度,不存在歧义。在不同的应用场景中,标签的内容也不一致,如:标注文本所属的新闻类别,举例而非限制,有政治、财经、文化、房产、娱乐、军事、政治、科技、汽车、时尚、游戏、旅游、教育、视频、职场、婚姻、母婴等等;再如标注新闻所属的地域范围,举例而非限制,有国内、国际、北京、上海等;再如标注新闻所属的承载类型,举例而非限制,有文本新闻、图片新闻、视频新闻、直播等等。可选的,本申请实施例选择标注文本所属的新闻类别,举例而非限制,包括政治、财经、文化、房产、娱乐、军事、政治、科技、汽车、时尚、游戏、旅游、教育、视频、职场、婚姻、母婴等等。
模型构建步骤S3,用于基于BERT网络、TextCNN网络及胶囊网络形成一融合神经网络模型,并利用训练样本训练融合神经网络模型作为标签自动抽取模型;
模型预测步骤S4,用于将待处理新闻内容输入标签自动抽取模型经预处理、特征工程及分类预测,得到待处理新闻内容的标签。
基于上述步骤,本申请实施例的标签自动抽取方法融合了BERT网络、 TextCNN网络及胶囊网络,胶囊网络有效弥补了TextCNN网络中容易丢失重要的网络信息的缺陷,集合了三种模型的优势互补,明显提高预测准确性,本申请实施例适用于任意新闻场景的新闻内容标签标注需求,自动高效,极大降低开发成本和时间成本。
在其中一些实施例中,模型构建步骤S3进一步包括:
样本预处理步骤S301,用于对训练样本进行分词处理和去停用词处理,得到过滤后的训练样本;其中,分词处理是基于行业词典进行的,提高了针对行业专有名词分词的准确性;可选的,参考图3所示,本申请实施例的新闻内容主要使用新闻的标题、摘要及正文数据。
模型训练步骤S302,用于将训练样本拆分为训练集和测试集,利用训练集对标签自动抽取模型进行训练得到一初始网络,并利用测试集对初始网络进行测试及调整,得到目标网络。参考图3所示,在融合神经网络模型中,本申请优选实施例首先将训练集和测试集分别进行特征提取得到“title embedding”、“abstract embedding”及“contentembedding”,而后经过基于Globle Attention 机制的网络层、Fully Connected层及Softmax层输出内容所属标签类别的标签。
基于上述步骤,利用融合BERT+TextCNN+胶囊网络的模型层次,将每个特征词作为向量,拟合出一个函数,即为上述初始网络,这样当一个新的新闻内容生成时,对该内容做同样的预处理和特征工程,模型就可以预测出该内容所属的标签类别并为其标注标签。
在其中一些实施例中,模型预测步骤S4进一步包括:
新闻内容预处理步骤S401,用于将待处理新闻内容进行分词处理和去停用词处理,得到过滤后的新闻内容的特征词;
标签标注步骤S402,用于将特征词输入到目标网络中进行特征工程提取特征词embedding及分类预测,输出标签。
基于上述步骤,本申请实施例采用BERT对字符进行编码而非用于中文分词,弥补了现有技术的不足之处。
考虑到通过了测试的模型也并不是一劳永逸的,仍然可能在后期出现一些分类不准确的问题,这可能是样本造成的,也可能是算法模型造成的。因此,本申请实施例的还需要持续找出这些异常的文章及其分类,并矫正分类,再次作为训练样本投喂给模型,进行模型的矫正。
在其中一些实施例中,模型构建步骤S3进一步包括:
模型评估优化步骤S303,用于对训练样本进行抽检,确认模型误差来源并改进。具体的,计算模型转化率并基于模型转化率对模型转化率较低的训练样本进行抽检,该转化率以人工标注作为正确率将人工标注的和预测结果做对比计算得到。
在其中一些实施例中,模型构建步骤S3进一步包括:
模型融合步骤S304,用于对模型训练步骤S302中的标签设置标签得分,并基于一预设阈值筛选需要召回的训练样本及其标签,将训练样本进行二次标注后再次输入至标签自动抽取模型进行训练。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
另一方面,本实施例还提供了一种新闻内容标签自动抽取系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请实施例的新闻内容标签自动抽取系统的结构框图,如图4 所示,该系统包括:
样本数据获取模块1,用于获取样本数据;样本标签标注模块2,用于构建标签体系并基于标签体系对样本数据进行标签标注,得到训练样本;可选的,本申请实施例选择标注文本所属的新闻类别,举例而非限制,包括政治、财经、文化、房产、娱乐、军事、政治、科技、汽车、时尚、游戏、旅游、教育、视频、职场、婚姻、母婴等等。模型构建模块3,用于基于BERT网络、TextCNN 网络及胶囊网络形成一融合神经网络模型,并利用训练样本训练融合神经网络模型作为标签自动抽取模型;模型预测模块4,用于将待处理新闻内容输入标签自动抽取模型经预处理、特征工程及分类预测,得到待处理新闻内容的标签。
基于上述模块,本申请实施例的标签自动抽取系统融合了BERT网络、 TextCNN网络及胶囊网络,集合了三种模型的优势互补,明显提高预测准确性,本申请实施例适用于任意新闻场景的新闻内容标签标注需求,自动高效,极大降低开发成本和时间成本。
其中,模型构建模块3可以包括:样本预处理模块301,用于对训练样本进行分词处理和去停用词处理,得到过滤后的训练样本;其中,分词处理是基于行业词典进行的,提高了针对行业专有名词分词的准确性;本申请实施例的新闻内容主要使用新闻的标题、摘要及正文数据。模型训练模块302,用于将训练样本拆分为训练集和测试集,利用训练集对标签自动抽取模型进行训练得到一初始网络,并利用测试集对初始网络进行测试及调整,得到目标网络。具体的,在融合神经网络模型中,本申请实施例首先将训练集和测试集分别进行特征提取得到“title embedding”、“abstract embedding”及“content embedding”,而后经过基于Globle Attention机制的网络层、Fully Connected层及Softmax层输出内容所属标签类别的标签。
考虑到通过了测试的模型也并不是一劳永逸的,仍然可能在后期出现一些分类不准确的问题,这可能是样本造成的,也可能是算法模型造成的。因此,本申请实施例的还需要持续找出这些异常的文章及其分类,并矫正分类,再次作为训练样本投喂给模型,进行模型的矫正。
模型构建模块3还包括:模型评估优化模块303,用于对训练样本及其标签进行抽检,确认模型误差来源并改进。具体的,计算模型转化率并基于模型转化率对模型转化率较低的训练样本进行抽检,该转化率以人工标注作为正确率将人工标注的和预测结果做对比计算得到。模型融合模块304,用于对模型训练模块302中的标签设置标签得分,并基于一预设阈值筛选需要召回的训练样本及其标签,将训练样本进行二次标注后再次输入至标签自动抽取模型进行训练。
模型预测模块4可以包括:新闻内容预处理模块401,用于将待处理新闻内容进行分词处理和去停用词处理,得到过滤后的新闻内容的特征词;标签标注模块402,用于将特征词输入到目标网络中进行特征工程提取特征词embedding 及分类预测,输出标签。基于上述模块,本申请实施例采用BERT对字符进行编码而非用于中文分词,弥补了现有技术的不足之处。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1描述的本申请实施例新闻内容标签自动抽取方法可以由计算机设备来实现。计算机设备可以包括处理器以及存储有计算机程序指令的存储器。具体地,上述处理器可以包括中央处理器(CPU),或者特定集成电路 (Application SpecificIntegrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定) 的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性(Non-Volatile)存储器。在特定实施例中,存储器包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random AccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的 ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为 EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为 EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为 DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为 EDODRAM)、同步动态随机存取内存(Synchronous DynamicRandom-Access Memory,简称SDRAM)等。
存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种新闻内容标签自动抽取方法。
该计算机设备可以基于获取到的新闻内容,执行本申请实施例中的新闻内容标签自动抽取方法,从而实现结合图1描述的新闻内容标签自动抽取方法。
另外,结合上述实施例中的新闻内容标签自动抽取方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种新闻内容标签自动抽取方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种新闻内容标签自动抽取方法,其特征在于,包括:
样本数据获取步骤,用于获取样本数据;
样本标签标注步骤,用于构建标签体系并基于所述标签体系对所述样本数据进行标签标注,得到训练样本;
模型构建步骤,用于基于BERT网络、TextCNN网络及胶囊网络形成一融合神经网络模型,并利用所述训练样本训练所述融合神经网络模型作为标签自动抽取模型;
模型预测步骤,用于将待处理新闻内容输入所述标签自动抽取模型得到所述待处理新闻内容的标签。
2.根据权利要求1所述的新闻内容标签自动抽取方法,其特征在于,所述模型构建步骤进一步包括:
样本预处理步骤,用于对所述训练样本进行分词处理和去停用词处理,得到过滤后的训练样本;
模型训练步骤,用于将所述训练样本拆分为训练集和测试集,利用所述训练集对所述标签自动抽取模型进行训练得到一初始网络,并利用所述测试集对所述初始网络进行测试及调整,得到目标网络。
3.根据权利要求1所述的新闻内容标签自动抽取方法,其特征在于,所述模型预测步骤进一步包括:
新闻内容预处理步骤,用于将所述待处理新闻内容进行分词处理和去停用词处理,得到过滤后的新闻内容的特征词;
标签标注步骤,用于将所述特征词输入到所述目标网络中进行特征工程提取特征词embedding及分类预测,输出所述标签。
4.根据权利要求2或3所述的新闻内容标签自动抽取方法,其特征在于,所述模型构建步骤进一步包括:
模型评估优化步骤,用于对训练样本进行抽检,确认模型误差来源并改进。
5.根据权利要求2或3所述的新闻内容标签自动抽取方法,其特征在于,所述模型构建步骤进一步包括:
模型融合步骤,用于对模型训练步骤中的标签设置标签得分,并基于一预设阈值筛选需要召回的训练样本及其标签,将训练样本进行二次标注后再次输入至所述标签自动抽取模型进行训练。
6.一种新闻内容标签自动抽取系统,其特征在于,包括:
样本数据获取模块,用于获取样本数据;
样本标签标注模块,用于构建标签体系并基于所述标签体系对所述样本数据进行标签标注,得到训练样本;
模型构建模块,用于基于BERT网络、TextCNN网络及胶囊网络形成一融合神经网络模型,并利用所述训练样本训练所述融合神经网络模型作为标签自动抽取模型;
模型预测模块,用于将待处理新闻内容输入所述标签自动抽取模型得到所述待处理新闻内容的标签。
7.根据权利要求6所述的新闻内容标签自动抽取系统,其特征在于,所述模型构建模块进一步包括:
样本预处理模块,用于对所述训练样本进行分词处理和去停用词处理,得到过滤后的训练样本;
模型训练模块,用于将所述训练样本拆分为训练集和测试集,利用所述训练集对所述标签自动抽取模型进行训练得到一初始网络,并利用所述测试集对所述初始网络进行测试及调整,得到目标网络。
8.根据权利要求6所述的新闻内容标签自动抽取方法,其特征在于,所述模型预测模块进一步包括:
新闻内容预处理模块,用于将所述待处理新闻内容进行分词处理和去停用词处理,得到过滤后的新闻内容的特征词;
标签标注模块,用于将所述特征词输入到所述目标网络中进行特征工程提取特征词embedding及分类预测,输出所述标签。
9.根据权利要求7或8所述的新闻内容标签自动抽取系统,其特征在于,所述模型构建模块进一步包括:
模型评估优化模块,用于对训练样本及其标签进行抽检,确认模型误差来源并改进。
10.根据权利要求7或8所述的新闻内容标签自动抽取系统,其特征在于,所述模型构建模块进一步包括:
模型融合模块,用于对模型训练模块中的标签设置标签得分,并基于一预设阈值筛选需要召回的训练样本及其标签,将训练样本进行二次标注后再次输入至所述标签自动抽取模型进行训练。
CN202110069246.4A 2021-01-19 2021-01-19 新闻内容标签自动抽取方法及系统 Pending CN112800355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110069246.4A CN112800355A (zh) 2021-01-19 2021-01-19 新闻内容标签自动抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110069246.4A CN112800355A (zh) 2021-01-19 2021-01-19 新闻内容标签自动抽取方法及系统

Publications (1)

Publication Number Publication Date
CN112800355A true CN112800355A (zh) 2021-05-14

Family

ID=75810503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110069246.4A Pending CN112800355A (zh) 2021-01-19 2021-01-19 新闻内容标签自动抽取方法及系统

Country Status (1)

Country Link
CN (1) CN112800355A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554173A (zh) * 2021-08-09 2021-10-26 上海明略人工智能(集团)有限公司 一种领域知识标注方法、系统、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201904167D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Name entity recognition with deep learning
CN110298403A (zh) * 2019-07-02 2019-10-01 郭刚 一种财经新闻中企业主体的情感分析方法和系统
CN110458245A (zh) * 2019-08-20 2019-11-15 图谱未来(南京)人工智能研究院有限公司 一种多标签分类模型训练方法、数据处理方法及装置
CN111666409A (zh) * 2020-05-28 2020-09-15 武汉大学 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法
CN112232058A (zh) * 2020-10-15 2021-01-15 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201904167D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Name entity recognition with deep learning
US20220188520A1 (en) * 2019-03-26 2022-06-16 Benevolentai Technology Limited Name entity recognition with deep learning
CN110298403A (zh) * 2019-07-02 2019-10-01 郭刚 一种财经新闻中企业主体的情感分析方法和系统
CN110458245A (zh) * 2019-08-20 2019-11-15 图谱未来(南京)人工智能研究院有限公司 一种多标签分类模型训练方法、数据处理方法及装置
CN111666409A (zh) * 2020-05-28 2020-09-15 武汉大学 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法
CN112232058A (zh) * 2020-10-15 2021-01-15 济南大学 基于深度学习三层语义抽取框架的假新闻识别方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554173A (zh) * 2021-08-09 2021-10-26 上海明略人工智能(集团)有限公司 一种领域知识标注方法、系统、电子设备及介质

Similar Documents

Publication Publication Date Title
CN109784391B (zh) 基于多模型的样本标注方法及装置
US10242289B2 (en) Method for analysing media content
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
US20200012862A1 (en) Multi-model Techniques to Generate Video Metadata
CN110147846A (zh) 视频分割方法、装置、设备及存储介质
CN111950424A (zh) 一种视频数据处理方法、装置、计算机及可读存储介质
CN113539304B (zh) 视频拆条方法和装置
CN110851641A (zh) 跨模态检索方法、装置和可读存储介质
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN114495128B (zh) 字幕信息检测方法、装置、设备以及存储介质
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN114970673A (zh) 一种半监督模型训练方法、系统及相关设备
CN112765402A (zh) 一种敏感信息识别方法、装置、设备及存储介质
CN108229285B (zh) 物体分类方法、物体分类器的训练方法、装置和电子设备
CN112800355A (zh) 新闻内容标签自动抽取方法及系统
CN112270671B (zh) 图像检测方法、装置、电子设备及存储介质
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
US11875554B2 (en) Method for generating image label, and device
CN113033500B (zh) 动作片段检测方法、模型训练方法及装置
CN116246161A (zh) 领域知识引导下的遥感图像目标精细类型识别方法及装置
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN115759293A (zh) 模型训练方法、图像检索方法、装置及电子设备
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination