CN110851607A - 资讯分类模型的训练方法及装置 - Google Patents

资讯分类模型的训练方法及装置 Download PDF

Info

Publication number
CN110851607A
CN110851607A CN201911133245.0A CN201911133245A CN110851607A CN 110851607 A CN110851607 A CN 110851607A CN 201911133245 A CN201911133245 A CN 201911133245A CN 110851607 A CN110851607 A CN 110851607A
Authority
CN
China
Prior art keywords
information
training
word
word set
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911133245.0A
Other languages
English (en)
Inventor
张静
张亚泽
狄潇然
栾英英
童楚婕
严洁
彭勃
李福洋
徐晓健
李瑞男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201911133245.0A priority Critical patent/CN110851607A/zh
Publication of CN110851607A publication Critical patent/CN110851607A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种资讯分类模型的训练方法及装置,采集训练资讯,得到训练资讯集;对训练资讯集中的训练资讯进行多类别标注;对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;将训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。可见,本发明的资讯分类模型通过多类别标注后的训练资讯集进行模型训练,最终资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率,而不是像现有技术一样直接将资讯标定为某一资讯分类,不考虑资讯内容包含的其他分类内容,本发明的资讯分类更加清楚准确。

Description

资讯分类模型的训练方法及装置
技术领域
本发明涉及数据处理技术领域,具体为一种资讯分类模型的训练方法及装置。
背景技术
随着互联网技术的发展,当前网络上涌现出大量的资讯信息,网站和软件都利用机器学习分类技术将资讯进行有效分类,便于用户查找选择自己感兴趣的资讯内容。所以如何提升资讯分类的准确性,是当前互联网企业和科研机构研究的热点。
现有的资讯分类模型的训练方法首先需要标注确定类别的资讯文本作为训练集,然后再利用朴素贝叶斯、随机森林等分类方法进行资讯分类模型的训练,最终利用训练完成的资讯分类模型对新输入的资讯进行分类。由于有时一篇资讯会讨论多个类别的内容,例如:一篇体育报道中包含了体育明星的娱乐信息,那么该篇资讯很难简单的将其标定为体育类或者娱乐类,如果简单粗暴的将其标定为固定的类别,再采用现有的资讯分类方法进行分类模型训练,就会限制资讯分类模型的分类精度,影响资讯分类的准确性。
发明内容
本发明提供了一种资讯分类模型的训练方法及装置,可以解决现有技术中由于简单粗暴的将资讯标定为固定的类别,进行资讯分类模型训练,导致资讯分类模型的分类精度受到限制,影响资讯分类的准确性的问题。
为达到上述目的,本发明提供了如下技术方案:
一种资讯分类模型的训练方法,包括:
采集训练资讯,得到训练资讯集;
对所述训练资讯集中的训练资讯进行多类别标注;
对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;
将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。
可选的,所述对所述训练资讯集中的训练资讯进行多类别标注,包括:
将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,C={c1,c2,…,cm}为不同的资讯类别,P={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi)。
可选的,所述对多类别标注后的训练资讯集进行切词和过滤,得到训练词集,包括:
对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
可选的,所述将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到所述资讯分类模型,包括;
将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
Figure BDA0002278900120000021
以及条件概率公式
Figure BDA0002278900120000022
进行模型训练,得到所述资讯分类模型。
可选的,所述训练方法,还包括:
接收输入资讯;
将所述输入资讯输入所述资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率;
根据所述输入资讯属于不同资讯类别的概率,得到所述输入资讯的资讯类别。
一种资讯分类模型的训练装置,包括:
采集单元,用于采集训练资讯,得到训练资讯集;
标注单元,用于对所述训练资讯集中的训练资讯进行多类别标注;
过滤单元,用于对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;
训练单元,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。
可选的,所述标注单元,用于将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,C={c1,c2,…,cm}为不同的资讯类别,P={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi)。
可选的,所述过滤单元,包括:
切词子单元,用于对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
处理子单元,用于根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
过滤子单元,用于根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算子单元,用于计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
可选的,所述训练单元,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
Figure BDA0002278900120000031
以及条件概率公式
进行模型训练,得到所述资讯分类模型。
可选的,所述训练装置,还包括:
接收单元,用于接收输入资讯;
获取单元,用于将所述输入资讯输入所述资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率;
选择单元,用于根据所述输入资讯属于不同资讯类别的概率,得到所述输入资讯的资讯类别。
经由上述技术方案可知,本发明公开了一种资讯分类模型的训练方法及装置,采集训练资讯,得到训练资讯集;对训练资讯集中的训练资讯进行多类别标注;对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;将训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。可见,本发明的资讯分类模型通过多类别标注后的训练资讯集进行模型训练,最终资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率,而不是像现有技术一样直接将资讯标定为某一资讯分类,不考虑资讯内容包含的其他分类内容,本发明的资讯分类更加清楚准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种资讯分类模型的训练方法的流程图;
图2为本发明实施例公开的基于资讯分类模型的资讯分类方法的流程图;
图3为本发明另一实施例公开的资讯分类模型的训练方法的流程示意图;
图4为本发明实施例公开的一种资讯分类模型的训练装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由背景技术可知,现有的资讯分类模型的训练方法首先需要标注确定类别的资讯文本作为训练集,然后再利用朴素贝叶斯、随机森林等分类方法进行资讯分类模型的训练,最终利用训练完成的资讯分类模型对新输入的资讯进行分类。由于有时一篇资讯会讨论多个类别的内容,例如:一篇体育报道中包含了体育明星的娱乐信息,那么该篇资讯很难简单的将其标定为体育类或者娱乐类,如果简单粗暴的将其标定为固定的类别,再采用现有的资讯分类方法进行分类模型训练,就会限制资讯分类模型的分类精度,影响资讯分类的准确性。
有鉴于此,本发明提供了一种资讯分类模型的训练方法及装置,可以解决现有技术中由于简单粗暴的将资讯标定为固定的类别,进行资讯分类模型训练,导致资讯分类模型的分类精度受到限制,影响资讯分类的准确性的问题。
如图1所示,本发明实施例公开了一种资讯分类模型的训练方法,所述训练方法包括:
S101、采集训练资讯,得到训练资讯集。
需要说明的是,采集的训练资讯可以是从网络上采集得到的,也可以是在线下采集得到的,并且在线下采集资讯后,由工作人员整合成训练资讯集,为保证最终得到的资讯分类模型的分类准确性,要求采集的训练资讯数量满足一定的数量级别,如采集的训练资讯数量大于一万条。
S102、对所述训练资讯集中的训练资讯进行多类别标注。
需要说明的是,为了提高资讯分类模型的准确性,利用多类别标注的方法,根据每一条训练资讯中包含的内容进行人工类别标注,最终得到每一条训练资讯属于不同资讯类别的概率。
可选的,所述对所述训练资讯集中的训练资讯进行多类别标注,包括:
将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,C={c1,c2,…,cm}为不同的资讯类别,P={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi),m和i均为大于或等于1的正整数。
需要说明的是,训练资讯集可以表示为X={x1,x2,…,xn},其中,n为大于或等于1的正整数。
S103、对多类别标注后的训练资讯集进行切词和过滤,得到训练词集。
可选的,所述对多类别标注后的训练资讯集进行切词和过滤,得到训练词集,包括:
对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
需要说明的是,具体可以采用Python中文分词组件,也就是结巴分词组件对多累别标注后的训练资讯集进行切词,得到第一词集,通过切词可以拆分训练资讯集中的语句,再通过领域词表过滤,得到能够用于确认资讯类别的有意义的词。
所述领域词表是指与各个资讯类别有关的词形成的词表。具体可以预先由工作人员根据不同的资讯类别人工定义词表中的词。
可以采用所述信息增益算法(Information Gain,IG)计算所述第三词集中每个词与不同资讯类别之间的信息增益,信息增益算法是一种用于进行判断的参考量,代表了在一个条件下,信息复杂度减少的程度。
比如说,我们对一个事件的信息什么都不知道的话,我们做决定的时候不确定度大约是值A;而当我们在一定条件下或者知道某个特征的情况下,不确定度就减少了一个单位,即A-1,而这个值就是信息增益;在诸多特征中,某个特征的信息增益是最大的,那么根据这个特征所作出的决定不确定度减少的也是最多的,也就是增益越大,确定度就越高,因此,剔除信息增益小于预设阈值的词,进一步增加确定资讯类别的准确性和效率。
S104、将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到所述资讯分类模型。
需要说明的是,朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类方法,也是应用最为广泛的分类方法,现有技术中就是采用原始的朴素贝叶斯算法训练的资讯分类模型,但现有技术训练模型时,训练资讯是每条资讯与资讯类别有唯一的对应关系,而本发明实施例中,每条资讯对应的是与多种资讯类别的概率关系,因此原始的朴素贝叶斯算法并不适用于本发明。
具体的,根据朴素贝叶斯定理需要利用训练资讯集计算不同资讯类别的先验概率p(cj)和不同资讯类别标签下每个词出现的条件概率p(wi|cj),传统的p(cj)和p(wi|cj)的计算方法如下:
Figure BDA0002278900120000071
Figure BDA0002278900120000072
其中,
Figure BDA0002278900120000075
表示属于cj类的资讯个数,N表示训练资讯集中的资讯个数,count(wi,cj)表示cj类资讯中wi出现的次数,∑wcount(wi,cj)表示cj类资讯中所有词出现的次数之和。
可见,由于本发明实施例中,每条资讯对应的是与多种资讯类别的概率关系,无法明确的得到属于某一类的资讯的个数,上述先验概率p(cj)和条件概率p(wi|cj)的公式已经不适用了。
因此,本发明实施例依据先验概率和条件概率的涵义,对原始的朴素贝叶斯模型中的先验概率公式和条件概率公式进行改进。
可选的,所述将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到所述资讯分类模型,包括;
将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
以及条件概率公式
Figure BDA0002278900120000074
进行模型训练,得到所述资讯分类模型,其中,count为频率计算,j、i、n、k均为大于或等于1的正整数。
需要说明的是,由上述改进朴素贝叶斯模型中的先验概率公式和条件概率公式可知,先验概率p(cj)不再是简单的“属于cj类的资讯个数除以所有资讯个数”,而是“将所有资讯分别属于cj类的概率求和再除以所有资讯个数”;同理p(wi|cj)也不再是简单的“在cj类资讯中wi出现的次数除以cj类资讯中所有词出现的次数之和”,而是“首先计算每条资讯中wi出现的次数乘以该条资讯属于cj类的概率之后再求和;然后计算每条资讯中所有词出现的次数之和乘以该条资讯属于cj类的概率之后再求和,最后计算第一个和除以第二个和”。
进一步需要说明的是,为了防止有一个项p(wi|cj)为0,导致模型退化,无法得到输出结果,本发明实施例采用拉普拉斯平滑,对p(wi|cj)的计算公式进行修正,修正后的p(wi|cj)公式为:
Figure BDA0002278900120000081
其中,t为平滑算子,t的取值可以为1、0.1等。
可选的,所述资讯分类方法,还包括:
根据选择得到的输入资讯的资讯类别,以及前端显示要求,将所述输入资讯在前端显示界面显示。
需要说明的是,前端显示要求规定了显示界面中不同资讯类别的显示位置和显示方式,在得到输入资讯的资讯类别后,将输入资讯按照资讯类别加入到前端显示界面的相应位置进行显示。
本实施例公开的资讯分类模型的训练方法,采集训练资讯,得到训练资讯集;对训练资讯集中的训练资讯进行多类别标注;对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;将训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。可见,本发明的资讯分类模型通过多类别标注后的训练资讯集进行模型训练,最终资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率,而不是像现有技术一样直接将资讯标定为某一资讯分类,不考虑资讯内容包含的其他分类内容,本发明的资讯分类更加清楚准确。
如图2所示,基于上述本发明实施例公开了一种资讯分类模型的训练方法得到的资讯分类模型,本发明另一实施例公开了一种资讯分类方法,包括:
S201、接收输入资讯。
需要说明的是,所述输入资讯可以是从网络上采集到的资讯信息,也可以是工作人员输入的资讯信息。
S202、将所述输入资讯输入预先训练完成的资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率。
需要说明的是,区别于现有技术的资讯分类模型,本发明实施例中的资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率,而不是直接得到资讯分类模型确定的分类结果。
S203、根据所述输入资讯属于不同资讯类别的概率,选择所述输入资讯的资讯类别。
需要说明的是,在得到输入资讯属于不同资讯类别的概率后,可以选择简单的以概率最大的资讯类别作为输入资讯的资讯类别,也可以加入其它参考量,进一步的在不同概率的资讯类别中选择一个资讯类别作为输入资讯的资讯类别,具体方式可以根据需求自行配置。
如图3所示,为本发明另一实施例公开的资讯分类模型的训练方法的流程示意图,其中,通过训练资讯集在线下预先进行资讯分类模型的训练,然后在线上接收到新的输入资讯后,将其输入资讯分类模型,得到输入资讯属于不同资讯类别的概率,然后选择输入资讯的资讯类别,再根据选择得到的输入资讯的资讯类别,以及前端显示要求,将所述输入资讯在前端显示界面显示。
基于上述本发明实施例公开的资讯分类模型的训练方法,图4具体公开了应用该资讯分类模型的训练方法的资讯分类模型的训练装置。
如图4所示,本发明另一实施例公开了一种资讯分类模型的训练装置,该装置包括:
采集单元401,用于采集训练资讯,得到训练资讯集。
标注单元402,用于对所述训练资讯集中的训练资讯进行多类别标注。
过滤单元403,用于对多类别标注后的训练资讯集进行切词和过滤,得到训练词集。
训练单元404,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。
可选的,所述标注单元402,用于将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,C={c1,c2,…,cm}为不同的资讯类别,P={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi)。
可选的,所述过滤单元403,包括:
切词子单元,用于对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
处理子单元,用于根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
过滤子单元,用于根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算子单元,用于计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
可选的,所述训练单元404,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
Figure BDA0002278900120000101
以及条件概率公式
Figure BDA0002278900120000102
进行模型训练,得到所述资讯分类模型。
可选的,所述训练装置,还包括:
接收单元,用于接收输入资讯;
获取单元,用于将所述输入资讯输入所述资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率;
选择单元,用于根据所述输入资讯属于不同资讯类别的概率,得到所述输入资讯的资讯类别。
以上本发明实施例公开的资讯分类装置中的采集单元401、标注单元402、过滤单元403和训练单元404的具体工作过程,可参见本发明上述实施例公开的资讯分类方法中的对应内容,这里不再进行赘述。
本实施例公开的资讯分类模型的训练装置,采集训练资讯,得到训练资讯集;对训练资讯集中的训练资讯进行多类别标注;对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;将训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。可见,本发明的资讯分类模型通过多类别标注后的训练资讯集进行模型训练,最终资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率,而不是像现有技术一样直接将资讯标定为某一资讯分类,不考虑资讯内容包含的其他分类内容,本发明的资讯分类更加清楚准确。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种资讯分类模型的训练方法,其特征在于,包括:
采集训练资讯,得到训练资讯集;
对所述训练资讯集中的训练资讯进行多类别标注;
对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;
将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。
2.根据权利要求1所述的训练方法,其特征在于,所述对所述训练资讯集中的训练资讯进行多类别标注,包括:
将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,C={c1,c2,…,cm}为不同的资讯类别,P={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi)。
3.根据权利要求1所述的训练方法,其特征在于,所述对多类别标注后的训练资讯集进行切词和过滤,得到训练词集,包括:
对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
4.根据权利要求1所述的训练方法,其特征在于,所述将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到所述资讯分类模型,包括;
将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
Figure FDA0002278900110000011
以及条件概率公式
Figure FDA0002278900110000021
进行模型训练,得到所述资讯分类模型。
5.根据权利要求1所述的训练方法,其特征在于,还包括:
接收输入资讯;
将所述输入资讯输入所述资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率;
根据所述输入资讯属于不同资讯类别的概率,得到所述输入资讯的资讯类别。
6.一种资讯分类模型的训练装置,其特征在于,包括:
采集单元,用于采集训练资讯,得到训练资讯集;
标注单元,用于对所述训练资讯集中的训练资讯进行多类别标注;
过滤单元,用于对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;
训练单元,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。
7.根据权利要求6所述的训练装置,其特征在于,所述标注单元,用于将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,C={c1,c2,…,cm}为不同的资讯类别,P={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi)。
8.根据权利要求6所述的训练装置,其特征在于,所述过滤单元,包括:
切词子单元,用于对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
处理子单元,用于根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
过滤子单元,用于根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算子单元,用于计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
9.根据权利要求6所述的训练装置,其特征在于,所述训练单元,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
Figure FDA0002278900110000031
以及条件概率公式
Figure FDA0002278900110000032
进行模型训练,得到所述资讯分类模型。
10.根据权利要求7所述的训练装置,其特征在于,还包括:
接收单元,用于接收输入资讯;
获取单元,用于将所述输入资讯输入所述资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率;
选择单元,用于根据所述输入资讯属于不同资讯类别的概率,得到所述输入资讯的资讯类别。
CN201911133245.0A 2019-11-19 2019-11-19 资讯分类模型的训练方法及装置 Pending CN110851607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911133245.0A CN110851607A (zh) 2019-11-19 2019-11-19 资讯分类模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911133245.0A CN110851607A (zh) 2019-11-19 2019-11-19 资讯分类模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN110851607A true CN110851607A (zh) 2020-02-28

Family

ID=69602236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911133245.0A Pending CN110851607A (zh) 2019-11-19 2019-11-19 资讯分类模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN110851607A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667834A (zh) * 2020-12-23 2021-04-16 深圳开立生物医疗科技股份有限公司 一种图像标注方法及相关装置
CN113434685A (zh) * 2021-07-06 2021-09-24 中国银行股份有限公司 一种资讯分类处理的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913072A (zh) * 2016-03-31 2016-08-31 乐视控股(北京)有限公司 视频分类模型的训练方法和视频分类方法
CN107748783A (zh) * 2017-10-24 2018-03-02 天津大学 一种基于句向量的多标签公司描述文本分类方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
CN109657058A (zh) * 2018-11-29 2019-04-19 东莞理工学院 一种公告信息的抽取方法
CN110019777A (zh) * 2017-09-05 2019-07-16 腾讯科技(深圳)有限公司 一种信息分类的方法及设备
CN110264443A (zh) * 2019-05-20 2019-09-20 平安科技(深圳)有限公司 基于特征可视化的眼底图像病变标注方法、装置及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913072A (zh) * 2016-03-31 2016-08-31 乐视控股(北京)有限公司 视频分类模型的训练方法和视频分类方法
CN110019777A (zh) * 2017-09-05 2019-07-16 腾讯科技(深圳)有限公司 一种信息分类的方法及设备
CN107748783A (zh) * 2017-10-24 2018-03-02 天津大学 一种基于句向量的多标签公司描述文本分类方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
CN109657058A (zh) * 2018-11-29 2019-04-19 东莞理工学院 一种公告信息的抽取方法
CN110264443A (zh) * 2019-05-20 2019-09-20 平安科技(深圳)有限公司 基于特征可视化的眼底图像病变标注方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667834A (zh) * 2020-12-23 2021-04-16 深圳开立生物医疗科技股份有限公司 一种图像标注方法及相关装置
CN113434685A (zh) * 2021-07-06 2021-09-24 中国银行股份有限公司 一种资讯分类处理的方法及系统

Similar Documents

Publication Publication Date Title
CN107491432B (zh) 基于人工智能的低质量文章识别方法及装置、设备及介质
WO2019200806A1 (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN110232149B (zh) 一种热点事件检测方法和系统
CN108269125B (zh) 评论信息质量评估方法及系统、评论信息处理方法及系统
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
CN109271520B (zh) 数据提取方法、数据提取装置、存储介质和电子设备
CN108090211B (zh) 热点新闻推送方法和装置
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN108305180B (zh) 一种好友推荐方法及装置
CN106445915B (zh) 一种新词发现方法及装置
Bestgen Inadequacy of the chi-squared test to examine vocabulary differences between corpora
CN110807086B (zh) 文本数据标注方法及装置、存储介质、电子设备
CN109446393B (zh) 一种网络社区话题分类方法及装置
CN110851607A (zh) 资讯分类模型的训练方法及装置
CN111026866B (zh) 一种面向领域的文本信息抽取聚类方法、设备和存储介质
CN108462624B (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN111858942A (zh) 一种文本抽取方法、装置、存储介质和电子设备
CN109740156B (zh) 反馈信息处理方法、装置、电子设备及存储介质
CN111209480A (zh) 一种推送文本的确定方法、装置、计算机设备和介质
CN110717788A (zh) 一种目标用户的筛选方法及装置
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN107480126B (zh) 一种工程材料类别智能识别方法
JP2011039575A (ja) コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム
CN112699671A (zh) 一种语言标注方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228