CN109857862A - 基于智能决策的文本分类方法、装置、服务器及介质 - Google Patents
基于智能决策的文本分类方法、装置、服务器及介质 Download PDFInfo
- Publication number
- CN109857862A CN109857862A CN201910007838.6A CN201910007838A CN109857862A CN 109857862 A CN109857862 A CN 109857862A CN 201910007838 A CN201910007838 A CN 201910007838A CN 109857862 A CN109857862 A CN 109857862A
- Authority
- CN
- China
- Prior art keywords
- text
- comment
- comment text
- bag
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000012216 screening Methods 0.000 claims description 74
- 238000010276 construction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种基于智能决策的文本分类方法、装置、服务器及介质,其中,该方法包括:利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;通过所述第二词袋模型构建用于文本分类的级联森林模型;在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对所述目标评语文本进行分类,得到对所述目标评语文本的分类结果。采用本发明,可以提高计算速率和分类精度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于智能决策的文本分类方法、装置、服务器及介质。
背景技术
在自然语言处理中,通常会使用循环神经网络等神经网络来对文本进行分类。然而,采用循环神经网络等神经网络进行文本分类时,会存在计算效率较低,分类精度不高等诸多问题。
发明内容
本申请实施例提供了一种基于智能决策的文本分类方法、装置、服务器及介质,可以提高计算效率和分类精度。
第一方面,本申请实施例提供了一种基于智能决策的文本分类方法,包括:
利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;
从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;
通过第二词袋模型构建用于文本分类的级联森林模型;
在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对目标评语文本进行分类,得到对所述目标评语文本的分类结果。
可选地,所述方法还包括:
从指定平台获取评语文本集合;所述评语文本集合包括多个评语文本;
根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本;所述预设筛选规则包括以下任意一项或多项:无用评语文本筛选规则、评论时间筛选规则、文本长度筛选规则、评语文本类别筛选规则。
可选地,所述预设筛选规则包括无用评语文本筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
从评语文本集合中确定出无用评语文本,并删除所述评语文本集合中的所述无用评语文本;所述无用评语文本为以下任意一项或多项:恶俗评语文本、有用指数低于第一预设值的评语文本、无用指数高于第二预设值的评语文本、不属于分类类别和/或分类对象的评语文本;
将执行了删除操作的评语文本集合确定为训练文本。
可选地,所述预设筛选规则包括评论时间筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
获取所述评语文本集合中各个评语文本的评论时间;
从所述各个评语文本中确定出评论时间在预设时间范围内的评语文本,并将所述在预设时间范围内的评语文本确定为训练文本。
可选地,所述预设筛选规则包括文本长度筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
统计所述评语文本集合中各个评语文本的文本长度;
从所述各个评语文本中确定出文本长度大于预设文本长度的评语文本,并将所述文本长度大于预设文本长度的评语文本确定为训练文本。
可选地,所述将所述文本长度大于预设文本长度的评语文本作为训练文本,包括:
删除所述文本长度大于预设文本长度的评语文本中,重复词语的数量大于预设数量的评语文本;
将执行了删除操作的所述文本长度大于预设文本长度的评语文本,作为训练文本。
可选地,所述从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型,包括:
对第一词袋模型中的词特征进行卡方运算,得到每个词特征的卡方值;
将每个词特征按照卡方值从高到低排序,选取前预设数量个词特征构建词特征集合,并生成包括所述词特征集合的第二词袋模型。
第二方面,本申请实施例提供了一种基于智能决策的文本分类装置,包括:
构建单元,用于利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;
处理单元,用于从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;
所述构建单元,还用于通过所述第二词袋模型构建用于文本分类的级联森林模型;
所述处理单元,还用于在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对目标评语文本进行分类,得到对所述目标评语文本的分类结果。
第三方面,本申请实施例提供了一种服务器,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的方法。
综上所述,服务器可以利用训练文本构建第一词袋模型,并从第一词袋模型的词特征中筛选出满足预设条件的词特征集合以构建第二词袋模型,从而利用该第二词袋模型构建用于文本分类的级联森林模型,以在需要对待分类的目标评语分本进行分类识别时,调用该级联森林模型对该目标评语文本进行分类,得到该目标评语文本的分类结果。采用构建的级联森林模型进行文本分类,不仅提高了计算速率,还提高了分类精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于智能决策的文本分类方法的流程示意图;
图2是本申请再一实施例提供的一种基于智能决策的文本分类方法的流程示意图;
图3是本申请实施例提供的一种基于智能决策的文本分类装置的结构示意图;
图4是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参阅图1,为本申请实施例提供的一种基于智能决策的文本分类方法的流程示意图。该方法可以应用于服务器,具体的,该方法可以包括以下步骤:
S101、利用训练文本构建第一词袋模型。
其中,第一词袋模型可以包括该训练文本中各评语文本的词特征,还可以包括各评语文本的词特征的值。
本申请实施例中,该各评语文本可以是上级对下级的评语文本。在一个实施例中,该上级对下级的评语文本可以分为工作、学习、性格等类别。或者,该各评语文本还可以是用户对保险产品的评语文本。在一个实施例中,该用户对保险产品的评语文本可以分为服务、质量、生命周期、价格等类别。或,该各评语文本还可以是用户针对小说、视频等对象的评语文本。在一个实施例中,用户针对视频的评语文本可以分为简介式、广告式、技术式、史学式、理论式、观感式等类别。
在一个实施例中,服务器可以通过sk-learn中的函数,实现利用训练文本构建第一词袋模型的过程。
在一个实施例中,该第一词袋模型可以为词频-逆文档频率TF-IDF词袋模型。TF-IDF词袋模型可以是结合词袋模型和TF-IDF模型得到的模型。
S102、从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型。
由于一些长文本的出现,导致第一词袋模型较为庞大,不方便存储,因此可以通过卡方校验或信息增益等方式,从第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据该词特征集合生成第二词袋模型。该第二词袋模型可以包括词特征集合,还可以包括各评语文本对应该词特征集合中的词特征的值。
对于卡方校验,在一个实施例中,服务器从该第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据该词特征集合生成第二词袋模型,可以包括:服务器对第一词袋模型中的词特征进行卡方运算,得到每个特征的卡方值;服务器从该各个特征中确定出卡方值大于预设值的词特征以构建词特征集合,并生成包括该词特征集合的第二词袋模型。
例如,服务器对第一词袋模型中的1000个词特征进行卡方运算,得到每个词特征的卡方值;服务器从1000个词特征中确定出卡方值大于预设值的词特征,并利用该卡方值大于预设值的词特征构建词特征集合;服务器生成包括该词特征集合的第二词袋模型。
或,服务器从该第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据该词特征集合生成第二词袋模型,还可以包括:服务器对第一词袋模型中的词特征进行卡方运算,得到每个词特征的卡方值;服务器将每个词特征按照卡方值从高到低排序,选取前预设数量个词特征构建词特征集合,并生成包括该词特征集合的第二词袋模型。
例如,服务器对第一词袋模型中的1000个词特征进行卡方运算,得到每个词特征的卡方值;服务器将1000个词特征按照卡方值从高到低排序,选取前500个词特征构建词特征集合;服务器生成包括该词特征集合的第二词袋模型。
S103、通过所述第二词袋模型构建用于文本分类的级联森林模型。
其中,该级联森林模型可以包括预设层数的级联森林。例如,该预设层数可以为3-8层。本方案的预设层数可以为5层。每层级联森林可以包括预设数量的随机森林,如4个随机森林。或者,每层级联森林还可以包括第一数量的完全随机树森林和第二数量的随机森林,如2个完全随机树森林和2个随机森林。
在一个实施例中,服务器通过所述第二词袋模型构建用于文本分类的级联森林模型,可以包括:服务器将该第二词袋模型划分为生长子集和评估子集;服务器利用生长子集训练当前级联森林,并利用评估子集验证当前级联森林的准确率是否提升;如果没有提升,则停止增加级联层,得到最终的级联森林模型;如果有提升,则继续增加级联层,并利用生长子集逐级训练增加的级联层。
其中,服务器利用评估子集验证当前级联森林的准确率是否提升,可以包括:服务器将评估子集输入到当前级联森林中,在该当前级联森林的输出端得到分类结果;再将该分类结果分别与已知的类别进行比较,得到该当前级联森林的准确率;将当前级联森林的准确率与前一级联层的级联森林的准确率进行比较,以判断当前级联森林的准确率是否提升。
S104、在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对所述目标评语文本进行分类,得到对所述目标评语文本的分类结果。
其中,该目标评语文本可以是新的文本或者其它文本,该分类结果包括该目标评语的分类类别。例如,该各评语文本是上级对下级的评语文本。在一个实施例中,该分类结果可以为工作、学习、性格等类别中任一个或多个类别。或者,该各评语文本是用户对保险产品的评语文本。在一个实施例中,该分类结果可以为服务、质量、生命周期、价格等类别中任一个或多个类别。或,该各评语文本是用户针对小说、视频等对象的评语文本。在一个实施例中,该分类结果可以为简介式、广告式、技术式、史学式、理论式、观感式等中的任一个或多个类别。
具体地,服务器调用所述级联森林模型对所述目标评语文本进行分类,得到对所述目标评语文本的分类结果,可以包括:服务器将该目标评语文本的词特征输入到级联森林模型中以进行分类识别;服务器通过该级联森林模型输出该目标评语文本的分类结果。
服务器将该目标评语文本的词特征输入到级联森林模型中,可以包括:服务器将目标评语文本的词特征的值输入到级联森林模型中。
在一个实施例中,服务器可以通过第二词袋模型确定目标评语文本的词特征,还可以通过第二词袋模型得到目标评语文本的词特征的值。其中,该目标评语文本的词特征的值为该目标评语文本对应词特征集合中的词特征的值。
本申请实施例还可以通过其他方式得到该目标评语文本的词特征以及词特征的值,在此不一一列举。
可见,图1所示的实施例中,服务器可以利用训练文本构建第一词袋模型,并从第一词袋模型的词特征中筛选出满足预设条件的词特征集合以构建第二词袋模型,从而利用该第二词袋模型构建用于文本分类的级联森林模型,以在需要对待分类的目标评语文本进行分类识别时,调用该级联森林模型对该目标评语文本进行分类,得到该目标评语文本的分类结果。采用构建的级联森林模型进行文本分类,不仅提高了计算速率,还提高了分类精度。
请参阅图2,为本申请再一实施例提供的一种基于智能决策的文本分类方法的流程示意图。该方法可以应用于服务器,具体的,该方法可以包括以下步骤:
S201、从指定平台获取评语文本集合。
本申请实施例中,服务器从指定平台获取评语文本集合,可以包括:服务器从指定平台下载评语文本集合。或,若服务器数据库保存了该评语文本集合,则服务器可以从数据库获取该评语文本集合。
其中,该评语文本集合包括多个评语文本。该指定平台根据分类对象的不同可以不同。例如,该分类对象为上级对下级的评语文本,则该指定平台,可以为在职公司的服务器。该分类对象为用户对保险产品的评语文本,则该指定平台,可以为保险公司的服务器。该分类对象为用户对小说的评语文本,则该指定平台,可以为小说服务器。该分类对象为用户对视频的评语文本,则该指定平台,可以视频服务器、影评服务器等服务器。
S202、根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本。
其中,该预设筛选规则可以包括以下任意一项或多项:无用评语文本筛选规则、评论时间筛选规则、文本长度筛选规则、评语文本类别筛选规则。
在一个实施例中,该预设筛选规则包括无用评语文本筛选规则,服务器根据预设筛选规则的指示,从该评语文本集合中筛选出训练文本,包括:服务器从评语文本集合中确定出无用评语文本,并删除该评语文本集合中的该无用评语文本;服务器将执行了删除操作的评语文本集合确定为训练文本。其中,该无用评语文本为以下任意一项或多项:恶俗评语文本、有用指数低于第一预设值的评语文本、无用指数高于第二预设值的评语文本、不属于分类类别和/或分类对象的评语文本。通过无用文本评语的筛选,可以提高训练文本的可靠性。
在一个实施例中,恶俗评语文本,可以通过关键字检测等方式确定出。例如,检测到某一评语文本包括垃圾,则可以将该评语文本确定为恶俗评语文本。该有用指数可以根据对有用图标的点击量或查看量确定出;或,还可以根据转发量、收藏量等参数确定出。无用指数可以根据对无用图标的点击量或查看量等参数确定出。不属于分类类别和/或分类对象的评语文本,可以通过人工筛选或机器学习等方式确定出,本申请实施例对其不做限制。例如,若分类对象为上级对下级的评语文本,则将评语文本集合中员工对公司环境的评论文本、对公司附近交通的评论文本等评论文本确定为无用文本。
在一个实施例中,该预设筛选规则包括评论时间筛选规则,服务器根据预设筛选规则的指示,从该评语文本集合中筛选出训练文本,包括:服务器获取该评语文本集合中各个评语文本的评论时间;服务器从该各个评语文本中确定出评论时间在预设时间范围内的评语文本,并将该在预设时间范围内的评语文本确定为训练文本。其中,该预设时间范围可以为近一年,近半年,近一个季度等时间范围。
例如,服务器获取该评语文本集合中各个评语文本的评论时间;服务器从该各个评语文本中确定出评论时间在近半年内的评语文本,并将该在近半年内的评语文本确定为训练文本。
在一个实施例中,针对不同应用场景,该预设时间范围可使用不同的策略设置。例如,在员工考核的场景,该预设时间范围,可以是根据预设的考核周期设置的,该预设时间范围设为近半年。在视频分析的场景,该预设时间范围,可以是根据视频上映的时间设置的,例如,该预设时间范围设为视频上映后的某个时间段。
在一个实施例中,该预设筛选规则包括无用评语文本筛选规则和评论时间筛选规则,服务器根据预设筛选规则的指示,从该评语文本集合中筛选出训练文本,包括:服务器获取该评语文本集合中各个评语文本的评论时间;服务器从该各个评语文本中确定出评论时间在预设时间范围内的评语文本,并删除该评论时间在预设时间范围内的评语文本中的无用评语文本;服务器将执行了删除操作的该评论时间在预设时间范围内的评语文本确定为训练文本。
在一个实施例中,该预设筛选规则包括文本长度筛选规则,服务器根据预设筛选规则的指示,从该评语文本集合中筛选出训练文本,包括:服务器统计该评语文本集合中各个评语文本的文本长度;服务器从该各个评语文本中确定出文本长度大于预设文本长度的评语文本,并将该文本长度大于预设文本长度的评语文本确定为训练文本。
例如,服务器统计该评语文本集合中各个评语文本的文本长度;服务器从该各个评语文本中确定出文本长度大于30的评语文本,并将该文本长度大于30的评语文本确定为训练文本。
在一个实施例中,服务器将该文本长度大于预设文本长度的评语文本作为训练文本,包括:服务器删除该文本长度大于预设文本长度的评语文本中,重复词语的数量大于预设数量的评语文本;服务器将执行了删除操作的该文本长度大于预设文本长度的评语文本,作为训练文本。通过删除重复词语的数量大于预设数量的评语文本,可以有提高训练文本的可靠性。
S203、利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;
S204、从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;
S205、通过所述第二词袋模型构建用于文本分类的级联森林模型;
S206、在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对所述目标评语文本进行分类,得到对所述目标评语文本的分类结果。
其中,步骤S203-S206可参见图1实施例中的步骤S101-S104,本申请实施例在此不做赘述。
可见,图2所示的实施例中,服务器可以通过对从指定平台获取的评语文本集合中,按照一定筛选规则筛选出训练文本,提高了训练文本的可参考性。后续,服务器可以利用筛选出的训练文本得到级联森林模型,并利用该级联森林模型对待分类的目标评语文本进行分类,不仅提高了计算速率,还提高了分类精度。
请参阅图3,为本申请实施例提供的一种基于智能决策的文本分类装置的结构示意图。该装置可以应用于服务器。具体的,该装置可以包括:
构建单元31,用于利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;
处理单元32,用于从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;
构建单元31,还用于通过所述第二词袋模型构建用于文本分类的级联森林模型;
处理单元32,还用于在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对目标评语文本进行分类,得到对所述目标评语文本的分类结果。
在一种可选的实施方式中,获取单元33,用于从指定平台获取评语文本集合;所述评语文本集合包括多个评语文本;
在一种可选的实施方式中,筛选单元34,用于根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本;所述预设筛选规则包括以下任意一项或多项:无用评语文本筛选规则、评论时间筛选规则、文本长度筛选规则、评语文本类别筛选规则。
在一种可选的实施方式中,所述预设筛选规则包括无用评语文本筛选规则,筛选单元34,具体用于从评语文本集合中确定出无用评语文本,并删除所述评语文本集合中的所述无用评语文本;所述无用评语文本为以下任意一项或多项:恶俗评语文本、有用指数低于第一预设值的评语文本、无用指数高于第二预设值的评语文本、不属于分类类别和/或分类对象的评语文本;将执行了删除操作的评语文本集合确定为训练文本。
在一种可选的实施方式中,所述预设筛选规则包括评论时间筛选规则,筛选单元34,具体用于获取所述评语文本集合中各个评语文本的评论时间;从所述各个评语文本中确定出评论时间在预设时间范围内的评语文本,并将所述在预设时间范围内的评语文本确定为训练文本。
在一种可选的实施方式中,所述预设筛选规则包括文本长度筛选规则。筛选单元34,具体用于统计所述评语文本集合中各个评语文本的文本长度;从所述各个评语文本中确定出文本长度大于预设文本长度的评语文本,并将所述文本长度大于预设文本长度的评语文本确定为训练文本。
在一种可选的实施方式中,筛选单元34将所述文本长度大于预设文本长度的评语文本作为训练文本,具体为删除所述文本长度大于预设文本长度的评语文本中,重复词语的数量大于预设数量的评语文本;将执行了删除操作的所述文本长度大于预设文本长度的评语文本,作为训练文本。
在一种可选的实施方式中,处理单元32从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型,具体为对第一词袋模型中的词特征进行卡方运算,得到每个词特征的卡方值;将每个词特征按照卡方值从高到低排序,选取前预设数量个词特征构建词特征集合,并生成包括所述词特征集合的第二词袋模型。
可见,图3所示的实施例中,服务器可以利用训练文本构建第一词袋模型,并从第一词袋模型的词特征中筛选出满足预设条件的词特征集合以构建第二词袋模型,从而利用该第二词袋模型构建用于文本分类的级联森林模型,以在需要对待分类的目标评语文本进行分类识别时,调用该级联森林模型对该目标评语文本进行分类,得到该目标评语文本的分类结果。采用构建的级联森林模型进行文本分类,不仅提高了计算速率,还提高了分类精度。
请参阅图4,为本申请实施例提供的一种服务器的结构示意图。其中,本实施例中所描述的服务器可以包括:一个或多个处理器1000,一个或多个输入设备2000,一个或多个输出设备3000和存储器4000。处理器1000、输入设备2000、输出设备3000和存储器4000可以通过总线连接。
输入设备2000、输出设备3000可以是标准的有线或无线通信接口。
处理器1000可以是中央处理模块(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器4000可以是高速RAM存储器,也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。存储器4000用于存储一组程序代码,输入设备2000、输出设备3000和处理器1000可以调用存储器4000中存储的程序代码。具体地:
处理器1000,用于利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;通过所述第二词袋模型构建用于文本分类的级联森林模型;在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对所述目标评语文本进行分类,得到对所述目标评语文本的分类结果。
可选地,处理器1000,还用于从指定平台获取评语文本集合;所述评语文本集合包括多个评语文本;根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本;所述预设筛选规则包括以下任意一项或多项:无用评语文本筛选规则、评论时间筛选规则、文本长度筛选规则、评语文本类别筛选规则。
可选地,所述预设筛选规则包括无用评语文本筛选规则,处理器1000具体用于从评语文本集合中确定出无用评语文本,并删除所述评语文本集合中的所述无用评语文本;所述无用评语文本为以下任意一项或多项:恶俗评语文本、有用指数低于第一预设值的评语文本、无用指数高于第二预设值的评语文本、不属于分类类别和/或分类对象的评语文本;将执行了删除操作的评语文本集合确定为训练文本。
可选地,所述预设筛选规则包括评论时间筛选规则,处理器1000,具体用于获取所述评语文本集合中各个评语文本的评论时间;从所述各个评语文本中确定出评论时间在预设时间范围内的评语文本,并将所述在预设时间范围内的评语文本确定为训练文本。
可选地,所述预设筛选规则包括文本长度筛选规则,处理器1000,具体用于统计所述评语文本集合中各个评语文本的文本长度;从所述各个评语文本中确定出文本长度大于预设文本长度的评语文本,并将所述文本长度大于预设文本长度的评语文本确定为训练文本。
可选地,处理器1000将所述文本长度大于预设文本长度的评语文本作为训练文本,具体为删除所述文本长度大于预设文本长度的评语文本中,重复词语的数量大于预设数量的评语文本;将执行了删除操作的所述文本长度大于预设文本长度的评语文本,作为训练文本。
可选地,处理器1000具体用于对第一词袋模型中的词特征进行卡方运算,得到每个词特征的卡方值;将每个词特征按照卡方值从高到低排序,选取前预设数量个词特征构建词特征集合,并生成包括所述词特征集合的第二词袋模型。
具体实现中,本发明实施例中所描述的处理器1000、输入设备2000、输出设备3000可执行图1-图2实施例所描述的实现方式,也可执行本发明实施例所描述的实现方式,在此不再赘述。
在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采样硬件的形式实现,也可以采样软件功能模块的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的介质,为计算机可读存储介质,该计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种基于智能决策的文本分类方法,其特征在于,包括:
利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;
从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;
通过所述第二词袋模型构建用于文本分类的级联森林模型;
在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对所述目标评语文本进行分类,得到对所述目标评语文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从指定平台获取评语文本集合;所述评语文本集合包括多个评语文本;
根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本;所述预设筛选规则包括以下任意一项或多项:无用评语文本筛选规则、评论时间筛选规则、文本长度筛选规则、评语文本类别筛选规则。
3.根据权利要求2所述的方法,其特征在于,所述预设筛选规则包括无用评语文本筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
从评语文本集合中确定出无用评语文本,并删除所述评语文本集合中的所述无用评语文本;所述无用评语文本为以下任意一项或多项:恶俗评语文本、有用指数低于第一预设值的评语文本、无用指数高于第二预设值的评语文本、不属于分类类别和/或分类对象的评语文本;
将执行了删除操作的评语文本集合确定为训练文本。
4.根据权利要求2所述的方法,其特征在于,所述预设筛选规则包括评论时间筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
获取所述评语文本集合中各个评语文本的评论时间;
从所述各个评语文本中确定出评论时间在预设时间范围内的评语文本,并将所述在预设时间范围内的评语文本确定为训练文本。
5.根据权利要求2所述的方法,其特征在于,所述预设筛选规则包括文本长度筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
统计所述评语文本集合中各个评语文本的文本长度;
从所述各个评语文本中确定出文本长度大于预设文本长度的评语文本,并将所述文本长度大于预设文本长度的评语文本确定为训练文本。
6.根据权利要求5所述的方法,其特征在于,所述将所述文本长度大于预设文本长度的评语文本作为训练文本,包括:
删除所述文本长度大于预设文本长度的评语文本中,重复词语的数量大于预设数量的评语文本;
将执行了删除操作的所述文本长度大于预设文本长度的评语文本,作为训练文本。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型,包括:
对第一词袋模型中的词特征进行卡方运算,得到每个词特征的卡方值;
将每个词特征按照卡方值从高到低排序,选取前预设数量个词特征构建词特征集合,并生成包括所述词特征集合的第二词袋模型。
8.一种基于智能决策的文本分类装置,其特征在于,包括:
构建单元,用于利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;
处理单元,用于从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;
所述构建单元,还用于通过所述第二词袋模型构建用于文本分类的级联森林模型;
所述处理单元,还用于在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对目标评语文本进行分类,得到对所述目标评语文本的分类结果。
9.一种服务器,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910007838.6A CN109857862B (zh) | 2019-01-04 | 2019-01-04 | 基于智能决策的文本分类方法、装置、服务器及介质 |
PCT/CN2019/117861 WO2020140620A1 (zh) | 2019-01-04 | 2019-11-13 | 基于智能决策的文本分类方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910007838.6A CN109857862B (zh) | 2019-01-04 | 2019-01-04 | 基于智能决策的文本分类方法、装置、服务器及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857862A true CN109857862A (zh) | 2019-06-07 |
CN109857862B CN109857862B (zh) | 2024-04-19 |
Family
ID=66893881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910007838.6A Active CN109857862B (zh) | 2019-01-04 | 2019-01-04 | 基于智能决策的文本分类方法、装置、服务器及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109857862B (zh) |
WO (1) | WO2020140620A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825874A (zh) * | 2019-10-29 | 2020-02-21 | 北京明略软件系统有限公司 | 一种中文文本分类方法和装置及计算机可读存储介质 |
WO2020140620A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于智能决策的文本分类方法、装置、服务器及存储介质 |
CN112036146A (zh) * | 2020-08-25 | 2020-12-04 | 广州视源电子科技股份有限公司 | 一种评语生成方法、装置、终端设备及存储介质 |
CN112182207A (zh) * | 2020-09-16 | 2021-01-05 | 神州数码信息系统有限公司 | 基于关键词提取和快速文本分类的发票虚抵风险评估方法 |
CN113408266A (zh) * | 2020-12-02 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备以及存储介质 |
CN113887193A (zh) * | 2021-09-14 | 2022-01-04 | 山东师范大学 | 一种学位论文评价方法、系统、介质及电子设备 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985836B (zh) * | 2020-08-31 | 2024-04-05 | 平安医疗健康管理股份有限公司 | 医保评分指标体系构建方法、装置、设备及存储介质 |
CN113495959B (zh) * | 2021-05-20 | 2022-09-09 | 山东大学 | 一种基于文本数据的金融舆情识别方法及系统 |
CN114925373B (zh) * | 2022-05-17 | 2023-12-08 | 南京航空航天大学 | 基于用户评语的移动应用隐私保护政策漏洞自动识别的方法 |
CN117786560B (zh) * | 2024-02-28 | 2024-05-07 | 通用电梯股份有限公司 | 一种基于多粒度级联森林的电梯故障分类方法及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008021244A2 (en) * | 2006-08-10 | 2008-02-21 | Trustees Of Tufts College | Systems and methods for identifying unwanted or harmful electronic text |
CN105335350A (zh) * | 2015-10-08 | 2016-02-17 | 北京理工大学 | 一种基于集成学习的语种识别方法 |
CN106874959A (zh) * | 2017-03-01 | 2017-06-20 | 南京大学 | 一种多尺度扫描级联森林学习机的训练方法 |
WO2017167097A1 (zh) * | 2016-03-31 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的模型训练方法和装置 |
CN109002473A (zh) * | 2018-06-13 | 2018-12-14 | 天津大学 | 一种基于词向量与词性的情感分析方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414300B (zh) * | 2008-11-28 | 2010-06-16 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN103136352B (zh) * | 2013-02-27 | 2016-02-03 | 华中师范大学 | 基于双层语义分析的全文检索系统 |
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN109857862B (zh) * | 2019-01-04 | 2024-04-19 | 平安科技(深圳)有限公司 | 基于智能决策的文本分类方法、装置、服务器及介质 |
-
2019
- 2019-01-04 CN CN201910007838.6A patent/CN109857862B/zh active Active
- 2019-11-13 WO PCT/CN2019/117861 patent/WO2020140620A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008021244A2 (en) * | 2006-08-10 | 2008-02-21 | Trustees Of Tufts College | Systems and methods for identifying unwanted or harmful electronic text |
CN105335350A (zh) * | 2015-10-08 | 2016-02-17 | 北京理工大学 | 一种基于集成学习的语种识别方法 |
WO2017167097A1 (zh) * | 2016-03-31 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的模型训练方法和装置 |
CN106874959A (zh) * | 2017-03-01 | 2017-06-20 | 南京大学 | 一种多尺度扫描级联森林学习机的训练方法 |
CN109002473A (zh) * | 2018-06-13 | 2018-12-14 | 天津大学 | 一种基于词向量与词性的情感分析方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020140620A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于智能决策的文本分类方法、装置、服务器及存储介质 |
CN110825874A (zh) * | 2019-10-29 | 2020-02-21 | 北京明略软件系统有限公司 | 一种中文文本分类方法和装置及计算机可读存储介质 |
CN112036146A (zh) * | 2020-08-25 | 2020-12-04 | 广州视源电子科技股份有限公司 | 一种评语生成方法、装置、终端设备及存储介质 |
CN112182207A (zh) * | 2020-09-16 | 2021-01-05 | 神州数码信息系统有限公司 | 基于关键词提取和快速文本分类的发票虚抵风险评估方法 |
CN112182207B (zh) * | 2020-09-16 | 2023-07-11 | 神州数码信息系统有限公司 | 基于关键词提取和快速文本分类的发票虚抵风险评估方法 |
CN113408266A (zh) * | 2020-12-02 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、设备以及存储介质 |
CN113887193A (zh) * | 2021-09-14 | 2022-01-04 | 山东师范大学 | 一种学位论文评价方法、系统、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020140620A1 (zh) | 2020-07-09 |
CN109857862B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857862A (zh) | 基于智能决策的文本分类方法、装置、服务器及介质 | |
US11238310B2 (en) | Training data acquisition method and device, server and storage medium | |
CN106682097A (zh) | 一种处理日志数据的方法和装置 | |
CN106843941B (zh) | 信息处理方法、装置和计算机设备 | |
CN103544188A (zh) | 移动互联网内容的用户偏好推送方法与装置 | |
CN106503254A (zh) | 语料分类方法、装置及终端 | |
CN105574544A (zh) | 一种数据处理方法和装置 | |
CN102945246B (zh) | 网络信息数据的处理方法及装置 | |
CN107368856A (zh) | 恶意软件的聚类方法及装置、计算机装置及可读存储介质 | |
CN106095939B (zh) | 账户权限的获取方法和装置 | |
CN107918657A (zh) | 一种数据源的匹配方法和装置 | |
CN106202126B (zh) | 一种用于物流监控的数据分析方法和装置 | |
CN107943792A (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
CN111026870A (zh) | 一种综合文本分类和图像识别的ict系统故障分析方法 | |
CN104809252A (zh) | 互联网数据提取系统 | |
CN107463935A (zh) | 应用分类方法和应用分类装置 | |
CN107229614A (zh) | 用于分类数据的方法和装置 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
CN108667678A (zh) | 一种基于大数据的运维日志安全检测方法及装置 | |
CN107305555A (zh) | 数据处理方法及装置 | |
CN111325422A (zh) | 一种工单派发方法及系统 | |
Dagar et al. | Twitter sentiment analysis using supervised machine learning techniques | |
CN107734534B (zh) | 一种网络负荷评估方法及装置 | |
CN111325562A (zh) | 粮食安全追溯系统及方法 | |
CN116089713A (zh) | 推荐模型训练方法、推荐方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |