CN108563786A - 文本分类和展示方法、装置、计算机设备及存储介质 - Google Patents

文本分类和展示方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108563786A
CN108563786A CN201810385958.5A CN201810385958A CN108563786A CN 108563786 A CN108563786 A CN 108563786A CN 201810385958 A CN201810385958 A CN 201810385958A CN 108563786 A CN108563786 A CN 108563786A
Authority
CN
China
Prior art keywords
text
classification
word segmentation
segmentation result
target category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810385958.5A
Other languages
English (en)
Other versions
CN108563786B (zh
Inventor
方小敏
符帆
罗梓奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810385958.5A priority Critical patent/CN108563786B/zh
Publication of CN108563786A publication Critical patent/CN108563786A/zh
Application granted granted Critical
Publication of CN108563786B publication Critical patent/CN108563786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本分类和展示方法、装置、计算机设备及存储介质,该文本分类方法包括:从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括目标类别的分词结果的文本添加目标类别的分类标记,并为不包括目标类别的分词结果的文本添加非目标类别的分类标记;按待分类的文本和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回为包括目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。本申请的方案提高了处理效率。

Description

文本分类和展示方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本分类和展示方法、装置、计算机设备及存储介质。
背景技术
随着科学技术的飞速发展,大数据时代逐步到来,数据处理方式多种多样。其中,数据分类由于能够在多方面起到重要作用,所以越来越受到大家的重视。
传统方法在一些场景下需要通过人工为大量数据添加分类标记。比如,在进行有监督的机器学习训练时,需要提前准备大批未分类的样本数据,通过人工为全量的大批未分类的样本数据一一添加分类标记,才能基于人工添加的分类标记后的样本数据进行有监督的机器学习训练。因此,传统方法通过人工方式为大量样本数据添加分类标记的效率比较低。
发明内容
基于此,有必要针对传统方法通过人工方式为大量样本数据添加分类标记的效率比较低的问题,提供一种文本分类和展示方法、装置、计算机设备及存储介质。
一种文本分类方法,所述方法包括:
从待分类的文本的分词结果中确定部分目标类别的分词结果;
为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;
根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;
将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;
将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。
一种文本分类装置,所述装置包括:
分词结果确定模块,用于从待分类的文本的分词结果中确定部分目标类别的分词结果;
标记添加模块,用于为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;
模型训练模块,用于根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;
分类模块,用于将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,并通知标记添加模块工作,直至满足迭代停止条件时得到待分类的文本的分类标记。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
从待分类的文本的分词结果中确定部分目标类别的分词结果;
为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;
根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;
将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;
将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。
一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:
从待分类的文本的分词结果中确定部分目标类别的分词结果;
为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;
根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;
将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;
将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。
上述文本分类方法、装置、计算机设备和存储介质,从待分类的文本的分词中确定出一部分的目标类别的分词结果,根据包括或不包括该确定出目标类别的分词结果为待分类的文本概略地添加相应的分类标记,根据添加分类标记的待分类的文本训练分类模型,通过分类模型确定各分词结果属于目标类别的概率,将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,即根据重新确定的目标类别的分词结果对待分类的文本所添加的分类标记进行更新以进行迭代处理,直至满足迭代停止条件时,所确定出的属于目标类别的分词结果最为准确,那么在满足迭代停止条件时得到的待分类的文本的分类标记也就最为准确。相较于传统的通过人工为全量文本添加分类标记的方式而言,本申请方案提高了处理效率。
一种文本展示方法,所述方法包括:
获取当前社交通信对象所对应的待展示的社交内容;
确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;
按照确定的所述分类标记确定所述社交内容的展示方式;
按照确定的展示方式展示所述社交内容。
一种文本展示装置,所述装置包括:
获取模块,用于获取当前社交通信对象所对应的待展示的社交内容;
分类标记确定模块,用于确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;
展示方式确定模块,用于按照确定的所述分类标记确定所述社交内容的展示方式;
展示模块,用于按照确定的展示方式展示所述社交内容。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取当前社交通信对象所对应的待展示的社交内容;
确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;
按照确定的所述分类标记确定所述社交内容的展示方式;
按照确定的展示方式展示所述社交内容。
一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:
获取当前社交通信对象所对应的待展示的社交内容;
确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;
按照确定的所述分类标记确定所述社交内容的展示方式;
按照确定的展示方式展示所述社交内容。
上述文本展示方法、装置、计算机设备和存储介质,通过获取由分类模型确定的社交内容的分类标记,来确定待展示的社交内容的展示方式。其中,分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到,即不需要对全部用于训练的文本添加分类标记,只需要对用于训练的文本中部分的文本添加有推广类别的分类标记就可以进行迭代训练得到分类模型。按照确定的展示方式对待展示的社交内容进行展示,即可以对推广类别的分类标记和非推广类别的分类标记所分别对应的社交内容按照不同的展示方式进行展示,从而将二者进行区分化展示处理,以减少对应于推广类别的分类标记的社交内容所带来的显示干扰。
附图说明
图1为一个实施例中文本分类方法的应用场景图;
图2为一个实施例中文本分类方法的流程示意图;
图3至图4为一个实施例中通过分类模型输出的各分词结果属于目标类别的概率示意图;
图5为一个实施例中分类稳定性验证结果的示意图;
图6为另一个实施例中文本分类方法的流程示意图;
图7为一个实施例中文本展示方法的流程示意图;
图8为一个实施例中社交内容展示界面图;
图9为一个实施例中文本分类装置的框图;
图10为另一个实施例中文本分类装置的框图;
图11为一个实施例中文本展示装置的框图;
图12为一个实施例中计算机设备的内部结构示意图;
图13为另一个实施例中计算机设备的内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中文本分类方法的应用场景图。参照图1,该应用场景中包括通过网络连接的终端110和服务器120。终端110可以是智能电视机、台式计算机或移动终端,移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。
服务器120可以从终端110收集待分类的文本。比如,用户在终端110分享社交内容,则终端110就可以将该社交内容发送至服务器120,服务器120可以收集同一用户发布的多个社交内容,也可以收集不同用户通过不同终端发布的大量的社交内容,服务器120可以将这些社交内容当做待分类的文本。可以理解,这里所列举的只是一个实施例中的应用场景,在其他实施例中,待分类的文本可以不从终端110中收集,也可以是服务器120从本地数据库中直接获取。而且,待分类的文本不限定于所列举的社交内容。
服务器120可以从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括目标类别的分词结果的文本添加非目标类别的分类标记;根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型。服务器120可以将各分词结果输入分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回为包括目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。
需要说明的是,本申请各实施例中的“第一”、“第二”、“第三”等等仅用作区分,而并不用于大小、先后、从属等方面的限定。
图2为一个实施例中文本分类方法的流程示意图。本实施例主要以该文本分类方法应用于计算机设备中进行举例说明,该计算机设备可以为图1中的服务器120。参照图2,该方法具体包括如下步骤:
S202,从待分类的文本的分词结果中确定部分目标类别的分词结果。
在一个实施例中,待分类的文本为短文本。短文本是指文本长度低于短文本长度阈值的含有较少特征的文本。其中,短文本长度阈值可以为200字或其他阈值。可以理解,由于短文本具有特征少的这一特点,所以用传统的深度学习模型来对短文本进行分类的效果并不理想。
需要说明的是,本申请的方案中的待分类的文本并不限定于短文本,也可以是非短文本,即本申请的各个实施例中的方法也可以适用于非短文本的分类处理。
可以理解,分词结果,是对待分类的文本进行分词处理得到的词。计算机设备可以直接获取待分类的文本的分词结果,也可以对待分类的文本进行分词处理,得到分词结果。部分目标类别的分词结果,是指部分属于目标类别的分词结果。需要说明的是,待分类的文本的分词结果中包括很多属于目标类别的分词结果,计算机设备并不是从分词结果中确定出全部的属于目标类别的分词结果,而是确定出部分属于目标类别的分词结果。
在一个实施例中,计算机设备可以获取预先设置的属于目标类别的分词结果,从待分类的文本的分词结果中,选取与预先设置的属于目标类别的分词结果匹配的分词结果。
在另一个实施例中,计算机设备也可以根据所接收的目标类别标记指令,从待分类的文本的分词结果中选取由目标类别标记指令所指定的目标类别的分词结果。目标类别标记指令,是用于指示标记出属于目标类别的分词结果的指令。
在又一个实施例中,计算机设备还可以从待分类的文本的分词结果中确定满足预设数量的目标类别的分词结果。比如,确定出10个属于目标类别的分词结果。
S204,为包括目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括目标类别的分词结果的文本添加非目标类别的分类标记。
具体地,计算机设备可以从待分类的文本中,识别包括所确定出的目标类别的分词结果的文本,为该包括目标类别的分词结果的文本添加目标类别的分类标记,然后为待分类的文本中除去包括目标类别的分词结果的文本之外的文本——即为不包括目标类别的分词结果的文本添加非目标类别的分类标记。
比如,待分类的文本有200个,其中,有95个文本中包括目标类别的分词结果,则为该95个文本添加目标类别的分类标记,剩余的105个文本则为不包括目标类别的分词结果的文本,则为这105个文本添加非目标类别的分类标记。
可以理解,包括目标类别的分词结果的文本中可以包括一个或多个目标类别的分词结果。需要说明的是,目标类别可以为一个或多个。非目标类别可以统一归为一个类别,当然非目标类别也可以为多个。因此,同一文本中可以包括属于不同目标类别的多个分词结果,这时,可以从这几个不同目标类别中选取(比如随机选取或者按照一定的选取规则选取)最终的目标类别,为该文本添加与选取的最终的目标类别的分类标记。
在一个实施例中,目标类别存在多个。步骤S204还包括:当同一文本包括属于不同目标类别的多个分词结果时,则统计同一文本中各目标类别的分词结果的数量;确定统计的分词结果的数量最大的目标类别;为同一文本添加确定的目标类别的分类标记。
具体地,当同一文本包括属于不同目标类别的多个分词结果时,计算机设备可以统计同一文本中各目标类别的分词结果的数量,从多个目标类别中,确定统计的分词结果的数量最大的目标类别。计算机设备可以为该文本添加所确定的目标类别的分类标记。
比如,一个文本中包括2个属于目标类别A的分词结果,以及包括1个属于目标类别B的分词结果,目标类别B的分词结果数量大于目标类别A的分词结果数量,所以,可以为该文本添加目标类别B的分类标记。
S206,根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型。
具体地,计算机设备可以根据待分类的文本和所添加的分类标记进行有监督学习训练,得到分类模型。可以理解,用使用有标记的训练数据进行机器学习训练以建立一个数学模型,再用已建立的模型来预测未知样本,此种方法称为有监督学习。
S208,将各分词结果输入分类模型中,输出各分词结果属于目标类别的概率。
具体地,计算机设备可以将待分类的文本的各分词结果输入分类模型中,通过分类模型对各分词结果进行分类预测,输出各分词结果属于目标类别的概率。可以理解,分类模型对各分词结果进行分类预测时,可以分别预测各分词结果属于目标类别的概率以及属于非目标类别的概率,该分类模型可以只输出各分词结果属于目标类别的概率,也可以既输出各分词结果属于目标类别的概率又输出各分词结果属于非目标类别的概率。
图3至图4为一个实施例中通过分类模型输出的各分词结果属于目标类别的概率示意图。假设最开始所确定出的部分目标类别的分词结果为“转发”、“免费”、“代理”、“价格”、“面膜”和“包邮”这6个,那么将包括这6个中至少一个的分词结果的文本添加目标类别的分类标记,其余文本添加非目标类别的分类标记进行机器学习训练,得到分类模型,然后将所有的分词结果输入该分类模型中,分别得到如图3和图4所示的属于目标类别的概率。可以理解,图3和图4中的计数栏位显示的是各分词结果的词频(即出现次数)。图3所示出的分词结果属于目标类别的概率非常高,都高达0.998以上。图4中所示出的分词结果属于目标类别的概率非常低,皆低至0.01左右。
S210,将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回为包括目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。
其中,迭代停止条件,是停止迭代处理的条件。
具体地,计算机设备可以将各分词结果属于目标类别的概率与第一概率阈值进行比对,确定出属于目标类别的概率大于或等于第一概率阈值的分词结果,并将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回步骤S204继续进行迭代处理。即为包括重新确定为目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括重新确定为目标类别的分词结果的文本添加非目标类别的分类标记,然后根据待分类的文本和为其重新添加的分类标记再进行模型训练,再将各分词结果输入再次得到的分类模型中,输出各分词结果属于目标类别的概率,然后再将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,并返回步骤S204。如此进行迭代处理,直至满足迭代停止条件。计算机设备可以获取在满足迭代停止条件时待分类的文本的分类标记。
在一个实施例中,迭代停止条件可以包括达到预设迭代次数;或者,当次迭代所重新确定的目标类别的分词结果与上一次迭代所确定的目标类别的分词结果一致(即找不出新的分词结果);或者,当次迭代所确定的待分类的文本的分类标记与上一次迭代所确定的待分类的文本的分类标记一致(即待分类的文本的分类标记不再变化)。
为了直观地体现本申请方案的分类稳定性,发明人专门针对该待分类的文本准备了一份通过人工添加的准确的分类标记,以对本申请方案的分类稳定性进行验证。图5为一个实施例中分类稳定性验证结果的示意图。如图5所示,计算机设备可以通过人工添加分类标记的待分类的文本分别进行K折交叉验证和/或召回率验证,K折交叉验证这一列的数值可以为准确率,发现在迭代到第17次时,K折交叉验证的结果和召回率都稳定了,即分类结果已经稳定了,此时即达到了迭代停止条件,即当次迭代所确定的待分类的文本的分类标记与上一次迭代所确定的待分类的文本的分类标记一致。其中,K折交叉验证,是指将人工添加分类标记的所有的待分类的文本划分为K份,对每次迭代的分类模型进行稳定性验证时,都用K份中的一份来作为测试集进行验证,得到验证结果(即分类准确率),以避免数据过耦合。召回率,即查全率,可以将通过每次迭代的分类模型确定的待分类的文本的目标类别的分类标记与人工添加的目标类别的分类标记进行比对,根据两者比值得到召回率。
现结合图3和图4对步骤S210的处理进行举例说明。假设第一概率阈值为0.99,计算机设备会从图3和图4所示的分词结果中选取属于目标类别的概率大于或等于0.99的分词结果,将选取的分词结果重新确定为目标类别的分词结果。所以,可以将图3所示的分词结果重新确定为目标类别的分词结果,然后再根据是否包括重新确定的目标类别的分词结果为文本添加相应的分类标记。因为最开始仅确定出了5个目标类别的分词结果,由于确定出的分词结果有限,所以按照最开始确定的分词结果为文本添加分类标记准确性较低,而重新确定的目标类别的分词结果数量增加了,所以再根据是否包括重新确定的目标类别的分词结果为文本添加相应的分类标记,使得为待分类的文本添加的分类标记更加的准确。如此逐步地提高待分类的文本所添加的分类标记的准确性,在满足迭代停止条件时得到的待分类的文本的分类标记最为准确。
上述文本分类方法,从待分类的文本的分词中确定出一部分的目标类别的分词结果,根据包括或不包括该确定出目标类别的分词结果为待分类的文本概略地添加相应的分类标记,根据添加分类标记的待分类的文本训练分类模型,通过分类模型确定各分词结果属于目标类别的概率,将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,即根据重新确定的目标类别的分词结果对待分类的文本所添加的分类标记进行更新以进行迭代处理,直至满足迭代停止条件时,所确定出的属于目标类别的分词结果最为准确,那么在满足迭代停止条件时得到的待分类的文本的分类标记也就最为准确。相较于传统的通过人工为全量文本添加分类标记的方式而言,本申请方案提高了处理效率。
在一个实施例中,步骤S202包括:对待分类的各文本进行分词处理,得到各文本的分词结果;从分词处理得到的分词结果中选取出部分分词结果并输出;接收针对输出的分词结果的目标类别标记指令;确定由目标类别标记指令所指定的目标类别的分词结果。
具体地,计算机设备可以对待分类的各文本进行分词处理,得到各文本的分词结果。然后,从分词处理得到的分词结果中选取出部分分词结果并输出。
可以理解,当计算机设备为服务器时,服务器可以将选取的部分分词结果输出至终端,终端将该选取的部分分词结果进行展示,用户基于终端对输出的分词结果进行目标类别标记操作,生成目标类别标记指令,终端接收该目标类别标记指令并转发至服务器,服务器从输出的分词结果中确定由目标类别标记指令所指定的目标类别的分词结果。当计算机设备为终端时,终端可以将选取的部分分词结果进行输出展示,并接收用户发出的针对输出的分词结果的目标类别标记指令,响应于该目标类别标记指令,从输出的分词结果中确定由目标类别标记指令所指定的目标类别的分词结果。
在一个实施例中,从分词处理得到的分词结果中选取出部分分词结果并输出包括:确定分词处理得到的分词结果的词频;将各分词结果按相应词频进行降序排名;从分词处理得到的各分词结果中,选取预设名次内的分词结果并输出。
词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。分词结果的词频,是指分词结果在所有分词结果中出现的次数。
具体地,计算机设备可以统计各分词结果的词频,将各分词结果按相应词频进行降序排名。计算机设备可以从分词处理得到的各分词结果中,选取预设名次内的分词结果并输出。
比如,计算机设备可以选按词频降序排名在前30名的分词结果。可以理解,计算机设备可以将这前30名的分词结果输出,用户可以从输出的前30名中指定属于目标类别的分词结果。
上述实施例中,对待分类的各文本进行分词处理,通过响应于目标类别标记指令从输出的部分分词结果中确定目标类别的分词结果,从而仅根据指定的部分目标类别的分词结果进行迭代处理,即可确定出各待分类的文本的分类标记。减少了人工处理量,提高了为文本添加分类标记的处理效率。此外,对分词结果按照词频降序排序,从而筛选出排名在前预设名词内的分词结果进行输出以供指定,其中,词频排名在前预设名词内的分词结果即为常用的分词结果,对常用的分词结果进行指定,以参与文本的分类,提高了可参考性,进而能够提高分类的准确性。
在一个实施例中,该方法还包括:在满足迭代停止条件后,获取通过相应的分类模型所确定的待分类的文本属于目标类别的概率和属于非目标类别的概率;筛选属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本;按照筛选的文本和相应的分类标记进行模型训练,得到文本分类模型;通过文本分类模型确定待分类的文本属于目标类别的概率;按照待分类的文本属于目标类别的概率更新相应文本的分类标记。
需要说明的是,相应的分类模型为在满足迭代停止条件时的分类模型。可以理解,每次迭代都会对待分类的文本的分类标记进行更新,那么,根据分类标记发生更新的文本进行模型训练得到的分类模型也会发生变化。
可以理解,因为根据待分类的文本和所添加的分类标记训练分类模型的过程中,会生成该待分类的文本属于目标类别的概率以及属于非目标类别的概率,计算机设备可以在满足迭代停止条件后,获取通过相应的分类模型所确定的待分类的文本属于目标类别的概率和属于非目标类别的概率。
计算机设备可以将各待分类的文本属于目标类别的概率与预设的第二概率阈值进行比对,以及将待分类的文本属于目标类别的概率与预设的第三概率阈值进行比对,从待分类的文本中筛选出属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本。需要说明的是,第二概率阈值和第三概率阈值大小可以相同或不同。
计算机设备可以按照筛选的文本和相应的分类标记进行模型训练,得到文本分类模型。计算机设备可以将所有待分类的文本输入该文本分类模型中,得到各待分类的文本属于目标类别的概率。计算机设备可以按照待分类的文本属于目标类别的概率更新相应文本的分类标记。
在一个实施例中,计算机设备可以通过文本分类模型,将各待分类的文本属于目标类别的概率分别与该文本分类模型中的分类概率阈值进行比对,当待分类的文本属于目标类别的概率大于或等于分类概率阈值时,则判定该待分类的文本的分类标记为目标类别的分类标记;当待分类的文本属于目标类别的概率小于分类概率阈值时,则判定该待分类的文本的分类标记为非目标类别的分类标记。计算机设备可以根据判定出分类标记对相应文本的分类标记进行更新。
在一个实施例中,该方法还包括:在按照待分类的文本属于目标类别的概率更新相应文本的分类标记后,返回筛选属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本的步骤继续执行,直至满足更新停止条件时,得到待分类的文本更新后的分类标记。
其中,更新停止条件,是停止更新待分类的文本的分类标记的条件。在一个实施例中,更新停止条件,可以是待分类的文本的分类标记已经稳定不变(即待分类的文本的分类标记不再随着迭代处理发生变化)。在另一个实施例中,更新停止条件,也可以是待分类的文本的分类标记的更新次数达到预设次数。
为了直观地体现本申请方案的分类稳定性,发明人结合专门针对该待分类的文本准备了一份通过人工添加的准确的分类标记,以对本申请方案的分类稳定性进行了验证。同样通过K折交叉验证和/或召回率验证文本分类模型是否稳定,根据验证发现在达到一定的更新次数后,K折交叉验证的结果和召回率达到稳定,此时本申请的上述方案亦达到了更新停止条件,即待分类的文本的分类标记已经稳定不变。
具体地,在按照待分类的文本属于目标类别的概率更新相应文本的分类标记后,计算机设备可以继续按照该用来更新文本的分类标记的属于目标类别的概率,筛选出属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本,并继续按照筛选的文本和相应更新后的分类标记进行模型训练,得到文本分类模型,以及通过文本分类模型确定待分类的文本属于目标类别的概率;按照待分类的文本属于目标类别的概率更新相应文本的分类标记。如此进行迭代处理,直至满足更新停止条件时得到待分类的文本更新后的分类标记。可以理解,每次迭代处理都会更新待分类文本的分类标记,这里是要获取在满足更新停止条件时待分类的文本更新后的分类标记。
现举例进行说明。比如,待分类的文本总共有500个,通过满足迭代停止条件时的分类模型确定这500个待分类的文本属于目标类别的概率后,筛选出的属于目标类别的概率大于或等于第二概率阈值的文本有100个,以及筛选出的属于非目标类别的概率大于或等于第三概率阈值的文本有100个,即可以得到正负样本各100个。计算机设备可以按照筛选出的200个文本和相应在满足迭代停止条件时的分类标记进行模型训练,得到文本分类模型。然后,计算机设备可以通过文本分类模型重新确定这500个待分类的文本属于目标类别的概率。计算机设备可以通过文本分类模型确定的待分类的文本属于目标类别的概率重新确定相应文本的分类标记,可以理解,针对待分类的文本重新确定的分类标记可能与满足迭代停止条件时待分类的文本的分类标记不同,因此可以根据重新确定的分类标记对满足迭代停止条件时待分类的文本的分类标记进行更新。然后根据通过文本分类模型重新确定待分类的文本属于目标类别的概率,来继续从500个待分类的文本中筛选出属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本,比如这次筛选出了属于目标类别的概率大于或等于第二概率阈值的文本有200个以及属于目标类别的概率大于或等于第三概率阈值的文本有200个,然后按照筛选出的400个文本和上次相应更新后的分类标记进行模型训练,得到文本分类模型,以此进行迭代处理,直至满足更新停止条件时得到待分类的文本最终更新后的分类标记。
上述实施例中,在满足迭代停止条件后,根据当前的分类模型所确定的待分类的文本属于目标类别的概率和属于非目标类别的概率;筛选属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本;按照筛选的文本和相应的分类标记进行模型训练,得到文本分类模型。即筛选出分类准确性较大的一批文本再度进行模型训练,使得训练得到的文本分类模型的准确性较高,进而通过文本分类模型确定待分类的文本属于目标类别的概率;按照待分类的文本属于目标类别的概率更新相应文本的分类标记,能够提高文本的分类标记的准确性。
在一个实施例中,该还包括:获取更新分类标记后通过文本分类模型确定的各待分类的文本属于目标类别的概率和属于非目标类别的概率;挑选在更新分类标记后确定的属于目标类别的概率大于或等于第四概率阈值的文本和属于非目标类别的概率大于或等于第五概率阈值的文本;按挑选的文本和相应分类标记进行强分类模型训练,得到强分类模型;通过强分类模型确定各待分类的文本属于目标类别的概率;按通过强分类模型确定的属于目标类别的概率确定相应文本的类别标记。
其中,获取更新分类标记后通过文本分类模型确定的各待分类的文本属于目标类别的概率和属于非目标类别的概率,是指获取更新分类标记后通过文本分类模型确定的各待分类的文本属于目标类别的概率,以及获取获取更新分类标记后通过文本分类模型确定的各待分类的文本属于非目标类别的概率。
需要说明的是,当进行迭代处理来更新待分类的文本的分类标记时,更新分类标记后通过文本分类模型确定的各待分类的文本属于目标类别的概率,是指在满足更新停止条件时通过文本分类模型确定的各待分类的文本属于目标类别的概率。可以理解,在满足更新停止条件时所确定的待分类的文本属于目标类别的概率,用于在满足更新停止条件时更新相应文本的分类标记。比如,在满足更新停止条件时,通过文本分类模型确定的待分类的文本1属于目标类别的概率a,可以通过概率a来更新文本1的分类标记,那么获取更新分类标记后通过文本分类模型确定的待分类的文本1属于目标类别的概率,即为获取在满足更新停止条件时通过文本分类模型确定的待分类的文本1属于目标类别的概率a。
计算机设备可以将所获取的更新分类标记后确定的属于目标类别的概率与第四概率阈值进行比对,以及将更新分类标记后确定的属于非目标类别的概率与第五概率阈值进行比对,挑选(即筛选)出更新分类标记后确定的属于目标类别的概率大于或等于第四概率阈值的文本和属于非目标类别的概率大于或等于第五概率阈值的文本。计算机设备可以按挑选的文本和相应分类标记(即更新后的分类标记)按照有监督学习算法进行强分类模型训练,得到强分类模型。其中,强分类模型,是文本分类能力强的机器学习模型。强分类模型的文本分类准确性比较高。
需要说明的是,第四概率阈值和第五概率阈值大小可以相同或不同。
在一个实施例中,强分类模型包括神经网络模型。神经网络模型(NeuralNetworks,NN),是模拟生物神经网络的工作原理形成的一种数学模型。
计算机设备可以将各待分类的文本输入强分类模型中,通过强分类模型输出各待分类的文本属于目标类别的概率。计算机设备可以按通过强分类模型确定的属于目标类别的概率确定相应文本的类别标记。
在一个实施例中,计算机设备可以将通过强分类模型确定的各待分类的文本属于目标类别的概率分别与该强分类模型中的强分类概率阈值进行比对,当通过强分类模型确定的待分类的文本属于目标类别的概率大于或等于强分类概率阈值时,则判定该待分类的文本的分类标记为目标类别的分类标记;当待分类的文本属于目标类别的概率小于强分类概率阈值时,则判定该待分类的文本的分类标记为非目标类别的分类标记。
上述实施例中,在通过文本分类模型更新待分类的文本的分类标记后,会获取通过文本分类模型确定的各待分类的文本属于目标类别的概率和属于非目标类别的概率;挑选在更新分类标记后确定的属于目标类别的概率大于或等于第四概率阈值的文本和属于非目标类别的概率大于或等于第五概率阈值的文本;按挑选的文本和相应分类标记进行强分类模型训练,得到强分类模型。即进一步地挑选出分类更加准确的文本进行强分类模型训练,使得到的强分类模型的分类处理更加的准确。进而,通过强分类模型确定各待分类的文本属于目标类别的概率;按通过强分类模型确定的属于目标类别的概率确定相应文本的类别标记,以进一步地提高待分类的文本的分类标记的准确性。
在一个实施例中,该方法还包括:获取不同于待分类的文本的目标文本;通过强分类模型确定目标文本属于目标类别的概率;根据目标文本属于目标类别的概率确定目标文本所属的类别。
可以理解,本申请各实施例中,待分类的文本是多个未分类的文本,该待分类的文本可以是用于做机器学习训练的训练文本。即本申请的方案是基于多个待分类的文本的基础下实现的。目标文本不同于待分类的文本。目标文本可以是一个或多个文本。
比如,待分类的文本有500个,通过500个待分类的文本按照本申请各实施例所公开的方式来训练得到强分类模型。之后,就可以利用这个强分类模型来为其他的文本进行分类,假设有一个目标文本1,就可以将目标文本1输入强分类模型中,通过强分类模型确定目标文本1属于目标类别的概率;根据目标文本属于目标类别的概率确定目标文本所属的类别。
具体地,计算机设备可以将目标文本输入强分类模型中,得到目标文本属于目标类别的概率,然后将目标文本属于目标类别的概率与该强分类模型中设置的强分类概率阈值进行比对,当目标文本属于目标类别的概率大于或等于强分类概率阈值时,则确定目标文本所属的类别为目标类别,当目标文本属于目标类别的概率小于强分类概率阈值时,则确定目标文本所属的类别为非目标类别。
上述实施例中,通过多层级的训练得到的强分类模型的分类准确性很高,因此,可以利用高分类准确性的强分类模型确定目标文本属于目标类别的概率;根据目标文本属于目标类别的概率确定目标文本所属的类别,既保证对目标文本的分类准确性,又能够提高分类效率。
在一个实施例中,目标类别为推广类别;文本为社交内容。该方法还包括:确定添加有推广类别的分类标记的社交内容所属的社交通信对象;统计属于社交通信对象的推广类别的社交内容的第一数量;统计属于社交通信对象的社交内容的第二数量;根据第一数量与第二数量的比例,触发相应的业务处理指令;业务处理指令用于指示对社交通信对象执行相应的业务处理。
其中,推广类别,是具有推广性质的类别。比如,广告、代购等都可以属于推广类别。可以理解,可以把所有具有推广性质的类别统称为推广类别,也可以根据推广性质的不同得到多个推广类别。比如,纯广告和代购的推广性质不同,纯广告主要是为了宣传品牌,而代购主要是为了促进购买和交易,两者的推广性质不同,因此可以分为不同推广类别。
社交内容,是在基于社交网络进行社交的过程中生成的内容。在一个实施例中,社交内容包括社交通信对象的名称和社交通信对象所分享文本中的至少一种。在一个实施例中,社交通信对象包括社交群组和社交账号中的至少一种。
需要说明的是,当社交通信对象为社交群组时,社交通信对象所分享文本包括社交群组消息文本(即在社交群组中发送的消息文本)和在社交群组分享页面中分享的文本。比如,QQ(是腾讯公司开发的一款即时通信软件)群组有专门分享群组文件或群组公告等群组分享页面,所以当社交通信对象为社交群组时,社交通信对象所分享文本除了群组消息外,还可以包括在社交群组分享页面中分享的文本。当社交通信对象为社交账号时,则社交内容可以包括社交账号名称和社交账号发送的社交消息或社交账号在社交分享页面中所分享的文本。比如,微信(WeChat,是腾讯公司推出的一个为智能终端提供即时通讯服务的应用程序)的朋友圈即为一个社交分享页面,在微信的朋友圈中分享的文本即为社交内容。
社交内容所属的社交通信对象,是与社交内容具有所属关系的社交通信对象。比如,社交通信对象为社交群组,社交内容为社交群组的名称,那么,社交群组的名称和社交群组之间具有所属关系,又或者,社交内容为在社交群组中发送的群组消息文本,同样地,群组消息文本和社交群组之间具有所属关系。又比如,社交通信对象为社交账号,社交内容为社交账号所分享文本,那么,社交账号所分享文本与社交账号间也具有所属关系。
计算机设备可以确定添加有推广类别的分类标记的社交内容所属的社交通信对象,并统计属于社交通信对象的推广类别的社交内容的第一数量,以及统计属于社交通信对象的社交内容的第二数量。计算机设备可以确定第一数量与所述第二数量的比例,根据该比例触发相应的业务处理指令,该业务处理指令用于指示对社交通信对象执行相应的业务处理。
在一个实施例中,业务处理指令可以包括警告处理指令、待分享文本筛查指令和停用处理指令。其中,警告处理指令,用于指示对社交通信对象执行警告处理。待分享文本筛查指令,用于指示对社交通信对象待分享的文本进行筛查处理,以屏蔽掉社交通信对象所分享的具有推广性质的文本。停用处理指令,用于指示对社交通信对象执行停止使用社交功能的处理。比如,停用社交账号或者停用社交群组等都属于对社交通信对象执行停止使用社交功能的处理。
上述实施例中,在确定社交内容的分类标记后,可以确定添加有推广类别的分类标记的社交内容所属的社交通信对象。通过统计属于社交通信对象的推广类别的社交内容的第一数量;统计属于社交通信对象的社交内容的第二数量;根据第一数量与第二数量的比例,触发相应的业务处理指令;业务处理指令用于指示对社交通信对象执行相应的业务处理。即利用对社交内容的分类结果,可以确定出需要进行业务处理的目标社交通信对象,以执行相应业务处理,而不需要额外地做其他处理来筛查目标社交通信对象,从而降低了目标社交通信对象的筛查难度,提高了资源的合理利用率。
如图6所示,在一个实施例中,提供了一种文本分类方法,该方法具体包括以下步骤:
S602,对待分类的各社交内容进行分词处理,得到各社交内容的分词结果;确定分词处理得到的分词结果的词频;将各分词结果按相应词频进行降序排名;从分词处理得到的各分词结果中,选取预设名次内的分词结果并输出。
S604,收针对输出的分词结果的推广类别标记指令;确定由推广类别标记指令所指定的推广类别的分词结果;为包括推广类别的分词结果的社交内容添加推广类别的分类标记,以及为不包括推广类别的分词结果的社交内容添加非推广类别的分类标记。
在一个实施例中,推广类别存在多个。当同一社交内容包括属于不同推广类别的多个分词结果时,则统计同一社交内容中各推广类别的分词结果的数量;确定统计的分词结果的数量最大的推广类别;为同一社交内容添加确定的推广类别的分类标记。
S606,根据待分类的社交内容和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入分类模型中,输出各分词结果属于推广类别的概率。
S608,将属于推广类别的概率大于或等于第一概率阈值的分词结果重新确定为推广类别的分词结果,返回为包括推广类别的分词结果的社交内容添加推广类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的社交内容的分类标记。
S610,在满足迭代停止条件后,获取通过相应的分类模型所确定的待分类的社交内容属于推广类别的概率和属于非目标类别的概率。
S612,筛选属于推广类别的概率大于或等于第二概率阈值的社交内容和属于非目标类别的概率大于或等于第三概率阈值的社交内容;按照筛选的社交内容和相应的分类标记进行模型训练,得到社交内容分类模型;通过社交内容分类模型确定待分类的社交内容属于推广类别的概率。
S614,按照待分类的社交内容属于推广类别的概率更新相应社交内容的分类标记;在按照待分类的社交内容属于推广类别的概率更新相应社交内容的分类标记后,返回筛选属于推广类别的概率大于或等于第二概率阈值的社交内容和属于非目标类别的概率大于或等于第三概率阈值的社交内容的步骤继续执行,直至满足更新停止条件时,得到待分类的社交内容更新后的分类标记。
S616,获取更新分类标记后通过社交内容分类模型确定的各待分类的社交内容属于推广类别的概率和属于非推广类别的概率;挑选在更新分类标记后确定的属于推广类别的概率大于或等于第四概率阈值的社交内容和属于非推广类别的概率大于或等于第五概率阈值的社交内容;按挑选的社交内容和相应分类标记进行强分类模型训练,得到强分类模型。
S618,通过强分类模型确定各待分类的社交内容属于推广类别的概率;按通过强分类模型确定的属于推广类别的概率确定相应社交内容的类别标记。
S620,确定添加有推广类别的分类标记的社交内容所属的社交通信对象;统计属于社交通信对象的推广类别的社交内容的第一数量。
S622,统计属于社交通信对象的社交内容的第二数量;根据第一数量与第二数量的比例,触发相应的业务处理指令;业务处理指令用于指示对社交通信对象执行相应的业务处理。
在一个实施例中,社交内容包括社交通信对象的名称和社交通信对象所分享文本中的至少一种。在一个实施例中,社交通信对象包括社交群组和社交账号中的至少一种。
如图7所示,在一个实施例中,提供了一种文本展示方法,本实施例主要以该文本展示方法应用于计算机设备中进行举例说明,该计算机设备可以为图1中的终端110。参照图7,该方法具体包括以下步骤:
S702,获取当前社交通信对象所对应的待展示的社交内容。
其中,社交通信对象,是用于实现社交通信的对象。当前社交通信对象,是当前要展示相应社交内容的社交通信对象。当前社交通信对象所对应的待展示的社交内容,是将要在当前社交通信对象的展示界面进行展示的社交内容。
在一个实施例中,社交通信对象包括社交群组和社交账号中的至少一种。
比如,当前社交通信对象为社交账号,则当前社交通信对象所对应的待展示的社交内容,包括该当前社交账号自身分享的社交内容(包括社交消息文本或社交分享文本),以及与该社交账号具有好友或群组关系的其他社交账号所分享的社交内容(比如,微信好友在朋友圈分享的信息)等中的至少一种。
S704,确定社交内容的分类标记;分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;社交内容的分类标记通过分类模型确定;分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到。
可以理解,计算机设备可以确定所获取的待展示的社交内容的分类标记。社交内容的分类标记包括推广类别的分类标记和非推广类别的分类标记。
具体地,计算机设备可以预先获取用于训练的文本,对该用于训练的文本进行分词处理,从进行分词处理得到的分词结果中确定部分属于推广类别的分词结果。计算机设备可以为用于训练的文本中包括推广类别的分词结果的文本添加推广类别的分类标记,将用于训练的文本中其余的文本添加非推广类别的分类标记,然后基于添加有推广类别的分类标记的文本进行迭代训练得到分类模型,然后执行如步骤S206至S210所述的迭代训练,得到最终稳定的分类模型。计算机设备可以将待展示的社交内容输入得到的分类模型中,输出各社交内容的分类标记。
可以理解,在其他实施例中,计算机设备可以在执行如步骤S206至S210所述的迭代训练得到稳定的分类模型后,还可以继续执行在满足所述迭代停止条件后,获取通过相应的分类模型所确定的用于训练的文本属于目标类别的概率;筛选属于目标类别的概率大于或等于第二概率阈值的文本;按照筛选的文本和相应的分类标记进行模型训练,得到文本分类模型;通过文本分类模型来确定社交内容的分类标记。
可以理解,计算机设备在得到文本分类模型后,还可以通过文本分类模型确定用于训练的文本属于目标类别的概率;按照用于训练的文本属于目标类别的概率更新相应文本的分类标记;在按照用于训练的文本属于目标类别的概率更新相应文本的分类标记后,返回所述筛选属于目标类别的概率大于或等于第二概率阈值的文本的步骤继续执行,直至满足更新停止条件时,得到最终稳定的文本分类模型,通过最终稳定的文本分类模型来确定社交内容的分类标记。在其他实施例中,计算机设备在得到最终稳定的文本分类模型后,还可以获取通过最终稳定的文本分类模型确定的各用于训练的文本属于目标类别的概率;挑选属于目标类别的概率大于或等于第三概率阈值的文本;按挑选的文本和相应分类标记进行强分类模型训练,得到强分类模型。通过强分类模型来确定社交内容的分类标记。
S706,按照确定的分类标记确定社交内容的展示方式。
具体地,计算机设备可以按照各社交内容的分类标记确定社交内容的展示方式。其中,社交内容的展示方式与社交内容的分类标记相对应。即社交内容的分类标记不同相应的展示方式也不同。
可以理解,具有推广类别的分类标记的社交内容的展示方式与具有非推广类别的分类标记的社交内容的展示方式之间存在差异。
其中,展示方式包括正常形态展示、突出形态展示、隐藏、弱化形态展示、于待剔除区域集中展示和于正常区域展示等中的至少一种。可以理解,待剔除区域是用于展示待剔除的社交内容的区域。
在一个实施例中,具有非推广类别的分类标记的社交内容的展示方式可以为正常形态展示或突出形态展示或于正常区域展示。具有推广类别的分类标记的社交内容的展示方式可以为隐藏(即不显示)、弱化形态展示(即淡化存在感)或于待剔除区域集中展示。
S708,按照确定的展示方式展示社交内容。
计算机设备可以按照确定的展示方式对社交内容进行相应的展示。
图8为一个实施例中社交内容展示界面图。参照图8,社交内容802和804是具有推广类别的分类标记的社交内容,那么就可以将其以浅色进行展示以弱化其存在感(即以弱化形态展示),也可以将其隐藏不显示,从而减少为社交内容分享页面带来的干扰。
上述文本展示方法,通过获取由分类模型确定的社交内容的分类标记,来确定待展示的社交内容的展示方式。其中,分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到,即不需要对全部用于训练的文本添加分类标记,只需要对用于训练的文本中部分的文本添加有推广类别的分类标记就可以进行迭代训练得到分类模型。按照确定的展示方式对待展示的社交内容进行展示,即可以对推广类别的分类标记和非推广类别的分类标记所分别对应的社交内容按照不同的展示方式进行展示,从而将二者进行区分化展示处理,以减少对应于推广类别的分类标记的社交内容所带来的显示干扰。
如图9所示,在一个实施例中,提供了一种文本分类装置900,该装置900包括:分词结果确定模块902、标记添加模块904、模型训练模块906及分类模块908,其中:
分词结果确定模块902,用于从待分类的文本的分词结果中确定部分目标类别的分词结果。
标记添加模块904,用于为包括目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括目标类别的分词结果的文本添加非目标类别的分类标记。
模型训练模块906,用于根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型。
分类模块908,用于将各分词结果输入分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,并通知标记添加模块904工作,直至满足迭代停止条件时得到待分类的文本的分类标记。
在一个实施例中,分词结果确定模块902还用于对待分类的各文本进行分词处理,得到各文本的分词结果;从分词处理得到的分词结果中选取出部分分词结果并输出;接收针对输出的分词结果的目标类别标记指令;确定由目标类别标记指令所指定的目标类别的分词结果。
在一个实施例中,分词结果确定模块902还用于确定分词处理得到的分词结果的词频;将各分词结果按相应词频进行降序排名;从分词处理得到的各分词结果中,选取预设名次内的分词结果并输出。
在一个实施例中,目标类别存在多个。标记添加模块904还用于当同一文本包括属于不同目标类别的多个分词结果时,则统计同一文本中各目标类别的分词结果的数量;确定统计的分词结果的数量最大的目标类别;为同一文本添加确定的目标类别的分类标记。
在一个实施例中,分类模块908还用于在满足迭代停止条件后,获取通过相应的分类模型所确定的待分类的文本属于目标类别的概率;筛选属于目标类别的概率大于或等于第二概率阈值的文本;按照筛选的文本和相应的分类标记进行模型训练,得到文本分类模型;通过文本分类模型确定待分类的文本属于目标类别的概率;按照待分类的文本属于目标类别的概率更新相应文本的分类标记。
在一个实施例中,分类模块908还用于在按照待分类的文本属于目标类别的概率更新相应文本的分类标记后,返回筛选属于目标类别的概率大于或等于第二概率阈值的文本的步骤继续执行,直至满足更新停止条件时,得到待分类的文本更新后的分类标记。
在一个实施例中,分类模块908还用于获取更新分类标记后通过文本分类模型确定的各待分类的文本属于目标类别的概率;挑选在更新分类标记后确定的属于目标类别的概率大于或等于第三概率阈值的文本;按挑选的文本和相应分类标记进行强分类模型训练,得到强分类模型;通过强分类模型确定各待分类的文本属于目标类别的概率;按通过强分类模型确定的属于目标类别的概率确定相应文本的类别标记。
在一个实施例中,分类模块908还用于获取不同于待分类的文本的目标文本;通过强分类模型确定目标文本属于目标类别的概率;根据目标文本属于目标类别的概率确定目标文本所属的类别。
如图10所示,在一个实施例中,目标类别为推广类别;文本为社交内容。该装置900还包括:
业务处理模块910,用于确定添加有推广类别的分类标记的社交内容所属的社交通信对象;统计属于社交通信对象的推广类别的社交内容的第一数量;统计属于社交通信对象的社交内容的第二数量;根据第一数量与第二数量的比例,触发相应的业务处理指令;业务处理指令用于指示对社交通信对象执行相应的业务处理。
在一个实施例中,社交内容包括社交通信对象的名称和社交通信对象所分享文本中的至少一种。
如图11所示,在一个实施例,提供了一种文本展示装置1100,该装置1100包括:获取模块1102、分类标记确定模块1104、展示方式确定模块1106及展示模块1108,其中:
获取模块1102,用于获取当前社交通信对象所对应的待展示的社交内容。
分类标记确定模块1104,用于确定社交内容的分类标记;分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;社交内容的分类标记通过分类模型确定;分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到。
展示方式确定模块1106,用于按照确定的分类标记确定社交内容的展示方式。
展示模块1108,用于按照确定的展示方式展示社交内容。
图12为一个实施例中计算机设备的内部结构示意图。参照图12,该计算机设备可以是图1中所示的服务器120。可以理解,计算机设备也可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时,可使得处理器执行一种文本分类方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种文本分类方法。计算机设备的网络接口用于进行网络通信。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本分类装置可以实现为一种计算机程序的形式,计算机程序可在如图12所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该文本分类装置的各个程序模块,比如,图9所示的分词结果确定模块902、标记添加模块904、模型训练模块906及分类模块908。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的文本分类方法中的步骤,例如,计算机设备可以通过如图9所示的文本分类装置900中的分词结果确定模块902从待分类的文本的分词结果中确定部分目标类别的分词结果,并通过标记添加模块904为包括目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括目标类别的分词结果的文本添加非目标类别的分类标记。计算机设备可以通过模型训练模块906根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型。计算机设备可以通过分类模块908将各分词结果输入分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,并通知标记添加模块904工作,直至满足迭代停止条件时得到待分类的文本的分类标记。
图13为一个实施例中计算机设备的内部结构示意图。参照图13,该计算机设备可以是图1中所示的终端,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时,可使得处理器执行一种文本展示方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种文本展示方法。计算机设备的网络接口用于进行网络通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏等。计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。该计算机设备可以是个人计算机、移动终端或车载设备,移动终端包括手机、平板电脑、个人数字助理或可穿戴设备等中的至少一种。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本展示装置可以实现为一种计算机程序的形式,计算机程序可在如图13所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该文本分类装置的各个程序模块,比如,图11所示的获取模块1102、分类标记确定模块1104、展示方式确定模块1106及展示模块1108。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的文本展示方法中的步骤,例如,计算机设备可以通过如图11所示的文本展示装置1100中的获取模块1102获取当前社交通信对象所对应的待展示的社交内容,并通过分类标记确定模块1104确定社交内容的分类标记;分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;社交内容的分类标记通过分类模型确定;分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到。计算机设备可以通过展示方式确定模块1106按照确定的分类标记确定社交内容的展示方式,并通过展示模块1108按照确定的展示方式展示社交内容。
一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括目标类别的分词结果的文本添加非目标类别的分类标记;根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回为包括目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。
在一个实施例中,从待分类的文本的分词结果中确定部分目标类别的分词结果包括:对待分类的各文本进行分词处理,得到各文本的分词结果;从分词处理得到的分词结果中选取出部分分词结果并输出;接收针对输出的分词结果的目标类别标记指令;确定由目标类别标记指令所指定的目标类别的分词结果。
在一个实施例中,从分词处理得到的分词结果中选取出部分分词结果并输出包括:确定分词处理得到的分词结果的词频;将各分词结果按相应词频进行降序排名;从分词处理得到的各分词结果中,选取预设名次内的分词结果并输出。
在一个实施例中,目标类别存在多个。为包括目标类别的分词结果的文本添加目标类别的分类标记包括:当同一文本包括属于不同目标类别的多个分词结果时,则统计同一文本中各目标类别的分词结果的数量;确定统计的分词结果的数量最大的目标类别;为同一文本添加确定的目标类别的分类标记。
在一个实施例中,计算机程序还使得处理器执行以下步骤:在满足迭代停止条件后,获取通过相应的分类模型所确定的待分类的文本属于目标类别的概率;筛选属于目标类别的概率大于或等于第二概率阈值的文本;按照筛选的文本和相应的分类标记进行模型训练,得到文本分类模型;通过文本分类模型确定待分类的文本属于目标类别的概率;按照待分类的文本属于目标类别的概率更新相应文本的分类标记。
在一个实施例中,计算机程序还使得处理器执行以下步骤:在按照待分类的文本属于目标类别的概率更新相应文本的分类标记后,返回筛选属于目标类别的概率大于或等于第二概率阈值的文本的步骤继续执行,直至满足更新停止条件时,得到待分类的文本更新后的分类标记。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取更新分类标记后通过文本分类模型确定的各待分类的文本属于目标类别的概率;挑选在更新分类标记后确定的属于目标类别的概率大于或等于第三概率阈值的文本;按挑选的文本和相应分类标记进行强分类模型训练,得到强分类模型;通过强分类模型确定各待分类的文本属于目标类别的概率;按通过强分类模型确定的属于目标类别的概率确定相应文本的类别标记。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取不同于待分类的文本的目标文本;通过强分类模型确定目标文本属于目标类别的概率;根据目标文本属于目标类别的概率确定目标文本所属的类别。
在一个实施例中,目标类别为推广类别;文本为社交内容。计算机程序还使得处理器执行以下步骤:确定添加有推广类别的分类标记的社交内容所属的社交通信对象;统计属于社交通信对象的推广类别的社交内容的第一数量;统计属于社交通信对象的社交内容的第二数量;根据第一数量与第二数量的比例,触发相应的业务处理指令;业务处理指令用于指示对社交通信对象执行相应的业务处理。
在一个实施例中,社交内容包括社交通信对象的名称和社交通信对象所分享文本中的至少一种。
一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:从待分类的文本的分词结果中确定部分目标类别的分词结果;为包括目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括目标类别的分词结果的文本添加非目标类别的分类标记;根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;将各分词结果输入分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回为包括目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。
在一个实施例中,从待分类的文本的分词结果中确定部分目标类别的分词结果包括:对待分类的各文本进行分词处理,得到各文本的分词结果;从分词处理得到的分词结果中选取出部分分词结果并输出;接收针对输出的分词结果的目标类别标记指令;确定由目标类别标记指令所指定的目标类别的分词结果。
在一个实施例中,从分词处理得到的分词结果中选取出部分分词结果并输出包括:确定分词处理得到的分词结果的词频;将各分词结果按相应词频进行降序排名;从分词处理得到的各分词结果中,选取预设名次内的分词结果并输出。
在一个实施例中,目标类别存在多个。为包括目标类别的分词结果的文本添加目标类别的分类标记包括:当同一文本包括属于不同目标类别的多个分词结果时,则统计同一文本中各目标类别的分词结果的数量;确定统计的分词结果的数量最大的目标类别;为同一文本添加确定的目标类别的分类标记。
在一个实施例中,计算机程序还使得处理器执行以下步骤:在满足迭代停止条件后,获取通过相应的分类模型所确定的待分类的文本属于目标类别的概率;筛选属于目标类别的概率大于或等于第二概率阈值的文本;按照筛选的文本和相应的分类标记进行模型训练,得到文本分类模型;通过文本分类模型确定待分类的文本属于目标类别的概率;按照待分类的文本属于目标类别的概率更新相应文本的分类标记。
在一个实施例中,计算机程序还使得处理器执行以下步骤:在按照待分类的文本属于目标类别的概率更新相应文本的分类标记后,返回筛选属于目标类别的概率大于或等于第二概率阈值的文本的步骤继续执行,直至满足更新停止条件时,得到待分类的文本更新后的分类标记。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取更新分类标记后通过文本分类模型确定的各待分类的文本属于目标类别的概率;挑选在更新分类标记后确定的属于目标类别的概率大于或等于第三概率阈值的文本;按挑选的文本和相应分类标记进行强分类模型训练,得到强分类模型;通过强分类模型确定各待分类的文本属于目标类别的概率;按通过强分类模型确定的属于目标类别的概率确定相应文本的类别标记。
在一个实施例中,计算机程序还使得处理器执行以下步骤:获取不同于待分类的文本的目标文本;通过强分类模型确定目标文本属于目标类别的概率;根据目标文本属于目标类别的概率确定目标文本所属的类别。
在一个实施例中,目标类别为推广类别;文本为社交内容。计算机程序还使得处理器执行以下步骤:确定添加有推广类别的分类标记的社交内容所属的社交通信对象;统计属于社交通信对象的推广类别的社交内容的第一数量;统计属于社交通信对象的社交内容的第二数量;根据第一数量与第二数量的比例,触发相应的业务处理指令;业务处理指令用于指示对社交通信对象执行相应的业务处理。
在一个实施例中,社交内容包括社交通信对象的名称和社交通信对象所分享文本中的至少一种。
一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:获取当前社交通信对象所对应的待展示的社交内容;确定社交内容的分类标记;分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;社交内容的分类标记通过分类模型确定;分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;按照确定的分类标记确定社交内容的展示方式;按照确定的展示方式展示社交内容。
一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如下步骤:获取当前社交通信对象所对应的待展示的社交内容;确定社交内容的分类标记;分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;社交内容的分类标记通过分类模型确定;分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;按照确定的分类标记确定社交内容的展示方式;按照确定的展示方式展示社交内容。
应该理解的是,虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文本分类方法,所述方法包括:
从待分类的文本的分词结果中确定部分目标类别的分词结果;
为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;
根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;
将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;
将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,返回所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记并继续处理,直至满足迭代停止条件时得到待分类的文本的分类标记。
2.根据权利要求1所述的方法,其特征在于,所述从待分类的文本的分词结果中确定部分目标类别的分词结果包括:
对待分类的各文本进行分词处理,得到各文本的分词结果;
从分词处理得到的分词结果中选取出部分分词结果并输出;
接收针对输出的所述分词结果的目标类别标记指令;
确定由所述目标类别标记指令所指定的目标类别的分词结果。
3.根据权利要求2所述的方法,其特征在于,所述从分词处理得到的分词结果中选取出部分分词结果并输出包括:
确定分词处理得到的分词结果的词频;
将各分词结果按相应词频进行降序排名;
从分词处理得到的各分词结果中,选取预设名次内的分词结果并输出。
4.根据权利要求1所述的方法,其特征在于,所述目标类别存在多个;所述为包括所述目标类别的分词结果的文本添加目标类别的分类标记包括:
当同一文本包括属于不同目标类别的多个分词结果时,则
统计所述同一文本中各目标类别的分词结果的数量;
确定统计的分词结果的数量最大的目标类别;
为所述同一文本添加确定的目标类别的分类标记。
5.根据权利要求1所述的方法,其特征在于,还包括:
在满足所述迭代停止条件后,获取通过相应的所述分类模型所确定的待分类的文本属于目标类别的概率和属于非目标类别的概率;
筛选属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本;
按照筛选的文本和相应的分类标记进行模型训练,得到文本分类模型;
通过所述文本分类模型确定待分类的文本属于目标类别的概率;
按照待分类的文本属于目标类别的概率更新相应文本的分类标记。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在按照待分类的文本属于目标类别的概率更新相应文本的分类标记后,返回所述筛选属于目标类别的概率大于或等于第二概率阈值的文本和属于非目标类别的概率大于或等于第三概率阈值的文本的步骤继续执行,直至满足更新停止条件时,得到待分类的文本更新后的分类标记。
7.根据权利要求5或6所述的方法,其特征在于,还包括:
获取更新所述分类标记后通过所述文本分类模型确定的各待分类的文本属于目标类别的概率和属于非目标类别的概率;
挑选在更新所述分类标记后确定的属于目标类别的概率大于或等于第四概率阈值的文本和属于非目标类别的概率大于或等于第五概率阈值的文本;
按挑选的文本和相应分类标记进行强分类模型训练,得到强分类模型;
通过所述强分类模型确定各待分类的文本属于目标类别的概率;
按通过强分类模型确定的属于目标类别的概率确定相应文本的类别标记。
8.根据权利要求7所述的方法,其特征在于,还包括:
获取不同于待分类的文本的目标文本;
通过所述强分类模型确定所述目标文本属于目标类别的概率;
根据所述目标文本属于目标类别的概率确定所述目标文本所属的类别。
9.根据权利要求1所述的方法,其特征在于,所述目标类别为推广类别;所述文本为社交内容;所述方法还包括:
确定添加有推广类别的分类标记的社交内容所属的社交通信对象;
统计属于所述社交通信对象的推广类别的社交内容的第一数量;
统计属于所述社交通信对象的社交内容的第二数量;
根据所述第一数量与所述第二数量的比例,触发相应的业务处理指令;所述业务处理指令用于指示对所述社交通信对象执行相应的业务处理。
10.根据权利要求9所述的方法,其特征在于,所述社交内容包括社交通信对象的名称和所述社交通信对象所分享文本中的至少一种。
11.一种文本展示方法,所述方法包括:
获取当前社交通信对象所对应的待展示的社交内容;
确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;
按照确定的所述分类标记确定所述社交内容的展示方式;
按照确定的展示方式展示所述社交内容。
12.一种文本分类装置,其特征在于,所述装置包括:
分词结果确定模块,用于从待分类的文本的分词结果中确定部分目标类别的分词结果;
标记添加模块,用于为包括所述目标类别的分词结果的文本添加目标类别的分类标记,以及为不包括所述目标类别的分词结果的文本添加非目标类别的分类标记;
模型训练模块,用于根据待分类的文本和所添加的分类标记进行模型训练,得到分类模型;
分类模块,用于将各分词结果输入所述分类模型中,输出各分词结果属于目标类别的概率;将属于目标类别的概率大于或等于第一概率阈值的分词结果重新确定为目标类别的分词结果,并通知标记添加模块工作,直至满足迭代停止条件时得到待分类的文本的分类标记。
13.一种文本展示装置,其特征在于,所述装置包括:
获取模块,用于获取当前社交通信对象所对应的待展示的社交内容;
分类标记确定模块,用于确定所述社交内容的分类标记;所述分类标记是推广类别的分类标记和非推广类别的分类标记中的一种;所述社交内容的分类标记通过分类模型确定;所述分类模型是基于用于训练的文本中部分添加有推广类别的分类标记的文本进行迭代训练得到;
展示方式确定模块,用于按照确定的所述分类标记确定所述社交内容的展示方式;
展示模块,用于按照确定的展示方式展示所述社交内容。
14.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
15.一种存储有计算机程序的存储介质,所述计算机程序被处理器执行时,使得处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201810385958.5A 2018-04-26 2018-04-26 文本分类和展示方法、装置、计算机设备及存储介质 Active CN108563786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810385958.5A CN108563786B (zh) 2018-04-26 2018-04-26 文本分类和展示方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810385958.5A CN108563786B (zh) 2018-04-26 2018-04-26 文本分类和展示方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN108563786A true CN108563786A (zh) 2018-09-21
CN108563786B CN108563786B (zh) 2019-12-20

Family

ID=63536959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810385958.5A Active CN108563786B (zh) 2018-04-26 2018-04-26 文本分类和展示方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN108563786B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377742A (zh) * 2019-07-23 2019-10-25 腾讯科技(深圳)有限公司 文本分类评测方法、装置、可读存储介质和计算机设备
CN111081016A (zh) * 2019-12-18 2020-04-28 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111966515A (zh) * 2020-07-16 2020-11-20 招联消费金融有限公司 业务异常数据处理方法、装置、计算机设备和存储介质
CN112307205A (zh) * 2020-10-22 2021-02-02 首都师范大学 基于自动摘要的文本分类方法、系统及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239638A1 (en) * 2006-03-20 2007-10-11 Microsoft Corporation Text classification by weighted proximal support vector machine
CN102023986A (zh) * 2009-09-22 2011-04-20 日电(中国)有限公司 参考外部知识构建文本分类器的方法和设备
CN103246655A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置及系统
CN103793510A (zh) * 2014-01-29 2014-05-14 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
CN106777234A (zh) * 2016-12-27 2017-05-31 南京安讯科技有限责任公司 一种自反馈式网络社交平台分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239638A1 (en) * 2006-03-20 2007-10-11 Microsoft Corporation Text classification by weighted proximal support vector machine
CN102023986A (zh) * 2009-09-22 2011-04-20 日电(中国)有限公司 参考外部知识构建文本分类器的方法和设备
CN103246655A (zh) * 2012-02-03 2013-08-14 腾讯科技(深圳)有限公司 一种文本分类方法、装置及系统
CN103793510A (zh) * 2014-01-29 2014-05-14 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法
CN106126751A (zh) * 2016-08-18 2016-11-16 苏州大学 一种具有时间适应性的分类方法及装置
CN106777234A (zh) * 2016-12-27 2017-05-31 南京安讯科技有限责任公司 一种自反馈式网络社交平台分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377742A (zh) * 2019-07-23 2019-10-25 腾讯科技(深圳)有限公司 文本分类评测方法、装置、可读存储介质和计算机设备
CN110377742B (zh) * 2019-07-23 2024-05-10 腾讯科技(深圳)有限公司 文本分类评测方法、装置、可读存储介质和计算机设备
CN111081016A (zh) * 2019-12-18 2020-04-28 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111081016B (zh) * 2019-12-18 2021-07-06 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111966515A (zh) * 2020-07-16 2020-11-20 招联消费金融有限公司 业务异常数据处理方法、装置、计算机设备和存储介质
CN112307205A (zh) * 2020-10-22 2021-02-02 首都师范大学 基于自动摘要的文本分类方法、系统及计算机存储介质

Also Published As

Publication number Publication date
CN108563786B (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110489644B (zh) 信息推送方法、装置、计算机可读存储介质和计算机设备
CN108563786A (zh) 文本分类和展示方法、装置、计算机设备及存储介质
CN107766929B (zh) 模型分析方法及装置
CN108804567A (zh) 提高智能客服应答率的方法、设备、存储介质及装置
CN109389143A (zh) 一种数据分析处理系统及自动建模方法
Çavdar et al. Airline customer lifetime value estimation using data analytics supported by social network information
CN110163647A (zh) 一种数据处理方法及装置
CN111538901B (zh) 一种物品推荐方法、装置、服务器及储存介质
CN105281925B (zh) 网络业务用户群组划分的方法和装置
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
JP2002092305A (ja) スコア算出方法及びスコア提供方法
JPH0877010A (ja) データ分析方法および装置
CN108694647A (zh) 一种商户推荐理由的挖掘方法及装置,电子设备
CN112559900B (zh) 产品推荐方法、装置、计算机设备和存储介质
CN106445908A (zh) 文本识别方法和装置
CN110309308A (zh) 一种文字信息的分类方法、装置及电子设备
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
CN106991577A (zh) 一种确定目标用户的方法及装置
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN103617146B (zh) 一种基于硬件资源消耗的机器学习方法及装置
CN105824806A (zh) 一种公众账号的质量评价方法和装置
CN110263207A (zh) 图像搜索方法、装置、设备及计算机可读存储介质
CN107908649B (zh) 一种文本分类的控制方法
CN103345525B (zh) 文本分类方法、装置及处理器
CN107729424A (zh) 一种数据可视化方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant