CN108228758A - 一种文本分类方法及装置 - Google Patents

一种文本分类方法及装置 Download PDF

Info

Publication number
CN108228758A
CN108228758A CN201711405321.XA CN201711405321A CN108228758A CN 108228758 A CN108228758 A CN 108228758A CN 201711405321 A CN201711405321 A CN 201711405321A CN 108228758 A CN108228758 A CN 108228758A
Authority
CN
China
Prior art keywords
word
text
feature
term vector
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711405321.XA
Other languages
English (en)
Other versions
CN108228758B (zh
Inventor
王亮
胡海青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711405321.XA priority Critical patent/CN108228758B/zh
Publication of CN108228758A publication Critical patent/CN108228758A/zh
Application granted granted Critical
Publication of CN108228758B publication Critical patent/CN108228758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明提供了一种文本分类方法及装置,属于计算机技术领域。该方法可以确定待分类文本的分类信息,然后将分类信息作为文本分类模型的输入,通过文本分类模型对待分类文本进行分类,最后将分类结果确定为待分类文本的类别。其中,该文本分类模型是由第一特征和第二特征训练得到,第一特征是根据从训练集中抽取的特征词语的词向量确定的,第二特征是根据从训练集中抽取的实体词的词向量确定的。由于文本分类模型训练的过程中结合了训练集中的实体词特征,这样,在利用该文本分类模型进行分类时,可以识别出待分类文本中的实体词,提高文本分类的准确率。

Description

一种文本分类方法及装置
技术领域
本发明属于计算机技术领域,特别是涉及一种文本分类方法及装置。
背景技术
随着移动终端技术的不断发展,网络系统的资源越来越多,为了方便用户进行查找,通常会对各种资源进行分类。比如,视频系统中,通常会对视频标题文本进行分类,进而实现对视频分类。
现有技术中,在对待分类文本进行分类时,通常是先对待分类文本进行分词,然后利用深度学习算法根据待分类文本对应的多个词语进行分类。
一般,标题文本中会包括实体词,该实体词能够反映该标题文本的类别,对标题文本的分类产生较大的影响。但是,由于现有技术中的深度学习算法在训练的过程中无法提取到样本文本中实体词的特征,进而导致在对待分类文本进行分类时,无法识别到待分类文本中的实体词,因此,分类的准确率较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本分类方法及装置。
依据本发明的第一方面,提供了一种文本分类方法,该方法可以包括:
确定待分类文本的分类信息;
将所述分类信息作为预设的文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类;
将分类结果确定为所述待分类文本的类别;
其中,所述文本分类模型是由第一特征和第二特征训练得到,所述第一特征是根据从训练集中抽取的特征词语的词向量确定的,所述第二特征是根据从所述训练集中抽取的实体词的词向量确定的。
可选的,所述分类信息为待分类文本中每个词语的词向量,所述待分类文本中的每个词语由多个第一词语和多个第二词语组成;
所述确定待分类文本的分类信息的步骤,包括:
按照第一预设分词方法,对所述待处理文本进行第一分词操作,得到多个第一词语;
按照第二预设分词方法,对所述待处理文本进行第二分词操作,得到多个第二词语;
根据每个第一词语与上下文的关系以及每个第二词语与上下文的关系,确定每个第一词语以及每个第二词语的词向量。
可选的,在所述将所述分类信息作为文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类的步骤之前,所述方法还包括:
根据训练集确定文本分类模型;
其中,所述训练集中包括多个样本对,所述样本对由样本文本和所述样本文本的类别组成。
可选的,所述根据训练集确定文本分类模型的步骤,包括:
基于预设特征模板,从每个样本文本中确定至少一个特征样本词语的词向量;
对类别相同的样本文本对应的特征样本词语的词向量进行聚合,得到特征词向量簇;
将所述特征词向量簇和所述特征词向量簇对应的类别组合为第一特征;
确定每个样本文本中实体词的词向量;
将所述实体词的词向量与所述样本文本的类别组合为第二特征;
利用所述第一特征和所述第二特征进行模型训练,得到文本分类模型。
可选的,所述根据每个第一词语与上下文的关系以及每个第二词语与上下文的关系,确定每个第一词语以及每个第二词语的词向量的步骤,包括:
将每个第一词语作为第一目标词语,分别执行以下处理:
将在所述第一目标词语之前的第一词语确定为第一前接文本,将在所述第一目标词语之后的第一词语确定为第一后接文本;
计算第一目标词语与所述第一前接文本和所述第一后接文本之间的相关性;
根据所述相关性确定所述第一目标词语的词向量;
将每个第二词语作为第二目标词语,分别执行以下处理:
将在所述第二目标词语之前的第二词语确定为第二前接文本,将在所述第二目标词语之后的第二词语确定为第二后接文本;
计算第二目标词语与所述第二前接文本和所述第二后接文本之间的相关性;
根据所述相关性确定所述第二目标词语的词向量。
依据本发明的第二方面,提供了一种文本分类装置,该装置可以包括:
第一确定模块,用于确定待分类文本的分类信息;
分类模块,用于将所述分类信息作为预设的文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类;
第二确定模块,用于将分类结果确定为所述待分类文本的类别;
其中,所述文本分类模型是由第一特征和第二特征训练得到,所述第一特征是根据从训练集中抽取的特征词语的词向量确定的,所述第二特征是根据从所述训练集中抽取的实体词的词向量确定的。
可选的,所述分类信息为待分类文本中每个词语的词向量,所述待分类文本中的每个词语由多个第一词语和多个第二词语组成;
所述第一确定模块,包括:
第一分词子模块,用于按照第一预设分词方法,对所述待处理文本进行第一分词操作,得到多个第一词语;
第二分词子模块,用于按照第二预设分词方法,对所述待处理文本进行第二分词操作,得到多个第二词语;
确子模块,用于根据每个第一词语与上下文的关系以及每个第二词语与上下文的关系,确定每个第一词语以及每个第二词语的词向量。
可选的,所述装置还包括:
第三确定模块,用于根据训练集确定文本分类模型;
其中,所述训练集中包括多个样本对,所述样本对由样本文本和所述样本文本的类别组成。
可选的,述第三确定模块,用于:
基于预设特征模板,从每个样本文本中确定至少一个特征样本词语的词向量;
对类别相同的样本文本对应的特征样本词语的词向量进行聚合,得到特征词向量簇;
将所述特征词向量簇和所述特征词向量簇对应的类别组合为第一特征;
确定每个样本文本中实体词的词向量;
将所述实体词的词向量与所述样本文本的类别组合为第二特征;
利用所述第一特征和所述第二特征进行模型训练,得到文本分类模型。
可选的,所述确定子模块,用于:
将每个第一词语作为第一目标词语,分别执行以下处理:
将在所述第一目标词语之前的第一词语确定为第一前接文本,将在所述第一目标词语之后的第一词语确定为第一后接文本;
计算第一目标词语与所述第一前接文本和所述第一后接文本之间的相关性;
根据所述相关性确定所述第一目标词语的词向量;
将每个第二词语作为第二目标词语,分别执行以下处理:
将在所述第二目标词语之前的第二词语确定为第二前接文本,将在所述第二目标词语之后的第二词语确定为第二后接文本;
计算第二目标词语与所述第二前接文本和所述第二后接文本之间的相关性;
根据所述相关性确定所述第二目标词语的词向量。
针对在先技术,本发明具备如下优点:本发明实施例提供的文本分类方法及装置,可以确定待分类文本的分类信息,然后将分类信息作为文本分类模型的输入,通过文本分类模型对待分类文本进行分类,最后将分类结果确定为待分类文本的类别。其中,该文本分类模型是由第一特征和第二特征训练得到,第一特征是根据从训练集中抽取的特征词语的词向量确定的,第二特征是根据从训练集中抽取的实体词的词向量确定的。由于文本分类模型训练的过程中结合了训练集中的实体词特征,这样,在利用该文本分类模型进行分类时,可以识别出待分类文本中的实体词,提高文本分类的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例一提供的一种文本分类方法的步骤流程图;
图2是本发明实施例二提供的一种文本分类方法的步骤流程图;
图3是本发明实施例三提供的一种文本分类装置的框图;
图4是本发明实施例四提供的一种文本分类装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
实施例一
图1是本发明实施例一提供的一种文本分类方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、确定待分类文本的分类信息。
本发明实施例中,待分类文本可以是需要确定类别的文本,比如,在按照视频标题对视频进行分类时,待分类文本可以是每个视频的标题。进一步地,该分类信息可以是文本中各个词语的词向量,当然,实际的应用场景中,也可以是文本中的各个词语,本发明实施例对此不作限定。
步骤102、将所述分类信息作为预设的文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类。
本发明实施例中,该文本分类模型是预先通过第一特征和第二特征训练得到,其中,该第一特征是根据从训练集中抽取的特征词语的词向量确定的,该第二特征是根据从训练集中抽取的实体词的词向量确定的。由于文本分类模型训练的过程中结合了训练集中的实体词特征,这样,在利用该文本分类模型进行分类时,可以识别出待分类文本中的实体词,提高文本分类的准确率。
步骤103、将分类结果确定为所述待分类文本的类别。
本发明实施例中,通过文本分类模型对待分类文本进行分类的分类结果即为待分类文本的类别。示例的,假设分类结果为“财经”,那么可以确定待分类文本的类别为“财经”。
综上所述,本发明实施例一提供的文本分类方法,可以确定待分类文本的分类信息,然后将分类信息作为文本分类模型的输入,通过文本分类模型对待分类文本进行分类,最后将分类结果确定为待分类文本的类别。其中,该文本分类模型是由第一特征和第二特征训练得到,第一特征是根据从训练集中抽取的特征词语的词向量确定的,第二特征是根据从训练集中抽取的实体词的词向量确定的。由于文本分类模型训练的过程中结合了训练集中的实体词特征,这样,在利用该文本分类模型进行分类时,可以识别出待分类文本中的实体词,提高文本分类的准确率。
实施例二
图2是本发明实施例二提供的一种文本分类方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、根据训练集确定文本分类模型。
可选的,本发明实施例中,可以通过下述步骤2011至2016实现根据训练集确定文本分类模型:
步骤2011、基于预设特征模板,从每个样本文本中确定至少一个特征样本词语的词向量。
本步骤中,可以先对样本文本进行分词处理,得到该样本文本对应的多个样本词语。具体的,分词处理就是将连续的字序列按照一定的规范重新组合成词序列的过程。在进行分词时,可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,等等,本发明实施例对此不作限定。在完成分词之后,可以利用预设特征模板,从该多个样本词语中抽取特征样本词语。其中,特征样本词语指的是能够体现该样本文本对应的类别的词语,预设特征模板可以是开发人员根据实际经验预先定义的,示例的,该特征模板中可以包括开发人员预先定义的多个特征样本词语等。
在抽取到特征样本词语之后,可以根据每个特征样本词语与上下文的关系,确定每个特征样本词语的词向量。具体的,根据词语与上下文的关系,确定词语的词向量的实现过程可以参下述步骤2023中的实现过程。
步骤2012、对类别相同的样本文本对应的特征样本词语的词向量进行聚合,得到特征词向量簇。
示例的,假设类别“经济”对应的样本文本包括:样本文本1和样本文本2,那么可以将样本文本1对应的特征样本词语的词向量和样本文本2对应的特征样本词语的词向量进行聚合,可以降低数据量的维度,进而使文本分类模型的内容更加有序,进而减少后续根据文本分类模型进行分类时花费的时间。
步骤2013、将所述特征词向量簇和所述特征词向量簇对应的类别组合为第一特征。
示例的,本发明实施例中,可以将样本文本1对应的特征样本词语的词向量和样本文本2对应的特征样本词语的词向量进行聚合,得到特征词向量簇和类别“经济”组合为一个特征对,进而得到一个第一特征。以此类推,对于其他类别的样本文本采用同样方法,可以得到多个特征对,进而得到多个第一特征。以训练集中包括类别“经济”、“影视”和“体育”为例,那么得到的第一特征可以如下表1所示:
第一特征
<经济,(a1,a2,...am)>
<影视,(b1,b2,...bn)>
<体育,(c1,c2,...cp)>
……
表1
示例的,表1中的<经济,(a1,a2,...am)>表示,类别“经济”对应了m个特征词语的向量,其中,a1,a2,...am代表类别“经济”对应的m个特征样本词语的词向量。
步骤2014、确定每个样本文本中实体词的词向量。
本步骤中,实体词指的是表示实体的词语,比如,电视剧名称、电影名称、影视明星的名字,等等。实体词往往具有很强的分类信息。比如,待分类文本为“花X骨真好看”,其中,“花X骨”为电视剧名称,为实体词。如果训练集中没有出现“花X骨”这个实体词特征,那么仅依靠剩余的“真好看”这部分内容,很难确定出待分类分本的类别。因此,本步骤中,可以根据知识图谱确定每个样本文本中的实体词,然后为每个实体词分配词向量。其中,知识图谱是由知识节点相互连接而成的语义网络,每个节点代表一个实体,实体可以由若干个属性表示,通过实体的属性可以将不同的实体建立关联关系。由于网络中经常会有新的实体词出现,本步骤中通过知识图谱确定实体词的方法,可以及时准确的确定出实体词。当然,实际应用中,也可以是根据人工经验确定样本文本中的实体词,本发明实施例对此不作限定。进一步地,本发明实施例中,也可以不局限于样本文本,而是直接收集各个类别对应的实体词作为第二特征,这样,可以避免由于样本文本中不包括实体词或包括的实体词较少,导致的第二特征稀疏的问题。
步骤2015、将所述实体词的词向量与所述样本文本的类别组合为第二特征。
本步骤中,第二特征可以是类别和该类别对应的实体词的词向量组成的特征对。示例的,假设类别“经济”对应的x个实体词的词向量为:d1,d2,...dx;类别“影视”对应的y个实体词的词向量为:e1,e2,...ey;类别“体育”对应的z个实体词的词向量为:f1,f2...fz。那么可以得到第二特征为:<经济,(a1,a2,...am,d1,d2,...dx)>;<影视,(b1,b2,...bn,e1,e2,...ey)>;<体育,(f1,f2...fz)>。
步骤2016、利用所述第一特征和所述第二特征进行模型训练,得到文本分类模型。
本步骤中,可以先将第一特征和第二特征进行聚合,即就是,将类别相同的第一特征和第二特征对应的词向量聚合。示例的,聚合后的特征可以表示为:<经济,(d1,d2,...dx)>;<影视,(e1,e2,...ey)>;<体育,(c1,c2,…cp,f1,f2...fz)>。然后可以采用卷积神经网络(Convolutional Neural Networks,CNN)算法训练聚合后的特征,即就是,将聚合后的特征加入CNN的max-pooling层,进而得到文本分类模型。
步骤202、确定待分类文本的分类信息。
本步骤中,分类信息可以是待分类文本中每个词语的词向量,待分类文本中的每个词语可以由多个第一词语和多个第二词语组成。具体的,步骤202可以包括:
步骤2021、按照第一预设分词方法,对所述待处理文本进行第一分词操作,得到多个第一词语。
具体的,该第一预设分词方法可以是按照词义或词性对待分类文本进行分词,示例的,假设待分类文本为“刘德华在《无间道》中的精彩剪辑”,经过第一分词后可以分为:“刘德华/在/《/无间道/》/中/的/精彩/剪辑”。
步骤2022、按照第二预设分词方法,对所述待处理文本进行第二分词操作,得到多个第二词语。
具体的,该第二预设分词方法可以是按照每个词语包含固定字数对待分类文本进行分词,优选的,该固定字数可以为1,当然,该固定字数也可以为其他数值,本发明实施例对此不作限定。以每个词语包含的固定字数为1为例,经过第二分词后,可以将待分类文本分为:“刘/德/华/在/《/无/间/道/》/中/的/精/彩/剪/辑”。
由于文本分类模型的训练集可能会存在覆盖面不全面的问题,因此,可能会导致文本分类模型的泛化能力较弱。比如,训练语料中出现的都是“偷”,当待分类文本中包括“小偷”时,由于训练集中未出现过“小偷”这个词,这样,即使“小偷”和“偷”表示相同的意思,由于文本分类模型无法从“偷”这个特征泛化到“小偷”这个特征,可能会影响分类结果。本发明实施例中,采用两种分词方法对待分类文本进行分词,使得最后得到的分类信息结合了词和字的特征,丰富了分类信息中的特征,进而避免了文本分类模型的泛化能力较弱导致的文本分类不准确的问题。
步骤2023、根据每个第一词语与上下文的关系以及每个第二词语与上下文的关系,确定每个第一词语以及每个第二词语的词向量。具体的,可以将每个第一词语作为第一目标词语,分别执行以下处理:
将在所述第一目标词语之前的第一词语确定为第一前接文本,将在所述第一目标词语之后的第一词语确定为第一后接文本;计算第一目标词语与所述第一前接文本和所述第一后接文本之间的相关性;根据所述相关性确定所述第一目标词语的词向量。
示例的,假设第一目标词语为“精彩”,那么可以确定第一前接文本为“刘德华在《无间道》中的”,第一后接文本为“剪辑”,然后根据语义计算第一目标词语和第一前接文本的欧式距离,得到第一欧式距离,以及第一目标词语和第一后接文本的欧式距离,得到第二欧式距离,接着计算第一欧式距离和第二欧式距离的平均值,得到目标欧式距离,该目标欧式距离可以代表第一目标词语与上下文的相关性,最后根据预设的对应关系确定该目标欧式距离对应的词向量,进而得到第一目标词语的词向量。
进一步地,该预设的对应关系可以是由开发人员预先定义的,该预设的对应关系中包括多个欧式距离区间以及每个欧式距离区间对应的词向量。具体的,在确定出每个第一目标词语的目标欧式距离之后,可以在该预设的对应关系中查找该目标欧式距离所属的欧式距离区间,然后将该欧式距离区间对应的词向量确定为第一目标词语的词向量。
进一步地,可以将每个第二词语作为第二目标词语,分别执行以下处理:将在所述第二目标词语之前的第二词语确定为第二前接文本,将在所述第二目标词语之后的第二词语确定为第二后接文本;计算第二目标词语与所述第二前接文本和所述第二后接文本之间的相关性;根据所述相关性确定所述第二目标词语的词向量。具体的,确定第二目标词语的词向量的过程可以参考上述过程,本发明实施例在此不做赘述。
示例的,假设待分类文本为“刘德华在《无间道》中的精彩剪辑”,那么得到的待分类文本的分类信息可以为“刘德华/在/《无间道》/中/的/精彩/剪辑/刘/德/华/在/《/无/间/道/》/中/的/精/彩/剪/辑”被分隔符“/”分隔的每个词语的词向量。可以看出,相较于现有技术中单一的分词方法,本发明实施例中通过对待分类文本进行第一分词操作以及第二分词操作,使得最后得到的分类信息结合了词和字的特征,丰富了分类信息中的特征。
具体在实现时,可以采用Word2vec中基于CBOW(Continue Bag of word)模型的hierarchical softmax框架,来实现确定词语的词向量。现有技术中用于确定词向量的“one-hot representation”算法,会将每个词表示为一个很长的向量。这个向量的维度是文本的字数,且每个向量中只有一个维度的值为1,剩余的维度的值均为0。这样,会出现词的维度特别高且数据稀疏问题,同时该方法不能考虑词之间的语义信息。本发明实施例中的Word2vec可以生成定长的词向量,进而可以节省存储和计算的开销。
本发明实施例中,在确定每个词语的词向量时,结合了词语的语义信息,使得语义相近的词语具有距离相近的词向量。这样,就避免了词义相近但是内容不同的词语在分类时,被识别为两个完全独立的特征,进而影响文本分类结果,降低文本分类的准确性。示例的,假设训练集中样本文本为“小区内发生了一起入室行窃事件。”,待分类文本为“小区内发生了一起入室偷窃事件”,这两个文本中的“行窃”和“偷窃”拥有相同的词义,但是表述方式不同,即就是,内容不同,如果直接以词语作为分类信息,就会被识别为两个不同的特征,进而使得影响分类结果的精度。如果以词向量来表述,由于两者的上下文相同,那么“行窃”和“偷窃”就会拥有非常相近的词向量。
需要说明的是,由于视频领域中数据可能会存在大量的噪音。例如,用户上传的视频,标题不规范,比如,全是数字或英文的标题,或者是由连续的单个字符组成的标题,等等,这些不规范标题对于分类没有任何意义,因此在确定待分类文本的分类信息之前,可以先将此类不规范的文本删除,进而减少分类的工作量。
步骤203、将所述分类信息作为文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类。
本步骤中,在进行分类时,可以将分类信息中的每个词向量单独输入文本分类模型中,获得输出结果。其中,分类信息中至少包括一个词向量,每个词向量若匹配成功,则匹配结果至少为一个,若存在匹配不成功的词向量,则舍弃该词向量。示例的,假设分类信息中的词向量为(a1,a5,a6,d1),那么通过匹配,可以得到词向量“a1,a5,a6,d1”匹配的结果均为类别“经济”,因此可以确定待分类文本对应的分类结果为类别“经济”。需要说明的是,当分类信息中各个词向量匹配的结果不相同时,可以将频次最高的匹配结果确定为待分类文本对应的分类结果。示例的,假设分类信息中的词向量为(a1,b1,b3,b5),那么通过匹配,可以得到词向量“a1”匹配的结果为类别“经济”,词向量“b1,b3,b5”匹配的结果均为类别“影视”,可以看出,类别“影视”对应的频次为3,类别“经济”对应的频次为1,因此,可以确定待分类文本对应的分类结果为类别“影视”。
步骤204、将分类结果确定为所述待分类文本的类别。
具体的,本步骤的实现方式可以参考上述步骤103,本发明实施例对此不作限定。
综上所述,本发明实施例二提供的文本分类方法,可以据训练集确定文本分类模型,然后确定待分类文本的分类信息,接着将分类信息作为文本分类模型的输入,通过文本分类模型对待分类文本进行分类,最后将分类结果确定为所述待分类文本的类别。其中,训练文本分类模型的过程中结合了第一特征和第二特征,其中,第一特征是根据从训练集中抽取的特征词语的词向量确定的,第二特征是根据从训练集中抽取的实体词的词向量确定的,这样,在利用该文本分类模型进行分类时,可以识别出待分类文本中的实体词,提高文本分类的准确率。
实施例三
图3是本发明实施例三提供的一种文本分类装置的框图,如图3所示,该装置30可以包括:
第一确定模块301,用于确定待分类文本的分类信息;
分类模块302,用于将所述分类信息作为预设的文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类;
第二确定模块303,用于将分类结果确定为所述待分类文本的类别;
其中,所述文本分类模型是由第一特征和第二特征训练得到,所述第一特征是根据从训练集中抽取的特征词语的词向量确定的,所述第二特征是根据从所述训练集中抽取的实体词的词向量确定的。
综上所述,本发明实施例三提供的文本分类装置,第一确定模块可以确定待分类文本的分类信息,然后分类模块可以将分类信息作为文本分类模型的输入,通过文本分类模型对待分类文本进行分类,最后第二确定模块可以将分类结果确定为待分类文本的类别。其中,该文本分类模型是由第一特征和第二特征训练得到,第一特征是根据从训练集中抽取的特征词语的词向量确定的,第二特征是根据从训练集中抽取的实体词的词向量确定的。由于文本分类模型训练的过程中结合了训练集中的实体词特征,这样,在利用该文本分类模型进行分类时,可以识别出待分类文本中的实体词,提高文本分类的准确率。
实施例四
图4是本发明实施例四提供的一种文本分类装置的框图,如图4所示,该装置40可以包括:
第一确定模块401,用于确定待分类文本的分类信息;
分类模块402,用于将所述分类信息作为预设的文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类;
第二确定模块403,用于将分类结果确定为所述待分类文本的类别;
其中,所述文本分类模型是由第一特征和第二特征训练得到,所述第一特征是根据从训练集中抽取的特征词语的词向量确定的,所述第二特征是根据从所述训练集中抽取的实体词的词向量确定的。
可选的,上述分类信息为待分类文本中每个词语的词向量,所述待分类文本中的每个词语由多个第一词语和多个第二词语组成;
上述第一确定模块401,包括:
第一分词子模块,用于按照第一预设分词方法,对所述待处理文本进行第一分词操作,得到多个第一词语;
第二分词子模块,用于按照第二预设分词方法,对所述待处理文本进行第二分词操作,得到多个第二词语;
确定子模块,用于每个第一词语与上下文的关系以及每个第二词语与上下文的关系,确定每个第一词语以及每个第二词语的词向量。
可选的,上述装置40还包括:
第三确定模块404,用于根据训练集确定文本分类模型;
其中,所述训练集中包括多个样本对,所述样本对由样本文本和所述样本文本的类别组成。
可选的,上述第三确定模块404,用于:
基于预设特征模板,从每个样本文本中确定至少一个特征样本词语的词向量;
对类别相同的样本文本对应的特征样本词语的词向量进行聚合,得到特征词向量簇;
将所述特征词向量簇和所述特征词向量簇对应的类别组合为第一特征;
确定每个样本文本中实体词的词向量;
将所述实体词的词向量与所述样本文本的类别组合为第二特征;
利用所述第一特征和所述第二特征进行模型训练,得到文本分类模型。
可选的,上述确定子模块,用于:
将每个第一词语作为第一目标词语,分别执行以下处理:
将在所述第一目标词语之前的第一词语确定为第一前接文本,将在所述第一目标词语之后的第一词语确定为第一后接文本;
计算第一目标词语与所述第一前接文本和所述第一后接文本之间的相关性;
根据所述相关性确定所述第一目标词语的词向量;
将每个第二词语作为第二目标词语,分别执行以下处理:
将在所述第二目标词语之前的第二词语确定为第二前接文本,将在所述第二目标词语之后的第二词语确定为第二后接文本;
计算第二目标词语与所述第二前接文本和所述第二后接文本之间的相关性;
根据所述相关性确定所述第二目标词语的词向量。
综上所述,本发明实施例四提供的文本分类装置,第三确定模块可以根据据训练集确定文本分类模型,然后第一确定模块可以确定待分类文本的分类信息,接着分类模块可以将分类信息作为文本分类模型的输入,通过文本分类模型对待分类文本进行分类,最后第二确定模块可以将分类结果确定为所述待分类文本的类别。其中,训练文本分类模型的过程中结合了第一特征和第二特征,其中,第一特征是根据从训练集中抽取的特征词语的词向量确定的,第二特征是根据从训练集中抽取的实体词的词向量确定的,这样,在利用该文本分类模型进行分类时,可以识别出待分类文本中的实体词,提高文本分类的准确率。
对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此提供的文本分类方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频中背景音乐的识别方法中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
确定待分类文本的分类信息;
将所述分类信息作为预设的文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类;
将分类结果确定为所述待分类文本的类别;
其中,所述文本分类模型是由第一特征和第二特征训练得到,所述第一特征是根据从训练集中抽取的特征词语的词向量确定的,所述第二特征是根据从所述训练集中抽取的实体词的词向量确定的。
2.根据权利要求1所述的方法,其特征在于,所述分类信息为待分类文本中每个词语的词向量,所述待分类文本中的每个词语由多个第一词语和多个第二词语组成;
所述确定待分类文本的分类信息的步骤,包括:
按照第一预设分词方法,对所述待处理文本进行第一分词操作,得到多个第一词语;
按照第二预设分词方法,对所述待处理文本进行第二分词操作,得到多个第二词语;
根据每个第一词语与上下文的关系以及每个第二词语与上下文的关系,确定每个第一词语以及每个第二词语的词向量。
3.根据权利要求1所述的方法,其特征在于,在所述将所述分类信息作为文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类的步骤之前,所述方法还包括:
根据训练集确定文本分类模型;
其中,所述训练集中包括多个样本对,所述样本对由样本文本和所述样本文本的类别组成。
4.根据权利要求3所述的方法,其特征在于,所述根据训练集确定文本分类模型的步骤,包括:
基于预设特征模板,从每个样本文本中确定至少一个特征样本词语的词向量;
对类别相同的样本文本对应的特征样本词语的词向量进行聚合,得到特征词向量簇;
将所述特征词向量簇和所述特征词向量簇对应的类别组合为第一特征;
确定每个样本文本中实体词的词向量;
将所述实体词的词向量与所述样本文本的类别组合为第二特征;
利用所述第一特征和所述第二特征进行模型训练,得到文本分类模型。
5.根据权利要求2所述的方法,其特征在于,所述根据每个第一词语与上下文的关系以及每个第二词语与上下文的关系,确定每个第一词语以及每个第二词语的词向量的步骤,包括:
将每个第一词语作为第一目标词语,分别执行以下处理:
将在所述第一目标词语之前的第一词语确定为第一前接文本,将在所述第一目标词语之后的第一词语确定为第一后接文本;
计算第一目标词语与所述第一前接文本和所述第一后接文本之间的相关性;
根据所述相关性确定所述第一目标词语的词向量;
将每个第二词语作为第二目标词语,分别执行以下处理:
将在所述第二目标词语之前的第二词语确定为第二前接文本,将在所述第二目标词语之后的第二词语确定为第二后接文本;
计算第二目标词语与所述第二前接文本和所述第二后接文本之间的相关性;
根据所述相关性确定所述第二目标词语的词向量。
6.一种文本分类装置,其特征在于,所述装置包括:
第一确定模块,用于确定待分类文本的分类信息;
分类模块,用于将所述分类信息作为预设的文本分类模型的输入,通过所述文本分类模型对所述待分类文本进行分类;
第二确定模块,用于将分类结果确定为所述待分类文本的类别;
其中,所述文本分类模型是由第一特征和第二特征训练得到,所述第一特征是根据从训练集中抽取的特征词语的词向量确定的,所述第二特征是根据从所述训练集中抽取的实体词的词向量确定的。
7.根据权利要求6所述的装置,其特征在于,所述分类信息为待分类文本中每个词语的词向量,所述待分类文本中的每个词语由多个第一词语和多个第二词语组成;
所述第一确定模块,包括:
第一分词子模块,用于按照第一预设分词方法,对所述待处理文本进行第一分词操作,得到多个第一词语;
第二分词子模块,用于按照第二预设分词方法,对所述待处理文本进行第二分词操作,得到多个第二词语;
确定子模块,用于根据每个第一词语与上下文的关系以及每个第二词语与上下文的关系,确定每个第一词语以及每个第二词语的词向量。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于根据训练集确定文本分类模型;
其中,所述训练集中包括多个样本对,所述样本对由样本文本和所述样本文本的类别组成。
9.根据权利要求8所述的装置,其特征在于,所述第三确定模块,用于:
基于预设特征模板,从每个样本文本中确定至少一个特征样本词语的词向量;
对类别相同的样本文本对应的特征样本词语的词向量进行聚合,得到特征词向量簇;
将所述特征词向量簇和所述特征词向量簇对应的类别组合为第一特征;
确定每个样本文本中实体词的词向量;
将所述实体词的词向量与所述样本文本的类别组合为第二特征;
利用所述第一特征和所述第二特征进行模型训练,得到文本分类模型。
10.根据权利要求7所述的装置,其特征在于,所述确定子模块,用于:
将每个第一词语作为第一目标词语,分别执行以下处理:
将在所述第一目标词语之前的第一词语确定为第一前接文本,将在所述第一目标词语之后的第一词语确定为第一后接文本;
计算第一目标词语与所述第一前接文本和所述第一后接文本之间的相关性;
根据所述相关性确定所述第一目标词语的词向量;
将每个第二词语作为第二目标词语,分别执行以下处理:
将在所述第二目标词语之前的第二词语确定为第二前接文本,将在所述第二目标词语之后的第二词语确定为第二后接文本;
计算第二目标词语与所述第二前接文本和所述第二后接文本之间的相关性;
根据所述相关性确定所述第二目标词语的词向量。
CN201711405321.XA 2017-12-22 2017-12-22 一种文本分类方法及装置 Active CN108228758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711405321.XA CN108228758B (zh) 2017-12-22 2017-12-22 一种文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711405321.XA CN108228758B (zh) 2017-12-22 2017-12-22 一种文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN108228758A true CN108228758A (zh) 2018-06-29
CN108228758B CN108228758B (zh) 2020-09-01

Family

ID=62648567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711405321.XA Active CN108228758B (zh) 2017-12-22 2017-12-22 一种文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN108228758B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597888A (zh) * 2018-11-19 2019-04-09 北京百度网讯科技有限公司 建立文本领域识别模型的方法、装置
CN109684627A (zh) * 2018-11-16 2019-04-26 北京奇虎科技有限公司 一种文本分类方法及装置
CN109857844A (zh) * 2018-12-29 2019-06-07 北京三快在线科技有限公司 基于点餐对话文本的意图识别方法、装置、电子设备
CN110188147A (zh) * 2019-05-22 2019-08-30 厦门无常师教育科技有限公司 基于知识图谱的文献实体关系发现方法及系统
CN110413790A (zh) * 2019-08-02 2019-11-05 上海云绅智能科技有限公司 一种场景分类方法及装置
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110825874A (zh) * 2019-10-29 2020-02-21 北京明略软件系统有限公司 一种中文文本分类方法和装置及计算机可读存储介质
CN111143548A (zh) * 2018-11-02 2020-05-12 北大方正集团有限公司 图书分类方法、装置、设备及计算机可读存储介质
CN111737962A (zh) * 2020-06-24 2020-10-02 平安科技(深圳)有限公司 一种实体修订方法、装置、计算机设备和可读存储介质
CN112182230A (zh) * 2020-11-27 2021-01-05 北京健康有益科技有限公司 一种基于深度学习的文本数据分类方法和装置
CN112347776A (zh) * 2019-08-09 2021-02-09 金色熊猫有限公司 医疗数据处理方法及装置、存储介质、电子设备
WO2023103308A1 (zh) * 2021-12-07 2023-06-15 苏州浪潮智能科技有限公司 模型训练、文本预测方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901235A (zh) * 2009-05-27 2010-12-01 国际商业机器公司 文档处理方法和系统
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
US20170169011A1 (en) * 2015-10-19 2017-06-15 International Business Machines Corporation System, method, and recording medium for determining and discerning items with multiple meanings
CN107305543A (zh) * 2016-04-22 2017-10-31 富士通株式会社 对实体词的语义关系进行分类的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901235A (zh) * 2009-05-27 2010-12-01 国际商业机器公司 文档处理方法和系统
CN102262632A (zh) * 2010-05-28 2011-11-30 国际商业机器公司 进行文本处理的方法和系统
US20170169011A1 (en) * 2015-10-19 2017-06-15 International Business Machines Corporation System, method, and recording medium for determining and discerning items with multiple meanings
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
CN107305543A (zh) * 2016-04-22 2017-10-31 富士通株式会社 对实体词的语义关系进行分类的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHENGUANG WANG ET AL: "Text Classification with Heterogeneous Information Network Kernels", 《PROCEEDINGS OF THE THIRTIETH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-16)》 *
FANG WANG ET AL: "Concept-based Short Text Classification and Ranking", 《PROCEEDINGS OF THE 23RD ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *
江大鹏: "基于词向量的短文本分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
闫琰: "基于深度学习的文本表示与分类方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143548A (zh) * 2018-11-02 2020-05-12 北大方正集团有限公司 图书分类方法、装置、设备及计算机可读存储介质
CN109684627A (zh) * 2018-11-16 2019-04-26 北京奇虎科技有限公司 一种文本分类方法及装置
CN109597888A (zh) * 2018-11-19 2019-04-09 北京百度网讯科技有限公司 建立文本领域识别模型的方法、装置
CN109857844A (zh) * 2018-12-29 2019-06-07 北京三快在线科技有限公司 基于点餐对话文本的意图识别方法、装置、电子设备
CN109857844B (zh) * 2018-12-29 2022-01-14 北京三快在线科技有限公司 基于点餐对话文本的意图识别方法、装置、电子设备
CN110188147A (zh) * 2019-05-22 2019-08-30 厦门无常师教育科技有限公司 基于知识图谱的文献实体关系发现方法及系统
CN110413790A (zh) * 2019-08-02 2019-11-05 上海云绅智能科技有限公司 一种场景分类方法及装置
CN110413790B (zh) * 2019-08-02 2020-04-28 上海云绅智能科技有限公司 一种场景分类方法及装置
CN112347776A (zh) * 2019-08-09 2021-02-09 金色熊猫有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110489555B (zh) * 2019-08-21 2022-03-08 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN110825874A (zh) * 2019-10-29 2020-02-21 北京明略软件系统有限公司 一种中文文本分类方法和装置及计算机可读存储介质
CN111737962A (zh) * 2020-06-24 2020-10-02 平安科技(深圳)有限公司 一种实体修订方法、装置、计算机设备和可读存储介质
CN112182230A (zh) * 2020-11-27 2021-01-05 北京健康有益科技有限公司 一种基于深度学习的文本数据分类方法和装置
CN112182230B (zh) * 2020-11-27 2021-03-16 北京健康有益科技有限公司 一种基于深度学习的文本数据分类方法和装置
WO2023103308A1 (zh) * 2021-12-07 2023-06-15 苏州浪潮智能科技有限公司 模型训练、文本预测方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN108228758B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN108228758A (zh) 一种文本分类方法及装置
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN107526799B (zh) 一种基于深度学习的知识图谱构建方法
CN107291783B (zh) 一种语义匹配方法及智能设备
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN108628834B (zh) 一种基于句法依存关系的词语表示学习方法
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN108268539A (zh) 基于文本分析的视频匹配系统
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN107180084A (zh) 词库更新方法及装置
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN111666766A (zh) 数据处理方法、装置和设备
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN109472022A (zh) 基于机器学习的新词识别方法及终端设备
CN111091009B (zh) 一种基于语义分析的文档关联审核方法
CN111291551A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN116911286A (zh) 词典构建方法、情感分析方法、装置、设备及存储介质
CN110222181B (zh) 一种基于Python的影评情感分析方法
CN110705290A (zh) 一种网页分类方法及装置
CN112732910B (zh) 跨任务文本情绪状态评估方法、系统、装置及介质
CN110851572A (zh) 会话标注方法、装置、存储介质及电子设备
CN112487154B (zh) 一种基于自然语言的智能搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant