CN109471937A - 一种基于机器学习的文本分类方法及终端设备 - Google Patents

一种基于机器学习的文本分类方法及终端设备 Download PDF

Info

Publication number
CN109471937A
CN109471937A CN201811181954.1A CN201811181954A CN109471937A CN 109471937 A CN109471937 A CN 109471937A CN 201811181954 A CN201811181954 A CN 201811181954A CN 109471937 A CN109471937 A CN 109471937A
Authority
CN
China
Prior art keywords
text
keyword
webpage
vector
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811181954.1A
Other languages
English (en)
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811181954.1A priority Critical patent/CN109471937A/zh
Publication of CN109471937A publication Critical patent/CN109471937A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于机器学习的文本分类方法及终端设备,包括:通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;针对多个网页中的任一网页,对网页的网页内容进行处理,获得网页所对应的一个文本,文本包括网页的栏目数据、标题数据、正文数据及标签数据;获取训练集,包括多个网页所对应的多个文本;针对训练集中的任一文本,为文本设置标识,标识用于表示文本的类别;对文本进行分词处理,并对分词结果向量化,获得文本所对应的特征向量;通过训练集对文本分类模型进行训练;通过完成训练的文本分类模型,对待分类文本进行分类。结合词语在网页中的位置,对网页所对应的文本进行特征化,提高了文本分类精度。

Description

一种基于机器学习的文本分类方法及终端设备
技术领域
本发明属于计算机技术领域,尤其涉及一种基于机器学习的文本分类方法及终端设备。
背景技术
随着互联网技术的发展,web(万维网)信息急速膨胀,给人们提供了非常丰富的网络资源,与此同时,由于web数据存在多样复杂性、动态性强等特点,使人们在如何有效利用它们面临一定的挑战。
对网络文本进行分类具有诸多好处,如向用户推送用户感兴趣的某一类别的信息,进而提高用户的使用体验等等。因此,对海量电子信息进行有效的组织和分类十分重要。然而,现有的文本分类方法,文本分类效率和分类精度都较低。
发明内容
有鉴于此,本发明实施例提供了一种基于机器学习的文本分类方法及终端设备,以解决现有技术中文本分类效率低的问题。
本发明实施例的第一方面提供了一种基于机器学习的文本分类方法,包括:
通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;
针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;
获取训练集,所述训练集包括所述多个网页所对应的多个文本;
针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;
对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量;
通过所述训练集对文本分类模型进行训练;
通过完成训练的文本分类模型,对待分类文本进行分类。
本发明实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;
针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;
获取训练集,所述训练集包括所述多个网页所对应的多个文本;
针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;
对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量;
通过所述训练集对文本分类模型进行训练;
通过完成训练的文本分类模型,对待分类文本进行分类。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;
针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;
获取训练集,所述训练集包括所述多个网页所对应的多个文本;
针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;
对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量;
通过所述训练集对文本分类模型进行训练;
通过完成训练的文本分类模型,对待分类文本进行分类。
本发明提供了一种基于机器学习的文本分类方法及终端设备,基于机器学习的方法,在建立训练集中的文本所对应的特征向量的过程中,综合考虑关键词在网页中的位置分布,进而提高了文本分类模型的分类精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于机器学习的文本分类方法的流程图;
图2为本发明实施例提供的一种获取文本所对应的特征向量的方法的流程图;
图3为本发明实施例提供的另一种获取文本所对应的特征向量的方法的流程图;
图4为本发明实施例提供的一种为关键词设置权值的方法的流程图;
图5为本发明实施例提供的一种获取最优文本分类模型的方法的流程图;
图6为本发明实施例提供的一种基于机器学习的文本分类装置示意图;
图7为本发明实施例提供的一种基于机器学习的文本分类终端设备示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
本发明实施例提供了一种基于机器学习的文本分类方法。结合图1,该方法包括:
S101,通过网络爬虫,爬取预设论坛网站的多个网页的网页内容。
在本步骤中,预设一个论坛网站的列表,通过网络爬虫,爬取预设论坛网站列表中的论坛网站的多个网页的网页内容。
具体的,预设一个输入列表,输入列表包括需要网络爬虫爬取的多个论坛网站的地址信息,此处,可将输入列表中的网站称为目标网站。基于目标网站,编写对应的爬虫程序,并将爬虫代码封装到docker容器中,上传到云服务器。子服务器按照预设时间间隔爬取输入列表中目标网站的内容。当子服务器需要对目标网站进行爬取时,在云服务器中下载docker容器,实现对目标网站内容的爬取。
S102,针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据。
对于论坛网页,其网页数据包括栏目数据、正文数据、标题数据和标签数据,由于每部分数据对应的HTML(HyperText Markup Language,超级文本标记语言)的位置不同,可直接区分出爬虫爬取的一个页面的数据是位于该页面栏目、正文、标题和标签哪一个位置的数据。
将爬虫爬取到的数据存入数据库。
S103,获取训练集,所述训练集包括所述多个网页所对应的多个文本。
由步骤S101-S102得到的文本构成训练集。
S104,针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别。
该步骤为对训练集中的文本进行人工标注的过程。
将所有的文本分为预设数目的种类,如金融类、体育类、文娱类、教育类等20类,对于训练集中的任一文本,通过人工标注的方式,为该文本设置一个标识,该标识用于表示该文本的类别。
S105,对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量。
结合步骤S101至S103,所述文本包括所述论坛网站中网页的栏目数据、标题数据、正文数据及标签数据,基于此,本发明实施例提供两种获得该文本所对应的特征向量的方法。
结合图2,为本发明实施例提供的一种获取文本所对应的特征向量的方法,该方法包括:
S1031,通过独热编码获得所述栏目数据的分词结果所对应的第一向量和所述标签数据的分词结果所对应的第二向量。
针对论坛的栏目数据和标签数据,由于栏目数据和标签数据的词汇量较小,可选的,本发明实施例采用one-hot独热编码方法,分别对栏目数据和标签数据进行编码,栏目数据的编码结果和标签数据的编码结果分别可以为一个10维度的向量。
S1032,通过对所述标题数据的分词结果进行词性分析,得到标题数据所对应的关键词,通过词向量模型获得每个关键词所对应的词向量,将所述标题数据所对应的所有关键词的词向量进行平均处理,得到第三向量。
论坛的标题数据通常为短文本内容,本发明通过对标题数据的分词结果进行词性分析,主要是通过抽取主要词性,如名词、动词,得到对应的关键词。通过词向量模型,获得每个关键词所对应的词向量,每个关键词的词向量的维数相同,可以为256维,将所有关键词的词向量求平均,得到第三向量。
S1033,通过TF-IDF矩阵对所述正文数据的分词结果进行关键词提取,得到正文数据所对应的关键词,通过词向量模型获得每个关键词的词向量,将所述正文数据所对应的所有关键词的词向量进行平均处理,得到第四向量。
TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)是一种特征提取和特征权重计算技术,通过TF-IDF矩阵,可以计算得到一个词与文本类别的关联程度,得到一个得分的值,得分越高的词,类别区分能力越高,因此,通过对正文数据的分词结果中的每个词进行计算,对计算得到的得分进行降序排列,选取排序结果中位于前面预设数目的词作为关键词,或选取得分高于预设值的词作为关键词。
例如,正文数据的分词结果包括100个词,通过对这100个词进行TF-IDF计算,选取按得分降序排序结果中排在前20的词作为关键词,或选取得分高于预设置的所有词作为关键词。
对于每个关键词,通过词向量模型获得每个关键词的词向量,每个关键词的词向量的维数相同,可以为256维,通过对所有关键词的词向量进行平均,得到本步骤中的第四向量。
S1034,根据所述第一向量、所述第二向量、所述第三向量和所述第四向量,获得所述文本所对应的特征向量。
由第一向量至第四向量进行组合,得到文本所对应的特征向量,结合步骤S1031-S1033,文本所对应的特征向量为10维度的第一向量、10维度的第二向量、256维度的第三向量和256维度的第四向量组合构成的532维度的特征向量。
在本发明实施例中,通过对网页栏目、标题、正文和标签四个位置的数据分别向量化,将四个位置的向量化结果综合为网页所对应文本的特征向量,使得文本分类模型的输入更加精准,提高了文本分类精度。
结合图3,本发明实施例还提供了一种获取文本所对应的特征向量的方法,该方法包括:
S1035,对所述文本的分词结果进行关键词提取,获得所述文本的关键词。
在本步骤中,可选的,通过TF-IDF对整个文本的分词结果进行关键词提取,而不是分别对栏目、标题、正文和标签的数据分开提取关键词。
S1036,统计所述文本的关键词在所述网页的栏目、标题、正文及标签的位置分布。
对于一个关键词,可能只出现在上述四个位置中的一个位置,也可能出现在不止一个位置,例如,通过步骤TF-IDF获取到的一个关键词X,该关键词只出现在正文中,与该关键词同时出现在标题和正文中,其对该本文分类的重要程度是不同的。因此,在本步骤中,统计一个关键词在网页的栏目、标题、正文及标签的位置分布。
S1037,针对所述文本的关键词中的任一关键词,根据所述关键词在所述网页的栏目、标题、正文及标签的位置分布,为所述关键词设置权值。
结合图4,本发明实施例提供了一种为关键词设置权值的方法,该方法包括:
S1037-1,分别为所述网页的栏目位置设置第一值,为所述网页的标题位置设置第二值,为所述网页的正文位置设置第三值,为所述网页的标签位置设置第四值。
例如,位于栏目、标签位置的词的重要度高于标题位置的词,标题位置的词的重要度又高于正文位置的词,示例性的,可进行如下设置,第一值和第四值都为0.3,第二值为0.25,第三值为0.15。当然,基于本发明思路的其他设置方式,也在本发明的保护范围之内。
S1037-2,根据所述关键词出现在所述网页的位置,将所述关键词所出现的位置所对应的值求和,得到所述关键词的权值。
举例来说,对于关键词X,同时出现在标题和正文位置,则关键词X的权值为第二值和第三值的和,即为0.4;
对于关键词Y,同时出现在栏目和标题中,则关键词Y的权值为第一值和第二值的和,即为0.55。
S1038,通过词向量模型获得每个关键词的词向量。
本步骤的具体实现方式可参见图2所对应的实施例,本发明实施例对此不再赘述。
S1039,针对所述文本的关键词中的任一关键词,将所述关键词的词向量与所述关键词的权值相乘,获得更新后的词向量。
对于步骤S1035获得的文本的关键词,将该关键词的词向量与该关键词的权值相乘,得到该关键词更新后的词向量。
S10310,对所述文本的所有关键词的更新后的词向量进行平均处理,获得所述文本所对应的特征向量。
将文本所有关键词更新后的词向量求平均,得到文本对应的特征向量,可选的,该特征向量为256维的特征向量。
在本发明实施例中,通过根据关键词在栏目、标题、正文和标签的位置为该关键词设置权值,使得重要度高的关键词在文本特征向量中占的权重更高,从而提高了文本分类的精度。
S106,通过所述训练集对文本分类模型进行训练。
在本发明实施例中,文本分类模型为深度神经网络模型,所述深度神经网络模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为所述文本所对应的特征向量,所述第一隐藏层包括第一预设数目的节点,所述第二隐藏层包括第二预设数目的节点,所述第一隐藏层和所述第二隐藏层的激活函数为relu函数,所述输出层为所述文本的类型的概率,所述输出层的激活函数为logistics函数。
可选的,输入层包括一个节点,将步骤S105得到的文本的特征向量,作为该输入层节点的输入;
第一隐藏层包括100个节点,包括1×100维,激活函数为relu函数;
第二隐藏层包括200个节点,包括1×200维,激活函数为relu函数;
输出层的激活函数为logistics函数,输出结果为文本类型的概率,如在训练集中将文本分为20类,则输出层输出的是该文本为这20类中每一类的概率。
可选的,通过训练集对文本分类模型进行训练包括:通过所述训练集对所述文本分类模型的学习率、训练次数、批尺寸和终止误差进行训练,直至达到预设训练终止条件,其中,所述预设训练终止条件为达到所述训练次数或分词结果误差低于所述终止误差。
进一步的,结合图5,本发明实施例还提供了一种获取最优文本分类模型的方法,该方法包括:
S1041,建立多个深度神经网络模型,针对所述多个深度神经网络模型中的任意两个深度神经网络模型,所述两个深度神经网络模型的学习率、训练次数、批尺寸和终止误差各不相同。
可选的,对于步骤S104中提供的深度神经网络文本分类模型,建立多个由不同参数构成的模型。
例如,学习率选取0.01、0.02和0.03中的一个值;
训练次数选取500、1000和2000中的一个值;
批尺寸选取100、200和500中的一个值;
终止误差选取0.05、0.1和0.5中的一个值;
由此可构成多种文本分类模型,例如,学习率为0.01、训练次数为500、批尺寸为100以及终止误差为0.05时可构成一个文本分类模型。
S1042,通过所述训练集分别对所述多个深度神经网络模型进行训练。
通过训练集分别对S1041中的多个文本分类模型进行训练,直至达到训练终止条件。
S1043,获取预设测试集。
在本发明实施例中,测试集的获取过程与训练集的获取过程相同。
S1044,通过所述预设测试集分别对完成训练的所述多个深度神经网络模型进行测试。
S1045,根据测试结果选取分类精确度最高的一个深度神经网络模型对所述待分类文本进行分类。
由于测试集中每个文本的类型是已知的,例如一个测试文本X,测试文本X的类型为金融类,通过将X的特征向量输入文本分类模型,若文本分类模型计算得到的X的类型为金融类的概率最大,则文本分类模型对文本X的类型的预测是正确的,若文本分类模型计算得到的X的类型为金融类的概率不是最大的,例如文本分类模型计算得到文本X的类型为娱乐类的概率最大,则文本分类模型对文本X的类型的预测是错误的。
通过这种方法,通过测试集的测试,可以分别获取每个文本分类模型的精确度,从而获取最优文本分类模型。
本发明实施例通过对多种参数组合的文本分类模型分别训练和测试,获得分类精度最高的文本分类模型,进一步提高了文本分类的精度。
S107,通过完成训练的文本分类模型,对待分类文本进行分类。
可选的,可通过由图5所对应的实施例获得的精度最高的文本分类模型,对待分类文本进行分类。获取待分类文本的特征向量,将该特征向量作为输入,输入到文本分类模型中,即可获得该文本的类别概率,将概率按照降序排序,选取概率最高的一个类别,或处于排序结果的前预设数目个类别,作为该文本的类别。
本发明提供了一种基于机器学习的文本分类方法及终端设备,基于机器学习的方法,在建立训练集中的文本所对应的特征向量的过程中,综合考虑关键词在网页中的位置分布,进而提高了文本分类模型的分类精度。
图6为本发明实施例提供的一种基于机器学习的文本分类装置示意图,结合图6,该装置包括:第一获取单元61、第一设置单元62、分词单元63、第二获取单元64、训练单元65和分类单元66;
第一获取单元61,用于通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;获取训练集,所述训练集包括所述多个网页所对应的多个文本;
第一设置单元62,用于针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;
分词单元63用于对所述文本进行分词处理;
第二获取单元64用于对分词结果向量化,获得所述文本所对应的特征向量;
训练单元65用于通过所述训练集对文本分类模型进行训练;
分类单元66用于通过完成训练的文本分类模型,对待分类文本进行分类。
进一步的,所述第二获取单元64具体用于:通过独热编码获得所述栏目数据的分词结果所对应的第一向量和所述标签数据的分词结果所对应的第二向量;通过对所述标题数据的分词结果进行词性分析,得到标题数据所对应的关键词,通过词向量模型获得每个关键词所对应的词向量,将所述标题数据所对应的所有关键词的词向量进行平均处理,得到第三向量;通过TF-IDF矩阵对所述正文数据的分词结果进行关键词提取,得到正文数据所对应的关键词,通过词向量模型获得每个关键词的词向量,将所述正文数据所对应的所有关键词的词向量进行平均处理,得到第四向量;根据所述第一向量、所述第二向量、所述第三向量和所述第四向量,获得所述文本所对应的特征向量。
或,所述第二获取单元64具体用于:对所述文本的分词结果进行关键词提取,获得所述文本的关键词;统计所述文本的关键词在所述网页的栏目、标题、正文及标签的位置分布;针对所述文本的关键词中的任一关键词,根据所述关键词在所述网页的栏目、标题、正文及标签的位置分布,为所述关键词设置权值;通过词向量模型获得每个关键词的词向量;针对所述文本的关键词中的任一关键词,将所述关键词的词向量与所述关键词的权值相乘,获得更新后的词向量;计算所述文本的所有关键词的更新后的词向量进行平均处理,获得所述文本所对应的特征向量。
进一步的,所述第二获取单元64还用于:分别为所述网页的栏目位置设置第一值,为所述网页的标题位置设置第二值,为所述网页的正文位置设置第三值,为所述网页的标签位置设置第四值;根据所述关键词出现在所述网页的位置,将所述关键词所出现的位置所对应的值求和,得到所述关键词的权值。
进一步的,所述文本分类模型为深度神经网络模型,所述深度神经网络模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为所述文本所对应的特征向量,所述第一隐藏层包括第一预设数目的节点,所述第二隐藏层包括第二预设数目的节点,所述第一隐藏层和所述第二隐藏层的激活函数为relu函数,所述输出层为所述文本的类型的概率,所述输出层的激活函数为logistics函数。
进一步的,该装置还包括建立单元67和选取单元68;
建立单元67,用于建立多个深度神经网络模型,针对所述多个深度神经网络模型中的任意两个深度神经网络模型,所述两个深度神经网络模型的学习率、训练次数、批尺寸和终止误差各不相同;
所述训练单元65还用于通过所述训练集分别对所述多个深度神经网络模型进行训练;
所述第一获取单元61还用于获取预设测试集;
所述分类单元66还用于通过所述预设测试集分别对完成训练的所述多个深度神经网络模型进行测试;
选取单元68,用于根据测试结果选取分类精确度最高的一个深度神经网络模型;
所述分类单元66具体用于:通过选取单元68选取的分类精度最高的深度神经网络模型,对所述待分类文本进行分类。
本发明实施例提供了一种基于机器学习的文本分类装置,基于机器学习的方法,在建立训练集中的文本所对应的特征向量的过程中,综合考虑关键词在网页中的位置分布,进而提高了文本分类模型的分类精度。
图7为本发明实施例提供的一种基于机器学习的文本分类终端设备的示意图。如图7所示,该实施例的文本分类终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,例如文本分类程序。所述处理器70执行所述计算机程序72时实现上述各个文本分类方法实施例中的步骤,例如图1所示的步骤101至105,或图2所示的步骤1031至1034等,或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块61至68的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述文本分类终端设备7中的执行过程。
所述文本分类终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述文本分类终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是文本分类终端设备7的示例,并不构成对文本分类终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述文本分类终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述文本分类终端设备7的内部存储单元,例如文本分类终端设备7的硬盘或内存。所述存储器71也可以是所述文本分类终端设备7的外部存储设备,例如所述文本分类终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述文本分类终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述文本分类终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述文本分类方法的步骤。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习的文本分类方法,其特征在于,该方法包括:
通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;
针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;
获取训练集,所述训练集包括所述多个网页所对应的多个文本;
针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;
对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量;
通过所述训练集对文本分类模型进行训练;
通过完成训练的文本分类模型,对待分类文本进行分类。
2.根据权利要求1所述的文本分类方法,其特征在于,所述对分词结果向量化,获得所述文本所对应的特征向量包括:
通过独热编码获得所述栏目数据的分词结果所对应的第一向量和所述标签数据的分词结果所对应的第二向量;
通过对所述标题数据的分词结果进行词性分析,得到标题数据所对应的关键词,通过词向量模型获得每个关键词所对应的词向量,将所述标题数据所对应的所有关键词的词向量进行平均处理,得到第三向量;
通过TF-IDF矩阵对所述正文数据的分词结果进行关键词提取,得到正文数据所对应的关键词,通过词向量模型获得每个关键词的词向量,将所述正文数据所对应的所有关键词的词向量进行平均处理,得到第四向量;
根据所述第一向量、所述第二向量、所述第三向量和所述第四向量,获得所述文本所对应的特征向量。
3.根据权利要求1所述的文本分类方法,其特征在于,所述对分词结果向量化,获得所述文本所对应的特征向量包括:
对所述文本的分词结果进行关键词提取,获得所述文本的关键词;
统计所述文本的关键词在所述网页的栏目、标题、正文及标签的位置分布;
针对所述文本的关键词中的任一关键词,根据所述关键词在所述网页的栏目、标题、正文及标签的位置分布,为所述关键词设置权值;
通过词向量模型获得每个关键词的词向量;
针对所述文本的关键词中的任一关键词,将所述关键词的词向量与所述关键词的权值相乘,获得更新后的词向量;
对所述文本的所有关键词的更新后的词向量进行平均处理,获得所述文本所对应的特征向量。
4.根据权利要求3所述的文本分类方法,其特征在于,所述为所述关键词设置权值包括:
分别为所述网页的栏目位置设置第一值,为所述网页的标题位置设置第二值,为所述网页的正文位置设置第三值,为所述网页的标签位置设置第四值;
根据所述关键词出现在所述网页的位置,将所述关键词所出现的位置所对应的值求和,得到所述关键词的权值。
5.根据权利要求1-4任一项所述的文本分类方法,其特征在于,所述文本分类模型为深度神经网络模型,所述深度神经网络模型包括4层,分别为输入层、第一隐藏层、第二隐藏层和输出层,所述输入层的输入为所述文本所对应的特征向量,所述第一隐藏层包括第一预设数目的节点,所述第二隐藏层包括第二预设数目的节点,所述第一隐藏层和所述第二隐藏层的激活函数为relu函数,所述输出层为所述文本的类型的概率,所述输出层的激活函数为logistics函数。
6.根据权利要求5所述的文本分类方法,其特征在于,该方法还包括:
建立多个深度神经网络模型,针对所述多个深度神经网络模型中的任意两个深度神经网络模型,所述两个深度神经网络模型的学习率、训练次数、批尺寸和终止误差各不相同;
通过所述训练集分别对所述多个深度神经网络模型进行训练;
获取预设测试集;
通过所述预设测试集分别对完成训练的所述多个深度神经网络模型进行测试;
根据测试结果选取分类精确度最高的一个深度神经网络模型对所述待分类文本进行分类。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
8.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
通过网络爬虫,爬取预设论坛网站的多个网页的网页内容;
针对所述多个网页中的任一网页,对所述网页的网页内容进行处理,获得所述网页所对应的一个文本,所述文本包括所述网页的栏目数据、标题数据、正文数据及标签数据;
获取训练集,所述训练集包括所述多个网页所对应的多个文本;
针对所述训练集中的任一文本,为所述文本设置标识,所述标识用于表示所述文本的类别;
对所述文本进行分词处理,并对分词结果向量化,获得所述文本所对应的特征向量;
通过所述训练集对文本分类模型进行训练;
通过完成训练的文本分类模型,对待分类文本进行分类。
9.根据权利要求8所述的文本分类方法,其特征在于,所述对分词结果向量化,获得所述文本所对应的特征向量包括:
通过独热编码获得所述栏目数据的分词结果所对应的第一向量和所述标签数据的分词结果所对应的第二向量;
通过对所述标题数据的分词结果进行词性分析,得到标题数据所对应的关键词,通过词向量模型获得每个关键词所对应的词向量,将所述标题数据所对应的所有关键词的词向量进行平均处理,得到第三向量;
通过TF-IDF矩阵对所述正文数据的分词结果进行关键词提取,得到正文数据所对应的关键词,通过词向量模型获得每个关键词的词向量,将所述正文数据所对应的所有关键词的词向量进行平均处理,得到第四向量;
根据所述第一向量、所述第二向量、所述第三向量和所述第四向量,获得所述文本所对应的特征向量。
10.根据权利要求8所述的文本分类方法,其特征在于,所述对分词结果向量化,获得所述文本所对应的特征向量包括:
对所述文本的分词结果进行关键词提取,获得所述文本的关键词;
统计所述文本的关键词在所述网页的栏目、标题、正文及标签的位置分布;
针对所述文本的关键词中的任一关键词,根据所述关键词在所述网页的栏目、标题、正文及标签的位置分布,为所述关键词设置权值;
通过词向量模型获得每个关键词的词向量;
针对所述文本的关键词中的任一关键词,将所述关键词的词向量与所述关键词的权值相乘,获得更新后的词向量;
对所述文本的所有关键词的更新后的词向量进行平均处理,获得所述文本所对应的特征向量。
CN201811181954.1A 2018-10-11 2018-10-11 一种基于机器学习的文本分类方法及终端设备 Pending CN109471937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811181954.1A CN109471937A (zh) 2018-10-11 2018-10-11 一种基于机器学习的文本分类方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811181954.1A CN109471937A (zh) 2018-10-11 2018-10-11 一种基于机器学习的文本分类方法及终端设备

Publications (1)

Publication Number Publication Date
CN109471937A true CN109471937A (zh) 2019-03-15

Family

ID=65663454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811181954.1A Pending CN109471937A (zh) 2018-10-11 2018-10-11 一种基于机器学习的文本分类方法及终端设备

Country Status (1)

Country Link
CN (1) CN109471937A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069634A (zh) * 2019-04-24 2019-07-30 北京泰迪熊移动科技有限公司 一种生成分类模板的方法、装置及计算机可读存储介质
CN110134845A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 项目舆情监控方法、装置、计算机设备及存储介质
CN110162624A (zh) * 2019-04-16 2019-08-23 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质
CN110427628A (zh) * 2019-08-02 2019-11-08 杭州安恒信息技术股份有限公司 基于神经网络算法的web资产分类检测方法及装置
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN110705290A (zh) * 2019-09-29 2020-01-17 新华三信息安全技术有限公司 一种网页分类方法及装置
CN110765418A (zh) * 2019-10-09 2020-02-07 清华大学 一种流域水沙研究模型的智能集合评估方法和系统
CN110825998A (zh) * 2019-08-09 2020-02-21 国家计算机网络与信息安全管理中心 一种网站识别方法及可读存储介质
CN110826315A (zh) * 2019-11-01 2020-02-21 智者四海(北京)技术有限公司 使用神经网络系统识别短文本时效性的方法
CN110889412A (zh) * 2019-11-01 2020-03-17 泰康保险集团股份有限公司 体检报告中的医学长文定位与分类方法及装置
CN111651163A (zh) * 2020-04-29 2020-09-11 南京航空航天大学 Api指令检测方法、装置
CN111753917A (zh) * 2020-06-29 2020-10-09 北京小米松果电子有限公司 数据处理方法、装置及存储介质
CN111767439A (zh) * 2020-06-28 2020-10-13 百度在线网络技术(北京)有限公司 基于页面分类标签的推荐方法、设备和介质
CN112131445A (zh) * 2019-06-24 2020-12-25 第四范式(北京)技术有限公司 用于对网页数据进行分类的分类模型的训练方法及装置
WO2021068684A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文档目录自动生成方法、装置、计算机设备及存储介质
CN112989789A (zh) * 2021-03-15 2021-06-18 京东数科海益信息科技有限公司 文本审核模型的测试方法、装置、计算机设备及存储介质
CN113239200A (zh) * 2021-05-20 2021-08-10 东北农业大学 内容识别分类方法、装置、系统及存储介质
CN113360657A (zh) * 2021-06-30 2021-09-07 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备
WO2021184674A1 (zh) * 2020-03-17 2021-09-23 上海爱数信息技术股份有限公司 文本关键词提取方法、电子设备及计算机可读存储介质
CN113687831A (zh) * 2021-07-07 2021-11-23 杭州未名信科科技有限公司 生成数据采集脚本的方法、装置、计算机设备及存储介质
CN113742785A (zh) * 2020-05-28 2021-12-03 深信服科技股份有限公司 一种网页分类方法、装置、电子设备及存储介质
CN113806732A (zh) * 2020-06-16 2021-12-17 深信服科技股份有限公司 一种网页篡改检测方法、装置、设备及存储介质
WO2022105123A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN104881458A (zh) * 2015-05-22 2015-09-02 国家计算机网络与信息安全管理中心 一种网页主题的标注方法和装置
CN105205090A (zh) * 2015-05-29 2015-12-30 湖南大学 基于网页链接分析和支持向量机的网页文本分类算法研究

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN104881458A (zh) * 2015-05-22 2015-09-02 国家计算机网络与信息安全管理中心 一种网页主题的标注方法和装置
CN105205090A (zh) * 2015-05-29 2015-12-30 湖南大学 基于网页链接分析和支持向量机的网页文本分类算法研究

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134845A (zh) * 2019-04-04 2019-08-16 平安科技(深圳)有限公司 项目舆情监控方法、装置、计算机设备及存储介质
CN110162624A (zh) * 2019-04-16 2019-08-23 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110162624B (zh) * 2019-04-16 2024-04-09 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110069634A (zh) * 2019-04-24 2019-07-30 北京泰迪熊移动科技有限公司 一种生成分类模板的方法、装置及计算机可读存储介质
CN110334110A (zh) * 2019-05-28 2019-10-15 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质
WO2020238061A1 (zh) * 2019-05-28 2020-12-03 平安科技(深圳)有限公司 自然语言分类方法、装置、计算机设备以及存储介质
CN112131445A (zh) * 2019-06-24 2020-12-25 第四范式(北京)技术有限公司 用于对网页数据进行分类的分类模型的训练方法及装置
CN110427628A (zh) * 2019-08-02 2019-11-08 杭州安恒信息技术股份有限公司 基于神经网络算法的web资产分类检测方法及装置
CN110442823A (zh) * 2019-08-06 2019-11-12 北京智游网安科技有限公司 网站分类方法、网站类型判断方法、存储介质及智能终端
CN110825998A (zh) * 2019-08-09 2020-02-21 国家计算机网络与信息安全管理中心 一种网站识别方法及可读存储介质
CN110569361A (zh) * 2019-09-06 2019-12-13 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN110569361B (zh) * 2019-09-06 2021-10-19 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN110705290B (zh) * 2019-09-29 2023-06-23 新华三信息安全技术有限公司 一种网页分类方法及装置
CN110705290A (zh) * 2019-09-29 2020-01-17 新华三信息安全技术有限公司 一种网页分类方法及装置
CN110765418B (zh) * 2019-10-09 2021-07-20 清华大学 一种流域水沙研究模型的智能集合评估方法和系统
CN110765418A (zh) * 2019-10-09 2020-02-07 清华大学 一种流域水沙研究模型的智能集合评估方法和系统
WO2021068684A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文档目录自动生成方法、装置、计算机设备及存储介质
CN110826315B (zh) * 2019-11-01 2023-11-24 智者四海(北京)技术有限公司 使用神经网络系统识别短文本时效性的方法
CN110826315A (zh) * 2019-11-01 2020-02-21 智者四海(北京)技术有限公司 使用神经网络系统识别短文本时效性的方法
CN110889412A (zh) * 2019-11-01 2020-03-17 泰康保险集团股份有限公司 体检报告中的医学长文定位与分类方法及装置
WO2021184674A1 (zh) * 2020-03-17 2021-09-23 上海爱数信息技术股份有限公司 文本关键词提取方法、电子设备及计算机可读存储介质
CN111651163B (zh) * 2020-04-29 2023-05-02 南京航空航天大学 Api指令检测方法、装置
CN111651163A (zh) * 2020-04-29 2020-09-11 南京航空航天大学 Api指令检测方法、装置
CN113742785A (zh) * 2020-05-28 2021-12-03 深信服科技股份有限公司 一种网页分类方法、装置、电子设备及存储介质
CN113806732B (zh) * 2020-06-16 2023-11-03 深信服科技股份有限公司 一种网页篡改检测方法、装置、设备及存储介质
CN113806732A (zh) * 2020-06-16 2021-12-17 深信服科技股份有限公司 一种网页篡改检测方法、装置、设备及存储介质
CN111767439A (zh) * 2020-06-28 2020-10-13 百度在线网络技术(北京)有限公司 基于页面分类标签的推荐方法、设备和介质
CN111753917A (zh) * 2020-06-29 2020-10-09 北京小米松果电子有限公司 数据处理方法、装置及存储介质
WO2022105123A1 (zh) * 2020-11-19 2022-05-27 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质
CN112989789A (zh) * 2021-03-15 2021-06-18 京东数科海益信息科技有限公司 文本审核模型的测试方法、装置、计算机设备及存储介质
CN112989789B (zh) * 2021-03-15 2024-05-17 京东科技信息技术有限公司 文本审核模型的测试方法、装置、计算机设备及存储介质
CN113239200B (zh) * 2021-05-20 2022-07-12 东北农业大学 内容识别分类方法、装置、系统及存储介质
CN113239200A (zh) * 2021-05-20 2021-08-10 东北农业大学 内容识别分类方法、装置、系统及存储介质
CN113360657B (zh) * 2021-06-30 2023-10-24 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备
CN113360657A (zh) * 2021-06-30 2021-09-07 安徽商信政通信息技术股份有限公司 一种公文智能分发办理方法、装置及计算机设备
CN113687831A (zh) * 2021-07-07 2021-11-23 杭州未名信科科技有限公司 生成数据采集脚本的方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109471937A (zh) 一种基于机器学习的文本分类方法及终端设备
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
US20200004792A1 (en) Automated website data collection method
US11907644B2 (en) Detecting compatible layouts for content-based native ads
CN102486791A (zh) 书签智能分类的方法和服务器
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104361059B (zh) 一种基于多示例学习的有害信息识别和网页分类方法
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN110287409B (zh) 一种网页类型识别方法及装置
CN108733675B (zh) 基于大量样本数据的情感评价方法及装置
CN107885785A (zh) 文本情感分析方法和装置
CN103605691A (zh) 用于处理社交网络中发布内容的装置和方法
CN109344246B (zh) 一种电子问卷生成方法、计算机可读存储介质及终端设备
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN107861945A (zh) 金融数据分析方法、应用服务器及计算机可读存储介质
Chandrapaul et al. News analysis using word cloud
KR20190048781A (ko) 온라인 의견 정보 수집 및 분석 시스템
US20200073889A1 (en) Database creation apparatus and search system
Saito et al. Classifying user reviews at sentence and review levels utilizing Naïve Bayes
Garcia et al. Fakerecogna: A new brazilian corpus for fake news detection
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN107688594A (zh) 基于社交信息的风险事件的识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination