CN111797945B - 一种文本分类方法 - Google Patents

一种文本分类方法 Download PDF

Info

Publication number
CN111797945B
CN111797945B CN202010846090.1A CN202010846090A CN111797945B CN 111797945 B CN111797945 B CN 111797945B CN 202010846090 A CN202010846090 A CN 202010846090A CN 111797945 B CN111797945 B CN 111797945B
Authority
CN
China
Prior art keywords
node
concept
nodes
category
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010846090.1A
Other languages
English (en)
Other versions
CN111797945A (zh
Inventor
康青杨
刘世林
李楠
张学锋
唐万琪
范森
吴桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN202010846090.1A priority Critical patent/CN111797945B/zh
Publication of CN111797945A publication Critical patent/CN111797945A/zh
Application granted granted Critical
Publication of CN111797945B publication Critical patent/CN111797945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据分类处理技术领域,提出一种文本分类方法,包括以下步骤:根据开源数据库建立有向图模型;计算有向图模型中所有节点的PageRank初始值;将待分类文本输入有向图模型,根据有向图模型中所有节点的PageRank初始值,使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新,从而对待分类文本进行分类。本发明使用开源数据库构成的有向图模型和对节点进行的PageRank分数计算,无需进行人工的大量标注数据,节省人力物力,降低文本分类的成本。

Description

一种文本分类方法
技术领域
本发明涉及数据分类处理技术领域,特别涉及一种文本分类方法。
背景技术
互联网上有大量的文章,往往需要对这些文章进行分类,比如在做文章推荐的时候需要按照文章类型推荐给不同的人。现有的文本分类方法都是基于监督学习,需要人工大量标注数据,再使用机器学习模型训练得到分类器,使用分类器对文本进行分类。
使用监督学习的文本分类方法存在最大的问题就是需要大量的标注数据,然而标注这些数据需要耗费大量的人力物力,使得文本分类的成本显著增高。
发明内容
本发明的目的在于改善现有技术中对文本分类需要进行大量的人工标注数据的问题,提供一种文本分类方法,无需对文本进行标注数据,即可对文本进行分类。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种文本分类方法,包括以下步骤:
根据开源数据库建立有向图模型;
计算有向图模型中所有节点的PageRank初始值;
将待分类文本输入有向图模型,将待分类文本中的节点映射在有向图模型上;
根据有向图模型中所有节点的PageRank初始值,使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新,从而对待分类文本进行分类。
所述根据开源数据库建立有向图模型的步骤,包括:
根据开源数据库获取若干个mention节点,将若干个所述mention节点构建为mention集合;
使用mention节点链接到与其映射的concept节点,将所有mention节点链接得到的若干个concept节点构建为concept集合;所述mention集合中的mention节点与concept集合中的concept节点形成映射关系;所述concept节点间存在链入或链出关系;
根据concept节点获取到与其对应的一个或多个category节点,将所有concept节点得到的若干个category节点构建为category集合;所述concept集合中的concept节点属于一个或多个category节点;所述category节点间存在从属关系;
对mention集合、concept集合、category集合中各个节点之间的边进行赋值,从而建立有向图模型。
所述对mention集合、concept集合、category集合中各个节点之间的边进行赋值,从而建立有向图模型的步骤,包括:
对mention集合中的mention节点到concept集合中的concept节点的边进行赋值;
对concept集合中的concept节点到其他concept节点的边进行赋值;
对concept集合中的concept节点到category集合中的category节点的边进行赋值;
对category集合中的category节点到其他category节点的边进行赋值;
根据mention集合、concept集合、category集合中各个节点之间的边的值,建立有向图模型。
所述对mention集合中的mention节点到concept集合中的concept节点的边进行赋值的步骤,包括:
若mention集合中的某mention节点到concept集合中的某concept节点之间存在链接关系,则该mention节点与该concept节点之间存在边,否则不存在边;
所述该mention节点到该concept节点的边的值为:
P1=(concept|mention)=(mention集合中该mention节点链接到concept集合中该concept节点的次数)/(mention集合中该mention节点链接到concept集合中任意concept节点的次数)。
所述对concept集合中的concept节点到其他concept节点的边进行赋值的步骤,包括:
若concept集合中任意两个concept节点链入链出集合的交集为空,则这两个concept节点之间不存在边,否则存在边;
存在边的两个concept节点之间的边的值为:
P2=count(L(c1)∩L(c2))/count(L(c1)∪L(c2))
其中L(c)表示concept集合中的某concept节点c的所有链入、链出的集合。
所述对concept集合中的concept节点到category集合中的category节点的边进行赋值的步骤,包括:
若concept集合中的某concept节点属于category集合中的某category节点,则该concept节点与该category节点之间存在边,否则不存在边;
所述该concept节点到该category节点的边的值为1。
所述对category集合中的category节点到其他category节点的边进行赋值的步骤,包括:
若category集合中的某category节点从属于category集合中的其他category节点,则该category节点与从属于的其他category节点之间存在边,否则不存在边;
所述该category节点到从属于的其他category节点之间的边的值为1。
所述计算有向图模型中所有节点的PageRank初始值的步骤,包括:
设置有向图模型中mention集合中所有mention节点的PageRank初始值R1:R1=包含mention集合中该mention节点连接的页面数量/包含mention集合中该mention节点的页面数量;
设置concept集合中的concept节点的PageRank初始值R2=0;
设置category集合中的category节点的PageRank初始值为R3=0。
所述将待分类文本输入有向图模型,将待分类文本中的节点映射在有向图模型上的步骤,包括:
将待分类文本输入有向图模型,通过Aho-Corasick算法提取待分类文本中的mention节点,构成mention集合,同时得到该待分类文本中各个mention节点的PageRank初始值R1;
按照有向图模型中mention节点与concept节点、concept节点与category节点的关系,得到该分类文本的concept节点、category节点,将该分类文本的节点映射到有向图模型上。
所述根据有向图模型中所有节点的PageRank初始值,使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新,从而对待分类文本进行分类的步骤,包括:
使用迭代公式对该待分类文本中各节点的PageRank分数进行迭代更新:
Figure 359501DEST_PATH_IMAGE001
其中
Figure 394715DEST_PATH_IMAGE002
为控制迭代更新速度的系数,
Figure 652521DEST_PATH_IMAGE003
为节点u的PageRank初始值,v、u表示待分类文本中的任意节点,
Figure 879103DEST_PATH_IMAGE004
表示节点v到节点u的边的值;
将category集合中的节点的PageRank分数进行由大到小的排序,PageRank分数越大,待分类文本被分类到与其对应的节点类型的概率越大。
所述将待分类文本输入有向图模型之前,还包括步骤:对待分类文本进行分词处理。
与现有技术相比,本发明的有益效果:
(1)本发明使用开源数据库构成有向图模型,将待分类分本的节点抽取后映射在该有向图模型上,然后对节点进行的PageRank分数计算,得到待分类文本的所属类别,无需进行人工的大量标注数据,节省人力物力,降低文本分类的成本。
(2)本发明构建出有向图模型后,对有向图模型中所有节点的PageRank初始值进行提前计算,之后每一次向有向图模型中输入待分类文本时,则无需再次计算节待分类文本中节点的PageRank初始值,将的输入的待分类文本节点映射在有向图模型上,即可直接获取已计算出的PageRank初始值进行PageRank分数的迭代更新,从而完成对待分类文本的分类,更进一步地节省了分类时间,提高分类效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提出的一种文本分类方法流程图;
图2为本发明实施例节点举例说明示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本发明通过下述技术方案实现,如图1所示,提出一种文本分类方法,包括以下步骤:
步骤S100:根据开源数据库建立有向图模型。
所述开源数据库可以使用维基百科数据库,维基百科数据库中的数据量庞大,具有知识网络结构,且开源,因此使用维基百科数据库中的数据来训练建立有向图模型是最好的选择。但目前有很多开源的数据库种都存在丰富的语料,也可以同时使用,结合建立有向图模型,以及未来开发的开源数据库都可以使用,因此本方案不对开源数据库进行限定。
首先,根据维基百科数据库可以获取到若干个mention节点,将若干个所述mention节点构建为mention集合;使用mention节点链接到与其映射的concept节点,将所有mention节点链接得到的若干个concept节点构建为concept集合;所述mention集合中的mention节点与concept集合中的concept节点形成映射关系;所述concept节点间存在链入或链出关系。
现举例说明,维基百科数据库中“数学”这个词所存在的概念页面有这样一段话:“数学是利用符号语言研究数量[1]、结构[2]、变化[3]以及空间[4]等概念的一门学科[5],从某种角度看属于形式科学的一种。数学透过抽象化[6]和逻辑推理[7]的使用,由计数[8]、计算[9]、量度[10]和对物体形状[11]及运动[12]的观察而产生。数学家[13]们拓展这些概念,为了公式化新的猜想[14]以及从选定的公理[15]及定义[16]中建立起严谨[17]推导出的定理。”
其中,标号的词语存在内部链接,点击标号的词语即会进入这个词语的概念页面,比如点击“数量[1]”这个词语,则会进入“数量[1]”的概念页面,那么我们称标号词语为mention节点,点击这个mention节点进入的概念页面称为concept节点,这个mention节点原本存在的概念页面也称为concept节点。
为便于理解,此处将“数学”这个词所在的概念页面定义为concept节点a,从concept节点a中点击“数量[1]”这个mention节点进入到的概念页面定义为concept节点b,那么我们称concept节点a为concept节点b的链入;同样,concept节点b中也存在多个mention节点,点击其中一个mention节点进入到的概念页面定义为concept节点c,那么我们称concept节点c为concept节点b的链出。
根据这个方式,容易理解的,一个concept节点中存在多个mention节点,某一个mention节点也可能存在于多个concept节点中,因此我们说mention节点与concept节点之间形成映射关系。同样,一个concept节点链入或链出的concept节点也有多个,因此我们说concept节点间存在链入或链出的关系。
然后,根据维基百科数据库已有的分类,一个concept节点会属于一个或多个category节点,相当于对这个concept节点的分类;同样,某个category节点也可能属于一个或多个另外的category节点,因此我们说category节点间存在从属关系。
再举一个实例,如图2所示,“林黛玉”是一个mention节点,“林黛玉”可以链接到“红楼梦”,那么“红楼梦”是一个concept节点;“红楼梦”这个concept节点中包含了“贾宝玉”等多个mention节点;“红楼梦”这个concept节点可以属于“名著”这个category节点,也可以属于“文学”这个category节点,同时“名著”这个category节点也属于“文学”这个category节点。
这样,就形成了属于mention集合、concept集合以及category集合中的若干个节点,得到这些节点后,需要对节点间的边进行赋值,才能得到完整的有向图模型。赋值的步骤如下:
S101:对mention集合中的mention节点到concept集合中的concept节点的边进行赋值。
若mention集合中的某mention节点到concept集合中的某concept节点之间存在链接关系,则该mention节点与该concept节点之间存在边,否则不存在边;
所述该mention节点到该concept节点的边的值为:
P1=(concept|mention)=(mention集合中该mention节点链接到concept集合中该concept节点的次数)/(mention集合中该mention节点链接到concept集合中任意concept节点的次数)。
比如,“特拉斯”这个mention节点链接到“尼古拉·特拉斯”这个concept节点的次数是12次,链接到“特拉斯公司”这个concept节点的次数是30次,那么“特拉斯”到“尼古拉·特拉斯”的边的值为12/(12+30),“特拉斯”到“特拉斯公司”的边的值为30/(12+30)。
步骤S102:对concept集合中的concept节点到其他concept节点的边进行赋值。
若concept集合中任意两个concept节点链入链出集合的交集为空,则这两个concept节点之间不存在边,否则存在边;
存在边的两个concept节点之间的边的值为:
P2=count(L(c1)∩L(c2))/count(L(c1)∪L(c2))
其中L(c)表示concept集合中的某concept节点c的所有链入、链出的集合。也就是说L(c1)∩L(c2)代表concept节点c1与concept节点c2之间的所有链入、链出的交集,L(c1)∪L(c2)代表concept节点c1与concept节点c2之间的所有链入、链出的并集。
步骤S103:对concept集合中的concept节点到category集合中的category节点的边进行赋值。
若concept集合中的某concept节点属于category集合中的某category节点,则该concept节点与该category节点之间存在边,且赋值为1,否则不存在边。
步骤S104:对category集合中的category节点到其他category节点的边进行赋值。
若category集合中的某category节点从属于category集合中的其他category节点,则该category节点与从属于的其他category节点之间存在边,且赋值为1,否则不存在边。
通过步骤S101-步骤S104即可对mention集合、concept集合以及category集合中的若干个节点间的边进行赋值,从而得到完整的有向图模型。
步骤S200:计算有向图模型中所有节点的PageRank初始值。
设置有向图模型中mention集合中所有mention节点的PageRank初始值R1:R1=包含mention集合中该mention节点连接的页面数量/包含mention集合中该mention节点的页面数量;
设置concept集合中的concept节点的PageRank初始值R2=0;
设置category集合中的category节点的PageRank初始值为R3=0。
将R2和R3设置为0,表示所有的concept节点和category节点都同等对待,没有任何先验知识,这样我们就得到了有向图模型中所有mention节点、concept节点、category节点的PageRank初始值。
步骤S300:将待分类文本输入有向图模型,将待分类文本中的节点映射在有向图模型上。
将待分类文本输入有向图模型之前,对待分类文本进行分词处理,去除不是由单个词或不是由多个词构成的节点,可以保证抽取待分类文本中的mention节点的准确率。比如,对“我市市长江大桥出席了会议”这句话进行分词后,得到“我”、“市”、“市长”、“江大桥”、“出席”、“了”、“会议”,如果不进行分词,那么则会抽取到“长江大桥”这个mention节点。
将进行分词处理后的待分类文本输入有向图模型,通过Aho-Corasick算法提取待分类文本中的mention节点,构成mention集合。由于在步骤S200中已经对有向图模型中所有的mention节点的PageRank初始值,那么从待分类文本中提取mention节点的同时,即可以得到这些mention节点的PageRank初始值R1。
按照有向图模型中mention节点与concept节点、concept节点与category节点的关系,可以得到该分类文本的concept节点、category节点,即可将待分类文本的节点映射到有向图模型上。
步骤S400:根据有向图模型中所有节点的PageRank初始值,使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新,从而对待分类文本进行分类。
使用迭代公式对该待分类文本中各节点的PageRank分数进行迭代更新:
Figure 714204DEST_PATH_IMAGE005
其中
Figure 723748DEST_PATH_IMAGE006
为控制迭代更新速度的系数
Figure 960694DEST_PATH_IMAGE007
为节点u的PageRank初始值,v、u表示待分类文本中的任意节点,
Figure 764702DEST_PATH_IMAGE008
表示节点v到节点u的边的值。
将category集合中的节点的PageRank分数进行由大到小的排序,PageRank分数越大,待分类文本被分类到这个category节点的概率越大,从而完成对该待分类文本的分类。
步骤S200-步骤S400是首先对有向图模型中所有mention节点的PageRank初始值进行统一计算,那么之后每一次向有向图模型中输入待分类文本时,将待分类文本的节点映射在有向图模型上,则不用重新计算一次待分类文本中mention节点的PageRank初始值了,使得计算速度更快,分类效率更高。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (6)

1.一种文本分类方法,其特征在于:包括以下步骤:
根据开源数据库建立有向图模型;
计算有向图模型中所有节点的PageRank初始值;
将待分类文本输入有向图模型,将待分类文本中的节点映射在有向图模型上;
根据有向图模型中所有节点的PageRank初始值,使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新,从而对待分类文本进行分类;
所述根据开源数据库建立有向图模型的步骤,包括:
根据开源数据库获取若干个mention节点,将若干个所述mention节点构建为mention集合;
使用mention节点链接到与其映射的concept节点,将所有mention节点链接得到的若干个concept节点构建为concept集合;所述mention集合中的mention节点与concept集合中的concept节点形成映射关系;所述concept节点间存在链入或链出关系;
根据concept节点获取到与其对应的一个或多个category节点,将所有concept节点得到的若干个category节点构建为category集合;所述concept集合中的concept节点属于一个或多个category节点;所述category节点间存在从属关系;
对mention集合、concept集合、category集合中各个节点之间的边进行赋值,从而建立有向图模型;
所述对mention集合、concept集合、category集合中各个节点之间的边进行赋值,从而建立有向图模型的步骤,包括:
对mention集合中的mention节点到concept集合中的concept节点的边进行赋值;
对concept集合中的concept节点到其他concept节点的边进行赋值;
对concept集合中的concept节点到category集合中的category节点的边进行赋值;
对category集合中的category节点到其他category节点的边进行赋值;
根据mention集合、concept集合、category集合中各个节点之间的边的值,建立有向图模型;
所述计算有向图模型中所有节点的PageRank初始值的步骤,包括:
设置有向图模型中mention集合中所有mention节点的PageRank初始值R1:R1=包含mention集合中该mention节点连接的页面数量/包含mention集合中该mention节点的页面数量;
设置concept集合中的concept节点的PageRank初始值R2=0;
设置category集合中的category节点的PageRank初始值为R3=0;
所述将待分类文本输入有向图模型,将待分类文本中的节点映射在有向图模型上的步骤,包括:
将待分类文本输入有向图模型,通过Aho-Corasick算法提取待分类文本中的mention节点,构成mention集合,同时得到该待分类文本中各个mention节点的PageRank初始值R1;
按照有向图模型中mention节点与concept节点、concept节点与category节点的关系,得到该分类文本的concept节点、category节点,将该分类文本的节点映射到有向图模型上。
2.根据权利要求1所述的一种文本分类方法,其特征在于:所述对mention集合中的mention节点到concept集合中的concept节点的边进行赋值的步骤,包括:
若mention集合中的某mention节点到concept集合中的某concept节点之间存在链接关系,则该mention节点与该concept节点之间存在边,否则不存在边;
所述该mention节点到该concept节点的边的值为:
P1=(concept|mention)=(mention集合中该mention节点链接到concept集合中该concept节点的次数)/(mention集合中该mention节点链接到concept集合中任意concept节点的次数)。
3.根据权利要求1所述的一种文本分类方法,其特征在于:所述对concept集合中的concept节点到其他concept节点的边进行赋值的步骤,包括:
若concept集合中任意两个concept节点链入链出集合的交集为空,则这两个concept节点之间不存在边,否则存在边;
存在边的两个concept节点之间的边的值为:
P2=count(L(c1)∩L(c2))/count(L(c1)∪L(c2))
其中L(c)表示concept集合中的某concept节点c的所有链入、链出的集合。
4.根据权利要求1所述的一种文本分类方法,其特征在于:所述对concept集合中的concept节点到category集合中的category节点的边进行赋值的步骤,包括:
若concept集合中的某concept节点属于category集合中的某category节点,则该concept节点与该category节点之间存在边,否则不存在边;
所述该concept节点到该category节点的边的值为1。
5.根据权利要求1所述的一种文本分类方法,其特征在于:所述对category集合中的category节点到其他category节点的边进行赋值的步骤,包括:
若category集合中的某category节点从属于category集合中的其他category节点,则该category节点与从属于的其他category节点之间存在边,否则不存在边;
所述该category节点到从属于的其他category节点之间的边的值为1。
6.根据权利要求1所述的一种文本分类方法,其特征在于:所述根据有向图模型中所有节点的PageRank初始值,使用PageRank算法对待分类文本中节点的PageRank分数进行迭代更新,从而对待分类文本进行分类的步骤,包括:
使用迭代公式对该待分类文本中各节点的PageRank分数进行迭代更新:
PRt(u)=τPR0(u)+(1-τ)∑vPRt-1(v)P(v→u)
其中τ为控制迭代更新速度的系数,PR0(u)为节点u的PageRank初始值,v、u表示待分类文本中的任意节点,P(v→u)表示节点v到节点u的边的值;
将category集合中的节点的PageRank分数进行由大到小的排序,PageRank分数越大,待分类文本被分类到与其对应的节点类型的概率越大。
CN202010846090.1A 2020-08-21 2020-08-21 一种文本分类方法 Active CN111797945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010846090.1A CN111797945B (zh) 2020-08-21 2020-08-21 一种文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010846090.1A CN111797945B (zh) 2020-08-21 2020-08-21 一种文本分类方法

Publications (2)

Publication Number Publication Date
CN111797945A CN111797945A (zh) 2020-10-20
CN111797945B true CN111797945B (zh) 2020-12-15

Family

ID=72833823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010846090.1A Active CN111797945B (zh) 2020-08-21 2020-08-21 一种文本分类方法

Country Status (1)

Country Link
CN (1) CN111797945B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
CN107239481A (zh) * 2017-04-12 2017-10-10 北京大学 一种面向多源网络百科的知识库构建方法
CN108062351A (zh) * 2017-11-14 2018-05-22 厦门市美亚柏科信息股份有限公司 关于特定主题类别的文本摘要提取方法、可读存储介质
CN108446408A (zh) * 2018-04-13 2018-08-24 浙江工业大学 一种基于PageRank的短文本摘要方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US8768960B2 (en) * 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics
US8924391B2 (en) * 2010-09-28 2014-12-30 Microsoft Corporation Text classification using concept kernel
CN103914538B (zh) * 2014-04-01 2017-02-15 浙江大学 基于锚文本上下文和链接分析的主题抓取方法
CN108388651B (zh) * 2018-02-28 2021-09-28 北京理工大学 一种基于图核和卷积神经网络的文本分类方法
CN109960786A (zh) * 2019-03-27 2019-07-02 北京信息科技大学 基于融合策略的中文词语相似度计算方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107085581A (zh) * 2016-02-16 2017-08-22 腾讯科技(深圳)有限公司 短文本分类方法和装置
CN106295796A (zh) * 2016-07-22 2017-01-04 浙江大学 基于深度学习的实体链接方法
CN107239481A (zh) * 2017-04-12 2017-10-10 北京大学 一种面向多源网络百科的知识库构建方法
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
CN108062351A (zh) * 2017-11-14 2018-05-22 厦门市美亚柏科信息股份有限公司 关于特定主题类别的文本摘要提取方法、可读存储介质
CN108446408A (zh) * 2018-04-13 2018-08-24 浙江工业大学 一种基于PageRank的短文本摘要方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Annotating documents with relevant Wikipedia concepts;Janez Brank等;《https://www.semanticscholar.org/paper/Annotating-documents-with-relevant-Wikipedia-Brank-Leban/84f0024bfa6ef18a30453d13a2b110e9b088d449》;20171231;第1-4页 *
Conceptual Graph Based Text Classification;Yi Wan等;《2014 IEEE International Conference on Progress in Informatics and Computing》;20140518;第104-108页,图1 *
Incorporating Wikipedia concepts and categories as prior knowledge into topic models;Kang Xu等;《Intelligent Data Analysis》;20170302;第448-453页,图2-3 *

Also Published As

Publication number Publication date
CN111797945A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN104915448B (zh) 一种基于层次卷积网络的实体与段落链接方法
CN110472042B (zh) 一种细粒度情感分类方法
CN108874878A (zh) 一种知识图谱的构建系统及方法
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN108038205B (zh) 针对中文微博的观点分析原型系统
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
CN107153642A (zh) 一种基于神经网络识别文本评论情感倾向的分析方法
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN107704892A (zh) 一种基于贝叶斯模型的商品编码分类方法以及系统
CN113254667A (zh) 基于深度学习模型的科技人物知识图谱构建方法、装置及终端
CN106570148A (zh) 一种基于卷积神经网络的属性抽取方法
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN107808278A (zh) 一种基于稀疏自编码器的Github开源项目推荐方法
CN109189926A (zh) 一种科技论文语料库的构建方法
CN113255321B (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN113449204A (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN105068986A (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN107908757A (zh) 网站分类方法及系统
Kathuria et al. AOH-Senti: aspect-oriented hybrid approach to sentiment analysis of students’ feedback
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
CN113239143A (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
Mary et al. ASFuL: Aspect based sentiment summarization using fuzzy logic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant