CN103838886A - 基于代表词知识库的文本内容分类方法 - Google Patents

基于代表词知识库的文本内容分类方法 Download PDF

Info

Publication number
CN103838886A
CN103838886A CN201410126594.0A CN201410126594A CN103838886A CN 103838886 A CN103838886 A CN 103838886A CN 201410126594 A CN201410126594 A CN 201410126594A CN 103838886 A CN103838886 A CN 103838886A
Authority
CN
China
Prior art keywords
word
centerdot
page
knowledge base
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410126594.0A
Other languages
English (en)
Inventor
孙宏
赵晓波
季海东
董童霖
赵宇龙
Original Assignee
Liaoning Siwei Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Siwei Science And Technology Development Co Ltd filed Critical Liaoning Siwei Science And Technology Development Co Ltd
Priority to CN201410126594.0A priority Critical patent/CN103838886A/zh
Publication of CN103838886A publication Critical patent/CN103838886A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于“代表词知识库”的文本内容分类方法,属于数据分析和内容分类领域。本发明采用人工智能专家系统的方法,通过对待分类页面WPage的构成特征向量,计算与已经分类完的“代表词知识库”Wbase(CK)中知识的最短距离D(Cmin)和相似度Sk;,根据预置的阈值来判断WPage归属哪一类,从而达到分类的目的。对代表词分类知识库的更新,使系统变得越来聪明,不仅提高了内容分类的效率,更重要是提高了内容分类的覆盖面和准确程度。

Description

基于代表词知识库的文本内容分类方法
技术领域
本发明属于文本内容分类领域,特别是涉及到一个基于专家系统代表词分类知识库的文本内容分类方法、系统及装置。
技术背景
随着移动互联网的迅猛发展,特备是3G、4G互联网普及,原本只有专业和时尚人士上网变成草根屌丝们都能上网,带来了全民上网的信息化时代,造成信息爆炸。有效的组织管理好互联网信息,并从这些海量的大数据中快速、准确、全面的获取客户的兴趣特征,是对当今信息科学技术领域的一大挑战。文本分类技术,作为处理海量互联网文本数据的关键技术,可以解决电信运营商智能营销的问题,达到提高效率、降低成本、减少投诉、增加收益精细化运营的目的。
自动文本页面分类方法已经成为研究自然语言处理的热点,其分类方法各种各样,归结为有⑴基于IF-THEN决策树专家规则的分类方法;⑵基于自然语言利用神经网络的学习算法;⑶基于关键词的语言算法等的语义分析;⑷基于一组词或词组在文中出现频率、位置、以及词与词间的亲近程度的模式匹配;⑸通过识别内容中的共性元素进行聚类分类;⑹基于概率统计的贝叶斯分类;⑺遗传算法分类优化技术等等……。但是,这些分类方法只解决某些部分的具体应用、数据规模比较小、没有海量“垃圾”的内容分类
但是,以上这些自动文本页面分类均无法解决海量大数据的文本内容分类问题,然而本发明填补了百亿级海量大数据的分类问题。
发明内容
鉴于以上存在的问题,本发明的目的在于:提供一种通过人工智能专家系统构建的基于代表词知识库的文本内容分类方法,旨在解决电信运营商百亿级海量“有效”访问内容(页面URL)进行准确而高效的分类的问题。
本发明的目的是通过下述技术方案实现的:
基于代表词知识库的文本内容分类方法,其特征在于,包括:
(1)首先对待页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出代表词的频度,构成页面特征向量WPage={(W1,f1),(W2,f2),…,(Wi,fi),…},其中i=1、2、…、M,M为页面中代表词数;若WPage为空,该页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage
(2)从“代表词分类知识库”中读取所有的分类知识:
W Base ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , · · · , ( w j k , f j k ) , · · · }
其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,为第Ck类第j个代表词,
Figure BDA0000485113110000013
为第Ck类第j个代表词对应的频度;
(3)计算待文本页面特征向量WPage与所有类别Wbase(CK)的距离D(CK),同时计算出页面距离所有分类中最短的距离D(Cmin)和相似度Sk
D ( c k ) = Σ i = 1 M Σ j = 1 N ( f i - f j k ) 2
D ( c min ) = Min { Σ k = 1 L D ( c k ) }
S k = Σ j = 1 M f j k - D ( c min ) Σ j = 1 M f j k
(4)进行文本分类:当Mk<Sk≦1时,内容分类成功,将成功分类结果 W new ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , · · · , ( w i k , f i k ) , · · · } 存储到“内容分类结果”文件中,同时更新维护代表词知识库。当Sk≦Mk时,内容分类失败,结束分类。其中Mk是预先设置在0-1之间的相似度阈值。
所述步骤(2)中的“代表词分类知识库”需要定期进行知识更新,其步骤如下:
(1)根据“新增代表词分类数据”中间文件,提取第Ck类的新增代表词为:
W new ( c k ) = { w 1 k , w 2 k , w 3 k , · · · , w i k , · · · }
其中:i=1、2、…、Ni,Ni为新增代表词数;k=1、2、…、L,L为内容分类数
(2)从代表词基础知识库中提取第Ck类的基础代表词为:
W base ( c k ) = { w 1 k , w 2 k , w 3 k , · · · , w j k , · · · }
其中:j=1、2、…、Mj,Mj为基础分类库中代表词数;k=1、2、…、L,L为内容分类数
(3)新增知识的添加:
W new ( w i k ) ∈ W base ( w j k ) 时,
则通过分类基础知识库验证,自动更新代表词知识库,即将新增代表词
Figure BDA0000485113110000027
特征向量存储到Wbase(Ck)中。同时,重新计算该分类中各代表词的置信度,更新知识库;
否则,添加失败;
(4)推理规则的更新:通过客户移动互联网行为分析,重新计算各个分类中代表词在单位时间内的频度和置信度,进行代表词分类推理规则的更新;
(5)陈旧知识的删除:根据“客户行为分析”,若各个分类中的代表词知识N天没有被使用过,则认定为陈旧知识,从“代表词分类知识库”中删除。N为预先设置的阈值。
本发明的理论依据及技术效果
移动互联网上的内容种类很多,不仅有文本,还有视频、音乐、下载、游戏、图书、客户端应用软件等非文本的内容。本发明涉及到的内容分类是指文本内容的分类。一个文本页面的内容分类包括三部分,一部分是页面的标题Title,一部分是页面的元信息Meta,一部分是页面的正文Body。如果只对标题Title分类,基本上也能代表页面的内容分类,但是标题词汇量少,分类的准确程度有一定的局限。搜索引擎的依据是页面元信息Meta进行检索查询的,元信息中存放的都是能够代表页面内容分类的关键词,针对元信息的页面内容分类更能很好地代表页面的内容分类。根据页面正文Body切出来的词,虽然词汇量大,但是代表页面的语义比较分散,效率也低,准确性也比较差。
因此,本发明的内容分类以标题Title的切词和元信息Meta中的关键词两个内容分类更加准确的方法为主,在页面没有标题和元信息的时候,则用以效率比较低、准确程度不高的正文Body进行内容分类为辅。
代表词知识库说明:本发明涉及到的“代表词分类知识库”中的知识分为若干类,在每类下由若干个具有频度和置信度的代表词组成。其初始集的建立是建立在“移动互联网客户访问行为分析”的基础上,用一天未分类的页面URL,分析其被浏览情况,取其浏览数(PV值)Top排名的页面作为训练集,人工将训练集内的页面进行分类。然后,将训练集中相同类别中的所有页面标题Title中切出来的词和元信息Meta中的关键字进行合并,并计算其频度和置信度,构成该类的特征向量。在构造特征向量的基础上,根据欧式距离,计算第k类所有词到第k类以外所有类别的距离,找出距离最大的n个词作为第k类的代表词,以此类推,确定知识库的初始集。
再用下一天未分类的页面URL浏览数(PV值)的Top排名作为测试集,来检查分析代表词分类提取的准确性和占有率是否达到设计要求。当占有率达到要求时,则“代表词知识库”初始集建立完成。否则将下一天的浏览数Top排名据作为训练集继续训练,直至达到为止。
当“代表词分类知识库”的初始集建立后,还需要定期进行维护,维护知识更新,保持知识库覆盖面和准确性。
本发明的目的是根据“代表词分类知识库”,通过如下推理过程实现:
本发明首先对待页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,并计算合并后代表词的频度,构成页面特征向量:
WPage={(W1,f1),(W2,f2),…,(Wi,fi),…}
其中i=1、2、…、M,M为页面中代表词数
若WPage为空,说明页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage
在获取待分类的文本页面特征向量的基础上,从“代表词分类知识库”中读取所有的分类知识。知识库中的代表词特征向量构造如下:
W Base ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , · · · , ( w j k , f j k ) , · · · }
其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,
Figure BDA0000485113110000032
为第Ck类第j个
代表词,
Figure BDA0000485113110000033
为第Ck类第j个代表词对应的频度。
在获取待分类文本页面特征向量和知识库中代表词特征向量的基础上,计算文本页面特征向量中的每一个代表词到“代表词知识库”每一个分类中代表词的距离,来表示页面与知识库某一分类的相似度:
D ( c k ) = Σ i = 1 M Σ j = 1 N ( f i - f j k ) 2
其中,D(Ck)为文本页面Wpage与“代表词知识库”Wbase(Ck)的第Ck类内容分类的距离。然后,确定文本页面与“代表词知识库”内容分类中最短的距离D(Cmin):
D ( c min ) = Min { Σ k = 1 L D ( c k ) }
根据文本页面与“代表词知识库”内容分类中最短的距离D(Cmin),计算页面WPage与知识库中第Ck类WPage(Ck)的相似度Sk
S k = Σ j = 1 M f j k - D ( c min ) Σ j = 1 M f j k
当相似度Sk=1时,说明页面WPage与知识库中第Ck类WPage(Ck)的分类100%相似;当相似度Sk=0时,页面WPage与知识库中第Ck类WPage(Ck)的分类相似度为零。
因此,可以判断文本页面归属类别。当Mk<Sk≦1k时,内容分类成功,将成功分类结果 W new ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , · · · , ( w i k , f i k ) , · · · } 存储到“内容分类结果”文件,同时更新维护代表词知识库。当Sk≦Mk时,内容分类失败,结束分类。其中Mk是预先设置在0-1之间的相似度阈值。
本发明中的“代表词分类知识库”的更新也包括添加、更新和删除三个模块。第一个模块也是添加新的代表词分类知识,是从代表词分类成功推理获取“新增代表词分类数据”中间文件中提取新增代表词数据,
W new ( c k ) = { w 1 k , w 2 k , w 3 k , · · · , w i k , · · · }
其中:i=1、2、…、Ni,Ni为新增代表词数;k=1、2、…、L,L为内容分类数
然后,再从“代表词分类基础库”提取基础代表词
W base ( c k ) = { w 1 k , w 2 k , w 3 k , · · · , w j k , · · · }
其中:j=1、2、…、Mj,Mj为基础分类库中代表词数;k=1、2、…、L,L为内容分类数
W new ( w i k ) ∈ W base ( w j k ) 时,则将新增代表词
Figure BDA0000485113110000047
经人工确认后添加到“代表词知识库”中。否则,添加失败;
第二个模块是更新现有代表词分类知识的推理规则,根据客户移动互联网访问行为分析,重新计算各个分类中代表词在单位时间内的频度和置信度,进行代表词分类推理规则的更新;
第三个模块,同样是根据移动互联网用户行为分析,来判断是否删除陈旧的知识、若代表词分类知识N天没有被访问过,则认定为陈旧的知识,从“代表词知识库”中删除,天数N为预先设置的阈值。
本发明采用的技术方案,其特点在于通过已经分类完的“代表词分类知识库”,将待分类的页面进行归类,其内容分类速度、效率、准确率方面与其他分类方法相比,有了极大地提高。
附图说明
图1是基于代表词知识库的文本内容分类方法的流程图。
图2是代表词知识库的更新流程图。
具体实施方式
本发明是在专家系统下,基于代表词知识库,将用户浏览的文本内容自动进行分类,下面结合附图进行详细说明:
在图1中,基于代表词知识库的文本内容分类过程如下:
步骤1:本发明首先调用101模块从102数据文件中读取待分类的文本页面URL。然后,调用103模块将文本页面URL的标题Title进行切词,并与元信息Meta中的关键词进行合并,计算合并后代表词的频度,构成该页面特征向量:
WPage={(wl,fl),(w2,f2),…,(wi,fi),…}
其中i=1、2、…、M,M为页面中代表词数
步骤2:根据104模块判断WPage是否为空。如果WPage=“空”,说明页面没有标题和元信息,则调用105模块对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage
步骤3:调用106模块从107“代表词分类知识库”中读取所有的分类知识。代表词知识库中的知识构造如下:
W Base ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , · · · , ( w j k , f j k ) , · · · }
其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,为第Ck类第j个代表词,
Figure BDA0000485113110000053
为第Ck类第j个代表词对应的频度。
步骤4:调用108模块计算文本页面特征向量Wpage中的每一个代表词到“代表词知识库”每一个分类中代表词Wbase(Ck)的距离,来表示页面与知识库某一分类的相似度:
D ( c k ) = Σ i = 1 M Σ j = 1 N ( f i - f j k ) 2
其中:D(Ck)为文本页面Wpage与“代表词知识库”Wbase(Ck)的第Ck类内容分类的距离。
步骤5:确定文本页面Wpage与“代表词知识库”各内容分类Wbase(Ck)中最短的距离D(Cmin):
D ( c min ) = Min { Σ k = 1 L D ( c k ) }
步骤6:根据文本页面与“代表词知识库”内容分类中最短的距离D(Cmin),计算页面与知识库中第Ck类的相似度Sk
S k = Σ j = 1 M f j k - D ( c min ) Σ j = 1 M f j k
说明:当相似度Sk=0时,说明页面与知识库中的分类一点不相似.当相似度Sk=1时,说明页面与知识库中的分类百分之百的相似;
步骤7:根据109模块判断,当Mk<Sk≦1k时,内容分类成功,调用110模块将成功分类结果 W new ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , · · · , ( w i k , f i k ) , · · · } 存储到111“内容分类结果”文件中,同时调用112模块更新维护107“代表词知识库”。当Sk≦Mk时,内容分类失败,结束分类。其中Mk是预先设置在0-1之间的相似度阈值。
在图2中,代表词知识库的知识添加、更新和删除维护过程如下:
步骤1,调用201模块,从202“新增代表词分类数据”中间文件中读取新增代表词数据Wnew(Ck);
步骤2,调用203模块,首先从204“代表词基础分类库”中读取已经分类的知识,即代表词Wbase(Ck)。然后,匹配Wnew(Ck)中的代表词与Wbase(Ck)中的代表词。若
Figure BDA0000485113110000065
时,则将新增代表词
Figure BDA0000485113110000064
添加到206“代表词分类知识库”中。
步骤3,调用207模块进行代表词推理规则的更新维护,从206“代表词分类知识库”中调出全部的分类知识,根据步骤1的分析结果重新计算所有代表词知识在单位时间内的频度和置信度,重新确定代表词分类推理机的优先级别,即确定各个内容类别、以及各类别中代表词知识的优先顺序,然后调用208模块将更新的知识存回206“代表词分类知识库”中。
步骤4,调用209模块删除陈旧的知识,从206“代表词分类知识库”中调出全部的分类知识,挖掘出N天没有使用过代表词分类的知识,调用210模块从206“代表词分类知识库”中删除。

Claims (2)

1.基于代表词知识库的文本内容分类方法,其特征在于,包括:
(1)首先对待页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出合并后代表词的频度,构成页面特征向量WPage={(W1,f1),(W2,f2),…,(Wi,fi),…},其中i=1、2、…、M,M为页面中代表词数;若WPage为空,该页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage
(2)从“代表词分类知识库”中读取所有的分类知识:
W Base ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , · · · , ( w j k , f j k ) , · · · }
其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,
Figure FDA0000485113100000012
为第Ck类第j个代表词,
Figure FDA0000485113100000013
为第Ck类第j个代表词对应的频度;
(3)计算待文本页面特征向量WPage与所有类别Wbase(CK)的距离D(CK),同时计算出其中最短的距离D(Cmin)和相似度Sk
D ( c k ) = Σ i = 1 M Σ j = 1 N ( f i - f j k ) 2
D ( c min ) = Min { Σ k = 1 L D ( c k ) }
S k = Σ j = 1 M f j k - D ( c min ) Σ j = 1 M f j k
(4)进行文本分类:当Mk<Sk≦1时,内容分类成功,将成功分类结果 W new ( C k ) = { ( w 1 k , f 1 k ) , ( w 2 k , f 2 k ) , · · · , ( w i k , f i k ) , · · · } 存储到“内容分类结果”文件中,同时更新维护代表词知识库;当Sk≦Mk时,内容分类失败,结束分类。其中Mk是预先设置在0-1之间的相似度阈值。
2.如权利要求1所述的基于代表词知识库的文本内容分类方法,其特征在于:所述步骤(2)中的“代表词分类知识库”需要定期进行知识更新,其步骤如下:
(1)根据“新增代表词分类数据”中间文件,提取第Ck类的新增代表词为:
W new ( c k ) = { w 1 k , w 2 k , w 3 k , · · · , w i k , · · · }
其中:i=1、2、…、Ni,Ni为新增代表词数;k=1、2、…、L,L为内容分类数
(2)从代表词基础知识库中提取第Ck类的基础代表词为:
W base ( c k ) = { w 1 k , w 2 k , w 3 k , · · · , w j k , · · · }
其中:j=1、2、…、Mj,Mj为基础分类库中代表词数;k=1、2、…、L,L为内容分类
(3)新增知识的添加:
W new ( w i k ) ∈ W base ( w j k ) 时,
则通过分类基础知识库验证,自动更新代表词知识库,即将新增代表词
Figure FDA0000485113100000022
特征向量存储到Wbase(Ck)中;同时,重新计算该分类中各代表词的置信度,更新知识库;
否则,添加失败;
(4)推理规则的更新:通过客户移动互联网访问行为分析,重新计算各个分类中代表词在单位时间内的频度和置信度,进行代表词分类推理规则的更新;
(5)陈旧知识的删除:根据“客户行为分析”,若各个分类中的代表词知识N天没有被使用过,则认定为陈旧知识,从“代表词分类知识库”中删除,N为预先设置的阈值。
CN201410126594.0A 2014-03-31 2014-03-31 基于代表词知识库的文本内容分类方法 Pending CN103838886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410126594.0A CN103838886A (zh) 2014-03-31 2014-03-31 基于代表词知识库的文本内容分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410126594.0A CN103838886A (zh) 2014-03-31 2014-03-31 基于代表词知识库的文本内容分类方法

Publications (1)

Publication Number Publication Date
CN103838886A true CN103838886A (zh) 2014-06-04

Family

ID=50802382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410126594.0A Pending CN103838886A (zh) 2014-03-31 2014-03-31 基于代表词知识库的文本内容分类方法

Country Status (1)

Country Link
CN (1) CN103838886A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
WO2018157330A1 (zh) * 2017-03-01 2018-09-07 深圳市博信诺达经贸咨询有限公司 大数据的划分方法及系统
CN108764671A (zh) * 2018-05-16 2018-11-06 山东师范大学 一种基于自建语料库的创造能力评测方法和装置
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN109670114A (zh) * 2018-12-24 2019-04-23 成都四方伟业软件股份有限公司 制图规则推荐方法及装置
CN109872162A (zh) * 2018-11-21 2019-06-11 阿里巴巴集团控股有限公司 一种处理用户投诉信息的风控分类识别方法及系统
CN110334080A (zh) * 2019-06-26 2019-10-15 广州探迹科技有限公司 一种实现自主学习的知识库构建方法
CN111339396A (zh) * 2018-12-18 2020-06-26 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
CN111522941A (zh) * 2019-02-03 2020-08-11 阿里巴巴集团控股有限公司 文本聚类方法、装置、电子设备及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270384A1 (en) * 2007-04-28 2008-10-30 Raymond Lee Shu Tak System and method for intelligent ontology based knowledge search engine
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统
CN103177092A (zh) * 2013-03-08 2013-06-26 深圳先进技术研究院 知识库数据更新方法、系统及知识库
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103902703B (zh) * 2014-03-31 2016-02-10 郭磊 基于移动互联网访问的文本内容分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270384A1 (en) * 2007-04-28 2008-10-30 Raymond Lee Shu Tak System and method for intelligent ontology based knowledge search engine
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统
CN103177092A (zh) * 2013-03-08 2013-06-26 深圳先进技术研究院 知识库数据更新方法、系统及知识库
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN103902703B (zh) * 2014-03-31 2016-02-10 郭磊 基于移动互联网访问的文本内容分类方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893606A (zh) * 2016-04-25 2016-08-24 深圳市永兴元科技有限公司 文本分类方法和装置
WO2018157330A1 (zh) * 2017-03-01 2018-09-07 深圳市博信诺达经贸咨询有限公司 大数据的划分方法及系统
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN109241274B (zh) * 2017-07-04 2022-01-25 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN108764671A (zh) * 2018-05-16 2018-11-06 山东师范大学 一种基于自建语料库的创造能力评测方法和装置
CN108764671B (zh) * 2018-05-16 2022-04-15 山东师范大学 一种基于自建语料库的创造能力评测方法和装置
CN109872162A (zh) * 2018-11-21 2019-06-11 阿里巴巴集团控股有限公司 一种处理用户投诉信息的风控分类识别方法及系统
CN111339396B (zh) * 2018-12-18 2024-04-16 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
CN111339396A (zh) * 2018-12-18 2020-06-26 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
CN109670114B (zh) * 2018-12-24 2020-10-30 成都四方伟业软件股份有限公司 制图规则推荐方法及装置
CN109670114A (zh) * 2018-12-24 2019-04-23 成都四方伟业软件股份有限公司 制图规则推荐方法及装置
CN111522941A (zh) * 2019-02-03 2020-08-11 阿里巴巴集团控股有限公司 文本聚类方法、装置、电子设备及计算机存储介质
CN110334080A (zh) * 2019-06-26 2019-10-15 广州探迹科技有限公司 一种实现自主学习的知识库构建方法

Similar Documents

Publication Publication Date Title
CN103838886A (zh) 基于代表词知识库的文本内容分类方法
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
CN103902703B (zh) 基于移动互联网访问的文本内容分类方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN106649561A (zh) 面向税务咨询业务的智能问答系统
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN102637170A (zh) 一种问题推送方法及系统
CN102937960A (zh) 突发事件热点话题的识别与评估装置和方法
CN110019616A (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN105843841A (zh) 一种小文件存储方法和系统
CN104516961A (zh) 一种基于地域的话题挖掘及话题走势分析方法及系统
CN104268292A (zh) 画像系统的标签词库更新方法
CN101894351A (zh) 基于多智能Agent的旅游多媒体信息个性化服务系统
CN109614534B (zh) 一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法
CN112199508B (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
CN105787097A (zh) 一种基于文本聚类的分布式索引构建方法及系统
CN103455487A (zh) 一种搜索词的提取方法及装置
CN108027814A (zh) 停用词识别方法与装置
US11599666B2 (en) Smart document migration and entity detection
CN109460477A (zh) 信息收集分类系统和方法及其检索和集成方法
CN115858906A (zh) 企业搜索方法、装置、设备、计算机存储介质及程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20151229

Address after: 110020 Shenyang, Liaoning, Tiexi District, No. nine small road 12 3-7-1

Applicant after: Guo Lei

Address before: 110043, Dadong Road, Dadong District, Liaoning, 134, two gate, two floor, Shenyang

Applicant before: LIAONING SIWEI SCIENCE AND TECHNOLOGY DEVELOPMENT CO., LTD.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140604