CN107391674B - 一种新类挖掘方法及装置 - Google Patents

一种新类挖掘方法及装置 Download PDF

Info

Publication number
CN107391674B
CN107391674B CN201710601980.4A CN201710601980A CN107391674B CN 107391674 B CN107391674 B CN 107391674B CN 201710601980 A CN201710601980 A CN 201710601980A CN 107391674 B CN107391674 B CN 107391674B
Authority
CN
China
Prior art keywords
label
data
classification
new
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710601980.4A
Other languages
English (en)
Other versions
CN107391674A (zh
Inventor
李德彦
席丽娜
郝思洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co., Ltd
Original Assignee
Dinfo Beijing Science Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dinfo Beijing Science Development Co ltd filed Critical Dinfo Beijing Science Development Co ltd
Priority to CN201710601980.4A priority Critical patent/CN107391674B/zh
Publication of CN107391674A publication Critical patent/CN107391674A/zh
Application granted granted Critical
Publication of CN107391674B publication Critical patent/CN107391674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实公开了一种新类挖掘方法及装置。所述方法包括:在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,生成新的子类标签。本申请实施例提供技术方案,对数据量过大的标签下的数据进行新类挖掘,也就是进行进一步细分,从而能够自动更新分类体系,提供更准确的数据分类,提高分类效率。

Description

一种新类挖掘方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种新类挖掘方法及装置。
背景技术
分类体系的建立,使得数量巨大的数据得以归类,统一管理,从海量数据针对性的选择出有用的数据。
一套完整的分类体系的建立,需要行业专家、技术人员等相关人员投入大量精力才能完成,因此,一套分类体系的沿用时间会较长。但由于技术、行业发展等情况日新月异,行业/话题/重点方向等分类更新速度也随之加快,在该情景下,分类体系的及时更新非常重要。
目前,分类体系的更新,与建立时情况类似,需要行业专家等人员投入大量精力,通过调研大量数据进行总结归纳加人为判断,才能完成分类体系的更新,需要耗费大量的人工成本且效率低下。
发明内容
本申请提供了一种新类挖掘方法及装置,以对数据量大的节点进行自动细分。
第一方面,本申请提供了一种新类挖掘方法,所述方法包括:
在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,生成新的子类标签。
其中,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述方法还可以包括:
根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;
或者,在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
所述方法还可以包括:
根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;
按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
所述的方法,在生成新的子类标签之后,还可以包括:
在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;
利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
其中,各节点下的数据为文本数据,对节点下的数据进行聚类计算生成新的子类标签,具体为:
对待聚类的节点下的文本数据进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;
根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;
根据所述文本特征使用预设的聚类算法进行聚类,生成新的子类标签。
其中,使用词性为动词和名词的文本词条构建文本特征。
第二方面,本申请还提供了一种新类挖掘装置,所述装置包括:
记录单元,用于在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
聚类单元,用于监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,生成新的子类标签。
其中,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述装置还可以包括:
第一状态设置单元,用于根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;
或者,用于在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
所述的装置,还可以包括:
第二状态设置单元,用于根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;
所述聚类单元,还用于按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
所述的装置,还可以包括:
构建单元,用于在生成新的子类标签之后,在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;
分类单元,用于利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
其中,各节点下的数据为文本数据,所述聚类单元具体用于:
对待聚类的节点下的文本数据进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;
根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;
根据所述文本特征使用预设的聚类算法进行聚类,生成新的子类标签。
其中,所述聚类单元使用词性为动词和名词的文本词条构建文本特征。
本申请实施例提供的新类挖掘方法,对数据量过大的标签下的数据自动进行新类挖掘,也就是自动进行进一步细分,从而能够自动更新分类体系,提供更准确的数据分类,降低人工耗费,提高分类效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种新类挖掘方法的流程示意图;
图2为本申请提供的一种新类挖掘装置的框图。
具体实施方式
参见图1,为本申请提供的一种新类挖掘方法,所述方法包括:
步骤S101,在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
步骤S102,监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,生成新的子类标签。
在对数据构建分类体系时,统计分类的过程中,分类到每一个类标签的数据量。具体地,分类树的节点名即分类标签,下级节点是上级节点的下位类,训练语料存储在对应标签的节点内,终端节点下没有再细分的训练语料,因此只有非终端节点可以训练分类模型,具体地是根据非终端节点的各个子节点对应的语料,训练出该节点对应的分类,例如选择节点“一”训练分类模型时,使用的是其子节点“1、2、3”下的所有语料,模型则存存储在节点“一”中。所有非终端节点都可以训练出独立其他节点的分类模型,在利用分类模型进行分类时,从根节点开始逐层进行。首先判断“根节点”有无分类模型,有分类模型则使用该分类模型将语料分入其子节点;然后判断其子节点有无分类模型,若有分类模型,则继续将语料细分至有分类模型的子节点下;然后判断子节点的子节点有无分类模型,若有则继续细分,依此类推,直至节点或子节点下没有可以继续用于细分的分类模型为止,由此完成分类。在分类过程中,记录分到每个节点的数据量,得到分类到该节点的分类标签(即节点名)下的数据量。
分类完成后,或者在分类开始一定时间后,判断分类到目标标签的数据量是否大于或等于预设量值。其中,所述目标标签可以由用户设定,例如用户主要关注的标签或者希望进行新类挖掘的标签设为目标标签,那么只对这些用户设定的目标标签进行前述判断。也可以用户不进行设定,将每个标签都视为目标标签,判断分类到每个标签的数据量是否大于或等于预设量值。其中,预设量值可以根据存储空间的大小和分类细分的要求确定。
若分类到目标标签的数据量大于或等于预设量值,则该目标标签下的数据过多,需要进行下钻式新类挖掘,也就是需要在目标标签分类下进一步细分,所述细分将产生新类。对于数据量大于或等于预设量值的标签,可以标记为兴趣标签,与其他标签进行区分,也便于后续着重对兴趣标签进行统计和处理。
对数据量大于或等于预设量值的目标标签下的数据进行记录并保存于数据库,使用预设的聚类算法对所述数据进行聚类,若所述数据量小于预设量值,则不进行聚类。在使用预设的聚类算法对所述目标标签对应的数据进行聚类之前,还可以进一步判断所述数据量是否大于或等于预设指标值,若所述数据量大于或等于预设指标值,则使用预设的聚类算法对所述目标标签对应的数据进行聚类,若所述数据量小于预设指标值,则不进行聚类,所述预设指标值大于或等于所述预设量值。这种方式,在数据量大于或等于预设量值的目标标签过多的情况下,并不是对每一个目标标签的数据都进行聚类,而只对数据量大于预设指标值的目标标签的数据进行聚类,从而节省系统资源。
所述聚类可以定时执行,用户可以设定聚类执行的时间或周期,以更有效率地利用系统时间。所述预设的聚类算法可以为K-Mean是聚类算法等。若所述数据为文本,则所述使用预设的聚类算法对所述目标标签对应的数据进行聚类,可以包括:
(a1)对文本进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;
(a2)根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;
(a3)根据所述文本特征使用预设的聚类算法进行聚类。
具体地,文本的预处理可以包括词性标注和/或语义标注),构建统计词典,对文本进行词条切分,完成文本信息的分词。文件进行预处理后,需构建文本特征以便进行聚类,文本特征的表示方法包括布尔逻辑型、概率型、混合型和向量空间模型等,不同的文本特征可以赋予不同的权重进行优化,例如业务概念分词结果,特征权重乘4,语言概念分词结果,特征权重乘2。
其中,向量空间模型VSM(Vector Space Model)将文本映射为一组规范化正交词条矢量张成的向量空间中的一个点,文本用此空间中的词条向量(T1,W1,T2,W2,…,Tn,Wn)表示,其中为Ti为特征向量词条,Wi为Ti的权重,可以构造一个评价函数来表示词条权重,评价函数计算的唯一准则是最大限度地区别不同文本。向量空间模型VSM可以将非结构化和半结构化的文本表示为向量形式,方便进行数学处理。但VSM特征向量维数众多,因此在进行聚类之前,可以对特征向量个数进行缩减,例如将特征向量词条按权重排序,选取权重大的特征向量词条,提升聚类效率。
由于动词和名次在语法结构中比较能够表征实际意义,在进行分词之后可以筛选动词性和名词性的词条,作为文本特征,较优的是选择长度大于1的动词性或名词性的词条作为文本特征。
得到文本特征,也就是将文本表示数学形式后,在此文本特征基础上使用预设的聚类算法进行聚类。所述聚类算法可以是K-Mean聚类算法。K-means聚类算法的计算过程如下:(1)从N个文本特征中随机选取K个文本特征作为质心,N>K;(2)对剩余的每个文本特征,测量其到每个质心的距离,并将其归入与其距离最近的质心的类,所述距离可以为欧氏距离;(3)重新计算已经得到的各个类新的质心;(4)迭代第2至3步直至新的质心与原质心的距离小于指定阈值,算法结束。
聚类过程中,每一次迭代都是在优化聚类结果。当聚类结果中类簇的中心不再变化,或者达到指定的聚类次数,也可以结束聚类。
聚类结束后类簇的质心即为挖掘出的候选新类标签,选中的新类标签可以作为目标标签节点的子节点直接添加到分类树中,或者显示给用户,由用户选择想要添加到分类树的新类标签(即被选新类标签),然后将被选新类标签添加到分类树中。新类标签添加到分类树中之后,在对应的子节点添加训练语料,便可在其父节点训练分类模型。分类模型训练完成后,分类树的更新完毕。系统还可以为为用户提供导出新类数据的功能,作为规则分类设计或建设分类策略的样本数据。
其中,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述方法还可以包括:根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;或者,在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
所述方法还可以包括:根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
所述的方法,在生成新的子类标签之后,还可以包括:在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
其中,各节点下的数据为文本数据,对节点下的数据进行聚类计算生成新的子类标签,具体可以为:对待聚类的节点下的文本数据进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;根据所述文本特征使用预设的聚类算法进行聚类,生成新的子类标签。其中,可以使用词性为动词和名词的文本词条构建文本特征。
本申请实施例提供的新类挖掘方法,对数据量过大的标签下的数据自动进行新类挖掘,也就是自动进行进一步细分,从而能够自动更新分类体系,提供更准确的数据分类,降低人工耗费,提高分类效率。
参见图2,为本申请提供的一种新类挖掘装置,所述装置包括:
记录单元U201,用于在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
聚类单元U202,用于监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,生成新的子类标签。
其中,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述装置还可以包括:
第一状态设置单元,用于根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;或者,用于在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
所述装置,还可以包括:
第二状态设置单元,用于根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;
所述聚类单元,还用于按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
所述装置,还可以包括:
构建单元,用于在生成新的子类标签之后,在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;
分类单元,用于利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
其中,各节点下的数据为文本数据,所述聚类单元可以具体用于:
对待聚类的节点下的文本数据进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;
根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;
根据所述文本特征使用预设的聚类算法进行聚类,生成新的子类标签。
其中,所述聚类单元可以使用词性为动词和名词的文本词条构建文本特征。
需要说明的是,在本文中,需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者逆序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者装置中还存在另外的相同要素。
本文中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上所述的本申请的实施方式并不构成对本申请保护范围的限定。

Claims (10)

1.一种新类挖掘方法,其特征在于,包括:
在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,包括:
判断所述数据量是否大于或等于预设指标值;
若所述数据量大于或等于预设指标值,则使用预设的聚类算法对所述目标标签对应的数据进行聚类,若所述数据量小于预设指标值,则不进行聚类,所述预设指标值大于或等于所述预设量值;
生成新的子类标签。
2.如权利要求1所述的方法,其特征在于,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述方法还包括:
根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;
或者,在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;
按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
4.如权利要求1至3任一项所述的方法,其特征在于,在生成新的子类标签之后,还包括:
在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;
利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
5.如权利要求1至3中任一项所述的方法,其特征在于,各节点下的数据为文本数据,对节点下的数据进行聚类计算生成新的子类标签,具体为:
对待聚类的节点下的文本数据进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;
根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;
根据所述文本特征使用预设的聚类算法进行聚类,生成新的子类标签。
6.如权利要求5所述的方法,其特征在于,使用词性为动词和名词的文本词条构建文本特征。
7.一种新类挖掘装置,其特征在于,包括:
记录单元,用于在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
聚类单元,用于监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,包括:判断所述数据量是否大于或等于预设指标值;若所述数据量大于或等于预设指标值,则使用预设的聚类算法对所述目标标签对应的数据进行聚类,若所述数据量小于预设指标值,则不进行聚类,所述预设指标值大于或等于所述预设量值;生成新的子类标签。
8.如权利要求7所述的装置,其特征在于,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述装置还包括:
第一状态设置单元,用于根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;
或者,用于在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
9.如权利要求7所述的装置,其特征在于,还包括:
第二状态设置单元,用于根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;
所述聚类单元,还用于按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
10.如权利要求7至9任一项所述的装置,其特征在于,还包括:
构建单元,用于在生成新的子类标签之后,在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;
分类单元,用于利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
CN201710601980.4A 2017-07-21 2017-07-21 一种新类挖掘方法及装置 Active CN107391674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710601980.4A CN107391674B (zh) 2017-07-21 2017-07-21 一种新类挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710601980.4A CN107391674B (zh) 2017-07-21 2017-07-21 一种新类挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN107391674A CN107391674A (zh) 2017-11-24
CN107391674B true CN107391674B (zh) 2020-04-10

Family

ID=60336144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710601980.4A Active CN107391674B (zh) 2017-07-21 2017-07-21 一种新类挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN107391674B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188092B (zh) * 2019-04-28 2021-08-03 浙江工业大学 一种挖掘人民调解中新型矛盾纠纷的系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012137908A (ja) * 2010-12-27 2012-07-19 Yahoo Japan Corp クラスタリング装置及びクラスタリング方法
CN105006231A (zh) * 2015-05-08 2015-10-28 南京邮电大学 基于模糊聚类决策树的分布式大型人口语者识别方法
CN106126734A (zh) * 2016-07-04 2016-11-16 北京奇艺世纪科技有限公司 文档的分类方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012137908A (ja) * 2010-12-27 2012-07-19 Yahoo Japan Corp クラスタリング装置及びクラスタリング方法
CN105006231A (zh) * 2015-05-08 2015-10-28 南京邮电大学 基于模糊聚类决策树的分布式大型人口语者识别方法
CN106126734A (zh) * 2016-07-04 2016-11-16 北京奇艺世纪科技有限公司 文档的分类方法和装置

Also Published As

Publication number Publication date
CN107391674A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
CN106156204B (zh) 文本标签的提取方法和装置
US7971150B2 (en) Document categorisation system
Inzalkar et al. A survey on text mining-techniques and application
US7783642B1 (en) System and method of identifying web page semantic structures
WO2016179938A1 (zh) 题目推荐方法和题目推荐装置
US9224155B2 (en) Systems and methods for managing publication of online advertisements
CN107544982B (zh) 文本信息处理方法、装置及终端
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN109948160B (zh) 短文本分类方法及装置
JP2006293767A (ja) 文章分類装置、文章分類方法および分類辞書作成装置
CN109271513B (zh) 一种文本分类方法、计算机可读储存介质及系统
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN107239509A (zh) 面向短文本的单主题挖掘方法及系统
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN107391674B (zh) 一种新类挖掘方法及装置
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190904

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant after: China Science and Technology (Beijing) Co., Ltd.

Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: Beijing Shenzhou Taiyue Software Co., Ltd.

Applicant before: China Science and Technology (Beijing) Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Patentee after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Patentee before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CP03 Change of name, title or address