CN111353045A - 构建文本分类体系的方法 - Google Patents
构建文本分类体系的方法 Download PDFInfo
- Publication number
- CN111353045A CN111353045A CN202010189600.2A CN202010189600A CN111353045A CN 111353045 A CN111353045 A CN 111353045A CN 202010189600 A CN202010189600 A CN 202010189600A CN 111353045 A CN111353045 A CN 111353045A
- Authority
- CN
- China
- Prior art keywords
- topic
- topics
- labels
- candidate
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 28
- 238000013138 pruning Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 5
- 235000019580 granularity Nutrition 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 2
- 101150041570 TOP1 gene Proteins 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了一种构建文本分类体系的方法,其中文本与话题相关联,包括:构建文本分类系统的粗分类标签,粗分类标签由话题形成并且每个粗分类标签具有话题列表;扩展粗分类标签的话题列表;以及基于扩展的话题列表,构建粗分类标签的细分类标签,细分类标签的至少一部分由与话题列表相关联的文本的关键词形成。本发明使用与文本相关联的话题标签,自动构建由粗到细多粒度的文本分类体系,可支持不同场景下的应用需求,并且能够自动化地进行类别体系由粗到细的层级扩展。
Description
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种构建文本分类体系的方法、装置、电子设备和计算机可读存储介质。
背景技术
如今互联网上囊括了海量的文本信息,如何在不同粒度上合理安排并利用这些信息,以达到不同的目标是一项有挑战并意义非凡的工作。一般而言,想要达到这种目标通常是使用不同粒度的标签对信息进行归类整合,并在使用时根据需求结合相应粒度的标签来检索对应的信息。
现有的文本分类技术依据对于文本信息特征的提取方式不同,主要分为基于专家规则、基于人工统计特征与基于深度学习的三种方法。
基于专家规则的方法针对不同领域的文本特点,指定对应的规则库,对待分类的文本进行特征匹配,例如,足球、联赛等可以分类到体育类别。然而,其依赖于专家系统,需要专门构建特征规则,费时费力,而且互联网上的文本信息规范程度差,意思相同的一段话可能出现大量不同表达方式,人工规则难以概全。
基于人工统计特征的方法根据文本中出现的词,计算各种统计值,比如文档频率、互信息、信息增益、χ2统计量等。然而,其忽略了词序对于文本信息表示的作用,特征纬度高、稀疏性强,不利于分类器的学习。
基于深度学习的方法难点在于文本表示,且限于一个维度的标签分类学习,比如,对于“华为Mate 30系列的爆料信息有哪些,你对Mate 30系列有哪些期待?”这样一段文本,大部分场景解决的问题是分类为「数码」即正确,或者在另一个分类体系下分为「手机」即正确,而缺少了同时对于不同粒度标签进行分类的能力。
发明内容
为了解决上述问题,并根据知乎的实际应用场景和数据资源,我们提出了一种构建文本分类体系的方法,其使用与文本相关联的话题,构建过程主要分为两步:构建文本分类体系的粗粒度标签,以及从与粗粒度标签相关的文本自动发现细粒度标签。
根据本发明的第一方面,提供了一种构建文本分类体系的方法,其中文本与话题相关联,所述方法包括:构建所述文本分类系统的粗分类标签,所述粗分类标签由话题形成并且每个粗分类标签具有话题列表;基于与所述粗分类标签的话题列表中的话题相关联的文本,构建文本分类体系中所述粗分类标签的细分类标签,所述细分类标签的至少一部分由与所述话题列表相关联的文本的关键词形成。
在一个可能的实施例中,所述话题形成话题树,所述粗分类标签基于所述话题树形成,并且与所述粗分类标签相关联的文本的总数超过第一阈值。
在一个可能的实施例中,所述方法还包括扩展粗分类标签的话题列表,具体可以包括以下至少一项:针对每个粗分类标签,如果其话题列表中话题与其他话题的共现次数超过预设比例,将该其他话题标签加入到话题列表中;根据话题树查找到话题列表中话题的子话题,加入到话题列表中;根据话题的语义向量之间的相似度进行对话题列表进行剪枝;以及如果话题属于多个粗分类标签,根据该话题与所述多个粗分类标签的语义相似度和该话题与所述多个分类标签的话题树距离,选择所述多个粗分类标签之一。
在一个可能的实施例中,所述方法还可以包括扩展所述粗分类标签,具体包括:通过对话题聚类得到话题簇,计算所述粗分类标签的话题列表与每个话题簇的相似度,将相似度大于第二阈值的话题簇作为扩展的候选簇。
在一个可能的实施例中,所述方法还可以包括去除所述候选簇中的不相似话题,包括以下至少一项:计算所述候选簇内的每个话题与所有其他话题的语义向量的相似度,去除相似度小于第三阈值的话题;计算所述候选簇内的每个话题与所述粗分类标签的语义向量的相似度,去除相似度小于第四阈值的话题;和/或去除所述粗分类标签对应话题在话题树上的同级和/或父级话题;去除话题的文本数超过所述粗分类的话题类别的文本总数的话题。
在一个可能的实施例中,所述构建所述文本分类系统的细分类标签,具体包括,针对所述粗分类标签中一个:从所述文本中提取关键词,将关键词出现频度超过第五阈值的关键词作为第一候选标签;计算所述文本与其话题的匹配度,将匹配度超过第六阈值的话题作为第二候选标签;对所述文本的标题进行分词,得到的分词作为第三候选标签;根据第一候选标签、第二候选标签、第三候选标签,过滤掉停用词、粗分类标签、粗分类标签的同义词、粗分类标签的话题的父话题中的话题,形成所述粗分类标签的细分类标签候选集。
在一个可能的实施例中,所述方法还可以包括:将所述细分类标签候选集中的每个候选标签进行向量化:对向量化的候选标签进行聚类并去除与中心点的相似度小于第七阈值的样本;统计每个簇出现次数最多的多个关键词,作为该簇的描述;使用关键词、簇的大小对聚类结果形成的簇进行剪枝。
在一个可能的实施例中,所述剪枝可以包括以下至少一项:删除文本数量小于第八阈值的簇;删除出现次数最多的关键词与簇的文本数之比小于第九阈值的簇;合并出现次数最多的关键词相同或作为簇的描述的关键词中有超过第十阈值的关键词相同的簇。
根据本发明的第二方面,提供了一种构建文本分类体系的装置,其中文本与话题相关联,所述装置包括:粗分类标签构建单元,用于构建所述文本分类系统的粗分类标签,所述粗分类标签由话题形成并且每个粗分类标签具有话题列表;话题扩展单元,用于扩展所述粗分类标签的话题列表;以及细分类标签构建单元,用于基于所述扩展的话题列表,构建所述粗分类标签的细分类标签,所述细分类标签的至少一部分由与所述话题列表相关联的文本的关键词形成。
在一个可能的实施例中,所述话题形成话题树,所述粗分类标签基于所述话题树形成,并且与所述粗分类标签相关联的文本的总数超过第一阈值。
在一个可能的实施例中,所述话题扩展单元还可以用于:针对每个粗分类标签,如果其话题列表中话题与其他话题的共现次数超过预设比例,将该其他话题标签加入到话题列表中;根据话题树查找到话题列表中话题的子话题,加入到话题列表中;根据话题的语义向量之间的相似度进行对话题列表进行剪枝;和/或如果话题属于多个粗分类标签,根据该话题与所述多个粗分类标签的语义相似度和该话题与所述多个分类标签的话题树距离,选择所述多个粗分类标签之一。
在一个可能的实施例中,所述话题扩展单元还可以用于:通过对话题聚类得到话题簇;以及计算所述粗分类标签的话题列表与每个话题簇的相似度,将相似度大于第二阈值的话题簇作为扩展的候选簇。
在一个可能的实施例中,所述话题扩展单元还可以用于:计算所述候选簇内的每个话题与所有其他话题的语义向量的相似度,去除相似度小于第三阈值的话题;计算所述候选簇内的每个话题与所述粗分类标签的语义向量的相似度,去除相似度小于第四阈值的话题;去除所述粗分类标签对应话题在话题树上的同级和/或父级话题;去除话题的文本数超过所述粗分类的话题类别的文本总数的话题。
在一个可能的实施例中,所述细分类标签构建单元还可以用于,针对所述粗分类标签中一个:从所述文本中提取关键词,将关键词出现频度超过第五阈值的关键词作为第一候选标签;计算所述文本与其话题的匹配度,将匹配度超过第六阈值的话题作为第二候选标签;对所述文本的标题进行分词,得到的分词作为第三候选标签;根据第一候选标签、第二候选标签、第三候选标签,过滤掉停用词、粗分类标签、粗分类标签的同义词、粗分类标签的话题的父话题中的话题,形成所述粗分类标签的细分类标签候选集。
在一个可能的实施例中,细分类标签构建单元还可以用于:将所述细分类标签候选集中的每个候选标签进行向量化;对向量化的候选标签进行聚类并去除与中心点的相似度小于第七阈值的样本;统计每个簇出现次数最多的多个关键词,作为该簇的描述;使用关键词、簇的大小对聚类结果形成的簇进行剪枝。
在一个可能的实施例中,所述剪枝可以包括以下至少一项:删除文本数量小于第八阈值的簇;删除出现次数最多的关键词与簇的文本数之比小于第九阈值的簇;合并出现次数最多的关键词相同或作为簇的描述的关键词中有超过第十阈值的关键词相同的簇。
本发明使用与文本相关联的话题标签,自动构建由粗到细多粒度的文本分类体系,可支持不同场景下的应用需求,并且能够自动化地进行类别体系由粗到细的层级扩展。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1A和图1B示出了根据本发明实施例的典型的文本及其话题的示意图。
图2示出了根据本发明实施例的由话题形成的话题树的示意图。
图3示出了根据本发明实施例的构建文本分类体系的方法的示意流程图。
图4示出了根据本发明实施例的扩展话题列表的方法的示意流程图。
图5示出了根据本发明实施例的另一种扩展话题列表的方法的示意流程图。
图6示出了根据本发明实施例的构建文本分类体系的细分类标签的方法的示意流程图。
图7示出了根据本发明实施例的问题类型的文本及其回答的示意图。
图8示出了根据本发明实施例的一种构建文本分类体系的装置。
图9示出了用于实现本发明的实施例的电子设备的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
一个三级的文本分类体系中,一级标签作为一个粗粒度标签来对全站内容进行领域的归档整合作用,方便观察与分析站内内容的整体分布情况。二级标签作为相对一级粒度细一些的标签,起到区分每个领域主要的细分方向的作用。三级标签作为这个体系下最小的粒度,主要起到对文本细节信息进行刻画的作用,比如,同为小说,到底是武侠小说还是言情小说,这种维度的信息都会在三级标签上进行刻画。
在知乎的业务场景中,文本(例如,问题标题、问题描述、回答) 具有用户或管理员编辑的元信息(例如,话题),其反映出文本的上位概念,是较为准确的先验信息,这种元信息本身蕴含着可以用于文本分类的概念信息。然而,现有技术的文本分类方法通常直接从文本本身,比如使用文本的语义向量来产生文本的分类标签,忽略了与文本相关的元信息,导致分类结果不理想,尤其在多层级分类体系下分类结果较差。
图1A和图1B示出了根据本发明实施例的典型的文本及其话题的示意图。参照图1A,文本可以包括问题、该问题的描述、以及与该问题相关联的话题。例如,对于图1A的问题“信仰是什么?人活着需要信仰吗?为什么呢?”,有多个话题与其相关联,比如心理学、哲学、人生、信仰、宗教等。根据本发明实施例,这些话题蕴含着与问题相关联概念,而这些概念之间天然地具有上下位关系,也就是说,与问题相关的话题在文本分类方面上是有价值的。参照图1B,替换地,一些问题可以只有标题,没有具体的描述。
图2示出了根据本发明实施例的由话题形成的话题树的示意图。知乎的全部话题通过父子关系构成一个有根无循环的有向图,其中,根话题即为所有话题的最上层的父话题,父话题是一个完全包括该话题的更大的话题,子话题是一个完全隶属于该话题的细分话题。参照图2,可以看出,知乎站内的话题树深度越来越深,而且话题之间的关系越来越复杂,因而话题本身不适合作为分类标签。
图3示出了根据本发明实施例的构建文本分类体系的方法300的示意流程图。
在步骤310,构建所述文本分类系统的粗分类标签,所述粗分类标签由话题形成并且具有话题列表。在该步骤,使用文本的话题来构建文本分类体系的粗分类标签。
通常,文本分类体系的一二级分类整体的定位是偏粗粒度的标签,应起到一定的聚合作用,因此在设计一二级类别体系,以及挖掘一二级类别的训练数据时,以文本的话题粒度为基准进行,可以认为一个相对粗粒度的一二级标签代表的概念是由一系列话题组合而成,即粗分类标签可以直接由话题形成。
例如,可以根据话题形成的话题树,构建文本分类体系的粗分类标签,比如,从话题树中选择子自身及其子话题的文本数量超过第一阈值 (例如10000)的话题作为粗分类标签,并且所形成的粗分类标签具有相应的话题列表,话题列表初始化为包括该粗分类标签的所有子话题。
根据本发明实施例,设置了话题列表,可以扩展粗分类标签涵盖的文本,提供更为广泛和精确的细分类标签以及更多的训练数据。
然后,在步骤320,扩展粗分类标签的话题列表。
图4示出了根据本发明实施例的扩展话题列表的方法400的示意流程图。根据本发明实施例,可以通过话题的共现关系以及话题语义向量 (embedding)来扩展步骤310设定的粗分类标签的话题列表。
针对每个粗分类标签,方法400包括:步骤410,判断话题列表中话题与其他话题的共现次数是否超过预设比例,如果是,则在步骤420,将其他话题标签加入到话题列表中,否则,前进到步骤430。换句话说,统计话题列表中每个话题t1与其他话题tx的共现次数Ct1tx,将满足 Ct1tx/Ct1>β的话题tx加入对应的话题列表中,优选β>0.5。例如,对于 100条与宗教话题有关的问题,话题“宗教”与“基督教”共同出现了 60次,则60/100=0.6,则可以将基督教加入宗教的话题列表中。话题“宗教”与“足球”共现了1次,则不进行操作。
在步骤430,根据话题树查找到话题列表中话题的子话题,加入到话题列表中。例如,对于步骤410得到的每个类别根据话题树得到的扩展话题列表,根据话题树的关系,找到话题列表中每个话题3层以内的子话题,加入对应的话题列表。
在步骤440,根据话题的语义向量之间的相似度进行对话题列表进行剪枝。例如,通过话题语义向量(embedding)的相似度进行剪枝,比如计算话题向量化后的余弦相似度。
在步骤450,判断话题是否属于多个粗分类标签,如果是,则前进到步骤460,根据该话题与多个粗分类标签的语义相似度和该话题与多个分类标签的话题树距离,选择所述多个粗分类标签之一,否则,结束方法400。例如,如果一个话题同属于多个标签C1、C2、C3...Cn,则计算1)话题到这几个标签分别的相似度,2)话题到与在话题树上的相对层级距离,去除与这n个类别C1、C2、C3...平均相似度相差较多或话题树距离相对较远的类别对于该话题的关联关系;优选去除相似度小于 0.8,层级小于4层。
图5示出了根据本发明实施例的另一种扩展话题列表的方法500的示意流程图。
在步骤510,话题聚类得到话题簇。在一个实施例中,可以将知乎全站内的所有话题进行聚类(优选kmeans),得到了约3000个话题簇。
在步骤520,计算粗分类标签的话题列表与每个话题簇的相似度,将相似度大于第二阈值的话题簇作为扩展的候选簇。在一个实施例中,通过步骤310得到的每个标签对应的话题列表与每个话题簇计算余弦相似度,取相似度>0.8(优先)的簇作为扩展候选簇。
在步骤530,去除候选簇中与簇或类别不相似的话题。在一个实施例中,可以按照以下至少一项的方法去除不相似的话题:
·计算候选簇内的每个话题与所有其他话题的语义向量的相似度 (例如,余弦相似度),去除相似度较小(优选<0.5)的话题;
·计算候选簇内的每个话题与当前粗分类标签的语义向量的相似度,去除相似度较小(优选<0.6)的话题;
·去除粗分类标签对应话题在话题树上的同级和/或父级话题;
·去除话题的文本数超过所述粗分类的话题类别的文本总数的话题。例如,例如,某话题中问题数是10000,待扩展的候选标签是哲学,其中的问题数有20000个,说明哲学是其上位概念,不是粒度更细的标签,则去掉哲学。
返回图3,构成文本分类体系的方法300还包括步骤330,基于扩展的话题列表,构建粗分类标签的细分类标签。
三级分类整体被定位为相对细粒度的标签,能够触达到一个核心概念的最小基元,比如对应粗分类的一二级类别“人文-阅读”,三级标签应该能达到“小说”这一粒度。因此,基于话题来做便显得不太合适,因为站内话题的特点是小话题整体质量偏低(用户绑定内容量少、错误率高)。根据本发明实施例,对于三级标签的构建及训练数据的处理采用了对站内问题语义信息进行聚类的方式来进行。
根据本发明实施例,通过在步骤310和320挖掘出的一二级分类标签及其话题列表,每次只对一个二级标签中的问题进行聚类,从而将原始问题,化简为n个子问题。例如,二级标签一共有10000个,每次对其中的1个标签中的问题进行如下步骤的操作,循环10000次,处理完毕。
图6示出了根据本发明实施例的构建文本分类体系的细分类标签的方法的示意流程图。
在步骤610,产生粗分类标签的细分类标签候选集。对于每一个二级类别下的全部问题,由于问题本身为短文本,单纯依赖问题标题信息量不足,所以采用话题、问题对应的关键词来对问题本身的语义信息进行扩充。
根据本发明的实施例,对于问题类型的文本,细分类标签候选集中的候选标签可以来源于以下三部分:与问题相关联的回答、与问题相关联的话题、问题的标题的分词。
图7示出了根据本发明实施例的问题类型的文本及其回答的示意图。在一个实施例中,从文本(包含问题本身及其回答)中提取关键词,将关键词出现频度超过一定阈值的关键词作为第一候选标签。
例如,可以选取问题下点赞数>5(参见图7的左下角的点赞数)的回答,作为集合Aset,对每个回答分别进行关键词抽取(优先词频-逆文档排序tf-idf),计算Aset中每个关键词出现的回答数,取关键词对应回答数/Count(Aset)>0.5的关键词。例如:Aset共有100个回答,其中tf-idf操作之后,关键词“报应”出现在60个回答中,则60/100=0.6,则“报应”入选最终的关键词。
还可以从与问题相关联的话题提取关键词。在一个实施例中,可以通过话题匹配服务计算问题与话题的匹配程度,取匹配度>0.8的话题。例如,可以按照申请号为201910199607.X(公开号CN109948160A)的在先申请计算短文本(问题)与标签(话题)的方法来计算文本与话题的匹配程度。然而,本领域技术人员应理解,其他相似度算法,例如预先相似度也可以。由此获取的话题作为第二候选标签。
另外,对问题文本的标题进行分词,得到的分词作为第三候选标签。
在一个实施例中,将上述得到的第一候选标签、第二候选标签、第三候选标签的关键词合并,对问题采用词袋向量表示(优先onehot编码)。
然后,将以上得到的关键词过滤掉停用词、粗分类标签名(一二级分类)以及粗分类标签名对应的同义词、粗分类标签对应话题的父话题集中所有话题名(主要是为了避免宽泛词的影响产生粒度过粗的簇)得到最终的语义信息,形成所述粗分类标签的细分类标签候选集。
然后,在步骤620,将细分类标签候选集形成的词袋采用tf-idf进行向量表示;
在步骤630,对向量化的候选标签进行聚类并去除与中心点的相似度较小的样本。例如,对聚类结果中的每个簇进行过滤,去除与中心点余弦相似度<0.5的样本。
在步骤640,统计每个簇出现次数最多的多个关键词,作为该簇的描述。在一个实施例中,可以对步骤630的过滤后的每个簇中的每个问题计算关键词,统计每个簇出现次数最多的5个关键词,作为该簇的描述。
在步骤650,使用关键词、簇的大小对聚类结果形成的簇进行剪枝。在一个实施例中,剪枝可以包括以下至少一项:
·删除问题数<100的簇;
·删除top1关键词出现次数/簇对应问题数<0.3的簇;
·合并top1关键词相同或top5关键词有超过3个相同的簇。注意,计算关键词是否相同时根据同义词词典进行扩展,两个关键词如果是同义词也视为是相同关键词。
基于以上步骤610至650,可以从粗分离标签的数据中挖掘出相应的细分类标签。需要注意的是,通过这种方式挖掘的细分类标签及其训练数据是基于硬聚类算法实现的,即,一个文本只能聚类到一个类别。
根据本发明的实施例,能够自动构建由粗到细多粒度的分类体系,以支持不同场景下的应用需求,并且本发明的可扩展性强,尽管在实施例中示出了具有一二三级标签的分类体系,但实际如果数据支持可以扩展出更多标签。
图8示出了根据本发明实施例的一种构建文本分类体系的装置,文本与话题相关联,所述装置包括:
粗分类标签构建单元810,用于构建所述文本分类系统的粗分类标签,所述粗分类标签由话题形成并且具有话题列表;
话题扩展单元820,用于扩展所述粗分类标签的话题列表;以及
细分类标签构建单元830,用于基于所述扩展的话题列表,构建所述粗分类标签的细分类标签,所述细分类标签的至少一部分由所述文本的关键词形成。
根据本发明的实施例,粗分类标签构建单元810、话题扩展单元820、细分类标签构建单元830可以分别用于实现以上参照图3至6描述的方法步骤。
在一个可能的实施例中,话题形成话题树,所述粗分类标签基于所述话题树形成,与所述粗分类标签相关联的文本的总数超过第一阈值。
在一个可能的实施例中,所述话题扩展单元还可以用于:针对每个粗分类标签,如果其话题列表中话题与其他话题的共现次数超过预设比例,将该其他话题标签加入到话题列表中;根据话题树查找到话题列表中话题的子话题,加入到话题列表中;根据话题的语义向量之间的相似度进行对话题列表进行剪枝;和/或如果话题属于多个粗分类标签,根据该话题与所述多个粗分类标签的语义相似度和该话题与所述多个分类标签的话题树距离,选择所述多个粗分类标签之一。
在一个可能的实施例中,所述话题扩展单元还可以用于:通过对话题聚类得到话题簇;以及计算所述粗分类标签的话题列表与每个话题簇的相似度,将相似度大于第二阈值的话题簇作为扩展的候选簇。
在一个可能的实施例中,所述话题扩展单元还可以用于:计算所述候选簇内的每个话题与所有其他话题的语义向量的相似度,去除相似度小于第三阈值的话题;计算所述候选簇内的每个话题与所述粗分类标签的语义向量的相似度,去除相似度小于第四阈值的话题;去除所述粗分类标签对应话题在话题树上的同级和/或父级话题;去除话题的文本数超过所述粗分类的话题类别的文本总数的话题。
在一个可能的实施例中,所述细分类标签构建单元还可以用于,针对所述粗分类标签中一个:从所述文本中提取关键词,将关键词出现频度超过第五阈值的关键词作为第一候选标签;计算所述文本与其话题的匹配度,将匹配度超过第六阈值的话题作为第二候选标签;对所述文本的标题进行分词,得到的分词作为第三候选标签;根据第一候选标签、第二候选标签、第三候选标签,过滤掉停用词、粗分类标签、粗分类标签的同义词、粗分类标签的话题的父话题中的话题,形成所述粗分类标签的细分类标签候选集。
在一个可能的实施例中,细分类标签构建单元还可以用于:将所述细分类标签候选集中的每个候选标签进行向量化;对向量化的候选标签进行聚类并去除与中心点的相似度小于第七阈值的样本;统计每个簇出现次数最多的多个关键词,作为该簇的描述;使用关键词、簇的大小对聚类结果形成的簇进行剪枝。
在一个可能的实施例中,所述剪枝可以包括以下至少一项:删除文本数量小于第八阈值的簇;删除出现次数最多的关键词与簇的文本数之比小于第九阈值的簇;合并出现次数最多的关键词相同或作为簇的描述的关键词中有超过第十阈值的关键词相同的簇。
图9示出了用于实现本发明的实施例的电子设备的结构示意图。如图9所示,电子设备800包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903 中,还存储有电子设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,包括承载指令的在计算机可读介质,在这样的实施例中,该指令可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911 被安装。在该指令被中央处理单元(CPU)901执行时,执行本发明中描述的各个方法步骤。
尽管已经描述了示例实施例,但是对于本领域技术人员来说显而易见的是,在不脱离本发明构思的精神和范围的情况下,可以进行各种改变和修改。因此,应当理解,上述示例实施例不是限制性的,而是说明性的。
Claims (18)
1.一种构建文本分类体系的方法,其中文本与话题相关联,所述方法包括:
构建所述文本分类系统的粗分类标签,所述粗分类标签由话题形成并且每个粗分类标签具有话题列表;
扩展所述粗分类标签的话题列表;以及
基于所述扩展的话题列表,构建所述粗分类标签的细分类标签,所述细分类标签的至少一部分由与所述话题列表相关联的文本的关键词形成。
2.如权利要求1所述的方法,其中,所述话题形成话题树,所述粗分类标签基于所述话题树形成,并且与所述粗分类标签相关联的文本的总数超过第一阈值。
3.如权利要求2所述的方法,所述方法还包括扩展粗分类标签的话题列表,具体包括以下至少一项:
针对每个粗分类标签,如果其话题列表中话题与其他话题的共现次数超过预设比例,将该其他话题标签加入到话题列表中;
根据话题树查找到话题列表中话题的子话题,加入到话题列表中;
根据话题的语义向量之间的相似度进行对话题列表进行剪枝;和/或
如果话题属于多个粗分类标签,根据该话题与所述多个粗分类标签的语义相似度和该话题与所述多个分类标签的话题树距离,选择所述多个粗分类标签之一。
4.如权利要求2所述的方法,所述方法还包括扩展所述粗分类标签,具体包括:
通过对话题聚类得到话题簇;以及
计算所述粗分类标签的话题列表与每个话题簇的相似度,将相似度大于第二阈值的话题簇作为扩展的候选簇。
5.如权利要求4所述的方法,还包括去除所述候选簇中的不相似话题,包括以下至少一项:
计算所述候选簇内的每个话题与所有其他话题的语义向量的相似度,去除相似度小于第三阈值的话题;
计算所述候选簇内的每个话题与所述粗分类标签的语义向量的相似度,去除相似度小于第四阈值的话题;
去除所述粗分类标签对应话题在话题树上的同级和/或父级话题;
去除话题的文本数超过所述粗分类的话题类别的文本总数的话题。
6.如权利要求1所述方法,其中,所述构建所述文本分类系统的细分类标签,具体包括,针对所述粗分类标签中一个:
从所述文本中提取关键词,将关键词出现频度超过第五阈值的关键词作为第一候选标签;
计算所述文本与其话题的匹配度,将匹配度超过第六阈值的话题作为第二候选标签;
对所述文本的标题进行分词,得到的分词作为第三候选标签;
根据第一候选标签、第二候选标签、第三候选标签,过滤掉停用词、粗分类标签、粗分类标签的同义词、粗分类标签的话题的父话题中的话题,形成所述粗分类标签的细分类标签候选集。
7.如权利要求6所述的方法,还包括
将所述细分类标签候选集中的每个候选标签进行向量化:
对向量化的候选标签进行聚类并去除与中心点的相似度小于第七阈值的样本;
统计每个簇出现次数最多的多个关键词,作为该簇的描述;
使用关键词、簇的大小对聚类结果形成的簇进行剪枝。
8.如权利要求7所述方法,所述剪枝包括以下至少一项:
删除文本数量小于第八阈值的簇;
删除出现次数最多的关键词与簇的文本数之比小于第九阈值的簇;
合并出现次数最多的关键词相同或作为簇的描述的关键词中有超过第十阈值的关键词相同的簇。
9.一种构建文本分类体系的装置,其中文本与话题相关联,所述装置包括:
粗分类标签构建单元,用于构建所述文本分类系统的粗分类标签,所述粗分类标签由话题形成并且每个粗分类标签具有话题列表;
话题扩展单元,用于扩展所述粗分类标签的话题列表;以及
细分类标签构建单元,用于基于所述扩展的话题列表,构建所述粗分类标签的细分类标签,所述细分类标签的至少一部分由与所述话题列表相关联的文本的关键词形成。
10.如权利要求9所述的装置,其中,所述话题形成话题树,所述粗分类标签基于所述话题树形成,并且与所述粗分类标签相关联的文本的总数超过第一阈值。
11.如权利要求10所述的装置,所述话题扩展单元还用于:
针对每个粗分类标签,如果其话题列表中话题与其他话题的共现次数超过预设比例,将该其他话题标签加入到话题列表中;
根据话题树查找到话题列表中话题的子话题,加入到话题列表中;
根据话题的语义向量之间的相似度进行对话题列表进行剪枝;和/或
如果话题属于多个粗分类标签,根据该话题与所述多个粗分类标签的语义相似度和该话题与所述多个分类标签的话题树距离,选择所述多个粗分类标签之一。
12.如权利要求10所述的装置,所述话题扩展单元还用于:
通过对话题聚类得到话题簇;以及
计算所述粗分类标签的话题列表与每个话题簇的相似度,将相似度大于第二阈值的话题簇作为扩展的候选簇。
13.如权利要求12所述的装置,所述话题扩展单元还用于:
计算所述候选簇内的每个话题与所有其他话题的语义向量的相似度,去除相似度小于第三阈值的话题;
计算所述候选簇内的每个话题与所述粗分类标签的语义向量的相似度,去除相似度小于第四阈值的话题;
去除所述粗分类标签对应话题在话题树上的同级和/或父级话题;
去除话题的文本数超过所述粗分类的话题类别的文本总数的话题。
14.如权利要求9所述装置,其中,细分类标签构建单元还用于,针对所述粗分类标签中一个:
从所述文本中提取关键词,将关键词出现频度超过第五阈值的关键词作为第一候选标签;
计算所述文本与其话题的匹配度,将匹配度超过第六阈值的话题作为第二候选标签;
对所述文本的标题进行分词,得到的分词作为第三候选标签;
根据第一候选标签、第二候选标签、第三候选标签,过滤掉停用词、粗分类标签、粗分类标签的同义词、粗分类标签的话题的父话题中的话题,形成所述粗分类标签的细分类标签候选集。
15.如权利要求14所述的方法,细分类标签构建单元还用于:
将所述细分类标签候选集中的每个候选标签进行向量化;
对向量化的候选标签进行聚类并去除与中心点的相似度小于第七阈值的样本;
统计每个簇出现次数最多的多个关键词,作为该簇的描述;
使用关键词、簇的大小对聚类结果形成的簇进行剪枝。
16.如权利要求15所述装置,所述剪枝包括以下至少一项:
删除文本数量小于第八阈值的簇;
删除出现次数最多的关键词与簇的文本数之比小于第九阈值的簇;
合并出现次数最多的关键词相同或作为簇的描述的关键词中有超过第十阈值的关键词相同的簇。
17.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至8中任一项所述的方法。
18.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010189600.2A CN111353045B (zh) | 2020-03-18 | 2020-03-18 | 构建文本分类体系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010189600.2A CN111353045B (zh) | 2020-03-18 | 2020-03-18 | 构建文本分类体系的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353045A true CN111353045A (zh) | 2020-06-30 |
CN111353045B CN111353045B (zh) | 2023-12-22 |
Family
ID=71196302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010189600.2A Active CN111353045B (zh) | 2020-03-18 | 2020-03-18 | 构建文本分类体系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353045B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487186A (zh) * | 2020-11-27 | 2021-03-12 | 上海浦东发展银行股份有限公司 | 一种人人对话日志分析方法、系统、设备及存储介质 |
CN113595886A (zh) * | 2021-07-29 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 即时通讯消息的处理方法、装置、电子设备及存储介质 |
CN113779243A (zh) * | 2021-08-16 | 2021-12-10 | 深圳市世强元件网络有限公司 | 一种商品自动分类方法、装置及计算机设备 |
CN117725515A (zh) * | 2024-02-07 | 2024-03-19 | 北京肿瘤医院(北京大学肿瘤医院) | 一种药物临床试验质量分类方法、系统、存储介质及产品 |
CN117725515B (zh) * | 2024-02-07 | 2024-06-07 | 北京肿瘤医院(北京大学肿瘤医院) | 一种药物临床试验质量分类方法、系统、存储介质及产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002048911A1 (en) * | 2000-12-17 | 2002-06-20 | Gammasite Inc. | A system and method for multi-class multi-label hierachical categorization |
US8805845B1 (en) * | 2013-07-31 | 2014-08-12 | LinedIn Corporation | Framework for large-scale multi-label classification |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
-
2020
- 2020-03-18 CN CN202010189600.2A patent/CN111353045B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002048911A1 (en) * | 2000-12-17 | 2002-06-20 | Gammasite Inc. | A system and method for multi-class multi-label hierachical categorization |
US8805845B1 (en) * | 2013-07-31 | 2014-08-12 | LinedIn Corporation | Framework for large-scale multi-label classification |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
CN109783818A (zh) * | 2019-01-17 | 2019-05-21 | 上海三零卫士信息安全有限公司 | 一种企业行业多标签分类方法 |
Non-Patent Citations (1)
Title |
---|
杜晓燕: "基于松弛策略的文本层次分类体系构建与分类方法研究" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487186A (zh) * | 2020-11-27 | 2021-03-12 | 上海浦东发展银行股份有限公司 | 一种人人对话日志分析方法、系统、设备及存储介质 |
CN113595886A (zh) * | 2021-07-29 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 即时通讯消息的处理方法、装置、电子设备及存储介质 |
CN113779243A (zh) * | 2021-08-16 | 2021-12-10 | 深圳市世强元件网络有限公司 | 一种商品自动分类方法、装置及计算机设备 |
CN117725515A (zh) * | 2024-02-07 | 2024-03-19 | 北京肿瘤医院(北京大学肿瘤医院) | 一种药物临床试验质量分类方法、系统、存储介质及产品 |
CN117725515B (zh) * | 2024-02-07 | 2024-06-07 | 北京肿瘤医院(北京大学肿瘤医院) | 一种药物临床试验质量分类方法、系统、存储介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111353045B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107944480B (zh) | 一种企业行业分类方法 | |
CN108399228B (zh) | 文章分类方法、装置、计算机设备及存储介质 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN108710611B (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN111353045A (zh) | 构建文本分类体系的方法 | |
CN109558533B (zh) | 一种基于多重聚类的个性化内容推荐方法及装置 | |
US10515267B2 (en) | Author identification based on functional summarization | |
CN112256842B (zh) | 用于文本聚类的方法、电子设备和存储介质 | |
CN106156163B (zh) | 文本分类方法以及装置 | |
Karthikeyan et al. | Probability based document clustering and image clustering using content-based image retrieval | |
JP2018501579A (ja) | 画像の内容の意味表現 | |
CN101877064A (zh) | 图像分类方法及图像分类装置 | |
CN109791570B (zh) | 高效且精确的命名实体识别方法和装置 | |
US11886515B2 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN111178079A (zh) | 一种三元组抽取方法及装置 | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
CN115115049A (zh) | 神经网络模型的训练方法、装置、设备、介质及程序产品 | |
CN114036907A (zh) | 一种基于领域特征的文本数据扩增方法 | |
CN113934848A (zh) | 一种数据分类方法、装置和电子设备 | |
CN108536666A (zh) | 一种短文本信息提取方法和装置 | |
CN112528021B (zh) | 一种模型训练方法、模型训练装置及智能设备 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN113378557B (zh) | 一种基于容错粗糙集的自动关键字提取方法、介质及系统 | |
KR20070118154A (ko) | 정보 처리 장치 및 방법, 및 프로그램 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |